CN110275938B

CN110275938B - 基于非结构化文档的知识提取方法及系统

Info

Publication number: CN110275938B
Application number: CN201910455327.0A
Authority: CN
Inventors: 黄志春; 张定国; 谢海涛; 陈育翔; 伍宇文
Original assignee: Guangzhou Weihong Intelligent Technology Co ltd
Current assignee: Guangzhou Weihong Intelligent Technology Co ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-09-17
Anticipated expiration: 2039-05-29
Also published as: CN110275938A

Abstract

本发明公开了基于非结构化文档的知识提取方法及系统，包括如下步骤，建立随机森林模型、导入非结构化文档、BERT处理、样本导入、展示提取的知识、对随机森林模型进行补充和修正，本发明结构科学合理，使用安全方便，通过BERT对非结构化文档进行预处理，通过双向特征，筛出词义准确的字词，保证知识提取的准确性，同时将决策后的知识字词进行展示，通过分为三类，便于使用者更准确了解非结构化文档的关键信息和次要信息，提高随机森林模型对非结构化文档字词的提取，同时数据存储内部存储有和字词相关的知识文档，并将提取的字词与字词相关的知识文档链接，通过点击字词能快速了解字词相关知识，提高对非结构化文档的了解。

Description

基于非结构化文档的知识提取方法及系统

技术领域

本发明涉及知识提取技术领域，具体为基于非结构化文档的知识提取方法及系统。

背景技术

非结构化文档是文本结构不规则或不完整，没有预定义的框架，因此在阅读和整理时需要对非结构化文档的知识进行提取，提高使用者观看非结构化文档的便捷；

但是现有的非结构化文档的知识提取时，通过简单的算法对自然语言进行处理，其局限性较大，无法根据上下文分解词义，容易出现字词歧义的现象，进一步造成知识提取时出现偏差，因此人们急需一种基于非结构化文档的知识提取方法及系统来解决上述问题。

发明内容

本发明提供基于非结构化文档的知识提取方法及系统，可以有效解决上述背景技术中提出的等问题。

为实现上述目的，本发明提供如下技术方案：基于非结构化文档的知识提取方法，包括如下步骤：

S1、建立随机森林模型；

S2、导入非结构化文档；

S3、BERT处理；

S4、样本导入；

S5、展示提取的知识；

S6、对随机森林模型进行补充和修正。

根据上述技术方案，所述步骤S1中，建立随机森林模型具体为设定特征数值为Z个，导入训练集，通过Z个特征对字词进行决策，创建决策树选取符合特征的字词。

根据上述技术方案，所述步骤S3中，BERT是基于Transformer 的双向编码器表征，其根基就是Transformer，其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义，将非结构化文档的文字转化为准确且无歧义的词语和字，并将词语或字的总数值记为M。

根据上述技术方案，所述步骤S4中，具体包括如下步骤：

（1）、将BERT处理后的M个字词导入到随机森林模型；

（2）、设定数值N，N为样本字词导入个数,且N小于M；

（3）、设定数值Y，Y为样本的决策特征，且Y小于Z；

（4）、设定数值X，X为决策树数量；

（5）、从M个字词中选取N个样本字词；

（6）、N个样本字词分别随机选定Y个筛选特征进行创建决策树；

（7）、决策树数量是否大于X，否则返回（6）；

（8）、样本字词在X个决策树的选取情况，输出提取的知识词语。

根据上述技术方案，所述步骤（8）中在X个决策树中，单个样本字词决策后被选取数值记为K，若K处于0-0.4X之间记为被否决字词，若K处于0.4X-0.7X之间记为次展示字词，若K处于0.7X-X之间记为展示字词。

根据上述技术方案，所述步骤S5中，将展示字词和次展示字词图标向使用者展示，并将展示字词和次展示字词图标均设置为超链接形式，点击展示字词，将数据库内该展示字词相关知识显示给使用者观看阅读，点击次展示字词图标，切换展示页面，使得次展示字词箱使用者展示，并将次展示字词设置为超链接形式，点击次展示字词，将数据库内该次展示字词相关知识显示给使用者观看阅读。

根据上述技术方案，所述步骤S6中，将展示字词和次展示字词中出现的决策错误同义词进行修改，并对随机森林模型中的特征进行补充完善。

根据上述技术方案，基于非结构化文档的知识提取系统，所述基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块；所述数据模块包括数据存储、数据修改和数据联网，所述采集模块包括网络文档导入和本地文档导入，所述处理模块包括BERT处理和决策树处理，所述执行模块包括显示屏展示和投影展示；

所述采集模块、处理模块和执行模块三者均与数据模块连接，所述采集模块输出端与处理模块输入端相连接，所述处理模块输出端与执行模块输入端相连接。

根据上述技术方案，所述采集模块包括网络文档导入和本地文档导入，所述网络文档导入是指将网络云端存储的文档导入至BERT处理区域，所述本地文档导入包括计算机硬盘存储文档和U盘存储文档，并将文档导入至BERT处理区域；

所述处理模块包括BERT处理和决策树处理，所述BERT处理是指将输入的非结构文档译成单独的字词，所述决策树处理是将单独的字词通过随机森林模型进行决策输出。

根据上述技术方案，所述数据模块包括数据存储、数据修改和数据联网，所述数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储，所述数据修改是随机森林模型的筛选特征进行修改，减少提取时同义词错误，所述数据联网使对数据存储内的数据联网更新，以保证系统正常的运行和准确的知识词语对应文档；

所述执行模块包括显示屏展示和投影展示，所述显示屏展示是通过计算机显示屏向使用者展示提取的知识词语，供少量使用者交流观看，所述投影展示是指通过投影机将显示屏内容投影至幕布，供多位使用者同时观看交流，所述执行模块中展示的知识词语设置为超链接，提取的知识词语与数据存储中存储的知识词语相关文档相链接，点击展示的知识词语，获取相应的知识词语相关文档。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便：通过BERT对非结构化文档进行预处理，通过双向特征，筛出词义准确的字词，保证知识提取的准确性，同时将决策后的知识字词进行展示，通过分为三类，便于使用者更准确了解非结构化文档的关键信息和次要信息，提高随机森林模型对非结构化文档字词的提取，同时数据存储内部存储有和字词相关的知识文档，并将提取的字词与字词相关的知识文档链接，通过点击字词能快速了解字词相关知识，提高对非结构化文档的了解，同时网络文档导入和本地文档导入便于使用者更便捷的将非结构化文档导入并进行处理，并通过显示屏和投影，便于选择少数人和多数人两者模式进行更换观看，便于不同人数的使用人群。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的方法步骤图；

图2是本发明样本导入的流程图；

图3是本发明的系统框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1-3 所示，本发明提供一种技术方案，基于非结构化文档的知识提取方法，包括如下步骤：

S1、建立随机森林模型；

S2、导入非结构化文档；

S3、BERT处理；

S4、样本导入；

S5、展示提取的知识；

S6、对随机森林模型进行补充和修正。

根据上述技术方案，步骤S1中，建立随机森林模型具体为设定特征数值为Z个，导入训练集，通过Z个特征对字词进行决策，创建决策树选取符合特征的字词。

根据上述技术方案，步骤S3中，BERT是基于Transformer 的双向编码器表征，其根基就是Transformer，其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义，将非结构化文档的文字转化为准确且无歧义的词语和字，并将词语或字的总数值记为M。

根据上述技术方案，步骤S4中，具体包括如下步骤：

（1）、将BERT处理后的M个字词导入到随机森林模型；

（2）、设定数值N，N为样本字词导入个数,且N小于M；

（3）、设定数值Y，Y为样本的决策特征，且Y小于Z；

（4）、设定数值X，X为决策树数量；

（5）、从M个字词中选取N个样本字词；

（7）、决策树数量是否大于X，否则返回（6）；

根据上述技术方案，步骤（8）中在X个决策树中，单个样本字词决策后被选取数值记为K，若K处于0-0.4X之间记为被否决字词，若K处于0.4X-0.7X之间记为次展示字词，若K处于0.7X-X之间记为展示字词。

根据上述技术方案，步骤S5中，将展示字词和次展示字词图标向使用者展示，并将展示字词和次展示字词图标均设置为超链接形式，点击展示字词，将数据库内该展示字词相关知识显示给使用者观看阅读，点击次展示字词图标，切换展示页面，使得次展示字词箱使用者展示，并将次展示字词设置为超链接形式，点击次展示字词，将数据库内该次展示字词相关知识显示给使用者观看阅读。

根据上述技术方案，步骤S6中，将展示字词和次展示字词中出现的决策错误同义词进行修改，并对随机森林模型中的特征进行补充完善。

根据上述技术方案，基于非结构化文档的知识提取系统，基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块；数据模块包括数据存储、数据修改和数据联网，采集模块包括网络文档导入和本地文档导入，处理模块包括BERT处理和决策树处理，执行模块包括显示屏展示和投影展示；

采集模块、处理模块和执行模块三者均与数据模块连接，采集模块输出端与处理模块输入端相连接，处理模块输出端与执行模块输入端相连接。

根据上述技术方案，采集模块包括网络文档导入和本地文档导入，网络文档导入是指将网络云端存储的文档导入至BERT处理区域，本地文档导入包括计算机硬盘存储文档和U盘存储文档，并将文档导入至BERT处理区域；

处理模块包括BERT处理和决策树处理，BERT处理是指将输入的非结构文档译成单独的字词，决策树处理是将单独的字词通过随机森林模型进行决策输出。

根据上述技术方案，数据模块包括数据存储、数据修改和数据联网，数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储，数据修改是随机森林模型的筛选特征进行修改，减少提取时同义词错误，数据联网使对数据存储内的数据联网更新，以保证系统正常的运行和准确的知识词语对应文档；

执行模块包括显示屏展示和投影展示，显示屏展示是通过计算机显示屏向使用者展示提取的知识词语，供少量使用者交流观看，投影展示是指通过投影机将显示屏内容投影至幕布，供多位使用者同时观看交流，执行模块中展示的知识词语设置为超链接，提取的知识词语与数据存储中存储的知识词语相关文档相链接，点击展示的知识词语，获取相应的知识词语相关文档；

本发明的工作原理及使用流程：通过BERT对非结构化文档进行预处理，通过双向特征，筛出词义准确的字词，保证知识提取的准确性，同时将决策后的知识字词进行展示，通过分为三类，便于使用者更准确了解非结构化文档的关键信息和次要信息，提高随机森林模型对非结构化文档字词的提取，同时数据存储内部存储有和字词相关的知识文档，并将提取的字词与字词相关的知识文档链接，通过点击字词能快速了解字词相关知识，提高对非结构化文档的了解，同时网络文档导入和本地文档导入便于使用者更便捷的将非结构化文档导入并进行处理，并通过显示屏和投影，便于选择少数人和多数人两者模式进行更换观看，便于不同人数的使用人群。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于非结构化文档的知识提取方法，其特征在于：包括如下步骤：

S1、建立随机森林模型；

S2、导入非结构化文档；

S3、BERT处理；

S4、样本导入；

S5、展示提取的知识；

S6、对随机森林模型进行补充和修正；

所述步骤S4中，具体包括如下步骤：

（1）、将BERT处理后的M个字词导入到随机森林模型；

（2）、设定数值N，N为样本字词导入个数,且N小于M；

（3）、设定数值Y，Y为样本的决策特征，且Y小于Z；

（4）、设定数值X，X为决策树数量；

（5）、从M个字词中选取N个样本字词；

（7）、决策树数量是否大于X，否则返回（6）；

（8）、样本字词在X个决策树的选取情况，输出提取的知识词语；

所述步骤（8）中在X个决策树中，单个样本字词决策后被选取数值记为K，若K处于0-0.4X之间记为被否决字词，若K处于0.4X-0.7X之间记为次展示字词，若K处于0.7X-X之间记为展示字词。

2.根据权利要求1所述的基于非结构化文档的知识提取方法，其特征在于：所述步骤S1中，建立随机森林模型具体为设定特征数值为Z个，导入训练集，通过Z个特征对字词进行决策，创建决策树选取符合特征的字词。

3.根据权利要求1所述的基于非结构化文档的知识提取方法，其特征在于：所述步骤S3中，BERT是基于Transformer 的双向编码器表征，其根基就是Transformer，其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义，将非结构化文档的文字转化为准确且无歧义的词语和字，并将词语或字的总数值记为M。

4.根据权利要求1所述的基于非结构化文档的知识提取方法，其特征在于：所述步骤S5中，将展示字词和次展示字词图标向使用者展示，并将展示字词和次展示字词图标均设置为超链接形式，点击展示字词，将数据库内该展示字词相关知识显示给使用者观看阅读，点击次展示字词图标，切换展示页面，使得次展示字词箱使用者展示，并将次展示字词设置为超链接形式，点击次展示字词，将数据库内该次展示字词相关知识显示给使用者观看阅读。

5.根据权利要求1所述的基于非结构化文档的知识提取方法，其特征在于：所述步骤S6中，将展示字词和次展示字词中出现的决策错误同义词进行修改，并对随机森林模型中的特征进行补充完善。

6.根据权利要求1-5中任一项所述的基于非结构化文档的知识提取系统，其特征在于：所述基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块；所述数据模块包括数据存储、数据修改和数据联网，所述采集模块包括网络文档导入和本地文档导入，所述处理模块包括BERT处理和决策树处理，所述执行模块包括显示屏展示和投影展示；

7.根据权利要求6所述的基于非结构化文档的知识提取系统，其特征在于：所述采集模块包括网络文档导入和本地文档导入，所述网络文档导入是指将网络云端存储的文档导入至BERT处理区域，所述本地文档导入包括计算机硬盘存储文档和U盘存储文档，并将文档导入至BERT处理区域；

8.根据权利要求6所述的基于非结构化文档的知识提取系统，其特征在于：所述数据模块包括数据存储、数据修改和数据联网，所述数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储，所述数据修改是随机森林模型的筛选特征进行修改，减少提取时同义词错误，所述数据联网使对数据存储内的数据联网更新，以保证系统正常的运行和准确的知识词语对应文档；