CN111177301B

CN111177301B - 一种关键信息识别提取方法及系统

Info

Publication number: CN111177301B
Application number: CN201911176312.7A
Authority: CN
Inventors: 秦丞; 唐源磊; 贺渝镔; 殷军; 王杭; 颜丽渊; 田昊; 柏瑞; 刘姜钧泰; 李云冬
Original assignee: Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-05-26
Anticipated expiration: 2039-11-26
Also published as: CN111177301A

Abstract

本发明涉及一种关键信息识别提取方法及系统，属于信息处理技术领域。该方法首先获取用户选择的目标路径，解析文件夹结构并生成相应的标签树；遍历标签树的各个节点内容，在数据库中生成存储目录；对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本，将待分类样本与样本数据集中的每一个样本进行比较，获得样本距离；找到与待分类样本最为相近的K个样本，并获取这K个样本的标签；选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；然后按照样本分类对应的标签得到识别内容。通过本发明可以有效识别提取文件中的关键信息进行比较筛选存入数据库，大幅度提高文档管理效率。

Description

一种关键信息识别提取方法及系统

技术领域

本发明属于信息处理技术领域，具体涉及一种关键信息识别提取方法及系统。

背景技术

信息化项目的合同、发票、技术协议等关键资料的归档、查找过程中，主要存在以下问题：

1)由于目前信息化项目的合同、发票、技术协议等关键资料的归档主要是通过纸质、扫描件等方式进行归档和系统录入，平时的工作当中会经常对历史文档进行查询，通过检索纸质材料和非结构化数据会耗费大量的人力和时间。

2)目前由人工对信息化项目关键资料的内容进行纸质和非结构化数据存档管理，缺乏有效的技术工具手段支撑，工作任务繁重，人工操作耗时耗力，还可能存在漏查、误查等问题。

上述原因导致在信息化项目关键资料管理实际工作中存在效率不高、质量不优等问题，有时拖延了工作时间，甚至影响了项目工程进度。

OCR字符识别方法及系统，申请号201310752624.4，公开了该方法包括：对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串；计算识别的词串中子词串的数量；如果词串中子词串的数量大于2，则判断第1个子词串W1中字符的个数和第K个子词串WK中字符的个数是否小于预设值；如果 W1中字符的个数和/或WK中字符的个数小于预设值，则判断W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音；如果是，则判定W1和/或WK 为噪声并从词串中删除W1和/或WK以得到新的词串。根据该发明的实施例可提升对OCR识别的结果的OCR翻译的准确性。该方法存在如下缺点：1.识别速度较慢准确率不高，需要针对场景进行训练学习；2.手写体和印章无法识别；3. 无法根据用户需求提取指定的关键内容。

业务文档的公式信息提取方法及装置，申请号：201810085254.6，公开了该方法包括：获取第一序列，第一序列由业务文档生成，包括至少两个变量；获取第一标注序列，第一标注序列包括至少两个预设变量，第一标注序列对应第一标注表达式，第一标注表达式包括至少两个预设变量和至少两个预设变量之间的运算关系；如果第一序列与第一标注序列相匹配，则根据第一标注表达式及至少两个变量提取第一表达式，第一表达式包括至少两个变量和至少两个变量之间的运算关系，其中，至少两个变量之间的运算关系与第一标注表达式中的至少两个预设变量之间的运算关系相同。采用上述技术方案的提取方法可以有效提取出业务文档中的公式信息，尤其是隐含的用文本描述的公式信息。该方法存在如下缺点：1.无法满足实际应用要求，不能根据场景设置对应信息提取规则；2.不能对PDF、JPG、PNG等格式进行处理；3.没有对提取对象进行分类存储处理。

因此如何克服现有技术的不足是目前信息处理技术领域亟需解决的问题。

发明内容

本发明的目的是为了解决现有技术的不足，提供一种关键信息识别提取方法及系统，通过本发明可以有效识别提取文件中的关键信息进行比较筛选存入数据库，大幅度提高文档管理效率。

为实现上述目的，本发明采用的技术方案如下：

一种关键信息识别提取方法，包括如下步骤：

获取用户选择的目标路径，解析文件夹结构；

根据结构层级生成得到所述文件夹路径的标签树；

遍历标签树的各个节点内容，得到对应文件夹中的内容；

根据标签树的各个节点在数据库中生成存储目录；

对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本；

令数据库中含有一个样本数据集，样本数据集中每个样本带有标签，通过标签能够获取样本数据集中每一个样本的分类；

当获取到一个没有标签的待分类样本时，将待分类样本与样本数据集中的每一个样本进行比较；

假设待分类样本作为测试节点，初始化样本距离为无穷大；

从根节点开始搜索，计算当前节点与测试节点之间的距离；

若当前节点与测试节点之间的距离小于样本距离，则将当前节点与测试节点之间的距离赋值给样本距离；

确定当前节点的划分维度；利用当前结点的划分阈值向下搜索，若测试样本当前维的值小于当前节点阈值，则搜索左子树，否则，搜索右子树；

采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索，获得样本距离；

找到与待分类样本最为相近的K个样本，并获取这K个样本的标签；K不小于3；

选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；

然后按照样本分类对应的标签得到识别内容。

进一步，优选的是，所述的K为5。

本发明还提供一种关键信息识别提取装置，包括：

预处理模块，用于获取用户选择的目标路径，解析文件夹结构，根据结构层级生成得到所述文件夹路径的标签树；

待分类样本获取模块，用于遍历标签树的各个节点内容，得到对应文件夹中的内容，根据标签树的各个节点在数据库中生成存储目录，之后对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本；

样本距离获取模块，用于当获取到一个没有标签的待分类样本时，将待分类样本与样本数据集中的每一个样本进行比较；假设待分类样本作为测试节点，初始化样本距离为无穷大；从根节点开始搜索，计算当前节点与测试节点之间的距离；若当前节点与测试节点之间的距离小于样本距离，则将当前节点与测试节点之间的距离赋值给样本距离；确定当前节点的划分维度；利用当前结点的划分阈值向下搜索，若测试样本当前维的值小于当前节点阈值，则搜索左子树，否则，搜索右子树；采用递归的方式继续对确定搜索的左子树或右子树进行搜索，获得样本距离；

所述的数据库中含有一个样本数据集，样本数据集中每个样本带有标签，通过标签能够获取样本数据集中每一个样本的分类；

内容识别模块，用于找到与待分类样本最为相近的K个样本，并获取这K 个样本的标签；K不小于3，选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；然后按照样本分类对应的标签得到识别内容。

本发明同时提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述关键信息识别提取方法的步骤。

本发明另外提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述关键信息识别提取方法的步骤。

本发明与现有技术相比，其有益效果为：

(1)本发明能有效识别、提取文件中的关键信息、进行比较筛选存入数据库，能将非结构化关键项目资料的关键信息进行结构化整理和管理，能规范化项目资料的存档；

(2)本发明能让多人同时快速查找需要的项目合同、发票、技术协议等关键信息；

(3)本发明能降低在检索纸质材料和非结构化资料时耗费的人力和时间，降低工作量，系统方便实用，实现了信息精准查询，降低漏查、误差等问题，大幅度提高文档管理效率。

附图说明

图1为本发明关键信息识别提取装置的结构示意图；

图2为本发明电子设备的结构示意图；

图3为应用实例中待识别图片；

图4为应用实例中的识别结果。

具体实施方式

下面结合实施例对本发明作进一步的详细描述。

本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用材料或设备未注明生产厂商者，均为可以通过购买获得的常规产品。

一种关键信息识别提取方法，包括如下步骤：

获取用户选择的目标路径，解析文件夹结构；

根据结构层级生成得到所述文件夹路径的标签树；

遍历标签树的各个节点内容，得到对应文件夹中的内容；

根据标签树的各个节点在数据库中生成存储目录；

假设待分类样本作为测试节点，初始化样本距离为无穷大；

从根节点开始搜索，计算当前节点与测试节点之间的距离；

然后按照样本分类对应的标签得到识别内容。

优选，所述的K为5。

如图1所示，一种关键信息识别提取装置，包括：

预处理模块101，用于获取用户选择的目标路径，解析文件夹结构，根据结构层级生成得到所述文件夹路径的标签树；

待分类样本获取模块102，用于遍历标签树的各个节点内容，得到对应文件夹中的内容，根据标签树的各个节点在数据库中生成存储目录，之后对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本；

样本距离获取模块103，用于当获取到一个没有标签的待分类样本时，将待分类样本与样本数据集中的每一个样本进行比较；假设待分类样本作为测试节点，初始化样本距离为无穷大；从根节点开始搜索，计算当前节点与测试节点之间的距离；若当前节点与测试节点之间的距离小于样本距离，则将当前节点与测试节点之间的距离赋值给样本距离；确定当前节点的划分维度；利用当前结点的划分阈值向下搜索，若测试样本当前维的值小于当前节点阈值，则搜索左子树，否则，搜索右子树；采用递归的方式继续对确定搜索的左子树或右子树进行搜索，获得样本距离；

内容识别模块104，用于找到与待分类样本最为相近的K个样本，并获取这K个样本的标签；K不小于3，选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；然后按照样本分类对应的标签得到识别内容。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

一种电子设备，如图2所示，该电子设备可以包括：处理器(processor)20 1、通信接口(Communications Interface)202、存储器(memory)203和通信总线204，其中，处理器201，通信接口202，存储器203通过通信总线204完成相互间的通信。处理器201可以调用存储器203中的逻辑指令，以执行如下方法：获取用户选择的目标路径，解析文件夹结构；

根据结构层级生成得到所述文件夹路径的标签树；

遍历标签树的各个节点内容，得到对应文件夹中的内容；

根据标签树的各个节点在数据库中生成存储目录；

假设待分类样本作为测试节点，初始化样本距离为无穷大；

从根节点开始搜索，计算当前节点与测试节点之间的距离；

然后按照样本分类对应的标签得到识别内容。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read -Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的电网频率振荡的控制方法，例如包括：获取用户选择的目标路径，解析文件夹结构；

根据结构层级生成得到所述文件夹路径的标签树；

遍历标签树的各个节点内容，得到对应文件夹中的内容；

根据标签树的各个节点在数据库中生成存储目录；

假设待分类样本作为测试节点，初始化样本距离为无穷大；

从根节点开始搜索，计算当前节点与测试节点之间的距离；

然后按照样本分类对应的标签得到识别内容。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应用实例

采用本发明方法对图3(该图片来源于百度)所示内容进行识别，识别结果如图4所示。结果表明，本发明方法能有效识别、提取文件中的关键信息、进行比较筛选存入数据库，能将非结构化关键项目资料的关键信息进行结构化整理和管理，能规范化项目资料的存档。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种关键信息识别提取方法，其特征在于，包括如下步骤：

获取用户选择的目标路径，解析文件夹结构；

根据结构层级生成得到所述文件夹路径的标签树；

遍历标签树的各个节点内容，得到对应文件夹中的内容；

根据标签树的各个节点在数据库中生成存储目录；

假设待分类样本作为测试节点，初始化样本距离为无穷大；

从根节点开始搜索，计算当前节点与测试节点之间的距离；

然后按照样本分类对应的标签得到识别内容。

2.根据权利要求1所述的关键信息识别提取方法，其特征在于，所述的K为5。

3.一种关键信息识别提取装置，其特征在于，包括：

数据库中含有一个样本数据集，样本数据集中每个样本带有标签，通过标签能够获取样本数据集中每一个样本的分类；

内容识别模块，用于找到与待分类样本最为相近的K个样本，并获取这K个样本的标签；K不小于3，选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；然后按照样本分类对应的标签得到识别内容。

4.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2任一项所述关键信息识别提取方法的步骤。

5.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至2任一项所述关键信息识别提取方法的步骤。