CN109685056A

CN109685056A - 获取文档信息的方法及装置

Info

Publication number: CN109685056A
Application number: CN201910006489.6A
Authority: CN
Inventors: 高翔; 王江; 安怡; 李瀚清; 曾彦能; 赵业辉; 杨慧宇; 陈运文; 纪达麒
Original assignee: Information Technology (shanghai) Co Ltd
Current assignee: Daguan Data Co ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-04-26
Anticipated expiration: 2039-01-04
Also published as: CN109685056B

Abstract

本申请涉及一种基于序列标注以及学习模型的文档信息抽取方法及装置。该方法包括：对至少一种序列标注算法模型进行训练，以获取至少一种离线序列标注算法模型；确定离线序列标注算法模型中的每一种中的标注信息的准确率，将待处理的文档转换成文本文档；从所述待处理的文档中获取文档结构格式性质信息；将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息。本申请通过使用序列标注技术，可以对文档进行关键信息抽取。并且通过使用多模型融合技术，可以对文档中不同关键信息使用最优模型进行抽取。此外，本申请对字面抽取结果进行业务规则推理及计算，适用面更广。

Description

获取文档信息的方法及装置

技术领域

本申请涉及数据处理领域，具体的，涉及一种获取文档信息的方法及装置。

背景技术

自然语言处理（Natural Language Processing）简单来讲，就是让计算机能够理解人类语言的一种技术。自然语言处理的应用方向很多，包括文本分类、文本聚类、摘要抽取、情感分析、文本审核等应用，机器能够在一定程度上辅助甚至代替人来做某些文字相关工作。

在日常工作中，文档的编写、审核、评阅、修改比较常见，例如合同文书的订制编写修改，招投标书的编写审核，保险条款的抽取，证券公告的信息提取分析等。目前，在文字撰写工作上，NLP技术还有所欠缺，很多场景效果不是很好，例如，在一份文档中的不同位置包含很多关键信息，很多业务场景的第一步就是找到这些关键信息。有些文档较短、关键信息较为集中、文档格式内容比较单一时，关键信息相对容易查找。而对于文本内容较长、格式内容多样的文本，查找关键信息较为费时费力。例如债券募集书，通常都有几百页，内容多文档结构复杂，关键信息往往散落在文中不同位置，查找这些关键信息比较费时费力。

已有的一些方法能够进行一定程度的信息抽取，但已有的方法大多基于关键字查找、文本匹配、正则表达式等传统技术，效果不能够保证，往往由于实际业务预测样本文本表述丰富等原因，导致信息抽取功能效果较差，直接影响后续各个环节。

公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本申请的主要目的在于提供一种基于序列标注以及学习模型的文档信息抽取方法及装置。

为了解决上述问题，本申请涉及一种获取文档信息的方法，包括：

对至少一种序列标注算法模型进行训练，以获取至少一种离线序列标注算法模型；

确定离线序列标注算法模型中的每一种中的标注信息的准确率；并且，

所述方法还包括：

将待处理的文档转换成文本文档；

从所述待处理的文档中获取结构格式性质信息；

将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息。

进一步的，在获取该文档中的文档信息所对应的标注信息之后，所述方法还可以包括：针对每一种标注信息，依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。

进一步的，所述对至少一种序列标注算法模型进行训练，可以包括：将待训练的文档转换成文本文档，其中所述待训练的文档包括：word格式文档、PDF格式文档和/或图像格式文档；从待训练的文档中获取结构格式性质信息，其中，所述结构格式性质信息包括：位置信息、段落信息和表格信息；将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中，以获取经过训练的至少一种离线序列标注算法模型。

进一步的，所述序列标注算法模型可以包括：HMM模型、CRF模型和Deep Learning模型。

进一步的，所述结构格式性质信息可以包括：位置信息、段落信息和表格信息。

进一步的，所述依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息，包括，选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。

进一步的，如果所述待处理的文档为图像格式的文档，则将该文档进行OCR识别，以将识别后的文档转换成文本文档。

本申请还涉及一种获取文档信息的装置，包括：离线训练模块，用于对至少一种序列标注算法模型进行训练，以获取至少一种离线序列标注算法模型；还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率；文档转换模块，用于将待处理的文档转换成文本文档；从所述待处理的文档中获取结构格式性质信息；文档信息获取模块，用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息。

进一步的，所述文档信息获取模块还可以用于，针对每一种标注信息，依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。

此外，本申请还涉及一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。

本申请的有益效果是：本申请通过使用序列标注技术，可以对文档进行关键信息抽取。并且通过使用多模型融合技术，可以对文档中不同关键信息使用最优模型进行抽取。此外，本申请对字面抽取结果进行业务规则推理及计算，适用面更广。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的获取文档信息的方法的流程图；

图2是根据本申请实施例的文档转换过程的流程图；以及

图3是根据本申请实施例的获取文档信息的装置的方框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

此外，术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。其中，图1是根据本申请实施例的获取文档信息的方法的流程图，图2是根据本申请实施例的文档转换过程的流程图，图3是根据本申请实施例的获取文档信息的装置的方框图。

如图1所示，本申请涉及一种获取文档信息的方法，该方法包括以下步骤S1至步骤S8：

首先，在步骤S1，本申请对至少一种序列标注算法模型进行训练，以获取至少一种离线序列标注算法模型，使用机器学习序列标注模型及专家知识系统，将文档中的关键信息进行抽取。

本申请所涉及的序列标注模型算法包括但不限于：HMM（隐马尔可夫模型）、CRF（条件随机场）、Deep Learning（深度学习）模型等，此外，本申请可以集成上述的一种或多种算法模型。

具体的模型训练步骤图2所示，在步骤S11，首先，本申请将待训练的文档转换成文本文档，其中所述待训练的文档包括但不限于：word格式文档、PDF格式文档和/或图像格式文档。在步骤S12，本申请从待训练的文档中获取结构格式性质信息，其中，所述结构格式性质信息包括：位置信息、段落信息和表格信息。最后在步骤S13，本申请将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息

也就是说，本申请根据文档标注模块提供的标注信息数据，以及文档处理系统提供的文档信息，将两者结合生成机器学习算法所需要的训练数据。不同机器学习算法进行模型训练所需要的格式不同，抽取系统离线处理模块提供统一的处理框架和流程，不同的算法基于此框架和流程，在算法内部进行数据适配及模型训练，其中，不同算法的训练参数可以配置。

继续如图1所示，在上述步骤S1之后，本申请继续执行步骤S2，将对训练好的每一种离线序列标注算法模型中的标注信息计算准确率，也就是说为每一种离线序列标注算法模型中的标注信息赋予相应的权重值。例如，如果HMM类型的算法模型中的人名或者组织机构类的标注信息识别准确率高，则赋予HMM类型的算法模型中的人名或者组织机构类的标注信息的权重值相较于其他算法模型中的相同标注信息类型的权重值高。再例如，如果CRF类型的算法模型中的金额类的标注信息识别准确率高，则赋予CRF类型的算法模型中的金额类的标注信息的权重值相较于其他算法模型中的相同标注信息类型的权重值高。

也就是说，本申请对于每种算法模型，首先根据输入数据进行模型内部数据适配，适配后使用每个模型特有的特征提取方式进行特征提取，再将提取后的特征输入模型进行模型训练最终给出每个算法模型的文件及模型指标。模型指标指的是模型在训练迭代过程中内部测试得到准确率、召回率指标。

在训练完算法模型以及对不同的算法模型中的标注信息赋予权重值之后，本申请继续执行步骤S3，将待处理的文档转换成文本文档，这里的转换方式类似于上面的步骤S21，本申请将待训练的文档转换成文本文档，其中，所述待训练的文档包括但不限于：word格式文档、PDF格式文档和/或图像格式文档。

具体的，本申请所涉及的文档类型可以多种多样，包括Word、PDF、PowerPoint、Excel、纯文本等格式。针对不同格式的文档，首先需要将文档最终解析成纯文本等结构化信息，才能够进一步进行文档处理。文档格式解析系统针对不同类型的文档进行处理，本申请将文档转换成不同的格式，生成下游系统所需要的相关数据。

此外，如果是图片形式的文档，需要将图片经过OCR处理，提取图像中的文字。

PDF格式文档目前使用的较多，具有最好的兼容性，并且Word等文档都可以转换成PDF格式，因此为了后续流程统一，本申请将各种格式的文档统一转成PDF格式。

在对待处理的文档进行格式转换之后，本申请继续执行步骤S4，从所述待处理的文档中获取结构格式性质信息，由于PDF格式的特殊性，需要对PDF格式进行深入的分析，包括段落分析、版面还原、表格识别等功能和操作，将一份PDF文档转换成除纯文本信息外，包含位置、段落、表格等信息的结构化信息，下游系统根据需求，使用拿到的结构化信息中各种不同类型的数据进行相关的任务处理。

在步骤S5，将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息。对于每一种上面所描述的算法模型，本申请首先根据输入数据进行模型内部数据适配，适配后使用每个模型特有的特征提取方式进行特征提取，再将提取后的特征输入模型进行模型预测给出模型预测结果。所述预测结果就是对待识别中形成结构化的信息，也就是说，对识别的文档中的特征进行标注，以进行后续的处理操作。

此外，在获取了文档中的文档信息所对应的标注信息之后，本申请继续执行步骤S6，针对每一种标注信息，依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。也就是说，本申请选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。具体的，不同的模型输出结果不同，根据模型结果及置信度，以及模型离线训练流程给出的不同模型效果参数进行结果选择，给出文档中每个关键信息的最优模型结果。例如，文档中抽取出来多年的总收入，可以计算出来每年的利润增长额及增长率，并将增长额和增长率加入到最终的处理结果中。

如图3所示，本申请还涉及一种获取文档信息的装置，包括：离线训练模块1，用于对至少一种序列标注算法模型进行训练，以获取至少一种离线序列标注算法模型；还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率。文档转换模块1，用于将待处理的文档转换成文本文档；从所述待处理的文档中获取结构格式性质信息，以及文档信息获取模块3，用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息。

此外，所述文档信息获取模块3还用于，针对每一种标注信息，依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。

另外，本申请还涉及一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。

另外，本申请还涉及一种计算机可读存储介质，所述计算机可读存储介质存储有执行上面所描述的显示搜索推荐列表中的字符的方法的计算机程序。

本申请所涉及的计算机程序可以存储于计算机可读存储介质中，所述计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器（Read-Only Memory，ROM）、随机存取计算机存储器（Random Access Memory，RAM）、电载波信号、电信信号以及其他软件分发介质等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本申请的保护范围之内。

Claims

1.一种获取文档信息的方法，其特征在于，包括：

所述方法还包括：

将待处理的文档转换成文本文档；

从所述待处理的文档中获取结构格式性质信息；

2.根据权利要求1所述的获取文档信息的方法，其特征在于，在获取该文档中的文档信息所对应的标注信息之后，所述方法还包括：

针对每一种标注信息，依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。

3.根据权利要求1所述的获取文档信息的方法，其特征在于，所述对至少一种序列标注算法模型进行训练，包括：

将待训练的文档转换成文本文档，其中所述待训练的文档包括：word格式文档、PDF格式文档和/或图像格式文档；

从待训练的文档中获取结构格式性质信息，其中，所述结构格式性质信息包括：位置信息、段落信息和表格信息；

将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中，以获取经过训练的至少一种离线序列标注算法模型。

4. 根据权利要求2所述的获取文档信息的方法，其特征在于，所述序列标注算法模型包括：HMM模型、CRF模型和Deep Learning模型。

5.根据权利要求1所述的获取文档信息的方法，其特征在于，所述结构格式性质信息包括：位置信息、段落信息和表格信息。

6.根据权利要求2所述的获取文档信息的方法，其特征在于，所述依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息，包括，选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。

7.根据权利要求1所述的获取文档信息的方法，其特征在于，如果所述待处理的文档为图像格式的文档，则将该文档进行OCR识别，以将识别后的文档转换成文本文档。

8.一种获取文档信息的装置，其特征在于，包括：

离线训练模块，用于对至少一种序列标注算法模型进行训练，以获取至少一种离线序列标注算法模型；还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率；

文档转换模块，用于将待处理的文档转换成文本文档；从所述待处理的文档中获取结构格式性质信息；

文档信息获取模块，用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中，以获取该文档中的文档信息所对应的标注信息。

9.根据权利要求8所述的获取文档信息的装置，其特征在于，所述文档信息获取模块还用于，针对每一种标注信息，依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。