CN110929714A

CN110929714A - 一种基于深度学习的密集文本图片的信息提取方法

Info

Publication number: CN110929714A
Application number: CN201911157896.3A
Authority: CN
Inventors: 屈晓磊; 万波; 朱跃飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-03-27

Abstract

本发明公开了一种基于深度学习的密集文本图片的信息提取方法，通过人工智能的方法将密集文本图片上的很多数据自动采集、摘取、整理并结构化，利用通过大量学习拥有中文语言理解能力的深度学习模型，通过自动机器学习，使用户在不需要人工智能知识的情况下根据自己的需求训练信息提取模型，帮助用户自动定制不同的信息提取模型以提取不同的信息，实现为不同应用场景/用户提供定制化服务。并且，信息提取模型通过预训练的方式，可以最大程度地减少训练集。本发明主要解决密集文本图片的信息提取，能够节省大量人工，为办公自动化、信息查询、大数据以及基于大数据的人工智能技术等各种应用提供数据支持。

Description

一种基于深度学习的密集文本图片的信息提取方法

技术领域

本发明涉及人工智能、光学字符识别和机器阅读技术领域，尤其涉及一种基于深度学习的密集文本图片的信息提取方法。

背景技术

光学字符识别(Optical Character Recognition,OCR)是指对扫描文本图片进行文字识别，变成可编辑的文档的过程。这个过程一般只返回图片上所有的文字，并不包含特定信息的提取。然而，很多应用场景却不仅需要识别文本文字，还需要提取上面的信息，例如，银行贷款审查在职证明时需要提取申请者的单位，收入，职位、入职时间等信息，这通常需要人工介入直接阅读扫描文档并将所需信息输入到系统中，费时费力。

目前，通过OCR技术可以轻松地将一张扫描文本图片转换为可编辑的word文档或者纯文本文件，但从这些文本文件中有效地提取相关信息还是一件比较困难的事情。信息提取实际上是从一段文字表述中找出信息对的过程，这个过程与自然语言处理中著名的命名实体识别很相似。命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词、时间、数量、货币、比例数值等文字。

目前最广泛有效的命名实体识别算法是条件随机场算法。条件随机场算法利用大规模语料学习出标注模型，从而对句子的各个位置进行标注。它的目标函数不仅考虑输入的状态特征函数，还包含标签转移特征函数。在训练时可以使用SGD学习模型参数。在模型已知的情况下，给出输入序列，可以预测输出序列，也就是求取使目标函数最大化的最优序列，这是一个动态规划问题，可以使用Viterbi算法解码得到最优标签序列。在深度学习特别是基于注意力机制的NLP之前，条件随机场算法的显著优点是在为一个位置进行标注的过程中可以利用内部及上下文特征信息。

随着深度学习在自然语言处理方面的应用越来越广泛，结合两种算法成为一种新的技术趋势，因此，双向长短记忆-条件随机场模型应运而生。应用于命名实体识别中的双向长短记忆-条件随机场模型主要由嵌入层(Embedding)(主要包括词向量、字向量以及一些额外特征)、双向长短记忆模型层以及最后的条件随机场模型层构成，结构如图1所示。实验结果表明，双向长短记忆-条件随机场模型已经达到甚至超过基于丰富特征的条件随机场模型，成为目前基于深度学习的命名实体识别方法中最主流的模型。在特征方面，该模型继承了深度学习方法的优势，无需特征工程，使用词向量和字符向量就可以达到很好的效果，如果有高质量的词典特征，还能进一步获得提高。

条件随机场模型考虑的是整个句子局部特征的线性加权组合，长短记忆模型能够考虑长远的上下文信息，因此，长短记忆模型与条件随机场模型的结合可以扩展模型对上下文语义的了解。然而，长短记忆模型毕竟是一个序列模型，序列末端的输出只能得到序列前端输入的一小部分信息，也就是说，词与词之间的信息会随着词之间距离的增加而减少，即所谓的长距离依赖。对于命名实体识别而言，输入句子中的每个字都有可能对当前位置的标注产生影响，因此，为了克服上面的缺点，IDCNN-条件随机场模型应运而生。IDCNN-条件随机场模型是通过使用不同步长的卷积层来实现从更广阔的范围内获得语义的，如图2所示。IDCNN对输入句子中的每一个字生成一个logits，这里就和双向长短记忆模型输出logits完全一样，加入条件随机场模型层，用Viterbi算法解码出标注结果。

虽然IDCNN在一定程度上能够克服长距离依赖的问题，但池化过程还是会丢失一些信息。并且，相比于拥有自注意力机制的Transformer，IDCNN模型不能通过训练来自动学习前后语义对当前词的影响，因此，也不能作为一个通用的特征提取模型应用于各种场景。

发明内容

有鉴于此，本发明提供了一种基于深度学习的密集文本图片的信息提取方法，用以解决现有的OCR技术只能识别图片中的文字并转换成文本、无法提取信息的问题。

因此，本发明提供了一种基于深度学习的密集文本图片的信息提取方法，包括如下步骤：

S1：对具有完整语义结构的密集文本图片进行预处理；

S2：利用OCR软件将预处理后的密集文本图片转换成文本文件；

S3：将转换成的文本文件输入训练好的信息提取模型，提取目标信息；所述信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型；

S4：对提取的目标信息进行标准化处理和纠错处理，得到所需信息。

在一种可能的实现方式中，在本发明提供的上述信息提取方法中，步骤S3中的信息提取模型的训练过程，包括如下步骤：

S31：收集同一类型的密集文本图片；

S32：利用OCR软件将收集的密集文本图片转换成文本文件；

S33：对转换成的文本文件进行人工标识；

S34：将标识好的文本文件保存为训练集；

S35：将训练好的Transformer编码器分别与条件随机场层和全连接层连接，得到基于Transformer的条件随机场模型和基于Transformer的全连接模型；

S36：将所述训练集分别输入所述基于Transformer的条件随机场模型和所述基于Transformer的全连接模型，进行训练，训练过程中，使用贝叶斯优化算法调试训练参数，迭代训练后得到基于Transformer的条件随机场最优模型和基于Transformer的全连接最优模型，从所述Transformer的条件随机场最优模型和所述基于Transformer的全连接最优模型中挑选最好的一个作为信息提取模型。

在一种可能的实现方式中，在本发明提供的上述信息提取方法中，步骤S33，对转换成的文本文件进行人工标识，具体包括如下步骤：

S331：使用文本标识软件打开转换成的文本文件；

S332：创建标识类型，生成与所述标识类型对应的图标或按钮；

S333：选中需要标识的目标；

S334：点击与选中目标所属的标识类型对应的图标或按钮，对所述选中目标进行标识。

在一种可能的实现方式中，在本发明提供的上述信息提取方法中，步骤S35中的Transformer编码器的训练过程，包括如下步骤：

S351：将维基百科中文作为训练集，对所述训练集进行如下预处理，对于每一句话，随机挑选15％的字，对于选出的每个字，80％的概率被替换成[Mask]，10％的概率替换成其他字，10％的概率不被替换；

S352：将预处理后的训练集输入Transformer编码器进行训练，预测被[Mask]替换后的字；

S353：训练至所述Transformer编码器收敛后，将所述Transformer编码器冻结。

本发明提供的上述信息提取方法，通过人工智能的方法将密集文本图片上的很多数据自动采集、摘取、整理并结构化，利用通过大量学习拥有中文语言理解能力的深度学习模型(条件随机场模型或全连接模型)，通过自动机器学习，使用户在不需要任何人工智能专业知识的情况下根据自己的需求训练信息提取模型，帮助用户自动定制不同的信息提取模型以提取不同的信息，从而实现为不同应用场景/用户提供定制化服务。通过使用定制的信息提取模型在OCR的基础上提取所需信息，弥补现有OCR技术只能识别全部文本的缺陷，且信息提取的准确性大大超过传统的机器学习算法。并且，信息提取模型通过预训练的方式，可以最大程度地减少训练集，即通过较少的训练集就可以达到预期的效果。本发明主要解决密集文本图片的信息提取，例如从信件、合同、证明等文件中提取人名、公司名、日期、职位等有效信息，自动化的信息提取能够节省大量人工，可以为办公自动化、信息查询、大数据以及基于大数据的人工智能技术等各种应用提供数据支持。本发明提供了一整套端到端的解决方案，包括数据的标识、训练集的生成、模型自动训练、调参优化及部署，用户只需要对数据进行标识，剩下的步骤都可以自动完成，此方案可以与RPA(Robotic ProcessAutomation)结合，减少重复的人工，实现办公智能化、自动化。

附图说明

图1为现有的双向长短记忆-条件随机场模型的结构示意图；

图2为现有的最大膨胀步长为4的IDCNN模型的结构示意图；

图3为本发明提供的一种基于深度学习的密集文本图片的信息提取方法的流程图；

图4为本发明提供的一种基于深度学习的密集文本图片的信息提取方法的流程示意图；

图5为本发明提供的一种基于深度学习的密集文本图片的信息提取方法中信息提取模型的训练过程的流程图；

图6为本发明提供的一种基于深度学习的密集文本图片的信息提取方法中模型训练过程和信息提取过程的流程示意图；

图7为本发明提供的一种基于深度学习的密集文本图片的信息提取方法中标识工具的示意图；

图8为本发明提供的一种基于深度学习的密集文本图片的信息提取方法中人工标识的流程图；

图9为本发明提供的一种基于深度学习的密集文本图片的信息提取方法中信息提取模型网络结构示意图；

图10为本发明提供的一种基于深度学习的密集文本图片的信息提取方法中Transformer编码器的训练过程的流程图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本发明。

本发明提供的一种基于深度学习的密集文本图片的信息提取方法，如图3和图4所示，包括如下步骤：

S1：对具有完整语义结构的密集文本图片进行预处理；

具体地，密集文本是指有语言结构的文本文件，而非图表类文件，例如公证书、介绍信、雇佣合同、在职证明、财产证明等；预处理可以包括彩色转黑白、去除水印等操作；

具体地，可以使用Tesseract开源OCR软件，输出结果为xml文件，其中标识了识别的每一个汉字以及汉字所在图片中的位置(例如文字左上角和右下角的坐标)；

S3：将转换成的文本文件输入训练好的信息提取模型，提取目标信息；信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型；

具体地，以在职证明为例，所需提取的目标信息可以为员工姓名、收入、职位、工作单位等信息；

S4：对提取的目标信息进行标准化处理和纠错处理，得到所需信息；

具体地，对提取的目标信息进行标准化处理，例如，将月收入转换成年收入；对提取的目标信息进行纠错处理，例如，删除多余信息。

本发明提供的上述信息提取方法，通过人工智能的方法将密集文本图片上的很多数据自动采集、摘取、整理并结构化，利用通过大量学习拥有中文语言理解能力的深度学习模型(条件随机场模型或全连接模型)，通过自动机器学习，使用户在不需要任何人工智能专业知识的情况下根据自己的需求训练信息提取模型，帮助用户自动定制不同的信息提取模型以提取不同的信息，从而实现为不同应用场景/用户提供定制化服务。通过使用定制的信息提取模型在OCR的基础上提取所需信息，弥补现有OCR技术只能识别全部文本的缺陷，且信息提取的准确性大大超过传统的机器学习算法。并且，信息提取模型通过预训练的方式，可以最大程度地减少训练集，即通过较少的训练集就可以达到预期的效果。本发明主要解决密集文本图片的信息提取，例如从信件、合同、证明等文件中提取人名、公司名、日期、职位等有效信息，自动化的信息提取能够节省大量人工，可以为办公自动化、信息查询、大数据以及基于大数据的人工智能技术等各种应用提供数据支持。

本发明提供的上述信息提取方法，可以为不同的应用场景/用户提供定制化服务。应用场景不同，文件不同，需要提取的信息亦不相同。例如，在职证明可能需要提取雇员姓名、工资、职位等信息，录取通知书可能需要提取考生姓名、录取院校、报到时间等信息。本发明可以提供一整套方案便捷地建立基于在职证明或录取通知书的不同训练集，并分别训练和优化不同的信息提取模型，完全不需要具有人工智能专业知识的专业人员介入。

在具体实施时，在本发明提供的上述信息提取方法中，步骤S3中的信息提取模型的训练过程，如图5所示，可以包括如下步骤：

S31：收集同一类型的密集文本图片；

具体地，此步骤中的密集文本图片与步骤S1中的密集文本图片类似，是指有语言结构的文本文件，而非图表类文件，例如公证书、介绍信、雇佣合同、在职证明、财产证明等；收集同一类型的密集文本图片，例如，收集介绍信这种类型的密集文本图片；收集图片的具体数量可以根据文件的语言复杂程度和格式变化程度而定；

S32：利用OCR软件将收集的密集文本图片转换成文本文件；

具体地，此步骤中的OCR软件也可以使用Tesseract开源OCR软件；

S33：对转换成的文本文件进行人工标识；

S34：将标识好的文本文件保存为训练集；

S36：将训练集分别输入基于Transformer的条件随机场模型和基于Transformer的全连接模型，进行训练，训练过程中，使用贝叶斯优化算法调试训练参数，迭代训练后得到基于Transformer的条件随机场最优模型和基于Transformer的全连接最优模型，从Transformer的条件随机场最优模型和基于Transformer的全连接最优模型中挑选最好的一个作为信息提取模型。

在具体实施时，本发明提供的上述信息提取方法，如图6所示，包括模型训练过程和信息提取过程，其中，模型训练过程阐释信息提取模型是如何被训练生成的以及信息提取模型生成的自动化过程，信息提取过程描述训练好的信息提取模型如何被应用在信息提取过程中。需要说明的是，当有新的应用场景产生时，用户通过收集对应类型的文件图片，生成文本文件后人工标识产生新的训练集，然后利用新产生的训练集进行训练得到新的信息提取模型。标识工具可以帮助用户实现人工标识到训练集的产生，标识工具如图7所示。用户可以设置信息提取的置信度阈值，在训练过程中，贝叶斯优化算法会根据训练过程调整模型参数，当信息提取的置信度大于用户设置的置信度阀值时，模型会被打包发布到生产环境，生产环境中已训练好的信息提取模型读入由OCR软件识别转换成的文本文件，输出信息提取后的结果。

在具体实施时，在执行本发明提供的上述信息提取方法中的步骤S33，对转换成的文本文件进行人工标识时，如图7和图8所示，具体可以包括如下步骤：

S331：使用文本标识软件打开转换成的文本文件；

S332：创建标识类型，生成与标识类型对应的图标或按钮；

具体地，创建的标识类型可以为员工姓名、职位、收入、工作单位等，

S333：选中需要标识的目标；如图7所示，选中“王小明”；

S334：点击与选中目标所属的标识类型对应的图标或按钮，对选中目标进行标识；如图7所示，将“王小明”标识为员工姓名。

为了能够在有限的数据和有限的人为干预的情况下自动完成信息提取模型的训练和调试，信息提取模型需要具备如下特点：1、信息提取模型需要已经拥有很多汉语言知识，能够较好地理解词语之间的语义关系；2、信息提取模型需要在很好的汉语言知识的基础上附加一层信息提取层，这层信息提取层需要相对简单、有较少参数、容易通过贝叶斯优化算法指导调参过程。结合以上两个特点，本发明设计如下信息提取模型网络结构，如图9所示，整个信息提取模型网络结构分为两部分，具有普遍汉语言知识的Transformer编码器和将信息提取具体化的全连接层或条件随机场层。

在具体实施时，在本发明提供的上述信息提取方法中，步骤S35中的Transformer编码器的训练过程，如图10所示，包括如下步骤：

S351：将维基百科中文作为训练集，对训练集进行如下预处理，对于每一句话，随机挑选15％的字，对于选出的每个字，80％的概率被替换成[Mask]，10％的概率替换成其他字，10％的概率不被替换；

例如，替换前：兹证明王小明系我单位员工，现任生产一科科长；

替换后：兹[Mask]明王小明[Mask]我单位员工，现任生产一大科长；

S353：训练至Transformer编码器收敛后，将Transformer编码器冻结。

当Transformer编码器在维基百科中文数据集上训练结束后，将Transformer编码器的输出分别与条件随机场层和全连接层连接，得到基于Transformer的条件随机场模型和基于Transformer的全连接模型两个模型，然后，通过<人民日报1998中文标注语料库>中的训练集分别对上述两个模型进行命名体识别训练(标准的有人名，组织名，地名，日期等等)。当需要提取自定义信息(比如收入)但标准命名体识别模型不支持时，需要重新训练全连接层和条件随机场层，但Transformer编码器不需要参与训练(即参数不再改变)，而是作为一个词向量的提取工具。贝叶斯优化算法也只对全连接层和条件随机场层进行优化，得到基于Transformer的条件随机场最优模型和基于Transformer的全连接最优模型，最后，从Transformer的条件随机场最优模型和基于Transformer的全连接最优模型中挑选最好的一个作为信息提取模型打包发布。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的密集文本图片的信息提取方法，其特征在于，包括如下步骤：

S1：对具有完整语义结构的密集文本图片进行预处理；

2.如权利要求1所述的信息提取方法，其特征在于，步骤S3中的信息提取模型的训练过程，包括如下步骤：

S31：收集同一类型的密集文本图片；

S32：利用OCR软件将收集的密集文本图片转换成文本文件；

S33：对转换成的文本文件进行人工标识；

S34：将标识好的文本文件保存为训练集；

3.如权利要求2所述的信息提取方法，其特征在于，步骤S33，对转换成的文本文件进行人工标识，具体包括如下步骤：

S331：使用文本标识软件打开转换成的文本文件；

S333：选中需要标识的目标；

4.如权利要求2或3所述的信息提取方法，其特征在于，步骤S35中的Transformer编码器的训练过程，包括如下步骤：