CN109840492B

CN109840492B - 基于深度学习网络的文档识别方法和终端

Info

Publication number: CN109840492B
Application number: CN201910075453.3A
Authority: CN
Inventors: 郝占龙; 林玉玲; 陈文传
Original assignee: Xiamen Shangji Network Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2022-09-20
Anticipated expiration: 2039-01-25
Also published as: CN109840492A

Abstract

本发明涉及一种基于深度学习网络的文档识别方法及终端，属于数据处理领域。通过获取多个隐层节点组；每一隐层节点组与不同的文档训练样本集对应；获取所述多个隐层节点组中的第一隐层节点组；所述第一隐层节点组对应的文档训练样本集为所有隐层节点组的文档训练样本集的总和；第一隐层节点组中的最后一个隐层节点分别与所述多个隐层节点组中其余隐层节点组的第一个隐层节点连接；所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络。实现在提高OCR深度学习网络文字识别准确度的同时提高计算资源的利用率。

Description

基于深度学习网络的文档识别方法和终端

技术领域

本发明涉及一种基于深度学习网络的文档识别方法和终端，属于基于深度学习的文档数据处理领域。

背景技术

基于深度学习的OCR文字识别方法近几年来发展迅猛，尤其是在英文和数字识别方面，文字识别的准确率接近人工识别的水平，帮助实现多种场景应用的落地。但是对于中文识别以及中英文混合等复杂的应用场景，目前深度学习OCR识别的准确率还有待提高。尤其是文档识别应用系统，对准确率有极高的要求，但是文档种类繁多(比如报纸文章、文档文书、增值税发票，飞机票，的士票等)，每种文档里面有不同字段(姓名，地址，金额等)，可能包含不同的文字类型(中文、英文、数字和符号等)，使得识别文档的任务更加困难，需要进一步提高深度学习OCR文字识别方法的准确度。对于多种类型业务和多种文字混合的文字识别应用，目前常用的方法是采用一个通用深度学习文字识别模型，用所有的训练样本(属于不同字段类型的文字字串)训练出一个单个网络通用输出的深度学习网络，再用单一的训练好的通用深度学习文字识别网络对所有文档进行识别。单一通用深度学习OCR网络的训练方法参见图1，单一通用深度学习OCR网络的使用方法参见图2。图1和图2中以卷积神经网络加长短时记忆网络以及CTC的网络结构作为深度学习文字识别的模型，但是本发明不局限于这种文字识别模型。

使用单一通用深度学习OCR网络的方法简单直接，但是通用深度学习文字识别网络的文字识别准确率不够好。而且这种单一网络通用输出的深度学习方法不利于网络增强学习和支持新的业务。如果增加已有业务的新的训练样本或者新的业务的训练样本，需要新的训练样本和大量的旧的训练样本一起用来重新训练深度网络学习网络，无谓地耗费大量时间。为了解决上述问题，提出一种改进方法具体为，根据文档类型或者字段所包含的文字的类型，使用多个深度学习文字识别网络，对不同的文档或者字段类型分别训练和识别专门的深度学习文字识别网络。业务专用深度学习OCR网络的训练方法参见图3，业务专用深度学习OCR网络的使用方法参见图4。分别训练的深度学习文字识别网络能有效提高文字识别准确度，但是对于实时文字识别系统，每个训练好的深度学习文字识别网络都需要同时运行。这种采用多个深度学习网络的识别系统会过多地占据机器内存和增加计算量，大幅降低可以并发支持的OCR系统用户数。

发明内容

本发明所要解决的技术问题是：如何在提高OCR深度学习网络文字识别准确度的同时，提高计算资源的利用率。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于深度学习网络的文档识别方法，包括：

获取多个隐层节点组；每一隐层节点组与不同的文档训练样本集对应；每一隐层节点组中的各隐层节点依次连接；

获取所述多个隐层节点组中的第一隐层节点组；所述第一隐层节点组对应的文档训练样本集为所述多个隐层节点组中除去第一隐层节点组外的其余隐层节点组的文档训练样本集的总和；

第一隐层节点组中的最后一个隐层节点分别与所述多个隐层节点组中其余隐层节点组的第一个隐层节点连接；

所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络；所述OCR深度学习网络用于识别文档图像中的字符。

优选地，还包括：

获取与预设的第一文档图像对应的类别信息，得到第一类别信息；

查询所述多个隐层节点组中，与所述第一类别信息对应的一隐层节点组，得到目标隐层节点组；

所述OCR深度学习网络识别所述第一文档图像，获取与所述目标隐层节点组对应的输出层输出的第一识别结果。

优选地，还包括：

统计所述多个隐层节点组的组数数量；

所述OCR深度学习网络识别预设的第二文档图像，第二识别结果集合；所述第二识别结果集合的元素总个数与所述组数减一的数量相同；

计算所述第二识别结果集合中与每一第二识别结果对应的置信度；

标记所述第二识别结果集合中置信度最高的第二识别结果为最优识别结果。

优选地，还包括：

所述多个隐层节点组包括第二隐层节点组；

所述第二隐层节点组与所述第一隐层节点组的文档训练样本集相同。

优选地，获取多个隐层节点组，具体为：

S1、预设与第一数量对应的第一文档训练样本集；一所述第一文档训练样本集与一类别信息对应；

S2、集合所有的所述第一文档训练样本集，得到第二文档训练样本集；

S3、所述第一数量加一，得到第二数量；

S4、预设与所述第二数量对应的第一深度学习网络；

S5、使用所述第二文档训练样本集训练一所述第一深度学习网络，得到第二深度学习网络；

S6、使用一所述第一文档训练样本集训练一所述第一深度学习网络，得到一第三深度学习网络；所述第一深度学习网络中前N个隐层节点的参数分别与所述第二深度学习网络中对应的隐层节点的参数相同，且在训练过程中保持不变；N为正整数，取值范围为1至所述第一深度学习网络的隐层节点总数；

S7、重复执行S6，直至所有的所述第一文档训练样本集均被遍历，得到与所述第一数量对应的第三深度学习网络；

S8、从所述第二深度学习网络中，获取前N个隐层节点，得到第一隐层节点组；

S9、从一所述第三深度学习网络中获取第N+1至最后一个隐层节点，得到一第三隐层节点组；

S10、重复执行S9，直至所有的所述第三深度学习网络均被遍历；

S11、集合所述第一隐层节点组和所有的所述第三隐层节点组，得到所述多个隐层节点组。

本发明还提供一种基于深度学习网络的文档识别终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

优选地，还包括：

统计所述多个隐层节点组的组数数量；

优选地，还包括：

所述多个隐层节点组包括第二隐层节点组；

优选地，获取多个隐层节点组，具体为：

S3、所述第一数量加一，得到第二数量；

S4、预设与所述第二数量对应的第一深度学习网络；

本发明具有如下有益效果：

1、本发明提供一种基于深度学习网络的文档识别方法和及终端，使用与所有类别信息对应的文档训练样本集训练共用的第一隐层节点组，共用的第一隐层节点组用于初步提取出各类别信息对应文档的共同特征。再分别使用与特定类别信息对应的文档训练样本集分别训练其它隐层节点组，因此，本发明中除第一隐层节点组外的其它隐层节点组均具有针对性，对于某一特定类别的文档具有较高的识别准确度。区别于现有技术为了提高识别的准确度同时使用多个深度学习网络对同一待识别文档图像进行识别操作，本发明将可提取共同特征的第一隐层节点组分别与多组具有识别针对性的隐层节点组分别连接，将第一隐层节点组提取出的共同特征作为针对一特定类别的隐层节点组的输入，由具有针对性的多个隐层节点组继续识别，在提高识别准确度的同时，降低了深度学习网络的复杂度，有效地提高了计算机内存和计算资源的利用率，更好地支持大规模文档识别。

2、进一步地，与待识别文档图像的类别信息对应的隐层节点组是使用只属于该类别信息的大量样本训练得到的，因此，使用与待识别文档图像的类别信息对应的隐层节点组的输出结果作为待识别文档图像的最优识别结果具有较高的准确度。

3、进一步地，一个第二识别结果对应的置信度表示OCR深度学习网络对该第二识别结果的信心，即置信度能够反映出该第二识别结果的准确度。因此，本发明选取第二识别结果集合中，置信度最高的第二识别结果作为最优识别结果，有利于提高识别文档图像的准确度。

4、进一步地，第二隐层节点组是根据与各个类别信息对应的所有训练样本集训练得到的，具有较好的普适性和准确度。而其它隐层节点组是分别使用一类别信息对应的训练样本集加强训练得到的，一个隐层节点组只对一类文档图像具有较高的准确度。本发明结合使用具有较强普适性的第二隐层节点组和具有针对性的其它隐层节点组共同识别文档图像，在保证特定类别的文档图像具有较高准确度的同时保持了较好的普适性。

5、进一步地，除用于训练共用的第一隐层节点组的第二文档训练样本集外，其它所有的第一文档训练样本集中只包含与一个类别信息对应的训练样本，并采用不同的文档训练样本集分别训练不同的深度学习网络，大幅度地提高了被训练的深度学习网络的识别性能，进而大幅度提高了用于组成OCR深度学习网络的各隐层节点组的识别性能。

附图说明

图1为单一通用深度学习OCR网络的训练方法示意图；

图2为单一通用深度学习OCR网络的使用方法示意图；

图3为业务专用深度学习OCR网络的训练方法示意图；

图4为业务专用深度学习OCR网络的使用方法示意图；

图5为本发明提供的一种基于深度学习网络的文档识别方法的具体实施方式的流程框图；

图6为增值税发票训练样本示例；

图7为交通票据的站名字段训练样本第一示例；

图8为交通票据的站名字段训练样本第二示例；

图9为第二深度学习网络示意图；

图10为第三深度学习网络示意图；

图11为OCR深度学习网络示意图；

图12为本发明提供的一种基于深度学习网络的文档识别终端的具体实施方式的结构框图；

标号说明：

1、处理器；2、存储器。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

请参照图5至图12，

本发明的实施例一为：

如图5所示，本实施例提供一种基于深度学习网络的文档识别方法，包括：

S1、获取多个隐层节点组；每一隐层节点组与不同的文档训练样本集对应；每一隐层节点组中的各隐层节点依次连接。

其中，深度学习网络包括输入层、多个隐层和输出层。上一个隐层的输出为下一个隐层的输入。

所述S1，具体为：

S101、预设与第一数量对应的第一文档训练样本集；一所述第一文档训练样本集与一类别信息对应。

其中，类别信息包括业务类别信息和字段类别信息。一业务类别信息和一字段类别信息的组合构成一个唯一的类别信息。

例如，业务类别信息为文档类型，具体下位细化分：文章文档、银行对账清单、增值税发票、地铁票等。图6为增值税发票训练样本示例，图7和图8为交通票据的站名字段训练样本示例。不同业务类别信息对应的训练样本所使用的字体和背景等都有很大的差别，发票里经常有印章干扰，而交通文票据可能有交织的波浪线。

字段类别信息为字段类型，具体为英文、中文、字符、中英文混合等。

收集不同业务类别和不同字段类别的文档的文字片段样本。将收集到的样本分组，每一组只包含一个业务类别一个字段类别的文字片段文档图像样本，样本标注和类别信息。样本标注包含文字片段文档图像样本上的字符信息，以用于与深度学习网络的识别结果比较，调整深度学习网络的参数。

S102、集合所有的所述第一文档训练样本集，得到第二文档训练样本集。

其中，第二文档训练样本集用于训练共用的第一隐层节点组，共用的第一隐层节点组用于初步提取出各类型信息对应文档的共同特征。因此，本实施例将与各个类别信息对应的所有第一文档训练样本集作为第二文档训练样本集，以提高第一隐层节点组提取出不同类别信息对应的文档图像的特征的性能。

S103、所述第一数量加一，得到第二数量。

其中，第一数量为特定类别信息对应的深度学习网络数量，第二数量为包括一通用的深度学习网络在内的深度学习网络总数量。

例如，如图11所示，若第二隐层节点组至第K隐层节点组用于精确识别某一具体类别的文档图像，则需要K-1(第一数量)个训练样本集分别训练第二至第K隐层节点组。K-1个训练样本集中，一个训练样本集只包含一个类别的训练样本。本实施例还需要训练共用的第一隐层节点组，训练第一隐层节点组所使用的训练样本集为K-1个训练样本集的集合。训练一个隐层节点组需要一个深度学习网络，因此，本实施例所需的深度学习网络的总数量为K(第二数量)。

S104、预设与所述第二数量对应的第一深度学习网络。

S105、使用所述第二文档训练样本集训练一所述第一深度学习网络，得到第二深度学习网络。

其中，第二深度学习网络使用与各个类别信息对应的所有训练样本训练得到，能够较好地识别出不同类别信息对应文档图像的共性特征。

S106、使用一所述第一文档训练样本集训练一所述第一深度学习网络，得到一第三深度学习网络；所述第一深度学习网络中前N个隐层节点的参数分别与所述第二深度学习网络中对应的隐层节点的参数相同，且在训练过程中保持不变；N为正整数，取值范围为1至所述第一深度学习网络的隐层节点总数。

其中，训练第三深度学习网络的过程中，保持前N个隐层节点的参数与第二深度学习网络中前N个隐层节点的参数相同，即共用的第一隐层节点组的参数保持不变，使得后续与第一隐层节点组组合后，仍能够具有较高的识别准确度。一个第三深度学习网络使用与一个类别信息对应的文档训练样本集训练得到，能够较好地识别出与该类别信息对应的文档图像中所包含的字符。

S107、重复执行S106，直至所有的所述第一文档训练样本集均被遍历，得到与所述第一数量对应的第三深度学习网络。

S108、从所述第二深度学习网络中，获取前N个隐层节点，得到第一隐层节点组。

例如，第二深度学习网络如图9所示，获取隐层中的节点a1至an，得到第一隐层节点组。

S109、从一所述第三深度学习网络中获取第N+1至最后一个隐层节点，得到一第三隐层节点组。

例如，第三深度学习网络如图10所示，获取隐层中的节点bn+1至bm，得到一个第三隐层节点组。

S110、重复执行S109，直至所有的所述第三深度学习网络均被遍历。

S111、集合所述第一隐层节点组和所有的所述第三隐层节点组，得到所述多个隐层节点组。

本实施例，除用于训练共用的第一隐层节点组的第二文档训练样本集，其它所有的第一文档训练样本集中只包含与一个类别信息对应的训练样本，并采用不同的文档训练样本集分别训练不同的深度学习网络，大幅度地提高了被训练的深度学习网络的识别性能，进而大幅度提高了用于组成OCR深度学习网络的各隐层节点组的识别性能。

S2、获取所述多个隐层节点组中的第一隐层节点组；所述第一隐层节点组对应的文档训练样本集为所述多个隐层节点组中除去第一隐层节点组外的其余隐层节点组的文档训练样本集的总和。

S3、第一隐层节点组中的最后一个隐层节点分别与所述多个隐层节点组中其余隐层节点组的第一个隐层节点连接。

其中，OCR深度学习网络如图11所示，第一隐层节点组中的最后一个隐层节点am分别与第二隐层节点组的第一个隐层节点b1、第三隐层节点组的第一个隐层节点c1……第K隐层节点组的第一个隐层节点k1连接。第一隐层节点组提取出待识别文档图像的特征后，分别输入其它隐层节点组，由其它隐层节点组进一步提取特征，识别文档图像包含的字符。

可选地，所述多个隐层节点组包括第二隐层节点组；所述第二隐层节点组与所述第一隐层节点组的文档训练样本集相同。

其中，第二隐层节点组为第二深度学习网络中第N+1至最后一个隐层节点。例如，图9所示的第二深度学习网络中的an+1至am节点。

第二隐层节点组是根据与各个类别信息对应的所有训练样本集训练得到的，具有较好的普适性和准确度。而其它隐层节点组是分别使用一类别信息对应的训练样本集加强训练得到的，一个隐层节点组只对一类文档图像具有较高的准确度。本实施例结合使用具有较强普适性的第二隐层节点组和具有针对性的其它隐层节点组共同识别文档图像，在保证特定类别的文档图像具有较高准确度的同时保持了较好的普适性。

例如，如图11所示，第二隐层节点组是使用各个类别信息对应的所有训练样本集训练得到的，因此，其对应的第一输出层的输出结果具有较好的普适性，对于各个类别的待识别图像，其识别结果都具有较好的准确度。第二输出层至第K-1输出层的识别结果只分别对某一类图像具有非常高的识别准确度，高于第一输出层的识别准确度，而对于与训练时的训练样本类别不同的待识别图像，准确度较差，低于第一输出层的识别准确度。

S4、所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络；所述OCR深度学习网络用于识别文档图像中的字符。

其中，除第一隐层节点组外的每一隐层节点组与一个输出层连接，如图11所示。即，OCR深度学习网络识别一文档图像后，得到K-1个识别结果，可根据具体的业务需求选择最适配的结果。

S5、预设第一文档图像；所述OCR深度学习网络识别所述第一文档图像，得到识别结果。

可选地，第一实施方式为：

其中，与待识别文档图像的类别信息对应的隐层节点组是使用只属于该类别信息的大量样本训练得到的，因此，第一识别结果具有较高的准确度。

例如，第一文档图像的第一类别信息为增值税发票。OCR深度学习网络中的第二隐层节点组是根据大量的增值税发票样本训练得到的，因此，使用第二隐层节点组对应的第一输出层的输出结果作为第一文档图像的识别结果具有较高的准确度。

可选地，第二实施方式为：

统计所述多个隐层节点组的组数数量；

例如，如图11所示，OCR深度学习网络识别第二文档图像得到K-1个识别结果，除第一隐层节点组外的其余每一个隐层节点组对应一个识别结果。由于与输出层连接的隐层节点组分别是使用不同类别的训练样本集训练得到的，因此，不同隐层节点组对同一个文档图像的识别结果的置信度有所不同。假设，训练第二隐层节点组时，使用与第二文档图像同类的训练样本，则第二隐层节点组对第二文档图像这一类的图像识别结果置信度较高。而训练其它隐层节点组时采用的是其它类别的训练样本，因此，其它隐层节点组对第二文档图像这一类别的图像特征学习程度不够，不能够很好地识别这一类文档图像，相应地，识别这一类图像的识别结果置信度较低。

其中，一个第二识别结果对应的置信度表示OCR深度学习网络对该第二识别结果的信心，即置信度能够反映出该第二识别结果的准确度。因此，本实施例选取第二识别结果集合中，置信度最高的第二识别结果作为最优识别结果，有利于提高识别文档图像的准确度。

本发明的实施例二为：

如图12所示，本实施例还提供一种基于深度学习网络的文档识别终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

所述S1，具体为：

例如，业务类别信息为文档类型，具体为银行对账单、增值税发票、地铁票等。图6为增值税发票训练样本示例，图7和图8为交通票据的站名字段训练样本示例。不同业务类别信息对应的训练样本所使用的字体和背景等都有很大的差别，发票里经常有印章干扰，而交通票据里可能有交织的波浪线，报纸文档里可能有不同颜色字体的颜色干扰。

S103、所述第一数量加一，得到第二数量。

S104、预设与所述第二数量对应的第一深度学习网络。

可选地，第一实施方式为：

可选地，第二实施方式为：

统计所述多个隐层节点组的组数数量；

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于深度学习网络的文档识别方法，其特征在于，包括：

获取所述多个隐层节点组中的第一隐层节点组；使用与所有类别信息对应的文档训练样本集训练共用的第一隐层节点组，共用的第一隐层节点组用于初步提取出各类别信息对应文档的共同特征，所述第一隐层节点组对应的文档训练样本集为所述多个隐层节点组中除去第一隐层节点组外的其余隐层节点组的文档训练样本集的总和；

所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络；所述OCR深度学习网络用于识别文档图像中的字符；

其中，获取多个隐层节点组，具体为：

S3、所述第一数量加一，得到第二数量；

S4、预设与所述第二数量对应的第一深度学习网络；

2.根据权利要求1所述的基于深度学习网络的文档识别方法，其特征在于，还包括：

3.根据权利要求1所述的基于深度学习网络的文档识别方法，其特征在于，还包括：

统计所述多个隐层节点组的组数数量；

4.根据权利要求1所述的基于深度学习网络的文档识别方法，其特征在于，还包括：

所述多个隐层节点组包括第二隐层节点组；

每一隐层节点组与不同的文档训练样本集对应，即每一隐层节点组对应有若干不同类型的文档训练样本；所述第二隐层节点组与所述第一隐层节点组的文档训练样本集可以选择相同的训练样本集。

5.一种基于深度学习网络的文档识别终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

其中，获取多个隐层节点组，具体为：

S3、所述第一数量加一，得到第二数量；

S4、预设与所述第二数量对应的第一深度学习网络；

6.根据权利要求5所述的基于深度学习网络的文档识别终端，其特征在于，还包括：

7.根据权利要求5所述的基于深度学习网络的文档识别终端，其特征在于，还包括：

统计所述多个隐层节点组的组数数量；

8.根据权利要求5所述的基于深度学习网络的文档识别终端，其特征在于，还包括：

所述多个隐层节点组包括第二隐层节点组；