CN109800751B

CN109800751B - 一种基于构建深度学习网络的票据识别方法及终端

Info

Publication number: CN109800751B
Application number: CN201910074353.9A
Authority: CN
Inventors: 周异; 陈凯; 何建华; 韦建; 杜保发; 周曲
Original assignee: Xiamen Shangji Network Technology Co ltd; Shanghai Shenyao Intelligent Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd; Shanghai Shenyao Intelligent Technology Co ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-04-28
Anticipated expiration: 2039-01-25
Also published as: CN109800751A

Abstract

本发明涉及一种基于构建深度学习网络的票据识别方法及终端，属于数据处理领域。通过获取多个隐层节点组；每一隐层节点组与不同的票据训练样本集对应；获取所述多个隐层节点组中的第一隐层节点组；所述第一隐层节点组对应的票据训练样本集为所有隐层节点组的票据训练样本集的总和；第一隐层节点组中的最后一个隐层节点分别与所述多个隐层节点组中其余隐层节点组的第一个隐层节点连接；所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络。实现在提高OCR深度学习网络文字识别准确度的同时提高计算资源的利用率。

Description

一种基于构建深度学习网络的票据识别方法及终端

技术领域

本发明涉及一种基于构建深度学习网络的票据识别方法及终端，属于数据处理领域。

背景技术

基于深度学习的OCR文字识别方法近几年来发展迅猛，尤其是在英文和数字识别方面，文字识别的准确率接近人工识别的水平，帮助实现多种场景应用的落地。但是对于中文识别以及中英文混合等复杂的应用场景，目前深度学习OCR识别的准确率还有待提高。尤其是票据文字识别应用系统，对准确率有极高的要求，但是票据种类繁多(比如增值税发票，飞机票，的士票等)，每种票据里面有不同字段(姓名，地址，金额等)，可能包含不同的文字类型(中文、英文、数字和符号等)，使得识别票据的任务更加困难，需要进一步提高深度学习OCR文字识别方法的准确度。对于多种类型业务和多种文字混合的文字识别应用，目前常用的方法是采用一个通用深度学习文字识别模型，用所有的训练样本(属于不同字段类型的文字字串)训练出一个单个网络通用输出的深度学习网络，再用单一的训练好的通用深度学习文字识别网络对所有票据业务的票据进行识别。单一通用深度学习OCR网络的训练方法参见图1，单一通用深度学习OCR网络的使用方法参见图2。图1和图2中以卷积神经网络加长短时记忆网络以及CTC的网络结构作为深度学习文字识别的模型，但是本发明不局限于这种文字识别模型。

使用单一通用深度学习OCR网络的方法简单直接，但是通用深度学习文字识别网络的文字识别准确率不够好。而且这种单一网络通用输出的深度学习方法不利于网络增强学习和支持新的业务。如果增加已有业务的新的训练样本或者新的业务的训练样本，需要新的训练样本和大量的旧的训练样本一起用来重新训练深度网络学习网络，无谓地耗费大量时间。为了解决上述问题，提出一种改进方法具体为，根据票据类型或者字段所包含的文字的类型，使用多个深度学习文字识别网络，对不同的票据或者字段类型分别训练和识别专门的深度学习文字识别网络。业务专用深度学习OCR网络的训练方法参见图3，业务专用深度学习OCR网络的使用方法参见图4。分别训练的深度学习文字识别网络能有效提高文字识别准确度，但是对于实时文字识别系统，每个训练好的深度学习文字识别网络都需要同时运行。这种采用多个深度学习网络的识别系统会过多地占据机器内存和增加计算量，大幅降低可以并发支持的OCR系统用户数。

发明内容

本发明所要解决的技术问题是：如何在提高OCR深度学习网络文字识别准确度的同时，提高计算资源的利用率。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于构建深度学习网络的票据识别方法，包括：

获取多个隐层节点组；每一隐层节点组与不同的票据训练样本集对应；每一隐层节点组中的各隐层节点依次连接；

获取所述多个隐层节点组中的第一隐层节点组；所述第一隐层节点组对应的票据训练样本集为所述多个隐层节点组中除去第一隐层节点组外的其余隐层节点组的票据训练样本集的总和；

第一隐层节点组中的最后一个隐层节点分别与所述多个隐层节点组中其余隐层节点组的第一个隐层节点连接；

所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络；所述OCR深度学习网络用于识别票据图像中的字符。

优选地，还包括：

获取与预设的第一票据图像对应的类别信息，得到第一类别信息；

查询所述多个隐层节点组中，与所述第一类别信息对应的一隐层节点组，得到目标隐层节点组；

所述OCR深度学习网络识别所述第一票据图像，获取与所述目标隐层节点组对应的输出层输出的第一识别结果。

优选地，还包括：

统计所述多个隐层节点组的组数数量；

所述OCR深度学习网络识别预设的第二票据图像，第二识别结果集合；所述第二识别结果集合的元素总个数与所述组数减一的数量相同；

计算所述第二识别结果集合中与每一第二识别结果对应的置信度；

标记所述第二识别结果集合中置信度最高的第二识别结果为最优识别结果。

优选地，还包括：

所述多个隐层节点组包括第二隐层节点组；

所述第二隐层节点组与所述第一隐层节点组的票据训练样本集相同。

优选地，获取多个隐层节点组，具体为：

S1、预设与第一数量对应的第一票据训练样本集；一所述第一票据训练样本集与一类别信息对应；

S2、集合所有的所述第一票据训练样本集，得到第二票据训练样本集；

S3、所述第一数量加一，得到第二数量；

S4、预设与所述第二数量对应的第一深度学习网络；

S5、使用所述第二票据训练样本集训练一所述第一深度学习网络，得到第二深度学习网络；

S6、使用一所述第一票据训练样本集训练一所述第一深度学习网络，得到一第三深度学习网络；所述第一深度学习网络中前N个隐层节点的参数分别与所述第二深度学习网络中对应的隐层节点的参数相同，且在训练过程中保持不变；N为正整数，取值范围为1至所述第一深度学习网络的隐层节点总数；

S7、重复执行S6，直至所有的所述第一票据训练样本集均被遍历，得到与所述第一数量对应的第三深度学习网络；

S8、从所述第二深度学习网络中，获取前N个隐层节点，得到第一隐层节点组；

S9、从一所述第三深度学习网络中获取第N+1至最后一个隐层节点，得到一第三隐层节点组；

S10、重复执行S9，直至所有的所述第三深度学习网络均被遍历；

S11、集合所述第一隐层节点组和所有的所述第三隐层节点组，得到所述多个隐层节点组。

本发明还提供一种基于构建深度学习网络的票据识别终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

优选地，还包括：

统计所述多个隐层节点组的组数数量；

优选地，还包括：

所述多个隐层节点组包括第二隐层节点组；

优选地，获取多个隐层节点组，具体为：

S3、所述第一数量加一，得到第二数量；

S4、预设与所述第二数量对应的第一深度学习网络；

本发明具有如下有益效果：

1、本发明提供一种基于构建深度学习网络的票据识别方法及终端，使用与所有类别信息对应的票据训练样本集训练共用的第一隐层节点组，共用的第一隐层节点组用于初步提取出各类别信息对应票据的共同特征。再分别使用与特定类别信息对应的票据训练样本集分别训练其它隐层节点组，因此，本发明中除第一隐层节点组外的其它隐层节点组均具有针对性，对于某一特定类别的票据具有较高的识别准确度。区别于现有技术为了提高识别的准确度同时使用多个深度学习网络对同一待识别票据图像进行识别操作，本发明将可提取共同特征的第一隐层节点组分别与多组具有识别针对性的隐层节点组分别连接，将第一隐层节点组提取出的共同特征作为针对一特定类别的隐层节点组的输入，由具有针对性的多个隐层节点组继续识别，在提高识别准确度的同时，降低了深度学习网络的复杂度，有效地提高了计算机内存和计算资源的利用率，更好地支持大规模票据识别。

2、进一步地，与待识别票据图像的类别信息对应的隐层节点组是使用只属于该类别信息的大量样本训练得到的，因此，使用与待识别票据图像的类别信息对应的隐层节点组的输出结果作为待识别票据图像的最优识别结果具有较高的准确度。

3、进一步地，一个第二识别结果对应的置信度表示OCR深度学习网络对该第二识别结果的信心，即置信度能够反映出该第二识别结果的准确度。因此，本发明选取第二识别结果集合中，置信度最高的第二识别结果作为最优识别结果，有利于提高识别票据图像的准确度。

4、进一步地，第二隐层节点组是根据与各个类别信息对应的所有训练样本集训练得到的，具有较好的普适性和准确度。而其它隐层节点组是分别使用一类别信息对应的训练样本集加强训练得到的，一个隐层节点组只对一类票据图像具有较高的准确度。本发明结合使用具有较强普适性的第二隐层节点组和具有针对性的其它隐层节点组共同识别票据图像，在保证特定类别的票据图像具有较高准确度的同时保持了较好的普适性。

5、进一步地，除用于训练共用的第一隐层节点组的第二票据训练样本集外，其它所有的第一票据训练样本集中只包含与一个类别信息对应的训练样本，并采用不同的票据训练样本集分别训练不同的深度学习网络，大幅度地提高了被训练的深度学习网络的识别性能，进而大幅度提高了用于组成OCR深度学习网络的各隐层节点组的识别性能。

附图说明

图1为单一通用深度学习OCR网络的训练方法示意图；

图2为单一通用深度学习OCR网络的使用方法示意图；

图3为业务专用深度学习OCR网络的训练方法示意图；

图4为业务专用深度学习OCR网络的使用方法示意图；

图5为本发明提供的一种基于构建深度学习网络的票据识别方法的具体实施方式的流程框图；

图6为增值税发票训练样本示例；

图7为交通票据的站名字段训练样本第一示例；

图8为交通票据的站名字段训练样本第二示例；

图9为第二深度学习网络示意图；

图10为第三深度学习网络示意图；

图11为OCR深度学习网络示意图；

图12为本发明提供的一种基于构建深度学习网络的票据识别终端的具体实施方式的结构框图；

标号说明：

1、处理器；2、存储器。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

请参照图5至图12，

本发明的实施例一为：

如图5所示，本实施例提供一种基于构建深度学习网络的票据识别方法，包括：

S1、获取多个隐层节点组；每一隐层节点组与不同的票据训练样本集对应；每一隐层节点组中的各隐层节点依次连接。

其中，深度学习网络包括输入层、多个隐层和输出层。上一个隐层的输出为下一个隐层的输入。

所述S1，具体为：

S101、预设与第一数量对应的第一票据训练样本集；一所述第一票据训练样本集与一类别信息对应。

其中，类别信息包括业务类别信息和字段类别信息。一业务类别信息和一字段类别信息的组合构成一个唯一的类别信息。

例如，业务类别信息为票据类型，具体为银行对账单、增值税发票、地铁票等。图6为增值税发票训练样本示例，图7和图8为交通票据的站名字段训练样本示例。不同业务类别信息对应的训练样本所使用的字体和背景等都有很大的差别，发票里经常有印章干扰，而交通票据里可能有交织的波浪线。

字段类别信息为字段类型，具体为英文、中文、字符、中英文混合等。

收集不同业务类别和不同字段类别的票据的文字片段样本。将收集到的样本分组，每一组只包含一个业务类别一个字段类别的文字片段票据图像样本，样本标注和类别信息。样本标注包含文字片段票据图像样本上的字符信息，以用于与深度学习网络的识别结果比较，调整深度学习网络的参数。

S102、集合所有的所述第一票据训练样本集，得到第二票据训练样本集。

其中，第二票据训练样本集用于训练共用的第一隐层节点组，共用的第一隐层节点组用于初步提取出各类型信息对应票据的共同特征。因此，本实施例将与各个类别信息对应的所有第一票据训练样本集作为第二票据训练样本集，以提高第一隐层节点组提取出不同类别信息对应的票据图像的特征的性能。

S103、所述第一数量加一，得到第二数量。

其中，第一数量为特定类别信息对应的深度学习网络数量，第二数量为包括一通用的深度学习网络在内的深度学习网络总数量。

例如，如图11所示，若第二隐层节点组至第K隐层节点组用于精确识别某一具体类别的票据图像，则需要K-1(第一数量)个训练样本集分别训练第二至第K隐层节点组。K-1个训练样本集中，一个训练样本集只包含一个类别的训练样本。本实施例还需要训练共用的第一隐层节点组，训练第一隐层节点组所使用的训练样本集为K-1个训练样本集的集合。训练一个隐层节点组需要一个深度学习网络，因此，本实施例所需的深度学习网络的总数量为K(第二数量)。

S104、预设与所述第二数量对应的第一深度学习网络。

S105、使用所述第二票据训练样本集训练一所述第一深度学习网络，得到第二深度学习网络。

其中，第二深度学习网络使用与各个类别信息对应的所有训练样本训练得到，能够较好地识别出不同类别信息对应票据图像的共性特征。

S106、使用一所述第一票据训练样本集训练一所述第一深度学习网络，得到一第三深度学习网络；所述第一深度学习网络中前N个隐层节点的参数分别与所述第二深度学习网络中对应的隐层节点的参数相同，且在训练过程中保持不变；N为正整数，取值范围为1至所述第一深度学习网络的隐层节点总数。

其中，训练第三深度学习网络的过程中，保持前N个隐层节点的参数与第二深度学习网络中前N个隐层节点的参数相同，即共用的第一隐层节点组的参数保持不变，使得后续与第一隐层节点组组合后，仍能够具有较高的识别准确度。一个第三深度学习网络使用与一个类别信息对应的票据训练样本集训练得到，能够较好地识别出与该类别信息对应的票据图像中所包含的字符。

S107、重复执行S106，直至所有的所述第一票据训练样本集均被遍历，得到与所述第一数量对应的第三深度学习网络。

S108、从所述第二深度学习网络中，获取前N个隐层节点，得到第一隐层节点组。

例如，第二深度学习网络如图9所示，获取隐层中的节点a1至an，得到第一隐层节点组。

S109、从一所述第三深度学习网络中获取第N+1至最后一个隐层节点，得到一第三隐层节点组。

例如，第三深度学习网络如图10所示，获取隐层中的节点bn+1至bm，得到一个第三隐层节点组。

S110、重复执行S109，直至所有的所述第三深度学习网络均被遍历。

S111、集合所述第一隐层节点组和所有的所述第三隐层节点组，得到所述多个隐层节点组。

本实施例，除用于训练共用的第一隐层节点组的第二票据训练样本集，其它所有的第一票据训练样本集中只包含与一个类别信息对应的训练样本，并采用不同的票据训练样本集分别训练不同的深度学习网络，大幅度地提高了被训练的深度学习网络的识别性能，进而大幅度提高了用于组成OCR深度学习网络的各隐层节点组的识别性能。

S2、获取所述多个隐层节点组中的第一隐层节点组；所述第一隐层节点组对应的票据训练样本集为所述多个隐层节点组中除去第一隐层节点组外的其余隐层节点组的票据训练样本集的总和。

S3、第一隐层节点组中的最后一个隐层节点分别与所述多个隐层节点组中其余隐层节点组的第一个隐层节点连接。

其中，OCR深度学习网络如图11所示，第一隐层节点组中的最后一个隐层节点am分别与第二隐层节点组的第一个隐层节点b1、第三隐层节点组的第一个隐层节点c1……第K隐层节点组的第一个隐层节点k1连接。第一隐层节点组提取出待识别票据图像的特征后，分别输入其它隐层节点组，由其它隐层节点组进一步提取特征，识别票据图像包含的字符。

可选地，所述多个隐层节点组包括第二隐层节点组；所述第二隐层节点组与所述第一隐层节点组的票据训练样本集相同。

其中，第二隐层节点组为第二深度学习网络中第N+1至最后一个隐层节点。例如，图9所示的第二深度学习网络中的an+1至am节点。

第二隐层节点组是根据与各个类别信息对应的所有训练样本集训练得到的，具有较好的普适性和准确度。而其它隐层节点组是分别使用一类别信息对应的训练样本集加强训练得到的，一个隐层节点组只对一类票据图像具有较高的准确度。本实施例结合使用具有较强普适性的第二隐层节点组和具有针对性的其它隐层节点组共同识别票据图像，在保证特定类别的票据图像具有较高准确度的同时保持了较好的普适性。

例如，如图11所示，第二隐层节点组是使用各个类别信息对应的所有训练样本集训练得到的，因此，其对应的第一输出层的输出结果具有较好的普适性，对于各个类别的待识别图像，其识别结果都具有较好的准确度。第二输出层至第K-1输出层的识别结果只分别对某一类图像具有非常高的识别准确度，高于第一输出层的识别准确度，而对于与训练时的训练样本类别不同的待识别图像，准确度较差，低于第一输出层的识别准确度。

S4、所述第一隐层节点组中的第一个隐层节点与预设的输入层连接；所述多个隐层节点组中除所述第一隐层节点组外的其余隐层节点组的最后一个隐层节点分别与预设的输出层连接，得到OCR深度学习网络；所述OCR深度学习网络用于识别票据图像中的字符。

其中，除第一隐层节点组外的每一隐层节点组与一个输出层连接，如图11所示。即，OCR深度学习网络识别一票据图像后，得到K-1个识别结果，可根据具体的业务需求选择最适配的结果。

S5、预设第一票据图像；所述OCR深度学习网络识别所述第一票据图像，得到识别结果。

可选地，第一实施方式为：

其中，与待识别票据图像的类别信息对应的隐层节点组是使用只属于该类别信息的大量样本训练得到的，因此，第一识别结果具有较高的准确度。

例如，第一票据图像的第一类别信息为增值税发票。OCR深度学习网络中的第二隐层节点组是根据大量的增值税发票样本训练得到的，因此，使用第二隐层节点组对应的第一输出层的输出结果作为第一票据图像的识别结果具有较高的准确度。

可选地，第二实施方式为：

统计所述多个隐层节点组的组数数量；

例如，如图11所示，OCR深度学习网络识别第二票据图像得到K-1个识别结果，除第一隐层节点组外的其余每一个隐层节点组对应一个识别结果。由于与输出层连接的隐层节点组分别是使用不同类别的训练样本集训练得到的，因此，不同隐层节点组对同一个票据图像的识别结果的置信度有所不同。假设，训练第二隐层节点组时，使用与第二票据图像同类的训练样本，则第二隐层节点组对第二票据图像这一类的图像识别结果置信度较高。而训练其它隐层节点组时采用的是其它类别的训练样本，因此，其它隐层节点组对第二票据图像这一类别的图像特征学习程度不够，不能够很好地识别这一类票据图像，相应地，识别这一类图像的识别结果置信度较低。

其中，一个第二识别结果对应的置信度表示OCR深度学习网络对该第二识别结果的信心，即置信度能够反映出该第二识别结果的准确度。因此，本实施例选取第二识别结果集合中，置信度最高的第二识别结果作为最优识别结果，有利于提高识别票据图像的准确度。

本发明的实施例二为：

如图12所示，本实施例还提供一种基于构建深度学习网络的票据识别终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

所述S1，具体为：

S103、所述第一数量加一，得到第二数量。

S104、预设与所述第二数量对应的第一深度学习网络。

可选地，第一实施方式为：

可选地，第二实施方式为：

统计所述多个隐层节点组的组数数量；

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于构建深度学习网络的票据识别方法，其特征在于，包括：

获取多个隐层节点组；每一隐层节点组与不同的票据训练样本集对应；每一隐层节点组中的各隐层节点依次连接；具体为：预设与第一数量对应的第一票据训练样本集；一所述第一票据训练样本集与一类别信息对应，类别信息包括业务类别信息和字段类别信息；集合所有的所述第一票据训练样本集，得到第二票据训练样本集；述第一数量加一，得到第二数量，其中，第一数量为特定类别信息对应的深度学习网络数量，第二数量为包括一通用的深度学习网络在内的深度学习网络总数量；预设与所述第二数量对应的第一深度学习网络；使用所述第二票据训练样本集训练一所述第一深度学习网络，得到第二深度学习网络；使用一所述第一票据训练样本集训练一所述第一深度学习网络，得到一第三深度学习网络并重复执行，直至所有的所述第一票据训练样本集均被遍历，得到与所述第一数量对应的第三深度学习网络；从所述第二深度学习网络中，获取前N个隐层节点，得到第一隐层节点组；从一所述第三深度学习网络中获取第N+1至最后一个隐层节点，得到一第三隐层节点组并重复执行，直至所有的所述第三深度学习网络均被遍历；集合所述第一隐层节点组和所有的所述第三隐层节点组，得到所述多个隐层节点组；

2.根据权利要求1所述的基于构建深度学习网络的票据识别方法，其特征在于，还包括：

3.根据权利要求1所述的基于构建深度学习网络的票据识别方法，其特征在于，还包括：

统计所述多个隐层节点组的组数数量；

4.一种基于构建深度学习网络的票据识别终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

5.根据权利要求4所述的基于构建深度学习网络的票据识别终端，其特征在于，还包括：

6.根据权利要求4所述的基于构建深度学习网络的票据识别终端，其特征在于，还包括：

统计所述多个隐层节点组的组数数量；