CN111814779A

CN111814779A - 一种票据文本识别方法、装置、设备及存储介质

Info

Publication number: CN111814779A
Application number: CN202010652722.0A
Authority: CN
Inventors: 谢文辉; 蔡凌玮; 张�浩; 汪哲逸; 周期律; 常学亮; 刘杰; 李胤辉; 王璇; 刘远奎; 邓方进
Original assignee: Chongqing Rural Commercial Bank Co ltd
Current assignee: Chongqing Rural Commercial Bank Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-23

Abstract

本发明公开了一种票据文本识别方法、装置、设备及存储介质，该方法包括：获取多个训练集，每个训练集均包含票据切片及对应文本信息，且每个训练集包含的票据切片对应字体和/或字符类型不同；利用每个训练集分别对预先设置的网络进行训练，得到与多个训练集一一对应的多个文本识别模型；获取对待识别票据进行切片得到的多个待识别切片，将每个待识别切片分别输入到字体及字符类型分别与该待识别切片对应字体及字符类型一一对应相同的文本识别模型中，将对应文本识别模型输出的文本信息汇总得到待识别票据的文本识别结果。从而提高了文本识别效率，且在实现票据的文本识别时具有较高的识别准确率。

Description

一种票据文本识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机图像处理技术领域，更具体地说，涉及一种票据文本识别方法、装置、设备及存储介质。

背景技术

金融系统每天都要处理成千上万的票据，OCR系统是票据自动化处理的核心，主要包括如大写金额、小写金额、名称、账号等字段的识别。票据中字段按照字符的字体主要分为印刷体和手写体，按照字符类型主要包括大写金额、小写金额、数字、汉字四大类。常用的OCR识别方式为基于图像处理和统计机器学习得到相应OCR系统后，直接利用OCR系统对需要识别的票据进行识别，但是这种方式由于字体及字符类型的不同，经常会导致最终的识别准确率较低。

发明内容

本发明的目的是提供一种票据文本识别方法、装置、设备及存储介质，能够提高文本识别效率，且在实现票据的文本识别时具有较高的识别准确率。

为了实现上述目的，本发明提供如下技术方案：

一种票据文本识别方法，包括：

获取多个训练集，每个所述训练集均包含票据切片及对应文本信息，且每个所述训练集包含的票据切片对应字体和/或字符类型不同；

利用每个所述训练集分别对预先设置的网络进行训练，得到与多个所述训练集一一对应的多个文本识别模型；

获取对待识别票据进行切片得到的多个待识别切片，将每个所述待识别切片分别输入到字体及字符类型分别与该待识别切片对应字体及字符类型一一对应相同的文本识别模型中，将对应文本识别模型输出的文本信息汇总得到所述待识别票据的文本识别结果。

优选的，将每个所述待识别切片分别输入到对应的文本识别模型中，包括：

将每个所述待识别切片同时分别输入到对应的文本识别模型中。

优选的，将对应文本识别模型输出的文本信息汇总得到所述待识别票据的文本识别结果之后，还包括：

将得到的所述待识别票据的文本识别结果输出至管理模块，以指示所述管理模块统计得到全部待识别票据及对应文本识别结果的统计信息。

优选的，利用每个所述训练集分别对预先设置的网络进行训练多个文本识别模型，包括：

确定每个所述训练集中任一训练集为目标训练集，利用所述目标训练集对预先设置的网络进行训练，得到当前网络模型；

验证当前网络模型的识别精度，如果该识别精度达到精度阈值，则确定当前网络模型为训练得到的文本识别模型，否则，调整当前网络模型的参数，利用所述目标训练集对当前网络模型进行训练，得到当前网络模型，返回执行验证当前网络模型的识别精度的步骤。

一种票据文本识别装置，包括：

获取模块，用于：获取多个训练集，每个所述训练集均包含票据切片及对应文本信息，且每个所述训练集包含的票据切片对应字体和/或字符类型不同；

训练模块，用于：利用每个所述训练集分别对预先设置的网络进行训练，得到与多个所述训练集一一对应的多个文本识别模型；

识别模块，用于：获取对待识别票据进行切片得到的多个待识别切片，将每个所述待识别切片分别输入到字体及字符类型分别与该待识别切片对应字体及字符类型一一对应相同的文本识别模型中，将对应文本识别模型输出的文本信息汇总得到所述待识别票据的文本识别结果。

优选的，所述识别模块包括：

识别单元，用于：将每个所述待识别切片同时分别输入到对应的文本识别模型中。

优选的，还包括：

输出模块，用于：将对应文本识别模型输出的文本信息汇总得到所述待识别票据的文本识别结果之后，将得到的所述待识别票据的文本识别结果输出至管理模块，以指示所述管理模块统计得到全部待识别票据及对应文本识别结果的统计信息。

优选的，所述训练模块包括：

训练单元，用于：确定每个所述训练集中任一训练集为目标训练集，利用所述目标训练集对预先设置的网络进行训练，得到当前网络模型；验证当前网络模型的识别精度，如果该识别精度达到精度阈值，则确定当前网络模型为训练得到的文本识别模型，否则，调整当前网络模型的参数，利用所述目标训练集对当前网络模型进行训练，得到当前网络模型，返回执行验证当前网络模型的识别精度的步骤。

一种票据文本识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述票据文本识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述票据文本识别方法的步骤。

本发明提供了一种票据文本识别方法、装置、设备及存储介质，该方法包括：获取多个训练集，每个所述训练集均包含票据切片及对应文本信息，且每个所述训练集包含的票据切片对应字体和/或字符类型不同；利用每个所述训练集分别对预先设置的网络进行训练，得到与多个所述训练集一一对应的多个文本识别模型；获取对待识别票据进行切片得到的多个待识别切片，将每个所述待识别切片分别输入到字体及字符类型分别与该待识别切片对应字体及字符类型一一对应相同的文本识别模型中，将对应文本识别模型输出的文本信息汇总得到所述待识别票据的文本识别结果。本申请获取到多个包含票据切片及对应文本信息的训练集后，每个训练集包含的票据切片对应不同字体和/或字符类型，利用多个训练集得到与每个字体及每个字符类型对应的文本识别模型，从而只要存在相应字体及相应字符类型的票据或票据切片，均可以利用训练好的文本识别模型进行文本识别，可见，本申请仅训练一次对应文本识别模型即可实现后续全部相应票据或票据切片的文本识别，从而提高了文本识别效率，且每种文本识别模型均针对同一字体及同一字符类型，从而在实现票据的文本识别时能够具有较高的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种票据文本识别方法的流程图；

图2为本发明实施例提供的一种票据文本识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种票据文本识别方法的流程图，可以包括：

S11：获取多个训练集，每个训练集均包含票据切片及对应文本信息，且每个训练集包含的票据切片对应字体和/或字符类型不同。

本发明实施例提供的一种票据文本识别方法可以为对应的票据文本识别装置；本申请可以应用于金融行业的票据(发票、转账支票、进账单等)的文本识别，当然也可以应用于其他需要对票据进行文本识别的领域，均在本发明的保护范围之内。其中，票据图像即为对票据进行拍摄得到的彩色图像，对票据图像进行切片可以得到相应的票据切片，每种票据切片仅包含一种字体及一种字符类型的字符，从而得到多个票据切片后，将包含字体及字符类型均相同的票据切片划分到一个训练集中，并得到训练集中每个票据切片包含的文本的文本信息作为对应票据切片的标签；进而得到多个训练集。

其中，字体表示字符的书写形式，一般可以包括手写体及印刷体；字符类型表示字符的书写内容，一般可以包括数字、汉字、大写金额、小写金额等；当然根据实际需要设置的其他字体及字符类型也均在本发明的保护范围之内。

S12：利用每个训练集分别对预先设置的网络进行训练，得到与多个训练集一一对应的多个文本识别模型。

其中，网络可以为循环神经网络，还可以为根据实际需要设置的其他网络，均在本发明的保护范围之内；利用每个训练集分别对预先设置的网络进行训练，此处的训练可以是并发实现的，进而得到与每个训练集一一对应的多个文本识别模型，用于识别与训练集包含的票据的字体及字符类型均相同的票据的文本识别。

S13：获取对待识别票据进行切片得到的多个待识别切片，将每个待识别切片分别输入到字体及字符类型分别与该待识别切片对应字体及字符类型一一对应相同的文本识别模型中，将对应文本识别模型输出的文本信息汇总得到待识别票据的文本识别结果。

如果需要对某一票据图像进行识别，则可以确定该票据图像为待识别票据；对待识别票据进行切分处理，从而得到票据包含的多个票据切片为待识别切片，同一待识别切片包含的文本的字符类型及字体均相同；对于任一待识别切片来说，确定与该待识别切片的字符类型相同及字体相同的文本识别模型为目的文本识别模型，进而利用目的文本识别模型对该任一待识别切片进行文本识别，则可以得到该任一待识别切片的文本信息；最终将待识别票据包含的全部待识别切片的文本信息汇总，则可以得到待识别票据的文本识别结果。

通过这种方式，对于包含同一字体及同一字符类型的文本的票据切片，均可以利用训练得到的上述文本识别模型进行文本识别；而对于新的票据，只要符合上述特点，也可以利用上述文本识别模型进行文本识别；从而保证文本识别准确性的同时，仅需训练一次对应文本识别模型即可，大大提高了文本识别的效率。

本申请获取到多个包含票据切片及对应文本信息的训练集后，每个训练集包含的票据切片对应不同字体和/或字符类型，利用多个训练集得到与每个字体及每个字符类型对应的文本识别模型，从而只要存在相应字体及相应字符类型的票据或票据切片，均可以利用训练好的文本识别模型进行文本识别，可见，本申请仅训练一次对应文本识别模型即可实现后续全部相应票据或票据切片的文本识别，从而提高了文本识别效率，且每种文本识别模型均针对同一字体及同一字符类型，从而在实现票据的文本识别时能够具有较高的识别准确率。

本发明实施例提供的一种票据文本识别方法，将每个待识别切片分别输入到对应的文本识别模型中，可以包括：

将每个待识别切片同时分别输入到对应的文本识别模型中。

本申请在实现待识别切片的文本识别时，会将多个待识别切片同时输入至对应的文本识别模型中，从而实现多个待识别切片的并发识别，进一步提高了票据文本识别的效率。

本发明实施例提供的一种票据文本识别方法，将对应文本识别模型输出的文本信息汇总得到待识别票据的文本识别结果之后，还可以包括：

将得到的待识别票据的文本识别结果输出至管理模块，以指示管理模块统计得到全部待识别票据及对应文本识别结果的统计信息。

为了方便对于待识别票据识的文本识别结果的汇总，本申请在得到每个待识别票据的文本识别结果后，会自动将文本识别结果输出至指定的管理模块，以使得管理模块基于接收到信息得到全部待识别票据及对应文本识别结果的统计信息，方便用户查看。

本发明实施例提供的一种票据文本识别方法，利用每个训练集分别对预先设置的网络进行训练多个文本识别模型，可以包括：

确定每个训练集中任一训练集为目标训练集，利用目标训练集对预先设置的网络进行训练，得到当前网络模型；

验证当前网络模型的识别精度，如果该识别精度达到精度阈值，则确定当前网络模型为训练得到的文本识别模型，否则，调整当前网络模型的参数，利用目标训练集对当前网络模型进行训练，得到当前网络模型，返回执行验证当前网络模型的识别精度的步骤。

其中，精度阈值可以根据实际需要进行设定，如果识别精度达到精度阈值，则确定对应网络模型的识别精度达到要求，否则，则说明需要继续对对应网络模型进行训练；而验证网络模型的识别精度的方式可以是利用预先得到的、包含与网络模型同字体同字符类型的票据及对应文本信息的验证集对网络模型进行验证得到的；从而通过上述方式，使得训练得到的文本识别模型均具有较高的精度，从而进一步提高文本识别准确率。

另外，对于印刷体训练得到的模型可以称为通用模型，对于手写体训练得到的模型可以称为定制模型，则本申请可以包括以下文本识别模型：

印刷体通用汉字：通用汉字模型；

印刷体通用数字：通用数字模型；

印刷体大写金额：通用大写金额模型；

印刷体小写金额：通用小写金额模型；

手写体通用数字：定制数字模型；

手写体通用汉字：定制汉字模型；

手写体大写金额：定制大写金额模型；

手写体小写金额：定制小写金额模型。

从而按照字体及字符类型对票据中的文本采用特有的方式进行文本识别，从而使得未经过学习的票据也可以实现文本识别，提高了票据的整体识别正确率，节省了训练时间，节省了OCR响应时间，使OCR的应用票据范围更广。

本发明实施例还提供了一种票据文本识别装置，如图2所示，可以包括：

获取模块11，用于：获取多个训练集，每个训练集均包含票据切片及对应文本信息，且每个训练集包含的票据切片对应字体和/或字符类型不同；

训练模块12，用于：利用每个训练集分别对预先设置的网络进行训练，得到与多个训练集一一对应的多个文本识别模型；

识别模块13，用于：获取对待识别票据进行切片得到的多个待识别切片，将每个待识别切片分别输入到字体及字符类型分别与该待识别切片对应字体及字符类型一一对应相同的文本识别模型中，将对应文本识别模型输出的文本信息汇总得到待识别票据的文本识别结果。

本发明实施例提供的一种票据文本识别装置，识别模块可以包括：

识别单元，用于：将每个待识别切片同时分别输入到对应的文本识别模型中。

本发明实施例提供的一种票据文本识别装置，还可以包括：

输出模块，用于：将对应文本识别模型输出的文本信息汇总得到待识别票据的文本识别结果之后，将得到的待识别票据的文本识别结果输出至管理模块，以指示管理模块统计得到全部待识别票据及对应文本识别结果的统计信息。

本发明实施例提供的一种票据文本识别装置，训练模块可以包括：

训练单元，用于：确定每个训练集中任一训练集为目标训练集，利用目标训练集对预先设置的网络进行训练，得到当前网络模型；验证当前网络模型的识别精度，如果该识别精度达到精度阈值，则确定当前网络模型为训练得到的文本识别模型，否则，调整当前网络模型的参数，利用目标训练集对当前网络模型进行训练，得到当前网络模型，返回执行验证当前网络模型的识别精度的步骤。

本发明实施例还提供了一种票据文本识别设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项票据文本识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上任一项票据文本识别方法的步骤。

需要说明的是，本发明实施例提供的一种票据文本识别装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种票据文本识别方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种票据文本识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将每个所述待识别切片分别输入到对应的文本识别模型中，包括：

3.根据权利要求2所述的方法，其特征在于，将对应文本识别模型输出的文本信息汇总得到所述待识别票据的文本识别结果之后，还包括：

4.根据权利要求3所述的方法，其特征在于，利用每个所述训练集分别对预先设置的网络进行训练多个文本识别模型，包括：

5.一种票据文本识别装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述识别模块包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

9.一种票据文本识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述票据文本识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述票据文本识别方法的步骤。