CN112052858A

CN112052858A - 票据图像中目标字段的提取方法及相关装置

Info

Publication number: CN112052858A
Application number: CN202010911781.5A
Authority: CN
Inventors: 王建标
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-08
Anticipated expiration: 2040-09-02
Also published as: CN112052858B

Abstract

本申请提供了票据图像中目标字段的提取方法及相关装置，其中，方法可以包括：获取待处理票据图像；将所述待处理票据图像输入预设的区域检测模型，得到所述待处理票据图像中的目标区域；所述目标区域为包含待提取目标字段的区域；将所述目标区域输入预设的文字检测模型，得到所述目标区域中的各个文字分别所占的位置区域；对所述位置区域中的文字进行识别；按照预设的提取规则，从识别出的文字中提取所述目标字段。本申请可以提高目标字段的提取准确性。

Description

票据图像中目标字段的提取方法及相关装置

技术领域

本申请涉及图像处理领域，尤其涉及票据图像中目标字段的提取方法及相关装置。

背景技术

随着人工智能的兴起，银行业务中将光学字符识别(Optical CharacterRecognition，OCR)，应用于票据图像中目标字段的识别越来越广泛。

目前，从识别票据图像中的目标字段的方法包括：对票据图像中的全部字段进行检测，然后将检测出的全部字段分别进行识别，再从识别出的全部字段中提取目标字段。

发明内容

发明人在研究中发现，由于工作人员在处理业务的时候往往只需要票据图像中的几个特定字段(称为目标字段)的信息，对于非目标字段并不关心。因此，现有技术在从识别出的全部字段中提取目标字段这一过程，会出现非目标字段对目标字段的提取会造成干扰，进而，降低目标字段的提取准确性。

本申请提供了一种票据图像中目标字段的提取方法及装置，目的在于解决目标字段的提取准确性低的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请提供了一种票据图像中目标字段的提取方法，包括：

获取待处理票据图像；

将所述待处理票据图像输入预设的区域检测模型，得到所述待处理票据图像中的目标区域；所述目标区域为包含待提取目标字段的区域；

将所述目标区域输入预设的文字检测模型，得到所述目标区域中的各个文字分别所占的位置区域；其中，所述文字检测模型依据所述目标区域，预测核参数的取值，以及相似向量参数的取值，基于所述相似向量参数的取值修正所述核参数的取值，并通过修正后的核参数的取值重建输出文字的位置区域；其中，所述核参数的不同取值表示不同的文字；所述相似向量参数用于使得所述目标区域中相同文字分别对应的核参数取值间的距离小于预设阈值；

对所述位置区域中的文字进行识别；

按照预设的提取规则，从识别出的文字中提取所述目标字段。

可选的，所述区域检测模型为对预设的初始区域检测模型进行训练，得到的区域检测模型；

所述对预设的初始区域检测模型的训练过程，包括：

获取训练数据集；所述训练数据集包括：训练样本和样本标签；所述训练样本为预设的大量票据图像；所述样本标签为预先在所述票据图像中标记的包含目标字段的区域；

采用所述训练数据集对所述初始区域检测模型，进行训练；

将训练过程中满足预设训练条件时的区域检测模型，作为所述区域检测模型。

可选的，所述按照预设的提取规则，从识别出的文字中提取所述目标字段，包括：

检测目标字段包含的各种字段；

获取与所述各种字段分别对应的预设提取算法；所述预设提取算法是依据相应字段的特点设置得到；

采用所述预设提取算法，从识别出的文字中提取所述目标字段。

可选的，在所述获取待处理票据图像之后，且在所述将所述待处理票据图像输入预设的区域检测模型，得到所述待处理票据图像中的目标区域之前，还包括：

对所述待处理票据图像进行预处理；所述预处理包括：对所述待处理票据图像的方向检测、矫正和图像增强。

可选的，在所述按照预设的提取规则，从识别出的文字中提取所述目标字段之后，还包括：

输出所述目标字段。

本申请还提供了一种票据图像中目标字段的提取装置，包括：

获取模块，用于获取待处理票据图像；

第一执行模块，用于将所述待处理票据图像输入预设的区域检测模型，得到所述待处理票据图像中的目标区域；所述目标区域为包含待提取目标字段的区域；

第二执行模块，用于将所述目标区域输入预设的文字检测模型，得到所述目标区域中的各个文字分别所占的位置区域；其中，所述文字检测模型依据所述目标区域，预测核参数的取值，以及相似向量参数的取值，基于所述相似向量参数的取值修正所述核参数的取值，并通过修正后的核参数的取值重建输出文字的位置区域；其中，所述核参数的不同取值表示不同的文字；所述相似向量参数用于使得所述目标区域中相同文字分别对应的核参数取值间的距离小于预设阈值；

识别模块，用于对所述位置区域中的文字进行识别；

提取模块，用于按照预设的提取规则，从识别出的文字中提取所述目标字段。

可选的，所述区域检测模型为对预设的初始区域检测模型进行训练，得到的区域检测模型；所述装置还包括：

训练模块，用于对所述初始区域检测模型进行训练，包括：

所述训练模块，具体用于获取训练数据集；所述训练数据集包括：训练样本和样本标签；所述训练样本为预设的大量票据图像；所述样本标签为预先在所述票据图像中标记的包含目标字段的区域；采用所述训练数据集对所述初始区域检测模型，进行训练；将训练过程中满足预设训练条件时的区域检测模型，作为所述区域检测模型。

可选的，所述提取模块，用于按照预设的提取规则，从识别出的文字中提取所述目标字段，包括：

所述提取模块，具体用于检测目标字段包含的各种字段；获取与各种字段分别对应的预设提取算法；所述预设提取算法是依据相应字段的特点设置得到；采用所述预设提取算法，从识别出的文字中提取所述目标字段。

本申请还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任一所述的票据图像中目标字段的提取方法。

本申请还提供了一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述任一所述的票据图像中目标字段的提取方法。

本申请所述的票据图像中目标字段的提取方法及相关装置，获取待处理票据图像；将待处理票据图像输入预设的区域检测模型，得到待处理票据图像中的目标区域；检测目标区域中的文字；对所述文字进行识别；从识别出的文字中，提取目标字段。

一方面，由于目标区域为包含待提取目标字段的区域，并且，只对目标区域进行文字检测和识别，即本申请避免了对票据图像中的全部文字进行检测和识别，因此，本申请识别出的文字中非目标字段的文字，相对于现有技术减少，因此，本申请从识别出的文字中提取目标字段的过程中，非目标字段的文字对目标字段提取的干扰减少，进而，使得提取出的目标字段的准确性可以得到提高。

另一方面，本申请中，检测目标区域中文字的位置区域所采用的文字检测模型，是通过预测核参数的取值和相似向量的取值，重建出目标区域中各个文字的位置区域。由于核参数的不同取值代表不同的文字，即一个文字对应一个核参数取值，即通过核参数来逐个检测文字位置区域，从而优于以往的整体文字检测模型，此外，通过预测出的相似向量来修正文字核参数，使得相同文字分别对应的核参数取值间的距离小于预设阈值，即距离足够小，从而，使得文字检测模型输出的各个文字的位置区域的准确程度较高，进而，可以进一步提高提取出的目标字段的准确性。

综上所述，本申请可以提高目标字段的提取准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种票据图像中目标字段的提取方法的流程图；

图2为本申请实施例公开的一种票据图像中目标字段的提取装置的结构示意图；

图3为本申请实施例公开的一种设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种票据图像中目标字段的提取方法，可以包括以下步骤：

S101、获取待处理票据图像。

在本实施例中，待处理票据图像可以为银行境外汇款申请书的票据图像，当然，在实际中，待处理票据图像还可以为其他内容，本实施例不对待处理票据图像的具体内容作限定。

S102、对待处理票据图像进行预处理。

在本步骤中，预处理操作可以包括：对待处理票据图像的方向进行检测、在检测到待处理票据方向不满足预设条件的情况下，对待处理票据图像的方向进行矫正。

可选的，在本实施例中，预处理操作还可以包括图像增强。

需要说明的是，在本实施例中，本步骤是可选步骤，即在实际中，可以不执行本步骤的操作，只是执行本步骤的操作后，可以使得最终提取出的目标字段的准确性得到提高。

如果执行本步骤的操作，下一步骤就是针对预处理后的票据图像进行处理，如果不执行本步骤的操作，下一步骤就是对待处理票据图像进行处理。本实施例以待处理票据图像为例，进行介绍。

S103、将待处理票据图像输入预设的区域检测模型，得到待处理票据图像中的目标区域。

在本实施例中，目标区域为包含待提取目标字段的区域，即待提取的目标字段所在的区域，目标区域包括的文字一定少于票据图像中的全部文字。

在本实施例中，预设的区域检测模型是对初始区域检测模型进行训练得到的区域检测模型。其中，初始区域检测模型为初始构建的区域检测模型，具体的，对初始构建的区域检测模型进行训练的过程可以包括以下步骤A1～步骤A3：

A1、获取训练数据集。

在本步骤中，训练数据集可以包括：训练样本和样本标签。其中，训练样本为预设的大量票据图像。样本标签为预先在大量票据图像中标记的包含目标字段的区域。

可选的，在本步骤中，初始区域检测模型可以为YOLOv3模型，当然，在实际中，初始区域检测模型还可以为其他神经网络模型，本实施例不对初始区域检测模型的具体内容作限定。

A2、采用训练数据集对初始区域检测模型，进行训练。

本步骤的具体实现过程为现有技术，这里不再赘述。

A3、将训练过程中满足预设训练条件时的区域检测模型，作为所述区域检测模型。

在本步骤中，预设训练条件的具体内容，可以根据实际情况进行确定，本实施例不对预设训练条件的具体内容作限定。

本步骤的具体实现过程为现有技术，这里不再赘述。

S104、将目标区域输入预设的文字检测模型，得到目标区域中的各个文字分别所占的位置区域。

在本实施例中，文字检测模型是通过预设的训练数据集，对初始文字检测模型进行训练得到。其中，在本实施例中，训练数据集包括：训练样本和样本标签，其中，训练样本中标注了预设区域，样本标签中标注了预设区域中各个文字的位置区域。

具体的，采用预设的训练数据集对初始文字检测模型进行训练的过程，可以包括：将训练样本输入文字检测模型，文字检测模型预测出文字核参数和相似向量参数，其中，核参数的不同取值表示不同的文字，相似向量参数的取值，用于表示相同文字的核参数取值之间的距离，并通过相似向量参数修正核参数取值，通过修正后的核参数取值重建输出标记区域中各个文字的位置区域，通过计算输出的各个文字的位置区域与样本标签中标注的文字的位置区域间的损失函数，并通过损失函数值调整文字检测模型的参数，使得文字检测模型预测的相似向量参数可以保证来自相同文字的核参数取值之间的距离足够小。在达到预设训练条件的文字检测模型，作为完成训练的文字检测模型。

在本实施例中，文字检测模型在接收到目标区域后，执行的计算过程包括：首先，依据目标区域，预测核参数的取值以及相似向量参数的取值。然后，基于相似向量参数的取值修正核参数的取值。最后，通过修正后的核参数的取值重建输出文字的位置区域。

S105、对检测出的位置区域中的文字进行识别。

可选的，在本实施例中，可以采用CRNN识别算法模型，识别检测出的各个位置区域中的文字。当然，在实际中，还可以采用其他的识别算法，实现对各个位置区域中的文字进行识别，本实施例不对具体的识别方式作限定。

S106、按照预设的提取规则，从识别出的文字中提取目标字段。

可选的，本步骤的具体实现方式可以包括以下步骤B1～步骤B3：

B1、检测目标字段包含的各种字段。

在本实施例中，目标字段包含的字段需要根据实际情况确定，本实施例不对目标字段包含的字段内容作限定。

以银行境外汇款申请书的票据图像为例，目标字段可以包括：“姓名”字段和“银行卡名称”字段等。

B2、获取与各种字段分别对应的预设提取算法。

在本实施例中，分别针对每种字段，分别设置提取算法。其中，任意一种字段对应的提取算法，是依据该种字段对应的字段内容的特点设置的。

例如，“姓名”字段的字段内容是具体的姓名，并且，姓名的文字数量属于预设范围，因此，对于“年龄”字段，设置的提取算法是可以包含的文字数量属于预设范围。

B3、采用提取算法，从识别出的文字中提取目标字段。

在本步骤中，采用提取算法，从识别出的文字中提取目标字段的过程为现有技术，这里不再赘述。

可选的，在本实施例中，在提取出目标字段后，还可以输出目标字段。

在本实施例中，通过从票据图像中确定包含待提取目标字段的目标区域，由于该目标区域包括的文字数量少于票据图像中的全部文字的数量，因此，本实施例只对目标区域中的文字进行检测，使得检测出的文字位置区域的数量，比现有技术检测的文字数量少，并且，本实施例对检测出的位置区域中文字进行识别和目标字段的提取，因此，本实施例在提取出目标字段的前提下，对票据图像检测的文字的数量减少，因此，相对于现有技术，本实施例可以减少检测过程所耗费的计算资源，因此，本实施例可以节省计算资源。

图2为本申请实施例提供的一种票据图像中目标字段的提取装置，可以包括：获取模块201、第一执行模块202、第二执行模块203、识别模块204和提取模块205，其中，

获取模块201，用于获取待处理票据图像；

第一执行模块202，用于将所述待处理票据图像输入预设的区域检测模型，得到所述待处理票据图像中的目标区域；所述目标区域为包含待提取目标字段的区域；

第二执行模块203，用于将所述目标区域输入预设的文字检测模型，得到所述目标区域中的各个文字分别所占的位置区域；其中，所述文字检测模型依据所述目标区域，预测核参数的取值，以及相似向量参数的取值，基于所述相似向量参数的取值修正所述核参数的取值，并通过修正后的核参数的取值重建输出文字的位置区域；其中，所述核参数的不同取值表示不同的文字；所述相似向量参数用于使得所述目标区域中相同文字分别对应的核参数取值间的距离小于预设阈值；

识别模块204，用于对所述位置区域中的文字进行识别；

提取模块205，用于按照预设的提取规则，从识别出的文字中提取所述目标字段。

训练模块，用于对所述初始区域检测模型进行训练，包括：

可选的，所述提取模块205，用于按照预设的提取规则，从识别出的文字中提取所述目标字段，包括：

所述提取模块205，具体用于检测目标字段包含的各种字段；获取与各种字段分别对应的预设提取算法；所述预设提取算法是依据相应字段的特点设置得到；采用所述预设提取算法，从识别出的文字中提取所述目标字段。

可选的，该装置还可以包括：

预处理模块，用于对所述待处理票据图像进行预处理；所述预处理包括：对所述待处理票据图像的方向检测、矫正和图像增强。

可选的，该装置还可以包括：

输出模块，用于在所述按照预设的提取规则，从识别出的文字中提取所述目标字段之后，输出所述目标字段。

本实施例提供的票据图像中目标字段的提取装置可以提高提取的目标字段的准确性。

票据图像中目标字段的提取装置包括处理器和存储器，上述获取模块201、第一执行模块202、第二执行模块203、识别模块204和提取模块205等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高目标字段的提取准确性。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述票据图像中目标字段的提取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述票据图像中目标字段的提取方法。

本发明实施例提供了一种设备，如图3所示，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的票据图像中目标字段的提取方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取待处理票据图像；

对所述位置区域中的文字进行识别；

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书的各个实施例中记载的特征可以相互替换或者组合，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种票据图像中目标字段的提取方法，其特征在于，包括：

获取待处理票据图像；

对所述位置区域中的文字进行识别；

2.根据权利要求1所述的方法，其特征在于，所述区域检测模型为对预设的初始区域检测模型进行训练，得到的区域检测模型；

所述对预设的初始区域检测模型的训练过程，包括：

采用所述训练数据集对所述初始区域检测模型，进行训练；

3.根据权利要求1所述的方法，其特征在于，所述按照预设的提取规则，从识别出的文字中提取所述目标字段，包括：

检测目标字段包含的各种字段；

4.根据权利要求1所述的方法，其特征在于，在所述获取待处理票据图像之后，且在所述将所述待处理票据图像输入预设的区域检测模型，得到所述待处理票据图像中的目标区域之前，还包括：

5.根据权利要求1所述的方法，其特征在于，在所述按照预设的提取规则，从识别出的文字中提取所述目标字段之后，还包括：

输出所述目标字段。

6.一种票据图像中目标字段的提取装置，其特征在于，包括：

获取模块，用于获取待处理票据图像；

识别模块，用于对所述位置区域中的文字进行识别；

7.根据权利要求6所述的装置，其特征在于，所述区域检测模型为对预设的初始区域检测模型进行训练，得到的区域检测模型；所述装置还包括：

训练模块，用于对所述初始区域检测模型进行训练，包括：

8.根据权利要求6所述的装置，其特征在于，所述提取模块，用于按照预设的提取规则，从识别出的文字中提取所述目标字段，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1～5任意一项所述的票据图像中目标字段的提取方法。

10.一种设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1～5中任一项所述的票据图像中目标字段的提取方法。