CN114140649A

CN114140649A - 票据分类方法、票据分类装置、电子设备和存储介质

Info

Publication number: CN114140649A
Application number: CN202111487358.8A
Authority: CN
Inventors: 李虎; 吴松霖; 李睿之; 郑邦东; 熊博颖
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-04

Abstract

本公开提供了一种票据分类方法及装置，可以应用于人工智能技术领域和金融领域。该票据分类方法包括：获取待分类票据图像，其中，待分类票据图像是对初始票据图像进行剪裁而生成的；将待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，第一识别结果包括待分类票据图像中的文本位置和文本内容；基于第一识别结果，从票据模板库中确定与第一识别结果相匹配的目标票据模板，其中，票据模板库中的票据模板的尺寸与待分类票据图像的尺寸相对应；以及根据目标票据模板生成分类结果。此外，本公开还提供了一种票据分类装置、一种电子设备、一种可读存储介质和一种计算机程序产品。

Description

票据分类方法、票据分类装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域和金融领域，更具体地，涉及一种票据分类方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

票据图像的分类方法主要包括传统图像法和深度学习法，传统图像法主要是通过人工设置一些图像特征来进行匹配。传统图像法由于其准确率不高而逐渐被其他方法取代。

深度学习法主要包括图像分类法和目标检测法。图像分类法是指利用卷积神经网络后接Softmax搭建分类器，从而直接输出票据类别；目标检测法是指利用卷积神经网络搭建检测器来检测多个定位标，从而输出票据类别。

在实现本公开构思的过程中，发明人发现相关技术中的基于深度学习法的票据图像分类方法是基于训练完成的深度学习模型进行的，而由于深度学习模型是根据训练预期所包括的识别类别所训练的，网络结构与识别类别相适应，当需要新增识别类别时，则需要对深度学习模型进行重新训练，并且新增识别类别数越多，需要的训练数据就越大。因而，亟需一种在新增类别的情况下无需重新训练并且分类速度满足实际应用需求的票据分类方法。

发明内容

有鉴于此，本公开提供了一种票据分类方法、一种票据分类装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

作为本公开的第一个方面，提供了一种票据分类方法，包括：

获取待分类票据图像，其中，上述待分类票据图像是对初始票据图像进行剪裁而生成的；

将上述待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，上述第一识别结果包括上述待分类票据图像中的文本位置和文本内容；

基于上述第一识别结果，从票据模板库中确定与上述第一识别结果相匹配的目标票据模板，其中，上述票据模板库中的票据模板的尺寸与上述待分类票据图像的尺寸相对应；以及

根据上述目标票据模板生成分类结果。

根据本公开的实施例，其中，上述票据模板库中的票据模板具有票据标题信息，上述标题信息包括标题位置信息和标题内容信息；

在上述基于上述第一识别结果，从票据模板库中确定与上述第一识别结果相匹配的目标票据模板之前，还包括：

对上述票据标题信息和上述第一识别结果进行匹配，生成匹配结果；

在上述匹配结果表征上述第一识别结果和上述票据标题信息具有匹配关系的情况下，基于上述第一识别结果，从票据模板库中确定与上述识别结果相匹配的目标票据模板。

根据本公开的实施例，还包括：

在上述匹配结果表征上述识别结果和上述票据标题信息不具有匹配关系的情况下，将上述初始票据图像输入预先训练完成的票据识别模型，输出第二识别结果，其中，上述第二识别结果包括上述初始票据图像中的文本位置和文本内容；

基于上述第二识别结果，从票据模板库中确定与上述第二识别结果相匹配的目标票据模板；以及

根据上述目标票据模板生成分类结果。

根据本公开的实施例，还包括：

获取上述初始票据图像的尺寸信息；

根据上述尺寸信息对初始票据模板库中的初始模板进行筛选，生成上述票据模板库，其中，上述票据模板库中的模板数量小于上述初始票据模板库中的模板数量。

根据本公开的实施例，其中，上述基于上述第一识别结果，从票据模板库中确定与上述第一识别结果相匹配的目标票据模板包括：

将上述文本内容与上述票据模板库中的票据模板的标签内容进行匹配，生成文本匹配结果；

在上述文本匹配结果表征上述文本内容与上述标签内容具有匹配关系的情况下，将与上述文本内容相对应的文本位置和与上述标签内容相对应的标签位置进行匹配，生成位置匹配结果；

在上述位置匹配结果表征上述标签位置和上述文本位置具有匹配关系的情况下，将上述票据模板作为上述目标票据模板。

根据本公开的实施例，其中，上述票据识别模型包括位置识别器和文本识别器，其中，上述位置识别器包括卷积层、循环层和全连接层；

上述将上述待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果包括：

将上述待分类票据图像输入卷积层，输出空间特征数据；

将上述空间特征数据输入上述循环层，输出时序特征数据；

将上述时序特征数据输入上述全连接层，生成多个预测文本候选框；

利用文本线构造算法对多个上述预测文本候选框进行合并，生成表征上述文本位置的文本框；

利用上述文本识别器对上述文本框中的文本进行识别，生成上述文本内容。

作为本公开的第二个方面，提供了一种票据分类装置，包括：

获取模块，用于获取待分类票据图像，其中，上述待分类票据图像是对初始票据图像进行剪裁而生成的；

识别模块，用于将上述待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，上述第一识别结果包括上述待分类票据图像中的文本位置和文本内容；

确定模块，用于基于上述第一识别结果，从票据模板库中确定与上述第一识别结果相匹配的目标票据模板，其中，上述票据模板库中的票据模板的尺寸与上述待分类票据图像的尺寸相对应；以及

生成模块，根据上述目标票据模板生成分类结果。

作为本公开的第三个方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个指令，其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上上述的方法。

作为本公开的第四个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上上述的方法。

作为本公开的第五个方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述指令在被执行时用于实现如上上述的方法。

根据本公开的实施例，因为采用了对初始票据图像进行剪裁而生成待分类票据图像，然后利用票据识别模型识别出待分类票据图像中的识别结果，识别结果包括文本内容和文本位置，基于识别结果确定目标票据模板，根据目标票据模板确定待分类票据图像的分类结果的技术手段，由于分类结果是根据识别结果与票据模板库中的票据模板的对应关系而确定的，从而在需要增加票据分类类别时，仅需增加票据模板即可，进一步的，由于待分类票据图像是对初始票据图像进行剪裁而生成的，所以减少了与票据模板匹配时的文本位置和文本内容的数量，提高了匹配速度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用票据分类方法的示例性系统架构100；

图2示意性示出了根据本公开实施例的票据分类方法的流程图；

图3示意性示出了根据本公开实施例的票据模板库生成方法的流程图；

图4示意性示出了根据本公开实施例的基于票据标题信息确定目标票据模板方法的流程图；

图5示意性示出了根据本公开实施例的生成分类结果方法的流程图；

图6示意性示出了根据本公开实施例的利用票据识别模型生成文本位置和文本内容方法的流程图；

图7示意性示出了根据本公开实施例的基于文本内容和文本位置确定目标票据模板方法的流程图；

图8示意性示出了根据本公开另一实施例的票据分类装置800的框图；以及

图9示意性示出了根据本公开另一实施例的适于实现票据分类方法的计算机系统900的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在信息快速增长的时代，某些企业的票据可能会包括多种类型。票据分类属于分类任务，是指对票据的扫描图片进行分类，输出票据的所属类别。目前票据图像的分类方法主要包括传统图像法和深度学习法。

传统图像法主要是通过人工设置一些图像特征来进行匹配。传统图像法由于其准确率不高而逐渐被其他方法取代。

在实现本公开构思的过程中，发明人发现相关技术中的基于深度学习法的票据图像分类方法是基于训练完成的深度学习模型进行的，而由于深度学习模型是根据训练预期所包括的识别类别所训练的，网络结构与识别类别相适应，当需要新增识别类别时，则需要对深度学习模型进行重新训练，并且新增识别类别数越多，需要的训练数据就越大。

为了至少部分地解决相关技术中存在的技术问题，本公开的实施例提供了一种票据分类方法包括：获取待分类票据图像，其中，待分类票据图像是对初始票据图像进行剪裁而生成的；将待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，第一识别结果包括待分类票据图像中的文本位置和文本内容；基于第一识别结果，从票据模板库中确定与第一识别结果相匹配的目标票据模板，其中，票据模板库中的票据模板的尺寸与待分类票据图像的尺寸相对应；以及根据目标票据模板生成分类结果。本公开还提供了一种票据分类装置、电子设备、计算机存储介质和计算机程序产品。

需要说明的是，本公开实施例提供的票据分类方法及装置可用于人工智能技术领域和金融领域，例如银行在处理柜面业务的纸质票据时，会将票据扫描成图片以便进行之后的处理。本公开实施例提供的票据分类方法及装置也可用于除人工智能技术领域和金融领域之外的任意领域，例如制造业中对订货单、生产计划等表单的处理。本公开实施例对票据分类方法及装置的应用领域不做限定。

图1示意性示出了根据本公开实施例的可以应用票据分类方法的示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的显示内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的信息或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的票据分类方法一般可以由服务器105执行。相应地，本公开实施例所提供的票据分类装置一般可以设置于服务器105中。本公开实施例所提供的票据分类方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的票据分类装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者，本公开实施例所提供的票据分类方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本公开实施例所提供的票据分类装置也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

例如，初始票据图像可以原本存储在终端设备101、102、或103中的任意一个(例如，终端设备101，但不限于此)之中，或者存储在外部存储设备上并可以导入到终端设备101中。然后，终端设备101可以在本地执行本公开实施例所提供的票据分类方法，或者将初始票据图像发送到其他终端设备、服务器、或服务器集群，并由接收该初始票据图像的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的票据分类方法。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的票据分类方法的流程图。

如图2所示，该方法包括操作S201～S204。

在操作S201，获取待分类票据图像，其中，待分类票据图像是对初始票据图像进行剪裁而生成的。

根据本公开的实施例，初始票据图像可以为将纸质票据进行扫描后直接得到的原始尺寸的图像。

根据本公开的实施例，剪裁可以采用规则分幅裁剪和不规则分幅裁剪等技术手段，能够实现对表示图像的对应矩阵数据进行处理即可。

根据本公开的实施例，待分类票据图像可以为对原始尺寸的初始票据图像进行固定比例剪裁后得到的部分图像，该部分图像可以包括具有票据标题信息的文本位置和文本内容。

在操作S202，将待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，第一识别结果包括待分类票据图像中的文本位置和文本内容。

根据本公开的实施例，票据识别模型可以是任意种类的数学模型，包括但不限于高阈值的自适应二值化模型、卷积神经网络模型和Haar特征分类器模型。

根据本公开的实施例，第一识别结果可以为将待分类票据图像输入预先训练完成的票据识别模型后得到的，其中，待分类票据图像为对原始尺寸的初始票据图像进行固定比例剪裁后得到的部分图像。

在操作S203，基于第一识别结果，从票据模板库中确定与第一识别结果相匹配的目标票据模板，其中，票据模板库中的票据模板的尺寸与待分类票据图像的尺寸相对应。

在操作S204，根据目标票据模板生成分类结果。

根据本公开的实施例，分类结果例如可以为股票、债券、发票、提单、存单、汇票、本票、支票等。

下面参考图3～图7，结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的票据模板库生成方法的流程图。

如图3所示，该方法包括操作S301～S302。

在操作S301，获取初始票据图像的尺寸信息。

根据本公开的实施例，尺寸信息可以包括初始票据图像的长和宽，不同种类、不同用途的票据图像会有各自对应的长和宽，例如：合同票据尺寸一般为285*210mm，协议书票据尺寸一般为260*185mm，报销单票据尺寸一般为210*145mm，出入库单票据尺寸一般为260*185mm等。

在操作S302，根据尺寸信息对初始票据模板库中的初始模板进行筛选，生成票据模板库，其中，票据模板库中的模板数量小于初始票据模板库中的模板数量。

根据本公开的实施例，初始票据模板库可以保存有预先制作好的各种票据的标准模板，模板的内容可以包括票据的尺寸、标签内容和与标签内容相对应的标签位置。

根据本公开的实施例，可以根据初始票据图像的尺寸信息，与初始票据模板库中各种票据的标准模板的尺寸进行比较，排除出尺寸明显不对应的票据模板后生成票据模板库。

根据本公开的实施例，利用基于初始票据图像的尺寸信息对初始票据模板库中的初始模板进行筛选，初步排除了与初始票据图像明显不相符的模板，从而在后续确定目标票据模板的阶段中，减少了需要进行匹配的模板数量，提高了匹配速度。

图4示意性示出了根据本公开实施例的基于票据标题信息确定目标票据模板方法的流程图。

如图4所示，该方法包括操作S401～S402。

在操作S401，对票据标题信息和第一识别结果进行匹配，生成匹配结果。

根据本公开的实施例，票据模板库中的票据模板具有票据标题信息，票据标题信息包括标题位置信息和标题内容信息。

根据本公开的实施例，匹配结果可以为表征第一识别结果和票据标题信息是否具有匹配关系。

在操作S402，在匹配结果表征第一识别结果和票据标题信息具有匹配关系的情况下，基于第一识别结果，从票据模板库中确定与第一识别结果相匹配的目标票据模板。

根据本公开的实施例，目标票据模板可以为票据模板库中与第一识别结果相匹配的标准模板，其中，第一识别结果为对剪裁后的部分图像进行识别后得到的，票据模板库中包括与初始票据图像的原始尺寸信息相符的各种票据模板。

根据本公开的实施例，通过对剪裁后的部分图像进行识别得到第一识别结果，并对模板中包括的票据标题信息和第一识别结果进行匹配，在第一识别结果包括标题内容的前提下，可以利用标题匹配直接确定目标票据模板，提高了匹配准确度。

图5示意性示出了根据本公开实施例的生成分类结果方法的流程图。

如图5所示，该方法包括操作S501～S503。

在操作S501，在匹配结果表征第一识别结果和票据标题信息不具有匹配关系的情况下，将初始票据图像输入预先训练完成的票据识别模型，输出第二识别结果，其中，第二识别结果包括初始票据图像中的文本位置和文本内容。

根据本公开的实施例，第一识别结果和票据标题信息不具有匹配关系的情况，例如可以为初始票据图像的标题未在剪裁的待分类票据图像部分，或者标题没有检测出来等。

根据本公开的实施例，票据识别模型包括位置识别器和文本识别器，其中，位置识别器包括卷积层、循环层和全连接层。

根据本公开的实施例，第二识别结果可以为在匹配结果表征识别结果和票据标题信息不具有匹配关系的情况下，将原始尺寸的初始票据图像输入票据识别模型后得到的，其中，匹配结果为票据标题信息和第一识别结果进行匹配后生成的。

在操作S502，基于第二识别结果，从票据模板库中确定与第二识别结果相匹配的目标票据模板。

根据本公开的实施例，目标票据模板可以为票据模板库中与第二识别结果相匹配的标准模板，其中，第二识别结果为对原始尺寸的初始票据图像进行识别后得到的，票据模板库中包括与初始票据图像的原始尺寸信息相符的各种票据模板。

在操作S503，根据目标票据模板生成分类结果。

根据本公开的实施例，在第一识别结果和票据标题信息不具有匹配关系时，通过票据识别模型直接识别剪裁前的初始票据图像，得到第二识别结果，可以实现对未包含标题信息的待分类票据图像的再次处理，提高了票据分类的召回率。

图6示意性示出了根据本公开实施例的利用票据识别模型生成文本位置和文本内容方法的流程图。

如图6所示，该方法包括操作S601～S605。

在操作S601，将待分类票据图像输入卷积层，输出空间特征数据。

根据本公开的实施例，卷积层的作用是提取待分类票据图像的特征，卷积层可以采用VGG16主干网络，包含由13个卷积层和3个全连接层组成的16个隐藏层。

根据本公开的实施例，待分类票据图像经过卷积层后得到conv5_3的特征作为feature map，大小是W×H×C，在feature map上使用大小为3*3的滑动窗进行滑动，每个窗口都能得到一个长度为3×3×C的特征向量，最后一个feature map每个像素点生成若干个anchor，每个滑动窗口中心都会预测k个相对于anchor的偏移，与真实框重合最大的anchor负责预测，每个文字的预测anchor即作为空间特征数据。

在操作S602，将空间特征数据输入循环层，输出时序特征数据。

根据本公开的实施例，循环层为了防止训练过程中的梯度消失，可以采用LSTM(Long Short-Term Memory，长短期记忆神经单元)作为循环层的单元。

根据本公开的实施例，循环层可以采用双向循环网络以便序列的前向信息和后向信息都作用于序列的预测。

根据本公开的实施例，可以将通过卷积层得到的空间特征数据输入到一个双向的LSTM中，得到长度为W×256的时序特征数据。

在操作S603，将时序特征数据输入全连接层，生成多个预测文本候选框。

根据本公开的实施例，可以将通过循环层得到的长度为W×256的时序特征数据输入到全连接层。全连接层输出的预测文本候选框包括：2k个vertical coordinate，表示相对anchor的偏移，其中，因为每个anchor用的是中心位置的高(y坐标)和矩形框的高度两个值表示的，所以一个用2k个输出；2k个score，表示预测的k个text proposal中text和non-text的分数；k个side-refinement，表示每个proposal的水平平移量，用于精修文本行的两个端点。

在操作S604，利用文本线构造算法对多个预测文本候选框进行合并，生成表征文本位置的文本框。

根据本公开的实施例，文本线构造算法可以将自然环境中的文本信息位置加以检测。文本线构造算法首先把一行中的每个text proposal框选出来，然后把得到的每个的text proposal合并连接成一个文本检测框。

根据本公开的实施例，对基于每个文字的预测anchor和全连接层输出的预测文本候选框，得到每个文字修正后的预测anchor，并将所有修正后的anchor合并得到文本行，并生成表征文本位置的文本框。

根据本公开的实施例，表征文本位置的文本框可以为每个的文本框4个角点的坐标，例如，(0，0)、(0，2)、(2，0)和(2，2)。

在操作S605，利用文本识别器对文本框中的文本进行识别，生成文本内容。

根据本公开的实施例，文本识别器可以基于任意种类的技术，包括但不限于通过链接组件、使用网格、光学字符识别、LSTM网络和图像非均匀分割技术等。

根据本公开的实施例，文本识别器例如可以基于CRNN(Convolutional RecurrentNeural Network)构建生成，主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，即基于图像的序列识别。

根据本公开的实施例，文本内容可以包括与每个文本框位置分别对应的文字内容，其中，文本框为基于文本线构造算法生成的。

根据本公开的实施例，利用包括卷积层、循环层和全连接层的位置识别器和文本识别器，构建票据识别模型。通过文本线构造算法生成表征文本位置的文本框，通过文本识别器生成文本内容，实现了对待分类票据图像的文本本行定位和文字识别。

图7示意性示出了根据本公开实施例的基于文本内容和文本位置确定目标票据模板方法的流程图。

如图7所示，该方法包括操作S701～S703。

在操作S701，将文本内容与票据模板库中的票据模板的标签内容进行匹配，生成文本匹配结果。

根据本公开的实施例，可以对文本内容与标签内容进行匹配，如果文本内容和标签内容的相似度大于设定阈值，则认为该文本内容与标签内容匹配上，然后遍历所有识别出的文本框，得出所有匹配上的文本框个数和已匹配上的字符个数，生成文本匹配结果。

根据本公开的实施例，阈值可以由本领域技术人员根据实际应用情况而灵活设置，本公开实施例不对预设阈值大小进行限定。

根据本公开的实施例，文本匹配结果可以表征文本内容与标签内容的内容匹配程度。

在操作S702，在文本匹配结果表征文本内容与标签内容具有匹配关系的情况下，将与文本内容相对应的文本位置和与标签内容相对应的标签位置进行匹配，生成位置匹配结果。

根据本公开的实施例，位置匹配结果可以表征文本位置与标签位置的位置匹配程度。

在操作S703，在位置匹配结果表征标签位置和文本位置具有匹配关系的情况下，将票据模板作为目标票据模板。

根据本公开的实施例，可以遍历模板数据库中的所有模板，选取内容匹配程度和位置匹配程度最高的作为目标匹配结果，将该目标匹配结果与预设匹配度进行比较，如果超过该预设匹配度，则将与该目标匹配结果对应的模板的类型作为目标票据模板。

根据本公开的实施例，通过文本内容和文本位置确定目标票据模板，可以基于该目标票据模板确定待分类票据图像的分类结果。

需要说明的是，本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序，或者不同操作在技术实现上存在执行的先后顺序，否则，多个操作之间的执行顺序可以不分先后，多个操作也可以同时执行。

图8示意性示出了根据本公开另一实施例的票据分类装置的框图。

如图8所示，票据分类装置包括第二获取模块801、第一识别模块802、第三确定模块803和第三生成模块804。

第二获取模块801，用于获取待分类票据图像，其中，待分类票据图像是对初始票据图像进行剪裁而生成的。

第一识别模块802，用于将待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，第一识别结果包括待分类票据图像中的文本位置和文本内容。

第三确定模块803，用于基于第一识别结果，从票据模板库中确定与第一识别结果相匹配的目标票据模板，其中，票据模板库中的票据模板的尺寸与待分类票据图像的尺寸相对应。

第三生成模块804，根据目标票据模板生成分类结果。

根据本公开的实施例，票据分类装置还包括第一获取模块和第一生成模块。

第一获取模块，用于获取初始票据图像的尺寸信息。

第一生成模块，用于根据尺寸信息对初始票据模板库中的初始模板进行筛选，生成票据模板库，其中，票据模板库中的模板数量小于初始票据模板库中的模板数量。

根据本公开的实施例，票据分类装置还包括匹配模块和第一确定模块。

匹配模块，用于对票据标题信息和第一识别结果进行匹配，生成匹配结果。

第一确定模块，用于在匹配结果表征第一识别结果和票据标题信息具有匹配关系的情况下，基于第一识别结果，从票据模板库中确定与识别结果相匹配的目标票据模板。

根据本公开的实施例，票据分类装置还包括第二识别模块、第二确定模块和第二生成模块。

第二识别模块，用于在匹配结果表征识别结果和票据标题信息不具有匹配关系的情况下，将初始票据图像输入预先训练完成的票据识别模型，输出第二识别结果，其中，第二识别结果包括初始票据图像中的文本位置和文本内容。

第二确定模块，用于基于第二识别结果，从票据模板库中确定与第二识别结果相匹配的目标票据模板。

第二生成模块，根据目标票据模板生成分类结果。

根据本公开的实施例，识别模块802包括第一输出单元、第二输出单元、第一生成单元、第二生成单元和第三生成单元。

第一输出单元，用于将待分类票据图像输入卷积层，输出空间特征数据。

第二输出单元，用于将空间特征数据输入循环层，输出时序特征数据。

第一生成单元，用于将时序特征数据输入全连接层，生成多个预测文本候选框。

第二生成单元，用于利用文本线构造算法对多个预测文本候选框进行合并，生成表征文本位置的文本框。

第三生成单元，用于利用文本识别器对文本框中的文本进行识别，生成文本内容。

根据本公开的实施例，确定模块803包括第四生成单元、第五生成单元和确定单元。

第四生成单元，用于将文本内容与票据模板库中的票据模板的标签内容进行匹配，生成文本匹配结果。

第五生成单元，用于在文本匹配结果表征文本内容与标签内容具有匹配关系的情况下，将与文本内容相对应的文本位置和与标签内容相对应的标签位置进行匹配，生成位置匹配结果。

确定单元，用于在位置匹配结果表征标签位置和文本位置具有匹配关系的情况下，将票据模板作为目标票据模板。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第二获取模块801、第一识别模块802、第三确定模块803和第三生成模块804中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，获第二获取模块801、第一识别模块802、第三确定模块803和第三生成模块804中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第二获取模块801、第一识别模块802、第三确定模块803和第三生成模块804中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中票据分类装置部分与本公开的实施例中票据分类方法部分是相对应的，票据分类装置部分的描述具体参考票据分类方法部分，在此不再赘述。

图9示意性示出了根据本公开另一实施例的适于实现票据分类方法的计算机系统的框图。图9示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，根据本公开实施例的计算机系统900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的票据分类方法。

在该计算机程序被处理器901执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种票据分类方法，包括：

获取待分类票据图像，其中，所述待分类票据图像是对初始票据图像进行剪裁而生成的；

将所述待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，所述第一识别结果包括所述待分类票据图像中的文本位置和文本内容；

基于所述第一识别结果，从票据模板库中确定与所述第一识别结果相匹配的目标票据模板，其中，所述票据模板库中的票据模板的尺寸与所述待分类票据图像的尺寸相对应；以及

根据所述目标票据模板生成分类结果。

2.根据权利要求1所述的方法，其中，所述票据模板库中的票据模板具有票据标题信息，所述标题信息包括标题位置信息和标题内容信息；

在所述基于所述第一识别结果，从票据模板库中确定与所述第一识别结果相匹配的目标票据模板之前，还包括：

对所述票据标题信息和所述第一识别结果进行匹配，生成匹配结果；

在所述匹配结果表征所述第一识别结果和所述票据标题信息具有匹配关系的情况下，基于所述第一识别结果，从票据模板库中确定与所述识别结果相匹配的目标票据模板。

3.根据权利要求2所述的方法，还包括：

在所述匹配结果表征所述识别结果和所述票据标题信息不具有匹配关系的情况下，将所述初始票据图像输入预先训练完成的票据识别模型，输出第二识别结果，其中，所述第二识别结果包括所述初始票据图像中的文本位置和文本内容；

基于所述第二识别结果，从票据模板库中确定与所述第二识别结果相匹配的目标票据模板；以及

根据所述目标票据模板生成分类结果。

4.根据权利要求1所述的方法，还包括：

获取所述初始票据图像的尺寸信息；

根据所述尺寸信息对初始票据模板库中的初始模板进行筛选，生成所述票据模板库，其中，所述票据模板库中的模板数量小于所述初始票据模板库中的模板数量。

5.根据权利要求1所述的方法，其中，所述基于所述第一识别结果，从票据模板库中确定与所述第一识别结果相匹配的目标票据模板包括：

将所述文本内容与所述票据模板库中的票据模板的标签内容进行匹配，生成文本匹配结果；

在所述文本匹配结果表征所述文本内容与所述标签内容具有匹配关系的情况下，将与所述文本内容相对应的文本位置和与所述标签内容相对应的标签位置进行匹配，生成位置匹配结果；

在所述位置匹配结果表征所述标签位置和所述文本位置具有匹配关系的情况下，将所述票据模板作为所述目标票据模板。

6.根据权利要求1所述的方法，其中，所述票据识别模型包括位置识别器和文本识别器，其中，所述位置识别器包括卷积层、循环层和全连接层；

所述将所述待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果包括：

将所述待分类票据图像输入卷积层，输出空间特征数据；

将所述空间特征数据输入所述循环层，输出时序特征数据；

将所述时序特征数据输入所述全连接层，生成多个预测文本候选框；

利用文本线构造算法对多个所述预测文本候选框进行合并，生成表征所述文本位置的文本框；

利用所述文本识别器对所述文本框中的文本进行识别，生成所述文本内容。

7.一种票据分类装置，包括：

第二获取模块，用于获取待分类票据图像，其中，所述待分类票据图像是对初始票据图像进行剪裁而生成的；

第一识别模块，用于将所述待分类票据图像输入预先训练完成的票据识别模型，输出第一识别结果，其中，所述第一识别结果包括所述待分类票据图像中的文本位置和文本内容；

第三确定模块，用于基于所述第一识别结果，从票据模板库中确定与所述第一识别结果相匹配的目标票据模板，其中，所述票据模板库中的票据模板的尺寸与所述待分类票据图像的尺寸相对应；以及

第三生成模块，根据所述目标票据模板生成分类结果。

8.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至6中任一项所述的方法。

10.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现权利要求1至6中任一项所述的方法。