CN111931664A

CN111931664A - 混贴票据图像的处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111931664A
Application number: CN202010807427.8A
Authority: CN
Inventors: 胡益清; 郑岩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-13
Anticipated expiration: 2040-08-12
Also published as: CN111931664B

Abstract

本发明公开了混贴票据图像的处理方法、装置、计算机设备及存储介质，该方法包括：获取混贴票据图像，所述混贴票据图像中包括多个票据对象；从混贴票据图像中分割出所述多个票据对象，得到对应每个票据对象的票据子图像；确定票据子图像对应的图像特征向量和文本特征向量，根据所述票据子图像对应的图像特征向量和文本特征向量确定目标票据类型；基于与所述目标票据类型相匹配的内容字段区域检测模型，确定票据子图像中的内容字段区域以及该内容字段区域对应的字段类别标签；识别所述内容字段区域中的文本信息，根据该内容字段区域对应的字段类别标签确定所述文本信息的输出。本发明提高了混贴票据中各票据文本信息的输出准确性和精度。

Description

混贴票据图像的处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种混贴票据图像的处理方法、装置、计算机设备及存储介质。

背景技术

财务报销的一个重要场景是差旅报销，在差旅报销过程中用户习惯采用混贴票据的方式将所有待报销的票据都粘贴在同一载体上，一并提交报销流程，这种同一载体上粘贴有多个待报销票据的图像即为混贴票据图像，混贴票据图像中各票据对象可能对应不同的票据类型，例如可能包括火车票、增值税发票、定额发票、加油发票等等。

相关技术中，通过识别票据图像中的关键信息来实现票据报销，然而目前针对混贴票据图像的识别所输出的相关票据信息准确性较低、精度差，导致了财务报销结果的错误率增加。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种混贴票据图像的处理方法、装置、计算机设备及存储介质。所述技术方案如下：

一方面，提供了一种混贴票据图像的处理方法，所述方法包括：

获取混贴票据图像，所述混贴票据图像中包括多个票据对象；

从所述混贴票据图像中分割出所述多个票据对象，得到对应每个票据对象的票据子图像；

确定所述票据子图像对应的图像特征向量和文本特征向量，根据所述票据子图像对应的图像特征向量和文本特征向量确定所述票据子图像的目标票据类型；

基于与所述目标票据类型相匹配的内容字段区域检测模型，确定所述票据子图像中的内容字段区域以及所述内容字段区域对应的字段类别标签；

识别所述内容字段区域中的文本信息，根据所述内容字段区域对应的字段类别标签确定所述文本信息的输出。

另一方面，提供了一种混贴票据图像的处理装置，所述装置包括：

第一获取模块，用于获取混贴票据图像，所述混贴票据图像中包括多个票据对象；

分割模块，用于从所述混贴票据图像中分割出所述多个票据对象，得到对应每个票据对象的票据子图像；

票据类型确定模块，用于确定所述票据子图像对应的图像特征向量和文本特征向量，根据所述票据子图像对应的图像特征向量和文本特征向量确定所述票据子图像的目标票据类型；

区域检测模块，用于基于与所述目标票据类型相匹配的内容字段区域检测模型，确定所述票据子图像中的内容字段区域以及所述内容字段区域对应的字段类别标签；

文本识别模块，用于识别所述内容字段区域中的文本信息，根据所述内容字段区域对应的字段类别标签确定所述文本信息的输出。

可选的，所述分割模块包括：

第一特征提取模块，用于基于基础卷积神经网络对所述混贴票据图像进行特征提取，得到所述混贴票据图像的第一特征图；

第一确定模块，用于基于第一区域建议网络确定所述第一特征图中的候选兴趣区域；

第一检测模块，用于基于第一目标检测网络对所述候选兴趣区域进行票据对象检测，得到每个票据对象的第一位置信息；

掩膜预测模块，用于基于掩膜分割网络对所述候选兴趣区域中的票据对象进行分割掩膜的预测，得到每个票据对象的预测分割掩膜；

调整模块，用于根据所述票据对象的预测分割掩膜对所述票据对象的第一位置信息进行调整，得到每个票据对象的第二位置信息；

截取模块，用于根据所述票据对象的第二位置信息从所述混贴票据图像中截取所述票据对象，得到对应每个票据对象的票据子图像。

可选的，所述票据类型确定模块包括：

第二获取模块，用于将所述票据子图像输入至图像分类网络，获取所述图像分类网络中全连接层的输出特征；将所述图像分类网络中全连接层的输出特征作为所述票据子图像的图像特征向量；

关键信息确定模块，用于将所述票据子图像输入至文本检测识别网络进行文本的检测识别，确定所述票据子图像中的关键文本信息；

转换模块，用于将所述关键文本信息转换为预设维数的向量得到所述文本特征向量，所述预设维数不小于所述图像特征向量的维数。

可选的，所述关键信息确定模块包括：

全量信息检测模块，用于基于文本检测识别网络对所述票据子图像中的文本进行检测识别，得到所述票据子图像对应的全量文本信息；

筛选模块，用于从所述全量文本信息中筛选与预设关键信息库中的预设关键信息相匹配的文本信息，所述相匹配的文本信息作为所述票据子图像的关键文本信息；

其中，所述预设关键信息库中的预设关键信息对应于多个预设票据类型的票据对象中所包含的特定内容指示字段。

可选的，所述票据类型确定模块还包括：

拼接模块，用于拼接所述票据子图像对应的图像特征向量和所述文本特征向量，得到所述票据子图像对应的拼接特征向量；

分类处理模块，用于基于所述票据子图像对应的拼接特征向量，通过随机森林模型进行分类处理得到所述票据子图像的目标票据类型。

可选的，所述区域检测模块包括：

第二确定模块，用于确定与所述目标票据类型相匹配的内容字段区域检测模型；

第二特征提取模块，用于通过所述内容字段区域检测模型中的特征提取网络对所述票据子图像进行特征提取，得到所述票据子图像的第二特征图；

第三确定模块，用于通过所述内容字段区域检测模型中的第二区域建议网络确定所述第二特征图中的候选区域；

第二检测模块，用于通过所述内容字段区域检测模型中的第二目标检测网络获取所述候选区域中的内容字段特征，根据所述内容字段特征确定所述候选区域对应的内容字段区域，以及所述候选区域属于多个字段类别标签中各字段类别标签的概率；根据所述候选区域属于多个字段类别标签中各字段类别标签的概率，确定所述候选区域对应的内容字段区域的字段类别标签。

可选的，所述文本识别模块包括：

区域图像提取模块，用于提取所述内容字段区域，得到内容字段区域图像；

第三获取模块，用于获取所述内容字段区域图像对应的R通道图像、G通道图像和B通道图像；

第三特征提取模块，用于基于文本识别模型中的多通道特征提取网络分别对所述R通道图像、G通道图像和B通道图像进行特征提取，得到对应各通道图像的特征图；

向量序列确定模块，用于根据所述各通道图像的特征图确定特征向量序列；

文本信息确定模块，用于基于所述文本识别模型中的字符识别网络对所述特征向量序列进行字符识别，确定所述内容字段区域中的文本信息。

另一方面，提供了一种计算机设备，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述混贴票据图像的处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述的混贴票据图像的处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本发明实施例通过获取包括多个票据对象的混贴票据图像，从该混贴票据图像中分割出多个票据对象得到对应每个票据对象的票据子图像，并确定票据子图像对应的图像特征向量和文本特征向量，根据该图像特征向量和文本特征向量确定票据子图像的目标票据类型，进而基于与该目标票据类型相匹配的内容字段区域检测模型确定该票据子图像中的内容字段区域以及该内容字段区域对应的字段类别标签，识别内容字段区域中的文本信息，并根据内容字段区域对应的字段类别标签确定该文本信息的输出，由于上述技术方案中进行了票据对象的分离，且针对每个票据对象结合了文本特征和图像特征来分辨票据类型，大大提高了确定票据类型的精度，进而提高了后续检测模型与当前票据子图像的匹配精度，从而提高了票据中文本信息的识别精度和准确性，而在进行该文本信息的输出时结合了字段类别标签，从而使得输出相关信息的准确性和精度大大提升，有利于确保财务报销结果的准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的另一种实施环境的示意图；

图3是本发明实施例提供的一种混贴票据图像的处理方法的流程示意图；

图4是本发明实施例提供的混贴票据图像的一个可选示意图；

图5是本发明实施例提供的从混贴票据图像中分割出多个票据对象得到对应每个票据对象的票据子图像的一种可选方法的流程示意图；

图6是本发明实施例提供的另一种混贴票据图像的处理方法的流程示意图；

图7是本发明实施例提供的票据中常见的打印偏移和“套打”的示意图；

图8是本发明实施例提供的票据子图像的部分识别结果的一个可选示例的示意图；

图9是本发明实施例提供的另一种混贴票据图像的处理方法的流程示意图；

图10是本发明实施例提供的一种混贴票据图像的处理装置的结构示意图；

图11是本发明实施例提供的一种计算机设备的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，其所示为本发明实施例提供的一种实施环境示意图，在该实施环境中用户110可以在终端120的操作界面上上传拍摄的混贴票据图像，终端120获取到该混贴票据图像后，可以对该混贴票据图像中用于实现报销的关键信息进行检测识别，并按照预置文本结构输出这些关键信息。具体实施中，终端120可以从混贴票据图像中分割出对应每个票据对象的票据子图像，针对每个票据子图像，终端120确定票据子图像对应的图像特征向量和文本特征向量，根据该图像特征向量和文本特征向量确定该票据子图像的目标票据类型如过路费发票，并基于该目标票据类型确定相匹配的内容字段区域检测模型，基于该内容字段区域检测模型确定该票据子图像中的内容字段区域以及内容字段区域对应的字段类别标签，进而识别内容字段区域中的文本信息，并根据该内容字段区域对应的字段类别标签确定对应文本信息的输出，从而得到可以用于报销的单据，提高了该报销单据中相关信息的准确性和精度，有利于确保财务报销结果的准确。

可以理解的，上述实施环境仅作为本发明实施例提供的一个可选示例，本发明实施例并限于该实施环境。在另一些实施环境中，终端120也可以从存储混贴票据图像的指定存储空间中获取待处理的混贴票据图像，该指定存储空间可以是终端120的本地存储空间，也可以是如图2中所示云端的云存储服务器130。在另一些实施环境中，也可以是终端120在获取到混贴票据图像之后，将该混贴票据图像发送给图像处理服务器，由图像处理服务器实施上述的混贴票据图像的处理过程得到输出结果，由于服务器的图像数据处理性能通常优于终端，因此，由图像处理服务器进行混贴票据图像的处理能够获得更快的处理响应。总而言之，本发明实施例可以应用于各种可以适用的实施环境中。

本发明实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本发明实施例提供的方案涉及人工智能技术，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面对本发明实施例的技术方案进行详细阐述。

请参阅图3，其所示为本发明实施例提供的一种混贴票据图像的处理方法的流程示意图，该方法可以应用于计算机设备，该计算机设备可以是终端或者服务器。需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体如图3所示，所述方法可以包括：

S301，获取混贴票据图像，所述混贴票据图像中包括多个票据对象。

本发明实施例中，票据对象是指按照一定规则形式制成的并显示有支付金钱义务的凭证，也即票据对象在发生交易时可作为交易的凭证。票据可以有多种票据类型，例如可以但不限于包括发票、行程单、车票、购物清单、税单、过路费等等。需要说明的是，在本发明实施例中，票据对象也可以称之为票据主体或票据。

实际应用中，用户可以根据实际报销需要将多个待报销的票据对象粘贴在某个载体上，例如可以将多个待报销的票据对象粘贴在A4大小的白纸上，然后进行拍摄从而可以得到包含多个票据对象的混贴票据图像，该多个票据对象可以对应不同的票据类型，例如可以包括发票、车票和过路费发票。用户拍摄得到混贴票据图像后可以将该混贴票据图像上传至相应的财物报销系统，由财物报销系统对该混贴票据图像进行处理得到报销单据后实现报销。

S303，从所述混贴票据图像中分割出所述多个票据对象，得到对应每个票据对象的票据子图像。

实际应用中，混贴票据图像中的各票据对象一般是有序紧凑的贴放在一起，边界不具有明显的特征，如图4所示，票据对象的角度也可能是任意的，票据对象的结构特征也有很多的变化，难以捕捉票据“主体”的明确特征，且常见的检测目标对象(如人脸、车辆等)往往具有连续特征和显著边界，而定义票据对象的文字分布特征往往是不连续(中空)的，混贴票据的以上特点会造成学习器的迷惑，影响检测的精度。

鉴于此，本发明实施例中采用以Mask R-CNN框架为基础的票据主体分割模型对混贴票据图像中的多个票据对象进行分割以得到对应每个票据对象的票据子图像。Mask R-CNN是一个实例分割模型，它能确定图片中各个目标的位置和类别，给出像素级预测，所谓“实例分割”，指的是对场景内的每种兴趣对象进行分割，无论它们是否属于同一类别。

Mask R-CNN包括依次级联的基础卷积神经网络、RoIAlign(Region of InterestAlign，关注区域对准)层、分别连接于RoIAlign层之后的目标检测网络分支和掩膜分割网络分支，以及连接于基础卷积神经网络与关注区域对准层之间的RPN(Region ProposalNetworks，区域建议网络)。

其中，基础卷积神经网络是一系列的卷积层用于提取图像的feature map，可以但不限于为VGG16、ResNet(deep Residual Network，深度残差网络)。

区域建议网络是一个轻量的神经网络，通过滑动窗口扫描特征图进行卷积操作，结合不同的尺寸与长宽比生成互相重叠区域即anchor，并给出每个anchor的位置信息用于提取候选区域。区域建议网络对每个anchor输出两种信息，第一种信息是对anchor前景或背景类别的预测，前景类别代表该anchor中具有一定概率存在某类或多类目标，背景类别指待检测目标之外的其他目标，后续会滤除。第二种信息是预置边框的精调，当目标的中心与前景anchor的中心不完全重合，即存在偏移时，输出位置信息(x,y,w,h)的变化百分比，以精确地调整anchor位置，对目标位置的拟合更正确。在前景anchor中存在互相重叠的现象，通过非极大值抑制方法滤除前景得分低的anchor，保留得分高的anchor，最终得到候选兴趣区域。

RoIAlign层对候选兴趣区域尺寸进行统一定义，基于候选兴趣区域中的四个采样位置使用双线性差值将候选兴趣区域归一化到一定尺寸，再将其池化到统一尺寸大小，在很大程度上避免了像素错位，保留精确的空间位置，并将掩膜的准确度提高。

目标检测网络分支负责目标对象检测可以得到分类标签和回归后的边界框，通过全连接层与softmax计算每个候选兴趣区域具体属于哪个类别，输出属于各个类别的概率，同时利用bounding box regression获得每个候选兴趣区域的位置偏移量，用于回归得到更加精确的边界框。

掩膜分割网络分支是应用到每一个候选兴趣区域上的一个全卷积网络(FullyConvolution Networ，FCN)，负责确定目标轮廓，输出用于指示对象在边界框中像素位置的二进制掩膜mask即分割掩膜。

本发明实施例中以Mask R-CNN为基础模型训练得到用于对混贴票据图像进行精确分割的票据主体分割模型。在训练之前，需要先获得训练数据，该训练数据包括混贴票据样本图像以及该混贴票据样本图像中每个票据对象的类别标签和位置信息标签。使用训练数据对原始的Mask R-CNN模型进行训练，训练时可以基于梯度下降法确定原始的Mask R-CNN模型中卷积层参数w和偏置参数b，在每次迭代过程中，根据预测结果和训练数据中的对应标签信息确定误差，并将该误差向Mask R-CNN模型中的各隐层反向传播，计算上述误差反向传播至各隐层处的梯度，并根据梯度更新Mask R-CNN模型中各隐层的参数直至满足训练结束条件，将满足训练结束条件时的参数所对应的Mask R-CNN模型作为本发明实施例的票据主体分割模型。其中，训练结束条件可以但不限于是迭代次数达到预设次数阈值。

本发明实施例在基于上述的票据主体分割模型从混贴票据图像中分割出多个票据对象以得到对应每个票据对象的票据子图像时可以包括如图5中所示的以下步骤：

(1)基于基础卷积神经网络对所述混贴票据图像进行特征提取，得到所述混贴票据图像的第一特征图。

具体的，可以先对混贴票据图像进行预处理，以将图像调整到预定尺寸，调整后的图像作为票据主体分割模型中基础卷积神经网络的输入，通过该基础卷积神经网络进行特征提取得到特征图，作为一个示例，该基础卷积神经网络可以为深度残差神经网络。

(2)基于第一区域建议网络确定所述第一特征图中的候选兴趣区域。

具体的，票据主体分割模型中的第一区域建议网络通过滑动窗口扫描上述第一特征图进行卷积操作，并得到可能包含票据对象的候选兴趣区域位置信息，将候选兴趣区域位置信息传输给RoIAlign层，RoIAlign层获取基础卷积神经网络输出的第一特征图，并将候选兴趣区域位置信息映射到该第一特征图中，从而确定了第一特征图中的候选兴趣区域，并将第一特征图中的每个候选兴趣区域调整到统一尺寸如7x7大小。

(3)基于第一目标检测网络对所述候选兴趣区域进行票据对象检测，得到每个票据对象的第一位置信息。

(4)基于掩膜分割网络对所述候选兴趣区域中的票据对象进行分割掩膜的预测，得到每个票据对象的预测分割掩膜。

具体的，针对第一特征图中的每个候选兴趣区域，分别将其作为票据主体分割模型中掩膜分割网络和第一目标检测网络的输入，第一目标检测网络预测各候选兴趣区域中票据对象的类别标签以及该票据对应的第一位置信息，该第一位置信息一般为票据对象的边界框；掩膜分割网络针对每个候选兴趣区域先预测k个分辨率为m*m的二值掩膜，其中k为第一目标检测网络涉及的类别数，然后再结合该候选兴趣区域中票据对象的类别标签i确定该票据对象的预测分割掩膜。需要说明的是，掩膜分割网络和第一目标检测网络并行实施。

(5)根据所述票据对象的预测分割掩膜对所述票据对象的第一位置信息进行调整，得到每个票据对象的第二位置信息。

具体的，由于预测分割掩膜为像素级预测其更能反映票据对象的边缘轮廓，依据预测分割掩膜对票据对象的第一位置信息进行调整可以使得调整后得到的第二位置信息与票据对象的真实轮廓更加匹配。

(6)根据所述票据对象的第二位置信息从所述混贴票据图像中截取所述票据对象，得到对应每个票据对象的票据子图像。

通过本发明实施例的票据主体分割模型提高了混贴票据图像中各个票据对象位置检测的精度，进而提高了各个票据子图像的分割精度，有利于确保后续票据对象中文本信息识别结果的准备性。

S305，确定所述票据子图像对应的图像特征向量和文本特征向量，根据所述票据子图像对应的图像特征向量和文本特征向量确定所述票据子图像的目标票据类型。

其中，图像特征向量对应于票据子图像的图像特征，文本特征向量对应于票据子图像中文本信息的特征。

一般为了能够兼容多种票据类型所具有的多种票据版式结构，常采用统一的检测/识别模型来对所有的票据图像进行处理，这种处理方式的抗噪声能力很差，仅在票据质量较高的情况下才能取得比较好的识别结果，无法兼容各票据场景上的噪声。

鉴于此，本发明实施例中首先对各票据子图像进行分类处理，确定每个票据子图像对应的目标票据类型，如此后续可以将各票据子图像送入与其目标票据类型相匹配的模型进行检测和识别处理，降低了不同票据场景上的噪声对最终识别结果的影响，有利于提高输出的票据相关信息的准确性和精度。

在一个可能的实施方式中，计算机设备在确定票据子图像对应的图像特征向量和文本特征向量时可以采用图6中所示的以下步骤：

S601，将所述票据子图像输入至图像分类网络，获取所述图像分类网络中全连接层的输出特征。

S603，将所述图像分类网络中全连接层的输出特征作为所述票据子图像的图像特征向量。

可以理解的，本发明实施例中的图像分类网络是预先基于多个票据类型的票据样本图像训练好的模型，该多个票据类型可以但不限于包括增值税发票、购车发票、二手车发票、定额发票、汽车票、轮船票、火车票、出租车票、通用机打发票、行程单、过路费、增值税卷票等。该图像分类网络可以是通用的用于对图像进行分类的卷积神经网络模型，一般可以包括依次连接的输入层、卷积层、全连接层和输出层。卷积层用于对输入图像进行特征提取得到特征图，全连接层用于把最后一层卷积输出的特征图转化为一个1*n维向量，实现对特征的高度提纯方便交给后续的输出层进行分类，输出层用于基于全连接层送入的1*n维特征向量进行图像类别的预测。

本发明实施例中，在全连接层的输出特征输入至图像分类网络的输出层之前截获该输出特征也即1*n维的特征向量，并将该输出特征作为票据子图像的图像特征向量，其中图像特征向量的维数可以根据实际应用中全连接层的神经元数量确定，例如可以是1*256维等等。

S605，将所述票据子图像输入至文本检测识别网络进行文本的检测识别，确定所述票据子图像中的关键文本信息。

在一个可能的实施方式中，票据子图像中的关键文本信息的确定可以包括以下步骤：

(1)基于文本检测识别网络对所述票据子图像中的文本进行检测识别，得到所述票据子图像对应的全量文本信息。

其中，文本检测识别网络可以是通用的用于进行文本检测和识别的卷积神经网络模型，此处采用轻量级的卷积神经网络模型如MobileNet模型、ShuffleNet模型等等，可以大大降低计算量，从而提高处理效率。

本发明实施例基于预先训练好的轻量级卷积神经网络模型对票据子图像的全量文本信息进行检查识别，从而可以得到该票据子图像中的所有文本信息。

(2)从所述全量文本信息中筛选与预设关键信息库中的预设关键信息相匹配的文本信息，所述相匹配的文本信息作为所述票据子图像的关键文本信息。

其中，所述预设关键信息库中的预设关键信息对应于多个预设票据类型的票据对象中所包含的特定内容指示字段。特定内容指示字段是指票据结构中固有的用于指示需要在内容字段中填入哪些信息的字段，例如过路费发票中的“入口”、“出口”、“金额”、“时间”均为该发票的特定内容指示字段，再如行程单中的“时间”、“有效身份证件号码”、“日期”、“航班号”均为该行程单的特定内容指示字段，该特定内容指示字段可以理解为固定键key。而内容字段与特定内容指示字段相对应，例如过路费发票中“入口：前海”，其中“前海”就是与特定内容指示字段“入口”对应的内容字段，同理“金额：5元”中，“5元”即为与特定内容指示字段“金额”对应的内容字段，也即内容字段可以理解为与固定键key对应的客户值value。

本发明实例中，预先根据多个预设票据类型的票据对象中所包含的特定内容指示字段配置预设关键信息库，该预设关键信息库中的预设关键信息即为特定内容指示字段的内容信息，例如，预设票据类型包括行程单和过路费发票时，预设关键信息可以包括时间、金额、入口、出口、有效身份证件号码等特定内容指示字段的内容信息。可以理解的，预设票据类型的种类可以根据实际需要进行设定，一般预设票据类型的种类越多，则预设关键信息库所涉及的特定内容指示字段的内容信息也越丰富，有利于提高对于票据子图像的分类精度。在一个可选的实施方式中，在配置预设关键信息库时可以不限于包括以下12种预设票据类型：增值税发票、购车发票、二手车发票、定额发票、汽车票、轮船票、火车票、出租车票、通用机打发票、行程单、过路费、增值税卷票等。

本发明实施例中，从票据子图像对应的全量文本信息中筛选存在于预设关键信息库中的预设关键信息，并将这些文本信息作为该票据子图像对应的关键文本信息，可以理解的，该关键文本信息可以很好的体现出票据子图像中票据对象的票据类型。

S607，将所述关键文本信息转换为预设维数的向量得到所述文本特征向量，所述预设维数不小于所述图像特征向量的维数。

实际应用中，由于特定票据(如通用机打发票、汽车票等)的版式随机性较强，仅依赖图像特性难以准确分辨特定票据，为了提高票据类型确定的准确性，本发明实施例在对票据对象进行分类时同时考虑了票据子图像的图像特性和文本特征，并且文本特性向量的维数不小于图像特征向量的维数。

具体的实施中，文本特性向量的预设维度可以是相应图像特征向量的N倍，N>1。在一个可能的实施方式中，图像特征向量可以是1*256维，对应的文本特性向量可以是1*512维，也即文本特征向量的预设维数是对应图像特征向量维数的2倍。

其中，将关键文本信息转换为预设维数的向量可以采用用于产生词向量的Word2Vec模型，本发明对此不作具体限定。

在一个可能的实施方式中，计算机设备在根据所述票据子图像对应的图像特征向量和文本特征向量确定所述票据子图像的目标票据类型时可以采用图6中的以下步骤：

S609，拼接所述票据子图像对应的图像特征向量和所述文本特征向量，得到所述票据子图像对应的拼接特征向量。

例如，图像特征向量为1*256维，文本特征向量为1*512维，则拼接后可以得到一个1*768维的拼接特征向量。具体的拼接方式可以是在图像特性向量的尾部拼接上文本特征向量，也可以是在图像特征向量的首部拼接上文本特征向量，以(t₁,t₂,……,t_N1)表示图像特征向量，(w₁,w₂,……,w_N2)表示文本特征向量，其中维数N1<N2，则拼接特征向量可以是(t₁,t₂,……,t_N1,w₁,w₂,……,w_N2,)，也可以是(w₁,w₂,……,w_N2,t₁,t₂,……,t_N1)，拼接特征向量的维数为N1+N2。

S611，基于所述票据子图像对应的拼接特征向量，通过随机森林模型进行分类处理得到所述票据子图像的目标票据类型。

可以理解的，本发明实施例中的随机森林模型是预先训练好的，该随机森林模型可以包括多棵分类回归树，每棵分类回归树都通过学习一部分非指定特征来进行分类，通过多棵分类回归树的投票结果来得到最终的分类结果。在一个可能的实施方式中，该随机森林模型包括100棵分类回归树，每棵分类回归树的深度为10，分类损失函数采用交叉熵损失函数。

具体的实施中，票据子图像对应的拼接特征向量输入至随机森林模型到达树根节点，树根节点根据所包括的分类回归树的数量随机抽取特征得到与分类回归树的数量相对应的随机特征群组，并将该随机特征群组分别输入给各分类回归树，由各分类回归树进行分类处理输出预测值即属于某一票据类型的概率，然后针对每一票据类型计算其概率的和值，将概率和值最大的那一个票据类型作为相应票据子图像的目标票据类型。

本发明实施例针对各票据子图像，通过融合该票据子图像的图像特征和文本特征来确定票据子图像的对应的目标票据类型，可以避免由于特定票据较强的版式随机性仅依赖图像特征难以准确分辨出特定票据的问题，提高了对于票据子图像对应票据类型的分类准确性，进而有利于在后续匹配到更加准确的检测识别模型，提高相关文本信息的识别效果。

S307，基于与所述目标票据类型相匹配的内容字段区域检测模型，确定所述票据子图像中的内容字段区域以及所述内容字段区域对应的字段类别标签。

本发明实施例中，预先根据多个预设票据类型的票据图像训练得到与每个预设票据类型相匹配的内容字段区域检测模型，其中，内容字段区域也即为票据中的客户值value区域，该预设票据类型包括上述的目标票据类型。

相关技术中，在对票据图像中的文本区域进行检测时一般结合票据独有的结构化模板进行匹配，将特定位置的文本框与特定内容指示字段(如“发票代码”)相关联，这种文本区域检测方式在票据图像中票据平整规则时可以取得较好的检测效果，但是实际上多数财物票据并不平整规则。财物票据的生产可以分为两步，第一步是在背景纸张上打印特定内容指示字段信息即固定键key信息(如“姓名”，“电话”)，第二步是将对应的内容字段信息即客户值value信息(如“张三”，“137xxx”)继续打印在背景纸张的指定位置上，由于票据打印时造成的误差，常出现内容错位和key/value重叠(即“套打”)的情况，如图7所示的票据中常见的打印偏移和“套打”的示意图。由于内容错位和key/value重叠的出现导致上述相关技术中的检测方式在检测过程中会出现失败而无法得到检测结果。

鉴于此，本发明实施例采用了带字段类别标签的区域检测算法，也即上述内容字段区域检测模型不仅可以检测出票据子图像中的内容字段区域，还可以确定每个内容字段区域对应的字段类别标签，从而后续无需依赖票据独有的结构化模板进行匹配。其中，字段类别标签用于表征内容字段区域对应的特定内容指示字段，例如，用字段类别标签“1”表征“发票代码”，用字段类别标签“2”表征“发票号码”，用字段类别标签“3”表征“有效身份证号码”等等，本发明实施例中，字段类别标签可以采用数字编号表示，该数字编号可以是一位数字编号，也可以是多为数字编号如101,103等等；当然，字段类别标签还可以采用其他能够用于区分不同特定内容指示字段的标识，如字母等。。

实际应用中，一般而言某一票据类型的票据所包含的特定内容指示字段是固定的，在训练各票据类型的内容字段区域检测模型时可以先确定该票据类型的票据所包含的各特定内容指示字段对应的字段类别标签，然后在对该票据类型的票据样本图像进行标注时，同时标注内容字段区域和该内容字段区域的字段类别标签，例如，设定“姓名”的字段类别标签为“1”，则在标注“张三”这一内容字段区域时，同时标注其字段类别标签为“1”，也即票据样本图像中各内容字段区域对应的标注信息包括其位置信息和字段类别标签，从而基于该票据样本图像训练得到的内容字段区域检测模型的输出包括检测到的内容字段区域和该内容字段区域的字段类别标签。

可以理解的，为了后续输出时能够依据字段类别标签确定特定内容指示字段，计算机设备可以依据票据类型存储对应字段类别标签与其特定内容指示字段之间的映射关系。

需要说明的是，在实际实现财务报销时一般仅需要票据中的部分相关文本信息，也就是说，票据中有些特定内容指示字段对应的内容字段对财务报销来说属于冗余信息，为了提高对于混贴票据图像的处理效率，提高输出信息的准确性，作为一个可能的实施方式，在标注每一票据类型的票据样本图像时，可以根据实际财务报销的需求信息仅针对票据样本图像中的关键内容字段进行标注，从而使得训练得到的内容字段区域检测模型可以仅输出票据子图像中的关键内容字段区域以及该关键内容字段区域的字段类别标签。

作为一个可能的实施方式中，在Faster R-CNN模型框架的基础上训练得到本发明实施例的内容字段区域检测模型，在训练时基于带上述标注信息的某一票据类型的票据样本图像训练该初始的Faster R-CNN模型，进而得到与该票据类型相对应的内容字段区域检测模型。

Faster R-CNN模型包括4个主要模块，分别为卷积模块、区域建议模块、候选区域池和目标检测模块。其中，卷积模块包括多个卷积层，用于提起图像的特征图，该特征图被共享用于后续的区域建议模块和候选区域池；区域建议模块由区域建议网络(RegionProposal Networks,RPN)构成，其输入为卷积模块的特征图，输出为生成的候选区域，该模块通过softmax判断anchors属于positive或者negative，再利用bounding boxregression修正anchors获得精确的proposals即候选区域；候选区域池用于收集输入的特征图feature maps和候选区域proposals，将候选区域映射到特征图上得到特征候选区域，然后将各特征候选区域送入后续目标检测模块；目标检测模块包括分类网络分支和边框回归网络分支，一般分类网络分支在对检测目标分类时通常分为两类，分别是前景对象(文字)和背景对象，这样的分类虽然可以简化网络结构，但是对于信息的利用不充分，本发明实施例通过带字段类别标签的标注信息来训练可以实现内容字段区域的多分类。边框回归网络分支用于对候选区域进行进一步精修回归得到更加准确的包围框。

在另一可能的实施方式中，可以在Mask R-CNN模型框架的基础上训练得到本发明实施例的内容字段区域检测模型，在训练时基于带上述标注信息的某一票据类型的票据样本图像训练该初始的Mask R-CNN模型，进而得到与该票据类型相对应的内容字段区域检测模型。

Mask R-CNN模型在Faster-RCNN的基础上增加一个全卷积网络分支用于输出一个二进制掩膜binary mask，表示给定像素是否属于目标的一部分，也即Mask R-CNN中目标检测模块包括三个网络分支，分别为分类网络分支、边框回归网络分支和分割掩膜分支，利用分割掩膜分支输出的二进制掩膜来调整边框回归网络分支确定的包围框可以提高内容字段区域的准确性，同理，Mask R-CNN中的分类网络分支在基于带上述标注信息的某一票据类型的票据样本图像训练之后可以进行多个字段类别标签的预测。

具体的，步骤S307在执行时可以包括以下步骤：

(1)确定与所述目标票据类型相匹配的内容字段区域检测模型。

(2)通过所述内容字段区域检测模型中的特征提取网络对所述票据子图像进行特征提取，得到所述票据子图像的第二特征图。

其中，特征提取网络可以是Faster R-CNN或者Mask R-CNN中的卷积模块。

(3)通过所述内容字段区域检测模型中的第二区域建议网络确定所述第二特征图中的候选区域。

(4)通过所述内容字段区域检测模型中的第二目标检测网络获取所述候选区域中的内容字段特征，根据所述内容字段特征确定所述候选区域对应的内容字段区域，以及所述候选区域属于多个字段类别标签中各字段类别标签的概率。

具体的，针对第二特征图中的每个候选区域将其调整到固定大小，如7*7大小，然后将该候选区域送入第二目标检测网络，该第二目标检测网络通过分类网络支路确定候选区域属于各字段类别标签的概率，同时通过边框回归网络支路回归出检测框的精确位置，得到内容字段区域。

(5)根据所述候选区域属于多个字段类别标签中各字段类别标签的概率，确定所述候选区域对应的内容字段区域的字段类别标签。

具体的，可以将概率最大的字段类别标签作为候选区域对应的内容字段区域的字段类别标签。

本发明实施例的内容字段区域检测模型在进行内容字段区域检测时不依赖于票据独有的结构化模板特征，而是基于学习的内容字段区域的图像特征信息和位置特征信息来检测，可以很好的检测出内容错位和key/value重叠噪声下的内容字段区域，不会出现检测失败的问题。

S309，识别所述内容字段区域中的文本信息，根据所述内容字段区域对应的字段类别标签确定所述文本信息的输出。

实际应用中，可以采用文本识别网络模型来对文本区域中的文本进行识别，文本识别网络模型采用的输入图像大小可以表示为N*H*W，其中N是图片色彩通道数，H是图片高度，W是图片宽度，通常会采用N＝1(灰度)的图像作为输入，这种输入虽可以较好的应对正常文本的识别，但难以用于key/value重叠即存在套打场景的文本识别。

鉴于此，本发明实施例采用N＝3即包括RGB的三通道彩色图像作为输入。具体的，计算机设备在识别所述内容字段中的文本信息时可以包括以下步骤：

(1)提取所述内容字段区域，得到内容字段区域图像。

具体的，内容字段区域检测模型在票据子图像上框选出各内容字段区域，并记录各内容字段区域对应的字段类别标签后将票据子图像输出，该输出的票据子图像可以作为预先训练好的文本识别模型的输入，该文本识别模型可以提取该票据子图像中的内容字段区域，从而得到各内容字段区域对应的内容字段区域图像。

(2)获取所述内容字段区域图像对应的R通道图像、G通道图像和B通道图像。

具体的，文本识别模型针对每一个内容字段区域图像获取其对应的R通道图像、G通道图像和B通道图像。

(3)基于文本识别模型中的多通道特征提取网络分别对所述R通道图像、G通道图像和B通道图像进行特征提取，得到对应各通道图像的特征图。

具体的，文本识别模型可以是级联的多通道特征提取网络和字符识别网络，其中，多通道特征提取网络可以包括多个级联的卷积层，相邻卷积层之间还可以包括依次连接的归一化层、池化层和线性修正单元层。上述多个级联的卷积层的通道数分别为64，128，256，512，1024，各卷积层的卷积核大小均为3x3，通过加大最后一个卷积层的通道数可以更好的提高到高维输入特征。各卷积层间池化层的步长分别为2x2,2x2,1x2,2x1,2x1。

(4)根据所述各通道图像的特征图确定特征向量序列。

具体的，可以利用Map-to-Sequence将卷积层得到的特征图表示成特征向量序列，该特征向量序列中每一个特征向量关联相应内容字段区域的一个感受野，并且可以被认为是该区域的图像描述符。

(5)基于所述文本识别模型中的字符识别网络对所述特征向量序列进行字符识别，确定所述内容字段区域中的文本信息。

其中，字符识别网络可以是循环神经网络模型，具体的该字符识别网络可以是单向LSTM(Long-Short Term Memory，长短期记忆模型)网络模型，用于对特征向量序列对应的每一帧进行字符预测，进而得到相应内容字段的文本信息。

具体的，文本识别模型在确定了票据子图像中各内容字段区域的文本信息后还可以结合各内容字段区域对应的字段类别标签给出识别结果，该识别结果可以包括相应内容字段区域的字段类别标签和文本信息。如图8所示为本发明实施例提供的票据子图像的部分识别结果的一个可选示例的示意图，其中，被框选的为内容字段区域，各内容字段区域下方对应显示有识别结果，如“109:16:30”表示，相应内容字段区域的字段类别标签为“109”，文本信息为“16:30”。

需要说明的是，步骤S309中所采用的文本识别模型是预先训练好的与票据子图像的目标票据类型相匹配的文本识别模型。也就是说，本发明实施例中，预先根据预设票据类型的票据样本图像训练了与各预设票据类型相匹配的文本识别模型，其中，预设票据类型包括前述的目标票据类型，且在训练本发明实施例的文本识别模型时，票据样本图像采用三通道的彩色图像作为训练输入图像。在步骤S309执行时，计算机设备可以先确定与当前票据子图像的目标票据类型相匹配的文本识别模型，进而基于确定的文本识别模型进行文本识别。作为一个可选的实施方式，计算机设备还可以依据预设票据类型来存储内容字段区域检测模型和文本识别模型，从而在确定了与目标票据类型相匹配的内容字段区域检测模型时即可确定后续用于文本识别的文本识别模型。

通过采用三通道的图像作为上述文本识别模型的输入，大大提高了在套打场景上的识别效果。以在增值税票据上的应用为例，带套打内容字段的识别精度均有0.5％～4％不等的提升。

本发明实施例中，计算机设备在得到各内容字段区域中的文本信息后，可以根据相应内容字段区域对应的字段类别标签确定文本信息的输出，具体的，计算机设备可以依据当前票据子图像对应的目标票据类型查找相应的字段类别标签与特定内容指示字段之间的映射关系，然后根据识别结果中各内容字段区域对应的字段类别标签确定相应的特定内容指示字段，从而建立各特定内容指示字段与相应文本信息的对应关系，之后计算机设备可以根据预设的结构化输出模板结合各特定内容指示字段与相应文本信息的对应关系将特定内容指示字段与相应文本信息成对输出，从而得到可以用于实现财务报销的单据，该单据中可以只包含财务报销时的必要信息。

由本发明实施例的上述技术方案可见，本发明实施例精确分离了混贴票据图像中的所有票据对象，并精准确定了每个票据对象的票据类型，进而进一步将各票据类型的票据子图像分别送入与其票据类型相匹配的专用票据检测模型和识别模型，提高了最终输出的用于实现财务报销的文本信息的准确性和精度，泛化能力强，具有很高的实用价值。

为了更加清楚的说明本发明实施例的方案，下面结合图9对本发明实施例的混贴票据图像的处理方法作进一步的描述。

如图9所示，1.票据主体检测分割：基于训练好的票据主体分割模型对包含三个票据对象的混贴票据图像进行检测分割，该三个票据对象分别对应三个不同的票据类型(税务发票、火车票和过路费发票)，从而得到精确分离的票据子图像，每个票据子图像对应一个票据对象，如票据1子图像，票据2子图像和票据3子图像，下面以票据2子图像为例进行说明，对于其他子图像的处理与该票据2子图像相同。

2.票据主体分类：针对票据2子图像，将其输入至图像分类网络中并获取该图像分类网络的全连接层输出的1*256维向量作为该票据2子图像的图像特征向量。另外，将票据2子图像输入至轻量级文本检测识别模型，得到模型输出的全量文本信息，结合预设关键信息库从该全量文本信息中筛选出与预设关键信息相匹配的关键文本信息，并采用Word2Vec算法将关键文本信息转换为1*512维的文本特征向量。拼接上述1*256维的图像特征向量和1*512维的文本特征向量得到1*768维拼接特征向量。将该1*768维拼接特征向量输入至拥有100课分类回归树的随机森林模型中进行票据类型的预测，得到该票据2子图像的目标票据类型为过路费发票。

3.票据子图像中内容字段区域检测：将票据2子图像输入至对应该过路费发票的内容字段区域检测模型，该模型确定票据2子图像中的关键内容字段区域，同时记录各关键内容字段区域的字段类别标签。其中，该内容字段区域检测模型为采用样本过路费发票图像训练得到，训练用的训练数据包括样本过路费发票图像以及对应的标注信息，该标注信息包括样本过路费发票图像中关键内容字段的位置信息和字段类别标签，标注的关键内容字段可以包括特定内容指示字段“入口”、“出口”、“金额”、“时间”、“发票代码”、“发票号码”等对应的内容字段，字段类别标签可以采用数字编码，如1,2等。

4.票据子图像中内容字段区域的文本识别：将检测模型的输出作为文本识别模型的输入，通过文本识别模型提取各关键内容字段区域图像，并获取对应的三个通道的通道图像，通过文本识别模型的卷积神经网络对这三个通道的通道图像分别进行卷积操作提取特征并得到特征向量序列后，将该特征向量序列作为文本识别模型的单向长短期记忆网络的输入，通过该单向长短期记忆网络确定关键内容字段区域图像上文本信息，得到关键文本信息；

5.根据各关键内容字段区域对应的字段类别标签，确定该字段类别标签对应的特定内容指示字段，并将特定内容指示字段与相应的关键文本信息成对输出，从而得到票据2子图像对应的结构化输出结果，该结构化输出结果包括了用于实现票据2财务报销的关键信息，且准确性和精度高。

与上述几种实施例提供的混贴票据图像的处理方法相对应，本发明实施例还提供一种混贴票据图像的处理装置，由于本发明实施例提供的混贴票据图像的处理装置与上述几种实施例提供的混贴票据图像的处理方法相对应，因此前述混贴票据图像的处理方法的实施方式也适用于本实施例提供的混贴票据图像的处理装置，在本实施例中不再详细描述。

请参阅图10，其所示为本发明实施例提供的一种混贴票据图像的处理装置的结构示意图，该装置具有实现上述方法实施例中混贴票据图像的处理方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图10所示，该装置可以包括：

第一获取模块1010，用于获取混贴票据图像，所述混贴票据图像中包括多个票据对象；

分割模块1020，用于从所述混贴票据图像中分割出所述多个票据对象，得到对应每个票据对象的票据子图像；

票据类型确定模块1030，用于确定所述票据子图像对应的图像特征向量和文本特征向量，根据所述票据子图像对应的图像特征向量和文本特征向量确定所述票据子图像的目标票据类型；

区域检测模块1040，用于基于与所述目标票据类型相匹配的内容字段区域检测模型，确定所述票据子图像中的内容字段区域以及所述内容字段区域对应的字段类别标签；

文本识别模块1050，用于识别所述内容字段区域中的文本信息，根据所述内容字段区域对应的字段类别标签确定所述文本信息的输出。

作为一个可能的实施方式，分割模块1020可以包括：

作为一个可能的实施方式，票据类型确定模块1030可以包括：

作为一个可能的实施方式，关键信息确定模块可以包括：

作为一个可能的实施方式，票据类型确定模块1030还可以包括：

作为一个可能的实施方式，区域检测模块1040可以包括：

作为一个可能的实施方式，文本识别模块1050可以包括：

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的混贴票据图像的处理方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及混贴票据图像的处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行，即上述计算机设备可以包括计算机终端、服务器或者类似的运算装置。图11是本发明实施例提供的运行一种混贴票据图像的处理方法的计算机设备的硬件结构框图，如图11所示，该计算机设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，计算机设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本说明书实施例所示图11中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器可以是高速RAM存储设备，也可以是非不稳定的存储设备(non-volatile memory)，例如至少一个磁盘存储设备；可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间，该存储空间存储了电子设备的操作系统，可包括但不限于：Windows系统(一种操作系统)，Linux(一种操作系统)，Android(安卓，一种移动操作系统)系统、IOS(一种移动操作系统)系统等等，本发明对此并不作限定；并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。在本说明书实施例中，处理器加载并执行存储器中存放的一条或一条以上指令，以实现上述方法实施例提供的混贴票据图像的处理方法。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于计算机设备之中以保存用于实现一种混贴票据图像的处理方法相关的至少一条指令或者至少一段程序，该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的混贴票据图像的处理方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混贴票据图像的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的混贴票据图像的处理方法，其特征在于，所述从所述混贴票据图像中分割出所述多个票据对象，得到对应每个票据对象的票据子图像包括：

基于基础卷积神经网络对所述混贴票据图像进行特征提取，得到所述混贴票据图像的第一特征图；

基于第一区域建议网络确定所述第一特征图中的候选兴趣区域；

基于第一目标检测网络对所述候选兴趣区域进行票据对象检测，得到每个票据对象的第一位置信息；

基于掩膜分割网络对所述候选兴趣区域中的票据对象进行分割掩膜的预测，得到每个票据对象的预测分割掩膜；

根据所述票据对象的预测分割掩膜对所述票据对象的第一位置信息进行调整，得到每个票据对象的第二位置信息；

根据所述票据对象的第二位置信息从所述混贴票据图像中截取所述票据对象，得到对应每个票据对象的票据子图像。

3.根据权利要求1所述的混贴票据图像的处理方法，其特征在于，所述确定所述票据子图像对应的图像特征向量和文本特征向量包括：

将所述票据子图像输入至图像分类网络，获取所述图像分类网络中全连接层的输出特征；

将所述图像分类网络中全连接层的输出特征作为所述票据子图像的图像特征向量；

将所述票据子图像输入至文本检测识别网络进行文本的检测识别，确定所述票据子图像中的关键文本信息；

将所述关键文本信息转换为预设维数的向量得到所述文本特征向量，所述预设维数不小于所述图像特征向量的维数。

4.根据权利要求3所述的混贴票据图像的处理方法，其特征在于，所述将所述票据子图像输入至文本检测识别网络进行文本的检测识别，得到所述票据子图像中的关键文本信息包括：

基于文本检测识别网络对所述票据子图像中的文本进行检测识别，得到所述票据子图像对应的全量文本信息；

从所述全量文本信息中筛选与预设关键信息库中的预设关键信息相匹配的文本信息，所述相匹配的文本信息作为所述票据子图像的关键文本信息；

5.根据权利要求3所述的混贴票据图像的处理方法，其特征在于，所述根据所述票据子图像对应的图像特征向量和文本特征向量确定所述票据子图像的目标票据类型包括：

拼接所述票据子图像对应的图像特征向量和所述文本特征向量，得到所述票据子图像对应的拼接特征向量；

基于所述票据子图像对应的拼接特征向量，通过随机森林模型进行分类处理得到所述票据子图像的目标票据类型。

6.根据权利要求1所述的混贴票据图像的处理方法，其特征在于，所述基于与所述目标票据类型相匹配的内容字段区域检测模型，确定所述票据子图像中的内容字段区域以及所述内容字段区域对应的字段类别标签包括：

确定与所述目标票据类型相匹配的内容字段区域检测模型；

通过所述内容字段区域检测模型中的特征提取网络对所述票据子图像进行特征提取，得到所述票据子图像的第二特征图；

通过所述内容字段区域检测模型中的第二区域建议网络确定所述第二特征图中的候选区域；

通过所述内容字段区域检测模型中的第二目标检测网络获取所述候选区域中的内容字段特征，根据所述内容字段特征确定所述候选区域对应的内容字段区域，以及所述候选区域属于多个字段类别标签中各字段类别标签的概率；

根据所述候选区域属于多个字段类别标签中各字段类别标签的概率，确定所述候选区域对应的内容字段区域的字段类别标签。

7.根据权利要求1所述的混贴票据图像的处理方法，其特征在于，所述识别所述内容字段区域中的文本信息包括：

提取所述内容字段区域，得到内容字段区域图像；

获取所述内容字段区域图像对应的R通道图像、G通道图像和B通道图像；

基于文本识别模型中的多通道特征提取网络分别对所述R通道图像、G通道图像和B通道图像进行特征提取，得到对应各通道图像的特征图；

根据所述各通道图像的特征图确定特征向量序列；

基于所述文本识别模型中的字符识别网络对所述特征向量序列进行字符识别，确定所述内容字段区域中的文本信息。

8.一种混贴票据图像的处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现如权利要求1～7中任一项所述的混贴票据图像的处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1～7任一项所述的混贴票据图像的处理方法。