CN114373185A

CN114373185A - 票据图像的分类方法及其装置、电子设备及存储介质

Info

Publication number: CN114373185A
Application number: CN202210014186.0A
Authority: CN
Inventors: 张佳嘉
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-19

Abstract

本发明公开了一种票据图像的分类方法及其装置、电子设备及存储介质，涉及人工智能领域，其中，该分类方法包括：提取票据图像中多个特征区域的位置信息，根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征，融合每个分支模型得到的图像特征，得到票据图像分类结果。本发明解决了相关技术中对于高相似度的票据图像进行分类的准确率低，且分类效率较低的技术问题。

Description

票据图像的分类方法及其装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种票据图像的分类方法及其装置、电子设备及存储介质。

背景技术

随着信息化时代的日益发展，票据处理领域的信息化程度越来越高，对票据进行存储和处理的形式已经由纸质转换为数字图像。票据图像分类是票据处理过程中的关键步骤，传统的人工手动分类方法需要花费大量的人力资源和时间，不仅效率低，而且错误率高。因此，可以借助计算机实现票据图像自动分类。

相关技术中，现有的对票据图像进行自动分类的方法主要是根据提取不同的票据特征完成分类，首先，确定根据票据的特征完成分类，通常使用的票据特征包括票据特殊信息特征、框线特征、版面结构特征等，对所有种类的票据都提取这些特征，建立特征库，然后在进行票据分类时，提取图像的此类特征与特征库中提取的图像特征进行匹配，确定票据的类型。

现有的对票据图像进行自动分类的方法主要有两种：

(1)提取单一票据特征对票据图像进行分类，可以利用票据图像中的公章信息进行分类，提取公章轮廓的方向梯度直方图(Histogram of Oriented Gradient，HOG)，特征输入支持向量机(Support Vector Machine，SVM)分类器中得到分类结果，或者，可以采用改进的链码法结合直线检测技术对票据图像中的框线进行检测和提取完成图像分类。然而，在实际应用中的票据，可能部分票据存在公章、框线，部分票据不存在公章、框线，该方法对于这种情况无法进行分类，适用的对象具有局限性。

(2)融合多个票据特征进行票据图像分类，可以基于二叉树决策，利用三个类型判断器：基于票据版面结构的松弛匹配、基于OCR的票据标题识别和基于票据颜色的色彩分析，层次化地进行票据类型判断。该方法虽然能够完成大部分票据类型的分类，但对于版面相似度较高的票据分类准确率不高，文字和颜色的判定也容易受到扫描硬件和扫描方式的影响，可能导致误识。

因此，现有的对票据图像进行自动分类的方法存在以下问题：(1)使用单一票据特征进行票据图像分类的方法适用的对象具有局限性；(2)融合多个票据特征进行票据图像分类的方法虽然适用于大部分票据，但是对于版面相似度极高的票据分类准确率不高，并且票据图像容易受扫描硬件、扫描方式、图像质量、字体、填充信息等无效信息的干扰，导致分类效率和分类准确率均较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种票据图像的分类方法及其装置、电子设备及存储介质，以至少解决相关技术中对于高相似度的票据图像进行分类的准确率低，且分类效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种票据图像的分类方法，包括：提取票据图像中多个特征区域的位置信息；根据每个所述特征区域的位置信息，对所述票据图像进行截取，得到多个区域图像块；将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征；融合每个所述分支模型得到的图像特征，得到票据图像分类结果。

可选地，提取票据图像中多个特征区域的位置信息的步骤，包括：在接收到票据图像后，对所述票据图像进行图像预处理；对进行图像预处理后的所述票据图像进行版面分析，得到多个特征区域的位置信息。

可选地，对所述票据图像进行图像预处理的步骤，包括：将所述票据图像转化为灰度图像；采用全局阈值法的最大类间方差策略对所述灰度图像进行二值化处理；对所述灰度图像进行去噪处理。

可选地，对进行图像预处理后的所述票据图像进行版面分析，得到每个特征区域的位置信息的步骤，包括：采用投影分析策略对图像预处理后的所述票据图像分别在水平和垂直方向上进行投影；利用投影曲线中的波谷点将所述票据图像分割为多个图像子区域；识别分割出的每个所述图像子区域的区域类别，确定多个特征区域；定位每个所述特征区域在所述票据图像中的位置，得到每个所述特征区域的位置信息。

可选地，所述多个特征区域包括：标题区域、线框区域、版面区域；与所述标题区域对应的区域图像块为票据标题区域图像块，与所述线框区域对应的区域图像块为票据线框区域图像块，与所述版面区域对应的区域图像块为票据版面结构区域图像块。

可选地，将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征的步骤，包括：将所述票据标题区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据标题区域图像块的票据标题特征；将所述票据线框区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据线框区域图像块的票据线框特征；将所述票据版面结构区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据版面结构区域图像块的票据版面结构特征。

可选地，将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征的步骤，包括：将每个所述区域图像块输入至所述分支模型的三个卷积层，与所述卷积层中的卷积核进行卷积操作；在进行卷积操作后，采用所述分支模型的池化层对所述区域图像块进行最大池化操作，得到特征图集合；将所述特征图集合输入至所述分支模型的全连接层，其中，所述全连接层在将所述特征图集合中的各个特征图展平为第一层次的神经元向量后，输出第二层次的神经元向量；将所述神经元向量输入至类别输出softmax层，以采用所述类别输出softmax层确定所述区域图像块的图像特征。

可选地，所述类别输出softmax层还用于输出对所述票据图像所属类别的概率值，组合每个所述分支模型输出的概率值，确定所述票据图像的图像类别。

可选地，采用交叉熵损失函数调整每个所述分支模型的模型参数。

根据本发明实施例的另一方面，还提供了一种票据图像的分类装置，包括：第一提取单元，用于提取票据图像中多个特征区域的位置信息；截取单元，用于根据每个所述特征区域的位置信息，对所述票据图像进行截取，得到多个区域图像块；第二提取单元，用于将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征；融合单元，用于融合每个所述分支模型得到的图像特征，得到票据图像分类结果。

可选地，所述第一提取单元包括：第一处理模块，用于在接收到票据图像后，对所述票据图像进行图像预处理；第一分析模块，用于对进行图像预处理后的所述票据图像进行版面分析，得到多个特征区域的位置信息。

可选地，所述第一处理模块包括：第一转化子模块，用于将所述票据图像转化为灰度图像；第一处理子模块，用于采用全局阈值法的最大类间方差策略对所述灰度图像进行二值化处理；第一去噪子模块，用于对所述灰度图像进行去噪处理。

可选地，所述第一分析模块包括：第一投影子模块，用于采用投影分析策略对图像预处理后的所述票据图像分别在水平和垂直方向上进行投影；第一分割子模块，用于利用投影曲线中的波谷点将所述票据图像分割为多个图像子区域；第一识别子模块，用于识别分割出的每个所述图像子区域的区域类别，确定多个特征区域；第一定位子模块，用于定位每个所述特征区域在所述票据图像中的位置，得到每个所述特征区域的位置信息。

可选地，所述第二提取单元包括：第一输入模块，用于将所述票据标题区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据标题区域图像块的票据标题特征；第二输入模块，用于将所述票据线框区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据线框区域图像块的票据线框特征；第三输入模块，用于将所述票据版面结构区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据版面结构区域图像块的票据版面结构特征。

可选地，所述第二提取单元还包括：第一卷积模块，用于将每个所述区域图像块输入至所述分支模型的三个卷积层，与所述卷积层中的卷积核进行卷积操作；第一池化模块，用于在进行卷积操作后，采用所述分支模型的池化层对所述区域图像块进行最大池化操作，得到特征图集合；第四输入模块，用于将所述特征图集合输入至所述分支模型的全连接层，其中，所述全连接层在将所述特征图集合中的各个特征图展平为第一层次的神经元向量后，输出第二层次的神经元向量；第一确定模块，用于将所述神经元向量输入至类别输出softmax层，以采用所述类别输出softmax层确定所述区域图像块的图像特征。

可选地，所述分类装置还包括：第一调整模块，用于采用交叉熵损失函数调整每个所述分支模型的模型参数。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的票据图像的分类方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任意一项所述的票据图像的分类方法。

在本公开中，提取票据图像中多个特征区域的位置信息，根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征，融合每个分支模型得到的图像特征，得到票据图像分类结果。在本申请中，可以提取票据图像中的多个特征区域的位置信息，根据位置信息对票据图像进行截取得到若干区域图像块，将得到的区域图像块分别输入训练好的多分支特征卷积神经网络中进行特征提取，之后融合每个分支的图像特征，实现对票据图像的分类，能够仅使用票据图像中的有效区域图像块，过滤掉大量的背景区域，降低了无效信息的干扰，提高了分类的准确率，并且采用多分支特征卷积神经网络模型，能够提取更具判别力的图像特征，可以实现对高相似度的不同种类的票据图像进行分类并且可以保证较高的分类效率，进而解决了相关技术中对于高相似度的票据图像进行分类的准确率低，且分类效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的票据图像的分类方法的流程图；

图2是根据本发明实施例的一种可选的票据图像信息提取流程的示意图；

图3是根据本发明实施例的一种可选的多分支特征卷积神经网络模型结构的示意图；

图4是根据本发明实施例的一种可选的票据图像分类流程的示意图；

图5是根据本发明实施例的一种可选的票据图像的分类装置的示意图；

图6是根据本发明实施例的一种用于票据图像的分类方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本公开中的票据图像的分类方法及其装置可用于人工智能领域在分类票据图像的情况下，也可用于除人工智能领域之外的任意领域在分类票据图像的情况下，本公开中对票据图像的分类方法及其装置的应用领域不做限定。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本发明下述各实施例可应用于各种分类票据图像的系统/应用/设备中，其中，票据图像可以具有多种特征，例如，票据标题特征、票据框线特征、票据版面结构特征、用户信息特征、金额信息特征等，本发明可以基于人工对票据图像分类的先验知识(例如，票据标题特征、票据框线特征、票据版面结构特征对于票据图像分类具有重要的分辨信息，而对于用户信息、金额信息等其他特征信息对分类无贡献)，提供一种基于多分支特征卷积神经网络的票据图像分类方法，该方法可以提取票据图像中的票据标题特征(例如，文字和图案)、票据框线特征、票据版面结构特征这三个特征区域的位置信息，根据位置信息对票据图像进行截取得到若干目标图像块，之后将得到的目标图像块分别输入训练好的多分支特征卷积神经网络中进行特征提取、特征融合以实现对票据图像的分类。

下面结合各个实施例来详细说明本发明。

实施例一

根据本发明实施例，提供了一种票据图像的分类方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的票据图像的分类方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，提取票据图像中多个特征区域的位置信息。

步骤S102，根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块。

步骤S103，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征。

步骤S104，融合每个分支模型得到的图像特征，得到票据图像分类结果。

通过上述步骤，可以实提取票据图像中多个特征区域的位置信息，根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征，融合每个分支模型得到的图像特征，得到票据图像分类结果。在本发明实施例中，可以提取票据图像中的多个特征区域的位置信息，根据位置信息对票据图像进行截取得到若干区域图像块，将得到的区域图像块分别输入训练好的多分支特征卷积神经网络中进行特征提取，之后融合每个分支的图像特征，实现对票据图像的分类，能够仅使用票据图像中的有效区域图像块，过滤掉大量的背景区域，降低了无效信息的干扰，提高了分类的准确率，并且采用多分支特征卷积神经网络模型，能够提取更具判别力的图像特征，可以实现对高相似度的不同种类的票据图像进行分类并且可以保证较高的分类效率，进而解决了相关技术中对于高相似度的票据图像进行分类的准确率低，且分类效率较低的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

步骤S101，提取票据图像中多个特征区域的位置信息。

可选的，提取票据图像中多个特征区域的位置信息的步骤，包括：在接收到票据图像后，对票据图像进行图像预处理；对进行图像预处理后的票据图像进行版面分析，得到多个特征区域的位置信息。

图2是根据本发明实施例的一种可选的票据图像信息提取流程的示意图，如图2所示，包括：票据图像预处理和票据图像块提取，其中，票据图像预处理包括：灰度化、二值化和去噪，票据图像块提取包括：版面分析，根据位置信息截取目标图像块，具体如下：

票据图像预处理是对票据图像数据进行归一化，主要包括灰度化、二值化和去噪等，其中，灰度化是把彩色图像转换为灰度图像，可以解决图像明暗不均匀的问题；二值化是把灰度图像转换为黑白图像，能够减少计算量，方便后续过程中的数据处理；去噪是去除票据扫描过程中或者前面处理过程中出现的噪声干扰，可以提高图像的质量。

票据图像块提取是对票据图像进行版面分析，然后根据分析的信息截取局部区域图像块，其中，版面分析是对票据图像内容进行切分，把票据标题、票据线框、票据版面切分到不同的信息区域中，获取三个特征区域的位置信息，然后从票据图像中截取。

在本发明实施例中，在接收到票据图像后，可以对票据图像进行图像预处理(即上述中的票据图像预处理)，之后，对进行图像预处理后的票据图像进行版面分析，得到多个特征区域的位置信息(即上述中的票据图像块提取，从而得到多个特征区域的位置信息)。

可选的，对票据图像进行图像预处理的步骤，包括：将票据图像转化为灰度图像；采用全局阈值法的最大类间方差策略对灰度图像进行二值化处理；对灰度图像进行去噪处理。

在本发明实施例中，对票据图像进行图像预处理的步骤包括：灰度化、二值化和去噪等处理，具体如下：

(1)灰度化处理可以将票据图像转化为灰度图像；

由于本实施例中的分类方法对图像颜色的依赖性不强，为了更好地提取到票据图像的特征和提高运算速度，可以把彩色的票据图像转化为灰度图像，可以采用加权平均法，提取彩色图像中每个像素点的R、G、B值，然后给R赋上预设权重(例如，0.3)，给G赋上预设权重(例如，0.59)，给B赋上预设权重(例如，0.11)，将每个像素的RGB三分量进行加权平均之后得到该彩色图像的灰度图像。

(2)可以采用全局阈值法的最大类间方差策略对灰度图像进行二值化处理；

在对彩色图像进行灰度化以后，可以采用全局阈值法的最大类间方差法把获取到的灰度图像进行二值化处理，二值化处理的具体步骤如下：

1)，统计灰度图像的灰度直方图，同时记录灰度值的最大值t_max和最小值t_min；

2)，归一化直方图，将每个灰度级中像素点数量除以总像素点数量；

3)，取t_min到t_max之间的灰度级为阈值t，记最大类间方差为D_max，二值化阈值为T；

4)，通过归一化的直方图，统计t_min到t灰度级的像素所占图像像素的比例ω₀及灰度均值μ₀，统计t到t_max灰度级的像素所占图像像素的比例ω₁及灰度均值μ₁；

5)，计算类间方差D＝(μ₀-u₁)²ω₀ω₁；

6)，判断D是否大于D_max，若是，则将D_max的值设为D，T设为t；

7)，将阈值t加一，判断t是否大于t_max，若是，则进入下一步骤8)，否则进入步骤4)；

8)，将T作为阈值，若像素点灰度值大于或等于T，则用255表示该像素点灰度值，若像素点灰度值小于T，则用0表示该像素点灰度值，从而完成图像二值化，得到黑白图像。

(3)对灰度图像进行去噪处理；

票据图像大部分为扫描图像，在扫描过程中难免会产生很多图像噪声，所以需要对图像进行去噪处理，去噪处理的具体步骤如下：

遍历黑白图像的每个像素点(除边缘像素外)，以每个像素点为中心，获取当前像素位置周围的九个像素灰度值(3x3)，取这九个像素灰度值的中值作为当前像素点新的灰度值完成去噪处理。

可选的，对进行图像预处理后的票据图像进行版面分析，得到每个特征区域的位置信息的步骤，包括：采用投影分析策略对图像预处理后的票据图像分别在水平和垂直方向上进行投影；利用投影曲线中的波谷点将票据图像分割为多个图像子区域；识别分割出的每个图像子区域的区域类别，确定多个特征区域；定位每个特征区域在票据图像中的位置，得到每个特征区域的位置信息。

在本发明实施例中，可以通过版面分析与区域定位，对进行图像预处理后的票据图像进行版面分析，得到每个特征区域的位置信息，其中，版面分析与区域定位是指对预处理得到的图像进行分析并分割成多个特征区域，本实施例可以采用自顶向下和自底向上相结合的方法进行版面分析，可以使用投影分析策略对预处理之后的图像分别在水平和垂直方向上进行投影(即采用投影分析策略对图像预处理后的票据图像分别在水平和垂直方向上进行投影)，利用投影曲线中的波谷点把图像分割成若干子区域(即利用投影曲线中的波谷点将票据图像分割为多个图像子区域)，然后对分割出的子区域进行类别识别操作，分割出标题、线框、版面等多个区域(即识别分割出的每个图像子区域的区域类别，确定多个特征区域)，之后，可以采用区域定位，定位每个特征区域在票据图像中的位置，得到每个特征区域的位置信息。

可选的，多个特征区域包括：标题区域、线框区域、版面区域；与标题区域对应的区域图像块为票据标题区域图像块，与线框区域对应的区域图像块为票据线框区域图像块，与版面区域对应的区域图像块为票据版面结构区域图像块。

在本发明实施例中，可以根据定位到的特征区域的位置信息，对票据图像进行截取，得到多个区域图像块，然后将多个区域图像块进行缩放，使得图像块的尺寸统一(例如，同一设置成20x20)，得到的图像块可以作为分支模型的输入。

可选的，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征的步骤，包括：将票据标题区域图像块输入至预先训练的卷积神经网络分支模型，以采用卷积神经网络分支模型提取票据标题区域图像块的票据标题特征；将票据线框区域图像块输入至预先训练的卷积神经网络分支模型，以采用卷积神经网络分支模型提取票据线框区域图像块的票据线框特征；将票据版面结构区域图像块输入至预先训练的卷积神经网络分支模型，以采用卷积神经网络分支模型提取票据版面结构区域图像块的票据版面结构特征。

图3是根据本发明实施例的一种可选的多分支特征卷积神经网络模型结构的示意图，如图3所示，该模型的输入为一张票据图像，每个分支模型的输入分别为：线框区域图像块(20x20)、标题区域图像块(20x20)和版面结构区域图像块(20x20)，每个分支模型的网络结构相同，包括三个卷积层1，2，3(5x5)、一个池化层1(1x1)、一个全连接层1和softmax层，将三个区域图像块(包括：票据标题区域图像块、票据线框区域图像块、票据版面结构区域图像块)输入至对应的预先训练的卷积神经网络分支模型，可以采用卷积神经网络分支模型提取区域图像块的相应特征(包括：票据标题特征、票据线框特征、票据版面结构特征，可以分别用γ₁、γ₂、γ₃表示)，之后融合这些特征，可以得到分类结果。

在本发明实施例中，可以把得到的训练集中的票据图像的票据线框区域图像块、票据标题区域图像块、票据版面结构区域图像块三个区域图像块分别输入至三个独立的卷积神经网络分支模型，各分支单独训练，分别学习票据线框特征、票据标题特征和票据版面结构特征，然后再加权融合每个分支学习到的特征，得到票据的分类结果。

可选的，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征的步骤，包括：将每个区域图像块输入至分支模型的三个卷积层，与卷积层中的卷积核进行卷积操作；在进行卷积操作后，采用分支模型的池化层对区域图像块进行最大池化操作，得到特征图集合；将特征图集合输入至分支模型的全连接层，其中，全连接层在将特征图集合中的各个特征图展平为第一层次的神经元向量后，输出第二层次的神经元向量；将神经元向量输入至类别输出softmax层，以采用类别输出softmax层确定区域图像块的图像特征。

另一种可选的，采用交叉熵损失函数调整每个分支模型的模型参数。

在本发明实施例中，每个单分支网络(即分支模型)的输入是处理好的20*20的区域图像块，每个分支的网络结构相同，都由三个卷积层、一个池化层、一个全连接层和softmax层组成，具体如下：

(1)卷积层(卷积层1，卷积层2，卷积层3)：输入的区域图像块先被输入到卷积层，与大小为5x5的卷积核进行如下卷积操作(即将每个区域图像块输入至分支模型的三个卷积层，与卷积层中的卷积核进行卷积操作)：

其中，

和

分别表示第l层的第j个特征图和第l-1层的第i个特征图；

是连接

和

的卷积核；

是偏置项；σ(·)是非线性激活函数(例如，ReLU函数)。

(2)池化层(池化层1)：图像卷积操作之后，使用最大池化提取显著的特征，防止过拟合(即在进行卷积操作后，采用分支模型的池化层对区域图像块进行最大池化操作，得到特征图集合)。

(3)全连接层：输入的图像块经过三次卷积和一次池化之后，把得到的256个特征图输入全连接层(即将特征图集合输入至分支模型的全连接层)：

X^f＝σ(b^f+W^fX^f-1) (2)；

其中，公式(2)表示，全连接层将特征图集合中的各个特征图展平为第一层次的神经元向量(即神经元向量X^f-1)，然后与权重矩阵W^f逐元素相乘，并添加偏置项b^f，最后应用非线性激活函数σ(·)(例如，ReLU函数)，输出第f层的神经元向量X^f(即输出第二层次的神经元向量)，该全连接层的神经元数目为票据图像的种类数。

(4)softmax层：把全连接层输出的神经元向量X^f输入到softmax层，就可以预测每一类别c的概率分布(即将神经元向量输入至类别输出softmax层，以采用类别输出softmax层确定区域图像块的图像特征)，其中，softmax层定义如下：

其中，C表示类别总数，

表示神经元向量的第c个元素。

可选的，类别输出softmax层还用于输出对票据图像所属类别的概率值，组合每个分支模型输出的概率值，确定票据图像的图像类别。

(5)损失函数：每个分支模型可以使用交叉熵损失函数调整每个分支模型的模型参数，其中，损失函数定义如下：

其中，y_j，c和

分别表示第j个数据样本属于c类的真实标签和网络预测标签(softmax函数输出的概率分布)，N为数据样本数。在模型训练过程中，可以通过最小化损失来优化模型参数。

在本发明实施例中，可以将票据线框特征、票据标题特征和票据版面结构特征三个分支训练的结果融合起来对票据图像进行分类(即融合每个分支模型得到的图像特征，得到票据图像分类结果)，具体的融合方式如公式(5)所示：

其中，I_j表示测试的票据图像，把测试的票据图像输入到多分支网络中会得到各分支的softmax层的输出向量，也就是每个分支的分类结果，当

时，

表示分支1得到的测试票据图像属于c类的概率(分支2，分支3同理)，公式(5)是对分支1，分支2，分支3的分类结果进行加权线性组合，每个分支的权重取值γ₁、γ₂、γ₃可以使用网格搜索法确定。

图4是根据本发明实施例的一种可选的票据图像分类流程的示意图，如图4所示，可以输入一张票据图像，之后提取票据图像中票据标题、票据线框、票据版面特征区域的位置信息(如，坐标信息)，这样可以消除噪声干扰和无效内容信息干扰，并且能够去除图像中的冗余信息，再根据上述位置信息对输入的票据图像进行截取得到目标图像块(包括：票据标题、票据线框、票据版面三个目标图像块)，然后根据目标图像块分别输入对应的分支模型进行特征提取，然后融合每个分支的分类结果以实现对输入图像的分类，得到分类结果。

本发明实施例中，可以达到的有益效果如下：

(1)可以仅使用票据图像的有效信息区域，过滤掉大量的背景区域，降低了无效信息的干扰，提高了分类的准确率；

(2)可以只输入有效的票据图像特征信息区域，无需输入整张票据图像，减少了模型的输入量，提高了分类的效率；

(3)可以采用多分支特征卷积神经网络模型，能够提取更具判别力的卷积特征，实现了对高相似度的不同种类的票据图像进行分类，并且保证了较高的分类准确率。

实施例二

本实施例中提供的一种票据图像的分类装置包含了多个实施单元，每个实施单元对应于上述实施例一中的各个实施步骤。

图5是根据本发明实施例的一种可选的票据图像的分类装置的示意图，如图5所示，该分类装置可以包括：第一提取单元50，截取单元51，第二提取单元52，融合单元53，其中，

第一提取单元50，用于提取票据图像中多个特征区域的位置信息；

截取单元51，用于根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块；

第二提取单元52，用于将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征；

融合单元53，用于融合每个分支模型得到的图像特征，得到票据图像分类结果。

上述分类装置，可以通过第一提取单元50提取票据图像中多个特征区域的位置信息，通过截取单元51根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块，通过第二提取单元52将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征，通过融合单元53融合每个分支模型得到的图像特征，得到票据图像分类结果。在本发明实施例中，可以提取票据图像中的多个特征区域的位置信息，根据位置信息对票据图像进行截取得到若干区域图像块，将得到的区域图像块分别输入训练好的多分支特征卷积神经网络中进行特征提取，之后融合每个分支的图像特征，实现对票据图像的分类，能够仅使用票据图像中的有效区域图像块，过滤掉大量的背景区域，降低了无效信息的干扰，提高了分类的准确率，并且采用多分支特征卷积神经网络模型，能够提取更具判别力的图像特征，可以实现对高相似度的不同种类的票据图像进行分类并且可以保证较高的分类效率，进而解决了相关技术中对于高相似度的票据图像进行分类的准确率低，且分类效率较低的技术问题。

可选的，第一提取单元包括：第一处理模块，用于在接收到票据图像后，对票据图像进行图像预处理；第一分析模块，用于对进行图像预处理后的票据图像进行版面分析，得到多个特征区域的位置信息。

可选的，第一处理模块包括：第一转化子模块，用于将票据图像转化为灰度图像；第一处理子模块，用于采用全局阈值法的最大类间方差策略对灰度图像进行二值化处理；第一去噪子模块，用于对灰度图像进行去噪处理。

可选的，第一分析模块包括：第一投影子模块，用于采用投影分析策略对图像预处理后的票据图像分别在水平和垂直方向上进行投影；第一分割子模块，用于利用投影曲线中的波谷点将票据图像分割为多个图像子区域；第一识别子模块，用于识别分割出的每个图像子区域的区域类别，确定多个特征区域；第一定位子模块，用于定位每个特征区域在票据图像中的位置，得到每个特征区域的位置信息。

可选的，第二提取单元包括：第一输入模块，用于将票据标题区域图像块输入至预先训练的卷积神经网络分支模型，以采用卷积神经网络分支模型提取票据标题区域图像块的票据标题特征；第二输入模块，用于将票据线框区域图像块输入至预先训练的卷积神经网络分支模型，以采用卷积神经网络分支模型提取票据线框区域图像块的票据线框特征；第三输入模块，用于将票据版面结构区域图像块输入至预先训练的卷积神经网络分支模型，以采用卷积神经网络分支模型提取票据版面结构区域图像块的票据版面结构特征。

可选的，第二提取单元还包括：第一卷积模块，用于将每个区域图像块输入至分支模型的三个卷积层，与卷积层中的卷积核进行卷积操作；第一池化模块，用于在进行卷积操作后，采用分支模型的池化层对区域图像块进行最大池化操作，得到特征图集合；第四输入模块，用于将特征图集合输入至分支模型的全连接层，其中，全连接层在将特征图集合中的各个特征图展平为第一层次的神经元向量后，输出第二层次的神经元向量；第一确定模块，用于将神经元向量输入至类别输出softmax层，以采用类别输出softmax层确定区域图像块的图像特征。

可选的，分类装置还包括：第一调整模块，用于采用交叉熵损失函数调整每个分支模型的模型参数。

上述的分类装置还可以包括处理器和存储器，上述第一提取单元50，截取单元51，第二提取单元52，融合单元53等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来融合每个分支模型得到的图像特征，得到票据图像分类结果。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：提取票据图像中多个特征区域的位置信息，根据每个特征区域的位置信息，对票据图像进行截取，得到多个区域图像块，将每个区域图像块分别输入至预先训练的分支模型中，以采用分支模型提取区域图像块的图像特征，融合每个分支模型得到的图像特征，得到票据图像分类结果。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的票据图像的分类方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括一个或多个处理器和存储器，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述任意一项的票据图像的分类方法。

图6是根据本发明实施例的一种用于票据图像的分类方法的电子设备(或移动设备)的硬件结构框图。如图6所示，电子设备可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种票据图像的分类方法，其特征在于，包括：

提取票据图像中多个特征区域的位置信息；

根据每个所述特征区域的位置信息，对所述票据图像进行截取，得到多个区域图像块；

将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征；

融合每个所述分支模型得到的图像特征，得到票据图像分类结果。

2.根据权利要求1所述的分类方法，其特征在于，提取票据图像中多个特征区域的位置信息的步骤，包括：

在接收到票据图像后，对所述票据图像进行图像预处理；

对进行图像预处理后的所述票据图像进行版面分析，得到多个特征区域的位置信息。

3.根据权利要求2所述的分类方法，其特征在于，对所述票据图像进行图像预处理的步骤，包括：

将所述票据图像转化为灰度图像；

采用全局阈值法的最大类间方差策略对所述灰度图像进行二值化处理；

对所述灰度图像进行去噪处理。

4.根据权利要求2所述的分类方法，其特征在于，对进行图像预处理后的所述票据图像进行版面分析，得到每个特征区域的位置信息的步骤，包括：

采用投影分析策略对图像预处理后的所述票据图像分别在水平和垂直方向上进行投影；

利用投影曲线中的波谷点将所述票据图像分割为多个图像子区域；

识别分割出的每个所述图像子区域的区域类别，确定多个特征区域；

定位每个所述特征区域在所述票据图像中的位置，得到每个所述特征区域的位置信息。

5.根据权利要求1至4中任意一项所述的分类方法，其特征在于，所述多个特征区域包括：标题区域、线框区域、版面区域；与所述标题区域对应的区域图像块为票据标题区域图像块，与所述线框区域对应的区域图像块为票据线框区域图像块，与所述版面区域对应的区域图像块为票据版面结构区域图像块。

6.根据权利要求5所述的分类方法，其特征在于，将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征的步骤，包括：

将所述票据标题区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据标题区域图像块的票据标题特征；

将所述票据线框区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据线框区域图像块的票据线框特征；

将所述票据版面结构区域图像块输入至预先训练的卷积神经网络分支模型，以采用所述卷积神经网络分支模型提取所述票据版面结构区域图像块的票据版面结构特征。

7.根据权利要求5所述的分类方法，其特征在于，将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征的步骤，还包括：

将每个所述区域图像块输入至所述分支模型的三个卷积层，与所述卷积层中的卷积核进行卷积操作；

在进行卷积操作后，采用所述分支模型的池化层对所述区域图像块进行最大池化操作，得到特征图集合；

将所述特征图集合输入至所述分支模型的全连接层，其中，所述全连接层在将所述特征图集合中的各个特征图展平为第一层次的神经元向量后，输出第二层次的神经元向量；

将所述神经元向量输入至类别输出softmax层，以采用所述类别输出softmax层确定所述区域图像块的图像特征。

8.根据权利要求7所述的分类方法，其特征在于，所述类别输出softmax层还用于输出对所述票据图像所属类别的概率值，组合每个所述分支模型输出的概率值，确定所述票据图像的图像类别。

9.根据权利要求7所述的分类方法，其特征在于，采用交叉熵损失函数调整每个所述分支模型的模型参数。

10.一种票据图像的分类装置，其特征在于，包括：

第一提取单元，用于提取票据图像中多个特征区域的位置信息；

截取单元，用于根据每个所述特征区域的位置信息，对所述票据图像进行截取，得到多个区域图像块；

第二提取单元，用于将每个所述区域图像块分别输入至预先训练的分支模型中，以采用所述分支模型提取所述区域图像块的图像特征；

融合单元，用于融合每个所述分支模型得到的图像特征，得到票据图像分类结果。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的票据图像的分类方法。

12.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至9中任意一项所述的票据图像的分类方法。