CN110287911A

CN110287911A - 一种发票的内容识别方法、装置、设备及存储介质

Info

Publication number: CN110287911A
Application number: CN201910576113.9A
Authority: CN
Inventors: 黎贤钊; 张学习; 倪浩敏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-27

Abstract

本申请公开了一种发票的内容识别方法、装置、设备及介质，方法包括：获取目标发票的待检测图像；通过预先利用深度神经网络训练得出的内容识别模型提取待检测图像中文字内容的内容特征；通过分类模型根据内容特征进行分类，得出待检测图像中的文字内容。可见，相较于现有技术中利用模板图像与待检测图像进行匹配以识别出发票的文字内容的方式，本方法中，预先通过深度神经网络训练得出的内容识别模型学习了文字内容的内容特征，因此避免了现有技术中利用模板进行匹配识别的局限性，避免了由于噪点干扰、半遮挡、模糊、尺度不一致或者角度不一致产生的匹配失败的困难，进而能够提高识别出目标发票中的文字内容的准确度。

Description

一种发票的内容识别方法、装置、设备及存储介质

技术领域

本发明涉及内容识别领域，特别涉及一种发票的内容识别方法、装置、设备及计算机可读存储介质。

背景技术

发票在我国社会经济活动中具有极其重要的意义和作用。在实际应用中，会计人员需要将每月每天的进项和销项发票敲打进excel表格中，以得出统计报表，方便后续的财务审核。

目前，一般是先通过发票的内容识别方法识别出发票中的文字内容，再通过存储识别出的文字内容的方式得出统计报表。但是，现有技术中的发票的内容识别方法如基于灰度匹配的方法和基于特征匹配的方法，一般是将待检测图像与预先设置的模板图像进行对比，当待检测图像与模板图像相匹配时，则将该模板图像中对应的文字内容作为该待检测图像中的文字内容。但是，这种识别方法只能检测出与模板图像对应的待检测图像中的文字信息，当待检测图像出现不可测的噪点干扰、半遮挡、模糊、尺度不一致或者角度不一致等情况时，人为设计模板图像的自身局限性将无法实现精确的匹配，甚至可能出现匹配失败的情况。

因此，如何提高对发票的内容识别的准确度是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种发票的内容识别方法，能够提高对发票的内容识别的准确度；本发明的另一目的是提供一种发票的内容识别装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种发票的内容识别方法，包括：

获取目标发票的待检测图像；

通过预先利用深度神经网络训练得出的内容识别模型提取所述待检测图像中文字内容的内容特征；

通过分类模型根据所述内容特征进行分类，得出所述待检测图像中的文字内容。

优选地，所述通过预先利用深度神经网络训练得出的内容识别模型提取所述待检测图像中文字内容的内容特征的过程，具体包括：

预先利用深度神经网络训练得出所述内容识别模型；

将所述待处理图像进行字符分割；

将字符分割后的所述待处理图像进行归一化处理；

将归一化处理后的所述待处理图像输入至所述内容识别模型，提取出所述待检测图像中文字内容的所述内容特征。

优选地，在所述将所述待处理图像进行归一化处理之前，进一步包括：

对所述待处理图像进行图像增强操作。

优选地，所述预先利用深度神经网络训练得出所述内容识别模型的过程，具体包括：

预先获取样本图像和对应的标签信息；

将所述样本图像和对应的标签信息输入至所述深度神经网络中，训练得出所述内容识别模型。

优选地，所述预先获取样本图像和对应的标签信息的过程，具体包括：

获取字符信息；

将所述字符信息进行多种图像处理，得到所述样本图像；其中，所述图像处理包括字体转换、文字扭曲、背景噪声、笔画粘连、笔画断裂、文字倾斜；

将所述字符信息设置为所述样本图像的标签信息。

优选地，所述深度神经网络具体为InceptionV3网络。

为解决上述技术问题，本发明还提供一种发票的内容识别装置，包括：

图像获取模块，用于获取目标发票的待检测图像；

特征提取模块，用于通过预先利用深度神经网络训练得出的内容识别模型提取所述待检测图像中文字内容的内容特征；

内容识别模块，用于通过分类模型根据所述内容特征进行分类，得出所述待检测图像中的文字内容。

为解决上述技术问题，本发明还提供一种发票的内容识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种发票的内容识别方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种发票的内容识别方法的步骤。

可见，相较于现有技术中利用模板图像与待检测图像进行匹配以识别出发票的文字内容的方式，本发明提供的发票的内容识别方法，通过获取目标发票的待检测图像；然后通过预先利用深度神经网络训练得出的内容识别模型提取待检测图像中文字内容的内容特征；由于预先通过深度神经网络训练得出的内容识别模型学习了文字内容的内容特征，因此避免了现有技术中利用模板进行匹配识别的局限性，避免了由于噪点干扰、半遮挡、模糊、尺度不一致或者角度不一致产生的匹配失败的困难，进而能够提高识别出目标发票中的文字内容的准确度。

为解决上述技术问题，本发明还提供了一种发票的内容识别装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种发票的内容识别方法的流程图

图2为本发明实施例提供的一种通过双线性插值法实现待处理图像归一化的示意图；

图3为本发明实施例提供的一种发票的内容识别装置的结构图；

图4为本发明实施例提供的一种发票的内容识别设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种发票的内容识别方法，能够提高对发票的内容识别的准确度；本发明的另一核心是提供一种发票的内容识别装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种发票的内容识别方法的流程图。如图1所示，一种发票的内容识别方法包括：

S10：获取目标发票的待检测图像。

本实施例中，首先是获取目标发票的待检测图像。目标发票的待检测图像可以是目标发票的整个图像，也可以是在获取到目标发票的整个图像之后，对整个图像进行进一步检测，得出目标发票的不同区域的图像作为待检测图像，也就是说，此时待检测图像可以具体为目标发票的抬头的图像、目标发票的金额的图像等，本实施例对待检测图像的具体类型不做限定。

S20：通过预先利用深度神经网络训练得出的内容识别模型提取待检测图像中文字内容的内容特征。

具体的，在得出待检测图像之后，则将待检测图像输入至内容识别模型中，利用内容识别模型提取出待检测图像中的文字内容的内容特征。

需要说明的是，本实施例中的内容识别模式是利用深度神经网络得出的，因此需要预先利用大量的样本图像通过深度神经网络进行样本训练，从而得出能够提取出待检测图像中的文字内容的内容特征的内容识别模型。

S30：通过分类模型根据内容特征进行分类，得出待检测图像中的文字内容。

具体的，本步骤是在获取到待检测图像中的文字内容的内容特征之后，将内容特征输入至分类模型中，利用分类模型根据当前输入的内容特征得出对应的文字内容。也就是说，本实施例提供的发票内容识别方法，可以在目标发票存在多尺度、噪点、畸变、模糊、小角度偏移的情况下，依然能识别出目标发票中的文字内容。

需要说明的是，在本实施例中，分类模型可以具体为Softmax函数分类模型，通过Softmax函数根据内容特征得出几个备选文字内容，然后比较各个备选文字内容的概率，并将概率最大的备选文字内容作为输出的文字内容。

可以理解的是，在具体实施中，若利用Softmax函数分类模型识别出该内容特征不是文字内容时，则删除该内容特征。

可见，相较于现有技术中利用模板图像与待检测图像进行匹配以识别出发票的文字内容的方式，本实施例提供的发票的内容识别方法，通过获取目标发票的待检测图像；然后通过预先利用深度神经网络训练得出的内容识别模型提取待检测图像中文字内容的内容特征；由于预先通过深度神经网络训练得出的内容识别模型学习了文字内容的内容特征，因此避免了现有技术中利用模板进行匹配识别的局限性，避免了由于噪点干扰、半遮挡、模糊、尺度不一致或者角度不一致产生的匹配失败的困难，进而能够提高识别出目标发票中的文字内容的准确度。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，通过预先利用深度神经网络训练得出的内容识别模型提取待检测图像中文字内容的内容特征的过程，具体包括：

预先利用深度神经网络训练得出内容识别模型；

将待处理图像进行字符分割；

将字符分割后的待处理图像进行归一化处理；

将归一化处理后的待处理图像输入至内容识别模型，提取出待检测图像中文字内容的内容特征。

具体的，首先利用深度神经网络训练得出内容识别模型，本实施例对深度神经网络的具体类型不做限定。

然后，将待处理图像进行字符分割。具体的，在对待处理图像进行字符分割时，可以利用垂直投影算法进行字符分割。基于先验知识可知，发票上每个字符之间具有一定的间距，因此可以利用这个间距进行垂直投影字符分割，从而得到字符的左右边界，再用水平投影算法进行字符分割，从而得到字符的上下边界，将单个字符分割出来。

考虑到内容识别模型一般是对特定格式的待处理图像进行处理，因此，在将进行字符分割后的待处理图像输入至内容识别模型之前，需要先将待处理图像进行归一化处理。例如，InceptionV3网络中的卷积神经网络的要求输入的是299*299*3特定分辨率大小的待处理图像。

具体的，本实施例中，具体是通过双线性插值法实现对待处理图像的归一化处理。如图2所示，为本实施例提供的一种通过双线性插值法实现待处理图像归一化处理的示意图。已知待处理图像中的4个点分别为：A₁₁(i₁，j₁)、A₁₂(i₁，j₂)、B₂₁(i₂，j₁)、B₂₂(i₂，j₂)，使用双线性内插法使图像归一化的原理如下：

在i方向上进行线性插值，得到T₁点像素值f(i,j₁)，计算公式如下：

以及得到T₂点像素值f(i,j₂)，计算公式如下：

在j方向上进行线性插值，得到目标像素点R(i,j)的像素值f(i,j)，计算公式如下：

从而实现将待处理图像归一化至特定格式。

具体的，在对待处理图像进行归一化处理之后，将归一化处理后的单个字符输入至内容识别模型中，使得内容识模型提取出单个的字符的特征。

需要说明的是，在一些具体实施中，在进行字符分割之前，也会对待处理图像进行归一化处理，以便于进行字符分割。

可见，本实施例提供的发票的内容识别方法，能够提高识别出发票内容的准确度。

作为优选的实施方式，在将待处理图像进行归一化处理之前，进一步包括：

对待处理图像进行图像增强操作。

需要说明的是，图像增强指的是有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果，满足某些特殊分析的需要。

因此，本实施例通过对待处理图像进行图像增强操作，能够使得后续利用内容识模型提取待处理图像中的文字内容的内容特征更加准确。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，预先利用深度神经网络训练得出内容识别模型的过程，具体包括：

预先获取样本图像和对应的标签信息；

将样本图像和对应的标签信息输入至深度神经网络中，训练得出内容识别模型。

具体的，本实施例中，具体是通过先获取样本图像和对应的标签信息，然后将样本图像和对应的标签信息输入至深度神经网络中，训练得出内容识别模型。

作为优选的实施方式，预先获取样本图像和对应的标签信息的过程，具体包括：

获取字符信息；

将字符信息进行多种图像处理，得到样本图像；其中，图像处理包括字体转换、文字扭曲、背景噪声、笔画粘连、笔画断裂、文字倾斜；

将字符信息设置为样本图像的标签信息。

具体的，本实施例是通过对字符信息进行图像处理的方式得出样本图像，对应的，该字符信息为该样本图像的标签信息。

更进一步的，可以理解的是，在根据字符信息进行图像处理得到样本图像的过程中，如果仅仅是生成很正规的文字，那么用这个正规文字集去训练内容识别模型，一方面，样本图像的数目过少，另一方面使得模型泛化能力比较差。因此，本实施例通过对字符信息做大量的不同的图像处理工作，以增大样本图像的容量。也就是说，为了使得训练得出的内容识别模型的鲁棒性更强，一般需要对字符信息进行多种图像处理，如通过字体转换，得出多种不同字体的字符信息，通过文字扭曲使字符信息扭曲变形，通过椒盐来模拟背景噪声，通过膨胀来模拟笔画粘连，通过腐蚀来模拟笔画断裂，通过文字旋转来模拟文字倾斜；这样一来，同一字符信息将对应有多种不同的图像，即得出样本图像。这样一来，相较于现有技术中通过采集大量的样本图像，再通过人工为各样本图像设置标签信息的方式，本方法不需要通过人工对样本图像标记标签信息，能够节省大量的人力成本。

在具体实施中，还可以预先根据发票上可能出现的汉字，生成一个记录着汉字与标签的对应表。在根据字体文件收集需要用到的字符信息之后，通过对字符信息进行图像处理，得出样本图像，存储在规定的目录下。

本实施例提供的训练得出内容识别模型的方法，能够使得内容识别模型的鲁棒性更强。

作为优选的实施方式，深度神经网络具体为InceptionV3网络。

需要说明的是，本实施例优选的使用InceptionV3网络作为用于训练内容识别模型的深度神经网络。InceptionV3网络一共具有6层基本卷积层、10个Inception模块、2个池化层和一个全连接层，与其他深度神经网络如Alexnet网络相比，InceptionV3网络的深度更深，且能够进行手工分辨率调整；与VGG网络相比，InceptionV3网络虽然没有VGG网络的简洁性和直观性，但是InceptionV3的参数远远少于VGG网络，因此操作过程更加便捷。InceptionV3网络最重要的改进是分解，例如能够将7x7的卷积分解成两个一维的卷积(1*7,7*1)，将积3x3的卷积分解成两个一维的卷积(1*3,3*1)，这样既可以加速计算，多余的计算能力可以用来加深网络，又可以将1个卷积核拆成2个卷积核，使得网络深度进一步增加，增加了网络的非线性，并使得网络输入从224x224变为了299x299，更加精细设计了35x35/17x17/8x8的模块。需要说明的是，InceptionV3是一个比较深的分类网络，其中的Inception模块也在保证优良的性能同时减少了参数，加快了网络的训练速度。InceptionV3网络中的Inception模块采取级联模式，将不同感受野的卷积核以一定的方式级联起来，级联模式的目的在于提取图像在不同的分辨率下的图像特征，然后让网络自行选择最优的特征，这样可以更有有效地训练网络，使网络在不同场景下提取特征的性能变得更好。

上文对于本发明提供的一种发票的内容识别方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的发票的内容识别装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图3为本发明实施例提供的一种发票的内容识别装置的结构图，如图3所示，一种发票的内容识别装置包括：

图像获取模块31，用于获取目标发票的待检测图像；

特征提取模块32，用于通过预先利用深度神经网络训练得出的内容识别模型提取待检测图像中文字内容的内容特征；

内容识别模块33，用于通过分类模型根据内容特征进行分类，得出待检测图像中的文字内容。本发明实施例提供的发票的内容识别装置，具有上述发票的内容识别方法的有益效果。

图4为本发明实施例提供的一种发票的内容识别设备的结构图，如图4所示，一种发票的内容识别设备包括：

存储器41，用于存储计算机程序；

处理器42，用于执行计算机程序时实现如上述发票的内容识别方法的步骤。

本发明实施例提供的发票的内容识别设备，具有上述发票的内容识别方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述发票的内容识别方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述发票的内容识别方法的有益效果。

以上对本发明所提供的发票的内容识别方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种发票的内容识别方法，其特征在于，包括：

获取目标发票的待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述通过预先利用深度神经网络训练得出的内容识别模型提取所述待检测图像中文字内容的内容特征的过程，具体包括：

预先利用深度神经网络训练得出所述内容识别模型；

将所述待处理图像进行字符分割；

将字符分割后的所述待处理图像进行归一化处理；

3.根据权利要求2所述的方法，其特征在于，在所述将所述待处理图像进行归一化处理之前，进一步包括：

对所述待处理图像进行图像增强操作。

4.根据权利要求2所述的方法，其特征在于，所述预先利用深度神经网络训练得出所述内容识别模型的过程，具体包括：

预先获取样本图像和对应的标签信息；

5.根据权利要求4所述的方法，其特征在于，所述预先获取样本图像和对应的标签信息的过程，具体包括：

获取字符信息；

将所述字符信息设置为所述样本图像的标签信息。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述深度神经网络具体为InceptionV3网络。

7.一种发票的内容识别装置，其特征在于，包括：

图像获取模块，用于获取目标发票的待检测图像；

8.一种发票的内容识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的发票的内容识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的发票的内容识别方法的步骤。