CN110738092B

CN110738092B - 一种发票文本检测方法

Info

Publication number: CN110738092B
Application number: CN201910723111.8A
Authority: CN
Inventors: 张欢; 李爱林; 张仕洋; 周先得
Original assignee: Shenzhen Huafu Information Technology Co ltd
Current assignee: Shenzhen Huafu Technology Co ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2024-04-02
Anticipated expiration: 2039-08-06
Also published as: CN110738092A

Abstract

本发明公开的属于发票文本检测技术领域，具体为一种发票文本检测方法，该发票文本检测方法的具体检测步骤如下：S1：输入图像：将需要检测发票文本的图像信息采集输入；S2：发票关键点检测与发票关键区域剪裁对齐；S3：发票文本框检测；S4：发票分类与坐标逆映射；S5：输出图像，准确度高：得益于选取发票上最明显的两个位置作为关键点，本方法第一步的关键点检测较为稳定与精确。在获取关键点后，发票中关键位置区域也能够迅速得出。鲁棒性高：即使发票图像发生旋转等变化，发票关键点仍能被稳定检出，保证了结果输出的稳定性。速度快：本方法的步骤S2和步骤S3是较为简单的任务，可用轻量网络进行解决，相对来说速度较快。

Description

一种发票文本检测方法

技术领域

本发明涉及发票文本检测技术领域，具体为一种发票文本检测方法。

背景技术

普通发票和专用发票是日常生活中经常使用的两种发票，两者票据面上的信息模式有相同部分也存在一定的差异，如何对这两种发票中的关键文本进行准确快速的检测是票据识别技术的关键。

现有方法之一是使用传统机器学习方法，如先对图像进行去噪处理，再进行灰度化，二值化，轮廓提取，形态学变换等方法确定票据位置以及文本位置，但该方法鲁棒性差、准确率低，不适合商用。

现有方法之二是使用深度学习方法中的通用物体检测方法对发票文本框进行检测，如使用物体检测网络先对发票进行分类与检测，然后在检测到的发票区域再使用检测网络对文本框进行检测，该方法的准确率大大高于传统方法，但通用物体检测方法往往只能检测水平矩形框，当文本发生倾斜时，水平矩形框里会留下太多空白无效区域，给检测效果带来影响。

现有方法之三是使用深度学习方法中的专用文本检测网络对发票进行文本检测，不少专用文本检测方法支持倾斜文本框检测，但这种网络往往十分臃肿，模型体积较大，对硬件要求高，对移动端部署不方便。

发明内容

本发明的目的在于提供一种发票文本检测方法，以解决上述背景技术中提出的现有的识别方法鲁棒性差、准确率低、不适合商用，通用物体检测方法往往只能检测水平矩形框，十分臃肿，模型体积较大，对硬件要求高，对移动端部署不方便的问题。

为实现上述目的，本发明提供如下技术方案：一种发票文本检测方法，该发票文本检测方法的具体检测步骤如下：

S1：输入图像：将需要检测发票文本的图像信息采集输入，使得输入的图像信息在显示区域内；

S2：发票关键点检测与发票关键区域剪裁对齐：对这关键点的检测，使用关键点检测方法或者先对关键点进行语义分割再求区域坐标均值，最终可得到关键区域的水平对齐图像；

S3：发票文本框检测：在获得水平对齐好的图像后，使用文本检测方法对该图像文本进行检测，包括传统检测方法或深度学习检测方法；

S4：发票分类与坐标逆映射：检测到文本框后，可以根据文本框的数目判断该发票是普票还是专票，由于普票比专票多一个校验码，统计检测框有6个即为专用发票，有7个则为普通发票，检测到文本框后，将文本框顶点坐标先映射回原图，在原图上再进行裁减，用之前求得投影矩阵的逆矩阵左乘坐标即可得到原图坐标，文本框顶点坐标映射回原图后，在原图上裁剪文字框；

S5：输出图像：将上述处理后的图像保存输出。

优选的，所述S2中取发票代码和发票号码的中心点作为检测的发票的关键点。

优选的，所述对关键点进行语义分割再求区域坐标均值的具体步骤为：用语义分割网络先分割出发票代码和发票号码的区域，再对分割出区域的像素集合坐标求均值，可得到关键点的坐标。

优选的，所述步骤S2和步骤S3均采用轻量级的文本检测模型进行图像处理。

优选的，所述S2中关键点检测方法的具体步骤为：将需要检测发票文本的图像信息输入到预设的卷积神经网络模型中，其中，所述卷积神经网络模型包括至少两个通道；获取所述卷积神经网络模型输出的分类数据，并根据所述分类数据对需要检测发票文本的图像信息进行内容理解，其中，所述分类数据为所述至少两个通道的输出值的均值。

与现有技术相比，本发明的有益效果是：

1)准确度高：得益于选取发票上最明显的两个位置作为关键点，本方法第一步的关键点检测较为稳定与精确。在获取关键点后，发票中关键位置区域也能够迅速得出。

2)鲁棒性高：即使发票图像发生旋转等变化，发票关键点仍能被稳定检出，保证了结果输出的稳定性。

3)速度快：本方法的步骤S2和步骤S3是较为简单的任务，可用轻量网络进行解决，相对来说速度较快。

附图说明

图1为本发明检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例：

请参阅图1，本发明提供一种技术方案：一种发票文本检测方法，该发票文本检测方法的具体检测步骤如下：

S2：发票关键点检测与发票关键区域剪裁对齐：对这关键点的检测，使用但不限于用关键点检测方法或者先对关键点进行语义分割再求区域坐标均值，最终可得到关键区域的水平对齐图像；

普通发票和专用发票的版面上均有发票代码和发票号码，它们是发票上字号最大的数字，即使发票图片发生倾斜或者模糊等状况，这两个位置仍然是比较显著的特征，取这两个位置的中心点作为我们要检测的发票关键点。

以先对关键点进行语义分割再求区域坐标均值为例，可先用语义分割网络先分割出发票代码和发票号码的区域，再对分割出区域的像素集合坐标求均值，可得到两个关键点的坐标。对两个位置语义分割，在对这两个区域的坐标求均值可得关键点坐标。

即使发票发生了旋转尺度等变换，我们所需检测文本框的相对位置还是比较固定的，在求得发票关键点后，可以用关键点大致推送出发票关键区域(指包含所要识别字符的区域)的位置。

将这两个关键点命名为PointCode和PointNum，以它们为基础，可求出从发票代码到发票号码的向量VecCode2Num＝PointNum–PointCode。

由该向量再进一步推出其他四个向量(下图)。VecLeft(红)，VecRight(灰)，VecDown(绿)，VecUp(蓝)，其中VecLeft，VecRight是与VecCode2Num平行的向量，VecDown，VeUp则是与VecCode2Num垂直的向量。VecRight和VecLeft可通过VecCode2Num分别乘上正、负常数得出，VecDown，VecUp可先通过求VecCode2Num的法向量再乘上正、负常数得出。用两个关键点结合这四个向量可以确定发票关键区域的边界。

虽然选定了关键区域，但实际上我们需要检测的文本框只是区域中文本框的少数，而这些文本框主要集中在发票关键区域的上下两端，而中间区域不包含我们需要的信息，因此先将中间区域挖空再进行后续处理。在这里，我们选择6个点确定我们的挖空区域与剩余区域，并设定为1-6标号的6个点，其坐标计算方式如下：

PointOne＝PointCode+VecLeft+VecUp

PointTwo＝PointNum+VecRight+VecUp

PointFive＝PointNum+VecRight+VecDown

PointSix＝PointCode+VecLeft+VecDown

PointThree＝PointTwo+ratio_1*(PointFive-PointTwo)

PointFour＝PointTwo+(1-ratio_2)*(PointFive-PointTwo)

在这里，我们用两个参数ratio_1和ratio_2来控制无效区域的大小，它们对应上下两部分高度分别占总高度的比例，这两个参数是固定的常数。

中间区域被去掉后，发票关键区域被分成上下两块，我们将这上下两块分别通过投影变换映射到一张新图像的上下两部分。

新图像的尺寸并不一定要和原图所检测到关键区域尺寸相同，一般面积会缩小便于后续处理，但长宽在比例上应保持一致，以防图像过度失真。设新图像宽为width，高为height，设1’,2’,3’,4’,5’,6’这六个点为原图六个点映射后的坐标：(注意y轴的正方向是向下的)：

PointOne’＝(0,0)

PointTwo’＝(width-1,0)

PointFive’＝(width-1,height-1)

PointSix’＝(0,height-1)

PointThree’＝(width-1,ratio_1/(ratio_1+ratio_2)*height-1)

PointFour’＝PointThree’

求投影变换矩阵需要三对坐标，原图的1,2,3号点对应新图像上的1’,2’,3’号点，原图4,5,6号点对应新图像4’,5’,6’号点。要求两个投影变换矩阵，坐标投影变换公式如下：

每代入三对坐标即可解出一个投影矩阵的6个参数，最终可解出两个投影矩阵，有了投影矩阵，新图像上下部分的每一个坐标都可在原图上找到对应的位置，再通过插值可得坐标RGB相应数值。最终可得到关键区域的水平对齐图像。

S3：发票文本框检测：在获得水平对齐好的图像后，使用文本检测方法对该图像文本进行检测，包括但不限于传统检测方法或深度学习检测方法；

由于新图像此时已经对齐至水平位置，其包含的文本框也基本处于水平，相对位置也基本固定，使得检测难度大大降低。可使用轻量级的文本检测模型。

注意有两个投影矩阵，先要判断文本框处于图片的上部还是下部来决定使用哪一个投影矩阵。

S5：输出图像：将上述处理后的图像保存输出。

所述S2中取发票代码和发票号码的中心点作为检测的发票的关键点。

所述对关键点进行语义分割再求区域坐标均值的具体步骤为：用语义分割网络先分割出发票代码和发票号码的区域，再对分割出区域的像素集合坐标求均值，可得到关键点的坐标。

所述步骤S2和步骤S3均采用轻量级的文本检测模型进行图像处理。

所述S2中关键点检测方法的具体步骤为：将需要检测发票文本的图像信息输入到预设的卷积神经网络模型中，其中，所述卷积神经网络模型包括至少两个通道；获取所述卷积神经网络模型输出的分类数据，并根据所述分类数据对需要检测发票文本的图像信息进行内容理解，其中，所述分类数据为所述至少两个通道的输出值的均值。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种发票文本检测方法，其特征在于：该发票文本检测方法的具体检测步骤如下：

S5：输出图像：将上述处理后的图像保存输出。

2.根据权利要求1所述的一种发票文本检测方法，其特征在于：所述S2中取发票代码和发票号码的中心点作为检测的发票的关键点。

3.根据权利要求1所述的一种发票文本检测方法，其特征在于：所述对关键点进行语义分割再求区域坐标均值的具体步骤为：用语义分割网络先分割出发票代码和发票号码的区域，再对分割出区域的像素集合坐标求均值，可得到关键点的坐标。

4.根据权利要求1所述的一种发票文本检测方法，其特征在于：所述步骤S2和步骤S3均采用轻量级的文本检测模型进行图像处理。

5.根据权利要求1所述的一种发票文本检测方法，其特征在于：所述S2中关键点检测方法的具体步骤为：将需要检测发票文本的图像信息输入到预设的卷积神经网络模型中，其中，所述卷积神经网络模型包括至少两个通道；

获取所述卷积神经网络模型输出的分类数据，并根据所述分类数据对需要检测发票文本的图像信息进行内容理解，其中，所述分类数据为所述至少两个通道的输出值的均值。