CN111241966A

CN111241966A - 一种发票目标区域的定位方法、装置、设备及介质

Info

Publication number: CN111241966A
Application number: CN202010010700.4A
Authority: CN
Inventors: 黎贤钊; 张学习; 彭健彬
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-06-05

Abstract

本申请公开了一种发票目标区域的定位方法、装置、设备及介质，其方法包括：获取待测图像；将待测图像输入到训练好的神经网络中，对待测图像中的目标区域进行检测；若存在目标区域，则对目标区域进行定位；对定位的目标区域进行分类，并得到分类后的目标区域的图像坐标。本申请通过采用深度学习网络代替传统的图像匹配方法，能比传统算法更好在检测速度与检测精度之间作更好的平衡，且相对于传统图像匹配算法具有更好的鲁棒性。

Description

一种发票目标区域的定位方法、装置、设备及介质

技术领域

本申请涉及目标检测技术领域，尤其涉及一种发票目标区域的定位方法、装置、设备及介质。

背景技术

发票在社会经济活动中具有极其重要的意义和作用。由于发票上具有很多重要的信息需要我们录入计算机当中，而发票信息的录入对于我们来说是一件繁琐而重复性高的工作。对于重复性高的工作，我们可以用自动化的算法来替代，以提高工作效率。但是发票的录入又不是纯碎的重复性工作，需要我们人工去识别发票的信息才能进行发票录入。因此，我们可以利用计算机视觉去代替人工的识别。计算机视觉去代替人工的识别，需要两个步骤，首先是对输入的图像进行目标检测，通过目标检测出需要的识别出来的信息的位置，然后再进行识别。

现有的的文本定位方法中，通常使用连通域分析和滑动窗口分类法进行图像文本定位。文本特征主要有文本的颜色、边界、笔画和纹理等特征。连通域分析是一种类似于图形的算法，在实现过程中，使用结构模式识别方法确定文本区域。使用统计学模型有利于提高效率。滑动窗口分类方法通过条件随机场、形态学操作或者图形方法可以进一步地将字符分类响应为正的候选文本区域正组成文本区域，该方法简单，适应性广。

使用滑动窗口进行目标区域的检测，是一种很常见检测算法。它主要分为两个步骤：提取特征和特征匹配。提取特征常用的算子有Sobel、Canny、Hog、SIFT等。特征提取就是通过特征提取算子提取原图像的一些特征，然后使用滑动检测窗口以一定的步长对待检测图像进行特征匹配判定。设定一个匹配阈值，若超过匹配阈值，则输出目标区域的坐标。使用滑动窗口匹配特征的算法在一定程度上能比较有效地检测出目标区域。但是滑动窗口在遍历时候需要进行大量的计算，这导致了在检测环节可能对硬件性能有很高的要求才能保证系统的检测环节不需要大量的计算时间。因此，该算法可能会在提高精度的同时，而会产生高延迟。

发明内容

本申请实施例提供了一种发票目标区域的定位方法、装置、设备及介质，使得目标检测能更好地提升检测精度的同时而又不会产生过高的系统延迟。

有鉴于此，本申请第一方面提供了一种发票目标区域的定位方法，所述方法包括：

获取待测图像；

将所述待测图像输入到训练好的神经网络中，对所述待测图像中的目标区域进行检测；

若存在所述目标区域，则对所述目标区域进行定位；

对所述定位的目标区域进行分类，并得到分类后的目标区域的图像坐标。

可选的，在将所述待测图像输入到训练好的神经网络中，对所述待测图像中的目标区域进行检测之前，还包括：

将所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像。

可选的，所述将所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像具体为：

采用双线性插值法对所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像。

可选的，所述将所述待测图像输入到神经网络中对图像中的目标区域进行检测具体为：

将所述待测图像输入到Darknt52网络中对图像中的目标区域进行检测。

可选的，所述对目标区域进行定位具体为：

采用多检测尺度的方法对图像的目标区域进行坐标预测，选择置信度最高的检测框作为定位结果。

可选的，所述对所述定位的目标区域进行分类，并得到分类后的目标区域的图像坐标具体为：

将发票的每一个特定区域作为一个类别，采用多个与所述类别对应的逻辑回归函数，对所述定位的目标区域进行分类。

本申请第二方面提供一种发票目标区域的定位装置，所述装置包括：

图像获取单元，所述图像获取单元用于获取待测图像；

区域检测单元，所述区域检测单元用于将所述待测图像输入到训练好的神经网络中，对所述待测图像中的目标区域进行检测；

区域定位单元，所述区域定位单元用于当存在所述目标区域时，对所述目标区域进行定位；

区域分类单元，所述区域分类单元用于对所述定位的目标区域进行分类，并得到分类后的目标区域的图像坐标。

可选的，还包括：

归一化单元，所述归一化单元用于将所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像。

本申请第三方面提供一种发票目标区域的定位设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的发票目标区域的定位方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种发票目标区域的定位方法，包括：获取待测图像；将所述待测图像输入到训练好的神经网络中，对所述待测图像中的目标区域进行检测；若存在所述目标区域，则对所述目标区域进行定位；对所述定位的目标区域进行分类，并得到分类后的目标区域的图像坐标。

本申请通过采用深度神经网络对发票进行目标区域检测，能比传统算法更好在检测速度与检测精度之间作更好的平衡，且相对于传统图像匹配算法具有更好的鲁棒性。

附图说明

图1为本申请一种发票目标区域的定位方法的一个实施例的方法流程图；

图2为本申请一种发票目标区域的定位方法的另一个实施例的方法流程图；

图3为本申请一种发票目标区域的定位装置的一个实施例的结构示意图；

图4为本申请采用双线性插值法对图像进行尺度归一化的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，图1为本申请一种发票目标区域的定位方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、获取待测图像。

需要说明的是，待测图像为含有发票的图像，用于测得发票中的多个目标区域的位置信息。

102、将待测图像输入到训练好的神经网络中，对待测图像中的目标区域进行检测。

需要说明的是，其中神经网络训练的具体步骤为：采集一定数量的训练图像数据，对图像进行数据增强处理，对数据增强后的图像进行尺度归一化，对尺度归一化后的图像进行特征提取，从而确定是否存在目标区域的位置，对目标区域进行分类和定位。

其中，本申请中采用YOLOv3的目标检测网络；并且由于深度学习需要大量样本进行训练才能达到较好的泛化能力，一般情况下收集的数据是有限的，为了增加更多的数据供网络进行学习，我们可以通过变换操作，从而生成更多新的数据，增加训练集的大小，不同的任务背景下，我们可以通过图像的几何变换使用一种或多种组合来对数据进行增强，增加数据的输入量。因此，对图像进行数据增强处理具体包括：

旋转变换：对包含发票的图像随机进行一些小角度的旋转，改变发票整体的一些倾斜角。

缩放变换：在一定范围的比例内，对发票图像进行缩放。

尺度变换：对发票图像按照指定的尺度因子，进行放大或缩小，或者利用指定的尺度因子对发票图像滤波构造尺度空间，在一定范围内改变图像内容的大小或模糊程度。

对比度变换：通过改变发票图像HSV颜色空间中的亮度分量V和饱和度分量S，保持色调分量H不改变，对每个像素的饱和度S和亮度分量V进行指数运算(指数因子在0.25到4之间)，增加光照变化。

噪声扰动：在发票图像的RGB三个通道中进行随机扰动，常用的噪声模式是椒盐噪声和高斯噪声。

对图像进行归一化具体为：由于YOLOv3网络中的卷积神经网络输入尺寸要求是32的倍数，YOLOv3训练时网络输入的范围在320*320到608*608之间，所以需要把得到的训练集进行数据预处理，把低于320*320分辨率的图像归一化成320*320，把高于608*608分辨率的图像归一化成608*608。本申请中采用在数字图像处理技术中使用广泛且插值效果和运算速度较优的双线性插值法进行图像归一化，其具体如图4所示：已知原图中存在4个像素点分别为：A₁₁(i₁，j₁)、A₁₂(i₁，j₂)、B₂₁(i₂，j₁)、B₂₂(i₂，j₂)，使用双线性内插法使图像归一化的原理如下：

在i方向上对A₁₁(i₁，j₁)以及B₂₁(i₂，j₁)进行线性插值，得到T₁点像素f(i,j₁)，计算公式如下：

对A₁₂(i₁，j₂)以及B₂₂(i₂，j₂)进行线性插值，得到T₂点像素值为f(i,j₂)，计算公式如下：

在j方向上对T₁和T₂进行线性插值得到R点的像素值f(i,j)：

根据上述方法，把低于320*320分辨率的图像归一化成320*320，把高于608*608分辨率的图像归一化成608*608。

对图像进行特征提取具体为：在本申请的一种具体实施例中，采用darknet-52网络结构，darknet-52网络是目前最先进的实时目标检测算法YOLOV3的核心特征提取器，Darknet-52网络结构一共有52层卷积层，23个res_unit结构组成，其网络结构如下表所示：

表1Darknet-52结构数据表

Darknet-52结构如表1所示，每两个卷积层和一个残差结构组成一个残差网络模块，该网络没有池化层和全连接层，在前向传播过程中，图像的尺寸变换是通过改变卷积核的步长来实现的，比如步长＝(2,2)时，即将图像边长缩小了一般(即面积缩小到原来的1/4)。

对目标区域进行定位具体为：在本申请的实施例中由于采用YOLOV3的目标检测方法，其采用的是多尺度检测，分别在13*13、26*26、52*52三个尺度下进行目标区域的图像坐标预测，再选择一个置信度最高的检测框作为定位结果。

对目标区域进行分类具体为：可以将每一个特定的发票检测区域作为一个类别，而YOLOV3采用逻辑回归作为分类器，在多个类别分类时，采用多个逻辑回归函数作二分类，每个逻辑回归函数选择所有类中其中一个类为正类，余下类为负类。

103、若存在目标区域，则对目标区域进行定位。

需要说明的是，若检测并未发现目标区域，则重新进行检测或者停止检测；若检测发现目标区域，则对检测到的目标区域进行定位，在一种具体的定位方式中，采用YOLOV3的方法，采用多尺度检测，分别在13*13、26*26、52*52三个尺度下进行目标区域的图像坐标预测，再选择一个置信度最高的检测框作为定位结果。

104、对定位的目标区域进行分类，并得到分类后的目标区域的图像坐标。

需要说明的是，由于每一个特定的发票检测区域都可以作为一个类别，因此在训练过程中需要划分多个类别，而YOLOV3采用逻辑回归作为分类器，在对多个类别分类时，采用多个逻辑回归函数作二分类，每个逻辑回归函数选择所有类中其中一个类为正类，余下类为负类，从而能够有效地输出该目标区域的类别。

为了便于理解，请参阅图2，图2为本申请一种发票目标区域的定位方法的另一个实施例的方法流程图，具体还包括：

在步骤203将待测图像输入到训练好的神经网络中，对待测图像中的目标区域进行检测之前，还包括：

202、将所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像。

需要说明的是，由于深度学习需要大量样本进行训练才能达到较好的泛化能力，一般情况下收集的数据是有限的，为了增加更多的数据供网络进行学习，我们可以通过变换操作，从而生成更多新的数据，增加训练集的大小，不同的任务背景下，我们可以通过图像的几何变换使用一种或多种组合来对数据进行增强，增加数据的输入量。因此，对图像进行数据增强处理具体包括：

缩放变换：在一定范围的比例内，对发票图像进行缩放。

其中，本申请采用双线性插值法对所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像，在一种具体的实施方式中，采用YOLOv3的目标检测网络，由于YOLOv3网络中的卷积神经网络输入尺寸要求是32的倍数，YOLOv3训练时网络输入的范围在320*320到608*608之间，所以需要把得到的训练集进行数据预处理，把低于320*320分辨率的图像归一化成320*320，把高于608*608分辨率的图像归一化成608*608。本申请中采用在数字图像处理技术中使用广泛且插值效果和运算速度较优的双线性插值法进行图像归一化，其具体如图4所示：已知原图中存在4个像素点分别为：A₁₁(i₁，j₁)、A₁₂(i₁，j₂)、B₂₁(i₂，j₁)、B₂₂(i₂，j₂)，使用双线性内插法使图像归一化的原理如下：

在j方向上对T₁和T₂进行线性插值得到R点的像素值f(i,j)：

以上是本申请的方法实施例，本申请还提供了一种发票目标区域的定位装置的实施例，如图3所示，具体包括：

图像获取单元301，用于获取待测图像。

区域检测单元302，用于将待测图像输入到训练好的神经网络中，对待测图像中的目标区域进行检测。

区域定位单元303，用于当存在目标区域时，对目标区域进行定位。

区域分类单元304，用于对定位的目标区域进行分类，并得到分类后的目标区域的图像坐标。

具体的，还包括：归一化单元，所述归一化单元用于将所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像。

另外，本申请还提供了一种发票目标区域的定位设备的实施例，包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行以上发票目标区域的定位方法额实施例。

本申请还提供了一种计算机可读存储介质的实施例，包括计算机可读存储介质，用于存储程序代码，程序代码用于执行以上发票目标区域的定位方法的实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种发票目标区域的定位方法，其特征在于，包括：

获取待测图像；

若存在所述目标区域，则对所述目标区域进行定位；

对所述定位的目标区域进行分类，得到分类后的目标区域的图像坐标。

2.根据权利要求1所述的发票目标区域的定位方法，其特征在于，在将所述待测图像输入到训练好的神经网络中，对所述待测图像中的目标区域进行检测之前，还包括：

3.根据权利要求2所述的发票目标区域的定位方法，其特征在于，所述将所述待测图像进行图像尺度归一化处理，使得所述待测图像输出为满足神经网络输入尺寸的图像具体为：

4.根据权利要求1所述的发票目标区域的定位方法，其特征在于，所述将所述待测图像输入到神经网络中对图像中的目标区域进行检测具体为：

5.根据权利要求1所述的发票目标区域的定位方法，其特征在于，所述对目标区域进行定位具体为：

6.根据权利要求1所述的发票目标区域的定位方法，其特征在于，所述对所述定位的目标区域进行分类，并得到分类后的目标区域的图像坐标具体为：

7.一种发票目标区域的定位装置，其特征在于，包括：

图像获取单元，所述图像获取单元用于获取待测图像；

8.根据权利要求7所述的一种发票目标区域的定位装置，其特征在于，还包括：

9.一种发票目标区域的定位设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的发票目标区域的定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任一项所述的发票目标区域的定位方法。