CN108460418B

CN108460418B - 一种基于文字识别与语义分析的发票分类方法

Info

Publication number: CN108460418B
Application number: CN201810187828.0A
Authority: CN
Inventors: 桂冠; 王禹; 熊健; 范山岗; 杨洁; 尹悦
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2021-09-28
Anticipated expiration: 2038-03-07
Also published as: CN108460418A

Abstract

本发明公开了一种基于文字识别与语义分析的发票分类方法，其以检测出发票的种类为目标，首先利用图像采集设备采集发票图像，接着利用霍夫变换检测出图像中发票的长和宽，再将长和宽与预先设定的边长阈值分别进行比较，实现发票的初步分类，然后根据初步分类的结果，调用相应的发票模板，切割出需要进行文字识别的区域；最后调用百度文字识别系统等第三方文字识别系统识别上述区域中的文字；识别完成后，对其结果进行语义分析，最终得出发票分类的精确结果。本发明解决了发票识别中因无法区分发票种类而不能实现准确识别的问题，适用于多种不同类别的发票，在发票识别与智能财务报销中拥有较高的应用价值。

Description

一种基于文字识别与语义分析的发票分类方法

技术领域

本发明涉及图像处理、人工智能技术领域，具体涉及一种基于文字识别与语义分析的发票分类方法。

背景技术

近几年来，随着我国社会经济的飞速发展，经济活动日益频繁，无论是普通消费者还是各种类型的企业对消费必须开具发票、凭票才能进行报销的认识日益深刻。目前，我国每年报销使用的发票数以亿计，而且发票的种类也在不断增多。如果人工处理这些发票的话，一方面会消耗大量的人力物力，加重负责报销的财务人员的工作负担，而且会占用报销者大量额外的精力。另一方面人工处理发票效率低、错误率高。故实现发票自动化处理与智能财务报销有很大的实用价值。

利用图像处理及人工智能领域的相关技术识别发票文字、实现智能财务报销具有重要意义。它即能提高报销效率，减少报销者在报销上浪费的精力和时间，降低财务人员的工作负担，又能降低中小型企业的人力资源成本，对企业与社会发展十分有益。

发明内容

为解决现有技术中的不足，本发明提供一种基于文字识别与语义分析的发票分类方法，解决了发票种类分类速度慢、发票报销效率低的问题。

为了实现上述目标，本发明采用如下技术方案：一种基于文字识别与语义分析的发票分类方法，其特征在于：具体包括以下步骤：

步骤一，通过图像采集设备采集发票图像，记作A；

步骤二，利用霍夫变换检测图像A中发票的长length和宽width，单位为像素；

步骤三，设定边长阈值l_threshold，并将边长阈值与长和宽进行比较，对发票进行初步分类；

步骤四，根据上一步的初步分类结果，调用发票模版，根据发票模板切割出需要进行文字识别的区域X；

步骤五，调用第三方文字识别系统，识别区域X中的文字并对识别结果进行语义分析，得出精确的发票分类。

前述的一种基于文字识别与语义分析的发票分类方法，其特征是：所述步骤二中利用霍夫变换检测图像A中发票的长length和宽width，具体步骤包括：

步骤2-1，将图像A二值化，得到二值图像B，并在直角坐标系下将二值图像B离散化，计算出图像B的长和宽，分别记为m,n；

步骤2-2，建立并初始化离散化的参数空间ρ-θ，其中，θ∈[0,180)，单位为度，

单位间隔为1；建立并初始化水平二维累加数组K_H(0⁰,ρ)和垂直二维累加数组K_V(90⁰,ρ)；

步骤2-3，遍历步骤2-1中离散化的二值图像B，找出所有像素值不为0的点(x,y)，每找出一个点，将其带入方程ρ＝xcosθ+ysinθ中，分别求出θ＝0⁰和θ＝90⁰对应的ρ，并分别在相应的水平二维累加数组K_H(0⁰,ρ)和垂直二维累加数组K_V(90⁰,ρ)上加1；

步骤2-4，遍历水平二维累加数组K_H(0⁰,ρ)，找出最大值和次最大值，将其对应的θ＝0⁰和ρ带入方程ρ＝xcosθ+ysinθ，得到l_H1和l_H2，即为发票图像水平方向两条边的方程；同理，遍历垂直二维累加数组K_V(90⁰,ρ)，将其对应的θ＝90⁰和ρ带入方程ρ＝xcosθ+ysinθ，得到发票图像竖直方向两条边的方程l_V1和l_V2；

步骤2-5，联立l_H1和l_V1，可以得到交点(x₁₁,y₁₁)，联立l_H1和l_V2可以得到交点(x₁₂,y₁₂)，联立l_H2和l_V1可以得到交点(x_min,y_min)，联立l_H2和l_V2得到交点(x₂₂,y₂₂)，根据这些点求得发票的长length和宽width，公式如下：

步骤2-6，比较上述四个交点的横、纵坐标的大小，找出横坐标最小且纵坐标最小的交点，即图像A中发票的左顶点，记为(x_min,y_min)。

前述的一种基于文字识别与语义分析的发票分类方法，其特征是：所述步骤三，对发票进行初步分类具体为：如果长length≥l_threshold，或者宽width≥l_threshold，判定该发票为Ⅰ型发票，否则就判定为Ⅱ型发票。

前述的一种基于文字识别与语义分析的发票分类方法，其特征是：所述步骤四中，根据初步分类结果，调用发票模版，根据发票模板切割出需要进行文字识别的区域X，具体步骤包括：

步骤4-1，根据初步分类的结果，调用相应的发票模板，发票模板里包含需要进行文字识别区域的坐标信息；

步骤4-2，根据发票模板中的坐标信息切割出需要进行文字识别的区域X，切割区域X坐标信息记为(x_min,y_min,l,w)，x_min为图像A左上角顶点横坐标，y_min为图像A左上角顶点纵坐标，l为所切割区域的长，w为所切割区域的宽。

前述的一种基于文字识别与语义分析的发票分类方法，其特征是：所述Ⅰ型发票的切割区域为

记该区域为X-Ⅰ；Ⅱ型发票的切割区域有两块，分别为

记该区域为X-Ⅱ，x_min为图像A左上角顶点横坐标，y_min为图像A左上角顶点纵坐标。

前述的一种基于文字识别与语义分析的发票分类方法，其特征是：所述步骤五中，识别区域X中的文字并对识别结果进行语义分析，得出精确的发票分类，具体包括如下步骤：

步骤5-1，调用第三方文字识别系统，识别区域X中的文字，得到识别结果；

步骤5-2，收集各类发票图像，找出每类发票独有的特征字符，再根据特征字符建立特征字符向量

特征字符向量中每一个位置对应一个特征字符；

步骤5-3，初始化特征字符向量

即每个特征字符对应的位置置0，利用特征字符向量

对应的特征字符检索或匹配识别结果，如果匹配到某个字符，那么

相应的位置置1，当检索完成后，根据

中元素的值，找出对应的发票类别，即可实现发票精确分类。

前述的一种基于文字识别与语义分析的发票分类方法，其特征是：所述步骤五中，第三方文字识别系统包括百度文字识别系统、腾讯文字识别系统。

本发明所达到的有益效果：本发明能有效的在发票识别中因无法检测出发票种类而不能准确识别的问题，创造性地引入图像处理、文字识别与语义分析，能准确检测出发票种类，而且本发明适用于多类发票，具有很高的准确性、稳定性和鲁棒性。

附图说明

图1是本发明发票分类方法流程图；

图2是发票图像A；

图3是按Ⅰ型发票模板切割出的区域X-Ⅰ；

图4是按Ⅱ型发票模板切割出的区域X-Ⅱ。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种基于文字识别与语义分析的发票分类方法，具体包括以下步骤：

步骤一，通过图像采集设备采集摆放端正的发票图像，记作A；

步骤三，设定边长阈值l_threshold，并将边长阈值与长和宽进行比较，如果长length≥l_threshold，或者宽width≥l_threshold，判定该发票为Ⅰ型发票，否则就判定为Ⅱ型发票；

步骤四，根据上一步的初步分类结果，调用发票模板，根据发票模板切割出需要进行文字识别的区域X；

步骤五，调用第三方文字识别系统，例如百度文字识别系统或者腾讯文字识别系统，识别区域X中的文字并对识别结果进行语义分析，得出精确的发票分类。

步骤二中，利用霍夫变换检测图像A中发票的长length和宽width，具体步骤包括：

步骤2-1，将图像A二值化，得到二值图像B，并在直角坐标系下将二值图像B离散化，计算出图像B的长和宽，分别记为m,n，单位为像素。

单位间隔为1；建立并初始化水平二维累加数组K_H(0⁰,ρ)和垂直二维累加数组K_V(90⁰,ρ)，累加数组均为1行ρ列的数组，初始化之后里面的元素全部都是0；

步骤2-4，遍历水平二维累加数组K_H(0⁰,ρ)，找出最大值和次最大值，将其对应的θ＝0⁰和ρ带入方程ρ＝xcosθ+ysinθ，可以得到l_H1和l_H2，即为发票图像水平方向两条边的方程；同理，遍历垂直二维累加数组K_V(90⁰,ρ)，将其对应的θ＝90⁰和ρ带入方程ρ＝xcosθ+ysinθ，可以得到发票图像竖直方向两条边的方程l_V1和l_V2；

步骤2-5，联立l_H1和l_V1，可以得到交点(x₁₁,y₁₁)，联立l_H1和l_V2可以得到交点(x₁₂,y₁₂)，联立l_H2和l_V1可以得到交点(x_min,y_min)，联立l_H2和l_V2可以得到交点(x₂₂,y₂₂)。根据这些点可以求得发票的长length和宽width，公式如下：

步骤四中，根据初步分类结果，调用发票模版，根据发票模板切割出需要进行文字识别的区域X，具体步骤包括：

步骤4-2，根据发票模板中的坐标信息切割出需要进行文字识别的区域X，等待下一步操作；切割区域X坐标信息记为(x_min,y_min,l,w)，x_min为图像A左上角顶点横坐标，y_min为图像A左上角顶点纵坐标，l为所切割区域的长，w为所切割区域的宽，其中，Ⅰ型发票的切割区域为

记该区域为X-Ⅰ；Ⅱ型发票的切割区域有两块，分别为

记该区域为X-Ⅱ，如图3和图4所示，虚线框内的区域分别为按Ⅰ型发票模板切割出的区域X-Ⅰ和按Ⅱ型发票模板切割出的区域X-Ⅱ；

步骤五中，识别切割区域X中的文字，并对识别结果进行语义分析，得出精确的分类，具体包括如下步骤：

步骤5-1，调用第三方文字识别系统，例如百度文字识别系统、腾讯文字识别系统等，识别区域X中的文字，得到识别结果；

步骤5-2，收集各类发票图像，找出每类发票独有的特征字符，由于第三方文字识别系统不可能将每个字符都识别准确，故每类发票需要对应多个特征字符，再根据特征字符建立特征字符向量

特征字符包括：增值，专用，普通，发票，通用，机打，卷式，火车，铁路，12306等。特征字符向量中每一个位置对应一个特征字符，如果位置数值是1，代表结果里有这个特征字符；

步骤5-3，初始化特征字符向量

即每个特征字符对应的位置置0，利用特征字符向量

相应的位置置1，当检索完成后，可以根据

本发明能有效的在发票识别中因无法检测出发票种类而不能准确识别的问题，创造性地引入图像处理、文字识别与语义分析，能准确检测出发票种类，而且本发明适用于多类发票，具有很高的准确性、稳定性和鲁棒性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于文字识别与语义分析的发票分类方法，其特征在于：具体包括以下步骤：

步骤一，通过图像采集设备采集发票图像，记作A；

步骤五，调用第三方文字识别系统，识别区域X中的文字并对识别结果进行语义分析，得出精确的发票分类；

其中，利用霍夫变换检测图像A中发票的长length和宽width，具体步骤包括：

单位间隔为1；建立并初始化水平二维累加数组K_H(0°,ρ)和垂直二维累加数组K_V(90°,ρ)；

步骤2-3，遍历步骤2-1中离散化的二值图像B，找出所有像素值不为0的点(x,y)，每找出一个点，将其带入方程ρ＝xcosθ+ysinθ中，分别求出θ＝0°和θ＝90°对应的ρ，并分别在相应的水平二维累加数组K_H(0°,ρ)和垂直二维累加数组K_V(90°,ρ)上加1；

步骤2-4，遍历水平二维累加数组K_H(0°,ρ)，找出最大值和次最大值，将其对应的θ＝0°和ρ带入方程ρ＝xcosθ+ysinθ，得到l_H1和l_H2，即为发票图像水平方向两条边的方程；同理，遍历垂直二维累加数组K_V(90°,ρ)，将其对应的θ＝90°和ρ带入方程ρ＝xcosθ+ysinθ，得到发票图像竖直方向两条边的方程l_V1和l_V2；