CN108460418B - 一种基于文字识别与语义分析的发票分类方法 - Google Patents
一种基于文字识别与语义分析的发票分类方法 Download PDFInfo
- Publication number
- CN108460418B CN108460418B CN201810187828.0A CN201810187828A CN108460418B CN 108460418 B CN108460418 B CN 108460418B CN 201810187828 A CN201810187828 A CN 201810187828A CN 108460418 B CN108460418 B CN 108460418B
- Authority
- CN
- China
- Prior art keywords
- invoice
- image
- character recognition
- semantic analysis
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于文字识别与语义分析的发票分类方法,其以检测出发票的种类为目标,首先利用图像采集设备采集发票图像,接着利用霍夫变换检测出图像中发票的长和宽,再将长和宽与预先设定的边长阈值分别进行比较,实现发票的初步分类,然后根据初步分类的结果,调用相应的发票模板,切割出需要进行文字识别的区域;最后调用百度文字识别系统等第三方文字识别系统识别上述区域中的文字;识别完成后,对其结果进行语义分析,最终得出发票分类的精确结果。本发明解决了发票识别中因无法区分发票种类而不能实现准确识别的问题,适用于多种不同类别的发票,在发票识别与智能财务报销中拥有较高的应用价值。
Description
技术领域
本发明涉及图像处理、人工智能技术领域,具体涉及一种基于文字识别与语义分析的发票分类方法。
背景技术
近几年来,随着我国社会经济的飞速发展,经济活动日益频繁,无论是普通消费者还是各种类型的企业对消费必须开具发票、凭票才能进行报销的认识日益深刻。目前,我国每年报销使用的发票数以亿计,而且发票的种类也在不断增多。如果人工处理这些发票的话,一方面会消耗大量的人力物力,加重负责报销的财务人员的工作负担,而且会占用报销者大量额外的精力。另一方面人工处理发票效率低、错误率高。故实现发票自动化处理与智能财务报销有很大的实用价值。
利用图像处理及人工智能领域的相关技术识别发票文字、实现智能财务报销具有重要意义。它即能提高报销效率,减少报销者在报销上浪费的精力和时间,降低财务人员的工作负担,又能降低中小型企业的人力资源成本,对企业与社会发展十分有益。
发明内容
为解决现有技术中的不足,本发明提供一种基于文字识别与语义分析的发票分类方法,解决了发票种类分类速度慢、发票报销效率低的问题。
为了实现上述目标,本发明采用如下技术方案:一种基于文字识别与语义分析的发票分类方法,其特征在于:具体包括以下步骤:
步骤一,通过图像采集设备采集发票图像,记作A;
步骤二,利用霍夫变换检测图像A中发票的长length和宽width,单位为像素;
步骤三,设定边长阈值lthreshold,并将边长阈值与长和宽进行比较,对发票进行初步分类;
步骤四,根据上一步的初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X;
步骤五,调用第三方文字识别系统,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类。
前述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤二中利用霍夫变换检测图像A中发票的长length和宽width,具体步骤包括:
步骤2-1,将图像A二值化,得到二值图像B,并在直角坐标系下将二值图像B离散化,计算出图像B的长和宽,分别记为m,n;
步骤2-3,遍历步骤2-1中离散化的二值图像B,找出所有像素值不为0的点(x,y),每找出一个点,将其带入方程ρ=xcosθ+ysinθ中,分别求出θ=00和θ=900对应的ρ,并分别在相应的水平二维累加数组KH(00,ρ)和垂直二维累加数组KV(900,ρ)上加1;
步骤2-4,遍历水平二维累加数组KH(00,ρ),找出最大值和次最大值,将其对应的θ=00和ρ带入方程ρ=xcosθ+ysinθ,得到lH1和lH2,即为发票图像水平方向两条边的方程;同理,遍历垂直二维累加数组KV(900,ρ),将其对应的θ=900和ρ带入方程ρ=xcosθ+ysinθ,得到发票图像竖直方向两条边的方程lV1和lV2;
步骤2-5,联立lH1和lV1,可以得到交点(x11,y11),联立lH1和lV2可以得到交点(x12,y12),联立lH2和lV1可以得到交点(xmin,ymin),联立lH2和lV2得到交点(x22,y22),根据这些点求得发票的长length和宽width,公式如下:
步骤2-6,比较上述四个交点的横、纵坐标的大小,找出横坐标最小且纵坐标最小的交点,即图像A中发票的左顶点,记为(xmin,ymin)。
前述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤三,对发票进行初步分类具体为:如果长length≥lthreshold,或者宽width≥lthreshold,判定该发票为Ⅰ型发票,否则就判定为Ⅱ型发票。
前述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤四中,根据初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X,具体步骤包括:
步骤4-1,根据初步分类的结果,调用相应的发票模板,发票模板里包含需要进行文字识别区域的坐标信息;
步骤4-2,根据发票模板中的坐标信息切割出需要进行文字识别的区域X,切割区域X坐标信息记为(xmin,ymin,l,w),xmin为图像A左上角顶点横坐标,ymin为图像A左上角顶点纵坐标,l为所切割区域的长,w为所切割区域的宽。
前述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述Ⅰ型发票的切割区域为记该区域为X-Ⅰ;Ⅱ型发票的切割区域有两块,分别为记该区域为X-Ⅱ,xmin为图像A左上角顶点横坐标,ymin为图像A左上角顶点纵坐标。
前述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤五中,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类,具体包括如下步骤:
步骤5-1,调用第三方文字识别系统,识别区域X中的文字,得到识别结果;
步骤5-3,初始化特征字符向量即每个特征字符对应的位置置0,利用特征字符向量对应的特征字符检索或匹配识别结果,如果匹配到某个字符,那么相应的位置置1,当检索完成后,根据中元素的值,找出对应的发票类别,即可实现发票精确分类。
前述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤五中,第三方文字识别系统包括百度文字识别系统、腾讯文字识别系统。
本发明所达到的有益效果:本发明能有效的在发票识别中因无法检测出发票种类而不能准确识别的问题,创造性地引入图像处理、文字识别与语义分析,能准确检测出发票种类,而且本发明适用于多类发票,具有很高的准确性、稳定性和鲁棒性。
附图说明
图1是本发明发票分类方法流程图;
图2是发票图像A;
图3是按Ⅰ型发票模板切割出的区域X-Ⅰ;
图4是按Ⅱ型发票模板切割出的区域X-Ⅱ。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于文字识别与语义分析的发票分类方法,具体包括以下步骤:
步骤一,通过图像采集设备采集摆放端正的发票图像,记作A;
步骤二,利用霍夫变换检测图像A中发票的长length和宽width,单位为像素;
步骤三,设定边长阈值lthreshold,并将边长阈值与长和宽进行比较,如果长length≥lthreshold,或者宽width≥lthreshold,判定该发票为Ⅰ型发票,否则就判定为Ⅱ型发票;
步骤四,根据上一步的初步分类结果,调用发票模板,根据发票模板切割出需要进行文字识别的区域X;
步骤五,调用第三方文字识别系统,例如百度文字识别系统或者腾讯文字识别系统,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类。
步骤二中,利用霍夫变换检测图像A中发票的长length和宽width,具体步骤包括:
步骤2-1,将图像A二值化,得到二值图像B,并在直角坐标系下将二值图像B离散化,计算出图像B的长和宽,分别记为m,n,单位为像素。
步骤2-2,建立并初始化离散化的参数空间ρ-θ,其中,θ∈[0,180),单位为度,单位间隔为1;建立并初始化水平二维累加数组KH(00,ρ)和垂直二维累加数组KV(900,ρ),累加数组均为1行ρ列的数组,初始化之后里面的元素全部都是0;
步骤2-3,遍历步骤2-1中离散化的二值图像B,找出所有像素值不为0的点(x,y),每找出一个点,将其带入方程ρ=xcosθ+ysinθ中,分别求出θ=00和θ=900对应的ρ,并分别在相应的水平二维累加数组KH(00,ρ)和垂直二维累加数组KV(900,ρ)上加1;
步骤2-4,遍历水平二维累加数组KH(00,ρ),找出最大值和次最大值,将其对应的θ=00和ρ带入方程ρ=xcosθ+ysinθ,可以得到lH1和lH2,即为发票图像水平方向两条边的方程;同理,遍历垂直二维累加数组KV(900,ρ),将其对应的θ=900和ρ带入方程ρ=xcosθ+ysinθ,可以得到发票图像竖直方向两条边的方程lV1和lV2;
步骤2-5,联立lH1和lV1,可以得到交点(x11,y11),联立lH1和lV2可以得到交点(x12,y12),联立lH2和lV1可以得到交点(xmin,ymin),联立lH2和lV2可以得到交点(x22,y22)。根据这些点可以求得发票的长length和宽width,公式如下:
步骤2-6,比较上述四个交点的横、纵坐标的大小,找出横坐标最小且纵坐标最小的交点,即图像A中发票的左顶点,记为(xmin,ymin)。
步骤四中,根据初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X,具体步骤包括:
步骤4-1,根据初步分类的结果,调用相应的发票模板,发票模板里包含需要进行文字识别区域的坐标信息;
步骤4-2,根据发票模板中的坐标信息切割出需要进行文字识别的区域X,等待下一步操作;切割区域X坐标信息记为(xmin,ymin,l,w),xmin为图像A左上角顶点横坐标,ymin为图像A左上角顶点纵坐标,l为所切割区域的长,w为所切割区域的宽,其中,Ⅰ型发票的切割区域为记该区域为X-Ⅰ;Ⅱ型发票的切割区域有两块,分别为 记该区域为X-Ⅱ,如图3和图4所示,虚线框内的区域分别为按Ⅰ型发票模板切割出的区域X-Ⅰ和按Ⅱ型发票模板切割出的区域X-Ⅱ;
步骤五中,识别切割区域X中的文字,并对识别结果进行语义分析,得出精确的分类,具体包括如下步骤:
步骤5-1,调用第三方文字识别系统,例如百度文字识别系统、腾讯文字识别系统等,识别区域X中的文字,得到识别结果;
步骤5-2,收集各类发票图像,找出每类发票独有的特征字符,由于第三方文字识别系统不可能将每个字符都识别准确,故每类发票需要对应多个特征字符,再根据特征字符建立特征字符向量特征字符包括:增值,专用,普通,发票,通用,机打,卷式,火车,铁路,12306等。特征字符向量中每一个位置对应一个特征字符,如果位置数值是1,代表结果里有这个特征字符;
步骤5-3,初始化特征字符向量即每个特征字符对应的位置置0,利用特征字符向量对应的特征字符检索或匹配识别结果,如果匹配到某个字符,那么相应的位置置1,当检索完成后,可以根据中元素的值,找出对应的发票类别,即可实现发票精确分类。
本发明能有效的在发票识别中因无法检测出发票种类而不能准确识别的问题,创造性地引入图像处理、文字识别与语义分析,能准确检测出发票种类,而且本发明适用于多类发票,具有很高的准确性、稳定性和鲁棒性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于文字识别与语义分析的发票分类方法,其特征在于:具体包括以下步骤:
步骤一,通过图像采集设备采集发票图像,记作A;
步骤二,利用霍夫变换检测图像A中发票的长length和宽width,单位为像素;
步骤三,设定边长阈值lthreshold,并将边长阈值与长和宽进行比较,对发票进行初步分类;
步骤四,根据上一步的初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X;
步骤五,调用第三方文字识别系统,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类;
其中,利用霍夫变换检测图像A中发票的长length和宽width,具体步骤包括:
步骤2-1,将图像A二值化,得到二值图像B,并在直角坐标系下将二值图像B离散化,计算出图像B的长和宽,分别记为m,n;
步骤2-3,遍历步骤2-1中离散化的二值图像B,找出所有像素值不为0的点(x,y),每找出一个点,将其带入方程ρ=xcosθ+ysinθ中,分别求出θ=0°和θ=90°对应的ρ,并分别在相应的水平二维累加数组KH(0°,ρ)和垂直二维累加数组KV(90°,ρ)上加1;
步骤2-4,遍历水平二维累加数组KH(0°,ρ),找出最大值和次最大值,将其对应的θ=0°和ρ带入方程ρ=xcosθ+ysinθ,得到lH1和lH2,即为发票图像水平方向两条边的方程;同理,遍历垂直二维累加数组KV(90°,ρ),将其对应的θ=90°和ρ带入方程ρ=xcosθ+ysinθ,得到发票图像竖直方向两条边的方程lV1和lV2;
步骤2-5,联立lH1和lV1,可以得到交点(x11,y11),联立lH1和lV2可以得到交点(x12,y12),联立lH2和lV1可以得到交点(xmin,ymin),联立lH2和lV2得到交点(x22,y22),根据这些点求得发票的长length和宽width,公式如下:
步骤2-6,比较上述四个交点的横、纵坐标的大小,找出横坐标最小且纵坐标最小的交点,即图像A中发票的左顶点,记为(xmin,ymin)。
2.根据权利要求1所述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤三,对发票进行初步分类具体为:如果长length≥lthreshold,或者宽width≥lthreshold,判定该发票为Ⅰ型发票,否则就判定为Ⅱ型发票。
3.根据权利要求1所述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤四中,根据初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X,具体步骤包括:
步骤4-1,根据初步分类的结果,调用相应的发票模板,发票模板里包含需要进行文字识别区域的坐标信息;
步骤4-2,根据发票模板中的坐标信息切割出需要进行文字识别的区域X,切割区域X坐标信息记为(xmin,ymin,l,w),xmin为图像A左上角顶点横坐标,ymin为图像A左上角顶点纵坐标,l为所切割区域的长,w为所切割区域的宽。
5.根据权利要求1所述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤五中,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类,具体包括如下步骤:
步骤5-1,调用第三方文字识别系统,识别区域X中的文字,得到识别结果;
6.根据权利要求1所述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤五中,第三方文字识别系统包括百度文字识别系统、腾讯文字识别系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810187828.0A CN108460418B (zh) | 2018-03-07 | 2018-03-07 | 一种基于文字识别与语义分析的发票分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810187828.0A CN108460418B (zh) | 2018-03-07 | 2018-03-07 | 一种基于文字识别与语义分析的发票分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108460418A CN108460418A (zh) | 2018-08-28 |
CN108460418B true CN108460418B (zh) | 2021-09-28 |
Family
ID=63219738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810187828.0A Active CN108460418B (zh) | 2018-03-07 | 2018-03-07 | 一种基于文字识别与语义分析的发票分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460418B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461247A (zh) * | 2018-10-29 | 2019-03-12 | 北京慧流科技有限公司 | 票据验证方法及装置、电子设备及存储介质 |
CN109740642A (zh) * | 2018-12-19 | 2019-05-10 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN111104844B (zh) * | 2019-10-12 | 2023-11-14 | 中国平安财产保险股份有限公司 | 多发票信息录入方法、装置、电子设备及存储介质 |
CN111340032A (zh) * | 2020-03-16 | 2020-06-26 | 天津得迈科技有限公司 | 一种基于金融领域应用场景的字符识别方法 |
CN113780116A (zh) * | 2021-08-26 | 2021-12-10 | 众安在线财产保险股份有限公司 | 发票分类方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1460961A (zh) * | 2003-06-27 | 2003-12-10 | 杭州信雅达系统工程股份有限公司 | 票据图象版面识别方法 |
CN103617415A (zh) * | 2013-11-19 | 2014-03-05 | 北京京东尚科信息技术有限公司 | 一种自动识别发票的装置和方法 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7416131B2 (en) * | 2006-12-13 | 2008-08-26 | Bottom Line Technologies (De), Inc. | Electronic transaction processing server with automated transaction evaluation |
-
2018
- 2018-03-07 CN CN201810187828.0A patent/CN108460418B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1460961A (zh) * | 2003-06-27 | 2003-12-10 | 杭州信雅达系统工程股份有限公司 | 票据图象版面识别方法 |
CN103617415A (zh) * | 2013-11-19 | 2014-03-05 | 北京京东尚科信息技术有限公司 | 一种自动识别发票的装置和方法 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
Non-Patent Citations (1)
Title |
---|
增值税发票抵扣联移动认证系统的研究;马德荣;《信息安全与技术》;20120531;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108460418A (zh) | 2018-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460418B (zh) | 一种基于文字识别与语义分析的发票分类方法 | |
CN107617573B (zh) | 一种基于多任务深度学习的物流编码识别和分拣方法 | |
US9396404B2 (en) | Robust industrial optical character recognition | |
CN101576956B (zh) | 基于机器视觉的在线字符检测方法和系统 | |
CN102332086A (zh) | 一种基于双阈值局部二进制模式的人脸识别方法 | |
CN105354866A (zh) | 一种多边形轮廓相似度检测方法 | |
CN110929713B (zh) | 一种基于bp神经网络的钢印字符识别方法 | |
CN110334433B (zh) | 一种pcb封装文件自动生成方法 | |
CN108764234B (zh) | 一种基于巡检机器人的液位仪表读数识别方法 | |
CN104484643A (zh) | 一种手写表格的智能识别方法及系统 | |
CN104021375A (zh) | 一种基于机器学习的车型识别方法 | |
CN104680550A (zh) | 一种通过图像特征点的轴承表面瑕疵检测的方法 | |
CN105260751A (zh) | 一种文字识别方法及其系统 | |
TWI611961B (zh) | 車道線影像分析方法、影像分析裝置及其電腦可讀取式媒體 | |
CN103295009B (zh) | 基于笔画分解的车牌字符识别方法 | |
CN104182728A (zh) | 一种基于模式识别的车标自动定位与识别方法 | |
Koo | Text-line detection in camera-captured document images using the state estimation of connected components | |
Celar et al. | Classification of test documents based on handwritten student ID's characteristics | |
CN107066997B (zh) | 一种基于图像识别的电气元件报价方法 | |
CN111950556A (zh) | 一种基于深度学习的号牌印刷质量检测方法 | |
CN115169375B (zh) | 基于ar与枪球联动的高位物料可视化方法 | |
CN109325487B (zh) | 一种基于目标检测的全种类车牌识别方法 | |
CN104504385B (zh) | 手写粘连数字串的识别方法 | |
CN116363655A (zh) | 一种财务票据识别方法及系统 | |
Vorozhtsova et al. | System approach to development of intellectual information mobile system for electric power metering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |