CN112149654A - 基于深度学习的发票文本信息识别方法 - Google Patents
基于深度学习的发票文本信息识别方法 Download PDFInfo
- Publication number
- CN112149654A CN112149654A CN202011008285.5A CN202011008285A CN112149654A CN 112149654 A CN112149654 A CN 112149654A CN 202011008285 A CN202011008285 A CN 202011008285A CN 112149654 A CN112149654 A CN 112149654A
- Authority
- CN
- China
- Prior art keywords
- text
- deep learning
- information
- post
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明涉及票据处理领域,公开了一种基于深度学习的发票文本信息识别方法,解决字段和信息的不能智能匹配问题,导致人工对票据信息进行匹配标定耗时耗力的问题。本发明的方案为:首先将图片导入深度学习网络进行通用文字检测;再结合检测结果对原图进行裁剪;再将裁剪后的图片送入深度学习网络进行通用文字识别;再结合通用文字检测识别结果进行后处理;最后结合后处理结果,得到票据字段及其对应信息,并保存结果到数据库。本发明适用于发票文本信息识别。
Description
技术领域
本发明涉及票据处理领域,特别涉及基于深度学习的发票文本信息识别方法。
背景技术
在票据识别方面,随着社会发展和经济进步,票据的识别检测工作量也逐步变大,智能化识别票据成为迫切的需求。在过去,票据上的各种关键字段信息全部由人工筛选识别,这种单一繁复的工作耗时巨大,随着深度学习方法的进步,票据的文本可以通过神经网络来进行通用识别和通用检测。但是此处存在一个缺陷,具体就是文本检测后的结果,仍然需要人工来进行筛选和修改,这仍然需要耗时耗力。产生缺陷的另一个原因是票据多种多样。票据上信息的复杂性成为了票据检测识别的瓶颈,包括字段文字类型的多样,字段边框的不定长宽比以及待检测识别的票据种类繁多等。主要体现为:文字类型有不同语言,不同符号,字段可能很长或是很短,票据种类包括统一发票,机票,火车票等等。
随着深度学习技术发展,此技术正在被应用于越来越多的领域,工程、信息技术、金融、医疗等等。在财务电子化领域中,深度学习技术可以用于报表、发票、文件的识别和检测。但是由于票据的名录多种多样,票据内容更是纷繁复杂,仅仅使用深度学习方法不足以将复杂票据的关键信息和字段名完全对应。
发明内容
本发明要解决的技术问题是:提供一种基于深度学习的发票文本信息识别方法,解决字段和信息的不能智能匹配问题,导致人工对票据信息进行匹配标定耗时耗力的问题。
为解决上述问题,本发明采用的技术方案是:基于深度学习的发票文本信息识别方法,包括如下步骤:
步骤一:将图片导入第一深度学习网络进行通用文字检测;
步骤二:结合步骤一的检测结果对原图进行裁剪;
步骤三:将裁剪后的图片送入第二深度学习网络进行通用文字识别;
步骤四:结合通用文字检测识别结果进行后处理操作,所述后处理包括通用后处理,所述通用后处理包括正则匹配、范围检索、信息提取及坐标边界;
所述正则匹配的步骤包括:对于给定的待匹配字段和相应的文本信息,制定正则表达式,然后在步骤二得到的文本内容列表中进行正则匹配,完成匹配后获取该文本的文本框序列号;
所述范围检索的步骤包括:给定一个检索范围I,在正则匹配得到的序列号前后I个单位检索字段对应的文本内容;
所述信息提取的步骤包括:对检索的文本内容,首先提取其中的字母或数字类型的字符,并定义其为有用文本信息,通过有用文本信息再结合正则表达式进行进一步的文本匹配;
所述坐标边界的步骤包括:结合匹配目标字段周围的其他的字段,并获取这些字段的坐标信息,利用坐标信息框定一个目标文本框,将文本内容限定在目标框内;
步骤五:结合后处理结果,得到票据字段及其对应信息;
步骤六:保存结果到数据库。
进一步的,所述第一深度学习网络为ctpn网络。
进一步的,所述第二深度学习网络为RCNN网络。
进一步的,所述后处理还包括局部后处理。对于部分特殊字段,例如印章上的文本字段检测识别及印章位置框定,可使用单独的局部后处理进行目标框位置的框定和文本筛选,其具体方法为:根据印章的内容指定正则表达式,然后根据成功匹配的字段序列号,获取已识别的所有印章内容,并且利用其坐标,经过计算可大致框定印章的位置。
本发明的有益效果是:本发明通过将深度学习技术和通用后处理编码相结合的方法,相比人工筛选匹配,提升了机动车销售统一发票识别的效率和准确率。
附图说明
图1为本发明流程图;
图2为本发明通用文字检测效果图;
图3为本发明裁剪步骤示例图;
图4为本发明通用文字识别效果图;
图5为本发明后处理步骤中,通用后处理坐标边界示例图;
图6为本发明后处理步骤中,局部后处理示例图。
具体实施方式
本发明申请针对的问题是:对于有固定票面规格的发票,人工对票据信息进行匹配标定的方法耗时耗力,但目前公开的方法中又缺失字段和信息的智能匹配,无法直接获取某一字段的信息。本发明解决问题的方法技术本质是深度学习与后处理匹配结合。和现有技术相比,字段的识别更加方便省时省力。
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
在本实施例中,本发明展示一张机动车销售统一发票的识别过程,如图1所示,本发明公开的一种基于深度学习的发票文本信息识别方法,具体实施方式包括以下步骤:
步骤一:通用文字检测
首先读取机动车销售统一发票图片,导入部署的通用文字检测服务中进行文本位置的检测,将会得到的结果可视化对比为图2,图片中的文本区域将会被检测出,如图2右侧所框区域即为检测出的文本区域。本步骤使用的是基于ctpn原理搭建的深度学习网络,该网络主要有三个流程:检测小尺度文本框,连接文本框及细化文本行。
在该网络中,首先使用VGG19作为主干网进行特征提取,滑动窗口大小为3x3。并将得到的特征图送入一个双向LSTM中,后接全连接层进行输出。在输出层中,每一个预测的文本框都有两个anchor的位置高度参数和分数,以及一个水平平移量。然后使用一个标准的非极大值抑制算法来滤除多余的文本框,最后使用基于图的文本行构造算法来合并文本段。由于引入了双向LSTM,因此该模型对水平文本识别能力很强。
步骤二:裁剪
由步骤一可以得到一张机动车销售统一发票中的文本框位置及分数,根据结果中每一个文本框的坐标计算出图片倾斜角度,然后对图片进行小角度调整及坐标变换。最后根据坐标对检测出的文本框进行裁剪,本步骤将得到所有检测出的文本矩形框,其示例效果为图3,如图3为裁剪的部分文本对象。
步骤三:通用文字识别
读取由步骤二得到的文本框结果后,导入部署的通用文字识别服务中进行文本内容的识别,其结果可视化对比为图4,图4右侧图片中文字部分为原图对应位置识别出的文本。本步骤使用的是基于RCNN原理搭建的深度学习网络,该网络首先使用根据选择性搜索算法生成文本候选区域之后,使用CNN卷积神经网络提取区域特征,然后通过SVM进行分类,最后进行目标文本框的边框回归。
步骤四:通用后处理
由步骤三可以得到一张机动车销售统一发票的通用文字检测识别结果:即目标文本框的内容、坐标、置信分数及文本框序列号。使用深度学习场景文字检测技术得到文本内容后,往往需要人工来将文本进行逐一匹配,筛选和纠错。本专利采用了深度学习及通用后处理结合的方式,实现智能化匹配票据信息,步骤四灵活使用正则匹配、范围检索、信息提取及坐标边界四个方法,其中正则匹配用于匹配筛选目标目录的文本;范围检索将根据目标目录文本框的序列号缩小检索范围,进一步排除干扰项;信息提取用于筛选提取文本框中有意义的文本,利于进一步匹配信息;坐标边界示例图如图5所示,根据相邻目录文本框的坐标框定目标文本的大致范围,结合通用文字检测识别中目标文本框的坐标进行信息的筛选匹配。
通用后处理的具体步骤包含如下几个部分:
1.正则匹配
对于给定的待匹配字段和相应的文本信息,制定正则表达式,然后在步骤二得到的文本内容列表中进行正则匹配。此部分旨在匹配字段信息后,获取匹配成功的文本的文本框序列号。
2.范围检索
给定一个检索范围I,在正则匹配得到的序列号前后I个单位检索字段对应的文本内容。这一处理将检索内容限定在范围内,排除多余干扰项。
3.信息提取
对检索的文本内容进行文本处理,提取其中的有用文本信息并结合正则表达式进行内容匹配。例如,由于印刷错误导致的本应全是数字字母的编号类文本,夹杂部分被检测为汉字的字符,此处增加一步文本提取,旨在提取其中的字母或数字类型的字符,并定义其为有用文本信息。然后再结合正则表达式进行进一步的文本匹配。
4.坐标边界
根据该票据的结构组成,结合待匹配目标字段,获取该字段周围的其他的字段的坐标,利用坐标信息框定一个大概的目标框,将检索的文本范围限定在目标框内。例如带匹配的字段名称为“开户银行”,则获取“开户银行”周围的其他字段名称的坐标信息,并利用若干其他字段的坐标框定一个“开户银行”的大致范围,最后在该范围中进行检索。该处理进一步排除干扰项。
步骤五:局部后处理
对于部分特殊字段,例如印章上的文本字段检测识别及印章位置框定,需使用单独的局部后处理进行目标框位置的检测和文本筛选,其具体方法为:根据印章的内容指定正则表达式,然后根据成功匹配的字段序列号,获取已识别的所有印章内容,并且利用其坐标,经过计算可大致框定印章的位置,如图6所示。
步骤六:输出保存
本步骤将由步骤四、五得到的结果格式化输出并保存于数据库,用于后续人工纠偏处理。
经过以上步骤,即可通过深度学习技术和后处理过程快速得到一张激动测销售统一发票的各种名录信息,相比人工筛选匹配更加省时省力。
Claims (5)
1.基于深度学习的发票文本信息识别方法,其特征在于,包括如下步骤:
步骤一:将图片导入第一深度学习网络进行通用文字检测;
步骤二:结合步骤一的检测结果对原图进行裁剪;
步骤三:将裁剪后的图片送入第二深度学习网络进行通用文字识别;
步骤四:结合通用文字检测识别结果进行后处理操作,所述后处理包括通用后处理,所述通用后处理包括正则匹配、范围检索、信息提取及坐标边界;
所述正则匹配的步骤包括:对于给定的待匹配字段和相应的文本信息,制定正则表达式,然后在步骤二得到的文本内容列表中进行正则匹配,完成匹配后获取该文本的文本框序列号;
所述范围检索的步骤包括:给定一个检索范围I,在正则匹配得到的序列号前后I个单位检索字段对应的文本内容;
所述信息提取的步骤包括:对检索的文本内容,首先提取其中的字母或数字类型的字符,并定义其为有用文本信息,通过有用文本信息再结合正则表达式进行进一步的文本匹配;
所述坐标边界的步骤包括:结合匹配目标字段周围的其他的字段,并获取这些字段的坐标信息,利用坐标信息框定一个目标文本框,将文本内容限定在目标框内;
步骤五:结合后处理结果,得到票据字段及其对应信息;
步骤六:保存结果到数据库。
2.如权利要求1所述基于深度学习的发票文本信息识别方法,其特征在于,所述第一深度学习网络为ctpn网络。
3.如权利要求1所述基于深度学习的发票文本信息识别方法,其特征在于,所述第二深度学习网络为RCNN网络。
4.如权利要求1所述基于深度学习的发票文本信息识别方法,其特征在于,所述后处理还包括局部后处理。
5.如权利要求4所述基于深度学习的发票文本信息识别方法,其特征在于,所述局部后处理包括:根据印章的内容指定正则表达式,然后根据成功匹配的字段序列号,获取已识别的所有印章内容,并且利用其坐标,经过计算框定印章的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008285.5A CN112149654B (zh) | 2020-09-23 | 2020-09-23 | 基于深度学习的发票文本信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008285.5A CN112149654B (zh) | 2020-09-23 | 2020-09-23 | 基于深度学习的发票文本信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149654A true CN112149654A (zh) | 2020-12-29 |
CN112149654B CN112149654B (zh) | 2022-08-02 |
Family
ID=73897938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011008285.5A Active CN112149654B (zh) | 2020-09-23 | 2020-09-23 | 基于深度学习的发票文本信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149654B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637180A (zh) * | 2011-02-14 | 2012-08-15 | 汉王科技股份有限公司 | 基于正则表达式的文字后处理方法和装置 |
CN107480681A (zh) * | 2017-08-02 | 2017-12-15 | 四川长虹电器股份有限公司 | 基于深度学习的高并发票据识别系统与方法 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
CN109284750A (zh) * | 2018-08-14 | 2019-01-29 | 北京市商汤科技开发有限公司 | 票据识别方法及装置、电子设备及存储介质 |
CN109740548A (zh) * | 2019-01-08 | 2019-05-10 | 北京易道博识科技有限公司 | 一种报销票据图像分割方法及系统 |
CN110348441A (zh) * | 2019-07-10 | 2019-10-18 | 深圳市华云中盛科技有限公司 | 增值税发票识别方法、装置、计算机设备及存储介质 |
CN110472524A (zh) * | 2019-07-25 | 2019-11-19 | 广东工业大学 | 基于深度学习的发票信息管理方法、系统和可读介质 |
US20190362143A1 (en) * | 2018-05-25 | 2019-11-28 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium |
CN110544161A (zh) * | 2019-08-09 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 基于票据数据自动提取的财务费用稽核方法以及装置 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
-
2020
- 2020-09-23 CN CN202011008285.5A patent/CN112149654B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637180A (zh) * | 2011-02-14 | 2012-08-15 | 汉王科技股份有限公司 | 基于正则表达式的文字后处理方法和装置 |
CN107480681A (zh) * | 2017-08-02 | 2017-12-15 | 四川长虹电器股份有限公司 | 基于深度学习的高并发票据识别系统与方法 |
US20190362143A1 (en) * | 2018-05-25 | 2019-11-28 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
CN109284750A (zh) * | 2018-08-14 | 2019-01-29 | 北京市商汤科技开发有限公司 | 票据识别方法及装置、电子设备及存储介质 |
CN109740548A (zh) * | 2019-01-08 | 2019-05-10 | 北京易道博识科技有限公司 | 一种报销票据图像分割方法及系统 |
CN110348441A (zh) * | 2019-07-10 | 2019-10-18 | 深圳市华云中盛科技有限公司 | 增值税发票识别方法、装置、计算机设备及存储介质 |
CN110472524A (zh) * | 2019-07-25 | 2019-11-19 | 广东工业大学 | 基于深度学习的发票信息管理方法、系统和可读介质 |
CN110544161A (zh) * | 2019-08-09 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 基于票据数据自动提取的财务费用稽核方法以及装置 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
Non-Patent Citations (4)
Title |
---|
ZHI TIAN等: "Detecting text in natural image with connetionist text proposal network", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
刘欢: "基于深度学习的发票图像文本检测与识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
姜典转: "基于深度学习的票据文本定位与识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
蒋冲宇等: "基于神经网络的发票文字检测与识别方法", 《武汉工程大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN112818823B (zh) * | 2021-01-28 | 2024-04-12 | 金科览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112149654B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569832B (zh) | 基于深度学习注意力机制的文本实时定位识别方法 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
WO2019238063A1 (zh) | 文本检测分析方法、装置及设备 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
US8315465B1 (en) | Effective feature classification in images | |
CN110210413A (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
US7035463B1 (en) | Document image processor, method for extracting document title, and method for imparting document tag information | |
KR101769918B1 (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
EP2983112A2 (en) | Robust industrial optical character recognition | |
US20060062460A1 (en) | Character recognition apparatus and method for recognizing characters in an image | |
AU2010311067A1 (en) | System and method for increasing the accuracy of optical character recognition (OCR) | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
CN114119949A (zh) | 一种增强文本合成图像的生成方法和系统 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112149654B (zh) | 基于深度学习的发票文本信息识别方法 | |
CN117275025A (zh) | 一种用于批量图像标注的处理系统 | |
Saabni | Efficient recognition of machine printed Arabic text using partial segmentation and Hausdorff distance | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN110674678A (zh) | 视频中敏感标志的识别方法及装置 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |