CN112364837A - 一种基于目标检测和文本识别的票据信息识别方法 - Google Patents
一种基于目标检测和文本识别的票据信息识别方法 Download PDFInfo
- Publication number
- CN112364837A CN112364837A CN202011428503.0A CN202011428503A CN112364837A CN 112364837 A CN112364837 A CN 112364837A CN 202011428503 A CN202011428503 A CN 202011428503A CN 112364837 A CN112364837 A CN 112364837A
- Authority
- CN
- China
- Prior art keywords
- bill
- text
- information
- target
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于目标检测和文本识别的票据信息识别方法,包括步骤A,票据图像收集及票据图像集准备;步骤B,文本目标检测;步骤C,文本目标裁剪;步骤D,文字目标识别;步骤E,票据文本信息整理及输出。本发明的基于目标检测和文本识别的票据信息识别方法,将有固定票面规格的票据图像通过OLOv4目标检测模型进行文本目标检测,并进行文本目标裁剪、识别、整理、输出,实现对票据进行特定信息的提取、识别,提高票据信息识别的准确性,并减少代码的维护成本,提高票据信息的识别效率。
Description
技术领域
本发明涉及人工智能深度学习、财务电子化技术领域,具体涉及一种基于目标检测和文本识别的票据信息识别方法。
背景技术
在票据识别方面,随着社会发展和经济进步,票据的识别检测工作量也逐步变大,智能化识别票据成为迫切的需求。在过去,票据上的各种关键字段信息全部由人工筛选识别,这种单一繁复的工作耗时巨大。随着深度学习方法的进步,在票据识别领域一般采用卷积神经网络模型的方法,例如一些基于深度学习神经网络的文本检测和文字识别。但是目前使用的此类方法都有一些缺陷,他们通常无法达到类似端到端的票据信息提取效果,经过文本检测和文字识别后,无法将票据中的具体信息进行有效的区分和匹配,如对于经过文字识别后的文本信息,仍然需要人工来对字段进行分析。产生缺陷的技术原因是目前市场上缺乏可用于票据的高性能的端到端识别网络,票面文本信息的复杂和密集使得其最终的识别效果不好,从而不得不增加人工干预的一步。
综上,现有技术中仍然存在以下问题:对于有固定票面规格的发票,仍然需要对已识别出的文本进行字段信息的人工分析,工作量较大,且对于每一种不同票面的票据,人工进行后处理分析的方法都不同,当票据识别服务需要新增或修改,业务代码将具有很大的维护成本。
发明内容
本发明的目的在于提供一种基于目标检测和文本识别的票据信息识别方法,采用基于深度学习神经网络的目标检测和文本识别方法,来对票据进行特定的信息提取识别,解决现有对于有固定票面规格的发票识别解决方案中存在的代码维护成本高,时间成本高的问题。
为实现上述目的,本发明采用的技术方案为一种基于目标检测和文本识别的票据信息识别方法,包括:
步骤A,票据图像收集及票据图像集准备;对某一固定票面的票据图像进行收集,剔除存在印刷信息严重错位及不可用的票据图像,作为票据图像集;然后对票据中的字段分别进行数据标注;将数据集按9:1的比例划分为训练集和测试集,并对训练集进行数据增强;
步骤B,文本目标检测;利用训练集的票据图像对OLOv4目标检测模型进行训练;将待检测的票据图像导入训练后的OLOv4目标检测模型进行文本的检测,检测到票据图像的文本目标字段,并将检测结果按数据标注的标签进行分类保存;
步骤C,文本目标裁剪;提取步骤B所检测到的文本目标字段的边框坐标信息,并以此对检测后的票据图像进行裁剪,得到检测出的不同字段的票据字段文本图像;
步骤D,文字目标识别;将步骤C所得到的票据字段文本图像导入文本识别网络CRNN进行文字识别,得到文本信息并将结果保存至步骤B的标签相对应的数据中;
步骤E,票据文本信息整理及输出;对文字识别后的文本信息进行整理,将整理后的文本信息与对应的标签格式化输出,完成对票据信息的提取识别。
进一步地,所述数据增强的方法,包括:步骤A100,利用传统数字图像处理方法,将划分后的训练集按照一定阈值进行随机缩放、平移、旋转和放射变换。
进一步地,所述数据增强的方法,还包括:步骤A200,利用随机擦除方法,对利用传统数字图像处理方法处理前的训练集票据图像随机擦除一个矩形区域。
进一步地,所述步骤E中,对文本信息进行整理的方法包括:对部分特定输出格式的文本使用正则匹配的方式进行约束输出;对非法格式输出进行修正。
本发明的有益效果是:
本发明的基于目标检测和文本识别的票据信息识别方法,将有固定票面规格的票据图像通过OLOv4目标检测模型进行文本目标检测,并进行文本目标裁剪、识别、整理、输出,实现对票据进行特定信息的提取、识别,提高票据信息识别的准确性,并减少代码的维护成本,提高票据信息识别的效率。
附图说明
图1为本发明实施例基于目标检测和文本识别的票据信息识别方法流程图;
图2为本发明实施例YOLOv4目标检测模型的结构示意图。
具体实施方式
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见附图1,本发明的一种基于目标检测和文本识别的票据信息识别方法,包括以下步骤:
步骤A,票据图像收集及票据图像集准备
首先,对某一固定票面的票据图像进行收集,剔除其中印刷信息严重错位的不可用的票据图像,作为票据图像集;然后进行数据标注,此处将不同的票据字段分别标注,数据标注后对票据图像集进行划分,将票据图像集划分为训练集和测试集,优选比例为9:1,由于票据数据数量的不足,其中训练集进行一定程度的数据增强,以弥补数据不充分的缺陷。数据增强方式包括:
A1.传统数字图像处理方法
将划分好的训练集以一定阈值进行随机缩放、平移、旋转和放射变换,以规避可能出现的模型过拟合的弊端。
A2.随机擦除(Random Erasing)
为增强模型的泛化能力,增强模型鲁棒性,降低过拟合风险,本实施例采用随机擦除的方式,对方法A1处理前的原票据图像随机擦除一个矩形区域。当然,还可对方法A1处理后的票据图像进行随机擦除一定区域,目的在于对不同的票据字段的内容进行全部擦除。
步骤B,文本目标检测
B1.YOLOv4目标检测模型训练
本步骤将训练集的票据图像导入YOLOv4目标检测模型进行训练。
采用的YOLOv4目标检测模型与YOLOv3目标检测模型的差别不大,但是对YOLOv3目标检测模型的各方面都进行了改进优化。附图1为YOLOv4目标检测模型的结构图,YOLOv4目标检测模型输入端主要包括Mosaic数据增强、cmBN和SAT自对抗训练,Mosaic是将四张图像混合为一张的数据增强方式,该方法的优点是使得YOLOv4目标检测模型可以检测上下文之外的信息,与SAT自对抗训练、cmBN共同提升YOLOv4目标检测模型的鲁棒性;YOLOv4目标检测模型的主干网络主要包括CSPDarknet53、Mish激活函数和Dropblock,CSPDarknet53模块主要解决工作中需要大量推理计算的问题;在主干网络和输出层之间,YOLOv4目标检测模型插入了SPP模块、FPN+PAN结构,最后在输出层保持了YOLOv3目标检测模型的锚框机制,改进了训练的损失函数CIOU_loss,和预测框筛选的DIOU_nms。YOLOv4目标检测模型是各种先进算法集成后的模型,精度和速度兼备。
B2.文本目标字段检测
将待检测的票据图像导入YOLOv4目标检测模型进行文本的检测,检测到的票据图像的文本目标字段,并将检测结果按数据标注的标签进行分类保存。此处根据不同字段的数据标注进行保存或在结果数据处设置一个标志位,目的是将图像按不同字段进行区分,以便后续信息整合步骤通过标签进行对应使用。
步骤C,文本目标裁剪
在YOLOv4目标检测模型后添加目标裁剪逻辑。提取步骤B得到的票据图像中的文本目标字段的边框坐标信息,并以此对检测后的票据图像进行裁剪,得到检测出的不同字段的票据字段文本图像。
步骤D,文字目标识别
D1.端到端文本识别网络CRNN训练
本专利采用的是文本识别网络CRNN,该网络主要分为三个部分:卷积层CNN、循环层RNN和翻译层CTC。CNN结构用于特征提取,RNN结构采用LSTM的双向网络,CTC翻译层将RNN结构的输出转换为字符串。
D2.票据字段文本识别
将步骤C得到的已检测出的不同字段的票据字段文本图像导入文本识别网络CRNN进行文字识别,得到文本信息,并将文本信息保存至与步骤B的标签相对应的数据中。
步骤E,票据文本信息整理及输出
本步骤E在文本识别网络CRNN后添加信息整理逻辑,其目的在于过滤部分错误识别结果,提高最后输出信息的准确性。具体方法为:对部分特定输出格式的文本使用正则匹配的方式约束输出结果,例如,编号类字段仅筛选数字和字母进行输出,日期类字段匹配某一固定正则表达式,并对非法格式输出进行修正。信息整理后,将所有的已检测识别的字段与对应的标签格式化输出,完成对票据信息的识别及提取。
本发明的一种基于目标检测和文本识别的票据信息识别方法,采用基于深度学习神经网络的目标检测和文本识别方法,来对票据进行特定的信息提取识别,对有固定票面规格的发票进行识别,代码维护成本低,并通过智能化提取节约时间。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (4)
1.一种基于目标检测和文本识别的票据信息识别方法,其特征在于,包括:
步骤A,票据图像收集及票据图像集准备;对某一固定票面的票据图像进行收集,剔除存在印刷信息严重错位及不可用的票据图像,作为票据图像集;然后对票据中的字段分别进行数据标注;将数据集按9:1的比例划分为训练集和测试集,并对训练集进行数据增强;
步骤B,文本目标检测;利用训练集的票据图像对OLOv4目标检测模型进行训练;将待检测的票据图像导入训练后的OLOv4目标检测模型进行文本的检测,检测到票据图像的文本目标字段,并将检测结果按数据标注的标签进行分类保存;
步骤C,文本目标裁剪;提取步骤B所检测到的文本目标字段的边框坐标信息,并以此对检测后的票据图像进行裁剪,得到检测出的不同字段的票据字段文本图像;
步骤D,文字目标识别;将步骤C所得到的票据字段文本图像导入文本识别网络CRNN进行文字识别,得到文本信息并将结果保存至步骤B的标签相对应的数据中;
步骤E,票据文本信息整理及输出;对文字识别后的文本信息进行整理,将整理后的文本信息与对应的标签格式化输出,完成对票据信息的提取识别。
2.根据权利要求1所述的票据信息识别方法,其特征在于,所述数据增强的方法,包括:步骤A100,利用传统数字图像处理方法,将划分后的训练集按照一定阈值进行随机缩放、平移、旋转和放射变换。
3.根据权利要求2所述的票据信息识别方法,其特征在于,所述数据增强的方法,还包括:步骤A200,利用随机擦除方法,对利用传统数字图像处理方法处理前的训练集票据图像随机擦除一个矩形区域。
4.根据权利要求1所述的票据信息识别方法,其特征在于,所述步骤E中,对文本信息进行整理的方法包括:对部分特定输出格式的文本使用正则匹配的方式进行约束输出;对非法格式输出进行修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011428503.0A CN112364837A (zh) | 2020-12-09 | 2020-12-09 | 一种基于目标检测和文本识别的票据信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011428503.0A CN112364837A (zh) | 2020-12-09 | 2020-12-09 | 一种基于目标检测和文本识别的票据信息识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364837A true CN112364837A (zh) | 2021-02-12 |
Family
ID=74536724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011428503.0A Pending CN112364837A (zh) | 2020-12-09 | 2020-12-09 | 一种基于目标检测和文本识别的票据信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364837A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113724153A (zh) * | 2021-08-02 | 2021-11-30 | 电子科技大学 | 一种基于机器学习的图像多余人物消除方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
US20190251192A1 (en) * | 2018-02-12 | 2019-08-15 | Wipro Limited | Method and a system for recognition of data in one or more images |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110738203A (zh) * | 2019-09-06 | 2020-01-31 | 中国平安财产保险股份有限公司 | 字段结构化输出方法、装置及计算机可读存储介质 |
CN111178345A (zh) * | 2019-05-20 | 2020-05-19 | 京东方科技集团股份有限公司 | 一种票据分析方法、分析装置、计算机设备和介质 |
CN111310762A (zh) * | 2020-03-16 | 2020-06-19 | 天津得迈科技有限公司 | 一种基于物联网的智能医疗票据识别方法 |
CN111368828A (zh) * | 2020-02-27 | 2020-07-03 | 大象慧云信息技术有限公司 | 一种多票据的识别方法及装置 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112052858A (zh) * | 2020-09-02 | 2020-12-08 | 中国银行股份有限公司 | 票据图像中目标字段的提取方法及相关装置 |
-
2020
- 2020-12-09 CN CN202011428503.0A patent/CN112364837A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251192A1 (en) * | 2018-02-12 | 2019-08-15 | Wipro Limited | Method and a system for recognition of data in one or more images |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
CN111178345A (zh) * | 2019-05-20 | 2020-05-19 | 京东方科技集团股份有限公司 | 一种票据分析方法、分析装置、计算机设备和介质 |
CN110738203A (zh) * | 2019-09-06 | 2020-01-31 | 中国平安财产保险股份有限公司 | 字段结构化输出方法、装置及计算机可读存储介质 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111368828A (zh) * | 2020-02-27 | 2020-07-03 | 大象慧云信息技术有限公司 | 一种多票据的识别方法及装置 |
CN111310762A (zh) * | 2020-03-16 | 2020-06-19 | 天津得迈科技有限公司 | 一种基于物联网的智能医疗票据识别方法 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112052858A (zh) * | 2020-09-02 | 2020-12-08 | 中国银行股份有限公司 | 票据图像中目标字段的提取方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
ALEXEY BOCHKOVSKIY等: "YOLOv4: Optimal Speed and Accuracy of Object Detection", 《ARXIV:2004.10934V1 [CS.CV]》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113033534B (zh) * | 2021-03-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113724153A (zh) * | 2021-08-02 | 2021-11-30 | 电子科技大学 | 一种基于机器学习的图像多余人物消除方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN101887523B (zh) | 利用图片文字与局部不变特征检测图像垃圾邮件的方法 | |
CN112765358A (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN106156766A (zh) | 文本行分类器的生成方法及装置 | |
CN113591866B (zh) | 基于db与crnn的特种作业证件检测方法及系统 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
CN112364837A (zh) | 一种基于目标检测和文本识别的票据信息识别方法 | |
US20220036115A1 (en) | Method and apparatus for recognizing imaged information-bearing medium, computer device and medium | |
CN110659599A (zh) | 一种基于扫描试卷的离线笔迹鉴定系统以及使用方法 | |
CN101655911A (zh) | 基于免疫抗体网络的模式识别方法 | |
CN114581932A (zh) | 一种图片表格线提取模型构建方法及图片表格提取方法 | |
CN105469099A (zh) | 基于稀疏表示分类的路面裂缝检测和识别方法 | |
CN111966640A (zh) | 一种单据文件识别方法及其系统 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
CN107992508A (zh) | 一种基于机器学习的中文邮件签名提取方法及系统 | |
CN110674678A (zh) | 视频中敏感标志的识别方法及装置 | |
Shirke et al. | Handwritten Gujarati script recognition | |
CN111291726B (zh) | 医疗票据分拣方法、装置、设备和介质 | |
WO2023035332A1 (zh) | 一种日期提取方法、装置、计算机设备及存储介质 | |
CN111651960A (zh) | 一种从合同简体迁移到繁体的光学字符联合训练及识别方法 | |
CN110991449B (zh) | 一种面向字轮字符的全字半字识别方法 | |
CN113673368B (zh) | 一种判断文档主要文字方向的方法 | |
CN111209392A (zh) | 污染企业的挖掘方法、装置及设备 | |
CN116229493B (zh) | 跨模态的图片文本命名实体识别方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |