CN111079562A - 多阶段数据生成自循环财务发票文本智能识别系统及方法 - Google Patents
多阶段数据生成自循环财务发票文本智能识别系统及方法 Download PDFInfo
- Publication number
- CN111079562A CN111079562A CN201911178020.7A CN201911178020A CN111079562A CN 111079562 A CN111079562 A CN 111079562A CN 201911178020 A CN201911178020 A CN 201911178020A CN 111079562 A CN111079562 A CN 111079562A
- Authority
- CN
- China
- Prior art keywords
- text
- deep learning
- financial invoice
- picture
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013135 deep learning Methods 0.000 claims abstract description 135
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000001514 detection method Methods 0.000 claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000013508 migration Methods 0.000 claims description 43
- 230000005012 migration Effects 0.000 claims description 43
- 238000012360 testing method Methods 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000009877 rendering Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及财务发票文本识别技术领域,具体为一种多阶段数据生成自循环财务发票文本智能识别系统及方法。一种多阶段数据生成自循环财务发票文本智能识别系统,包括深度学习文本检测模块,用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型,用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片。本申请的系统首次应用了多阶段数据生成进行智能文本识别,并将基于深度学习的自循环文本识别训练过程应用在财务发票文本识别上,大大减少了财力人力和物力的消耗,提高了文本识别效率和准确率。
Description
技术领域
本发明涉及财务发票文本识别技术领域,具体为一种多阶段数据生成自循环财务发票文本智能识别系统及方法。
背景技术
近年来文本识别技术发展越来越成熟,文本识别应用场景也越来越复杂和多样化。这些文本场景中可能是汉字场景或英文场景,也可能是自然场景、工业和生活需求的票据、试卷等场景。各式各样的文本及其场景往往面对着数据差异大,数据分布不均等问题,在运用深度学习进行文本识别的过程中往往需要巨大的数据量对模型进行支撑。对合适数据的标注和寻找通常需要巨大的人力物力,非常费时费力且耗费资源。此外,现阶段的方法面对复杂难识别的文本场景,识别效果并不佳,尤其针对财务发票应用场景,对存在褶皱和污渍的发票样本,现阶段方法往往难以对其进行准确识别。针对这种现象,急需现有技术改进发展,解放数据标注需要的人力物力,并提升财务发票文本智能识别的准确率。
发明内容
本发明针对现有技术存在的问题,提出了一种多阶段数据生成自循环财务发票文本智能识别系统及方法。
本发明解决其技术问题所采用的技术方案是:一种多阶段数据生成自循环财务发票文本智能识别系统,包括
深度学习文本检测模块,用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型,用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片;
文本识别数据生成模块,用于获取文本场景特征,并通过数据生成控制器按照不同阶段生成深度学习文本识别模型所需的训练数据;
深度学习文本识别模块,用于通过所述训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型,用于通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。
作为优选,所述深度学习文本检测模块包括
财务发票文本水平变换单元,通过霍夫变换检测财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片;
财务发票图片标注单元,将用于训练的初始化财务发票图片进行手动标注以得到标注过的财务发票图片;
深度学习目标检测模型训练单元,通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型;
目标文本位置信息获取单元,通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息;
纯文本图片截取单元,根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。
作为优选,所述财务发票图片标注单元包括
标注工具子单元,用于根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据,所述标注数据包括所述标注类型对应的坐标信息;
检测工具子单元,用于根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域。
作为优选,所述文本识别数据生成模块包括
文本场景特征获取单元,用于获取纯文本图片的文本场景特征;
数据生成控制器,由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据,并根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成不同阶段的训练数据直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。
作为优选,所述数据生成控制器包括
样式迁移子单元,用于对纯文本图片进行字体渲染、边缘渲染、基础看色、投影变形、噪声和模糊处理。
作为优选,所述深度学习文本识别模块包括
训练数据预处理单元,对所述训练数据进行预处理以得到预处理训练数据;
深度学习文本识别模型训练单元,通过所述预处理训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型;
Loss收敛速度和测试集准确率增长率获取单元,将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器;
纯文本图片识别单元,通过所述最终深度学习文本识别模型得到所述纯文本图片对应的文字信息。
一种多阶段数据生成自循环财务发票文本智能识别方法,其特征在于:包括以下步骤,
L1.通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型;
L2.通过文本识别数据生成模块生成训练数据,通过所述训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型;
L3.通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片;
L4.通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。
作为优选,L1具体包括,
L11. 通过霍夫变换检测财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片;
L12. 通过标注工具子单元根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据以得到标注过的财务发票图片,所述标注数据包括所述标注类型对应的坐标信息;
L13. 通过检测工具子单元根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域以确定标注数据的准确性;
L14. 通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。
作为优选,L2具体包括,
L21. 通过文本场景特征获取单元获取纯文本图片的文本场景特征;
L22. 数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据;
L23. 通过训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据;
L24. 通过所述预处理训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型,同时通过Loss收敛速度和测试集准确率增长率获取单元将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器;
L25. 数据生成控制器根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成新阶段的训练数据并返回L23直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。
作为优选,L3具体包括,
L31. 通过霍夫变换检测待检测的财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到待检测的初始化财务发票图片;
L32. 通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息;
L33.根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。
有益效果
本申请的系统首次应用了多阶段数据生成进行智能文本识别,并将基于深度学习的自循环文本识别训练过程应用在财务发票文本识别上,大大减少了财力人力和物力的消耗,提高了文本识别效率和准确率;本申请方法通过深度学习方法与智能数据生成方法结合,用数据生成方法取代人工数据标注,用自循环文本智能识别方法提升应用场景文本识别准确率,以减少工作成本和提高效率。
附图说明
图1为本申请多阶段数据生成自循环财务发票文本智能识别系统的结构框图;
图2为数据生成控制器按照不同阶段生成训练数据的流程图;
图3为文本识别数据生成模块中样式迁移的流程框图;
图4为财务发票的拍摄角度示意图;
图5为财务发票旋转至水平位置的示意图;
图6为目标文本位置信息的示意图;
图7为目标文本区域检测示意图;
图8为标注工具子单元操作界面示意图;
图9为检测工具子单元操作界面示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
如图1所示,一种多阶段数据生成自循环财务发票文本智能识别系统,包括深度学习文本检测模块, 文本识别数据生成模块和深度学习文本识别模块,以及将三个模块融合的操作软件或操作APP。深度学习文本检测模块,文本识别数据生成模块和深度学习文本识别模块在同一个系统框架下,数据内部连通使用。
深度学习文本检测模块用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型,用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片。深度学习目标检测模型在pytorch框架下编写。
文本识别数据生成模块用于获取文本场景特征,并通过数据生成控制器按照不同阶段生成深度学习文本识别模型所需的训练数据。
深度学习文本识别模块用于通过所述训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型,用于通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。深度学习文本识别模型在pytorch框架下编写,用文本识别数据生成模块生成的训练数据进行多阶段模型训练,训练过程的Loss收敛速度和测试集准确率增长率不断反馈给文本识别数据生成模块,改变迁移控制变量,生成新的训练数据,循环进行,训练后存储最终阶段的模型,具体如图2所示。
其中,所述深度学习文本检测模块包括财务发票文本水平变换单元,财务发票图片标注单元,深度学习目标检测模型训练单元,目标文本位置信息获取单元和纯文本图片截取单元。
财务发票文本水平变换单元用于通过霍夫变换检测财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片。
财务发票图片标注单元用于将用于训练的初始化财务发票图片进行手动标注以得到标注过的财务发票图片。标注内容为所有目标文本的位置信息,位置信息采用矩形框表示,即一块文本区域标注数据由左上角坐标、右下角坐标共4个数据组成,如图6所示。
所述财务发票图片标注单元包括用于根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据标注工具子单元,和用于根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域的检测工具子单元,所述标注数据包括所述标注类型对应的坐标信息,使用检测工具复检保证标注数据的可靠性。
标注工具子单元操作界面如图8所示,在用户选定需要标注图片所在文件夹后显示第一张图片,右侧有标注类型选择区(包括各种标注类型,如发票代码、开票日期、纳税人识别号等等)和功能按键区。标注时先在标注类型选择区选择标注类型,然后在图片中框出目标区域,重复操作直至该张图片不存在未被框选目标。功能按键区有下一张、上一张、修改、删除按键,下一张快捷键为(d),点击后进行下一张图片标注工作;上一张快捷键为(a),点击后返回上一张图片,查看是否标注正确;修改快捷键为(x),清楚当前标注图片标注信息,重新进行标注;删除快捷键为(c),删除当前图片,表示当前图片不适合作为标注数据。图片标注数据以xml文件表示,存储有每个标注类型的坐标信息,坐标信息包括左上角坐标(x1,y1),右下角坐标(x2,y2)。
检测工具子单元操作界面如图9所示,在用户选定标注图片所在文件夹及标注数据所在文件夹后从第一张开始显示图片,并将标注结果显示在图片上。按键功能区有下一张、上一张、删除按键,下一张快捷键为(d),点击后进行下一张图片检测工作;上一张快捷键为(a),点击后返回上一张图片;删除快捷键为(c),删除当前图片。
深度学习目标检测模型训练单元用于通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。深度学习目标检测模型使用pytorch框架编写,经标注数据训练完成后存储最终模型。
目标文本位置信息获取单元用于通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息。
纯文本图片截取单元用于根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。深度学习文本检测模型调用待检测的初始化财务发票图片,实时检测目标文本区域,如图7所示,并根据检测到的目标文本区域位置截取纯文本图片,将所有纯文本图片输入到深度学习文本识别模块。
其中,所述文本识别数据生成模块包括文本场景特征获取单元和数据生成控制器。
文本场景特征获取单元用于获取纯文本图片的文本场景特征。数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据,并根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成不同阶段的训练数据直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。数据生成控制器包括样式迁移子单元,用于对纯文本图片进行字体渲染、边缘渲染、基础看色、投影变形、噪声和模糊处理。
文本识别数据生成模块通过获取文本场景特征信息,利用风格迁移和内容迁移生成深度学习识别模块所需的训练数据。风格迁移包括数据背景多样性、固定文本图片高度、模糊核选择、腐蚀处理、噪声和倾斜。内容迁移包括数据分布和字间距多样性。将风格迁移和内容迁移(简称样式迁移)分别嵌入到如图3所示的五个生成步骤内,具体包括:生成前景文本,即选择文本字体和文本呈现样式,根据本文要使用的数据集不同,选择数据集内存在的随机字体和场景样式,如:扭曲、倾斜、旋转等,称为字体渲染。其次对渲染好的字体进行边缘渲染,增加阴影或者加入不同宽度的边缘。然后对字体进行随机着色。针对实际的文本应用场景,可以根据场景不同进行着色。之后针对实际的3D场景,对文本图像进行投影变形,包括仿射变换,模拟更加真实的视觉效果。最后为图像加入椒盐或高斯噪声,并加入适当模糊。
数据生成控制器由文本场景特征初始化并生成相应的控制参数。从第二次循环开始,深度学习文本识别模块中模型训练过程的Loss收敛性和测试集准确率增长率与期望Loss收敛速度和期望准确率增长率相减,反馈重新输入到数据生成控制器。数据生成控制器控制产生新的参数,改变数据生成策略,产生新一轮的训练数据,再次进入到文本识别模块进行循环训练,直到Loss收敛速度和测试集准确率增长率与期望值的差值达到设定的阈值则停止训练。
其中,所述深度学习文本识别模块包括训练数据预处理单元,深度学习文本识别模型训练单元,Loss收敛速度和测试集准确率增长率获取单元和纯文本图片识别单元。,深度学习文本识别模型使用pytorch框架编写,用文本识别数据生成模块生成的训练数据预处理后进行多阶段模型训练。训练过程的Loss收敛性和测试集准确率增长率不断反馈给文本识别数据生成模块的数据生成控制器,改变迁移控制变量,生成新的训练数据,循环进行,训练后存储最终阶段的模型。
训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据。
深度学习文本识别模型训练单元通过所述预处理训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型。
Loss收敛速度和测试集准确率增长率获取单元用于将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器。
纯文本图片识别单元用于通过所述最终深度学习文本识别模型得到所述纯文本图片对应的文字信息。最终深度学习文本识别模型调用文本检测模块输出的纯文本图片,实时识别文本内容,得到图片中所有目标文本的文字信息,输出给用户操作显示界面,告诉用户图片中的文字信息内容。文本识别结果数据可以在操作软件的操作显示界面上显示,并可导出文本识别结果,使用户能够直接使用财务发票中的文本内容信息。
本申请系统由文本识别数据生成模块、深度学习文本检测模块、深度学习文本识别模块组成。深度学习文本检测模块使用标注过的财务发票图片数据训练深度学习目标检测模型,通过调用图片数据后进行检测,得到图片中所有目标文本的位置信息数据并利用结果数据截取相应的纯文本图片,传入到深度学习文本识别模块。文本识别数据生成模块通过获取图片数据文本特征信息,按照不同阶段生成文本识别摸型训练所需的数据。深度学习文本识别模块使用数据生成模块生成的数据训练深度学习文本识别模型,通过调用文本检测模块输出的纯文本图片进行文本识别,得到图片中所有目标文本的文字信息,输出给用户UI界面,告诉用户所有图片中的文字信息内容。本申请的系统首次应用了多阶段数据生成进行智能文本识别,并将基于深度学习的自循环文本识别训练过程应用在财务发票文本识别上,大大减少了财力人力和物力的消耗,提高了文本识别效率和准确率。
一种多阶段数据生成自循环财务发票文本智能识别方法,包括以下步骤,
L1.通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。L1具体包括,L11. 通过霍夫变换检测财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本旋转至水平位置以得到初始化财务发票图片,如图5所示。L12. 通过标注工具子单元根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据以得到标注过的财务发票图片,所述标注数据包括所述标注类型对应的坐标信息。L13. 通过检测工具子单元根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域以确定标注数据的准确性。L14. 通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。
在L1之前还需要获取财务发票图片,财务发票图片可以通过手机或相机拍照获取,如图4所示,拍摄时财务发票在图片中的位置可呈任意角度,只要保证整个财务发票都存在图片中。初始化财务发票图片还可以在财务发票文本旋转至水平位置后将图片背景去除,即将财务发票对应的图片抠取下来作为初始化财务发票图。
L2.通过文本识别数据生成模块生成训练数据,通过所述训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型。L2具体包括,L21. 通过文本场景特征获取单元获取纯文本图片的文本场景特征。L22. 数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据。L23. 通过训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据。L24. 通过所述预处理训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型,同时通过Loss收敛速度和测试集准确率增长率获取单元将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器。L25. 数据生成控制器根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成新阶段的训练数据并返回L23直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。
L3.通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片。L3具体包括,L31. 通过霍夫变换检测待检测的财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到待检测的初始化财务发票图片。L32. 通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息。L33.根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。
L4.通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。在测试应用阶段,深度学习文本识别模块调用文本检测模块输出的纯文本图片,实时识别文本内容,得到图片中所有目标文本的文字信息,输出给用户UI界面,告诉用户图片中的文字信息内容。文本识别结果数据可视化显示在系统界面上,包含图片上所需的所有文本结果,且可以在系统操作界面上导出文本识别结果,导出为json格式,保存后用户可以直接使用财务发票中的文本内容信息。
本申请方法通过深度学习方法与智能数据生成方法结合,用数据生成方法取代人工数据标注,用自循环文本智能识别方法提升应用场景文本识别准确率,以减少工作成本和提高效率。
上面所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
Claims (10)
1.多阶段数据生成自循环财务发票文本智能识别系统,其特征在于:包括
深度学习文本检测模块,用于通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型,用于通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片;
文本识别数据生成模块,用于获取文本场景特征,并通过数据生成控制器按照不同阶段生成深度学习文本识别模型所需的训练数据;
深度学习文本识别模块,用于通过所述训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型,用于通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。
2.根据权利要求1所述的多阶段数据生成自循环财务发票文本智能识别系统,其特征在于:所述深度学习文本检测模块包括
财务发票文本水平变换单元,通过霍夫变换检测财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片;
财务发票图片标注单元,将用于训练的初始化财务发票图片进行手动标注以得到标注过的财务发票图片;
深度学习目标检测模型训练单元,通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型;
目标文本位置信息获取单元,通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息;
纯文本图片截取单元,根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。
3.根据权利要求2所述的多阶段数据生成自循环财务发票文本智能识别系统,其特征在于:所述财务发票图片标注单元包括
标注工具子单元,用于根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据,所述标注数据包括所述标注类型对应的坐标信息;
检测工具子单元,用于根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域。
4.根据权利要求1所述的多阶段数据生成自循环财务发票文本智能识别系统,其特征在于:所述文本识别数据生成模块包括
文本场景特征获取单元,用于获取纯文本图片的文本场景特征;
数据生成控制器,由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据,并根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成不同阶段的训练数据直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。
5.根据权利要求4所述的多阶段数据生成自循环财务发票文本智能识别系统,其特征在于:所述数据生成控制器包括
样式迁移子单元,用于对纯文本图片进行字体渲染、边缘渲染、基础看色、投影变形、噪声和模糊处理。
6.根据权利要求1所述的多阶段数据生成自循环财务发票文本智能识别系统,其特征在于:所述深度学习文本识别模块包括
训练数据预处理单元,对所述训练数据进行预处理以得到预处理训练数据;
深度学习文本识别模型训练单元,通过所述预处理训练数据多阶段训练所述深度学习文本识别模型以得到最终深度学习文本识别模型;
Loss收敛速度和测试集准确率增长率获取单元,将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器;
纯文本图片识别单元,通过所述最终深度学习文本识别模型得到所述纯文本图片对应的文字信息。
7.多阶段数据生成自循环财务发票文本智能识别方法,其特征在于:包括以下步骤,
L1.通过标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型;
L2.通过文本识别数据生成模块生成训练数据,通过所述训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型;
L3.通过所述最终深度学习目标检测模型获取待检测的财务发票图片的所有目标文本的位置信息,并根据所述位置信息截取对应的纯文本图片;
L4.通过所述最终深度学习文本识别模型获取所述纯文本图片的文字信息。
8.根据权利要求7所述的多阶段数据生成自循环财务发票文本智能识别方法,其特征在于:L1具体包括,
L11. 通过霍夫变换检测财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到初始化财务发票图片;
L12. 通过标注工具子单元根据标注类型框出所述初始化财务发票图片中对应的目标文本区域并存储相应的标注数据以得到标注过的财务发票图片,所述标注数据包括所述标注类型对应的坐标信息;
L13. 通过检测工具子单元根据所述标注数据在对应的所述初始化财务发票图片中显示对应的目标文本区域以确定标注数据的准确性;
L14. 通过所述标注过的财务发票图片训练深度学习目标检测模型以得到最终深度学习目标检测模型。
9.根据权利要求7所述的多阶段数据生成自循环财务发票文本智能识别方法,其特征在于:L2具体包括,
L21. 通过文本场景特征获取单元获取纯文本图片的文本场景特征;
L22. 数据生成控制器由所述文本场景特征初始化并生成迁移控制参数、根据迁移控制参数对纯文本图片进行风格迁移和内容迁移以生成训练数据;
L23. 通过训练数据预处理单元对所述训练数据进行预处理以得到预处理训练数据;
L24. 通过所述预处理训练数据训练所述深度学习文本识别模型以得到最终深度学习文本识别模型,同时通过Loss收敛速度和测试集准确率增长率获取单元将在所述深度学习文本识别模型训练过程中获得的Loss收敛速度和测试集准确率增长率阶段性反馈给所述数据生成控制器;
L25. 数据生成控制器根据Loss收敛速度和测试集准确率增长率与期望值的差值阶段性更新迁移控制参数以生成新阶段的训练数据并返回L23直至Loss收敛速度和测试集准确率增长率与期望值的差值小于设定阈值。
10.根据权利要求7所述的多阶段数据生成自循环财务发票文本智能识别方法,其特征在于:L3具体包括,
L31. 通过霍夫变换检测待检测的财务发票图片中的财务发票文本中的直线,并根据所述直线将所述财务发票文本行旋转至水平位置以得到待检测的初始化财务发票图片;
L32. 通过所述最终深度学习目标检测模型获取待检测的初始化财务发票图片中的所有目标文本的位置信息;
L33.根据所述位置信息在所述待检测的初始化财务发票图片上截取对应的纯文本图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911178020.7A CN111079562A (zh) | 2019-11-27 | 2019-11-27 | 多阶段数据生成自循环财务发票文本智能识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911178020.7A CN111079562A (zh) | 2019-11-27 | 2019-11-27 | 多阶段数据生成自循环财务发票文本智能识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079562A true CN111079562A (zh) | 2020-04-28 |
Family
ID=70311814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911178020.7A Pending CN111079562A (zh) | 2019-11-27 | 2019-11-27 | 多阶段数据生成自循环财务发票文本智能识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079562A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657354A (zh) * | 2021-10-19 | 2021-11-16 | 深圳市菁优智慧教育股份有限公司 | 基于深度学习的答题卡识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110135583A (zh) * | 2019-05-23 | 2019-08-16 | 北京地平线机器人技术研发有限公司 | 标注信息的生成方法、标注信息的生成装置和电子设备 |
CN110428388A (zh) * | 2019-07-11 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种图像数据生成方法及装置 |
CN110472524A (zh) * | 2019-07-25 | 2019-11-19 | 广东工业大学 | 基于深度学习的发票信息管理方法、系统和可读介质 |
CN110503598A (zh) * | 2019-07-30 | 2019-11-26 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
-
2019
- 2019-11-27 CN CN201911178020.7A patent/CN111079562A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110135583A (zh) * | 2019-05-23 | 2019-08-16 | 北京地平线机器人技术研发有限公司 | 标注信息的生成方法、标注信息的生成装置和电子设备 |
CN110428388A (zh) * | 2019-07-11 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种图像数据生成方法及装置 |
CN110472524A (zh) * | 2019-07-25 | 2019-11-19 | 广东工业大学 | 基于深度学习的发票信息管理方法、系统和可读介质 |
CN110503598A (zh) * | 2019-07-30 | 2019-11-26 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
Non-Patent Citations (2)
Title |
---|
GOMEZ R,BITEN A F,COMEZ L,ET AL.: "Selective Style Transfer for Text", 《ARXIV》 * |
刘宝龙: "基于图像分析和深度学习的船名标识字符检测与识别研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657354A (zh) * | 2021-10-19 | 2021-11-16 | 深圳市菁优智慧教育股份有限公司 | 基于深度学习的答题卡识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689037B (zh) | 用于使用深度网络的自动对象注释的方法和系统 | |
CN109977723B (zh) | 大票据图片文字识别方法 | |
US11587216B2 (en) | Detection and identification of objects in images | |
CN111091167B (zh) | 标志识别训练数据合成方法、装置、电子设备及存储介质 | |
CN109064525B (zh) | 一种图片格式转换方法、装置、设备和存储介质 | |
CN109951635A (zh) | 拍照处理方法、装置、移动终端以及存储介质 | |
CN111259891B (zh) | 一种自然场景下身份证识别方法、装置、设备和介质 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN113592735A (zh) | 文本页面图像还原方法及系统、电子设备和计算机可读介质 | |
WO2017143973A1 (zh) | 文本识别模型建立方法和装置 | |
EP3327662B1 (en) | Image processing device, image processing method, and program | |
CN114419632A (zh) | 一种ocr训练样本生成方法、装置及系统 | |
CN111079562A (zh) | 多阶段数据生成自循环财务发票文本智能识别系统及方法 | |
US10430458B2 (en) | Automated data extraction from a chart from user screen selections | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN116167910B (zh) | 文本编辑方法、装置、计算机设备及计算机可读存储介质 | |
JP5618719B2 (ja) | 画像処理装置、その方法およびプログラム | |
EP4369291A1 (en) | Apparatus and method for identifying empty tray | |
CN112836467B (zh) | 一种图像处理方法及装置 | |
CN112861861B (zh) | 识别数码管文本的方法、装置及电子设备 | |
Bhaskar et al. | Implementing optical character recognition on the android operating system for business cards | |
CN111401365B (zh) | Ocr图像自动生成方法及装置 | |
CN114463400A (zh) | 一种基于纹理对象分割的纹理采样方法与系统 | |
CN114663414B (zh) | 一种基于unet卷积神经网络的岩矿识别提取系统及方法 | |
CN110929732A (zh) | 一种证件图像截取方法、存储介质和证件图像截取装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |