CN113963147A - 一种基于语义分割的关键信息提取方法及系统 - Google Patents

一种基于语义分割的关键信息提取方法及系统 Download PDF

Info

Publication number
CN113963147A
CN113963147A CN202111131686.4A CN202111131686A CN113963147A CN 113963147 A CN113963147 A CN 113963147A CN 202111131686 A CN202111131686 A CN 202111131686A CN 113963147 A CN113963147 A CN 113963147A
Authority
CN
China
Prior art keywords
text
value
added tax
key information
tax invoice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111131686.4A
Other languages
English (en)
Other versions
CN113963147B (zh
Inventor
赵国帅
贾欣悦
钱学明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202111131686.4A priority Critical patent/CN113963147B/zh
Publication of CN113963147A publication Critical patent/CN113963147A/zh
Application granted granted Critical
Publication of CN113963147B publication Critical patent/CN113963147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于语义分割的关键信息提取方法及系统,采集数据形成学习样本;构建深度神经网络,使用样本集的数据对神经网络进行训练;通过终端或者其他设备获取待处理图片数据,并对图片进行增强处理;将处理后的图片输入预先训练好的深度神经网络文本检测器与文本识别器进行文本的定位与识别;利用发票与营业执照格式固定,关键信息所处位置比例等信息,对关键信息进行提取。本发明将不同种类的增值税发票与营业执照关键信息提取集于一个系统,并提高了现有识别的准确率和速率,为有效减少人工核算的工作量,降低人力成本,实现财税报销的自动化,商家资质检查等工作提供了更好的系统的服务。

Description

一种基于语义分割的关键信息提取方法及系统
技术领域
本发明属于计算机数字图像处理与模式识别技术领域,具体涉及一种基于语义分割的关键信息提取方法及系统。
背景技术
在日常工作中要经常用到增值税发票和营业执照,在使用的时候经常需要对增值税发票和营业执照进行检查、信息录入等工作,而增值税发票和营业执照上的信息比较繁杂,如果不通过自动化方法,就需要人工进行数据录入、核算,耗时耗力又无法确保录入信息的准确性。实现对增值税普通发票和专用发票的自动快速识别和录入,可应用于企业税务核算、内部报销等应用场景,能够有效减少人工核算的工作量,降低人力成本,实现财税报销的自动化;实现对横向、纵向营业执照各字段信息的自动快速识别和录入,可应用于电商、零售、O2O等行业的商家资质审查、企业信息录入、企业金融服务等应用场景,大幅度提升信息录入效率,并有效控制业务风险。
目前提取发票和营业执照关键信息的方法,主要是利用OCR技术,先检测定位到文本的位置,定位文本的方法主要基于目标检测算法,将文本视为要检测的目标,生成大量的候选框,然后通过对候选框进行分类、位置调整及筛选,最终确定文本的位置,再进行文本识别,最后根据发票及营业执照的固定结构提取关键字,存在时效性差、识别结果不够准确的问题;此外,当前现有的方法仅专门提取增值税发票或营业执照的关键信息,而没有实现一种通用的识别提取关键信息的方法。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于语义分割的关键信息提取方法及系统,对输入的增值税发票及营业执照图片进行快速准确的关键信息提取,然后返回JSON格式的半结构化数据。
本发明采用以下技术方案:
一种基于语义分割的关键信息提取方法,包括以下步骤:
S1、采集包含增值税发票图片与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;
S2、构建包含分类器、文本检测器与文本识别器的深度神经网络,使用步骤S1的学习样本集对构建的深度神经网络进行训练;
S3、获取待分类的图像并进行图像增强处理;
S4、采用步骤S2训练好的深度神经网络的分类器对步骤S3图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用步骤S2训练好的深度神经网络的文本检测器对步骤S3图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;
S5、将步骤S4中检测定位的文本区域作为输入,送入步骤S2训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;
S6、根据步骤S4得到的文本区域位置以及步骤S5得到的文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票图片及营业执照图片的关键字段信息进行提取。
具体的,步骤S1中,对学习样本集1进行随机裁剪、改变亮度和随机旋转处理后输入深度神经网络用于训练,学习样本集1大于或等于1000张,学习样本集2中的增值税发票样本大于或等于500张,营业执照样本大于或等于500张。
具体的,步骤S2具体为:
S201、将学习样本集1输入深度神经网络的分类器中进行训练,每隔n次进行模型测试,挑选性能最好的模型保存,到达设定训练次数后保存模型作为训练好的分类器;
S202、将学习样本集2转化为ICDAR标准数据集格式;
S203、将步骤S202转化后的ICDAR标准数据集输入深度神经网络的文本检测器进行训练,每隔n次进行模型测试,挑选性能最好的模型保存,到达设定训练次数后保存模型作为训练好的文本检测器;
S204、将步骤S202转化后的ICDAR标准数据集输入深度神经网络的文本识别器进行训练,每隔n次进行模型测试,挑选性能最好的模型保存,到达设定训练次数后保存模型作为训练好的文本识别器。
进一步的,分类器为ResNet50,文本检测器为DBNet,文本识别器为CRNN与CTC。
具体的,步骤S6中,使用关键信息提取系统对增值税发票及营业执照的关键字段信息进行提取,关键信息提取系统包括通用OCR识别模块、增值税发票识别模块和增值税发票识别模块;通用OCR识别模块能够将得到的文本识别结果作为通用OCR识别结果以json的格式返回,增值税发票识别模块能够根据识别文本及相对位置和比例提取增值税发票关键信息;增值税发票识别模块能够根据识别文本及相对位置和比例提取营业执照关键信息。
进一步的,增值税发票识别模块进行识别具体为:
将增值税发票输入步骤S2训练后的分类器得到是否存在公章的分类结果;将增值税发票输入步骤S2训练后的文本检测器和文本识别器得到初步文本识别结果;对输入增值税发票图片进行方向与倾斜矫正;截取出增值税发票区域;将截取后的增值税发票输入步骤S2训练后的文本检测器和文本识别器得到文本位置与识别结果;去掉得分概率在0.5以下的识别结果;根据识别文本及相对位置和比例提取增值税发票关键信息。
进一步的,提取增值税发票关键信息具体为:
S601、根据标准增值税发票格式,计算出发票上各关键信息在x轴、y轴所处的标准位置范围;
S602、使用正则方法筛选文本识别结果,利用开票日期、规格型号、价税合计、收款人、开票人将文本识别结果划分为首部信息、购买方信息、应税货物或劳务服务信息、销售方信息与底部信息;
S603、根据S601中计算出的各关键信息在发票中的标准位置范围,提取步骤S602中各个部分的关键信息。
进一步的,营业执照识别模块进行识别具体为:
将营业执照输入步骤S2训练好的文本检测器和文本识别器得到初步文本识别结果;利用文本检测器得到的文本位置范围对横版竖版营业执照分类;对输入营业执照图片进行方向与倾斜矫正;截取出营业执照区域;将截取后的营业执照输入步骤S2训练好的文本检测器和文本识别器得到文本位置与识别结果;去掉得分概率在0.5以下的识别结果;根据识别文本及相对位置和比例提取营业执照关键信息。
进一步的,提取营业执照关键信息具体为:
S605、根据标准横版与竖版营业执照格式,计算出营业执照上各关键信息在x轴、y轴所处的标准位置范围;
S606、使用正则方法筛选文本识别结果,利用营业执照、统一社会信用代码、名称、法定代表人文本,将文本识别结果划分到各个待提取的关键信息区域中;
S607、根据步骤S605中计算出的关键信息在营业执照中的标准位置范围,提取步骤S606中各个部分的关键信息。
本发明的另一技术方案是,一种基于语义分割的关键信息提取系统,包括:
数据模块,采集包含增值税发票与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;
训练模块,构建包含分类器、文本检测器与文本识别器的深度神经网络,使用数据模块的学习样本集对构建的深度神经网络进行训练;
增强模块,获取待分类的图像并进行图像增强处理;
检测模块,采用训练模块训练好的深度神经网络的分类器对增强模块图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用训练模块训练好的深度神经网络的文本检测器对增强模块图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;
识别模块,将检测模块中检测定位的文本区域作为输入,送入训练模块训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;
提取模块,根据检测模块得到的文本区域位置以及识别模块得到的文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票及营业执照的关键字段信息进行提取,实现关键信息提取。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于语义分割的关键信息提取方法,通过终端或者其他设备获取增值税发票和营业执照图片数据进行文本识别关键信息提取;基于样本训练出深度学习网络分类器、文本检测器与文本识别器;采用分类器对传入的待识别的图片进行增值税发票与营业执照类别分类,如果类别为增值税发票则对增值税发票是否有公章分类;采用文本检测器对输入的待识别图片进行文本检测;将检测到的文本截取后输入文本识别器中得到识别的文本结果;利用发票与营业执照格式固定,关键信息所处位置比例等信息,对关键信息进行提取,使用深度学习网络对增值税发票和营业执照进行关键信息提取,相比传统OCR方式,准确率更高,识别速度更快,使用深度学习网络对待识别图片进行分类,可以自动判断当前图片属于增值税发票还是营业执照,将多种类型文件关键信息提取功能集成在一个系统中,大大方便了系统使用者。
进一步的,在深度学习训练过程中,训练数据非常重要,在样本量方面,一是要有尽量多的训练样本,二是要保证样本的分布够均匀,也就是各个类别下的样本量都要足够,不能有的很多,有的特别少。在实际情况中发票与营业执照样本数据集采集困难,对采集到的样本进行图像增强处理,可以大大增加训练样本数量,防止训练出的模型出现过拟合,泛化能力不足的情况。
进一步的,步骤S2使用收集到的增值税发票与营业执照图片数据,训练深度学习网络,针对增值税发票与营业执照训练模型使深度学习网络更适宜发票和营业执照文本识别任务。
进一步的,分类器使用ResNet50,因为网络深度增加,网络的准确度会同步增加,ResNet50网络层数很深,可以很好的提取图像特征,同时ResNet特有的残差块结构使其不会因为网络太深而出现梯度爆炸或梯度消失的问题;文本检测器选择DBNet为基础的改进网络,基于语义分割的文本检测方法与基于目标检测目标框预测算法相比,减少了很多计算步骤,同时简化了后处理过程,使得文本检测速度大大加快;文本识别器使用CRNN与CTC模型,可以进行端到端的训练,可以进行不定长文本的识别,模型简单,效果好。
进一步的,步骤S6利用增值税发票和营业执照格式固定,关键信息位置比较确定的特点,利用相对位置与比例去提取关键信息,同时使用正则规则去约束提取的关键信息,使得提取数据更加准确。
进一步的,增值税发票识别模块可以对待识别图片为增值税发票时,进行是否有公章的分类以及文本识别。
进一步的,提取增值税发票关键信息时利用增值税发票相对固定的比例进行关键词提取。
进一步的,营业执照识别模块可以对待识别图片为营业执照时,进行横向还是纵向营业执照分类以及文本识别。
进一步的,提取营业执照关键信息时利用营业执照相对固定的比例进行关键词提取。
综上所述,本发明将不同种类的增值税发票与营业执照关键信息提取集于一个系统,并提高了现有识别的准确率和速率,为有效减少人工核算的工作量,降低人力成本,实现财税报销的自动化,商家资质检查等工作提供了更好的系统的服务。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明流程图;
图2是本发明实施例中增值税发票及营业执照关键信息提取系统识别结果示意图;其中(a)为网络查找的增值税发票;(b)为提取系统返回的图(a)的关键信息提取结果;(c)为网络查找的营业执照;(d)为提取系统返回的图(c)的关键信息提取结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于语义分割的关键信息提取方法,采集数据形成学习样本;构建深度神经网络,使用样本集的数据对神经网络进行训练;通过终端或者其他设备获取待处理图片数据,并对图片进行增强处理;将处理后的图片输入预先训练好的深度神经网络文本检测器与文本识别器进行文本的定位与识别;利用发票与营业执照格式固定,关键信息所处位置比例等信息,对关键信息进行提取。本发明将不同种类的增值税发票与营业执照关键信息提取集于一个系统,并提高了现有识别的准确率和速率,为有效减少人工核算的工作量,降低人力成本,实现财税报销的自动化,商家资质检查等工作提供了更好的系统的服务。
请参阅图1,本发明一种基于语义分割的关键信息提取方法,包括以下步骤:
S1、采集包含增值税发票与营业执照图片的数据集,标注形成学习样本集;
通过手机摄像头拍摄与打印机扫描采集若干增值税发票与营业执照图片,采用人工标注方式形成两个学习样本集,即学习样本集1和学习样本集2。
学习样本集1标注增值税发票是否盖有公章,利用图像增强生成训练样本,样本数据量大于或等于1000张;生成学习样本集1具体的图像增强处理为:对采集的增值税发票进行随机裁剪、改变亮度和随机旋转。
学习样本集2标注增值税发票及营业执照关键信息,增值税发票样本数据量大于或等于500张,营业执照样本数据量大于或等于500张,图2是深度神经网络学习样本集2标注示例。
S2、采用深度学习算法分别对深度神经网络的分类器、文本检测器和文本识别器进行训练通过深度神经网络学习样本集,通过不断减少真实属性与预测属性之间的误差使网络的预测结果与真实结果相近;
S201、将学习样本集1输入深度神经网络分类器进行训练,每隔10次进行模型测试挑选一个性能最好的模型保存下来,到达400的训练次数后最终保存下来的模型为训练好的深度神经网络分类器;
S202、将学习样本集2转化为ICDAR标准数据集格式;
S203、将转化后的ICDAR标准数据集输入深度神经网络文本检测器进行训练,每隔10次进行模型测试挑选一个性能最好的模型保存下来,到达500的训练次数后最终保存下来的模型为训练好的深度神经网络文本检测器;
S204、将转化后的ICDAR标准数据集输入深度神经网络文本识别器进行训练,每隔10次进行模型测试挑选一个性能最好的模型保存下来,到达500的训练次数后最终保存下来的模型为训练好的深度神经网络文本识别器。
其中,分类器为ResNet50,文本检测器为DBNet,文本识别器为CRNN与CTC。
分类器主要任务是对增值税发票是否有公章进行分类,是一个简单的二分类问题,卷积神经网络在图像分类领域已经能够达到很高的准确率,兼顾速度与准确率,本发明最终采用ResNet50作为分类器的骨干网络。
本发明采用多种深度神经网络进行文本检测,其中有:EAST、CRAFT、SegLink、PSENet、DBNet等。经过多次实验测试,DBNet在速度与准确性之间取得了比较的权衡。本发明在采用DBNet深度神经网络的时候取得了最好的效果,但并不局限于DBNet深度神经网络。
DBNet是一种基于语义分割的文本检测算法,基本思想是提出一种可以在训练中学习的阈值,能够直接划分出文本区域与背景区域,不需要人工去设置阈值,既避免了人工设置阈值带来的划定文本区域不准确的问题,同时又免去了后续繁琐的合并区域步骤。
本发明所使用的文本识别器兼顾速度与准确性,最终确定为CRNN+CTC,基本思想是将CNN与RNN相结合,CNN可以直接建模包含任意长度序列信息的图像,不需要对序列中的每个字符进行标注,最终生成一组特征向量表示,输入到RNN中。RNN采用了LSTM变体(2层双向LSTM),可以捕捉上下文信息,最终输出每个特征向量表示对应的标签分布。CTC扩展了RNN的输出层,在输出序列和最终标签之间增加了多对一的空间映射,引入blank字符,解决有些位置没有字符的问题。
S3、对新获取的待分类图像进行图像增强处理;
将传入的待分类图像进行对比度增强,使得图像看起来更清晰,突出文本的位置。
S4、采用步骤S2训练好的分类器对步骤S3图像增强处理后的待分类图像进行分类,得到当前识别的图像属于发票还是营业执照,然后采用步骤S2训练好的文本检测器对步骤S3图像增强处理后的待分类图像进行文本检测定位;
分类器主要用于增值税发票是否存在公章的分类。
S5、将步骤S4中检测定位的文本区域作为输入,送入步骤S2中训练好的文本识别器进行文本识别;
使用步骤S4检测定位得到的文本区域计算最小外接矩形,经过裁剪,输入步骤S2训练的文本识别器中。
S6、使用关键信息提取系统,根据步骤S4得到的文本区域位置以及步骤S5得到的文本识别结果,利用增值税发票及营业执照格式的固定特点,通过相对位置及比例与正则匹配方法对增值税发票及营业执照的关键字段信息进行提取,实现关键信息提取。
提取增值税发票关键信息的具体步骤如下:
S601、根据标准增值税发票格式,计算出发票上各关键信息在x轴、y轴所处的标准位置范围;
S602、使用正则方法筛选文本识别结果,利用开票日期、规格型号、价税合计、收款人、开票人等发票上固定的文本,将文本识别结果划分为首部信息、购买方信息、应税货物或劳务服务信息、销售方信息与底部信息;
S603、根据S601中计算出的各关键信息在发票中的标准位置范围,提取步骤S602中各个部分的关键信息。
提取营业执照关键信息的具体方法如下:
S605、根据标准横版与竖版营业执照格式,计算出营业执照上各关键信息在x轴、y轴所处的标准位置范围;
S606、使用正则方法筛选文本识别结果,利用营业执照、统一社会信用代码、名称、法定代表人等营业执照上固定的文本,将文本识别结果划分到各个要提取的关键信息区域中;
S607、根据步骤S605中计算出的关键信息在营业执照中的标准位置范围,提取步骤S606中各个部分的关键信息。
关键信息提取系统包括通用OCR识别模块、增值税发票识别模块和营业执照识别模块,通用OCR识别模块将步骤S5得到的文本识别结果直接作为通用OCR识别结果返回。
增值税发票识别模块识别的具体步骤如下:
1、将增值税发票输入步骤S2中的分类器得到是否存在公章的分类结果;
2、将增值税发票输入步骤S2中的文本检测器和文本识别器得到初步文本识别结果;
3、对输入增值税发票图片进行方向与倾斜矫正;
4、截取出增值税发票区域,降低背景对文本检测与识别的影响;
5、将截取后的增值税发票输入步骤S2中的文本检测器和文本识别器得到文本位置与识别结果;
6、去掉得分概率在0.5以下的识别结果;
7、根据识别文本及相对位置和比例提取增值税发票关键信息。
营业执照识别模块识别步骤具体包括:
1、将营业执照输入步骤S2中的文本检测器和文本识别器得到初步文本识别结果;
2、利用文本检测器得到的文本位置范围对横版竖版营业执照分类;
3、对输入营业执照图片进行方向与倾斜矫正;
4、截取出营业执照区域,降低背景对文本检测与识别的影响;
5、将截取后的营业执照输入步骤S2中的文本检测器和文本识别器得到文本位置与识别结果;
6、去掉得分概率在0.5以下的识别结果;
7、根据识别文本及相对位置和比例提取营业执照关键信息。
本发明再一个实施例中,提供一种基于语义分割的关键信息提取系统,该系统能够用于实现上述基于语义分割的关键信息提取方法,具体的,该基于语义分割的关键信息提取系统包括数据模块、训练模块、增强模块、检测模块、识别模块以及提取模块。
其中,数据模块,采集包含增值税发票与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;
训练模块,构建包含分类器、文本检测器与文本识别器的深度神经网络,使用数据模块的学习样本集对构建的深度神经网络进行训练;
增强模块,获取待分类的图像并进行图像增强处理;
检测模块,采用训练模块训练好的深度神经网络的分类器对增强模块图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用训练模块训练好的深度神经网络的文本检测器对增强模块图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;
识别模块,将检测模块中检测定位的文本区域作为输入,送入训练模块训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;
提取模块,根据检测模块得到的文本区域位置以及识别模块得到的文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票及营业执照的关键字段信息进行提取,实现关键信息提取。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于语义分割的关键信息提取方法的操作,包括:
采集包含增值税发票图片与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;构建包含分类器、文本检测器与文本识别器的深度神经网络,使用学习样本集对构建的深度神经网络进行训练;获取待分类的图像并进行图像增强处理;采用训练好的深度神经网络的分类器对图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用训练好的深度神经网络的文本检测器对图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;将检测定位的文本区域作为输入,送入训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;根据得到的文本区域位置以及文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票图片及营业执照图片的关键字段信息进行提取。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于语义分割的关键信息提取方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
采集包含增值税发票图片与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;构建包含分类器、文本检测器与文本识别器的深度神经网络,使用学习样本集对构建的深度神经网络进行训练;获取待分类的图像并进行图像增强处理;采用训练好的深度神经网络的分类器对图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用训练好的深度神经网络的文本检测器对图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;将检测定位的文本区域作为输入,送入训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;根据得到的文本区域位置以及文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票图片及营业执照图片的关键字段信息进行提取。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图2,图2(a)与图2(c)分别为增值税发票与营业执照识别具体样例,图2(b)与图2(d)分别为图2(a)与图2(c)使用本发明后得到的识别结果,图2(b)与图2(d)是用户将待识别图片传送给本发明,本发明通过分类、文本检测、文本识别与关键词提取步骤之后,返回的json格式的识别结果,整个过程所用时间在1秒以内,同时识别结果的准确率在96%以上。本发明将不同种类的增值税发票与营业执照关键信息提取集于一个系统,提高了现有识别的准确率和速率,为有效减少人工核算的工作量。
综上所述,本发明一种基于语义分割的关键信息提取方法及系统,提取不同类型增值税发票与营业执照的关键信息,处理多方向与倾斜图片,从图片上传到返回提取结果平均响应时间在2秒内,并且有着超过96%的准确率,和现有方法相比,本发明更具有通用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于语义分割的关键信息提取方法,其特征在于,包括以下步骤:
S1、采集包含增值税发票图片与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;
S2、构建包含分类器、文本检测器与文本识别器的深度神经网络,使用步骤S1的学习样本集对构建的深度神经网络进行训练;
S3、获取待分类的图像并进行图像增强处理;
S4、采用步骤S2训练好的深度神经网络的分类器对步骤S3图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用步骤S2训练好的深度神经网络的文本检测器对步骤S3图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;
S5、将步骤S4中检测定位的文本区域作为输入,送入步骤S2训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;
S6、根据步骤S4得到的文本区域位置以及步骤S5得到的文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票图片及营业执照图片的关键字段信息进行提取。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,对学习样本集1进行随机裁剪、改变亮度和随机旋转处理后输入深度神经网络用于训练,学习样本集1大于或等于1000张,学习样本集2中的增值税发票样本大于或等于500张,营业执照样本大于或等于500张。
3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:
S201、将学习样本集1输入深度神经网络的分类器中进行训练,每隔n次进行模型测试,挑选性能最好的模型保存,到达设定训练次数后保存模型作为训练好的分类器;
S202、将学习样本集2转化为ICDAR标准数据集格式;
S203、将步骤S202转化后的ICDAR标准数据集输入深度神经网络的文本检测器进行训练,每隔n次进行模型测试,挑选性能最好的模型保存,到达设定训练次数后保存模型作为训练好的文本检测器;
S204、将步骤S202转化后的ICDAR标准数据集输入深度神经网络的文本识别器进行训练,每隔n次进行模型测试,挑选性能最好的模型保存,到达设定训练次数后保存模型作为训练好的文本识别器。
4.根据权利要求3所述的方法,其特征在于,分类器为ResNet50,文本检测器为DBNet,文本识别器为CRNN与CTC。
5.根据权利要求1所述的方法,其特征在于,步骤S6中,使用关键信息提取系统对增值税发票及营业执照的关键字段信息进行提取,关键信息提取系统包括通用OCR识别模块、增值税发票识别模块和增值税发票识别模块;通用OCR识别模块能够将得到的文本识别结果作为通用OCR识别结果以json的格式返回,增值税发票识别模块能够根据识别文本及相对位置和比例提取增值税发票关键信息;增值税发票识别模块能够根据识别文本及相对位置和比例提取营业执照关键信息。
6.根据权利要求5所述的方法,其特征在于,增值税发票识别模块进行识别具体为:
将增值税发票输入步骤S2训练后的分类器得到是否存在公章的分类结果;将增值税发票输入步骤S2训练后的文本检测器和文本识别器得到初步文本识别结果;对输入增值税发票图片进行方向与倾斜矫正;截取出增值税发票区域;将截取后的增值税发票输入步骤S2训练后的文本检测器和文本识别器得到文本位置与识别结果;去掉得分概率在0.5以下的识别结果;根据识别文本及相对位置和比例提取增值税发票关键信息。
7.根据权利要求5所述的方法,其特征在于,提取增值税发票关键信息具体为:
S601、根据标准增值税发票格式,计算出发票上各关键信息在x轴、y轴所处的标准位置范围;
S602、使用正则方法筛选文本识别结果,利用开票日期、规格型号、价税合计、收款人、开票人将文本识别结果划分为首部信息、购买方信息、应税货物或劳务服务信息、销售方信息与底部信息;
S603、根据S601中计算出的各关键信息在发票中的标准位置范围,提取步骤S602中各个部分的关键信息。
8.根据权利要求5所述的方法,其特征在于,营业执照识别模块进行识别具体为:
将营业执照输入步骤S2训练好的文本检测器和文本识别器得到初步文本识别结果;利用文本检测器得到的文本位置范围对横版竖版营业执照分类;对输入营业执照图片进行方向与倾斜矫正;截取出营业执照区域;将截取后的营业执照输入步骤S2训练好的文本检测器和文本识别器得到文本位置与识别结果;去掉得分概率在0.5以下的识别结果;根据识别文本及相对位置和比例提取营业执照关键信息。
9.根据权利要求5所述的方法,其特征在于,提取营业执照关键信息具体为:
S605、根据标准横版与竖版营业执照格式,计算出营业执照上各关键信息在x轴、y轴所处的标准位置范围;
S606、使用正则方法筛选文本识别结果,利用营业执照、统一社会信用代码、名称、法定代表人文本,将文本识别结果划分到各个待提取的关键信息区域中;
S607、根据步骤S605中计算出的关键信息在营业执照中的标准位置范围,提取步骤S606中各个部分的关键信息。
10.一种基于语义分割的关键信息提取系统,其特征在于,包括:
数据模块,采集包含增值税发票与营业执照图片的数据集,形成学习样本集1和学习样本集2,学习样本集1标注增值税发票是否盖有公章,学习样本集2标注增值税发票及营业执照关键信息;
训练模块,构建包含分类器、文本检测器与文本识别器的深度神经网络,使用数据模块的学习样本集对构建的深度神经网络进行训练;
增强模块,获取待分类的图像并进行图像增强处理;
检测模块,采用训练模块训练好的深度神经网络的分类器对增强模块图像增强处理后的待分类图像进行分类,得到当前识别的图像属于增值税发票还是营业执照,然后采用训练模块训练好的深度神经网络的文本检测器对增强模块图像增强处理后的待分类图像进行文本检测定位,得到文本区域位置;
识别模块,将检测模块中检测定位的文本区域作为输入,送入训练模块训练好的深度神经网络的文本识别器进行文本识别,得到文本识别结果;
提取模块,根据检测模块得到的文本区域位置以及识别模块得到的文本识别结果,通过增值税发票图片与营业执照图片中相对位置及比例与正则匹配方法对增值税发票及营业执照的关键字段信息进行提取,实现关键信息提取。
CN202111131686.4A 2021-09-26 2021-09-26 一种基于语义分割的关键信息提取方法及系统 Active CN113963147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111131686.4A CN113963147B (zh) 2021-09-26 2021-09-26 一种基于语义分割的关键信息提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111131686.4A CN113963147B (zh) 2021-09-26 2021-09-26 一种基于语义分割的关键信息提取方法及系统

Publications (2)

Publication Number Publication Date
CN113963147A true CN113963147A (zh) 2022-01-21
CN113963147B CN113963147B (zh) 2023-09-15

Family

ID=79462269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111131686.4A Active CN113963147B (zh) 2021-09-26 2021-09-26 一种基于语义分割的关键信息提取方法及系统

Country Status (1)

Country Link
CN (1) CN113963147B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376142A (zh) * 2022-07-20 2022-11-22 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN116311297A (zh) * 2023-04-12 2023-06-23 国网河北省电力有限公司 基于计算机视觉的电子凭据图像识别解析方法
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN115423586B (zh) * 2022-08-26 2023-09-29 重庆财经职业学院 一种基于网络的财务发票报销上传审核系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037259A1 (zh) * 2017-08-20 2019-02-28 平安科技(深圳)有限公司 电子装置、发票分类的方法、系统及计算机可读存储介质
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统
CN112651289A (zh) * 2020-10-19 2021-04-13 广东工业大学 一种增值税普通发票智能识别与校验系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037259A1 (zh) * 2017-08-20 2019-02-28 平安科技(深圳)有限公司 电子装置、发票分类的方法、系统及计算机可读存储介质
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN110889402A (zh) * 2019-11-04 2020-03-17 广州丰石科技有限公司 一种基于深度学习的营业执照内容识别方法及系统
CN112651289A (zh) * 2020-10-19 2021-04-13 广东工业大学 一种增值税普通发票智能识别与校验系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡泽枫;张学习;黎贤钊;: "基于卷积神经网络的批量发票识别系统研究", 工业控制计算机, no. 05 *
蒋良卫;黄玉柱;邓芙蓉;: "基于深度学习技术的图片文字提取技术的研究", 信息系统工程, no. 03 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376142A (zh) * 2022-07-20 2022-11-22 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN115376142B (zh) * 2022-07-20 2023-09-01 北大荒信息有限公司 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质
CN115423586B (zh) * 2022-08-26 2023-09-29 重庆财经职业学院 一种基于网络的财务发票报销上传审核系统
CN116311297A (zh) * 2023-04-12 2023-06-23 国网河北省电力有限公司 基于计算机视觉的电子凭据图像识别解析方法
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法

Also Published As

Publication number Publication date
CN113963147B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
US11348353B2 (en) Document spatial layout feature extraction to simplify template classification
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及系统
US11455784B2 (en) System and method for classifying images of an evidence
US9626555B2 (en) Content-based document image classification
US20230008869A1 (en) Enhanced optical character recognition (ocr) image segmentation system and method
CN109934255B (zh) 一种适用于饮料瓶回收机投递物分类识别的模型融合方法
KR101377601B1 (ko) 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
CN113780087B (zh) 一种基于深度学习的邮政包裹文本检测方法及设备
CN113158895B (zh) 票据识别方法、装置、电子设备及存储介质
CN112949455B (zh) 一种增值税发票识别系统及方法
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
US20210326629A1 (en) Systems and methods for digitized document image text contouring
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
Hung et al. Automatic vietnamese passport recognition on android phones
CN111414889B (zh) 基于文字识别的财务报表识别方法及装置
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity
Rahul et al. Deep reader: Information extraction from document images via relation extraction and natural language
Iskandar Manga Layout Analysis via Deep Learning
US20230206671A1 (en) Extracting structured information from document images
US20210342901A1 (en) Systems and methods for machine-assisted document input
Chawla et al. Intelligent Information Retrieval: Techniques for Character Recognition and Structured Data Extraction
Sayyafzadeh et al. Forensic Analysis of Contents in Thumbnails Using Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant