CN115376142B - 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质 - Google Patents
一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN115376142B CN115376142B CN202210853956.0A CN202210853956A CN115376142B CN 115376142 B CN115376142 B CN 115376142B CN 202210853956 A CN202210853956 A CN 202210853956A CN 115376142 B CN115376142 B CN 115376142B
- Authority
- CN
- China
- Prior art keywords
- information
- business license
- data
- image
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质,属于营业执照信息提取技术领域,解决对营业执照信息进行提取的准确性不高和适用性低的问题。本发明的方法包括:获取营业执照图像,去掉所述营业执照图像中的红色公章;建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;根据所述汉字位置信息,获取相应的文字信息;建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。本发明适用于对营业执照的信息提取。
Description
技术领域
本申请涉及营业执照信息提取技术领域,尤其涉及基于图像的营业执照信息提取。
背景技术
营业执照信息填写是一个较为常见的业务场景,需要对于营业执照信息进行识别和填写。
由于文字输入量工作较大,通过拍照识别自动填写逐渐成为一种有效的辅助手段并在未来有望替代人工填写,从而不可避免的会出现信息提取的准确性不高的问题,营业执照版式的多样性为识别技术带来了巨大挑战,具体如下:
首先,不同类型的营业执照,如有限公司与合伙企业存在版式差异;第二,不同时期颁发的营业执照存在版本差异,如十年前的和当年的;第三,不同地区的营业执照存在版式差异,例如内蒙古自治区的营业执照同时印有汉字和蒙文;第四,存在营业执照套打导致标题(如成立日期)与内容(如2022年1月2日)严重串行或倾斜;第五,由于管理软件或人为疏忽,导致颁发的营业执照存在错版(如类型和法定代表人实际内容发生了互换)。
已有的营业执照识别方法主要基于模式识别和文字识别。程序流程是输入一张营业执照图像后,通过定制开发的模式识别算法,识别出该营业执照属于哪个具体版式(不同单位类型、不同年份、不同地区的版式均可能存在不相同)。识别图像所属版式后,根据该版式各项要素的相对位置,通过文字识别算法按位置进行信息提取。如果模式识别失败,则识别流程中止。
该方法存以下主要缺点:
由于营业执照大多长期有效,现存有效营业执照的版式众多,而对于模式识别算法,识别目标越多,算法越复杂,准确率也越差,实际应用中必须做出适当的取舍,比如只支持主流的版式,忽略对小众版式的识别;
由于使用相对位置获取信息,对于串行、倾斜、错版没有识别能力。
发明内容
本发明目的是为了解决现有对营业执照信息进行提取的准确性不高和适用性低的问题,提供了一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质。
本发明是通过以下技术方案实现的,本发明一方面,提供一种基于图像的营业执照信息提取方法,所述方法包括:
步骤1、获取营业执照图像,去掉所述营业执照图像中的红色公章;
步骤2、建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;
步骤3、根据所述汉字位置信息,获取相应的文字信息;
步骤4、建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;
步骤5、对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。
进一步地,步骤1,所述去掉所述营业执照图像中的红色公章,具体包括:
步骤1.1、根据所述营业执照图像,获取红色通道、蓝色通道与绿色通道的数值;
步骤1.2、设置阈值,获取红色通道与蓝色通道的数值之差大于所述阈值的点阵图像像素集合为第一像素集合,获取红色通道与绿色通道的数值之差大于所述阈值的点阵图像像素集合为第二像素集合;
步骤1.3、根据所述第一像素集合和所述第二像素集合的交集,获取交集像素集合;
步骤1.4、获取红色通道的数值大于全部通道数值平均值的一半的第三像素集合;
步骤1.5、根据所述交集像素集合和所述第三像素集合,获取红色像素集合;
步骤1.6、分别获取红色通道的平均值、蓝色通道的平均值与绿色通道的平均值;
步骤1.7、将所述红色通道的平均值、蓝色通道的平均值与绿色通道的平均值所代表的颜色,加入均值为0,方差为1的高斯白噪声,获取第四像素集合;
步骤1.8、用所述第四像素集合替代所述红色像素集合。
进一步地,步骤2中,所述建立汉字位置识别模型,具体包括:
步骤2.1、获取所述去掉红色公章的营业执照图像,利用标注工具以矩形对汉字进行标注;
步骤2.2、利用YOLOv5算法,通过标注数据进行迁移学习,建立汉字位置识别模型。
进一步地,步骤2中,所述汉字位置信息包括坐标形式的汉字位置信息。
进一步地,步骤3,具体包括:
根据所述汉字位置信息,使用开源项目Tesseract OCR,获取相应的文字信息。
进一步地,步骤4中,所述建立文本分类模型,具体包括:
步骤4.1、建立数据集,具体包括:设置所述数据集中文字信息相应的属性,采集所述属性的样本数据;
步骤4.2、对所述数据集进行预处理;
步骤4.3、对所述数据集中的文字信息进行one-hot编码,获取编码后的数据集;
步骤4.4、利用所述编码后的数据集,通过人工神经网络训练分类器,输入为所述编码后的样本数据,标签为该编码后的样本数据对应的属性;
步骤4.5、将所述训练后的分类器作为所述文本分类模型。
进一步地,所述预处理包括:
将同一类型的属性及样本数据进行合并;
对样本数据进行清洗,删除垃圾数据,具体包括:统一社会信用代码使用正则表达式;单位名称过滤掉头尾含有数字或字母以及长度小于6的垃圾数据;地址过滤掉长度小于7以及开头含有数字的垃圾数据;法人名称过滤掉含有数字或字母的垃圾数据;
删除数据集中重复的样本数据;
对数据集中的数据进行上采样;
对样本数据引入噪声信息,并将所述引入噪声信息的样本数据补充到数据集中。
进一步地,步骤5中,所述后处理,具体包括:
对于同一个属性识别出超过一个信息的,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
对于包含噪声信息的文字信息,删除所述噪声信息,并将所述删除噪声信息的文字信息重新输入文本分类模型,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
对于存在多个文字信息的属性,将所述多个文字信息按从上到下,从左到右出现的先后顺序输出。
第二方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于图像的营业执照信息提取方法。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行如上文所述的一种基于图像的营业执照信息提取方法。
本发明的有益效果:
首先,本发明的方法基于神经网络建立的文本分类模型,并且对该模型的训练数据进行了特定的预处理,提高模型的分类精度,进而可以应对类型差异、版本差异、套打串行及错版的问题;本发明不关注具体的版式,而是通过训练文本分类模型,从语义层面获取营业执照上的关键信息,可以解决识别目标越多,算法越复杂,准确率也越差的问题;文本分类模型通过一段文本的内容判断其属于营业执照的哪一种属性,所以不受串行、倾斜、错版影响;
其次,本发明的方法是基于图像进行信息提取的,可以对任何种类的营业执照进行信息提取操作,并且其中的图像处理技术,可以减少信息提取的噪声,进而提升营业执照信息提取的精度;
最后,本发明的方法结合营业执照的具体领域对各种数据进行了处理(预处理和后处理),提升了模型的分类精度,还校正了营业执照最终提取的结果,进一步提高了营业执照信息提取的准确性。
本发明适用于对营业执照的信息提取。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于图像的营业执照信息提取方法的流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施方式一、如图1所示,一种基于图像的营业执照信息提取方法,所述方法包括:
步骤1、获取营业执照图像,去掉所述营业执照图像中的红色公章;
需要说明的是,本步骤1为保留有效信息,有效信息是指文字部分,或者说对系统来讲需要获取的信息,比如法人是谁,公司名是什么,而底板上的配图、红章被视为干扰信息。
步骤2、建立汉字位置识别模型,将所述去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;
步骤3、根据所述汉字位置信息,获取相应的文字信息;
步骤4、基于人工神经网络建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;
步骤5、对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取。
本实施方式,由于颁发机构会在营业执照上加盖红色公章,公章加盖后往往与原有文字重叠,导致信息提取困难,应预以处理。本实施方式利用图像处理技术,去掉营业执照图像中不需要的信息,为后续的信息提取提高精度;
本实施方式中,因为不同文字的形态具有其固有特征,通过深度神经网络学习汉字的特征,识别时,只定位汉字部分,其他文字则视为噪声,不予处理,解决少数民族文字对识别造成的干扰;识别出了图片上所有汉字的位置,对每个书写了汉字的区域进行文字识别;
本实施方式中的基于神经网络构建的模型,可以实现对不同版本的营业执照的识别,且不受属性数量(单位名称、地址、注册资本等)多少的限制;
本实施方式,因为初步提取的信息会存在重复、错误等现象,对初步提取到的信息进行后处理,进一步提升信息提取的准确性。
实施方式二,本实施方式是对实施方式一所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对步骤1,所述去掉所述营业执照图像中的红色公章,做了进一步限定,具体包括:
步骤1.1、根据所述营业执照图像,获取红色通道、蓝色通道与绿色通道的数值;
步骤1.2、设置阈值,获取红色通道与蓝色通道的数值之差大于所述阈值的点阵图像像素集合为第一像素集合,获取红色通道与绿色通道的数值之差大于所述阈值的点阵图像像素集合为第二像素集合;
步骤1.3、根据所述第一像素集合和所述第二像素集合的交集,获取交集像素集合;
步骤1.4、获取红色通道的数值大于全部通道数值平均值的一半的第三像素集合;
步骤1.5、根据所述交集像素集合和所述第三像素集合,获取红色像素集合;
步骤1.6、分别获取红色通道的平均值、蓝色通道的平均值与绿色通道的平均值;
步骤1.7、将所述红色通道的平均值、蓝色通道的平均值与绿色通道的平均值所代表的颜色,加入均值为0,方差为1的高斯白噪声,获取第四像素集合;
步骤1.8、用所述第四像素集合替代所述红色像素集合。
需要说明的是,使用软件直接读出图片RGB三通道图片,然后用红色通道的数值减绿色通道(或蓝色通道)的数据。比如图片像素为800*600,则通过软件读出的数据的维度为800*600*3,其中3为三色通道,分别为红绿蓝。也即红色通道数据为R=800*600;绿色通道数据维度和蓝色通道的数据维度也为800*600,数据均为二维矩阵。所谓的红色通道与绿色通道的值相减,是指R-G,是指相应的位置的数相减,得到的数为结果。
本实施方式,给出了对于营业执照的图像处理技术,该处理方法可以有效解决由于颁发机构会在营业执照上加盖红色公章,导致信息提取困难的问题,进而提升营业执照提取精度。
实施方式三,本实施方式是对实施方式一所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对步骤2中,所述建立汉字位置识别模型,做了进一步限定,具体包括:
步骤2.1、获取所述去掉红色公章的营业执照图像,利用标注工具以矩形对汉字进行标注;
步骤2.2、利用YOLOv5算法,通过标注数据进行迁移学习,建立汉字位置识别模型。
本实施方式建立的汉字位置识别模型,可以通过对图像中的文字进行位置识别,识别出的位置信息可以准确得到相应的文字信息,还可以有效解决少数民族文字对识别造成的干扰。
实施方式四,本实施方式是对实施方式一所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对步骤2中,所述汉字位置信息,做了进一步限定,具体包括:
步骤2中,所述汉字位置信息包括坐标形式的汉字位置信息。
需要说明的是,这里获取标注数据的过程即使用labelme或其他标注工具,在图像上用矩形标示出有汉字的位置,最终得到的数据是各图像对应有汉字位置的矩形的坐标组,例如[(5,10),(100,20)],表示矩形的左上角坐标是(5,10),右下角坐标是(100,20)。
实施方式五,本实施方式是对实施方式一所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对步骤3,做了进一步限定,具体包括:
根据所述汉字位置信息,使用开源项目Tesseract OCR,获取相应的文字信息。
本实施方式,给出了文字信息识别的具体识别工具和方法,可以提高文字信息识别的准确性。
实施方式六,本实施方式是对实施方式一所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对步骤4中,所述建立文本分类模型,做了进一步限定,具体包括:
步骤4.1、建立数据集,具体包括:设置所述数据集中文字信息相应的属性,采集所述属性的样本数据;
步骤4.2、对所述数据集进行预处理;
步骤4.3、对所述数据集中的文字信息进行one-hot编码,获取编码后的数据集;
步骤4.4、利用所述编码后的数据集,通过人工神经网络训练分类器,输入为所述编码后的样本数据,标签为该编码后的样本数据对应的属性;
步骤4.5、将所述训练后的分类器作为所述文本分类模型。
本实施方式建立的文本分类模型可以实现对输入的文字信息进行属性的分类,通过将文本分类,通过算法将对营业执照中各段文字进行分类,归类到某一个属性(如是公司、还是法人代表名),能够应对类型差异、版本差异、套打串行及错版问题。
本实施方式的数据集的属性可以根据不同版本的营业执照进行设置,进而可以解决由于营业执照的版式不同,导致无法识别的问题。
需要说明的是,本实施方式中可以对one-hot编码进行改进,将输入数据映射成一个经过改进的one-hot编码格式向量矩阵,出现的字符的索引位置在向量中置1,其他置0。比如在原始的one-hot编码中,索引0=你、1=好,改后的,对于输入“你好”建立的编码为1100……。改进之前,每一个字符对应一个one-hot编码,一个句子对应一组one-hot编码,形成一个矩阵。对于不同文字长度的句子,编码后矩阵大小不同,难以通过并行计算提高算法效率。
改进之后每一句虽然文字长度不同,但句子编码后由不同大小的矩阵变成了统一维度的向量,可以利用GPU进行并行计算。
实施方式七,本实施方式是对实施方式六所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对所述预处理,做了进一步限定,具体包括:
所述预处理包括:
将同一类型的属性及样本数据进行合并;
对样本数据进行清洗,删除垃圾数据,具体包括:统一社会信用代码使用正则表达式;单位名称过滤掉头尾含有数字或字母以及长度小于6的垃圾数据;地址过滤掉长度小于7以及开头含有数字的垃圾数据;法人名称过滤掉含有数字或字母的垃圾数据;
删除数据集中重复的样本数据;
对数据集中的数据进行上采样;
对样本数据引入噪声信息,并将所述引入噪声信息的样本数据补充到数据集中。
本实施方式是通过对营业执照数据的处理,可以实现文本分类模型的准确率超过97%。
实施方式八,本实施方式是对实施方式一所述的一种基于图像的营业执照信息提取方法的进一步限定,本实施方式中,对步骤5中,所述后处理,做了进一步限定,具体包括:
所述后处理,具体包括:
对于同一个属性识别出超过一个信息的,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
对于包含噪声信息的文字信息,删除所述噪声信息,并将所述删除噪声信息的文字信息重新输入文本分类模型,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
需要说明的是,比如对于单位名称这个属性,前面可能引入的噪声只有名称或单位名称,所以程序根据这个规律判断前几个字是否是“单位名称”、“位名称”、“名称”、“称”,如果是,就截去这个前缀,得到真实的单位名称。但存在有的单位名称就是以“称”等特殊字开头的,所以程序还要自动判断一下是否应该截断,判断的依据就是把截断后的文字再运行分类器,如果得分高于截断前的文字,则认为截断是正确的。分类器会对输入的文字进行分类(属于哪个属性),并给出得分(可信度),对于截断前后的文本,认为可信度高的是正确的,进行保留。即算法对“称心劳务人力资源服务有限公司”给出是单位名称的置信度会高于“心劳务人力资源服务有限公司”,然后选择“称心劳务人力资源服务有限公司”做为最终结论。
对于存在多个文字信息的属性,将所述多个文字信息按从上到下,从左到右出现的先后顺序输出。
需要说明的是,1、首先根据文本分类的结果,得到了各属性对应的信息,对于同一个属性识别出超过一个目标的,则根据文本分类器的分类得分,取分值最高者;对于没有识别出目标的属性,则认为图像中没有该属性(由于版式不同,对于一张具体的营业执照,并不一定具有算法可识别的所有属性);2、由于套打时存在标题与内容过近,标题和内容可能被识别成了同一目标,如将“名称北京xx有限公司”识别成单位名称,需要截断该类型的标题文字,例如对于名称,将截断名称或称(名和称字可能由于间隔较长,只有称字被混入目标),再重新运行分类器,为防止截断错误,比如将“称心劳务人力资源服务有限公司”的称字误截断,截断后的文字使用分类器重新计算,最终取得分高者;3、对于存在多个日期(成立日期、经营期限)和地址(注册地址、生产经营地)的属性,按从上到下,从左到右出现的先后顺序返回给算法调用方根据实际业务进行处理。
实施方式九,本实施方式是基于如上文所述的一种基于图像的营业执照信息提取方法的具体实施例,具体包括:
图像预处理:颁发机构会在营业执照上加盖红色公章,公章加盖后往往与原有文字重叠,导致信息提取困难,应预以处理。本方法根据图像RGB三个通道的数据特征,设定阈值,移除明显的红色像素,并以照片的众数颜色(近似认为是底板颜色)代替,实现去红章的效果,而图像中有效文字均为黑色,全部得到了保留,具体路径如下:
1.在图像中,图像颜色由红绿蓝三色通道组成,三通道共同合成某一个颜色。标准红色三通道RGB数字图像为(255,0,0),在红色区域范围内,各自通道的数值上相较于红色而言,数值上要小一些,设该差值为T,使用下述方法来标定红色区域:
(1)取出红色通道-蓝色通道>T的像素
(2)取出红色通道-绿色通道>T的像素
最终结果取(1)和(2)的交集,令其为A。
2.取出红色通道数值大于所有通道平均值一半的像素,令其为B。
3.将A和B取交集,最终取出红色像素集合C。
4.计算出图像三个颜色通道的平均值:r、g、b。
5.使用(r,g,b)代表的颜色,并引入轻度噪声,替代集合C中的像素,完成去红章;
文本检测:获取一定量营业执照的图像,使用labelme工具以矩形对汉字进行标注。使用YOLOv5算法加载预训练模型,通过标注数据进行迁移学习。通过输入一张图像,识别图像中汉字的位置并以坐标形式输出。通过汉字检测,解决少数民族文字对识别造成的干扰。
文字识别:根据图像中检测出的汉字位置,使用开源项目Tesseract OCR,将语言指定为中文,将位置信息与识别出的文字信息进行一一对应。
文本分类:
1、数据集准备:获取一定量的营业执照结构化数据,结构化数据需要人工从营业执照图片中整理,输入到数据库,做为文本分类的训练数据。该数据集形如:{“单位名称”:”北大荒信息有限公司“,”注册资本“:”贰亿圆整“,“单位名称”:“北大荒农垦集团有限公司”,……},即大量的属性和属性对应的具体的内容。
属性包括:统一社会信用代码、单位名称、单位类型、单位地址、生产经营地、经营范围、法人名称、其他,其中其他用于表示与内容无关的项,即套打中的固定内容部分,如营业执照、1-1、2-1、正本、副本、扫描二维码登录、国家企业信用信息公示系统网址、http://www.gsxt.gov.cn、国家市场监督管理总局监制等等说明性文字,以及统一社会信用代码、名称、类型、法定代表人、住所等标题文字。
2、数据集补充:由于数据集无法包括全部单位类型,需要将缺失的类型补充到数据集;新增日期类型,格式为YYYY年MM月DD日,范围为1970年1月1日至2030年12月31日;新增注册资本,使用随机大写金额生成算法生成大量大写金额,为避免全部生成过多较大金额,算法应调大写金额的整数值的分布区间,使之大部分样本在百万至千万之间,同时以万元取整为主,少量数据保留至元和角,模拟注册资本的实际分布;随机大写金额算法,是指通过计算机,生成随机数,后把随机数变为对应的大写数字表示,比如:计算器生成随机数为100000,则大写金额为拾萬。由于注册资本在小金额区间较多,故调整分布区间,使生成的随机数更多的落入小金额区间。
3、合并同类项:由于单位地址、生产经营地址都是地址类型,合并为地址;由于地址类信息之间没有明显区别,所以做为同一类型对待。
4、数据清洗:统一社会信用代码使用正则表达式^([0-9A-Z]){15,18}$过滤掉垃圾数据;单位名称过滤掉头尾含有数字或字母以及长度小于6的垃圾数据;地址过滤掉长度小于7以及开头含有数字的垃圾数据;法人名称过滤掉含有数字或字母的垃圾数据;
5、数据去重:删除数据集中重复的数据,避免大量重复数据导致分类算法出现偏差;
6、数据上采样:由于不同类型的数据量不同(如统一社会信用代码多,单位类型少),为避免导致分类算法出现偏差,对数据量少的样本进行复制,补充进数据集;
7、引入噪声:由于套打时存在标题与内容过近,标题和内容可能被识别成了同一目标,如将“名称北京xx有限公司”识别成单位名称,如果使用“北京xx有限公司”作为输入训练数据,则算法对“名称北京xx有限公司”则难以适应,所以在1%的数据开头追加对应分类标题最后的一到两个字作为训练数据,比如构建“称北京xx有限公司”作为训练数据;
8、建立one-hot编码字典:使用数据集中出现的所有文字建立one-hot编码字典映射表,例如索引0=你、1=好、2=世、3=界、……,并增加一个对其他字符的映射,用于适配数据集中未出现的字符;
9、制作训练数据:将数据的属性作为标签值(如法人名称),数据的内容作为输入值(如张三),同时张将输入数据映射成一个经过改进的one-hot编码格式向量,出现的字符的索引位置在向量中置1,其他置0。比如按上条所求建立的字典,对于输入“你好”建立的编码为1100……。
10、数据拆分:将各分类数据进行随机分组,90%作为训练集,10%作为验证集;
11、训练分类器:通过人工神经网络训练一个分类器,特征是改进的one-hot编码格式向量,标签是该输入的类型(即属性,如单位名称)。由于改分类器相对简单,模型使用一个线程方程加一个LogSoftmax输出各分类的概率,取其中数值最高的一类作为预测结果,比如输入是“xxx有限责任公司”,那么训练后的算法的预测结果应该以较大概率输出“公司”这个类型(即属性),使用随机梯度下降法作为优化器进行训练。
通过对四万条营业执照数据的训练,平均准确率超过97%。通过将文本分类,能够应对类型差异、版本差异、套打串行及错版问题。
营业执照整体算法调用时,将通过文本检测和文字识别得到的不同文本片段,依次输入到文本分类算法,输出该文本片段的分类结果,即判断这段文本是公司还是单位类型或其他什么类型。
数据后处理:
1、首先根据文本分类的结果,得到了各属性对应的信息,对于同一个属性识别出超过一个目标的,则根据文本分类器的分类得分,取分值最高者;对于没有识别出目标的属性,则认为图像中没有该属性(由于版式不同,对于一张具体的营业执照,并不一定具有算法可识别的所有属性),没有该属性则算法的结果不提供该属性信息,只提供解析出的属性名和属性值;
2、由于套打时存在标题与内容过近,标题和内容可能被识别成了同一目标,如将“名称北京xx有限公司”识别成单位名称,需要截断该类型的标题文字,例如对于名称,将截断名称或称(名和称字可能由于间隔较长,只有称字被混入目标),再重新运行分类器,为防止截断错误,比如将“称心劳务人力资源服务有限公司”的称字误截断,截断后的文字使用分类器重新计算,最终取得分高者;
3、对于存在多个日期(成立日期、经营期限)和地址(注册地址、生产经营地)的属性,按从上到下,从左到右出现的先后顺序返回给算法调用方根据实际业务进行处理。
Claims (7)
1.一种基于图像的营业执照信息提取方法,其特征在于,所述方法包括:
步骤1、获取营业执照图像,去掉所述营业执照图像中的红色公章;
步骤2、建立汉字位置识别模型,将去掉红色公章的营业执照图像输入所述汉字位置识别模型,获取汉字位置信息;
步骤3、根据所述汉字位置信息,获取相应的文字信息;
步骤4、建立文本分类模型,将所述文字信息输入所述文本分类模型,获取所述文字信息的属性,完成营业执照信息的初步提取;
步骤4中,所述建立文本分类模型,具体包括:
步骤4.1、建立数据集,具体包括:设置所述数据集中文字信息相应的属性,采集所述属性的样本数据;
步骤4.2、对所述数据集进行预处理;
步骤4.3、对所述数据集中的文字信息进行one-hot编码;
步骤4.4、利用所述编码后的数据集,通过人工神经网络训练分类器,输入为所述编码后的样本数据,标签为该编码后的样本数据对应的属性;
步骤4.5、将训练后的分类器作为所述文本分类模型;
所述预处理包括:
针对地址类型信息,将同一类型的属性及样本数据进行合并;
针对统一社会信用代码,对样本数据进行清洗,删除垃圾数据,具体包括:统一社会信用代码使用正则表达式;单位名称过滤掉头尾含有数字或字母以及长度小于6的垃圾数据;地址过滤掉长度小于7以及开头含有数字的垃圾数据;法人名称过滤掉含有数字或字母的垃圾数据;
针对不同类型的数据量,对数据集中的数据进行上采样;
针对标题与内容过近的情况,对样本数据引入噪声信息,并将所述引入噪声信息的样本数据补充到数据集中,所以在1%的数据开头追加对应分类标题最后的一到两个字作为训练数据;
步骤5、对所述初步提取的营业执照信息进行后处理,完成营业执照信息的提取;
所述后处理,具体包括:
对于同一个属性识别出超过一个信息的,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;对于没有识别出目标的属性,则认为图像中没有该属性,没有该属性则算法的结果不提供该属性信息,只提供解析出的属性名和属性值;
针对套打时存在标题和内容被识别成同一目标的情况,对于包含噪声信息的文字信息,删除所述噪声信息,并将删除噪声信息的文字信息重新输入文本分类模型,根据文本分类模型的分类得分,取分值最高的信息为该属性的信息;
对于存在多个日期或地址的属性,按从上到下,从左到右出现的先后顺序返回给算法调用方进行处理。
2.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤1,所述去掉所述营业执照图像中的红色公章,具体包括:
步骤1.1、根据所述营业执照图像,获取红色通道、蓝色通道与绿色通道的数值;
步骤1.2、设置阈值,获取红色通道与蓝色通道的数值之差大于所述阈值的点阵图像像素集合为第一像素集合,获取红色通道与绿色通道的数值之差大于所述阈值的点阵图像像素集合为第二像素集合;
步骤1.3、根据所述第一像素集合和所述第二像素集合的交集,获取交集像素集合;
步骤1.4、获取红色通道的数值大于全部通道数值平均值的一半的第三像素集合;
步骤1.5、根据所述交集像素集合和所述第三像素集合,获取红色像素集合;
步骤1.6、分别获取红色通道的平均值、蓝色通道的平均值与绿色通道的平均值;
步骤1.7、将所述红色通道的平均值、蓝色通道的平均值与绿色通道的平均值所代表的颜色,加入均值为0,方差为1的高斯白噪声,获取第四像素集合;
步骤1.8、用所述第四像素集合替代所述红色像素集合。
3.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤2中,所述建立汉字位置识别模型,具体包括:
步骤2.1、获取所述去掉红色公章的营业执照图像,利用标注工具以矩形对汉字进行标注;
步骤2.2、利用YOLOv5算法,通过标注数据进行迁移学习,建立汉字位置识别模型。
4.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤2中,所述汉字位置信息包括坐标形式的汉字位置信息。
5.根据权利要求1所述的一种基于图像的营业执照信息提取方法,其特征在于,步骤3,具体包括:
根据所述汉字位置信息,使用开源项目Tesseract OCR,获取相应的文字信息。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,当所述处理器运行所述存储器存储的计算机程序时执行权利要求1至5中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853956.0A CN115376142B (zh) | 2022-07-20 | 2022-07-20 | 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853956.0A CN115376142B (zh) | 2022-07-20 | 2022-07-20 | 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115376142A CN115376142A (zh) | 2022-11-22 |
CN115376142B true CN115376142B (zh) | 2023-09-01 |
Family
ID=84060962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210853956.0A Active CN115376142B (zh) | 2022-07-20 | 2022-07-20 | 一种基于图像的营业执照信息提取方法、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376142B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206293A (ja) * | 2002-12-24 | 2004-07-22 | Dainippon Printing Co Ltd | 電子ペン用ocr帳票、及びデータ受付処理システムのサーバ装置 |
CN102375980A (zh) * | 2010-08-24 | 2012-03-14 | 汉王科技股份有限公司 | 图像处理方法及装置 |
CN106846011A (zh) * | 2016-12-30 | 2017-06-13 | 金蝶软件(中国)有限公司 | 营业执照识别方法和装置 |
CN110442744A (zh) * | 2019-08-09 | 2019-11-12 | 泰康保险集团股份有限公司 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
CN110532855A (zh) * | 2019-07-12 | 2019-12-03 | 西安电子科技大学 | 基于深度学习的自然场景证件图像文字识别方法 |
CN110889402A (zh) * | 2019-11-04 | 2020-03-17 | 广州丰石科技有限公司 | 一种基于深度学习的营业执照内容识别方法及系统 |
CN113569834A (zh) * | 2021-08-05 | 2021-10-29 | 五八同城信息技术有限公司 | 营业执照识别方法、装置、电子设备及存储介质 |
CN113723412A (zh) * | 2021-07-16 | 2021-11-30 | 上海通办信息服务有限公司 | 一种圆形红色公章的文字提取方法、装置和设备 |
CN113963147A (zh) * | 2021-09-26 | 2022-01-21 | 西安交通大学 | 一种基于语义分割的关键信息提取方法及系统 |
CN114358798A (zh) * | 2021-12-20 | 2022-04-15 | 浙江招天下招投标交易平台有限公司 | 一种基于图片识别的企业信息认证的方法、装置及系统 |
-
2022
- 2022-07-20 CN CN202210853956.0A patent/CN115376142B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206293A (ja) * | 2002-12-24 | 2004-07-22 | Dainippon Printing Co Ltd | 電子ペン用ocr帳票、及びデータ受付処理システムのサーバ装置 |
CN102375980A (zh) * | 2010-08-24 | 2012-03-14 | 汉王科技股份有限公司 | 图像处理方法及装置 |
CN106846011A (zh) * | 2016-12-30 | 2017-06-13 | 金蝶软件(中国)有限公司 | 营业执照识别方法和装置 |
CN110532855A (zh) * | 2019-07-12 | 2019-12-03 | 西安电子科技大学 | 基于深度学习的自然场景证件图像文字识别方法 |
CN110442744A (zh) * | 2019-08-09 | 2019-11-12 | 泰康保险集团股份有限公司 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
CN110889402A (zh) * | 2019-11-04 | 2020-03-17 | 广州丰石科技有限公司 | 一种基于深度学习的营业执照内容识别方法及系统 |
CN113723412A (zh) * | 2021-07-16 | 2021-11-30 | 上海通办信息服务有限公司 | 一种圆形红色公章的文字提取方法、装置和设备 |
CN113569834A (zh) * | 2021-08-05 | 2021-10-29 | 五八同城信息技术有限公司 | 营业执照识别方法、装置、电子设备及存储介质 |
CN113963147A (zh) * | 2021-09-26 | 2022-01-21 | 西安交通大学 | 一种基于语义分割的关键信息提取方法及系统 |
CN114358798A (zh) * | 2021-12-20 | 2022-04-15 | 浙江招天下招投标交易平台有限公司 | 一种基于图片识别的企业信息认证的方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115376142A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN112528863A (zh) | 表格结构的识别方法、装置、电子设备及存储介质 | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN110503100B (zh) | 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质 | |
CN110880000B (zh) | 图片文字定位方法、装置、计算机设备和存储介质 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN111242024A (zh) | 基于机器学习识别图纸内图例及文字的方法及系统 | |
CN112037077A (zh) | 基于人工智能的印章识别方法、装置、设备及存储介质 | |
CN110298353B (zh) | 一种字符识别方法及系统 | |
CN110414563A (zh) | 考试成绩统计方法、系统及计算机可读存储介质 | |
CN110728687B (zh) | 文件图像分割方法、装置、计算机设备和存储介质 | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN107463866A (zh) | 一种用于成绩评价的识别手写实验报告的方法 | |
CN112446262A (zh) | 文本分析方法、装置、终端和计算机可读存储介质 | |
CN110956167A (zh) | 一种基于定位字符的分类判别强化分离的方法 | |
CN112560850A (zh) | 基于自定义模板的身份证信息自动提取和真伪校验方法 | |
CN112949455A (zh) | 一种增值税发票识别系统及方法 | |
CN115063802A (zh) | 一种基于PSENet的圆形印章识别方法、设备及介质 | |
CN114881698A (zh) | 广告合规审核方法、装置、电子设备及存储介质 | |
CN111814576A (zh) | 一种基于深度学习的购物小票图片识别方法 | |
CN111462388A (zh) | 一种票据检验方法、装置、终端设备及存储介质 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |