CN115880682A - 图像文本识别方法、装置、设备、介质和产品 - Google Patents

图像文本识别方法、装置、设备、介质和产品 Download PDF

Info

Publication number
CN115880682A
CN115880682A CN202211668085.1A CN202211668085A CN115880682A CN 115880682 A CN115880682 A CN 115880682A CN 202211668085 A CN202211668085 A CN 202211668085A CN 115880682 A CN115880682 A CN 115880682A
Authority
CN
China
Prior art keywords
text
text box
image
business license
license image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211668085.1A
Other languages
English (en)
Inventor
赵逸如
李捷
张瑞雪
周丹雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202211668085.1A priority Critical patent/CN115880682A/zh
Publication of CN115880682A publication Critical patent/CN115880682A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种图像文本识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:首先获取营业执照图像,并根据营业执照图像中的文本方向和营业执照图像的水平方向间的夹角,对营业执照图像中的文本框进行方向矫正,然后根据方向矫正的矫正结果和文本检测模型,确定营业执照图像中的文本框位置和文本框对应的信息项类别,接着根据文本框位置和信息项类别,对文本框中的文本内容进行识别,最后对识别结果进行校验得到目标文字。本申请提供的方法,对营业执照图像进行方向矫正之后,根据文本框位置和信息项类别对文本内容进行识别,能够简化识别过程,并提高识别结果的清晰度。

Description

图像文本识别方法、装置、设备、介质和产品
技术领域
本申请涉及深度学习技术领域,特别是涉及一种图像文本识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
营业执照是工商行政管理机关发给工商企业和个体经营者的准许从事某项生产经营活动的凭证,在某些场景下,需要对里面的关键信息进行提取、识别、录入和审核,关键信息包括:公司地址、经营范围、注册资本、营业期限、成立日期、公司名称、统一社会信用代码、组织形式、法定责任人、公司类型等。
目前,常用的识别方法是利用OCR(光学字符识别,Optical CharacterRecognition)技术对营业执照中的关键信息进行识别,OCR技术能够提高识别的录入和审核效率,但是,可能存在识别出来的文字比较模糊的情况。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高营业执照识别结果清晰度的图像文本识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像文本识别方法,所述方法包括:
获取营业执照图像;
根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;
根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;
根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;
对识别结果进行校验得到目标文字。
在其中一个实施例中,所述根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正,包括:
确定所述夹角所属的预设角度区间;
根据所述预设角度区间和所述夹角对所述营业执照图像中的文本框进行方向矫正。
在其中一个实施例中,所述确定所述营业执照图像中的文本框位置,包括:
根据所述矫正结果和所述文本检测模型确定所述文本框的中心点位置;
根据所述中心点位置和所述文本检测模型确定所述文本框的尺寸;
根据所述尺寸和所述中心点位置确定所述文本框位置。
在其中一个实施例中,所述对所述文本框中的文本内容进行识别,包括:
根据所述文本框位置确定每个文本框对应的文字切片;
通过文本识别模型对所述营业执照图像进行特征提取,获得卷积特征矩阵;
根据所述文字切片、所述信息项类别以及所述文本识别模型,从所述卷积特征矩阵中确定文字序列特征;
根据所述文字序列特征对所述文本内容进行识别。
在其中一个实施例中,所述对识别结果进行校验得到目标文字,包括:
判断所述识别结果对应的信息项类别是否为经营范围;
若所述信息项类别为所述经营范围,则获取用于指示所述识别结果的识别准确程度的置信度;
判断所述置信度和预设置信度阈值的大小;
若所述置信度小于所述预设置信度阈值,则根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验。
在其中一个实施例中,所述根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验,包括:
判断所述识别结果是否大于所述预设字段长度;
若所述识别结果大于预设字段长度,则将所述识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于所述预设字段长度;
根据所述识别结果的笔画、所述识别结果的拼音以及多个目标字段,对所述识别结果进行校验。
第二方面,本申请还提供了一种图像文本识别装置,所述装置包括:
获取模块,用于获取营业执照图像;
方向矫正模块,用于根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;
检测模块,用于根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;
识别模块,用于根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;
校验模块,用于对识别结果进行校验得到目标文字。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的任意一个实施例中的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
上述图像文本识别方法、装置、计算机设备、存储介质和计算机程序产品,首先获取营业执照图像,并根据营业执照图像中的文本方向和营业执照图像的水平方向间的夹角,对营业执照图像中的文本框进行方向矫正,然后根据方向矫正的矫正结果和文本检测模型,确定营业执照图像中的文本框位置和文本框对应的信息项类别,接着根据文本框位置和信息项类别,对文本框中的文本内容进行识别,最后对识别结果进行校验得到目标文字。本申请提供的方法,对营业执照图像进行方向矫正之后,根据文本框位置和信息项类别对文本内容进行识别,能够简化识别过程,并提高识别结果的清晰度。
附图说明
图1为一个实施例中图像文本识别方法的应用环境图;
图2为一个实施例中图像文本识别方法的流程示意图;
图3为一个实施例中方向矫正的流程示意图;
图4为另一个实施例中图像文本识别方法的流程框图;
图5为一个实施例中图像文本识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图像文本识别方法,可以应用于如图1所示的应用环境中。其中,上述应用环境图包括营业执照图像102和服务端104。具体地,首先将营业执照图像102输入服务端104,然后服务端104根据营业执照图像102中的文本方向和营业执照图像102的水平方向间的夹角,对营业执照图像102中的文本框进行方向矫正,并根据方向矫正的矫正结果和文本检测模型,确定营业执照图像102中的文本框位置和文本框对应的信息项类别,接着服务端104根据文本框位置和信息项类别,对文本框中的文本内容进行识别,最后对识别结果进行校验得到目标文字。
在一个实施例中,如图2所示,提供了一种图像文本识别方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
S202、获取营业执照图像。
营业执照图像是通过拍照、扫描或者高拍获取的营业执照图片,营业执照图像的板式可以为横版或者竖版,格式可以为BMP、JPG、TIFF、GIF以及PNG。
S204、根据营业执照图像中的文本方向和营业执照图像的水平方向间的夹角,对营业执照图像中的文本框进行方向矫正。
方向矫正指的是以营业执照图像的水平方向为基准,对营业执照图像中的文本框的方向进行调整。
具体地,服务端首先对营业执照图像中的文本方向和营业执照图像的水平方向间的夹角进行分类,如果夹角为0度、90度、180度或者270度,则利用ResNet(残差神经网络)作为分类模型,提取图像特征后对文本框进行旋转矫正,如果夹角大于0度并且小于10度,则使用PSENet(一种文字检测算法,Shape Robust Text Detection with ProgressiveScale Expansion Network)模型对文本框进行文本行四点检测,根据检测框计算出旋转角度后,对文本框进行旋转矫正。
S206、根据方向矫正的矫正结果和文本检测模型,确定营业执照图像中的文本框位置和文本框对应的信息项类别。
信息项类别指的是营业执照中的关键信息,例如,信息项类别可以包括公司地址、经营范围、注册资本、营业期限、成立日期、公司名称、统一社会信用代码、组织形式、法定责任人以及公司类型。
具体地,服务端利用文本检测模型对方向矫正后的营业执照图像进行文本检测,从而确定营业执照图像中的文本框位置和文本框对应的信息项类别,例如,文本检测模型可以是基于关键点检测的CenterNet(一种目标检测网络)模型,CenterNet模型包括两个分支,其中的回归分支用于检测文本框位置,另一个分支通过一个分类器将文本框根据不同的信息项类别进行分类。
在进行文本检测之前,使用数据合成的方法扩充数据集,以提高文本检测的准确率。具体地,首先分析真实的营业执照场景数据,挑选出营业执照场景中出现较多的版式,例如常规版式、少数民族版式以及有重要提示版式,然后用图像处理软件把板式中的文本内容擦除作为底版,接着在底板上添加各种效果,用于模拟真实场景中出现的各种情况,例如,效果可以包括阴影、颜色不均匀变淡、渐变的彩色底纹、竖线干扰、水印干扰、印章以及字段偏移,最后使用语料库,按照每个字段规则,生成营业执照中的语料,例如,语料包括法人、公司名称、地址、注册资本以及经营范围等字段,并将语料写入生成的底板中。
S208、根据文本框位置和信息项类别,对文本框中的文本内容进行识别。
将经过文本检测模型检测出来的文本框通过图像处理成为切片,然后将切片批量送入到文本识别模型中,由文本识别模型对文本内容进行识别,例如,文本识别模型可以是CRNN(一种卷积循环神经网络,Convolutional Recurrent Neural Network)+CTC(一种对齐方式,Connectionist Temporal Classification)的文本识别模型,其中,CRNN模型的模型结构由卷积网络、循环神经网络以及CTC损失函数构成。
S210、对识别结果进行校验得到目标文字。
目标文字指的是营业执照图像的文本框中的文字。
上述文本检测和文本识别过程可能存在检测错误或者识别错误,例如,检测到了非关键信息或者形近字识别错误,因此需要对识别结果进行规则和语义上的校验。
具体地,服务端判断识别结果的信息项类别,若识别结果的信息项类别为经营范围,则根据识别结果的置信度以及识别结果的字段长度对识别结果进行校验。
上述图像文本识别方法中,首先获取营业执照图像,并根据营业执照图像中的文本方向和营业执照图像的水平方向间的夹角,对营业执照图像中的文本框进行方向矫正,然后根据方向矫正的矫正结果和文本检测模型,确定营业执照图像中的文本框位置和文本框对应的信息项类别,接着根据文本框位置和信息项类别,对文本框中的文本内容进行识别,最后对识别结果进行校验得到目标文字。本申请提供的方法,对营业执照图像进行方向矫正之后,根据文本框位置和信息项类别对文本内容进行识别,能够简化识别过程,并提高识别结果的清晰度。
在一些实施例中,如图3所示,为一个实施例中方向矫正的流程示意图,根据营业执照图像中的文本方向和营业执照图像的水平方向间的夹角,对营业执照图像中的文本框进行方向矫正,包括:确定夹角所属的预设角度区间;根据预设角度区间和夹角对营业执照图像中的文本框进行方向矫正。
本步骤中,预设角度区间包括四方向角度区间和小角度区间,其中,四方向角度区间包括0度、90度、180度以及270度,小角度区间指的是大于0度小于10度的角度区间。
具体地,服务器判断营业执照图像中的文本方向和营业执照图像的水平方向间的夹角所处的预设角度区间,然后根据预设角度区间采用相应的旋转模型对营业执照图像中的文本框进行方向矫正。
本步骤提供的方法,能够解决由于营业执照图像中的文本框角度偏移而导致后续的文本检测和文本识别不准确的问题。
在一些实施例中,确定营业执照图像中的文本框位置,包括:根据矫正结果和文本检测模型确定文本框的中心点位置;根据中心点位置和文本检测模型确定文本框的尺寸;根据尺寸和中心点位置确定文本框位置。
本步骤中,首先利用文本检测模型确定,方向矫正后的营业执照图像中的文本框的中心点位置,然后由文本检测模型根据中心点位置确定文本框的长和宽,从而确定文本框位置。
本步骤提供的方法,能够更加精确的确定文本框的位置,并且能够提高文本检测的效率。
在一些实施例中,对文本框中的文本内容进行识别,包括:根据所述文本框位置确定每个文本框对应的文字切片;通过文本识别模型对营业执照图像进行特征提取,获得卷积特征矩阵;根据文字切片、信息项类别以及文本识别模型,从卷积特征矩阵中确定文字序列特征;根据文字序列特征对文本内容进行识别。
本步骤中,卷积特征矩阵指的是文本识别模型中的卷积网络的特征矩阵,文字序列特征用于确定文本框中的文本内容。
本步骤提供的方法,利用卷积神经网络进行文本识别,能够提高文本识别的准确性。
在一些实施例中,对识别结果进行校验得到目标文字,包括:判断识别结果对应的信息项类别是否为经营范围;若信息项类别为经营范围,则获取用于指示识别结果的识别准确程度的置信度;判断置信度和预设置信度阈值的大小;若置信度小于预设置信度阈值,则根据识别结果的笔画、识别结果的拼音以及预设字段长度,对识别结果进行校验。
本步骤中,预设置信度阈值是预先设置的一个置信度标准,如果识别结果的置信度不小于预设置信度阈值,则说明识别结果在合理范围内,不需要进行校验,如果置信度小于预设置信度阈值,则说明识别结果不够准确,需要进行校验。
具体地,本步骤使用FASPell(一种错别字检测纠错算法)算法对识别结果进行校验,FASPell算法包括编码器部分和解码器部分,编码器部分使用Bert(一种预训练的语言表征模型,Bidirectional Encoder Representation from Transformers)对输入的文本内容进行预测,得到文本内容中每个文字的候选集合排序结构,其中,候选集合是根据笔画相似性和拼音相似性确定的与文本内容中每个文字相似的文字集合,解码器部分通过综合考虑文字的笔画相似性和拼音相似性,并通过判断置信度和预设置信度阈值的大小,从候选集合中筛选出最优的汉字组合从而实现对识别结果的校验。
本步骤提供的方法,根据识别结果的字段长度和置信度对识别结果进行校验,能够提高对识别结果校验的准确性。
在一些实施例中,根据识别结果的笔画、识别结果的拼音以及预设字段长度,对识别结果进行校验,包括:判断识别结果是否大于预设字段长度;若识别结果大于预设字段长度,则将识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于预设字段长度;根据识别结果的笔画、识别结果的拼音以及多个目标字段,对识别结果进行校验。
本步骤中,由于纠错算法规定最大字符长度为64,对于长度过长的识别结果,首先根据标点符号拆分为多个不超过64字符的句子,再进行语义纠错。
本步骤提供的方法,能够有效提高字段识别的准确率。
在一个实施例中,如图3所示,图3为另一个实施例中图像文本识别方法的流程框图。整个推理过程包括:对图片进行角度矫正,转正图片,文字检测模型检测文本框,将检测结果处理成文字切片,送入文字识别模型识别,根据检测模型的字段实体类别及识别模型的字段文本内容、字段置信度,使用规则和NLP(自然语言处理,Natural LanguageProcessing)模型进行结果校验,最后将结构化的结果信息返回,完成整个推理数据流端到端的识别任务。同时整个流程包含并发控制机制,使用信号量控制并发请求,标明当前的共享资源可以支持多少并发读取,限制处理请求的线程数。具体包括以下内容:
(1)输入
输入为营业执照图片,在版式方面,可以为横板、竖版;在图像获取方式上,可以为拍照场景、扫描场景、高拍场景等;在图片格式方面,可以为BMP、JPG、TIFF、GIF、PNG等格式。
(2)图像矫正
由于真实数据场景中存在0度、90度、180度、270度四种朝向的大角度旋转,同时图像内文字行也存在10度以内的小角度旋转。若直接检测,检测模型难以准确的预测文字位置及类别,会对营业执照内容提取造成干扰。因此需要在检测之前,先进行营业执照的四方向旋转矫正与小角度矫正,然后基于矫正后的图像进行文字检测与识别。
1)四方向矫正
针对营业执照的0度,90度,180度,270度四种朝向的情况,使用一个分类模型进行方向分类,根据分类结果,将输入图片朝向转正。
在一个具体的实例中,考虑到营业执照的角度分类任务比较简单,可以使用ResNet作为分类模型,提取图片特征进行四分类模型训练。
2)小角度矫正
因为营业执照业务场景存在小角度旋转的情况,需要先检测输入图片的文本信息,通过统计检测框的角度均值得到图像的旋转角度,通过此旋转角度将图像转正。
在一个具体的实例中,PSENet是基于分割的检测方法,可以实现异形文本行的检测,所以使用PSENet模型进行文本行四点检测,根据检测框计算出旋转角度后,对原图像进行旋转矫正。
(3)文字检测
适合营业执照的文字检测解决方案有两种,一种方案是使用基于分割类型的文字检测模型,检测出营业执照全部的文字信息,再通过后处理得到提取结果,例如,在识别到信息中使用正则匹配,查找关键字(公司地址、营业期限等),再根据识别结果的位置关系,找到营业执照上的关键信息。另一种方案是直接使用检测+分类的模型,在检测文本位置的同时,得到文本信息的类别。
一方面,前者虽然对角度和版式不太敏感,但考虑到营业执照虽然版式多,但布局较为一致,因此,基于分割的方案优势并不明显,反而需要识别的字段更多,并且需要引入较多的后处理。总体来说,人工优化环节较多,识别耗时较长,不建议使用。
另一方面,虽然检测+分类只能做水平矩形框的检测,但营业执照经过角度矫正模型处理后,待检测目标基本都可以用水平矩形框较紧凑地框起来,只有极少数情况存在小角度旋转,处在识别模块的容忍范围内。而且,检测+分类的做法,可以极大地减少识别和后处理的工作量,有较好的速度优势。
综合考虑来看,检测模型选择使用检测+分类的模型。在一个具体的实例中,使用基于关键点检测的CenterNet模型,CenterNet抛弃了传统Anchor Base(一种检测算法)检测算法中的Anchor(锚框),并采用中心点估计的方法,检测出目标的中心点,并回归目标的其他属性,例如长宽、中心点偏移等。
同时,在训练检测模型的时候,为提高模型的泛化性和通用性,采取数据合成的方法扩充训练集,来提高文本检测的准确率。具体的,分为三个步骤:
1)分析真实的营业执照场景数据,挑选出营业执照场景中出现较多的版式,例如常规版式、少数民族版式、有重要提示版式等,用图像处理软件把文本内容擦除,作为底版;
2)在上一步骤中生成的底板上,添加各种效果,包括但不限于阴影、颜色不均匀变淡、渐变的彩色底纹、竖线干扰、水印干扰、印章、字段偏移等,用于模拟真实场景中出现的各种情况。
3)使用语料库,并按照每个字段规则,生成营业执照中法人、公司名称、地址、注册资本、经营范围等字段的语料,并写入生成的底板中。
(4)文字识别
营业执照主要提取的字段是统一社会信用代码、名称、类型、住所、法定代表人、注册资本、成立日期、营业期限以及经营范围等。营业执照中需识别的字段多为长字段,尤其是经营范围字段包含多行长文本。本提案使用基于CRNN+CTC的文本识别模型,作为营业执照的识别模型。CRNN模型的模型结构由卷积网络、循环神经网络、CTC损失函数构成。文本检测模型得到文本的区域坐标,通过图像处理成为切片,批量送入到识别模型中,做进一步的文字识别。
(5)结果校验
通过(4)得到的结果,可能包含检测或识别错误,例如检测到了非关键信息,或形近字识别错误的情况。因此需要对结果进行规则和语义上的校验。对不同需要提取的字段,有不同的校验规则。
根据检测模型预测出来的字段类别,进行候选字段集的提取,然后从候选集里面提取识别出的字段依次进行后处理校验,对不同需要提取的字段,有不同的校验规则。以下是后处理校验的几个具体的实例:
1)统一社会信用代码
统一社会信用代码有严格的位数限制,通常为18位,且每一位数字代表的意义都不同。
例如,社会统一信用代码中不使用I、O、Z、S、V几个字母,因此可以将这几个字母替换为可能性最大的形近字,例如数字0易误检成字母O,那么后处理可以将O替换成0,提高该字段的识别准确率。
2)经营范围
营业执照的经营范围字段字体较小、文本较长、模糊不清等因素的干扰,给检测、识别模型带来了很大挑战。考虑到经营范围内容普遍较长,有丰富的语义信息,所以采用NLP模型给识别模型的结果进行字符纠错后处理,来提高服务精度。
在本提案中,使用FASPell错别字检测纠错算法,能够利用识别结果的置信度对识别结果进行纠正,通过预先设置阈值,对置信度小于阈值的字符才予以纠正,可减少将识别正确的字符误纠错的概率。
错别字纠错算法整体上分成两部分,一个是编码器(encoder)部分,一个是解码器(decoder)部分,编码器部分使用Bert,先利用Bert对输入的句子中需要纠错的字进行预测,预测出每个位置topN(一种分析算法)的潜在文字。接下来,解码器部分从笔画相似性和拼音相似性两个维度综合对topN中的文字进行排序,从而给出模型推理出的正确结果。
为了使Bert的预训练模型对营业执照的经营范围字段具备更高的拟合度,需利用经营范围的数据集进行fine-tune(微调)。首先收集一定的经营范围的语料,并对每条语料随机替换1-3个字形相似的错别字,模拟识别的错误结果,与正确的语料形成数据对,再生成用于训练的tfrecord(一种数据格式)文件进行fine-tune,可很大程度上提升算法的纠错效果。
(6)结构化输出
根据各字段的key输出对应的value。所需输出的内容如表1所示:
表1:
Figure BDA0004014913550000121
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像文本识别方法的图像文本识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像文本识别装置实施例中的具体限定可以参见上文中对于图像文本识别方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种图像文本识别装置400,包括:获取模块401、方向矫正模块402、检测模块403、识别模块404和校验模块405,其中:
获取模块401,用于获取营业执照图像。
方向矫正模块402,用于根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正。
确定模块403,用于根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别。
识别模块404,用于根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别。
校验模块405,用于对识别结果进行校验得到目标文字。
在一些实施例中,方向矫正模块402,还用于:确定所述夹角所属的预设角度区间;根据所述预设角度区间和所述夹角对所述营业执照图像中的文本框进行方向矫正。
在一些实施例中,检测模块403,还用于:根据所述矫正结果和所述文本检测模型确定所述文本框的中心点位置;根据所述中心点位置和所述文本检测模型确定所述文本框的尺寸;根据所述尺寸和所述中心点位置确定所述文本框位置。
在一些实施例中,识别模块404,还用于:根据所述文本框位置确定每个文本框对应的文字切片;通过文本识别模型对所述营业执照图像进行特征提取,获得卷积特征矩阵;根据所述文字切片、所述信息项类别以及所述文本识别模型,从所述卷积特征矩阵中确定文字序列特征;根据所述文字序列特征对所述文本内容进行识别。
在一些实施例中,校验模块405,还用于:判断所述识别结果对应的信息项类别是否为经营范围;若所述信息项类别为所述经营范围,则获取用于指示所述识别结果的识别准确程度的置信度;判断所述置信度和预设置信度阈值的大小;若所述置信度小于所述预设置信度阈值,则根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验。
在一些实施例中,图像文本识别装置400,具体用于:判断所述识别结果是否大于所述预设字段长度;若所述识别结果大于预设字段长度,则将所述识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于所述预设字段长度;根据所述识别结果的笔画、所述识别结果的拼音以及多个目标字段,对所述识别结果进行校验。
上述图像文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储营业执照文本数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像文本识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取营业执照图像;根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;对识别结果进行校验得到目标文字。
在一个实施例中,处理器执行计算机程序时所实现的根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正,包括:确定所述夹角所属的预设角度区间;根据所述预设角度区间和所述夹角对所述营业执照图像中的文本框进行方向矫正。
在一个实施例中,处理器执行计算机程序时所实现的确定所述营业执照图像中的文本框位置,包括:根据所述矫正结果和所述文本检测模型确定所述文本框的中心点位置;根据所述中心点位置和所述文本检测模型确定所述文本框的尺寸;根据所述尺寸和所述中心点位置确定所述文本框位置。
在一个实施例中,处理器执行计算机程序时所实现的对所述文本框中的文本内容进行识别,包括:根据所述文本框位置确定每个文本框对应的文字切片;通过文本识别模型对所述营业执照图像进行特征提取,获得卷积特征矩阵;根据所述文字切片、所述信息项类别以及所述文本识别模型,从所述卷积特征矩阵中确定文字序列特征;根据所述文字序列特征对所述文本内容进行识别。
在一个实施例中,处理器执行计算机程序时所实现的对识别结果进行校验得到目标文字,包括:判断所述识别结果对应的信息项类别是否为经营范围;若所述信息项类别为所述经营范围,则获取用于指示所述识别结果的识别准确程度的置信度;判断所述置信度和预设置信度阈值的大小;若所述置信度小于所述预设置信度阈值,则根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验。
在一个实施例中,处理器执行计算机程序时所实现的根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验,包括:判断所述识别结果是否大于所述预设字段长度;若所述识别结果大于预设字段长度,则将所述识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于所述预设字段长度;根据所述识别结果的笔画、所述识别结果的拼音以及多个目标字段,对所述识别结果进行校验。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取营业执照图像;根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;对识别结果进行校验得到目标文字。
在一个实施例中,计算机程序被处理器执行时所实现的根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正,包括:确定所述夹角所属的预设角度区间;根据所述预设角度区间和所述夹角对所述营业执照图像中的文本框进行方向矫正。
在一个实施例中,计算机程序被处理器执行时所实现的确定所述营业执照图像中的文本框位置,包括:根据所述矫正结果和所述文本检测模型确定所述文本框的中心点位置;根据所述中心点位置和所述文本检测模型确定所述文本框的尺寸;根据所述尺寸和所述中心点位置确定所述文本框位置。
在一个实施例中,计算机程序被处理器执行时所实现的根据所述文本框位置确定每个文本框对应的文字切片;通过文本识别模型对所述营业执照图像进行特征提取,获得卷积特征矩阵;根据所述文字切片、所述信息项类别以及所述文本识别模型,从所述卷积特征矩阵中确定文字序列特征;根据所述文字序列特征对所述文本内容进行识别。
在一个实施例中,计算机程序被处理器执行时所实现的对识别结果进行校验得到目标文字,包括:判断所述识别结果对应的信息项类别是否为经营范围;若所述信息项类别为所述经营范围,则获取用于指示所述识别结果的识别准确程度的置信度;判断所述置信度和预设置信度阈值的大小;若所述置信度小于所述预设置信度阈值,则根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验。
在一个实施例中,计算机程序被处理器执行时所实现的根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验,包括:判断所述识别结果是否大于所述预设字段长度;若所述识别结果大于预设字段长度,则将所述识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于所述预设字段长度;根据所述识别结果的笔画、所述识别结果的拼音以及多个目标字段,对所述识别结果进行校验。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取营业执照图像;根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;对识别结果进行校验得到目标文字。
在一个实施例中,计算机程序被处理器执行时所实现的根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正,包括:确定所述夹角所属的预设角度区间;根据所述预设角度区间和所述夹角对所述营业执照图像中的文本框进行方向矫正。
在一个实施例中,计算机程序被处理器执行时所实现的确定所述营业执照图像中的文本框位置,包括:根据所述矫正结果和所述文本检测模型确定所述文本框的中心点位置;根据所述中心点位置和所述文本检测模型确定所述文本框的尺寸;根据所述尺寸和所述中心点位置确定所述文本框位置。
在一个实施例中,计算机程序被处理器执行时所实现的根据所述文本框位置确定每个文本框对应的文字切片;通过文本识别模型对所述营业执照图像进行特征提取,获得卷积特征矩阵;根据所述文字切片、所述信息项类别以及所述文本识别模型,从所述卷积特征矩阵中确定文字序列特征;根据所述文字序列特征对所述文本内容进行识别。
在一个实施例中,计算机程序被处理器执行时所实现的对识别结果进行校验得到目标文字,包括:判断所述识别结果对应的信息项类别是否为经营范围;若所述信息项类别为所述经营范围,则获取用于指示所述识别结果的识别准确程度的置信度;判断所述置信度和预设置信度阈值的大小;若所述置信度小于所述预设置信度阈值,则根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验。
在一个实施例中,计算机程序被处理器执行时所实现的根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验,包括:判断所述识别结果是否大于所述预设字段长度;若所述识别结果大于预设字段长度,则将所述识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于所述预设字段长度;根据所述识别结果的笔画、所述识别结果的拼音以及多个目标字段,对所述识别结果进行校验。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像文本识别方法,其特征在于,所述方法包括:
获取营业执照图像;
根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;
根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;
根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;
对识别结果进行校验得到目标文字。
2.根据权利要求1所述的方法,其特征在于,所述根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正,包括:
确定所述夹角所属的预设角度区间;
根据所述预设角度区间和所述夹角对所述营业执照图像中的文本框进行方向矫正。
3.根据权利要求1所述的方法,其特征在于,所述确定所述营业执照图像中的文本框位置,包括:
根据所述矫正结果和所述文本检测模型确定所述文本框的中心点位置;
根据所述中心点位置和所述文本检测模型确定所述文本框的尺寸;
根据所述尺寸和所述中心点位置确定所述文本框位置。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本框中的文本内容进行识别,包括:
根据所述文本框位置确定每个文本框对应的文字切片;
通过文本识别模型对所述营业执照图像进行特征提取,获得卷积特征矩阵;
根据所述文字切片、所述信息项类别以及所述文本识别模型,从所述卷积特征矩阵中确定文字序列特征;
根据所述文字序列特征对所述文本内容进行识别。
5.根据权利要求1所述的方法,其特征在于,所述对识别结果进行校验得到目标文字,包括:
判断所述识别结果对应的信息项类别是否为经营范围;
若所述信息项类别为所述经营范围,则获取用于指示所述识别结果的识别准确程度的置信度;
判断所述置信度和预设置信度阈值的大小;
若所述置信度小于所述预设置信度阈值,则根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验。
6.根据权利要求5所述的方法,其特征在于,所述根据所述识别结果的笔画、所述识别结果的拼音以及预设字段长度,对所述识别结果进行校验,包括:
判断所述识别结果是否大于所述预设字段长度;
若所述识别结果大于预设字段长度,则将所述识别结果拆分为多个目标字段,其中,每个目标字段的长度都不大于所述预设字段长度;
根据所述识别结果的笔画、所述识别结果的拼音以及多个目标字段,对所述识别结果进行校验。
7.一种图像文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取营业执照图像;
方向矫正模块,用于根据所述营业执照图像中的文本方向和所述营业执照图像的水平方向间的夹角,对所述营业执照图像中的文本框进行方向矫正;
检测模块,用于根据所述方向矫正的矫正结果和文本检测模型,确定所述营业执照图像中的文本框位置和文本框对应的信息项类别;
识别模块,用于根据所述文本框位置和所述信息项类别,对所述文本框中的文本内容进行识别;
校验模块,用于对识别结果进行校验得到目标文字。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202211668085.1A 2022-12-23 2022-12-23 图像文本识别方法、装置、设备、介质和产品 Pending CN115880682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211668085.1A CN115880682A (zh) 2022-12-23 2022-12-23 图像文本识别方法、装置、设备、介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211668085.1A CN115880682A (zh) 2022-12-23 2022-12-23 图像文本识别方法、装置、设备、介质和产品

Publications (1)

Publication Number Publication Date
CN115880682A true CN115880682A (zh) 2023-03-31

Family

ID=85754506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211668085.1A Pending CN115880682A (zh) 2022-12-23 2022-12-23 图像文本识别方法、装置、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN115880682A (zh)

Similar Documents

Publication Publication Date Title
US11816165B2 (en) Identification of fields in documents with neural networks without templates
US10482174B1 (en) Systems and methods for identifying form fields
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US11954139B2 (en) Deep document processing with self-supervised learning
US11782928B2 (en) Computerized information extraction from tables
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
US11288324B2 (en) Chart question answering
US20160092730A1 (en) Content-based document image classification
RU2760471C1 (ru) Способы и системы идентификации полей в документе
Hazra et al. Optical character recognition using KNN on custom image dataset
CN111191275A (zh) 敏感数据识别方法、系统及其装置
US11741734B2 (en) Identification of blocks of associated words in documents with complex structures
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
US20220335073A1 (en) Fuzzy searching using word shapes for big data applications
CN111783710B (zh) 医药影印件的信息提取方法和系统
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN113255498A (zh) 基于区块链技术的财务报销发票管理方法
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
US20230138491A1 (en) Continuous learning for document processing and analysis
Pedersen et al. Lessons learned developing and using a machine learning model to automatically transcribe 2.3 million handwritten occupation codes
US20230134218A1 (en) Continuous learning for document processing and analysis
CN115578736A (zh) 证件信息提取方法、装置、存储介质及设备
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination