CN115984865A - 文本识别方法、装置、电子设备和存储介质 - Google Patents
文本识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115984865A CN115984865A CN202211667597.6A CN202211667597A CN115984865A CN 115984865 A CN115984865 A CN 115984865A CN 202211667597 A CN202211667597 A CN 202211667597A CN 115984865 A CN115984865 A CN 115984865A
- Authority
- CN
- China
- Prior art keywords
- image
- text recognition
- shading
- text
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 95
- 238000001914 filtration Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 239000003086 colorant Substances 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机技术领域,提供一种文本识别方法、装置、电子设备和存储介质,其中方法包括:获取待识别图像;基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别。本发明提供的文本识别方法、装置、电子设备和存储介质,能够增强文本识别模型对底纹的捕捉和抗干扰能力,从而可以实现自适应对底纹格线进行掩码处理;然后基于底纹滤除图像进行文本识别,可以提高识别准确率,同时能够适应不同状态和颜色的图像。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本识别方法、装置、电子设备和存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术的应用已非常广泛,如证照识别、票据识别、车牌识别等。在实际应用中,图片尺度、光照、底纹干扰、拍摄模糊等均会降低OCR的识别准确率。
通常票据中会存在很多格线干扰,相关技术中针对此类票据的识别主要有两种做法:一种是通过预处理,去除格线然后再做OCR。但是这种方法的预处理主要依赖人工规则,对不同状态和颜色的票据图片适应性较弱;另一种是采用深度学习的方法通过网络学习去除干扰。深度网络对票据上纹理类的背景有较强的学习能力,但是由于格线与纹理区别很大,针对格线干扰的识别准确率有限。
因此,针对票据中存在的格线干扰,如何提高识别准确率的同时,能够适应不同状态和颜色的票据,是亟需解决的问题。
发明内容
本发明提供一种文本识别方法、装置、电子设备和存储介质,用以解决现有技术中针对不同状态和颜色的图像适应性较弱,且识别准确率有限的缺陷。
本发明提供一种文本识别方法,包括:
获取待识别图像;
基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;
基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;
基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
根据本发明提供的文本识别方法,所述文本识别模型的模型损失函数基于所述文本识别模块的损失函数和正则项确定,所述正则项基于所述掩码图确定。
根据本发明提供的文本识别方法,所述基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别,包括:
基于所述文本识别模块的文本检测层,对所述底纹滤除图像进行文本检测,得到所述底纹滤除图像中文本区域的位置信息;
基于所述文本识别模块的文本行分割层,应用所述文本区域的位置信息,对所述底纹滤除图像进行文本行分割,得到各个文本行图像;
基于所述文本识别模块的文本识别层,对所述各个文本行图像进行文本识别。
根据本发明提供的文本识别方法,所述文本识别模块的损失函数基于所述文本检测层的损失函数和所述文本识别层的损失函数确定,所述文本识别层的损失函数基于所述各个文本行图像的文本识别损失函数确定。
根据本发明提供的文本识别方法,所述基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图,包括:
基于所述掩码特征提取模块的图像特征提取层,对所述待识别图像进行图像特征提取,得到特征图;
基于所述掩码特征提取模块的自适应掩码层,对所述特征图进行自适应掩码特征提取,得到掩码图。
根据本发明提供的文本识别方法,所述基于所述掩码特征提取模块的图像特征提取层,对所述待识别图像进行图像特征提取,得到特征图,包括:
基于所述图像特征提取层,对所述待识别图像进行下采样,得到多尺度下采样特征,然后对所述多尺度下采样特征进行上采样,得到特征图,所述特征图的通道数为1,所述特征图的尺寸与所述待识别图像的尺寸相同。
根据本发明提供的文本识别方法,所述基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像,包括:
基于所述底纹滤除模块的滤除层,应用所述掩码图对所述待识别图像进行底纹滤除,得到初始底纹滤除图像;
基于所述底纹滤除模块的插值层,对所述初始底纹滤除图像进行插值处理,得到底纹滤除图像。
本发明还提供一种文本识别装置,包括:
图像获取单元,用于获取待识别图像;
特征提取单元,用于基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;
底纹滤除单元,用于基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;
文本识别单元,用于基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本识别方法。
本发明提供的文本识别方法、装置、电子设备和存储介质,通过在文本识别模块基础上,增加掩码特征提取模块,对待识别图像进行掩码特征提取,能够增强文本识别模型对底纹的捕捉和抗干扰能力;并基于掩码图对待识别图像进行底纹滤除,由此得到的底纹滤除图像能准确的滤除底纹,从而可以实现自适应对底纹格线进行掩码处理;然后基于底纹滤除图像进行文本识别,可以提高识别准确率,同时能够适应不同状态和颜色的图像。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本识别方法的流程示意图之一;
图2是本发明提供的文本识别模型的结构和训练流程示意图;
图3是本发明提供的文本识别方法的流程示意图之二;
图4是本发明提供的文本识别装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通常票据本身会存在很多格线,票据格线不仅对OCR文字检测带来不良影响,在识别过程中,格线对文字识别的影响更严重。例如,当对表示金额的文本行进行识别时,竖向的格线难以分辨应该是数字1还是应该忽略的底纹格线,从而导致识别错误。
相关技术中,一种是通过预处理,去除格线然后再做OCR。但是这种方法的预处理主要依赖人工规则,对不同状态和颜色的票据图片适应性较弱;另一种是采用深度学习的方法通过网络学习去除干扰。深度网络对票据上纹理类的背景有较强的学习能力,但是由于格线与纹理区别很大,针对格线干扰的识别准确率有限。
基于此,本发明实施例提供一种文本识别方法,该方法不仅可应用于包含格线的各类票据的文本识别场景,还可应用于其他各类具有底纹干扰的图像的文本识别。该方法的技术构思在于,通过在文本识别模块基础上,增加掩码特征提取模块,对待识别图像进行掩码特征提取,能够增强文本识别模型对底纹的捕捉和抗干扰能力;并基于掩码图对待识别图像进行底纹滤除,由此得到的底纹滤除图像能准确的滤除底纹,从而可以实现自适应对底纹格线进行掩码处理;然后基于底纹滤除图像进行文本识别,可以提高识别准确率,同时能够适应不同状态和颜色的图像。
下面将结合附图详细描述本发明的文本识别方法的技术方案。图1是本发明提供的文本识别方法的流程示意图之一,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,也可以为区块链中的节点。如图1所示,本发明实施例提供的文本识别方法可以包括如下步骤:
步骤110,获取待识别图像。
具体地,待识别图像即需要进行文本识别的图像,具体可以是各种票据图像,比如发票、提单、汇票、银行本票和支票等。
此处的待识别图像可以是彩色图像,也可以为灰度图像,本发明实施例不限定待识别图像的具体表现形式。
待识别图像可以是采用扫描仪设备进行扫描,或者采用高拍仪、移动设备等拍摄的图像,也可以是从网下下载的图像,或者是从设备接收到的图像,还可以是视频中的图像,本发明实施例不限定待识别图像的图像来源。
步骤120,基于文本识别模型的掩码特征提取模块,对待识别图像进行自适应掩码特征提取,得到掩码图。
具体地,由于获取到的待识别图像中包含有大量的文本和图像信息,而文本识别时更加关注的是其中的文本信息,因此有必要对文本信息和其他干扰信息进行区分。以票据图像为例,票据中会包括大量的格线,此处的格线和票据中通常会出现的纹理背景有很大区别。纹理背景通常有一定的排列规律,且颜色深浅和文本的颜色相差较大,因此现有的文本识别模型针对纹理背景和文本信息能够有效的区分。
而针对格线类的底纹,其颜色深浅和文本内容比较接近,特别是针对数字类的文本行进行文本识别时,极易将竖向的格线识别为数字1,影响用户体验感。
因此,为了提高后续识别过程的准确率与识别速度,可以在文本识别模型中加入掩码特征提取模块,用于对待识别图像进行掩码特征提取,得到掩码图。其中,掩码图具体可以是指结合像素点的像素坐标信息,以及待识别图像的图像信息所得到的掩码矩阵。
为了得到掩码图,可通过对待识别图像进行图像特征提取得到特征图,再对特征图进行自适应掩码实现。图像特征提取可采用现有的特征提取网络,比如Unet网络、残差网络或VGG网络等。进一步的,考虑到需要对特征图进行自适应掩码,可使特征提取得到的特征图的通道数为1,且大小与待识别图像的尺寸大小相同。
在得到特征图的基础上,对特征图的各像素点进行自适应掩码特征提取,得到掩码图。此处的掩码图可以基于特征图中各像素点的所属类别确定,比如可将特征图中属于格线底纹的像素点的像素值设置为1,属于文本的像素点的像素值设置为0;当然也可以将属于格线底纹的像素点的像素值设置为0,属于文本的像素点的像素值设置为1,本发明实施例对此不作具体限定。
步骤130,基于文本识别模型的底纹滤除模块,应用掩码图对待识别图像进行底纹滤除,得到底纹滤除图像。
具体地,在步骤120中得到掩码图的基础上,即可根据掩码图对待识别图像的底纹进行滤除,从而得到底纹滤除之后的图像,即底纹滤除图像。
进一步地,考虑到底纹滤除过程中可能会产生误差,比如将不属于底纹的像素点进行了滤除,因此为了提高后续文本识别的准确性,可对底纹滤除图像进行补全,比如可采用插值法进行像素点补全。
步骤140,基于文本识别模型的文本识别模块,对底纹滤除图像进行文本识别;文本识别模型是基于样本图像,以及样本图像对应的标签文本训练得到的。
具体地,由于底纹滤除图像是将待识别图像中的底纹进行滤除后得到的图像,可理解的是底纹滤除图像并不包含会对文本识别产生干扰的格线底纹,因此基于底纹滤除图像进行文本识别,可以提高文本识别的准确率。
文本识别模块的结构可以是端到端的文本识别深度网络,也可以是包括文本检测层和文本识别层的两阶段网络结构,可根据实际需要灵活选择,本发明实施例对此不作具体限定。
需要说明的是,在执行步骤120之前,可预先对初始模型进行训练,将训练完成的模型确定为文本识别模型。初始模型包括初始掩码特征提取模块、底纹滤除模块和初始文本识别模块。通过对初始掩码特征提取模块和初始文本识别模块进行联合训练,得到文本识别模型。具体训练步骤包括:首先,收集大量样本图像,并标注样本图像中的文本区域和文本内容。随即,基于样本图像以及样本图像中的文本区域和文本内容联合训练初始掩码特征提取模块和初始文本识别模块,从而得到文本识别模型。随即,可基于训练好的文本识别模型对待识别图像进行文本识别。
本发明实施例提供的方法,通过在文本识别模块基础上,增加掩码特征提取模块,对待识别图像进行掩码特征提取,能够增强文本识别模型对底纹的捕捉和抗干扰能力;并基于掩码图对待识别图像进行底纹滤除,由此得到的底纹滤除图像能准确的滤除底纹,从而可以实现自适应对底纹格线进行掩码处理;然后基于底纹滤除图像进行文本识别,可以提高识别准确率,同时能够适应不同状态和颜色的图像。
基于上述实施例,文本识别模型的模型损失函数基于文本识别模块的损失函数和正则项确定,正则项基于掩码图确定。
具体地,由于表格类的底纹在待识别图像具有整体性,但是对文本识别过程的干扰更大,因此在对文本识别模型进行训练时,可针对文本识别模块和掩码特征提取模块进行联合训练。因此,文本识别模型的模型损失函数可基于文本识别模块的损失函数和正则项确定,其中,该正则项基于掩码图确定。例如,可将文本识别模块的损失函数和正则项进行叠加,即可得到文本识别模型的模型损失函数。
基于上述任一实施例,步骤140具体包括:
基于文本识别模块的文本检测层,对底纹滤除图像进行文本检测,得到底纹滤除图像中文本区域的位置信息;
基于文本识别模块的文本行分割层,应用文本区域的位置信息,对底纹滤除图像进行文本行分割,得到各个文本行图像;
基于文本识别模块的文本识别层,对各个文本行图像进行文本识别。
具体地,文本识别的过程可以是先进行文本检测和文本行分割,再对分割后得到的文本行进行识别,相应地,文本识别模块可包括文本检测层、文本行分割层和文本识别层。其中,文本检测层用于对底纹滤除图像进行文本检测,根据预设像素阈值对各像素点进行筛选,生成各候选像素点。在实际应用中,可以根据先验经验由人工设定预设像素阈值,以筛选出多个候选像素点,候选像素点定义为文本检测层预测值都大于预设像素阈值的像素点,需要说明的是,预设像素阈值可以根据实际需要进行调整,本发明对此不作限定。
各个候选像素点确定后,可以根据边缘部分的候选像素点确定一个最小外接矩形,最小外接矩形要包含所有候选像素点。其中,组成此最小外接矩形的边缘的像素点的位置信息就是底纹滤除图像对应的文本区域的位置信息,需要说明的是,本发明实施例以最小外接矩形进行举例说明,在实际应用中,也可以组成别的形状或区域,本发明并不以此为限。
得到文本区域的位置信息后,基于文本行分割层,使用计算机图形学处理方法,对底纹滤除图像进行文本行分割,裁剪底纹滤除图像得到每一文本区域中的文本行图像,用于进行接下来的文本识别。
在此基础上,可基于文本识别模块的文本识别层,对各个文本行图像进行文本识别,文本识别层可采用现有的文本识别方法,在此不再赘述。
基于上述任一实施例,文本识别模块的损失函数基于文本检测层的损失函数和文本识别层的损失函数确定,文本识别层的损失函数基于各个文本行图像的文本识别损失函数确定。
具体地,由于文本识别模块包括文本检测层和文本识别层,在对模型进行训练时,模型的损失函数由文本识别模块的损失函数和正则项叠加得到。其中,文本识别模块的损失函数基于文本检测层的损失函数和文本识别层的损失函数确定,例如可以根据文本检测层的损失函数和文本识别层的损失函数叠加得到;而文本识别层的损失函数基于各个文本行图像的文本识别损失函数确定,例如可以将所有文本行图像的文本识别损失函数叠加到一起,得到文本识别层的损失函数。
图2是本发明提供的文本识别模型的结构和训练流程示意图,如图2所示,文本识别模型包括掩码特征提取模块、底纹滤除模块和文本识别模块,其中文本识别模块包括文本检测层、文本行分割层和文本识别层。掩码特征提取模块和文本识别模块采用联合训练的方式,一次性训练出文本检测层和文本识别层,并获得自适应掩码图。其中掩码特征提取模块的权重是文本检测层和文本识别层共享的。
文本识别模型的损失函数L可表示为如下形式:
L=∑LDetect+λ1∑LRec+λ2∑‖M‖
式中,LDetect表示文本检测层的损失项,LRec表示文本识别层的损失项,∑‖M‖表示正则项,M表示掩码图,λ1和λ2为参数。
基于上述任一实施例,步骤120具体包括:
步骤121,基于掩码特征提取模块的图像特征提取层,对待识别图像进行图像特征提取,得到特征图;
步骤122,基于掩码特征提取模块的自适应掩码层,对特征图进行自适应掩码特征提取,得到掩码图。
具体地,为了得到掩码图,可通过首先对待识别图像进行图像特征提取,得到特征图,然后对特征图进行自适应掩码特征提取实现。
掩码特征提取模块可包括图像特征提取层和自适应掩码层,其中,图像特征提取层可采用任意图像特征提取网络实现。由此得到的特征图可反映待识别图像中各像素点的特征,比如纹理特征、位置特征、通道特征等等。进一步地,考虑到后续需要进行掩码特征提取,要求输出特征图的通道数为单通道,且特征图的尺寸大小与待识别图像的尺寸大小相同。
在此基础上,基于掩码特征提取模块的自适应掩码层,对特征图进行自适应掩码特征提取,得到掩码图。自适应掩码层具体可以是激活函数层,基于特征图中各像素点的权重,对特征图进行自适应掩码特征提取,得到掩码图。掩码图可反映待识别图像中的底纹在待识别图像中的位置。
在一些实施例中,掩码图可通过下式得到:
M=Sigmoid(W*Vmap)
式中,M表示掩码图,W表示掩码特征提取模块的参数,Vmap表示特征图。
基于上述任一实施例,步骤121具体包括:
基于图像特征提取层,对待识别图像进行下采样,得到多尺度下采样特征,然后对多尺度下采样特征进行上采样,得到特征图,特征图的通道数为1,且特征图的尺寸与待识别图像的尺寸相同。
具体地,为了得到特征图,可采用图像特征提取层进行图像特征提取实现。在对待识别图像进行采样时,为了得到更丰富的特征信息,可以采用先下采样再上采样的方式进行采样。
更进一步的,在进行下采样和上采样时都采用多层级采样网络进行采样,则在上采样时,每个层级上采样网络的输入为上一层级上采样网络输出的上采样特征图以及相同层级的下采样网络输出的下采样特征图,通过这种方式可以达到融合学习的目的。
优选的,图像特征提取层可采用Unet网络进行特征提取。
由于掩码图通常为单通道图像,因此进行特征提取时可对图像的通道进行转换,假设待识别图像为3*W*H,其中3为通道数、W和H为图像的宽和高,则Unet网络输出的是和待识别图像大小一致,通道数为1的特征图Vmap,即1*W*H。
基于上述任一实施例,步骤130具体包括:
基于底纹滤除模块的滤除层,应用掩码图对待识别图像进行底纹滤除,得到初始底纹滤除图像;
基于底纹滤除模块的插值层,对初始底纹滤除图像进行插值处理,得到底纹滤除图像。
具体地,得到掩码图的基础上,可首先应用掩码图对待识别图像进行底纹滤除,通过将反向掩码图和待识别图像做像素级的点积,得到初始底纹滤除图像。可表示为如下:
Out=(1-M)*InputImage
式中,Out表示初始底纹滤除图像,M表示掩码图,InputImage表示待识别图像。
由于在底纹滤除过程中,可能会存在误操作,比如将不属于底纹的像素点进行了滤除,因此为了提高后续文本识别的准确性,可对底纹滤除图像进行补全,比如可采用插值法进行像素点补全。可通过底纹滤除模块的插值层,对初始底纹滤除图像中像素值为0或像素值小于10e-3的位置的像素点进行插值处理,得到底纹滤除图像。
基于上述任一实施例,提供一种文本识别方法,图3是本发明提供的文本识别方法的流程示意图之二,如图3所示,该方法包括:
S1,获取待识别图像;
S2,对待识别图像进行自适应掩码特征提取,得到自适应掩码图;
S3,采用自适应掩码图与待识别图像叠加的方式,对待识别图像进行底纹滤除,得到初始底纹滤除图像;
S4,对初始底纹滤除图像进行插值,得到底纹滤除图像;
S5,对底纹滤除图像进行文本检测,得到底纹滤除图像中文本区域的位置信息;
S6,应用文本区域的位置信息,对底纹滤除图像进行文本行分割,得到各个文本行图像;
S7,对各个文本行图像进行文本识别。
下面对本发明提供的文本识别装置进行描述,下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。
图4是本发明提供的文本识别装置的结构示意图,如图4所示,该装置包括图像获取单元410、特征提取单元420、底纹滤除单元430和文本识别单元440。其中,
图像获取单元410,用于获取待识别图像;
特征提取单元420,用于基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;
底纹滤除单元430,用于基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;
文本识别单元440,用于基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
本发明实施例提供的文本识别装置,通过在文本识别模块基础上,增加掩码特征提取模块,对待识别图像进行掩码特征提取,能够增强文本识别模型对底纹的捕捉和抗干扰能力;并基于掩码图对待识别图像进行底纹滤除,由此得到的底纹滤除图像能准确的滤除底纹,从而可以实现自适应对底纹格线进行掩码处理;然后基于底纹滤除图像进行文本识别,可以提高识别准确率,同时能够适应不同状态和颜色的图像。
基于上述任一实施例,所述文本识别模型的模型损失函数基于所述文本识别模块的损失函数和正则项确定,所述正则项基于所述掩码图确定。
基于上述任一实施例,文本识别单元具体用于:
基于所述文本识别模块的文本检测层,对所述底纹滤除图像进行文本检测,得到所述底纹滤除图像中文本区域的位置信息;
基于所述文本识别模块的文本行分割层,应用所述文本区域的位置信息,对所述底纹滤除图像进行文本行分割,得到各个文本行图像;
基于所述文本识别模块的文本识别层,对所述各个文本行图像进行文本识别。
基于上述任一实施例,所述文本识别模块的损失函数基于所述文本检测层的损失函数和所述文本识别层的损失函数确定,所述文本识别层的损失函数基于所述各个文本行图像的文本识别损失函数确定。
基于上述任一实施例,特征提取单元具体用于:
基于所述掩码特征提取模块的图像特征提取层,对所述待识别图像进行图像特征提取,得到特征图;
基于所述掩码特征提取模块的自适应掩码层,对所述特征图进行自适应掩码特征提取,得到掩码图。
基于上述任一实施例,特征提取单元还具体用于:
基于所述图像特征提取层,对所述待识别图像进行下采样,得到多尺度下采样特征,然后对所述多尺度下采样特征进行上采样,得到特征图,所述特征图的通道数为1,所述特征图的尺寸与所述待识别图像的尺寸相同。
基于上述任一实施例,底纹滤除单元具体用于:
基于所述底纹滤除模块的滤除层,应用所述掩码图对所述待识别图像进行底纹滤除,得到初始底纹滤除图像;
基于所述底纹滤除模块的插值层,对所述初始底纹滤除图像进行插值处理,得到底纹滤除图像。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行文本识别方法,该方法包括:获取待识别图像;基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本识别方法,该方法包括:获取待识别图像;基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本识别方法,该方法包括:获取待识别图像;基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
获取待识别图像;
基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;
基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;
基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
2.根据权利要求1所述的文本识别方法,其特征在于,所述文本识别模型的模型损失函数基于所述文本识别模块的损失函数和正则项确定,所述正则项基于所述掩码图确定。
3.根据权利要求2所述的文本识别方法,其特征在于,所述基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别,包括:
基于所述文本识别模块的文本检测层,对所述底纹滤除图像进行文本检测,得到所述底纹滤除图像中文本区域的位置信息;
基于所述文本识别模块的文本行分割层,应用所述文本区域的位置信息,对所述底纹滤除图像进行文本行分割,得到各个文本行图像;
基于所述文本识别模块的文本识别层,对所述各个文本行图像进行文本识别。
4.根据权利要求3所述的文本识别方法,其特征在于,所述文本识别模块的损失函数基于所述文本检测层的损失函数和所述文本识别层的损失函数确定,所述文本识别层的损失函数基于所述各个文本行图像的文本识别损失函数确定。
5.根据权利要求1所述的文本识别方法,其特征在于,所述基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图,包括:
基于所述掩码特征提取模块的图像特征提取层,对所述待识别图像进行图像特征提取,得到特征图;
基于所述掩码特征提取模块的自适应掩码层,对所述特征图进行自适应掩码特征提取,得到掩码图。
6.根据权利要求5所述的文本识别方法,其特征在于,所述基于所述掩码特征提取模块的图像特征提取层,对所述待识别图像进行图像特征提取,得到特征图,包括:
基于所述图像特征提取层,对所述待识别图像进行下采样,得到多尺度下采样特征,然后对所述多尺度下采样特征进行上采样,得到特征图,所述特征图的通道数为1,所述特征图的尺寸与所述待识别图像的尺寸相同。
7.根据权利要求1-6中任一项所述的文本识别方法,其特征在于,所述基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像,包括:
基于所述底纹滤除模块的滤除层,应用所述掩码图对所述待识别图像进行底纹滤除,得到初始底纹滤除图像;
基于所述底纹滤除模块的插值层,对所述初始底纹滤除图像进行插值处理,得到底纹滤除图像。
8.一种文本识别装置,其特征在于,包括:
图像获取单元,用于获取待识别图像;
特征提取单元,用于基于文本识别模型的掩码特征提取模块,对所述待识别图像进行自适应掩码特征提取,得到掩码图;
底纹滤除单元,用于基于所述文本识别模型的底纹滤除模块,应用所述掩码图对所述待识别图像进行底纹滤除,得到底纹滤除图像;
文本识别单元,用于基于所述文本识别模型的文本识别模块,对所述底纹滤除图像进行文本识别;所述文本识别模型是基于样本图像,以及所述样本图像对应的标签文本训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211667597.6A CN115984865B (zh) | 2022-12-23 | 2022-12-23 | 文本识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211667597.6A CN115984865B (zh) | 2022-12-23 | 2022-12-23 | 文本识别方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115984865A true CN115984865A (zh) | 2023-04-18 |
CN115984865B CN115984865B (zh) | 2024-02-27 |
Family
ID=85959069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211667597.6A Active CN115984865B (zh) | 2022-12-23 | 2022-12-23 | 文本识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115984865B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390296A1 (en) * | 2020-06-16 | 2021-12-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Optical character recognition method and apparatus, electronic device and storage medium |
CN113822116A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
CN114092931A (zh) * | 2022-01-20 | 2022-02-25 | 中科视语(北京)科技有限公司 | 场景文字识别方法、装置、电子设备及存储介质 |
CN114372477A (zh) * | 2022-03-21 | 2022-04-19 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN114648771A (zh) * | 2020-12-15 | 2022-06-21 | 中兴通讯股份有限公司 | 文字识别方法、电子设备和计算机可读存储介质 |
CN114973266A (zh) * | 2022-05-31 | 2022-08-30 | 北京鼎事兴教育咨询有限公司 | 文本识别方法、装置、存储介质及电子设备 |
CN115273123A (zh) * | 2022-09-26 | 2022-11-01 | 山东豸信认证服务有限公司 | 一种票据识别方法、装置、设备及计算机存储介质 |
-
2022
- 2022-12-23 CN CN202211667597.6A patent/CN115984865B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390296A1 (en) * | 2020-06-16 | 2021-12-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Optical character recognition method and apparatus, electronic device and storage medium |
CN114648771A (zh) * | 2020-12-15 | 2022-06-21 | 中兴通讯股份有限公司 | 文字识别方法、电子设备和计算机可读存储介质 |
CN113822116A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
CN114092931A (zh) * | 2022-01-20 | 2022-02-25 | 中科视语(北京)科技有限公司 | 场景文字识别方法、装置、电子设备及存储介质 |
CN114372477A (zh) * | 2022-03-21 | 2022-04-19 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN114973266A (zh) * | 2022-05-31 | 2022-08-30 | 北京鼎事兴教育咨询有限公司 | 文本识别方法、装置、存储介质及电子设备 |
CN115273123A (zh) * | 2022-09-26 | 2022-11-01 | 山东豸信认证服务有限公司 | 一种票据识别方法、装置、设备及计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
VIJETA KHARE ET AL: "A novel character segmentation-reconstruction approach for license plate recognition", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 131, pages 219 - 239, XP085690767, DOI: 10.1016/j.eswa.2019.04.030 * |
张伟超等: "基于Opencv和Tesseract的行驶证识别系统设计", 《齐鲁工业大学学报》, vol. 34, no. 1, pages 47 - 52 * |
Also Published As
Publication number | Publication date |
---|---|
CN115984865B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3916627A1 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN110517246B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN110599387A (zh) | 一种自动去除图片水印的方法及装置 | |
CN111275034B (zh) | 从图像中提取文本区域的方法、装置、设备和存储介质 | |
CN112602088B (zh) | 提高弱光图像的质量的方法、系统和计算机可读介质 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及系统 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN113240679A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
US20230005107A1 (en) | Multi-task text inpainting of digital images | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN113657528B (zh) | 图像特征点提取方法、装置、计算机终端及存储介质 | |
CN106295627A (zh) | 用于识别文字牛皮癣图片的方法及装置 | |
CN113487473A (zh) | 一种添加图像水印的方法、装置、电子设备及存储介质 | |
CN112766028A (zh) | 人脸模糊处理方法、装置、电子设备及存储介质 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 | |
CN111767924A (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
EP4047547A1 (en) | Method and system for removing scene text from images | |
CN115984865B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN116311290A (zh) | 基于深度学习的手写及打印文本检测方法和装置 | |
CN115063813A (zh) | 针对文字失真的对齐模型的训练方法及训练装置 | |
CN114612907A (zh) | 一种车牌识别方法及装置 | |
CN114387315A (zh) | 图像处理模型训练、图像处理方法、装置、设备及介质 | |
CN114648751A (zh) | 一种处理视频字幕的方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |