CN115841672A - 文字检测识别方法、装置及设备 - Google Patents
文字检测识别方法、装置及设备 Download PDFInfo
- Publication number
- CN115841672A CN115841672A CN202211518731.6A CN202211518731A CN115841672A CN 115841672 A CN115841672 A CN 115841672A CN 202211518731 A CN202211518731 A CN 202211518731A CN 115841672 A CN115841672 A CN 115841672A
- Authority
- CN
- China
- Prior art keywords
- feature
- fusion
- target image
- detection
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 210
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 139
- 238000010586 diagram Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种文字检测识别方法、装置及设备。该方法包括:通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种文字检测识别方法、装置及设备。
背景技术
目前,光学字符识别(Optical Character Recognition,OCR)技术主要分为两部分,即文字检测和文字识别。其中,文字检测是获取文字位置信息,其具体算法包括常用的faster-rcnn系列的通用目标检测算法,用于生成适当预选框的CPTN算法,以及适用于非水平方向的SegLink检测算法。文字识别则是获取文字内容信息,其具体算法可包括结合CNN和RNN的CRNN算法、依赖文字序列关系的attention系列算法。
然而,这些算法都是单一形式的,即只是识别文字内容信息或者识别文字位置信息,无法做到端到端的文字检测与识别。
发明内容
本申请实施例提供一种文字检测识别方法,以解决现有技术中文字检测识别方法只能单一实现文字检测和识别中的一种任务的问题。
本申请实施例采用下述技术方案:
一种文字检测识别方法,包括:
通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;
通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;
通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
一种文字检测识别装置,包括:
特征提取模块,用于从输入的目标图像中提取多个不同尺度的特征图;
检测特征金字塔模块,用于通过第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;
识别特征金字塔模块,用于通过第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
文字检测模块,用于基于所述检测融合特征图获取所述目标图像中的文本检测框;
文字识别模块,用于基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述所述的文字检测识别方法的步骤。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的文字检测识别方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请中,由于能够在通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图之后,分别通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对多个不同尺度的特征图进行检测特征融合得到检测融合特征图,以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对多个不同尺度的特征图进行识别特征融合得到识别融合特征图,充分考虑了文字检测和文字识别这两个任务的差异性,并利用不同尺度特征信息的多样性,将文字识别和文字检测所用的特征图的获取方式分离开来,有效提升了文字识别和文字检测的性能。而且能分别通过文字检测模块基于检测融合特征图获取目标图像中的文本检测框,以及通过文字识别模块基于识别融合特征图识别目标图像中的文本检测框中的文字内容信息,实现了端到端的文字检测和识别。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种文字检测识别方法的具体实施流程示意图;
图2为本申请实施例提供的文字检测识别方法中对目标图像的检测和识别的过程示意图;
图3为本申请实施例提供的文字检测识别方法中识别特征融合单元的结构示意图;
图4为本申请实施例提供的文字检测识别方法中阈值化单元的结构示意图;
图5为本申请实施例提供的文字检测识别方法中概率化单元的结构示意图;
图6为本申请实施例提供的文字检测识别方法中二值化单元进行逻辑运算的示意图;
图7为本申请实施例提供的一种文字检测识别装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如背景技术中所述,随着深度学习在图像处理领域中的成功应用,基于深度学习的OCR技术进行文字检测与识别也逐渐成为研究热点。该技术的目的在于采用深度神经网络,通过构建端到端的OCR模型,检测并识别图像中的文字信息。现有的基于深度学习的OCR技术包括使用统一的网络进行快速文本定位模型(Fast Oriented Text Spotting with aUnified Network,FOTS)、以及基于可微分二值化的实时场景文本检测模型(Real-timeScene Text Detection with Differentiable Binarization,DBNet)。
其中,FOTS算法采用常用的卷积神经网络对原始图像进行特征提取,获取高层语义信息。此外,为了更加有效的结合高层语义信息与低层基本信息,在特征中引入特征金字塔FPN(Feature Pyramid Network)。之后,将结合多尺度的融合特征图送入文本检测分支(text detection branch),预测每个像素点属于正样本的概率,以及包含像素点的检测框的顶部,底部,左侧,右侧的距离,边界框的方向。接着将检测分支获取到的proposal与之前的融合特征图送入ROI Rotate(中文名称为感兴趣区域矫正)层,目的是将有角度的文本块,经过仿射变换,转化为正常的轴对其的文本块。最后,将ROI Rotate层转换后的文本块送入文本识别分支(text recoginition branch)获取最终的识别结果。FOTS通过将文字识别与文字检测一体化的方式,具有检测速度快,模型小,精度高的优势,多角度检测的优点。
DBNet算法采用卷积神经网络进行特征提取,并且在特征提取过程中融合不同尺度的特征图,最终获取到相较于原始输入1/4大小的融合特征图。后续构造阈值化操作,根据阈值筛选出可能属于文本区域的特征点,构造概率化操作,计算每个特征点隶属于文本区域的概率,最后构造二值化操作,获取二值图(1:文本0:背景)。由于DBNet采用图像分割的思路进行文本检测,因此可以适用于任意方向的文本检测,并且阈值图,概率图,二值图计算简单,计算量少,适用于大多数文本检测场景。
尽管FOTS能够有效实现文字识别与文字检测一体化,然而仍然有如下缺点:首先,FOTS算法虽然将文字检测分支和文字识别分支一同参与模型训练,但是却忽略了二者的差别,从而导致网络在训练过程中在检测分支上能够快速收敛,但是识别分支收敛速度较慢;其次,FOTS算法目前的网络模型适用于识别英文单词以及数字,在中文场景下训练时间较长,模型收敛速度慢,精度较低。而DBNet虽然具有计算简单,可以适用于任意方向的文本检测,但是只考虑了文字检测这一个任务,无法实现文字识别。
针对此,本申请实施例提出一种文字检测识别方法,能够在通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图之后,分别通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对多个不同尺度的特征图进行检测特征融合得到检测融合特征图,以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对多个不同尺度的特征图进行识别特征融合得到识别融合特征图,充分考虑了文字检测和文字识别这两个任务的差异性,并利用不同尺度特征信息的多样性,将文字识别和文字检测所用的特征图的获取方式分离开来,有效提升了文字识别和文字检测的性能。而且能分别通过文字检测模块基于检测融合特征图获取目标图像中的文本检测框,以及通过文字识别模块基于识别融合特征图识别目标图像中的文本检测框中的文字内容信息,实现了端到端的文字检测和识别。
下面结合图1所示的文字检测识别方法的具体实施流程示意图,对该方法的实施过程进行详细介绍,该方法可应用于文字检测识别模型,图1所示的方法可包括:
步骤110,通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图。
可选地,可直接将目标图像输入特征提取模块进行特征提取,得到多个不同尺度的特征图。而由于不同目标图像的大小存在差异,为便于对目标图像进行特征提取,还可在特征提取之前,对目标图像进行标准化预处理,以得到预设尺寸大小的目标图像。具体地,通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图,包括:
将目标图像输入特征提取模块进行特征提取,得到多个不同尺度的特征图;或者,
将目标图像减去均值并除以指定数值,以对目标图像进行标准化预处理;以及将标准化预处理后的目标图像输入特征提取模块进行特征提取,得到多个不同尺度的特征图。
应理解,在模型训练阶段,为增加训练样本的多样性,提高训练得到的文字检测识别模型的准确率,可对训练样本进行数据增强。其中数据增强方式可包括对原始图像进行随机翻转、添加噪声、以及随机扭曲等方式。此外,还可引入keep-out数据增强策略,对于原始图像进行随机的区域裁剪,裁剪的区域像素值可用0替代,由于该模型的目的是进行文字检测和识别,因此在对图像进行裁剪时,通常只裁剪不包含文本的区域。而且,考虑到模型输入可设置为512*512大小的图像,具体可从原始图像中随机裁剪512*512大小的区域,并将此区域作为训练样本,为避免裁剪的时候裁剪的边界跨越文本区域,导致文字部分信息丢失,该训练样本中可包含有完整的文本区域。
可选地,为了增加特征信息的多样性,在进行特征提取时,可从目标图像中提取多个不同尺度的特征图。具体地,通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图,包括:
通过指定层数的ResNet网络从输入的目标图像中提取图像特征信息;
通过多个不同大小的卷积核基于图像特征信息,获取多个不同尺度的特征图;多个不同尺度的特征图包括第一尺寸的特征图、第二尺寸的特征图、第三尺寸的特征图和第四尺寸的特征图,其中第一尺寸为目标图像的四分之一大小,第二尺寸为第一尺寸的二分之一大小,第三尺寸为第二尺寸的二分之一大小,第四尺寸是第三尺寸的二分之一大小。
作为一种实施方式,可采用结构为50层的ResNet网络从输入的目标图像中提取图像特征信息,再利用多个不同大小的卷积核不断增加提取的图像特征信息的通道数,分别获取原始图像大小的四分之一尺寸的特征图、原始图像大小的八分之一尺寸的特征图、原始图像大小的十六分之一尺寸的特征图、以及原始图像大小的三十二分之一尺寸的特征图。
图2为本申请实施例提供的文字检测识别方法中对目标图像的检测和识别的过程示意图。图2所示的文字检测识别模型可包括特征提取模块、检测特征金字塔模块、融合特征金字塔模块、文字检测模块和文字识别模块。其中,特征提取模块由四个特征提取单元组成分别为RES-1、RES-2、RES-3和RES-4,检测特征金字塔模块由三个检测特征融合单元组成分别为USB-1、USB-2和USB-3,识别特征金字塔模块由三个识别特征融合单元组成分别为USB-4、USB-5和USB-6,文字检测模块由概率化单元(Probability Block,PB),阈值化单元(Threshold Block,TB)以及二值化单元(Binary Block,BB)组成,文字识别模块由ROIRotate和识别网络CRNN组成。
特征提取模块中的四个特征提取单元RES-1、RES-2、RES-3和RES-4对输入的目标图像依次进行特征提取,分别生成128*128*256、64*64*512、32*32*1024、16*16*2048大小的特征图。
步骤120,通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对多个不同尺度的特征图进行检测特征融合得到检测融合特征图。
以图2为例,其中,特征提取单元RES-4生成的16*16*2048大小的特征图输出给检测特征金字塔的检测特征融合模块USB-1,检测特征融合模块USB-1对16*16*2048大小的特征图以反池化的采样方式进行上采样,得到融合后的32*32*2048的特征图,该融合后的32*32*2048的特征图再与特征提取单元RES-3生成的32*32*1024大小的特征图通过检测特征融合模块USB-2进行融合,具体融合方式为通道维度上的拼接,再对拼接后的特征图通过构造的1*1卷积核进行卷积操作以将该特征图的维度降至128,再依次进行批标准化(batchnormalization)、3*3卷积以及relu激活函数得到64*64*128大小的特征图,该64*64*128大小的特征图再与特征提取单元RES-2生成的64*64*512大小的特征图通过检测特征融合模块USB-3进行融合,得到128*128*32大小的特征图。
通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对多个不同尺度的特征图进行逐层的检测特征融合得到的检测融合特征图由于结合了目标图像的高层特征信息和低层特征信息,因此能够有效提升检测融合特征图中包含的信息量。
步骤130,通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对多个不同尺度的特征图进行识别特征融合得到识别融合特征图。
以图2为例,其中,特征提取单元RES-4生成的16*16*2048大小的特征图输出给识别特征金字塔的识别特征融合模块USB-4,识别特征融合模块USB-4对16*16*2048大小的特征图以反池化的采样方式进行上采样,得到融合后的32*32*2048的特征图,该融合后的32*32*2048的特征图再与特征提取单元RES-3生成的32*32*1024大小的特征图通过识别特征融合模块USB-5进行融合,具体融合方式为通道维度上的拼接,再对拼接后的特征图通过构造的1*1卷积核进行卷积操作以将该特征图的维度降至128,再依次进行批标准化(batchnormalization)、3*3卷积以及relu激活函数得到64*64*128大小的特征图,该64*64*128大小的特征图再与特征提取单元RES-2生成的64*64*512大小的特征图通过识别特征融合模块USB-6进行融合,得到128*128*32大小的特征图。
通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对多个不同尺度的特征图进行逐层的识别特征融合得到的识别融合特征图由于结合了目标图像的高层特征信息和低层特征信息,因此能够有效提升识别融合特征图中包含的信息量。
图3为本申请实施例提供的文字检测识别方法中识别特征融合单元的结构示意图。在图3中,识别特征融合单元(Up Sample Block,USB)可包括反池化,concat层,1*1conv卷积层,批标准化层(batch normalization),3*3conv卷积层和relu激活函数层。作为一种示例,反池化的输入为16*16*2048大小的特征图,经由反池化采样方式进行上采样可得到16*16*2048大小的特征图,该16*16*2048大小的特征图与32*32*1024大小的特征图通过concat层进行拼接融合,得到32*32*3072大小的特征图,再经由1*1conv卷积层的卷积运算得到32*32*128大小的特征图,该32*32*128大小的特征图再通过batch normalization的运算得到32*32*128大小的特征图,该32*32*128大小的特征图经由3*3conv卷积层的卷积运算得到32*32*128大小的特征图,该32*32*128大小的特征图再通过batchnormalization以及relu激活函数层的运算得到32*32*128大小的特征图,即经过一个识别特征融合单元融合处理得到的特征图。
步骤140,通过文字检测模块基于检测融合特征图获取目标图像中的文本检测框。
可选地,为减小文字检测模块确定目标图像中的文本检测框的计算量,本申请实施例可采用计算用于判断目标图像中的各个像素点存在文字的阈值以及每个像素点存在文字的概率,最后通过二值化单元结合用于判断各个像素点存在文字的阈值以及各个像素点存在文字的概率来确定各个像素点是否存在文字。具体地,文字检测模块包括阈值化单元、概率化单元和二值化单元,通过文字检测模块基于检测融合特征图获取目标图像中的文本检测框,包括:
通过阈值化单元基于检测融合特征图获取指定大小的阈值图,阈值图中包含有用于判断目标图像中各个像素点存在文字的阈值;
通过概率化单元基于检测融合特征图获取指定大小的概率图,概率图中包含有目标图像中各个像素点存在文字的概率;
通过二值化单元对阈值图和概率图进行逻辑运算,得到用于表征目标图像中的文本检测框的二值化特征图,以及基于二值化特征图获取目标图像中的文本检测框。
以图2为例,文字检测模块包括概率化单元PB、阈值化单元TB以及二值化单元BB。其中,阈值化单元TB的结构示意图如图4所示,该阈值化单元TB可包括3*3conv卷积,batchnormalization,relu激活函数层和反卷积层。概率化单元PB的结构示意图如图5所示,该概率化单元PB可包括3*3conv卷积,batch normalization,relu激活函数层,反卷积层和Sigmoid激活函数层。二值化单元BB进行逻辑运算的示意图如图6所示,该二值化单元BB的输入为概率化单元PB的概率图X和阈值化单元TB的阈值图Y,其中概率图X和阈值图Y的大小均为512*512*1,经由公式1+exp-(X-Y)进行逻辑运算可得到用于表征目标图像中的文本检测框的二值化特征图,该二值化特征图中“1”表征的区域便为文本区域,其他区域用“0”表征。
作为一种实施方式,二值化单元对获取到的大小为512*512*1的阈值化单元输出阈值图Y和大小为512*512*1的概率化单元输出的概率图X进行逻辑运算,运算公式为(1+exp-(X-Y)),获取最终的二值化特征图,大小仍为512*512*1。
可选地,通过阈值化单元基于检测融合特征图获取指定大小的阈值图,包括:
通过阈值化单元对检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第一特征图;
采用反卷积的方式对第一特征图进行上采样,得到第二特征图,第二特征图为第一特征图的两倍大小;
对第二特征图进行批标准化运算以及relu激活函数运算、以及采用反卷积的方式进行上采样,得到指定大小的阈值图。
作为一种实施方式,阈值化单元可通过3*3的卷积结合batch normalization和relu激活函数对输入的特征图进行处理,获取到128*128*8大小的特征图,然后对该128*128*8大小的特征图以反卷积的方式进行上采样,获取到256*256*8大小的特征图,然后再引入一次batch normalization和relu激活函数,进行第二次反卷积的上采样方式,最后输出512*512*1的阈值图。
可选地,通过概率化单元基于检测融合特征图获取指定大小的概率图,包括:
通过概率化单元对检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第三特征图;
采用反卷积的方式对第三特征图进行上采样,得到第四特征图,第四特征图为第三特征图的两倍大小;
对第四特征图进行批标准化运算、relu激活函数运算、并采用反卷积的方式进行上采样、以及通过sigmoid激活函数进行概率预测,得到指定大小的概率图。
作为一种实施方式,概率化单元可通过3*3的卷积结合batch normalization和relu激活函数对输入的特征图进行处理,获取到128*128*8大小的特征图,然后对该128*128*8大小的特征图以反卷积的方式进行上采样获取到256*256*8大小的特征图,然后再引入一次batch normalization和relu激活函数,进行第二次反卷积的上采样方式,最后通过sigmoid激活函数获取最终的概率图。
步骤150,通过文字识别模块基于识别融合特征图识别目标图像中的文本检测框中的文字内容信息。
可选地,由于目标图像中的文字投影可能不是规则的文字,比如经过旋转处理的文本区域存在一定的角度,在这种情况下,可通过ROI Rotate对其进行处理,获取目标图像中文本区域在水平方向上的映射特征。具体地,通过文字识别模块基于识别融合特征图识别目标图像中的文本检测框中的文字内容信息,包括:
通过ROI Rotate基于识别融合特征图和目标图像中的文本检测框,获取目标图像中的文本检测框在水平方向上的特征信息;
通过文字识别模块根据输入的目标图像中的文本检测框在水平方向上的特征信息,识别目标图像中的文本检测框中的文字内容信息。
其中,ROI Rotate可将有角度的文本检测框转换成轴对称的文本检测框。公司(1)~(7)为ROI Rotate进行的一系列矩阵运算,以获取文本区域水平方向的特征映射,其中M为仿射变换矩阵,包括旋转,缩放,平移。ht为仿射变换后特征图的高度,wt为仿射变换后特征图的宽度,(x,y)为特征图中点的位置,t,b,l,r分别为特征点的位置距离旋转框上下左右的位置,θ为检测框的角度,为在位置(i,j)处通道c的输出,为在位置(i,j)处通道c的输入,hs为输入的高度,ws为输入的宽度,Φx,与Φy为双线性插值的核的参数。ROIRotate通过文本检测框坐标真值计算仿射变换参数,再将仿射变换分别应用于每个区域的共享特征映射,以获得文本区域在轴对称情况下水平方向的特征映射。
在文字检测识别模型训练过程中,在将训练样本送入ROI Rotate时,该训练样本中还包含有文本检测框的标签,在文字检测识别模型对目标图像进行检测和识别时,可将文字检测模块基于检测融合特征图获取的目标图像中的文本检测框和识别融合特征图输入至ROI Rotate,供ROI Rotate将有角度的目标图像的文本检测框转换成轴对称的文本检测框。
本申请中,由于能够在通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图之后,分别通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对多个不同尺度的特征图进行检测特征融合得到检测融合特征图,以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对多个不同尺度的特征图进行识别特征融合得到识别融合特征图,充分考虑了文字检测和文字识别这两个任务的差异性,并利用不同尺度特征信息的多样性,将文字识别和文字检测所用的特征图的获取方式分离开来,有效提升了文字识别和文字检测的性能。而且能分别通过文字检测模块基于检测融合特征图获取目标图像中的文本检测框,以及通过文字识别模块基于识别融合特征图识别目标图像中的文本检测框中的文字内容信息,实现了端到端的文字检测和识别。
本申请实施例还提供一种文字检测识别装置700,如图7所示,包括:
特征提取模块701,用于从输入的目标图像中提取多个不同尺度的特征图;
检测特征金字塔模块702,用于通过第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;
识别特征金字塔模块703,用于通过第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
文字检测模块704,用于基于所述检测融合特征图获取所述目标图像中的文本检测框;
文字识别模块705,用于基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
在一种实施方式中,所述文字检测模块704包括阈值化单元、概率化单元和二值化单元,所述文字检测模块704基于所述检测融合特征图获取所述目标图像中的文本检测框时,具体用于:
通过所述阈值化单元基于所述检测融合特征图获取指定大小的阈值图,所述阈值图中包含有用于判断所述目标图像中各个像素点存在文字的阈值;
通过所述概率化单元基于所述检测融合特征图获取指定大小的概率图,所述概率图中包含有所述目标图像中各个像素点存在文字的概率;
通过所述二值化单元对所述阈值图和所述概率图进行逻辑运算,得到用于表征所述目标图像中的文本检测框的二值化特征图,以及基于所述二值化特征图获取所述目标图像中的文本检测框。
在一种实施方式中,所述文字检测模块704通过所述阈值化单元基于所述检测融合特征图获取指定大小的阈值图时,具体用于:
通过所述阈值化单元对所述检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第一特征图;
采用反卷积的方式对所述第一特征图进行上采样,得到第二特征图,所述第二特征图为所述第一特征图的两倍大小;
对所述第二特征图进行批标准化运算以及relu激活函数运算、以及采用反卷积的方式进行上采样,得到所述指定大小的阈值图。
在一种实施方式中,所述文字检测模块704通过所述概率化单元基于所述检测融合特征图获取指定大小的概率图时,具体用于:
通过所述概率化单元对所述检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第三特征图;
采用反卷积的方式对所述第三特征图进行上采样,得到第四特征图,所述第四特征图为所述第三特征图的两倍大小;
对所述第四特征图进行批标准化运算、relu激活函数运算、并采用反卷积的方式进行上采样、以及通过sigmoid激活函数进行概率预测,得到所述指定大小的概率图。
在一种实施方式中,所述文字识别模块705基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息时,具体用于:
通过ROI Rotate基于所述识别融合特征图和所述目标图像中的文本检测框,获取所述目标图像中的文本检测框在水平方向上的特征信息;
通过所述文字识别模块根据输入的所述目标图像中的文本检测框在水平方向上的特征信息,识别所述目标图像中的文本检测框中的文字内容信息。
在一种实施方式中,所述特征提取模块701从输入的目标图像中提取多个不同尺度的特征图时,具体用于:
将所述目标图像输入所述特征提取模块进行特征提取,得到多个不同尺度的特征图;或者,
将所述目标图像减去均值并除以指定数值,以对所述目标图像进行标准化预处理;以及将所述标准化预处理后的目标图像输入所述特征提取模块进行特征提取,得到多个不同尺度的特征图。
在一种实施方式中,所述特征提取模块701从输入的目标图像中提取多个不同尺度的特征图时,具体用于:
通过指定层数的ResNet网络从输入的所述目标图像中提取图像特征信息;
通过多个不同大小的卷积核基于所述图像特征信息,获取所述多个不同尺度的特征图;所述多个不同尺度的特征图包括第一尺寸的特征图、第二尺寸的特征图、第三尺寸的特征图和第四尺寸的特征图,其中所述第一尺寸为所述目标图像的四分之一大小,所述第二尺寸为所述第一尺寸的二分之一大小,所述第三尺寸为所述第二尺寸的二分之一大小,所述第四尺寸是所述第三尺寸的二分之一大小。
本申请实施例提供的文字检测识别装置700能够实现图1~图6的方法实施例中文字检测识别方法实现的各个过程,为避免重复,这里不再赘述。
图8是本申请的一个实施例电子设备的结构示意图。请参考图8,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文字检测识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;
通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;
通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
上述如本申请图1~图6所示实施例揭示的文字检测识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1~图6的方法,并实现文字检测识别装置在图1~图6所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1~图6所示实施例的方法,并具体用于执行以下操作:
通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;
通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;
通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种文字检测识别方法,其特征在于,包括:
通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图;
通过检测特征金字塔模块中包含的第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;以及通过识别特征金字塔模块中包含的第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框;
通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
2.如权利要求1所述的方法,其特征在于,所述文字检测模块包括阈值化单元、概率化单元和二值化单元,所述通过文字检测模块基于所述检测融合特征图获取所述目标图像中的文本检测框,包括:
通过所述阈值化单元基于所述检测融合特征图获取指定大小的阈值图,所述阈值图中包含有用于判断所述目标图像中各个像素点存在文字的阈值;
通过所述概率化单元基于所述检测融合特征图获取指定大小的概率图,所述概率图中包含有所述目标图像中各个像素点存在文字的概率;
通过所述二值化单元对所述阈值图和所述概率图进行逻辑运算,得到用于表征所述目标图像中的文本检测框的二值化特征图,以及基于所述二值化特征图获取所述目标图像中的文本检测框。
3.如权利要求2所述的方法,其特征在于,所述通过所述阈值化单元基于所述检测融合特征图获取指定大小的阈值图,包括:
通过所述阈值化单元对所述检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第一特征图;
采用反卷积的方式对所述第一特征图进行上采样,得到第二特征图,所述第二特征图为所述第一特征图的两倍大小;
对所述第二特征图进行批标准化运算以及relu激活函数运算、以及采用反卷积的方式进行上采样,得到所述指定大小的阈值图。
4.如权利要求2所述的方法,其特征在于,所述通过所述概率化单元基于所述检测融合特征图获取指定大小的概率图,包括:
通过所述概率化单元对所述检测融合特征图进行指定卷积核的卷积运算、批标准化运算以及指定激活函数运算,得到第三特征图;
采用反卷积的方式对所述第三特征图进行上采样,得到第四特征图,所述第四特征图为所述第三特征图的两倍大小;
对所述第四特征图进行批标准化运算、relu激活函数运算、并采用反卷积的方式进行上采样、以及通过sigmoid激活函数进行概率预测,得到所述指定大小的概率图。
5.如权利要求1所述的方法,其特征在于,所述通过文字识别模块基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息,包括:
通过感兴趣区域矫正模块ROI Rotate基于所述识别融合特征图和所述目标图像中的文本检测框,获取所述目标图像中的文本检测框在水平方向上的特征信息;
通过所述文字识别模块根据输入的所述目标图像中的文本检测框在水平方向上的特征信息,识别所述目标图像中的文本检测框中的文字内容信息。
6.如权利要求1所述的方法,其特征在于,所述通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图,包括:
将所述目标图像输入所述特征提取模块进行特征提取,得到多个不同尺度的特征图;或者,
将所述目标图像减去均值并除以指定数值,以对所述目标图像进行标准化预处理;以及将所述标准化预处理后的目标图像输入所述特征提取模块进行特征提取,得到多个不同尺度的特征图。
7.如权利要求1或6所述的方法,其特征在于,所述通过特征提取模块从输入的目标图像中提取多个不同尺度的特征图,包括:
通过指定层数的ResNet网络从输入的所述目标图像中提取图像特征信息;
通过多个不同大小的卷积核基于所述图像特征信息,获取所述多个不同尺度的特征图;所述多个不同尺度的特征图包括第一尺寸的特征图、第二尺寸的特征图、第三尺寸的特征图和第四尺寸的特征图,其中所述第一尺寸为所述目标图像的四分之一大小,所述第二尺寸为所述第一尺寸的二分之一大小,所述第三尺寸为所述第二尺寸的二分之一大小,所述第四尺寸是所述第三尺寸的二分之一大小。
8.一种文字检测识别装置,其特征在于,包括:
特征提取模块,用于从输入的目标图像中提取多个不同尺度的特征图;
检测特征金字塔模块,用于通过第一指定数量的检测特征融合单元,对所述多个不同尺度的特征图进行检测特征融合得到检测融合特征图;
识别特征金字塔模块,用于通过第二指定数量的识别特征融合单元,对所述多个不同尺度的特征图进行识别特征融合得到识别融合特征图;
文字检测模块,用于基于所述检测融合特征图获取所述目标图像中的文本检测框;
文字识别模块,用于基于所述识别融合特征图识别所述目标图像中的文本检测框中的文字内容信息。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211518731.6A CN115841672A (zh) | 2022-11-30 | 2022-11-30 | 文字检测识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211518731.6A CN115841672A (zh) | 2022-11-30 | 2022-11-30 | 文字检测识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115841672A true CN115841672A (zh) | 2023-03-24 |
Family
ID=85577415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211518731.6A Pending CN115841672A (zh) | 2022-11-30 | 2022-11-30 | 文字检测识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841672A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128458A (zh) * | 2023-04-12 | 2023-05-16 | 华中科技大学同济医学院附属同济医院 | 用于医院经费卡报账的智能自动审核系统 |
-
2022
- 2022-11-30 CN CN202211518731.6A patent/CN115841672A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128458A (zh) * | 2023-04-12 | 2023-05-16 | 华中科技大学同济医学院附属同济医院 | 用于医院经费卡报账的智能自动审核系统 |
CN116128458B (zh) * | 2023-04-12 | 2024-02-20 | 华中科技大学同济医学院附属同济医院 | 用于医院经费卡报账的智能自动审核系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652217B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
CN111860502B (zh) | 图片表格的识别方法、装置、电子设备及存储介质 | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN113761976A (zh) | 基于全局引导选择性上下文网络的场景语义解析方法 | |
US20210081695A1 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN112200191B (zh) | 图像处理方法、装置、计算设备及介质 | |
CN111914654A (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN113536003A (zh) | 特征提取模型训练方法、图像检索方法、装置和设备 | |
CN114694005A (zh) | 目标检测模型训练方法和装置、目标检测方法和装置 | |
CN116884003A (zh) | 图片自动标注方法、装置、电子设备及存储介质 | |
CN115841672A (zh) | 文字检测识别方法、装置及设备 | |
CN113129298B (zh) | 文本图像的清晰度识别方法 | |
WO2024027347A1 (zh) | 内容识别方法、装置、设备、存储介质及计算机程序产品 | |
CN114065868B (zh) | 文本检测模型的训练方法、文本检测方法及装置 | |
CN116682076A (zh) | 面向船舶安全监管的多尺度目标检测方法、系统及设备 | |
CN113743291B (zh) | 一种融合注意力机制的多尺度检测文本的方法及装置 | |
Chen et al. | Capture the devil in the details via partition-then-ensemble on higher resolution images | |
CN118279576B (zh) | 一种目标检测方法、装置以及计算机存储介质 | |
CN117727037B (zh) | 一种文本识别方法、装置、计算机设备、存储介质及产品 | |
CN112115952B (zh) | 一种基于全卷积神经网络的图像分类方法、设备及介质 | |
Jeon et al. | A Method for Reducing False Negative Rate in Non-Maximum Suppression of YOLO Using Bounding Box Density | |
CN114332896A (zh) | 关键文本信息提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |