CN109117848B - 一种文本行字符识别方法、装置、介质和电子设备 - Google Patents

一种文本行字符识别方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN109117848B
CN109117848B CN201811041720.7A CN201811041720A CN109117848B CN 109117848 B CN109117848 B CN 109117848B CN 201811041720 A CN201811041720 A CN 201811041720A CN 109117848 B CN109117848 B CN 109117848B
Authority
CN
China
Prior art keywords
character
image
text line
detected
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811041720.7A
Other languages
English (en)
Other versions
CN109117848A (zh
Inventor
马文伟
刘设伟
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201811041720.7A priority Critical patent/CN109117848B/zh
Publication of CN109117848A publication Critical patent/CN109117848A/zh
Application granted granted Critical
Publication of CN109117848B publication Critical patent/CN109117848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种文本行字符识别方法、装置、介质和电子设备,该方法包括:识别待测图像的字符区域和字符间隙区域;剔除字符间隙区域,并按照字符区域的排布顺序拼接字符区域得到新待测图像;将新待测图像作为文本行字符识别模型的输入,并获取文本行字符识别模型识别新待测图像所输出的文本行字符;其中,文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。本发明在训练模型时使所训练的模型能够收敛,这就可以在模型测试时,缓解甚至避免将复杂纹理背景误识别为字符的问题,提高字符识别精度。

Description

一种文本行字符识别方法、装置、介质和电子设备
技术领域
本发明涉及图像处理技术领域,更具体地说,涉及一种文本行字符识别方法、装置、介质和电子设备。
背景技术
图像中的文本部分常包含图像的重要信息,对图像进行文本识别是实现图像内容理解的基础技术。
现阶段,常以文本行作为识别图像字符的基础。主流方法提出一种将特征提取、序列建模和转录整合到统一框架中的卷积循环神经网络。虽然此类模型在一般字符识别方面表现出较好的性能,但对于具有复杂纹理背景的图像来说,由于容易将复杂纹理背景识别为字符,就会出现误识别的问题。
发明内容
有鉴于此,本发明提供一种文本行字符识别方法、装置、介质和电子设备,以解决现有模型容易将复杂纹理背景识别为字符从而出现误识别的问题。技术方案如下:
基于本发明实施例的一方面,本发明实施例提供一种文本行字符识别方法,包括:
识别待测图像的字符区域和字符间隙区域;
剔除所述字符间隙区域,并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像;
将所述新待测图像作为文本行字符识别模型的输入,并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符;其中,所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。
可选的,所述识别待测图像的字符区域和字符间隙区域,包括:
检测待测图像的文本行区域;
基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像;
采用垂直投影方法对所述二值图像进行字符分割,并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域。
可选的,所述检测待测图像的文本行区域,包括:
利用所述MSER算法检测待测图像的文本行区域。
可选的,所述检测待测图像的文本行区域,包括:
利用连接文字提议网络CTPN算法检测待测图像的文本行区域。
可选的,获取去除部分纹理背景的样本图像的过程,包括:
利用样本合成方法获取原始样本图像;
对所述原始样本图像中的单个字符添加坐标信息,并按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域;
剔除所述样本字符间隙区域,并按照所述样本字符区域的排布顺序拼接所述样本字符区域得到去除部分纹理背景的样本图像。
可选的,在所述按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域之前,所述方法还包括:
按照所述坐标信息对所述原始样本图像中的单个字符进行外扩和/或扰动处理。
可选的,所述文本行字符识别模型识别所述新待测图像输出文本行字符的过程,包括:
所述文本行字符识别模型的卷积层提取所述新待测图像的目标特征序列;
所述文本行字符识别模型的循环层预测所述目标特征序列的标签分布;
所述文本行字符识别模型的转录层将所述目标特征序列的标签分布转换为字符串序列,并输出最高概率的字符串序列作为文本行字符。
基于本发明实施例的再一方面,本发明实施例提供一种文本行字符识别装置,包括:
识别模块,用于识别待测图像的字符区域和字符间隙区域;
剔除拼接模块,用于剔除所述字符间隙区域,并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像;
模型识别模块,用于将所述新待测图像作为文本行字符识别模型的输入,并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符;其中,所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。
基于本发明实施例的再一方面,本发明实施例提供一种存储介质,其上存储有程序,所述程序被处理器执行时实现前文所述文本行字符识别方法。
基于本发明实施例的再一方面,本发明实施例提供一种电子设备,包括:
处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行前文所述文本行字符识别方法。
本发明实施例提供的文本行字符识别方法、装置、介质和电子设备,可以识别待测图像的字符区域和字符间隙区域,由于字符间隙区域属于纹理背景,因此剔除字符间隙区域、重新拼接字符区域所得的新待测图像已经去除部分纹理背景。此外,由于文本行字符模型是预先利用去除部分纹理背景的样本图像训练卷积循环神经网络所得到的,因此利用文本行字符识别模型就可以识别新待测图像中的文本行字符。
可以看出,由于本发明在训练模型时在样本图像中去除部分纹理背景区域,可以缓解特征序列与标签信息对应不一致现象,比如样本图像如果有较大的字符间隙时,在此间隙会提取出一些特征就会干扰特征序列与标签序列的对应关系,从而使所训练的模型能够收敛,这就可以在模型测试时,缓解甚至避免将复杂纹理背景误识别为字符的问题,提高字符识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的文本行字符识别方法的方法流程图;
图2为所示出的待测图像示例;
图3为本发明实施例提供的文本行字符识别方法的部分方法流程图;
图4为新待测图像的示例;
图5为本发明实施例提供的文本行字符识别方法的另一部分方法流程图;
图6为本发明实施例提供的文本行字符识别方法的再一部分方法流程图;
图7为本发明实施例提供的文本行字符识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出的文本行区域检测方法可以适用于检测场景图像中文本行字符的情况,可以由智能手机、平板电脑或者笔记本等设备来执行。如图1所示,其示出了本发明实施例提供的文本行字符识别方法的方法流程图,包括如下步骤:
S10,识别待测图像的字符区域和字符间隙区域。
待测图像分为背景和字符两部分内容,而字符嵌于背景之上。如图2所示出的待测图像示例,其字符的内容为“姓名代用名”,除去字符部分的剩余部分即为背景部分。可以看出,字符区域为虚线框所框区域,而字符区域之间的区域则为字符间隙区域,即实线框所框区域。
在具体实现过程中,步骤S10“识别待测图像的字符区域和字符间隙区域”的过程,可以具体采用以下步骤,方法流程图如图3所示:
S101,检测待测图像的文本行区域。
在执行步骤S101的过程中,可以采用MSER(Maximally Sta ble ExtrenalRegion,最大稳定极值)算法检测待测图像的文本行区域。以下对MSER算法进行简单介绍:
MSER算法,是由Matas等人提出的一种仿射特征区域提取算法,其提取的MSER区域内部灰度几乎不变,但是可以和背景产生十分强烈的对比,并且该MSER区域能够在多重阈值下保持形状不变。一般文本内部的灰度变化都比较小,而文本和背景的灰度对比度则比较大,符合最大极值稳定区域的特征,利用这一特性可以提取颜色聚类无法得到的部分连通域。
当然,由于在文本行区域检测方面,CTPN(Connectionist Text ProposalNetwork,连接文字提议网络)算法整体性能优于MSER算法,因此,为提高检测准确率,还可以采用CTPN算法检测待测图像的文本行区域。
以下对利用CTPN算法对待测图像进行文本行区域检测的过程进行介绍:
首先利用VGG网络对待测图像进行特征提取得到feature map特征图,再通过预设固定宽度,不同高度的Ancanchor(候选区域),对之前提取的feature map特征图上的每一个像素进行预测,预测它是否为文字以及所对应文字的坐标,同时在网络中加入LSTM长短期记忆网络,由于MSER区域中的文字大多宽度较大,加入LSTM可以更好地利用文字区域周围的信息,使得文本的连续性语义信息在训练和测试中得到应用,最终得到较高准确率较快速度的检测结果,即待测图像中文字所在的区域。
S102,基于最大稳定极值MSER算法对文本行区域进行二值化处理得到二值图像。
在执行步骤S102的过程中,首先对文本行区域进行灰度转换,得到灰度图像和取反值灰度图像;进而根据对灰度图像内的区域点生成MSER+结果图像,根据取反值灰度图像内的区域点生成MSER-结果图像;再将MSER+结果图像和MSER-结果图像进行位与操作,得到二值图像。
S103,采用垂直投影方法对二值图像进行字符分割,并结合字符分割结果确定待测图像的字符区域和字符间隙区域。
在执行步骤S103的过程中,由于字符部分和纹理背景部分在二值图像中分别体现为白色像素和黑色像素,因此对二值图像做垂直投影所得到的直方图会出现一定规律的连续跳变。通过对直方图进行分析得到诸如峰距、上升点、下降点以及波谷宽度等参数,从而结合这些参数计算找出字符分割的阈值。最后以该阈值作为分割间距对待测图像进行分割。
S20,剔除字符间隙区域,并按照字符区域的排布顺序拼接字符区域得到新待测图像。
在执行步骤S20的过程中,将字符间隙区域从待测图像中剔除,并按照字符区域在待测图像中原有的排布顺序拼接为新待测图像。图4为新待测图像的示例。
S30,将新待测图像作为文本行字符识别模型的输入,并获取文本行字符识别模型识别新待测图像所输出的文本行字符;其中,文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。
首先,简单介绍卷积循环神经网络:
卷积循环神经网络(以下简称CRNN)的网络架构包括三部分:1)卷积层,从输入图像中提取特征序列;2)循环层,预测每一帧的标签分布;3)转录层,将每一帧的预测变为最终的标签序列。
在使用样本图像训练CRNN的过程中,将样本图像作为CRNN的输入,卷积层自动从样本图像中提取特征序列。循环层对卷积层输出的特征序列的每一帧进行预测,输出样本分布;转录层将样本分布转换为标签序列,并使用一个loss函数将误差反向传播回卷积层。这样就可以跟卷积层联合训练,实现了端对端的训练。
在本发明的实施例中,卷积层从样本图像中进行特征序列的提取,具体为:在CRNN模型中,通过采用标准CNN模型(去除全连接层)中的卷积层和最大池化层来构造卷积层的组件,这样的组件用于从输入图像中提取序列特征表示。由于卷积层、最大池化层和元素激活函数在局部区域上执行,因此它们是平移不变的。因此,特征图的每列对应于原始图像的一个矩形区域,并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。
在本发明的实施例中,循环层预测每一帧的标签分布,具体为:由于LSTM是定向的,它只使用过去的上下文。然而,在基于图像的序列中,两个方向的上下文是相互有用且互补的。因此,本发明的一个实施例中,将两个LSTM(一个向前和一个向后)组合到一个双向LSTM中。此外,在深度双向LSTM中堆叠多个双向LSTM结果。CRNN网络架构中将一个深度双向循环神经网络(BLSTM)建立在卷积层的顶部,作为循环层。循环层预测特征序列x=x1,...,xT中每一帧xt的标签分布yt
在本发明的实施例中,转录层将每一帧的预测变为最终的标签序列,具体为:转录是将RNN所做的每帧预测转换成标签序列的过程。数学上,转录是根据每帧预测找到具有最高概率的标签序列。本发明采用联接时间分裂(CTC)层中定义的条件概率。按照每帧预测y=y1,...,yT对标签序列l定义概率,并忽略l中每个标签所在的位置。因此,当使用这种概率的负对数似然作为训练网络的目标函数时,只需要图像及其相应的标签序列,避免了单个字符位置的标注。
条件概率的公式简单描述如下:输入是序列y=y1,...,yT,其中T是序列长度。每个yt∈R|L|是在集合L=L∪上的概率分布,其中L包含了任务中的所有标签,以及由-表示的“空白”标签。序列到序列的映射函数B定义在序列π∈L'T上,其中T是长度。B将π映射到I上,首先删除重复的标签,然后删除空白标签。其中,条件概率被定义为由B映射到I上的所有π的概率之和:
Figure BDA0001792274320000071
π的概率定义为
Figure BDA0001792274320000072
Figure BDA0001792274320000073
是时刻t时有标签πt的概率。
在这种模式下,将具有方程(1)中定义的最高概率的序列I*作为预测。由于不存在用于精确求解的可行方法,通过I*=B(arg maxπp(π|y))求解I*,即在每个时间戳t采用最大概率的标签πt,并将结果序列映射到I*
d.网络训练:χ={Ii,Ii}i表示训练集,Ii是训练图像,Ii是真实的标签序列。目标是最小化真实条件概率的负对数似然:
Figure BDA0001792274320000074
yi是循环层和卷积层从Ii生成的序列。目标函数直接从图像和它的真实标签序列计算代价值。因此,网络可以在成对的图像和序列上进行端对端训练,去除了在训练图像中手动标记所有单独组件的过程。
网络使用随机梯度下降(SGD)进行训练。梯度由反向传播算法计算。特别地,在转录层中,误差使用前向算法进行反向传播。在循环层中,应用随时间反向传播(BPTT)来计算误差。
为了优化,使用ADADELTA自动计算每维的学习率。与传统的动量方法相比,ADADELTA不需要手动设置学习率,我们使用ADADELTA的优化收敛速度比动量方法快。
其次,对于步骤S30中“获取去除部分纹理背景的样本图像”的过程进行说明,包括如下步骤,方法流程图如图5所示:
S301,利用样本合成方法获取原始样本图像。
在执行步骤S301的过程中,可以从一些任务场景的真实图像或者自然场景图中随机截取非文字区域的图像作为背景图像,再获取背景图像像素级别的深度图像,并在深度图像中拟合出垂直于法向量的平面,最后将字符安置在该平面上就可以使字符较为自然的融入背景图像中了,即可得到原始样本图像。
S302,对原始样本图像中的单个字符添加坐标信息,并按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域。
在执行步骤S302的过程中,在为原始样本图像中的单个字符添加坐标信息之后,即可确定包围单个字符的矩形框的矩形坐标信息,从而确定样本字符区域,而样本字符区域之间的区域则为样本字符间隙区域。
S303,剔除样本字符间隙区域,并按照样本字符区域的排布顺序拼接样本字符区域得到去除部分纹理背景的样本图像。
在执行步骤S303的过程中,将样本字符间隙区域从原始样本图像中剔除,并按照样本字符区域在原始样本图像中原有的排布顺序拼接为样本图像。这样合成的样本图像中字符间只有少量的背景,避免CRNN训练过程中背景干扰影响梯度爆炸或消失现象。
此外,为提高合成样本的多样性以及更易体现算法的鲁棒性,在执行步骤S302中“按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域”之前,还可以包括如下步骤,此时方法流程图如图6所示:
按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理。
需要说明的是,对单个字符进行的外扩操作为坐标轻微外扩,而扰动操作则可以为随机扰动,比如,向顺时针旋转45°。
另外,结合上述文本行字符识别模型的训练过程,对于步骤S30中“文本行字符识别模型识别新待测图像输出文本行字符”的过程进行说明,包括如下步骤:
文本行字符识别模型的卷积层提取新待测图像的目标特征序列;文本行字符识别模型的循环层预测目标特征序列的标签分布;文本行字符识别模型的转录层将目标特征序列的标签分布转换为字符串序列,并输出最高概率的字符串序列作为文本行字符。
本发明实施例提供的文本行字符识别方法,在训练模型时在样本图像中去除部分纹理背景区域,可以缓解特征序列与标签信息对应不一致现象,比如样本图像如果有较大的字符间隙时,在此间隙会提取出一些特征就会干扰特征序列与标签序列的对应关系,从而使所训练的模型能够收敛,这就可以在模型测试时,缓解甚至避免将复杂纹理背景误识别为字符的问题,提高字符识别精度。
基于前文本发明实施例提供的一种文本行字符识别方法,本发明实施例还提供一种文本行字符识别装置,如图7所示,该装置包括:
识别模块10,用于识别待测图像的字符区域和字符间隙区域;
剔除拼接模块20,用于剔除字符间隙区域,并按照字符区域的排布顺序拼接字符区域得到新待测图像;
模型识别模块30,用于将新待测图像作为文本行字符识别模型的输入,并获取文本行字符识别模型识别新待测图像所输出的文本行字符;其中,文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。
可选的,识别模块10,具体用于:
检测待测图像的文本行区域;基于最大稳定极值MSER算法对文本行区域进行二值化处理得到二值图像;采用垂直投影方法对二值图像进行字符分割,并结合字符分割结果确定待测图像的字符区域和字符间隙区域。
可选的,识别模块10检测待测图像的文本行区域,包括:
利用MSER算法检测待测图像的文本行区域。
可选的,识别模块10检测待测图像的文本行区域,包括:
利用连接文字提议网络CTPN算法检测待测图像的文本行区域。
可选的,模型识别模块30获取去除部分纹理背景的样本图像的过程,包括:
利用样本合成方法获取原始样本图像;对原始样本图像中的单个字符添加坐标信息,并按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域;剔除样本字符间隙区域,并按照样本字符区域的排布顺序拼接样本字符区域得到去除部分纹理背景的样本图像。
可选的,模型识别模块30在按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域之前,还按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理。
可选的,模型识别模块30中文本行字符识别模型识别新待测图像输出文本行字符的过程,包括:
文本行字符识别模型的卷积层提取新待测图像的目标特征序列;文本行字符识别模型的循环层预测目标特征序列的标签分布;文本行字符识别模型的转录层将目标特征序列的标签分布转换为字符串序列,并输出最高概率的字符串序列作为文本行字符。
本发明实施例提供的文本行字符识别装置,在训练模型时在样本图像中去除部分纹理背景区域,可以缓解特征序列与标签信息对应不一致现象,比如样本图像如果有较大的字符间隙时,在此间隙会提取出一些特征就会干扰特征序列与标签序列的对应关系,从而使所训练的模型能够收敛,这就可以在模型测试时,缓解甚至避免将复杂纹理背景误识别为字符的问题,提高字符识别精度。
文本行字符识别装置包括处理器和存储器,上述识别模块10、剔除拼接模块20和模型识别模块30均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现文本行字符识别。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现前文所述文本行字符识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述文本行字符识别方法。
本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
识别待测图像的字符区域和字符间隙区域;
剔除所述字符间隙区域,并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像;
将所述新待测图像作为文本行字符识别模型的输入,并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符;其中,所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。
可选的,所述识别待测图像的字符区域和字符间隙区域,包括:
检测待测图像的文本行区域;
基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像;
采用垂直投影方法对所述二值图像进行字符分割,并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域。
可选的,所述检测待测图像的文本行区域,包括:
利用所述MSER算法检测待测图像的文本行区域。
可选的,所述检测待测图像的文本行区域,包括:
利用连接文字提议网络CTPN算法检测待测图像的文本行区域。
可选的,获取去除部分纹理背景的样本图像的过程,包括:
利用样本合成方法获取原始样本图像;
对所述原始样本图像中的单个字符添加坐标信息,并按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域;
剔除所述样本字符间隙区域,并按照所述样本字符区域的排布顺序拼接所述样本字符区域得到去除部分纹理背景的样本图像。
可选的,在所述按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域之前,所述方法还包括:
按照所述坐标信息对所述原始样本图像中的单个字符进行外扩和/或扰动处理。
可选的,所述文本行字符识别模型识别所述新待测图像输出文本行字符的过程,包括:
所述文本行字符识别模型的卷积层提取所述新待测图像的目标特征序列;
所述文本行字符识别模型的循环层预测所述目标特征序列的标签分布;
所述文本行字符识别模型的转录层将所述目标特征序列的标签分布转换为字符串序列,并输出最高概率的字符串序列作为文本行字符。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
识别待测图像的字符区域和字符间隙区域;
剔除所述字符间隙区域,并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像;
将所述新待测图像作为文本行字符识别模型的输入,并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符;其中,所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。
可选的,所述识别待测图像的字符区域和字符间隙区域,包括:
检测待测图像的文本行区域;
基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像;
采用垂直投影方法对所述二值图像进行字符分割,并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域。
可选的,所述检测待测图像的文本行区域,包括:
利用所述MSER算法检测待测图像的文本行区域。
可选的,所述检测待测图像的文本行区域,包括:
利用连接文字提议网络CTPN算法检测待测图像的文本行区域。
可选的,获取去除部分纹理背景的样本图像的过程,包括:
利用样本合成方法获取原始样本图像;
对所述原始样本图像中的单个字符添加坐标信息,并按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域;
剔除所述样本字符间隙区域,并按照所述样本字符区域的排布顺序拼接所述样本字符区域得到去除部分纹理背景的样本图像。
可选的,在所述按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域之前,所述方法还包括:
按照所述坐标信息对所述原始样本图像中的单个字符进行外扩和/或扰动处理。
可选的,所述文本行字符识别模型识别所述新待测图像输出文本行字符的过程,包括:
所述文本行字符识别模型的卷积层提取所述新待测图像的目标特征序列;
所述文本行字符识别模型的循环层预测所述目标特征序列的标签分布;
所述文本行字符识别模型的转录层将所述目标特征序列的标签分布转换为字符串序列,并输出最高概率的字符串序列作为文本行字符。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种文本行字符识别方法,其特征在于,包括:
识别待测图像的字符区域和字符间隙区域,包括:检测待测图像的文本行区域;基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像;采用垂直投影方法对所述二值图像进行字符分割,并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域;
剔除所述字符间隙区域,并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像;
将所述新待测图像作为文本行字符识别模型的输入,并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符;其中,所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的;
获取去除部分纹理背景的样本图像的过程,包括:利用样本合成方法获取原始样本图像包括:随机截取非文字区域的图像作为背景图像,获取所述背景图像像素级别的深度图像,并在所述深度图像中拟合出垂直于法向量的平面,最后将字符安置在所述平面上;对所述原始样本图像中的单个字符添加坐标信息,按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理,并按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域;剔除所述样本字符间隙区域,并按照所述样本字符区域的排布顺序拼接所述样本字符区域得到去除部分纹理背景的样本图像。
2.根据权利要求1所述的方法,其特征在于,所述检测待测图像的文本行区域,包括:
利用所述MSER算法检测待测图像的文本行区域。
3.根据权利要求1所述的方法,其特征在于,所述检测待测图像的文本行区域,包括:
利用连接文字提议网络CTPN算法检测待测图像的文本行区域。
4.根据权利要求1所述的方法,其特征在于,所述文本行字符识别模型识别所述新待测图像输出文本行字符的过程,包括:
所述文本行字符识别模型的卷积层提取所述新待测图像的目标特征序列;
所述文本行字符识别模型的循环层预测所述目标特征序列的标签分布;
所述文本行字符识别模型的转录层将所述目标特征序列的标签分布转换为字符串序列,并输出最高概率的字符串序列作为文本行字符。
5.一种文本行字符识别装置,其特征在于,包括:
识别模块,用于识别待测图像的字符区域和字符间隙区域;
所述识别模块,具体用于:检测待测图像的文本行区域;基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像;采用垂直投影方法对所述二值图像进行字符分割,并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域;
剔除拼接模块,用于剔除所述字符间隙区域,并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像;
模型识别模块,用于将所述新待测图像作为文本行字符识别模型的输入,并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符;其中,所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的;
所述模型识别模块获取去除部分纹理背景的样本图像的过程,包括:
利用样本合成方法获取原始样本图像包括:随机截取非文字区域的图像作为背景图像,获取所述背景图像像素级别的深度图像,并在所述深度图像中拟合出垂直于法向量的平面,最后将字符安置在所述平面上;对原始样本图像中的单个字符添加坐标信息,按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理,并按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域;剔除样本字符间隙区域,并按照样本字符区域的排布顺序拼接样本字符区域得到去除部分纹理背景的样本图像。
6.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现权利要求1至4中任一项所述文本行字符识别方法。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至4中任一项所述文本行字符识别方法。
CN201811041720.7A 2018-09-07 2018-09-07 一种文本行字符识别方法、装置、介质和电子设备 Active CN109117848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811041720.7A CN109117848B (zh) 2018-09-07 2018-09-07 一种文本行字符识别方法、装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811041720.7A CN109117848B (zh) 2018-09-07 2018-09-07 一种文本行字符识别方法、装置、介质和电子设备

Publications (2)

Publication Number Publication Date
CN109117848A CN109117848A (zh) 2019-01-01
CN109117848B true CN109117848B (zh) 2022-11-18

Family

ID=64858910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811041720.7A Active CN109117848B (zh) 2018-09-07 2018-09-07 一种文本行字符识别方法、装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN109117848B (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858542B (zh) * 2019-01-25 2021-03-19 广州云测信息技术有限公司 一种字符识别方法和装置
CN111914597B (zh) * 2019-05-09 2024-03-15 杭州睿琪软件有限公司 一种文档对照识别方法、装置、电子设备和可读存储介质
CN110276881A (zh) * 2019-05-10 2019-09-24 广东工业大学 一种基于卷积循环神经网络的纸币序列号识别方法
CN110245572A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 区域内容识别方法、装置、计算机设备和存储介质
CN111985469B (zh) * 2019-05-22 2024-03-19 珠海金山办公软件有限公司 一种图像中文字的识别方法、装置及电子设备
CN110210478A (zh) * 2019-06-04 2019-09-06 天津大学 一种商品外包装文字识别方法
CN110210479A (zh) * 2019-06-04 2019-09-06 天津大学 一种垃圾物品上的文字信息提取方法
CN110414519B (zh) * 2019-06-27 2023-11-14 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置、存储介质
CN110443140B (zh) * 2019-07-05 2023-10-03 平安科技(深圳)有限公司 文本定位的方法、装置、计算机设备及存储介质
CN110533027B (zh) * 2019-07-22 2022-09-02 杭州未名信科科技有限公司 一种基于移动设备的文本检测和识别方法与系统
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法
CN110516676A (zh) * 2019-08-21 2019-11-29 河海大学常州校区 一种基于图像处理的银行卡号识别系统
CN110852324A (zh) * 2019-08-23 2020-02-28 上海撬动网络科技有限公司 一种基于深度神经网络集装箱箱号检测方法
CN110516125B (zh) * 2019-08-28 2020-05-08 拉扎斯网络科技(上海)有限公司 识别异常字符串的方法、装置、设备及可读存储介质
CN111062237A (zh) * 2019-09-05 2020-04-24 商汤国际私人有限公司 识别图像中的序列的方法及装置、电子设备和存储介质
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110610177A (zh) * 2019-09-16 2019-12-24 卓尔智联(武汉)研究院有限公司 字符识别模型的训练方法、字符识别方法及装置
CN111783780B (zh) * 2019-11-18 2024-03-05 北京沃东天骏信息技术有限公司 图像处理方法、装置及计算机可读存储介质
CN110991520B (zh) * 2019-11-29 2023-05-02 汉海信息技术(上海)有限公司 一种生成训练样本的方法以及装置
CN111275046B (zh) * 2020-01-10 2024-04-16 鼎富智能科技有限公司 一种字符图像识别方法、装置、电子设备及存储介质
CN111274891B (zh) * 2020-01-14 2023-05-02 成都潜在人工智能科技有限公司 一种面向简谱图像的音高及对应歌词提取方法及系统
CN111291629A (zh) * 2020-01-17 2020-06-16 平安医疗健康管理股份有限公司 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN111291794A (zh) * 2020-01-21 2020-06-16 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN111414908B (zh) * 2020-03-16 2023-08-29 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN112749690B (zh) * 2020-03-27 2023-09-12 腾讯科技(深圳)有限公司 一种文本检测方法、装置、电子设备和存储介质
CN111461239B (zh) * 2020-04-03 2023-05-09 成都考拉悠然科技有限公司 基于白盒攻击的ctc场景文字识别模型优化方法
CN113496115B (zh) * 2020-04-08 2023-07-28 中国移动通信集团广东有限公司 文件内容比对方法和装置
CN111488883A (zh) * 2020-04-14 2020-08-04 上海眼控科技股份有限公司 车架号识别方法、装置、计算机设备和存储介质
CN113537222A (zh) * 2020-04-17 2021-10-22 阿里巴巴集团控股有限公司 一种数据处理方法、设备及存储介质
CN111665955B (zh) * 2020-04-17 2023-06-27 北京百度网讯科技有限公司 候选字符串的处理方法、装置、电子设备及存储介质
CN111611985A (zh) * 2020-04-23 2020-09-01 中南大学 一种基于模型融合的ocr识别方法
CN111563502B (zh) * 2020-05-09 2023-12-15 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111652093B (zh) * 2020-05-21 2023-10-24 中国工商银行股份有限公司 文本图像处理方法及装置
CN111738255A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于深度学习的路牌文本检测与识别算法
CN111652233B (zh) * 2020-06-03 2023-04-25 哈尔滨工业大学(威海) 一种针对复杂背景的文本验证码自动识别方法
CN111860525B (zh) * 2020-08-06 2022-10-21 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN112036396B (zh) * 2020-09-14 2022-09-02 上海高德威智能交通系统有限公司 船名识别方法、装置、电子设备及计算机可读存储介质
CN112560791B (zh) * 2020-12-28 2022-08-09 苏州科达科技股份有限公司 识别模型的训练方法、识别方法、装置及电子设备
CN112733858B (zh) * 2021-01-08 2021-10-26 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置
CN112733850A (zh) * 2021-01-11 2021-04-30 武汉天恒信息技术有限公司 不动产权证书字符识别方法、装置、设备及存储介质
CN113111871B (zh) * 2021-04-21 2024-04-19 北京金山数字娱乐科技有限公司 文本识别模型的训练方法及装置、文本识别方法及装置
CN113362088A (zh) * 2021-08-10 2021-09-07 中博信息技术研究院有限公司 一种基于crnn的电信行业智能客服图像识别的方法及其系统
CN113642582B (zh) * 2021-08-13 2023-07-25 中国联合网络通信集团有限公司 电表读数识别方法、装置、电子设备和存储介质
CN116266406A (zh) * 2021-12-16 2023-06-20 中移(苏州)软件技术有限公司 字符的坐标提取方法、装置、设备和存储介质
CN115804579B (zh) * 2022-11-21 2024-01-26 江西长冈医疗科技有限公司 一种规范化血压测量的过程控制系统及实现方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151396A (ja) * 1991-11-28 1993-06-18 Fuji Facom Corp 下線付文字の切出方法
WO2001003416A1 (fr) * 1999-07-01 2001-01-11 Sharp Kabushiki Kaisha Dispositif et procede d'elimination de bordure, et dispositif de creation
JP2003256772A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
EP1598770A2 (en) * 2004-05-20 2005-11-23 Microsoft Corporation Low resolution optical character recognition for camera acquired documents
JP2007049627A (ja) * 2005-08-12 2007-02-22 Seiko Epson Corp 合成画像形成システム
CN101398894A (zh) * 2008-06-17 2009-04-01 浙江师范大学 机动车车牌自动识别方法及其实现装置
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus
CN106295643A (zh) * 2016-08-11 2017-01-04 万永秀 机动车车牌自动识别方法
CN106960196A (zh) * 2017-03-29 2017-07-18 西安电子科技大学 基于模板匹配和svm的工业视频小数字识别方法
CN107423732A (zh) * 2017-07-26 2017-12-01 大连交通大学 基于Android平台的车辆VIN识别方法
CN108268871A (zh) * 2018-02-01 2018-07-10 武汉大学 一种基于卷积神经网络的端到端的车牌识别方法和系统
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014075174A1 (en) * 2012-11-19 2014-05-22 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents
RU2014113049A (ru) * 2014-04-03 2015-10-10 ЭлЭсАй Корпорейшн Процессор изображений, содержащий систему распознавания жестов со слежением за объектом на основании вычислительных признаков контуров для двух или более объектов
CN106446896B (zh) * 2015-08-04 2020-02-18 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN105184292B (zh) * 2015-08-26 2018-08-03 海南云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
EP3200123A1 (de) * 2016-01-28 2017-08-02 Siemens Aktiengesellschaft Texterkennung
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN108229506A (zh) * 2016-12-13 2018-06-29 上海安维尔信息科技股份有限公司 基于层次聚类和深度学习的箱号识别方法
CN107067006B (zh) * 2017-04-20 2022-03-18 金电联行(北京)信息技术有限公司 一种服务于数据采集的验证码识别方法及系统
CN107862303B (zh) * 2017-11-30 2019-04-26 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151396A (ja) * 1991-11-28 1993-06-18 Fuji Facom Corp 下線付文字の切出方法
WO2001003416A1 (fr) * 1999-07-01 2001-01-11 Sharp Kabushiki Kaisha Dispositif et procede d'elimination de bordure, et dispositif de creation
JP2003256772A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
EP1598770A2 (en) * 2004-05-20 2005-11-23 Microsoft Corporation Low resolution optical character recognition for camera acquired documents
JP2007049627A (ja) * 2005-08-12 2007-02-22 Seiko Epson Corp 合成画像形成システム
CN101398894A (zh) * 2008-06-17 2009-04-01 浙江师范大学 机动车车牌自动识别方法及其实现装置
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus
CN106295643A (zh) * 2016-08-11 2017-01-04 万永秀 机动车车牌自动识别方法
CN106960196A (zh) * 2017-03-29 2017-07-18 西安电子科技大学 基于模板匹配和svm的工业视频小数字识别方法
CN107423732A (zh) * 2017-07-26 2017-12-01 大连交通大学 基于Android平台的车辆VIN识别方法
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108268871A (zh) * 2018-02-01 2018-07-10 武汉大学 一种基于卷积神经网络的端到端的车牌识别方法和系统
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Handwritten Character Recognition of Multi-sample based on BP Artificial Neural Network;Dan,L.I等;《Computer Engineering & Software》;20160731;第37卷(第7期);第103-108页 *
复杂背景下人民币冠字号码识别技术研究;冯博远;《中国博士学位论文全文数据库 信息科技辑》;20160415(第4期);第I138-24页 *

Also Published As

Publication number Publication date
CN109117848A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN108304835B (zh) 文字检测方法和装置
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
US20190294910A1 (en) Text image processing using word spacing equalization for icr system employing artificial neural network
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN116431847B (zh) 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN111523537A (zh) 一种文字识别方法、存储介质及系统
He et al. Aggregating local context for accurate scene text detection
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN114359932B (zh) 文本检测方法、文本识别方法及装置
Naosekpam et al. Multi-lingual Indian text detector for mobile devices
CN111444807A (zh) 目标检测方法、装置、电子设备和计算机可读介质
CN113496115B (zh) 文件内容比对方法和装置
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
CN111242114A (zh) 文字识别方法及装置
Yu et al. Reading digital video clocks
CN114022684B (zh) 人体姿态估计方法及装置
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备
CN109190467A (zh) 一种基于关键点回归的多物体检测方法、系统、终端和存储介质
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant