CN108399419B - 基于二维递归网络的自然场景图像中中文文本识别方法 - Google Patents
基于二维递归网络的自然场景图像中中文文本识别方法 Download PDFInfo
- Publication number
- CN108399419B CN108399419B CN201810072730.0A CN201810072730A CN108399419B CN 108399419 B CN108399419 B CN 108399419B CN 201810072730 A CN201810072730 A CN 201810072730A CN 108399419 B CN108399419 B CN 108399419B
- Authority
- CN
- China
- Prior art keywords
- network
- dimensional recursive
- image
- moment
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000012360 testing method Methods 0.000 claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 26
- 108091026890 Coding region Proteins 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011426 transformation method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000021018 plums Nutrition 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明公开了一种基于二维递归网络的自然场景图像中中文文本识别方法,首先获取训练样本集,对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络进行训练;将测试样本输入训练后的深度卷积网络中,获取到测试样本的特征图;然后将测试样本的特征图输入到训练后的编码用二维递归网络中,得到测试样本的编码特征图;再将测试样本的编码特征图输入训练后的解码用二维递归网络中,得到测试样本各帧图像中每个常用汉字的概率结果;最后进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明方法充分利用了文本图像的空间时间信息与上下文信息,能够避免文本图像预分割问题,提高了识别准确率。
Description
技术领域
本发明属于图像文本分析与识别领域,具体涉及一种基于二维递归网络的自然场景图像中中文文本识别方法。
背景技术
人类大部分的信息都是通过视觉系统获得的,通过视觉系统获取的场景图像除了包含色彩、图案、形状、位置、纹理等丰富的视觉信息,还包含了丰富的文本信息。文本对信息的描述有着准确性、有效性等特点,文本在各种计算机视觉应用中具有十分有用的价值。例如,在图片搜索方面,识别图片中的文字有利于我们更好地对图片分类匹配;在无人驾驶方面,从自然场景中识别出交通指示牌以及其他标志李的文字信息可以辅助驾驶,自然场景下的文字识别在人工智能高速发展的今天,是一个不可或缺的重要发展部分。
自然场景中的文本图像与传统文档图像相比具有明显的不同,在文本图像的颜色、亮度、对比度、背景、形状上两者都有很大的差异,图像中可能包括较强的噪声干扰。传统的文本识别方法已经不再适应场景文本的复杂化、多样化。现有技术中自然场景中文本的检测通常需要对图像文本进行预分割处理,图像的分割处理技术直接影响着自然场景中中文文字的检测精度,并且当部分汉字的结构特征被分在不同特征序列时,将很难识别出来。
近年来利用深度学习网络来解决这一挑战显得更加方便可行,并取得了显著的效果。在深度学习中,基于卷积和一维递归网络的文本识别方法成为目前的主流。但这类方法还是存在一定的缺陷,如图像中文本的旋转、透射等畸变需要通过大量的样本训练来增强网络的识别能力,一维递归网络识别时需要先将二维的特征图转为一维特征序列。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于二维递归网络的自然场景图像中中文文本识别方法,该方法克服了一维递归网络在文本序列识别中输入序列必须保证严格独立性的假设,避免了采用一维递归网络识别过程中进行的降维操作,在识别过程中充分利用了文本图像的空间时间信息与上下文信息,并且能够避免文本图像预分割问题,大大提高了自然场景图像中中文文本的识别准确率。
本发明的目的通过下述技术方案实现:一种基于二维递归网络的自然场景图像中中文文本识别方法,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;
同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;
步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;
步骤S5、将测试样本的编码特征图输入至训练后的解码用二维递归网络中,通过训练后的解码用二维递归网络得到测试样本各帧图像中每个常用汉字的概率结果;
步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字对为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。
优选的,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的特征图;然后输入到编码用二维递归网络,通过编码用二维递归网络得到训练样本的编码特征图;训练样本的编码特征图输入到解码用二维递归网络中,通过解码用二维递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络、训练后的解码用二维递归网络以及训练后的CTC模型。
优选的,所述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:
步骤S1-1、将输入的文本图像转换为灰度图像;
步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像。
更进一步的,所述步骤S2和步骤S3中,深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:
步骤S1-3、利用深度卷积神经网络对步骤S1-2获取到的场景文本图像进行高维特征提取,生成多个特征图,然后将多个特征图进行平均,得到平均特征图作为输出。
更进一步的,所述步骤S1-2,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。
优选的,所述深度卷积神经网络的前两层卷积为可变形卷积层;所述可变形卷积层的计算公式如下:
其中Y(p0)为当前卷积层输出特征图中中心点p0点的卷积结果;R为感受野的大小和扩张,R内每一个元素表示感受野内其他点相对于感受野中心点p0点坐标的偏移;p0+pn+△pn为Y(p0)所对应的卷积区域,△pn为感受野偏置,△pn内的横纵坐标均属于[-1,1]中的小数,pn∈R,pn指的是特征图中中心点p0点对应感受野内的偏移量,p0+pn为特征图中p0点对应感受野中偏移pn后的点;W(pn)为偏移值pn的权值;I(p0+pn+△pn)为Y(p0)所对应的卷积区域内的特征图。
优选的,编码用二维递归网络和解码用二维递归网络均包含2个BiLSTM网络,分别为水平BiLSTM和竖直BiLSTM,每个BiLSTM包含2个LSTM,其中编码用二维递归网络和解码用二维递归网络针对于输入的特征图的操作过程均如下:
步骤S2-1、根据窗口设置扫描输入特征图,产生窗口特征图;
步骤S2-2、首先采用列规则将窗口特征图转化为序列帧,然后将序列帧送入到水平BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;
步骤S2-3、对步骤S2-2中的特征图进行顺时针90度的旋转;
步骤S2-4、对于步骤S2-3旋转后的特征图,首先采用列规则将该特征图转化为序列帧,然后将序列帧送入到竖直BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;
步骤S2-5、对步骤S2-4中获取到的特征图进行逆时针90度旋转。
更进一步的,所述步骤S2-2中,当解码用二维递归网络针对于输入的训练样本的编码特征图以及训练后的解码用二维递归网络针对于输入的测试样本的编码特征图进行解码时,水平BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:
步骤S2-2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以及下一个时刻第t+1个时刻需要解码的编码序列帧ht+1所构成序列H={ht-1,ht,ht+1}的注意力因子:
其中
et,j=vT tanh(W2st-1+Vhj+b),j=t-1,t,t+1;
其中W2,V,v和b均为可训练参数,vT为v矩阵的转置;st-1为水平BiLSTM中隐节点在上一时刻t-1的状态;其中S={h0,h1,...,ht,...,hT′-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T′为编码序列帧的集合中编码序列帧的总数,h0、h1、hT′-1分别为水平BiLSTM在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧;
其中yt-1为水平BiLSTM中隐节点在上一个时刻第t-1个时刻的输出;
步骤S2-2-4;根步骤S2-2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积以及步骤S2-2-3计算的竖直BiLSTM中隐节点在当前时刻第t个时刻的状态st计算得到当前时刻第t个时刻的解码输出结果:
更进一步的,所述步骤S2-4中,当解码用二维递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用二维递归网络针对于输入的测试样本的各编码序列帧进行解码时,竖直BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:
步骤S2-4-1、首先在当前时刻第t个时刻计算各编码序列帧所构成编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的注意力因子:
其中
e′t,j=vT tanh(Ws′t-1+Vh′j+b),j=0.,1,...,T″-1;
其中W,V,v和b均为可训练参数,vT为v矩阵的转置;s′t-1为竖直BiLSTM中隐节点在上一时刻t-1的状态;其中S′={h′0,h′1,...,h′t,...,h′T″-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T″为编码序列帧的集合S′={h′0,h′1,...,h′t,...,h′T″-1}中编码序列帧的总数,h′0至h′T″-1分别为竖直BiLSTM在初始时刻即第0个时刻至第T″-1个时刻需要解码的编码序列帧;
步骤S2-4-2、根据步骤S2-4-1当前时刻第t个时刻计算得到的编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的注意力因子计算在当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权和gt:
步骤S2-4-3、根据步骤S2-4-2计算的当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权和gt计算中竖直BiLSTM中隐节点在当前时刻第t个时刻的状态s′t:
s′t=RNN(y′t-1,gt,s′t-1);
其中y′t-1为竖直BiLSTM在上一个时刻第t-1个时刻的输出;
步骤S2-4-4;根步骤S2-4-2计算的当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权卷积以及步骤S2-4-3计算的竖直BiLSTM中隐节点在当前时刻第t个时刻的状态st′计算得到当前时刻第t个时刻的解码输出结果:
yt′=Generate(st′,gt)。
更进一步的,所述步骤S6中,针对测试样本各帧图像中的每个概率结果进行集束搜索处理的过具体如下:
步骤S6-1、针对于测试样本中各帧图像,从第一帧图像开始进行逐层搜索;其中针对于第一帧图像,比较各个常用汉字的概率结果,选取出概率值最高的K个概率结果;针对于第二针图像进行搜索时,进入步骤S6-2;其中K为一定值;
步骤S6-2、针对于当前帧图像搜索时,进行以下处理:将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘,得到C*K个概率结果,从C*K个概率结果中选取出概率值最高的K个概率结果,然后进入步骤S6-3;其中C为常用汉字字符集的大小,即常用汉字字符集中常用汉字的总数;
步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像,若是,则进入步骤S3-4,若否,则下一帧图像作为当前帧图像,进行步骤S6-2的处理;
步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果,获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果,然后从第一帧图像到最后一帧图像,依次将每帧图像中的该汉字串联成该概率结果的路径;
步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符,若有,则删除;同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符,若有,则删除重复的字符;
步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径,将路径相同的概率结果进行相加合并,然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果,将该概率结果的路径中对应汉字作为最终识别结果。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明一种基于二维递归网络的自然场景图像中中文文本识别方法,先获取到训练样本集,并且为训练样本集中所包括的每个常用汉字设置一个标签;同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,然后将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练,得到训练后的神经网络;在获取到测试样本后,本发明将将测试样本首先输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;然后将测试样本的特征图输入到训练后的编码用二维递归网络中,得到测试样本的编码特征图;再将测试样本的编码特征图输入至训练后的解码用二维递归网络中,得到测试样本各帧图像中每个常用汉字为该帧图像中汉字的概率结果;最后针对于测试样本各帧图像中每个常用汉字对为该帧图像汉字的概率结果进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明使用CTC模型训练网络和后处理方式,能够在文本图像不进行预分割的情况下,克服因部分汉字的结构特征被分割在不同特征序列而造成识别率低的问题;另外本发明中编码和解码采用的均是二维递归网络,能够克服了一维递归网络在文本序列识别中输入序列必须保证严格独立性的假设,避免了采用一维递归网络识别过程中进行的降维操作,在识别过程中充分利用了文本图像的空间时间信息与上下文信息,大大提高了自然场景图像中中文文本的识别准确率,可以应用于图像中文文本信息的自动识读、图像搜索、场景理解等,具有较好的实用价值。
(2)本发明方法中,采用二维递归网络进行编码建模,其中二维递归网络可以有效避免递归网络在训练过程中因输入序列帧的长度过长而造成梯度爆炸和梯度消失等问题,同时又可以有效的分析正反两个方向的上下文关系。另外本发明方法训练过程中采用CTC模型,CTC模型能够支持整个网络模型在输入文本图像和相应的标签序列没有先验对齐的情况下训练,使得本发明方法训练过程更为快速便捷。
(3)本发明方法中,文本图像在输入深度卷积神经网络之前,先进行预处理,将文本图像均变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,因此本发明方法能够在不降低识别率的情况下,实现对任意长度的输入序列进行解码识别。
(4)本发明方法中,所使用的深度卷积神经网络的前两层卷积为可变形卷积层,与普通卷积网络相比,可变形卷积网络在普通卷积网络的基础上增加了二维的感受野偏置,感受野内每一个点均有沿水平和竖直方向的两个偏置,从而改变感受野内点的坐标。可变形卷积网络卷积采样的信息更加集中于图像中的文字像素区域,对输入文本图像中的文字旋转、透射等畸变更加鲁棒。
(5)本发明方法中,编码用二维递归网络和解码用二维递归网络均包含2个BiLSTM网络,分别为水平BiLSTM和竖直BiLSTM,其中水平BiLSTM采用基于改进后的注意力机制的二维递归网络,将其中的注意力因子改进为只和部分编码序列相关因子,由于汉字的识别结果只与其前后两个相邻输入图像中对应的区域有关,因此本发明方法中注意力因子的改进不但不会降低识别的准确率,还能提高水平BiLSTM的解码速度,使得解码的计算过程更加简便。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种基于二维递归网络的自然场景图像中中文文本识别方法,如图1所示,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;在本实施例中常用汉字字符集的大小C为3756,常用汉字字符集中包括3755个一级常用汉字以及1个空字符。
同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;其中,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的特征图;然后输入到编码用二维递归网络,通过编码用二维递归网络得到训练样本的编码特征图;训练样本的编码特征图输入到解码用二维递归网络中,通过解码用二维递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络、训练后的解码用二维递归网络以及训练后的CTC模型。
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;
步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;
步骤S5、将测试样本的编码特征图输入至训练后的解码用二维递归网络中,通过训练后的解码用二维递归网络得到测试样本各帧图像中每个常用汉字的概率结果;
步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字对为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。在本实施例中,集束搜索处理的具体过程如下:
步骤S6-1、针对于测试样本中各帧图像,从第一帧图像开始进行逐层搜索;其中针对于第一帧图像,比较各个常用汉字的概率结果,选取出概率值最高的K个概率结果;针对于第二针图像进行搜索时,进入步骤S6-2;其中K为一定值,可以取[1,C]范围中的其中一个整数值,其中C为常用汉字字符集的大小,常用汉字字符集中常用汉字包括一级常用汉字和空字符;在本实施例中K取10。
步骤S6-2、针对于当前帧图像搜索时,进行以下处理:将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘,得到C*K个概率结果,从C*K个概率结果中选取出概率值最高的K个概率结果,然后进入步骤S6-3;其中C为常用汉字字符集的大小,即常用汉字字符集中常用汉字的总数;
步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像,若是,则进入步骤S3-4,若否,则下一帧图像作为当前帧图像,进行步骤S6-2的处理;
例如针对于第三帧图像进行搜索时,第三帧图像包括C个常用汉字的概率结果,分别为A1,A2,…,AC,而第二帧图像搜索后选取的概率值最高的K个概率结果分别为B1,B2,…,BK,那么第三帧图像中每个常用汉字的概率结果分别与第二帧图像搜索时选取的概率值最高的K个概率结果进行相乘后,将得到A1B1,A1B2,…,A1BK,A2B1,A2B2,…,A2BK,…,ACB1,ACB2,…,ACBK总共C*K个概率结果,则从这C*K个概率结果中选取出概率值最高的K个概率结果。
步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果,获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果,然后从第一帧图像到最后一帧图像,依次将每帧图像中的该汉字串联成该概率结果的路径;
步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符,若有,则删除;同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符,若有,则删除重复的字符;
步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径,将路径相同的概率结果进行相加合并,然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果,将该概率结果的路径中对应汉字作为最终识别结果。
其中图1中的虚线箭头为训练样本训练神经网络的训练过程,实线箭头为测试样本进行测试的过程。
在本实施例中,上述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:
步骤S1-1、将输入的文本图像转换为灰度图像;
步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像。在本实施例中,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。
上述步骤S2和步骤S3中,深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:
步骤S1-3、利用深度卷积神经网络对步骤S1-2获取到的场景文本图像进行高维特征提取,生成多个特征图,然后将多个特征图进行平均,得到平均特征图作为输出。
在本实施例中,如图1所示,深度卷积神经网络的前两层卷积为可变形卷积层;其中可变形卷积层的计算公式如下:
其中Y(p0)为当前卷积层输出特征图中中心点p0点的卷积结果;R为感受野的大小和扩张,R内每一个元素表示感受野内其他点相对于感受野中心点p0点坐标的偏移;p0+pn+△pn为Y(p0)所对应的卷积区域,△pn为感受野偏置,△pn内的横纵坐标均属于[-1,1]中的小数,pn∈R,pn指的是特征图中中心点p0点对应感受野内的偏移量,p0+pn为特征图中p0点对应感受野中偏移pn后的点;W(pn)为偏移值pn的权值;I(p0+pn+△pn)为Y(p0)所对应的卷积区域内的特征图。
在本实施例中,编码用二维递归网络和解码用二维递归网络均包含2个BiLSTM网络,分别为水平BiLSTM和竖直BiLSTM,每个BiLSTM包含2个LSTM,水平BiLSTM和竖直BiLSTM为两个参数不同的网络,水平BiLSTM的输出数目为隐层节点数目,竖直BiLSTM的输出数目为输出节点数目,隐层节点数目和输出节点数目通过2D-BiLSTM的网络参数设置。
其中编码用二维递归网络和解码用二维递归网络针对于输入的特征图的操作过程均如下:
步骤S2-1、根据窗口设置扫描输入特征图,产生窗口特征图;其中扫描窗口大小和步长均为网络设置参数;
步骤S2-2、首先采用列规则将窗口特征图转化为序列帧,然后将序列帧送入到水平BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;
步骤S2-3、对步骤S2-2中的特征图进行顺时针90度的旋转;
步骤S2-4、对于步骤S2-3旋转后的特征图,首先采用列规则将该特征图转化为序列帧,然后将序列帧送入到竖直BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;
步骤S2-5、对步骤S2-4中获取到的特征图进行逆时针90度旋转。
其中在上述步骤S2-2中,当解码用二维递归网络针对于输入的训练样本的编码特征图以及训练后的解码用二维递归网络针对于输入的测试样本的编码特征图进行解码时,水平BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:
步骤S2-2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以及下一个时刻第t+1个时刻需要解码的编码序列帧ht+1所构成序列H={ht-1,ht,ht+1}的注意力因子:
其中
et,j=vTtanh(W2st-1+Vhj+b),j=t-1,t,t+1;
其中W2,V,v和b均为可训练参数,vT为v矩阵的转置;st-1为水平BiLSTM中隐节点在上一时刻t-1的状态;其中S={h0,h1,...,ht,...,hT′-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T′为编码序列帧的集合中编码序列帧的总数,h0、h1、hT′-1分别为水平BiLSTM在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧;
其中yt-1为水平BiLSTM中隐节点在上一个时刻第t-1个时刻的输出;
步骤S2-2-4;根步骤S2-2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积以及步骤S2-2-3计算的竖直BiLSTM中隐节点在当前时刻第t个时刻的状态st计算得到当前时刻第t个时刻的解码输出结果:
上述步骤S2-4中,当解码用二维递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用二维递归网络针对于输入的测试样本的各编码序列帧进行解码时,竖直BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:
步骤S2-4-1、首先在当前时刻第t个时刻计算各编码序列帧所构成编码序列S′={h0′,h1′,...,ht′,...,h′T″-1}的注意力因子:
其中
e′t,j=vT tanh(Ws′t-1+Vh′j+b),j=0.,1,...,T″-1;
其中W,V,v和b均为可训练参数,vT为v矩阵的转置;s′t-1为竖直BiLSTM中隐节点在上一时刻t-1的状态;其中S′={h′0,h′1,...,h′t,...,h′T″-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T″为编码序列帧的集合S′={h′0,h′1,...,h′t,...,h′T″-1}中编码序列帧的总数,h0′至h′T″-1分别为竖直BiLSTM在初始时刻即第0个时刻至第T″-1个时刻需要解码的编码序列帧;
步骤S2-4-2、根据步骤S2-4-1当前时刻第t个时刻计算得到的编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的注意力因子计算在当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权和gt:
步骤S2-4-3、根据步骤S2-4-2计算的当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权和gt计算中竖直BiLSTM中隐节点在当前时刻第t个时刻的状态s′t:
s′t=RNN(y′t-1,gt,s′t-1);
其中y′t-1为竖直BiLSTM在上一个时刻第t-1个时刻的输出;
步骤S2-4-4;根步骤S2-4-2计算的当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权卷积以及步骤S2-4-3计算的竖直BiLSTM中隐节点在当前时刻第t个时刻的状态s′t计算得到当前时刻第t个时刻的解码输出结果:
y′t=Generate(s′t,gt)。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;
同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;
步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;
步骤S5、将测试样本的编码特征图输入至训练后的解码用二维递归网络中,通过训练后的解码用二维递归网络得到测试样本各帧图像中每个常用汉字的概率结果;
步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本;
编码用二维递归网络和解码用二维递归网络均包含2个BiLSTM网络,分别为水平BiLSTM和竖直BiLSTM,每个BiLSTM包含2个LSTM,其中编码用二维递归网络和解码用二维递归网络针对于输入的特征图的操作过程均如下:
步骤S2-1、根据窗口设置扫描输入特征图,产生窗口特征图;
步骤S2-2、首先采用列规则将窗口特征图转化为序列帧,然后将序列帧送入到水平BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;
步骤S2-3、对步骤S2-2中的特征图进行顺时针90度的旋转;
步骤S2-4、对于步骤S2-3旋转后的特征图,首先采用列规则将该特征图转化为序列帧,然后将序列帧送入到竖直BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;
步骤S2-5、对步骤S2-4中获取到的特征图进行逆时针90度旋转。
2.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的特征图;然后输入到编码用二维递归网络,通过编码用二维递归网络得到训练样本的编码特征图;训练样本的编码特征图输入到解码用二维递归网络中,通过解码用二维递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络、训练后的解码用二维递归网络以及训练后的CTC模型。
3.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:
步骤S1-1、将输入的文本图像转换为灰度图像;
步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像。
4.根据权利要求3所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2和步骤S3中,深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:
步骤S1-3、利用深度卷积神经网络对步骤S1-2获取到的场景文本图像进行高维特征提取,生成多个特征图,然后将多个特征图进行平均,得到平均特征图作为输出。
5.根据权利要求4所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S1-2,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。
6.根据权利要求1至4中任一项所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述深度卷积神经网络的前两层卷积为可变形卷积层;所述可变形卷积层的计算公式如下:
其中Y(p0)为当前卷积层输出特征图中中心点p0点的卷积结果;R为感受野的大小和扩张,R内每一个元素表示感受野内其他点相对于感受野中心点p0点坐标的偏移;p0+pn+△pn为Y(p0)所对应的卷积区域,△pn为感受野偏置,△pn内的横纵坐标均属于[-1,1]中的小数,pn∈R,pn指的是特征图中中心点p0点对应感受野内的偏移量,p0+pn为特征图中p0点对应感受野中偏移pn后的点;W(pn)为偏移值pn的权值;I(p0+pn+△pn)为Y(p0)所对应的卷积区域内的特征图。
7.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2-2中,当解码用二维递归网络针对于输入的训练样本的编码特征图以及训练后的解码用二维递归网络针对于输入的测试样本的编码特征图进行解码时,水平BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:
步骤S2-2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以及下一个时刻第t+1个时刻需要解码的编码序列帧ht+1所构成序列H={ht-1,ht,ht+1}的注意力因子:
其中
et,j=vTtanh(W2st-1+Vhj+b),j=t-1,t,t+1;
其中W2,V,v和b均为可训练参数,vT为v矩阵的转置;st-1为水平BiLSTM中隐节点在上一时刻t-1的状态;其中S={h0,h1,...,ht,...,hT′-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T′为编码序列帧的集合中编码序列帧的总数,h0、h1、hT′-1分别为水平BiLSTM在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧;
其中yt-1为水平BiLSTM中隐节点在上一个时刻第t-1个时刻的输出;
步骤S2-2-4;根步骤S2-2-2计算的当前时刻第t个时刻序列H={ht-1,ht,ht+1}的加权卷积以及步骤S2-2-3计算的竖直BiLSTM中隐节点在当前时刻第t个时刻的状态st计算得到当前时刻第t个时刻的解码输出结果:
8.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2-4中,当解码用二维递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用二维递归网络针对于输入的测试样本的各编码序列帧进行解码时,竖直BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:
步骤S2-4-1、首先在当前时刻第t个时刻计算各编码序列帧所构成编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的注意力因子:
其中
e′t,j=vTtanh(Ws′t-1+Vh′j+b),j=0.,1,...,T″-1;
其中W,V,v和b均为可训练参数,vT为v矩阵的转置;s′t-1为竖直BiLSTM中隐节点在上一时刻t-1的状态;其中S′={h′0,h′1,...,h′t,...,h′T″-1}为编码序列帧的集合,集合中各元素即为各编码序列帧,T″为编码序列帧的集合S′={h′0,h′1,...,h′t,...,h′T″-1}中编码序列帧的总数,h0′至h′T″-1分别为竖直BiLSTM在初始时刻即第0个时刻至第T″-1个时刻需要解码的编码序列帧;
步骤S2-4-2、根据步骤S2-4-1当前时刻第t个时刻计算得到的编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的注意力因子计算在当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权和gt:
步骤S2-4-3、根据步骤S2-4-2计算的当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权和gt计算中竖直BiLSTM中隐节点在当前时刻第t个时刻的状态s′t:
s′t=RNN(y′t-1,gt,s′t-1);
其中y′t-1为竖直BiLSTM在上一个时刻第t-1个时刻的输出;
步骤S2-4-4;根步骤S2-4-2计算的当前时刻第t个时刻编码序列S′={h′0,h′1,...,h′t,...,h′T″-1}的加权卷积以及步骤S2-4-3计算的竖直BiLSTM中隐节点在当前时刻第t个时刻的状态s′t计算得到当前时刻第t个时刻的解码输出结果:
y′t=Generate(s′t,gt)。
9.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S6中,针对测试样本各帧图像中的每个概率结果进行集束搜索处理的过程具体如下:
步骤S6-1、针对于测试样本中各帧图像,从第一帧图像开始进行逐层搜索;其中针对于第一帧图像,比较各个常用汉字的概率结果,选取出概率值最高的K个概率结果;针对于第二帧图像进行搜索时,进入步骤S6-2;其中K为一定值;
步骤S6-2、针对于当前帧图像搜索时,进行以下处理:将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘,得到C*K个概率结果,从C*K个概率结果中选取出概率值最高的K个概率结果,然后进入步骤S6-3;其中C为常用汉字字符集的大小,即常用汉字字符集中常用汉字的总数;
步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像,若是,则进入步骤S 3-4,若否,则下一帧图像作为当前帧图像,进行步骤S6-2的处理;
步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果,获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果,然后从第一帧图像到最后一帧图像,依次将每帧图像中的该汉字串联成该概率结果的路径;
步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符,若有,则删除;同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符,若有,则删除重复的字符;
步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径,将路径相同的概率结果进行相加合并,然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果,将该概率结果的路径中对应汉字作为最终识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810072730.0A CN108399419B (zh) | 2018-01-25 | 2018-01-25 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810072730.0A CN108399419B (zh) | 2018-01-25 | 2018-01-25 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108399419A CN108399419A (zh) | 2018-08-14 |
CN108399419B true CN108399419B (zh) | 2021-02-19 |
Family
ID=63094968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810072730.0A Expired - Fee Related CN108399419B (zh) | 2018-01-25 | 2018-01-25 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399419B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117846B (zh) * | 2018-08-22 | 2021-11-16 | 北京旷视科技有限公司 | 一种图像处理方法、装置、电子设备和计算机可读介质 |
CN110942057A (zh) * | 2018-09-25 | 2020-03-31 | 杭州海康威视数字技术股份有限公司 | 一种集装箱箱号识别方法、装置和计算机设备 |
CN109359564B (zh) * | 2018-09-29 | 2022-06-24 | 中山大学 | 一种图像场景图生成方法及装置 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
WO2020093210A1 (zh) * | 2018-11-05 | 2020-05-14 | 中国科学院计算技术研究所 | 基于上下文信息指导的场景分割方法和系统 |
CN111369566B (zh) * | 2018-12-25 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 确定路面消隐点位置的方法、装置、设备及存储介质 |
CN109753909B (zh) * | 2018-12-27 | 2021-08-10 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
CN109886105B (zh) * | 2019-01-15 | 2021-12-14 | 广州图匠数据科技有限公司 | 基于多任务学习的价格牌识别方法、系统及存储介质 |
CN109492627B (zh) * | 2019-01-22 | 2022-11-08 | 华南理工大学 | 一种基于全卷积网络的深度模型的场景文本擦除方法 |
CN109840492B (zh) * | 2019-01-25 | 2022-09-20 | 厦门商集网络科技有限责任公司 | 基于深度学习网络的文档识别方法和终端 |
CN109993164A (zh) * | 2019-03-20 | 2019-07-09 | 上海电力学院 | 一种基于rcrnn神经网络的自然场景文字识别方法 |
CN109977950A (zh) * | 2019-03-22 | 2019-07-05 | 上海电力学院 | 一种基于混合cnn-lstm网络的文字识别方法 |
CN109948714B (zh) * | 2019-03-22 | 2022-11-29 | 华南理工大学 | 基于残差卷积和递归神经网络的中文场景文本行识别方法 |
CN109977861B (zh) * | 2019-03-25 | 2023-06-20 | 中国科学技术大学 | 离线手写体数学公式识别方法 |
CN110135248A (zh) * | 2019-04-03 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
CN110084172B (zh) * | 2019-04-23 | 2022-07-29 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110070042A (zh) * | 2019-04-23 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 文字识别方法、装置和电子设备 |
CN110378334B (zh) * | 2019-06-14 | 2023-04-18 | 华南理工大学 | 一种基于二维特征注意力机制的自然场景文本识别方法 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110427852B (zh) * | 2019-07-24 | 2022-04-15 | 北京旷视科技有限公司 | 文字识别方法、装置、计算机设备和存储介质 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及系统 |
CN110738262B (zh) * | 2019-10-16 | 2022-11-11 | 北京市商汤科技开发有限公司 | 文本识别方法和相关产品 |
CN111160348A (zh) * | 2019-11-20 | 2020-05-15 | 中国科学院深圳先进技术研究院 | 自然场景的文本识别方法、存储装置和计算机设备 |
CN111259773A (zh) * | 2020-01-13 | 2020-06-09 | 中国科学院重庆绿色智能技术研究院 | 一种基于双向解码的不规则文本行识别方法及系统 |
CN111291661B (zh) * | 2020-01-21 | 2023-10-27 | 上海万物新生环保科技集团有限公司 | 一种屏幕中图标的文本内容的识别方法及设备 |
CN112036290B (zh) * | 2020-08-27 | 2023-11-03 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
CN114359679A (zh) * | 2020-09-30 | 2022-04-15 | 京东方科技集团股份有限公司 | 文本识别方法和文本识别系统 |
CN112149619B (zh) * | 2020-10-14 | 2024-03-15 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN113781440B (zh) * | 2020-11-25 | 2022-07-29 | 北京医准智能科技有限公司 | 超声视频病灶检测方法及装置 |
CN113239825B (zh) * | 2021-05-19 | 2022-08-19 | 四川中烟工业有限责任公司 | 一种复杂场景下高精度烟草甲虫检测方法 |
CN114155527A (zh) * | 2021-11-12 | 2022-03-08 | 虹软科技股份有限公司 | 一种场景文本识别方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
CN107292319A (zh) * | 2017-08-04 | 2017-10-24 | 广东工业大学 | 一种基于可变形卷积层的特征图像提取的方法及装置 |
-
2018
- 2018-01-25 CN CN201810072730.0A patent/CN108399419B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
CN107292319A (zh) * | 2017-08-04 | 2017-10-24 | 广东工业大学 | 一种基于可变形卷积层的特征图像提取的方法及装置 |
Non-Patent Citations (2)
Title |
---|
"Attention-Based Natural Language Person Retrieval";Tao Zhou等;《 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)》;20170824;全文 * |
"Beam_search集束搜索";是neinei啊;《www.jianshu.com/p/c7aab93b944d》;20171209;第1页第1段-第2页第3段 * |
Also Published As
Publication number | Publication date |
---|---|
CN108399419A (zh) | 2018-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399419B (zh) | 基于二维递归网络的自然场景图像中中文文本识别方法 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN112308860B (zh) | 基于自监督学习的对地观测图像语义分割方法 | |
CN106960206B (zh) | 字符识别方法和字符识别系统 | |
CN112149619B (zh) | 一种基于Transformer模型自然场景文字识别方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN107239730B (zh) | 智能汽车交通标志识别的四元数深度神经网络模型方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113674140B (zh) | 一种物理对抗样本生成方法及系统 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN114187450A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN113221874A (zh) | 基于Gabor卷积和线性稀疏注意力的文字识别系统 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN112258436A (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
CN115376024A (zh) | 一种输电线路电力配件语义分割方法 | |
CN114882524A (zh) | 一种基于全卷积神经网络的单目三维手势估计方法 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN115775316A (zh) | 基于多尺度注意力机制的图像语义分割方法 | |
CN114170304B (zh) | 一种基于多头自注意力和置换注意力的相机定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210219 |
|
CF01 | Termination of patent right due to non-payment of annual fee |