CN105740909B - 一种基于空间变换的自然场景下文本识别方法 - Google Patents
一种基于空间变换的自然场景下文本识别方法 Download PDFInfo
- Publication number
- CN105740909B CN105740909B CN201610072466.1A CN201610072466A CN105740909B CN 105740909 B CN105740909 B CN 105740909B CN 201610072466 A CN201610072466 A CN 201610072466A CN 105740909 B CN105740909 B CN 105740909B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- itr
- conversion
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于空间变换的自然场景下文本识别方法,首先对训练图像集中的文本图像,获取图像的文本内容,并训练基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络等网络模型;然后利用训练得到的网络模型对待识别图像集中图像进行空间变换,得到变换后的待识别图像;然后计算变换后的待识别图像的特征向量以及预测概率序列,最终获取图像识别的结果。本发明方法文本识别准确率高,且能够克服文本排列不规则等不利因素的影响。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于空间变换的自然场景下文本识别方法。
背景技术
人们在生产和生活中,会接触到大量的自然场景下的文字,像路标、广告牌、产品包装等,这些文字包含着丰富的信息,自动地获取图像中的文字信息可以帮助人们更有效地理解图像,提取这些文字信息具有非常重要的实用价值,对无人驾驶、自动获取地理位置以及基于图像的自动翻译等都有着很强的实用性。自然场景图像背景通常比较复杂,文字分布不规律,且容易受到拍摄角度及光照等因素的影响,因此自然场景中的文本分析一直是计算机视觉技术领域的难点之一。
发明内容
本发明的目的在于提供一种基于空间变换的自然场景下文本识别方法,该方法文本识别准确率高,适应能力强。
为实现上述目的,按照本发明的一个方面,提供了一种基于空间变换的自然场景下文本识别方法,包括下述步骤:
(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型:
(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;
具体地,对给定的文本图像,用人工标注的方法获取文本图像中文本的内容;对训练图像集中的所有文本图像都进行标注,就可以得到训练数据集,记为其中Itri表示训练图像集中的第i张图像,Ltri表示图像Itri中的文本内容,ltri,t表示Ltri中的第t个字符,Ttri表示Ltri中字符个数,Ntr为训练图像个数;
(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;
(1.2.1)对训练图像Itr,在图像上取两条平行的线段,线段的端点都在图像的左右边界上,在这两条线段上分别等间距的取K/2个点作为基准点,其中K为设置的基准点个数,这样就可以得到K个初始化的基准点,将这些基准点的坐标保存在基准点坐标矩阵Ctr中,记为Ctr=[ctr1,...,ctrK],其中坐标系的原点为图像的中点,ctrk表示第k个基准点,且ctrk=[xctrk,yctrk]T,xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横纵坐标,xctrk∈[-1,1],yctrk∈[-1,1],上标T表示矩阵转置;
(1.2.2)以卷积神经网络作为图像基准点定位网络,该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层;根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量,其中权重参数均为0,基准点对应的偏置量为1,其他的偏置量均为0;
(1.2.3)对训练图像Itr,令图像Itr′为Itr经过变换后的图像,且变换后图像的宽度和高度分别为Wf和Hf,均为固定的值,定义变换后的图像的基准点坐标矩阵为Ctr′=[ctr′1,...,ctr′K],其中K为基准点的个数,变换后的图像中的基准点与原训练图像中的基准点是一一对应的,且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上,其中第ktr个基准点ctr′ktr=[xctr′ktr,yctr′ktr]T,ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr,xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标,xctr′ktr∈[-1,1],yctr′ktr∈[-1,1];
(1.2.4)计算薄板样条函数转换矩阵Tps,记为:
其中Os为1×K的矩阵,且Os中所有元素的值均为1,Ctr′为变换后的图像的基准点坐标矩阵,Zs为3×3的矩阵,且Zs中所有元素的值均为0,R为K×K的矩阵,且其第row行、第col列的元素值rrow,col为训练图像Itr的第row个基准点Ctrrow和变换后的图像Itr′的第col个基准点Ctr′col之间的欧式距离,上标T表示矩阵转置,K为基准点的个数,则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A=[a1,a2,a3]T,B=[b1,b2,b3]T,F=[f1,...,fK]T,G=[g1,...,gK]T,其中矩阵A、B、F、G中的元素为转换参数,转换参数矩阵计算方程为:
CtrT=TpsPa
解该方程即可得到转换参数矩阵Pa,对变换后的图像Itr′上的一个点ptr′=[xptr′,yptr′]T,计算其对应于原始训练图像Itr的点ptr=[xptr,yptr]T,其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标,xptr和yptr分别表示点ptr在Itr的横纵坐标,计算公式为:
ptr=PaTptr″,
ptr″=[1,xptr′,yptr′,rtr′1,...,rtr′K]T,
其中dtrktr表示点ptr′与Itr′的第ktr个基准点ctr′ktr之间的欧式距离,对图像Itr′中的每个点都执行上述运算,就可以得到Itr′上每个点与图像Itr中点的对应关系;
(1.2.5)对图像Itr′中的每个点ptr′,通过步骤(1.2.4)可以计算出其在原始图像Itr中对应的点ptr,利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值,这样就可以得到原始训练图相Itr经过变换后的图像Itr′;
(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入,经过由卷积层构成的图像预处理网络,经过图像预处理网络可以得到D个Wf×Hf的特征图,其中D为常数,Wf和Hf分别表示预设的变换后图像的宽度和高度;对特征图的每一列,将其每个像素在D个特征图上对应的值拼接起来,可以组成一个D×Hf的特征向量,一共可以得到Wf个D×Hf的特征向量;然后以双向长短程记忆网络作为图像编码器网络,这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr={Xtr1,...,XtrWf},其中Xtrwtr表示图像Itr′第wtr列的特征向量;
(1.2.7)以门限递归单元网络构建特征解码器网络,特征解码由Td个过程构成,其中Td表示特征解码器网络循环次数,特征解码的第td步具体为:首先计算权重向量αtd,计算方法如下:
etd,wtr=vaT tanh(Wastd-1+UaXtrwtr)
其中,αtd,wtr表示权重向量αtd的第wtr维的值,Wf表示预设的变换后图像的宽度,va、Wa、Ua为训练得到的参数矩阵,std-1表示解码过程第td-1步的输出,Xtrwtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量,αtd是一个Wf维的向量;然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量,记为:
其中αtd,wtr表示权重向量αtd的第wtr维的值,Xtrwtr表示步骤(1.2.6)中得到的图像表示序列PItr={Xtr1,...,XtrWf}中的第wtr个向量;然后以得到的上下文关系特征向量otd、特征解码过程第td-1步的输出std-1以及预测的字符l′td-1为输入,经过该特征解码过程,可以得到输出std,然后将std输入到软最大分类器进行分类,即可得到预测的概率分布ytd;
(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起,即为文本识别的网络,记为级联网络,利用反向传导的方法对该级联网络进行训练,可以得到步骤(1.2.2)中的基准点定位网络模型θloc、步骤(1.2.6)中的图像预处理网络模型θconv和图像编码器网络模型θblstm以及步骤(1.2.7)中的特征解码器网络模型θrnn和软最大分类器的模型W,组合在一起即为级联网络的模型,组合在一起即为级联网络的参数,记为θ,该级联网络代价函数为:
其中χ为训练数据集,Itri和Ltri分别表示第i个训练图像及其标注的文本内容,Ttri表示文本内容Ltri中字符的个数,ltri,t表示Ltri中的第t个字符,p(ltri,t|Itri,θ)由级联网络最后输出;
(2)利用基准点定位网络对待识别图像做空间变换:
(2.1)利用基准点定位网络模型计算待识别图像的基准点位置;
具体地,对待识别图像集中的每一张图像Itst,利用步骤(1.2.2)中训练好的基准点定位网络模型θloc,将图像Itst输入到基准点定位网络即可得到基准点的坐标矩阵Ctst=[ctst1,...,ctstK],其中ctstktst=[xtstktst,ytstktst]T表示图像Itst的第ktst个基准点,K为基准点个数,xtstktst和ytstktst分别表示第ktst个基准点的横纵坐标,且xtstktst∈(-1,1),ytstktst∈(-1,1),上标T表示矩阵转置;
(2.2)根据所述待识别图像的基准点位置,利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系;
具体地,对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst,利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系,其中图像Itst′的宽度和高度分别为既定的值Wf和Hf;
(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像;
具体地,根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系,利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值,得到变换后的待识别图像Itst′;
(3)对变换后的待识别图像进行识别:
(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量;
具体地,对步骤(2.3)中获取的变换后的待识别图像Itst′,利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θconv和图像编码器网络模型θblstm,得到图像Itst′的编码,即为图像Itst′的特征向量,记为PItst={Xtst1,...,XtstWf};
(3.2)根据上述待识别图像的特征向量,利用特征解码器网络模型,获取待识别图像的预测概率序列;
具体地,对步骤(3.1)中获取的图像Itst′的特征向量序列PItst={Xtst1,...,XtstWf},利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θrnn和软最大分类器的模型W,获取图像的预测概率分布序列,记为Y={y1,...,yTd},其中Td为步骤(1.2.7)中所述的特征解码的步数;
(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果;
具体地,对于没有词典情况,首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布,取最大概率的字符作为第一个字符,并把第一个字符以及第一步特征解码器网络的状态作为第二步的输入,并计算第二个字符的概率分布,同样的取概率最大的字符作为输出,并与第二步的状态一道作为下一步的输入,依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值,则预测结束,此时输出的字符串即为预测的字符串;对于有词典的情况,对于词典中的每个单词,首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布,并得到单词中第一个字符的概率,然后把单词中第一个字符以及第一步的状态作为第二步的输入,并得到第二步的字符概率分布,并得到单词中第二个字符的概率,依次进行下去,把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率,算出字典中所有单词的概率,取概率最大的单词作为最终的输出。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
1、自然场景下获取的文本经常出现排列不规律的现象,现有的识别方法很难适应文本排列的影响,导致识别准确率非常低;本发明方法通过自动地进行文本空间变换,能够在一些不规则的文字上去的更好的识别准确率,包括非水平方向的文字、非正面拍摄的文字以及弯曲排列的文字;
2、现有的对自然场景下的不规则排列的文本进行变换的算法,一般都需要人工标注文本图片中的基准点,因而需要大量的人工标注工作;本发明方法中网络模型的参数完全从数据中学习得到,在训练和测试时都不需要人工标注变换。
附图说明
图1是本发明基于空间变换的自然场景下文本识别方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
卷积神经网络(Concolutional Neural Network,CNN):一种可用于图像分类、回归等任务的神经网络。网络通常由卷积层、降采样层和全连接层构成。卷积层和降采样层负责提取图像的特征,全连接层负责分类或回归。网络的参数包括卷积核以及全连接层的参数及偏置,参数可以通过反向传导算法,从数据中学习得到;
薄板样条曲线(Thin Plate Spline,TPS):一种非线性空间变换算法。给定图像和图像上的准点(fiducial points),该算法可以对图像进行非线性的扭曲变换;
递归神经网络(Recurrent Neural Network,RNN):一种通常用于序列分析的网络。网络可以接收一个序列作为输入,通过记忆机制,分析序列的前后关系,并最终输出一个序列或者一个特征向量;
长短期记忆(Long-Short Term Memory,LSTM):递归神经网络的一种。该网络包含三个门(gates)结构:输入门、输出门和遗忘门;它们分别起到调整输入、调整输出和清除记忆的作用;由于门机制的作用,该网络可以捕捉序列中的长期(long-term)相关关系,并且可以避免训练递归神经网络中常出现的梯度爆炸(gradient explosion)和梯度消失(gradient vanishing)的现象;
双向长短期记忆(Bidirectional Long-Short Term Memory,BLSTM):由两个方向相反的LSTM结合而成。可以同时分析两个方向上的上下文关系;
门递归神经网络的一种(Gated Recurrent Unit,GRU):类似LSTM,但只包括更新门和重置门两种门结构。结构上更为简单。
本发明基于空间变换的自然场景下文本识别方法包括以下步骤:
(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型:
(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;
具体地,对给定的文本图像,用人工标注的方法获取文本图像中文本的内容;对训练图像集中的所有文本图像都进行标注,就可以得到训练数据集,记为其中Itri表示训练图像集中的第i张图像,Ltri表示图像Itri中的文本内容,ltri,t表示Ltri中的第t个字符,Ttri表示Ltri中字符个数,Ntr为训练图像个数;
(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;
(1.2.1)对训练图像Itr,在图像上取两条平行的线段,线段的端点都在图像的左右边界上,在这两条线段上分别等间距的取K/2个点作为基准点,其中K为设置的基准点个数,这样就可以得到K个初始化的基准点,将这些基准点的坐标保存在基准点坐标矩阵Ctr中,记为Ctr=[ctr1,...,ctrK],其中坐标系的原点为图像的中点,ctrk表示第k个基准点,且ctrk=[xctrk,yctrk]T,xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横纵坐标,xctrk∈[-1,1],yctrk∈[-1,1],上标T表示矩阵转置;
(1.2.2)以卷积神经网络作为图像基准点定位网络,该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层;根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量,其中权重参数均为0,基准点对应的偏置量为1,其他的偏置量均为0;
(1.2.3)对训练图像Itr,令图像Itr′为Itr经过变换后的图像,且变换后图像的宽度和高度分别为Wf和Hf,均为固定的值,定义变换后的图像的基准点坐标矩阵为Ctr′=[ctr′1,...,ctr′K],其中K为基准点的个数,变换后的图像中的基准点与原训练图像中的基准点是一一对应的,且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上,其中第ktr个基准点ctr′ktr=[xctr′ktr,yctr′ktr]T,ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr,xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标,xctr′ktr∈[-1,1],yctr′ktr∈[-1,1];
(1.2.4)计算薄板样条函数转换矩阵Tps,记为:
其中Os为1×K的矩阵,且Os中所有元素的值均为1,Ctr′为变换后的图像的基准点坐标矩阵,Zs为3×3的矩阵,且Zs中所有元素的值均为0,R为K×K的矩阵,且其第row行、第col列的元素值rrow,col为训练图像Itr的第row个基准点Ctrrow和变换后的图像Itr′的第col个基准点Ctr′col之间的欧式距离,上标T表示矩阵转置,K为基准点的个数,则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A=[a1,a2,a3]T,B=[b1,b2,b3]T,F=[f1,...,fK]T,G=[g1,...,gK]T,其中矩阵A、B、F、G中的元素为转换参数,转换参数矩阵计算方程为:
CtrT=TpsPa
解该方程即可得到转换参数矩阵Pa,对变换后的图像Itr′上的一个点ptr′=[xptr′,yptr′]T,计算其对应于原始训练图像Itr的点ptr=[xptr,yptr]T,其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标,xptr和yptr分别表示点ptr在Itr的横纵坐标,计算公式为:
ptr=PaTptr″,
ptr″=[1,xptr′,yptr′,rtr′1,...,rtr′K]T,
其中dtrktr表示点ptr′与Itr′的第ktr个基准点ctr′ktr之间的欧式距离,对图像Itr′中的每个点都执行上述运算,就可以得到Itr′上每个点与图像Itr中点的对应关系;
(1.2.5)对图像Itr′中的每个点ptr′,通过步骤(1.2.4)可以计算出其在原始图像Itr中对应的点ptr,利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值,这样就可以得到原始训练图相Itr经过变换后的图像Itr′;
(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入,经过由卷积层构成的图像预处理网络,经过图像预处理网络可以得到D个Wf×Hf的特征图,其中D为常数,Wf和Hf分别表示预设的变换后图像的宽度和高度;对特征图的每一列,将其每个像素在D个特征图上对应的值拼接起来,可以组成一个D×Hf的特征向量,一共可以得到Wf个D×Hf的特征向量;然后以双向长短程记忆网络作为图像编码器网络,这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr={Xtr1,...,XtrWf},其中Xtrwtr表示图像Itr′第wtr列的特征向量;
(1.2.7)以门限递归单元网络特征解码器网络,特征解码由Td个过程构成,其中Td表示特征解码器网络循环次数,特征解码的第td步具体为:首先计算权重向量αtd,计算方法如下:
etd,wtr=vaTtanh(Wastd-1+UaXtrwtr)
其中,αtd,wtr表示权重向量αtd的第wtr维的值,Wf表示预设的变换后图像的宽度,va、Wa、Ua为训练得到的参数矩阵,std-1表示特征解码过程第td-1步的输出,Xtrwtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量,αtd是一个Wf维的向量;然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量,记为:
其中αtd,wtr表示权重向量αtd的第wtr维的值,Xtrwtr表示步骤(1.2.6)中得到的图像表示序列PItr={Xtr1,...,XtrWf}中的第wtr个向量;然后以得到的上下文关系特征向量otd、特征解码过程第td-1步的输出std-1以及预测的字符l′td-1为输入,经过该特征解码过程,可以得到输出std,然后将std输入到软最大分类器进行分类,即可得到预测的概率分布ytd;
(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起,即为文本识别的网络,记为级联网络,利用反向传导的方法对该级联网络进行训练,可以得到步骤(1.2.2)中的基准点定位网络模型θloc、步骤(1.2.6)中的图像预处理网络模型θconv和图像编码器网络模型θblstm以及步骤(1.2.7)中的特征解码器网络模型θrnn和软最大分类器的模型W,组合在一起即为级联网络的模型,记为θ,该级联网络代价函数为:
其中χ为训练数据集,Itri和Ltri分别表示第i个训练图像及其标注的文本内容,Ttri表示文本内容Ltri中字符的个数,ltri,t表示Ltri中的第t个字符,p(ltri,t|Itri,θ)由级联网络最后输出;
(2)利用基准点定位网络对待识别图像做空间变换:
(2.1)利用基准点定位网络模型计算待识别图像的基准点位置;
具体地,对待识别图像集中的每一张图像Itst,利用步骤(1.2.2)中训练好的基准点定位网络模型θloc,将图像Itst输入到基准点定位网络即可得到基准点的坐标矩阵Ctst=[ctst1,...,ctstK],其中ctstktst=[xtstktst,ytstktst]T表示图像Itst的第ktst个基准点,K为基准点个数,xtstktst和ytstktst分别表示第ktst个基准点的横纵坐标,且xtstktst∈(-1,1),ytstktst∈(-1,1),上标T表示矩阵转置;
(2.2)获取原待识别图像和变换后待识别图像的坐标对应关系;
具体地,对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst,利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系,其中图像Itst′的宽度和高度分别为既定的值Wf和Hf;
(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像;
具体地,根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系,利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值,得到变换后的待识别图像Itst′;
(3)对变换后的待识别图像进行识别:
(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量;
具体地,对步骤(2.3)中获取的变换后的待识别图像Itst′,利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θconv和图像编码器网络模型θblstm,得到图像Itst′的编码,即为图像Itst′的特征向量,记为PItst={Xtst1,...,XtstWf};
(3.2)根据上述待识别图像的特征向量,利用特征解码器网络模型,获取待识别图像的预测概率序列;
具体地,对步骤(3.1)中获取的图像Itst′的特征向量序列PItst={Xtst1,...,XtstWf},利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θrnn和软最大分类器的模型W,获取图像的预测概率分布序列,记为Y={y1,...,yTd},其中Td为步骤(1.2.7)中所述的解码器的步数;
(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果;
具体地,对于没有词典情况,首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布,取最大概率的字符作为第一个字符,并把第一个字符以及第一步特征解码器网络的状态作为第二步的输入,并计算第二个字符的概率分布,同样的取概率最大的字符作为输出,并与第二步的状态一道作为下一步的输入,依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值,则预测结束,此时输出的字符串即为预测的字符串;对于有词典的情况,对于词典中的每个单词,首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布,并得到单词中第一个字符的概率,然后把单词中第一个字符以及第一步的状态作为第二步的输入,并得到第二步的字符概率分布,并得到单词中第二个字符的概率,依次进行下去,把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率,算出字典中所有单词的概率,取概率最大的单词作为最终的输出。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于空间变换的自然场景下文本识别方法,其特征在于,所述方法包括下述步骤:
(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型,包括如下子步骤:
(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;
(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;
(2)利用基准点定位网络对待识别图像做空间变换,包括如下子步骤:
(2.1)利用基准点定位网络模型计算待识别图像的基准点位置;
(2.2)根据所述待识别图像的基准点位置,利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系;
(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像;
(3)对变换后的待识别图像进行识别:
(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量;
(3.2)根据上述待识别图像的特征向量,利用特征解码器网络模型,获取待识别图像的预测概率序列;
(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果;
所述步骤(1.2)具体为:
(1.2.1)在训练图像Itr上取两条平行的线段,线段的端点都在训练图像的左右边界上,在这两条线段上分别等间距的取K/2个点作为基准点,其中K为设置的基准点个数,得到K个初始化的基准点,将这些基准点的坐标保存在基准点坐标矩阵Ctr中,记为其中坐标系的原点为图像的中点,ctrk表示第k个基准点,且ctrk=[xctrk,yctrk]T,xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横坐标和纵坐标,xctrk∈[-1,1],yctrk∈[-1,1],上标T表示矩阵转置,Itri表示训练图像集中的第i张图像;
(1.2.2)以卷积神经网络作为图像基准点定位网络,该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层;根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量,其中权重参数均为0,基准点对应的偏置量为1,其他的偏置量均为0;
(1.2.3)对训练图像Itr,记图像Itr′为Itr经过变换后的图像,且变换后图像的宽度和高度分别为Wf和Hf,定义变换后的图像的基准点坐标矩阵为Ctr′=[ctr1′,...,ctr′K],其中K为基准点的个数,变换后的图像中的基准点与原训练图像中的基准点是一一对应的,且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上,其中第ktr个基准点ctr′ktr=[xctr′ktr,yctr′ktr]T,ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr,xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标,xctr′ktr∈[-1,1],yctr′ktr∈[-1,1];
(1.2.4)计算薄板样条函数转换矩阵Tps,记为:
其中Os为1×K的矩阵,且Os中所有元素的值均为1,Ctr′为变换后的图像的基准点坐标矩阵,Zs为3×3的矩阵,且Zs中所有元素的值均为0,R为K×K的矩阵,且其第row行、第col列的元素值rrow,col为训练图像Itr的第row个基准点Ctrrow和变换后的图像Itr′的第col个基准点Ctr′col之间的欧式距离,上标T表示矩阵转置,K为基准点的个数,则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A=[a1,a2,a3]T,B=[b1,b2,b3]T,F=[f1,...,fK]T,G=[g1,...,gK]T,其中矩阵A、B、F、G中的元素为转换参数,转换参数矩阵计算方程为:
CtrT=TpsPa
解该方程即可得到转换参数矩阵Pa,对变换后的图像Itr′上的一个点ptr′=[xprt′,yprt′]T,计算其对应于原始训练图像的点 其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标,xptr和yptr分别表示点ptr在Itr的横纵坐标,计算公式为:
ptr=PaTptr″,
ptr″=[1,xptr′,yptr′,rtr1′,...,rtr′K]T,
其中dtrktr表示点ptr′与Itr′的第ktr个基准点ctr′ktr之间的欧式距离,对图像Itr′中的每个点都执行上述运算,得到Itr′上每个点与图像Itr中点的对应关系;
(1.2.5)对图像Itr′中的每个点ptr′,通过步骤(1.2.4)计算出其 在原始图像Itr中对应的点ptr,利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值,得到原始训练图像Itr经过变换后的图像Itr′;
(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入,经过由卷积层构成的图像预处理网络,经过图像预处理可以得到D个Wf×Hf的特征图,其中D为常数,Wf和Hf分别表示预设的变换后图像的宽度和高度;对特征图的每一列,将其每个像素在D个特征图上对应的值拼接起来,组成一个D×Hf的特征向量,一共得到Wf个D×Hf的特征向量;然后以双向长短程记忆网络作为图像编码器网络,这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr={Xtr1,...,XtrWf},其中Xtrwtr表示图像Itr′第wtr列的特征向量;
(1.2.7)以门限递归单元网络构建特征解码器网络,特征解码由Td个过程构成,其中Td表示特征解码器网络次数,特征解码的第td步具体为:首先计算权重向量αtd,计算方法如下:
etd,wtr=vaT tanh(Wastd-1+UaXtrwtr)
其中,αtd,wtr表示权重向量αtd的第wtr维的值,Wf表示预设的变换后图像的宽度,va、Wa、Ua为训练得到的参数矩阵,std-1表示解码过程第td-1步的输出,Xtrwtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量,αtd是一个Wf维的向量;然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量,记为:
其中αtd,wtr表示权重向量αtd的第wtr维的值,Xtrwtr表示步骤(1.2.6) 中得到的图像表示序列PItr={Xtr1,...,XtrWf}中的第wtr个向量;然后以得到的上下文关系特征向量otd、特征解码过程第td-1步的输出std-1以及预测的字符l′td-1为输入,经过该特征解码过程,得到输出std,然后将std输入到软最大分类器进行分类,得到预测的概率分布ytd;
(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起,即为文本识别的网络,记为级联网络,利用反向传导的方法对该级联网络进行训练,得到步骤(1.2.2)中的基准点定位网络模型θloc、步骤(1.2.6)中的图像预处理网络模型θconv和图像编码器网络模型θblstm以及步骤(1.2.7)中的特征解码器网络模型θrnn和软最大分类器的模型W,组合在一起即为级联网络的模型,记为θ,该级联网络代价函数为:
其中χ为训练数据集,Itri和Ltri分别表示第i个训练图像及其标注的文本内容,Ttri表示文本内容Ltri中字符的个数,ltri,t表示Ltri中的第t个字符,p(ltri,t|Itri,θ)由级联网络最后输出。
2.根据权利要求1所述的基于空间变换的自然场景下文本识别方法,其特征在于,所述步骤(2.1)具体为:对待识别图像集中的每一张图像Itst,利用步骤(1.2.2)中训练好的基准点定位网络模型θloc,将图像输入基准点定位网络得到基准点的坐标矩阵其中ctstktst=[xtstktst,ytstktst]T表示图像Itst的第ktst个基准点,K为基准点个数,xtstktst和ytstktst分别表示第ktst个基准点的横纵坐标,且xtstktst∈(-1,1),ytstktst∈(-1,1),上标T表示矩阵转置。
3.根据权利要求1所述的基于空间变换的自然场景下文本识别 方法,其特征在于,所述步骤(2.2)具体为:对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst,利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系,其中图像Itst′的宽度和高度分别为既定的值Wf和Hf。
4.根据权利要求1所述的基于空间变换的自然场景下文本识别方法,其特征在于,所述步骤(2.3)具体为:根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系,利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值,得到变换后的待识别图像Itst′。
5.根据权利要求1所述的基于空间变换的自然场景下文本识别方法,其特征在于,所述步骤(3.1)具体为:对步骤(2.3)中获取的变换后的待识别图像Itst′,利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θconv和图像编码器网络模型θblstm,得到图像Itst′的编码,即为图像Itst′的特征向量,记为PItst={Xtst1,...,XtstWf}。
6.根据权利要求1所述的基于空间变换的自然场景下文本识别方法,其特征在于,所述步骤(3.2)具体为:具体地,对步骤(3.1)中获取的图像Itst′的特征向量序列PItst={Xtst1,...,XtstWf},利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θrnn和软最大分类器的模型W,获取图像的预测概率分布序列,记为Y={y1,...,yTd},其中Td为步骤(1.2.7)中所述的特征解码的步数。
7.根据权利要求1至6中任一所述的基于空间变换的自然场景下文本识别方法,其特征在于,所述步骤(3.3)具体为:具体地,对于没有词典情况,首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布,取最大概率的字符作为第一个字符,并把第一个字符以及第一步特征解码器网络的状态作为第二步的 输入,并计算第二个字符的概率分布,同样的取概率最大的字符作为输出,并与第二步的状态一道作为下一步的输入,依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值,则预测结束,此时输出的字符串即为预测的字符串;对于有词典的情况,对于词典中的每个单词,首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布,并得到单词中第一个字符的概率,然后把单词中第一个字符以及第一步的状态作为第二步的输入,并得到第二步的字符概率分布,并得到单词中第二个字符的概率,依次进行下去,把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率,算出字典中所有单词的概率,取概率最大的单词作为最终的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610072466.1A CN105740909B (zh) | 2016-02-02 | 2016-02-02 | 一种基于空间变换的自然场景下文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610072466.1A CN105740909B (zh) | 2016-02-02 | 2016-02-02 | 一种基于空间变换的自然场景下文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740909A CN105740909A (zh) | 2016-07-06 |
CN105740909B true CN105740909B (zh) | 2017-06-13 |
Family
ID=56242198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610072466.1A Active CN105740909B (zh) | 2016-02-02 | 2016-02-02 | 一种基于空间变换的自然场景下文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740909B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257496B (zh) * | 2016-07-12 | 2019-06-07 | 华中科技大学 | 海量网络文本与非文本图像分类方法 |
CN107766319B (zh) | 2016-08-19 | 2021-05-18 | 华为技术有限公司 | 序列转换方法及装置 |
CN108090400B (zh) * | 2016-11-23 | 2021-08-24 | 中移(杭州)信息技术有限公司 | 一种图像文本识别的方法和装置 |
CN106780543B (zh) * | 2017-01-13 | 2019-06-28 | 深圳市唯特视科技有限公司 | 一种基于卷积神经网络的双框架估计深度和运动方法 |
CN109145927A (zh) * | 2017-06-16 | 2019-01-04 | 杭州海康威视数字技术股份有限公司 | 一种对形变图像的目标识别方法及装置 |
CN107346420B (zh) * | 2017-06-19 | 2020-02-11 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
CN108009539B (zh) * | 2017-12-26 | 2021-11-02 | 中山大学 | 一种基于计数聚焦模型的新型文本识别方法 |
CN108875722A (zh) * | 2017-12-27 | 2018-11-23 | 北京旷视科技有限公司 | 字符识别与识别模型训练方法、装置和系统及存储介质 |
CN108491836B (zh) * | 2018-01-25 | 2020-11-24 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108399419B (zh) * | 2018-01-25 | 2021-02-19 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109325380B (zh) * | 2018-09-20 | 2021-10-26 | 摩尔元数(福建)科技有限公司 | 通过配置实现标签条码自动解析的方法和系统 |
CN109586950B (zh) * | 2018-10-18 | 2022-08-16 | 锐捷网络股份有限公司 | 网络场景识别方法、网络管理设备、系统及存储介质 |
CN109886330B (zh) * | 2019-02-18 | 2020-11-27 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、计算机可读存储介质和计算机设备 |
CN110135248A (zh) * | 2019-04-03 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
US11636346B2 (en) | 2019-05-06 | 2023-04-25 | Brown University | Recurrent neural circuits |
CN110427852B (zh) * | 2019-07-24 | 2022-04-15 | 北京旷视科技有限公司 | 文字识别方法、装置、计算机设备和存储介质 |
CN110796138A (zh) * | 2019-10-15 | 2020-02-14 | 湖北工业大学 | 一种基于显性矫正机制的不规则场景文字识别方法 |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111428727B (zh) * | 2020-03-27 | 2023-04-07 | 华南理工大学 | 基于序列变换纠正及注意力机制的自然场景文本识别方法 |
CN111914845A (zh) * | 2020-07-02 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种车牌中字符分层方法、装置及电子设备 |
CN112801228B (zh) * | 2021-04-06 | 2021-08-06 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN114283431B (zh) * | 2022-03-04 | 2022-06-28 | 南京安元科技有限公司 | 一种基于可微分二值化的文本检测方法 |
CN116680619A (zh) * | 2023-07-28 | 2023-09-01 | 江西中医药大学 | 煎药时长分类预测方法、装置、电子设备及存储介质 |
CN117575902B (zh) * | 2024-01-16 | 2024-03-29 | 四川新视创伟超高清科技有限公司 | 大场景监控图像拼接方法及拼接系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030225763A1 (en) * | 2002-04-15 | 2003-12-04 | Microsoft Corporation | Self-improving system and method for classifying pages on the world wide web |
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN103942550B (zh) * | 2014-05-04 | 2018-11-02 | 厦门大学 | 一种基于稀疏编码特征的场景文本识别方法 |
-
2016
- 2016-02-02 CN CN201610072466.1A patent/CN105740909B/zh active Active
Non-Patent Citations (1)
Title |
---|
Strokelets: A Learned Multi-scale Representation for Scene Text Recognition;Cong Yao 等;《Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on》;20140623;全文 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105740909A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740909B (zh) | 一种基于空间变换的自然场景下文本识别方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN106022363B (zh) | 一种适用于自然场景下的中文文字识别方法 | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
CN104978580B (zh) | 一种用于无人机巡检输电线路的绝缘子识别方法 | |
CN106570456A (zh) | 基于全卷积递归网络的手写汉字文本识别方法 | |
CN108549893A (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN107609460A (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN106960206A (zh) | 字符识别方法和字符识别系统 | |
CN106845499A (zh) | 一种基于自然语言语义的图像目标检测方法 | |
CN107391709A (zh) | 一种基于新型注意模型进行图像字幕生成的方法 | |
CN110929665B (zh) | 一种自然场景曲线文本检测方法 | |
CN107358293A (zh) | 一种神经网络训练方法及装置 | |
CN105447473A (zh) | 一种基于PCANet-CNN的任意姿态人脸表情识别方法 | |
CN105740891A (zh) | 基于多层次特征提取和上下文模型的目标检测 | |
JP2022018066A (ja) | 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN113408343B (zh) | 基于双尺度时空分块互注意力的课堂动作识别方法 | |
CN113221874A (zh) | 基于Gabor卷积和线性稀疏注意力的文字识别系统 | |
CN110675421B (zh) | 基于少量标注框的深度图像协同分割方法 | |
CN110287952A (zh) | 一种维语图片字符的识别方法及系统 | |
CN110175248A (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN113283409A (zh) | 基于EfficientDet和Transformer的航空图像中的飞机检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |