CN107622267B - 一种基于嵌入双边卷积激活的场景文字识别方法 - Google Patents
一种基于嵌入双边卷积激活的场景文字识别方法 Download PDFInfo
- Publication number
- CN107622267B CN107622267B CN201710959628.8A CN201710959628A CN107622267B CN 107622267 B CN107622267 B CN 107622267B CN 201710959628 A CN201710959628 A CN 201710959628A CN 107622267 B CN107622267 B CN 107622267B
- Authority
- CN
- China
- Prior art keywords
- activation
- convolution
- scene character
- representing
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明实施例公开了一种基于嵌入双边卷积激活的场景文字识别方法,该方法包括:将训练场景文字图像输入至预先训练得到的卷积神经网络中,得到卷积激活描述子;利用所选择的卷积层,得到双边卷积激活图;利用双边卷积激活图对卷积激活描述子进行编码,得到训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;获取测试场景文字图像的特征向量,输入至场景文字识别分类模型得到场景文字识别结果。本发明利用双边卷积激活图进行特征向量表示,能够将重要的特征信息和笔画结构信息有效的结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,从而有效提高了场景文字识别的正确率。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种基于嵌入双边卷积激活的场景文字识别方法。
背景技术
场景文字识别在模式识别领域扮演着重要的角色,很多应用都需要借助场景文字识别来自动地理解场景中的文字。然而,场景文字识别仍然是一个非常具有挑战性的研究方向,因为场景文字受到很多外界因素的影响,比如:不均匀的光照、变形、任意的字体、失真、复杂的背景、模糊、噪声等等。
近几十年来,场景文字识别受到广泛的关注,一些早期的方法利用光学字符识别技术来识别场景中的文字。光学字符识别技术依赖于场景文本二值化和成熟的光学字符识别引擎。其中,场景文本二值化是非常难以实现的。考虑到光学字符识别技术的局限性,Gao等人提出在传统的BoW(Bag of Words,词包模型)的框架下创建空间嵌入词典,来获取场景文字图像的最终的特征表示。Newell等人利用多尺度的HOG(Histogram of OrientedGradients,梯度直方图)进行特征表示来识别自然场景中的文字。尽管他们的方法取得了一定的成效,但是他们的特征表示缺乏判别性。因此为了解决此问题,Perronnin等人提取使用GMM(Gaussian Mixture Model,高斯混合模型)来学习码本,并将GMM的均值向量和协方差向量的导数连接起来得到最终的FV(Fisher vectors)。与传统的BOW相比,FV对更高层次的信息进行编码,但是FV很容易在最终表示中引入噪声或者异常值。为此,Wang等人将卷积神经网络中的全连接层的输出作为最终的图像表示。Jaderberg等人同样将卷积神经网络中的全连接层的输出作为最终的图像表示,并得到较好的分类效果。Cimpoi和Babenko等人证明了使用卷积激活描述子来表示特征比使用全连接层的输出表示特征得到的分类准确率高。虽然这些方法取得了一定的成效,但是他们在一定程度上忽视了文字的重要特征信息和笔画结构信息。由于不同文字在不同的位置可能包含相同的特征信息,这会造成重构误差,所以不能够充分的保留重要的特征信息和有效的笔画结构信息。
发明内容
本发明的目的是要解决文字特征信息和笔画结构信息对场景文字识别结果影响较大的技术问题,为此,本发明提供一种基于嵌入双边卷积激活的场景文字识别方法。
为了实现所述目的,本发明嵌入双边卷积激活的场景文字识别方法包括以下步骤:
步骤S1,将训练场景文字图像输入至预先训练得到的卷积神经网络中,得到卷积激活描述子;
步骤S2,利用所述训练场景文字图像输入至卷积神经网络中输出得到的卷积层,得到双边卷积激活图;
步骤S3,利用所述双边卷积激活图对所述卷积激活描述子进行编码,得到所述训练场景文字图像的特征向量;
步骤S4,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;
步骤S5,按照所述步骤S1-S3获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。
可选地,所述步骤S1包括:
步骤S11,将所述训练场景文字图像的大小归一化为H×W,其中,H和W分别表示训练场景文字图像的高度和宽度;
步骤S12,将所述训练场景文字图像输入至所述卷积神经网络中,选择所述卷积神经网络中的一个卷积层,得到卷积激活图HC×WC×N,其中,HC和WC分别表示卷积激活图的高度和宽度,N表示卷积激活图的数目;
步骤S13,从N个卷积激活图的相同位置处提取元素,得到HC×WC个N维的卷积激活描述子。
可选地,所述步骤S2包括:
步骤S21,获取所述卷积激活图HC×WC×N;
步骤S22,将N个大小为HC×WC的卷积图的对应位置元素相加,得到卷积求和图;
步骤S23,基于所述卷积求和图,得到双边卷积激活图。
可选地,所述卷积求和图表示为:
可选地,所述双边卷积激活图表示为:
其中,i和j为表示卷积激活图中激活响应的索引,Oj表示双边卷积激活图,Bij为Ci的权重系数。
可选地,所述权重系数Bij表示为:
其中,Li和Lj分别是激活响应Ci和Cj对应的位置信息,α是一个用来调整空间相似度影响的参数,σ1是用来控制两个激活响应的差值对Bij影响的参数,σ2是用来控制两个激活响应的空间距离对Bij影响的参数。
可选地,所述步骤S3包括:
步骤S31,通过高斯混合模型对于所述卷积激活描述子进行编码,得到多个高斯成分的均值向量的梯度向量和多个高斯成分的协方差向量的梯度向量;
步骤S32,将所有高斯成分的均值向量和协方差向量的梯度向量组合,得到每幅训练场景文字图像的特征向量。
可选地,所述步骤S31中,利用下式对于所述卷积激活描述子进行编码:
其中,xj表示从卷积图中提取得到的卷积激活描述子,M表示一幅场景文字图像中卷积激活描述子的总数目,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差向量,φj(k)表示卷积激活描述子xj分配到第k个高斯分量的权重,fμk表示第k个高斯成分的均值向量的梯度向量;fσk表示第k个高斯成分的协方差向量的梯度向量。
可选地,每幅训练场景文字图像的特征向量表示为:
F=(fμ1,fσ1,fμ2,fσ2,...,fμk,fσk,...,fμK,fσK),
其中,K表示高斯混合模型中高斯分量的总数目,F表示所述训练场景文字图像最终的特征向量。
本发明的有益效果为:本发明利用双边卷积激活图进行特征向量表示,能够将最重要的特征信息和笔画结构信息有效的结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,从而提高场景文字识别的正确率。
需要说明的是,本发明得到了国家自然科学基金项目No.61501327、No.61401309、天津市自然科学基金项目No.17JCZDJC30600、No.15JCQNJC01700、国家模式识别实验室开放计划项目No.201700001的资助。
附图说明
图1是根据本发明一实施例的基于嵌入双边卷积激活的场景文字识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例的基于嵌入双边卷积激活的场景文字识别方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。本发明的方法是关于一种基于嵌入双边卷积激活的场景文字识别方法,包括以下步骤:
步骤S1,将训练场景文字图像输入至预先训练得到的卷积神经网络中,得到卷积激活描述子;
其中,所述步骤S1包括以下步骤:
步骤S11,将所述训练场景文字图像的大小归一化为H×W,其中,H和W分别表示训练场景文字图像的高度和宽度;
步骤S12,将所述训练场景文字图像输入至所述卷积神经网络中,选择所述卷积神经网络中的一个卷积层,得到卷积激活图HC×WC×N,其中,HC和WC分别表示卷积激活图的高度和宽度,N表示卷积激活图的数目;
步骤S13,从N个卷积激活图的相同位置处提取元素,得到HC×WC个N维的卷积激活描述子。
在本发明一实施例中,将所述训练场景文字图像的大小归一化为64×32,其中,64和32分别表示所述训练场景文字图像的高度和宽度。选取所述卷积神经网络的第二个卷积层,得到卷积激活图8×8×128,然后从128个卷积激活图的相同位置处分别提取元素,这样在每一个位置处均提取得到128个元素,这128个元素组成一个128维的卷积激活描述子,对于8×8大小的卷积激活图,就可以得到8×8个128维的卷积激活描述子。
步骤S2,利用所述训练场景文字图像输入至卷积神经网络中输出得到的卷积层,得到双边卷积激活图;
进一步地,所述步骤S2包括以下步骤:
步骤S21,获取所述卷积激活图HC×WC×N;
步骤S22,将N个大小为HC×WC的卷积图的对应位置元素相加,得到卷积求和图;
进一步地,所述卷积求和图表示为:
步骤S23,基于所述卷积求和图,得到双边卷积激活图。
进一步地,所述双边卷积激活图表示为:
其中,i和j为表示卷积激活图中激活响应的索引,Oj表示双边卷积激活图,Bij为Ci的权重系数。
在本发明一实施例中,所述权重系数Bij可以表示为:
其中,Li和Lj分别是激活响应Ci和Cj对应的位置信息,α是一个用来调整空间相似度影响的参数,σ1是用来控制两个激活响应的差值对Bij影响的参数,σ2是用来控制两个激活响应的空间距离对Bij影响的参数。
步骤S3,利用所述双边卷积激活图对所述卷积激活描述子进行编码,得到所述训练场景文字图像的特征向量;
进一步地,所述步骤S3包括以下步骤:
步骤S31,通过高斯混合模型对于所述卷积激活描述子进行编码,得到多个高斯成分的均值向量的梯度向量和多个高斯成分的协方差向量的梯度向量:
其中,xj表示从卷积图中提取得到的卷积激活描述子,M表示一幅场景文字图像中卷积激活描述子的总数目,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差向量,φj(k)表示卷积激活描述子xj分配到第k个高斯分量的权重,fμk表示第k个高斯成分的均值向量的梯度向量;fσk表示第k个高斯成分的协方差向量的梯度向量。
步骤S32,将所有高斯成分的均值向量和协方差向量的梯度向量组合,得到每幅训练场景文字图像的特征向量:
F=(fμ1,fσ1,fμ2,fσ2,...,fμk,fσk,...,fμK,fσK),
其中,K表示高斯混合模型中高斯分量的总数目,F表示所述训练场景文字图像最终的特征向量,特征向量的维度是2NK。
步骤S4,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;
步骤S5,按照所述步骤S1-S3获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果。
以网上公开的场景文字图像数据库作为测试对象,比如在ICDAR2003数据库上,当H×W=24×24,HC×WC×N=8×8×64,σ1=0.05,σ2=6,α=1.5时,场景文字识别的正确率为85.08%,由此可见本发明方法的有效性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (4)
1.一种基于嵌入双边卷积激活的场景文字识别方法,其特征在于,该方法包括以下步骤:
步骤S1,将训练场景文字图像输入至预先训练得到的卷积神经网络中,得到卷积激活描述子;
步骤S2,利用所述训练场景文字图像输入至卷积神经网络中输出得到的卷积层,得到双边卷积激活图;
步骤S3,利用所述双边卷积激活图对所述卷积激活描述子进行编码,得到所述训练场景文字图像的特征向量;
步骤S4,基于所述训练场景文字图像的特征向量,利用线性支持向量机进行训练,得到场景文字识别分类模型;
步骤S5,按照所述步骤S1-S3获取测试场景文字图像的特征向量,输入至所述场景文字识别分类模型得到场景文字识别结果;
所述步骤S1包括:
步骤S11,将所述训练场景文字图像的大小归一化为H×W,其中,H和W分别表示训练场景文字图像的高度和宽度;
步骤S12,将所述训练场景文字图像输入至所述卷积神经网络中,选择所述卷积神经网络中的一个卷积层,得到卷积激活图HC×WC×N,其中,HC和WC分别表示卷积激活图的高度和宽度,N表示卷积激活图的数目;
步骤S13,从N个卷积激活图的相同位置处提取元素,得到HC×WC个N维的卷积激活描述子;
所述步骤S2包括:
步骤S21,获取所述卷积激活图HC×WC×N;
步骤S22,将N个大小为HC×WC的卷积图的对应位置元素相加,得到卷积求和图;
步骤S23,基于所述卷积求和图,得到双边卷积激活图;
所述卷积求和图表示为:
所述双边卷积激活图表示为:
其中,i和j为表示卷积激活图中激活响应的索引,Oj表示双边卷积激活图,Bij为Ci的权重系数;
所述权重系数Bij表示为:
其中,Li和Lj分别是激活响应Ci和Cj对应的位置信息,α是一个用来调整空间相似度影响的参数,σ1是用来控制两个激活响应的差值对Bij影响的参数,σ2是用来控制两个激活响应的空间距离对Bij影响的参数。
2.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
步骤S31,通过高斯混合模型对于所述卷积激活描述子进行编码,得到多个高斯成分的均值向量的梯度向量和多个高斯成分的协方差向量的梯度向量;
步骤S32,将所有高斯成分的均值向量和协方差向量的梯度向量组合,得到每幅训练场景文字图像的特征向量。
4.根据权利要求2所述的方法,其特征在于,每幅训练场景文字图像的特征向量表示为:
F=(fμ1,fσ1,fμ2,fσ2,...,fμk,fσk,...,fμK,fσK),
其中,K表示高斯混合模型中高斯分量的总数目,F表示所述训练场景文字图像最终的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710959628.8A CN107622267B (zh) | 2017-10-16 | 2017-10-16 | 一种基于嵌入双边卷积激活的场景文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710959628.8A CN107622267B (zh) | 2017-10-16 | 2017-10-16 | 一种基于嵌入双边卷积激活的场景文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622267A CN107622267A (zh) | 2018-01-23 |
CN107622267B true CN107622267B (zh) | 2020-07-28 |
Family
ID=61092534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710959628.8A Active CN107622267B (zh) | 2017-10-16 | 2017-10-16 | 一种基于嵌入双边卷积激活的场景文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622267B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764233B (zh) * | 2018-05-08 | 2021-10-15 | 天津师范大学 | 一种基于连续卷积激活的场景字符识别方法 |
CN108764313B (zh) * | 2018-05-17 | 2022-03-04 | 西安电子科技大学 | 基于深度学习的超市商品识别方法 |
CN110135248A (zh) * | 2019-04-03 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
CN112232297B (zh) * | 2020-11-09 | 2023-08-22 | 北京理工大学 | 基于深度联合卷积激活的遥感图像场景分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN107145889A (zh) * | 2017-04-14 | 2017-09-08 | 中国人民解放军国防科学技术大学 | 基于具有RoI池化的双CNN网络的目标识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150347860A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Systems And Methods For Character Sequence Recognition With No Explicit Segmentation |
US20150371100A1 (en) * | 2014-06-23 | 2015-12-24 | Xerox Corporation | Character recognition method and system using digit segmentation and recombination |
-
2017
- 2017-10-16 CN CN201710959628.8A patent/CN107622267B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN107145889A (zh) * | 2017-04-14 | 2017-09-08 | 中国人民解放军国防科学技术大学 | 基于具有RoI池化的双CNN网络的目标识别方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的自然场景文字识别;黄攀;《中国优秀硕士学位论文全文数据库》;20160715;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107622267A (zh) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622267B (zh) | 一种基于嵌入双边卷积激活的场景文字识别方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Haque et al. | Object detection based on VGG with ResNet network | |
Zhang et al. | Animal detection from highly cluttered natural scenes using spatiotemporal object region proposals and patch verification | |
Paisitkriangkrai et al. | Strengthening the effectiveness of pedestrian detection with spatially pooled features | |
Varior et al. | Learning invariant color features for person reidentification | |
Ibrahim et al. | Palm oil fresh fruit bunch ripeness grading recognition using convolutional neural network | |
Lee et al. | Adaboost for text detection in natural scene | |
Flores et al. | Application of convolutional neural networks for static hand gestures recognition under different invariant features | |
Ranjan et al. | Unconstrained age estimation with deep convolutional neural networks | |
CN105184298B (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
CN109299716A (zh) | 神经网络的训练方法、图像分割方法、装置、设备及介质 | |
CN105069481B (zh) | 基于空间金字塔稀疏编码的自然场景多标记分类方法 | |
CN109828251A (zh) | 基于特征金字塔轻量卷积神经网络的雷达目标识别方法 | |
Ali et al. | Urdu natural scene character recognition using convolutional neural networks | |
CN109753996B (zh) | 基于三维轻量化深度网络的高光谱图像分类方法 | |
CN109145832A (zh) | 基于dsfnn与非局部决策的极化sar图像半监督分类方法 | |
CN111860046B (zh) | 一种改进MobileNet模型的人脸表情识别方法 | |
CN105550712B (zh) | 基于优化卷积自动编码网络的极光图像分类方法 | |
CN107886062A (zh) | 图像处理方法、系统及服务器 | |
CN113065426B (zh) | 基于通道感知的手势图像特征融合方法 | |
CN109472733A (zh) | 基于卷积神经网络的图像隐写分析方法 | |
CN106203448B (zh) | 一种基于非线性尺度空间的场景分类方法 | |
CN110188750A (zh) | 一种基于深度学习的自然场景图片文字识别方法 | |
Ravi et al. | Sign language recognition with multi feature fusion and ANN classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |