CN108764233B - 一种基于连续卷积激活的场景字符识别方法 - Google Patents

一种基于连续卷积激活的场景字符识别方法 Download PDF

Info

Publication number
CN108764233B
CN108764233B CN201810434326.3A CN201810434326A CN108764233B CN 108764233 B CN108764233 B CN 108764233B CN 201810434326 A CN201810434326 A CN 201810434326A CN 108764233 B CN108764233 B CN 108764233B
Authority
CN
China
Prior art keywords
convolution
activation
layer
convolution activation
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810434326.3A
Other languages
English (en)
Other versions
CN108764233A (zh
Inventor
张重
王红
刘爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingcheng Jiayu Technology (Shanghai) Co.,Ltd.
Original Assignee
Tianjin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Normal University filed Critical Tianjin Normal University
Priority to CN201810434326.3A priority Critical patent/CN108764233B/zh
Publication of CN108764233A publication Critical patent/CN108764233A/zh
Application granted granted Critical
Publication of CN108764233B publication Critical patent/CN108764233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明实施例公开了一种基于连续卷积激活的场景字符识别方法,该方法包括:将训练图像输入至卷积神经网络,得到卷积激活图;利用第一预设卷积层中的卷积激活图,得到卷积激活描述子;利用第二预设卷积层中的卷积激活图,得到权重矩阵;基于卷积激活描述子和权重矩阵,得到连续卷积激活描述子;利用Fisher向量对连续卷积激活描述子进行编码,获取训练图像的特征向量;基于特征向量利用支持向量机得到场景字符识别分类模型;获取测试图像的特征向量,输入至场景字符识别分类模型得到场景字符识别结果。本发明将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,提高场景字符识别的准确率。

Description

一种基于连续卷积激活的场景字符识别方法
技术领域
本发明属于模式识别、人工智能技术领域,具体涉及一种基于连续卷积激活的场景字符识别方法。
背景技术
字符作为图像通信的媒介在实际应用中无处不在,并为自动地理编码、产品搜索、机器人导航、以及图像和视频检索等各种应用提供了有价值的语义线索。场景字符是在真实场景图像中出现的字符,它们容易受到各种因素的干扰,如非均匀光照、复杂背景、字体失真、模糊、字体变化等。因此,准确地识别场景字符是一项特别具有挑战性的任务。
在过去几十年,场景字符识别已经成为一个研究热点,并且研究者们提出了很多场景字符识别算法。一些早期的方法利用光学字符识别技术来识别场景中的字符。光学字符识别技术依赖于场景字符二值化和成熟的光学字符识别引擎。其中,场景字符二值化是非常难以实现的。近年来,研究者们提出基于目标的场景字符识别方法。如:Wang等人提出利用梯度直方图(Histogram of Oriented Gradients,HOG)特征来描述场景字符。Newell和Griffin等人将梯度直方图特征拓展为两种多尺度的梯度直方图特征,以捕捉更多特征信息。考虑到场景字符是由特定的笔画结构构成,Shi等人利用基于部件的树结构对每类场景字符进行建模,以挖掘场景字符的局部特征信息和整体结构信息。Gao等人提出笔画库的概念,他们训练笔画检测器,并将笔画检测器响应区域内的最大检测响应作为最终的特征。近年来,卷积神经网络成为很多领域的研究热点之一,它已经成功的应用于语音识别、脑电图分析、图像分类、场景字符识别等多个领域。Jaderberg等人将卷积神经网络中的全连接层的输出作为最终的图像表示。Cimpoi等人提出利用卷积神经网络中某一卷积层中的卷积激活描述子来进行特征表示。虽然以上方法取得了较大的成功,但是他们仅仅使用单一卷积层中的卷积激活图进行特征表示而忽略了其他卷积层提供的信息,所以不能够充分保留显著的特征信息和笔画结构信息,从而影响了场景字符识别的准确性。
发明内容
本发明的目的是要解决对场景字符识别结果影响较大的显著特征信息和笔画结构信息被忽略的技术问题,为此,本发明提供一种基于连续卷积激活的场景字符识别方法。
为了实现所述目的,本发明基于连续卷积激活的场景字符识别方法包括以下步骤:
步骤S1,将训练图像输入至预先训练得到的卷积神经网络中,得到卷积激活图;
步骤S2,利用所述卷积神经网络第一预设卷积层中的卷积激活图,得到卷积激活描述子;
步骤S3,利用所述卷积神经网络第二预设卷积层中的卷积激活图,得到权重矩阵;
步骤S4,基于所述卷积激活描述子和权重矩阵,得到连续卷积激活描述子;
步骤S5,利用Fisher向量对所述连续卷积激活描述子进行编码,得到所述训练图像的特征向量;
步骤S6,基于特征向量利用支持向量机得到场景字符识别分类模型;
步骤S7,按照所述步骤S1-S5获取测试图像的特征向量,输入至所述场景字符识别分类模型得到场景字符识别结果。
可选地,所述步骤S1包括:
步骤S11,将所述训练图像的大小归一化为H×W,其中,H和W分别表示训练图像的高度和宽度;
步骤S12,将归一化后的训练图像输入至所述卷积神经网络中,得到卷积激活图。
可选地,所述步骤S2包括:
步骤S21,获取所述第一预设卷积层中的卷积激活图Mt,Mt的大小为Ht×Wt×Nt,其中,下标t表示第一预设卷积层的序号,Ht和Wt分别表示第一预设卷积层卷积激活图的高度和宽度,Nt表示第一预设卷积层卷积激活图的数量;
步骤S22,将每个卷积激活图位置p处的对应元素串联,得到一个Nt维的卷积激活描述子xt(p),xt(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。
可选地,所述第二预设卷积层包括几个连续的卷积层。
可选地,所述步骤S3包括:
步骤S31,获取所述第二预设卷积层中第(t+L-1)卷积层的卷积激活图M(t+L-1),M(t+L-1)的大小为H(t+L-1)×W(t+L-1)×N(t+L-1),其中,下标(t+L-1)表示卷积层的序号,H(t+L-1)和W(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度,N(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量,L表示所需卷积层的总数量;
步骤S32,基于卷积激活图M(t+L-1),对权重矩阵进行初始化操作,得到初始化权重矩阵WE(t+L-1)
步骤S33,基于卷积激活图M(t+L-2)和初始化权重矩阵WE(t+L-1),得到第(t+L-2)卷积层中的权重矩阵;
步骤S34,基于步骤S33,以递归的方式,得到最终的权重矩阵WE(t+1),其中,WE(t+1)的大小为H(t+1)×W(t+1)×N(t+1),下标(t+1)表示卷积层的序号,H(t+1)和W(t+1)分别表示第(t+1)卷积层权重矩阵的高度和宽度,N(t+1)表示第(t+1)卷积层权重矩阵的数量。
可选地,所述步骤S32中,一个卷积层中的一个卷积激活图对应一个权重矩阵:
Figure BDA0001654244610000041
其中,
Figure BDA0001654244610000042
表示第(t+L-1)卷积层中的第j个卷积激活图,
Figure BDA0001654244610000043
表示第(t+L-1)卷积层中的第j个权重矩阵。
可选地,所述步骤S33中,根据下式得到第(t+L-2)个卷积层中的权重矩阵:
Figure BDA0001654244610000044
其中,⊙表示两个矩阵的点乘运算,
Figure BDA0001654244610000045
表示第(t+L-2)卷积层中的第j个卷积激活图,
Figure BDA0001654244610000046
表示第(t+L-2)卷积层中的第j个权重矩阵。
可选地,所述步骤S4中,利用下式获取所述连续卷积激活描述子:
Figure BDA0001654244610000047
其中,
Figure BDA0001654244610000048
表示第(t+1)个卷积层中第j个权重矩阵位置p处的权重值,fj的维度为Nt
所述每幅场景字符图像表示为一个连续卷积激活描述子的集合F:
Figure BDA0001654244610000049
其中,N(t+1)表示第(t+1)个卷积层中权重矩阵的数量。
可选地,所述步骤S5中,利用下式对所述连续卷积激活描述子进行编码:
Figure BDA00016542446100000410
其中,fj表示连续卷积激活描述子,N(t+1)表示一幅场景字符图像中连续卷积激活描述子的总数量,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差矩阵,φj(k)表示连续卷积激活描述子fj分配到第k个高斯分量的权重,gμk表示第k个高斯成分的均值向量的梯度向量;gσk表示第k个高斯成分的协方差向量的梯度向量。
可选地,每幅训练场景字符图像的特征向量表示为:
Ffinal=(gμ1,gσ1,gμ2,gσ2,...,gμk,gσk,...,gμK,gσK),
其中,K表示高斯混合模型中高斯分量的总数量,Ffinal表示所述训练场景字符图像最终的特征向量。
本发明的有益效果为:本发明通过提取卷积激活描述子和学习权重矩阵,能够将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,从而提高场景字符识别的准确率。
需要说明的是,本发明得到了国家自然科学基金项目No.61501327、No.61711530240、天津市自然科学基金项目No.17JCZDJC30600、No.15JCQNJC01700、天津师范大学基金项目No.135202RC1703、中国科学院模式识别国家重点实验室开放课题No.201700001、No.201800002、国家留学基金委项目No.201708120039、No.201708120040和天津市高等教育创新团队基金项目的资助。
附图说明
图1是根据本发明一实施例的基于连续卷积激活的场景字符识别方法的流程图。
图2是根据本发明一实施例的基于连续卷积激活的场景字符识别方法的卷积神经网络的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例的基于连续卷积激活的场景字符识别方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。本发明基于连续卷积激活的场景字符识别方法包括以下步骤:
步骤S1,将训练图像输入至预先训练得到的卷积神经网络中,得到卷积激活图;
其中,所述步骤S1包括以下步骤:
步骤S11,将所述训练图像的大小归一化为H×W,其中,H和W分别表示训练图像的高度和宽度;
在本发明一实施例中,所述训练图像的大小归一化为64×64。
步骤S12,将归一化后的训练图像输入至所述卷积神经网络中,得到卷积激活图。
在本发明一实施例中,所使用的卷积神经网络的网络结构如图2所示。在该实施例中,所述卷积神经网络的输入是64×64的场景字符图像,首先使用64个感受野大小为3×3的滤波器对输入图像进行卷积,得到大小为64×64×64的卷积激活图;然后使用64个感受野大小为3×3的滤波器卷积这些卷积激活图,得到大小仍然为64×64×64的卷积激活图;在第三层中,得到的卷积激活图作为输入并被64个感受野大小为3×3的滤波器卷积,之后,第三层的输出被传送到第一最大化池,得到大小为32×32×128的卷积激活图;在接下来的两层中,使用256个感受野大小为3×3的滤波器对于输入进行卷积,并将得到的大小为32×32×256的卷积激活图传送到第二最大化池;再使用512个感受野大小分别为9×9和8×8的滤波器对于输入进行卷积,得到大小分别为8×8×512和1×1×512的卷积激活图;之后,连接一个全连接层,它是一个256维的向量;最后,使用一个柔性最大值单元将全连接层输出的激活值转化为字符概率。
其中,最大化池在2×2窗口中执行,步长固定为2个像素,并进行了适当的零填充。在训练所述卷积神经网络时,训练图像批量处理的大小设置为64,即每批次输入的训练图像数量为64。利用反向传播算法更新参数,并在运行90周期后停止,前60个周期内,学习率设置为0.001,后30个周期内,学习率设置为0.0001。
步骤S2,利用所述卷积神经网络第一预设卷积层中的卷积激活图,得到卷积激活描述子;
进一步地,所述步骤S2包括以下步骤:
步骤S21,获取所述卷积神经网络第一预设卷积层中的卷积激活图Mt,Mt的大小为Ht×Wt×Nt,其中,下标t表示第一预设卷积层的序号,Ht和Wt分别表示第一预设卷积层卷积激活图的高度和宽度,Nt表示第一预设卷积层卷积激活图的数量;
所述第一预设卷积层可以从所述卷积神经网络卷积层中的前几层中进行选择,在本发明一实施例中,利用第2个卷积层中的卷积激活图得到卷积激活描述子,也就是说,所述第一预设卷积层为第2个卷积层,此时,所述卷积激活图的大小为H2×W2×N2,更具体地,可取为64×64×64。
步骤S22,将每个卷积激活图位置p处的对应元素串联,得到一个Nt维的卷积激活描述子xt(p),xt(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。
在本发明一实施例中,卷积激活描述子xt(p)的维度为64,卷积激活描述子的数量为64×64。
步骤S3,利用所述卷积神经网络第二预设卷积层中的卷积激活图,得到权重矩阵;
其中,所述第二预设卷积层包括几个连续的卷积层。
进一步地,所述步骤S3包括以下步骤:
步骤S31,获取所述卷积神经网络第二预设卷积层中第(t+L-1)卷积层的卷积激活图M(t+L-1),M(t+L-1)的大小为H(t+L-1)×W(t+L-1)×N(t+L-1),其中,下标(t+L-1)表示卷积层的序号,H(t+L-1)和W(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度,N(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量,L表示所需卷积层的总数量;
步骤S32,基于卷积激活图M(t+L-1),对权重矩阵进行初始化操作,得到初始化权重矩阵WE(t+L-1),其中,一个卷积层中的一个卷积激活图对应一个权重矩阵:
Figure BDA0001654244610000081
其中,
Figure BDA0001654244610000082
表示第(t+L-1)卷积层中的第j个卷积激活图,
Figure BDA0001654244610000083
表示第(t+L-1)卷积层中的第j个权重矩阵。
所述第二预设卷积层可以从所有卷积层中的后几个卷积层中进行选择,在本发明一实施例中,利用第3,4,5,6个卷积层中的卷积激活图得到最终的权重矩阵,也就是说,所述第二预设卷积层为第3,4,5,6个卷积层,所述初始化的权重矩阵的大小为H6×W6×N6,更具体地,可取为32×32×256。
步骤S33,基于卷积激活图M(t+L-2)和初始化权重矩阵WE(t+L-1),得到第(t+L-2)个卷积层中的权重矩阵:
Figure BDA0001654244610000084
其中,⊙表示两个矩阵的点乘运算,
Figure BDA0001654244610000085
表示第(t+L-2)个卷积层中的第j个卷积激活图,
Figure BDA0001654244610000086
表示第(t+L-1)个卷积层中的第i个权重矩阵,
Figure BDA0001654244610000087
表示第(t+L-2)个卷积层中的第j个权重矩阵。
在本发明一实施例中,使用双线性插值法对较小的矩阵进行填充,以保证所述公式中两个矩阵的维度一致。
步骤S34,基于所述步骤S33,以递归的方式,得到最终的权重矩阵WE(t+1),WE(t+1)的大小为H(t+1)×W(t+1)×N(t+1),其中,下标(t+1)表示卷积层的序号,H(t+1)和W(t+1)分别表示第(t+1)个卷积层权重矩阵的高度和宽度,N(t+1)表示第(t+1)个卷积层权重矩阵的数量。
在本发明一实施例中,最终权重矩阵的大小为H3×W3×N3,更具体地,可取为64×64×128。
步骤S4,基于所述卷积激活描述子和权重矩阵,得到连续卷积激活描述子;
进一步地,所述连续卷积激活描述子可以表示为:
Figure BDA0001654244610000091
其中,
Figure BDA0001654244610000092
表示第(t+1)个卷积层中第j个权重矩阵位置p处的权重值,fj的维度为Nt
因此,每幅场景字符图像可以表示为一个连续卷积激活描述子的集合F:
Figure BDA0001654244610000093
其中,N(t+1)表示第(t+1)个卷积层中权重矩阵的数量。
在本发明一实施例中,每幅场景字符图像中连续卷积激活描述子的数量为128,维度为64维。
步骤S5,利用Fisher向量对所述连续卷积激活描述子进行编码,得到所述训练图像的特征向量;
进一步地,利用下式对所述连续卷积激活描述子进行编码:
Figure BDA0001654244610000094
其中,fj表示连续卷积激活描述子,N(t+1)表示一幅场景字符图像中连续卷积激活描述子的总数量,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差矩阵,φj(k)表示连续卷积激活描述子fj分配到第k个高斯分量的权重,gμk表示第k个高斯成分的均值向量的梯度向量;gσk表示第k个高斯成分的协方差向量的梯度向量。
每幅训练场景字符图像的特征向量可表示为:
Ffinal=(gμ1,gσ1,gμ2,gσ2,...,gμk,gσk,...,gμK,gσK),
其中,K表示高斯混合模型中高斯分量的总数量,Ffinal表示所述训练场景字符图像最终的特征向量。
步骤S6,基于所述特征向量利用支持向量机得到场景字符识别分类模型;
步骤S7,按照所述步骤S1-S5获取测试图像的特征向量,输入至所述场景字符识别分类模型得到场景字符识别结果。
以网上公开的场景字符图像数据库作为测试对象,比如在ICDAR2003数据库上,当第一预设卷积层为第2个卷积层,第二预设连续几个卷积层为第3,4,5,6个卷积层,并且K=4时,场景字符识别的正确率为85.82%,由此可见本发明方法的有效性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种基于连续卷积激活的场景字符识别方法,其特征在于,该方法包括:
步骤S1,将训练图像输入至预先训练得到的卷积神经网络中,得到卷积激活图;
步骤S2,利用所述卷积神经网络第一预设卷积层中的卷积激活图,得到卷积激活描述子;
步骤S3,利用所述卷积神经网络第二预设卷积层中的卷积激活图,得到权重矩阵;
步骤S4,基于所述卷积激活描述子和权重矩阵,得到连续卷积激活描述子;
步骤S5,利用Fisher向量对所述连续卷积激活描述子进行编码,得到所述训练图像的特征向量;
步骤S6,基于特征向量利用支持向量机得到场景字符识别分类模型;
步骤S7,按照所述步骤S1-S5获取测试图像的特征向量,输入至所述场景字符识别分类模型得到场景字符识别结果;
所述步骤S4中,利用下式获取所述连续卷积激活描述子:
Figure FDA0003194211510000011
其中,
Figure FDA0003194211510000012
表示第(t+1)个卷积层中第j个权重矩阵位置p处的权重值,fj的维度为Nt
每幅场景字符图像表示为一个连续卷积激活描述子的集合F:
Figure FDA0003194211510000013
其中,N(t+1)表示第(t+1)个卷积层中权重矩阵的数量。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
步骤S11,将所述训练图像的大小归一化为H×W,其中,H和W分别表示训练图像的高度和宽度;
步骤S12,将归一化后的训练图像输入至所述卷积神经网络中,得到卷积激活图。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
步骤S21,获取所述第一预设卷积层中的卷积激活图Mt,Mt的大小为Ht×Wt×Nt,其中,下标t表示第一预设卷积层的序号,Ht和Wt分别表示第一预设卷积层卷积激活图的高度和宽度,Nt表示第一预设卷积层卷积激活图的数量;
步骤S22,将每个卷积激活图位置p处的对应元素串联,得到一个Nt维的卷积激活描述子xt(p),xt(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。
4.根据权利要求1所述的方法,其特征在于,所述第二预设卷积层包括几个连续的卷积层。
5.根据权利要求4所述的方法,其特征在于,所述步骤S3包括:
步骤S31,获取所述第二预设卷积层中第(t+L-1)卷积层的卷积激活图M(t+L-1),M(t+L-1)的大小为H(t+L-1)×W(t+L-1)×N(t+L-1),其中,下标(t+L-1)表示卷积层的序号,H(t+L-1)和W(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度,N(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量,L表示所需卷积层的总数量;
步骤S32,基于卷积激活图M(t+L-1),对权重矩阵进行初始化操作,得到初始化权重矩阵WE(t+L-1)
步骤S33,基于卷积激活图M(t+L-2)和初始化权重矩阵WE(t+L-1),得到第(t+L-2)卷积层中的权重矩阵;
步骤S34,基于步骤S33,以递归的方式,得到最终的权重矩阵WE(t+1),其中,WE(t+1)的大小为H(t+1)×W(t+1)×N(t+1),下标(t+1)表示卷积层的序号,H(t+1)和W(t+1)分别表示第(t+1)卷积层权重矩阵的高度和宽度,N(t+1)表示第(t+1)卷积层权重矩阵的数量。
6.根据权利要求5所述的方法,其特征在于,所述步骤S32中,一个卷积层中的一个卷积激活图对应一个权重矩阵:
Figure FDA0003194211510000031
其中,
Figure FDA0003194211510000032
表示第(t+L-1)卷积层中的第j个卷积激活图,
Figure FDA0003194211510000033
表示第(t+L-1)卷积层中的第j个权重矩阵。
7.根据权利要求5所述的方法,其特征在于,所述步骤S33中,根据下式得到第(t+L-2)个卷积层中的权重矩阵:
Figure FDA0003194211510000034
其中,⊙表示两个矩阵的点乘运算,
Figure FDA0003194211510000035
表示第(t+L-2)卷积层中的第j个卷积激活图,
Figure FDA0003194211510000036
表示第(t+L-2)卷积层中的第j个权重矩阵。
8.根据权利要求1所述的方法,其特征在于,所述步骤S5中,利用下式对所述连续卷积激活描述子进行编码:
Figure FDA0003194211510000037
其中,fj表示连续卷积激活描述子,N(t+1)表示一幅场景字符图像中连续卷积激活描述子的总数量,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差矩阵,φj(k)表示连续卷积激活描述子fj分配到第k个高斯分量的权重,gμk表示第k个高斯成分的均值向量的梯度向量;gσk表示第k个高斯成分的协方差向量的梯度向量。
9.根据权利要求8所述的方法,其特征在于,每幅训练场景字符图像的特征向量表示为:
Ffinal=(gμ1,gσ1,gμ2,gσ2,…,gμk,gσk,…,gμK,gσK),
其中,K表示高斯混合模型中高斯分量的总数量,Ffinal表示所述训练场景字符图像最终的特征向量。
CN201810434326.3A 2018-05-08 2018-05-08 一种基于连续卷积激活的场景字符识别方法 Active CN108764233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810434326.3A CN108764233B (zh) 2018-05-08 2018-05-08 一种基于连续卷积激活的场景字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810434326.3A CN108764233B (zh) 2018-05-08 2018-05-08 一种基于连续卷积激活的场景字符识别方法

Publications (2)

Publication Number Publication Date
CN108764233A CN108764233A (zh) 2018-11-06
CN108764233B true CN108764233B (zh) 2021-10-15

Family

ID=64009269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810434326.3A Active CN108764233B (zh) 2018-05-08 2018-05-08 一种基于连续卷积激活的场景字符识别方法

Country Status (1)

Country Link
CN (1) CN108764233B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539362A (zh) * 2020-04-28 2020-08-14 西北工业大学 一种无人机图像目标检测装置及方法
CN111783787B (zh) * 2020-07-10 2023-08-25 上海淇毓信息科技有限公司 一种识别图像字符的方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134079A (zh) * 2014-07-31 2014-11-05 中国科学院自动化研究所 一种基于极值区域和极限学习机的车牌识别方法
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN106570521A (zh) * 2016-10-24 2017-04-19 中国科学院自动化研究所 多语言场景字符识别方法及识别系统
CN106709494A (zh) * 2017-01-10 2017-05-24 天津师范大学 一种基于耦合空间学习的场景文字识别方法
CN107316054A (zh) * 2017-05-26 2017-11-03 昆山遥矽微电子科技有限公司 基于卷积神经网络和支持向量机的非标准字符识别方法
CN107330480A (zh) * 2017-07-03 2017-11-07 贵州大学 手写字符计算机识别方法
CN107622267A (zh) * 2017-10-16 2018-01-23 天津师范大学 一种基于嵌入双边卷积激活的场景文字识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134079A (zh) * 2014-07-31 2014-11-05 中国科学院自动化研究所 一种基于极值区域和极限学习机的车牌识别方法
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN106570521A (zh) * 2016-10-24 2017-04-19 中国科学院自动化研究所 多语言场景字符识别方法及识别系统
CN106709494A (zh) * 2017-01-10 2017-05-24 天津师范大学 一种基于耦合空间学习的场景文字识别方法
CN107316054A (zh) * 2017-05-26 2017-11-03 昆山遥矽微电子科技有限公司 基于卷积神经网络和支持向量机的非标准字符识别方法
CN107330480A (zh) * 2017-07-03 2017-11-07 贵州大学 手写字符计算机识别方法
CN107622267A (zh) * 2017-10-16 2018-01-23 天津师范大学 一种基于嵌入双边卷积激活的场景文字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于卷积神经网络的人脸识别研究与实现";万士宁;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20170215;I138-3002 *

Also Published As

Publication number Publication date
CN108764233A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
Zhou et al. Mict: Mixed 3d/2d convolutional tube for human action recognition
Yue-Hei Ng et al. Beyond short snippets: Deep networks for video classification
Hara et al. Learning spatio-temporal features with 3d residual networks for action recognition
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN109543548A (zh) 一种人脸识别方法、装置及存储介质
Zhang et al. Object detection with location-aware deformable convolution and backward attention filtering
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN110222718B (zh) 图像处理的方法及装置
CN110136162B (zh) 无人机视角遥感目标跟踪方法及装置
CN109063626B (zh) 动态人脸识别方法和装置
CN109753996B (zh) 基于三维轻量化深度网络的高光谱图像分类方法
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN107330387B (zh) 基于图像数据的行人检测方法
Alhichri et al. Multi-scale convolutional neural network for remote sensing scene classification
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN110738103A (zh) 活体检测方法、装置、计算机设备和存储介质
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN108764233B (zh) 一种基于连续卷积激活的场景字符识别方法
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN111108508A (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
Yang et al. TS-YOLO: an efficient YOLO network for multi-scale object detection
Sharma et al. Deepfakes Classification of Faces Using Convolutional Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221220

Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 300387 Tianjin city Xiqing District West Binshui Road No. 393

Patentee before: TIANJIN NORMAL University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221229

Address after: Room 3436, Building C, 555 Dongchuan Road, Minhang District, Shanghai, 200000

Patentee after: Hongya Education Technology (Shanghai) Co.,Ltd.

Address before: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee before: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 200241 Room 3436, Building C, No. 555 Dongchuan Road, Minhang District, Shanghai

Patentee after: Jingcheng Jiayu Technology (Shanghai) Co.,Ltd.

Address before: Room 3436, Building C, 555 Dongchuan Road, Minhang District, Shanghai, 200000

Patentee before: Hongya Education Technology (Shanghai) Co.,Ltd.