CN106570521A

CN106570521A - 多语言场景字符识别方法及识别系统

Info

Publication number: CN106570521A
Application number: CN201610924239.7A
Authority: CN
Inventors: 史存召; 王燕娜; 王春恒; 肖柏华
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2017-04-19
Anticipated expiration: 2036-10-24
Also published as: CN106570521B

Abstract

本发明涉及一种多语言场景字符识别方法及识别系统。其中，该方法可以包括：确定场景字符图像中字符的语言类型；根据字符的语言类型，确定深度卷积神经网络模型；利用深度卷积神经网络模型，来提取场景字符图像的卷积层特征；基于卷积层特征，建立空间金字塔模型；利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码；将高阶编码后的结果拼接起来，作为场景字符描述子；利用分类器对场景字符描述子进行分类，以实现多语言场景字符的识别。本发明实施例对多语言的场景字符图像具有很好的识别效果，是一种通用的字符识别方法，对多语言场景文字识别具有良好的适应性。

Description

多语言场景字符识别方法及识别系统

技术领域

本发明涉及模式识别和机器视觉领域中的文本图像识别技术领域，尤其是涉及一种多语言场景字符识别方法及识别系统。

背景技术

文字作为一种人类设计的符号，表达了高层的信息，对理解图像中的内容有着重要的帮助。因此，文字的自动检测识别引起了人们的高度关注，它对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义，有着广泛的应用前景和商业价值。

然而，由于自然场景中字符受到复杂背景、不均匀光照、低分辨率、多样字体、不同颜色等因素的影响，直接使用传统的光学字符识别(OCR)技术，识别效果不能令人满意。因此，真实场景中文字识别方法具有很强的研究必要，设计一种有效的场景字符图像的特征表示十分重要。

通常对于场景字符识别采用人工设计的特征，如HoG和Sift等。这些特征依赖BoW框架，因为不满意的词典学习和编码策略，字符识别性能差强人意。另一种是基于深度学习的特征，这种特征依赖神经网络从全连接层提取特征，因此时间复杂度高而且全连接层特征忽略了字符本质的空间结构信息，而空间信息对于字符识别是十分重要的。

所以，设计一种高效的场景文字识别方法具有重要的意义。因此，在本发明中提出一种基于深度空间金字塔的多语言场景字符识别方法。

发明内容

为了解决现有技术中的上述问题，即为了解决如何提高场景字符识别效果的技术问题而提供一种多语言场景字符识别方法及识别系统。

为了实现上述目的，一方面，提供以下技术方案：

一种多语言场景字符识别方法，所述方法包括：

确定场景字符图像中字符的语言类型；

根据所述字符的语言类型，确定深度卷积神经网络模型；

利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征；

基于所述卷积层特征，建立空间金字塔模型；

利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码；

将高阶编码后的结果拼接起来，作为场景字符描述子；

利用分类器对所述场景字符描述子进行分类，以实现多语言场景字符的识别。

进一步地，所述根据所述字符的语言类型，确定深度卷积神经网络模型，具体包括：

将字符语言类型所具有的字符类别个数确定为所述深度卷积神经网络模型的输出节点个数；

利用随机梯度下降法进行训练，确定所述深度卷积神经网络模型。

进一步地，在所述利用随机梯度下降法进行训练之前还包括：

将所述场景字符图像的尺度进行归一化；

所述利用随机梯度下降法进行训练，确定所述深度卷积神经网络模型，具体包括：

基于归一化后的场景字符图像，设置初始学习率、动量、权重衰减率及迭代次数，并采用softmax函数作为输出层的激励函数，利用随机梯度下降法进行训练，从而确定所述深度卷积神经网络模型。

进一步地，所述利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征，具体包括：

对所述场景字符图像的尺度进行归一化；

提取所述深度卷积神经网络模型中最后一层卷积层特征，并将其作为所述场景字符图像的卷积层特征。

进一步地，所述基于所述卷积层特征，建立空间金字塔模型，具体包括：

对所述卷积层特征建立Level0层的空间金字塔；

对所述卷积层特征建立Level1层的空间金字塔；

在所述卷积层特征的中部加入空间金字塔区域；

结合所述Level0层的空间金字塔、所述Level1层的空间金字塔和所述空间金字塔区域，建立所述空间金字塔模型。

进一步地，所述高斯模型通过以下方式来确定：

根据下式对所述每一空间区域的卷积层特征进行学习，从而确定所述高斯模型：

其中，所述x表示提取的所述卷积层特征；所述P(x|π,μ,Σ)表示概率密度函数；所述g_k(x；μ_k，Σ_k)表示第k个高斯模型；所述μ_k∈R^D表示所述第k个高斯模型的特征均值；所述Σ_k＝diag(σ_k),σ_k∈R^D,表示所述第k个高斯模型的特征协方差矩阵；所述π_k表示所述第k个高斯模型的权重；所述K表示所述高斯模型的总数。

进一步地，所述利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码，具体包括：

将所述每一空间区域的卷积层特征的个数拼接起来作为所述每一空间区域对应点的特征；

根据下式确定所述高斯模型的特征均值和特征协方差矩阵的偏导结果：

其中，所述x表示提取的所述卷积层特征；所述t表示所述x的索引；所述x_t表示抽取的第t个卷积层特征；所述μ_k∈R^D表示第k个所述高斯模型的特征均值；所述σ_k表示所述第k个高斯模型的方差；所述γ_t(k)表示所述第k个高斯模型产生所述x_t的概率；所述T表示所述x的个数；所述j表示所述高斯模型的索引；所述表示对所述μ_k求偏导的结果；所述表示对所述Σ_k求偏导的结果；

将所有所述高斯模型的所述特征均值和所述特征协方差矩阵的偏导结果拼接起来。

进一步地，在所述将高阶编码后的结果拼接起来之前，所述方法还包括：对高阶编码后的结果进行归一化。

进一步地，所述对高阶编码后的结果进行归一化具体包括：

根据下式对所述高阶编码后的结果进行功率归一化：

其中，所述f_λ(x)表示高阶编码后的结果；

根据下式对功率归一化的结果进行L2向量归一化：

其中，所述f_λ(x)^T表示所述f_λ(x)的转置。

为了实现上述目的，另一方面，还提供了以下技术方案：

一种多语言场景字符识别系统，所述系统包括：

语言确定模块，用于确定场景字符图像中字符的语言类型；

网络确定模块，用于根据所述字符的语言类型，确定深度卷积神经网络模型；

特征提取模块，用于利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征；

建立模块，用于基于所述卷积层特征，建立空间金字塔模型；

编码模块，用于利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码；

拼接模块，用于将高阶编码后的结果拼接起来，作为场景字符描述子；

分类模块，用于利用分类器对所述场景字符描述子进行分类，以实现多语言场景字符的识别。

本发明实施例提供了一种多语言场景字符识别方法及识别系统。其中，该方法可以包括：确定场景字符图像中字符的语言类型；根据字符的语言类型，确定深度卷积神经网络模型；利用深度卷积神经网络模型，来提取场景字符图像的卷积层特征；基于卷积层特征，建立空间金字塔模型；利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码；将高阶编码后的结果拼接起来，作为场景字符描述子；利用分类器对场景字符描述子进行分类，以实现多语言场景字符的识别。本发明实施例通过提取卷积层特征，使得对于输入的场景字符图像的尺寸没有严格要求，增加了本发明实施例的适应性。而且，卷积层特征保留了输入图像的长宽比，每一个卷积层特征上的点与输入的场景字符图像的空间位置相关联，使得卷积层特征包含字符结构信息。同时，建立的空间金字塔模型使得卷积层特征包含更多的空间结构信息。通过高阶编码后，得到的特征表达能力更强。本发明实施例对多语言的场景字符图像具有很好的识别效果，是一种通用的字符识别方法，对多语言场景文字识别具有良好的适应性。

附图说明

图1为根据本发明实施例的多语言场景字符识别方法的流程示意图；

图2为根据本发明实施例的英文、中文、韩文、孟加拉文示意图；

图3a为根据本发明实施例的基于英文的场景字符图而建立的深度卷积神经网络模型示意图；

图3b为根据本发明实施例的基于其他语言的场景字符图而建立的深度卷积神经网络模型示意图；

图4a为根据本发明实施例的包含英文的场景字符图像原图示意图；

图4b为根据本发明实施例的将包含英文的场景字符图像原图归一化到32个像素尺度的结果示意图；

图4c为根据本发明实施例的将包含英文的场景字符图像原图归一化到36个像素尺度的结果示意图；

图4d为根据本发明实施例的将包含英文的场景字符图像原图归一化到40个像素尺度的结果示意图；

图5a为根据本发明实施例的包含中文“地”的场景字符图像原图示意图；

图5b为根据本发明实施例的利用图3b所示深度卷积神经网络模型提取第4个卷积层的特征的响应示意图；

图6a为根据本发明实施例的Level0层的空间金字塔的建立示意图；

图6b为根据本发明实施例的Level1层的空间金字塔的建立示意图；

图7为根据本发明实施例的多语言场景字符识别系统的结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

由于意识到文字是由不同的笔画结构组成，所以在文字识别时应充分利用文字的笔画结构信息，从而以此来提高识别效果。

本发明实施例的基本构思是提取包含字符结构信息的深度神经网络卷积层特征，通过对卷积层特征的空间金字塔划分包含更多的空间结构信息，最后利用Fisher Vector对空间金字塔中的特征进行高阶编码，进一步增强特征的表达能力。

本发明实施例提供一种多语言场景字符识别方法。如图1所示，该方法可包括：

S100：确定场景字符图像中字符的语言类型。

其中，字符的语言类型包括但不限于英文、中文、韩文、孟加拉文。图2示例性地示出了英文、中文、韩文、孟加拉文示意图。

S110：根据字符的语言类型，确定深度卷积神经网络模型。

本发明实施例考虑到不同语言字符结构复杂程度不同，对于不同语言的场景字符图像建立不同的深度卷积神经网络CNN模型。

具体地，本步骤可以包括：

S111：将字符语言类型所具有的字符类别个数确定为该深度卷积神经网络模型的输出节点个数。

作为示例，由于英文只有62个类别(其包括10个数字、26个大写字母和26个小写字母)，而且英文字符结构简单，所以，对于英文字符建立一种输出节点个数为62的深度卷积神经网络CNN模型；而对于诸如中文、韩文和孟加拉文等其他语言文字，其字符结构比英文字符结构复杂，所以，对于其他文字，建立另一种其输出节点个数等于对应语言文字字符类别个数的CNN模型。图3a示例性地示出了基于英文的场景字符图而建立的CNN模型示意图。图3b示例性地示出了基于其他语言的场景字符图而建立的CNN模型示意图。其中，conv表示卷积操，stride表示卷积的滑动步长，ReLu(Rectified Linear Units)表示激活函数，normalization表示向量归一化，Max pooling表示最大池化，FC表示全连接层，Dropout表示随机选择一部分节点连接到下一层，其只在训练时用到。

S112：利用随机梯度下降法进行训练，确定深度卷积神经网络模型。

在一个可选的实施例中，在利用随机梯度下降法进行训练之前还包括：将场景字符图像的尺度进行归一化；则利用随机梯度下降法进行训练，确定深度卷积神经网络模型的步骤可以具体包括：基于归一化后的场景字符图像，设置初始学习率、动量、权重衰减率及迭代次数，并采用softmax函数作为输出层的激励函数，利用随机梯度下降法进行训练，从而确定深度卷积神经网络模型。

其中，通过场景字符图像的尺度进行归一化，可以将场景字符图像的宽度和高度归一化到32个像素宽度和32个像素高度，以便于CNN模型训练。

作为示例，在训练CNN模型时可以设置初始学习率为0.001，动量为0.9，权重衰减率为0.0005，并采用softmax函数作为最后一层的激励函数，进行训练。最终将每一个神经元的输出作为每幅场景字符图像所属种类的可能性。

S120：利用深度卷积神经网络模型来提取场景字符图像的卷积层特征。

具体地，本步骤可以包括：

S121：对场景字符图像的尺度进行归一化。

这里，在具体实施过程中，为了实现多尺度输入，保持图像通道数不变，可以将场景字符图像的宽度和高度归一化到多个预先指定的宽度和高度。例如：可以将场景字符图像归一化到3个尺度(例如：32个像素尺度、36个像素尺度和40个像素尺度)，其长度和宽度大小相同。图4a示例性地示出了包含英文的场景字符图像原图示意图；图4b示例性地示出了将包含英文的场景字符图像原图归一化到32个像素尺度的结果示意图；图4c示例性地示出了将包含英文的场景字符图像原图归一化到36个像素尺度的结果示意图；图4d示例性地示出了将包含英文的场景字符图像原图归一化到40个像素尺度的结果示意图。

S122：提取CNN模型中最后一层卷积层特征，并将其作为场景字符图像的卷积层特征。

其中，卷积层以滑动窗的方式在场景字符图像上进行操作，输出的卷积层特征为一个三维矩阵h×w×d，其中，h表示卷积层高度，w表示卷积层宽度，d表示卷积层深度。Pooling层是一种特殊的卷积层，其按照滑动窗的方式进行操作。以图3a和图3b所示CNN模型为例，对于包含英文的场景字符图像，本步骤提取第1个Pooling层的特征；对于包含其他语言文字的场景字符图像，本步骤提取第4个卷积层的特征。提取的卷积层特征即将某一个卷积层的特征图对应空间点的每一个通道值拼接起来，构成一个特征图上该位置的特征向量。

以图4b-d所示三个尺度为例，提取CNN模型中最后一层卷积层特征，对于包含英文的场景字符图像，卷积层特征的大小分别为8、10、12，深度为512；对于包含中文的场景字符图像，卷积层特征的大小分别为8、12、16，深度为960。

下面以图3a和图3b所示CNN模型为例详细说明计算特征图大小的过程。

对于包含英文的场景字符图像，以32个像素尺度为例：

第一层卷积层输出特征图的长和宽为：32-5+1＝28，深度为96；

第二层卷积层输出特征图的长和宽为：28-9+1＝20，深度为128；

第三层卷积层输出特征图的长和宽为：20-5+1＝16，深度为512；

第一个Pooling层输出特征图的长和宽为：16/2＝8，深度为512；

同理，对于36个像素尺度和40个像素尺度，经过Pooling层后得到的卷积层特征的大小分别为10和12。

再以包含中文的场景字符图像为例，且以32个像素尺度为例：

第一层卷积层输出特征图的长和宽为：32-9+1＝24，深度为96；

第二层卷积层输出特征图的长和宽为：24-9+1＝16，深度为160；

第三层卷积层输出特征图的长和宽为：16-5+1＝12，深度为320；

第四层卷积层输出特征图的长和宽为：12-5+1＝8，深度为960；

类似地，对于36个像素尺度和40个像素尺度，经过第四个卷积层后得到的卷积层特征的大小分别为12和16。

图5a示例性地示出了包含中文“地”的场景字符图像原图示意图；图5b示例性地示出了利用图3b所示CNN模型提取第4个卷积层的特征的响应示意图。其中，基于包含中文“地”的场景字符图像，提取第4个卷积层特征，以第150和第184个卷积特征图(也即卷积图)为例，箭头表示学习到的卷积特征图中最强响应点和其对应的原图响应区域(如矩形框所示)。从中可以看到所提取的卷积层特征与文字的不同结构相对应。

S130：基于卷积层特征，建立空间金字塔模型。

为了包含更多的空间结构信息，本发明实施例对卷积层特征建立空间金字塔模型。

图6a示例性地示出了Level0层的空间金字塔的建立示意图。其中，Level0层将卷积层特征作为一个区域。图6b示例性地示出了Level1层的空间金字塔的建立示意图。其中，Level1层将卷积层划分为5部分，相较于经典的Level1层的划分，增加了中心区域。因为人们总是将关注度更多地集中在图像的中心，而且字符图像总是居于图像的中心，所以，出于这种人类的认知，图6b所示空间金字塔增加了中心区域。

具体地，本步骤可以包括：

S131：对卷积层特征建立Level0层的空间金字塔。

本步骤将卷积层特征作为一个区域，以图6a所示为例，以左上点为起始点，坐标具体位置为：1至h、1至w、1至d。

S132：对卷积层特征建立Level1层的空间金字塔。

本步骤将卷积层特征均匀地划分为4个不重叠区域，以图6b所示为例，以左上点为起始点，坐标具体位置为：

第一块：1至0.5×h,1至0.5×w，1至d；

第二块：1至0.5×h,0.5×w+1至w，1至d；

第三块：0.5×h+1至h,1至0.5×w，1至d；

第四块：0.5×h+1至h,0.5×w+1至w，1至d；

S133：在卷积层特征的中部加入空间金字塔区域。

考虑到图像的中间部分更容易获得人类的关注度，而且字符图像总是位于图像的中间，所以，本发明实施例针对卷积层特征在其中部增加一个空间金字塔区域。以图6b所示为例，以左上点为起始点，坐标具体位置为：0.25×h+1至0.75×h,0.25×w+1至0.75×w，1至d。

需要说明的是，对多尺度的场景字符图像，可以针对每一个尺度提取卷积层特征，并按照相同的准则来建立空间金字塔，在此不再赘述。

S134：结合Level0层的空间金字塔、Level1层的空间金字塔和空间金字塔区域，建立空间金字塔模型。

作为示例，针对32个像素尺度、36个像素尺度和40个像素尺度的场景字符图像，空间金字塔中每一个区域的特征个数和维度参见表一。

表一：

S140：利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码。

在一些可选的实施方式中，上述高斯模型可以通过以下方式来确定：

根据下式对每个空间区域的卷积层特征学习高斯模型：

其中，x表示提取的卷积层特征(即从空间金字塔区域提取的卷积层特征，其作为描述子)；P(x|π，μ，Σ)表示概率密度函数；g_k(x；μ_k,Σ_k)表示第k个高斯模型；μ_k∈R^D表示第k个高斯模型的特征均值；Σ_k＝diag(σ_k),σ_k∈R^D表示第k个高斯模型的特征协方差矩阵；π_k表示第k个高斯模型的权重；K表示高斯模型的总数。

具体地，学习过程是将通过CNN模型提取的卷积层特征x聚集起来，用高斯模型(优选地为混合高斯模型)去模拟x的高斯分布，学习参数μ_k、Σ_k和π_k。

其中，高阶编码的方式可以包括但不限于Fisher Vector编码、K-means(K平均算法)、VLAD(局部特征聚合描述符)等。

具体地，高阶编码方式为Fisher Vector编码，步骤S140可以包括：

S141：将每个空间区域的卷积层特征的个数拼接起来作为每一个空间区域对应点的特征。

这里，卷积层特征的第一维是指卷积特征图的高度；第二维是指卷积特征图的宽度；第三维是指卷积特征图的个数，即某一层卷积特征的通道数。

以图6a和图6b为例，每一个点对应的特征维度为d，Level0层每一个区域的特征个数为h×w，Level1层每一个区域的特征个数为0.25×h×w，Level1层总共的特征个数为1.25×h×w。

下面以Fisher Vector编码方式为例详细说明在空间金字塔模型上对于每一个空间区域进行高阶编码的过程。

Fisher Vector编码是对特征进行混合高斯模拟，然后对于高斯模型的均值和协方差矩阵的每一维进行求偏导，再将均值和协方差拼接起来作为最终的Fisher Vector向量。Fisher Vector的结果就是对原始特征数据进行了升维，从原始维度D升维到2KD，Fisher Vector编码后得到的特征维度为2KD。其中，K表示高斯模型个数，D表示原始的特征维度。

S142：根据下式确定高斯模型的特征均值和特征协方差矩阵的偏导结果：

其中，x表示提取的卷积层特征；t表示x的索引；x_t表示抽取的第t个卷积层特征；μ_k∈R^D表示第k个高斯模型的特征均值；σ_k表示第k个高斯模型的方差；γ_t(k)表示第k个高斯模型产生卷积层特征x_t的概率；T表示x的个数；j表示高斯模型的索引；表示对μ_k求偏导的结果；表示对Σ_k求偏导的结果。

在上述实施例中，作为示例，Leve0层的描述子个数可以为h×w，Leve1层的描述子个数可以为1.25×h×w，每一个空间区域描述子个数可以为0.5×h×w。

S143：将所有高斯模型的特征均值和特征协方差矩阵的偏导结果拼接起来。

由此，Fisher Vector编码后得到的特征维度为2KD(K表示高斯模型个数，D表示原始的特征维度)，编码后的特征维度和原始特征的个数无关。因此，对于多尺度图像输入，虽然提取的卷积层特征大小不一致，但是经过Fisher Vector编码后特征维度一致。

S150：将高阶编码后的结果拼接起来，作为场景字符描述子。

作为示例，对于32个像素尺度、36个像素尺度和40个像素尺度的场景字符图像，针对每一个尺度，提取卷积层特征，接着划分空间金字塔，对空间金字塔的每个空间区域进行Fisher Vector编码并且归一化得到Fisher Vector向量；最后，将三个尺度得到的FisherVector向量拼接起来作为最终的字符特征描述子。

在将高阶编码后的结果拼接起来之前本发明实施例提供的方法还可以包括对高阶编码后的结果进行归一化。

具体地，归一化的步骤可以包括：

步骤A：根据下式对高阶编码后的结果进行功率归一化：

其中，f_λ(x)表示高阶编码后的结果，例如其可以为FisherVector向量。

步骤B：根据下式对功率归一化的结果进行L2向量归一化：

其中，f_λ(x)^T表示f_λ(x)的转置。

S160：利用分类器对场景字符描述子进行分类，实现多语言场景字符的识别。

在本发明实施例中，分类器可以包括但不限于SVM分类器、随机森林分类器等。

下面以SVM分类器为例来说明分类过程。

SVM是一个由分类超平面定义的判别分类器，也就是说给定一组带标签的训练样本，算法将会输出一个最优超平面对新样本(测试样本)进行分类。本发明实施例利用此可以选择得分最高的类别作为场景字符识别的类别。例如：对于10个类别的分类，输出的概率分别为0.01、0.7、0.025、0.025、0.01、0.045、0.045、0.09、0.025、0.025。其中，第二类的概率最大，则可以将这个字符识别为第二类对应的字符类别。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于与方法实施例相同的技术构思，本发明实施例还提供一种多语言场景字符识别系统。如图7所示，该系统70可以包括：语言确定模块71、网络确定模块72、特征提取模块73、建立模块74、编码模块75、拼接模块76及分类模块77。其中，语言确定模块71用于确定场景字符图像中字符的语言类型。网络确定模块72与语言确定模块71相连，用于根据字符的语言类型，确定深度卷积神经网络模型。特征提取模块73与网络确定模块72相连，用于利用深度卷积神经网络模型，来提取场景字符图像的卷积层特征。建立模块74与特征提取模块73相连，用于基于卷积层特征，建立空间金字塔模型。编码模块75与建立模块74相连，用于利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码。拼接模块76与编码模块75相连，用于将高阶编码后的结果拼接起来，作为场景字符描述子。分类模块77与拼接模块76相连，用于利用分类器对场景字符描述子进行分类，以实现多语言场景字符的识别。

上述实施例提供的多语言场景字符识别系统和方法在进行多语言场景字符识别时，仅以上述各功能模块或步骤的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块或步骤来完成，即将本发明实施例中的模块或者步骤再分解或者组合，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块或步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明保护范围的不当限定。如本文中所使用的，术语“模块”可以指代在计算系统上执行的软件对象或例程。可以将本文中所描述的不同模块实现为在计算系统上执行的对象或过程(例如，作为独立的线程)。

上述系统实施例可以用于执行上述方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。而且在没有明确限定或不冲突的情况下，本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员在本发明所揭露的技术范围内，可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多语言场景字符识别方法，其特征在于，所述方法包括：

确定场景字符图像中字符的语言类型；

根据所述字符的语言类型，确定深度卷积神经网络模型；

基于所述卷积层特征，建立空间金字塔模型；

将高阶编码后的结果拼接起来，作为场景字符描述子；

2.根据权利要求1所述的方法，其特征在于，所述根据所述字符的语言类型，确定深度卷积神经网络模型，具体包括：

3.根据权利要求2所述的方法，其特征在于，在所述利用随机梯度下降法进行训练之前还包括：

将所述场景字符图像的尺度进行归一化；

4.根据权利要求1所述的方法，其特征在于，所述利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征，具体包括：

对所述场景字符图像的尺度进行归一化；

5.根据权利要求1所述的方法，其特征在于，所述基于所述卷积层特征，建立空间金字塔模型，具体包括：

对所述卷积层特征建立Level0层的空间金字塔；

对所述卷积层特征建立Level1层的空间金字塔；

在所述卷积层特征的中部加入空间金字塔区域；

6.根据权利要求1所述的方法，其特征在于，所述高斯模型通过以下方式来确定：

P (x | π, μ, Σ) = Σ_{k = 1}^{K} π_{k} g_{k} (x; μ_{k}, Σ_{k})

其中，所述x表示提取的所述卷积层特征；所述P(x|π,μ,∑)表示概率密度函数；所述g_k(x；μ_k,∑_k)表示第k个高斯模型；所述μ_k∈R^D表示所述第k个高斯模型的特征均值；所述Σ_k＝diag(σ_k),σ_k∈R^D表示所述第k个高斯模型的特征协方差矩阵；所述π_k表示所述第k个高斯模型的权重；所述K表示所述高斯模型的总数。

7.根据权利要求1所述的方法，其特征在于，所述利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码，具体包括：

f_{u_{k}} (X) = \frac{1}{\sqrt{π_{k}}} Σ_{t = 1}^{T} γ_{t} (k) (\frac{x_{t} - μ_{k}}{σ_{k}}), f_{σ_{k}} (X) = \frac{1}{\sqrt{2 π_{k}}} Σ_{t = 1}^{T} γ_{i} (k) [\frac{{(x_{i} - μ_{k})}^{2}}{σ_{k}^{2}} - 1]

γ_{t} (k) = \frac{π_{k} g_{k} (x; μ_{k}, Σ_{k})}{Σ_{j = 1}^{K} π_{j} g_{j} (x; μ_{j}, Σ_{j})}

8.根据权利要求1所述的方法，其特征在于，在所述将高阶编码后的结果拼接起来之前，所述方法还包括：对高阶编码后的结果进行归一化。

9.根据权利要求8所述的方法，其特征在于，所述对高阶编码后的结果进行归一化具体包括：

根据下式对所述高阶编码后的结果进行功率归一化：

f_{λ} (x) = s i g n (f_{λ} (x)) \sqrt{| f_{λ} (x) |}

s i g n (f_{λ} (x)) = \{\begin{matrix} 1 & f_{λ} (x) &GreaterEqual; 0 \\ - 1 & f_{λ} (x) < 0 \end{matrix}

其中，所述f_λ(x)表示高阶编码后的结果；

根据下式对功率归一化的结果进行L2向量归一化：

f_{λ} (x) = \frac{f_{λ} (x)}{\sqrt{f_{λ} (x) f_{λ} {(x)}^{T}}}

其中，所述f_λ(x)^T表示所述f_λ(x)的转置。

10.一种多语言场景字符识别系统，其特征在于，所述系统包括：

语言确定模块，用于确定场景字符图像中字符的语言类型；

网络确定模块，与所述语言确定模块相连，用于根据所述字符的语言类型，确定深度卷积神经网络模型；

特征提取模块，与所述网络确定模块相连，用于利用所述深度卷积神经网络模型，来提取所述场景字符图像的卷积层特征；

建立模块，与所述特征提取模块相连，用于基于所述卷积层特征，建立空间金字塔模型；

编码模块，与所述建立模块相连，用于利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码；

拼接模块，与所述编码模块相连，用于将高阶编码后的结果拼接起来，作为场景字符描述子；

分类模块，与所述拼接模块相连，用于利用分类器对所述场景字符描述子进行分类，以实现多语言场景字符的识别。