CN109948696A

CN109948696A - 一种多语言场景字符识别方法及系统

Info

Publication number: CN109948696A
Application number: CN201910205913.XA
Authority: CN
Inventors: 刘树春; 陈明曦; 彭垚; 谢雨飞; 吕桂华; 林亦宁
Original assignee: SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Current assignee: SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-06-28

Abstract

本发明公开了一种多语言场景字符识别模型及方法，所述模型包括：图像获取处理单元，用于获取待文字识别图像，对待文字识别图像处理成灰度图像；特征图获取单元，用于利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图；滑动窗口处理单元，用于将所述特征图获取单元获取的特征图进行处理，获得批量的固定大小的方块；文字类别分类单元，用于利用FC分类层对经过所述滑动窗口处理单元处理的方块进行分类，以对进行文字的粗分类；文字解析单元，用于根据分类结果选择相应的内容解析器，并利用bi‑lstm与attention网络以共同实现内容解析，通过本发明，可实现多语言场景文字的识别。

Description

一种多语言场景字符识别方法及系统

技术领域

本发明涉及机器视觉领域中的文本图像识别技术领域，特别是涉及一种端到端的多语言场景字符识别方法及系统。

背景技术

文字作为一种人类设计的符号，表达了高层的信息，对理解图像中的内容有着重要的帮助。因此，文字的自动检测识别引起了人们的高度关注，它对于图像和视频的存储、分类、理解及检索等来说具有及其重要的意义，有着广泛的应用前景和商业价值。

然而，由于自然场景照中字符受到复杂背景、不均匀光照、低分辨率、多样字体、不同颜色等因素的影响，直接使用传统的光学字符识别(OCR)技术，识别效果不能令人满意。因此，真实场景中文字识别方法具有很强的研究必要。

随着研究的深入发展，目前对于文字的识别一般都通过训练模型来实现，这种方法针对较为整齐的文字区域，文字检测技术在使用上问题不大，但是一旦涉及多种语言文字的文字识别，例如超过两百种语言文字的文字识别，如图1所示，不同的书写方式，千差万别的结构、顺序，则给文字识别带来了重重阻碍，这种情况下针对每一种文字都训练一种模型显然很不合理，而同时如果把所有语言的所有类别都融合起来，那么分类的类别会变得无比庞大，分类的性能必然会受到影响，因此，急需寻找到一种通用方法来处理不同语言的文字，实现多语言场景文字的识别。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种多语言场景字符识别方法及系统，以实现多语言场景文字的识别。

为达上述及其它目的，本发明提出一种多语言场景字符识别模型，包括：

图像获取处理单元，用于获取待文字识别图像，对待文字识别图像处理成灰度图像；

特征图获取单元，用于利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图；

滑动窗口处理单元，用于将所述特征图获取单元获取的特征图进行处理，获得批量的固定大小的方块；

文字类别分类单元，用于利用FC分类层对经过所述滑动窗口处理单元处理的方块进行分类，以对进行文字的粗分类；

文字解析单元，用于根据分类结果选择相应的内容解析器，并利用bi-lstm与attention网络以共同实现内容解析。

优选地，所述卷积神经网络采用将SE模块嵌入到Resnet50神经网络的SENet-Resnet50神经网络。

优选地，所述滑动窗口处理单元将获取的特征图经过滑动窗口获得批量的固定大小的方块。

优选地，所述文字解析单元采用bi-lstm与attention网络，其后跟随对应文字的内容解析器，并使用CTC-attention损失函数进行梯度的反向传播，从而实现内容的解析。

优选地，所述模型还包括：

网络优化单元，用于利用CTC-attention与softmax函数结合作为优化损失函数训练整个模型的网络结构。

为达到上述目的，本发明还提供一种多语言场景字符识别方法，包括如下步骤：

步骤S1，构建多语言场景字符识别模型，并通过获取多个样本图像对模型进行训练；

步骤S2，获取待文字识别图像，对待文字识别图像处理成灰度图像；

步骤S3，利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图；

步骤S4，将获取的特征图进行处理，获得批量的固定大小的方块；

步骤S5，利用FC分类层对经过步骤S 4获得的方块进行分类，以进行文字的粗分类；

步骤S6，根据分类结果选择相应的内容解析器，并利用bi-lstm与attention网络共同实现内容解析。

优选地，步骤S1进一步包括：

步骤S100，获取输入的样本图像，将其转换为灰度图像；

步骤S101，利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图；

步骤S102，将获取的特征图进行处理，获得批量的固定大小的方块；

步骤S103，利用全连接层对获得的方块进行分类，以进行文字的粗分类；

步骤S104，根据分类结果选择相应的内容解析器，并采用bi-lstm与attention网络以共同实现内容解析；

步骤S105，利用CTC-attention损失函数进行梯度的反向传播，以进行模型的训练。

优选地，所述将获取的特征图进行处理，获得批量的固定大小的方块是指将获取的特征图经过滑动窗口获得批量的固定大小的方块。

优选地，于步骤S105中，利用CTC-attention与softmax函数结合作为优化损失函数训练整个模型的网络结构。

与现有技术相比，本发明一种多语言场景字符识别模型及方法通过将大问题细分成为小问题，并使用多任务(multi-task)的思想，在resnet-50神经网络输出的特征图的基础上，使用bi-lstm与attention网络，同时利用FC输出网络，使用CTC-attention loss进行梯度的反向传播，实现了多语言场景文字识别的目的。

附图说明

图1为本发明一种人脸情绪识别模型的结构示意图；

图2为本发明一种多语言场景字符识别模型的系统架构图；

图3为本发明具体实施例中SENet模块的示意图；

图4为本发明具体实施例中SENet-Resnet50的结构示意图；

图5为本发明具体实施例中利用滑动窗口处理特征图的示意图；

图6为本发明一种多语言场景字符识别方法的步骤流程图；

图7为本发明具体实施例中多语言场景字符识别模型的网络结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图2为本发明一种多语言场景字符识别模型的系统架构图。如图2所示，本发明一种多语言场景字符识别模型，包括：

图像获取处理单元101，用于获取待文字识别图像，对待文字识别图像处理成灰度图像。

在本发明具体实施例中，将待处理图像转换为灰度图像，具体地，可遍历待处理图像的每一个像素点，取每个像素点的像素值的R(红)、G(绿)、B(蓝)三个分量的加权平均值或者平均值作为灰度图像中的对应像素点的灰度值；或者取每个像素点的像素值的R、G、B三个分量中最大或最小的分量作为灰度图像中的对应像素点的灰度值，从而获得灰度图像。

特征图获取单元102，用于利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图(feature map)。

在本发明具体实施例中，所述卷积神经网络采用SENet-Resnet50神经网络，即将SENet(Sequeeze-and-ExcitationNetworks)嵌入到Resnet50神经网络中，SENet的核心思想在于通过网络根据损失值(loss去)学习特征权重，使得有效的特征图(feature map)权重大，无效或效果小的特征图(feature map)权重小的方式训练模型达到更好的结果。

图3为本发明具体实施例中SENet模块的示意图。其主要包括Squeeze和Excitation两部分，首先F_tr这一步是转换操作，简单地说就是一个标准的卷积操作，其输入输出的定义如下表示。

F_tr:X→U,

那么该F_tr的公式则为下面的公式1(卷积操作，v_c表示第c个卷积核，X^s表示第s个输入)。

F_tr得到的U就是图2中的左边第二个三维矩阵，也叫tensor，或者叫C个大小为H*W的特征图(feature map)。而u_c表示U中第c个二维矩阵，下标c表示通道(channel)。

接下来进行Squeeze操作，即为global average pooling(全局平均池化)，如下所示：

公式(2)就将HWC的输入转换成11C的输出，对应图2中的F_sq操作，这一步的结果相当于表明该层C个特征图(feature map)的数值分布情况，或者叫全局信息。

接下来进行Excitation操作，如公式(3)，直接看最后一个等号，前面squeeze得到的结果是z，这里先用W1乘以z，就是一个全连接层操作，W1的维度是C/r*C，这个r是一个缩放参数，在文中取的是16，这个参数的目的是为了减少channel个数从而降低计算量。又因为z的维度是11C，所以W1z的结果就是11C/r；然后再经过一个ReLU层，输出的维度不变；然后再和W2相乘，和W2相乘也是一个全连接层的过程，W2的维度是C*C/r，因此输出的维度就是11C；最后再经过sigmoid函数，得到s。

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z)) (3)

也就是说，最后得到的这个s的维度是11C，C表示channel数目。这个s其实是SENet模块的核心，它用来刻画tensor(张量)U中C个特征图(feature map)的权重。而且这个权重是通过前面这些全连接层和非线性层学习得到的，因此可以end-to-end(端到端)训练。这两个全连接层的作用就是融合各通道的特征图(feature map)信息，因为前面的squeeze都是在某个通道(channel)的特征图(feature map)里操作。

在得到s之后，就可以对原来的tensorU操作了，即公式(4)。其中，u_c是一个二维矩阵，s_c为一个数，也就是权重，因此相当于把u_c矩阵中的每个值都乘以s_c。对应图2中的F_scale。即

图4为本发明具体实施例中SENet-Resnet50的结构示意图。即将SE模块嵌入至Resnet50神经网络，如图3所示，在Residual中加入SE模块的情况，这里的Residual部分就对应图2中的F_tr操作，在本发明具体实施例中，SENet-Resnet50中的网络参数(其中SENet跟随Resnet变化，不需要标注)如下表1所示:

表1

滑动窗口处理单元103，用于将特征图获取单元102获取的特征图经过滑动窗口获得批量的固定大小的方块。在本发明具体实施例中，滑动窗口的大小可根据实际需求预设，即将获取的特征图通过滑动窗口处理，获得与滑动窗口大小相应的小方块。在本发明具体实施例中，对特征图采用sliding(滑动)处理的方式，从左向右，这样不仅可以拓展适应可变长的文字识别，同时还可以进行并行训练，如图5所示。

文字类别分类单元104，用于利用FC(全连接层)分类层对经过滑动窗口处理单元103处理的方块进行分类，以进行文字的粗分类。也就是说，将滑动窗口处理单元103处理后的各方块输入到FC(全连接层)分类层得到文字类别，如果是英文则选择用英文的解析器，如果是中文则选择中文的解析器，这里的解析器其实就是相对应的FC网络，这里需说明的是，每种语言对应一FC网络，由于具体利用FC分类层的分类采用的是现有技术，在此不予赘述。

文字解析单元105，用于根据分类结果选择相应的内容解析器，并利用bi-lstm(双向LSTM网络)与attention网络共同实现内容解析。在本发明具体实施例中，这里的内容解析器实质上是一种FC网络，其可以通过CTC-attentionloss(损失函数)的方式学习到相对应的标签label，即文字解析单元105采用bi-lstm与attention网络，其后跟随6种文字的FC输出网络，并使用CTC-attention损失函数(loss)进行梯度的反向传播，从而实现内容的解析，也就是说，内容解析器的FC网络是接在res-bilstm(即采用bi-lstm与attention的网络)之后的，而确定用哪种语言的内容解析器是用之前的滑动窗口产生的方块输入到FC的分类器中确定的。由于这里的解析采用的是现有的网络技术实现的解析，在此不予赘述。

优选地，本发明一种多语言场景字符识别模型还包括：

网络优化单元，用于利用CTC-attention与softmax函数(归一化指数函数)结合作为优化损失函数(loss)训练整个模型的网络结构。即综合attention方法用于Location定位，使用CTC-attention损失函数进行模型的训练和优化，具体地，对于两种loss值会设置一个权重相加，多任务权衡两种任务之间的重要性，这样优化的性能比一般的ctc loss更优异。

图6为本发明一种多语言场景字符识别方法的步骤流程图。如图6所示，本发明一种多语言场景字符识别方法，包括如下步骤：

步骤S1，构建多语言场景字符识别模型，并通过获取多个样本图像对模型进行训练。

具体地，步骤S1进一步包括：

步骤S100，获取输入的样本图像，将其转换为灰度图像；

步骤S101，利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图(feature map)。在本发明具体实施例中，所述卷积神经网络采用SENet-Resnet50神经网络；

步骤S102，将获取的特征图经过滑动窗口获得批量的固定大小的方块。在本发明具体实施例中，滑动窗口的大小可预设，即将获取的特征图通过滑动窗口处理，获得与滑动窗口大小相应的小方块；

步骤S103，利用FC分类层对经过滑动窗口处理的方块进行分类，以进行文字的粗分类。将滑动窗口处理后的各方块输入到FC分类层得到文字类别，如果是英文则选择用英文的解析器，如果是中文则选择中文的解析器，这里的解析器其实就是相对应的FC网络，这里需说明的是，每种语言对应一FC网络，由于具体利用FC分类层的分类采用的是现有技术，在此不予赘述；

步骤S104，根据分类结果选择相应的内容解析器，并利用bi-lstm(双向LSTM网络)与attention网络以共同实现内容解析。在本发明具体实施例中，这里的内容解析器实质上是一种FC网络，其可以通过attention-ctc loss的方式学习到相对应的标签(label)，即采用bi-lstm与attention网络，其后跟随6种文字的FC输出网络，并可使用CTC-attentionloss进行梯度的反向传播，从而实现内容的解析。

步骤S105，利用CTC-attention损失函数进行梯度的反向传播，以进行模型的训练。较佳地，利用CTC-attention与softmax函数(归一化指数函数)结合作为优化损失值(loss)以训练模型。

步骤S2，获取待文字识别图像，对待文字识别图像处理成灰度图像。

步骤S3，利用卷积神经网络对所述待文字识别图像的灰度图像进行处理，获得该图像的特征图(feature map)。在本发明具体实施例中，所述卷积神经网络采用SENet-Resnet50神经网络；

步骤S4，将获取的特征图经过滑动窗口获得批量的固定大小的方块。在本发明具体实施例中，滑动窗口的大小可预设，即将获取的特征图通过滑动窗口处理，获得与滑动窗口大小相应的小方块；

步骤S5，利用FC分类层对经过滑动窗口处理的方块进行分类，以进行文字的粗分类。将滑动窗口处理后的各方块输入到FC分类层得到文字类别，如果是英文则选择用英文的解析器，如果是中文则选择中文的解析器，这里的解析器其实就是相对应的FC层；

步骤S6，用于根据分类结果选择相应的内容解析器，并利用bi-lstm(双向LSTM网络)与attention网络共同实现内容解析。在本发明具体实施例中，内容解析器实质上是一种FC网络，其可以通过attention-ctc loss的方式学习到相对应的标签(label)，即于步骤S6中，采用bi-lstm与attention网络，其后跟随6种文字的FC输出网络，并可使用CTC-attention loss进行梯度的反向传播，从而实现内容的解析。

图7为本发明具体实施例中多语言场景字符识别模型的网络结构图。如图7所示，其识别过程如下：

步骤1，输入待识别文字图片，转化为灰度图，例如输入一包含字符“科技成就生活之美”的待识别文字图片；

步骤2，将该灰度图经过SENet-Resnet50神经网络得到feature map特征图；

步骤3，将该特征图经过滑动窗口获得的批量的固定大小的小方块输入到FC(全连接层)得到文字类别，即如果是英文就用英文的解析器，如果是中文就用中文的解析器，这里的解析器其实是相对应的FC层

步骤4，根据相对的分类结果，选择相应的内容解析器；

步骤5，使用attention-ctc与softmax结合作为优化loss优化整个网络结构。

综上所述，本发明一种多语言场景字符识别模型及方法通过将大问题细分成为小问题，并使用多任务(multi-task)的思想，在resnet-50神经网络输出的特征图的基础上，使用bi-lstm与attention网络，同时跟着FC输出网络，使用CTC-attention loss进行梯度的反向传播，实现了多语言场景文字识别的目的。

与现有技术相比，本发明具有如下优点

1、多任务(multi-task)方式训练

本发明使用多任务(multi-task)的方式训练(同时训练了中文以及其他语言的识别任务，并多了一项判定文字的语言类型任务)，不仅可以减少重复计算问题，同时使用多任务的方式，可以全局增强模型的稳定性以及性能。

2、使用SENet作为backbone

SENet可以给予每个通道一定的阈值，选择对于整个任务有利的特征层，增强整体的识别率。

3、对于文字类别分支，采用滑动(sliding)的方式,从左向右，这样可以拓展适应可变长的文字识别，同时还可以进行并行训练。

4、本发明使用res-bilstm(bi-lstm与attention网络)用于残差的传递，其底层的特征被继续传递到高语义的特征层，并连接(concat)输出结果与输入，相较于BILSTM，Res-BiLSTM可以更好地传递特征，对于识别有很强的增强作用。

5、本发明综合attention方法用于Location定位，使用attention-ctc损失函数(loss)进行模型的训练和优化，性能较一般的ctc loss更优异。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种多语言场景字符识别模型，包括：

2.如权利要求1所述的一种多语言场景字符识别模型，其特征在于：所述卷积神经网络采用将SE模块嵌入到Resnet50神经网络的SENet-Resnet50神经网络。

3.如权利要求1所述的一种多语言场景字符识别模型，其特征在于：所述滑动窗口处理单元将获取的特征图经过滑动窗口获得批量的固定大小的方块。

4.如权利要求1所述的一种多语言场景字符识别模型，其特征在于：所述文字解析单元采用bi-lstm与attention网络，其后跟随对应文字的内容解析器，并使用CTC-attention损失函数进行梯度的反向传播，从而实现内容的解析。

5.如权利要求1所述的一种多语言场景字符识别模型，其特征在于，所述模型还包括：

6.一种多语言场景字符识别方法，包括如下步骤：

7.如权利要求6所述的一种多语言场景字符识别方法，其特征在于，步骤S1进一步包括：

步骤S100，获取输入的样本图像，将其转换为灰度图像；

8.如权利要求7所述的一种多语言场景字符识别方法，其特征在于：所述卷积神经网络采用将SE模块嵌入到Resnet50神经网络的SENet-Resnet50神经网络。

9.如权利要求7所述的一种多语言场景字符识别方法，其特征在于：所述将获取的特征图进行处理，获得批量的固定大小的方块是指将获取的特征图经过滑动窗口获得批量的固定大小的方块。

10.如权利要求7所述的一种多语言场景字符识别方法，其特征在于：于步骤S105中，利用CTC-attention与softmax函数结合作为优化损失函数训练整个模型的网络结构。