CN112633431B

CN112633431B - 一种基于crnn和ctc的藏汉双语场景文字识别方法

Info

Publication number: CN112633431B
Application number: CN202011614400.3A
Authority: CN
Inventors: 王维兰; 李金成; 郝玉胜; 王铁君; 蔡正琦
Original assignee: Northwest Minzu University
Current assignee: Northwest Minzu University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-07-18
Anticipated expiration: 2040-12-31
Also published as: CN112633431A

Abstract

本发明提供一种基于CRNN和CTC的藏汉双语场景文字识别方法，包括以下步骤：获取藏汉场景单行文字图像，得到藏汉场景文字数据集；构建卷积网络层，并根据卷积网络层对藏汉场景文字数据集进行特征提取并编码成图像特征序列；构建循环网络层，并根据循环网络层对图像特征序列进行处理，得到概率分布矩阵；构建转录层，并根据转录层对概率分布矩阵进行解码，得到图像识别结果。本发明通过使用卷积循环神经网络和连接时序分类器的端到端识别方法，实现了场景藏汉双语文字的识别，取得了良好的结果。为进一步的研究和应用开发奠定了基础。

Description

一种基于CRNN和CTC的藏汉双语场景文字识别方法

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于CRNN和CTC的藏汉双语场景文字识别方法。

背景技术

在中国藏区，藏汉双语的海报、路牌、商品包装、店铺名称、书籍和广告牌等随处可见。这些文字是人们理解场景内容的关键元素，将场景中所包含的藏汉文字识别出来，对于获取自然场景中的信息至关重要，在现实生活中能带来很大的便利。此外在网络图像搜索(文字辅助理解图像信息)、自动驾驶(路标交通标识等识别)、医疗健康、教育产业(如自动阅卷和作业的批改)、舆情分析以及安全智慧城市建设等方面有着非常广泛的应用前景。

场景文字识别(STR)不同于传统的光学字符识别(OCR)，由于场景文字的形状各异、尺度多样、背景复杂，以及图像模糊、阴影和遮挡等因素，造成其中的文字识别难度更大。此外，汉字类别数量就已经够多(最常用的一级汉字3755字、二级汉字达到6763个)，加上藏文字符的类别数量(常用字丁500个左右)，和英文字母类别相比属于特大字符类别，且场景藏文识别数据集较少，这些问题给自然场景下的藏汉双语识别带来极大的挑战。通常场景文字识别的过程分为两个部分：检测和识别。检测部分是找到图像中的文字区域，而识别部分则是将找到的文字区域识别成计算机能够编辑的文字序列。

一方面，当前大多数场景文字识别(STR)主要关注西文、汉语等主流语言文字，只有极少数涉及场景中多语种文字的识别研究。从识别任务的公开数据集看，没有一款涉及到我国少数民族语言文字的智能化应用。另一方面，藏文信息化建设的步伐一直随着整个国家的信息化建设进程稳步迈进。目前，可以在学术界和工业界零星看到一些支持藏文的机器翻译、舆情分析、搜索引擎、智能教育等产品问世，但其深度和广度还远远不够，反映了这一领域的研究还不够深入。

因此，有必要就我国多语言并存的现实，开展自然场景中藏汉双语文字识别研究，这对于藏区的信息化发展有重要意义。

发明内容

本发明的目的在于提供一种基于CRNN和CTC的藏汉双语场景文字识别方法，通过使用卷积循环神经网络和连接时序分类器(CRNN+CTC)的端到端识别方法，实现了场景藏汉双语文字的识别，取得了良好的结果。为进一步的研究和应用开发奠定了基础。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于CRNN和CTC的藏汉双语场景文字识别方法，包括以下步骤：

获取藏汉场景单行文字图像，得到藏汉场景文字数据集；

构建卷积网络层，并根据卷积网络层对藏汉场景文字数据集进行特征提取，并编码得到图像特征序列；

构建循环网络层，并根据循环网络层对图像特征序列进行处理，得到概率分布矩阵；

构建转录层，并根据转录层对概率分布矩阵进行解码，得到图像识别结果。

优选地，所述卷积网络层包括5个卷积块，共7次卷积和4次下采样，每个卷积块的卷积核数量依次为128、256、512、512和1024，除最后一个卷积块，其他每个卷积块包含1个或者2个卷积核为3×3大小的卷积层和一个池化层；每个卷积层之后添加一个激活层和批归一化层。

优选地，所述循环网络层由第一全连接层、第二全连接层、BiGRU网络和Dropout层组成；

所述BiGRU网络设置于所述第一全连接层之后；所述Dropout层设置于所述第二全连接层之前。

优选地，所述BiGRU网络包括前向GRU网络和后向GRU网络。

优选地，所述转录层采用连接时序分类器CTC将得到的概率分布矩阵解码成最终的识别结果。

优选地，所述转录层的识别过程为：采用基于动态规划的前向后向算法对概率分布矩阵进行求解，得到条件概率；选择条件概率最高的序列，通过映射函数获得最终输出，得到藏汉双语单行文字图像的识别结果。

优选地，采用基于归一化编辑距离度量、基于字符级准确率及基于文本行级准确率对识别结果进行评估。

本发明公开了以下技术效果：

(1)本发明以藏文字丁为识别字符单位，端到端识别解决了字丁之间黏连难切分问题；本发明基于CTC的识别方法，高效，更快的预测速度。在训练样本不足的情况下，针对字符类别较多也能很好地挖掘序列关系，且能较好地识别长文本；

(2)本发明针对目前鲜有场景藏汉双语图像文本识别研究的现状，提出基于CRNN+CTC方法，使用合成数据和部分真实数据训练网络，获得场景藏汉双语文字识别模型。在两个藏汉文本数据集上评估模型，取得了较好的单字识别率，并能有效地识别场景藏汉双语文本实例，和其他汉英场景文本识别效果相差不大的情况下，增加了场景藏文字的识别，同时识别的汉文类别数也有所增加，提高了模型的实用性，具有较好的应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于CRNN和CTC的藏汉双语场景文字识别方法流程示意图；

图2为本发明实施例训练数据样本示意图，其中：图2(a)为合成样本数据示意图，图2(b)为真实样本数据示意图；

图3为本发明实施例测试数据样本示意图；

图4为本发明实施例的图像识别网络结构示意图；

图5为本发明卷积网络层结构示意图；

图6为本发明实施例图像特征序列与输入图像的关系示意图；

图7为本发明循环网络层结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于CRNN和CTC的藏汉双语场景文字识别方法，包括以下步骤：

S1、获取藏汉场景(单行)文字图像，得到藏汉场景文字数据集，并根据藏汉场景文字数据集得到训练集和测试集。

在场景文本识别领域中，由于目前尚未公开的藏汉场景文字数据集，加上难以通过收集真实场景中的标注文本图像来获得大规模数据集，使用计算机自动合成场景文字图像是一种有效的方法。

因此，为了训练本发明使用的识别网络来完成藏汉双语场景文字识别这项艰巨的任务，本实施例使用藏区小学、初中、高中藏语文课本作为藏文语料，使用6000多个常用汉字随机组成长度为1到32个字符的文本作为汉文语料，这些语料中还包含字母、数字以及符号。结合藏文、汉文语料，通过添加各种字体、背景、字体颜色、纹理和噪声等，使用特定的图像合成算法，从中产生了100万个藏汉图像文本，其中藏汉图像文本各占一半，每个图像文本标签有1到34个字符。

由于常用藏文字符类别比汉文字符类别相对较少，为了训练样本的平衡性，本实施例使用50万个汉文图像文本和20万个藏文图像文本，组成70万张藏汉双语场景文本图像的数据集TCSynth-70w作为主要的训练数据集。数据集TCSynth-70w部分样本如图2(a)所示。

为了增强本发明图像识别模型的识别性能，本实施例从互联网上收集到带有标注信息的10027个汉文场景图像文本和250个藏文场景图像文本，共10277个藏汉场景图像文本的真实数据TCTruth，将其添加到训练数据中。真实数据集的部分样本如图2(b)所示。

因此，本实施例基于以上两个数据集进行训练，总共有710277个样本，这些图像中的文字包括862个藏文字丁、6763个汉字，其他数字、字母、符号组成的98个字符，几乎涵盖了绝大多数的汉字、藏文字丁(含部分常用梵音藏文字丁)和常见字符(数字、字母和符号)。

同时，本实施例构建三组藏汉图像文本测试集，具体为：

利用合成图像算法，用不同于训练数据的背景图，合成1万个藏汉图像文本作为测试集-1；在藏区实地拍摄并标注的548张藏汉双语场景文字图像，从中整理1200个藏汉图像文本实例作为测试数据集-2。测试集-2的部分藏汉文本实例图像如图3所示，显然这是一个非常贴近实际应用场景的数据集；同时为评估本发明图像识别网络在场景藏文文本行图像上的识别性能，本实施例构建了一个只有场景藏文图像文本的测试集-3，该数据集的组成由测试集-2中选出200个场景藏文图像文本，再从藏文古籍、印刷的书籍、藏文网站等媒介中裁剪并标注300个藏文图像文本，共500个藏文图像文本。

S2、构建图像识别网络，并将训练集输入到图像识别网络中进行训练。

本实施例对所有训练数据做归一化处理，即将图像的大小设置为48×256，图像通道数设置为1。同时，为提高模型的鲁棒性，使用随机亮度、对比度、饱和度、色调、模糊、随机旋转角度等数据增广策略，具体地，随机旋转图像的角度范围为[-8°,8°]。训练的总轮数为120，批量大小为256，权重的衰减率为0.0005，动量为0.9，使用Adam优化器来优化网络，设置初始学习率为10^-3，并在训练每30轮后变为原来的10％。

如图4所示，本发明的图像识别网络主要由三个部分组成，分别是特征提取--卷积网络层(CNN)、序列建模--循环网络层(RNN)以及序列转录--转录层。

卷积网络层包括5个卷积块(Block)，共7次卷积和4次下采样，每个卷积块的卷积核数量依次为128、256、512、512和1024，这样就保证了有更多的卷积核去充分提取前面输出的特征。另外，除最后一个卷积块，网络的其他每个卷积块包含1个或者2个卷积核为3×3大小的卷积层(第一、第二两个卷积块只有一个卷积层，第三和第四两个卷积块有两个卷积层)和一个池化层，每个卷积层之后添加了一个激活层和批归一化层，目的是加快网络的收敛速度和减小网络的过拟合。而4个池化层中，都使用最大池化的下采样规则。

但是，为了减小特征图的大小，减少模型的计算量，前面三个池化层都使用2×2的窗口尺寸。为了保证水平方向的特征图不会被下采样，最后一个池化层的窗口设置为2×1大小，这样经过前4个卷积块后获得的特征图的高度就减小到原图的1/16，宽度则减小到原图的1/8。

卷积网络层的最后一个池化层使用1×2的窗口，因为文本图像多数都是高度较小而宽度较长，且为水平的文本方向，如果水平方向过度的下采样，可能会导致相邻字符之间编码序列的重叠，从而降低字符编码的质量。

最后，网络的第五个卷积块只有一个卷积层(卷积核为3×1)，相当于将特征图的高度再次缩为原来的1/3，目的是使输出的特征图高度为1，便于后面提取特征向量序列。所以整个特征提取模块的输出是1024个高度为1宽度为W/8的特征图。本实施例的卷积网络层的具体结构如图5所示。

循环网络层为包含BiGRU网络的序列建模模块，在进入该层之前，需要先从卷积网络层产生的特征图中提取特征向量序列作为循环层的输入。具体地，假设CNN输出的特征图大小为C×H×T,其中C、H和T分别表示通道、高度和宽度，将每个通道的特征图按列提取，然后将所有通道相同的列串联成一个维数为C×H的向量，从而获得有T个分量的向量的序列(x₁,x₂,…,x_i,…,x_T-1,x_T)，其中第i个特征向量序列是所有特征图第i列的连接，i∈[1,T],T为32。本实施例的特征向量序列与输入图像对应的关系如图6所示。由图6可知，特征向量序列按照从左到右的顺序描述了输入图像中的一个个小矩形区域。

循环网络层它由2个全连接层、1个BiGRU网络和1个Dropout层组成。首先，第一个全连接层是降低前面提取的每个特征向量序列x_i的维度，并将有用的信息提取整合。考虑到在文字识别中上下文的信息对识别的准确率有很大作用，而且在文本序列中，向前和向后两个上下文的信息是相互有用并互补的，同时，GRU网络被证明具有和LSTM相似的表现，但其计算量和参数量更小。故在第一个全连接层后使用一个BiGRU网络用于提取文字序列的上下文语义信息，这里将前面获得的每一个特征向量作为BiGRU的每个时间步的输入。BiGRU是由一个前向GRU网络和一个后向GRU网络组合而成，它可以更好地捕捉到较长的依赖关系和双向的语义依赖，常用于自然语言处理、语音识别和文字识别任务。其次，在第二个全连接层的前面加入了一个Dropout层抑制网络过拟合问题，以提升模型的泛化能力。最后，第二个全连接层整合BiGRU网络的每个时间步输出的具有上下文信息的特征向量，使用softmax激活函数预测每个特征向量所有字符的概率分布(向量)y_i，即每个小矩形区域中为各个字符的概率，y_i的长度等于字符类别的数量，最终获得T个长度为字符类别数的概率向量，构成所有字符的概率分布矩阵y＝(y₁,y₂,…,y_T-1,y_T)。本实施例的循环网络层如图7所示。

转录层主要采用连接时序分类器(Connectionist Temporal Classification，CTC)将得到的概率分布矩阵y解码成最终的识别结果。

S3、根据训练好的图像识别模型对测试集进行藏汉场景文字图像识别，并进行模型性能评估。

本实施例识别模型的性能评估指标有三个:(1)基于归一化编辑距离度量；(2)基于字符级准确率；(3)基于文本行级准确率。

基于归一化编辑距离度量(norm_dist)。该评价标准是基于字符的归一化编辑距离，也称Levenshtein距离。编辑距离是两个字符序列之间的常见相似性度量，它定义为一个序列通过编辑(插入、删除和修改)操作转换为另一个序列所需要的最小次数，其值越小，说明文本识别效果越好。该评估指标常用于光学字符识别(OCR)、文本识别、自然语言处理等方面的评价。假设a、b分别代表第一个和第二个字符串，它们之间的归一化编辑距离如式(1)所示。

本实施例将norm_dist表示为一项有序字符的识别精度指标，也可以称之为基于归一化编辑距离的准确率，其计算由式(2)所示。

其中：S_pre，S_gt，L_pre，L_gt分别指预测字符串序列、真实字符串序列、预测字符串序列长度和真实字符串序列长度；edit_dist_Spre,Sgt(L_pre,L_gt)指的是S_pre中前L_pre个字符和S_gt前L_gt之间的距离，即S_pre转换为S_gt所需的最小插入、删除或替换单个字符的数目。

基于字符级准确率(char_acc)。这是一个基于无序字符的识别准确率度量，也称单字识别率，它不考虑文字序列中每个字符所在的位置，只关注预测序列在真实序列中的字符数，即识别正确的字符num_charMatched占总字符数num_gtChars的比例，其计算公式如式(3)所示。

基于文本行级准确率(word_acc)。它是另一种定性分析文本识别模型的性能评价指标,只有当预测的文字行与标注文本行完全匹配时视为正确，计算公式如式(4)所示。

其中：num_wordMatched表示正确识别的文本行数；num_gtWords为所有待识别的文本行数。

由于文本检索几乎总是在不区分大小写的基础上执行，因此本实施例已将所有文本转换为小写，并将汉文中的繁体字转为简体字。同时，为了避免标注上的歧义，测试时忽略所有空格和符号。

为了进一步验证本发明的有效性，本实施例分别对三个网络识别模型进行对比实验，具体为：

(1)不使用GRU结构(CNN+FC+CTC)；

(2)使用单向GRU结构(CNN+GRU+CTC)；

(3)使用双向GRU结构(CNN+BiGRU+CTC)。

本实施例三个网络结构在两个测试集上的实验结果如表1所示。

表1

由表1可知，不使用GRU网络的模型在两个测试集上的字符识别率char_acc分别为80.50％和66.02％，文本行识别率word_acc分别为81.77％和49.00％，基于归一化编辑距离准确率norm_dist分别为78.69％和62.46％。使用GRU网络的模型各项识别指标都比不使用的高出1％左右，而使用BiGRU网络的模型的识别性能在各项识别指标上都带来了明显的提升。具体地，比不使用GRU网络的模型提升3％左右，比使用单向GRU网络的模型提升2％左右。

总体来说，在合成数据集上的识别效果普遍比在真实数据集上的高，本发明使用的CNN+BiGRU+CTC网络结构取得了最好的识别结果。

同时，在少数情况下，存在一些没有藏汉混排的场景图像，即图像中只有藏文，比如：藏语文课本、藏文网站、藏文节目等。因此，为评估本发明的图像识别模型只识别藏文的性能，本实施例在测试集-3上进行实验，实验结果如表2所示。结果表明，本发明图像识别模型在识别场景藏文上取得了相当不错的效果。

表2

本发明使用的网络结构模型在真实的场景藏汉双语测试数据集上取得了71.67％的单字识别率，在藏文测试集上取得了83.63％的字丁识别率。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于CRNN和CTC的藏汉双语场景文字识别方法，其特征在于，包括以下步骤：

获取藏汉场景单行文字图像，得到藏汉场景文字数据集；通过添加各种字体、背景、字体颜色、纹理和噪声，使用特定的图像合成算法，产生藏汉图像文本，利用得到的藏汉图像文本来构建训练集和测试集；

构建转录层，并根据转录层对概率分布矩阵进行解码，得到图像识别结果；

所述循环网络层由第一全连接层、第二全连接层、BiGRU网络和Dropout层组成；

所述BiGRU网络设置于所述第一全连接层之后；所述Dropout层设置于所述第二全连接层之前；所述BiGRU网络包括前向GRU网络和后向GRU网络；

其中，第一全连接层用于降低提取的每个特征向量序列的维度，第一全连接层后设置BiGRU网络用于提取文字序列的上下文语义信息，并将获得的每一个特征向量作为BiGRU的每个时间步的输入，第二全连接层用于整合BiGRU网络的每个时间步输出的具有上下文信息的特征向量，并使用softmax激活函数预测每个特征向量所有字符的概率分布，最终得到所有字符的概率分布矩阵；

所述卷积网络层包括5个卷积块，共7次卷积和4次下采样，每个卷积块的卷积核数量依次为128、256、512、512和1024，除最后一个卷积块，其他每个卷积块包含1个或者2个卷积核为3×3大小的卷积层和一个池化层；每个卷积层之后添加一个激活层和批归一化层。

2.根据权利要求1所述的基于CRNN和CTC的藏汉双语场景文字识别方法，其特征在于，所述转录层采用连接时序分类器CTC将得到的概率分布矩阵解码成最终的识别结果。

3.根据权利要求2所述的基于CRNN和CTC的藏汉双语场景文字识别方法，其特征在于，所述转录层的识别过程为：采用基于动态规划的前向后向算法对概率分布矩阵进行求解，得到条件概率；选择条件概率最高的序列，通过映射函数获得最终输出，得到藏汉双语单行文字图像的识别结果。

4.根据权利要求1所述的基于CRNN和CTC的藏汉双语场景文字识别方法，其特征在于，采用基于归一化编辑距离度量、基于字符级准确率及基于文本行级准确率对识别结果进行评估。