CN112036290A

CN112036290A - 一种基于类标编码表示的复杂场景文字识别方法及系统

Info

Publication number: CN112036290A
Application number: CN202010878323.6A
Authority: CN
Inventors: 陈清财; 吴湘平; 肖宇伦; 李为
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-04
Anticipated expiration: 2040-08-27
Also published as: CN112036290B

Abstract

本发明提供了一种基于类标编码表示的复杂场景文字识别方法及系统，该方法包括：设计五笔类标编码表示模块，根据设计的五笔类标编码表示模块对字符进行编码；输入场景文字图像进行预处理，得到训练场景文字图像；将训练场景文字图像输入到语义分割网络进行像素级别的分类，得到编码后标签的分类结果；利用概率模块学习五笔类标编码的转移矩阵，训练整个模型，得到场景文字识别模型；将测试图像输入至已训练的场景文字识别模型进行分类，得到最终语义分割图；对语义分割图的像素进行投票，选择具有最高票数的预测作为最终字符识别结果。本发明的技术方案对复杂场景的字符图像具有较高识别准确率，降低了参数和计算的复杂度。

Description

一种基于类标编码表示的复杂场景文字识别方法及系统

技术领域

本发明涉及图像文字识别技术领域，尤其涉及一种基于类标编码表示的复杂场景文字识别方法及系统。

背景技术

自然景物文字识别是计算机视觉的一个重要研究内容，在人机交互、路标识别、图像检索、自动驾驶等领域具有广泛的应用。场景图像因为具有背景复杂、字符多样、扭曲变形、遮挡、不均匀的光照和低分辨率等问题，使得复杂场景文字的识别成为一项特别具有挑战性的任务。

传统的字符识别技术依赖于手动特征和特定场景，存在较大的局限性。近年来，基于深度学习的方法被引入到场景文字检测和识别领域并取得优异成绩。比如，公开的技术方案连续卷积激活方法，将低层和高层模式集成到最终特征向量中。还有研究人员提出了一种新的神经网络结构，将特征提取、序列建模和转录集成到一个统一的框架中。这些方法将文字图像提取特征后转换为固定长度的一维向量输入到全连接层进行分类，存在无法处理任意尺寸图像和可能引入背景噪声的问题。因此为了解决此问题，又有研究人员提出一种端到端可训练的深度神经网络，名为Mask TextSpotter，可以用于识别任意形状的文本，还有研究人员提出一种基于字符注意力的完全卷积网络，从二维空间视角识别场景文本和预测字符位置。虽然以上方法取得了较大的成功，但是他们仅应用于少数类别的识别上，如数字和字母。基于语义分割的方法需要对图像进行逐像素分类，当类别增大时，参数和计算量也相应增加。

One-hot编码是大多数模型常用的类标表示形式，虽然简单有效，但是忽略了字符的空间结构信息，而且当大规模字符分类时，容易造成类标稀疏和增加计算复杂度。一直以来，汉字的编码表示是学者们的研究重点。如王永民先生发明了专利申请号为85100837的《优化五笔字型编码法及其键盘》，使用五笔字根表示汉字的结构信息；专利申请号为201610216758.8《一种模块化笔画编码汉字对应识别的方法》提出了将汉字方块字形按照不同的分割方式分类为13种标准的模块类型，然后进行模块化笔画编码。而这些编码方式大多用于输入法中，没有很好地将汉字的编码表示与神经网络模型相结合，以帮助文字识别。

发明内容

针对以上技术问题，本发明公开了一种基于类标编码表示的复杂场景文字识别方法及系统，主要基于五笔字根编码，结合条件随机场的方法，将汉字的空间结构信息融入到语义分割网络进行复杂场景文字识别。

对此，本发明采用的技术方案为：

其包括以下步骤：

步骤S1，设计五笔类标编码表示模块，根据设计的五笔类标编码表示模块对字符进行编码；

步骤S2，输入场景文字图像进行预处理，得到训练场景文字图像；

步骤S3，将训练场景文字图像输入到语义分割网络进行像素级别的分类，得到编码后标签的分类结果；

步骤S4，利用概率模块学习五笔类标编码的转移矩阵，训练整个模型，得到场景文字识别模型；

步骤S5，获取测试图像输入至已训练的场景文字识别模型进行分类，得到最终语义分割图；

步骤S6，对语义分割图的像素进行投票，选择具有最高票数的预测作为最终字符识别结果。

作为本发明的进一步改进，所述步骤S1包括如下步骤：

步骤S11，根据五笔字根编码，为汉字设计类标编码表示模块；

步骤S12，根据五笔编码特性，设计类标编码模块兼容汉字和非汉字；

步骤S13，使用类标编码表示模块对字符进行编码，得到每个字符对应的编码后的标签。

作为本发明的进一步改进，所述步骤S11包括如下步骤：

步骤S111，通过五笔字根表获取汉字的五笔编码表示，每个汉字最多由5个键组成；

步骤S112，使用5个键值对汉字进行编码，如果字符的五笔编码少于5个键值，则统一使用特殊符号进行填充；

步骤S113，用组的概念表示键值，每组包含表示背景的位、表示汉字编码的位和表示特殊符号的位。采用此技术方案，为了在深度学习网络中识别字符图像的背景，我们为每组添加表示背景类别的位。根据提出的设计，一个汉字的五笔编码一共具有n位，即我们使用n位表示超过27000个汉字(n远远小于27000），大大减少了参数量和计算量。

上述步骤实际为基于五笔字根编码的类标编码表示方法。

作为本发明的进一步改进，所述步骤S12包括如下步骤：

步骤S121，为了兼容非汉字字符的编码表示，将五笔类标编码的每组进行扩展，并使用扩展的位数来编码非汉字字符；

步骤S122，编码非汉字字符图片的像素，非汉字字符图片的一个像素的五笔类标编码表示包含背景、汉字编码、特殊符号和扩展位。进一步的，可以使用M来表示需要扩展的位数，可以编码M ⁵个非汉字字符；

进一步的，可以使用M=3来扩展编码243个非汉字字符，包括26个大、小写字母和10个数字字符。

作为本发明的进一步改进，所述步骤S2包括如下步骤：

步骤S21，将输入场景文字图像保持宽高比进行缩放，得到缩放后的图像；

步骤S22，将缩放后的图像在四边进行像素填充，然后裁剪得到所述训练场景文字图像。

作为本发明的进一步改进，所述步骤S3包括如下步骤：

步骤S31，将所述训练场景文字图像输入到特征提取网络进行特征提取，得到特征图；

步骤S32，将得到的特征图使用上采样方法进行上采样，得到与所述训练场景文字图像相同尺寸的输出图，输出图的通道维度等于编码后类标的总位数；

步骤S33，对输出图的每个像素进行分类，得到编码后标签的分类结果。

作为本发明的进一步改进，所述步骤S4包括如下步骤：

步骤S41，将每个像素的编码标签分类结果根据五笔编码特性分为五组；

步骤S42，利用概率模块学习类标编码每组的转移矩阵，训练整个模型，得到场景文字识别模型。

作为本发明的进一步改进，所述步骤S5包括如下步骤：

步骤S51，将测试图像进行缩放，得到所述测试场景文字图像；

步骤S52，将所述测试场景文字图像输入到已训练的场景文字识别模型进行分类，得到每个像素的编码标签分类结果；

步骤S53，根据训练学习好的转移矩阵，使用搜索算法获得最优的编码类标组合；

步骤S54，根据步骤S1所设计的类标编码模块，将编码类标映射回字符类标，使用不同颜色表示不同的类别，得到最终语义分割图。

作为本发明的进一步改进，所述步骤S6中，对语义分割图的每个像素的类标进行投票统计，选择具有最高票数的类标作为最终字符识别结果。

本发明还公开了一种基于类标编码表示的复杂场景文字识别系统，其包括：

字符编码模块，根据设计的五笔类标编码表示模块，对字符进行编码；

场景文字图像预处理模块，输入场景文字图像进行预处理，得到训练场景文字图像；

编码后标签分类获得模块，将训练场景文字图像输入到语义分割网络进行像素级别的分类，得到编码后标签的分类结果；

场景文字识别模型获得模块，利用概率模块学习五笔类标编码的转移矩阵，训练整个模型，得到场景文字识别模型；

语义分割图获得模块，获取测试图像输入至已训练的场景文字识别模型进行分类，得到最终语义分割图；

投票选择模块，对语义分割图的像素进行投票，选择具有最高票数的预测作为最终字符识别结果。

作为本发明的进一步改进，所述字符编码模块包括汉字字符编码表示模块和非汉字字符编码表示模块；

其中所述汉字字符编码标识模块通过五笔字根表获取汉字的五笔编码表示，每个汉字最多由5个键组成；使用5个键值对汉字进行编码，如果字符的五笔编码少于5个键值，则统一使用特殊符号进行填充；用组的概念表示键值，每组包含表示背景的位、表示汉字编码的位和表示特殊符号的位；

所述非汉字字符编码表示模块将五笔类标编码的每组进行扩展，并使用扩展的位数来编码非汉字字符；编码非汉字字符图片的像素，非汉字字符图片的一个像素的五笔类标编码表示包含背景、汉字编码、特殊符号和扩展位。

进一步的，所述非汉字字符编码表示模块可以使用M表示需要扩展的位数，可以编码M ⁵个非汉字字符。当M=3时，可以扩展编码243个非汉字字符，包括26个大、小写字母和10个数字字符。

作为本发明的进一步改进，所述场景文字图像预处理模块，将输入场景文字图像保持宽高比进行缩放，得到缩放后的图像；将缩放后的图像在四边进行像素填充，然后裁剪得到所述训练场景文字图像。

作为本发明的进一步改进，将所述训练场景文字图像输入到特征提取网络进行特征提取，得到特征图；将得到的特征图使用上采样方法进行上采样，得到与所述训练场景文字图像相同尺寸的输出图，输出图的通道维度等于编码后类标的总位数；对输出图的每个像素进行分类，得到编码后标签的分类结果。

作为本发明的进一步改进，将每个像素的编码标签分类结果根据五笔编码特性分为五组；利用概率模块学习类标编码每组的转移矩阵，训练整个模型，得到场景文字识别模型。

作为本发明的进一步改进，将测试图像进行缩放，得到所述测试场景文字图像；将所述测试场景文字图像输入到已训练的场景文字识别模型进行分类，得到每个像素的编码标签分类结果；根据训练好的转移矩阵，使用搜索算法获得最优的编码类标组合；根据所设计的类标编码模块，将编码类标映射回字符类标，使用不同颜色表示不同的类别，得到最终语义分割图。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如上任意一项所述的基于类标编码表示的复杂场景文字识别方法。

本发明还公开了一种装置，其包括相连的处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序，以执行如上任意一项所述的基于类标编码表示的复杂场景文字识别方法。

与现有技术相比，本发明的有益效果为：

采用本发明的技术方案，通过语义分割网络对复杂场景文字进行像素级别分类，将汉字的编码表示融入网络模型帮助文字识别，例如基于五笔字根编码的类标编码表示方法（命名为Wubi-CRF），可以有效地将超过27000的汉字编码为100多个类标，将汉字的字形信息和结构信息融入模型标签中帮助训练。所提供的类标编码方法可以动态扩展，兼容非汉字的字符识别。与现有技术相比，本发明的技术方案对复杂场景的字符图像具有较高识别准确率，并且大大降低了大规模类别识别带来的参数和计算复杂度。

附图说明

图1是本发明的一种基于类标编码表示的复杂场景文字识别方法的流程图。

图2是本发明实施例的基于五笔字根编码的汉字类标编码方法的设计示例图。

图3是本发明实施例的基于五笔字根编码的非汉字类标编码方法设计示例图。

图4是本发明实施例的测试场景图像识别效果示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例提出的一种基于类标编码表示的复杂场景文字识别方法流程图，下面以图1为例来说明本发明的一些具体实现流程。本发明基于类标编码表示的复杂场景文字识别方法具体步骤包括：

步骤S1，设计五笔类标编码表示模块，根据类标编码模块对字符进行编码；

其中，所述设计五笔类标编码表示模块包括以下步骤：

进一步地，所述步骤S11包括以下步骤：

步骤S111，通过五笔字根表获取汉字的五笔编码表示，根据五笔编码特性，每个汉字最多由五个键组成；

步骤S112，统一使用五个键值对汉字进行编码，如果字符的五笔编码少于五个键值，则统一使用特殊符号进行填充；

步骤S113，用组的概念表示键值，为了在语义分割网络中识别字符图像的背景，我们为每组添加表示背景类别的位。每组由3部分组成：表示背景的位、表示汉字编码的位和表示特殊符号的位。图2展示了基于类五笔字根编码的汉字类标编码方法的设计图。以“京”字为例，在语义分割图中，中间的颜色区域表示字符类别，“京”字符的五笔编码为“yiu”，使用特殊符号“Ø”进行填充组成五组编码，得到字符的编码标签为[y,i,u,Ø,Ø]。根据编码设计，转换为模型训练的数字标签模式，每组用one-hot进行表示。而字符旁边的区域为背景，根据每组第一位表示背景，可得到背景的编码标签为[1,1,1,1,1]。根据本发明一实施例提出的设计，一个汉字的五笔编码具有5组，每组28位，一共具有140位，即我们使用140位表示超过27000个汉字，大大减少了参数量和计算量。

进一步地，所述步骤S12包括以下步骤：

步骤S121，为了兼容非汉字字符的编码表示，我们提出将五笔类标编码的每组扩展M位，其中M表示需要扩展的位数，如果M=3，则可以编码M ⁵=243个非汉字字符；

步骤S122，一张非汉字字符图片的一个像素的五笔编码类标表示包含4个部分：背景、汉字编码、特殊符号和扩展位，可以使用M=3来扩展编码26个大、小写字母和10个数字字符；根据本发明一实施例提出的编码方式，一个非汉字的五笔编码具有5组，每组31位，一共155位，即只使用155位就可以表示超过27000个汉字和243个非汉字字符。图3展示了基于五笔字根编码的非汉字类标编码方法的设计图，每组后M位用于表示扩展字符编码。

步骤S13，使用设计的类标编码表示对字符进行编码，得到每个字符对应的编码后的标签；

其中，所述输入场景文字图像进行预处理包括以下步骤：

步骤S22，将缩放后的图像在四边进行像素填充，然后裁剪得到所述训练场景文字图像；

在本发明一实施例中，所述训练场景文字图像的大小归一化为64×64。

步骤S3，将训练场景文字图像输入到语义分割网络进行像素级别的分类，以得到编码后标签的分类结果；

其中，所述将训练场景文字图像输入到语义分割网络进行像素级别的分类包括以下步骤：

步骤S31，所述训练场景文字图像输入到特征提取网络进行特征提取，得到特征图；

在本发明一实施例中，所述特征提取网络可以使用带dilated卷积的全卷积网络。

在本发明一实施例中，上采样方法可以采用双线性插值或者反卷积等方法；对于复杂场景汉字识别，输出图的通道维度为140，对于复杂场景汉字和非汉字识别，所述输出图的通道维度为155。

步骤S33，对输出图的每个像素进行分类，以得到编码后标签的分类结果。

步骤S4，利用概率模块学习五笔类标编码的转移矩阵，约束编码的有效性，训练整个模型以得到场景文字识别模型；

进一步地，所述步骤S4包括以下步骤：

步骤S41，将每个像素的编码标签分类结果根据五笔编码特性分为五组；在本发明一实施例中，如果只识别汉字，则每组28位，如果识别汉字和非汉字，则每组（28+M）位；

步骤S42，利用概率模块学习每组的转移矩阵，约束编码的有效性，训练整个模型以得到场景文字识别模型；

在本发明一实施例中，可以使用条件随机场模块来学习类标编码每组的转移矩阵。

进一步地，所述步骤S5包括以下步骤：

步骤S51，将测试图像按照所述步骤S21进行缩放，得到所述测试场景文字图像。图4(a)为所述测试场景文字图像；

步骤S53，根据步骤S42所述的训练好的转移矩阵，使用搜索算法获得最优的编码类标组合；

在本发明一实施例中，搜索算法使用维特比搜索算法。

步骤S54，根据步骤S1所设计的类标编码模块，将编码类标映射回字符类标，使用不同颜色表示不同的类别，得到最终语义分割图，如图4(b)所示。

步骤S6，对语义分割图的像素进行投票，选择具有最高票数的预测为最终字符识别结果，如图4(c)所示，票数最多的是红色像素，对应于字符类标为“鸿”。

采用本实施例的技术方案，在一个大型的野外中文文本数据集（CTW）的识别准确率为87.74%。实验数据表明，本发明的技术方案具有最佳性能，在处理复杂场景字符识别时（例如遮挡、旋转、失真、复杂背景等）优于其他算法。为了证明通用性，本实施例还在具有大类别的HIT-OR3C数据集上进行实验。HIT-OR3C数据集包括一级汉字、二级汉字、数字和字母，一共6825个类别。实验数据表明，本发明的技术方案在手写识别任务上也是有效的，并且证明了本发明技术方案提出的Wubi-CRF编码方式能兼容汉字和非汉字。

本发明实施例的技术方案将汉字的字形和结构信息与深度学习神经网络做了结合，并将其应用在复杂场景文字识别领域。本发明技术方案基于五笔字根编码设计的类标编码表示方法Wubi-CRF，可以有效地将超过27000的汉字编码为100多个类标，使得类标包含汉字的字形信息和结构信息，并成功融入到深度学习神经网络中进行有效训练，提高复杂场景文字识别的鲁棒性。此外，本发明技术方案提供的类标编码方法可以动态扩展，兼容非汉字的字符识别。

本发明的实施例还公开了一种基于类标编码表示的复杂场景文字识别系统，其包括：

具体而言，所述字符编码模块包括汉字字符编码表示模块和非汉字字符编码表示模块；其中所述汉字字符编码标识模块通过五笔字根表获取汉字的五笔编码表示，每个汉字最多由5个键组成；使用5个键值对汉字进行编码，如果字符的五笔编码少于5个键值，则统一使用特殊符号进行填充；用组的概念表示键值，每组包含表示背景的位、表示汉字编码的位和表示特殊符号的位；

所述场景文字图像预处理模块，将输入场景文字图像保持宽高比进行缩放，得到缩放后的图像；将缩放后的图像在四边进行像素填充，然后裁剪得到所述训练场景文字图像；

所述编码后标签分类获得模块，将所述训练场景文字图像输入到特征提取网络进行特征提取，得到特征图；将得到的特征图使用上采样方法进行上采样，得到与所述训练场景文字图像相同尺寸的输出图，输出图的通道维度等于编码后类标的总位数；对输出图的每个像素进行分类，得到编码后标签的分类结果；

所述场景文字识别模型获得模块，将每个像素的编码标签分类结果根据五笔编码特性分为五组；利用概率模块学习类标编码每组的转移矩阵，训练整个模型，得到场景文字识别模型；

所述语义分割图获得模块，将测试图像进行缩放，得到所述测试场景文字图像；将所述测试场景文字图像输入到已训练的场景文字识别模型进行分类，得到每个像素的编码标签分类结果；根据训练好的转移矩阵，使用搜索算法获得最优的编码类标组合；

根据所设计的类标编码模块，将编码类标映射回字符类标，使用不同颜色表示不同的类别，得到最终语义分割图。

本发明的实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如上所述的基于类标编码表示的复杂场景文字识别方法。

本发明的实施例还公开了一种装置，其包括相连的处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序，以执行如上所述的基于类标编码表示的复杂场景文字识别方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于类标编码表示的复杂场景文字识别方法，其特征在于，其包括以下步骤：

2.根据权利要求1所述的一种基于类标编码表示的复杂场景文字识别方法，其特征在于，所述步骤S1包括如下步骤：

3.根据权利要求2所述的一种基于类标编码表示的复杂场景文字识别方法，其特征在于，所述步骤S11包括如下步骤：

步骤S113，用组的概念表示键值，每组包含表示背景的位、表示汉字编码的位和表示特殊符号的位。

4.根据权利要求3所述的一种基于类标编码表示的复杂场景文字识别方法，其特征在于，所述步骤S12包括如下步骤：

步骤S121，将五笔类标编码的每组进行扩展，并使用扩展的位数来编码非汉字字符；

步骤S122，编码非汉字字符图片的像素，非汉字字符图片的一个像素的五笔类标编码表示包含背景、汉字编码、特殊符号和扩展位。

5.根据权利要求4所述的一种基于类标编码表示的复杂场景文字识别方法，其特征在于，所述步骤S2包括如下步骤：

所述步骤S3包括如下步骤：

6.根据权利要求5所述的基于类标编码表示的复杂场景文字识别方法，其特征在于，所述步骤S4包括如下步骤：

步骤S42，利用概率模块学习类标编码每组的转移矩阵，训练整个模型，得到场景文字识别模型；

所述步骤S5包括如下步骤：

步骤S53，根据学习好的转移矩阵，使用搜索算法获得最优的编码类标组合；

步骤S54，根据步骤S1所设计的类标编码模块，将类标编码映射回字符类标，使用不同颜色表示不同的类别，得到最终语义分割图。

7.一种基于类标编码表示的复杂场景文字识别系统，其特征在于，其包括：

8.根据权利要求7所述的基于类标编码表示的复杂场景文字识别系统，其特征在于：

所述字符编码模块包括汉字字符编码表示模块和非汉字字符编码表示模块；

所述非汉字字符编码表示模块将五笔类标编码的每组进行扩展，并使用扩展的位数来编码非汉字字符；编码非汉字字符图片的像素，非汉字字符图片的一个像素的五笔类标编码表示包含背景、汉字编码、特殊符号和扩展位；

所述语义分割图获得模块，将测试图像进行缩放，得到所述测试场景文字图像；将所述测试场景文字图像输入到已训练的场景文字识别模型进行分类，得到每个像素的编码标签分类结果；根据学习好的转移矩阵，使用搜索算法获得最优的编码类标组合；

根据所设计的类标编码模块，将类标编码映射回字符类标，使用不同颜色表示不同的类别，得到最终语义分割图。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1~6任一项所述的基于类标编码表示的复杂场景文字识别方法。

10.一种装置，其包括相连的处理器和存储器，其特征在于：所述处理器用于执行所述存储器中存储的计算机程序，以执行如权利要求1~6中任一项所述的基于类标编码表示的复杂场景文字识别方法。