CN111985525B

CN111985525B - 基于多模态信息融合处理的文本识别方法

Info

Publication number: CN111985525B
Application number: CN202010622446.3A
Authority: CN
Inventors: 龚沛朱; 刘晋; 栾翠菊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-09-22
Anticipated expiration: 2040-06-30
Also published as: CN111985525A

Abstract

本发明披露一种基于多模态信息融合处理的文本识别方法。本发明中的多模态信息，包括图像信息和语意信息。在图像信息方面，选用胶囊网络提取像素特征；在语意信息方面，通过引入预处理语言模型构建语意胶囊模块，可以根据文本中前一时刻的字符，预测出下一个字符，为模型提供语意特征；在融合阶段中本发明对胶囊神经网络进行轻量化并对其内部的动态路由算法进行优化，使得在保留网络模型的识别精度的同时有效降低网络中神经元的数量，减少了网络的空间占用，提升运算速度。本发明提出的基于多模态信息融合处理的文本识别方法有效提高了字符文本的识别准确率，并在大角度旋转字符以及相似字符等识别难点上有了较大突破。

Description

基于多模态信息融合处理的文本识别方法

技术领域

本发明涉及结合计算机视觉的光学字符识别，具体涉及一种基于多模态信息融合处理的文本识别方法。

背景技术

计算机视觉的主要研究目标就是如何模拟人类，使计算机可以借助光学信号，实现人类借助视觉信息可以实现的一些行为。光学字符识别问题是其中最重要的子课题之一，这一技术的应用前景十分广泛，几乎渗透了日常生活的方方面面。

对于光学字符识别技术的研究，早期是基于规则和模板匹配的传统算法，后来逐步发展成基于机器学习或是基于深度学习。目前，主流的字符识别技术是使用卷积神经网络来提取图片中的像素特征用于文本字符识别。卷积神经网络中的卷积层对输入图像中存在的像素特征进行提取，抽象，组成高维的抽象特征图，池化层对特征图进行下采样，保留关键信息，最后整合关键特征信息对图像中字符进行分类识别。然而，池化层在降低参数运算量的同时将字符的位置，姿态等有用信息也一并丢弃，导致卷积神经网络对于字符图片的识别高度依赖训练集，对于字符的位置变换以及大小高度敏感，不具有对识别对象的普遍迁移性，适用能力受到了限制。

胶囊神经网络弥补了卷积网络对于位置，姿态信息的丢失，其提出的动态路由算法提供了一种新的基于聚类的思想代替池化层完成特征整合。然而其网络结构复杂，参数繁多，限制了它在实际项目中应用。

目前，即使是最新的基于深度学习的光学字符识别算法研究，在字符的识别精度上也无法真正匹敌人类视觉。机器与人类视觉在光学字符识别任务上的巨大差距，主要体现在以下两个方面：

其一，机器对于不同位置姿态变换下的字符图像的识别精度很低。对于机器来说，输入图像只是一组像素点阵。机器始终只能认识到图像中的像素分布。对于发生了三维旋转或其他位姿变换的同一张字符图像，由于图像中各位置的像素分布发生了改变，原本机器能够识别的字符图像就变得无法识别，即机器并没有真正的认识到字符的形状。与机器相比，人类可以从不同角度去识别同一张字符图像，并且始终保持极高的识别正确率。

其二，现有技术下，机器在进行字符识别时并没有利用字符序列的语意特征。在文本图像中，字符通常都呈现一定的排列顺序，组成符合人类语言习惯和语言逻辑的文字段，即字符图像序列通常都包含有语意信息。人类阅读文本时，能够利用前后出现的字符作为上下文，来加强对当前正在识别的字符的识别正确率。不仅如此，依靠已经识别的字符作为上下文，人类还能从自身掌握的语言模型中预测其他的未出现的字符的类别和顺序，以及能根据语言模型，对于识别过程中出现的错字、漏字进行纠正。然而，对于机器而言，现有技术并不能支持机器实现和人类一样的阅读方式。对于机器而言，字符图像序列内部没有特殊的关联，对于序列图像的识别过程等价于对多张单独出现的字符图像的识别过程。

发明内容

为了解决以上两点问题，本发明提出了一种基于多模态信息融合处理的文本识别方法。

本发明中的多模态信息，包括图像信息和语意信息，在图像信息方面，我们选用胶囊网络提取像素特征，胶囊网络在识别字符文本时会保留图片中文本的位置，姿态等信息，使模型更具健壮性；在语意信息方面，我们通过引入预处理语言模型构建语意胶囊模块，可以根据文本中前一时刻的字符，预测出下一个字符，为模型提供语意特征；在融合阶段中本发明对胶囊神经网络轻量化并对其内部的动态路由算法进行优化，使得在保留网络模型的识别精度的同时有效降低网络中神经元的数量，减少了网络的空间占用，提升运算速度。本发明提出的基于多模态信息融合处理的文本识别方法有效提高了字符文本的识别准确率，并在大角度旋转字符以及相似字符等识别难点上有了较大突破。

为了达到上述目的，本发明基于多模态信息融合处理的文本识别方法通过以下技术方案实现：

一种基于多模态信息融合处理的文本识别方法，包含以下步骤：

步骤1：制作文本图像数据集Affined_Chars-74K，并将数据集分为训练集，验证集和测试集。

步骤2：使用卷积神经网络及胶囊神经网络抽取图片字符中的像素笔画特征，构成图像胶囊。

步骤3：构建语意胶囊，根据前t-1个时刻的输入预测第t时刻的各个字符出现概率，从而为识别提供上下文语意信息。

步骤4：将步骤2中的图像胶囊和步骤3中的语意胶囊通过维度变换转换成统一尺寸进行拼接，并设计快速动态路由算法降低模块的网络参数量，使模块轻量化。

步骤5：构造分类器：对步骤4中路由运算的结果求取二范式，经由全连接层Softmax函数得到图片文本最终识别结果。

进一步地，所述步骤1中的Affined_Chars-74K数据集是在标准数据Chars-74K上使用仿射变换进行扩充所得，其中包括旋转字符，缩放字符，平移字符和相似字符。

进一步地，所述步骤3中的语意胶囊是由多层双向长短期记忆网络(LSTM)构建语言模型所得，由于LSTM网络具有记忆功能，网络可以根据之前t-1个时刻的输入预测第t时刻的各个字符的出现概率。

进一步地，所述步骤4中的快速动态路由算法如下：

其中i为低层胶囊，j为高层胶囊，表示低层胶囊i对所有高层胶囊j的贡献,/>为低层胶囊向量与高层胶囊向量之间的相似度，c_ij为耦合系数,s_j为高层胶囊j的输出向量，v_j由s_j经过挤压函数squash()运算后得到，目的是将向量的长度控制在0到1之间。

进一步地，所述步骤5中的二范式公式如下：

其中v表示为步骤4中路由运算的结果。二范式运算将矢量值化为标量值，降低网络参数量，加快运算速度。

附图说明

图1为本发明的基于多模态信息融合处理的文本识别方法的流程图；

图2为本发明的基于多模态信息融合处理的文本识别方法的空间仿射变换后的数据集；

图3为本发明的基于多模态信息融合处理的文本识别方法的网络结构图；

图4为本发明的基于多模态信息融合处理的文本识别方法的语料数据集；

图5为本发明中基于多模态信息融合处理的文本识别方法的快速动态路由算法收敛比较图；

图6为本发明中基于多模态信息融合处理的文本识别方法的效果图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实例中技术方案进行清楚，完整地描述。本发明包括但不仅限于下述实施例。

如图1所示为本发明的基于多模态信息融合处理的文本识别方法的整体实施流程图，具体步骤如下：

进一步地，所述步骤1中的Affined_Chars-74K数据集是在标准数据Chars-74K上使用仿射变换进行扩充所得，其中包括旋转字符，缩放字符，平移字符和相似字符。Chars-74K是用于字符识别的经典数据集，其中包括英文字符和卡纳达语字符。数据集中共有74K张图像，包含了52类大小写英文字符和超过657类卡纳达语字符。

如图2所示，为本实例中用于文本识别的数据集示意图。本实施例将Chars-74K中的字符图片定义为集合X。对于X集合中的一张图片x，将x表述为矩阵形式：

将所有属于Affined_Chars-74K但不属于Chars-74K的字符图片的集合表述为根据/>中字符图片与X中字符图片之间形态的关系，从/>中细分出多个集合。这些集合分别为：旋转字符集合/>缩放字符集合/>平移字符集合/>相似字符集合/>

其中旋转字符可以定义为：对于集合/>中的元素x_r，存在x∈X或者/>x_r可以由x或者x′进行旋转变换后得到。

其中，M_r为图像x中各像素进行二维旋转变换矩阵，t_x与t_y代表了图像二维旋转的圆心坐标，θ表示旋转角度，0＜θ≤90。

其中缩放字符集合可以定义为：对于集合/>中的元素x_s，存在x∈X或者/>x_s可以由x或者x′进行缩放变换后得到。

M_s为图像x中各像素在x轴和y轴上进行缩放的变换矩阵，s_x与s_y代表了x轴和y轴上的缩放比例。

其中旋转图片集合可以定义为：对于集合/>中的元素x_t，存在x∈X或者/>x_t可以由x或者x′进行平移变换后得到。

M_t为图像x中各像素在x轴和y轴上进行平移的变换矩阵，t_x与t_y代表了x轴和y轴上的平移距离。

其中相似字符集合可以定义为：对于集合/>中的元素x_a，存在x∈X或者x_a与x或者x′的总体相似度高于一个给定阈值a。此处我们将阈值a定为0.95，m和n为图片的宽和高，255为灰度值。

如图3所示，图像胶囊模块包括卷积层和胶囊层。卷积层通过卷积运算对图像中文本像素分布进行特征提取，记忆并拟合图片中的像素分布而后进行字符的分类。然而字符图片的大小变换或者角度的旋转变换都会影响卷积操作得到的特征值大小，对卷积神经网络的识别造成很大影响。因此我们在卷积层之后加入胶囊层，胶囊层以向量作为基础神经元来表达从图像中提取的特征，图片字符的大小变换或者角度旋转都表现为了特征向量中某一维度上的数值变换，对于整体的特征向量影响较小，使得文本识别具有更好的鲁棒性。

表1为本实施例中图像胶囊模块从前至后的网络参数

图像胶囊模块从前至后分别为输入层，卷积层和胶囊层。输入层中使用32*32的灰度图作为输入，即输入维度为32*32*1。首先经过卷积核为9*9的卷积层提取文本像素分布的特征，得到24*24*256的特征图作为输出，再将特征图送入胶囊层增强方向位资属性，转换为8*8*8*20的高维度特征向量。

进一步地，本实例中使用多层双向长短期记忆网络(Long Short Time Memory,LSTM)构建语言模型，由于LSTM网络具有记忆功能，网络可以根据之前t-1个时刻的输入预测第t时刻的各个字符的出现概率。

表2为本实施例中语意胶囊模块从前至后的网络参数

语意胶囊模块由输入层和两层LSTM层组成。输入层中将句子的字符独热编码作为输入，维度为512*1，经过两层LSTM运算，推测文本下一时刻各个字符的出现概率，为模型提供语意信息，将LSTM网络最后一层的最终状态作为语意特征向量输出，维度为512*1。

如图4所示，针对语言模型数据集，本实例中使用《莎士比亚作品集》作为语料集训练语言模型。首先对语料集进行预处理，去除语料中所有费大小写英文字母的符号。除此之外，由于语料集中大小写字母的数量并不平衡，因此需要将语料集中的大小写混杂的文本分别转换为纯大写字母组成的文本和纯小写字母组成的文本以进行数据增强。

步骤4：将步骤2中的图像胶囊和步骤3中的语意胶囊通过维度变换转换成统一尺寸进行拼接，使得多模态信息融合，并设计快速动态路由算法降低模块的网络参数量，使模块轻量化。

进一步地，本实施例中的多模态信息融合首先将语意胶囊的输出512*1维度变化为8*8*8*1的向量，再与图像胶囊模块的输出8*8*8*20拼接，组合得到包含多模态信息的8*8*8*21的特征向量。

进一步地，所述步骤4中的快速动态路由算法如下：

表3为最终分类器从前至后的网络参数

将步骤4得到的多模态特征向量作为输入，经由胶囊层得到16*40的包含语意及图像两种信息的特征图，在标准化层求取二范式，将原本矢量特征转变为标量特征从而减少模型计算参数，使得模型轻量化，最后由全连接层得到分类结果，为每一个字符的出现概率。在胶囊网络中，特征向量的向量长度代表了特征的激活程度，因此对胶囊求取范数并不会影响其特征的表达。其详细公式如下：

其中v表示为原胶囊网络输出层的输出向量。然后，在网络最后添加全连接层，将原本输出层转变为特征提取层，用全连接层作为分类器，从而使得网络的空间复杂度降低到：

S(n)＝O(input_caps×output_caps×caps_num×output_class)

其中O表示复杂度渐近记号，input_caps表示输入胶囊维度，output_caps|表示输出胶囊维度，caps_num代表输入胶囊的个数，output_class表示预测类别数。

本实施例中的网络轻量化改进，主要通过两方面降低网络参数计算：第一，由于不再需要输出向量来重构输入图像，可以减少网络中隐藏层的输出向量的维度，适当舍弃不必要的特征信息，在不降低识别精度的前提下降低参数量。第二，将原本的输出向量转变为特征向量后，输出向量的个数得以降低。作为特征向量，其输出个数不需要与预测类别数保持一致，隐藏层的输出胶囊个数得以降低。

表4为本实施例中轻量化后胶囊网络的正确率比较图

其中Fps表示1秒内识别的图像数，可见本发明在保证正确率基本不变的条件下降低了网络参数的计算量，提升了识别速度。并且使用快速动态路由算法后，胶囊网络模型的训练收敛速度更快，由图5所示，本发明实施例在训练到40轮时模型基本收敛，而原胶囊模型在70轮时才达到收敛。

由图6所示，为本实例中的英文文本识别效果图，其中圈出了识别错误的字符，包括“S”字符大小写，“r”和“n”等易混淆手写字符。

表5为本实施例在不同旋转角度对文本的识别准确率对比

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员或一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思在现有技术的基础上通过逻辑分析，推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多模态信息融合处理的文本识别方法，其特征在于包含以下步骤：

步骤1：制作文本图像数据集Affined_Chars-74K，并将数据集分为训练集，验证集和测试集；所述Affined_Chars-74K数据集是在标准数据Chars-74K上使用仿射变换进行扩充所得，其中包括旋转字符，缩放字符，平移字符和相似字符；

步骤2：使用卷积神经网络及胶囊神经网络抽取图片字符中的像素笔画特征，构成图像胶囊；

步骤3：构建语意胶囊，根据前t-1个时刻的输入预测第t时刻的各个字符出现概率，从而为识别提供上下文语意信息；所述语意胶囊是由多层双向长短期记忆(LSTM)网络构建语言模型所得，由于LSTM网络具有记忆功能，网络可以根据之前t-1个时刻的输入预测第t时刻的各个字符的出现概率；

步骤4：将步骤2中的图像胶囊和步骤3中的语意胶囊通过维度变换转换成统一尺寸进行拼接，并通过以下步骤降低模块的网络参数量，使模块轻量化：

步骤4.1：输入：I层胶囊路由循环次数r；

步骤4.2：对于所有I层胶囊i计算：

步骤4.3：对于所有I层胶囊i计算：

步骤4.4：对于所有I+1层胶囊j计算：V_j＝squash(S_j)；

步骤4.5：对于所有I层胶囊i和I+1层胶囊j计算：

步骤4.6：重复步骤4.2-4.5，循环r次；

步骤4.7：输出：I+1层胶囊V_j；

其中i为低层胶囊，j为高层胶囊，表示低层胶囊i对所有高层胶囊j的贡献,/>为低层胶囊向量与高层胶囊向量之间的相似度，c_ij为耦合系数,S_j为高层胶囊j的输出向量，V_j由S_j经过挤压函数squash()运算后得到，目的是将向量的长度控制在0到1之间；

步骤5：构造分类器：对步骤4中路由运算的结果求取二范式，经由全连接层softmax函数得到图片文本最终识别结果；二范式公式如下：

其中v表示为步骤4中路由运算的结果。