CN111144469A

CN111144469A - 基于多维关联时序分类神经网络的端到端多序列文本识别方法

Info

Publication number: CN111144469A
Application number: CN201911321107.5A
Authority: CN
Inventors: 周水庚; 许振龙; 程战战; 白帆
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-12
Anticipated expiration: 2039-12-20
Also published as: CN111144469B

Abstract

本发明属于人工智能技术领域，具体为一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。本发明设计了编码器、多维关联时序分类神经网络和解码器；对含有多个文本序列的图片进行编码解码，编码器将原始的图片映射到特征空间，多维关联时序分类神经网在特征空间上捕获图片的空间时序信息，并利用该信息对各个位置进行文本识别，解码器则根据分类得到的最大概率类别图进行解码生成多序列文本。本发明方法框架简单、使用方便、可扩展性强、可解释性强。本发明设计了多个数据集和实用场景并在其上进行了实验，能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务，提供基础框架和算法的支持。

Description

基于多维关联时序分类神经网络的端到端多序列文本识别方法

技术领域

本发明属于人工智能技术领域，具体涉及基于多维关联时序分类神经网络的端到端多序列文本识别方法。

背景技术

从初始的光学字符识别问题到如今的图像文本识别问题，文本识别在模式识别与计算机视觉领域一直是重要的研究课题。其应用非常广泛，如手写字识别、身份证识别、图像理解等。尽管文本识别问题在技术上取得了重大进展，但考虑到各种复杂的应用场景，这一问题远未得到很好的解决。

现有的图像文本识别主要采用文本检测模块和文本识别模块组成的流水线方式。前者用于检测图像中的文本部分(如字符、单词或文本序列)，后者负责识别裁剪后的文本图像。从技术上讲，我们可以将这些工作归类为非端到端(NEE)方法。对于包含多个文本序列的图像，这些方法必须首先检测多个序列，裁剪后逐个进行识别。

随着深度学习的普及，越来越多的人尝试以“端到端”的方式识别文本，首先对检测模块和识别模块分别进行预训练，然后对检测和识别模块进行联合训练。与早期的NEE方法不同，它们将检测模块和识别模块集成到一个统一的网络中，但仍然使用文本和位置标注(如检测框)训练整个模型。我们称之为准端到端(QEE)方法。

后续提出了一种基于注意力机制的纯端到端(PEE)文本识别方法。我们称之为PEE方法，因为训练图像只标注文本内容，不需要位置信息。然而，这种方法只能从图像中识别出一个文本序列。虽然目标文本序列可以在图像中分成若干行，但它们将所有文本行作为一个整体的序列来处理，并且构成序列的文本行的顺序必须预先定义。本质上，该方法只能处理单序列识别问题。

本发明试图解决一个新的且更具挑战性的问题：通过纯端到端学习从图像中识别多个文本序列。这个问题难点有两个方面：(1)多文本序列识别。每个图像可能包含多个不同布局的独立文本序列，我们尝试识别所有文本序列。所以这是一个多序列识别问题。图1为多序列识别问题的若干样例。(2)纯端到端(PEE)学习。每个训练图像都只有文本注释。我们的目标是用PEE方法解决MSR问题。现有的NEE和QEE方法无法处理我们的问题，因为它们不是PEE方法。此外，针对单序列识别(SSR)问题的方法同样不能直接应用于我们的问题。所以我们必须探索新的方法。

发明内容

针对以上现有技术中的问题，本发明的目的在于提出一种解决多序列识别问题的纯端到端方法。

本发明提出的解决多序列识别问题的纯端到端方法，是一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。所谓多序列文本识别问题的描述如下：有且仅有含有多个文本序列的图片，需要输出所有的文本序列。

本发明方法，受关联时序分类技术中一维概率路径概念的启发，可以在给定的多维概率空间中寻找最优概率路径，路径搜索就是寻找潜在目标序列的过程。另外，本发明方法使用无序和独立的文本标注进行训练，这意味着在训练期间可以接受任何顺序的序列级标注。本发明的算法，更进一步的优化了关联时序分类技术中的缺陷与不足。通过多维时序信息多角度的利用序列上下文信息对当前时序点进行预测。图2展示了本发明的概率路径搜索方式与时序点预测过程。

本发明提出的基于多维关联时序分类神经网络的端到端多序列文本识别方法，首先要构建一个编码器，一个多维关联时序分类神经网络，一个解码器；其中：

(1)所述编码器，由多层神经网络构成，为带有池化操作的卷积神经网络，使用非线性激活函数；主要功能是将图片从原始RGB颜色空间映射到高维特征子空间；

(2)所述多维关联时序分类神经网络，由特征整合模块和关联时序分类模块组成；特征整合模块对编码器输出的高维空间特征进行维度变换，以适配多维关联时序分类模块的要求；关联时序分类模块用于捕获特征空间中多个文本序列的对应表示，并对捕获的内容利用序列上下文信息对其进行分类，得到最大概率类别图；

(3)所述解码器，由最大概率类别图映射模块构成，主要功能是将最大概率类别图映射到多文本序列上；该模块专注于学习特定任务的映射方式。

其流程为，编码器将数据从原始的图像映射到高维的特征空间，在高维的特征空间上，利用多维关联时序分类神经网络来学习图片中多个文本序列的空间时序信息；多维关联时序分类模块捕获特征空间中文本序列的对应表示，利用序列内部的上下文特征对上述表示逐位分类，得到最大概率类别图；解码器从最大概率类别图中解码出多个文本序列。

本发明的基于多维关联时序分类神经网络的端到端多序列文本识别方法，具体步骤如下：

步骤1，对图片数据集中的标注文件进行类别统计与分析，确定最大类别等全局参数，并对数据集中的每张图片进行数据预处理(包括对数据进行标准化处理，减均值除标准差)，并将这些数据划分为训练集和测试集；

步骤2，使用随机排序算法对训练集中的所有样本进行处理，每次选择一批样本将其图像信息与多文本序列标注信息一同输入到编码器进行编码；

步骤3，对于编码得到的高维空间特征，利用关联时序分类神经网络依次对多个文本序列进行捕获；捕获过程是将高维特征放在二维时序空间中，逐步计算每个时序点匹文本序列某个位置的概率；在单次捕获过程中，利用已捕获的序列上下文信息对当前时序点进行分类，得到当前时序点的类别概率分布；

步骤4，单次捕获过程结束后，得到二维时序空间中所有时序点的类别概率分布，根据此类别分布设计模型的优化目标函数，具体如下：

其中，

是训练集，X是编码器提取样本图片信息得到的三维特征向量，Z＝{l₁，l₂，...，l_N}是样本的文本序列集合；p(l_i|X)表示给定输入特征X时预测序列为l_i的条件概率；对该优化目标函数计算其关于模型参数X的导数，并进行反向传播更新参数；在此使用ADADELTA算法进行参数更新；

步骤5，重复步骤2、步骤3、步骤4，直到目标函数收敛，得到最终训练完毕的模型；

步骤6，利用训练完毕得到的模型在测试集上进行图片多序列文本识别。在测试过程中还需要输出具体的文本序列。具体如下：经过步骤2、步骤3，得到每个时序位置的类别概率分布。取分布中概率最大值作为每个时序点的类别，得到每个时序点的类别，即最大概率类别图。

步骤7，将计算出的最大概率类别图输入解码器中，解码器根据当前任务的映射模式将其映射到一个序列集合。

本发明步骤3中，以多维关联时序分类模块计算

的过程为例来阐述具体过程。其中

是二维时序空间从起点走到终点路径上的字符拼接起来的字符串；关联时序分类模块主要工作是利用已捕获的序列上下文信息对当前时序点进行分类，其分别计算

匹配序列l′某一段的前缀概率与后缀概率，l′为原文本序列l在首位和字符之间添加空白字符之后扩展而来的新序列。寻找最优概率路径的前缀概率计算称为前向算法，其工作方式为：

α_i，j(s)＝σ(g(α_i，j-1，s)，g(α_i-1，j，s))＝λ₁g(α_i，j-1，s)+λ₂g(α_i-1，j，s)

其中，

是序列到序列的多对一映射(连续相同字符简化为一个字符)，

是其逆映射，即表示一个序列集合。

是对序列路径

的遍历，i_t，j_t是匹配

的时序点索引。

表示时序点(i_t，j_t)匹配

的概率。λ₁，λ₂是超参数，用来决定不同时序方向对当前时序点的影响。α_i，j(s)表示在时序坐标(i，j)处从前向后匹配到序列中位置s处字符的前缀概率。

根据前缀概率，p(l|X)计算方式如下：

p(l|X)＝α_H′，W′(|l′|-1)+α_H′，w′(|l′|-2).

其中，H′，W′表示二维时序空间的大小，|l′|表示序列扩展后的长度

本发明步骤4中，所述的模型优化函数中目标函数关于模型参数的导数计算。导数计算方式如下：

其中，lab(l，k)＝{s：l′_s＝k}，表示所有类型等于k的字符，在序列中的位置集合。β_i，j(s)表示在时序坐标(i，j)处从后向前匹配序列中位置s处字符的后缀概率。寻找最优概率路径的后缀概率计算称为后向算法，计算方式如下：

β_i，j(s)＝λ₁g′(β_i，j+1，s)+λ₂g′(β_i+1，j，s)，

神经网络训练过程中，反向传播是模型优化与收敛的关键步骤。其要求每一个目标函数要给出严格、正确的求导计算方式。

本发明训练利用了深度学习反向传播的优点，能够端到端的进行训练。本发明方法框架简单、使用方便，可扩展性强、可解释性强，本发明设计了多个数据集和实用场景并在其上进行了实验，能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务，提供基础框架和算法的支持。

附图说明

图1为多序列识别问题的样例。

图2为本发明的概率路径搜索方式与时序点预测过程。

图3为本发明前向算法与后向算法的说明。

图4为本发明的最优概率路径匹配过程说明。

图5为MS-MNIST数据集中的样例。

图6为IDN、BCN、HV-MNIST、SET数据集中的样例。

具体实施方式

下面通过具体例子，进一步介绍本发明方法，并进行性能测试与分析。

本发明提供的多序列文本识别方法，是基于深度神经网络的端到端训练的有监督学习的方法，需要预先准备好用于训练的含有多个文本序列的图像，以及图像中的文本标注。

本发明方法的具体步骤如下：

步骤1，对图片数据集中的标注文件进行类别统计与分析，确定最大类别等全局参数，并对数据集中的每张图片进行数据预处理(对数据进行标准化处理，减均值除标准差)，并将这些数据划分为训练集和测试集；

步骤3，对于编码得到的高维空间特征，利用关联时序分类神经网络依次对多个文本序列进行捕获。捕获过程是将高维特征放在二维时序空间中，逐步计算每个时序点匹文本序列某个位置的概率。在单次捕获过程中，利用已捕获的序列上下文信息对当前时序点进行分类，得到当前时序点的类别概率分布；

步骤4，单次捕获过程结束后，得到二维时序空间中所有时序点的类别概率分布，根据此类别分布设计的模型的优化目标函数如下：

其中，

是训练集，X是编码器提取样本图片信息得到的三维特征向量，Z＝{l₁，l₂，...，l_N}是样本的文本序列集合。p(l_i|X)表示给定输入特征X时预测序列为l_i的条件概率。对该优化目标函数计算其关于模型参数X的导数，并进行反向传播更新参数。在此使用ADADELTA算法进行参数更新；

步骤6，训练完毕得到的模型可用于测试集进行图片多序列文本识别。在测试过程中还需要输出具体的文本序列。具体如下：经过步骤2、步骤3，得到每个时序位置的类别概率分布。取分布中概率最大值作为每个时序点的类别，得到每个时序点的类别，即最大概率类别图；

性能测试与分析

1、实验使用基于MNIST生成的多文本序列数据集、四个主要基于实际应用场景生成的数据集进行方法的分析：(1)MS-MNIST：随机从MNIST数据集(MNIST是一个手写数字数据集，共有0到9共10个类别)中选择数字图像，并把他们连接成字符序列，保证一张图片中不超过5个字符序列。每个从MNIST中选择的字符像素大小为28×28。在横向上有±3像素的随机偏移，旋转角度上有±10的偏移。字符串长度近似服从正态分布。每个字符串长度大小不超过14。MS-MNIST[n]表示不超过n个序列的图像数据集。(2)IDN：身份证卡号数据集。识别身份证所有的数字信息。(3)BCN：银行卡号数据集。识别161家银行的有效数字信息。(4)HV-MNIST：两个序列分别具有横向朝向与纵向朝向的数据集。(5)SET：英文生成文本数据集。对于每个数据集，我们均采用了27000张图片作为训练样本，3000张图片作为测试样本。

2、训练设置及超参数设置

本发明使用7层卷积神经网络，采用的卷积核大小均为3。每一层卷积网络后都采用非线性激活函数PRelu，并在第一层、第二层、第四层、第六层卷积层后采用池化层对图片进行降采样，核大小为2。为了方便实验对比，本实验都采用ADADELTA优化算法，初始学习率设置为1e-4，mini-batch的大小设置为32。λ₁，λ₂分别设置为0.9，0.1。

实验均采用NVIDIATeslaP40显卡、128GRAM与IntelXeon(R)E5-2650 2.30GHzCPU。神经网络通过caffe框架实现。

3、对比方法

为了比较本发明方法的性能，我们选择基于注意力机制(Attention based)的网络与基于关联时序分类(CTC based)的网络与本发明方法进行比较，三种方法使用架构相同的主干网络分别进行训练。本发明的方法缩写为MSRA(Multiple Sequence RecognitionApproach)。

4、性能测试结果

评价指标：本实验采用NED、SA、IA作为算法性能的评价指标。NED是根据序列长度归一化后的编辑距离。SA是序列准确率。IA是图像准确率。对于数据集中的每个图像与其文本标注，计算出相应的指标，并对所有图像的指标取平均作为最终的性能指标，具体见表1、2。

表1在MS-MNIST数据集上的识别结果

从表1可以看出，MSRA方法在所有情况下都比其他两种方法获得更好的性能，并且基于CTC的方法无法识别具有多个文本序列的图像。虽然基于Attention的方法在包含序列数较少的情况下表现出可接受的性能，但当包含序列数增加到5个时，其性能会迅速下降。更重要的是，MSRA支持在序列标注无序情况下进行训练，而基于Attention的方法要求训练图像中的文本序列自上而下进行标注，这实际上给出了一定程度的位置标注。

表2在IDN、BCN、HV-MNIST、SET数据集上的识别结果

Datasets	NED	SA	IA
				IDN	0.59	97.59	90.39
BCN	0.12	98.12	96.23
				HV-MNIST	1.87	90.99	82.73
SET	1.48	68.57	47.90

对于这四个数据集，实验中使用的网络结构与MS-MNIST数据集的网络结构相似。区别在于池化层的数量和位置以及输入层的参数略有不同。这些实验中必须确保高维空间特征能够在水平和垂直方向上保存多个文本序列。例如，在HV-MNIST数据集中，为了覆盖标注字符串序列的扩展长度(11)，将高维空间特征的大小控制为14×14，并使用一些额外的空白区域来确保开始时序点和结束时序点的标注为空白类。

表2给出了该方法在4个数据集上的识别结果。可以看到本发明方法仍然取得了很好的性能。MSRA在IDN和BCN上的性能令人满意，尽管这些数据集中的数据是基于实际应用的。在HV-MNIST上的结果表明MSRA可以处理具有不同朝向文本序列的复杂MSR问题。本发明方法在SET上表现较差，是因为SET中的数据在类的数量和序列的长度方面更为复杂。类别量的增加意味着对于每个时序点，都面临更多的匹配选项。而序列长度的增加意味着需要更大的高维空间特征来容纳序列信息。总之，尽管这些数据集包含了复杂背景、不同方向、字体大小和类型等多方面因素的噪声，MSRA仍然表现良好。

本发明提出了一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。模型可以端到端的进行训练，并且只需对数据进行文本标注，无需位置标注。此外，本发明采用ADADELTA算法来优化此模型，使其能够高效且可扩展，适用于大规模数据集。在五个数据集的实验结果表明，该模型在解决MSR问题中能够取得良好的效果，并且优于其他两种主流思路所改进的方法。

Claims

1.一种基于多维关联时序分类神经网络的端到端多序列文本识别方法，所谓多序列文本识别问题，描述如下：有且仅有含有多个文本序列的图片，需要输出所有的文本序列；其特征在于，

首先，构建一个编码器，一个多维关联时序分类神经网络，一个解码器；其中：

(1)所述编码器，由多层神经网络构成，为带有池化操作的卷积神经网络，使用非线性激活函数；其功能是将图片从原始RGB颜色空间映射到高维特征子空间；

(3)所述解码器，由最大概率类别图映射模块构成，主要功能是将最大概率类别图映射到多文本序列上；该模块专注于学习特定任务的映射方式；

其工作流程为：编码器将数据从原始的图像映射到高维的特征空间，在高维的特征空间上，利用多维关联时序分类神经网络来学习图片中多个文本序列的空间时序信息；多维关联时序分类模块捕获特征空间中文本序列的对应表示，利用序列内部的上下文特征对上述表示逐位分类，得到最大概率类别图；解码器从最大概率类别图中解码出多个文本序列。

2.根据权利要求1所述的基于多维关联时序分类神经网络的端到端多序列文本识别方法，其特征在于法具体步骤如下：

步骤1，对图片数据集中的标注文件进行类别统计与分析，确定最大类别等全局参数，并对数据集中的每张图片进行数据预处理，并将这些数据划分为训练集和测试集；

步骤4，单次捕获过程结束后，得到二维时序空间中所有时序点的类别概率分布，根据此类别分布设计模型，其优化目标函数如下：