CN113704477B

CN113704477B - 一种文本识别中识别网络与语言模型的联合优化方法

Info

Publication number: CN113704477B
Application number: CN202111030020.XA
Authority: CN
Inventors: 彭德智; 金连文; 李鸿亮; 谢灿宇
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2022-10-18
Anticipated expiration: 2041-09-03
Also published as: CN113704477A

Abstract

本发明公开了一种文本识别中识别网络与语言模型的联合优化方法，包括：采集文本数据，将文本数据划分为训练集和测试集，并设置文本行标签；构建识别网络，将文本数据输入识别网络，获得第一概率分布；构建语言模型，将概率分布输入语言模型，通过建模语义，获得第二概率分布；将训练集和文本行标签输入由识别网络和语言模型串联组成的网络进行训练，获得目标网络；将测试集和文本行标签输入目标网络，获得识别结果。本发明利用识别网络和语言模型的联合优化，大大提升了识别的精度，并且适用于不同机制的识别网络。该方案在各个公开的数据集上达到了较高的准确率，具有极高的实用性和应用价值。

Description

一种文本识别中识别网络与语言模型的联合优化方法

技术领域

本发明属于模式识别与人工智能技术领域，特别涉及一种文本识别中识别网络与语言模型的联合优化方法。

背景技术

随着深度学习技术的发展和相关硬件的逐渐完善，越来越多用于文本识别的人工智能神经网络被应用于实际生产和生活中。但是，复杂的背景、多种多样的书写风格和字体格式、庞大的字符种类数量使得识别效果仍然较差。人类在识别文本时，通常会结合语义信息进行快速而准确的识别。因而，如何设计一种能够高效利用识别网络的输出信息并结合语义进行推理的语言模型成为一项重要的研究课题。现有的方法通常将语言模型作为识别网络的后处理，对于识别网络的输出，通过传统的统计语言模型或者基于循环神经网络的语言模型进行处理，没有考虑到识别网络和语言模型是相互促进、相辅相成的。

发明内容

本发明为了实现文本行识别，提供一种文本识别中识别网络与语言模型的联合优化方法，该方案联合优化识别网络和语言模型，可以极大地提升识别准确率，具有很高的使用价值。

本发明采用如下技术方案来实现，一种文本识别中识别网络与语言模型的联合优化方法，包括：

采集文本数据，将所述文本数据划分为训练集和测试集，并设置文本行标签；构建识别网络，将所述文本数据输入所述识别网络，获得第一概率分布；构建语言模型，将所述概率分布输入所述语言模型，通过建模语义，获得第二概率分布；将所述训练集和所述文本行标签输入识别网络和语言模型串联组成的网络进行训练，获得目标网络；将所述测试集和所述文本行标签输入所述目标网络，获得识别结果。

优选地，采集所述文本数据包括采集文本语料合成数据、现有文本行数据、待测文本行数据；

将所述文本数据划分为训练集和测试集包括，将所述文本语料合成数据以及所述现有文本行数据作为训练集，所述待测文本行数据作为测试集。

优选地，设置所述文本行标签包括基于所述文本语料合成数据的文本语料和单字数据，合成联机和脱机文本行的同时返回标签信息；

基于所述现有文本行数据，读取记录的文本行标签。

优选地，所述文本识别网络采用CTC识别网络或Attention识别网络；

采用所述CTC识别网络，对于需要识别的输入X，输出为概率分布p_ctc；

所述概率分布p_ctc表示为：

其中Net_ctc表示基于CTC的识别神经网络，T为时间点数量，n_cls为字符类别数；

采用所述Attention识别网络，对于需要识别的输入，输出为概率分布p_attn：

其中，Net_attn表示基于Attention的识别神经网络，T为时间点数量，n_cls为字符类别数。

优选地，获得所述第二概率分布还包括，针对不同的文本类别，初始化不同的可学习嵌入；基于所述可学习嵌入构建可微分的预测嵌入；构建Transformer编码层；基于所述Transformer编码层构建基于Transformer编码器的语言模型，将所述可微分的预测嵌入作为所述语言模型的输入，获得建模语义后的特征；基于所述建模语义后的特征，通过分类器获得所述第二概率分布。

优选地，所述可学习嵌入为针对CTC识别网络的第一可学习嵌入或针对Attention识别网络的第二可学习嵌入；

所述第一可学习嵌入表示为：

所述第二可学习嵌入表示为：

其中，d_emb为嵌入的维度。

优选地，所述可微分的预测嵌入为针对CTC识别网络的第一可微分预测嵌入或针对Attention识别网络的第二可微分预测嵌入；

所述第一可微分预测嵌入表示为：

所述第二可微分预测嵌入表示为：

优选地，构建所述Transformer编码层包括，基于输入特征f₁，经过多头注意力层获得特征f₂，对所述特征f₂进行归一化操作并通过两层全连接层组成的网络，获得目标输出f₄；

所述特征f₂表示为：

f₂＝MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_h)W^o

其中head_i为：

其中Attention为：

Q，K，V均等于f₁；

且d_k＝d_v＝d_emb/h；

对所述特征f₂进行归一化操作并通过两层全连接层组成的网络，获得目标输出f₄表示为：

f₃＝LayerNorm(f₂+f₁)

f₄＝LayerNorm(FFN(f₃)+f₃)

其中，LayerNorm为层归一化操作，FFN为两层全连接层组成的网络。

优选地，基于所述Transformer编码层构建基于Transformer编码器的语言模型，针对不同的识别网络，将所述第一可学习嵌入或所述第二可学习嵌入作为所述语言模型的输入，获得建模语义后的特征；基于所述建模语义后的特征，通过分类器获得所述第二概率分布；基于所述第二概率分布，获得每个时间点的预测结果，将所述预测结果去除连续重复的预测和空类别，获得识别结果。

优选地，获得所述目标识别网络还包括基于自适应的梯度下降法，将所述训练集和所述文本行标签输入所述文本识别网络进行训练；

对于采用所述CTC识别网络的情况，根据标签计算

的CTC损失

p_ctc的CTC损失

相加获得第一总损失l_ctc；

或者对于采用所述Attention识别网络的情况，根据标签计算

的交叉熵损失

p_attn的交叉熵损失

相加获得第二总损失l_attn。

本发明公开了以下技术效果：

(1)本发明提出了一种文本识别中识别网络与语言模型的联合优化方法，不再将两者当作独立的两部分，而是通过联合优化使得两者更好地融合，其中语言模型的回传梯度可以指导识别网络的训练，识别网络可以进一步为语言模型提供更好的初始结果。

(2)本发明采用了Transformer编码器构建语言模型，可以极大地提升全局建模能力和计算的并行性。

(3)本发明识别准确率高、鲁棒性强，适用于各种识别网络。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的文本识别流程图；

图3为本发明实施例的语言模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种文本识别中识别网络与语言模型的联合优化方法，包括以下步骤：

采集所述文本数据包括采集文本语料合成数据、现有文本行数据、待测文本行数据；

设置所述文本行标签包括基于所述文本语料合成数据的文本语料和单字数据，合成联机和脱机文本行的同时返回标签信息；

基于所述现有文本行数据，读取记录的文本行标签。

所述文本识别网络采用CTC识别网络或Attention识别网络；

所述概率分布p_ctc表示为：

获得所述第二概率分布还包括，针对不同的文本类别，初始化不同的可学习嵌入；基于所述可学习嵌入构建可微分的预测嵌入；构建Transformer编码层；基于所述Transformer编码层构建基于Transformer编码器的语言模型，将所述可微分的预测嵌入作为所述语言模型的输入，获得建模语义后的特征；基于所述建模语义后的特征，通过分类器获得所述第二概率分布。

所述可学习嵌入为针对CTC识别网络的第一可学习嵌入或针对Attention识别网络的第二可学习嵌入；

所述第一可学习嵌入表示为：

所述第二可学习嵌入表示为：

其中，d_emb为嵌入的维度。

所述可微分的预测嵌入为针对CTC识别网络的第一可微分预测嵌入或针对Attention识别网络的第二可微分预测嵌入；

所述第一可微分预测嵌入表示为：

所述第二可微分预测嵌入表示为：

构建所述Transformer编码层包括，基于输入特征f₁，经过多头注意力层获得特征f₂，对所述特征f₂进行归一化操作并通过两层全连接层组成的网络，获得目标输出f₄；

所述特征f₂表示为：

f₂＝MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_h)W^o

其中head_i为：

其中Attention为：

Q，K，V均等于f₁；

目d_k＝d_v＝d_emb/h；

f₃＝LayerNorm(f₂+f₁)

f₄＝LayerNorm(FFN(f₃)+f₃)

基于所述Transformer编码层构建基于Transformer编码器的语言模型，针对不同的识别网络，将所述第一可学习嵌入或所述第二可学习嵌入作为所述语言模型的输入，获得建模语义后的特征；基于所述建模语义后的特征，通过分类器获得所述第二概率分布；基于所述第二概率分布，获得每个时间点的预测结果，将所述预测结果去除连续重复的预测和空类别，获得识别结果。

获得所述目标识别网络还包括基于自适应的梯度下降法，将所述训练集和所述文本行标签输入所述文本识别网络进行训练；

对于采用所述CTC识别网络的情况，根据标签计算

的CTC损失

p_ctc的CTC损失

相加获得第一总损失l_ctc；

或者对于采用所述Attention识别网络的情况，根据标签计算

的交叉熵损失

p_attn的交叉熵损失

相加获得第二总损失l_attn。

进一步地，本发明的文本识别中识别网络与语言模型的联合优化方案包括：

(1)数据获取：使用根据真实语料合成的数据以及公开的真实文本行数据作为训练数据，使用真实场景采集的文本行作为测试数据。

(2)标签制作：采用有监督的方法训练识别网络，每个文本行都有对应的文本信息。

(3)识别网络：采用现有的已经训练完成的基于CTC或者Attention的网络。

(4)语言模型：语言模型以识别网络输出的概率分布为输入，通过Transformer编码器建模语义，提升识别效果。

(5)训练网络：将训练数据和标签输入到网络中进行训练，网络损失为识别网络和语言模型损失的相加之和。

(6)测试网络：输入测试数据到训练完成的网络中，得到识别结果。

所述步骤(1)使用根据真实语料合成的数据以及公开的真实文本行数据作为训练数据，使用真实场景采集的文本行作为测试数据，其中合成数据为边训练边合成。

所述步骤(2)包括以下步骤：

(2-1)使用公开的文本语料和单字数据，合成联机和脱机文本行，在合成的同时返回标签信息。

(2-2)对于公开文本行数据集，读取其记录的文本行标签。

所述步骤(3)包括以下步骤：

(3-1)使用已经训练完成的基于CTC的识别网络，该网络对于需要识别的输入X，输出为概率分布p_ctc：

其中Net_ctc表示基于CTC的识别神经网络，T为时间点数量，n_cls为字符类别数(多出的一个类别为空类别)。

(3-2)或者使用已经训练完成的基于Attention的识别网络，该网络对于需要识别的输入X，输出为概率分布p_attn：

其中，Net_attn表示基于Attention的识别神经网络，T为时间点数量，n_cls为字符类别数(多出的两类分别为开始类和结束类)。文本识别流程图如图2所示。

所述步骤(4)包括以下步骤：

(4-1)首先，对于每一个类别，初始化一个可学习的嵌入。特别地，对于基于CTC的方法，可学习的嵌入E_ctc表示为：

其中，d_emb为嵌入的维度。

对于基于Attention的方法，可学习的嵌入E_attn表示为：

(4-2)接着，构建可微分的预测嵌入。特别地，对于基于CTC的识别网络的输出p_ctc，可微分的预测嵌入

为：

对于基于Attention的识别网络的输出p_attn，可微分的预测嵌入

为：

由于矩阵操作可微，语言模型的梯度可以回传至识别网络。

(4-3)构建Transformer编码层，功能如下。

对于Transformer编码层的输入特征f₁,首先经过多头注意力层得到特征f₂:

f₂＝MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_h)W^o

其中head_i为：

其中Attention为：

在上述公式中，Q，K，V均等于f₁；

且d_k＝d_v＝d_emb/h。

然后，对于特征f₂，进行如下操作：

f₃＝LayerNorm(f₂+f₁)

f₄＝LayerNorm(FFN(f_a)+f₃)

其中，LayerNorm为层归一化操作(Layer Normalization)，FFN为两层全连接层组成的网络。f₄即为该层的输出。

(4-4)构建基于Transformer编码器的语言模型，语言模型结构图如图3所示，由数个Transformer编码层组成。该语言模型的输入为可微分的预测嵌入

或

输出为

(4-5)基于f_cls，通过分类器得到语言模型输出的概率分布。特别得，对于基于CTC的方法，输出的概率分布为：

其中

通过该输出概率，得到每个时间点的预测结果，再去除连续重复的预测和空类别，得到最终的识别结果。

对于基于Attention的识别方法，输出的概率分布为：

其中

通过该输出概率，得到每个时间点的预测结果，从开始类到结束类中间的序列即为最终的识别结果。

所述步骤(5)包括以下步骤：

(5-1)训练参数设定：将训练数据送入网络训练，使用的优化算法是一种自适应的梯度下降法(AdamW)，学习率为0.0001，每次迭代送入32条数据，其中50％为真实数据，50％为合成数据。

(5-2)训练卷积神经网络：对于基于CTC的识别网络，分别根据标签计算

的CTC损失

p_ctc的CTC损失

总损失l_ctc即为两者的加和：

对于基于Attention的识别网络，分别根据标签计算

的交叉熵损失

p_attn的交叉熵损失

总损失l_attn即为两者的加和：

其中c_i为第i个时间点对应的标签类别。

所述步骤(6)包括以下步骤：

(6-1)把测试集中的图片以及标签输入到已训练好的网络中，进行测试。

(6-2)识别完成后，程序计算准确率。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种文本识别中识别网络与语言模型的联合优化方法，其特征在于，包括：

采集文本数据，将所述文本数据划分为训练集和测试集，并设置文本行标签；构建识别网络，将所述文本数据输入所述识别网络，获得第一概率分布；构建语言模型，将所述概率分布输入所述语言模型，通过建模语义，获得第二概率分布；将所述训练集和所述文本行标签输入识别网络和语言模型串联组成的网络进行训练，获得目标网络；将所述测试集和所述文本行标签输入所述目标网络，获得识别结果；

所述文本识别网络采用CTC识别网络或Attention识别网络；

所述概率分布p_ctc表示为：

其中，Net_attn表示基于Attention的识别神经网络，T为时间点数量，n_cls为字符类别数；

获得所述第二概率分布还包括，针对不同的文本类别，初始化不同的可学习嵌入；基于所述可学习嵌入构建可微分的预测嵌入；构建Transformer编码层；基于所述Transformer编码层构建基于Transformer编码器的语言模型，将所述可微分的预测嵌入作为所述语言模型的输入，获得建模语义后的特征；基于所述建模语义后的特征，通过分类器获得所述第二概率分布；

所述第一可学习嵌入表示为：