CN113221884B

CN113221884B - 一种基于低频字存储记忆的文本识别方法及系统

Info

Publication number: CN113221884B
Application number: CN202110522161.7A
Authority: CN
Inventors: 杨争艳; 吴嘉嘉; 张为泰; 宋彦
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-09-06
Anticipated expiration: 2041-05-13
Also published as: CN113221884A

Abstract

本发明涉及一种基于低频字存储记忆的文本识别方法及系统，其方法包括：S1：统计训练集中低频字；S2：将待识别的文本行图像进行预处理后，将其输入卷积神经网络以及循环神经网络，获得序列特征；S3：根据序列特征和低频字，利用带注意力机制的解码器，分别获得序列特征的上下文信息和低频字的关联特征；S4：将序列特征的上下文信息与低频字关联特征分别经过一个门控机制，获得各自的置信度；将二者的置信度进行融合，得到文本行图像的识别结果。本发明提供的方法，在识别过程中不仅使用了文本图像的上下文信息，还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中，引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。

Description

一种基于低频字存储记忆的文本识别方法及系统

技术领域

本发明涉及电子信息技术领域，具体涉及一种基于低频字存储记忆的文本识别方法及系统。

背景技术

随着深度学习的提出和发展，OCR(Optical Character Recognition，光学字符识别)的效果也获得了极大的提升。但是作为一种数据驱动的算法，深度学习需要大量且丰富的训练集才能达到令人满意的效果。然而在中、日、韩等多文字语种的识别任务中，无法针对每一个字符都采集到足够多的训练数据，这就导致低频字的识别效果较差。

现有的针对低频字识别的方案目前主要基于两个方面，一是通过合成文本图像的方式，即合成大量含有低频字的文本图像加入到训练集使得模型能够更好地学习这些低频字的特征；二是引入语言模型，使用大量的语料训练一个语言模型对识别结果进行纠错。

对于合成文本图像的方案，存在两个问题，一是含有低频字的语料难以获得，二是合成的数据与真实数据之间存在差异，加入的合成数据会扩大训练集的类内方差，使得模型学习更加困难，造成其他字符识别效果降低；对于引入语言模型的方案，不同场景下语言模型有所不同，无法针对每一个场景都训练一个语言模型，语言模型的好坏严重影响整体的识别效果。

发明内容

为了解决上述技术问题，本发明提供一种基于低频字存储记忆的文本识别方法及系统。

本发明技术解决方案为：一种基于低频字存储记忆的文本识别方法，包括：

步骤S1：根据训练集中字符出现的频率，得到低频字；

步骤S2：将待识别的文本行图像进行预处理，得到处理后的图像；将所述处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征；

步骤S3：根据所述序列特征，利用带注意力机制的解码器，获得所述序列特征的上下文信息，并利用所述低频字，获取所述低频字的关联特征；

步骤S4：将所述序列特征的上下文信息与所述低频字的关联特征分别经过一个门控机制，获得各自的置信度；将所述序列特征的上下文信息与所述低频字的关联特征的置信度进行融合，得到所述文本行图像的识别结果。

本发明与现有技术相比，具有以下优点：

本发明提出一种基于低频字存储记忆的文本识别方法，在识别过程中不仅使用了文本图像的上下文信息，还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中，同时引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。

附图说明

图1为本发明实施例中一种基于低频字存储记忆的文本识别方法的流程图；

图2为本发明实施例中一种基于低频字存储记忆的文本识别方法中步骤S2：将待识别的文本行图像进行预处理，得到处理后的图像；将处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征的流程图；

图3为本发明实施例中一种基于低频字存储记忆的文本识别方法中步骤S3：根据序列特征，利用带注意力机制的解码器，获得序列特征的上下文信息，并利用低频字，获取低频字的关联特征的流程图；

图4为本发明实施例中一种基于低频字存储记忆的文本识别方法中步骤S4：将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制，获得各自的置信度；将序列特征的上下文信息与低频字的关联特征的置信度进行融合，得到文本行图像的识别结果的流程图；

图5为本发明实施例中一种基于低频字存储记忆的文本识别方法的流程示意图；

图6为本发明实施例中一种基于低频字存储记忆的文本识别系统的结构框图。

具体实施方式

本发明提供了一种基于低频字存储记忆的文本识别方法，在识别过程中不仅使用了文本图像的上下文信息，还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中，同时引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于低频字存储记忆的文本识别方法，包括下述步骤：

步骤S1：根据训练集中字符出现的频率，得到低频字；

步骤S2：将待识别的文本行图像进行预处理，得到处理后的图像；将处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征；

步骤S3：根据序列特征，利用带注意力机制的解码器，获得序列特征的上下文信息，并利用低频字，获取低频字的关联特征；

步骤S4：将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制，获得各自的置信度；将序列特征的上下文信息与低频字的关联特征的置信度进行融合，得到文本行图像的识别结果。

在一个实施例中，上述步骤S1：根据训练集中字符出现的频率，得到低频字，具体包括：

统计训练集中每个字符出现的频率，将字符按照出现的频率大小进行排序，当一个字符在整个训练集中出现频率小于预设阈值时，本发明实施例阈值设为500次，将该字符定义为低频字，从而获取整个训练集的低频字列表。

如图2所示，在一个实施例中，上述步骤S2：将待处理的文本行图像进行预处理，得到处理后的图像；将处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征，具体包括：

步骤S21：将待处理的文本行图像进行预处理，得到处理后的图像；

对待处理的文本行图像进行预处理，对于每个的文本行图像，假设其尺寸为[H,W,C]，将其高度H规整到64像素，宽度W按照同比例缩放为W’，C表示通道数，将预处理后的文本行图像的像素值规整到[-1,1]之间。

步骤S22：将处理后的图像输入卷积神经网络，获得文本行图像的特征向量；

在本步骤中，将经过预处理后的文本行图像输入卷积神经网络中进行特征提取，得到尺寸大小为[h,l,d]的特征图。本发明实施例中，卷积神经网络在图像高度方向上进行6次下采样，故得到h＝64/2⁶＝1，在宽度方向上进行3次下采样，所以l＝W’/8；d表示特征图的通道数；将得到的特征图在宽度上进行切片操作，从而得到l个维度是d的特征向量。

步骤S23：将特征向量输入循环神经网络，获得文本行图像的序列特征；

将步骤S22得到的l个维度的特征向量作为输入，经过循环神经网络，本发明实施例采用一层双向LSTM作为循环神经网络，可得到文本行图像的序列特征h_i，其序列长度为l。

如图3所示，在一个实施例中，上述步骤S3：根据序列特征，利用带注意力机制的解码器，获得序列特征的上下文信息，并根据低频字，获取低频字的关联特征，具体包括：

步骤S31：将所述序列特征，输入如下述公式(1)～(3)所示的带注意力机制的解码器，获得序列特征的上下文信息c_t；

e_ti＝o(s_t-1,h_i) (1)

其中，本发明实施例采用一层单向LSTM作为解码器，s_t-1为解码器在上一刻隐状态，h_i表示序列特征的第i帧，o表示点乘操作；α_ti为注意力机制的权重，l为特征向量个数；c_t为低频字的上下文信息。

步骤S32：低频字用x_i∈N^(1×M)表示，其中M为低频字个数；x_i经过全连接层将其映射为与每个序列特征的维度相同的序列特征h’_i；

本步骤中，以one-hot向量的形式表示每一个低频字，低频字用x_i∈N^(1×M)表示。

步骤S33：将h’_i输入如下述公式(4)～(6)所示的带注意力机制的解码器，获取低频字的关联特征c′_t；

e′_ti＝o(s_t-1，h′_i) (4)

其中，M为低频字个数。

如图4所示，在一个实施例中，上述步骤S4：将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制，获得各自的置信度；将序列特征的上下文信息与低频字的关联特征的置信度进行融合，得到文本行图像的识别结果，具体包括：

步骤S41：利用下述公式(7)～(9)所示的门控机制，计算序列特征的上下文信息与关联特征的置信度，并进行融合；

C_t＝β*c_t+γ*c′_t (7)

β＝sigmoid(W_G1*c_t) (8)

γ＝sigmoid(W_G2*c′_t) (9)

其中，W_G1和W_G2门控机制待学习的参数，β和γ为序列特征的上下文信息与低频字的关联特征分别经过门控机制得到的置信度。

步骤S42：利用上一时刻的输出识别结果y_t-1和融合后的C_t，将y_t-1和C_t经过级联操作，再经过Softmax分类层，输出当前时刻的文本行图像的识别结果y_t。

图5示出了本发明提供的基于低频字存储记忆的文本识别方法的流程示意图。

实施例二

如图6所示，本发明实施例提供了一种基于低频字存储记忆的文本识别系统，包括下述模块：

获取低频字模块51，用于根据训练集中字符出现的频率，得到低频字；

获取文本行图像序列特征模块52，用于将待识别的文本行图像进行预处理，得到处理后的图像；将处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征；

获取序列特征上下文信息以及低频字关联特征模块53，用于根据序列特征，利用带注意力机制的解码器获得序列特征的上下文信息，并利用低频字，获取低频字的关联特征；

文本识别结果模块54，用于将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制，获得各自的置信度；将序列特征的上下文信息与低频字的关联特征的置信度进行融合，得到文本行图像的识别结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于低频字存储记忆的文本识别方法，其特征在于，包括：

步骤S1：根据训练集中字符出现的频率，得到低频字；

步骤S3：根据所述序列特征，利用带注意力机制的解码器，获得所述序列特征的上下文信息，并利用所述低频字，获取所述低频字的关联特征，具体包括如下步骤：

步骤S31：将所述序列特征，输入如下述公式(1)～(3)所示的带注意力机制的解码器，获得所述序列特征的上下文信息c_t；

e_ti＝o(s_t-1,h_i) (1)

其中，s_t-1为所述解码器在上一刻隐状态，h_i表示所述序列特征的第i帧，o表示点乘操作；α_ti为注意力机制的权重，l为特征向量个数；c_t为所述低频字的上下文信息；

步骤S32：所述低频字用x_i∈N^(1×M)表示，其中M为所述低频字个数；x_i经过全连接层将其映射为与每个所述序列特征的维度相同的序列h’_i；

步骤S33：将h’_i输入如下述公式(4)～(6)所示的带注意力机制的解码器，获取所述低频字的关联特征c′_t；

e′_ti＝o(s_t-1,h′_i) (4)

其中，M为所述低频字个数；

步骤S4：将所述序列特征的上下文信息与所述低频字的关联特征分别经过一个门控机制，获得各自的置信度；将所述序列特征的上下文信息与所述低频字的关联特征的置信度进行融合，得到所述文本行图像的识别结果，具体包括如下步骤：

步骤S41：利用下述公式(7)～(9)所示的门控机制，计算所述序列特征的上下文信息与所述低频字的关联特征的置信度，并进行融合；

C_t＝β*c_t+γ*c′_t (7)

β＝sigmoid(W_G1*c_t) (8)

γ＝sigmoid(W_G2*c′_t) (9)

其中，W_G1和W_G2门控机制待学习的参数，β和γ为所述序列特征的上下文信息与所述低频字的关联特征分别经过门控机制得到的置信度；

步骤S42：利用上一时刻的输出识别结果y_t-1和融合后的C_t，将y_t-1和C_t经过级联操作，再经过Softmax分类层，输出当前时刻的所述文本行图像的识别结果y_t。

2.根据权利要求1所述的基于低频字存储记忆的文本识别方法，其特征在于，所述步骤S2：将待处理的文本行图像进行预处理，得到处理后的图像；将所述处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征，具体包括：

步骤S22：将所述处理后的图像输入所述卷积神经网络，获得所述文本行图像的特征向量；

步骤S23：将所述特征向量输入所述循环神经网络，获得所述文本行图像的序列特征。

3.一种基于低频字存储记忆的文本识别系统，其特征在于，包括下述模块：

获取低频字模块，用于根据训练集中字符出现的频率，得到低频字；

获取文本行图像序列特征模块，用于将待识别的文本行图像进行预处理，得到处理后的图像；将所述处理后的图像输入卷积神经网络以及循环神经网络，获得序列特征；

获取序列特征上下文信息以及低频字关联特征模块，用于根据所述序列特征，利用带注意力机制的解码器获得所述序列特征的上下文信息，并利用所述低频字，获取所述低频字的关联特征，具体包括：

e_ti＝o(s_t-1,h_i) (1)

e′_ti＝o(s_t-1,h′_i) (4)

其中，M为所述低频字个数；

文本识别结果模块，用于将所述序列特征的上下文信息与所述低频字的关联特征分别经过一个门控机制，获得各自的置信度；将所述序列特征的上下文信息与所述低频字的关联特征的置信度进行融合，得到所述文本行图像的识别结果，具体包括：

C_t＝β*c_t+γ*c′_t (7)

β＝sigmoid(W_G1*c_t) (8)

γ＝sigmoid(W_G2*c′_t) (9)