CN113469267A

CN113469267A - 一种基于深度特征检索的文本图像字符识别方法与系统

Info

Publication number: CN113469267A
Application number: CN202110799595.1A
Authority: CN
Inventors: 杜响成; 董其昌; 郑莹斌
Original assignee: Shanghai Duiguan Information Technology Co ltd
Current assignee: Shanghai Duiguan Information Technology Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-01

Abstract

本发明属于人工智能技术领域，且公开了一种基于深度特征检索的文本图像字符识别方法与系统，包括有字符识别方法与字符识别系统，字符识别系统又分为模型训练阶段与推理阶段。本发明提供了一种基于深度特征检索的文本图像字符识别方法与系统，通过特征相似度的匹配算法依次在字符库中进行检索，将相似度最高的字符作为结果进行输出得到最终的文本识别结果，本发明可以解决现阶段的识别模型过分依赖于训练数据以及注意力权重计算过程中存在的注意力漂移的问题，本方法通过构建完备的字符库，可以获得更准确的文本图像识别的效果。

Description

一种基于深度特征检索的文本图像字符识别方法与系统

技术领域

本发明属于人工智能技术领域，具体是一种基于深度特征检索的文本图像字符识别方法与系统。

背景技术

文本图像的识别，是指利用相应的算法或模型将文本图像中的文本转换为计算机可编辑的对象，文本图像识别有助于促进档案智能化的管理，目前广泛应用于文本检索，文本智能理解以及文档智能著录等多个方面。

现阶段主流的文本图像识别模型之一是以CRNN模型为代表的识别模型，CRNN模型是CNN和RNN模型的结合，其中，CNN是通过使用标准卷积模型中的卷积层和最大池化层来构建的，用于从输入的文本图像中自动提取连续的特征表示；RNN使用双向递归神经网络模型(BiLSTM)，BiLSTM结构有利于获取上下文信息，使用多层LSTM结构有利于获取高级语义；最后CTC模型对RNN的输出进行处理得到最后的输出结果，即在每个时间步下找到概率最高的标签序列，该手段存在的问题为：CRNN模型的性能很大程度上依赖于训练数据，若训练数据中没有出现过相应的文本图像或者出现的频率很低，CRNN模型很难识别出相应的文本图像。

另外，目前基于注意力模型的文本图像识别同样是主流模型，其中，卷积神经网络自动从输入的文本图像中提取特征，接着注意力模型根据循环神经网络神经元的隐藏状态及上一时刻的输出计算出注意力权重，最后将卷积神经网络输出的特征图与注意力权重结合，输入循环神经网络进行解码，得到整个字符集的概率分布，最后直接提取概率最高的字符作为最后的识别结果，该手段存在的问题为：基于注意力模型的文本图像识别模型存在注意力漂移的问题，模型在计算注意力权重时，注意力权重的分布和文本字符之间存在偏差，也就是说最高的权重值不一定对应着当前文本字符。

为了解决上述问题，本专利提出来一种基于深度特征检索的文本图像字符识别方法与系统。

发明内容

本发明的目的是针对以上问题，本发明提供了一种基于深度特征检索的文本图像字符识别方法与系统，具有解决现阶段的文本图像识别模型过度依赖于训练数据以及注意力权重计算过程中存在的注意力漂移问题的优点。

为实现上述目的，本发明提供如下技术方案：一种基于深度特征检索的文本图像字符识别方法与系统，包括有字符识别方法与字符识别系统，字符识别系统又分为模型训练阶段与推理阶段，

字符识别方法具体操作步骤为：

1)利用现有的公开文本图像识别数据集或数据生成引擎构建大规模的字符库,其中，对于公开的带有字符级标注的数据集，可以直接根据字符级的标注生成字符文本图像；对于公开的带有单词级标注的数据集，可以利用投影算法或现有的字符裁剪算法对单词级的文本图片进行裁剪，得到相应的字符文本图像；

2)利用现有的特征提取模型获取文本图像的局部区域特征或者图像的全局特征，其中特征提取模型可以是现阶段所有公开的深度卷积网络；

3)根据步骤2)中获取的特征，利用特征相似度匹配算法，在字符库中依次对待识别的文本图像的特征进行检索，通过计算特征间的相似度，最后在字符库中找到与待识别文本图像最相似的字符，并进行最终结果的输出；

字符识别系统具体操作步骤为：

1)构建字符库

若公开的数据集是字符级标注的，那么根据数据的字符级标注就可以获取到字符级文本图像，以此来构建字符库；若公开的数据集是单词级的标注，那么可以利用投影算法或者现阶段存在的字符分割算法来获取字符级文本图片；此外，可以利用数据合成引擎大批量的生成字符级文本图片。字符库应该尽可能多的包括各种字体，各种背景，各种颜色，各种形态的字符，理论上字符库包含真实场景下所有的字符；

2)特征提取模型

文本图像的特征提取模型是根据标准神经网络中的卷积层和最大池化层来构建的，常用到的特征提取模型包括VGG模型，GoogleNet模型，ResNet模型等等，常见的网络结构如图一所示，通过不断的堆叠卷积层和最大池化层来抽象文本图像的特征，随着网络深度的加深，文本图像的特征就会越来越丰富，将最后的卷积层的特征作为特征的输出以供后面阶段的使用；

3)特征的检索匹配

通过2)描述的特征提取模型，得到待识别的文本图像局部区域特征或全局特征以及字符库内的字符文本图像的特征，在字符库中依次进行检索，利用特征相似度匹配算法计算特征间的相似度，最后根据相似度得到最符合结果的字符进行结果的输出。

作为本发明的一种优选技术方案，字符库包含有各种背景、各种颜色、各种字体以及各种形态的单字字符。

作为本发明的一种优选技术方案，文本图像特征提取模型是根据标准神经网络中的卷积层和最大池化层来构建的，且该常用到的特征提取模型包括但不限于VGG模型、GoogleNet模型、ResNet模型。

作为本发明的一种优选技术方案，模型训练阶段对应着字符识别方法与字符识别系统中的1)、2)，推理阶段对应着字符识别方法与字符识别系统中的3)。

作为本发明的一种优选技术方案，训练模型步骤具体操作如下：

A根据公开的图像文本识别数据集或数据生成引擎，获取到带有分类标签的字符库；

B利用A中构建的字符库，训练特征提取模型的参数；

C测试当前的模型参数效果，依据当前效果调整步骤B中的训练参数，重复步骤，直到获得满足需求的效果；

D保存模型参数，作为推理阶段的特征提取模型的参数。

作为本发明的一种优选技术方案，推理阶段分为不需要切分待识别的文本图像以此获取局部区域特征和仅需要利用整张文本图像的全局特征进行局部检索的两种手段，即该推理阶段分为局部引导操作与全局引导操作，局部引导操作步骤如下：

A利用投影算法或其它的字符分割算法，对待识别的文本图像进行切分，得到待识别的字符级文本图像集合，用于生成待识别文本图像的局部区域特征；

B调用特征提取模型，提取待识别的文本图像的局部区域特征以及字符库中字符文本图像的特征；

C利用特征相似度匹配算法，根据提取的特征，依次检索字符库，得到与当前待识别的文本图像最匹配的字符；

D不断迭代C，处理得到字符集合作为最后的结果输出；

全局引导操作步骤如下：

A利用特征提取模型，提取待识别的文本图像的全局特征以及字符库中字符文本图像的特征；

B根据待识别文本图像的全局特征以及字符库的字符文本特征，利用局部检索的方式，计算特征之间的相似度，依次得到最匹配的字符；

C根据匹配到的结果，输出最后的识别文本；

整个模型训练阶段与推理阶段为两大手段，具体的则是训练模型步骤与局部引导操作与全局引导操作的分类组合，两大手段中的训练模型步骤保持一致，只在后面的推理阶段存在分歧，全局引导操作相较于局部引导操作仅仅需要调用一次特征提取模型，能大幅度的减少特征提取所消耗的时间。

与现有技术相比，本发明的有益效果如下：

本发明提供了一种基于深度特征检索的文本图像字符识别方法与系统，通过构建大规模的字符库，利用特征提取网络得到待识别的文本图像的局部区域特征或全局特征以及字符文本图像的特征，通过特征相似度的匹配算法依次在字符库中进行检索，将相似度最高的字符作为结果进行输出得到最终的文本识别结果，本发明可以解决现阶段的识别模型过分依赖于训练数据以及注意力权重计算过程中存在的注意力漂移的问题，本方法通过构建完备的字符库，可以获得更准确的文本图像识别的效果。

附图说明

图1为本发明字符识别方法具体操作步骤示意图；

图2为本发明特征提取器模型结构图；

图3为本发明特征提取模型训练阶段示意图；

图4为本发明推理阶段的局部引导操作示意图；

图5为本发明推理阶段的全局引导操作示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图5所示，本发明提供一种基于深度特征检索的文本图像字符识别方法与系统，包括有字符识别方法与字符识别系统，字符识别系统又分为模型训练阶段与推理阶段，

字符识别方法具体操作步骤为：

1)利用现有的公开文本图像识别数据集或数据生成引擎构建大规模的字符库，其中，对于公开的带有字符级标注的数据集，可以直接根据字符级的标注生成字符文本图像；对于公开的带有单词级标注的数据集，可以利用投影算法或现有的字符裁剪算法对单词级的文本图片进行裁剪，得到相应的字符文本图像；

字符识别系统具体操作步骤为：

1)构建字符库

2)特征提取模型

3)特征的检索匹配

其中，字符库包含有各种背景、各种颜色、各种字体以及各种形态的单字字符。

其中，文本图像特征提取模型是根据标准神经网络中的卷积层和最大池化层来构建的，且该常用到的特征提取模型包括但不限于VGG模型、GoogleNet模型、ResNet模型。

其中，模型训练阶段对应着字符识别方法与字符识别系统中的1)、2)，推理阶段对应着字符识别方法与字符识别系统中的3)。

其中，训练模型步骤具体操作如下：

B利用A中构建的字符库，训练特征提取模型的参数；

D保存模型参数，作为推理阶段的特征提取模型的参数。

其中，推理阶段分为不需要切分待识别的文本图像以此获取局部区域特征和仅需要利用整张文本图像的全局特征进行局部检索的两种手段，即该推理阶段分为局部引导操作与全局引导操作，局部引导操作步骤如下：

D不断迭代C，处理得到字符集合作为最后的结果输出；

全局引导操作步骤如下：

C根据匹配到的结果，输出最后的识别文本；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度特征检索的文本图像字符识别方法与系统，包括有字符识别方法与字符识别系统，字符识别系统又分为模型训练阶段与推理阶段，其特征在于：

字符识别方法具体操作步骤为：

1)利用现有的公开文本图像识别数据集或数据生成引擎构建大规模的字符库；

2)利用现有的特征提取模型获取文本图像的局部区域特征或者图像的全局特征；

字符识别系统具体操作步骤为：

1)构建字符库；

2)特征提取模型；

3)特征的检索匹配。

2.根据权利要求1所述的一种基于深度特征检索的文本图像字符识别方法与系统，其特征在于：字符库包含有各种背景、各种颜色、各种字体以及各种形态的单字字符。

3.根据权利要求1所述的一种基于深度特征检索的文本图像字符识别方法与系统，其特征在于：文本图像特征提取模型是根据标准神经网络中的卷积层和最大池化层来构建的，且该常用到的特征提取模型包括但不限于VGG模型、GoogleNet模型、ResNet模型。

4.根据权利要求1所述的一种基于深度特征检索的文本图像字符识别方法与系统，其特征在于：模型训练阶段对应着字符识别方法与字符识别系统中的1)、2)，推理阶段对应着字符识别方法与字符识别系统中的3)。

5.根据权利要求1所述的一种基于深度特征检索的文本图像字符识别方法与系统，其特征在于：训练模型步骤具体操作如下：

B利用A中构建的字符库，训练特征提取模型的参数；

D保存模型参数，作为推理阶段的特征提取模型的参数。

6.根据权利要求1所述的一种基于深度特征检索的文本图像字符识别方法与系统，其特征在于：推理阶段分为不需要切分待识别的文本图像以此获取局部区域特征和仅需要利用整张文本图像的全局特征进行局部检索的两种手段，即该推理阶段分为局部引导操作与全局引导操作，局部引导操作步骤如下：

D不断迭代C，处理得到字符集合作为最后的结果输出；

全局引导操作步骤如下：

C根据匹配到的结果，输出最后的识别文本。