CN112836702A

CN112836702A - 一种基于多尺度特征提取的文本识别方法

Info

Publication number: CN112836702A
Application number: CN202110003584.8A
Authority: CN
Inventors: 卜佳俊; 邓雅卿; 顾静军
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-05-25
Anticipated expiration: 2041-01-04
Also published as: CN112836702B

Abstract

一种基于多尺度特征提取的文本识别方法，包括：1)获取可用于训练的大型文本图像数据集，其中包含文本图片及其对应的文本标签；2)对数据集中的图片进行训练集和验证集的划分，在文本识别模型上进行多次训练得到最优模型；3)对步骤2)中定义的文本识别模型，选用CTC损失函数进行训练；4)将以上步骤训练的模型应用到文本图像识别场景中，对文本图像的内容进行识别。相较于现有的主流文本识别模型CRNN，本发明能够在充分利用多尺度信息提升文本识别准确度的基础上，降低模型的参数量，以更小的开销获得更准确的识别结果。

Description

一种基于多尺度特征提取的文本识别方法

技术领域

本发明主要针对自然场景下的文本识别技术领域，尤其涉及基于多尺度特征提取的文本识别方法。

背景技术

随着信息技术的不断发展，计算机已然成为了信息传递的一种重要媒介，因此将图像中的文字转换为计算机可进行处理的格式有利于人们对信息的理解、加工和传递。许多视觉领域内和文本相关的任务，如图像检索、智能无障碍辅助设施等都需要以精确的文本识别结果进行构建。OCR(Optical Character Recognition，光学字符识别)就是将视觉文字转化为计算机文本格式的技术，其中又主要分为文本检测和文本识别两个任务。文本检测主要用于定位图像中的文字区域，而文本识别则对裁剪后的文字区域进行文本内容提取，最终得到计算机可进行处理的文本格式。

目前有许多基于深度学习的文本识别模型用于解决文本识别问题，其中CRNN模型是一种主流的文本识别模型，因其模型较小，训练速度快，识别效果好仍是当前最广泛使用的文本识别模型之一。但是为了加快训练速度，每次读取多张图片进行训练，需要将每张图片都缩放到相同的大小，但是这种缩放对于图片的拉伸和压缩处理都难以避免会造成图片的变形，而导致图片上信息分布的不一致，从而对卷积模板区域内的特征提取过程造成影响，最终会影响文本识别模型的准确度。

发明内容

本发明要克服现有技术的上述缺点，提出了一种基于多尺度特征提取的文本识别方法，并且对CRNN的网络层数进行改进，以更小的模型开销提高文本识别模型的准确度。

一种基于多尺度特征提取的文本识别方法，包括以下步骤：

1)获取可用于训练的大型文本图像数据集，其中包含文本图片及其对应的文本标签。文本图片表示仅含文本内容的图片，可以通过已有的其它文本检测模型定位文本内容，再进行裁剪得到。

2)对数据集中的图片进行训练集和验证集的划分，在文本识别模型上进行多次训练得到最优模型。所述的文本识别模型，其具体网络结构描述如下：

21)首先定义网络结构中的多尺度特征提取基本块。基本块的整体组织结构如说明书附图内的图2所示。其对应的详细参数描述如下：对应图2中的模块①选用大小为1的卷积核，设置步长为1，填充为0，输出维度为64；模块②选用大小为1的卷积核，设置步长为1，填充为0，输出维度为48；模块③选用大小为5的卷积核，设置步长为1，填充为2，输出维度为64；模块④选用大小为3的卷积核，设置步长为1，填充为1，输出维度为64；模块⑤和模块⑥选用大小为3的卷积核，设置步长为1，填充为1，输出维度为96；模块⑦设定为范围卷积核为3的池化层，设置步长为1，填充为1；模块⑧选用大小为1的卷积核，设置步长为1，填充为1，输出是多尺度特征提取基本块的一个输入参数；模块⑨选用大小为3的卷积核，设置步长为1，填充为0，输出是多尺度特征提取基本块的输入参数；对模块①、③、⑥、⑧的输出，在特征维度上进行拼接得到高维的语义特征，最后通过模块⑨得到最终的输出。

22)利用21)中提到的多尺度特征提取模块，设计文本识别网络特征提取层详述如下：首先在输入层后接入第一个多尺度特征提取模块，指定输出维度为64；然后接入一个模板大小为2的池化层，设置步长为2；然后接入第二个多尺度特征提取模块，指定输出维度为128；然后接入一个模板大小为2的池化层，设置步长为2；然后接入两个多尺度特征提取模块，都指定输出维度为256；然后接入池化层，在宽度和高度方向上分别设定模板大小为1和2，并将步长也设置成对应值，填充分别为0和1；然后接入两个多尺度特征提取模块，都指定输出维度为512；在特征提取阶段的最后接入一个池化层，在宽度和高度方向上分别设定模板大小为2和4，并将步长也设置成对应值，填充分别为0和2。

23)利用22)中提到的文本识别网络特征提取层，设计文本识别模型的总体架构详述如下：在22)所述的特征提取层后，接入两个双向的LSTM网络层，同时设置该网络层的隐层特征维度为256。双向LSTM层的作用在于将图像的视觉特征进行长短期记忆的联系处理，该网络层读取图像按宽度帧切分的特征序列，对不同帧特征之间的联系进行建模，从而将输入的图像特征转化为更高层的语义特征，并根据特征翻译出每个帧内不同字符对应的概率。

3)对步骤2)中定义的文本识别模型，选用CTC损失函数进行训练。该损失函数的主要作用主要在于将LSTM层输出的每个时刻的字符概率进行组合，以此可以将网络的字符概率输出和图像的文本标签进行对齐，从而将网络各层结构组织起来进行训练。其中网络的概率输出有一个特殊字符类对应‘blank’，根据该类字符可以将网络的概率输出以不同的路径组合方式对齐真实文本标签。比如‘spe[blank]eed’和‘spee[blank]ed’都可以转录成‘speed’单词。因此，最终网络输出当前单词的概率，是对所有可以转化为该单词的路径概率进行求和。计算CTC损失的主要步骤详述如下：

单条路径的概率为每个时刻对应字符的概率求和，如下公式所示：

其中s表示网络对应的输入，而w表示文本识别模型的输出序列，w_t表示时刻t对应w中第t个字符的概率。最后，对应的单词概率为所有可以转录为该单词的路径概率和，表示为以下公式：

其中l表示目标文本序列，根据以上概率公式可求得对应的网络损失函数设定为概率的负对数，表示为以下公式：

L＝-ln pr(l|s) (3)

最后利用以上所述损失函数，每次读取batch张图片，同时将读取的图片缩放到宽度为100像素，高度为32像素的大小，对网络进行训练。

4)将以上步骤训练的模型应用到文本图像识别场景中，对文本图像的内容进行识别。对含有多行文本的图片可以选取现有文本检测模型对图像中的文本进行定位，裁剪出含有文本内容的部分图片，再使用本发明的文本识别模型对文本内容进行识别。

优选地，本发明还包括步骤5)检索图像，具体包括：用户通过输入单个关键词，和图像中的文本内容进行匹配。图像检索任务使用预训练的NLP模型如word2vec等词嵌入的模型，该模型的主要作用是用于提取关键词和文本单词的高维特征。采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征，再通过相似度度量方式如余弦相似度的评估方法，计算用户输入关键词和所有图像中的文本单词的相似度平均值，该值对应关键词和图像之间的匹配程度。该相似度平均值可直接用于对图像集合中的图像进行匹配排序，选取和关键词最为接近的K张图像；也可用于和基于内容的图像检索方法进行加权结合，作为相似度匹配的其中一个因素。

本发明的优点是：

1)相对于目前主流文本识别模型CRNN，本方法训练后的模型能够取得更高的准确度。

2)原CRNN模型文件的大小是32M，而本方法训练后的模型文件大小为27M。本方法以更小的存储开销取得了更高的准确度。

附图说明

图1是本发明的思路概述图。

图2是本发明的多尺度特征提取模块总体结构图。

具体实施方式

下面结合附图，进一步说明本发明的技术方案。

本实施例是应用本发明的一种图像检索方法，具体包括如下步骤：

L＝-ln pr(l|s) (3)

5)本发明可用于基于文本的图像检索任务中，用户通过输入单个关键词，和图像中的文本内容进行匹配。图像检索任务使用预训练的NLP模型如word2vec等词嵌入的模型，该模型的主要作用是用于提取关键词和文本单词的高维特征。采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征，再通过相似度度量方式如余弦相似度的评估方法，计算用户输入关键词和所有图像中的文本单词的相似度平均值，该值对应关键词和图像之间的匹配程度。该相似度平均值可直接用于对图像集合中的图像进行匹配排序，选取和关键词最为接近的K张图像；也可用于和基于内容的图像检索方法进行加权结合，作为相似度匹配的其中一个因素。

本发明将自然场景下的裁剪文本图片通过多尺度图像特征提取得到高维语义图，然后将高维语义图经过序列编码和文本特征翻译过程恢复图像中的文本内容。相较于现有的主流文本识别模型CRNN，本发明能够在充分利用多尺度信息提升文本识别准确度的基础上，降低模型的参数量，以更小的开销获得更准确的识别结果。

Claims

1.一种基于多尺度特征提取的文本识别方法，包括下列步骤：

1)获取可用于训练的大型文本图像数据集，其中包含文本图片及其对应的文本标签；文本图片表示仅含文本内容的图片，可以通过已有的其它文本检测模型定位文本内容，再进行裁剪得到；

2)对数据集中的图片进行训练集和验证集的划分，在文本识别模型上进行多次训练得到最优模型；所述的文本识别模型，其具体网络结构描述如下：

21)首先定义网络结构中的多尺度特征提取基本块；基本块的整体组织结构如说明书附图内的图2所示；其对应的详细参数描述如下：对应图2中的模块①选用大小为1的卷积核，设置步长为1，填充为0，输出维度为64；模块②选用大小为1的卷积核，设置步长为1，填充为0，输出维度为48；模块③选用大小为5的卷积核，设置步长为1，填充为2，输出维度为64；模块④选用大小为3的卷积核，设置步长为1，填充为1，输出维度为64；模块⑤和模块⑥选用大小为3的卷积核，设置步长为1，填充为1，输出维度为96；模块⑦设定为范围卷积核为3的池化层，设置步长为1，填充为1；模块⑧选用大小为1的卷积核，设置步长为1，填充为1，输出是多尺度特征提取基本块的一个输入参数；模块⑨选用大小为3的卷积核，设置步长为1，填充为0，输出是多尺度特征提取基本块的输入参数；对模块①、③、⑥、⑧的输出，在特征维度上进行拼接得到高维的语义特征，最后通过模块⑨得到最终的输出；

22)利用21)中提到的多尺度特征提取模块，设计文本识别网络特征提取层详述如下：首先在输入层后接入第一个多尺度特征提取模块，指定输出维度为64；然后接入一个模板大小为2的池化层，设置步长为2；然后接入第二个多尺度特征提取模块，指定输出维度为128；然后接入一个模板大小为2的池化层，设置步长为2；然后接入两个多尺度特征提取模块，都指定输出维度为256；然后接入池化层，在宽度和高度方向上分别设定模板大小为1和2，并将步长也设置成对应值，填充分别为0和1；然后接入两个多尺度特征提取模块，都指定输出维度为512；在特征提取阶段的最后接入一个池化层，在宽度和高度方向上分别设定模板大小为2和4，并将步长也设置成对应值，填充分别为0和2；

23)利用22)中提到的文本识别网络特征提取层，设计文本识别模型的总体架构详述如下：在22)所述的特征提取层后，接入两个双向的LSTM网络层，同时设置该网络层的隐层特征维度为256；双向LSTM层的作用在于将图像的视觉特征进行长短期记忆的联系处理，该网络层读取图像按宽度帧切分的特征序列，对不同帧特征之间的联系进行建模，从而将输入的图像特征转化为更高层的语义特征，并根据特征翻译出每个帧内不同字符对应的概率；

3)对步骤2)中定义的文本识别模型，选用CTC损失函数进行训练；该损失函数的主要作用主要在于将LSTM层输出的每个时刻的字符概率进行组合，以此可以将网络的字符概率输出和图像的文本标签进行对齐，从而将网络各层结构组织起来进行训练；其中网络的概率输出有一个特殊字符类对应‘blank’，根据该类字符可以将网络的概率输出以不同的路径组合方式对齐真实文本标签；比如‘spe[blank]eed’和‘spee[blank]ed’都可以转录成‘speed’单词；因此，最终网络输出当前单词的概率，是对所有可以转化为该单词的路径概率进行求和；计算CTC损失的主要步骤详述如下：

其中s表示网络对应的输入，而w表示文本识别模型的输出序列，w_t表示时刻t对应w中第t个字符的概率；最后，对应的单词概率为所有可以转录为该单词的路径概率和，表示为以下公式：

L＝-lnpr(l|s) (3)

最后利用以上所述损失函数，每次读取batch张图片，同时将读取的图片缩放到宽度为100像素，高度为32像素的大小，对网络进行训练；

4)将以上步骤训练的模型应用到文本图像识别场景中，对文本图像的内容进行识别；对含有多行文本的图片可以选取现有文本检测模型对图像中的文本进行定位，裁剪出含有文本内容的部分图片，再使用本发明的文本识别模型对文本内容进行识别。

2.如权利要求1所述的一种基于多尺度特征提取的文本识别方法，其特征在于：还包括步骤5)检索图像，具体包括：用户通过输入单个关键词，和图像中的文本内容进行匹配；图像检索任务使用预训练的NLP模型如word2vec等词嵌入的模型，该模型提取关键词和文本单词的高维特征；采用预训练的NLP模型分别提取用户输入关键词的语义特征和图像中识别出的所有单词的语义特征，再通过相似度度量方式如余弦相似度的评估方法，计算用户输入关键词和所有图像中的文本单词的相似度平均值，该值对应关键词和图像之间的匹配程度；该相似度平均值可直接用于对图像集合中的图像进行匹配排序，选取和关键词最为接近的K张图像；也可用于和基于内容的图像检索方法进行加权结合，作为相似度匹配的其中一个因素。