CN112906693B

CN112906693B - 一种上下标字符识别的方法

Info

Publication number: CN112906693B
Application number: CN202110246338.5A
Authority: CN
Inventors: 杨红飞; 韩瑞峰
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-06-24
Anticipated expiration: 2041-03-05
Also published as: CN112906693A

Abstract

本发明公开了一种上下标字符识别的方法，首先获取字体文件，用字体文件产生标注样本作为训练数据。图像的标签为从字符集中随机选取的一行字符，分别定义字符上标和下标类别。其次采用CRNN模型作为序列标注模型，CRNN模型的输入为随机选择的包含上下标的一行字符的图片，输出针对每个字符包含了字符、上标和下标类别3个输出值。然后调整优化模型。最后用调整优化后的模型对包含上下标的一行字符的图片进行识别，并对其中识别出的上下标字符进行对应的转义，并在能展示富文本的文件中写成上下标。本发明能够识别上下标从而为对文本的含义进行准确的提取而服务，解决了现有技术中的文本识别方法都没有包含对上下标的区分的问题。

Description

一种上下标字符识别的方法

技术领域

本发明涉及字符识别领域，尤其涉及一种上下标字符识别的方法。

背景技术

在对扫描图片中的文字进行识别时，需要识别上下标以对文本的含义进行准确的提取，对于上下标的识别，目前存在的文本识别方法基本都没有包含对上下标的区分，且没有成熟的解决方案。本发明介绍了一种包含了上下标识别的文本识别方法。

发明内容

本发明目的在于针对现有技术的不足，提出一种上下标字符识别的方法，本发明实现了一种基于CRNN模型的上下标字符识别方法，用于在识别包含一行字符的图片中的字符时，字符中包含上下标的场景。

本发明的目的是通过以下技术方案来实现的：一种上下标字符识别的方法，包括如下步骤：

(1)训练数据的产生

获取字体文件，用字体文件产生标注样本作为训练数据。具体为：随机选取一种字体及字体尺寸，在一张空白图像上用选取的字体写字，所写的字从包含使用场景中的全部字符集中随机选取，图像为能容纳一行字符的长条形，其宽度为固定大小，长度为随机。图像的标签即从字符集中随机选取的一行字符，对于每个字符，分别定义其上标和下标类别。

(2)序列标注模型的定义和训练

采用CRNN模型作为序列标注模型，CRNN模型的输入为随机选择的包含上下标的一行字符的图片，输出针对每个字符包含了字符、上标和下标类别3个输出值；将样本的标签按照在整个字符集中的序号进行数字化表示；得到每个样本的标签后，用步骤(1)随机产生样本的方式，产生每批样本，对CRNN模型进行训练。

(3)用真实样本对模型调整

选取一部分真实场景的图像进行标注，标签格式与步骤(1)生成样本一致。对步骤(2)训练好的模型在真实样本上继续训练进而调整优化模型。

(4)上下标字符识别

用步骤(3)调整优化后的模型对包含上下标的一行字符的图片进行识别，并对其中识别出的上下标字符进行对应的转义，并在能展示富文本的文件中写成上下标。

进一步地，步骤(1)中上标字符在图片中的底线为正常字符高度的上1/2到上1/3，下标字符在图片中的底线为正常字符高度的下1/2到下1/3。

进一步地，将样本的标签按照在整个字符集中的序号进行数字化表示时，对上下标进行转义处理，空格定义为第0个字符。空格字符算一个字符，即对应位置上没有任何字符。

本发明的有益效果：本发明提供了一种包含了上下标识别的文本识别方法，能够识别上下标从而为对文本的含义进行准确的提取而服务，解决了现有技术中的文本识别方法都没有包含对上下标的区分的问题。

附图说明

图1为本发明方法流程图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

本发明针对印刷体文档扫描图片中文字的识别，手写体的识别是类似的。文字识别一般包含文字行检测和文字行识别，本发明是对文字行识别的方法。

如图1所示，本发明提供的一种上下标字符识别的方法，包括如下步骤：

(1)训练数据的产生

为了模型能够对尽可能多的字体进行准确识别，搜集常用字体文件，为了生成的训练数据包含尽可能多的模式，采用在线样本生成的方式，用字体文件产生大量的标注样本作为训练数据。具体为：随机选取一种字体及字体尺寸，在一张空白图像上用选取的字体写字，所写的字从包含使用场景中的全部字符集中随机选取，图像为能容纳一行字符的长条形，其宽度为固定大小(如64像素)，长度为随机，如从[64,512]的范围中随机取值。图像的标签即从字符集中随机选取的一行字符，对于每个字符，分别定义其上标和下标类别；如对于字符A，定义A、上标A、下标A为3个不同类型的字符，在模型的输出中为3个不同的类别。对样本的标签中上下标字符如下标记，例如对于字符A，<superscript>A</superscript>表示上标，下标字符记为<subscript>A</subscript>。上标字符在图片中的底线比正常字符高，例如设定为正常字符高度的上1/2到上1/3；下标字符在图片中的底线为正常字符高度的下1/2到下1/3。

(2)序列标注模型的定义和训练

采用CRNN模型作为序列标注模型，CNN模型上叠加RNN模型(如lstm)的基本结构，即CNN的输出作为RNN的输入，具体的，将包含一行文本的图像用CNN提取特征，得到预设固定长度的特征向量，将特征向量作为RNN的输入，再由RNN输出每个位置的字符。与普通的CRNN字符识别模型不同之处在于，CRNN模型的输入为随机选择的包含上下标的一行字符的图片，输出针对每个字符包含了字符、上标和下标类别3个输出值；如使用场景中包含26个字符，模型的输出为78(空格字符算其中的一个字符，即对应位置上没有任何字符)。将样本的标签按照在整个字符集中的序号进行数字化表示；得到每个样本的标签后，用步骤(1)随机产生样本的方式，产生每批样本，对CRNN模型进行训练。如A在整个字符集中占第2位，则用2表示，上标A在整个字符集中占28位，则用28表示，空格定义为第0个字符。转化时对上述上下标进行转义处理。

(3)用真实样本对模型调整

(4)上下标字符识别

用步骤(3)调整优化后的模型对包含上下标的一行字符的图片进行识别，并对其中识别出的上下标字符进行对应的转义，并在能展示富文本的文件中写成上下标。如上例中将识别出的28转写为<superscript>A</superscript>，并在能展示富文本的文件中将其写成上标。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种上下标字符识别的方法，其特征在于，包括如下步骤：

(1)训练数据的产生

获取字体文件，用字体文件产生标注样本作为训练数据；具体为：随机选取一种字体及字体尺寸，在一张空白图像上用选取的字体写字，所写的字从包含使用场景中的全部字符集中随机选取，图像为能容纳一行字符的长条形，其宽度为固定大小，长度为随机；图像的标签即从字符集中随机选取的一行字符，对于每个字符，分别定义其上标和下标类别；

(2)序列标注模型的定义和训练

采用CRNN模型作为序列标注模型，CRNN模型的输入为随机选择的包含上下标的一行字符的图片，输出针对每个字符包含了字符、上标和下标类别3个输出值；将样本的标签按照在整个字符集中的序号进行数字化表示；得到每个样本的标签后，用步骤(1)随机产生样本的方式，产生每批样本，对CRNN模型进行训练；

(3)用真实样本对模型调整

选取一部分真实场景的图像进行标注，标签格式与步骤(1)生成样本一致；对步骤(2)训练好的模型在真实样本上继续训练进而调整优化模型；

(4)上下标字符识别

2.根据权利要求1所述的一种上下标字符识别的方法，其特征在于，步骤(1)中上标字符在图片中的底线为正常字符高度的上1/2到上1/3，下标字符在图片中的顶部位置为正常字符高度的下1/2到下1/3。

3.根据权利要求1所述的一种上下标字符识别的方法，其特征在于，将样本的标签按照在整个字符集中的序号进行数字化表示时，对上下标进行转义处理，空格定义为第0个字符；空格字符算一个字符，即对应位置上没有任何字符。