CN111931778B

CN111931778B - 一种基于行列切分的印刷体字符的识别方法

Info

Publication number: CN111931778B
Application number: CN202010705900.1A
Authority: CN
Inventors: 胡焱; 赵亚欧; 郭继东; 牛鹏
Original assignee: Jinan Langchao Jindi Information Technology Co ltd; Inspur Financial Information Technology Co Ltd
Current assignee: Jinan Langchao Jindi Information Technology Co ltd; Inspur Financial Information Technology Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-08-09
Anticipated expiration: 2040-07-21
Also published as: CN111931778A

Abstract

本发明公开了一种基于行列切分的印刷体字符的识别方法，对于图像进行列切分，对于列切分后的切片，再次进行行切分；将行列切分后的图像切片送入卷积神经网络，进行特征提取，得到切片对应的特征向量；对于空白切片，则在识别过程中，忽略这部分空白切片；对于存在文字部分的切片，使用循环神经网络模型学习这些切片的前后关联关系，经过softmax激励得到每列切片对应文字的预测概率，利用CTC算法处理每列切片的文字预测概率，进而确定所识别的文字。通过上述方式，本发明能够同时利用行、列两个维度的信息，所获得的文字特征更加丰富，识别率高。

Description

一种基于行列切分的印刷体字符的识别方法

技术领域

本发明涉及字符识别技术领域，特别是涉及一种基于行列切分的印刷体字符的识别方法。

背景技术

字符识别能够自动识别和提取图片中的文字，已广泛应用于纸质文件的电子化归档、不含芯片的证照信息读取等领域。当前，该领域的主流技术是深度学习技术，识别流程为：首先按行提取图片中的文字，然后按列对整行文字进行切分，最后将每一个切片送入深度学习模型识别并输出结果。

然而，传统方法对提取后的文字区域只进行列切分，即将一行文字划分为多个列切片，这种方法仅适用于文字大小相同，且处于同一水平线上的情况。对于艺术字体，处于同一行的文字大小不尽相同，如果按最大文字高度进行列切分，则较小的文字占整个切片区域的比例较小，影响后续的识别。此外，由于广告文字排版的随意性，即使是同样大小的文字，也可能倾斜或者旋转排列，如果仅进行列切分，文字在不同切片中的位置是变化的，也会影响后续的识别。

发明内容

本发明主要解决的技术问题是提供一种基于行列切分的印刷体字符的识别方法，能够在列切分的基础上进行行切分，可同时利用行、列两个维度的信息，所获得的文字特征更加丰富，后续识别率更高。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于行列切分的印刷体字符的识别方法，包括：对于图像进行列切分，对于列切分后的切片，再次进行行切分；将行列切分后的图像切片送入卷积神经网络，进行特征提取，得到切片对应的特征向量；对于空白切片，则在识别过程中，忽略这部分空白切片；对于存在文字部分的切片，使用循环神经网络模型学习这些切片的前后关联关系，经过softmax激励得到每列切片对应文字的预测概率，利用CTC算法处理每列切片的文字预测概率，进而确定所识别的文字。

一种基于行列切分的印刷体字符的识别方法，具体包括以下步骤：

步骤一、利用行文本检测算法，检测并裁剪图片中的行文本区域；

步骤二、对于每一个行文本区域，以固定宽度按列进行切分，形成列切片；

步骤三、对于每一个列切片，以固定高度按行进行二次切分，形成行切片；

步骤四、将按行列切分后的每一个的图像切片送入卷积神经网络，进行特征提取，得到切片对应的特征向量；

步骤五、从第一个列切片开始，将其包含的每一个行切片的特征向量送入循环神经网络，然后取循环神经网络的最后一个输出作为当前状态计算下一列；同时，该输出经过softmax激励，得到该列切片对应文字的预测概率；重复该过程，直到最后一个列切片计算完成为止；

步骤六、利用CTC算法处理每个列切片的文字预测概率，得到最终的文字识别结果。

进一步，所述步骤一中行文本检测算法包括CPTN、Yolo、PixelLink。

进一步，所述步骤二中列切分宽度为4个像素，所述步骤三中行切分高度为4个像素。

本发明的有益效果是：本发明可有效解决文字大小不均、非水平排列的情况下识别率低的问题。本发明在列切分的基础上进行行切分，可同时利用行、列两个维度的信息，与单纯使用列切分方法相比，所获得的文字特征更加丰富，后续识别率更高。

附图说明

图1是本发明一种基于行列切分的印刷体字符的识别方法一较佳实施例的行列切分示意图；

图2是所示一种基于行列切分的印刷体字符的识别方法的算法模型框架图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1和图2，本发明实施例包括：

对于列切分后的切片，再次进行行切分。这样，如果文字大小不一，如图1所示，则含有小文字的列切片由于进行了行切分，其中的空白部分(不含文字的背景区域)被划分到了单独的切片中，在识别过程中，模型会忽略这部分切片，将注意力集中到含有文字的切片中，从而避免了小文字在切片中占比过低，难以识别的问题。

此外，对于倾斜或者旋转排列的文字，如图1所示，如果在列切分的基础上进行行切分，虽然文字的不同部分仍然处在不同行切片中，但行切片之间的前后关联关系是固定的，使用循环神经网络模型(RNN)可以很容易的学到这种关联关系，进而确定所识别的文字。

一种基于行列切分的印刷体字符的识别方法，包括以下步骤：

S1，输入待识别的图像，利用行文本检测算法，检测并提取图片中的行文本区域；具体实践中，可使用但不限于CPTN(Connectionist Text Proposal Network)、Yolo、PixelLink等行文本检测算法。

S2，对于提取出的每一个行文本区域，以固定的宽度进行列切分，生成列切片，列宽度一般为4个像素。

S3，对于每一个列切片，以固定宽度进行行切分，生成行切片，行高度一般为4个像素。

S4，对行列切分后得到的大小为4*4的切片，输入卷积神经网络(CNN)提取特征，获得该切片的特征向量。具体实施时，卷积神经网络采用4层结构，其中包括2个卷积层和2个池化层，卷积层卷积核大小为3*3，步长为1，池化层采用最大值池化，步长为2。

S5，从第一个列切片开始，将该列包含的每一个行切片的特征向量依次输入循环神经网络(RNN)，然后取RNN最后一个节点的输出作为下一列RNN的初始状态，同时该输出经softmax激励，得到该列切片对应文字的预测概率。重复该过程，直到最后一个列切片计算完成为止，见图2，具体实施时，RNN一般采用双向LSTM网络，从两个方向分别进行计算。

S6，使用CTC算法(Connectionist Temporal Classification)，将列切片的输出概率转换为具体的识别输出，算法结束。

印刷体字符识别是证照阅读机、高拍仪的核心技术之一，传统方法采用行切分的方式进行，但对某些非水平排版、大小不一的文本识别准确率较低，本发明能为证照阅读机、高拍仪提供支持，填补这一领域的空白。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于行列切分的印刷体字符的识别方法，其特征在于，包括：对于图像进行列切分，对于列切分后的切片，再次进行行切分；将行列切分后的图像切片送入卷积神经网络，进行特征提取，得到切片对应的特征向量；对于空白切片，则在识别过程中，忽略这部分空白切片；对于存在文字部分的切片，使用循环神经网络模型学习这些切片的前后关联关系，经过softmax激励得到每列切片对应文字的预测概率，利用CTC算法处理每列切片的文字预测概率，进而确定所识别的文字；

具体包括以下步骤：

步骤五、从第一个列切片开始，将其包含的每一个行切片的特征向量送入循环神经网络，然后取循环神经网络的最后一个输出作为当前状态计算下一列；同时，该输出经过softmax激励，得到该列切片对应文字的预测概率；重复步骤五，直到最后一个列切片计算完成为止；

2.根据权利要求1所述的一种基于行列切分的印刷体字符的识别方法，其特征在于：所述步骤一中行文本检测算法包括CPTN、Yolo、PixelLink。

3.根据权利要求1所述的一种基于行列切分的印刷体字符的识别方法，其特征在于：所述步骤二中列切分宽度为4个像素，所述步骤三中行切分高度为4个像素。