CN109902622A

CN109902622A - 一种用于登机牌信息验证的文字检测识别方法

Info

Publication number: CN109902622A
Application number: CN201910143301.2A
Authority: CN
Inventors: 徐卉; 张宇; 杨雪琴; 张丽君; 周祥东; 石宇; 罗代建; 程俊
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-06-18
Anticipated expiration: 2039-02-26
Also published as: CN109902622B

Abstract

本发明涉及一种用于登机牌信息验证的文字检测识别方法，属于计算机视觉领域。该方法包括以下步骤：S1：读取登机牌图像，获取登机牌测试图像和训练图像；S2：通过基于模糊区域的多任务全卷积神经网络模型的文本行检测方法，定位到每个文本块；S3：通过基于CTC和自注意力机制的文本识别模型学习，实现文本行即定位到的文本块的识别；S4：建立登机牌常用文字库，以此学习n‑gram语言模型，辅助优化文本行识别结果。本发明采用自动检测识别登机牌文字信息，实现中英文混合的文本行识别，获得更全面的个人信息。

Description

一种用于登机牌信息验证的文字检测识别方法

技术领域

本发明属于计算机视觉领域，涉及一种用于登机牌信息验证的文字检测识别方法。

背景技术

现有的文字检测和文字识别技术在登机牌文字识别上效果不佳，由于登机牌文字排列不整齐，且会出现文本叠加的情况，目前的文字检测技术未对这种问题提出有效的解决方案。

另外，通用的文字识别算法多基于英文文字进行研究，而中文文字种类过多，在六七千类左右，现有的深度学习网络不适用于中文识别这种类别数量过多的情况。目前登机牌验证通关，是通过扫条形码的方式，条形码中只包含部分信息(如航班号、座位号、始发地、日期等)，而旅客姓名、到达地、登机时间、登机口、及其他旅客信息都没有记录。而条形码的信息存储量有限，因此通过文字识别进行登机牌信息验证非常有必要。

文本行检测是文本行识别的基础。近年来，得益于丰富的数据集和计算能力的提高，深度学习技术也取得了很大的进展。深度学习技术也被广泛运用于计算机视觉领域，文本行检测作为计算机视觉的一个子领域也取得一些进展。但是也存在许多计算机视觉领域广泛存在的问题，例如光照、形变、角度和遮挡等变化，给检测性能带来很大的影响。所以很难做出一个能适用于各个场景的检测技术，且目前的文本行检测算法无法解决这种文本叠加情况。

传统的基于文本行识别的深度学习算法，均是基于lstm(Long Short-TermMemory，长短期记忆网络)网络进行模型训练和测试，由于lstm具有较好的上下文记忆功能，在传统的英文识别领域应用广泛，但在文字类别数过大时，lstm的效率较低，而中文文字类别远远大于英文字母的类别。

发明内容

有鉴于此，本发明的目的在于提供一种用于登机牌信息验证的文字检测识别方法，通过对登机牌的文字信息进行有效的检测和识别，获得旅客相关的个人信息及乘机信息，有助于民航工作人员对旅客信息进行准确判断，在民航安保领域有很高的应用价值。

为达到上述目的，本发明提供如下技术方案：

一种用于登机牌信息验证的文字检测识别方法，具体包括以下步骤：

S1：读取登机牌图像，获取登机牌测试图像和训练图像；

S2：通过基于模糊区域的多任务全卷积神经网络模型(FCN模型)的文本行检测方法，定位到每个文本块；

S3：通过基于CTC(Connectionist Temporal Classification)和自注意力机制(self-attention)的文本识别模型学习，实现文本行即定位到的文本块的识别；

S4：建立登机牌常用文字库，以此学习n-gram语言模型，辅助优化文本行识别结果。

进一步，所述步骤S2中，所述文本行检测方法具体包括以下步骤：

S21：将登机牌图像输入到所述多任务全卷积神经网络模型中；

S22：所述多任务全卷积神经网络模型得出中文/英文/非文本预测输出、连接预测输出和模糊区域预测输出；

S23：将连接预测输出进行实例分割，输出文本定位框和中英文标记。

进一步，所述多任务全卷积神经网络模型可采用Densenet、resnet或alexnet等任意网络作为特征提取模型，其中全链接层转换为卷积层。

进一步，所述多任务全卷积神经网络模型中的输出层分为三个部分，均采用softmax层连接，具体为：

(1)中文/英文/非文本预测输出的是文本的类型，分为中文、英文或非文本三种；

(2)连接预测输出的是每一个像素与它8邻域的连接情况，以此判断是否属于同一文本框，其中每一个相邻像素给出是否为正连接，是否为正连接是二分类问题，输出维度为2*8；相邻两像素若属于同一文本类型，即为正链接，有重叠的区域另作处理；

(2)模糊区域即有重叠区域预测输出：判断文本块间是否有重叠，先将有重叠的区域与其他区域的像素定义为负连接，待实例分割后再与相邻分割区域分别合并，是否有重叠是二分类问题，输出维度为2。

进一步，所述步骤S23具体包括：通过是否为正连接来组合相同类别的像素，达到实例分割的目的，计算出包含每个分割区域且面积最小的矩形框，作为最终的检测框，检测框记录为五元向量r＝(x,y,width,height,angle)，其中(x,y)、width、height、angle分别表示矩形框的坐标、长、宽和旋转角度；并对检测框进行几何信息过滤，其中几何信息包括高度、宽度、面积和长宽比。

实例分割的过程不可避免会产生一些噪声，所以需要后处理来过滤。最直接的方法就是对对例分割过程中产生的检测框进行几何信息(高度、宽度、面积、长宽比)过滤，比如过滤掉边长小于10个像素或面积小于100个像素的检测框。

进一步，所述步骤S3中，所述的基于CTC和自注意力机制(self-attention)的文本识别模型是采用基于隐式切分(attention的实质是实现原始特征的隐式切分)的文本行识别方法，结合CTC解码，完成中英文混合的文本行识别，具体步骤为：先用卷积神经网络(CNN)提取图片的卷积特征(卷积层数不宜过多，3层以内即可，因为需要控制感受野的大小以获取更细粒度的图像信息)，将卷积特征切分为特征序列，并加入位置信息(即原始图像中每个字符所在的位置坐标)，送入attention模块，attention机制是模拟人眼的注意力机制，针对不同的位置信息及输入输出序列的相关性，计算输入特征序列每个区域分配的权重，即预测当前字符时，只需关注输入特征序列中权重较高的部分，实现序列的隐式分割；解码端使用CTC序列标注算法输出字符序列，再经过语言模型的修正，输出最后的预测文本序列。

进一步，所述卷积特征切分后的序列表示为x(x1,x2,x3,…,xn)，经过attention模块映射后的序列表示为z(z1,z2,z3,…,zn)，经过CTC序列标注算法输出的字符序列表示为y(y1,y2,…,ym)，其中，x为文本块提取的特征序列，z为经过attention模块映射后的特征序列，n为特征的维数，y为经过ctc算法解码后的输出结果序列，m为经过文字识别后得到的结果序列的字符长度，由于字符长度是可变的，所以此处m不一定等于n，由ctc算法自适应产生。

本发明的有益效果在于：

(1)与传统登机牌信息验证的区别：传统验证通过条形码扫描，信息不全；本发明采用的自动检测识别登机牌文字信息的方法可以获得更全面的个人信息。

(2)与传统基于深度学习的文本行检测的区别：本发明考虑了文本叠加对文本行检测的影响，将模糊区域的判断作为多任务文本行检测中的一个任务，能准确定位及划分开叠加在一起的文本块儿。在文本检测过程中，得到的结果若出现文本叠加情况，能进行相应的区别处理。

(3)与传统基于深度学习的文本行识别的区别：本发明加入对模糊区域的考虑，将CTC与self-attention相结合的机制应用在登机牌文本行识别领域，去除了传统文本行识别需要的LSTM(长短期记忆)网络，并且借助登机牌特定语料库建立特定的语言模型，辅助优化文本行识别结果，实现中英文混合的文本行识别。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为登机牌文本检测识别流程图；

图2为文字检测算法流程图；

图3为FCN模型结构示例图；

图4为文本块识别流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1所示，本发明所述的一种用于登机牌信息验证的文字检测识别方法，具体包括以下步骤：

S1：读取登机牌图像，获取登机牌测试图像和训练图像；

如图2所示，基于全卷积神经网络模型(FCN模型)的学习过程，通过已标记好模糊区域的图像数据进行模型训练获得，所述文本行检测方法具体包括以下步骤：

S22：所述多任务全卷积神经网络模型得出中文/英文/非文本预测输出、连接预测输出和模糊区域预测输出。如图3所示，多任务全卷积神经网络模型可采用Densenet、resnet或alexnet等任意网络作为特征提取模型，其中全链接层转换为卷积层。以Densenet网络为例，特征提取模型采用三个DenseBlock相连接，卷积层6通过上采样恢复至与卷积层4一样大小，融合后再通过上采样与卷积层3融合，如此通过多尺度特征图的融合恢复至原图大小，这种结合不同尺度特征图的跳级结构，同时确保鲁棒性和精确度。

多任务全卷积神经网络模型中的输出层分为三个部分，均采用softmax层连接，具体为：

(3)模糊区域即有重叠区域预测输出：判断文本块间是否有重叠，先将有重叠的区域与其他区域的像素定义为负连接，待实例分割后再与相邻分割区域分别合并，是否有重叠是二分类问题，输出维度为2。

S23：将连接预测输出进行实例分割，输出文本定位框和中英文标记。具体包括：通过是否为正连接来组合相同类别的像素，达到实例分割的目的，计算出包含每个分割区域且面积最小的矩形框，作为最终的检测框，检测框记录为五元向量r＝(x,y,width,height,angle)，其中(x,y)、width、height、angle分别表示矩形框的坐标、长、宽和旋转角度；并对检测框进行几何信息过滤，其中几何信息包括高度、宽度、面积和长宽比。

S3：通过基于CTC(Connectionist Temporal Classification)和自注意力机制(self-attention)的文本识别模型学习，实现文本行即定位到的文本块的识别。

如图4所示，基于CTC和自注意力机制(self-attention)的文本识别模型是采用基于隐式切分(attention的实质是实现原始特征的隐式切分)的文本行识别方法，结合CTC解码，完成中英文混合的文本行识别，具体步骤为：先用卷积神经网络(CNN)提取图片的卷积特征(卷积层数不宜过多，3层以内即可，因为需要控制感受野的大小以获取更细粒度的图像信息)，将卷积特征切分为特征序列，并加入位置信息(即原始图像中每个字符所在的位置坐标)，送入attention模块，attention机制是模拟人眼的注意力机制，针对不同的位置信息及输入输出序列的相关性，计算输入特征序列每个区域分配的权重，即预测当前字符时，只需关注输入特征序列中权重较高的部分，实现序列的隐式分割；解码端使用CTC序列标注算法输出字符序列，再经过语言模型的修正，输出最后的预测文本序列。卷积特征切分后的序列表示为x(x1,x2,x3,…,xn)，经过attention模块映射后的序列表示为z(z1,z2,z3,…,zn)，经过CTC序列标注算法输出的字符序列表示为y(y1,y2,…,ym)，其中，x为文本块提取的特征序列，z为经过attention模块映射后的特征序列，n为特征的维数，y为经过ctc算法解码后的输出结果序列，m为经过文字识别后得到的结果序列的字符长度，由于字符长度是可变的，所以此处m不一定等于n，由ctc算法自适应产生。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种用于登机牌信息验证的文字检测识别方法，其特征在于，该方法具体包括以下步骤：

S1：读取登机牌图像，获取登机牌测试图像和训练图像；

S2：通过基于模糊区域的多任务全卷积神经网络模型的文本行检测方法，定位到每个文本块；

S3：通过基于CTC和自注意力机制的文本识别模型学习，实现文本行即定位到的文本块的识别；

2.根据权利要求1所述的一种用于登机牌信息验证的文字检测识别方法，其特征在于，所述步骤S2中，所述文本行检测方法具体包括以下步骤：

3.根据权利要求2所述的一种用于登机牌信息验证的文字检测识别方法，其特征在于，所述多任务全卷积神经网络模型采用Densenet、resnet或alexnet网络等作为特征提取模型，其中全链接层转换为卷积层。

4.根据权利要求2所述的一种用于登机牌信息验证的文字检测识别方法，其特征在于，所述多任务全卷积神经网络模型中的输出层分为三个部分，均采用softmax层连接，具体为：

5.根据权利要求4所述的一种用于登机牌信息验证的文字检测识别方法，其特征在于，所述步骤S23具体包括：通过是否为正连接来组合相同类别的像素，达到实例分割的目的，计算出包含每个分割区域且面积最小的矩形框，作为最终的检测框，检测框记录为五元向量r＝(x,y,width,height,angle)，其中(x,y)、width、height、angle分别表示矩形框的坐标、长、宽和旋转角度；并对检测框进行几何信息过滤，其中几何信息包括高度、宽度、面积和长宽比。

6.根据权利要求1所述的一种用于登机牌信息验证的文字检测识别方法，其特征在于，所述步骤S3中，所述的基于CTC和自注意力机制的文本识别模型是采用基于隐式切分的文本行识别方法，结合CTC解码，完成中英文混合的文本行识别，具体步骤为：先用卷积神经网络提取图片的卷积特征，将卷积特征切分为特征序列，并加入位置信息，送入attention模块，计算输入特征序列每个区域分配的权重，即预测当前字符时，只需关注输入特征序列中权重较高的部分，实现序列的隐式分割；解码端使用CTC序列标注算法输出字符序列，再经过语言模型的修正，输出最后的预测文本序列。

7.根据权利要求6所述的一种用于登机牌信息验证的文字检测识别方法，其特征在于，所述卷积特征切分后的序列表示为x(x1,x2,x3,…,xn)，经过attention模块映射后的序列表示为z(z1,z2,z3,…,zn)，经过CTC序列标注算法输出的字符序列表示为y(y1,y2,…,ym)，其中，x为文本块提取的特征序列，z为经过attention模块映射后的特征序列，n为特征的维数，y为经过ctc算法解码后的输出结果序列，m为经过文字识别后得到的结果序列的字符长度。