CN110363199A

CN110363199A - 基于深度学习的证件图像文本识别方法及系统

Info

Publication number: CN110363199A
Application number: CN201910640001.5A
Authority: CN
Inventors: 尹青山; 李锐; 于治楼; 王相成; 宗云兵
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-10-22

Abstract

本发明公开了一种基于深度学习的证件图像文本识别方法及系统，属于证件图像识别领域，要解决的技术问题为如何实现自然场景下证件图像中文本的有效识别。方法包括如下步骤：对证件图像进行预处理以除噪声，得到预处理后图像；基于CTPN算法对预处理后图像进行文本检测，得到证件图像的文本区域；通过图像位置模板对证件图像的文本区域进行筛选，得到证件图像的目标文本区域；以证件图像的目标文本区域为输入，通过TensorFlow Slim算法对文字识别模型进行训练，得到训练后文字识别模型；通过训练后文字识别模型对待识别字体进行识别。系统包括预处理模块、文本检测模块、文本区域模块、模型训练模块和测试模块。

Description

基于深度学习的证件图像文本识别方法及系统

技术领域

本发明涉及证件图像识别领域，具体地说是一种基于深度学习的证件图像文本识别方法及系统。

背景技术

随着人工智能的兴起，图像识别技术逐步应用于安全、军事、医疗、智能交通等领域，人脸识别和指纹识别等技术越来越多的使用到公共安全、金融和航空航天等安全领域。在军事领域，图像识别主要应用于目标的侦查和识别，通过自动化的图像识别技术来进行敌方目标的识别并进行打击；在医疗领域，通过图像识别技术可以进行各类医学图像分析和诊断，一方面可以大大降低医疗的成本，另一方面也有助于提高医疗质量和效率；在交通领域不仅可以进行车牌识别，同时也可以应用到前沿的自动驾驶领域，实现对道路、车辆和行人的清晰识别，提高生活的便利并且降低人们出行成本。

传统的证件图像光学识别(OCR)技术主要面向高清扫描的图像，该方法要求识别的图像拥有干净的背景、使用规范的印刷体并具有较高的分辨率。但是，自然场景中存在文本背景噪声大、文本分布不规范和自然光源影响等问题，OCR技术在实际自然场景中检测率并不理想。

如何实现自然场景下证件图像中文本的有效识别，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种基于深度学习的证件图像文本识别方法及系统，来解决如何实现自然场景下证件图像中文本的有效识别的问题。

第一方面，本发明提供一种基于深度学习的证件图像文本识别方法，包括如下步骤：

对证件图像进行预处理以除噪声，得到预处理后图像；

基于CTPN算法对预处理后图像进行文本检测，得到证件图像的文本区域；

证件图像中字体相对位置固定，基于上述原则制作图像位置模板，并通过图像位置模板对证件图像的文本区域进行筛选，得到证件图像的目标文本区域；

基于汉字的类别重建VGG16模型得到文字识别模型，以证件图像的目标文本区域为输入，通过TensorFlow Slim算法对文字识别模型进行训练，得到训练后文字识别模型；

通过训练后文字识别模型对待识别字体进行识别。

本实施方式中，通过CTPN算法对预处理后证件图像文本区域进行初步检测，并通过文本构造算法得到证件图像的文本区域，以微调后的VGG16模型作为文本识别模块，以筛选后证件图像的文本区域为输入，对文本识别模型进行训练，得到训练后文本识别模型，通过该训练后文本识别模型可对后续证件图像进行文本识别。

TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统，被广泛应用于各类机器学习(machine learning)算法的编程实现，其前身是谷歌的神经网络算法库DistBelief。

TensorFlow Slim是Tensorflow中一个轻量级的库，用于定义、训练和评估复杂的模型。TF-Slim中的组件可以与Tensorflow中原生的函数一起使用，与其他的框架，比如与tf.contrib.learn也可以一起使用。

作为优选，对证件图像进行预处理以去除噪声包括：

对证件图像进行傅里叶变换，得到证件图像的空间频域。

在图像的空间频域，图像的颜色特征比较突出，容易处理噪声。本实施例中通过傅里叶变换将证件图像变换为图像的空间频域，方便后续证件图像的形态学处理。

更优的，对证件图像进行预处理以去除噪声还包括：

通过对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正。

由于拍照环境不同，证件图像中字体颜色和大小等相差很大，或者因拍照角度证件图像可能扭曲，需要将证件图像中待识别的文本进行校正，使得文本的颜色和大小达到统一。

作为优选，基于CTPN算法对预处理后图像进行文本检测，包括如下步骤：

通过VGG16的前5个卷积层提取证件图像的特征图，所述特征图大小为W*H*C，W*H表示空间排列，C表示通道数；

通过大小为3*3*C的滑动窗口在特征图上进行密集滑动，每次滑动得到大小为3*3*C的特征向量；

将上述特征向量组成序列作为双向LSTM的输入，得到W*256的输出；

将W*256的输出作为512维全连接层的输入，并通过softmax归一化指数函数得到输出结果，输出结果包括三种结果，分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息，选择框的类别信息用于判断其是否为字符；

得到密集预测的文本候选区，每个文本候选区呈细长矩形框；

基于文本构造方法，将上述文本合并成文本的序列框。

LSTM(英文全称为Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

作为优选，证件图像中字体相对位置固定，包括：

文字以及数字数据在证件图像中均配置有固定的位置坐标范围，文字以及数字数据包括但不限于身份证图像中的姓名、性别以及住址；

图像数据中显示内容的字体相对位置固定，图像数据包括但不限于火车票和发票中的图像数据。

作为优选，基于汉字的类别重建VGG16模型得到文字识别模型，包括如下步骤：

去除VGG16模型中的fc8层；

以汉字的类别作为VGG16模型中的fc8的类别。

第二方面，本发明提供一种基于深度学习的证件图像文本识别系统，包括：

预处理模块，所述预处理模块用于对证件图像进行预处理以除噪声，并输出预处理后图像；

文本检测模块，所述文本检测模块用于基于CTPN算法对预处理后图像进行文本检测，并输出证件图像的文本区域；

文本区域模块，所述文本区域模块用于基于证件图像中字体相对位置固定的原则制作图像位置模板，并通过图像位置模板对证件图像的文本区域进行筛选，并输出证件图像的目标文本区域；

模型训练模块，所述模型训练模块用于基于汉字的类别重建VGG16模型得到文字识别模型，以证件图像的目标文本区域为输入，通过TensorFlow Slim算法对文字识别模型进行训练，并输出训练后文字识别模型；

测试模块，所述测试模块用于训练后文字识别模型对待识别字体进行识别。

作为优选，预处理模块包括：

空间频域提取子模块，所述空间频域提取子模块用于对对证件图像进行傅里叶变换，得到证件图像的空间频域；

文本矫正子模块，所述文本矫正子模块用于对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正。

作为优选，文本检测模块用于通过如下步骤对预处理后图像进行文本检测，并输出证件图像的文本区域：

基于文本构造方法，将上述文本合并成文本的序列框。

本发明的一种基于深度学习的证件图像文本识别系统具有以下优点：基于CTPN算法对预处理后图像进行文本检测，得到证件图像的文本区域，并通过制作的图像位置模板对文本区域进行筛选，得到目标文本区域，以目标文本区域为输入，通过TensorFlow Slim算法对重建后的文字识别模型进行训练，得到训练后文字识别模型，通过训练后文字识别模型可对证件图像进行文字识别，实现了自然场景下证件图像的文字的有效准确识别，不受限于拍照环境和拍照角度的影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

附图1为实施例1基于深度学习的证件图像文本识别方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供一种基于深度学习的证件图像文本识别方法及系统，用于解决如何实现自然场景下证件图像中文本的有效识别的技术问题。

实施例1：

本发明的一种基于深度学习的证件图像文本识别方法，包括如下步骤：

S100、对证件图像进行预处理以除噪声，得到预处理后图像；

S200、基于CTPN算法对预处理后图像进行文本检测，得到证件图像的文本区域；

S300、证件图像中字体相对位置固定，基于上述原则制作图像位置模板，并通过图像位置模板对证件图像的文本区域进行筛选，得到证件图像的目标文本区域；

S400、基于汉字的类别重建VGG16模型得到文字识别模型，以证件图像的目标文本区域为输入，通过TensorFlow Slim算法对文字识别模型进行训练，得到训练后文字识别模型；

S500、通过训练后文字识别模型对待识别字体进行识别。

其中，本实施例步骤S100中对证件图像进行预处理以去除噪声，包括如下步骤：

S110、对证件图像进行傅里叶变换，得到证件图像的空间频域，在图像的空间频域，图像的颜色特征比较突出，容易处理噪声，可方便后续证件图像的形态学处理；

S120、由于拍照环境不同或者因拍照角度使得证件图像扭曲，证件图像中字体颜色和大小等相差很大，针对是上述问题，通过对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正，使得文本的颜色和大小达到统一。

步骤S200中基于CTPN算法对预处理后图像进行文本检测，得到证件图像的文本区域，包括如下步骤：

S210、通过VGG16的前5个卷积层提取证件图像的特征图，特征图大小为W*H*C，W*H表示空间排列，C表示通道数；

S220、通过大小为3*3*C的滑动窗口在特征图上进行密集滑动，每次滑动得到大小为3*3*C的特征向量，3*3表示长宽的像素大小，C表示通道数量，提取的特征向量用于预测该位置候选区域对应的类别信息和位置信息；

S230、将上述特征向量组成序列作为双向LSTM的输入，得到W*256的输出；

S240、将W*256的输出作为512维全连接层的输入，并通过softmax归一化指数函数得到输出结果，输出结果包括三种结果，分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息，选择框的类别信息用于判断其是否为字符；

S250、得到密集预测的文本候选区，每个文本候选区呈细长矩形框；

S260、基于文本构造方法，将上述文本合并成文本的序列框，得到证件图像的文本区域。

步骤S300中，证件图像中字体相对位置固定，包括：文字以及数字数据在证件图像中均配置有固定的位置坐标范围，以及图像数据在证件图像中显示内容的字体相对位置固定。

其中，文字以及数字数据包括但不限于身份证图像中的姓名、性别以及住址，比如身份证的姓名、性别、身份证号、住址等在身份证图像中都有固定的位置坐标范围；图像数据包括但不限于火车票和发票中的图像数据，火车票、发票等图像数据，显示内容的字体相对位置都是固定的。

步骤S400中，去除VGG16模型中的fc8层，以汉字的类别作为VGG16模型中的fc8的类别，该微调后的VGG16模型作为文字识别模型。

步骤S500中，对待识别文字进行识别时，需要按照步骤S100对将待识别的证件图像进行预处理，将预处理后的待识别的证件图像输入训练后文字识别模型，从而执行后续文字识别。

本发明的基于深度学习的证件图像文本识别方法，构建并训练文字识别模型得到训练后文字识别模型，通过该文字识别模型对后续的文字进行识别，可对自然场景下证件图像中文字进行有效识别，克服了拍照环境以及拍照角度不同带来的影响。

实施例2：

本发明的基于深度学习的证件图像文本识别系统，包括预处理模块、文本检测模块、文本区域模块、模型训练模块和测试模块，预处理模块用于获取证件图像并证件图像进行预处理，输出预处理后图像；文本检测模块用于基于CTPN算法对预处理后图像进行文本检测，并输出证件图像的文本区域；文本区域模块用于基于证件图像中字体相对位置固定的原则制作图像位置模板，并通过图像位置模板对证件图像的文本区域进行筛选，并输出证件图像的目标文本区域；模型训练模块用于基于汉字的类别重建VGG16模型得到文字识别模型，以证件图像的目标文本区域为输入，通过TensorFlow Slim算法对文字识别模型进行训练，并输出训练后文字识别模型；测试模块用于训练后文字识别模型对待识别字体进行识别。

其中，预处理模块包括空间频域提取子模块和文本矫正子模块，空间频域提取子模块用于对对证件图像进行傅里叶变换，得到证件图像的空间频域；文本矫正子模块用于对证件图像中待识别文本进行校正，包括对待识别文本进行文字大小矫正以及文字颜色矫正。

在图像的空间频域，图像的颜色特征比较突出，容易处理噪声，通过空间频域提取子模块将证件图像变换为图像的空间频域，方便后续证件图像的形态学处理。由于拍照环境不同，证件图像中字体颜色和大小等相差很大，或者因拍照角度证件图像可能扭曲，通过文本矫正子模块将证件图像中待识别的文本进行校正，使得文本的颜色和大小达到统一。

文本检测模块通过如下步骤对预处理后图像进行文本检测，并输出证件图像的文本区域：

(1)通过VGG16的前5个卷积层提取证件图像的特征图，所述特征图大小为W*H*C，W*H表示空间排列，C表示通道数；

(2)通过大小为3*3*C的滑动窗口在特征图上进行密集滑动，每次滑动得到大小为3*3*C的特征向量；

(3)将上述特征向量组成序列作为双向LSTM的输入，得到W*256的输出；

(4)将W*256的输出作为512维全连接层的输入，并通过softmax归一化指数函数得到输出结果，输出结果包括三种结果，分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息，选择框的类别信息用于判断其是否为字符；

(5)得到密集预测的文本候选区，每个文本候选区呈细长矩形框；

(6)基于文本构造方法，将上述文本合并成文本的序列框。

本发明的基于深度学习的证件图像文本识别系统可执行实施例1公开的基于深度学习的证件图像文本识别方法。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.基于深度学习的证件图像文本识别方法，其特征在于包括如下步骤：

对证件图像进行预处理以除噪声，得到预处理后图像；

通过训练后文字识别模型对待识别字体进行识别。

2.根据权利要求1所述的基于深度学习的证件图像文本识别方法，其特征在于对证件图像进行预处理以去除噪声包括：

对证件图像进行傅里叶变换，得到证件图像的空间频域。

3.根据权利要求2所述的基于深度学习的证件图像文本识别方法，其特征在于对证件图像进行预处理以去除噪声还包括：

4.根据权利要求1、2或3所述的基于深度学习的证件图像文本识别方法，其特征在于基于CTPN算法对预处理后图像进行文本检测，包括如下步骤：

基于文本构造方法，将上述文本合并成文本的序列框。

5.根据权利要求1所述的基于深度学习的证件图像文本识别方法，其特征在于证件图像中字体相对位置固定，包括：

6.根据权利要求1所述的基于深度学习的证件图像文本识别方法，其特征在于基于汉字的类别重建VGG16模型得到文字识别模型，包括如下步骤：

去除VGG16模型中的fc8层；

以汉字的类别作为VGG16模型中的fc8的类别。

7.基于深度学习的证件图像文本识别系统，其特征在于包括：

8.根据权利要求7所述的基于深度学习的证件图像文本识别系统，其特征在于预处理模块包括：

9.根据权利要求7所述的基于深度学习的证件图像文本识别系统，其特征在于文本检测模块用于通过如下步骤对预处理后图像进行文本检测，并输出证件图像的文本区域：

基于文本构造方法，将上述文本合并成文本的序列框。