CN114373178A

CN114373178A - 一种图片文字检测与识别方法及系统

Info

Publication number: CN114373178A
Application number: CN202111607416.6A
Authority: CN
Inventors: 张宏莉; 韩培义; 叶麟; 余翔湛; 李东; 于海宁; 方滨兴; 叶羽萍
Original assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-19

Abstract

本发明公开了一种图片文字检测与识别方法及系统，该方法包括：采集图片训练模型的数据集；将待识别图片进行预处理去除噪声，输入至第一CNN模型提取图片特征；使用RPN网络处理第一CNN模型提取的最后一层特征图，生成K个文本框；将K个文本框输入到第一双向LSTM网络，同时将第一双向LSTM网络的输出与全连接层连接进行特征融合，预测每个文本预测框的分类和位置回归，得到文本区域；将文本区域输入至第二CNN模型提取图片特征，输出特征中间向量，之后连接到第二双向LSTM网络生成的中间状态，再输入到注意力模型，最后通过一层LSTM解码器网络得到最终输出文字。本发明能够提升了对图片文字的检测效果，同时能够识别背景复杂的图片文字。

Description

一种图片文字检测与识别方法及系统

技术领域

本发明涉及图像文本检测识别技术领域，尤其涉及一种图片文字检测与识别方法及系统。

背景技术

传统的文本检测方法主要通过纹理、基于区域等提取特征的方法从图片中分离文本数据，这种传统的方法需要大量的文本检测和识别区域，并只适用于文本排列规则，背景单调等较为简单的图像文件。

随看深度学习的快速发展，深度学习被广泛应用在文本检测领域。将卷积神经网络(Convolutional Neural Network，CNN)作为检测器进行文本区域预测，比传统方法的检测精确度有所提升，但是由于特征提取采用的是传统图像处理方法使得图像特征提取能力较弱，文本检测效果较差。

传统的文字识别方法往往通过图片预处理去除图片干扰并对文字进行字符分割，采用主成分分析算法提取文字特征，再利用常见的支持向量机、隐马尔科夫模型、K近邻等分类器进行文字分类。然而，该方法采用手动提取特征的方式难以获取丰富的图片特征，使得无法应对字体变化多样、背景复杂多变等场景的文字识别。而使用DCNN实现对单个字符的检测与识别，需要裁剪图像中的每个字符，这样会使得裁剪积累误差引起较大的识别误差。如果将RNN应用到手写文字识别中，然而仅支持背景简单的图片。

发明内容

鉴于背景技术中存在的问题，本发明的目的在于提供一种图片文字检测与识别方法及系统，能够很好的提升图片文本的检测效果，同时能够识别背景复杂的图片文字。

为了实现上述目的，本发明采用以下技术方案:

第一方面，本发明公开了一种图片文字检测与识别方法，包括：

步骤1、采集图片训练模型的数据集；

步骤2、将待识别图片进行预处理去除噪声；

步骤3、将经过预处理的所述识别图片输入至第一CNN模型提取图片特征；

步骤4、使用RPN网络处理所述第一CNN模型提取的最后一层特征图，在所述最后一层特征图生成中心点大小不等的K个文本框；

步骤5、将K个所述文本框输入到第一双向LSTM网络，同时将所述第一双向LSTM网络的输出与全连接层连接进行特征融合，预测每个所述文本预测框的分类和位置回归，得到文本区域；

步骤6、将所述文本区域输入至第二CNN模型提取图片特征，输出特征中间向量，之后连接到第二双向LSTM网络生成的中间状态，再输入到注意力模型，最后通过一层LSTM解码器网络得到最终输出文字。

本发明的有益效果如下：首先，本发明通过将待识别图片进行预处理，去除待识别图片的噪声，进而减少了噪声对后续图片文本的检测与识别的影响；其次，通过RPN网络对第一CNN模型的最后一层特征图的处理，在最后一层特征图生成中心点大小不等的K个文本框，一次性回归整个文本所在位置，能够避免检测一些类似文字的噪声；再次，通过加入第一双向LSTM网络将K个文本框按序列连接构成一个完整的文本区域，从而能够提高后续图片识别的识别率；最后，将文本区域的图片传输至第二CNN模型提取图片特征，输出特征中间向量，之后连接到第二双向LSTM网络生成的中间状态，再输入到注意力模型，通过加入注意力机制有效解决固定长度向量限制问题，提升图片文本识别准确率，最后通过一层LSTM解码器网络得到最终输出文字，不需要对一行文本拆分成单字，而是直接识别整个文本区域。

具体的，在所述步骤1中包括：

步骤1-1、在互联网上获取包含文字的图片用作图片文本数据集；

步骤1-2、对部分所述图片的类别进行人工标注；

步骤1-3、所述图片文本数据集分为训练集和测试集，所述训练集与所述测试集用于训练与验证。

具体的，在所述步骤1-3中，所述训练集包括包含文字的所述图片与部分进行人工标注的所述图片，所述测试集包括剩余的进行人工标注的所述图片。

具体的，在所述步骤2中，将所述待识别图片进行预处理去除噪声包括：将所述待识别图片进行中值滤波。

具体的，在所述步骤2中，将所述待识别图片进行预处理去除噪声还包括：对所述待识别图片进行旋转变换、放大变换、缩小变换、倾斜变换、镜像变换、仿射变换、透视变换以及色彩变换。

具体的，在所述步骤5中，所述文本预测框的分类包括文本区域与非文本区域。

具体的，在所述步骤5中，使用分类损失函数来预测所述文本预测框是否为所述文本区域，计算公式如下：

L₁(s_i,g(i))＝-log(s_ig(i)+(1-s_i)(1-g(i)))

其中，L₁(s_i,g(i))为所述分类损失函数，s_i为第i个所述文本预测框的概率，g(i)为第i个文本标注框，g(i)＝1表示所述文本预测框为所述文本区域，g(i)＝0表示该框为所述非文本区域。

具体的，在所述步骤5中，使用回归损失函数来预测所述文本预测框的位置，计算公式如下：

其中，L₂(y,f(j))为回归损失函数，y为预测第j个所述文本预测框的真实值，f(j)表示第j个所述文本框的预测值。

第二方面，本发明公开了一种图片文字检测与识别系统，包括：

图片输入模块，被配置为在获取到待识别图片的情况下，将所述待识别图片输出至预处理模块；

所述预处理模块，被配置为将所述待识别图片进行去噪，并将去噪后的所述待识别图片输出至图片文字检测模块；

所述图片文字检测模块，被配置为对预处理后的所述待识别图片进行文本检测，检测所述待识别图片的文本区域，并将所述文本区域至输出图片文字识别模块；

所述图片文字识别模块，被配置为对所述文本区域进行文本识别，识别文字；

文字输出模块，被配置为将识别出的文字进行输出。

具体的，所述预处理模块包括：

滤波子模块，所述滤波子模块用于对所述待识别图片进行中值滤波；

图片矫正子模块，所述图片矫正子模块用于对所述待识别图片进行旋转变换、放大变换、缩小变换、倾斜变换、镜像变换、仿射变换、透视变换以及色彩变换。

本发明的有益效果如下：本发明的图片文字检测与识别系统通过先对待识别图片进行预处理，去除待识别图片的噪声，减少噪声对图片文字检测模块影响，进而使图片文字检测模块能够更加准确的检测出图片中的文字区域，进而将图片的文字区域传输给图片文字识别模块，减少图片文字识别模块对图片的非文字区域的识别，提高文字识别的效率与准度，同时通过图片文字识别模块将图片文字区域的文字进行识别，并将识别的文字排好顺序，由文字输出模块进行输出。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的图片文字检测与识别方法的流程框图。

图2为本发明实施例的图片文字检测与识别系统的结构框图。

具体实施方式

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

本发明实施例提供一种基于深度学习的证件图像文本识别方法及系统，用于解决如何提高图片文本的检测效果与识别背景复杂的图片的技术问题。

下面结合附图对本发明进一步说明。

如图1所示，本实施例提供了一种图片文字检测与识别方法，包括：

S1、采集图片训练模型的数据集；

S2、将待识别图片进行预处理去除噪声；

S3、将经过预处理的所述待识别图片输入至第一CNN模型提取图片特征；

S4、使用RPN网络处理第一CNN模型提取的最后一层特征图，在所述最后一层特征图生成中心点大小不等的K个文本框；

S5、将K个所述文本框输入到第一双向LSTM网络，同时将第一双向LSTM网络的输出与全连接层连接进行特征融合，预测每个文本预测框的分类和位置回归，得到文本区域；

S6、将文本区域输入至第二CNN模型提取图片特征，输出特征中间向量，之后连接到第二双向LSTM网络生成的中间状态，再输入到注意力模型，最后通过一层LSTM解码器网络得到最终输出文字。

首先，本发明通过将待识别图片进行预处理，去除待识别图片的噪声，进而减少了噪声对后续图片文本的检测与识别的影响；其次，通过RPN网络对第一CNN模型的最后一层特征图的处理，在最后一层特征图生成中心点大小不等的K个文本框，一次性回归整个文本所在位置，能够避免检测一些类似文字的噪声；再次，通过加入第一双向LSTM网络将K个文本框按序列连接构成一个完整的文本区域，从而能够提高后续图片识别的识别率；最后，将文本区域的图片传输至第二CNN模型提取图片特征，输出特征中间向量，之后连接到第二双向LSTM网络生成的中间状态，再输入到注意力模型，通过加入注意力机制有效解决固定长度向量限制问题，提升图片文本识别准确率，最后通过一层LSTM解码器网络得到最终输出文字，不需要对一行文本拆分成单字，而是直接识别整个文本区域。其中，在本实施例中，第一CNN模型与第二CNN模型采用VGG-16。

上述步骤S1的具体操作过程如下：

S1-1、在互联网上获取包含文字的图片用作图片文本数据集；

S1-2、对部分图片的类别进行人工标注；

S1-3、图片文本数据集分为训练集和测试集，训练集与测试集用于训练与验证。

其中，在本实施例中，人工标注的图片占图片文本数据集的40％，训练集与测试集的比例为8:2。

具体的，在S1-3中，训练集包括包含文字的所述图片与部分进行人工标注的图片，测试集包括剩余的进行人工标注的图片。

其中，上述训练集中的人工标注图片占总的人工标注图片的40％。

通过将训练集中加入部分人工标注的图片使CNN模型能够更好的进行学习，从而提升CNN模型对特征的提取，进而提升检测效果。

上述步骤S2的具体操作过程如下：

S2-1、将待识别图片进行中值滤波；

S2-2、对待识别图片进行旋转变换、放大变换、缩小变换、倾斜变换、镜像变换、仿射变换、透视变换以及色彩变换。

通过对待识别图片进行中值滤波去除待识别图片的噪声，减少噪声对图片文字检测的影响，减少图片检测的误差。同时，由于图片的在采集时可能出现扭曲、失真、变形等不正常损耗，使得采集的图片与原有图片相差很大，因此进行上述操作能够对图片中的文字大小、文字方向、文字形状以及文字颜色的校正。

具体的，在S5中，文本预测框的分类包括文本区域与非文本区域。由于本实施例是将图片中的文字区域检测排列出来，因此只需要将文本预测框分类为文本区域与非文本区域。

具体的，在所述S5中，使用分类损失函数来预测所述文本预测框是否为所述文本区域，计算公式如下：

L₁(s_i,g(i))＝-log(s_ig(i)+(1-s_i)(1-g(i)))

其中，L₁(s_i，g(i))为所述分类损失函数，s_i为第i个所述文本预测框的概率，g(i)为第i个文本标注框，g(i)＝1表示所述文本预测框为所述文本区域，g(i)＝0表示该框为所述非文本区域。

具体的，在所述S5中，使用回归损失函数来预测所述文本预测框的位置，计算公式如下：

其中，L₂(y，f(j))为回归损失函数，y为预测第j个所述文本预测框的真实值，f(j)表示第j个所述文本框的预测值。

如图2所示，本实施例还提供了一种图片文字检测与识别系统，包括：图片输入模块、预处理模块、图片文字检测模块、图片文字识别模块、文字输出模块。

图片输入模块被配置为在获取到待识别图片的情况下，将待识别图片输出至预处理模块；

预处理模块被配置为将待识别图片进行去噪，并将去噪后的待识别图片输出至图片文字检测模块；

图片文字检测模块被配置为对预处理后的待识别图片进行文本检测，检测待识别图片的文本区域，并将文本区域至输出图片文字识别模块；

图片文字识别模块被配置为对文本区域进行文本识别，识别出文字；

文字输出模块被配置为将文字进行输出。

上述图片文字检测与识别系统通过先对待识别图片进行预处理，去除待识别图片的噪声，减少噪声对图片文字检测模块影响，进而使图片文字检测模块能够更加准确的检测出图片中的文字区域，进而将图片的文字区域传输给图片文字识别模块，减少图片文字识别模块对图片的非文字区域的识别，提高文字识别的效率与准度，同时通过图片文字识别模块将图片文字区域的文字进行识别，并将识别的文字排好顺序，由文字输出模块进行输出。

在本实施例中上述预处理模块包括：滤波子模块与图片矫正子模块。滤波子模块用于对所述待识别图片进行中值滤波；图片矫正子模块用于对所述待识别图片进行旋转变换、放大变换、缩小变换、倾斜变换、镜像变换、仿射变换、透视变换以及色彩变换。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种图片文字检测与识别方法，其特征在于，包括：

步骤1、采集图片训练模型的数据集；

步骤2、将待识别图片进行预处理去除噪声；

步骤3、将经过预处理的所述待识别图片输入至第一CNN模型提取图片特征；

2.根据权利要求1所述的图片文字检测与识别方法，其特征在于，在所述步骤1中包括：

步骤1-2、对部分所述图片的类别进行人工标注；

3.根据权利要求2所述的图片文字检测与识别方法，其特征在于，在所述步骤1-3中，所述训练集包括包含文字的所述图片与部分进行人工标注的所述图片，所述测试集包括剩余的进行人工标注的所述图片。

4.根据权利要求1所述的图片文字检测与识别方法，其特征在于，在所述步骤2中，将所述待识别图片进行预处理去除噪声包括：将所述待识别图片进行中值滤波。

5.根据权利要求4所述的图片文字检测与识别方法，其特征在于，在所述步骤2中，将所述待识别图片进行预处理去除噪声还包括：对所述待识别图片进行旋转变换、放大变换、缩小变换、倾斜变换、镜像变换、仿射变换、透视变换以及色彩变换。

6.根据权利要求1所述的图片文字检测与识别方法，其特征在于，在所述步骤5中，所述文本预测框的分类包括文本区域与非文本区域。

7.根据权利要求6所述的图片文字检测与识别方法，其特征在于，在所述步骤5中，使用分类损失函数来预测所述文本预测框是否为所述文本区域，计算公式如下：

L₁(s_i，g(i))＝-log(s_ig(i)+(1-s_i)(1-g(i)))

8.根据权利要求1所述的图片文字检测与识别方法，其特征在于，在所述步骤5中，使用回归损失函数来预测所述文本预测框的位置，计算公式如下：

9.一种图片文字检测与识别系统，其特征在于，包括：

所述图片文字识别模块，被配置为对所述文本区域进行文本识别，识别出文字；

文字输出模块，被配置为将识别的所述文字进行输出。

10.根据权利要求9所述的图片文字检测与识别系统，其特征在于，所述预处理模块包括：