CN110738201A

CN110738201A - 基于融合形态特征的自适应多卷积神经网络文字识别方法

Info

Publication number: CN110738201A
Application number: CN201910338759.3A
Authority: CN
Inventors: 刘晋; 余超; 李云辉; 栾翠菊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-01-31
Anticipated expiration: 2039-04-25
Also published as: CN110738201B

Abstract

本发明公开了一种基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，包括：对待识别图像进行文字轮廓特征提取；对待识别图像中的文字图像通过自适应分类算法进行分类；根据分类结果将文字图像分配到不同密度的文字识别卷积神经网络中，将提取的文字轮廓特征与对应的文字图像特征进行融合，获得识别结果。本发明对待识别图像进行文字轮廓特征提取，并通过自适应分类算法对文字图像进行分类，将不同的文字图像给到不同的卷积神经网络进行文字识别，卷积神经网络对文字轮廓特征与文字图像融合，使得本发明所述的深度神经网络技术在加快识别速度的同时可以提高文字的总体识别率，特别是针对相似文字具有很好的识别效果。

Description

基于融合形态特征的自适应多卷积神经网络文字识别方法

技术领域

本发明涉及一种文字识别方法，尤其涉及一种基于融合形态特征的自适应多卷积神经网络文字识别方法。

背景技术

传统的文字识别方法往往聚焦于某一种特定的语言文字，研究者们通过对语言文字的特征进行针对性地提取，往往可以得到识别率较高的模型。

然而，在现实世界中，往往会存在多种文字同时出现的场景，如汉字、英语、数字往往会同时出现，这种情况下，很难对不同类型的语言文字进行统一的特征提取。

此外，随着不同类型的语言文字的增加，所要分类的类别也会增加，从而导致识别模型识别效率过慢的问题，同时，不同类型的语言文字存在相似字的情况，也会影响到模型的识别率。

文字识别一直是模式识别领域中的热门研究点。人类社会中的很大一部分信息包含在文字中，若能有一种较通用的方法能将文字快速且准确的识别出来，将极大的有助于计算机对信息的分析与理解。多年来，许多研究者提出了不少的方法，如基于模板匹配的方法、基于机器学习的方法、基于深度学习的方法等，也有一些较成熟的文字识别工具，如Google的开源OCR系统等。然而，很少有研究涉及到在多语言类型的情况下，如何有效快速准确地识别这些文字。

发明内容

本发明解决了现有技术中缺少可以在多语言类型情况下，快速有效识别文字的问题。

本发明的上述目的是通过以下技术方案实现的：

一种基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，包括：对待识别图像进行文字轮廓特征提取；对待识别图像中的文字图像通过自适应分类算法进行分类；根据分类结果将文字图像分配到不同密度的文字识别卷积神经网络中，将提取的文字轮廓特征与对应的文字图像特征进行融合，获得识别结果。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，对待识别图像进行处理前进行图像预处理。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，不同密度的文字识别卷积神经网络包括：低密度文字识别卷积神经网络、中密度文字识别卷积神经网络、高密度文字识别卷积神经网络。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，图像预处理包括：灰度化处理、归一化处理。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，文字轮廓特征提取包括：获取文字整体外形比例；获取文字整体外形比例包括：获取文字的最小外接矩形外框，获取矩形外框的长宽比信息。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，根据外框尺寸及文字所占的像素点信息获取密度值，对外框尺寸进行等比例放大至设定值，获取放大后的相对密度值；根据相对密度值落入的范围，将文字图像分配到对应的文字识别卷积神经网络中识别。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，将文字图像分配到对应的第一文字识别卷积神经网络中识别后，获得识别结果，获取第一识别率；

如果识别率低于一设定阈值，则将文字图像分配到最接近的密度值范围对应的第二文字识别卷积神经网络中进行识别，获取第二识别率；

如果第二识别率高于第一识别率，则对应该密度值的文字图像分配到文字识别卷积神经网络中进行识别；如果第二识别率低于第一识别率，则将第二识别率乘以一惩罚系数后与第一识别率，再次进行比较。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，低密度文字识别卷积神经网络包括：

步骤1.1：文字图像特征输入后通过四个卷积层、四个池化层对图像特征进行抽取；卷积层采用5×5的卷积核；

步骤1.2：文字轮廓特征输入后通过一个展开层、一个全连接层对特征进行提取；

步骤1.3：将步骤1.1、步骤1.2的特征进行合并；

步骤1.4：将合并后的特征通过两个全连接层进行连接并输出。

中密度文字识别卷积神经网络包括：

步骤2.1：文字图像特征输入后通过四个卷积层、四个池化层对图像特征进行抽取，卷积层采用5×5的卷积核；

步骤2.2：文字轮廓特征输入后通过一个展开层、一个全连接层对特征进行提取；

步骤2.3：将步骤2.1、步骤2.2的特征进行合并；

步骤2.4：将合并后的特征通过两个圈连接层进行连接并输出。

高密度文字识别卷积神经网络包括：

步骤3.1：文字图像特征输入后通过四个卷积层、八个池化层对图像特征进行抽取，卷积层采用3×3的卷积核；

步骤3.2：文字轮廓特征输入后通过一个展开层、一个全连接层对特征进行提取；

步骤3.3：将步骤3.1、步骤3.2的特征进行合并；

步骤3.4：将合并后的特征通过两个圈连接层进行连接并输出。

如上述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，将设定格式的汉字、字母、数字进行基于形态学的随机处理生成训练集，将训练集导入低密度文字识别卷积神经网络、中密度文字识别卷积神经网络、高密度文字识别卷积神经网络进行训练。

如上所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，基于形态学的随机处理包括：旋转、平移、腐蚀、膨胀、增加随机噪音点的增强处理操作构建大量网络模型的训练集；采用SGD作为优化函数进行训练。

综上所述，由于采用了上述技术方案，本发明对待识别图像进行文字轮廓特征提取，并通过自适应分类算法对文字图像进行分类，将不同的文字图像给到不同的卷积神经网络进行文字识别，卷积神经网络对文字轮廓特征与文字图像融合，由于多个卷积神经网络使用了不同的网络结构和参数，同时还融入了文字图像的形态特征，神经网络模型能够对文字的整体形态更加敏感。这使得本发明所述的深度神经网络技术在加快识别速度的同时可以提高文字的总体识别率，特别是针对相似文字具有很好的识别效果。

附图说明

图1是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的流程图；

图2是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的文字图像的轮廓提取结果示意图；

图3是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的划分的三个区间的部分文字图像；

图4是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的低密度文字识别卷积神经网络结构图；

图5是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的中密度文字识别卷积神经网络结构图；

图6是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的高密度文字识别卷积神经网络结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步描述：

图1是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的流程图，请参见图1，一种基于融合形态特征的自适应多卷积神经网络文字识别方法，其中，包括：对待识别图像进行文字轮廓特征提取；对待识别图像中的文字图像通过自适应分类算法进行分类；根据分类结果将文字图像分配到不同密度的文字识别卷积神经网络中，将提取的文字轮廓特征与对应的文字图像特征进行融合，获得识别结果。本发明对文字的轮廓特征进行提前，并且，通过自适应分类算法分类后，将文字图像与轮廓特征一并分配到不同的卷积神经网络进行识别，增加了识别的效率与识别准确率。

具体的，为了使神经网络能更好地分辨出不同语言中的相似文字，本发明将文字轮廓作为额外的特征输入到文字识别网络，与文字本身的图像特征进行融合，并训练文字识别模型。

进一步的，对待识别图像进行处理前进行图像预处理。图像经过预处理后识别的效率更高。

进一步的，图像预处理包括：灰度化处理、归一化处理。

图2是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的文字图像的轮廓提取结果示意图，具体的，对预处理之后的文字图像进行文字轮廓特征提取操作。

在这一步骤中，本发明将文字的整体外形比例当作文字识别过程的一个重要的参照标准。如数字中的“0”以及字母中的“O”、“o”，这三个文字大体相似，但相较于字母“O”，数字“0”显得更为“细长”，当观察到这一比例的区别后，便可以轻易的分辨出这几者。同时，在文字存在噪音干扰时，文字比例相对不会有很大的变化，所以可以通过这个比例对某些看不清的文字进行合理的猜测得到结果。

更进一步的，对待识别图像进行文字轮廓特征提取，也就是经过轮廓提取算法，最终获取的处理得到对于单个文字图像的轮廓提取结果，如图2所示。根据最小外接矩形框的长宽比信息，提取轮廓的特征作为特征数据融合到多密度的文字识别网络中。

进一步的，文字轮廓特征提取包括：获取文字整体外形比例；获取文字整体外形比例包括：获取文字的最小外接矩形外框，获取矩形外框的长宽比信息。

进一步的，根据外框尺寸及文字所占的像素点信息获取密度值，对外框尺寸进行等比例放大至设定值，获取放大后的相对密度值；根据相对密度值落入的范围，将文字图像分配到对应的文字识别卷积神经网络中识别。

进一步的，将文字图像分配到对应的第一文字识别卷积神经网络中识别后，获得识别结果，获取第一识别率；

具体的，在本发明的实施过程中，使用自适应分类算法的过程中，可能出现有些在阈值边缘的文字图像受到噪音的影响从而被误分为另一类的情况。针对于此，本发明当此文字图像在当前阈值的识别模型中的识别概率低于某个阈值T 时，会选择一个距离此比值较近的另一个模型进行识别，若识别概率高于T，则取此结果，否则通过将第一次选定的识别模型的识别概率与第二次识别模型的识别概率乘以一个惩罚系数PC再进行比较选择。

图3是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的划分的三个区间的部分文字图像，如图3所示是根据阈值划分的三个区间的部分文字图像，具体的，利用自适应分类算法对预处理之后的文字图像进行分类。根据文字不同的复杂程度，尤其是对于汉字，既存在单个笔画如“一”这样的汉字，也存在相对复杂的汉字。对于结构相对简单的文字，若使用较深的网络则可能会影响到识别的速度，因此在这一步骤中，对于不同复杂程度的文字，本发明使用自适应分类算法对文字图像进行预分类，针对不同复杂度的文字使用不同结构的神经网络进行训练，以此来加快识别效率以及识别准确率。

在本发明的一个具体的实施例中，所述的自适应分类算法可以如下：

假设文字最小外接矩形框尺寸为w×h，M为最小外接矩形框内属于文字的像素点的总数，则可以得到文字相对于最大包围框的密度P为：

通过归一化操作，将w与h中较大的一项等比例放大到128，同时也用相同比例放大h，之后便得到在w’×h’下的m’，即若假设w为较大的一项，则：

其中，w’为128，反之，若h为较大的一项，则执行类似的步骤。

最后，我们使用M’与归一化的统一尺寸128×128进行相对密度运算，得到最终的结果P’:

根据对3000个常用汉字，10个数字以52个英文字母进行文字密度统计，在一个具体实施例中，设置划分低密度文字图像与中密度文字图像的阈值为 0.35，划分中密度文字图像与高密度文字图像的阈值为0.4。

在本发明的一个具体的实施例中，所述的特征融合算法可以如下：

假设文字轮廓特征为F，文字本身的图像为I，同时，设第i个卷积层的第 j个卷积核为K_ij，则对于图像I经过卷积运算后的特征图FM₁可以表示为：

其中，j代表着这一层拥有的卷积核个数。得到第一幅特征图之后，在剩下的卷积层中则使用上一层所得到的FM作为输入，可以表示为：

最后将所获得第m层的FM_m中的j个w×h特征图进行平铺，得到一个1× (j×w×h)的数组D，其中，FM_m可以表示为：

则对于j个w×h的特征图，其展开后为：

而文字轮廓特征F为1维的w×h矩阵，因此直接将F展开平铺，展开后可表示为：

之后，将平铺后的D以及D′进行融合，得到的最终结果可表示为：

进一步的，不同密度的文字识别卷积神经网络包括：低密度文字识别卷积神经网络、中密度文字识别卷积神经网络、高密度文字识别卷积神经网络。

图4是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的低密度文字识别卷积神经网络结构图，请参见图4，进一步的，低密度文字识别卷积神经网络包括：

步骤1.3：将步骤1.1、步骤1.2二的特征进行合并；

在本发明的一个具体的实施例中，所述的低密度文字识别卷积神经网络构建方法如下：

在低密度文字识别卷积神经网络中，所有的卷积层以及全连接层里使用ReLU 作为激活函数。由于文字图像密度较低，因此在具体的实施例中，选用5×5的卷积核来增加网络的感受野。卷积神经网络设置有两个输入，分别为文字图像本身以及提取出来的文字形态特征。文字图像要求的输入尺寸参数设置为 128×128×3，文字形态特征的输入尺寸参数设置为128×128×1。

在文字图像的输入端，使用了4个卷积层以及4个池化层对图像特征进行抽取，具体的卷积层及池化层的输入输出参数设置如下：

	输入尺寸	输出尺寸
			卷积层1	128×128×3	128×128×16
池化层1	128×128×16	64×64×16
			卷积层2	64×64×16	64×64×32
池化层2	64×64×32	32×32×32
			卷积层3	32×32×32	32×32×64
池化层3	32×32×64	16×16×64
			卷积层4	16×16×64	16×16×128
池化层4	16×16×128	8×8×128

在轮廓输入端则使用1个展开层和1个全连接层对特征进行提取，具体参数设置如下表：

	输入尺寸	输出尺寸
			平铺层	128×128×1	16384
全连接层	16384	1024

然后将两个特征使用合并层进行合并，合并前后的参数设置如下

	输入尺寸1	输入尺寸2	输出尺寸
				合并层	1024	8192	9216

最后使用2个全连接层进行连接并将输出以one-hot编码形式输出且使用Sigmoid函数激活，在本发明的一个具体的实施例中，低密度文字的数量为621，具体的参数如下：

	输入尺寸	输出尺寸
			全连接层1	9216	4096
全连接层2	4096	621

图5是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的中密度文字识别卷积神经网络结构图，请参见图5，进一步的，中密度文字识别卷积神经网络包括：

步骤2.3：将步骤2.1、步骤2.2的特征进行合并；

具体的，在本发明的一个实施例中，构建中密度文字识别卷积神经网络，其网络结构如图5所示。在本发明的一个具体的实施例中，所述的中密度文字识别卷积神经网络构建方法如下：

在中密度文字识别卷积神经网络中，同样选用5×5的卷积核对文字图像进行提取并使用ReLU作为激活函数，与低密度网络不同的是，在每次池化层之间使用两层卷积层对图像进行特征提取，同时，增加了卷积核的数目使网络能更好的提取文字特征。具体的文字图像特征提取过程的参数设置如下：

同时，对轮廓特征提取的参数进行微调，具体参数设置如下：

	输入尺寸	输出尺寸
			平铺层	128×128×1	16384
全连接层	16384	4096

在合并层的参数设置如下所示：

	输入尺寸1	输入尺寸2	输出尺寸
				合并层	4096	16384	20480

与低密度文字识别网络设置类似，最后的输出同样以one-hot形式并使用Sigmoid对最后的输出进行激活，具体参数设置如下：

	输入尺寸	输出尺寸
			全连接层1	20480	4096
全连接层2	4096	997

图6是本发明基于融合形态特征的自适应多卷积神经网络文字识别方法的高密度文字识别卷积神经网络结构图，请参见图6，进一步的，高密度文字识别卷积神经网络包括：

步骤3.3：将步骤3.1、步骤3.2的特征进行合并；

具体的，在本发明的一个实施例中，构建高密度文字识别卷积神经网络，其网络结构如图6所示。在本发明的一个具体的实施例中，所述的高密度文字识别卷积神经网络构建方法如下：

在高密度文字识别卷积神经网络中，选用3×3的卷积核使得网络能够聚焦到更小感受野的特征，文字图像特征提取的具体参数设置如下：

	输入尺寸	输出尺寸
			卷积层1	128×128×3	128×128×32
卷积层2	128×128×32	128×128×32
			池化层1	128×128×32	64×64×32
卷积层3	64×64×32	64×64×64
			卷积层4	64×64×64	64×64×64
池化层2	64×64×64	32×32×64
			卷积层5	32×32×64	32×32×128
卷积层6	32×32×128	32×32×128
			池化层3	32×32×128	16×16×128
卷积层7	16×16×128	16×16×256
			卷积层8	16×16×256	16×16×256
池化层4	16×16×256	8×8×256

然后使用与中密度文字识别卷积神经网络相同的轮廓特征提取部分的参数以及合并层的参数，具体设置如下：

在输出端，将输出设置为所有高密度文字的数量，具体参数设置如下：

	输入尺寸	输出尺寸
			全连接层1	20480	4096
全连接层2	4096	1444

进一步的，将设定格式的汉字、字母、数字进行基于形态学的随机处理生成训练集，将训练集导入低密度文字识别卷积神经网络、中密度文字识别卷积神经网络、高密度文字识别卷积神经网络进行训练。

进一步的，基于形态学的随机处理包括：旋转、平移、腐蚀、膨胀、增加随机噪音点的增强处理操作构建大量网络模型的训练集；采用SGD作为优化函数进行训练。

具体的，在本发明的一个具体的实施例中，将华文行楷和黑体格式的3000 个汉字，Bradley Hand ITC和黑体格式的52个英文大小写字母以及10个数字作为构建上述神经网络模型训练集的基础。采用基于形态学的随机处理，包括旋转、平移、腐蚀、膨胀、增加随机噪音点等数据增强处理操作构建大量网络模型的训练集，所有训练集图像的大小均为128×128×3，部分训练集如图所示。

经过构建的三种用于文字识别的卷积神经网络。在本发明的一个具体实施例中，针对神经网络模型的训练均采用SGD作为优化函数。同时设置学习率为0.01，并设置0.9的冲量以及10^-6的学习率衰减值。针对低密度的卷积神经网络的训练次数设置为200轮；针对中密度的卷积神经网络的训练次数设置为200轮；针对高密度的卷积神经网络的训练次数设置为200轮。

通过利用训练完成的多个用于文字识别的卷积神经网络的处理，即可得到文字图像上的文字识别结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员或是一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员或是一般模型爱好者依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，包括：对待识别图像进行文字轮廓特征提取；对待识别图像中的文字图像通过自适应分类算法进行分类；根据分类结果将文字图像分配到不同密度的文字识别卷积神经网络中，将提取的文字轮廓特征与对应的文字图像特征进行融合，获得识别结果。

2.根据权利要求1所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，对待识别图像进行处理前进行图像预处理。

3.根据权利要求1所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，不同密度的文字识别卷积神经网络包括：低密度文字识别卷积神经网络、中密度文字识别卷积神经网络、高密度文字识别卷积神经网络。

4.根据权利要求2所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，图像预处理包括：灰度化处理、归一化处理。

5.根据权利要求1所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，文字轮廓特征提取包括：获取文字整体外形比例；获取文字整体外形比例包括：获取文字的最小外接矩形外框，获取矩形外框的长宽比信息。

6.根据权利要求5所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，根据外框尺寸及文字所占的像素点信息获取密度值，对外框尺寸进行等比例放大至设定值，获取放大后的相对密度值；根据相对密度值落入的范围，将文字图像分配到对应的文字识别卷积神经网络中识别。

7.根据权利要求6所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，将文字图像分配到对应的第一文字识别卷积神经网络中识别后，获得识别结果，获取第一识别率；

如果第二识别率高于第一识别率，则对应该密度值的文字图像分配到第二第二文字识别卷积神经网络中进行识别；如果第二识别率低于第一识别率，则将第二识别率乘以一惩罚系数后与第一识别率，再次进行比较。

8.根据权利要求3所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，低密度文字识别卷积神经网络包括：

步骤1.3：将步骤1.1、步骤1.2的特征进行合并；

中密度文字识别卷积神经网络包括：

步骤2.3：将步骤2.1、步骤2.2的特征进行合并；

高密度文字识别卷积神经网络包括：

步骤3.3：将步骤3.1、步骤3.2的特征进行合并；

9.根据权利要求3述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，将设定格式的汉字、字母、数字进行基于形态学的随机处理生成训练集，将训练集导入低密度文字识别卷积神经网络、中密度文字识别卷积神经网络、高密度文字识别卷积神经网络进行训练。

10.据权利要求9所述的基于融合形态特征的自适应多卷积神经网络文字识别方法，其特征在于，基于形态学的随机处理包括：旋转、平移、腐蚀、膨胀、增加随机噪音点的增强处理操作构建大量网络模型的训练集；采用SGD作为优化函数进行训练。