CN113269049A

CN113269049A - 一种用于检测手写汉字区域的方法

Info

Publication number: CN113269049A
Application number: CN202110477950.3A
Authority: CN
Inventors: 张春霞; 李龙雪
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-17

Abstract

本发明公开一种用于检测手写汉字区域的方法，利用网络模型Advanced EAST对汉字区域进行检测，通过对每一个文本框的预测来确定汉字区域，从而确定图像中的像素点是否属于文本框，以及需要判断文本框的顶点和边缘像素点。Advanced EAST在特征提取层中增加了卷积层的通道，其输出层改成了7通道的输出，进而对后面的处理方法也进行了优化。网络结构主体模型是VGG16，VGG16的网络结构包括13个卷积层和3个全连接，其在经过4个阶段的卷积层与池化层交替后，能够获得4种尺寸大小不一样的特征图。不同大小的特征图解决在检测过程中文本行长短不停地变化。本发明适合检测复杂书法字画中汉字区域的应用场合，而且该发明还可以应用于类似的复杂背景场合以及多文字的汉字识别中。

Description

一种用于检测手写汉字区域的方法

技术领域

本发明涉及一种手写汉字识别技术，具体涉及一种用于检测手写汉字区域的方法。

背景技术

汉字识别在我国一直都备受关注，并且在我们的生活和工作中被广泛应用。汉字作为中国的母语文字，在中华民族的悠久历史中，史事几乎都是通过手写汉字来记载的，手写汉字在历史文化的传承中占有非常重要的地位，实现对手写汉字的识别有利于后人了解中国历史的发展，与此同时，能够起到对中国朝代史事和悠久的传统文化传播的作用。手写汉字结构不规范，字体和风格都呈现多变性，即便是同一个人写相同的汉字，汉字的大小也不能做到规范化，这就导致了手写汉字的多样性。我们从入学起就开始学习去认识汉字，学习汉字的书写，这是我们学习中国文化必须去经历的，不管汉字是被印刷体化还是数字化，作为中华儿女必须学会书写汉字。传统汉字录入电脑等电子产品是通过人工键盘输入的，这种方式相比汉字识别录入明显效率很低，而且浪费很多的时间和劳动力，远不及通过机器将信息数字化的速度和质量，而且目前汉字通过识别技术进行数字化的准确率也很高。我们积极地研究手写汉字识别，不是为了让其被电子化的产品所取代，而是为了给我们的生活和工作带来便捷，以便节省不必要的时间，所以无论未来生活有多智能化，手写汉字一定不会在中国消失不见，随着中国在国际上的崛起，手写汉字会出现在世界的各个角落。

随着深度学习的迅速发展，手写汉字识别是基于深度学习的神经网络模型中一大分支，通过对网络模型的不断构建和改进，其能够对手写汉字的处理的识别达到很快的速度和很高的识别率。手写汉字识别研究的进步，可以使深度学习和神经网络不局限于简单场景的识别，也将为深度学习在图像识别上的研究提供有力的模型基础，提高对手写汉字区域的检测率有利于提升对汉字的识别率。

手写汉字的识别会受到很多因素的影响，例如汉字复杂多样的背景、汉字的构造、字体的风格等，这些存在的问题都造成了识别的困难，对手写汉字的精确率仍然具有提升空间。手写汉字识别作为深度学习重要的分支，我们应继续努力提高其在复杂情况下的准确率。目前手写汉字的识别技术已经很成熟了，但是对于一些特定场合的应用，比如在文字方向、字体和背景都多样化的书法识别中，仍然存在识别率大打折扣的现象。经过研究发现，识别率降低的原因可能是汉字区域和朝向的检测存在一定的问题，本发明针对复杂书法字画的应用场合，设计了一个手写汉字区域检测的方法，而且该发明还可以应用于类似的复杂背景场合以及多文字的汉字识别中。

发明内容

为了克服背景技术中存在的不足，本发明提供了一种用于检测手写汉字区域的方法，即采用神经网络模型Advanced EAST对汉字与背景进行区分，对汉字区域进行文本框标定，并输出文本框的顶点位移坐标，实现对汉字区域准确有效的检测，通过此方法来提升汉字识别的精确率。

为实现如上所述的发明目的，本发明采用如下所述的技术方案：

1.一种用于检测手写汉字区域的方法，利用神经网络模型Advanced EAST对汉字区域进行检测的目的是为了将汉字区域与复杂的背景区分开。通过对每一个文本框的预测来确定汉字区域，所以需要对每一个文本框进行判断，从而确定图像中的像素点是否属于文本框，以及需要判断文本框的顶点和边缘像素点，检测过程包括以下步骤：

a.Advanced EAST在特征提取层中增加了卷积层的通道，其输出层改成了7通道的输出，进而对后面的处理方法也进行了优化。

b.网络结构主体模型是VGG16，VGG16的网络结构包括13个卷积层和3个全连接，其在经过4个阶段的卷积池化交替后，能够获得4种尺寸大小不一样的特征图。

c.特征融合阶段的输入图像尺寸为原图像的1/4，1/8，1/16，1/32。

d.不同大小的特征图解决在检测过程中文本行长短不停地变化。

步骤b中，特征融合过程中所需的步骤如下：

将待检测的汉字区域图像输入网络模型中，在Advanced EAST模型中通过使用多尺度合并的方法，能够解决在文字检测中遇到的多尺度目标检测，采用RoI(Region ofInterest)池化层代替VGG16网络模型的最后一层的最大池化层，它可以对输入多尺度的图像进行规范化处理，将其调整到同样的尺寸大小上。

步骤c中，特征融合的实现步骤如下：

将不同尺度的特征图输入神经网络模型中，进行如下操作：

(1)根据通道的维度进行融合。

(2)通过上池化层对特征提取阶段输入的特征图进行尺度扩大处理，将其扩大后再与现阶段的特征图合并。

(3)通过1*1的卷积减少因融合增加的无用信息，以降低计算量。

(4)通过3*3的卷积对特征图局部信息进行融合，最后把输出的特征图输入到输出层中。

(5)不同大小尺度特征图的感受野不同，当进行汉字区域检测时，感受野太小会造成检测结果的不准确，感受野太大又会造成检测信息的丢失，不利于在图像上对汉字区域进行检测。特征融合能够把尺度大小不一的特征图合并起来，可以实现对目标的多尺度检测。

(6)Advanced EAST网络的输出层有7个通道，分别输出1位置信度，预测像素点在文本框内的概率，即像素点是否在标定的文本框内；2个顶点，预测像素点是否属于文本框边界像素以及顶点是文本框的头部还是尾部，其中我们用0代表头部像素点，用1代表尾部像素点，预测的像素点构成文本框的形状后，再通过边界像素去预测回归顶点坐标。

(7)4个通道输出4位坐标位置，这里坐标位置的真实含义是当前点(x，y)的偏移量。

(8)Advanced EAST并不是对所有的像素点进行预测，它是通过边界像素的坐标位置以及头部和尾部的像素点对左上、左下、右上、右下的像素点来预测顶点坐标的，获得矩形中所有像素在图像中的起始坐标，然后得到特征图上大于阈值区域的点映射到原图像分辨时的坐标。

(9)根据坐标的偏移量对所有顶点的全部检测值进行加权平均，输出的4个顶点作为最终的坐标值，即8个坐标值来确定这个文本框。

所述文本框预测过程完成后，将预测文本框与真实文本框进行面积计算，确定最终的文本框以及顶点坐标，这样网络模型就会将汉字区域准确有效的检测出来。

本发明与现有技术相比的优点在于：本发明一种用于检测手写汉字区域的方法，解决了在文字方向、字体和背景都多样化的书法识别中，识别率大打折扣的问题。本发明适合应用于复杂背景场合以及多文字的汉字识别中。

附图说明

图1为本发明实施例中Advanced EAST网络结构的框架；

图2为本发明实施例中一种用于检测手写汉字区域的文本框预测过程图；

图3为本发明实施例中文本框预测的效果图；

图4为本发明实施例中文本框的坐位置图。

具体实施方式

本发明的基本思想是：在复杂情况下的汉字识别首先是对图像中的汉字区域进行检测，然后将其中的汉字区域转化成字符信息，在这过程中我们需要解决很多的问题，例如如何将复杂的背景与手写汉字分离，要确定汉字的坐标位置以及所涉及到的范围是多少，对汉字与复杂背景进行分割，准确找到汉字区域，为下一步汉字的识别提供有效的帮助，以便提高汉字识别的准确率。

下面结合附图以及神经网络模型的构建具体实施例，对本发明作进一步详细说明。

本发明基于Advanced EAST网络结构的手写汉字区域的检测方法主要包括一下步骤：

步骤11：网络模型结构的示意图如图1所示，模型的输入是3通道的图像，在通过VGG16的特征提取以及特征合并后，输出层的图像的尺度大小变为原来的1/4，而且是7通道输出。在Advanced EAST模型中通过使用多尺度合并的方法，能够解决在文字检测中遇到的多尺度目标检测。本次发明的目的在于检测出图像中的汉字区域，并输出文本框的顶点坐标输出，其过程如下：

步骤111：对于在特征提取中得到的1/4，1/8，1/16，1/32这4种不同尺度的特征图，标记为，则融合基础公式如下所示：

融合特征图公式如下所示：

上述表达式中，是融合基础，是融合特征图，其中表达的是特征图。

步骤1111：根据通道的维度进行融合，我们通过上池化层对特征提取阶段输入的特征图进行尺度扩大处理，将其扩大后再与现阶段的特征图合并，接下来通过1*1的卷积减少因融合增加的无用信息，以降低计算量，然后再通过3*3的卷积对特征图局部信息进行融合，最后把输出的特征图输入到输出层中。

步骤1112：不同大小尺度特征图的感受野不同，当进行汉字区域检测时，感受野太小会造成检测结果的不准确，感受野太大又会造成检测信息的丢失，不利于在图像上对汉字区域进行检测。特征融合能够把尺度大小不一的特征图合并起来，可以实现对目标的多尺度检测。

步骤12：文本框预测的效果如图3所示，Advanced EAST网络的输出层有7个通道，分别输出1位置信度，2个顶点，4个通道输出4位坐标位。

步骤121：输出的置信度，是预测像素点在文本框内的概率，即像素点是否在标定的文本框内；顶点，是预测像素点是否属于文本框边界像素以及顶点是文本框的头部还是尾部，其中我们用0代表头部像素点，用1代表尾部像素点，预测的像素点构成文本框的形状后，再通过边界像素去预测回归顶点坐标；输出4位坐标位置当前点(x，y)的偏移量。

步骤122：Advanced EAST并不是对所有的像素点进行预测，它是通过边界像素的坐标位置以及头部和尾部的像素点对左上、左下、右上、右下的像素点来预测顶点坐标的，获得矩形中所有像素在图像中的起始坐标，然后得到特征图上大于阈值区域的点映射到原图像分辨时的坐标。

步骤123：根据坐标的偏移量对所有顶点的全部检测值进行加权平均，输出的4个顶点作为最终的坐标值，即8个坐标值来确定这个文本框。

步骤124：文本框的坐标位置如图4所示，通过4个顶点、、、确定的不规则四边形，先以其中相邻的两边、作平行四边形，接下来再通过平行四边形得到外接的最大矩形，过作平行于直线的线，同理，过作平行于直线的线，由此可以得到一个平行四边形。

步骤125：当然还可以通过作、的平行虚线得到另一个平行四边形。计算所有平行四边形的面积，对面积最大的平行四边形作内接矩形，这就构建了文本框。

步骤126：以、为对角线分别作平行四边形，利用分割函数将平行四边形分割成三部分，然后各自内接矩形，这样在原来一个矩形的基础上就得到三个矩形。

步骤127：在文本框构建的过程中会涉及到很多数学计算，例如计算四边形的面积、点到直线的距离、矩形的面积、交点坐标等。在网络模型训练的过程中，为了生成准确有效的文本框，模型会对目标图像进行2个预测，对区分背景和检测目标手写汉字的预测，需要确定检测的手写汉字的坐标和旋转角度。

步骤13：复杂背景的文本检测中字形的大小、风格都有很大的差别，由于输出元素的每个像素点到它所在旋转矩形每条边的距离与损失函数有关，这就需要在实验中采用不同的损失函数，主要是分类和回归两类损失函数。网络检测中总损失的计算公式如下所示：

L＝L_s+λ_gL_g (3)

公式中表示分类损失，表示回归损失，其中是用来平衡分类损失和回归损失的，在实验中设置成1。

步骤131：判断每个像素点是否属于文本框内，需要用到分类的损失函数，由于文本所在的区域像素的值为1，其他背景区域像素点值为0，一般在二分类的任务上，两者的概率和是1，所以可以仅预测其中的一个概率。采用Dice损失，它是与区域相关对语义进行分割的损失函数，其比较适用于分析前景区域，尤其是对语义分割中正负样本极度不平衡的情况，因为造成正负样本不平衡的原因就是前景占比小，而且它的收敛速度也比类平衡交叉熵快。Dice系数是用来评估不同图像之间相似度的函数，Dice损失的表达式如下所示：

公式中，表示X和Y之间的交集，和分别表示X和Y样本的个数，分子中的系数2是为了保证的取值范围为0到1之间，因为分母的计算中存在重复元素，在之间进行取值，而且样本之间的相似度与取值的大小成正比。

步骤132：在文本框构建的过程中会生成具有旋转角度的旋转矩形以及普通的四边形，对于文字几何形状的预测，要保持其尺度的大小不改变，所以针对旋转矩形和四边形需要采用不同的损失函数。生成的旋转矩形每个像素点都有一个正分值，需要计算像素点到文本框4边的距离，而对于普通四边形，文本框中所有像素点的正分值是其与四边形4个顶点的坐标偏移。文本框的边界可以是轴对齐的，也可以是任意方向的，其中轴对齐矩形边界框容易生成，并且使用方便。轴对齐矩形边界框内的点需要满足如下公式。

x_min≤x≤x_max，y_min≤y≤y_max，z_min≤z≤z_max (5)

需要注意的是边界框的中心点，其中，。

在矩形边界框中由指向的向量称为尺寸向量，则尺度向量。尺度向量包括矩形边界框的长、宽、高。在矩形边界框中由中心d指向的向量称之为半径向量，其表达式如下所示：

在实验过程中采用和去表达矩形边界框，然后在利用和去求解d、和会容易很多。对于旋转矩形中的DIoU损失，其运算公式如下所示：

其中，b，分别指的是预测文本框和原始文本框的中心点，指的是b和之间的欧式距离，c指的是最小矩形框的对角线距离，这个最小矩形框能够包含预测文本框和原始文本框，而/表示的是惩罚项，DIoU损失的原理是在IoU上增添了惩罚项，它是对两个文本框中心点之间的距离进行最小规范化处理。

在模型输出的7通道中，前3个通道输出的值，主要是用来判断像素点是否属于文本框，根据情况设定阈值；而后4个通道输出的值是检测像素点到文本框的距离，并判断像素点属于文本框的头部还是尾部，对每个头部和尾部像素点检测出的值，对它们进行加权平均就是文本框的边界了。

Claims

1.一种用于检测手写汉字区域的方法，利用神经网络模型Advanced EAST对汉字区域进行检测的目的是为了将汉字区域与复杂的背景区分开，通过对每一个文本框的预测来确定汉字区域，所以需要对每一个文本框进行判断，从而确定图像中的像素点是否属于文本框，以及需要判断文本框的顶点和边缘像素点，检测过程包括以下步骤：Advanced EAST在特征提取层中增加了卷积层的通道，其输出层改成了7通道的输出，进而对后面的处理方法也进行了优化；网络结构主体模型是VGG16，VGG16的网络结构包括13个卷积层和3个全连接，其在经过4个阶段的卷积层与池化层交替后，能够获得4种尺寸大小不一样的特征图；特征融合阶段的输入图像尺寸为原图像的1/4，1/8，1/16，1/32；不同大小的特征图解决在检测过程中文本行长短不停地变化。

2.根据权利要求1所述的用于检测手写汉字区域的方法，其特征在于：所述网络结构主体模型是VGG16中，特征融合过程中所需的步骤如下：

3.根据权利要求1所述的用于检测手写汉字区域的方法，其特征在于：所述特征融合中，将不同尺度的特征图输入神经网络模型中，根据通道的维度进行融合，通过上池化层对特征提取阶段输入的特征图进行尺度扩大处理，将其扩大后再与现阶段的特征图合并，过1*1的卷积减少因融合增加的无用信息，以降低计算量，通过3*3的卷积对特征图局部信息进行融合，最后把输出的特征图输入到输出层中，不同大小尺度特征图的感受野不同，当进行汉字区域检测时，感受野太小会造成检测结果的不准确，感受野太大又会造成检测信息的丢失，不利于在图像上对汉字区域进行检测，特征融合能够把尺度大小不一的特征图合并起来，可以实现对目标的多尺度检测，Advanced EAST网络的输出层有7个通道，分别输出1位置信度，预测像素点在文本框内的概率，即像素点是否在标定的文本框内；2个顶点，预测像素点是否属于文本框边界像素以及顶点是文本框的头部还是尾部，其中我们用0代表头部像素点，用1代表尾部像素点，预测的像素点构成文本框的形状后，再通过边界像素去预测回归顶点坐标；4个通道输出4位坐标位置，这里坐标位置的真实含义是当前点(x，y)的偏移量；Advanced EAST并不是对所有的像素点进行预测，它是通过边界像素的坐标位置以及头部和尾部的像素点对左上、左下、右上、右下的像素点来预测顶点坐标的，获得矩形中所有像素在图像中的起始坐标，然后得到特征图上大于阈值区域的点映射到原图像分辨时的坐标；根据坐标的偏移量对所有顶点的全部检测值进行加权平均，输出的4个顶点作为最终的坐标值，即8个坐标值来确定这个文本框，检测文本框过程完成后，将预测文本框与真实文本框进行面积计算，确定最终的文本框以及顶点坐标，这样网络模型就会将汉字区域准确有效的检测出来。