CN112070080A

CN112070080A - 基于Faster R-CNN的戏曲卡通人物的分类方法

Info

Publication number: CN112070080A
Application number: CN202010839565.4A
Authority: CN
Inventors: 瞿绍军; 夏华丽
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-11

Abstract

本发明公开了基于Faster R‑CNN的戏曲卡通人物的分类方法，以戏曲卡通图片为基础，运用数据增强技术，手工进行标注制作数据集，然后运用基于特征提取网络ResNet50的Faster R‑CNN算法对戏曲卡通人物进行检测识别，再融合特征金字塔网络（FPN）对Faster R‑CNN改进，进行多尺度检测识别，大大的提高了戏曲人物识别准确率。

Description

基于Faster R-CNN的戏曲卡通人物的分类方法

技术领域

本发明属于目标识别领域，具体涉及一种基于Faster R-CNN的戏曲卡通人物的分类方法。

背景技术

由于受多元化文化交流的影响，中国的传统戏曲已经处于濒危的边缘，急需当代人保护与传承。现在使用现代人类科研成果——目标识别，能够帮助人们快速检测识别每个戏曲卡通人物，这对于戏曲的发展保护具有极其重要的意义。

自神经网络在ImageNet数据集上取得成功，深度学习开始被广泛应用在目标检测识别领域。Xin lei等人提出了非视距物体识别技术，利用光的相干性从微弱的反射光信号中获取场位相关信息，结合深度学习的人工智能算法，实现对障碍物后面物体的实时识别。Tao Dai等人于2019年提出了一种二阶注意网络(SAN)用在单图像超分辨率，用于更强大的特征表达和特征相关学习。Zhao-Min Chen提出基于图卷积(GCN)的end-to-end系统，通过data-driven方式建立标记间有向图并由GCN将类别标记映射为对应类别分类器，以此建模类别关系，同时可提升表示学习能力。Zecheng Xie等人提出一种新的聚合交叉熵(ACE)方法，用于序列识别，ACE损失函数表现出对Connectionist Temporal Classification(CTC)和注意机制的竞争性能，实现更快推理和反向传播，更少存储要求，方便使用。在戏曲文化保护方面，陈璇等人提出使用Kinect设备和使用三基色，模仿传统皮影的交互方式控制数字皮影。Zhu Y B等人使用半自动处理生成的皮影戏角色，然后利用光子贴图渲染皮影人物。Hsu等人通过运动规划算法，规划皮影运动路径，皮影动画被自动生成。图像分类识别是目标检测的基础，目标检测是在分类基础上，实现图像的目标定位，因此图像分类识别也推动着目标检测的进步。

因此如何对戏曲卡通人物采用深度学习技术进行目标识别分类是本发明中提出的方法所要解决的问题。

发明内容

本发明的技术思路：

本发明对戏曲卡通图片运用数据增强技术，手工进行标注制作数据集，然后运用基于特征提取网络ResNet50的Faster R-CNN算法对戏曲卡通人物进行检测识别，再融合特征金字塔网络(FPN)进行改进，最终得到良好的图片识别结果。

针对上述存在的问题，本发明旨在提供基于Faster R-CNN的戏曲卡通人物的分类方法，将现代科学研究成果和中国戏曲发展现状结合起来，对戏曲卡通人物采用深度学习技术进行目标识别分类，对戏曲普及教育的发展起到一定程度的促进作用，为了实现上述目的，本发明所采用的技术方案如下：

基于Faster R-CNN的戏曲卡通人物的分类方法，其特征在于，包括以下步骤：

S1：制作戏曲人物图片数据集并且以其按比例分配作为训练集和测试集，利用训练集训练Faster R-CNN模型；

S2：将输入的原始戏曲卡通图片传入到卷积层，利用基于Faster R-CNN的特征提取网络对输入的戏曲卡通图片进行特征提取；

S3：对提取出的特征图进行分类识别，得出戏曲卡通人物识别结果图。

进一步地，步骤S1中所述的制作戏曲图片数据集通过对现有图片运用数据增强技术进行处理，并且对图片手工标注，最后将标注结果制作成VOC2007数据集格式。

进一步地，步骤S2中所述的特征提取网络采用50层残差网络ResNet50。

进一步地，步骤S2中对输入的戏曲卡通图片进行特征提取的具体操作包括：

S21：将输入的原始图片，进行卷积计算，输出提取出的特征图；

S22：利用RPN推荐出候选区域，用于实现目标定位功能；

S23：在提取出的最后一层特征图上结合FPN，使得特征层增多，从而使RoI_pooling也随之增加，用以生成更强大的语义信息；并在每张图片上生成候选区域的特征图；

S24：将不同大小的候选区域的特征图依次经过RoI_pooling层转换为定长的特征图；

S25：再将得到的定长的特征图经过两个全连接层得到特征向量，特征向量在各自全连接层得到分类与回归，输出最终结果，候选区域的类别以及候选区域的确切位置。

本发明的有益效果是：

本发明中提出的方法研究了戏曲艺术的发展现状与深度学习的应用，制作了完整的戏曲人物数据集。并且采用基于ResNet50特征网络的Faster R-CNN目标检测算法，融合FPN对Faster R-CNN改进，进行多尺度检测识别，大大的提高了识别准确率，开创了目标识别技术在戏曲人物识别方面的应用，促进了戏曲艺术的发展与传承。

附图说明

图1为R-CNN算法结构图；

图2为Fast R-CNN的原理结构图；

图3为Faster R-CNN的整体流程图；

图4为残差块结构图；

图5为ResNet+RPN架构图；

图6为自上而下的路径与横向连接示意图；

图7为FPN与RPN融合后的网络结构图；

图8(a)-(h)为实施例中基于未融合FPN的ResNet50网络模型的卡通人物识别结果图；

图9(a)-(b)为实施例中Faster R-CNN融合FPN后对lao dan的识别结果图；

图10(c)-(d)分别为实施例中未融合FPN的Faster R-CNN和融合了FPN的FasterR-CNN对mo的识别结果图；

图11(e)-(f)分别为实施例中未融合FPN的Faster R-CNN和融合了FPN的FasterR-CNN对fang jin chou的识别结果图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

首先，说明R-CNN模型：

R-CNN使用了CNN较好的特征提取和分类性能，通过候选区域选择来实现问题的转化。R-CNN生成候选框(proposals)采用的是选择搜索(Selective Search)，主要通过颜色、边缘等从下至上对图像进行分割。再对分割区域进行不同尺度的合并，每生成一个区域即为候选区域，该算法工作原理如附图1所示，流程如下：①输入图像：输入待检测的图像，送入网络；②候选区域选择：目标图像是由滑动窗口获取的，模型接收图像并提取约2000个自下而上的候选区域，参照proposal提取到的目标图像作归一化运算，输入到CNN；③CNN特征提取：使用大型CNN计算每个候选区域的特征，再依据输入，进行卷积、池化等运算，可以得到固定维度的输出；④分类与边界回归：对③得到的输出进行分类，再由边界回归得到目标区域。

其次，说明Fast R-CNN：

受SPPnet启发，Girshick做了进一步改进，2015年提出Fast R-CNN，其网络结构如附图2所示，Fast R-CNN引入RoI(Region of Interest)池化层，它可以将大小不一的候选框卷积特征映射提取为固定大小的特征。Fast R-CNN整合了深度网络、支持向量机(SVM)分类。实验证明，在Pascal VOC数据集上，Fast R-CNN的训练时间较R-CNN缩短了8/9；

Fast R-CNN的输入由两部分组成：①等待处理的图像；②候选区域(regionproposal)。在处理时，首先卷积核池化获取特征图。因为会有多个候选区域，系统会有一个甄别，即判断RoI。RoI池化层可以提取到特征向量，每一个特征向量都会被输送到全连接层的序列当中，全连接层有两个输出层：一层用来分类，另一层产生每个对象类坐标信息。

再次，说明Faster R-CNN：

Faster R-CNN将分步进行的操作统一到一个网络框架内，在检测速度较快的同时达到了较高的检测准确率，Faster R-CNN通过区域生成网络(RPN)替代选择搜索，实现完全的end-to-end学习，Faster R-CNN整体流程如附图3所示，包括：①卷积层：用来提取特征，输入整个图片，而输出是提取的特征，即特征图；②RPN：用来推荐候选区域，实现目标定位功能；③RoI_pooling：和Fast R-CNN一样，将不同大小的输入转换为定长度输出；④分类与回归：输出最终结果，候选区域的类别以及候选区域的确切位置。

可以看出，R-CNN、Fast R-CNN和Faster R-CNN比较如表1所示：

表1

本发明提出了一种基于Faster R-CNN的戏曲卡通人物的分类方法，包括以下步骤：

S3：对提取出的特征图进行分类识别，得出识别结果图。

进一步地，步骤S1中所述的制作戏曲图片数据集通过对现有图片运用数据增强技术进行处理，并且对图片手工标注，最后将标注结果制作成VOC2007数据集格式；

优选地，所述数据增强技术包括：竖直翻转，镜像，随机角度旋转，高斯噪声，用以解决样本数据单一的问题。

在深度学习中，如果一味的加深网络层，则会导致梯度弥散或梯度爆炸，出现准确率下降，错误率上升，即：退化。当模型变得复杂时，随机梯度下降算法(SGD)优化起来比较困难，达不到好的学习效果。传统方法在解决退化问题时，一般采用数据初始化、正则化，这种方法解决了梯度问题，深度增加了，但是随之而来的问题就是网络性能的退化。针对退化和梯度问题，提出了残差结构，其结构如附图4所示。

对于“退化”问题，ResNet中提出了两种解决方法：①identity mapping，指的是图中曲线；②residual mapping，指的是除去曲线的部分，最终输出为y＝F(x)+x。只做了简单的加法运算，它不会增加计算量，在很大程度上提高了模型的训练效果和训练速度。

参考附图4可以看出，残差块的结构图分为两层，在“捷径”同等维度映射时，F(x)与x进行元素逐个累加。F定义为：

F＝W₂σ(W₁x) (1)，

其中σ表示Relu函数。然后通过一个“捷径”和另外一个ReLU，输出y，如公式(2)所示。

y＝F(x,{W_i})+x (2)，

如果改变输入与输出维度，对x进行线性变换Ws，得出公式(3)：

y＝F(x,{W_i})+W_sx (3)，

haoqing Ren等人提及使用残差网络代替VGG16，mAP从41.5％增加到48.4％，因此在本发明中更换原始Faster R-CNN算法特征提取网络VGG16，采用了性能较好的ResNet50网络模型对戏曲卡通人物进行训练。

进一步地，步骤S2中所述的特征提取网络采用50层残差网络ResNet50，本文改进后的网络模型如附图5所示的ResNet50+RPN架构。

在原始Faster R-CNN中，对检测识别较大目标时效果较佳，但是对于一些需要区分细节的目标时，效果却不是很好，因此结合本文数据集的特点，采用融合FPN的RPN，对戏曲卡通人物进行检测识别，融合后的网络结构如附图7所示：

FPN可以融合更多的浅层特征，在图7中，经过3*3的卷积与RPN和FPN融合作用后，产生一系列对目标定位的候选框，最后根据产生的得分来筛选和精修候选框的位置。此外，也实现了共享1*1的卷积和3*3的卷积，要求各阶层输出的通道必须一致，这样有相同的参数可供使用；

FPN并不是一个完整的目标检测网络，它只是一个特征金字塔网络。因此，FasterR-CNN加上FPN的思想，本质上是改了特征提取部分，特征层变多了，因此RoI_pooling也增加了。FPN使用CNN级别的特征金字塔形式，可以生成强大的语义信息。因此，FPN设计了三种结构，分别是：自上而下结构，自下而上和横向连接结构。FPN在金字塔的所有层进行独立预测。全连接网络(FCN)同样进行了融合，但是最后只在单个层进行的预测。实验表明FPN效果较好。FPN把滑动窗口检测器大小固定，在金字塔的不同层滑动时可以提高其对缩放变化的鲁棒性。结合低层高分辨率的特征时，自上而下的结构采用的方法是：更抽象，语义强的高层特征图作上采样操作，再横向连接至前一层特征。所以，加强了高层特征。为了使用低层的定位细节，两层特征的横向连接要素空间大小应保持一样，构造自上而下的结构与横向连接，细节如附图6所示：

在图6中通过对高层特征作2倍上采样操作，合并上采样图与自下而上图，再和前一层特征经过1*1卷积核后做像素间的加法运算。一直迭代重复此过程。开始迭代时，经过1*1的卷积核可以生成粗略的分辨率图；接着在合并图上附加3*3的卷积核对已经融合的特征图进行处理，减少上采样的混叠效应，生成最终特征图。其中，把3*3卷积后的输出通道d＝256为固定值，这样后面的应用可以在所有层级共享分类层。

RoI_pooling作为Fast R-CNN的核心，不同大小的RoI采用不同的特征层，尺度较大一点的RoI使用后面特征层，比如附图7中的P5；尺度较小一点的RoI使用前面的特征层，比如附图7中的P4。在判断RoI用到哪个层的输出时，定义一个系数Pk，Pk是由公式(4)将宽度w和高度h的RoI分配给FPN的等级，即采用公式：

ImageNet的标准输入值224，k0作为基准值，值为5，代表P5层的输出。RoI区域的长和宽分别用w和h表示。k值做取整处理，用来避免结果不是整数；

至此，步骤S2中对输入的戏曲卡通图片进行特征提取的具体操作包括：

S21：先将原始图像送入底层网络利用ResNet网络得到特征图；

S22：在图6中，左边从下至上分别为1，2，3层，右边从上至下分别为4，5，6层，左边为预训练网络得到的特征，对第2层进行1*1的降维操作，然后与第3层上采样之后的结果进行相加，得到第5层，即FPN操作；

S23：第6层同上操作，然后对于得到的4，5，6层进行RPN操作得到regionproposal，通过3*3的卷积之后连接分类层和回归层；

S24：将上一步输出进行Roi_pooling操作，得到固定特征的大小；

S25：最后，连接两个1024层的全连接层，然后分两个支路，连接最后对应的分类层和回归层，输出最终结果，候选区域的类别以及候选区域的确切位置。

实施例：

数据集：

数据集对于有监督学习算法十分重要。由于戏曲日渐衰落，少有人关注，没有现成数据集可以使用，需要制作数据集(即本发明中的步骤1)。实验表明，数据过少时，深度学习的模型和参数一般都比较复杂，容易导致过拟合，模型精度过小，达不到预期效果。

并且，戏曲是小众的艺术门类，鲜有人关注，数据较少，所以使用了数据增强技术，来弥补数据集小的缺点。对现有图片进行数据增强，得到6000张图片。本文数据集采用了VOC2007数据集格式。有三个文件夹，分别是：Annotions，用来存储戏曲卡通人物的坐标信息，以XML文件方式存储；ImageSets，为整个数据集分配训练集，测试集，验证集，以txt文档格式存储；JPEGImages，存储的是与第一个文件Annotions相对应的6000张图片。

然后对图片进行标注，分类遵循戏曲行当的分类。考虑需要达到一定的学习和引导作用，所以对生、旦、净、末、丑进行了细分。对每一个大类中的人物，再根据年龄，性格，脸谱，衣着等不同，最终分为18类。由于找到的图片有限，每个类别的数目分布不均衡，为了实验方便记录，在表2中对分类名称进行编号，在表3中给出对应中文释义。

表2分类名称对应编号

分类名称	编号	分类名称	编号
				lao sheng	1	lao dan	10
xiao sheng	2	hei lian	11
				wa wa sheng	3	lao lian	12
wu sheng	4	bai lian	13
				mo	5	hua lian	14
qing yi	6	fang jin chou	15
				hua dan	7	guan yi chou	16
gui men dan	8	yao bao chou	17
				wu dan	9	wu chou	18

表3分类编号对应中文释义

编号	中文释义	编号	中文释义
				1	老生	10	老旦
2	小生	11	黑脸
				3	娃娃生	12	老脸
4	武生	13	白脸
				6	青衣	15	方巾丑
7	花旦	16	官衣丑
				8	闺门旦	17	腰包丑
9	武旦	18	武丑

接着对每张图片进行手工标注，在实验中使用的是精灵标注助手软件，且只对人物面部进行标注，当图片标注好之后，数据集就制作完成了。

最后对6000张图片按照训练集：验证集：测试集＝6：2：2划分，具体数据比例如表4所示。

表4数据集分配比例

实验所用数据集	训练集	验证集	测试集
				6000张	3600张	1200张	1200张

实验结果：

1、基于ResNet50网络模型实验结果分析

检测识别效果的评价指标采用平均精度(Average Precision，AP)、平均精度均值(mean Average Precision，mAP)和耗时三个指标。实验中对戏曲卡通人物的标注分为18类，加上背景一共是19类。基于ResNet50残差网络实验结果如表5所示：

表5基于ResNet50实验结果各类别AP值

在划分数据集时，其中1200张作为测试集，当完成模型的训练之后，进行预测，耗时969.58秒，然后再对数据集进行交叉验证，整个评估过程用时973.36秒，得出mAP＝0.68。表5中各个分类的AP有差距，在前面提及到如果数据集过小，容易导致过拟合，模型精度过小，达不到预期效果。6000张图片中，老旦(编号10)和白脸(编号13)数量较少，影响了模型精度，总的来看，这两类识别效果较差。

在戏曲中，一般把人物分为生、旦、净、末、丑，部分戏曲人物类别识别结果如附图8(a)-(h)所示。

2、融合FPN实验结果分析

在上述Faster R-CNN算法使用的是ResNet50网络模型而并未融合FPN，结合附图8(h)可以看出其中lao dan的AP＝0.27，识别效果不佳，虽然，采用残差网络解决了梯度下降与梯度爆炸的问题，随着网络层次的加深，网络性能得到了提升，但仍然需要对其算法改进，在Faster R-CNN进行目标识别时，RoI映射到某个特征图的计算方式：底层坐标与步长的比值，越到最后面，值就越小，甚至可能为0。FPN的出现就是用来解决多尺度检测问题。使用本发明提出的方法融合FPN后，模型对各类戏曲卡通人物识别的AP如表6所示；在相同实验环境条件下，实验结果对比如表7所示。

表6融合FPN改进之后实验结果的各类别AP值

表7基于不同网络模型的实验结果对比

模型	mAP	预测耗时/s	评估耗时/s
				Faster R-CNN	0.68	969.58	973.36
Faster R-CNN+FPN	0.80	975.23	992.66

实验结果表明，采用FPN对模型进行优化改进，识别精度提升了12个百分点，尤其是对lao dan这一类人物的检测从0.27提升到0.64，即基于ResNet50的方法中对lao dan识别结果的AP＝0.27，起不到引导认识戏曲人物的作用，在引入FPN之后，识别结果AP＝0.64，相比较而言，有了很大的提升，可以看出本发明中采用Faster R-CNN融合FPN大大提高了模型的识别能力。

结合附图9(a)-(b)可以看出，Faster R-CNN+FPN对lao dan的识别结果均只有一个检测框，且AP较高；

结合附图10(c)-(d)可以看出，未融合FPN的Faster R-CNN在识别时mo时将一个目标识别出两个检测框，容易造成认知上的误解，而Faster R-CNN+FPN识别mo时，识别出的结果只有一个检测框，检测结果更准确；

结合附图11(e)-(f)可以看出，Faster R-CNN在识别fang jin chou这个目标时，识别出两个检测框，而Faster R-CNN+FPN在识别fang jin chou时只识别出一个检测框，不会造成认知上的误解；

综上所述，进一步可以看出利用本发明中提出的方法即融合FPN对Faster R-CNN模型改进后，其实验结果在很大程度上避免了一个目标出现两个检测框的情况，识别结果的AP值也更高，能够有效提高戏曲人物识别的准确率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于Faster R-CNN的戏曲卡通人物的分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Faster R-CNN的戏曲卡通人物的分类方法，其特征在于：步骤S1中所述的制作戏曲图片数据集通过对现有图片运用数据增强技术进行处理，并且对图片手工标注，最后将标注结果制作成VOC2007数据集格式。

3.根据权利要求1所述的基于Faster R-CNN的戏曲卡通人物的分类方法，其特征在于：步骤S2中所述的特征提取网络采用50层残差网络ResNet50。

4.根据权利要求1所述的基于Faster R-CNN的戏曲卡通人物的分类方法，其特征在于：步骤S2中对输入的戏曲卡通图片进行特征提取的具体操作包括：

S22：利用RPN推荐出候选区域，用于实现目标定位功能；