CN114359956B

CN114359956B - 一种基于图像转换的半监督行人检测方法

Info

Publication number: CN114359956B
Application number: CN202111499395.0A
Authority: CN
Inventors: 李高哲; 吴斯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2024-05-10
Anticipated expiration: 2041-12-09
Also published as: CN114359956A

Abstract

本发明公开了一种基于图像转换的半监督行人检测方法，首先在目标场景用少量的标注数据训练一个初始检测器，对目标场景和外部场景的无标注数据作预测，作为伪标注，截取出行人图像。然后用目标场景和外部场景的行人图像训练一个用于图像转换的神经网络，行人的风格和内容被解耦，在保持行人内容一致性的同时，可将外部场景的行人图像转换成目标场景的风格。转换后的行人图像被用于训练一个分类器，进一步筛选出半监督行人检测中的伪标注，得到更高质量的伪标注。伪标注与少量的标注数据一起作为训练数据，训练一个新的行人检测的检测器，提升行人检测的性能，完成行人检测的任务，最终得到更好的行人检测效果。

Description

一种基于图像转换的半监督行人检测方法

技术领域

本发明涉及行人检测的技术领域，尤其是指一种基于图像转换的半监督行人检测方法。

背景技术

行人检测是目标检测的一个分支，在自动驾驶，安防领域都有广阔的应用前景。主要内容是将图像中的行人识别并定位出来，如今通过人工智能的方法实现行人检测已经有许多成功的案例，特别是深度学习，或者说神经网络的兴起，进一步提高了行人检测的性能。

在数据量足够的情况下，行人检测的效果往往比较理想。然而，对每个应用场景都标注图像的成本是十分昂贵的，所以在有限的数据下训练一个稳健的行人检测器仍然是一个很大的挑战。由此，半监督行人检测的问题被提出，半监督即数据集只有少量的标注样本，而其他的样本都是无标注的，在此之前的与半监督有关的方法，大部分都是直接使用训练好的模型，在无标注数据上打上伪标注，再用伪标注去重新训练模型。但是在本发明中，考虑了一个更有挑战的情况，就是在目标场景的数据多样性不足时，用无标注的外部场景的作为数据的补充。在自动驾驶的场景中，通过车载摄像头很容易就能够收集到大量未标注的场景图片，结合少量的标注样本，使用半监督机器学习来实现一个高效的行人检测方法。

但是外部场景的无标注数据会存在外部场景和目标场景的域间差异过大的问题。在本发明中设计了一种用于图像转换的神经网络，能将外部场景的数据转换为目标数据，对齐外部场景的数据和目标数据的分布差异，之后再将这些数据用于训练一个分类器，这个分类器负责对伪标注做进一步的筛选，最后得到更精确的伪标注，训练用于行人检测的神经网络。

发明内容

本发明的目的在于缓解目前半监督行人检测中数据量不足的问题，提供了一种基于图像转换的半监督行人检测方法，使用外部场景的无标注数据作为数据扩充，结合目标场景的数据中少量标注和大量无标注数据，一起训练一个用于行人检测的检测器(即神经网络)，最后提升行人检测的性能。

为了实现上述目的，本发明提供的技术方案为：一种基于图像转换的半监督行人检测方法，包括以下步骤：

S1、准备两个不同的数据集，因为不同的数据集之间场景风格不同，所以分别称这两个数据集的场景为外部场景和目标场景，其中目标场景是行人检测的最终测试场景；外部场景中全部为未标注数据，目标场景的数据分为标注数据和无标注数据；用目标场景的标注数据训练一个用于行人检测的神经网络，称该网络为初始检测器P_ini，然后使用初始检测器P_ini对所有的未标注数据做出预测，预测结果作为初始伪标注；这里目标场景的标注数据、目标场景的伪标注数据、外部场景的伪标注数据分别记为对应的行人图像分别记为/>

S2、将外部场景的数据的场景风格转换成目标场景的风格；和/>合并成为目标场景上的训练数据，即行人图像x^t，本步骤的目的是在保持行人图像内容不变的情况下，将的场景风格转换成x^t的风格，为此使用外部场景和目标场景的行人图像训练一个用于图像转换的神经网络，通过重构损失函数和生成对抗网络约束神经网络的学习过程，学习完成后该神经网络能够生成具有目标场景风格，但同时又有外部场景行人内容的行人图像；

S3、在步骤S2中得到转换完成的行人图像后，使用这些图像与目标场景的行人图像x^t一起，训练一个同样是神经网络结构的分类器C，用于分类行人与背景；

S4、使用分类器C对步骤S1中产生的初始伪标注进一步筛选，和/>被输入进分类器C中，输出结果为预测分数，按照预测分数筛选出对应的伪标注，作为最后使用的伪标注，记为X_s；

S5、使用和X_s作为训练数据，以步骤S1中初始检测器P_ini的网络权重作为初始化参数，训练一个与P_ini同样结构但参数不同的用于行人检测的神经网络P_new，最后得到新的检测器，完成行人检测的任务。

进一步，在步骤S1中，行人检测的数据采集自两个不同的行人检测数据集，这类数据集的形式是图片加上标注，图片是自动驾驶车载摄像头拍摄的场景图，包含行人，而标注形式为矩形框，具有矩形四个角的坐标，能够包含场景图中的行人，每个行人都有一个自己的矩形框标注；仅用目标场景的标注数据训练的初始检测器P_ini，能够在无标注的场景图上预测出行人的矩形框坐标，以预测分数大于预设阈值的预测结果作为初始伪标注；在训练由CSP检测网络组成的用于行人检测的神经网络时，数据使用的是场景图加矩形框标注而在训练由数层卷积神经网络组成的用于图像转换的神经网络时，数据使用的是从场景图上用矩形框截取下来的行人图像/>

进一步，在步骤S2中，需要从场景风格中分离出行人实例的内容，对于不同的数据集，由于拍摄地点和设备的不同，在场景风格上会有差别，而不同数据集中行人图像的语义内容都是行人，所以这里假设不同的数据集的风格都是不同的，但内容是相同的；为此训练一个由数层卷积神经网络组成的用于图像转换的神经网络，该神经网络采用两个编码器E^t和E^e，上标t和e分别代表目标场景和外部场景，编码器负责把行人图像编码成内容编码和风格编码，内容编码代表行人的形状和类别，而风格编码代表行人的场景风格，包括色调、明暗程度和对比度；目标场景上的内容编码记为c^t，风格编码记为s^t，外部场景上的内容编码记为c^e，风格编码记为s^e，接着还有两个解码器G^t和G^e，以内容编码和风格编码为输入，输出转换过后的行人图像；除此之外还有两个判别器D^t和D^e，用于拉近不同场景之间的分布；编码器和解码器首先要学会如何重构样本，所以定义了一个图像重构的损失函数L_rec：

L_rec＝|x^t-G^t(s^t,c^t)|+|x^e-G^e(s^e,c^e)|

对于每个随机选择的目标场景-外部场景的数据对，通过交换它们的风格编码来实现场景风格的转换，而输出的新样本表示为G^t(s^t,c^e)和G^e(s^e,c^t)；编码器必须能在新的样本上正确地估计风格编码和内容编码，所以对应的损失函数L_lat如下：

其中，代表在目标场景上编码出风格编码的编码器，/>代表在目标场景上编码出内容编码的编码器，/>代表在外部场景上编码出风格编码的编码器，/>代表在外部场景上编码出内容编码的编码器；

为了让不同场景之间的数据的分布匹配，保证生成的样本在改变场景风格编码和内容编码后依然真实，使用了两个判别器D^t和D^e，能够把场景间转换后生成的样本和真实的样本区分开；在生成对抗学习中，为了与D^t和D^e对抗，G^t和G^e需要生成更接近真实的行人样本，以匹配真实行人样本的分布，所以对抗训练中神经网络的生成部分的损失函数L_adv如下：

L_adv＝log(1-D^t(G^t(s^t,c^e)))+log(1-D^e(G^e(s^e,c^t)))

总的训练目标为：

最后，将所有外部场景的行人图像都转换成具有目标场景风格，但保持行人内容不变的行人图像。

进一步，在步骤S3中，分类器C的神经网络结构选用VGG16，训练数据中，正类为从目标场景的数据集图像上，使用标注和伪标注截取下来的行人图像的并集，即训练数据x^t，以及经过转换后的行人图像，这里记为G^t(s^t,c^e)，相应损失函数L_cls为：

L_cls＝-y₊log(C(x^t))-y₊log(C(G(s^t,c^e)))-y_{_}log(C(b^t))

其中，C是分类器，y₊代表正类标签，y_-代表负类标签，b^t为背景图像；完成训练后，分类器能根据输入的图像，输出此图像为行人的概率。

进一步，在步骤S4中，对伪标注的和/>作进一步筛选，具体做法是用形式为矩形检测框的伪标注，将行人图像从数据集图片中截取出来，输入分类器C，得到输出概率分数，去除分数低于预设阈值的输入图像对应的伪标注，这样就能够留下质量更好的伪标注X_s。

进一步，在步骤S5中，结合原来目标场景中已标注的数据以及伪标注X_s，并且以P_ini的网络权重作为初始化参数，训练一个与P_ini结构相同的神经网络P_new，作为最后的检测器，P_new比P_ini在行人检测任务上表现更好。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明结合多种神经网络，各个神经网络之间联合训练，最终提升了半监督行人检测的效果，并且具有良好的泛化性，可以与不同的行人检测框架结合。

2、本发明提出了一种用于图像转换的神经网络，能与半监督行人检测很好地适配，充分利用外部场景和目标场景的伪标注行人图像，并能使不同场景的风格和内容分离开，在数据上对齐外部场景和目标场景的分布差异，用于在目标场景上训练模型，而不会产生过大的场景不匹配的问题。采用重构损失，保证了不同场景的图像在像素点上的匹配，也用生成对抗网络的方法，让外部场景的数据分布能拉近目标场景。

3、本发明将半监督行人检测中如何更好利用伪标注的问题与外部场景转换到目标场景的问题做了结合，场景的转换直接在行人图像上完成，不需要考虑多余的背景图像，这样节省了资源，而后加入转换后的行人图像到分类器中，充分地利用了行人图像来提高分类器的性能，弥补了行人图像无法直接用于训练检测器的缺陷，转而利用分类器来进一步过滤伪标注，得到更好的伪标注之后再重新训练检测器，间接用转换后质量较好的行人图像来提高了检测器的效果，对半监督行人检测中使用伪标注的问题提供了较好的解决方案。

附图说明

图1为本发明方法的流程框图。

图2为本发明方法中图像转换以及分类器部分的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于图像转换的半监督行人检测方法，以检测模型在自动驾驶领域的数据集上的实现为例，其中外部场景来自Caltech数据集，目标场景来自CityPersons数据集，包括以下步骤：

S1、行人检测的数据采集自两个不同的行人检测数据集，分别是Caltech和CityPersons，具体说明如下：

这两个数据集的图像都是由车载摄像头在不同的城市场景中拍摄的。CityPersons由2,975张训练图像和1,575张测试图像组成。Caltech有11组视频，前6组(4,250张图像)用于训练，其余组(4,024张图像)用于测试。CityPersons中的行人密度接近7个，明显高于Caltech。

除非另有说明，仅随机抽取5％的训练图像并提供相应的标注，其余95％的训练图像用作未标注数据，没有任何标注。

这类数据集的形式是图片加上标注，图片是自动驾驶车载摄像头拍摄的场景图，包含行人，而标注形式为矩形框，具有矩形四个角的坐标，能够包含场景图中的行人，每个行人都有一个自己的矩形框标注；仅用目标场景的标注数据训练的初始检测器P_ini，能够在无标注的场景图上预测出行人的矩形框坐标，以预测分数大于预设阈值的预测结果作为初始伪标注；在训练由CSP检测网络组成的用于行人检测的神经网络时，数据使用的是场景图加矩形框标注而在训练由数层卷积神经网络组成的用于图像转换的神经网络时，数据使用的是从场景图上用矩形框截取下来的行人图像/>

S2、如图2所示，需要从场景风格中分离出行人实例的内容，对于不同的数据集，由于拍摄地点和设备的不同，在场景风格上会有差别，而不同数据集中行人图像的语义内容都是行人，所以这里假设不同的数据集的风格都是不同的，但内容是相同的；为此训练一个由数层卷积神经网络组成的用于图像转换的神经网络，该神经网络采用两个编码器E^t和E^e，上标t和e分别代表目标场景和外部场景，编码器负责把行人图像编码成内容编码和风格编码，内容编码代表行人的形状和类别，而风格编码代表行人的场景风格，包括色调、明暗程度和对比度；目标场景上的内容编码记为c^t，风格编码记为s^t，外部场景上的内容编码记为c^e，风格编码记为s^e，接着还有两个解码器G^t和G^e，以内容编码和风格编码为输入，输出转换过后的行人图像；除此之外还有两个判别器D^t和D^e，用于拉近不同场景之间的分布；编码器和解码器首先要学会如何重构样本，所以定义了一个图像重构的损失函数L_rec：

L_rec＝|x^t-G^t(s^t,c^t)|+|x^e-G^e(s^e,c^e)|

L_adv＝log(1-D^t(G^t(s^t,c^e)))+log(1-D^e(G^e(s^e,c^t)))

总的训练目标为：

这里分别用FID和RR量化评估了生成图像的质量，FID代表了生成图像与目标域图像在特征层面分布的相似度，RR代表了生成图像能被分类器分类为行人类别的概率。本发明均取得比以往方法更好的结果。

S3、在步骤S2中得到转换完成的行人图像后，使用这些图像与x^t一起，训练一个同样是神经网络结构的分类器C，用于分类行人与背景。分类器C的神经网络结构选用VGG16，训练数据中，正类为从目标场景的数据集图像上，使用标注和伪标注截取下来的行人图像的并集，即训练数据x^t，以及经过转换后的行人图像，这里记为G^t(s^t,c^e)，相应损失函数L_cls为：

L_cls＝-y₊log(C(x^t))-y₊log(C(G(s^t,c^e)))-y_-log(C(b^t))

S4、对伪标注的和/>作进一步筛选，具体做法是用形式为矩形检测框的伪标注，将行人图像从数据集图片中截取出来，输入分类器C，得到输出概率分数，去除分数低于预设阈值的输入图像对应的伪标注，这样就能够留下质量更好的伪标注X_s。

S5、结合原来目标场景中已标注的数据以及伪标注X_s，并且以P_ini的网络权重作为初始化参数，训练一个与P_ini结构相同的神经网络P_new，作为最后的检测器，P_new比P_ini在行人检测任务上表现更好。

最后训练完成后，在CityPersons数据集上评估了本方法，评估的标准是MissRate(MR)，数值越低代表模型的错误越少，效果越好。经过评估，本发明的效果要显著高于基准方法，值得推广。

以上所述实施例只为本发明之较佳实施例，但并不以此限制本发明方法的施用范围。故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于图像转换的半监督行人检测方法，其特征在于，包括以下步骤：

S2、将外部场景的数据的场景风格转换成目标场景的风格；和/>合并成为目标场景上的训练数据，即行人图像x^t，本步骤的目的是在保持行人图像内容不变的情况下，将/>的场景风格转换成x^t的风格，为此使用外部场景和目标场景的行人图像训练一个用于图像转换的神经网络，通过重构损失函数和生成对抗网络约束神经网络的学习过程，学习完成后该神经网络能够生成具有目标场景风格，但同时又有外部场景行人内容的行人图像；

需要从场景风格中分离出行人实例的内容，对于不同的数据集，由于拍摄地点和设备的不同，在场景风格上会有差别，而不同数据集中行人图像的语义内容都是行人，所以这里假设不同的数据集的风格都是不同的，但内容是相同的；为此训练一个由数层卷积神经网络组成的用于图像转换的神经网络，该神经网络采用两个编码器E^t和E^e，上标t和e分别代表目标场景和外部场景，编码器负责把行人图像编码成内容编码和风格编码，内容编码代表行人的形状和类别，而风格编码代表行人的场景风格，包括色调、明暗程度和对比度；目标场景上的内容编码记为c^t，风格编码记为s^t，外部场景上的内容编码记为c^e，风格编码记为s^e，接着还有两个解码器G^t和G^e，以内容编码和风格编码为输入，输出转换过后的行人图像；除此之外还有两个判别器D^t和D^e，用于拉近不同场景之间的分布；编码器和解码器首先要学会如何重构样本，所以定义了一个图像重构的损失函数L_rec：

L_rec＝|x^t-G^t(s^t,c^t)|+|x^e-G^e(s^e,c^e)|

L_adv＝log(1-D^t(G^t(s^t,c^e)))+log(1-D^e(G^e(s^e,c^t)))

总的训练目标为：

最后，将所有外部场景的行人图像都转换成具有目标场景风格，但保持行人内容不变的行人图像；

2.根据权利要求1所述的一种基于图像转换的半监督行人检测方法，其特征在于：在步骤S1中，行人检测的数据采集自两个不同的行人检测数据集，这类数据集的形式是图片加上标注，图片是自动驾驶车载摄像头拍摄的场景图，包含行人，而标注形式为矩形框，具有矩形四个角的坐标，能够包含场景图中的行人，每个行人都有一个自己的矩形框标注；仅用目标场景的标注数据训练的初始检测器P_ini，能够在无标注的场景图上预测出行人的矩形框坐标，以预测分数大于预设阈值的预测结果作为初始伪标注；在训练由CSP检测网络组成的用于行人检测的神经网络时，数据使用的是场景图加矩形框标注而在训练由数层卷积神经网络组成的用于图像转换的神经网络时，数据使用的是从场景图上用矩形框截取下来的行人图像/>

3.根据权利要求1所述的一种基于图像转换的半监督行人检测方法，其特征在于：在步骤S3中，分类器C的神经网络结构选用VGG16，训练数据中，正类为从目标场景的数据集图像上，使用标注和伪标注截取下来的行人图像的并集，即训练数据x^t，以及经过转换后的行人图像，这里记为G^t(s^t,c^e)，相应损失函数L_cls为：

L_cls＝-y₊log(C(x^t))-y₊log(C(G(s^t,c^e)))-y-log(C(b^t))

其中，C是分类器，y₊代表正类标签，y-代表负类标签，b^t为背景图像；完成训练后，分类器能根据输入的图像，输出此图像为行人的概率。

4.根据权利要求1所述的一种基于图像转换的半监督行人检测方法，其特征在于：在步骤S4中，对伪标注的和/>作进一步筛选，具体做法是用形式为矩形检测框的伪标注，将行人图像从数据集图片中截取出来，输入分类器C，得到输出概率分数，去除分数低于预设阈值的输入图像对应的伪标注，这样就能够留下质量更好的伪标注X_s。

5.根据权利要求1所述的一种基于图像转换的半监督行人检测方法，其特征在于：在步骤S5中，结合原来目标场景中已标注的数据以及伪标注X_s，并且以P_ini的网络权重作为初始化参数，训练一个与P_ini结构相同的神经网络P_new，作为最后的检测器，P_new比P_ini在行人检测任务上表现更好。