CN112183456B

CN112183456B - 基于样本生成和域适应的多场景运动目标检测方法及装置

Info

Publication number: CN112183456B
Application number: CN202011115581.5A
Authority: CN
Inventors: 陈海鹏; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-07-02
Anticipated expiration: 2040-10-19
Also published as: CN112183456A

Abstract

本发明提供了一种基于样本生成和域适应的多场景运动目标检测方法及装置，其中方法包括：采集原始数据，其中，原始数据为视频图像，包括主体数据和待增广数据，主体数据进行运动目标标注，待增广数据无需进行运动目标标注；将待增广数据利用数据生成模型进行数据生成，得到增广数据；融合原始数据以及增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型；对于数据源域中包含的常见场景，使用运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将运动目标检测模型扩展至目标域后进行检测。

Description

基于样本生成和域适应的多场景运动目标检测方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种基于样本生成和域适应的多场景运动目标检测方法及装置。

背景技术

运动目标检测是指将图像序列或视频中发生空间位置变化的物体作为前景提出并标示的过程，在现实场景中通过区分前背景，对正在运动的目标进行实时检测，广泛应用于智能监控、多媒体应用等领域。运动目标检测技术在对视力障碍人群进行辅助感知上也具有重要作用，可以有效避免视障患者在行走过程中被运动物体撞到，提升他们出行的安全性。

现有基于深度学习的运动目标检测方案首先融合CNN提取的图像特征和SIFT光流特征，然后基于高斯过程回归超分辨率重建CNN光流，并对光流进行加权平均处理，最后结合自适应阈值进行高精度运动目标检测。

然而，现有技术无法自动覆盖多种场景，适用场景范围依赖于数据采集，需要花费巨大的人力物力在多种常见场景下采集大量的数据。对于训练数据中没有覆盖到的新场景，现有方法的效果会出现明显的下降。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于样本生成和域适应的多场景运动目标检测方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种基于样本生成和域适应的多场景运动目标检测方法，包括：采集原始数据，其中，原始数据为视频图像，包括主体数据和待增广数据，主体数据进行运动目标标注，待增广数据无需进行运动目标标注；将待增广数据利用数据生成模型进行数据生成，得到增广数据；融合原始数据以及增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型；对于数据源域中包含的常见场景，使用运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将运动目标检测模型扩展至目标域后进行检测。

其中，将待增广数据利用数据生成模型进行数据生成，得到增广数据包括：利用数据生成网络将主体数据和待增广数据生成待标注增广数据，利用数据标注迁移模块将主体数据中的标注迁移至待标注增广数据中，得到增广数据。

其中，数据生成网络采用循环生成对抗网络，包括第一生成器和第一判别器以及第二生成器和第二判别器，第一生成器和第一判别器与第二生成器和第二判别器具有对称性，第一生成器基于主体场景生成第二场景数据，第二生成器基于第二场景数据生成第一场景数据，第一判别器和第二判别器分别用于判断生成的图像数据为生成图像或原始采集图像；第一生成器和第二生成器采用同种损失函数进行监督，其中，损失函数包括：对抗损失和循环一致性损失；数据标注迁移模块通过物体的结构一致性将标注内容直接从源图像向目标图像进行迁移。

其中，基于光流网络和卷积神经网络的运动目标检测模型包括：基于FlowNet的光流检测网络和以EfficientNet为骨干网络的CNN特征提取网络。

其中，利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型包括：在训练阶段，随机采样视频图像中提取的一对图像帧，分别为当前图像帧和图像关键帧，将图像关键帧送入CNN特征提取网络提取深层特征，对于当前图像帧，计算当前图像帧与图像关键帧的光流，利用光流将图像关键帧的深层特征通过双线性插值方法传播至当前图像帧，两路网络各自连接头部检测器进行目标检测任务的训练；其中，视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧；在测试阶段，对于每张关键帧图像，使用CNN特征提取网络进行预测，对于非关键帧图像，使用光流检测网络进行预测。

其中，域适应方法包括：输入视频图像帧，通过卷积或光流网络得到深度特征图，将深度特征图通过两个不同级别的域分类器执行如下操作：一、继续通过区域建议网络,感兴趣区域池化层和全连接层得到进行分类和定位前的最终特征，最终特征通过一个梯度反转层和全连接层后进行实例级别的域分类；二、直接通过一个梯度反转层和卷积层后进行图像级别的域分类。

其中，方法还包括：当使用运动目标检测模型进行检测，检测场景为从未出现过的新场景时，将源场景和目标场景标记为不同类别，训练两个不同级别的域分类器。

本发明另一方面提供了一种基于样本生成和域适应的多场景运动目标检测装置，包括：采集模块，用于采集原始数据，其中，原始数据为视频图像，包括主体数据和待增广数据，主体数据进行运动目标标注，待增广数据无需进行运动目标标注；生成模块，用于将待增广数据利用数据生成模型进行数据生成，得到增广数据；融合模块，用于融合原始数据以及增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；训练模块，用于利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型；检测模块，用于对于数据源域中包含的常见场景，使用运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将运动目标检测模型扩展至目标域后进行检测。

其中，生成模块通过如下方式将待增广数据利用数据生成模型进行数据生成，得到增广数据：生成模块，具体用于利用数据生成网络将主体数据和待增广数据生成待标注增广数据，利用数据标注迁移模块将主体数据中的标注迁移至待标注增广数据中，得到增广数据。

其中，训练模块通过如下方式利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型：训练模块，具体用于在训练阶段，随机采样视频图像中提取的一对图像帧，分别为当前图像帧和图像关键帧，将图像关键帧送入CNN特征提取网络提取深层特征，对于当前图像帧，计算当前图像帧与图像关键帧的光流，利用光流将图像关键帧的深层特征通过双线性插值方法传播至当前图像帧，两路网络各自连接头部检测器进行目标检测任务的训练；其中，视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧；在测试阶段，对于每张关键帧图像，使用CNN特征提取网络进行预测，对于非关键帧图像，使用光流检测网络进行预测。

其中，装置还包括：域分类器训练模块，用于当使用运动目标检测模型进行检测，检测场景为从未出现过的新场景时，将源场景和目标场景标记为不同类别，训练两个不同级别的域分类器。

由此可见，通过本发明提供的基于样本生成和域适应的多场景运动目标检测方法及装置，使用生成模型产生多种场景数据加入到训练和测试过程中，节省数据成本；对于训练数据中未出现过的新场景，使用域适应方法，将模型进行迁移，无需进行重训练即可提升检测可靠性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法的流程图；

图2为本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法的一种具体流程图；

图3为本发明实施例提供的数据生成整体流程示意图；

图4为本发明实施例提供的数据生成网络架构示意图；

图5为本发明实施例提供的运动目标检测模型示意图；

图6为本发明实施例提供的域适应方法模型示意图；

图7为本发明实施例提供的基于样本生成和域适应的多场景运动目标检测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1和图2示出了本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法的流程图，以下结合图1和图2对本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法进行说明，本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法，包括：

S1，采集原始数据，其中，原始数据为视频图像，包括主体数据和待增广数据，主体数据进行运动目标标注，待增广数据无需进行运动目标标注。

具体地，首先进行数据采集和预处理。建立一个初步的数据集，数据形式为视频图像，主体数据包含几种最常见的户外场景，如白天城市商业区、白天城市居民区等，这部分数据占据数据集总量约80％，并进行运动目标标注。另外20％数据量为需要增广到的场景，例如夜晚城市商业区，夜晚郊区等，这部分数据用于进行场景生成，不需要进行标注。

S2，将待增广数据利用数据生成模型进行数据生成，得到增广数据。

具体地，利用生成模型进行数据生成，在已有场景基础上产生变化进行数据增广，例如依据白天场景生成对应夜晚场景，依据春季场景生成冬季场景，从而达到以有限数据去增广至更丰富场景的效果。

作为本发明实施例的一个可选实施方式，将待增广数据利用数据生成模型进行数据生成，得到增广数据包括：利用数据生成网络将主体数据和待增广数据生成待标注增广数据，利用数据标注迁移模块将主体数据中的标注迁移至待标注增广数据中，得到增广数据。

此外，本发明也可以通过图像差分、背景减除的方案分离前背景，然后将前背景进行合理的重新组合得到新数据。

具体地，参见图3，数据生成阶段，利用数据集中有标注的场景A数据和无标注的场景B数据来生成无标注场景B数据(即待标注场景B数据)并自动得到标注信息。主要组成部分为数据生成网络和数据标注迁移模块，生成的有标注场景B数据可作为运动目标检测网络的训练数据使用。

作为本发明实施例的一个可选实施方式，数据生成网络采用循环生成对抗网络，包括第一生成器和第一判别器以及第二生成器和第二判别器，第一生成器和第一判别器与第二生成器和第二判别器具有对称性，第一生成器基于主体场景生成第二场景数据，第二生成器基于第二场景数据生成第一场景数据，第一判别器和第二判别器分别用于判断生成的图像数据为生成图像或原始采集图像；第一生成器和第二生成器采用同种损失函数进行监督，其中，损失函数包括：对抗损失和循环一致性损失；数据标注迁移模块通过物体的结构一致性将标注内容直接从源图像向目标图像进行迁移。

具体地，参见图4，使用循环生成对抗网络(CycleGAN)，同时训练两组生成网络和判别网络。这两组网络具有对称性，生成器A基于场景A数据生成场景B数据，生成器B基于场景B数据生成场景A数据，判别器A和B分别用于判断生成的图像数据为生成图像或原始采集图像。两个生成器都用同种损失函数进行监督，损失函数有两部分，一是对抗损失(adversarial loss),用于尽可能让生成器生成的数据接近于真实的数据分布，保证生成图像的前景物体例如色彩、形状等信息损失尽可能的小。并且用于同时利用生成对抗网络造图的一些弊端生成噪音，配合其他数据增强方法，例如翻转，随机擦除等避免过拟合的产生。二是循环一致性损失(cycle consistency loss)，用于让两个生成器生成的样本之间不要相互矛盾，使得两种场景间的图像具有对应性，即可以达到由场景A生成场景B再还原回场景A的迁移过程。数据标注迁移可以通过物体的结构一致性将标注内容直接从源图像向目标图像进行迁移。

S3，融合原始数据以及增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；

S4，利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型。

具体地，具体地，融合原始数据和生成数据并进行切分，例如按场景比例划分训练集：验证集：测试集为8：1：1，在此融合数据集上训练和测试基于光流网络和卷积神经网络的运动目标检测模型。

作为本发明实施例的一个可选实施方式，基于光流网络和卷积神经网络的运动目标检测模型包括：基于FlowNet的光流检测网络和以EfficientNet为骨干网络的CNN特征提取网络。

作为本发明实施例的一个可选实施方式，利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型包括：在训练阶段，随机采样视频图像中提取的一对图像帧，分别为当前图像帧和图像关键帧，将图像关键帧送入CNN特征提取网络提取深层特征，对于当前图像帧，计算当前图像帧与图像关键帧的光流，利用光流将图像关键帧的深层特征通过双线性插值方法传播至当前图像帧，两路网络各自连接头部检测器进行目标检测任务的训练；其中，视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧；在测试阶段，对于每张关键帧图像，使用CNN特征提取网络进行预测，对于非关键帧图像，使用光流检测网络进行预测。

具体地，参见图5，在运动目标检测模型训练阶段，采用基于FlowNet的光流检测网络和以EfficientNet为骨干网络(backbone)的CNN特征提取网络联立，在中间层进行特征融合后，最后对运动目标进行检测。首先将视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧，这种分类可以通过多种策略进行。在训练阶段，随机采样视频中提取的一对图像帧，分别为当前图像帧和图像关键帧，将关键帧送入CNN特征提取网络提取深层特征，对于当前图像帧，计算出其与关键帧的光流，再利用光流将关键帧的深层特征通过双线性插值方法传播至当前帧，之后两路网络各自连接头部检测器进行目标检测任务的训练。在测试阶段，对于每张关键帧图像，使用上方CNN部分网络进行预测，对于非关键帧图像，使用下方光流部分网络进行预测。

此外，值得说明的是，运动目标检测的检测器可以替换成单阶段检测器，卷积神经网络结构可以用多种骨干网络代替，光流网络可以选取其他相似网络结构代替。

S5，对于数据源域中包含的常见场景，使用运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将运动目标检测模型扩展至目标域后进行检测。

具体地，对于数据源域中包含的常见场景，使用模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将模型扩展至目标域后进行检测。

作为本发明实施例的一个可选实施方式，域适应方法包括：输入视频图像帧，通过卷积或光流网络得到深度特征图，将深度特征图通过两个不同级别的域分类器执行如下操作：一、继续通过区域建议网络,感兴趣区域池化层和全连接层得到进行分类和定位前的最终特征，最终特征通过一个梯度反转层和全连接层后进行实例级别的域分类；二、直接通过一个梯度反转层和卷积层后进行图像级别的域分类。

具体地，对于域适应方法，参见图6，左侧是运动目标检测网络，右侧为域适应模型结构。输入视频图像帧，通过卷积或光流网络得到深度特征图，一方面特征图继续通过区域建议网络(RPN),感兴趣区域(ROI)池化层和全连接层得到进行分类和定位前的最终特征，该特征通过一个梯度反转层(GRL)和全连接层后进行实例级别的域分类；另一方面特征图直接通过一个梯度反转层(GRL)和卷积层后进行图像级别的域分类。域分类器用于分类该图像所属的源域或目标域，两个域分类器通过一个一致性正则化损失相连，用于使区域建议网络获得域不变性。

作为本发明实施例的一个可选实施方式，本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法，还包括：当使用运动目标检测模型进行检测，检测场景为从未出现过的新场景时，将源场景和目标场景标记为不同类别，训练两个不同级别的域分类器。

具体地，当检测场景为从未出现过的新场景时，我们将源场景和目标场景标记为不同类别，而后训练两个不同级别的域分类器(实例级别和图像级别)，使其最终无法区分两个域的图像，这一过程能够在像素以及实例层面上拉近两个域之间的H散度。该域适应方法可以快速将模型迁移至新的目标场景而不带来太大的检测精度损失。

由此可见，利用本发明实施例提供的基于样本生成和域适应的多场景运动目标检测方法，针对户外场景变化复杂多样的问题，通过生成模型进行数据增强，产生多种场景的模拟数据进行训练和测试，以低廉的代价得到更多可用场景数据，节省了大量的数据成本，并有效提升模型鲁棒性；在模型应用时，针对训练数据无法覆盖到的新场景，通过域适应方法进行场景迁移，可以有效将模型迁移至新场景而不带来检测效果的明显下降，可以应对多种新目标域情况，提升检测效果。

图7示出了本发明实施例提供的基于样本生成和域适应的多场景运动目标检测装置的结构示意图，该基于样本生成和域适应的多场景运动目标检测装置应用上述方法，以下仅对基于样本生成和域适应的多场景运动目标检测装置的结构进行简单说明，其他未尽事宜，请参照上述基于样本生成和域适应的多场景运动目标检测方法中的相关描述，参见图7，本发明实施例提供的基于样本生成和域适应的多场景运动目标检测装置，包括：

采集模块，用于采集原始数据，其中，原始数据为视频图像，包括主体数据和待增广数据，主体数据进行运动目标标注，待增广数据无需进行运动目标标注；

生成模块，用于将待增广数据利用数据生成模型进行数据生成，得到增广数据；

融合模块，用于融合原始数据以及增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；

训练模块，用于利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型；

检测模块，用于对于数据源域中包含的常见场景，使用运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将运动目标检测模型扩展至目标域后进行检测。

作为本发明实施例的一个可选实施方式，生成模块通过如下方式将待增广数据利用数据生成模型进行数据生成，得到增广数据：生成模块，具体用于利用数据生成网络将主体数据和待增广数据生成待标注增广数据，利用数据标注迁移模块将主体数据中的标注迁移至待标注增广数据中，得到增广数据。

作为本发明实施例的一个可选实施方式，训练模块通过如下方式利用训练集和测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型：训练模块，具体用于在训练阶段，随机采样视频图像中提取的一对图像帧，分别为当前图像帧和图像关键帧，将图像关键帧送入CNN特征提取网络提取深层特征，对于当前图像帧，计算当前图像帧与图像关键帧的光流，利用光流将图像关键帧的深层特征通过双线性插值方法传播至当前图像帧，两路网络各自连接头部检测器进行目标检测任务的训练；其中，视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧；在测试阶段，对于每张关键帧图像，使用CNN特征提取网络进行预测，对于非关键帧图像，使用光流检测网络进行预测。

作为本发明实施例的一个可选实施方式，本发明实施例提供的基于样本生成和域适应的多场景运动目标检测装置，还包括：域分类器训练模块，用于当使用运动目标检测模型进行检测，检测场景为从未出现过的新场景时，将源场景和目标场景标记为不同类别，训练两个不同级别的域分类器。

由此可见，利用本发明实施例提供的基于样本生成和域适应的多场景运动目标检测装置，针对户外场景变化复杂多样的问题，通过生成模型进行数据增强，产生多种场景的模拟数据进行训练和测试，以低廉的代价得到更多可用场景数据，节省了大量的数据成本，并有效提升模型鲁棒性；在模型应用时，针对训练数据无法覆盖到的新场景，通过域适应方法进行场景迁移，可以有效将模型迁移至新场景而不带来检测效果的明显下降，可以应对多种新目标域情况，提升检测效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于样本生成和域适应的多场景运动目标检测方法，其特征在于，包括：

采集原始数据，其中，所述原始数据为视频图像，包括主体数据和待增广数据，所述主体数据进行运动目标标注，所述待增广数据无需进行运动目标标注；

将所述待增广数据利用数据生成模型进行数据生成，得到增广数据；

融合所述原始数据以及所述增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；

利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型；

对于数据源域中包含的常见场景，使用所述运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将所述运动目标检测模型扩展至目标域后进行检测；

其中：

所述将所述待增广数据利用数据生成模型进行数据生成，得到增广数据包括：

利用数据生成网络将所述主体数据和所述待增广数据生成待标注增广数据，利用数据标注迁移模块将所述主体数据中的标注迁移至所述待标注增广数据中，得到所述增广数据；

所述数据生成网络采用循环生成对抗网络，包括第一生成器和第一判别器以及第二生成器和第二判别器，所述第一生成器和所述第一判别器与所述第二生成器和所述第二判别器具有对称性，所述第一生成器基于所述主体场景生成第二场景数据，所述第二生成器基于第二场景数据生成第一场景数据，所述第一判别器和所述第二判别器分别用于判断生成的图像数据为生成图像或原始采集图像；所述第一生成器和所述第二生成器采用同种损失函数进行监督，其中，所述损失函数包括：对抗损失和循环一致性损失；

所述数据标注迁移模块通过物体的结构一致性将标注内容直接从源图像向目标图像进行迁移。

2.根据权利要求1所述的方法，其特征在于，所述基于光流网络和卷积神经网络的运动目标检测模型包括：基于FlowNet的光流检测网络和以EfficientNet为骨干网络的CNN特征提取网络。

3.根据权利要求2所述的方法，其特征在于，所述利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型包括：

在训练阶段，随机采样所述视频图像中提取的一对图像帧，分别为当前图像帧和图像关键帧，将所述图像关键帧送入所述CNN特征提取网络提取深层特征，对于所述当前图像帧，计算所述当前图像帧与所述图像关键帧的光流，利用光流将所述图像关键帧的深层特征通过双线性插值方法传播至当前图像帧，两路网络各自连接头部检测器进行目标检测任务的训练；其中，所述视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧；

在测试阶段，对于每张关键帧图像，使用所述CNN特征提取网络进行预测，对于非关键帧图像，使用所述光流检测网络进行预测。

4.根据权利要求1所述的方法，其特征在于，所述域适应方法包括：

输入视频图像帧，通过卷积或光流网络得到深度特征图，将所述深度特征图通过两个不同级别的域分类器执行如下操作：一、继续通过区域建议网络,感兴趣区域池化层和全连接层得到进行分类和定位前的最终特征，所述最终特征通过一个梯度反转层和全连接层后进行实例级别的域分类；二、直接通过一个梯度反转层和卷积层后进行图像级别的域分类。

5.根据权利要求4所述的方法，其特征在于，还包括：当使用所述运动目标检测模型进行检测，检测场景为从未出现过的新场景时，将源场景和目标场景标记为不同类别，训练所述两个不同级别的域分类器。

6.一种基于样本生成和域适应的多场景运动目标检测装置，其特征在于，包括：

采集模块，用于采集原始数据，其中，所述原始数据为视频图像，包括主体数据和待增广数据，所述主体数据进行运动目标标注，所述待增广数据无需进行运动目标标注；

生成模块，用于将所述待增广数据利用数据生成模型进行数据生成，得到增广数据；

融合模块，用于融合所述原始数据以及所述增广数据并进行切分，按照预设比例划分训练集、验证集和测试集；

训练模块，用于利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型；

检测模块，用于对于数据源域中包含的常见场景，使用所述运动目标检测模型进行检测，对于数据源域中不包含的新场景，使用域适应方法进行模型迁移，将所述运动目标检测模型扩展至目标域后进行检测；

其中：所述生成模块通过如下方式将所述待增广数据利用数据生成模型进行数据生成，得到增广数据：

所述生成模块，具体用于利用数据生成网络将所述主体数据和所述待增广数据生成待标注增广数据，利用数据标注迁移模块将所述主体数据中的标注迁移至所述待标注增广数据中，得到所述增广数据；

7.根据权利要求6所述的装置，其特征在于，所述基于光流网络和卷积神经网络的运动目标检测模型包括：基于FlowNet的光流检测网络和以EfficientNet为骨干网络的CNN特征提取网络。

8.根据权利要求7所述的装置，其特征在于，所述训练模块通过如下方式利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型：

所述训练模块，具体用于在训练阶段，随机采样所述视频图像中提取的一对图像帧，分别为当前图像帧和图像关键帧，将所述图像关键帧送入所述CNN特征提取网络提取深层特征，对于所述当前图像帧，计算所述当前图像帧与所述图像关键帧的光流，利用光流将所述图像关键帧的深层特征通过双线性插值方法传播至当前图像帧，两路网络各自连接头部检测器进行目标检测任务的训练；其中，所述视频图像分为关键帧和非关键帧两类，关键帧数量远小于非关键帧；在测试阶段，对于每张关键帧图像，使用所述CNN特征提取网络进行预测，对于非关键帧图像，使用所述光流检测网络进行预测。

9.根据权利要求6所述的装置，其特征在于，所述域适应方法包括：

10.根据权利要求9所述的装置，其特征在于，还包括：域分类器训练模块，用于当使用所述运动目标检测模型进行检测，检测场景为从未出现过的新场景时，将源场景和目标场景标记为不同类别，训练所述两个不同级别的域分类器。