CN109492522B

CN109492522B - 特定目标检测模型训练程序、设备及计算机可读存储介质

Info

Publication number: CN109492522B
Application number: CN201811081113.3A
Authority: CN
Inventors: 王坤峰; 王飞跃; 张文文; 刘雅婷; 鲁越
Original assignee: Qingdao Academy Of Intelligent Industries; Institute of Automation of Chinese Academy of Science
Current assignee: Qingdao Academy Of Intelligent Industries; Institute of Automation of Chinese Academy of Science
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2022-04-01
Anticipated expiration: 2038-09-17
Also published as: CN109492522A

Abstract

本发明公开了一种特定目标检测模型训练程序、设备及计算机可读存储介质，主要步骤包括：利用特定场景的人工场景产生大规模的虚拟数据，来训练行人检测模型，并将训练后的模型作为初始模型应用到实际场景中；根据实际场景的光线等因素的变化，在人工场景中调节相应的参数，使得人工场景与实际场景保持一致，收集更多的虚拟数据，微调更新行人检测模型，使之适应于动态变化的实际场景；根据实际场景的背景变化程度来决定是否更新行人检测模型，如果实际场景的背景图像发生较大变化就更新模型，否则暂不更新模型，继续累积虚拟数据。

Description

特定目标检测模型训练程序、设备及计算机可读存储介质

技术领域

本发明属于目标检测模型训练技术领域，尤其涉及一种特定目标检测模型训练程序、设备及计算机可读存储介质。

背景技术

近年来，随着人工智能技术的发展，计算机视觉在社会各领域取得了广泛应用。特定场景下的行人检测作为智能视觉监控技术的基础，一直是近年来的研究热点。并行计算能力和深度学习技术的发展，极大推动了行人检测的发展。但是，特定场景下的行人检测问题仍未得到很好解决。一方面，很多研究人员利用通用场景数据训练行人检测模型，然后应用于特定场景中，但是由于特定场景与通用场景的数据分布存在差异，使得基于通用场景数据训练的行人检测模型在特定场景中的检测精度不高。而在特定场景中，进行大规模的数据收集和标注，是一项费时费力的工作，不具有可推广性。另一方面，在特定场景下，随着时间的推移，场景中的光照、天气等环境条件，甚至背景物体布局都会发生变化。在这种情况下，即使是经过良好训练的行人检测模型，随着时间的推移和环境的变化，检测模型的有效性也会逐渐下降，因此需要对检测模型进行及时更新，达到自适应优化训练之目的。

平行视觉理论将平行系统理论推广应用到视觉计算领域，是一套以人工场景数据促进视觉计算研究的理论范式。它以ACP方法为理论基础，利用可控可观可重复的人工场景来模拟和表示复杂挑战的实际场景，使采集和标注大规模多样性的虚拟图像数据成为可能，然后通过计算实验进行视觉模型的训练与评估，最后借助虚实互动的平行执行来在线优化视觉系统，实现对复杂环境的智能感知与理解。

发明内容

本发明的主要目的在于提供一种特定目标检测模型训练程序、计算机设备及计算机可读存储介质，旨在将平行视觉理论和ACP方法应用于特定场景下的行人检测问题，能够解决前述的特定场景下训练数据获取和检测模型更新的困难的问题。

为实现上述目的，本发明提供的一种特定目标检测模型训练程序，所述方法包括如下步骤：

步骤S10，通过预设技术将虚拟目标叠加至实际场景的背景图像中，形成特定场景；

步骤S20，在特定场景中收集虚拟目标的目标边框标注用以训练目标检测模型；

步骤S30，间隔预设时间，检测实际场景的背景变化是否超过预设值；

步骤S40，若实际场景的背景变化超过预设值，则对目标检测模型进行调整以适应动态变化的实际场景。

优选地，所述的特定目标为行人，其中，所述方法为：

步骤S10A，通过预设技术将虚拟行人叠加至实际场景的背景图像中，形成人工场景；

步骤S20A，在人工场景中收集虚拟行人的目标边框标注用以训练行人检测模型；

步骤S30A，间隔预设时间，检测实际场景的背景变化是否超过预设值；

步骤S40A，若实际场景的背景变化超过预设值，则对行人检测模型进行调整以适应动态变化的实际场景。

优选地，所述步骤S20A包括：

步骤S21，利用小孔成像原理将人工场景中的虚拟行人进行三维坐标变化；

步骤S22，将进行三维坐标变化后虚拟行人映射到成像平面；

步骤S23，根据三维坐标的映射结果为人工场景中的行人生成目标边框标注。

优选地，所述步骤S21包括：

步骤S211，获得三维场景中物体对应的像素平面的像素坐标；

步骤S212，利用三维场景中物体在摄像机坐标系的Z轴坐标的关系，确定物体的遮挡关系；

步骤S213，根据两两遮挡物体的IoU确定具体物体的外围边框，得到外围边框标注。

优选地，所述步骤S211包括：

步骤S211A、由世界坐标映射到摄像机坐标

其中,x_w，y_w，z_w表示世界的三维坐标，在人工三维场景中就表示虚拟物体在三维场景中的坐标，R和t表示摄像机的旋转和平移系数，表达为矩阵形式M₁；x_c，y_c，z_c表示摄像机坐标系的物体坐标。

步骤S211B、由摄像机坐标映射到成像物理坐标

其中，f表示摄像机的焦距，x_u，y_v表示物体在成像平面的物理坐标，单位为长度mm。

步骤S211C、由成像物理坐标转换为像素坐标

其中，u和v表示最终转换到成像平面的像素坐标，dx与dy表示单位像素代表的物理长度，u₀，v₀表示成像物理坐标系原点对应的像素坐标。

优选地，所述步骤S30A包括：

步骤S31，将上次更新行人检测模型时的背景图像作为B1，将当前背景图像作为B2，利用预设算法来比较B1和B2的差异；

步骤S32，当B1和B2的差异超过预设值时，则表明背景变化超过预设值。

优选地，所述步骤S31包括：

步骤S311，利用分区域的颜色直方图来比较B1和B2的差异。

优选地，所述步骤S311包括：

步骤S311A，将背景图像划分为10*10的子区域，对每个区域的像素颜色按照256个区间统计颜色直方图；

步骤S311B，将各个区域的颜色统计信息合并，得到B1与B2的颜色统计信息向量X与Y；

步骤S311C，计算B1与B2的Pearson的相关系数ρ_X，Y；

步骤S311D，若计算得到相关系数ρ_X，Y≥0.8，则认为B1与B2相似，否则认为B2相对于B1发生较大变化。

此外，为实现上述目的，本发明还提供一种计算机设备，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特定目标检测模型训练程序，所述特定目标检测模型训练程序被所述处理器执行时实现如上所述的方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有特定目标检测模型训练程序，所述特定目标检测模型训练程序被处理器执行时实现如上所述的特定目标检测模型训练程序的步骤。

本发明利用持续更新的人工场景生成与实际场景同步的大规模虚拟数据，进行特定场景下的行人检测模型训练，以达到在特定场景下行人检测模型长期有效的目的。主要步骤包括：利用特定场景的人工场景产生大规模的虚拟数据，来训练行人检测模型，并将训练后的模型作为初始模型应用到实际场景中；根据实际场景的光线等因素的变化，在人工场景中调节相应的参数，使得人工场景与实际场景保持一致，收集更多的虚拟数据，微调更新行人检测模型，使之适应于动态变化的实际场景；根据实际场景的背景变化程度来决定是否更新行人检测模型，如果实际场景的背景图像发生较大变化就更新模型，否则暂不更新模型，继续累积虚拟数据。

附图说明

图1为本发明特定目标检测模型训练方法实施例的流程示意图；

图2是本发明基于增强现实技术的人工场景图像实例；

图3是本发明在不同时间段的实际场景图像与人工场景图像的对比；

图4是本发明的人工场景构建与虚拟数据生成过程示意图；

图5是本发明在特定场景下的行人检测结果示例；

图6为本发明计算机设备的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明所描述的行人检测模型训练方法主要包括三个环节：人工场景、计算实验和平行执行。人工场景是指利用计算机3D建模与仿真技术建立的3D虚拟世界模型，是实际场景的对等存在。根据特定场景的特点，本发明采用增强现实技术，在实际场景的背景图像中加入虚拟行人，虚拟行人具有丰富多样的外观和运动属性，模拟现实世界中的行人，从而在人工场景中收集并自动标注虚拟数据，作为行人检测模型的训练数据。

计算实验是指从人工场景中收集大规模的带标注数据，对行人检测模型进行离线训练，作为初始模型应用于实际场景中。

平行执行是指将人工场景按照实际场景的光照、天气等环境条件及时更新，与实际场景中的关键要素保持一致，持续从人工场景中收集新的带标注数据，以便对行人检测模型进行自适应优化训练。

通过建立特定实际场景对应的人工场景，从而利用持续更新的人工场景获得的虚拟数据进行行人检测模型的自适应优化训练。实际应用中，不需要收集到新一帧图像数据后立刻更新检测模型，而是持续累积训练数据，当满足条件时再更新，原因有二：1)在很短的时间间隔内，特定场景的背景变化几乎可以忽略不计，换句话说，短时间内的场景变化不会影响检测模型的性能；2)频繁更新模型会浪费宝贵的计算资源，影响模型的效率。本发明基于以上两点考虑，采用固定时间间隔与场景变化评估相结合的方法来决定检测模型更新的时刻。

当固定时间间隔(例如每隔30分钟)到来时，提取特定场景的背景图像(记为B2)，计算它与上一次更新模型时的背景图像B1的差异，如果二者的差异较大，则利用最近收集的人工场景数据进行检测模型微调更新，使得模型能够更好运行于实际场景中；如果背景图像B2与B1差异较小，则继续累积人工场景数据，等待下一个固定时间间隔到来再做判断。

具体地，本发明提供一种特定目标检测模型训练程序，参照图1，所述方法包括如下步骤：

步骤S10，通过预设技术将虚拟行人叠加至实际场景的背景图像中，形成人工场景；

参考图2，根据实际场景的几何布局信息，利用增强现实技术在3ds Max等3D建模仿真软件中建立特定场景的人工场景，并加入实际特定场景的光照、天气等环境条件，提高人工场景的真实性，将其作为实际场景的对等代理。

步骤S20，在人工场景中收集虚拟行人的目标边框标注用以训练行人检测模型；

图2显示了在不同时间段，实际场景对应的人工场景截图。图3对实际场景和人工场景进行了对比，可以发现，从人工场景收集的虚拟图像的真实性很高，可以作为实际场景图像的对等代理。在给出的说明实例中，使用的数据实例是从开源网络摄像机收集的24小时不间断的实际数据。

从人工场景收集大规模的虚拟数据，训练行人检测模型，作为初始模型应用于实际场景中；从人工场景采集图像数据的同时，得到虚拟行人的空间位置信息，从而得到虚拟行人的边框标注。图4显示了人工场景构建和虚拟数据生成的全过程，上方的多边形虚线线框表示了采用增强现实技术进行图像数据采集的过程；下面的矩形虚线框表示了利用三维物体成像过程，通过关键点映射来得到行人的边框标注的过程，具体的原理可以用下面的公式来描述：

A、由世界坐标映射到摄像机坐标

B、由摄像机坐标映射到成像物理坐标

C、由成像物理坐标转换为像素坐标

根据以上过程可以得到相关物体在像素平面的具体位置，物体之间的遮挡关系由三维物体在摄像机坐标的Z坐标所蕴含，通过对得到的摄像机坐标Z坐标与像素坐标结合起来进行计算处理，取合理的IoU(Intersection-over-Union)阈值(在本发明中设为0.7)就可以得到具体物体的外围边框。

将训练好的行人检测模型作为初始模型，应用到实际场景中，在说明例中，本发明使用的是Faster R-CNN算法结合VGG16网络架构；Faster R-CNN是检测精度较高的学习型目标检测器。需要指出，其他类型的目标检测器(例如YOLO、SSD等)，只要是从数据中学习训练得到，也可以作为行人检测模型应用到本发明中。

在实际场景中，随着时间的推移和环境的变化，以前训练好的检测模型会逐渐失效。例如，以前训练好的检测模型可能在白天晴天条件下很有效，但是随着光照条件变成夜间，同时天气变成雨天，原始检测模型的精度可能显著下降。因此，本发明从人工场景持续收集新的虚拟数据，据此进行检测模型的微调更新，保证检测模型随着实际场景的变化，能够得到自适应优化训练，一直能够保持良好的性能。

步骤S40，若实际场景的背景变化超过预设值，则对行人检测模型进行调整以适应动态变化的实际场景。

每隔一段时间(例如30分钟)，比较当前背景图像(记为B2)与上次模型更新时的背景图像(记为B1)，若二者的差异较大，就利用从人工场景中最近收集的虚拟数据进行检测模型的微调，然后将自适应优化后的检测模型代替先前的模型，重新应用于实际场景。如果背景图像B2与B1的差异较小，则暂时不更新检测模型，而是继续累积虚拟数据。

在本发明中，利用分区域的颜色直方图统计来判断特定场景的背景图像是否发生变化，以前面定义的背景图像B1与B2为例，将背景图像划分为10*10的子区域，对每个区域的像素颜色按照256个区间来统计颜色直方图，然后将各个区域的颜色统计信息合并，得到B1与B2关于颜色统计信息的向量X与Y，计算B1与B2的Pearson相关系数

其中，cov(X，Y)表示向量X与Y的协方差，μ_X与μ_Y分别表示X与Y的均值，E[(X-μ_X)(Y-μ_Y)]表示变量(X-μ_X)(Y-μ_Y)的期望；σ_X与σ_Y分别表示X与Y的标准差。若计算的相似度ρ_X，Y≥0.8，则认为B1与B2相似，否则认为B2相对于B1发生较大变化。

在开始阶段，使用人工场景数据进行行人检测模型的离线训练；接下来都是在以前模型的基础上，每隔一段时间检查当前背景图像与上次模型更新时的背景图像的差异程度，决定是否进行检测模型的微调更新，从而形成一个循环。通过对行人检测模型的及时更新，能够防止模型性能出现显著下降，使得模型能够在动态变化的实际场景中始终保持良好的性能。

在验证本发明方法的过程中，使用Faster R-CNN结合VGG16网络架构，使用通用场景的VOC 2007数据集与本发明提出的人工场景数据集分别训练行人检测模型，对实际特定场景(美国的柏林顿教堂街市场)中的行人进行检测，如图5所示。

需要说明的是，本发明实施例所述的方法步骤不单单仅可应用于行人检测模型的训练方法，还可以推广应用到其他特定目标中，如车轮、车辆等等其他特定目标中，方法与上述方法相同，在此不再赘述。

利用持续更新的人工场景生成与实际场景同步的大规模虚拟数据，进行特定场景下的行人检测模型训练，以达到在特定场景下行人检测模型长期有效的目的。主要步骤包括：利用特定场景的人工场景产生大规模的虚拟数据，来训练行人检测模型，并将训练后的模型作为初始模型应用到实际场景中；根据实际场景的光线等因素的变化，在人工场景中调节相应的参数，使得人工场景与实际场景保持一致，收集更多的虚拟数据，微调更新行人检测模型，使之适应于动态变化的实际场景；根据实际场景的背景变化程度来决定是否更新行人检测模型，如果实际场景的背景图像发生较大变化就更新模型，否则暂不更新模型，继续累积虚拟数据。

本发明进一步提供一种计算机设备，参见图6，所述计算机设备包括：存储器102、处理器101及存储在所述存储器102上并可在所述处理器101上运行的特定目标检测模型训练程序，所述特定目标检测模型训练程序被所述处理器101执行时实现如上所述方法。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有特定目标检测模型训练程序，所述特定目标检测模型训练程序被处理器执行时实现如上所述方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种特定目标检测模型训练方法，其特征在于，所述的特定目标为行人，其中，所述方法为：

步骤S10A，通过预设技术将虚拟行人叠加至实际场景的背景图像中，形成特定场景；

步骤S20A，在特定场景中收集虚拟行人的目标边框标注用以训练行人检测模型；

步骤S211，获得三维场景中物体对应的像素平面的像素坐标；

步骤S213，根据两两遮挡物体的IoU确定具体物体的外围边框，得到外围边框标注；

步骤S22，将进行三维坐标变化后虚拟行人映射到成像平面；

步骤S23，根据三维坐标的映射结果为人工场景中的行人生成目标边框标注；

步骤S30A，间隔预设时间，检测实际场景的背景变化是否超过预设值，其包括：

步骤S31，将上次更新行人检测模型时的背景图像作为B1，将当前背景图像作为B2，利用预设算法来比较B1和B2的差异，其包括：

步骤S311，利用分区域的颜色直方图来比较B1和B2的差异，其包括：

步骤S311C，计算B1与B2的Pearson的相关系数ρ_X,Y；

步骤S311D，若计算得到相关系数ρ_X,Y≥0.8，则认为B1与B2相似，否则认为B2相对于B1发生较大变化；

步骤S32，当B1和B2的差异超过预设值时，则表明背景变化超过预设值；

2.根据权利要求1所述的特定目标检测模型训练方法，其特征在于，所述步骤S211包括：

步骤S211A、由世界坐标映射到摄像机坐标

其中,x_w,y_w,z_w表示世界的三维坐标，在人工三维场景中就表示虚拟物体在三维场景中的坐标，R和t表示摄像机的旋转和平移系数，表达为矩阵形式M₁；x_c,y_c,z_c表示摄像机坐标系的物体坐标；

步骤S211B、由摄像机坐标映射到成像物理坐标

其中，f表示摄像机的焦距，x_u,y_v表示物体在成像平面的物理坐标，单位为长度mm；

步骤S211C、由成像物理坐标转换为像素坐标

其中，u和v表示最终转换到成像平面的像素坐标，dx与dy表示单位像素代表的物理长度，u₀,v₀表示成像物理坐标系原点对应的像素坐标。

3.一种计算机设备，其特征在于，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特定目标检测模型训练程序，所述特定目标检测模型训练程序被所述处理器执行时实现如权利要求1或2所述的方法的步骤。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有特定目标检测模型训练程序，所述特定目标检测模型训练程序被处理器执行时实现如权利要求1或2所述的特定目标检测模型训练方法的步骤。