CN115186473A

CN115186473A - 一种基于平行智能的场景感知建模与验证方法

Info

Publication number: CN115186473A
Application number: CN202210794359.5A
Authority: CN
Inventors: 李浥东; 张慧; 毛啸; 刘子凝; 金�一
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-14

Abstract

本发明提供了一种基于平行智能的场景感知建模与验证方法。该方法包括：采集真实交通场景下的实际数据，构建实际数据集，根据实际数据进行实际场景要素仿真建模；基于平行智能构建与实际场景相似的人工场景；基于所述人工场景构建虚拟数据集；结合虚拟数据集和实际数据集，研究基于多任务融合的视觉感知计算实验，用视觉感知算法验证虚拟数据集的有效性和可靠性。本发明采用虚拟现实技术来模拟和表示复杂挑战的实际场景，探究从人工场景获取多中标注信息的方法，获取大规模多样性的虚拟场景数据，能够提供一套基于平行智能的人工场景仿真和虚拟数据生成方法，减轻了视觉感知研究过程中耗时耗力的人工收集和标注工作负担。

Description

一种基于平行智能的场景感知建模与验证方法

技术领域

本发明涉及计算机视觉任务技术领域，尤其涉及一种基于平行智能的场景感知建模与验证方法。

背景技术

数据集在计算机视觉任务算法的训练和测试中发挥着重要作用，然而在现实中人工收集和标注图像耗时耗力，尤其在大型复杂交通系统中，对大量准确标注图像有迫切需求。另外，由于受标注人员的专业度影响，人工标注的结果在一定程度上不够可靠，一个人两次标注同一张照片可能也会不相同，因此无法得到准确的真实值，从而严重影响到计算机视觉算法或模型的性能。

目前，现有技术中的常用于计算机视觉任务的从现实世界采集标注的数据集有KITTI、PASCAL VOC、MS COCO和ImageNet等，每个数据集有各自使用的场景，各有优劣。KITTI数据集是世界上最大的自动驾驶场景计算机视觉数据集，包括超过10万辆带标签的汽车，但是KITTI缺少一些常见的物体类型(例如没有公共汽车)，并且数据分布不够均衡(例如卡车的数量很少)。PASCAL VOC数据集常被作为视觉对象分类、识别和检测的基准。PASCAL VOC包含20类别，但每个类别的图像数量很少，平均不到一千个。MS COCO数据集中有91类对象的328 000张图片，但是注释这个数据集的任务很繁重。例如，仅确定MS COCO图像中存在哪些对象类别需要20000多个小时。

ImageNet数据集是世界上最大的图像识别数据库，包括1000多个类别，但是没有语义分割标注信息。

有学者通过扩展ACP(Artificial systems,computational experiments,parallel execution，人工系统、计算实验和并行执行理论方法)提出了平行视觉的理论框架，并阐述了虚拟数据的意义。ACP方法为平行智能奠定了基础，为解决复杂系统中的问题提供了新的见解。在图1所示的平行视觉框架下，可以明显看出虚拟世界在生成具有不同环境条件和纹理变化的各种标记数据集的巨大优势，这些数据集通常被认为是目标检测的重要图像特征。

利用虚拟世界进行科学研究的尝试已经很多。有学者研究了利用“虚拟人生”和“魔兽世界”两个虚拟游戏世界作为社会、行为和经济科学以及计算机科学研究站点的可行性。还有学者创建了一个虚拟生活实验室，研究人员可以在这个虚拟空间里进行受控驾驶和旅行研究。在计算机视觉领域，早期利用虚拟数据集训练的工作包括基于HOG(Histogramof Oriented Gradient,定向梯度直方图)和线性SVM(Support Vector Machine,支持向量机)的行人检测器，以及利用从视频游戏中生成的虚拟数据集来进行基于部分的行人检测器。除了训练模型外，虚拟世界数据还用于探索深度卷积神经网络的深层特征对于缺少低级线索和域适应问题的不变性。随后人们开始尝试生成虚拟数据集的方法，在语义分割任务上，有学者提出了一种通过现代视频游戏构建虚拟数据集的方法，并使用外部图形硬件获得相应的注释，而无需访问游戏的源代码。如今，GAN(Generative AdversarialNetworks，生成对抗网络)被广泛用于生成逼真的合成图像，但是这些图像缺乏相应的注释。

目前，现有技术中的基于平行智能的场景感知建模与验证方法的能够生成特定场景下的数据集并用于视觉感知研究，但在复杂挑战场景下仍然存在一些问题：

1)实际数据集的人工收集和标注图像耗时耗力，而且通常只能不灵活地构建出针对特定特征的数据集，而且标注人员会因为对专业对象不够了解，标注结果存在不确定的误差；

2)现有虚拟数据集适用的视觉任务范围有限，例如SYNTHIA数据集仅适用于语义分割任务，缺少其他计算机视觉任务的标注，例如对象检测、跟踪等；

3)目前的大多数工作依赖于视频游戏合成图像或者现有实际数据集合成图像，而不是从头开始建立虚拟世界，导致研究过程的灵活性较差，而且不能直接用于复杂交通场景的视觉任务。如Virtual KITTI数据集的整体生成框架和数据风格受到真实KITTI数据集的限制，无法拓展到任意实际场景中。

发明内容

本发明的实施例提供了一种基于平行智能的场景感知建模与验证方法，以实现基于平行智能的人工场景仿真和虚拟数据生成方法。

为了实现上述目的，本发明采取了如下技术方案。

一种基于平行智能的场景感知建模与验证方法，包括：

采集真实交通场景下的实际数据，构建实际数据集，根据实际数据进行实际场景要素仿真建模；

基于平行智能构建与实际场景相似的人工场景；

基于所述人工场景构建虚拟数据集；

结合所述虚拟数据集和所述实际数据集，研究基于多任务融合的视觉感知计算实验，用视觉感知算法验证虚拟数据集的有效性和可靠性。

优选地，所述采集真实交通场景下的实际数据，构建实际数据集，根据实际数据进行实际场景要素仿真建模，包括：

采集真实交通场景下的实际数据，该实际数据包括各元素的尺寸、位置和颜色数据，所述各元素包括车辆马路、街边建筑、商铺、栏杆、行人、绿化和交通标志，基于所述实际数据用草图大师手动建模或利用静态和动态的3D模型进行实际场景要素仿真建模，形成场景要素模型库，对场景要素的建模按颗粒度分为几何模型仿真和实例级仿真两种。

优选地，所述基于平行智能构建与实际场景相似的人工场景，包括：

基于平行智能将交通场景相关元素添加到路网并设置属性来模拟和描述实际场景，按照真实场景中的布局在仿真软件中把建筑物、车辆和行人模型摆放在对应位置，使用仿真软件自带的工具在路网上规划好车辆运动轨迹，为运动车辆设置好动力学模型和速度参数，在仿真软件中构建出虚拟仿真环境，在虚拟仿真环境中利用虚拟现实技术构建人工场景，使人工场景与实际场景具有相似的特性。

优选地，所述的基于所述人工场景构建虚拟数据集包括：

为人工场景设置各种环境条件和虚拟摄像机属性，所述环境条件包括季节、天气和光照，所述虚拟摄像机属性包括位置、视角和焦距，从人工场景中自动视觉感知研究需要的标注信息，该标注信息包括目标位置和类型、语义分割、运动轨迹，利用标注信息生成多样性虚拟数据集，该虚拟数据集包括虚拟图像和视频数据集。

优选地，所述的结合所述虚拟数据集和所述实际数据集，研究基于多任务融合的视觉感知计算实验，用视觉感知算法验证虚拟数据集的有效性和可靠性，包括：

结合虚拟数据集和实际数据集，利用人工场景进行基于多任务融合的视觉感知计算机模拟实验，针对虚拟数据集和实际数据集之间的分布偏移问题，采用基于潜在空间的领域迁移学习方法来构建共享潜在特征空间，并使不同领域的数据集在此空间上满足分布一致，从而引导模型获取和利用虚拟和真实领域之间的潜在信息，实现模型从虚拟场景到真实场景的无偏迁移；

在模型测试阶段，先在人工场景数据集上做实验评估，通过选取不同环境下的虚拟数据集，来衡量所提出的视觉感知模型在不同场景下的性能，考察视觉感知模型在不同环境下的表现；再把基于人工场景数据集优化的模型应用在实际场景中，并根据实际场景数据集上存在的性能缺陷来反馈优化视觉模型，实现复杂场景下的智能视觉感知与理解，验证虚拟数据集的有效性和可靠性。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例采用虚拟现实技术来模拟和表示复杂挑战的实际场景，探究从人工场景获取多中标注信息的方法，获取大规模多样性的虚拟场景数据，能够提供一套基于平行智能的人工场景仿真和虚拟数据生成方法，减轻了视觉感知研究过程中耗时耗力的人工收集和标注工作负担。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的一种平行智能的框架与架构示意图；

图2为本发明实施例提出的一种基于平行智能的场景建模与验证方法的实现原理图；

图3为本发明实施例提出的一种基于平行智能的场景建模与验证方法的处理流程图；

图4为本发明实施例提出的一种在人工场景下模拟不同的环境条件示意图；

图5为本发明实施例提出的一种视觉感知研究常用的几类标注数据示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种基于平行智能的场景感知建模与验证方法，将完整地指导从构建交通场景下仿真模型到自动生成带有精确标注的数据，并用虚拟数据集进行计算机视觉任务训练的技术流程。本发明从头开始实现一个可以根据不同环境或者实体目标进行针对性分析的平行智能场景仿真平台。

本发明实施例对标注信息进行探究，探索生成不同类别(目标位置和类型、语义分割、运动轨迹等)、不同格式(如VOC格式、COCO格式)标注信息的生成方法，以拓展虚拟数据的适用性，并结合实际数据集对视觉感知算法进行验证。在平行智能场景中，可以灵活地改变环境条件，能够描述和管理人工场景相关对象(包括道路、建筑物、树木、花草、交通标志、路面标线、行人、出租车、私家车等)在不同条件(光照、天气、遮挡、运动等)产生的异构、多态、海量数据，并且可以将不同实体目标或环境条件进行剥离，研究特定场景下每个组成要素对视觉算法的影响。

本发明实施例提出了一种基于平行智能的场景建模与验证方法的实现原理图如图2所示，具体处理流程如图3所示，包括如下的处理步骤：

步骤S10，采集真实交通场景下的实际数据，构建实际数据集，根据实际数据进行实际场景要素仿真建模；

步骤S20，基于平行智能构建人工场景，使人工场景与实际场景尽可能相似；

步骤S30，基于人工场景构建虚拟数据集；

步骤S40，结合虚拟数据集和实际数据集，研究基于多任务融合的视觉感知计算实验，用视觉感知算法验证虚拟数据集的有效性和可靠性。

具体的，上述步骤S10包括：首先是采集真实交通场景下的实际数据，该实际数据包括车辆马路、街边建筑、商铺、栏杆、行人、绿化和交通标志等元素的尺寸、位置、颜色数据，用草图大师(SketchUP)手动建模或直接利用海量且丰富的静态和动态的3D模型，形成场景要素模型库。对场景要素的建模按颗粒度分为几何模型仿真、实例级仿真两种。

场景要素的几何模型仿真，几何是物理世界实体的主要特征，在特定时间内，单一实体的几何模型为确定状态，在构建平行智能模型时首先需要对其进行表征与描述。同时，描述物理实体间的相对位置关系无需细粒度物理模型参与，仅借助粗粒度、低精细度几何模型即可锚定实例、子系统和系统间的相互关系，为进一步细化仿真模型提供客观参照标准。为此，本发明将首先针对特定交通场景中的主要参与实体(如道路、车辆、路边单元等)进行粗粒度几何模型仿真，借助物理实体长、宽、高与相对位置信息，实现最低程度的实体、场景建模与可视化。同时，由于对单一实体的仿真精度较低，计算资源消耗有限，因此，该阶段建模还可包含系统全局状态仿真，提供宏观视角的可视化与状态模拟。

场景要素的实例级仿真，在数字空间中，与物理世界相对应的数字孪生化模型需要充分表征物理实体的结构特征，以便对多种场景变化进行自适应模拟，因此需要对该实体的材料、物理特性及细粒度外形特征进行描述。而在特定场景中，对参与建模的各实体关注程度通常不尽相同。如对出租车停靠站行为进行建模时，主要关注点为出租车、停车位及出租车乘客的识别与分析，其他车辆、路边建筑与设施的重要程度较低，此时仅需对任务强相关实例进行基于数据描述的细粒度仿真。因此，本子模块拟在几何模型仿真基础上，基于注意力机制对交通场景中重点关注的实体进行细粒度仿真建模。通过引入注意力机制，本子模块将根据任务目标描述，从给定训练数据的上下文中自适应提取显著对象的相关信息，捕获区分性语义信息和定位精确位置信息，从而希望得到更好的实例级目标检测和分割结果。

具体的，上述步骤S20包括：利用虚拟现实技术构建人工场景，来模拟和描述复杂挑战的实际场景，使人工场景与实际场景具有相似的特性，这是后续虚拟图像生成方法和视觉感知算法研究的基础。

本发明参照北京交通大学至北京市海淀区西直门附近的真实场景布局，研究人工场景的构建方法。利用开源地图平台(例如OpenStreetMap、CADMapper等)生成可编辑的路网结构，导入PreScan；研究如何将交通场景相关元素添加到路网并设置属性，构建人工场景。按照真实场景中的布局，在PreScan中把建筑物、车辆和行人等模型摆放在对应位置。使用软件自带的工具在路网上规划好车辆运动轨迹，为运动车辆设置好动力学模型和速度等参数，并把Camera和Bounding Rectangle Sensor等传感器搭载到即将运动的车辆上，随后在PreScan中构建出虚拟仿真环境，通过Matlab仿真端配置好车辆上搭载的传感器参数后，即可运行仿真。通过仿真过程中传感器获取的标注框位置和图片等信息，在编写的Matlab脚本处理后，将得到的数据按照VOC格式写入到指定的文件中，完成数据集标注信息的生成。

具体的，上述步骤S30包括：研究大规模多样性虚拟数据集的生成方法。为人工场景设置各种环境条件(包括季节、天气、光照等)和虚拟摄像机属性(包括位置、视角、焦距等)，利用渲染软件来提高虚拟图像的逼真程度，生成大规模多样性虚拟数据集，该虚拟数据集包括虚拟图像和视频数据集，确保虚拟数据具有足够的逼真性、规模和多样性。

图4为本发明实施例提出的一种在人工场景下模拟不同的环境条件示意图。从人工场景中自动获取目标位置和类型、语义分割、运动轨迹等视觉感知研究需要的标注信息，使虚拟图像数据可达到千万量级，并且带有精确的可适用于多视觉任务的标注信息。研究不同标注格式的虚拟数据集生成方法，例如VOC格式、COCO格式。图5为本发明实施例提出的一种视觉感知研究常用的几类标注数据示意图，图中，左上：语义分割。右上：多边形标注。

具体的，上述步骤S40包括：基于多任务融合的视觉感知计算实验验证。本发明将结合虚拟数据集和实际数据集，研究基于多任务融合的视觉感知计算实验。计算实验是在人工场景基础上进行的计算机模拟实验。传统视觉感知方法没有在复杂应用环境中进行全面实验，只是在有限环境下做算法设计和评估，很难保证实际应用效果。若要视觉系统真正有效，必须在人工场景中进行全面充分的实验。就是把计算机变成视觉计算“实验室”，利用人工场景做“计算实验”，全面设计和评估视觉算法。与基于实际场景的实验相比，在人工场景中实验过程可控、可观、可重复，并且可以真正地产生“大数据”，用于后续的知识提取和算法优化。

本发明将对虚拟数据集进行有效性的验证，以二维目标检测为例，可以利用人工场景生成的包含目标位置和类型标注信息的VOC格式虚拟数据集，与实际VOC数据集结合，用经典的目标检测器Faster R-CNN进行训练与测试，验证虚拟数据集的有效性和可靠性。

本发明将虚拟数据集和实际数据集相结合，研究虚实互动的模型学习与评估方法。针对虚拟数据集和实际数据集之间的分布偏移问题，本发明拟采用基于潜在空间的领域迁移学习方法来构建共享潜在特征空间，并使不同领域的数据集在此空间上满足分布一致，从而引导模型有效地获取和利用虚拟和真实领域之间的潜在信息，实现模型从虚拟场景到真实场景的无偏迁移。这种方式可以减小数据集偏移所带来的影响。在模型测试阶段，可以先在人工场景数据集上做实验评估，通过选取不同环境下的虚拟数据集，来有针对性地衡量所提出的视觉感知模型在不同场景下的性能，考察模型在不同环境下的表现；然后再把基于人工场景数据集优化的模型应用在实际场景中，并根据实际场景数据集上存在的性能缺陷来反馈优化视觉模型，最终实现复杂场景下的智能视觉感知与理解。

综上所述，本发明实施例拟采用虚拟现实技术来模拟和表示复杂挑战的实际场景，探究从人工场景获取多中标注信息的方法，获取大规模多样性的虚拟场景数据，能够提供一套基于平行智能的人工场景仿真和虚拟数据生成方法，减轻了视觉感知研究过程中耗时耗力的人工收集和标注工作负担。

本发明将场景要素分层次建模，能够将不同实体目标或环境条件进行剥离，研究特定场景下每个组成要素对视觉算法的影响。

本发明基于虚实互动的模型学习方法来研究多任务的视觉感知计算实验(包括目标检测、识别、分割等)，对视觉感知算法进行虚实结合的学习和测试，全面设计和评估视觉算法。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于平行智能的场景感知建模与验证方法，其特征在于，包括：

基于平行智能构建与实际场景相似的人工场景；

基于所述人工场景构建虚拟数据集；

2.根据权利要求1所述的方法，其特征在于，所述采集真实交通场景下的实际数据，构建实际数据集，根据实际数据进行实际场景要素仿真建模，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于平行智能构建与实际场景相似的人工场景，包括：

4.根据权利要求3所述的方法，其特征在于，所述的基于所述人工场景构建虚拟数据集包括：

5.根据权利要求4所述的方法，其特征在于，所述的结合所述虚拟数据集和所述实际数据集，研究基于多任务融合的视觉感知计算实验，用视觉感知算法验证虚拟数据集的有效性和可靠性，包括：