CN115942068B

CN115942068B - 用于生成虚拟现实素材的方法和装置

Info

Publication number: CN115942068B
Application number: CN202310166223.4A
Authority: CN
Inventors: 雷金亮
Original assignee: Weilai Automobile Technology Anhui Co Ltd
Current assignee: Weilai Automobile Technology Anhui Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-11-07
Anticipated expiration: 2043-02-27
Also published as: CN115942068A

Abstract

本申请涉及汽车电子技术和虚拟现实技术，特别涉及用于生成虚拟现实素材的方法和具有虚拟现实素材生成功能的自动驾驶系统。按照本申请的一方面，提供一种具有虚拟现实素材生成功能的自动驾驶系统，包括：环境感知单元，其配置为获取关于车辆周围环境的多个视角的视频信号和多个方向的音频信号；计算平台，其配置为：对所述多个视角的视频信号和所述多个方向的音频信号执行预处理，其中，所述预处理至少包括将所述多个视角的视频信号合并为合成视频流并且由所述多个方向的音频信号生成包含多声道的音频流；由所述合成视频流和所述音频流生成虚拟现实素材。

Description

用于生成虚拟现实素材的方法和装置

技术领域

本申请涉及汽车电子技术和虚拟现实技术，特别涉及用于生成虚拟现实素材的方法和具有虚拟现实素材生成功能的自动驾驶系统。

背景技术

虚拟现实（VR）系统是近年来出现的图形图像领域的高新技术，其利用计算机模拟产生一个三维空间的虚拟世界，提供使用者关于视觉、听觉、触觉等感官的模拟，让使用者如同身历其境一般，可以及时、无限制地观察三维空间内的事物。但是由于VR素材采集设备价格昂贵，处理门槛较高，导致可用的VR资源较少，因此限制了VR技术的推广应用。

发明内容

本申请的一个目的是提供一种用于生成虚拟现实素材的方法和装置，其能够低成本地生成各种VR素材。

按照本申请的一个方面，提供一种具有虚拟现实素材生成功能的自动驾驶系统，包括：

环境感知单元，其配置为获取关于车辆周围环境的多个视角的视频信号和多个方向的音频信号；

计算平台，其配置为：

对所述多个视角的视频信号和所述多个方向的音频信号执行预处理，其中，所述预处理至少包括将所述多个视角的视频信号合并为合成视频流并且由所述多个方向的音频信号生成包含多声道的音频流；

由所述合成视频流和所述音频流生成虚拟现实素材。

可选地，在上述自动驾驶系统中，计算平台进一步配置为：

经车载通信接口向虚拟现实素材编辑设备或虚拟现实播放设备输出所生成的虚拟现实素材。

可选地，在上述自动驾驶系统中，所述环境感知单元包括多个自动驾驶摄像头和多个设置在车辆外表面的麦克风阵列，每个所述自动驾驶摄像头针对多个视角中的相应一个，并且每个麦克风阵列针对多个方向中的相应一个。

进一步地，在上述自动驾驶系统中，所述预处理还包括：

在将所述多个视角的视频信号合成为合成视频流之前对所述多个视角的视频信号执行的图像畸变校正处理；以及

对所述合成视频流的视频编码。

进一步地，在上述自动驾驶系统中，所述预处理还包括：

在由所述多个方向的音频信号生成包含多声道的音频流之前对所述多个方向的音频信号执行的降噪处理。

进一步地，在上述自动驾驶系统中，所述预处理还包括：

识别所述多个视角的视频信号中的指定对象；以及

记录所述指定对象在所述多个视角的视频信号中出现的位置。

进一步地，在上述自动驾驶系统中，按照下列方式生成虚拟现实素材：

将所述合成视频流和所述音频流合成为音视频复合流；

在合成所述合成视频流和所述音频流的同时，以下列项对所述音视频复合流的帧进行标记：由车辆运动传感器感测的运动状态和由车载导航设备提供的位置信息。

将所述合成视频流和所述音频流合成为音视频复合流；

在合成所述音视频复合流的同时，以下列项对所述音视频复合流的帧进行标记：由车辆运动传感器感测的运动状态、由车载导航设备提供的位置信息和所述指定对象的出现。

可选地，在上述自动驾驶系统中，还包括：

在获取所述多个视角的视频信号和所述多个方向的音频信号的同时，利用车内麦克风获取车辆内部的音频信号；

对所述车辆内部的音频信号执行降噪处理；以及

将所述车辆内部的音频信号加入所述音频流。

进一步地，在自动驾驶系统中，对所述车辆内部的音频信号的降噪处理包括：

根据车辆运动传感器感测的车辆运动状态，利用降噪算法生成预测的车内噪声信号，其中，基于所述车辆内部的音频信号来调整所述降噪算法的参数；以及

在车辆内部播放所述预测的车内噪声信号的反相信号。

按照本申请的另一个方面，提供一种用于生成虚拟现实素材的方法，包括：

利用自动驾驶系统的环境感知单元获取关于车辆周围环境的多个视角的视频信号和多个方向的音频信号；

利用所述自动驾驶系统的计算平台对所述多个视角的视频信号和所述多个方向的音频信号执行预处理，其中，所述预处理至少包括将所述多个视角的视频信号合并为合成视频流并且由所述多个方向的音频信号生成包含多声道的音频流；

利用所述计算平台，由所述合成视频流和所述音频流生成虚拟现实素材。

可选地，上述方法进一步包括：

可选地，在上述方法中，所述环境感知单元包括多个自动驾驶摄像头和多个设置在车辆外表面的麦克风阵列，每个所述自动驾驶摄像头针对多个视角中的相应一个，并且每个麦克风阵列针对多个方向中的相应一个。

进一步地，在上述方法中，所述预处理还包括：

对所述合成视频流的视频编码。

进一步地，在上述方法中，所述预处理还包括：

识别所述多个视角的视频信号中的指定对象；以及

进一步地，在上述方法中，按照下列方式生成虚拟现实素材：

将所述合成视频流和所述音频流合成为音视频复合流；

可选地，在上述方法中，还包括：

对所述车辆内部的音频信号执行降噪处理；以及

将所述车辆内部的音频信号加入所述音频流。

进一步地，在上述方法中，对所述车辆内部的音频信号的降噪处理包括：

在车辆内部播放所述预测的车内噪声信号的反相信号。

在本申请的一些实施例中，由于借助于自动驾驶系统中的环境感知单元和计算平台的硬件资源来生成各种VR素材，因此降低了制作成本和操作难度。此外，用于环境感知的传感器（例如自动驾驶摄像头和麦克风阵列）在车辆上的安装位置和方位（例如摄像头的视角和麦克风阵列的朝向）通常是固定的，并且能够提供较好的各向同性（例如麦克风阵列的灵敏度在各个方向上基本相同），适合用作高性能的VR数据采集设备。

附图说明

本申请的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。

图1为一种汽车电子系统架构的示意图。

图2为自动驾驶域或自动驾驶系统的示意性框图。

图3示出了多个自动驾驶摄像头在车辆上布局的示例。

图4示出了多个麦克风阵列在车辆上布局的示例。

图5为按照本申请一些实施例的用于表示VR素材生成过程的逻辑功能模块图。

图6未按照本申请的另外一些实施例的用于对车辆内部音频信号的降噪处理过程的示意图。

图7为按照本申请另外一些实施例的用于生成虚拟现实素材的方法的流程图。

具体实施方式

下面参照其中图示了本申请示意性实施例的附图更为全面地说明本申请。但本申请可以按不同形式来实现，而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整，以将本申请的保护范围更为全面地传达给本领域技术人员。

在本说明书中，诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本申请的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

除非特别说明，诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。

汽车电子系统通常可以依照各种方式来划分功能域。图1为一种汽车电子系统架构的示意图，其示出了一种示例性的功能块划分方式。如图1所示，汽车电子系统10包括自动驾驶域110、智能座舱域120、车身域130、动力总成域140和底盘域150，示例性地，这些功能域相互之间以总线方式通信（例如以太网）。需要指出的是，上述功能域的划分方式仅仅是示例性的，其它方式也是可行的，例如可以将车身域集成到智能座舱域中。

在图1所示的汽车电子系统架构中，自动驾驶域110提供自动驾驶所需要的数据处理运算及判断能力，包括对毫米波雷达、摄像头、激光雷达、GPS、惯性导航等设备的数据处理工作。同时，自动驾驶域还提供车辆在自动驾驶状态下底层核心数据、联网数据的安全保障工作。

需要说明的是，这里所述的自动驾驶泛指通过各种传感器感知周围环境并以此作出决策控制的驾驶模式或功能。示例性地，可以按照驾驶自动化的等级将自动驾驶模式划分0-5级，其中0-2级为驾驶辅助类，3-5级为自动驾驶类，在各个级别下汽车用户将承担相应的驾驶任务。

智能座舱域120用于执行汽车座舱电子系统功能，其例如可以是集成仪表信息和多媒体娱乐信息显示以及人机交互功能的一体化系统或车载中控屏。

车身域130用于执行车身功能的整体控制，其例如可以是传统车身控制器（BCM）或在此基础上进一步集成无钥匙启动系统（PEPS）、纹波防夹、空调控制系统等功能。

动力域140用于实现汽车动力总成的优化与控制。底盘域150用于执行汽车行驶控制，其例如包括助力转向系统（EPS）、车身稳定系统（ESC）、电动刹车助力器、安全气囊控制系统以及空气悬架、车速传感器等。

图2为自动驾驶域或自动驾驶系统的示意性框图。图2所示的自动驾驶系统20包括环境感知单元210和计算平台220。

环境感知单元210包含各种传感器以感知车辆周围环境的信息。上述传感器的例子包括但不限于自动驾驶摄像头、超声波雷达、毫米波雷达、激光雷达和麦克风阵列等。在典型的情况下，多个自动驾驶摄像头可围绕整个车身布置于车辆外表面或车辆内部，其中，每个自动驾驶摄像头针对多个视角中的相应一个，这些自动驾驶摄像头的组合可覆盖较大的视角范围（例如全车360度的视角范围）。图3示出了多个自动驾驶摄像头在车辆上布局的示例，其中圆点表示安装位置。此外，多个麦克风阵列可围绕整个车身布置于车辆外表面，其中，每个麦克风阵列针对多个方向中的相应一个。图4示出了多个麦克风阵列在车辆上布局的示例，其中圆点表示安装位置。

各种自动驾驶功能可借助于在计算平台220上运行的计算机程序实现。例如，环境感知单元210采集的环境信息被输入计算平台220，经计算平台上运行的算法程序处理后生成相应的决策控制信号，这些信号随后被发送给下游的执行机构（例如动力域）。

在典型的自动驾驶系统中，计算平台通常由一个或多个中央处理器（CPU）、数字信号处理器（DSP）、嵌入式神经网络处理器（NPU）、图形处理器（GPU）和数据交换模块等部分组成，不同的单元之间通过总线连接，其中，CPU可负责实现复杂的逻辑和计算功能，NPU可负责处理视频、图像之类的多媒体数据，GPU可负责3D图形处理（例如几何转换和光照处理、材质贴图、顶点混合、纹理压缩和凹凸映射贴图、渲染等），DSP可负责实施各种数字信号处理算法（例如编码、滤波和降噪等），数据交换模块负责各个单元之间以及与传感器和人机接口等的连接以及时间同步。

图5为按照本申请一些实施例的用于表示VR素材生成过程的逻辑功能模块图。示例性地，以下结合图4所示的自动驾驶系统来描述VR素材生成过程。需要指出的是，目前业界已经提出了基于各种架构的计算平台来实现自动驾驶中的决策控制功能。就本申请而言，只要这些计算平台具有足够的信号处理能力，都可以被用于实施图5所示的VR素材生成过程。

参见图5，环境感知单元210获取的多路视频信号V ₁ …V _m和多路音频信号A ₁ …A _n被输入计算平台220。示例性地，多路视频信号中的每一路来自于多个自动驾驶摄像头的其中一个或对应于多个视角中的一个；多路音频信号中的每一路来自于多个麦克风阵列的其中一个或对应于多个方向中的一个。

在计算平台220侧，输入的多路视频信号V ₁ …V _m被合并为合成视频流V，随后被输出至VR素材生成模块530（其例如可以由计算平台220中的数字信号处理器实现），与此同时，输入的多路音频信号A ₁ …A _n被合并为音频流A，随后也被输出至VR素材生成引擎530。在VR素材生成模块530处，视频流V和音频流A被合成为音视频复合流AV，该音视频复合流可作为VR素材经车载通信接口向VR素材编辑设备或VR播放设备（例如VR头部显示器）输出。

以下分别描述多路视频信号和多路音频信号的预处理过程。

示例性地，假设多路视频信号V ₁ …V _m的视频帧为RAW格式而后续处理算法针对的是YUV格式的视频帧。为此，每路视频信号在格式转换模块511处由RAW格式转换为YUV格式。如图5所示，示例性地，经过格式转换后的多路视频信号V ₁ …V _m被同时输出至对象识别模块512（其例如可以由计算平台220中的NPU实现）和图像畸变校正模块513（其例如可以由计算平台220中的GPU实现）。

对象识别模块512配置为识别多路视频信号V ₁ …V _m中的指定对象，并且记录指定对象在多路视频信号V ₁ …V _m中出现的位置（例如位置可以帧编号表示）。这里的对象可以是由用户指定的任何事物，例如行人、山川、河流、草地、野生动物、闪电、云、太阳和月亮等。

图像畸变校正模块513配置对多路视频信号V ₁ …V _m中执行图像畸变校正处理，并将经过校正处理的多路视频信号输出至视频合并模块514（其例如可以由计算平台220中的DSP实现）。视频合并模块514配置为将校正处理的多路视频信号V ₁ …V _m合并为合成视频流V并将视频流V输出至视频编码模块515（其例如可以由计算平台220中的DSP实现）。视频编码模块515配置为对视频流V进行编码（例如基于H265编码标准）并将编码后的视频流V输出至VR素材生成模块530。

继续参见图5，示例性地，多路音频信号A ₁ …A _n被提供给降噪处理模块521（其例如可以由计算平台220中的DSP实现）。在降噪处理模块521处，基于降噪算法对多路音频信号A ₁ …A _n执行降噪处理并将降噪处理后的多路音频信号输出至音频编码模块522。音频编码模块522被配置为对降噪处理后的多路音频信号进行音频编码以生成包含多声道的音频流A。

在一些实施例中，VR素材生成模块530在将合成视频流和音频流A合成为音视频复合流AV的同时，对于复合流中的信号帧进行标记。可选地，如图5所示，可以采用由车辆运动传感器感测的运动状态和由车载导航设备提供的位置信息进行标记。当车辆颠簸时将导致摄像头拍摄的画面发生抖动（特别是未配置防抖功能的摄像头或抖动剧烈时），将运动状态与在车辆特定状态下拍摄的视频帧相关联有助于在后续编辑VR素材时更好地消除或减缓这些视频帧中的画面抖动。此外，位置信息的标记方便用户将VR素材与获取的地理位置相关联。另外可选地，参见图5，除了运动状态和位置信息以外，还可以利用对象识别模块512识别的指定对象对复合流中的信号帧进行标记。例如可以对出现指定对象的视频帧进行标记，以便用户在编辑VR素材时迅速定位所需内容的位置。

如图5所示，可选地，车内麦克风获取的车辆内部的音频信号A _n+1也被输入降噪处理模块521执行降噪处理，该路音频信号随后与多路音频信号A ₁ …A _n一起被输入音频编码模块522。音频编码模块522被配置为对降噪处理后的音频信号A ₁ …A _n,A _n+1进行音频编码以生成包含多声道的音频流A。通过在音频流A内增加车辆内部的音频信号，用户可以在录制VR素材时经车内麦克风实时输入所希望添加的信息，例如解说配音和背景音乐等。

在一些实施例中，对车辆内部的音频信号的降噪处理可采用图6所示的方式。具体来说，参见图6，车辆运动传感器（例如加速度传感器）感测的车辆运动状态STATE被输入降噪算法模块610以生成与预测的车内噪声信号相位相反的反相信号N₁并在车辆内部播放反相信号N₁，该反相信号N₁与来自噪声源620（例如行驶过程中的车身振动）的信号N₀叠加以抑制车内噪声水平。与此同时，车内麦克风获取的车辆内部的音频信号S作为反馈信号被输入自适应模块630以调整降噪算法的参数。

图7为按照本申请另外一些实施例的用于生成虚拟现实素材的方法的流程图。示例性地，图7所示的方法可以利用图2和5所示的自动驾驶系统来实现。具体而言，所示方法包括下列步骤：

步骤710：利用自动驾驶系统20的环境感知单元210获取关于车辆周围环境的多个视角的视频信号V ₁ …V _m和多个方向的音频信号A ₁ …A _n。示例性地，可利用围绕整个车身布置于车辆外表面或车辆内部的多个自动驾驶摄像头来获取视频信号V ₁ …V _m，每个摄像头针对多个视角中的相应一个；并且可利用多个设置在车辆外表面的麦克风阵列来获取音频信号A ₁ …A _n，每个麦克风阵列针对多个方向中的相应一个。

步骤720：利用自动驾驶系统20的计算平台220对多个视角的视频信号V ₁ …V _m和多个方向的音频信号A ₁ …A _n执行预处理。

在步骤720中，预处理至少包括例如利用视频合并模块514将多个视角的视频信号合并为合成视频流V并且利用音频编码模块522由多个方向的音频信号生成包含多声道的音频流A。

附加地，在步骤720中，预处理还可包括：在将多个视角的视频信号合成为合成视频流之前，利用图像畸变校正模块513对多个视角的视频信号V ₁ …V _m执行的图像畸变校正处理；以及利用视频编码模块515对合成视频流V的视频编码。

附加地，在步骤720中，预处理还可包括：在由多个方向的音频信号A ₁ …A _n生成包含多声道的音频流A之前利用降噪处理模块521对多个方向的音频信号执行的降噪处理。

附加地，在步骤720中，预处理还可包括：利用对象识别模块512来识别多个视角的视频信号V ₁ …V _m中的指定对象；以及记录所述指定对象在多个视角的视频信号中出现的位置。

需要说明的是，上述附加的预处理可以择一方式执行，也可以以各种组合方式执行。

步骤730：利用计算平台220，利用VR素材生成模块530，由合成视频流V和音频流A生成虚拟现实素材。

在步骤730中，VR素材生成模块530可按照下列方式生成VR素材：将合成视频流V和音频流A合成为音视频复合流AV；在对合成视频流V和音频流A进行合成操作的同时，以由车辆运动传感器感测的运动状态和由车载导航设备提供的位置信息对音视频复合流AV的帧进行标记。

在步骤730中，VR素材生成模块530还可按照下列方式生成VR素材：将合成视频流V和音频流A合成为音视频复合流AV；在对合成视频流V和音频流A进行合成操作的同时，以由车辆运动传感器感测的运动状态、由车载导航设备提供的位置信息以及指定对象的出现对音视频复合流AV的帧进行标记。

步骤740：计算平台220经车载通信接口向VR素材编辑设备或VR播放设备输出由VR素材生成模块530生成的VR素材。

在一些实施例中，在步骤710中，在利用环境感知单元210获取视频信号V ₁ …V _m和音频信号A ₁ …A _n的同时，还可利用车内麦克风获取车辆内部的音频信号A _n+1；相应地，步骤720中的预处理可包括利用降噪处理模块521对车辆内部的音频信号A _n+1的降噪处理，以及利用音频编码模块522由多个方向的音频信号A ₁ …A _n连同车辆内部的音频信号A _n+1生成包含多声道的音频流A。

在进一步的实施例中，利用降噪处理模块521，以下列方式对车辆内部的音频信号A _n+1执行降噪处理：根据车辆运动传感器感测的车辆运动状态STATE，利用降噪算法生成预测的车内噪声信号，其中，基于车辆内部的音频信号S来调整降噪算法的参数；以及在车辆内部播放与预测的车内噪声信号相位相反的反相信号N₁。

本领域的技术人员将会理解，本文中所描述的各种示意性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

为了表明硬件和软件间的可互换性，各种示意性部件、块、模块、电路和步骤在上文根据其功能性总体地进行了描述。这样的功能性以硬件形式或软件形式实施取决于特定应用以及对总体系统所施加的设计限制。本领域技术人员可以针对具体的特定应用、按照变化的方式来实现所描述的功能性，但是，这样的实现方式决策不应当被理解为导致与本申请范围的背离。

尽管只对其中一些本申请的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本申请可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本申请精神及范围的情况下，本申请可能涵盖各种的修改与替换。

提供本文中提出的实施例和示例，以便最好地说明按照本技术及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本申请。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本申请的各个方面或者将本申请局限于所公开的精确形式。

Claims

1.一种具有虚拟现实素材生成功能的自动驾驶系统，包括：

计算平台，其配置为：

由所述合成视频流和所述音频流生成虚拟现实素材，

其中，所述预处理还包括：

识别所述多个视角的视频信号中的指定对象；以及

记录所述指定对象在所述多个视角的视频信号中出现的位置，

其中，按照下列方式生成虚拟现实素材：

将所述合成视频流和所述音频流合成为音视频复合流；

在合成所述音视频复合流的同时，以下列项对所述音视频复合流的帧进行标记：由车辆运动传感器感测的运动状态和由车载导航设备提供的位置信息。

2.如权利要求1所述的自动驾驶系统，计算平台进一步配置为：

3.如权利要求1所述的自动驾驶系统，其中，所述环境感知单元包括多个自动驾驶摄像头和多个设置在车辆外表面的麦克风阵列，每个所述自动驾驶摄像头针对多个视角中的相应一个，并且每个麦克风阵列针对多个方向中的相应一个。

4.如权利要求3所述的自动驾驶系统，其中，所述预处理还包括：

对所述合成视频流的视频编码。

5.如权利要求3所述的自动驾驶系统，其中，所述预处理还包括：

6.如权利要求1所述的自动驾驶系统，其中，

在合成所述音视频复合流的同时，还以所述指定对象的出现对所述音视频复合流的帧进行标记。

7.如权利要求1所述的自动驾驶系统，其中，还包括：

对所述车辆内部的音频信号执行降噪处理；以及

将所述车辆内部的音频信号加入所述音频流。

8.如权利要求7所述的自动驾驶系统，其中，对所述车辆内部的音频信号的降噪处理包括：

在车辆内部播放所述预测的车内噪声信号的反相信号。

9.一种用于生成虚拟现实素材的方法，包括：

利用所述计算平台，由所述合成视频流和所述音频流生成虚拟现实素材，

其中，所述预处理还包括：

识别所述多个视角的视频信号中的指定对象；以及

其中，按照下列方式生成虚拟现实素材：

将所述合成视频流和所述音频流合成为音视频复合流；

10.如权利要求9所述的方法，进一步包括：

11.如权利要求9所述的方法，其中，所述环境感知单元包括多个自动驾驶摄像头和多个设置在车辆外表面的麦克风阵列，每个所述自动驾驶摄像头针对多个视角中的相应一个，并且每个麦克风阵列针对多个方向中的相应一个。

12.如权利要求11所述的方法，其中，所述预处理还包括：

对所述合成视频流的视频编码。

13.如权利要求11所述的方法，其中，所述预处理还包括：

14.如权利要求9所述的方法，其中，在合成所述音视频复合流的同时，还以所述指定对象的出现对所述音视频复合流的帧进行标记。

15.如权利要求9所述的方法，其中，还包括：

对所述车辆内部的音频信号执行降噪处理；以及

将所述车辆内部的音频信号加入所述音频流。

16.如权利要求15所述的方法，其中，对所述车辆内部的音频信号的降噪处理包括：

在车辆内部播放所述预测的车内噪声信号的反相信号。