CN112543295A

CN112543295A - 基于声源定位的车载视频通话方法、系统及设备

Info

Publication number: CN112543295A
Application number: CN202011335504.0A
Authority: CN
Inventors: 蒋成栋; 李兵; 赵磊; 李坤; 郭稳; 杨金明
Original assignee: Anhui Jianghuai Automobile Group Corp
Current assignee: Anhui Jianghuai Automobile Group Corp
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-23

Abstract

本发明属于车辆通信技术领域，公开了一种基于声源定位的车载视频通话方法、系统及设备。通过获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置；根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息；根据所述人脸位置信息及所述车内场景图像确定实时通话图像；将所述实时通话图像及所述有效音频数据发送至视频接收端。由于是根据有效音频数据对应的声源位置进行采集车内场景图像，可以保证持续采集到的通话人的图像，避免通话人图像丢失，再根据人脸位置信息及车内场景图像确定包含人脸图像的实时通话图像，模拟面对面交流，可以提高视频通话的画面显示效果，提高视频通话的使用体验。

Description

基于声源定位的车载视频通话方法、系统及设备

技术领域

本发明涉及车辆通信技术领域，尤其涉及一种基于声源定位的车载视频通话方法、系统及设备。

背景技术

现如今，通过终端进行视频通话已经越来越普及，而随着5G网络的发展及普及，也会使得车辆视频通话越来越常态化，通过车载视频通话系统(Vehicle)可以与其他终端进行视频通话，例如：手机(Phone)或其他车辆的车载视频通话系统，根据视频接收端与视频发送端的不同，车辆视频通话主要可以分为Vehicle-to-Phone、Phone-to-Vehicle、Vehicle-to-Vehicle等几种。

目前，现有技术是通过固定在驾驶室内的车内摄像头采集驾驶室内的画面，通过车载互联网终端(TBOX)上传至服务器，再通过服务器获取通话人的画面，显示在车载电脑上。但是，由于驾驶人员都坐在固定的位置上，车内摄像头位置也是固定的，视场角度有限，一般视场角度为车内摄像头水平视角70±3°，垂直视角40±2°，且驾乘人员在车载电脑上的显示较小、角度较偏，整体显示效果差，使用体验差。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于声源定位的车载视频通话方法、系统及设备，旨在解决现有技术视频通话显示效果差，使用体验差的技术问题。

为实现上述目的，本发明提供了一种方法，所述方法包括以下步骤:

获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置；

根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息；

根据所述人脸位置信息及所述车内场景图像确定实时通话图像；

将所述实时通话图像及所述有效音频数据发送至视频接收端。

优选地，所述获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置的步骤，包括：

获取车辆内部的有效音频数据，并根据所述有效音频数据确定声源信号到达音频采集阵列的时间差；

根据所述时间差及所述音频采集阵列的几何形状确定所述有效音频数据对应的声源位置。

优选地，所述根据声源位置采集车内场景图像的步骤，包括：

根据所述声源位置调整图像采集设备的拍摄角度；

通过拍摄角度调整后的图像采集设备采集车内场景图像。

优选地，所述获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置的步骤之前，还包括：

采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据；

将所述音框数据中音量低于预设音量阈值的部分清除，获得有效音频数据。

优选地，所述采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据的步骤，包括：

采集车辆内部的音频数据，并对所述音频数据进行信号放大，获得音讯数据；

将所述音讯数据进行音量标准化处理，获得音框数据。

优选地，所述根据所述人脸位置信息及所述车内场景图像确定实时通话图像的步骤，包括：

根据所述人脸位置信息确定人脸中心的位置坐标；

根据所述位置坐标对所述车内场景图像进行图像处理，以获得实时通话图像。

优选地，所述根据所述位置坐标对所述车内场景图像进行图像处理，以获得实时通话图像的步骤，包括：

获取预设裁剪大小及预设放大比例；

根据所述预设裁剪大小及所述位置坐标确定图像裁剪框；

根据所述图像裁剪框对所述车内场景图像进行裁剪，获得目标图像；

根据所述预设放大比例对所述目标图像进行放大，获得实时通话图像。

此外，为实现上述目的，本发明还提出一种基于声源定位的车载视频通话系统，所述基于声源定位的车载视频通话系统包括以下模块：

音频采集模块，用于获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置；

图像采集模块，用于根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息；

图像处理模块，用于根据所述人脸位置信息及所述车内场景图像确定实时通话图像；

数据传输模块，用于将所述实时通话图像及所述有效音频数据发送至视频接收端。

优选地，所述音频采集模块，还用于采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据；将所述音框数据中音量低于预设音量阈值的部分清除，获得有效音频数据。

此外，为实现上述目的，本发明还提出一种基于声源定位的车载视频通话设备，所述基于声源定位的车载视频通话设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声源定位的车载视频通话程序，所述基于声源定位的车载视频通话程序被所述处理器执行时实现如上所述的基于声源定位的车载视频通话方法的步骤。

本发明通过获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置；根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息；根据所述人脸位置信息及所述车内场景图像确定实时通话图像；将所述实时通话图像及所述有效音频数据发送至视频接收端。由于是根据有效音频数据对应的声源位置进行采集车内场景图像，可以保证持续采集到的通话人的图像，避免通话人图像丢失，再根据人脸位置信息及车内场景图像确定包含人脸图像的实时通话图像，模拟面对面交流，可以提高视频通话的画面显示效果，提高视频通话的使用体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图；

图2为本发明基于声源定位的车载视频通话方法第一实施例的流程示意图；

图3为本发明基于声源定位的车载视频通话方法第二实施例的流程示意图；

图4为本发明基于声源定位的车载视频通话系统第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于声源定位的车载视频通话设备结构示意图。

如图1所示，该电子设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于声源定位的车载视频通话程序。

在图1所示的电子设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明电子设备中的处理器1001、存储器1005可以设置在基于声源定位的车载视频通话设备中，所述电子设备通过处理器1001调用存储器1005中存储的基于声源定位的车载视频通话程序，并执行本发明实施例提供的基于声源定位的车载视频通话方法。

本发明实施例提供了一种基于声源定位的车载视频通话方法，参照图2，图2为本发明一种基于声源定位的车载视频通话方法第一实施例的流程示意图。

本实施例中，所述基于声源定位的车载视频通话方法包括以下步骤：

步骤S10：获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置。

需要说明的是，本实施例的执行主体可以是所述基于声源定位的车载视频通话设备，所述基于声源定位的车载视频通话设备可以为车载电脑等电子设备，还可为其他可实现相同或相似功能的设备，本实施例对此不作限制，在本实施例以及下述各实施例中，以基于声源定位的车载视频通话设备为例对本发明基于声源定位的车载视频通话方法进行说明。

需要说明的是，有效音频数据可以是从采集的车辆内部的音频数据中排除各种无效音频数据后得到的的音频数据，无效音频数据可以是音量过低的音频数据。声源位置可以是有效音频数据对应的声源所处的位置，声源位置可以是与基于声源定位的车载视频通话设备的相对位置，也可以是具体的位置坐标，本实施例对此不加以限制。

进一步地，为了准确的确定声源位置，本实施例步骤S10，可以为:

获取车辆内部的有效音频数据，并根据所述有效音频数据确定声源信号到达音频采集阵列的时间差；根据所述时间差及所述音频采集阵列的几何形状确定所述有效音频数据对应的声源位置。

需要说明的是，音频采集阵列是由多个声学传感器组成用来对声场的空间特性进行采样并处理的系统，音频采集阵列可以是麦克风阵列。

可以理解的是，声源发出的声源信号到达音频采集阵列中各个声学传感器的时间会存在一定的差值，因此，可以获取各个声学传感器采集到声源信号的时间，计算对应的时间差值，根据时间差值、声音传播速度及音频采集阵列的几何形状进行计算，即可确定声源的位置，获得有效音频数据对应的声源位置。

例如：音频采集阵列总共包含有两个声学传感器A及B，，声源S的声源信号到达声学传感器A的时间为t1，到达声学传感器B的时间为t2，则时间差dt＝|t1-t2|，设定声源S与声学传感器A的距离为AS，声源S与声学传感器B的距离为BS，音速为c，则可以得到dt＝t1-t2＝AS/c-BS/c，再根据两个声学传感器之间的距离a及几何形状，选择其中一个传感器为基准点，即可根据TDOA(Time Difference of Arrival，到达时间差)原理确定声源的位置。

步骤S20：根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息。

需要说明的是，在车载视频通话过程中，实际声源为通话人，通话人可以是正在进行语音通话的驾驶人员或乘车人员，通话人在实际通话过程中可能会进行移动或进行人员切换，例如：乘车人员从车辆左后座移动至车辆右后座或由驾驶人员进行语音切换为乘车人员进行语音等。因此，需要确定声源位置，即当前通话人位置，再采集通话人的图像数据，以保证可持续采集到通话人的图像数据。

可以理解的是，在采集到的车内场景图像之后，可以通过人脸识别技术，对车内场景图像进行识别，确定车内场景图像中通话人的人脸位置信息。

进一步地，为了可持续采集通话人的图像数据，本实施例根据声源位置采集车内场景图像的步骤，可以为：

根据所述声源位置调整图像采集设备的拍摄角度；通过拍摄角度调整后的图像采集设备采集车内场景图像。

在实际使用中，图像采集设备的安装位置是已确定的，通过声源位置及安装位置进行相对计算，即可获得声源与图像采集设备的相对方向，再根据图像采集设备当前的拍摄角度及相对方向可计算出图像采集设备需要调整的角度，发送对应的调整指令，控制图像采集设备调整拍摄角度，再通过拍摄角度调整后的图像采集设备采集车内场景图像，即可采集到通话人的图像数据。

例如：当音频采集阵列获取音频计算后，确定声源位置，即通话人位置，声源位置为主驾驶位或副驾驶位，此时基于声源定位的车载视频通话设备计算得到声源与图像采集设备的相对方向，再通过相对方向和图像采集设备当前的拍摄角度计算出需要调整的角度，根据通过CAN(车辆总线)信号发送控制指令给图像采集设备，图像采集设备接收控制指令执行相应方向的转动动作，保证通话人始终能被图像采集设备捕捉到。

步骤S30：根据所述人脸位置信息及所述车内场景图像确定实时通话图像。

需要说明的是，实时通话图像可以是根据人脸位置信息及车内场景图像确定的包含人脸图像的图像，车内场景图像可能不仅包含了通话人的图像数据，还可能包含了其他的图像数据，而这部分图像数据若不进行清除，则会因为图像中要素过多，没有一种面对面交流的感觉，视频通话体验差。

进一步地，为了提高视频通话体验，本实施例步骤S30，可以为：

根据所述人脸位置信息确定人脸中心的位置坐标；根据所述位置坐标对所述车内场景图像进行图像处理，以获得实时通话图像。

可以理解的是，人脸位置信息是根据人脸识别技术自车内场景图像中识别得到的，通过人脸位置信息可以描绘出人脸的轮廓信息等，通过轮廓信息可确定人脸的中心位置，获得对应的人脸中心的位置坐标，再通过人脸中心的位置坐标对车内场景图像进行图像处理，排除不需要的图像数据，即可获得实时通话图像，通过图像处理之后的实时通话图像进行视频通话，可以凸显人脸信息，模拟一种面对面交流的感觉，可以提升视频通话的显示效果，提高视频通话体验。

在实际使用中，对车内场景图像进行图像处理可以获取预设裁剪大小及预设放大比例；根据所述预设裁剪大小及所述位置坐标确定图像裁剪框；根据所述图像裁剪框对所述车内场景图像进行裁剪，获得目标图像；根据所述预设放大比例对所述目标图像进行放大，获得实时通话图像。

需要说明的是，预设裁剪大小可以是预设用以确定裁剪之后图像保留的图像大小，预设放大比例可以是预设的图像放大比例。根据预设裁剪大小及人脸中心的位置坐标可以确定一图像裁剪框，以确保通话人的人脸图像包含在图像裁剪框中，预设裁剪大小可根据实际图像显示的需要进行设置。

可以理解的是，确定图像裁剪框之后即可根据图像裁剪框对车内场景图像进行裁剪，获得目标图像，但是，目标图像可能太小，会影响视频通话过程中图像显示效果，因此，可以根据预设放大比例对目标图像进行放大，以获得实时通话图像。

步骤S40：将所述实时通话图像及所述有效音频数据发送至视频接收端。

可以理解的是，将实时通话图像及有效音频数据发送至视频接收端，以使视频接收端进行图像显示和音频播放，即可进行视频通话。

在实际使用中，可以通过无线网络将实时通话图像及有效音频数据发送至视频接收端，无线网络可以是无线保真(Wi-Fi)网络、4G网络或5G网络，本实施例对此不加以限制。

需要说明的是，视频通话是视频接收端与视频发送端双向的通信，基于声源定位的车载视频通话设备也可以接收视频接收端发送的通话图像及音频数据，再将接收到的通话图像进行显示，将接收到的音频数据播放。

本实施例通过获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置；根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息；根据所述人脸位置信息及所述车内场景图像确定实时通话图像；将所述实时通话图像及所述有效音频数据发送至视频接收端。由于是根据有效音频数据对应的声源位置进行采集车内场景图像，可以保证持续采集到的通话人的图像，避免通话人图像丢失，再根据人脸位置信息及车内场景图像确定包含人脸图像的实时通话图像，模拟面对面交流，可以提高视频通话的画面显示效果，提高视频通话的使用体验。

参考图3，图3为本发明一种基于声源定位的车载视频通话方法第二实施例的流程示意图。

基于上述第一实施例，本实施例基于声源定位的车载视频通话方法在所述步骤S10之前，还包括：

步骤S01：采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据。

需要说明的是，在音频的转化过程可以先将N个取样点集合成一个观测单位，称为音框(Frame)，通常N的值是256或512，涵盖的时间约为20～30ms左右，可以根据实际需要进行修改。在采集音频数据时，因实际采集的距离、环境等因素影响，采集的音频数据可能与系统的使用标准并不相同，因此，可以对音频数据进行预处理，获得符合使用标准的音框数据，以便于进行数据处理。

进一步地，为了获得符合使用标准的音框数据，本实施例步骤S01，可以为：

采集车辆内部的音频数据，并对所述音频数据进行信号放大，获得音讯数据；将所述音讯数据进行音量标准化处理，获得音框数据。

需要说明的是，采集的音频数据可能会因为信号过小，使得处理困难或误处理，因此，可以将音频数据进行信号放大，获得音讯数据，再对音讯数据进行音量标准化处理，将其中音量标准统一，再转化为音框数据，以便于后续的数据处理。

步骤S02：将所述音框数据中音量低于预设音量阈值的部分清除，获得有效音频数据。

需要说明的是，采集的音频数据中可能存在杂音数据，杂音数据会使得声源位置计算受到杂音的干扰，导致声源定位存在误差，最终使得采集的车内场景图像便宜，可能无法采集到的通话人的图像，同时会使得视频通话过程中存在杂音，降低视频通话使用体验。

在实际使用中，杂音数据一般音量都较低，因此可以根据实际情况预设音量阈值，将音框数据中音量低于预设音量阈值的部分清除，以去除音频数据中的杂音数据，获得有效音频数据。

本实施例通过采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据；将所述音框数据中音量低于预设音量阈值的部分清除，获得有效音频数据。可以排除音频数据中存在的杂音数据，提高声源位置计算的准确率，提高视频通话使用体验。

参照图4，图4为本发明基于声源定位的车载视频通话系统第一实施例的结构框图。

如图4所示，本发明实施例提出的基于声源定位的车载视频通话系统包括：

音频采集模块401，用于获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置；

图像采集模块402，用于根据声源位置采集车内场景图像，并根据所述车内场景图像确定人脸位置信息；

图像处理模块403，用于根据所述人脸位置信息及所述车内场景图像确定实时通话图像；

数据传输模块404，用于将所述实时通话图像及所述有效音频数据发送至视频接收端。

进一步地，所述音频采集模块401，还用于获取车辆内部的有效音频数据，并根据所述有效音频数据确定声源信号到达音频采集阵列的时间差；根据所述时间差及所述音频采集阵列的几何形状确定所述有效音频数据对应的声源位置。

进一步地，所述图像采集模块402，还用于根据所述声源位置调整图像采集设备的拍摄角度；通过拍摄角度调整后的图像采集设备采集车内场景图像。

进一步地，所述音频采集模块401，还用于采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据；将所述音框数据中音量低于预设音量阈值的部分清除，获得有效音频数据。

进一步地，所述音频采集模块401，还用于采集车辆内部的音频数据，并对所述音频数据进行信号放大，获得音讯数据；将所述音讯数据进行音量标准化处理，获得音框数据。

进一步地，所述图像处理模块403，还用于根据所述人脸位置信息确定人脸中心的位置坐标；根据所述位置坐标对所述车内场景图像进行图像处理，以获得实时通话图像。

进一步地，所述图像处理模块403，还用于获取预设裁剪大小及预设放大比例；根据所述预设裁剪大小及所述位置坐标确定图像裁剪框；根据所述图像裁剪框对所述车内场景图像进行裁剪，获得目标图像；根据所述预设放大比例对所述目标图像进行放大，获得实时通话图像。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于声源定位的车载视频通话方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于声源定位的车载视频通话方法，其特征在于，所述车载视频通话方法包括以下步骤：

2.如权利要求1所述的基于声源定位的车载视频通话方法，其特征在于，所述获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置的步骤，包括：

3.如权利要求1所述的基于声源定位的车载视频通话方法，其特征在于，所述根据声源位置采集车内场景图像的步骤，包括：

根据所述声源位置调整图像采集设备的拍摄角度；

通过拍摄角度调整后的图像采集设备采集车内场景图像。

4.如权利要求1所述的基于声源定位的车载视频通话方法，其特征在于，所述获取车辆内部的有效音频数据，确定所述有效音频数据对应的声源位置的步骤之前，还包括：

5.如权利要求4所述的基于声源定位的车载视频通话方法，其特征在于，所述采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据的步骤，包括：

将所述音讯数据进行音量标准化处理，获得音框数据。

6.如权利要求1-5中任一项所述的基于声源定位的车载视频通话方法，其特征在于，所述根据所述人脸位置信息及所述车内场景图像确定实时通话图像的步骤，包括：

根据所述人脸位置信息确定人脸中心的位置坐标；

7.如权利要求6所述的基于声源定位的车载视频通话方法，其特征在于，所述根据所述位置坐标对所述车内场景图像进行图像处理，以获得实时通话图像的步骤，包括：

获取预设裁剪大小及预设放大比例；

根据所述预设裁剪大小及所述位置坐标确定图像裁剪框；

8.一种基于声源定位的车载视频通话系统，其特征在于，所述基于声源定位的车载视频通话系统包括以下模块：

9.如权利要求8所述的基于声源定位的车载视频通话系统，其特征在于，所述音频采集模块，还用于采集车辆内部的音频数据，对所述音频数据进行预处理，获得音框数据；将所述音框数据中音量低于预设音量阈值的部分清除，获得有效音频数据。

10.一种基于声源定位的车载视频通话设备，其特征在于，所述基于声源定位的车载视频通话设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声源定位的车载视频通话程序，所述基于声源定位的车载视频通话程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于声源定位的车载视频通话方法的步骤。