CN113556499B

CN113556499B - 一种车载视频通话方法及车载系统

Info

Publication number: CN113556499B
Application number: CN202010268504.7A
Authority: CN
Inventors: 张宏升; 吕震; 吴丹
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-05-09
Anticipated expiration: 2040-04-07
Also published as: CN113556499A

Abstract

本发明提供一种车载视频通话方法及车载系统，在接收到用户的视频通话请求后，通过设置在车辆内部空间的全景摄像头采集车辆内部的视频，并通过设置在车辆内部空间的麦克风阵列采集车辆内部的声音信息，根据声音信息确定发出该声音信息的声源所在区域，并从视频中裁切出声源所在区域处的视频数据，并发送至对方用户，同时下载并显示对方用户的视频数据，完成视频通话。由于直接在车载系统上就可以方便地实现视频通话，不仅满足了用户的视频通话需求同时不会影响行车安全。且通过采用全景摄像头不仅可以满足车辆内部空间任何位置处的用户与其他用户之间的视频通话，而且相较于在车辆内部空间不同位置分别设置多个摄像头而言降低了系统成本。

Description

一种车载视频通话方法及车载系统

技术领域

本发明属于视频通话技术领域，尤其涉及一种车载视频通话方法及系统。

背景技术

目前用户存在与其他用户进行视频通话的需求，但是，当用户位于车辆内时，不能借助车载终端实现视频通话，如果仍然使用移动终端如手机实现视频通话，不仅不方便而且在车辆行驶过程中使用移动终端进行视频通话将存在安全隐患。

因此，现有技术中亟需一种能够满足车辆内部空间的视频通话需求的方法。

发明内容

有鉴于此，本发明的目的在于提供一种车载视频通话方法及车载系统，用于解决现有技术中用户在车辆内时不能方便、安全地进行视频通话的问题。

技术方案如下：

本发明提供一种车载视频通话的方法，包括：

接收到用户的视频通话请求后，通过设置在车辆内部空间的全景摄像头采集车辆内部的视频；

通过设置在车辆内部空间的麦克风阵列采集车辆内部的声音信息；

根据所述声音信息，确定发出所述声音信息的声源所在区域；其中，所述区域为预先将车辆内部空间划分为n个区域中的至少一个区域；n为正整数；

将声源所在区域作为目标区域，从所述视频中裁切出所述目标区域处的视频数据，并向对方用户输出所述视频数据；

获取对方用户的视频数据并显示。

优选地，在视频通话过程中，还包括：

获取当前视频通话模式；

获取所述声音信息的声纹特征；

根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域。

优选地，若当前视频通话模式为同一时刻只允许一个用户说话，则根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域，包括：

比较当前声音信息的声纹特征与预先存储的目标区域处的声纹特征，确定是否存在新的声纹特征；

若确定存在新的声纹特征，则判断当前声音信息的声纹特征中是否包括预先存储的目标区域处的声纹特征；

若当前声音信息的声纹特征中包括预先存储的目标区域处的声纹特征，则保持所述目标区域；

若当前声音信息的声纹特征中不包括预先存储的目标区域处的声纹特征，则确定从当前声音信息中获取到的声纹特征的总数量，并确定所述总数量是否为1；

若总数量不为1，则保持所述目标区域，并提示调整同时说话人数；

若总数量为1，则确定当前声音信息的声源所在区域，并将当前声音信息的声源所在区域作为目标区域。

优选地，若当前视频通话模式为同时允许多个用户说话，则根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域，包括：

判断当前声音信息的声纹特征中是否包括预先存储的所述目标区域中各个区域处的声纹特征；

若判断当前声音信息的声纹特征中包括预先存储的所述目标区域中各个区域处的声纹特征，则保持所述目标区域；

若判断当前声音信息的声纹特征中不包括预先存储的所述目标区域中至少一个区域处的声纹特征，则确定目标区域中声纹特征消失的区域；

间隔预设时间后，判断当前声音信息的声纹特征中是否包括预先存储的声纹特征消失的区域处的声纹特征；

若判断当前声音信息的声纹特征中包括预先存储的声纹特征消失的区域处的声纹特征，则保持所述目标区域；

若判断当前声音信息的声纹特征中不包括预先存储的声纹特征消失的区域处的声纹特征，则从所述目标区域中将声纹特征消失的区域去除。

优选地，还包括：

若确定存在新的声纹特征，则确定新的声纹特征对应的声音信息的声源所在区域；

将所述新的声纹特征对应的声音信息的声源所在区域作为目标区域。

优选地，在所述根据所述声音信息，确定对应所述声音信息的声源所在区域之前，还包括：

接收到用户的视频通话请求后，确定所述视频通话请求的触发方式；

若所述视频通话请求的触发方式为语音触发，则执行根据所述声音信息，确定对应所述声音信息的声源所在区域的步骤；

若所述视频通话请求的触发方式为手动触发，则将主驾驶位置所在区域作为目标区域，并执行从所述视频中裁切出所述目标区域处的视频数据，并向对方用户输出所述视频数据的步骤。

本申请还提供了一种车载系统，包括：

控制器，分别与所述控制器连接的全景摄像头、麦克风阵列和显示器；

所述全景摄像头设置在车辆内部空间，用于采集车辆内部的视频，并将所述视频发送至所述控制器；

所述麦克风阵列设置在车辆内部空间，用于采集车辆内部的声音信息，并将所述声音信息发送至所述控制器；

所述控制器，用于根据所述声音信息，确定发出所述声音信息的声源所在区域；其中，所述区域为预先将车辆内部空间划分为n个区域中的至少一个区域；n为正整数；并将声源所在区域作为目标区域，从所述视频中裁切出所述目标区域处的视频数据，向对方用户输出所述视频数据，并获取对方用户的视频数据，将获取到的对方用户的视频数据发送至所述显示器；

所述显示器，显示对方用户的视频数据。

优选地，所述控制器，还用于获取当前视频通话模式并获取所述声音信息的声纹特征；根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域。

优选地，若当前视频通话模式为同一时刻只允许一个用户说话，则所述控制器根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域的具体实现为：

比较当前声音信息的声纹特征与预先存储的目标区域处的声纹特征，确定是否存在新的声纹特征；若确定存在新的声纹特征，则判断当前声音信息的声纹特征中是否包括预先存储的目标区域处的声纹特征；若当前声音信息的声纹特征中包括预先存储的目标区域处的声纹特征，则保持所述目标区域；若当前声音信息的声纹特征中不包括预先存储的目标区域处的声纹特征，则确定从当前声音信息中获取到的声纹特征的总数量，并确定所述总数量是否为1；若总数量不为1，则保持所述目标区域，并提示调整同时说话人数；若总数量为1，则确定当前声音信息的声源所在区域，并将当前声音信息的声源所在区域作为目标区域。

优选地，若当前视频通话模式为同时允许多个用户说话，则所述控制器根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域的具体实现为：

判断当前声音信息的声纹特征中是否包括预先存储的所述目标区域中各个区域处的声纹特征；若判断当前声音信息的声纹特征中包括预先存储的所述目标区域中各个区域处的声纹特征，则保持所述目标区域；若判断当前声音信息的声纹特征中不包括预先存储的所述目标区域中至少一个区域处的声纹特征，则确定目标区域中声纹特征消失的区域；间隔预设时间后，判断当前声音信息的声纹特征中是否包括预先存储的声纹特征消失的区域处的声纹特征；若判断当前声音信息的声纹特征中包括预先存储的声纹特征消失的区域处的声纹特征，则保持所述目标区域；若判断当前声音信息的声纹特征中不包括预先存储的声纹特征消失的区域处的声纹特征，则从所述目标区域中将声纹特征消失的区域去除。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

从上述技术方案可知，本申请提供的车载视频通话方法应用于车载系统，在接收到用户的视频通话请求后，通过设置在车辆内部空间的全景摄像头采集车辆内部的视频，并通过设置在车辆内部空间的麦克风阵列采集车辆内部的声音信息，根据声音信息确定发出该声音信息的声源所在区域，并从视频中裁切出声源所在区域处的视频数据，并发送至对方用户，同时下载并显示对方用户的视频数据，完成视频通话。由于直接在车载系统上就可以方便地实现视频通话，不仅满足了用户的视频通话需求同时不会影响行车安全。且，通过采用全景摄像头不仅可以满足车辆内部空间任何位置处的用户与其他用户之间的视频通话，而且相较于在车辆内部空间不同位置分别设置多个摄像头而言降低了系统成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种车载视频通话方法的流程图；

图2是本发明实施例提供的车辆内部空间划分示意图；

图3是本发明实施例提供的在第一种视频通话模式下的车载视频通话方法的流程图；

图4是本发明实施例提供的在第二种视频通话模式下的车载视频通话方法的流程图；

图5是本发明实施例提供的另一种车载视频通话方法的流程图；

图6是本发明实施例提供的一种车载系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种车载视频通话方法，所述方法应用于车载系统，其中，车载系统至少包括全景摄像头、麦克风阵列、显示器、网络通信模块以及控制器。控制器可以为智能座舱系统主机，智能座舱系统主机预装视频通话软件，智能座舱系统主机通过外置的网络通信模块与视频通话软件后台建立网络连接；通过网络通信模块与视频通话软件后台服务器通信，进而与视频通话的对方用户建立网络连接，上传智能座舱系统主机输出的视频并下载视频通话的对方用户的视频数据，在显示器上显示视频通话界面。

下面车载视频通话方法是以控制器的角度进行描述。

参见图1，该实施例包括以下步骤：

S101、接收到用户的视频通话请求后，通过设置在车辆内部空间的全景摄像头采集车辆内部的视频。

用户需要与对方用户进行视频通话时，输入视频通话请求，其中，视频通话请求的触发方式包括：语音触发以及手动触发。

语音触发指的是用户输入语音指令，如“视频通话”，其中，可以通过麦克风阵列采集用户输入的语音指令，并将采集到的语音指令发送至控制器，控制器接收到用户输入的语音指令后，确定用户存在视频通话的需求。

手动触发指的是用户手动输入视频通话请求，如通过按压或触摸显示器上显示的虚拟按钮产生视频通话请求，或者通过按压实体按键产生视频通话请求。

即本实施例中用户可以通过显示器提供的虚拟按钮或者语音指令或者车载系统提供的实体按键来调用视频通话软件以启动视频通话功能。

在启动视频通话功能后进行视频通话时，需要将用户当前所处环境的视频发送给通话的对方用户，因此，需要采集用户所在环境的视频。

本实施例中通过全景摄像头采集用户所在环境的视频，其中，将全景摄像头设置于车辆内部空间的中心位置处或者其他可以拍摄到需要进行视频通话的用户的位置处。

全景摄像头采集到用户所在环境的视频后，将采集到的视频以视频流的方式发送给智能座舱系统主机。其中，智能座舱系统主机与全景摄像头之间通过LVDS传输视频流。

由于全景摄像头可以采集到用户所处车辆内部空间的全景视频，即车内360°空间内的视频画面，而当前说话的用户即进行视频通话的用户所在位置处的视频仅是全景视频中的一部分，因此通过全景摄像头采集到用户所在环境的视频后，并不直接将全景视频直接发送至对方用户，而是对全景视频进行步骤S102-S104的处理后才将经过处理后的视频发送至对方用户。

S102、通过设置在车辆内部空间的麦克风阵列采集车辆内部的声音信息。

麦克风阵列采集车辆内部空间各处的声音信息，并将采集到的声音信息通过硬线或者A2B总线发送到智能座舱系统主机。

智能座舱系统主机支持多路音频输入，以接收麦克风阵列发送的多路声音信息。

S103、根据所述声音信息，确定发出所述声音信息的声源所在区域；其中，所述区域为预先将车辆内部空间划分为n个区域中的至少一个区域；n为正整数。

如图2所示，将车辆内部空间划分为n个区域，以Zn标识每个区域，其中，n为正整数，如图2所示，Z1标识第一个区域，Z2标识第二个区域，Z3标识第三个区域，……，Zn标识第n个区域。

如图2所示，将全景摄像头设置在车辆内部空间的中心位置处。

车辆内部空间可能存在多个用户，可能同时存在至少一个用户在说话，此时，将每个说话的用户作为一个声源，该声源都能产生一个声音信息，但是，通过麦克风阵列采集到的声音信息可能是一个声源产生的声音信息，即此时只有一个人在说话，麦克风阵列采集到的声音信息也可能是多个声源中每个声源产生的声音信息的融合，即此时多个人在说话。

智能座舱系统主机还提供多音区管理服务，根据麦克风阵列输入的多路声音信息计算发出所述声音信息的声源的位置信息，根据声源的位置信息以及车辆内部空间的n个区域，确定发出所述声音信息的声源所在区域。

仍以图2所示为例，例如，只有一个人说话时，发出声音信息的声源为一个，计算发出声音信息的声源的位置信息位于区域Z1范围内，则确定发出声音信息的声源所在区域为Z1。

在确定出发出声音信息的声源所在区域为Z1后，接收指定区域处的声音信息，即区域Z1处的声音信息，并存储确定出的声源位置信息或者存储确定出的声源所在区域。其中，可以在本地存储器中存储声源所在区域。

例如，同时有两个人说话时，发出声音信息的声源为两个，计算发出声音信息的第一声源的位置信息位于区域Z2范围内，计算发出声音信息的第二声源的位置信息位于区域Z3范围内，则确定发出声音信息的第一声源所在区域为Z2，确定发出声音信息的第二声源所在区域为Z3。

S104、将声源所在区域作为目标区域，从所述视频中裁切出所述目标区域处的视频数据，并向对方用户输出所述视频数据。

智能座舱系统主机还提供多通道视频流管理服务，支持多通道视频流输出功能，从全景摄像头采集到的视频中裁切目标区域的视频数据，其中，目标区域包括至少一个区域。此处的区域指的是车辆内部空间的Z1-Zn。

智能座舱系统主机基于视频流画面裁切技术，在确定出目标区域后，从全景摄像头采集到的视频中裁切得到目标区域的视频数据，若目标区域中仅包括一个区域，则通过单通道以视频流的方式输出这一个区域的视频数据。

若目标区域包括多个区域，则分别裁切得到多个区域的视频数据后，通过多通道以视频流的方式输出多个区域的视频数据。

同时，存储当前需要裁切的目标区域，以便后续视频通话过程中确定是否更新需要裁切的目标区域。

S105、获取对方用户的视频数据并显示。

通过显示器显示智能座舱系统主机接收来自视频通话软件后台服务器上的视频数据及通话界面。

当启动视频通话软件时，智能座舱系统主机根据需要将当前从视频通话软件后台服务器上获取到的视频数据及通话界面显示在显示器上。其中，智能座舱系统主机与显示器之间通过LVDS传输视频数据。

实现了用户与对方用户之间的视频通话。

从上述技术方案可知，本申请中车载视频通话方法应用于车载系统，在接收到用户的视频通话请求后，通过设置在车辆内部空间的全景摄像头采集车辆内部的视频，并通过设置在车辆内部空间的麦克风阵列采集车辆内部的声音信息，根据声音信息确定发出该声音信息的声源所在区域，并从视频中裁切出声源所在区域处的视频数据，并发送至对方用户，同时下载并显示对方用户的视频数据，完成视频通话。由于直接在车载系统上就可以方便地实现视频通话，不仅满足了用户的视频通话需求同时不会影响行车安全。且，通过采用全景摄像头不仅可以满足车辆内部空间任何位置处的用户与其他用户之间的视频通话，而且相较于在车辆内部空间不同位置分别设置多个摄像头而言降低了系统成本。

在另一个实施例中，智能座舱系统主机还提供声纹分析服务，获取麦克风阵列输入的声音信息的声纹特征并存储声纹特征，并可计算声纹特征的数量，以及可区分不同的声纹特征。

其中，在存储声纹特征时，将该声音信息的声源所在区域与该声音信息的声纹特征对应存储。

例如，智能座舱系统主机通过麦克风阵列获取声音信息并判断声音信息的声源所在区域为Zn，将Zn作为目标区域，并获取声音信息的声纹特征，然后对应存储目标区域即区域Zn以及区域Zn处的声纹特征。

基于此，在视频通话过程中，还包括：

获取所述声音信息的声纹特征，并根据声纹特征确定是否调整目标区域。

在另一个实施例中，设置两种视频通话模式，第一种视频通话模式为同一时刻只允许一个用户说话，第二种视频通话模式为同时允许多个用户说话。

在确定是否调整目标区域时，获取声音信息的声纹特征并获取当前视频通话模式，根据当前视频通话模式与所述声纹特征，确定是否调整所述目标区域。

在不同视频通话模式下，确定是否调整目标区域以确定输出视频数据的方式是不同的。

下面分别介绍在两种视频通话模式下，确定是否调整目标区域以确定输出视频数据的方式。

参见图3所示，在视频通话过程中，若当前视频通话模式为同一时刻只允许一个用户说话，则根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域，包括：

S301、比较当前声音信息的声纹特征与预先存储的目标区域处的声纹特征，确定是否存在新的声纹特征；

若确定存在新的声纹特征，则执行步骤S302；

若确定不存在新的声纹特征，则执行步骤S305。

视频通话过程中，通过声纹分析服务获取麦克风阵列采集到的当前声音信息的声纹特征，并对当前声音信息的声纹特征进行声纹区分，然后与预先存储的声纹特征进行对比，判断是否有新的声纹特征。其中，预先存储的声纹特征为目标区域处的声纹特征，即目标区域处的声源产生的声音信息中的声纹特征。所述目标区域为当前输出视频流区域。

需要注意的是，预先存储的声纹特征是随着目标区域的调整而变化的。

若没有新的声纹特征，则执行步骤S305，从而使得智能座舱系统主机中的多通道视频流管理服务保持当前输出的视频流状态。即仍然输出裁切得到的当前目标区域处的视频流。

若确定存在新的声纹特征，则执行步骤S302。

S302、判断当前声音信息的声纹特征中是否包括预先存储的目标区域处的声纹特征；

若当前声音信息的声纹特征中包括预先存储的目标区域处的声纹特征，则执行步骤S305；

若当前声音信息的声纹特征中不包括预先存储的目标区域处的声纹特征，则执行步骤S303。

若存在新的声纹特征，则需要判断目标区域即当前输出视频流区域处的声纹特征是否继续存在。若当前输出视频流区域处的声纹特征继续存在，则多通道视频流管理服务保持当前输出的视频流状态不变，即保持目标区域而不调整目标区域；若当前输出视频流区域处的声纹特征消失，则进行步骤S303的处理。

S303、确定从当前声音信息中获取到的声纹特征的总数量，并确定所述总数量是否为1；

若总数量不为1，则执行步骤S305，同时提示调整同时说话人数；

若总数量为1，则执行步骤S304。

若当前输出视频流区域处的声纹特征消失，通过声纹分析服务得到当前声音信息中包括的声纹特征的总数量。若总数量不为1，表征无人说话或有多人在说话，则保持当前输出的视频流状态不变，同时通过语音或显示的方式提示保持车内只有一人说话，直至确定当前声音信息中声纹特征的总数量为1。

S304、确定当前声音信息的声源所在区域，并将当前声音信息的声源所在区域作为目标区域。

若确定当前声音信息中包括的声纹特征总数量为1，表征只有一个人在说话，则通过多音区管理服务确定当前说话人所在区域即当前声音信息的声源所在区域，将当前声音信息的声源所在区域作为重新确定的目标区域，即更新了目标区域。

同时声纹分析服务存储当前说话人所在区域处的声纹特征，即存储目标区域处的声纹特征。

如执行步骤S301之前目标区域为区域Z1，通过执行步骤S301-S304确定当前声音信息的声源所在区域为Z3，则将目标区域由Z1更新为Z3。

并且存储的声纹特征由区域Z1处的声纹特征更新为区域Z3处的声纹特征。

S305、保持所述目标区域。

在同一时刻只允许一个用户说话的这一视频通话模式下，目标区域为一个，进而输出单通道视频流。

除此之外，在视频通话过程中若收到通话结束的指令，则关闭单通道视频流的输出，并关闭当前显示器上的视频通话界面，退出视频通话。

若没有接收到通话结束指令，则循环执行步骤S301-305。

参见图4所示，在视频通话过程中，若当前视频通话模式为同时允许多个用户说话，则根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域，包括：

S401、判断当前声音信息的声纹特征中是否包括预先存储的所述目标区域中各个区域处的声纹特征；

若判断当前声音信息的声纹特征中包括预先存储的所述目标区域中各个区域处的声纹特征，则执行步骤S405；

若判断当前声音信息的声纹特征中不包括预先存储的所述目标区域中至少一个区域处的声纹特征，则执行步骤S402。

此种视频通话模式下，区别于上一视频通话模式，目标区域可由多个区域组成，如图2所示的Z2和Z3均为目标区域。预先存储了目标区域中各个区域处的声纹特征。

视频通话过程中，通过声纹分析服务获取麦克风阵列采集到的当前声音信息的声纹特征，通过多音区管理服务结合多通道视频流管理服务中存储的目标区域即输出视频流区域的情况，判断当前所有输出视频流区域处的声纹特征是否全部存在。

其中，若当前声音信息的声纹特征中包括所有输出视频流区域处的声纹特征，则通过多通道视频流管理服务，保持当前视频流裁切区域及输出的状态，即保持目标区域。

若当前声音信息的声纹特征中不包括任意一个或多个输出视频流区域处的声纹特征，则执行步骤S402。

S402、确定目标区域中声纹特征消失的区域。

通过声纹分析服务确定目标区域中声纹特征消失的区域。仍然以Z2和Z3为目标区域为例，若确定当前声音信息的声纹特征中仅包括区域Z3处的声纹特征，则确定区域Z2处的声纹特征消失，即区域Z2为声纹特征消失的区域。

S403、间隔预设时间后，判断当前声音信息的声纹特征中是否包括预先存储的声纹特征消失的区域处的声纹特征；

若判断当前声音信息的声纹特征中包括预先存储的声纹特征消失的区域处的声纹特征，则执行步骤S405保持所述目标区域；

若判断当前声音信息的声纹特征中不包括预先存储的声纹特征消失的区域处的声纹特征，则执行步骤S404。

从确定区域Z2处的声纹特征消失开始，间隔预设时间后，重新确定当前声音信息的声纹特征中是否包括区域Z2处的声纹特征，即区域Z2处的声纹特征是否恢复。

若确定间隔预设时间后区域Z2处的声纹特征恢复，则保持目标区域，进而通过多通道视频流管理服务保持区域Zx的视频流裁切及视频流的输出；

若确定间隔预设时间后区域Z2处的声纹特征没有恢复，则执行步骤S404。

本实施例中预设时间可以根据需求进行设置，如设置为10s。在进行设置时可以考虑用户说话过程中的间隔时间。

S404、从所述目标区域中将声纹特征消失的区域去除。

若10s内区域Z2处的声纹特征没有恢复，则通过多通道视频流管理服务，停止裁切及输出区域Z2处的视频流，将Z2从目标区域中去除，使得目标区域中仅包括区域Z3。

然后存储目标区域Z3以及Z3处的声纹特征，以便于下一次进入视频通话模式后，基于存储的目标区域以及目标区域处的声纹特征确定是否要调整目标区域，进而确定目标区域。

S405、保持所述目标区域。

当然，在同时允许多个用户说话的这一视频通话模式下，在每次通过麦克风阵列采集到声音信息后，也需要执行判断是否存在新的声纹特征的操作。

具体地，还包括：

S406、比较当前声音信息的声纹特征与预先存储的目标区域处的声纹特征，确定是否存在新的声纹特征；

若确定不存在新的声纹特征，则执行步骤S405；

若确定存在新的声纹特征，则执行步骤S407。

步骤S406与步骤S301的区别在于步骤S301的目标区域中包括一个区域，预先存储的是这一个区域以及这一个区域处的声纹特征。

而步骤S406的目标区域中可能包括多个区域，预先存储的是这多个区域，以及这多个区域中每个区域处的声纹特征。

若确定不存在新的声纹特征，则保持目标区域，具体的，通过多通道视频流管理服务，保持当前视频流裁切区域及视频流输出的状态。

若确定存在新的声纹特征，则执行步骤S407。

S407、确定新的声纹特征对应的声音信息的声源所在区域。

通过多音区管理服务，可以确定具有该新的声纹特征的声源所在区域，如Z1。

S408、将所述新的声纹特征对应的声音信息的声源所在区域作为目标区域。

将区域Z1作为目标区域中的一个区域，并存储区域Z1处的声纹特征。

需要注意的是，是在当前目标区域的基础上增加区域Z1，如，当前目标区域为区域Z3，则经过步骤S408后，目标区域中包括两个区域，分别为Z1和Z3。

在实际应用中，并不限定步骤S401-S405与步骤S406-S408的执行顺序，可以是并行执行的，也可以是先后执行的，其中先后执行时也可以先执行步骤S406-S408再执行步骤S401-S405；也可以先执行步骤S401-S405再执行步骤S406-S408。

在同时允许多个用户说话的这一视频通话模式下，目标区域为多个，进而输出多通道视频流。其中，在输出多通道视频流之前，需要进行用户认证，只有用户认证通过才能输出多通道视频流。

视频通话过程中，若接收到通话结束指令，则关闭当前所有通道视频流的输出，并关闭当前显示器上的视频通话界面，退出视频通话。

若没有接收到通话结束指令，则循环执行步骤S401-S408。

从上述技术方案可知，用户在车内使用全景摄像头进行视频通话时，提供了两种视频通话模式可供选择，第一种视频通话模式为同时只允许一个用户说话，此种模式下，目标区域即视频流裁切区域以及视频流的输出状态不受其他区域内声源的干扰，且目标区域内的说话人结束说话后，可以重新判定新的说话人所在区域，进而对目标区域进行调整，可以将新的说话人所在区域确定为目标区域，并裁切新的说话人所在区域的视频流，并输出该视频流。第二种视频通话模式为同时允许多个用户说话，此种模式下，智能座舱主机输出的视频流可以同时包括多个正在说话人所在区域的视频流。同时，对目标区域中声纹特征消失的区域进行延时保护，防止某一区域内的用户在说话时间歇停止说话而导致不再将此区域内的视频流输出的问题发生。达到良好的车载视频通话效果。

通过设置两种不同的视频通话模式，使得用户可以根据实际应用场景进行选择，提升了用户体验。

在确定目标区域时，考虑到视频通话请求的触发方式不同，可以采用不同的确定目标区域的方式。

参见图5所示，在接收到用户的视频通话请求后，执行步骤S103之前，还包括：

S501、确定所述视频通话请求的触发方式。

视频通话请求的触发方式包括：语音触发以及手动触发。

需要注意的是，并不限定步骤S501与步骤S101以及步骤S102的执行先后顺序。

S502、若所述视频通话请求的触发方式为语音触发，则执行步骤S103及S103的后续步骤。

若触发方式为语音触发，则与图1所示的视频通话方法相同，此处不再赘述。

S503、若所述视频通话请求的触发方式为手动触发，则执行步骤S504；

S504、将主驾驶位置所在区域作为目标区域。

若视频通话请求的触发方式为手动触发，则不需要执行对声音信息的进一步处理，进而确定目标区域，而是直接将主驾驶位置所在区域作为目标区域，进而输出主驾驶位置所在区域的视频流。

需要注意的是，在确定出目标区域后执行的操作与图1所示的确定出目标区域后执行的操作相同。

通过上述技术方案可知，本实施例中在用户通过手动触发的方式生成视频通话请求时，直接确定主驾驶位置所在区域为目标区域，进而输出主驾驶位置所在区域的视频流。而不需要执行确定目标区域的步骤，从而减少了控制器的工作量，加快了对视频通话的响应速度。

对应上述车载视频通话方法，本发明还提供了一种车载系统，所述系统的结构示意图请参阅图6所示，本实施例中系统包括：

控制器601；

分别与控制器601连接的全景摄像头602、麦克风阵列603和显示器604。

全景摄像头602设置在车辆内部空间，用于采集车辆内部的视频，并将所述视频发送至控制器601。

可以理解的是，控制器601也可以从全景摄像头602获取视频。

麦克风阵列603设置在车辆内部空间，用于采集车辆内部的声音信息，并将所述声音信息发送至控制器601。

可以理解的是，控制器601也可以从麦克风阵列603获取声音信息。

控制器601，用于根据所述声音信息，确定发出所述声音信息的声源所在区域；其中，所述区域为预先将车辆内部空间划分为n个区域中的至少一个区域；n为正整数；并将声源所在区域作为目标区域，从所述视频中裁切出所述目标区域处的视频数据，向对方用户输出所述视频数据，并获取对方用户的视频数据，将获取到的对方用户的视频数据发送至显示器604。

一种实现方式中，控制器601可以选择使用智能座舱系统主机。

显示器604，显示对方用户的视频数据。

在另一个实施例中，控制器601，还用于：

获取当前视频通话模式并获取所述声音信息的声纹特征；根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域。

在另一个实施例中，若当前视频通话模式为同一时刻只允许一个用户说话，则控制器601根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域的具体实现为：

若当前视频通话模式为同时允许多个用户说话，则控制器601根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域的具体实现为：

从上述技术方案可知，本申请的车载系统在接收到用户的视频通话请求后，通过设置在车辆内部空间的全景摄像头采集车辆内部的视频，并通过设置在车辆内部空间的麦克风阵列采集车辆内部的声音信息，根据声音信息确定发出该声音信息的声源所在区域，并从视频中裁切出声源所在区域处的视频数据，并发送至对方用户，同时下载并显示对方用户的视频数据，完成视频通话。由于直接在车载系统上就可以方便地实现视频通话，不仅满足了用户的视频通话需求同时不会影响行车安全。且，通过采用全景摄像头不仅可以满足车辆内部空间任何位置处的用户与其他用户之间的视频通话，而且相较于在车辆内部空间不同位置分别设置多个摄像头而言降低了系统成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种车载视频通话方法，其特征在于，包括：

获取对方用户的视频数据并显示；

其中，在视频通话过程中，还包括：

获取当前视频通话模式；

获取所述声音信息的声纹特征；

根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域；

其中，若当前视频通话模式为同一时刻只允许一个用户说话，则根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域，包括：

2.根据权利要求1所述的方法，其特征在于，若当前视频通话模式为同时允许多个用户说话，则根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述根据所述声音信息，确定对应所述声音信息的声源所在区域之前，还包括：

5.一种车载系统，其特征在于，包括：

所述显示器，显示对方用户的视频数据；

其中，所述控制器，还用于获取当前视频通话模式并获取所述声音信息的声纹特征；根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域；

其中，若当前视频通话模式为同一时刻只允许一个用户说话，则所述控制器根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域的具体实现为：

6.根据权利要求5所述的系统，其特征在于，若当前视频通话模式为同时允许多个用户说话，则所述控制器根据所述当前视频通话模式与所述声纹特征，确定是否调整所述目标区域的具体实现为：