CN111724793A

CN111724793A - 一种车载视频通话方法与系统

Info

Publication number: CN111724793A
Application number: CN201910204618.2A
Authority: CN
Inventors: 张宏升; 吕震; 刘�东
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2020-09-29

Abstract

本发明提供了一种车载视频通话方法，所述方法包括：若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1；若所述声纹特征数量改变为1，确定存在的声纹特征所对应的位置信息；根据所述位置信息控制摄像头的工作位置。利用本发明，能够在视频通话时保持摄像头正对当前的主讲人而不受其它位置的声源干扰，且在当前主讲人结束说话后，可以重新判定新的主讲人的位置并重新调整摄像头位置，从而达到良好的车内视频通话效果，提升用户在车内视频通话的体验。本发明还提供了一种车载视频通话系统。

Description

一种车载视频通话方法与系统

技术领域

本发明涉及视频通话技术领域，尤其涉及一种车载视频通话方法与系统。

背景技术

目前，汽车的网联化、智能化已经越来越普及，车载信息娱乐系统通过TBOX的4G网络可以使车辆与网络保持连接从而实现车辆之间的网联功能。汽车信息娱乐系统的信息处理能力越来越强大，使得在信息娱乐系统中运行更多的应用成为可能；同时，随着高性能显示屏轻量化技术的发展，使得车内显示系统在汽车的应用上有更加经济的解决方案。以上两个因素结合网络通讯系统，使得视频通话在汽车信息娱乐系统上的实现成为可能。

当前，广泛应用车载语音识别、会议系统等领域的麦克风阵列定位系统，可以依靠多个布置在固定位置的麦克风来确定声源的方向。进而根据从该方向收到的声音或其他控制指令使摄像头做出相应的响应动作。由于每一个人的声音都具有独特的特征，通过该特征能将不同人的声音进行有效的识别与区分，可通过声纹识别来辨认已记录的说话人，通过声纹区分，来统计声纹特征的数量进而计算人数。但是当车内有多个乘客同时说话或者车内声音比较嘈杂时，已有麦克风阵列的处理方式会受到不同位置声源的干扰，往往难以判断视频通话主讲人的位置，导致摄像头难以调整到正对当前主讲人的位置，这对用户的视频通话体验有较大的影响。

发明内容

为了解决现有技术存在的上述技术问题，本发明公开了一种车载视频通话方法与系统，能够在视频通话时保持摄像头正对当前的主讲人而不受其它位置声源的干扰，且在当前主讲人结束说话后，可以重新判定新的主讲人的位置并重新调整摄像头位置，从而达到良好的车内视频通话效果，提升用户在车内视频通话的体验。

本发明提供了一种车载视频通话方法，所述方法包括：

若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1；

若所述声纹特征数量改变为1，确定存在的声纹特征所对应的位置信息；

根据所述位置信息控制摄像头的工作位置。

可选的，在检测声纹特征的数量之前，所述摄像头的工作位置为第一声纹特征所对应的位置，且所述存在的声纹特征为第二声纹特征，所述方法还包括：

判断预存的位置信息中是否具有所述第二声纹特征对应的位置信息；

若否，所述确定存在的声纹特征所对应的位置信息，包括：

根据所述第二声纹特征进行声源定位，确定并保存所述第二声纹特征对应的位置信息。

可选的，在所述确定存在的声纹特征所对应的位置信息之前，所述方法还包括：

保持所述摄像头的工作位置。

可选的，在若检测到多个声纹特征，进行提示操作之前，所述摄像头的工作位置不在任一声纹特征所对应的位置。

可选的，所述提示操作为以下任意一种：

语音提示、屏幕显示提示或指示灯提示。

本发明实施例还提供了一种车载视频通话系统，所述系统包括：声纹分析模块、声源定位模块和可控摄像模块。

所述声纹分析模块，用于若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1；

所述声源定位模块，用于若所述声纹特征数量改变为1，确定存在的声纹特征所对应的位置信息；

所述可控摄像模块，用于根据所述位置信息控制摄像头的工作位置。

可选的，在检测声纹特征的数量之前，所述摄像头的工作位置为第一声纹特征所对应的位置，且所述存在的声纹特征为第二声纹特征，还包括：

所述声纹分析模块，还用于判断预存的位置信息中是否具有所述第二声纹特征对应的位置信息；

若否，所述确定存在的声纹特征所对应的位置信息，包括：

所述声源定位模块，还用于根据所述第二声纹特征进行声源定位，确定并保存所述第二声纹特征对应的位置信息。

可选的，在所述声源定位模块确定存在的声纹特征所对应的位置信息之前，还包括：

所述可控摄像模块，还用于保持所述摄像头的工作位置。

可选的，所述声纹分析模块在所述摄像头的工作位置不在任一声纹特征所对应的位置的情况下，还用于在若检测到多个声纹特征，进行提示操作。

可选的，所述声纹分析模块进行提示操作为以下任意一种：

语音提示、屏幕显示提示或指示灯提示。

与现有技术相比，本发明至少具有以下优点：

本发明提供的车载视频通话方法，对麦克风阵列采集的声音的声纹特征的数量进行实时检测，若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1，即只保留进行视频通话的主讲人，以使视频通话系统可以排除车内其他人的说话声对确定视频通话主讲人的干扰；在所述声纹特征数量改变为1后，确定存在的声纹特征所对应的位置信息，即确定了视频通话主讲人的位置；根据所述位置信息控制摄像头的工作位置以实现摄像头正对视频通话的主讲人。由此可见，利用本发明，能够在视频通话的过程中保持使摄像头正对当前视频通话的主讲人而不受其它位置声源的干扰，从而达到良好的车内视频通话效果，提升用户在车内视频通话的体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例一提供的一种车载视频通话方法的流程图；

图2为本申请实施例二提供的车内视频通话过程的流程图；

图3为本申请实施例三提供的一种车载视频通话系统的示意图；

图4为本申请实施例三提供的车载视频通话系统的应用场景示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

本申请实施例提供了一种车载视频通话方法，下面结合附图具体说明。

参见图1，该图为本申请实施例一提供的一种车载视频通话方法的流程图。

所述方法包括如下步骤：

S101：若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1。

当车内用户需要使用视频通话功能时，用户唤醒视频通话系统，所述系统可以通过显示系统上的软开关或者语音控制，本申请对此不做具体限定。

启动视频通话系统时，通过麦克风阵列开始采集车内说话人的声音，此时采集到的声音除包括有视频通话主讲人的声音外，还可能包括其他车内人员的声音。需要注意的是，所述麦克风阵列在启动视频通话系统至视频通话结束的过程中持续实时采集车内说话人声音。

对采集到的声音进行声纹特征提取，并对提取的声纹特征进行声纹区分，以得到当前声纹特征的数量。分析得到的当前声纹特征的数量，若不为1，则表明现在车内有多人进行说话，为了确定视频通话的主讲人的声纹及其位置，此时对车内人员进行提示操作，所述提示操作用于提示车内保持说话人的数量为1。

所述提示操作可以为语音提示，即通过视频通话系统麦克风进行语音播放提示；可以为屏幕显示提示，即通过显示系统进行文字或图片提示；还可以为指示灯提示，例如通过视频通话系统的指示灯闪烁进行提示，或者采用多种提示方法的搭配，本申请对此不做具体限定。

此外，若未检测到声纹特征，可能存在以下两种情况：

第一种：车内人员均未说话，此时可以提示车能人员开始说话，提示方法可以采取上述提示操作所述的方法，在此不再赘述。

第二种：在开启视频通话系统后，车内人员离开车辆，由于此时车辆一般不处于行驶状态，例如已熄火停靠，此时视频通话系统在结合车辆状态后进入待机或休眠状态。

需要说明的是，本申请实施例所述方法步骤的顺序并不是对本发明的限定，上述S101在启动视频通话系统至视频通话结束的过程中可以持续执行，用于使车内的说话人数保持为1。

S102：若所述声纹特征数量改变为1，确定存在的声纹特征所对应的位置信息。

进行所述提示操作直至判定所述声纹特征数量改变为1时，确定所述声纹特征对应的车内人员为视频通话的主讲人，并且记录当前的声纹特征，确定并记录所述声纹特征对应的位置信息。

需要注意的是，在视频通话的过程中，存在某一时刻更换主讲人，即主讲人声纹特征消失而出现新的声纹特征的情况，下面以新声纹特征数量为1为例进行说明。

此时在检测声纹特征的数量之前，所述摄像头的工作位置为第一声纹特征所对应的位置，且所述存在的声纹特征为第二声纹特征，即所述第一声纹特征不存在，可以认为在话过程中，主讲人放弃当前摄像头位置权限，此时所述方法还包括：

判断预存的位置信息中是否具有所述第二声纹特征对应的位置信息。

若否，所述确定存在的声纹特征所对应的位置信息，包括：

需要注意的是，在所述确定存在的声纹特征，即第二声纹特征所对应的位置信息之前，所述摄像头的工作位置可以复位到初始位置，摄像头也可以匀速转动或变速转动，本申请对此不作具体限定。但考虑到视频通话的效果，即在摄像头转动时视频画面也会随之转动，所以可以采取保持所述摄像头的工作位置不变的方法。

下面以新声纹特征数量大于1为例进行说明。

由于更换主讲人，考虑到视频通话的效果，在完成判定新主讲人之前，可以保持摄像头的工作位置不变。

由于车内有多人进行说话，为了确定新主讲人的声纹及其位置，此时对车内人员进行提示操作，所述提示操作用于提示车内保持说话人的数量为1，提示操作具体方法在此不再赘述。

需要注意的是，若当前主讲人未放弃摄像头位置权限，仍然在进行视频通话，但出现了新的声纹，此时判定不更换主讲人，仍然保持摄像头的位置不变。

S103：根据所述位置信息控制摄像头的工作位置。

摄像头根据所述位置信息转到指定位置后还可以对当前的位置信息进行反馈。此时摄像头开始对视频通话主讲人的拍摄。

此外，摄像头可以通过低压差分技术接口上传所述摄像头的视频画面，以实现数据的高速率、低噪声、远距离、高准确度的传输。

本申请实施例提供的车载视频通话方法，对麦克风阵列采集的声音的声纹特征的数量进行实时检测，若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1，以排除车内其他人的说话声对确定视频通话主讲人的干扰；在所述声纹特征数量改变为1后，确定存在的声纹特征所对应的位置信息，即确定了视频通话主讲人的位置；根据所述位置信息控制摄像头的工作位置以实现摄像头正对视频通话的主讲人。此外，在视频通话的进行过程中，可以重新判定新的主讲人的位置并重新调整摄像头位置，由此可见，利用本方法，能够在视频通话的过程中保持使摄像头正对当前视频通话的主讲人而不受其它位置声源的干扰，从而达到良好的车内视频通话效果，提升用户在车内视频通话的体验。

实施例二：

基于实施例一所述的方法，下面结合附图具体说明车内视频通话的实现过程。

参见图2，该图为本申请实施例二提供的车内视频通话过程的流程图。

所述视频通话过程包括以下步骤：

S201：用户发起通话请求。

用户唤醒视频通话系统，包括用户主动唤醒视频通话系统或用户因被呼叫而被动唤醒视频通话系统，所述系统可以通过显示系统上的软开关或者语音控制，本申请对此不做具体限定。

S202：采集车辆空间内的声音。

以多路音频输入的形式在用户发起通话请求至结束视频通话的过程中持续实时采集车辆空间内的声音。

S203：得到声纹特征数量。

提取采集到的声音的声纹特征，得到声纹特征的数量，

S204：判断声纹特征数量是否为1。

若声纹特征数量是否为1，则该声纹特征对应的说话人即为视频通话的主讲人，执行S207；否则，，则表示车内现在有多人说话，无法确定主讲人，执行S208。

S205：保持摄像头的工作位置。

需要注意的是，此时摄像头的位置为初始位置。

S206：进行提示操作。

所述提示操作用于提示车内保持说话人的数量为1，提示操作可以采用实施例一中所述方法，在此不再赘述。

S207：确定并记录第一声纹所对应的位置信息。

所述位置信息即当前视频通话主讲人声源的位置信息。

S208：记录所述第一声纹特征。

S209：控制摄像头的工作位置。

摄像头根据所述的位置信息调整到指定工作位置，即正对视频通话主讲人的位置。

S210：进入视频通话模式。

一方面，此时车内的显示系统从系统主机接收到来自视频通话软件后台服务器上的视频数据并将所述视频数据显示；另一方面，系统主机接收摄像头发送的视频画面。通过低压差分技术接口上传所述摄像头的视频画面，也可以通过低压差分技术接口传输系统主机与车内显示系统之间的视频数据。

S211：判断是否有新声纹特征。

在视频通话进行的过程中，需要实时判断是否有新的说话人参与视频通话以对摄像头的工作位置进行及时调整，若有新的声纹特征，执行S212；若无，执行S213。

S212：判断第一声纹特征是否存在。

若存在，即第一声纹对应的主讲人仍然在说话，执行S213；若否，表示此时第一声纹对应的主讲人停止说话，放弃当前的摄像头权限，执行S203，即开始重新确定主讲人及主讲人声源的位置信息。

S213：保持摄像头的工作位置为第一声纹对应的工作位置。

S214：判断是否有通话结束指令。

若是，执行S215；若否，执行S210。

S215：摄像头回到初始位置并结束视频通话。

由上述步骤可知，在本申请实施例所述的车内视频通话的过程中，摄像头能够保持正对当前视频通话的主讲人而不受其它位置声源干扰，且在当前主讲人结束说话后，可以重新判定新的主讲人的位置并重新调整摄像头位置，从而达到良好的车内视频通话效果，提升用户在车内视频通话的体验。

实施例三：

基于上述实施例提供的车载视频通话方法，本申请实施例还提供了一种车载视频通话系统，下面结合附图具体说明。

参见图3，该图为本申请实施例三提供的一种车载视频通话系统的示意图。

如图3所示，本申请实施例所述系统300包括：声纹分析模块301、声源定位模块302、可控摄像模块303、麦克风阵列304、网络通信模块305和车内显示系统306。其中，声纹分析模块301和声源定位模块302可以集成在系统主机上。

所述声纹分析模块301，支持声纹分析功能，可以提取麦克风阵列304输入声音信息的声纹特征，并且可以计算声纹特征数量，还可以在多个声纹特征信息中区分已存储的某个声纹特征。所述声纹分析模块301用于若检测到多个声纹特征，进行提示操作，所述提示操作用于提示车内保持说话人的数量为1。

具体的，所述提示操作可以为语音提示，即通过视频通话系统麦克风进行语音播放提示；可以为屏幕显示提示，即通过车内显示系统306进行文字或图片提示；还可以为指示灯提示，例如通过视频通话系统的指示灯闪烁进行提示，或者采用多种提示方法的搭配，本申请对此不做具体限定。

所述声源定位模块302，支持声源定位功能，能够根据麦克风阵列304输入的多路声音信息计算声源的位置信息，并可在本地存储器中记录并向外发送摄像头需要转动的位置信息。所述声源定位模块302用于若所述声纹特征数量改变为1，确定存在的声纹特征所对应的位置信息。

所述可控摄像模块303与系统主机相连，还用于采集视频数据；当需要使用时，系统主机通过硬线直接唤醒可控摄像模块303。可控摄像模块303通过低压差分技术接口将视频数据发送到系统主机。同时，可控摄像模块303接收来自信息娱乐系统主机的位置信号，并控制摄像头旋转到指定的位置上；当摄像头旋转到指定位置后，还可以将当前的位置信息反馈给系统主机。

所述麦克风阵列304，用于采集车辆空间内的声音，并将采集到的声音信息通过硬线或者A2B总线发送到系统主机。

所述网络通信模块305，用于与视频通话软件后台服务器通信，进而与通话对象建立网络连接，上传本地的视频画面并下载正在通话的其他端用户的视频数据。

所述车内显示系统306，用于显示系统主机接收到来自视频通话软件后台服务器上的视频数据。当打开视频通话软件时，系统主机将当前从通话软件服务器上获取视频信息显示在车内显示系统306上，系统主机与车内显示系统306之间通过低压差分技术接口传输视频数据。

此外，在检测声纹特征的数量之前，所述摄像头的工作位置为第一声纹特征所对应的位置，且所述存在的声纹特征为第二声纹特征，还包括：

所述声纹分析模块301，还用于判断预存的位置信息中是否具有所述第二声纹特征对应的位置信息；

若否，所述确定存在的声纹特征所对应的位置信息，包括：

所述声源定位模块302，还用于根据所述第二声纹特征进行声源定位，确定并保存所述第二声纹特征对应的位置信息。

需要注意的是，在所述声源定位模块确定存在的声纹特征所对应的位置信息之前，还包括：

所述可控摄像模块303，还用于保持所述摄像头的工作位置。

在车载视频通话进行的过程中，所述声纹分析模块301还用于：

若所述存在的声纹特征消失，且检测到多个声纹特征，进行所述提示操作。

还可以参见图4，该图为本申请实施例三提供的车载视频通话系统应用场景示意图。

如图4场景所示，利用所述车载视频通话系统，能够当车内不同位置有多个人说话时，通过声纹特征的识别与区分，视频通话系统可以保持摄像头正对当前说话的人员，而不受其他位置声源的干扰。

利用本申请实施例提供的车载视频通话系统，能够在视频通话时保持摄像头正对当前的主讲人而不受其它位置的声源干扰，且在当前主讲人结束说话后，可以重新判定新的主讲人的位置并重新调整摄像头位置，从而达到良好的车内视频通话效果，提升用户在车内视频通话的体验。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种车载视频通话方法，其特征在于，所述方法包括：

根据所述位置信息控制摄像头的工作位置。

2.根据权利要求1所述的方法，其特征在于，在检测声纹特征的数量之前，所述摄像头的工作位置为第一声纹特征所对应的位置，且所述存在的声纹特征为第二声纹特征，所述方法还包括：

若否，所述确定存在的声纹特征所对应的位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，在所述确定存在的声纹特征所对应的位置信息之前，所述方法还包括：

保持所述摄像头的工作位置。

4.根据权利要求1所述的方法，其特征在于，在若检测到多个声纹特征，进行提示操作之前，所述摄像头的工作位置不在任一声纹特征所对应的位置。

5.根据权利要求1所述的方法，其特征在于，所述提示操作为以下任意一种：

语音提示、屏幕显示提示或指示灯提示。

6.一种车载视频通话系统，其特征在于，所述系统包括：声纹分析模块、声源定位模块和可控摄像模块。

7.根据权利要求6所述的系统，其特征在于，在检测声纹特征的数量之前，所述摄像头的工作位置为第一声纹特征所对应的位置，且所述存在的声纹特征为第二声纹特征，还包括：

若否，所述确定存在的声纹特征所对应的位置信息，包括：

8.根据权利要求6所述的系统，其特征在于，在所述声源定位模块确定存在的声纹特征所对应的位置信息之前，还包括：

所述可控摄像模块，还用于保持所述摄像头的工作位置。

9.根据权利要求6所述的装置，其特征在于，所述声纹分析模块在所述摄像头的工作位置不在任一声纹特征所对应的位置的情况下，还用于在若检测到多个声纹特征，进行提示操作。

10.根据权利要求6所述的系统，其特征在于，所述声纹分析模块进行提示操作为以下任意一种：

语音提示、屏幕显示提示或指示灯提示。