CN111343411A

CN111343411A - 一种智能远程视频会议系统

Info

Publication number: CN111343411A
Application number: CN202010199405.8A
Authority: CN
Inventors: 李颖; 刘波
Original assignee: Qingdao Hisense Smart Home Systems Co ltd; Hisense Co Ltd
Current assignee: Hisense Co Ltd; Qingdao Hisense Smart Life Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-06-26
Anticipated expiration: 2040-03-20
Also published as: CN111343411B

Abstract

本发明公开了一种智能远程视频会议系统，该方法包括多个麦克风阵列系统、多个声源跟踪摄像机和中央控制系统，中央控制系统用于根据各麦克风阵列相对声源的位置信息，确定出备选和有效的麦克风阵列，发送给备选和有效的麦克风阵列对应的声源跟踪摄像机，在接收到声源跟踪摄像机反馈的转动角度和采集到的声源处发言人的视频流时，进行人脸识别分析，确定出声源的位置信息，并将声源的位置信息发送给声源的位置信息对应的麦克风阵列，以使声源的位置信息对应的麦克风阵列增强声源的位置信息所在方向的声音采集。通过布置多个麦克风阵列系统进行声源定位，结合声源跟踪摄像机的位置矫正，可以提高声源定位的准确度，从而提高会场音频流的质量。

Description

一种智能远程视频会议系统

技术领域

本发明实施例涉及智慧家居技术领域，尤其涉及一种智能远程视频会议系统。

背景技术

目前最常用的声源定位算法是TDOA，因其运算量较低，实时性好。但是也存在不足：1.定位时的时延值与已测得的时延值不同步；2.若房间内混响较强，信噪比较低时，将导致声源定位误差很大。但由于其运算量较低，在经过改进后，在一定噪声和混响的环境下，仍能获得较好的定位效果，因此被广泛应用。

视频会议中的音频流质量是至关重要的，基于以上分析，单纯使用TDOA算法进行声源定位是不可行的，现有的改进主要有两种，一是通过增加麦克风阵列的麦克风个数，麦克风个数的增加无疑增加了麦克风阵列的空间复杂度，预示着声源定位算法的复杂度将会大大提高；二是结合其他算法，但是要想在大型会议室中达到良好的效果，算法的复杂度无疑被大大提高。这两者都会使得声源定位的效率大大降低，无法保证实时性。

发明内容

本发明实施例提供一种智能远程视频会议系统，用以提高声源定位的效率，保证声源定位的实时性。

第一方面，本发明实施例提供一种智能远程视频会议系统，包括：多个麦克风阵列系统、多个声源跟踪摄像机和中央控制系统；

所述多个麦克风阵列系统用于采集各麦克风阵列相对声源的位置信息，并将所述各麦克风阵列相对声源的位置信息发送给所述中央控制系统；

所述多个声源跟踪摄像机用于根据所述中央控制系统发送的备选和有效麦克风阵列相对声源的位置信息，确定出采集到声源处发言人的视频流时摄像头的转动角度，并将所述转动角度和采集到的声源处发言人的视频流发送给所述中央控制系统；所述多个麦克风阵列系统与所述多个声源跟踪摄像机一一对应；

所述中央控制系统用于根据所述各麦克风阵列相对声源的位置信息，确定出备选和有效的麦克风阵列，将所述备选和有效的麦克风阵列相对声源的位置信息发送给所述备选和有效的麦克风阵列对应的声源跟踪摄像机，在接收到所述声源跟踪摄像机反馈的所述转动角度和采集到的声源处发言人的视频流时，进行人脸识别分析，确定出所述声源的位置信息，并将所述声源的位置信息发送给所述声源的位置信息对应的麦克风阵列，以使所述声源的位置信息对应的麦克风阵列增强所述声源的位置信息所在方向的声音采集，对采集的音视频流进行合成。

上述技术方案中，通过在会场布置多个麦克风阵列系统进行声源定位，结合声源跟踪摄像机的位置矫正，可以降低声源定位的复杂度，提升声源定位的效率，提高声源定位的准确度，从而提高会场音频流的质量。

可选的，所述中央控制系统包括音频流的控制模块、视频流的控制模块和音视频处理模块；

所述音频流的控制模块包括声源定位决策模块，用于根据所述各麦克风阵列相对声源的位置信息，确定出备选和有效的麦克风阵列，以及在接收到所述转动角度和人脸识别分析结果时，根据所述人脸识别分析结果和所述转动角度，确定出所述声源的位置信息，并将所述声源的位置信息发送给所述声源的位置信息对应的麦克风阵列；

所述视频流的控制模块包括声源跟踪摄像机控制模块，用于将所述备选和有效的麦克风阵列相对声源的位置信息发送给所述备选和有效的麦克风阵列对应的声源跟踪摄像机；

所述音视频处理模块用于对采集的音视频流进行合成。

可选的，所述声源定位决策模块用于对比所述各麦克风阵列相对声源的位置信息中的距离数据，当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时，将所述两个麦克风阵列确定为备选的麦克风阵列，当所述两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时，将距离数据小的麦克风阵列确定为有效的麦克风阵列。

可选的，所述视频流的控制模块还包括人脸分析模块；

所述人脸分析模块用于在接收到所述声源跟踪摄像机反馈的所述转动角度和采集到的声源处发言人的视频流时，进行人脸识别分析，将人脸识别分析结果和所述转动角度发送给所述声源定位决策模块。

可选的，所述系统还包括白板摄像机和幕布摄像机；所述视频流的控制模块还包括白板检测图像分析模块和投影检测图像分析模块；

所述白板摄像机用于采集白板的视频流，并将采集到的所述白板的视频流发送给所述白板检测图像分析模块；

所述幕布摄像机用于采集幕布的视频流，并将采集到的所述幕布的视频流发送给所述投影检测图像分析模块；

所述白板检测图像分析模块用于在根据所述采集到的所述白板的视频流检测到所述白板处于活动状态时，将所述白板的视频流确定为有效视频流；

所述投影检测图像分析模块用于在根据所述采集到的所述幕布的视频流检测到所述幕布的处于活动状态时，将所述幕布的视频流确定为有效视频流。

可选的，所述声源定位决策模块还用于将所述声源的位置信息对应的视频流确定为有效视频流；

所述音视频处理模块还用于在检测到网络环境差时，将多个有效视频流根据优先级对所述多个有效视频流进行压缩处理，并与所述声源的位置信息对应的麦克风阵列采集音频流进行合并后上传。

可选的，所述麦克风阵列系统包括正四面体麦克风阵列、前置放大电路、A/D转换模块和DSP；

所述正四面体麦克风阵列用于采集声源处的声音信号；

所述前置放大电路用于将所述声音信号放大后；

所述A/D转换模块用于将放大后的声音信号转换为声音数字信号；

所述DSP用于对所述声音数字进行基于更小搜索步长的TDOA算法处理，确定出所述正四面体麦克风阵列相对声源的位置信息。

可选的，所述麦克风阵列通过TCP通信的方式与所述中央控制系统进行通信。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种智能远程视频会议系统的结构示意图；

图2为本发明实施例提供的一种麦克风阵列系统的结构示意图；

图3为本发明实施例提供的一种麦克风阵列系统的布置示意图；

图4为本发明实施例提供的一种麦克风阵列的坐标系示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

现有的视频会议很多都使用一个麦克风阵列进行移动声源定位，不再需要麦克风时刻指向声源方向，能够增强噪声环境中发言人方向的声音信息收集，具有抑制噪声和语音增强的能力，并且能够利用位置信息转动摄像机将发言人置于画面中间，省去了人工控制摄像机。但是根据相关建筑设计规范，大致可以得出大型会议室可容纳150人以上，面积大约200平米以上或更多。在这样的面积下，使用一个大小合适的麦克风阵列进行声源定位，位置信息的误差将无法估计，进而影响视频会议上传的音频流质量和摄像机搜索发言人的速度。因为距离对声源定位准确度的影响是非常大的，随着声源相对麦克风阵列距离增大，位置信息就越不准确。

麦克风阵列的各个麦克风之间的距离和不同的麦克风拓扑结构都会影响麦克风阵列声源定位的准确度，麦克风之间的间距越大，它的定位准确度越高，但是视频会议使用的麦克风阵列必然不能间距过大，所以正四面体的拓扑结构虽然提高了声源定位的准确度，但是若声源距离麦克风阵列距离过远，仍然不会有好的定位效果。在大型视频会议的场景下，发言人即声源和麦克风阵列的距离大多属于远场，这样的场景也降低了算法的复杂度。本文使用正四面体麦克风阵列，它相对于平面阵列，具有定位误差较小，使用很少的麦克风，就可以定位较远的距离的优点。

目前出现的定位方法中计算量最小、最易于实时应用的声源定位方法是TDOA算法，但是该算法除了本身的缺陷外，还有很多因素影响着声源定位的精度，如会议室的混响，墙壁的反射和噪音等，都影响声源定位的准确度。

通过上述分析，为了提高大中型视频会议的声源定位准确度，本发明实施例提供一种智能远程视频会议系统，通过在视频会议室现场布置多个麦克风阵列进行声源定位，结合摄像机辅助，根据声源的位置变化和人脸转动，实时决策有效音频流的麦克风阵列和有效视频流的摄像机的方法。

如图1所示的智能远程视频会议系统的结构，该智能远程视频会议系统可以包括多个麦克风阵列系统100、多个声源跟踪摄像机200和中央控制系统300。

其中，多个麦克风阵列系统100用于采集各麦克风阵列相对声源的位置信息，并将各麦克风阵列相对声源的位置信息发送给中央控制系统300。多个声源跟踪摄像机200用于根据中央控制系统300发送的备选和有效麦克风阵列相对声源的位置信息，确定出采集到声源处发言人的视频流时摄像头的转动角度，并将转动角度和采集到的声源处发言人的视频流发送给中央控制系统300。其中，多个麦克风阵列系统100与多个声源跟踪摄像机200一一对应。中央控制系统300用于根据各麦克风阵列相对声源的位置信息，确定出备选和有效的麦克风阵列，将备选和有效的麦克风阵列相对声源的位置信息发送给备选和有效的麦克风阵列对应的声源跟踪摄像机200，在接收到声源跟踪摄像机200反馈的转动角度和采集到的声源处发言人的视频流时，进行人脸识别分析，确定出声源的位置信息，并将声源的位置信息发送给声源的位置信息对应的麦克风阵列，以使声源的位置信息对应的麦克风阵列增强声源的位置信息所在方向的声音采集，对采集的音视频流进行合成。

具体的，上述中央控制系统300可以包括音频流的控制模块、视频流的控制模块和音视频处理模块306。

音频流的控制模块包括声源定位决策模块301，用于根据各麦克风阵列相对声源的位置信息，确定出备选和有效的麦克风阵列，以及在接收到转动角度和人脸识别分析结果时，根据人脸识别分析结果和转动角度，确定出声源的位置信息，并将声源的位置信息发送给声源的位置信息对应的麦克风阵列。具体的，声源定位决策模块301用于对比各麦克风阵列相对声源的位置信息中的距离数据，例如，当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时，将两个麦克风阵列确定为备选的麦克风阵列，当两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时，将距离数据小的麦克风阵列确定为有效的麦克风阵列。

麦克风阵列系统100负责收集各个麦克风阵列相对声源的位置信息(r,α,β)，其中r代表距离，α代表方位角，β代表仰角。然后把位置信息发送给声源定位决策模块301，声源定位决策模块301通过对比r值，选出距离声源最近的两个麦克风阵列，当两个r值之差小于Δd时，这两个麦克风阵列均当作有效音频流的备选，将r值更小的麦克风阵列作为暂时的有效音频流的麦克风阵列；当两个r值之差大于Δd时，r值小的麦克风阵列即为有效音频流的麦克风阵列，它所对应的声源跟踪摄像机200采集的视频流即为有效视频流，执行第2步。然后，把备选和有效麦克风阵列系统100得出的位置信息再发送给声源跟踪摄像机控制模块302，由声源跟踪摄像机控制模块3021发送给对应的声源跟踪摄像机200，其他无效摄像机的位置信息则不发送，避免无效劳动。

视频流的控制模块包括声源跟踪摄像机控制模块302、人脸分析模块303、白板检测图像分析模块304和投影检测图像分析模块305，用于将备选和有效的麦克风阵列相对声源的位置信息发送给备选和有效的麦克风阵列对应的声源跟踪摄像机200。音视频处理模块306用于对采集的音视频流进行合成。

进一步的，声源定位决策模块301用于对比各麦克风阵列相对声源的位置信息中的距离数据，当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时，将两个麦克风阵列确定为备选的麦克风阵列，当两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时，将距离数据小的麦克风阵列确定为有效的麦克风阵列。

人脸分析模块303用于在接收到声源跟踪摄像机200反馈的转动角度和采集到的声源处发言人的视频流时，进行人脸识别分析，将人脸识别分析结果和转动角度发送给声源定位决策模块301。

具体的，各个声源跟踪摄像机200根据位置信息转动摄像头，调整焦距，采集视频流，然后将视频流发送给人脸分析模块303，通过人脸分析模块303进行图像识别，找到发言人，此时这个转动角度再反馈给声源定位决策模块301，得出最终更加精确的位置信息并发送给对应的麦克风阵列系统100，使麦克风阵列增强这个方向的声音采集，抑制其他方向的噪音采集。这里，不仅发言人位置的变化会影响有效麦克风阵列的选择，人脸的转动也会有影响。需要说明的是，若两个备选麦克风阵列的r值之差小于Δd时，还应在找到发言人后增加一步，确定是否两个声源跟踪摄像机都找到发言人，若仅有一个找到，则该声源跟踪摄像机所对应的麦克风阵列即为有效麦克风阵列；若都找到，则分析两个声源跟踪摄像机采集的发言人面部信息，一样多则取近的有效，不一样多则取面部信息更完整的为有效。这样就得出了最终的有效音频流。

系统还包括白板摄像机400和幕布摄像机500。白板摄像机400用于采集白板的视频流，并将采集到的白板的视频流发送给白板检测图像分析模块304。白板检测图像分析模块304用于在根据采集到的白板的视频流检测到白板处于活动状态时，将白板的视频流确定为有效视频流。幕布摄像机500用于采集幕布的视频流，并将采集到的幕布的视频流发送给投影检测图像分析模块305。投影检测图像分析模块305用于在根据采集到的幕布的视频流检测到幕布的处于活动状态时，将幕布的视频流确定为有效视频流。

举例来说，会议开始设定其中一个麦克风阵列为有效音频流的设备，该麦克风阵列所对应的摄像机为有效的声源跟踪摄像机，设定麦克风阵列和声源跟踪摄像机的初始角度，默认白板摄像机和幕布摄像机不上传视频流。

以往的视频会议系统往往是发送突出发言人的全景视频画面，还有就是视频仅仅跟踪发言人，但是很多时候想传达的有效图像并非仅有发言人，并且现有视频会议系统多通过视频会议系统软件，内置白板共享和屏幕录制等功能去共享同一画面，往往需要有管理员专门去操控软件进行切换，这种交互是不自然的，降低了使用体验。因此，在这里提出一种更侧重会议信息的视频筛选方法，它可以不用通过手动或者语音的方式控制摄像机。

通过使用白板摄像机和幕布摄像机，通过图像识别去检测白板或幕布是否正在活动，实现判断白板摄像机和幕布摄像机采集的视频流当前是不是有效视频流。当正在使用时，也就是处于活动状时，自动判定为有效视频流，这时有效视频流不仅为声源跟踪摄像机采集的视频流，还有白板摄像机或者幕布摄像机采集的视频流。同时，为了保证视频会议的流畅性和音视频数据的清晰准确，当检测到网络环境差的时候，对多个有效视频流做优先级排序，进行不同程度的压缩处理，然后进行传输。例如当通过图像处理检测白板正在使用，则白板摄像机上传的视频流为主视频流，图像尺寸大且压缩比小，声源跟踪摄像机的图像尺寸小且压缩比大，使得视频会议的另一端可以使用大小窗口叠加播放视频流。当没有活动的发言人、白板和幕布时，默认幕布摄像机上传视频流。

进一步的，声源定位决策模块301还用于将声源的位置信息对应的视频流确定为有效视频流。音视频处理模块306还用于在检测到网络环境差时，将多个有效视频流根据优先级对多个有效视频流进行压缩处理，并与声源的位置信息对应的麦克风阵列采集音频流进行合并后上传。

需要说明的是，如图2所示，上述麦克风阵列系统100可以包括正四面体麦克风阵列、前置放大电路、A/D转换模块和DSP。其中，正四面体麦克风阵列用于采集声源处的声音信号；前置放大电路用于将声音信号放大后；A/D转换模块用于将放大后的声音信号转换为声音数字信号；DSP用于对声音数字进行基于更小搜索步长的TDOA算法处理，确定出正四面体麦克风阵列相对声源的位置信息。麦克风阵列通过TCP通信的方式与中央控制系统进行通信。

声音信号到达正四面体麦克风阵列，经麦克风阵列接收后转换为微弱的电信号，然后由前置放大电路对电信号放大到A/D可以采集到的电压水平，接着电信号将进行A/D转换，然后将信号送入DSP进行基于更小搜索步长的TDOA算法处理得出位置信息。关于麦克风阵列系统与中央控制系统之间的通信，各个麦克风阵列系统和它所对应的摄像机均采用POE供电连接在同一局域网下，A/D转换得来的PCM数据采用UDP通信的方式传输给中央控制系统，位置信息采用TCP通信的方式发送给中央控制系统，中央控制系统的各种控制信息采用TCP通信的方式发送给麦克风阵列系统。

如图3所示的麦克风阵列系统的布置情况，假设一个麦克风阵列可保证一定声源定位准确性的距离为L，根据会议室大小，在会议室现场布置了三个麦克风阵列。当会议现场在S处有人发言时，三个麦克风阵列都开始进行实时的声源定位，根据图4制定的直角坐标系，得到声源相对各个麦克风阵列的位置信息(r,α,β)，各个麦克风阵列系统再实时将位置信息发送到中央控制系统，中央控制系统每隔1秒就对各个麦克风阵列发来的位置信息分别取平均，然后对比三个麦克风阵列对应的位置信息的平均值，筛选出其中两个

值较小的麦克风阵列，即距离声源最近的两个麦克风阵列。当两个r的差大于Δd时，就选定r值较小的麦克风阵列作为有效音频流的麦克风阵列；若两个r的差小于Δd时，暂时返回小的为有效，还需要通过摄像机对发言人图像进行分析后，确定最终有效的麦克风阵列。这个过程是各个声源跟踪摄像机依据与之对应的麦克风阵列系统所确定的发言人位置信息，快速调整摄像机的方向及焦距，检索正在说话的人脸，将正在说话的人脸置于画面中央，然后通过分析人脸特征，判断发言人人脸朝向哪个摄像机更多，辅助决策有效音频流的麦克风阵列。

中央控制系统对于多个麦克风阵列的音频流的上传控制逻辑如下：设置一个全局数组，数组的各个变量分别对应各个麦克风阵列，数组每个元素的值只有0和1，1表示上传，0表示不上传。设置一个储存均值的全局结构体数组，每隔1秒种，就对麦克风阵列系统发来的位置信息取平均存于全局结构体数组中，从数组中筛选出值最小的两个做差，当两个的差大于时，就选定值较小的麦克风阵列作为上传音频流的麦克风阵列；若两个的差小于时，暂定较小的一个为有效，还需要通过摄像机对发言人图像进行分析后，确定最终上传音频流的麦克风阵列。

最后，由音视频处理模块完成音视频的合成。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能远程视频会议系统，其特征在于，包括：多个麦克风阵列系统、多个声源跟踪摄像机和中央控制系统；

2.如权利要求1所述的系统，其特征在于，所述中央控制系统包括音频流的控制模块、视频流的控制模块和音视频处理模块；

所述音视频处理模块用于对采集的音视频流进行合成。

3.如权利要求2所述的系统，其特征在于，所述声源定位决策模块用于对比所述各麦克风阵列相对声源的位置信息中的距离数据，当两个麦克风阵列相对声源的位置信息中的距离数据的差值小于等于距离阈值时，将所述两个麦克风阵列确定为备选的麦克风阵列，当所述两个麦克风阵列相对声源的位置信息中的距离数据的差值大于距离阈值时，将距离数据小的麦克风阵列确定为有效的麦克风阵列。

4.如权利要求2所述的系统，其特征在于，所述视频流的控制模块还包括人脸分析模块；

5.如权利要求2所述的系统，其特征在于，所述系统还包括白板摄像机和幕布摄像机；所述视频流的控制模块还包括白板检测图像分析模块和投影检测图像分析模块；

6.如权利要求5所述的系统，其特征在于，所述声源定位决策模块还用于将所述声源的位置信息对应的视频流确定为有效视频流；

7.如权利要求1所述的系统，其特征在于，所述麦克风阵列系统包括正四面体麦克风阵列、前置放大电路、A/D转换模块和DSP；

所述正四面体麦克风阵列用于采集声源处的声音信号；

所述前置放大电路用于将所述声音信号放大后；

8.如权利要求1至7任一项所述的系统，其特征在于，所述麦克风阵列通过TCP通信的方式与所述中央控制系统进行通信。