CN102857732B

CN102857732B - 一种多画面视讯会议中的画面控制方法、设备及系统

Info

Publication number: CN102857732B
Application number: CN201210166632.6A
Authority: CN
Inventors: 詹五洲; 韦海斌; 吴姣黎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Jiangsu Zhong Yuan technology of Internet of things Development Co., Ltd
Priority date: 2012-05-25
Filing date: 2012-05-25
Publication date: 2015-12-09
Anticipated expiration: 2032-05-25
Also published as: CN102857732A; US20150092011A1; WO2013174115A1

Abstract

本发明实施例公开了一种多画面视讯会议的画面控制方法、设备及系统，所述方法包括：接收会场的音频数据；根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；根据各个会场的激活状态从所述多个会场中选择指定会场；将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。通过统计时间段内的特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，实现了多画面中子画面内容的动态调整，显著提高了会议效果，改善了与会者的会议体验。此外还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。

Description

一种多画面视讯会议中的画面控制方法、设备及系统

技术领域

本发明涉及视讯会议领域，尤其是涉及一种多画面视讯会议中的画面控制方法、设备及系统。

背景技术

在视讯会议系统中，由于与会会场个数多，且分布各地，为使与会者能与其他会场与会人员进行面对面的直接交流，在同一时间内能看到其他会场的与会人员，普遍采用了多画面的技术，与会者通过观看多画面，可以同时与多个会场的与会人员进行交流。

当前视讯会议系统显示多画面的方案为：预先设定多画面的模式，如4画面、9画面等，然后将固定的几个会场填入到多画面的子画面中，会议时各会场看到的多画面均为这种预先设定的模式。发明人在实现本发明的过程中发现：采用现有技术中这种方案时，子画面中的会场可能一直未发言，而其他发言踊跃的会场却未在多画面中显示，使得视讯会议达不到预期的效果；此外现有技术中的多画面显示形式固定，无法根据现场情况进行调整。

发明内容

本发明实施例的目的是提供一种多画面视讯会议中的画面控制方法、设备及系统，以根据现场各会场的情况实时调整子画面从而有效提高会议效果。

本发明实施例公开了一种多画面视讯会议的画面控制方法，所述方法包括：

接收会场的音频数据；

根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

根据各个会场的激活状态从所述多个会场中选择指定会场；

将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。

本发明实施例还公开了一种多画面视讯会议的画面控制设备，所述设备包括：

音频接收单元，用于接收会场的音频数据；

语音特征值获取单元，用于根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

会场筛选单元，用于根据各个会场的激活状态从所述多个会场中选择指定会场；

子画面更新单元，用于将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。

本发明实施例还公开了一种多画面视讯会议的画面控制系统，所述系统包括上述设备以及一个或多个会场终端，所述会场终端用于显示经所述设备控制生成的多画面。

本发明实施例以时间段为统计单位，通过统计该时间段内的一些特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，从而实现了多画面中子画面内容的动态调整，显著提高了会议效果，大大改善了与会者的会议体验。此外，本发明实施例还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例方法的流程图；

图2是本发明一实施例中音视频解码示意图；

图3是本发明一实施例中多画面等比切分方式示意图；

图4是本发明一实施例中多画面大小子画面嵌套切分方式示意图；

图5是本发明一实施例中多方混音示意图；

图6是本发明另一实施例设备的示意图；

图7是本发明再一实施例系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一实施例方法的流程图，所述方法包括：

S101：接收会场的音频数据。所述会场可以是一个或多个。在本实施例中，具体可以是MCU（MultipointControlUnit，多点控制单元）接收各会场的RTP（实时传送协议，Real-timeTransportProtocol）码流，并根据对应的音视频协议进行解码处理，RTP包解码后输出为音视频裸码流，参见图2所示，图2中Site表示会场，Site1码流解码后音频数据为AudioData1，视频数据为VideoData1…SiteX码流解码后音频数据为AudioDataX，视频数据为VideoDataX。

S102：根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态。要选择哪些会场应该进入到多画面中，首先要有一个评判标准，在本实施例中，这一评判标准就是各个会场的语音特征值。若某一会场的语音特征值满足某种条件，则该会场就可以看为一个激活会场，或称活跃会场，就可以作为进入多画面的一个备选会场了。

在本实施例中，可以有多种方式对语音特征值进行定义及评价，下面以举例的方式进行说明。需要指出的是，在本发明其他实施例中，同样还可以有其他多种方式对语音特征值进行定义及评价，对此本发明实施例不做限制。

方式一：获取相应会场在第一指定时间段内的音频能量值，并将所述音频能量值作为所述语音特征值，若所述音频能量值大于指定的能量阈值，则判定会场处于激活状态。优选的，获取音频能量值可以有以下两种方法：

第一种方法是：在所述第一指定时间段内选取多个第二指定时间段，在每个第二指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据，再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。

具体来讲，可以以T0（典型的如1分钟）为第一指定时间段，然后获取各会场在T0内的语音特征值。获取的步骤是：对于一个会场，在T0中选取多个第二指定时间段T1（如20ms），即以T1为能量计算子单元，然后在T1内进行采样获取该会场的多个音频能量数据，如在一个T1内进行N次采样，每次采样获取的音频能量数据分别为x₁、x₂、…x_N,则该会场一个T1的音频能量数据x_rms可通过以下公式计算：

x_{rms} = \sqrt{\frac{1}{N} Σ_{i = 1}^{N} x_{i}^{2}} = \sqrt{\frac{x_{1}^{2} + x_{2}^{2} + \cdot \cdot \cdot + x_{N}^{2}}{N}}

然后求出T0内各个T1的平均值，即可作为T0的音频特征值。

第二种方法是：在所述第一指定时间段内选取多个第二指定时间段，再在每个第二指定时间段内选取多个第三指定时间段；在每个第三指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据；再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据；最后将每个第二指定时间段的音频能量数据进行加权处理后相加，将结果作为所述音频能量值；其中所述加权处理的规则是：距当前时刻越近则权重越大。

所述第二种方法是基于第一种方法的，是在第一种方法基础上的扩充。具体来讲，区别点在于第二种方法考察的是一个更长的时间段T，然后在T内选取多个T0，通过第一种方法得到每个T0的音频能量数据，然后对各个T0的音频能量数据进行加权处理后相加，将结果作为最终的音频能量值。由于第二种方法考察的时间段更长（由T0扩展到T），所以会比第一种方法更准确一些。

方式二：统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阈值，则判定会场处于激活状态。具体的，可以进行VAD（VoiceActivityDetection，语音活动检测）检测，统计T0时间段内处于连续语音态的时长，比较时长，并根据时长来选定激活会场。

如会场1、2..N，在T0时间段内VAD检测累积的时长分别对应为：VolTimeLen1、VolTimeLen2…VolTimeLenN，对各个VolTimeLen进行排序，并与一个预置的时长阈值GateVolTimeLen进行对比；大于等于GateVolTimeLen的会场可标识为激活会场；小于GateVolTimeLen的会场标识为非激活会场。当然，在本发明其他实施例中，还可以不使用时长阈值，而是在所有会场中选取连续语音态时长最大的W个会场作为激活会场。

方式三：获取相应会场在第一指定时间段内的音频能量值和连续语音态时长，并将所述音频能量值和所述时长的组合作为语音特征值；若所述组合满足指定规则，则判定会场处于激活状态。例如可以先用音频能量值进行初次筛选，再用连续语音态时长进行二次过滤；或者以一种值为主，同时参考另一值，例如：语音时长长但语音能量小，该会场可以被认为是激活，而语音时长短但语音能量大，则该会场不能被认为是激活，这样就可以避免出现因与会者突然敲下桌子或者咳嗽声而错误的将该会场判断为激活会场的情况。

S103：根据各个会场的激活状态从所述多个会场中选择指定会场。所述指定会场可以是一个或多个。根据语音特征值获得了各个会场的激活状态后，判断哪些会场应该作为指定会场进入到多画面中就有了判断基础了。

在本实施例中，可以有多种方式从激活会场中选择出指定会场填充到多画面中，下面以举例的方式进行说明。需要指出的是，在本发明其他实施例中，同样还可以有其他多种方式进行选择，对此本发明实施例不做限制。

方式甲：将当前处于激活状态的会场作为指定会场。即将当前所有的激活会场作为指定会场。这样实现起来最简单。

方式乙：将上次处于激活状态的会场和当前处于激活状态的会场都作为指定会场。这样可以兼顾历史显示。具体的，当前的激活会场分别为ActiveSite1、2、3…ActiveSiteN，记录在一个集合CurActiveTabel中；而上一轮切换时的激活会场记录在集合PreActiveTabel，取两个集合PreActiveTabel与CurActiveTabel会场信息的并集部分作为本次多画面的子画面会场，参与多画面的拼接。

方式丙：将当前处于激活状态的会场，以及上次处于激活状态且语音特征值大于当前处于激活状态的会场的语音特征值最小值的会场，作为指定会场。即当前的激活会场都参与多画面拼接，而上次的激活会场根据语音特征比较，也部分可以参与本次多画面拼接，例如：上次激活会场的语音特征值小于当前激活会场中的最小语音特征值的会场，不参与本次多画面拼接，而上次激活会场的语音特征值大于等于当前激活会场中的最小语音特征值的会场，可以参与本次多画面的拼接。

S104：将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。这样多画面中的各个子画面便可以在会议进行过程中随着各个会场的发言情况而实时进行调整了，避免了现有技术中看到的子画面一成不变的情况，可以及时的将不活跃会场从多画面中剔除，并及时的将新的活跃会场加入到多画面中。多画面中的子画面可以是一个或多个。

在本实施例中，将指定会场作为子画面填充到多画面的步骤，具体可以有多种方式，下面以举例的方式进行说明。需要指出的是，在本发明其他实施例中，同样还可以有其他多种方式进行填充，对此本发明实施例不做限制。

方式A：根据所述指定会场的数量，采用等比切分的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中。所谓等比切分，也可称为宽高等比切分，即：对多画面切分的次数为指定会场的数量减一，每次切分时都将被切分的窗口均分为二。参见图3，图3示出了不同数量的会场进入到多画面后，多画面的切分形式随着子画面数量的变化而变化的过程：2画面时，则各子画面的宽度比和高度比均为1:1；3画面时，则各子画面的宽度比为1:1:1，高度比为2:1:1；4画面时，个子画面的宽高比和高度比均为1∶1:1∶1，以此类推。

方式B：根据所述指定会场的数量，采用大画面嵌套小画面的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中。参见图4，图4示出了不同数量的会场进入到多画面后，多画面的切分形式随着子画面数量的变化而变化的过程。此外，在图4中，大、小子画面的填充顺序为：语音特征值最高的会场显示为大画面，其他剩余会场显示为小画面，具体可参见下文的顺序1。

在以上方式A、方式B中，子画面有时会有大小之分，那么所述指定会场填入切分后得到的子画面的过程将按指定顺序进行填充，而所述指定顺序可以是多种情况，优选的，例如：

顺序1：语音特征值较大的会场填入到较大的子画面中。这样可以使得最活跃的会场最突出显示。

顺序2：优先填入在所述多画面中的历史位置。即，根据会场在多画面中的历史显示位置信息，选择已有的历史位置，优先选择历史显示次数多的位置，以使得该会场在多画面中的相对位置不变，避免子画面跳跃频繁，便于观看者观看。在本实施例中，具体的：如会场1的历史显示位置信息分别为：位置1有X次、位置2有Y次、…位置N有Z次，则当需要显示会场1时，比较历史显示位置次数，优先选择次数值大的位置，当该位置已有会场显示，则选择次数次低的位置，依次进行比较选择，直至在历史显示位置中选到显示位置；若历史中所有的位置都已有会场显示，则选择一个历史位置之外的新位置。

另外，各个会场终端对所述多画面进行显示时，也可以有多种情况：可以统一显示同一个多画面，该多画面由所有的所述指定会场组成；也可以是令被选为指定会场的会场终端不显示该会场本身的画面，如会场1/2/3为指定会场，则会场1的会场终端显示2个子画面，子画面分别为会场2/3;会场2的会场终端显示2个子画面，子画面分别为会场1/3；会场3的会场终端显示2个画面，子画面分别为会场1/2；剩余其他会场均显示为3个画面，子画面分别为会场1/2/3。

此外，在本实施例中步骤S103之后，还可以包括：

从所述激活会场中选择指定数量的会场进行多方混音，和/或，按照不向会场输出本会场声音的规则进行多方混音。现有技术中混音时一般是对所有会场的语音进行混音，而在本实施例中，因为可以判断出激活会场，所以混音时就可以缩小混音的会场范围，以提高混音效果。可以包括两部分规则，一是参与混音的会场的选择规则，即，从所述激活会场中选择指定数量的会场进行多方混音，二是输出混音的规则，即，按照不向会场输出本会场声音的规则进行多方混音。

对于从所述激活会场中选择指定数量的会场进行多方混音，可以是：所有激活会场都参与混音；也可以是：在多画面中的所有会场即M个所述指定会场都参与混音；还可以是：用户先设定混音会场上限个数X（如X取值为4），然后比较激活会场的数量N与X的大小，若N<=X，则取所有N个激活会场进行混音，若N>X，则在N个激活会场中选取语音特征值最大的X方进行混音。

而输出混音的规则，可以是：在多画面中的会场得到的是其他参与混音的会场的声音，而不在多画面中的会场得到的是所有参与混音的会场的声音。参见图5所示：如果参与混音的会场为1/2/3，则生成的4个声音信号，分别表示为：AudioData1/2/3、AudioData1/2、AudioData2/3、AudioData1/3。会场1将听到的声音为AudioData2/3；会场2听到的声音为AudioData1/3；会场3听到的声音为AudioData1/2；剩余其他会场听到的声音为AudioData1/2/3。

本实施例以时间段为统计单位，通过统计该时间段内的一些特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，从而实现了多画面中子画面内容的动态调整，显著提高了会议效果，大大改善了与会者的会议体验。此外，本发明实施例还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。

图6是本发明另一实施例设备的示意图，所述设备包括：

音频接收单元601，用于接收会场的音频数据；

语音特征值获取单元602，用于根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

会场筛选单元603，用于根据各个会场的激活状态从所述多个会场中选择指定会场；

子画面更新单元604，用于将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。

优选的，所述语音特征值获取单元具体包括：

音频能量值获取子单元，用于获取相应会场在第一指定时间段内的音频能量值，并将所述音频能量值作为所述语音特征值，若所述音频能量值大于指定的能量阈值，则判定会场处于激活状态；或者，

连续语音态时长获取子单元，用于统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阈值，则判断会场处于激活状态。

优选的，所述音频能量值获取子单元具体包括：

第一采样子单元，用于在所述第一指定时间段内选取多个第二指定时间段，在每个第二指定时间段内获取多个样点音频能量数据；

第一计算子单元，用于根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据，再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。

优选的，所述音频能量值获取子单元具体包括：

第二采样子单元，用于：在所述第一指定时间段内选取多个第二指定时间段，再在每个第二指定时间段内选取多个第三指定时间段；在每个第三指定时间段内获取多个样点音频能量数据；

第二计算子单元，用于：根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据；再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据；

加权处理子单元，用于：将每个第二指定时间段的音频能量数据进行加权处理后相加，将结果作为所述音频能量值；其中所述加权处理的规则是：距当前时刻越近则权重越大。

对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是本发明再一实施例系统的示意图，所述系统包括上一实施例所述的设备以及一个或多个会场终端，所述会场终端用于显示所述设备生成的多画面。

对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM、RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。本文中应用了具体个例对本发明的原理及实施方式进行了闸述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多画面视讯会议的画面控制方法，其特征在于，所述方法包括：

接收会场的音频数据；

根据各个会场的激活状态从多个会场中选择指定会场；

将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新；

其中，获取相应会场在第一指定时间段内的语音特征值的步骤，具体包括：

获取相应会场在第一指定时间段内的音频能量值，并将所述音频能量值作为所述语音特征值，若所述音频能量值大于指定的能量阈值，则判定会场处于激活状态；

其中，获取相应会场在第一指定时间段内的音频能量值的步骤，具体包括：

在所述第一指定时间段内选取多个第二指定时间段，再在每个第二指定时间段内选取多个第三指定时间段；在每个第三指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据；再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据；最后将每个第二指定时间段的音频能量数据进行加权处理后相加，将结果作为所述音频能量值；其中所述加权处理的规则是：距当前时刻越近则权重越大。

2.根据权利要求1所述的方法，其特征在于，获取相应会场在第一指定时间段内的语音特征值的步骤，具体包括：

统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阈值，则判定会场处于激活状态；或者，

获取相应会场在第一指定时间段内的音频能量值和连续语音态时长，并将所述音频能量值和所述时长的组合作为语音特征值，若所述组合满足指定规则，则判定会场处于激活状态。

3.根据权利要求1所述的方法，其特征在于，根据各个会场的激活状态从所述多个会场中选择指定会场的步骤，具体包括：

将当前处于激活状态的会场作为指定会场；或者，

将上次处于激活状态的会场和当前处于激活状态的会场都作为指定会场；或者，

将当前处于激活状态的会场，以及上次处于激活状态且语音特征值大于当前处于激活状态的会场的语音特征值最小值的会场，作为指定会场。

4.根据权利要求1所述的方法，其特征在于，将所述指定会场的图像作为子画面填充到多画面中的步骤，具体包括：

根据所述指定会场的数量，采用等比切分的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中；或者，

根据所述指定会场的数量，采用大画面嵌套小画面的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中。

5.根据权利要求4所述的方法，其特征在于，所述指定顺序具体为：

语音特征值较大的会场填入到较大的子画面中；或者，

优先填入在所述多画面中的历史位置的顺序。

6.根据权利要求1所述的方法，其特征在于，根据各个会场的激活状态从所述多个会场中选择指定会场的步骤之后，还包括：

从所述激活会场中选择指定数量的会场进行多方混音，和/或，按照不向会场输出本会场声音的规则进行多方混音。

7.一种多画面视讯会议的画面控制设备，其特征在于，所述设备包括：

音频接收单元，用于接收会场的音频数据；

会场筛选单元，用于根据各个会场的激活状态从多个会场中选择指定会场；

子画面更新单元，用于将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新；

其中，所述语音特征值获取单元具体包括：

连续语音态时长获取子单元，用于统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阈值，则判断会场处于激活状态；

其中，所述音频能量值获取子单元具体包括：

8.一种多画面视讯会议的画面控制系统，其特征在于，所述系统包括权利要求7所述的设备以及一个或多个会场终端，所述会场终端用于显示经所述设备控制生成的多画面。