CN116668622A

CN116668622A - 多方通信语音控制方法及系统

Info

Publication number: CN116668622A
Application number: CN202210152330.7A
Authority: CN
Inventors: 刘扬伟; 林忠亿
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2023-08-29
Also published as: US20230269284A1

Abstract

本申请提供一种多方通信语音控制方法及系统，该多方通信语音控制系统通信连接至少两个参会终端，所述系统包括：语音采集模块，用于获取参会终端的语音信息；视频采集模块，用于获取所述参会终端的视频信息；识别模块，用于获取所述视频信息中的动作信息及所述语音信息中的音频信息，并判断所述动作信息是否包含发言动作且所述语音信息中是否包括音频信息；控制模块，用于当一第一参会终端的所述动作信息为发言动作且所述语音信息中包括音频信息时，控制其余参会终端的音量，并调整来自所述第一参会终端的语音信息的音量。该系统能够根据视频信息中的动作信息及语音信息中的音频信息切换视频会议中显示的参会终端的语音及视频。

Description

多方通信语音控制方法及系统

技术领域

本申请涉及计算机信号处理技术领域，尤其涉及一种多方通信语音控制方法及系统。

背景技术

随着远程办公的迅速发展，远程视频会议逐渐得到广泛应用。在远程视频会议场景中，通常在同一个会议中的参会人员可以处于不同地点，并配备有多个语音采集设备。由于多个语音采集设备同时进行语音采集并播放时，会影响其他参会人员的发言或讨论。

目前，在进行视频会议时，需要由参会人员或者由会议主持人开启或关闭语音采集设备，切换效率较低。

发明内容

有鉴于此，有必要提供一种多方通信语音控制系统及方法。多方通信语音控制系统能够在视频会议时控制参会终端播放语音及视频或控制参会终端静音或调低音量，以提高视频会议的语音及视频切换效率。

第一方面，本申请一实施方式提供的一种多方通信语音控制系统，所述多方通信语音控制系统通信连接至少两个参会终端，所述系统包括：

语音采集模块，用于获取参会终端的语音信息；

视频采集模块，用于获取所述参会终端的视频信息；

识别模块，用于获取所述视频信息中的动作信息及所述语音信息中的音频信息，并判断所述动作信息是否包含发言动作且所述语音信息中是否包括音频信息；

控制模块，用于当一第一参会终端的所述动作信息为发言动作且所述语音信息中包括音频信息时，控制其余参会终端的音量，并调整来自所述第一参会终端的语音信息的音量。

在本申请的一种可能实现方式中，所述至少两个参会终端包括所述第一参会终端及第二参会终端，当所述识别模块识别到至少两个参会终端有发言时，所述控制模块还用于：

获取所述参会终端的优先级信息；

根据所述优先级信息判断是否调整各所述参会终端的音频信息音量；

若所述第二参会终端的优先级高于所述第一参会终端的优先级，则所述控制模块用于控制来自所述第二参会终端的语音信息的音量大于来自所述第一参会终端的语音信息的音量。

在本申请的一种可能实现方式中，其中，

若所述第二参会终端的优先级低于所述第一参会终端的优先级，则所述控制模块还用于判断所述第二参会终端的语音信息中是否包含预设的关键字；以及

若所述语音信息中包含预设的关键字，则所述控制模块控制所述第一参会终端调低音量并播放来自所述第二参会终端的语音信息。

在本申请的一种可能实现方式中，所述识别模块还用于：

判断所述第二参会终端的视频信息中是否包含预设的手势动作；

若所述视频信息中包含预设的手势，则控制所述控制模块控制所述第一参会终端调低音量并播放来自所述第二参会终端的语音信息。

在本申请的一种可能实现方式中，所述语音采集模块及所述视频采集模块设置于所述参会终端内，所述控制模块及所述识别模块设置于服务器内。

在本申请的一种可能实现方式中，所述语音采集模块、所述视频采集模块、所述识别模块及所述控制模块均设置在所述第一参会终端。

在本申请的一种可能实现方式中，所述控制模块还用于：

若来自所述第一参会终端的视频信息未被显示，则显示来自所述第一参会终端的视频信息；

若来自所述第一参会终端的视频信息已被显示，则调整来自所述第一参会终端的视频画面显示区域。

第二方面，本申请一实施方式提供的一种多方通信语音控制方法，所述方法包括：

获取多个参会终端的语音信息；

获取各所述参会终端的视频信息；

获取各所述视频信息中的动作信息及各所述语音信息中的音频信息；

判断各所述动作信息是否为发言且各所述语音信息中是否包括音频信息；

若一第一参会终端的所述动作信息为发言且所述语音信息中包括音频信息，则控制各所述参会终端的声音播放，其中，来自所述第一参会终端的语音信息的音量大于其余各所述参会终端的音量。

在本申请的一种可能实现方式中，所述参会终端另包括一第二参会终端，当来自所述第一参会终端的语音信息的音量大于其余各所述参会终端的音量时，所述方法还包括：

获取所述第二参会终端的动作信息及语音信息；

若判断所述第二参会终端的动作信息为发言且语音信息中包括音频信息，判断所述第二参会终端的一优先级信息是否高于所述第一参会终端；以及

若所述第二参会终端的优先级高于所述第一参会终端的优先级，则控制各所述参会终端的声音播放，其中，来自所述第二参会终端的语音信息的音量大于来自其余各所述参会终端的音量。

获取所述第二参会终端的视频信息及语音信息；

判断所述第二参会终端的视频信息中是否包含预设的手势或语音信息中是否包含预设的关键字；以及

若所述第二参会终端的视频信息中包含预设的手势或语音信息中是否包含预设的关键字，则控制各所述参会终端的声音播放，其中，来自所述第二参会终端的语音信息的音量大于来自其余各所述参会终端的音量。

本申请实施方式提供的多方通信语音控制系统及方法，能够根据视频信息中的动作信息及语音信息中的音频信息切换视频会议中显示的参会终端的语音及视频。

附图说明

图1为本申请一实施例提供的多方通信语音控制系统的模块示意图。

图2为本申请另一实施例提供的多方通信语音控制系统的模块示意图。

图3为本申请一实施例提供的会议发言控制方法的流程示意图。

图4为本申请另一实施例提供的会议发言控制方法的流程示意图。

主要元件符号说明

多方通信语音控制系统 10；20

控制模块 101

识别模块 102

存储模块 103

参会终端 100

语音采集模块 110

视频采集模块 120

显示模块 130

降噪模块 140

通信模块 150

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。

需要说明的是，本申请实施例中“至少一个”是指一个或者多个，多个是指两个或两个以上。除非另有定义，本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，本申请实施例中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

基于本申请中的实施方式，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施方式，都是属于本申请保护的范围。

随着远程办公的迅速发展，远程视频会议逐渐得到广泛应用。在远程视频会议场景中，通常在同一个会议中的参会人员可以处于不同地点，并配备有多个语音采集设备。由于多个语音采集设备同时进行语音采集并播放时，可能会采集到噪音、谈话音或电流音等，会影响其他参会人员的发言或讨论。

因此，本申请实施例提供一种多方通信语音控制系统及方法，能够根据视频信息中的动作信息及语音信息中的音频信息切换视频会议中显示的参会终端的语音及视频。

图1是本申请一实施例提供的多方通信语音控制系统10的模块示意图。如图1所示，多方通信语音控制系统10至少包括控制模块101、识别模块102、语音采集模块110和视频采集模块120。

在一些实施例中，语音采集模块110和视频采集模块120设置在参会终端100内。语音采集模块110用于采集参会终端100处的音频信息。视频采集模块120用于采集参会终端100处的视频信息。即多方通信语音控制系统10通过参会终端100中的语音采集模块110采集语音信息，并通过视频采集模块120采集视频信息。

示例性的，语音采集模块110可以包括一个或多个麦克风，以采集参会终端100处的参会人员发言信息。参会终端100还可以包括降噪模块140。降噪模块140用于在语音采集模块110采集到参会人员的发言信息后，对参会人员的发言信息进行处理，以有效抑制噪声信号。具体的，语音采集模块110在采集到参会人员发言信息后，通过降噪模块140对发言信息进行语音降噪处理，降噪模块140再将降噪处理后的发言信息传输至多方通信语音控制系统10的识别模块102。

可以理解的是，麦克风，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风发声，将声音信号输入到麦克风。参会终端100可以设置至少一个麦克风。在另一些实施例中，参会终端100可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，参会终端100还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

视频采集模块120可以包括一个或多个摄像头，以采集参会终端100处的参会人员视频信息。示例性的，视频采集模块120还可以视频压缩模块，以压缩参会人员视频信息，减小视频信息的数据量，降低通信参会终端100与多方通信语音控制系统10通信时的数据传输压力。

可以理解的是，视频采集模块120用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。在一些实施例中，参会终端100可以包括1个或N个视频采集模块120，N为大于1的正整数。

可以理解，参会终端100还包括通信模块150。通信模块150用于将语音采集模块110采集到的语音信息及视频采集模块120采集到的视频信息传输至多方通信语音控制系统10中的识别模块102。通信模块150还用于接收来自多方通信语音控制系统10中处于发言状态的人员的参会人员视频信息及参会人员发言信息。

可以理解的是，通信模块150可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobilecommunications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband codedivision multiple access，WCDMA)，时分码分多址(time-division code divisionmultiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global po sitioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenithsatellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

可以理解的是，参会终端100还至少包括显示模块130。显示模块130用于显示会议视频和/或会议音频。

示例性的，显示模块130可以为带有音频播放功能的显示装置，也可以为单独的显示装置或单独的语音播放装置。显示模块130用于显示会议视频和/或会议音频。

示例性的，显示模块130包括显示面板。显示面板可以采用液晶显示屏(liquidcrystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emittingdiode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，参会终端100可以包括1个或N个显示模块130，N为大于1的正整数。

可以理解，多方通信语音控制系统10中的控制模块101及识别模块102可设置在服务器(图中未示出)，控制模块101通信连接识别模块102。其中，控制模块101用于生成切换指令，以切换参会终端100麦克风切换至低音量状态、静音状态或开启状态。

在一些实施例中，控制模块101还用于生成调节指令，以调节参会终端100麦克风的音量。

在一些实施例中，若来自参会终端100的视频信息未被显示，则控制模块101控制显示模块130显示来自参会终端100的视频信息。若来自参会终端100的视频信息已被显示模块130显示，则控制模块101调整来自参会终端100的视频画面在显示模块130的显示区域。示例性的，控制模块101可以将参会终端100的视频画面在显示模块130的显示区域调整为居中、放大等。

可以理解的是，识别模块102通信连接视频采集模块120，以识别视频采集模块120采集的视频信息中发言人的动作信息，并通过该动作信息判断发言人是否为正在发言。示例性的，识别模块102可以包括人工智能(Artificial Intelligence，AI)子模块。其中，AI子模块可以包括神经网络，以实现视频信息中的动作信息识别。识别模块102将识别结果传输至控制模块101，以使控制模块101判断是否生成切换指令或调节指令。

示例性的，动作信息可以包括发言人的口型、手势及肢体动作等。识别模块102可以在识别到发言口型、特定的手势或特定的肢体动作后，传输视频识别信息至控制模块101，以供控制模块101判断是否生成切换指令或调节指令。可以理解的是，特定的手势包括但不限于举手、挥手、竖手指及手指交叉等。特定的肢体动作包括身体前倾、抬头挺胸及点头等。

可以理解的是，识别模块102中可以设置有存储子模块(图中未示出)，识别模块102可以在存储子模块内存储不同账号使用者发言前的动作信息，以更加准确的根据使用者发言前的动作信息识别出使用者即将发言。识别模块102将识别到的信息传输至控制模块101，以供控制模块101进行相应的判断。

可以理解的是，多方通信语音控制系统10还包括独立的通信模块，以通过参会终端100的通信模块150实现与参会终端100之间的信号传输。当然，在其他实施例中，多方通信语音控制系统10也可直接包括通信模块150，即直接利用参会终端100的通信模块150，以实现其与其他设备，例如服务器的通信。

请再次参阅图1，多方通信语音控制系统10还可以检测不同参会终端100的账号权限，并根据不同的账号权限进行分级。示例性的，可以将账号权限进行分级，例如第一优先级、第二优先级及第三优先级。多方通信语音控制系统10的识别模块102在检测到有使用者A发言时，首先检测使用者A对应的优先级，当检测到有高于使用者A优先级的人员发言时，可以调低使用者A的麦克风音量，并调高具有更高优先级的人员的麦克风音量，当检测到有低于或等于使用者A优先级的人员发言时，则不做响应。

示例性的，以下以三个使用者(例如使用者A、使用者B及使用者C)为例，描述本申请提供的多方通信语音控制系统10的工作流程。其中，假设使用者A为第二优先级，使用者B为第三优先级，使用者C为第一优先级。可以理解的是，使用者A、使用者B及使用者C分别使用不同的参会终端100参与视频会议。

多方通信语音控制系统10首先与参会终端100建立连接，使用者A开始发言之后，语音采集模块110及视频采集模块120将采集到的语音信号和视频信号传输至多方通信语音控制系统10的识别模块102。

多方通信语音控制系统10内的识别模块102用于判断视频信号中的口型是否为发言，识别模块102还用于判断是否接收到来自语音采集模块110的语音信号。当识别模块102判断出视频信号中的口型为发言且语音采集模块110能够采集到语音信号之后，识别模块102发送识别结果至控制模块101。控制模块101根据识别结果将使用者A的语音信号及视频信号传输至其他参会终端。同时，控制模块101发送一切换指令至使用者B和使用者C对应的参会终端100，以将使用者B和使用者C的麦克风切换至低音量状态(即调低使用者B和使用者C的麦克风音量)或静音状态。

在使用者A发言期间，若多方通信语音控制系统10通过语音采集模块110采集到来自使用者B的语音信号，且通过识别模块102判断使用者B的口型为发言，则进一步检测使用者B的账号权限。由于使用者B的账号权限为第三优先级，低于使用者A的账号权限，则控制模块101保持使用者B的麦克风处于低音量状态。可以理解的是，在识别模块102检测到使用者B发言时，还可以进一步检测使用者B的发言内容，若使用者B的发言内容包含关键字，例如，“报告”、“请示”等字眼，则通过控制模块101调高使用者B的麦克风音量，并调低使用者A的麦克风音量。

在使用者A发言期间，若多方通信语音控制系统10通过语音采集模块110采集到来自使用者C的语音信号，且经识别模块102判断使用者C的口型为发言，则进一步检测使用者C的账号权限。由于使用者C的账号权限为第一优先级，高于使用者A的账号权限，则控制模块101开启使用者C的麦克风，并关闭使用者A的麦克风。可以理解的是，控制模块101还可以调低使用者A的麦克风音量，并调高使用者C的麦克风音量，以使参会人员可以听清使用者C的发言。在使用者C停止发言后，调低使用者C的麦克风音量，并调高使用者A的麦克风音量，以使参会人员可以听清使用者A的发言。多方通信语音控制系统10在通过识别模块102判断使用者A停止发言之后，并通过识别模块102判断用者B或者使用者C开始发言，则控制模块101调低使用者A的麦克风音量，并调高使用者B或者使用者C的麦克风音量。

请一并参考图2，图2是本申请另一实施例提供的多方通信语音控制系统20的模块示意图。多方通信语音控制系统20包括控制模块101、识别模块102、语音采集模块110和视频采集模块120。与图1相比，图2中所示的多方通信语音控制系统20与多方通信语音控制系统10的区别在于，多方通信语音控制系统20整体设置在参会终端100中。同时，多方通信语音控制系统20还包括存储模块103。

可以理解的是，控制模块101、识别模块102、语音采集模块110和视频采集模块120的功能及连接关系等可参考图1及其相关描述，在此不再赘述。存储模块103可以用于存储视频会议期间发言人员的视频信息及语音信息，以实现会议全程录制或部分录制。

示例性的，若多方通信语音控制系统20检测到参会人员长时间没有发言，则可以播放存储模块103内预先存储的全程或部分录制的会议内容。

可以理解的是，多方通信语音控制系统20在语音采集模块110无法收集到语音信息时，将无人发言信息传输至控制模块101。控制模块101在接收到来自语音采集模块110的无人发言信息后，调取来自存储模块103内预先存储的会议内容，并向参会终端100播放预先存储的会议内容。

可以理解的是，控制模块101可以对预先存储的会议内容增加时间标签，每个时间标签对应一段会议内容。控制模块101可以通过选取相应的时间标签来选取对应的会议内容。

可以理解的是，由于不同参会终端100可能处于不同的网络环境中，可能存在因网络故障而导致部分参会终端100在一段时间内无法正常接收来自多方通信语音控制系统20的会议视频和/或会议音频。示例性的，在1分钟内无参会人员发言，多方通信语音控制系统20可以播放预先存储的全程或部分录制的会议内容，以使无法正常接收会议视频和/或会议音频的终端100能够播放无法正常接收的视频或音频会议内容。

示例性的，控制模块101可以在检测视频会议过程中的参会终端100数量，并在需要播放预先存储的会议内容时，选取参会终端100数量最少时的会议内容时间标签，播放该时间标签对应的会议内容。

本申请实施例提供的多方通信语音控制系统10/20，能够通过参会终端100获取视频信息和语音信息，再判断视频信息中的动作信息是否为发言及语音信息中是否包含音频信息，若动作信息为发言且语音信息中包含音频信息，则切换视频会议中显示的参会终端的语音及视频。可以实现根据视频信息和语音信息切换视频会议中的显示的语音及视频，简化了视频会议发言控制的过程。

请一并参考图3，下面以多方通信语音控制系统10为例，详细介绍本申请一实施例提供的多方通信语音控制多方通信语音控制方法。如图3所示，多方通信语音控制方法至少包括以下步骤：

S100：获取多个参会终端的语音信息。

可以理解，步骤S100中，可通过多方通信语音控制系统10中的语音采集模块110来获取来自多个参会终端的语音信息和视频信息，其具体获取方式请一并参照图1，图2及其相关描述，在此不再赘述。

S200：获取各参会终端的视频信息。

可以理解，步骤S200中，可通过多方通信语音控制系统10中的视频采集模块120来获取来自各参会终端的语音信息和视频信息，其具体获取方式请一并参照图1，图2及其相关描述，在此不再赘述。

S300：获取各视频信息中的动作信息及各语音信息中的音频信息。

可以理解，步骤S300中，可通过多方通信语音控制系统10中的识别模块102来获取视频信息中的动作信息及语音信息中的音频信息，具体获取方式请一并参照图1，图2及其相关描述，在此不再赘述。

S400：判断各动作信息是否为发言且各语音信息中是否包括音频信息。

可以理解的是，步骤S400中，可以通过多方通信语音控制系统10中的识别模块102来判断各动作信息是否为发言且各语音信息中是否包括音频信息，具体判断方式请一并参照图1，图2及其相关描述，在此不再赘述。

S500：控制各参会终端的音量。

可以理解的是，步骤S500中，可以通过多方通信语音控制系统10中的控制模块101来控制各参会终端的音量，其中，来自第一参会终端的语音信息的音量大于其余各参会终端的音量，具体控制方式请一并参照图1及图2，在此不再赘述。

S600：结束。

可以理解的是，步骤S600中，若判断口型信息不为发言或语音信息中不包括音频信息，则控制模块101不执行任何操作。

请一并参阅图4，下面以多方通信语音控制系统10为例，详细介绍本申请另一实施例提供的多方通信语音控制方法。如图4所示，多方通信语音控制方法还包括以下步骤：

S410：获取来自第二参会终端的优先级信息。

可以理解的是，在步骤S410中，可以通过控制模块101获取来自第二参会终端的优先级信息，其具体获取方式请一并参照图1，图2及其相关描述，在此不再赘述。

S420：获取来自第一参会终端的优先级信息。

可以理解的是，在步骤S420中，可以通过控制模块101获取来自第一参会终端的优先级信息，其具体获取方式请一并参照图1，图2及其相关描述，在此不再赘述。

S430：判断第二参会终端的优先级是否高于第一参会终端的优先级。

可以理解的是，在步骤S430中，可以通过控制模块101判断第二参会终端的优先级与第一参会终端的优先级，其具体判断方式请一并参照图1，图2及其相关描述，在此不再赘述。

S510：控制各参会终端的声音播放。

可以理解的是，在步骤S510中，可以通过多方通信语音控制系统10中的控制模块101来控制各参会终端的声音播放，其中，来自所述第二参会终端的语音信息的音量大于来自其余各所述参会终端的音量，具体控制方式请一并参照图1及图2，在此不再赘述。

S450：结束。

可以理解的是，在步骤S450中，若控制模块101判断第二参会终端的优先级低于第一参会终端的优先级，则不执行切换操作，其具体判断方式请一并参照图1，图2及其相关描述，在此不再赘述。

本技术领域的普通技术人员应当认识到，以上的实施方式仅是用来说明本申请，而并非用作为对本申请的限定，只要在本申请的实质精神范围之内，对以上实施例所作的适当改变和变化都落在本申请要求保护的范围之内。

Claims

1.一种多方通信语音控制系统，所述多方通信语音控制系统通信连接至少两个参会终端，其特征在于，所述系统包括：

语音采集模块，用于获取参会终端的语音信息；

视频采集模块，用于获取所述参会终端的视频信息；

2.如权利要求1所述的多方通信语音控制系统，其特征在于，所述至少两个参会终端包括所述第一参会终端及第二参会终端，当所述识别模块识别到至少两个参会终端有发言时，所述控制模块还用于：

获取所述参会终端的优先级信息；

3.如权利要求2所述的多方通信语音控制系统，其特征在于：

4.如权利要求3所述的多方通信语音控制系统，其特征在于，所述识别模块还用于：

5.如权利要求1所述的多方通信语音控制系统，其特征在于，所述语音采集模块及所述视频采集模块设置于所述参会终端内，所述控制模块及所述识别模块设置于服务器内。

6.如权利要求1所述的多方通信语音控制系统，其特征在于，所述语音采集模块、所述视频采集模块、所述识别模块及所述控制模块均设置在所述第一参会终端。

7.如权利要求1所述的多方通信语音控制系统，其特征在于，所述控制模块还用于：

8.一种多方通信语音控制方法，其特征在于，所述方法包括：

获取多个参会终端的语音信息；

获取各所述参会终端的视频信息；

若一第一参会终端的所述动作信息为发言且所述语音信息中包括音频信息，则控制各参会终端的声音播放，其中，来自所述第一参会终端的语音信息的音量大于其余各所述参会终端的音量。

9.如权利要求8所述的多方通信语音控制方法，其特征在于，所述参会终端另包括一第二参会终端，当来自所述第一参会终端的语音信息的音量大于其余各所述参会终端的音量时，所述方法还包括：

获取所述第二参会终端的动作信息及语音信息；

10.如权利要求8所述的多方通信语音控制方法，其特征在于，所述参会终端另包括一第二参会终端，当来自所述第一参会终端的语音信息的音量大于其余各所述参会终端的音量时，所述方法还包括：

获取所述第二参会终端的视频信息及语音信息；

若所述第二参会终端的视频信息中包含预设的手势或语音信息中包含预设的关键字，则控制各所述参会终端的声音播放，其中，来自所述第二参会终端的语音信息的音量大于来自其余各所述参会终端的音量。