CN103337242B

CN103337242B - 一种语音控制方法和控制设备

Info

Publication number: CN103337242B
Application number: CN201310206738.9A
Authority: CN
Inventors: 刘智辉; 乔宁博
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-05-29
Filing date: 2013-05-29
Publication date: 2016-04-13
Anticipated expiration: 2033-05-29
Also published as: CN105513596A; CN105513596B; CN103337242A

Abstract

本发明实施例提供一种语音控制方法和控制设备，涉及通信领域，能够在语音控制场景下接收到其他会场的声音信息，并简化了会议控制方式，提升了语音识别的效果。其方法为：通过接收本地会场的语音控制请求信号，启用语音控制模式，对本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，双讲检测结果为近端单讲，或远端单讲，或双讲，根据双讲检测结果，确定本地会场中扬声器的音量，并在双讲检测结果为近端单讲或所双讲时，对本地会场获取的语音数据进行语音识别，获取语音识别结果，进而从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作。本发明实施例用于会议中进行语音控制。

Description

一种语音控制方法和控制设备

技术领域

本发明涉及通信领域，尤其涉及一种语音控制方法和控制设备。

背景技术

在现有会议电话场景下，可以通过按键、Web等实现会控操作，解决了会议电话在会议中实现语音会控不便的问题，但是操作起来不太方便。语音识别技术可以使得语音控制简化复杂的会议控制方式，例如Cisco(思科)有语音助手类的产品，但主要用于会议互通之前，辅助完成语音呼叫，查看邮件等操作，并没有在会议中进行语音控制的方案。

另外，非本地会场的声音会影响语音识别的效果，而在现有的技术方案中，大多在进行语音控制的时候，本地会场可以通过按键或者拨号等触发方式，向MCU(MultipointControlUnit，多点控制单元)请求进入语音识别模式，MCU将本地会场闭音，即停止发送其他会场的声音到本地会场，终止IVR(InteractiveVoiceResponse，交互式语音应答)等语音相关操作，本地会场再接收控制语音数据到MCU的语音识别单元，该语音识别单元进行语音识别后使得MCU执行相应的会控操作，在此过程中，MCU会把非本地会场送入的声音屏蔽，即采用对本地扬声器闭音的方式，以减少其他会场对本地会场语音控制的干扰。上述实现过程存在的问题是，在这种会控模式下，将无法接收到非本地会场的任何声音，本地会场的用户可能就会获取不到关键会议信息。

发明内容

本发明的实施例提供一种语音控制方法和控制设备，能够在语音控制场景下接收到其他会场的声音信息，并简化了会议控制方式，提升了语音识别的效果。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种语音控制方法，包括：

接收本地会场的语音控制请求信号，启用语音控制模式；

对所述本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，所述双讲检测结果为近端单讲，或远端单讲，或双讲；

根据所述双讲检测结果，确定所述本地会场中扬声器的音量，并在所述双讲检测结果为所述近端单讲或所述双讲时，对所述本地会场获取的语音数据进行语音识别，获取语音识别结果；

从所述语音识别结果中获取会控操作指令，并根据所述会控操作指令执行相应的会控操作。

结合第一方面，在第一方面的第一种可能实现的方式中，所述通过对所述本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果包括：

判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和；

若所述回声能量不大于所述回声抵消输出能量的两倍与所述第一阈值的和，根据所述回声能量是否小于所述本地会场的背景噪声能量的两倍与第二阈值的和判断所述本地会场是否讲话；

若所述回声能量不小于所述背景噪声能量的两倍与所述第二阈值的和，则所述本地会场讲话，并根据所述远端会场的参考信号是否小于通过所述语音活动侦测获取的远端噪音能量的两倍与第三阈值的和判断所述远端会场是否讲话，所述参考信号为所述远端会场的语音信号经网络传输还未经过所述本地会场的扬声器播放的语音信号；

若所述参考信号小于所述远端噪音能量的两倍与第三阈值的和，则所述远端会场没有讲话，所述双讲检测结果为所述近端单讲；

若所述参考信号不小于所述远端噪音能量的两倍与第三阈值的和，则所述远端会场讲话，所述双讲检测结果为所述双讲。

结合第一方面或第一方面的第一种可能实现的方式，在第一方面的第二种可能实现的方式中，所述通过对所述本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果还包括：

若所述回声能量大于所述回声抵消输出能量的两倍与所述第一阈值的和，根据所述回声能量是否小于所述背景噪声能量的两倍与第二阈值的和判断所述本地会场是否讲话；

若所述回声能量小于所述背景噪声能量的两倍与第二阈值的和，则所述本地会场没有讲话，所述双讲检测结果为所述远端单讲。

结合第一方面或第一方面的第二种可能实现的方式，在第一方面的第三种可能实现的方式中，在判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和之前，所述方法还包括：

对所述本地会场中麦克风采集的语音信号进行混音分离，以使得所述本地会场的语音信号不传输至所述远端会场；

根据所述本地会场的语音信号幅度获取所述本地会场和所述远端会场的回声能量大小，并通过语音活动侦测获取所述本地会场的背景噪声能量；

通过自适应滤波器中的前台滤波器对所述本地会场和所述远端会场的回声信号进行自适应滤波，将所述回声信号乘以滤波系数，所述回声信号乘以所述滤波系数后的回声信号对应的能量为滤波后的回声抵消输出能量。

结合第一方面或第一方面的第三种可能实现的方式，在第一方面的第四种可能实现的方式中，所述根据所述双讲检测结果，确定所述本地会场中扬声器的音量，并在所述双讲检测结果为所述近端单讲和所述双讲时，对所述本地会场获取的语音数据进行语音识别，获取语音识别结果包括：

若所述双讲检测结果为所述远端单讲，则保持所述本地会场中扬声器的音量不变；

若所述双讲检测结果为所述近端单讲，则保持所述本地会场中扬声器的音量不变，并将所述本地会场获取的近端单讲时的语音数据发送至语音识别器进行语音识别，获取所述语音识别结果；

若所述双讲检测结果为所述双讲，则将所述扬声器的音量降低到第四阈值，并将所述本地会场获取的双讲时的语音数据发送至所述语音识别器进行语音识别，获取所述语音识别结果。

结合第一方面或第一方面的第四种可能实现的方式，在第一方面的第五种可能实现的方式中，所述获取所述语音识别结果包括：

若所述双讲检测结果为所述近端单讲，则所述语音识别器将所述近端单讲时的语音数据与控制命令集进行比较，若所述近端单讲时的语音数据与所述控制命令集匹配，则获取所述语音识别结果；

若所述双讲检测结果为所述双讲，则对所述双讲时远端会场的语音数据进行回声抵消，并通过所述语音识别器将回声抵消后的语音数据与所述控制命令集进行比较，若所述回声抵消后的语音数据与所述控制命令集匹配，则获取所述语音识别结果。

结合第一方面或第一方面的第一种可能实现的方式至第五种可能实现的方式，在第一方面的第六种可能实现的方式中，所述方法还包括：

若所述前台滤波器对所述回声信号进行衰减时的连续N帧的语音分贝数达到第五阈值，则将所述前台滤波器的滤波系数备份至所述自适应滤波器的后台滤波器中；

通过所述后台滤波器将所述回声信号进行自适应滤波，将所述回声信号乘以所述滤波系数获取衰减后的回声抵消输出能量。

第二方面，提供一种控制设备，包括：

会控启动单元，用于接收本地会场的语音控制请求信号，启用语音控制模式；

双讲检测单元，用于对所述本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，所述双讲检测结果为近端单讲，或远端单讲，或双讲；

会控管理单元，用于根据所述双讲检测结果，确定所述本地会场中扬声器的音量，并在所述双讲检测结果为所述近端单讲或所述双讲时，对所述本地会场获取的语音数据进行语音识别，获取语音识别结果；

会控执行单元，用于从所述语音识别结果中获取会控操作指令，并根据所述会控操作指令执行相应的会控操作。

结合第二方面，在第二方面的第一种可能实现的方式中，所述双讲检测单元包括：

第一判断子单元，用于判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和；

若所述第一判断子单元确定所述回声能量不大于所述回声抵消输出能量的两倍与所述第一阈值的和，则通过第二判断子单元判断所述回声能量是否小于所述本地会场的背景噪声能量的两倍与第二阈值的和判断所述本地会场是否讲话；

若所述第二判断子单元确定所述回声能量不小于所述背景噪声能量的两倍与所述第二阈值的和，则所述第二判断子单元确定所述本地会场讲话，并通过第三判断子单元判断所述远端会场的参考信号是否小于通过所述语音活动侦测获取的远端噪音能量的两倍与第三阈值的和确定所述远端会场是否讲话，所述参考信号为所述远端会场的语音信号经网络传输还未经过所述本地会场的扬声器播放的语音信号；

若所述第三判断子单元确定所述参考信号小于所述远端噪音能量的两倍与第三阈值的和，则所述第三判断子单元确定所述远端会场没有讲话，所述第三判断子单元确定所述双讲检测结果为所述近端单讲；

若所述第三判断子单元确定所述参考信号不小于所述远端噪音能量的两倍与第三阈值的和，则所述第三判断子单元确定所述远端会场讲话，所述第三判断子单元确定所述双讲检测结果为所述双讲。

结合第二方面或第二方面的第一种可能实现的方式，在第二方面的第二种可能实现的方式中，所述双讲检测单元还用于：

若所述第一判断子单元确定所述回声能量大于所述回声抵消输出能量的两倍与所述第一阈值的和，则通过所述第二判断子单元判断所述回声能量是否小于所述背景噪声能量的两倍与第二阈值的和判断所述本地会场是否讲话；

若所述第二判断子单元确定所述回声能量小于所述背景噪声能量的两倍与第二阈值的和，则所述第二判断子单元确定所述本地会场没有讲话，所述第二判断子单元确定所述双讲检测结果为所述远端单讲。

结合第二方面或第二方面的第二种可能实现的方式，在判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和之前，所述双讲检测单元还包括：

控制子单元，用于通过对所述本地会场中麦克风采集的语音信号进行混音分离，以使得所述本地会场的语音信号不传输至所述远端会场；

获取子单元，用于根据所述本地会场的语音信号幅度获取所述本地会场和所述远端会场的回声能量大小，并通过语音活动侦测获取所述本地会场的背景噪声能量；

滤波子单元，用于通过自适应滤波器中的前台滤波器对所述本地会场和所述远端会场的回声信号进行自适应滤波，将所述回声信号乘以所述滤波系数，所述回声信号乘以所述滤波系数后的回声信号对应的能量为滤波后的回声抵消输出能量。

结合第二方面或第二方面的第三种可能实现的方式，在第二方面的第四种可能实现的方式中，所述会控管理单元具体用于：

结合第二方面或第二方面的第四种可能实现的方式，在第二方面的第五种可能实现的方式中，所述会控管理单元还用于：

结合第二方面或第二方面的第一种可能实现的方式至第五种可能实现的方式，在第二方面的第六种可能实现的方式中，所述滤波子单元还用于：

本发明实施例提供一种语音控制方法和控制设备，通过接收本地会场的语音控制请求信号，启用语音控制模式，对本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，双讲检测结果为近端单讲，或远端单讲，或双讲，根据双讲检测结果，确定本地会场中扬声器的音量，并在双讲检测结果为近端单讲或所双讲时，对本地会场获取的语音数据进行语音识别，获取语音识别结果，进而从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作，能够在语音控制场景下接收到其他会场的声音信息，并简化了会议控制方式，提升了语音识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音控制方法流程示意图；

图2为本发明另一实施例提供的一种语音控制方法流程示意图；

图3为本发明又一实施例提供的一种控制设备结构示意图；

图4为本发明又一实施例提供的一种控制设备结构示意图；

图5为本发明又一实施例提供的一种控制设备结构示意图；

图6为本发明又一实施例提供的一种控制设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音控制方法，如图1所示，包括：

101、控制设备接收本地会场的语音控制请求信号，启用语音控制模式。

其中，控制设备可以为MCU(MultipointControlUnit，多点控制单元)，为一种用来控制多个用户相互通信的一种网络实体。该MCU可以应用于多点视频会议系统中，或者电话会议中等。

语音控制请求信号可以为语音唤醒信号，或手势识别信号，或通过按键或拨号等触发信号。

示例性的，MCU接收本地会场的语音控制请求信号，若语音控制请求信号与预设的语音会控激活语音匹配，则启用语音控制模式；或，接收本地会场的手势识别信号，若手势识别信号与预设的语音会控激活手势匹配，则启用语音控制模式。

102、控制设备对本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，双讲检测结果为近端单讲，或远端单讲，或双讲。

示例性的，MCU在对本地会场的语音信号和远端会场的语音信号进行双讲检测时，可以根据本地会场的语音信号幅度，本地会场和远端会场的回声能量大小，背景噪声能量，本地会场和远端会场的回声抵消输出能量等进行处理，并根据处理结果判断双讲检测结果是否为近端单讲，或远端单讲或双讲。

具体的，在开启语音控制模式之后，可以对本地会场中麦克风采集的语音信号进行混音分离，以使得本地会场的语音信号不传输至远端会场。而后根据本地会场的语音信号幅度获取本地会场和远端会场的回声能量大小，并通过语音活动侦测获取本地会场的背景噪声能量，通过自适应滤波器中的前台滤波器对本地会场和远端会场的回声信号进行自适应滤波，将回声信号乘以滤波系数，回声信号乘以滤波系数后的回声信号对应的能量为滤波后的回声抵消输出能量。

103、控制设备根据双讲检测结果，确定本地会场中扬声器的音量，并在双讲检测结果为近端单讲或双讲时，对本地会场获取的语音数据进行语音识别，获取语音识别结果。

具体的，若双讲检测结果为远端单讲，则保持本地会场扬声器的音量不变，不将远端单讲的语音数据输送至MCU的语音识别器进行语音识别；若双讲检测结果为近端单讲，则保持本地会场中扬声器的音量不变，并将本地会场获取的近端单讲时的语音数据发送至语音识别器进行语音识别，获取语音识别结果，而后语音识别器将近端单讲时的语音数据与控制命令集进行比较，若近端单讲时的语音数据与控制命令集匹配，则获取语音识别结果；若双讲检测结果为双讲，则将扬声器的音量降低到第四阈值，并将本地会场获取的双讲时的语音数据发送至语音识别器进行语音识别，获取语音识别结果，进而对双讲时远端会场的语音数据进行回声抵消，并通过语音识别器将回声抵消后的语音数据与控制命令集进行比较，若回声抵消后的语音数据与控制命令集匹配，则获取语音识别结果。

104、控制设备从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作。

本发明实施例提供一种语音控制方法，通过接收本地会场的语音控制请求信号，启用语音控制模式，对本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，双讲检测结果为近端单讲，或远端单讲，或双讲，根据双讲检测结果，确定本地会场中扬声器的音量，并在双讲检测结果为近端单讲或所双讲时，对本地会场获取的语音数据进行语音识别，获取语音识别结果，进而从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作，能够在语音控制场景下接收到其他会场的声音信息，并简化了会议控制方式，提升了语音识别的效果。

本发明另一实施例提供一种语音控制方法，以MCU为控制设备进行说明，如图2所示，包括：

201、控制设备接收本地会场的语音控制请求信号，启用语音控制模式。

示例性的，在电话会议或者当控制设备为MCU时，该MCU可以从本地会场接收会控者输入的语音控制请求信号，该语音控制请求信号可以为语音唤醒信号，或手势识别信号，或通过按键或拨号等触发信号。

例如，当会控者输入的是语音唤醒词时，该语音唤醒词可以是文本，也可以是语音，通过本地会场的麦克风采集与会人的语音控制请求信号，若该语音控制请求信号与预设的语音会控激活语音匹配，则启用语音控制模式，即触发语音会控；

当会控者输入的是手势识别信号时，该手势识别信号可以通过触摸屏感知或者摄像机识别，若该手势识别信号与预设的语音会控激活手势匹配，则启用语音控制模式，即触发语音会控。

其中，MCU获取的语音唤醒词或者手势识别信号也可以通过本地会场的会议终端设备获取会控者的语音数据或者手势信号。

在触发语音会控之后，MCU可以对本地会场进行混音控制，使得本地会场的声音信号不通过本地会场是麦克风传送至远端会场。

202、控制设备根据本地会场的语音信号幅度获取本地会场和远端会场的回声能量大小，并通过语音活动侦测获取本地会场的背景噪声能量。

其中，在开启语音控制模式之后，在对本地会场的语音信号和远端会场的语音信号进行双讲检测之前，对本地会场中麦克风采集的语音信号进行混音分离，以使得本地会场的语音信号不传输至远端会场，远端会场在本地会场进行语音控制期间，不接收本地会场的语音信号。

示例性的，当会控者启动语音会控后，MCU可以通过语音信号幅度获取回声能量大小，回声能量大小为语音信号幅度的平方。其中，回声能量为近端会场和远端会场同时在说话时的回声输入。同时，MCU可以通过VAD(VoiceActivityDetection，语音活动侦测)检测获取背景噪声能量大小，其中，背景噪声可以亦称本底噪音，一般指电声系统中除有用信号以外的总噪声，或物体自身振动、外来干扰而形成的固有的噪声。

203、控制设备通过自适应滤波器中的前台滤波器对本地会场和远端会场的回声信号进行自适应滤波，将回声信号乘以滤波系数，回声信号乘以滤波系数后的回声信号对应的能量为滤波后的回声抵消输出能量。

示例性的，当会控者启动语音会控后，MCU开始对本地会场和远端会场进行双讲检测，并持续记录双讲检测的结果。具体的，可以利用MCU中的两个基于NLMS(NormalizedLeastMeanSquare，归一化最小均方)算法的自适应滤波器对回声信号进行自适应滤波。该自适应滤波器可以包括前台滤波器和后台滤波器。

具体的，可以通过前台滤波器进行自适应滤波来收敛本地会场和远端会场的回声信号的语音分贝，即让回声信号发生衰减，获取滤波后的回声抵消输出能量。其中，随着近端会场和远端会场与会人的语音信号的变化，前台滤波器可以通过参考信号和回声信号获取前台滤波器系数，将回声信号乘以该系数，可以获取衰减后的回声抵消输出能量。同时，当前台滤波器收敛较好时，可以将前台滤波器系数备份到后台滤波器，当前台滤波器对回声信号进行衰减时的连续N帧的语音分贝数达到第五阈值时，更新前台滤波器系数到后台滤波器，通过该后台滤波器将回声信号进行自适应滤波，将回声信号乘以滤波系数获取滤波后的回声抵消输出能量。其中，回声信号为本地会场与远端会场都在讲话时的声音信号。

其中，回声抵消输出能量可以为本地会场的与会人语音经过对端空间传输，又被对端麦克风采集到的语音信号传回到本地会场的语音能量。参考信号可以为远端会场的语音信号还未经过本地会场的扬声器播放的语音信号。

204、控制设备判断回声能量是否大于回声抵消输出能量的两倍与第一阈值的和，若回声能量大于回声抵消输出能量的两倍与第一阈值的和，则进入步骤205，若回声能量不大于回声抵消输出能量的两倍与第一阈值的和，则进入步骤208。

205、控制设备双讲检测结果为单讲。

具体的，在获取了滤波后的回声能量后，可以判断回声能量是否大于回声抵消输出能量的两倍与第一阈值，来判断双讲检测结果是否为单讲。具体可以表示为P_d＞2*P_wf+T1，其中，P_d表示回声能量，P_wf表示前台滤波回声抵消输出能量，T1表示第一阈值。即当P_d＞2*P_wf+T1时，双讲检测结果可以为单讲。第一阈值T1可以根据所在的会议场景的空间大小进行调节。该单讲可以为远端单讲或近端单讲。

另外，也可以根据回声输入与回声抵消输出能量的差，是否大于6dB与第一阈值的和，来判断双讲检测结果是否为单讲。具体可以表示为P_d-P_wf＞6dB+T1，其中，P_d表示回声能量，P_wf表示前台滤波回声抵消输出能量，T1表示第一阈值。即当P_d-P_wf＞6dB+T1时，双讲检测结果为单讲。

当自适应滤波器是滤波系数发散而发生变化时，本地会场的回声路径变化，可以根据后台滤波器回声抵消输出能量是否大于前台滤波器的回声抵消输出能量与第六阈值的和，若后台滤波器的回声抵消输出能量大于前台滤波器的回声抵消输出能量与第六阈值的和，判定双讲检测结果为单讲。具体可以表示为：P_wb＞P_wf+T2，其中，P_wb表示后台滤波器的回声抵消输出，P_wf表示前台滤波回声抵消输出，T2表示第六阈值，可以根据本地会场的空间大小来确定。即当P_wb＞P_wf+T2时，可以确定双讲检测结果为单讲。

其中，回声路径变化可以是由于多种原因导致的，例如本地会场的麦克风的位置发生变化，或本地会场的扬声器的音量发生变化等，当回声路径发生变化时，使得自适应滤波器的灵敏度发生变化，即自适应滤波器的系数发散而发生变化。

206、控制设备判断回声能量是否小于背景噪声能量的两倍与第二阈值的和，若回声能量小于背景噪声能量的两倍与第二阈值的和，则进入步骤207，若回声能量不小于背景噪声能量的两倍与第二阈值的和，则返回步骤204。

207、控制设备双讲检测结果为远端单讲，而后进入步骤212。

具体的，在确定了双讲检测结果为单讲后，可以判断回声能量是否小于背景噪声能量的两倍与第二阈值的和，来判断近端是否讲话，具体可以表示为：P_d＜2*P_n+T3，其中，P_d表示回声能量，P_n表示本地会场的背景噪声能量，T3表示第二阈值，可以根据本地会场的空间大小来确定。当P_d＜2*P_n+T3时，近端没有讲话，可以确定双讲检测结果为远端单讲。

也可以判断回声能量与背景噪声能量的差值，是否小于6dB与T3的和，来判断近端是否讲话，具体可以表示为：P_d-P_n＜6dB+T3，其中，P_d表示回声能量，P_n表示本底会场的背景噪声能量，T3表示第二阈值，当满足P_d-P_n＜6dB+T3时，近端没有讲话，可以确定双讲检测结果为远端单讲。

208、若回声能量小于背景噪声能量的两倍与第二阈值的和，则控制设备确定本地会场没有讲话，若回声能量不小于背景噪声能量的两倍与第二阈值的和，则进入步骤209。

具体的，当回声能量不大于回声抵消输出能量的两倍与第一阈值的和时，即当P_d≤2*P_wf+T1时，若回声能量小于背景噪声能量的两倍与第二阈值的和，即当P_d＜2*P_n+T3时，则可以确定本地会场没有讲话，其中，P_d表示回声能量，P_n表示本地会场的背景噪声能量，P_wf表示前台滤波回声抵消输出，T1表示第一阈值，T3表示第二阈值。

209、控制设备判断参考信号是否小于通过语音活动侦测获取的远端噪音能量的两倍与第三阈值的和，若参考信号小于远端噪音能量的两倍与第三阈值的和，则进入步骤210，若参考信号不小于远端噪音能量的两倍与第三阈值的和，则进入步骤211。

具体的，当回声能量不小于背景噪声能量的两倍与第二阈值的和时，可以判定本地会场讲话，具体可以表示为：当P_d≥2*P_n+T3时，再判断参考信号是否小于远端噪音能量的两倍与第四阈值的和，来判断远端是否讲话，具体可以表示为：P_ref＜2*P_nfar+T4，其中，P_ref表示自适应滤波器的参考信号，P_nfar表示远端噪声，T4表示第三阈值。其中，参考信号可以为远端会场的语音信号经过网络传输还未经过本地会场的扬声器播放的语音信号。

210、控制设备双讲检测结果为近端单讲，而后进入步骤213。

具体的，当回声能量不小于背景噪声能量的两倍与第三阈值的和时，本地会场讲话，即当P_d≥2*P_n+T3时，若参考信号小于远端噪音能量的两倍与第三阈值的和时，确定远端没有讲话，即当P_ref＜2*P_nfar+T4时，远端没有讲话，双讲检测结果为近端单讲。

也可以根据参考信号与远端噪声的差值，是否小于6dB与第三阈值的和，具体可以表示为：P_ref-P_nfar＜6dB+T4，其中，P_ref表示自适应滤波器的参考信号，P_nfar表示远端噪声，T4表示第三阈值。即当P_ref-P_nfar＜6dB+T4时，远端没有讲话，双讲检测结果为近端单讲。

211、控制设备双讲检测结果为双讲，而后进入步骤214。

具体的，当回声能量不大于回声抵消输出能量的两倍于第一阈值的和时，若回声能量不小于背景噪声能量的两倍与第二阈值的和，则本地会场讲话，即当P_d≤2*P_wf+T1时，若P_d≥2*P_n+T3，则本地会场讲话，且若远端会场的参考信号不小于远端噪音能量的两倍于第三阈值的和，远端会场讲话，即P_ref≥2*P_nfar+T4，远端会场讲话，这样一来，可以确定双讲检测结果为双讲，即本地会场与远端会场都在讲话。

212、控制设备保持本地会场中扬声器的音量不变。

示例性的，当确定了双讲检测结果为远端单讲时，MCU不调节本地会场的扬声器的音量，当本地会场的麦克风通过麦克风采集到远端单讲的语音数据时，MCU不将语音数据传送至语音识别器，该语音识别器不对该语音数据进行语音识别。其中，该语音识别器在MCU中。

213、控制设备保持本地会场中扬声器的音量不变，并将本地会场获取的近端单讲时的语音数据发送至语音识别器进行语音识别，而后进入步骤215。

示例性的，当MCU确定了双讲检测结果为近端单讲时，不调节本地会场中扬声器的音量，并将近端单讲的语音数据发送至语音识别器，以便于语音识别器对近端单讲的语音数据进行语音识别。

214、控制设备将扬声器的音量降低到第四阈值，并将本地会场获取的双讲时的语音数据发送至语音识别器进行语音识别。

示例性的，当MCU确定了双讲检测结果为双讲时，MCU将本地会场的扬声器音量调小，可以降到预设的第四阈值，该第四阈值的范围例如可以降至5dB～10dB。这样，在双讲状态时，远端会场的声音经过本地会场的扬声器传输出来的声音减小，降低了远端会场声音对本地会场进行语音控制的影响，同时，本地会场还可以听到远端会场的声音信息。

215、控制设备获取语音识别结果。

具体的，当双讲检测结果为远端单讲时，MCU在获取到了远端单讲的语音数据后，MCU的语音识别器不对该远端单讲的语音数据进行语音识别；当双讲检测结果为近端单讲，则语音识别器将近端单讲时的语音数据与控制命令集进行比较，若近端单讲时的语音数据与控制命令集匹配，则获取语音识别结果；当双讲检测结果为双讲时，MCU则对双讲时远端会场的语音数据进行回声抵消，并通过语音识别器将回声抵消后的语音数据与控制命令集进行比较，若回声抵消后的语音数据与控制命令集匹配，则获取语音识别结果，若该语音数据与控制命令集中的控制命令匹配，则该语音数据为有效的语音控制数据。

216、控制设备从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作。

示例性的，当语音数据与控制命令集匹配时，MCU根据识别出的控制命令实施语音呼叫或语音控制操作。例如，该语音呼叫可以为切换到1会场等。

若要退出语音控制模式，则控制设备接收退出请求信号，退出请求信号包括语音退出信号，或手势退出信号，或按键或拨号等触发方式中的触发信号。

示例性的，MCU在执行了响应的会控操作后，若要退出语音控制模式，则可以向MCU发送退出请求信号，以便于MCU退出语音控制模式。若退出请求信号与预设的语音会控退出语音匹配，或退出请求信号与预设的语音会控退出手势匹配，则控制设备退出语音控制模式。

示例性的，该退出请求信号可以为语音退出信号或者手势退出信号。当该退出请求信号与语音识别器中预设的语音会控退出语音匹配时，或者与预设的语音会控退出手势匹配时，MCU就可以退出语音控制模式。

本发明又一实施例提供一种控制设备01，如图3所示，包括：

会控启动单元011，用于接收本地会场的语音控制请求信号，启用语音控制模式。

双讲检测单元012，用于对本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，双讲检测结果为近端单讲，或远端单讲，或双讲。

会控管理单元013，用于根据双讲检测结果，确定本地会场中扬声器的音量，并在双讲检测结果为近端单讲或双讲时，对本地会场获取的语音数据进行语音识别，获取语音识别结果。

会控执行单元014，用于从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作。

可选的，如图4所示，双讲检测单元012可以包括：

第一判断子单元0121，用于判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和；

若所述第一判断子单元0121确定所述回声能量不大于所述回声抵消输出能量的两倍与所述第一阈值的和，则通过第二判断子单元0122判断所述回声能量是否小于所述本地会场的背景噪声能量的两倍与第二阈值的和判断所述本地会场是否讲话；

若所述第二判断子单元0122确定所述回声能量不小于所述背景噪声能量的两倍与所述第二阈值的和，则所述第二判断子单元0122确定所述本地会场讲话，并通过第三判断子单元0123判断所述远端会场的参考信号是否小于通过所述语音活动侦测获取的远端噪音能量的两倍与第三阈值的和确定所述远端会场是否讲话，所述参考信号为所述远端会场的语音信号经网络传输还未经过所述本地会场的扬声器播放的语音信号；

若所述第三判断子单元0123确定所述参考信号小于所述远端噪音能量的两倍与第三阈值的和，则所述第三判断子单元0123确定所述远端会场没有讲话，所述第三判断子单元0123确定所述双讲检测结果为所述近端单讲；

若所述第三判断子单元0123确定所述参考信号不小于所述远端噪音能量的两倍与第三阈值的和，则所述第三判断子单元0123确定所述远端会场讲话，所述第三判断子单元0123确定所述双讲检测结果为所述双讲。

可选的，双讲检测单元012还可以用于：

若所述第一判断子单元0121确定所述回声能量大于所述回声抵消输出能量的两倍与所述第一阈值的和，则通过所述第二判断子单元0122判断所述回声能量是否小于所述背景噪声能量的两倍与第二阈值的和判断所述本地会场是否讲话；

若所述第二判断子单元0122确定所述回声能量小于所述背景噪声能量的两倍与第二阈值的和，则所述第二判断子单元0122确定所述本地会场没有讲话，所述第二判断子单元0122确定所述双讲检测结果为所述远端单讲。

可选的，如图5所示，在判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和之前，双讲检测单元012还可以包括：

控制子单元0124，用于通过对所述本地会场中麦克风采集的语音信号进行混音分离，以使得所述本地会场的语音信号不传输至所述远端会场；

获取子单元0125，用于根据所述本地会场的语音信号幅度获取所述本地会场和所述远端会场的回声能量大小，并通过语音活动侦测获取所述本地会场的背景噪声能量；

滤波子单元0126，用于通过自适应滤波器中的前台滤波器对所述本地会场和所述远端会场的回声信号进行自适应滤波，将所述回声信号乘以所述滤波系数，所述回声信号乘以所述滤波系数后的回声信号对应的能量为滤波后的回声抵消输出能量。

可选的，会控管理单元013可以具体用于：

若双讲检测结果为远端单讲，则保持本地会场中扬声器的音量不变；

若双讲检测结果为近端单讲，则保持本地会场中扬声器的音量不变，并将本地会场获取的近端单讲时的语音数据发送至语音识别器进行语音识别，获取语音识别结果；

若双讲检测结果为双讲，则将扬声器的音量降低到第四阈值，并将本地会场获取的双讲时的语音数据发送至语音识别器进行语音识别，获取语音识别结果。

可选的，会控管理单元013还可以用于：

若双讲检测结果为近端单讲，则语音识别器将近端单讲时的语音数据与控制命令集进行比较，若近端单讲时的语音数据与控制命令集匹配，则获取语音识别结果；

若双讲检测结果为双讲，则对双讲时远端会场的语音数据进行回声抵消，并通过语音识别器将回声抵消后的语音数据与控制命令集进行比较，若回声抵消后的语音数据与控制命令集匹配，则获取语音识别结果。

可选的，滤波子单元0126还可以用于：

若前台滤波器对回声信号进行衰减时的连续N帧的语音分贝数达到第五阈值，则将前台滤波器的滤波系数备份至自适应滤波器的后台滤波器中；

通过后台滤波器将回声信号进行自适应滤波，将回声信号乘以滤波系数获取衰减后的回声抵消输出能量。

本发明实施例提供一种控制设备，通过接收本地会场的语音控制请求信号，启用语音控制模式，对本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果，双讲检测结果为近端单讲，或远端单讲，或双讲，根据双讲检测结果，确定本地会场中扬声器的音量，并在双讲检测结果为近端单讲或所双讲时，对本地会场获取的语音数据进行语音识别，获取语音识别结果，进而从语音识别结果中获取会控操作指令，并根据会控操作指令执行相应的会控操作，能够在语音控制场景下接收到其他会场的声音信息，并简化了会议控制方式，提升了语音识别的效果。

本发明又一实施例提供一种控制设备02，如图6所示，包括：

处理器(Processor)021，通信接口(CommunicationInterfaces)022，存储器(Memory)023，通信总线024。

处理器021，通信接口022，存储器023通过通信总线024完成相互间的通信。

通信接口022，用于与会控设备通信，比如会议电话、手机、会议终端遥控器、视频会议设备等。

处理器021，用于执行程序025，具体可以执行上述图1或图2所示的方法实施例中的相关步骤。

具体的，程序025可以包括程序代码，程序代码包括计算机操作指令。

处理器021可能是一个中央处理器CPU(CentralProcessingUnit)，或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器023，用于存放程序025。存储器023可能包含高速RAM(RandomAccessMemory)存储器，也可能还包括非易失性存储器(Non-volatileMemory)，例如至少一个磁盘存储器。程序025具体可以包括：

程序025中各模块的具体实现可以参见图3至图5所示实施例中的相应模块，在此不赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和设备，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的设备和系统中，各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(ReadOnlyMemory，简称ROM)、随机存取存储器(RandomAccessMemory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音控制方法，其特征在于，包括:

接收本地会场的语音控制请求信号，启用语音控制模式；

从所述语音识别结果中获取会控操作指令，并根据所述会控操作指令执行相应的会控操作；

其中，所述对所述本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果包括：

若所述回声能量不小于所述背景噪声能量的两倍与所述第二阈值的和，则所述本地会场讲话，并根据所述远端会场的参考信号是否小于通过语音活动侦测获取的远端噪音能量的两倍与第三阈值的和判断所述远端会场是否讲话，所述参考信号为所述远端会场的语音信号经网络传输还未经过所述本地会场的扬声器播放的语音信号；

2.根据权利要求1所述的方法，其特征在于，所述通过对所述本地会场的语音信号和远端会场的语音信号进行双讲检测，获取双讲检测结果还包括：

3.根据权利要求2所述的方法，其特征在于，在判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述双讲检测结果，确定所述本地会场中扬声器的音量，并在所述双讲检测结果为所述近端单讲和所述双讲时，对所述本地会场获取的语音数据进行语音识别，获取语音识别结果包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述语音识别结果包括：

6.根据权利要求3-5任意一项所述的方法，其特征在于，所述方法还包括：

7.一种控制设备，其特征在于，包括：

会控执行单元，用于从所述语音识别结果中获取会控操作指令，并根据所述会控操作指令执行相应的会控操作；

其中，所述双讲检测单元包括：

若所述第二判断子单元确定所述回声能量不小于所述背景噪声能量的两倍与所述第二阈值的和，则所述第二判断子单元确定所述本地会场讲话，并通过第三判断子单元判断所述远端会场的参考信号是否小于通过语音活动侦测获取的远端噪音能量的两倍与第三阈值的和确定所述远端会场是否讲话，所述参考信号为所述远端会场的语音信号经网络传输还未经过所述本地会场的扬声器播放的语音信号；

8.根据权利要求7所述的控制设备，其特征在于，所述双讲检测单元还用于：

9.根据权利要求8所述的控制设备，其特征在于，在判断所述本地会场和所述远端会场的回声能量是否大于所述本地会场和所述远端会场的回声抵消输出能量的两倍与第一阈值的和之前，所述双讲检测单元还包括：

10.根据权利要求9所述的控制设备，其特征在于，所述会控管理单元具体用于：

11.根据权利要求10所述的控制设备，其特征在于，所述会控管理单元还用于：

12.根据权利要求9-11任意一项所述的控制设备，其特征在于，所述滤波子单元还用于：