CN106898348A

CN106898348A - 一种出声设备的去混响控制方法和装置

Info

Publication number: CN106898348A
Application number: CN201611242997.7A
Authority: CN
Inventors: 楼厦厦; 李波
Original assignee: Beijing Ninth Laboratory Technology Co Ltd
Current assignee: Bird Innovation Beijing Technology Co ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-06-27
Anticipated expiration: 2036-12-29
Also published as: US10410651B2; EP3343559A1; US20180190308A1; CN106898348B; EP3343559B1

Abstract

本发明公开了一种出声设备的去混响控制方法和装置。该方法包括当设备播放音频时，实时采集来自用户的语音信号；获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数；根据相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作；获取来自用户的语音命令词，控制设备执行相应功能，对用户作出应答。本方案能够提高语音指令识别率，增强用户交互体验。

Description

一种出声设备的去混响控制方法和装置

技术领域

本发明涉及语音交互技术领域，特别涉及一种出声设备的去混响控制方法和装置。

背景技术

随着智能技术的发展，很多厂商开始考虑在智能产品上设置语音识别功能等，例如，要求电脑、手机、音响、家电等产品支持无线连接、远程控制和语音交互等。

然而，当用户与智能产品进行语音交互时，用户发出的声音经房间反射后又被智能产品采集到，产生了混响，由于混响中包含了与正确信号相似的信号，对语音信息和语音特征提取的干扰较大，必须进行去混响操作。现有的去混响方案不能很好地适用于用户与智能产品交互的场景，要么去混响程度较低，导致混响残留较大，要么去混响程度过高，削弱了用户语音，导致产品对语音指令识别率严重下降，不能及时响应用户的指令，交互体验差。

发明内容

本发明实施例提供了一种出声设备的去混响控制方法和装置，以解决现有产品对语音指令的识别率低、交互体验差的问题等。

为达到上述目的，本发明的技术方案是这样实现的：

一方面，本发明实施例提供了一种出声设备的去混响控制方法。该方法包括：

当设备播放音频时，实时采集来自用户的语音信号；

获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数；

根据所述相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作；

获取来自用户的语音命令词，控制设备执行相应功能，对用户作出应答。

又一方面，本发明实施例提供了一种出声设备的去混响控制装置。该装置包括：

语音采集器，用于当设备播放音频时，实时采集来自用户的语音信号；

因子获取单元，用于获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数；

去混响执行单元，用于根据所述相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作；

命令执行单元，用于获取来自用户的语音命令词，控制设备执行相应功能，对用户作出应答。

本发明实施例的技术方案，基于用户与设备的相对信息调整语音增强方式时，能够在去混响同时较好地增强或保护用户语音，提高语音识别率；基于关联于用户、设备的声学参数执行去混响时，能够根据声学参数指示的声学环境的变化，采用不同的语音增强方式，保证适当的去混响程度，解决了现有方案易于导致的混响残留大或削弱用户语音的问题，达到较高的语音识别率。可以理解，当同时结合用户信息和环境信息去混响时，能够进一步提升语音识别的准确率。

附图说明

图1为本发明一个实施例提供的一种出声设备的去混响控制方法示意图；

图2为本发明又一个实施例提供的出声设备的去混响控制装置结构示意图；

图3为本发明又一个实施例提供的又一种出声设备的去混响控制装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明一个实施例提供了一种出声设备的去混响控制方法。参见图1，该方法包括如下步骤：

S101：当设备播放音频时，实时采集来自用户的语音信号。

S102：获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数。

本实施例在选取控制去混响的参照量时，以用户相关量和空间相关量两个基本的因子为基础，并结合这两种基本因子衍生出同时体现了用户信息和空间信息的综合因子。

例如，获取用户相对于设备的方向信息和距离信息，作为相对位置信息，这属于用户相关量；而声学参数则既可属于基本因子，也可属于综合因子，如房间的混响时间(T60，T30或T20等)属于一种空间相关量；用户语音的直达混响比(设备采集到的用户语音中直达声与混响声的比例)、设备利用其内置的麦克风阵列采集用户语音并计算出的语音清晰度(如C50等)，则同时与用户和空间关联，属于综合因子。

S103：根据所述相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作；

S104：获取来自用户的语音命令词，控制设备执行相应功能，对用户作出应答。

由上，本发明实施例的技术方案，基于用户与设备的相对信息调整语音增强方式时，能够在去混响同时较好地增强或保护用户语音，提高语音识别率；基于关联于用户、设备的声学参数执行去混响时，能够根据声学参数指示的声学环境的变化，采用不同的语音增强方式，保证适当的去混响程度，解决了现有方案易于导致的混响残留大或削弱用户语音的问题，达到较高的语音识别率。可以理解，当同时结合用户信息和环境信息去混响时，能够进一步提升语音识别的准确率。

在图1所示实施例的基础上，进一步的，为了更加匹配用户与设备语音交互的特点，本发明又一实施中，在执行步骤S102的同时包括但不局限于采用下述处理方式:根据设备采集到的语音信号判断检测到唤醒词时，控制设备停止音频播放；或者，根据该语音信号判断检测到唤醒词时，降低设备音频播放的音量至音量阈值以下。

这种处理方式，根据用户与设备语音交互场景的特点，在检测到唤醒词时，判断出用户此时有了新的需求，控制设备停止当前音频，等待用户的新指令，不但有助于进一步提高新指令的识别率，而且符合语音交互场景的使用习惯，提高了交互体验。

控制音频播放的操作与步骤S102同时执行，缩短响应时间，更及时地对用户进行响应。

进一步的，在步骤S104中，命令词包括控制设备自带功能的命令，如控制设备中喇叭的音量播放大小的命令，控制设备移动的命令，还可以包括控制设备中安装的应用程序的命令，但不局限于此。

由于相对于唤醒词，命令词数目多，内容复杂，为了降低设备负担，提高识别精度，本实施例对命令词采用云端处理的方式。在设备停止音频后，采集用户在唤醒词之后发出的语音信号；将语音信号传输至云端服务器，由云端服务器对该语音信号进行特征匹配，由匹配成功的语音信号得到命令词；接收云端服务器返回的命令词，根据该命令词控制设备执行相应功能，以对用户进行相应应答。

本发明又一实施例中主要对如何基于用户相关量和空间相关量进行去混响操作进行具体说明，本方案的其他内容参照其他实施例。

本发明各实施例中的出声设备为带麦克风阵列的出声设备，利用麦克风阵列采集用户语音，并执行去混响。在一次根据基本因子或综合因子去混响的过程中，根据产品需求和使用场景选取使用的麦克风会不相同，可以选用麦克风阵列中全部的麦克风，也可以选用麦克风阵列中的部分麦克风。例如，如果用户距离较近，语音比较响亮清晰，则可以只用一部分麦克风，就可以达到和使用全部麦克风时接近的效果，此时就没必要使用全部麦克风了。如果用户距离较远，语音较弱，混响较重，则需要选用全部麦克风来进行处理。

对需要利用多个因子去混响的场景，本实施例为相对位置信息和声学参数包括的各因子分别设置优先级；按照优先级从高到低，逐次基于相应因子，执行去混响操作，或者仅采用优先级高于预定级别的因子，执行去混响操作。采用分级别的处理方式，不但能根据不同场景提供有针对性的语音增强方式，达到较好的去混响效果，且能够降低计算复杂度，缩短响应时间。可以理解，也可以不分级别，同时采用所有因子进行去混响。

例如，设置相对位置信息的优先级高于声学参数的优先级，而相对位置信息中方向信息的优先级高于距离信息。去混响时，优先利用方向信息，然后是距离信息，最后采用声学参数。或者，为各因子优先级设置级别数值和阈值，如相对位置信息级别数值为5，声学参数级别数值为3，级别阈值为4，则根据规则采用优先级为4以上的因子时，仅采用相对位置信息执行去混响操作。可以理解，对声学参数中的各个因子，也可以分别设置多个级别等级，采用上述相似的处理方式。

本实施例在去混响时可以采用下述的一种或多种方式：

第一种方式

根据方向信息指示的用户相对于设备的方向，选取设备中相应的麦克风，调整语音增强方式所增强的声音方向，执行去混响操作。

第二种方式

当距离信息指示的用户相对于设备的距离小于第一距离阈值时，降低语音增强方式中的去混响程度和语音放大功能至第一增强等级；当距离信息指示的用户相对于设备的距离大于第二距离阈值时，提高语音增强方式中的去混响程度和语音放大功能至第二增强等级；当距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时，调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间。

当用户距离设备较近时，降低去混响程度以及对用户语音的音量放大程度；当用户距离设备较远时，提高去混响程度以及对用户语音的音量放大程度。

第三种方式

当声学参数指示房间中的混响程度大于第一混响阈值时，提高语音增强方式中的去混响程度至第一程度，当声学参数指示房间中的混响程度小于第二混响阈值时，降低语音增强方式中的去混响程度至第二程度，当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时，调整语音增强方式中的去混响程度在第一程度至第二程度之间。

当房间中混响程度较大时，提高去混响程度；当房间中混响程度较小时，降低去混响程度。

上述仅对语音增强方式中与本方案关联密切的操作进行了说明，但不局限于这些操作，例如，还会对语音信号进行均衡处理等。

上述混响阈值及程度的具体数值在此不作严格限定,可以在一定范围内出现浮动。

本发明又一实施例提供了一种出声设备的去混响控制装置200。参见图2，该装置200包括：

语音采集器201，用于当设备播放音频时，实时采集来自用户的语音信号。语音采集器可以由设备中的麦克风阵列实现。

因子获取单元202，用于获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数；

去混响执行单元203，用于根据相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作；

命令执行单元204，用于获取来自用户的语音命令词，控制设备执行相应功能，对用户作出应答。

在图2所示实施例的基础上，进一步的，参见图3，装置200还包括：检测控制单元205用于在获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数的同时，根据语音信号判断检测到唤醒词时，控制设备停止音频播放；或者，根据语音信号判断检测到唤醒词时，降低设备音频播放的音量至音量阈值以下。

去混响执行单元203，用于为相对位置信息和声学参数包括的各因子分别设置优先级；按照优先级从高到低，逐次基于相应因子，执行去混响操作，或者仅采用优先级高于预定级别的因子，执行去混响操作。

其中，去混响执行单元203，具体用于根据方向信息指示的用户相对于设备的方向，选取设备中相应的麦克风，调整语音增强方式所增强的声音方向，执行去混响操作；和/或，当距离信息指示的用户相对于设备的距离小于第一距离阈值时，降低语音增强方式中的去混响程度和语音放大功能至第一增强等级；当距离信息指示的用户相对于设备的距离大于第二距离阈值时，提高语音增强方式中的去混响程度和语音放大功能至第二增强等级；当距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时，调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间；和/或，当声学参数指示房间中的混响程度大于第一混响阈值时，提高语音增强方式中的去混响程度至第一程度，当声学参数指示房间中的混响程度小于第二混响阈值时，降低语音增强方式中的去混响程度至第二程度，当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时，调整语音增强方式中的去混响程度在第一程度至第二程度之间。

命令执行单元204，具体用于采集用户在唤醒词之后发出的语音信号；将语音信号传输至云端服务器，由云端服务器对该语音信号进行特征匹配，由匹配成功的语音信号得到命令词；接收云端服务器返回的命令词，根据该命令词控制设备执行相应功能。

出声设备的去混响控制装置200设置在出声设备中。该出声设备包括但不局限于智能便携终端和智能家电，智能便携终端至少包括智能手表、智能手机或智能音响；智能家电至少包括智能电视、智能空调或智能充电插座。

本发明装置实施例中各单元的具体工作方式，可以参见本发明方法实施例的相关内容，在此不再赘述。

由上所述，本发明实施例的技术方案，基于用户与设备的相对信息调整语音增强方式时，能够在去混响同时较好地增强或保护用户语音，提高语音识别率；基于关联于用户、设备的声学参数执行去混响时，能够根据声学参数指示的声学环境的变化，采用不同的语音增强方式，保证适当的去混响程度，解决了现有方案易于导致的混响残留大或削弱用户语音的问题，达到较高的语音识别率。可以理解，当同时结合用户信息和环境信息去混响时，能够进一步提升语音识别的准确率。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种出声设备的去混响控制方法，其特征在于，所述方法包括：

当设备播放音频时，实时采集来自用户的语音信号；

获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数；

2.根据权利要求1所述的方法，其特征在于，在获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数的同时，还包括：

根据所述语音信号判断检测到唤醒词时，控制设备停止音频播放；或者，根据所述语音信号判断检测到唤醒词时，降低设备音频播放的音量至音量阈值以下。

3.根据权利要求1所述的方法，其特征在于，所述获取用户与设备之间的相对位置信息、用户及设备所在房间环境的声学参数包括：

获取用户相对于设备的方向信息和距离信息，作为所述相对位置信息；

获取设备所在房间环境的混响时间、用户语音的直达混响比、设备采集到的语音的清晰度指数作为所述声学参数。

4.根据权利要求1所述的方法，其特征在于，根据所述相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作包括：

根据所述相对位置信息和声学参数中的一种或多种，选取设备中所有麦克风作为当前使用的麦克风，并调用对应的语音增强方式，执行去混响操作；或者,

根据所述相对位置信息和声学参数中的一种或多种，选取设备中部分麦克风作为当前使用的麦克风，并调用对应的语音增强方式，执行去混响操作。

5.根据权利要求3所述的方法，其特征在于，根据所述相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作包括：

为相对位置信息和声学参数包括的各因子分别设置优先级；

按照优先级从高到低，逐次基于相应因子，执行去混响操作，或者仅采用优先级高于预定级别的因子，执行去混响操作。

6.根据权利要求4所述的方法，其特征在于，根据所述相对位置信息和声学参数中的一种或多种，选取设备中相应的麦克风，并调用对应的语音增强方式，执行去混响操作包括：

根据所述方向信息指示的用户相对于设备的方向，选取设备中相应的麦克风，调整语音增强方式所增强的声音方向，执行去混响操作；和/或，

当所述距离信息指示的用户相对于设备的距离小于第一距离阈值时，降低语音增强方式中的去混响程度和语音放大功能至第一增强等级；当所述距离信息指示的用户相对于设备的距离大于第二距离阈值时，提高语音增强方式中的去混响程度和语音放大功能至第二增强等级；当所述距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时，调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间；和/或，

7.根据权利要求2所述的方法，其特征在于，

采集用户在唤醒词之后发出的语音信号；

将所述语音信号传输至云端服务器，由云端服务器对该语音信号进行特征匹配，由匹配成功的语音信号得到命令词；

接收云端服务器返回的命令词，根据该命令词控制设备执行相应功能。

8.一种出声设备的去混响控制装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

检测控制单元，用于在获取用户与设备之间的相对位置信息和设备所在房间环境的声学参数的同时，根据所述语音信号判断检测到唤醒词时，控制设备停止音频播放；或者，根据所述语音信号判断检测到唤醒词时，降低设备音频播放的音量至音量阈值以下。

10.根据权利要求8所述的装置，其特征在于，

所述去混响执行单元，用于为相对位置信息和声学参数包括的各因子分别设置优先级；按照优先级从高到低，逐次基于相应因子，执行去混响操作，或者仅采用优先级高于预定级别的因子，执行去混响操作。

其中，所述去混响执行单元，具体用于根据所述方向信息指示的用户相对于设备的方向，选取设备中相应的麦克风，调整语音增强方式所增强的声音方向，执行去混响操作；和/或，当所述距离信息指示的用户相对于设备的距离小于第一距离阈值时，降低语音增强方式中的去混响程度和语音放大功能至第一增强等级；当所述距离信息指示的用户相对于设备的距离大于第二距离阈值时，提高语音增强方式中的去混响程度和语音放大功能至第二增强等级；当所述距离信息指示的用户相对于设备的距离大于第一距离阈值且小于第二距离阈值时，调整语音增强方式中的去混响程度和语音放大功能至第一增强等级与第二增强等级之间；和/或，当声学参数指示房间中的混响程度大于第一混响阈值时，提高语音增强方式中的去混响程度至第一程度，当声学参数指示房间中的混响程度小于第二混响阈值时，降低语音增强方式中的去混响程度至第二程度，当声学参数指示房间中的混响程度大于第二混响阈值且小于第二混响阈值时，调整语音增强方式中的去混响程度在第一程度至第二程度之间。