CN110493616B

CN110493616B - 一种音频信号处理方法、装置、介质和设备

Info

Publication number: CN110493616B
Application number: CN201810461865.6A
Authority: CN
Inventors: 赵月峰; 温建伟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2021-08-06
Anticipated expiration: 2038-05-15
Also published as: CN110493616A

Abstract

本发明涉及语音识别领域，尤其涉及一种音频信号处理方法、装置、介质和设备。针对在智能机顶盒视频播放场景下，对语音指令信号的干扰主要来自于电视机播放出的音频的特点，创造性地提出，在接收到包括语音指令和当前电视播放的电视节目源对应的音频信号的第一音频信号时，将智能机顶盒发送的所述电视节目源对应的第二音频信号作为当前电视播放的电视节目源对应的音频信号，并可以将第二音频信号从第一音频信号中去除，以得到所述语音指令对应的第三音频信号，从而有效去除电视音频对语音指令的干扰，较大程度地提高语音指令的识别率。

Description

一种音频信号处理方法、装置、介质和设备

技术领域

本发明涉及语音识别领域，尤其涉及一种音频信号处理方法、装置、介质和设备。

背景技术

近年来随着人工智能技术的发展，越来越多的语音交互产品出现在家庭中，比如智能音箱、智能机顶盒等。用户在使用智能机顶盒时，可以不再使用遥控器进行智能机顶盒控制，转而使用语音进行控制。在最新研发的智能机顶盒产品中，完全放弃了遥控器，全部使用语音进行控制。但是，智能机顶盒放置的位置通常与电视机很近，当播放视频的时候，电视的音频会对用户说出的指令造成很大的干扰，甚至产生负信噪比的情况，导致用户语音指令的识别率降低。

现有技术方案主要采取以下两种方法来提高对智能机顶盒语音指令的识别率：

方法一、利用传统的降噪算法对智能机顶盒接收到的信号进行降噪，比如维纳滤波器、自适应滤波器、谱减法等。

方法二、利用麦克风阵列接收多路语音信号，再利用接收到的多路信号间的相位关系进行干扰信号的消除。

上述方法一在音频信号信噪比较高的场景下应用较好，但在视频播放场景下，音频信号的信噪比很低，甚至为负值，此种方法的降噪效果一般，无法有效提高语音指令识别率。

在上述方法二中，因为受到电视机喇叭位置的限制，对智能机顶盒摆放位置和摆放方向都有一定的要求。如果智能机顶盒摆放位置或摆放方向不正确，这种处理方式不能有效消除电视音频的干扰。而且，即使摆放位置和摆放方向都正确，由于智能机顶盒接收到的电视音频较大，降噪效果也不理想，语音指令识别率提高有限。

发明内容

本发明实施例提供一种音频信号处理方法、装置、介质和设备，用于提高智能机顶盒语音指令的识别率。

一种音频信号处理方法，所述方法包括：

在接收到第一音频信号时，所述第一音频信号中包括语音指令和当前电视播放的电视节目源对应的音频信号，确定智能机顶盒发送的所述电视节目源对应的第二音频信号；

从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号。

一种音频信号处理装置，所述装置包括麦克输入模块、节目源信号确定模块、存储模块、控制模块和处理模块，其中：

所述麦克输入模块，用于接收到第一音频信号，所述第一音频信号中包括语音指令和当前电视播放的电视节目源对应的音频信号；

所述节目源信号确定模块，用于确定所述麦克输入模块接收到第一音频信号时，智能机顶盒发送的所述电视节目源对应的第二音频信号；

所述存储模块，用于存储所述第一音频信号和所述第二音频信号；

所述控制模块，用于接收所述麦克输入模块发送的系统指令，该系统指令为所述麦克输入模块接收到第一音频信号时发送的，根据所述系统指令通知所述处理模块从所述存储模块中获得所述第一音频信号和所述第二音频信号；

所述处理模块，用于从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号。

一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述方法的步骤。

一种音频信号处理设备，包括收发器、总线接口、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现：

在所述收发器接收到第一音频信号时，所述第一音频信号中包括语音指令和当前电视播放的电视节目源对应的音频信号，确定智能机顶盒发送的所述电视节目源对应的第二音频信号；从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号。

本发明实施例针对在智能机顶盒视频播放场景下，对语音指令信号的干扰主要来自于电视机播放出的音频的特点，创造性地提出，在接收到包括语音指令和当前电视播放的电视节目源对应的音频信号的第一音频信号时，将智能机顶盒发送的所述电视节目源对应的第二音频信号作为当前电视播放的电视节目源对应的音频信号，并可以将第二音频信号从第一音频信号中去除，以得到所述语音指令对应的第三音频信号，从而有效去除电视音频对语音指令的干扰，较大程度地提高语音指令的识别率。

附图说明

图1为本发明实施例一提供的音频信号处理方法的步骤流程图；

图2为本发明实施例一提供的音频信号处理流程示意图；

图3为本发明实施例二提供的音频信号处理装置的结构示意图；

图4为本发明实施例四提供的音频信号处理设备的结构示意图。

具体实施方式

在智能机顶盒视频播放场景下，用户使用语音指令对智能机顶盒进行控制时，由于智能机顶盒通常放置在电视旁边，电视发出的音频信号的能量很高，会对语音指令音频信号造成极大的干扰。如果能得到电视机的音频信号，则可以直接作为参考信号在智能机顶盒接收到的包括用户语音指令的音频信号中去除掉，从而消除掉电视音频对用户语音指令的干扰，提高语音指令的识别率。

在实际应用中，由于无法直接得到电视机的音频信号，因此，本发明实施例提出，可以确定智能机顶盒发送的电视节目源对应的音频信号，并可以将其作为参考信号进行消除。

较优的，考虑到电视播放该电视节目源时，可能会对音频信号进行个性化的调整，还可以进一步通过智能机顶盒发送的电视节目源对应的音频信号，预测出电视播放该电视节目源时对应的音频信号，并将此作为参考信号在智能机顶盒接收到的包括用户语音指令的音频信号中去除掉，以更好地消除掉电视音频对用户语音指令的干扰，进一步提高语音指令的识别率。

更优的，还可以进一步通过降噪算法，对消除电视音频干扰之后得到的音频信号进行降噪。而由于在音频信号中去除了视频播放的音频，降噪效果也得到提升，从而可以进一步提高用户语音指令的识别率。

下面结合说明书附图对本发明实施例作进一步详细描述。

实施例一

如图1所示，为本发明实施例一提供的音频信号处理方法流程图，该方法包括以下步骤：

步骤101、接收第一音频信号。

在本步骤中，可以接收第一音频信号(可以用y(t)表示)。所述第一音频信号中包括语音指令(可以用s(t)表示)和当前电视播放的电视节目源对应的音频信号(可以用n(t)表示)。具体的，可以通过智能机顶盒麦克风接收第一音频信号。

步骤102、确定第二音频信号。

由于电视正在播放的电视节目是由智能机顶盒发出的，所以通过智能机顶盒可以确定当前电视正在播放的电视节目源，并可以得到该电视节目源对应的第二音频信号(可以用

表示)。

步骤103、进行信号去除。

在本步骤中，可以从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号(可以用

表示)。

具体的，可以通过谱减法，从所述第一音频信号中，将所述第二音频信号去除。

较优的，在步骤103之后，可以进一步包括步骤104，以进一步提高语音指令识别率：

步骤104、进行降噪处理。

在本步骤中，可以通过设定的降噪算法，对所述第三音频信号进行降噪处理，从而得到所述语音指令对应的识别率更高的音频信号。

所述设定的降噪算法可以但不限于包括：维纳滤波器、自适应滤波器、谱减法等。

较优的，在步骤102之后，步骤103之前，所述方法还可以包括步骤102’：

步骤102’、对所述第二音频信号进行滤波。

在本步骤中，可以通过预测的方式，通过所述第二音频信号预测得到电视实际发出的音频信号(可以用

表示)。

具体的，可以对所述第二音频信号进行滤波，滤波后得到的音频信号用于预测所述电视节目源在电视上播放时对应的音频信号。较优的，可以但不限于通过自适应滤波器对所述第二音频信号进行滤波。

更优的，由于第一音频信号中包括电视播放的音频信号，还可以通过将自适应滤波器进行滤波后得到的音频信号的指定参数与第一音频信号的指定参数进行比对，例如，所述指定参数可以但不限于包括梅尔倒谱系数，确定滤波后得到的音频信号是否可以较为真实地反映电视节目源在电视上播放时对应的音频信号，并可以在确定可靠性较低时，调整自适应滤波参数，从而得到预测效果更佳的音频信号，以更好地去除电视音频干扰，得到语音指令识别率更高的音频信号：

具体的，可以通过自适应滤波器对所述第二音频信号进行滤波，并将滤波后得到的参考音频信号的指定参数与所述第一音频信号的指定参数进行比对；

根据比对结果，在确定所述参考音频信号的准确性大于设定的门限值时，将该参考音频信号作为最终滤波后得到的音频信号，否则，调整所述自适应滤波器的参数，直至确定得到的所述参考音频信号的准确性大于设定的门限值。

此时，在步骤103中，可以从所述第一音频信号中，将滤波后得到的音频信号去除，以得到语音指令识别率更高的第三音频信号。

实施例一涉及的部分音频信号处理流程示意图可以如图2所示，语音指令(s(t))受到当前电视播放的电视节目源对应的音频信号(n(t))的干扰，形成第一音频信号(y(t))。通过对自适应滤波器对第二音频信号

进行滤波，滤波后得到的音频信号可以记为第四音频信号

将第四音频信号从第一音频信号中去除，此时可以理解为形成与语音指令近似相同的第三音频信号

当然，还可以进一步对第三音频信号进行降噪处理，以得到与语音指令相似度更高的音频信号，图2中未示出。

基于同一发明构思，本发明实施例中还提供了一种与音频信号处理方法对应的装置、介质和设备，由于该装置、介质和设备解决问题的原理与本发明实施例一提供的方法相似，因此该装置、介质和设备的实施可以参见方法的实施，重复之处不再赘述。

实施例二

如图3所示，为本发明实施例二提供的音频信号处理装置结构示意图，该装置可以基于智能机顶盒的主芯片实现相关各模块的功能，也可以理解为该装置集成在智能机顶盒中，该装置包括麦克输入模块11、节目源信号确定模块12、存储模块13、控制模块14和处理模块15，其中：

所述麦克输入模块11用于接收到第一音频信号，所述第一音频信号中包括语音指令和当前电视播放的电视节目源对应的音频信号；

所述节目源信号确定模块12用于确定所述麦克输入模块接收到第一音频信号时，智能机顶盒发送的所述电视节目源对应的第二音频信号；

所述存储模块13用于存储所述第一音频信号和所述第二音频信号；

所述控制模块14用于接收所述麦克输入模块发送的系统指令，该系统指令为所述麦克输入模块接收到第一音频信号时发送的，根据所述系统指令通知所述处理模块从所述存储模块中获得所述第一音频信号和所述第二音频信号；

具体的，所述控制模块可以根据所述系统指令向所述处理模块发送第一指令，所述处理模块根据所述第一指令，向所述存储模块发送第二指令，从而从所述存储模块中获得所述第一音频信号和所述第二音频信号。

所述处理模块15用于从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号。

所述处理模块15用于从所述第一音频信号中，将所述第二音频信号去除，具体包括：通过谱减法，从所述第一音频信号中，将所述第二音频信号去除。

所述装置还包括预测模块16：

预测模块16用于接收所述处理模块发送的所述第二音频信号，对所述第二音频信号进行滤波，滤波后得到的音频信号用于预测所述电视节目源在电视上播放时对应的音频信号，并将滤波后得到的音频信号发送给所述处理模块；

所述处理模块15用于从所述第一音频信号中，将所述第二音频信号去除，具体包括：从所述第一音频信号中，将所述滤波后得到的音频信号去除。

所述预测模块16用于对所述第二音频信号进行滤波，具体包括：通过自适应滤波器对所述第二音频信号进行滤波。

所述预测模块16用于对所述第二音频信号进行滤波，具体包括：

接收所述处理模块15发送的所述第一音频信号，并通过自适应滤波器对所述第二音频信号进行滤波，将滤波后得到的参考音频信号的指定参数与所述第一音频信号的指定参数进行比对；

所述处理模块15还用于通过设定的降噪算法，对所述第三音频信号进行降噪处理，此时得到的音频信号可以记为第五音频信号。

进一步的，所述装置还可以包括指令输出模块17：

所述处理模块15还用于将所述第三音频信号发送给所述存储模块13；

所述指令输出模块17用于从所述存储模块13中获得所述第三音频信号并输出。

当然，所述处理模块15还可以用于将所述第五音频信号发送给所述存储模块13；

所述指令输出模块17还可以用于从所述存储模块13中获得所述第五音频信号并输出。

当然，所述装置还可以进一步包括节目源信号输出模块18：

节目源信号输出模块18，可以用于从所述存储模块13获得所述第二音频信号并输出给电视，实现电视上的视频音频播放。

实施例三

本发明实施例三提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现本发明实施例一所述方法的步骤。

实施例四

本发明实施例四提供一种音频信号处理设备，如图4所示，包括收发器21、总线接口、存储器22、处理器23及存储在存储器22上的计算机程序，所述处理器23执行所述程序时实现：

在所述收发器21接收到第一音频信号时，所述第一音频信号中包括语音指令和当前电视播放的电视节目源对应的音频信号，确定智能机顶盒发送的所述电视节目源对应的第二音频信号；从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号。

本发明各实施例提供的方案，可以但不限于通过智能机顶盒实现。如果通过智能机顶盒实现，具体的，可以直接通过智能机顶盒的中央处理器(CPU)获得电视播放的音频信号，并可以使用自适应滤波器对该信号进行预测，得到一个近似的与智能机顶盒麦克风接收到的电视音频信号相同的预测信号，再可以使用谱减法从智能机顶盒麦克风接收到的音频中减掉预测的信号。这样能很好地将电视音频干扰信号消除，即使在信噪比很小的情况下，也能得到很好的效果，能有效提高用户语音指令的识别率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号；

所述方法还包括：

针对电视播放电视节目源时对音频信号进行的调整，对所述第二音频信号进行滤波，滤波后得到的音频信号用于预测所述电视节目源在电视上播放时对应的音频信号；

从所述第一音频信号中，将所述第二音频信号去除，具体包括：

从所述第一音频信号中，将所述滤波后得到的音频信号去除。

2.如权利要求1所述的方法，其特征在于，从所述第一音频信号中，将所述第二音频信号去除，具体包括：

通过谱减法，从所述第一音频信号中，将所述第二音频信号去除。

3.如权利要求1所述的方法，其特征在于，对所述第二音频信号进行滤波，具体包括：

通过自适应滤波器对所述第二音频信号进行滤波。

4.如权利要求3所述的方法，其特征在于，通过自适应滤波器对所述第二音频信号进行滤波，具体包括：

通过自适应滤波器对所述第二音频信号进行滤波，并将滤波后得到的参考音频信号的指定参数与所述第一音频信号的指定参数进行比对；

5.如权利要求1～4任一所述的方法，其特征在于，得到所述语音指令对应的第三音频信号之后，所述方法还包括：

通过设定的降噪算法，对所述第三音频信号进行降噪处理。

6.一种音频信号处理装置，其特征在于，所述装置包括麦克输入模块、节目源信号确定模块、存储模块、控制模块和处理模块，其中：

所述处理模块，用于从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号；

所述装置还包括：

预测模块，用于接收所述处理模块发送的所述第二音频信号，针对电视播放电视节目源时对音频信号进行的调整，对所述第二音频信号进行滤波，滤波后得到的音频信号用于预测所述电视节目源在电视上播放时对应的音频信号，并将滤波后得到的音频信号发送给所述处理模块；

所述处理模块，用于从所述第一音频信号中，将所述第二音频信号去除，具体包括：从所述第一音频信号中，将所述滤波后得到的音频信号去除。

7.如权利要求6所述的装置，其特征在于，所述处理模块，用于从所述第一音频信号中，将所述第二音频信号去除，具体包括：通过谱减法，从所述第一音频信号中，将所述第二音频信号去除。

8.如权利要求6所述的装置，其特征在于，所述预测模块，用于对所述第二音频信号进行滤波，具体包括：通过自适应滤波器对所述第二音频信号进行滤波。

9.如权利要求8所述的装置，其特征在于，所述预测模块，用于对所述第二音频信号进行滤波，具体包括：

接收所述处理模块发送的所述第一音频信号，并通过自适应滤波器对所述第二音频信号进行滤波，将滤波后得到的参考音频信号的指定参数与所述第一音频信号的指定参数进行比对；

10.如权利要求6～9任一所述的装置，其特征在于，所述处理模块，还用于通过设定的降噪算法，对所述第三音频信号进行降噪处理。

11.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～5任一所述方法的步骤。

12.一种音频信号处理设备，其特征在于，包括收发器、总线接口、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现：

在所述收发器接收到第一音频信号时，所述第一音频信号中包括语音指令和当前电视播放的电视节目源对应的音频信号，确定智能机顶盒发送的所述电视节目源对应的第二音频信号；从所述第一音频信号中，将所述第二音频信号去除，得到所述语音指令对应的第三音频信号；还实现：针对电视播放电视节目源时对音频信号进行的调整，对所述第二音频信号进行滤波，滤波后得到的音频信号用于预测所述电视节目源在电视上播放时对应的音频信号；从所述第一音频信号中，将所述第二音频信号去除，具体包括：从所述第一音频信号中，将所述滤波后得到的音频信号去除。