CN114299978A

CN114299978A - 音频信号的处理方法、装置、设备及存储介质

Info

Publication number: CN114299978A
Application number: CN202111486497.9A
Authority: CN
Inventors: 纳跃跃; 王子腾; 付强
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-08
Also published as: WO2023103693A1

Abstract

本公开涉及一种音频信号的处理方法、装置、设备及存储介质。本公开通过获取目标音频信号，根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号。对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量，并将所述多个特征向量合成为单一向量。进一步，根据单一向量可以确定出该目标音频信号中是否包括语音信号。如果该目标音频信号中不包括语音信号，则对噪声协方差矩阵进行更新，使得更新后的噪声协方差矩阵尽可能的不包含语音成分，尽可能的抑制噪声而不抑制有用的语音成分。因此，当电子设备采集到的音频信号中存在较大的噪声时，可有效抑制该音频信号中的噪声，从而可以识别出用户语音，进行人机语音交互。

Description

音频信号的处理方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种音频信号的处理方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，语音交互式的电子设备琳琅满目。具体的，用户可以通过语音交互的方式控制电子设备，例如电子设备可以通过语音识别技术将用户的语音命令转换为文字，并通过语义理解技术理解命令的意图，从而做出相应的反馈。因此，人机语音交互的前提是电子设备能够听清语音命令。

但是，本申请的发明人发现，一些电子设备本身会发出较大的噪声，例如扫地机器人，从而导致电子设备采集到的音频信号中存在较大的噪声，而无法对用户的语音命令进行识别，从而导致人机语音交互无法正常进行。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音频信号的处理方法、装置、设备及存储介质，通过更新后的噪声协方差矩阵可以有效的抑制该音频信号中的噪声，从而使得电子设备可以识别出用户的语音，进而正常的进行人机语音交互。

第一方面，本公开实施例提供一种音频信号的处理方法，包括：

获取目标音频信号；

根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号；

对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量；

将所述多个特征向量合成为单一向量；

根据所述单一向量确定所述目标音频信号中是否包括语音信号；

若所述目标音频信号中不包括语音信号，则更新所述噪声协方差矩阵，更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。

第二方面，本公开实施例提供一种音频信号的处理装置，包括：

获取模块，用于获取目标音频信号；

处理模块，用于根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号；

特征提取模块，用于对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量；

合成模块，用于将所述多个特征向量合成为单一向量；

确定模块，用于根据所述单一向量确定所述目标音频信号中是否包括语音信号；

更新模块，用于当所述目标音频信号中不包括语音信号时，更新所述噪声协方差矩阵，更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的音频信号的处理方法、装置、设备及存储介质，通过获取目标音频信号，根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号。对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量，并将所述多个特征向量合成为单一向量。进一步，根据单一向量可以确定出该目标音频信号中是否包括语音信号。如果该目标音频信号中不包括语音信号，则说明该目标音频信号中包括静音、噪声等非语音信号，此时对噪声协方差矩阵进行更新，使得更新后的噪声协方差矩阵尽可能的不包含语音成分，从而使得更新后的噪声协方差矩阵尽可能的抑制噪声而不抑制有用的语音成分。因此，当电子设备采集到的音频信号中存在较大的噪声时，通过更新后的噪声协方差矩阵可以有效的抑制该音频信号中的噪声，从而使得电子设备可以识别出用户的语音，进而正常的进行人机语音交互。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的音频信号的处理方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开另一实施例提供的音频信号的处理方法流程图；

图4为本公开另一实施例提供的音频信号的处理方法流程图；

图5为本公开另一实施例提供的音频信号的处理方法流程图；

图6为本公开实施例提供的音频信号的处理定位装置的结构示意图；

图7为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

随着计算机、互联网、移动互联网、物联网的发展，以及相关科学技术的进步和特定业务领域数据的积累，人们所常用的电子设备也在从过去的电脑、手机，向着更多样化、小型化、可穿戴的方向发展。过去基于键盘鼠标、遥控器等单一的人机交互方式已经不能满足日益多样化的电子设备的需求。语音是人与人之间交互的最自然的方式，所以也必然会成为未来最有效的人机交互方式之一。

具体的，用户可以通过语音交互的方式控制电子设备，例如电子设备可以通过语音识别技术将用户的语音命令转换为文字，并通过语义理解技术理解命令的意图，从而做出相应的反馈。因此，人机语音交互的前提是电子设备能够听清语音命令。但是，一些电子设备本身会发出较大的噪声，例如扫地机器人，从而导致电子设备采集到的音频信号中存在较大的噪声，而无法对用户的语音命令进行识别，从而导致人机语音交互无法正常进行。

通常情况下，电子设备上的麦克风采集到的信号的信噪比较低，不利于后续的识别和唤醒处理。语音增强的作用就是通过算法处理，提高目标语音的信噪比和语音可懂度，便于后续的人机交互。例如，扫地机器人自身会发出噪声，例如电机声、各种机械摩擦声等。由于拾音设备安装在扫地机器人上，其距离噪声源的距离要远小于目标说话人的距离，所以采集到的原始信号往往信噪比较低，不利于后续处理。所以需要对扫地机器人的自噪声进行抑制即自噪声抑制(ego-noise suppression)，从而对目标语音进行增强。因此，本公开实施例不仅可以适用于扫地机器人的自噪声抑制，还可以适用于其他在较高噪音环境下工作的电子设备，例如无人机、导购机器人、传输机器人等，这些电子设备采集到的音频信号的信噪比通常是较低的，也就是说，本公开实施例还可以适用于一些低信噪比的电子设备，例如，采集到的音频信号的信噪比低于阈值的电子设备。另外，由于本公开实施例提供的方法所需的算力较低，因此，还可以适用于各种低资源的嵌入式系统。

针对该问题，本公开实施例提供了一种音频信号的处理方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的音频信号的处理方法流程图。该方法可以由如上所述的低信噪比的电子设备来执行，也可以由服务器来执行。在本公开实施例中，低信噪比的电子设备可以是一些工作在较高噪音环境下的电子设备，例如，无人机、可移动机器人、以及一些较高噪音环境下的智能家居设备等。其中，一些智能家居设备也在逐步向着语音化、智能化的方向发展，例如扫地机器人。下面以扫地机器人为例进行示意性说明，例如图2所示的扫地机器人21可以执行本公开实施例提供的音频信号的处理方法。或者，扫地机器人21和服务器22可以进行信息交互，从而使得服务器22可以执行本公开实施例提供的音频信号的处理方法。如图1所示，该方法具体步骤如下：

S101、获取目标音频信号。

如图2所示，扫地机器人21上可以设置有音频采集装置，该音频采集装置也可以称为拾音设备，具体可以是麦克风。另外，扫地机器人21上可以设置有一个或多个麦克风。例如，麦克风23可以设置在扫地机器人21的边缘部分，从而有效采集音频信号。

在一种可行的实现方式中，扫地机器人21内的处理装置例如处理器可以获取麦克风23采集到的音频信号，该音频信号可以是一个较长的音频信号。此时，处理器可以将该音频信号切分为多个片段，并且给每个片段分配一个标识，例如序号或索引号，每个片段的序号或索引号可以与该片段被采集时的时间有关，例如采集时间越早，片段的序号越小；采集时间越晚，片段的序号越大。此处可以将多个片段中的任意一个片段记为目标音频信号。

在另一种可行的实现方式中，麦克风23采集到的音频信号较短，例如，麦克风23可以在很短的时间内采集到一个音频信号，此时可以将麦克风23每次采集到的音频信号记为一个目标音频信号。在这种情况下，每个目标音频信号也会对应有一个标识信息，例如序号，该序号也可以与采集时间有关。

可以理解的是，在一些场景下，麦克风23可以实时的采集音频信号，此时，扫地机器人21内的处理器可以将每个目标音频信号作为一个单元，通过对每个单元依次进行处理，从而实现对实时的音频信号的处理。

S102、根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号。

目前，扫地机器人21在工作状态时其自身会发出一些噪声，例如，机械噪声、电机噪声、吸尘器噪声等，并且这些噪声通常较大。而麦克风23又安装在扫地机器人21的机身上，距离这些噪声源较近。因此，麦克风23采集到的音频信号中总会夹杂有这些噪声。因此，当处理器获取到目标音频信号后，可以根据噪声协方差矩阵对该目标音频信号进行噪声抑制，也就是说，对该目标音频信号中的噪声成分进行抑制，从而得到噪声抑制后的目标音频信号。可以理解的是，在一些情况中，该目标音频信号中可能包括噪声，而没有有用的语音成分，例如用户语音。在另一些情况中，该目标音频信号中可能同时有噪声和有用的语音成分。或者在其他一些实施例中，该目标音频信号中可能包括静音。因此，为了区分，可以将有用的语音成分记为语音信号，将除语音信号之外的其他成分例如噪声、静音等记为非语音信号。

S103、对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量。

例如，扫地机器人21中的处理器可以对噪声抑制后的目标音频信号进行特征提取，得到多个特征向量。

S104、将所述多个特征向量合成为单一向量。

例如，处理器可以将多个特征向量合成为单一向量。

S105、根据所述单一向量确定所述目标音频信号中是否包括语音信号。

例如，处理器可以根据该单一向量确定目标音频信号中是否包括语音信号。

S106、若所述目标音频信号中不包括语音信号，则更新所述噪声协方差矩阵，更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。

如果目标音频信号中不包括语音信号，则说明该目标音频信号中可能包括静音、噪声等非语音信号。在这种情况下，可以对噪声协方差矩阵进行更新，使得更新后的噪声协方差矩阵可以对目标音频信号的下一个音频信号进行处理。另外，如果该目标音频信号中包括语音信号，则不更新噪声协方差矩阵。

此外，在其他实施例中，上述S101-S106还可以有服务器来执行，例如图2所示，扫地机器人21可以将其采集到的音频信号发送给服务器22，从而使得服务器可以执行S101-S106所述的方法。

本公开实施例通过获取目标音频信号，根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号。对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量，并将所述多个特征向量合成为单一向量。进一步，根据单一向量可以确定出该目标音频信号中是否包括语音信号。如果该目标音频信号中不包括语音信号，则说明该目标音频信号中包括静音、噪声等非语音信号，此时对噪声协方差矩阵进行更新，使得更新后的噪声协方差矩阵尽可能的不包含语音成分，从而使得更新后的噪声协方差矩阵尽可能的抑制噪声而不抑制有用的语音成分。因此，当电子设备采集到的音频信号中存在较大的噪声时，通过更新后的噪声协方差矩阵可以有效的抑制该音频信号中的噪声，从而使得电子设备可以识别出用户的语音，进而正常的进行人机语音交互。

可以理解的是，由于扫地机器人21或服务器22以目标音频信号为单位进行处理，因此，扫地机器人21在逐一处理每个目标音频信号的过程中，噪声协方差矩阵可以不断的被更新。也就是说，S106所述的更新所述噪声协方差矩阵是对噪声协方差矩阵的一次更新，本次更新后的噪声协方差矩阵可以作为下一次更新的对象，从而不断迭代。在不断迭代的过程中，噪声协方差矩阵对噪声的抑制能力会越来越强。

如图3所示，扫地机器人21或服务器22可以实现语音增强和关键词检测等功能。以扫地机器人为例，扫地机器人可以包括更新模块、噪声抑制模块、特征提取模块、自注意机制模块、声学模型、解码器和置信度计算模块。其中，更新模块可以根据解码器的反馈信息确定是否对噪声协方差矩阵进行更新，例如当该反馈信息表示目标音频信号中不包括语音信号时，更新模块可以对噪声协方差矩阵进行更新。当该反馈信息表示目标音频信号中包括语音信号时，更新模块不对噪声协方差矩阵进行更新。x表示输入的目标音频信号，例如，扫地机器人21可以设置有6个麦克风，6个麦克风可以同时采集音频信号，从而得到6路音频信号，因此该目标音频信号可以是6路音频信号。当x输入到更新模块时，更新模块可以根据解码器的反馈信息确定是否对噪声协方差矩阵进行更新。更新模块可以输出x和Φ，Φ表示噪声协方差矩阵，更新模块输出的噪声协方差矩阵可能是更新后的噪声协方差矩阵，也可能是没被更新的噪声协方差矩阵。y表示噪声抑制模块的输出，即噪声抑制后的目标音频信号。f₁，…，f_N表示特征提取模块的输出。

假设当前时间输入到更新模块的目标音频信号是

表示当前时间输入的目标音频信号的标识，该标识可以是序号或索引号。另外，

也可以表示当前时间或该目标音频信号的采集时间。当前时间更新模块输出的噪声协方差矩阵是

噪声抑制模块可以根据

对

进行噪声抑制，得到噪声抑制后的目标音频信号

n的取值可以是1，2…N，其中，N是噪声抑制模块的输出个数，例如，噪声抑制模块可以输出3路信号，则n的取值是1、2、3。因此，

的信噪比高于

的信噪比。其中，噪声抑制模块根据

和

计算得到

的过程可以通过如下公式(1)和(2)表示。

其中，

表示波束形成器，当噪声抑制模块采用多指向(Multi-look)最小方差无畸变响应(Minimum VavianceDistortionlessReponse，MVDR)波束形成算法计算

时，

可以是Multi-look MVDR波束形成器。∈表示已知数。I表示单位矩阵。

表示导向向量。

表示扫地机器人的方位角。θ表示导向向量的仰角。γ表示参数。

噪声抑制模块的输出

可以作为特征提取模块的输入，由于噪声抑制模块可以输出3路信号，因此，特征提取模块可以针对该3路信号中的每路信号，输出每路信号的特征向量，即特征提取模块可以输出3个特征向量，该3个特征向量可以记为f₁，...，f_N，N＝3。当输入为

的情况下，f₁，...，f_N可以记为

n的取值是1、2、3。进一步，自注意机制模块可以将该3个特征向量合成为一个特征向量，合成后的特征向量记为单一向量

即当输入为

的情况下，

相当于图3中的

具体的，自注意机制模块可以对

进行加权求和得到

例如，

可以通过如下公式(3)、(4)、(5)得到：

其中，v表示已知向量。

表示

的加权系数。

在上述实施例的基础上，根据所述单一向量确定所述目标音频信号中是否包括语音信号可以包括如图4所示的如下几个步骤：

S401、将所述单一向量输入声学模型，所述声学模型包括多个子模型，所述声学模型输出多个第一条件概率，所述多个第一条件概率和所述多个子模型一一对应，每个第一条件概率用于表示在任一子模型条件下观测到所述单一向量的概率，所述多个子模型包括分别用于检测语音信号和非语音信号的模型。

如图3所示，将单一向量

输入声学模型，该声学模型中可以包括多个子模型，该多个子模型中包括分别用于检测语音信号和非语音信号的模型。通常情况下，用户可以通过关键词语音将电子设备唤醒，唤醒之后，用户可以向电子设备发送一些语音命令，使得电子设备执行该语音命令。因此，用户通过关键词语音将电子设备唤醒的过程、以及控制电子设备执行该语音命令的过程等可以看成是人机语音交互过程。因此，声学模型中用于检测语音信号的模型可以是检测关键词语音的模型，也可以是检测语音命令的模型。下面以检测关键词语音的模型为例进行示意性说明。例如，用于唤醒扫地机器人21的关键词是“ABCD”，该关键词也可以称为唤醒词。该声学模型中可以包括5个子模型，该5个子模型依次是非语音信号的建模模型、“A”的建模模型、“B”的建模模型、“C”的建模模型、“D”的建模模型，其中，非语音信号可以记为“Filler”，例如，Filler可以是噪声、静音、非唤醒词语音等。将单一向量

输入声学模型，声学模型可以输出5个条件概率，此处将声学模型输出的条件概率记为第一条件概率。例如，声学模型输出的5个第一条件概率依次记为

其中，

表示在非语音信号的建模模型的条件下，观测到

的概率。

表示在“A”的建模模型的条件下，观测到

的概率。

表示在“B”的建模模型的条件下，观测到

的概率。

表示在“C”的建模模型的条件下，观测到

的概率。

表示在“D”的建模模型的条件下，观测到

的概率。具体的，该声学模型可以是基于前馈序列记忆神经网络(FeedforwardSequential Memory Networks,FSMN)的声学模型。具体的，该声学模型可以是神经网络模型。另外，声学模型不仅可以采用FSMN架构的神经网络模型，还可以使用其它架构的网络，例如卷积神经网络(Convolutional NeuralNetwork,CNN)等。

具体的，声学模型根据

输出

的过程可以通过如下公式(6)、(7)、(8)得到：

其中，L表示神经网络模型的层数。公式(6)中的h₀(τ)表示神经网络模型中第一层的输入，

表示神经网络模型中第l层的输出，公式(7)中的h_l-1(τ)表示神经网络模型中第l-1层的输出，例如，L＝5。公式(8)中的h_L(τ)表示神经网络模型中第L层的输出。

是一个数组，

分别是

中的元素。

S402、根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号，确定所述目标音频信号中是否包括语音信号。

例如，

可以作为解码器的输入，解码器可以根据该多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号，确定目标音频信号

中是否包括语音信号。

可选的，根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号，确定所述目标音频信号中是否包括语音信号，包括：将所述多个第一条件概率输入解码器，所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新；根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，确定所述目标音频信号中是否包括语音信号。

可选的，所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新，包括：所述解码器根据所述多个第一条件概率、历史前向概率和历史概率转移矩阵，计算得到更新后的前向概率；根据所述更新后的前向概率和所述历史概率转移矩阵，计算得到更新后的概率转移矩阵。

例如，将

输入解码器后，解码器可以根据

对该解码器对应的概率转移矩阵进行更新。具体的，该解码器可以采用隐马尔科夫模型(HiddenMarkov Model,HMM)解码器，该解码器对应有概率转移矩阵，该概率转移矩阵也可以称为状态转移矩阵。该解码器可以采用算法1(Algorithm1)，算法1可以实现在线HMM转移矩阵更新。例如，更新之前的概率转移矩阵即历史概率转移矩阵可以记为

更新后的概率转移矩阵可以记为

T(τ-1)中的第i行第k列元素可以记为

中第i行第k列的元素可以记为

另外，在更新的过程中涉及到前向概率和矩阵

历史前向概率可以记为

中的第i个元素可以记为

的大小和概率转移矩阵的大小相同，

中第i行第j列的元素可以记为

具体的更新过程可以采用如下公式(9)-(14)得到：

其中，公式(9)中的p_j(τ)表示

中的第j个元素，根据公式(9)可以计算出矩阵

中的每个元素。

公式(10)表示对历史前向概率

的更新过程，更新后的前向概率记为

公式(10)中的

表示

中的第j个元素。根据公式(10)可以计算出

中的每个元素。

公式(11)中的

是根据公式(9)计算得到的，公式(11)等号右侧的分子

表示由公式(9)计算出的

构成的矩阵，公式(11)表示对

的标准化处理过程，公式(11)等号右侧的分子

是标准化处理之前的矩阵，等号左侧的

是标准化处理之后的矩阵。

公式(12)表示对

的标准化处理过程，公式(12)等号右侧的分子

是标准化处理之前的更新后的前向概率，该

是根据公式(10)计算得到的

构成的，

表示该

中的第i个元素。公式(12)等号左侧的

是标准化处理之后的更新后的前向概率。

公式(13)中的

表示公式(12)等号左侧的

中的第i个元素。η⁽²⁾表示固定的遗忘因子，即η⁽²⁾可以是一个常数。η_i表示更新后的概率转移矩阵

中的第i行对应的遗忘因子。

公式(14)中的

表示更新后的概率转移矩阵

中的第i行第j列元素。公式(14)中的

表示公式(11)等号左侧的

中的第i行第j列元素。公式(14)中的

表示公式(12)等号左侧的

中的第i个元素。

进一步，解码器可以根据

之前的一个或多个历史音频信号、以及更新后的概率转移矩阵

确定

中是否包括语音信号。

可选的，根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，确定所述目标音频信号中是否包括语音信号，包括如图5所示的如下几个步骤：

S501、根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，输出识别结果。

例如，目标音频信号

之前的一个历史音频信号可以记为x(τ-1)。目标音频信号

之前的多个历史音频信号可以记为x(τ-m)、x(τ-m+1)、…x(τ-1)，其中，m表示大于或等于1的数。可以理解的是，当更新模型的输入是x(τ-1)时，声学模型可以输出5个第一条件概率，该5个第一条件概率类似于

同理，当更新模型的输入是x(τ-m)、x(τ-m+1)、…、或x(τ-2)时，声学模型可以输出类似的5个第一条件概率。具体的，解码器可以根据

对应的5个第一条件概率，以及x(τ-m)、x(τ-m+1)、…x(τ-1)分别对应的5个第一条件概率，以及更新后的概率转移矩阵

输出识别结果。

S502、若所述目标音频信号中包括关键字的语音信号，则所述识别结果是所述关键字的标识。

若解码器确定目标音频信号

中包括关键字的语音信号，则输出的识别结果是该关键字的标识。

例如，关键词是“ABCD”，“A”、“B”、“C”、“D”分别记为关键字。例如“A”的标识为1，“B”的标识为2，“C”的标识为3，“D”的标识为4。若解码器确定目标音频信号

中包括“D”的语音信号，则输出的识别结果为4。同理，在历史时间，解码器也确定过x(τ-m)、x(τ-m+1)、…或x(τ-1)中是否包括某个关键字的语音信号，例如图3所示，解码器针对x(τ-m)、x(τ-m+1)、…x(τ-1)的识别结果分别为00112223344，其中，0是“Filler”的标识。

S503、若所述目标音频信号中不包括语音信号，则所述识别结果是预设标识。

例如，若解码器确定目标音频信号

中不包括任何一个关键字的语音信号，则确定该目标音频信号

中不包括语音信号，此时，解码器输出的识别结果是预设标识，例如0。

此外，解码器在输出识别结果的同时还可以输出前向概率。例如，当更新模块的输入为

时，解码器输出一个识别结果、以及该识别结果对应的前向概率

包括

此处的

是

当更新模块的输入为x(τ-1)时，解码器输出一个识别结果、以及该识别结果对应的前向概率

包括

此处的

是

以此类推。

具体的，所述更新后的前向概率包括第二条件概率，所述第二条件概率用于表示在所述单一向量的条件下观测到非语音信号的概率。

例如，可以将

记为第二条件概率，第二条件概率表示在单一向量

的条件下观测到非语音信号“Filler”的概率。当更新模块的输入不同时，单一向量

也不同。

相应的，若所述目标音频信号中不包括语音信号，则更新所述噪声协方差矩阵，包括：若所述目标音频信号中不包括语音信号，则根据所述第二条件概率更新所述噪声协方差矩阵。

例如图3所示，解码器可以将第二条件概率

作为反馈信息反馈给更新模块。具体的，更新模块可以根据

确定是否更新噪声协方差矩阵。例如，当更新模块的输入为

时，若解码器输出的识别结果为1、2、3、4中的某个数值,表示

中包括语音信号，此时，

是

则更新模块在接收到

的下一个音频信号x(τ+1)时，不对噪声协方差矩阵Φ(τ)更新，即Φ(τ+1)＝Φ(τ)，Φ(τ+1)可用于对x(τ+1)进行噪声抑制。当更新模块的输入为

时，若解码器输出的识别结果为0，表示

中不包括语音信号，此时，

是

则更新模块在接收到

的下一个音频信号x(τ+1)时，对噪声协方差矩阵Φ(τ)更新，得到更新后的噪声协方差矩阵Φ(τ+1)，Φ(τ+1)不等于Φ(τ)。

同理，当更新模块的输入为x(τ-1)时，若解码器输出的识别结果为1、2、3、4中的某个数值,表示x(τ-1)中包括语音信号，此时，

是

则更新模块在接收到

时，不对噪声协方差矩阵Φ(τ-1)更新，即Φ(τ)＝Φ(τ-1)，Φ(τ)可用于对

进行噪声抑制。当更新模块的输入为x(τ-1)时，若解码器输出的识别结果为0，表示x(τ-1)中不包括语音信号，此时，

是

则更新模块在接收到

时，对噪声协方差矩阵x(τ-1)更新，该更新过程可以通过如下的公式(15)和(16)实现，从而得到更新后的噪声协方差矩阵Φ(τ)，Φ(τ)不等于Φ(τ-1)。

其中，η⁽¹⁾表示固定的遗忘因子，η⁽¹⁾和上述的η⁽²⁾不同。η表示动态的遗忘因子。公式(16)中的

是

可选的，根据所述目标音频信号对应的识别结果、以及所述一个或多个历史音频信号分别对应的识别结果，计算关键词的置信度，所述关键词包括一个或多个关键字；若所述关键词的置信度大于阈值，则唤醒电子设备。

例如图3所示，每输入一个目标音频信号，解码器可输出一个识别结果、以及该识别结果对应的前向概率，该前向概率由5个条件概率构成。也就是说，如图3所示的0011222334440中的每个数值分别对应有一个前向概率。具体的，可以从0011222334440中选取部分连续的数值，例如通过一个滑动窗口选取出1122233444，置信度计算模块可根据1122233444中每个数值对应的前向概率，计算出关键词“ABCD”的置信度，如果该置信度大于阈值，则唤醒扫地机器人。其中，置信度的计算过程可以通过如下公式(17)、(18)、(19)实现。

其中，公式(17)中的i＝A，B，C，D，

表示输入为

时，解码器输出的识别结果。

表示当前时间输入的目标音频信号x(τ₀)的标识。

τ₀-Z+2、…、τ₀-1分别表示x(τ₀)之前的多个历史音频信号的标识。Z表示从0011222334440中选取出的数值个数即滑动窗口的大小。例如，当公式(17)中的i＝A时，由于A对应的标识是1，从0011222334440中选出的1122233444中包括两个1，并且每个1对应有一个前向概率，每个1对应的前向概率包括5个条件概率，例如，1122233444中的第一个1对应的前向概率包括

是

第二个1对应的前向概率包括

是

此时，公式(17)中的q_i表示两个1分别对应的

中的最大值，q_i可记为最大后验概率，q_i表示“A”、“B”、“C”、“D”这4个关键字中第i个关键字在1122233444对应的这段较长的音频信号中出现的概率。由于1122233444中的每个数值对应有一个输入，该输入是一段较短的音频信号，因此，1122233444分别对应的较短的音频信号构成一段较长的音频信号。由于公式(17)中的i＝A，B，C，D，因此，根据公式(17)可以计算出4个q_i。公式(19)中的q_j与公式(17)中q_i的含义相同，公式(19)中的

表示当4个q_j中的某个q_i不等于0时，将该4个q_j相乘之后除以q_i。当该4个q_j中的某个q_i等于0时，

为0。公式(18)中的q表示关键词的置信度，q的含义是4个q_j按照从大到小的顺序排序后，前3个q_j的乘积。当关键词的置信度大于阈值时，表示扫地机器人中的处理器检测到了关键词即唤醒词，此时，处理器可以唤醒该扫地机器人，使得该扫地机器人可以进一步检测用户其他的语音。

在传统波束形成算法中，导向向量(或者称为导向矢量)的估计通常是一个难题，估计的准确度会直接影响降噪效果。但是在本公开实施例中可以采用固定的导向矢量，从而避免了导向矢量的估计问题。取而代之的是通过对噪声协方差矩阵的迭代更新，使得更新后的噪声协方差矩阵尽可能的不包含语音成分，从而使得更新后的噪声协方差矩阵尽可能的抑制噪声而不抑制有用的语音成分。

另外，如图3所示，通过解码器向更新模块发送反馈信息，使得更新模块可以根据该反馈信息确定是否更新噪声协方差矩阵，从而使得如图3所示的语音增强(SpeechEnhancement,SE)部分和关键词检测(Keyword Spotting,KWS)部分的迭代过程联合在一起，从而能够达到比单独迭代更好的效果。该迭代过程是指如图3所示的整体结构在使用阶段或推理阶段中的迭代。关键词检测(KeywordSpotting,KWS)即俗称的语音唤醒，电子设备连续监听某一预定义好的关键词，如“ABCD”，当检测到关键词出现时说明有人机交互需求，则启动相应的交互流程。

因此，通过更新后的噪声协方差矩阵可以有效抑制扫地机器人采集到的音频信号中的噪声，提高了噪声抑制后的音频信号的信噪比。从而使得本公开实施例所述的方法可以适用于扫地机器人具有多种噪声源例如电机声、各种机械摩擦声等，并且拾音设备距离多种噪声源较近的场景，即在这种场景下，通过不断迭代更新噪声协方差矩阵可以有效抑制拾音设备采集到的原始信号中的噪声，从而大大提高信噪比。另外，扫地机器人在工作过程中是移动的，而用户可能是不动的，导致扫地机器人采集到的音频信号可能是实时动态的，但是，通过解码器对概率转移矩阵的不断更新，使得解码器可能根据环境的不同进行动态调整，从而达到更好的降噪效果和唤醒效果。因此，本公开实施例可以在低信噪比、多干扰源、移动声源条件下有效抑制电子设备自身发出的噪声，实现有效的语音唤醒。

此外，本公开实施例所述的方法其计算量较小，从而使得该方法可以适用于低算力低资源的芯片，从而降低了硬件成本。因此，可以适用于各种低资源的嵌入式系统。

图6为本公开实施例提供的音频信号的处理装置的结构示意图。本公开实施例提供的音频信号的处理装置可以执行音频信号的处理方法实施例提供的处理流程，如图6所示，音频信号的处理装置60包括：

获取模块61，用于获取目标音频信号；

处理模块62，用于根据噪声协方差矩阵对所述目标音频信号进行处理，得到噪声抑制后的目标音频信号；

特征提取模块63，用于对所述噪声抑制后的目标音频信号进行特征提取，得到多个特征向量；

合成模块64，用于将所述多个特征向量合成为单一向量；

确定模块65，用于根据所述单一向量确定所述目标音频信号中是否包括语音信号；

更新模块66，用于当所述目标音频信号中不包括语音信号时，更新所述噪声协方差矩阵，更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。

可选的，确定模块65根据所述单一向量确定所述目标音频信号中是否包括语音信号时，具体用于：

将所述单一向量输入声学模型，所述声学模型包括多个子模型，所述声学模型输出多个第一条件概率，所述多个第一条件概率和所述多个子模型一一对应，每个第一条件概率用于表示在任一子模型条件下观测到所述单一向量的概率，所述多个子模型包括分别用于检测语音信号和非语音信号的模型；

根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号，确定所述目标音频信号中是否包括语音信号。

可选的，确定模块65根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号，确定所述目标音频信号中是否包括语音信号时，具体用于：

将所述多个第一条件概率输入解码器，所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新；

根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，确定所述目标音频信号中是否包括语音信号。

可选的，所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新时，具体用于：

所述解码器根据所述多个第一条件概率、历史前向概率和历史概率转移矩阵，计算得到更新后的前向概率；

根据所述更新后的前向概率和所述历史概率转移矩阵，计算得到更新后的概率转移矩阵。

可选的，所述更新后的前向概率包括第二条件概率，所述第二条件概率用于表示在所述单一向量的条件下观测到非语音信号的概率；更新模块66在所述目标音频信号中不包括语音信号时，更新所述噪声协方差矩阵，具体用于：

若所述目标音频信号中不包括语音信号，则根据所述第二条件概率更新所述噪声协方差矩阵。

可选的，确定模块65根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，确定所述目标音频信号中是否包括语音信号时，具体用于：

根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，输出识别结果；

若所述目标音频信号中包括关键字的语音信号，则所述识别结果是所述关键字的标识；

若所述目标音频信号中不包括语音信号，则所述识别结果是预设标识。

可选的，音频信号的处理装置60还包括计算模块67，计算模块67用于根据所述目标音频信号对应的识别结果、以及所述一个或多个历史音频信号分别对应的识别结果，计算关键词的置信度，所述关键词包括一个或多个关键字；若所述关键词的置信度大于阈值，则唤醒电子设备。

图6所示实施例的音频信号的处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了音频信号的处理装置的内部功能和结构，该装置可实现为一种电子设备。图7为本公开实施例提供的电子设备实施例的结构示意图。如图7所示，该电子设备包括存储器71和处理器72。

存储器71用于存储程序。除上述程序之外，存储器71还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器72与存储器71耦合，执行存储器71所存储的程序，以用于：

获取目标音频信号；

将所述多个特征向量合成为单一向量；

进一步，如图7所示，电子设备还可以包括：通信组件73、电源组件74、音频组件75、显示器76等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。

通信组件73被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件73经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件73还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件74，为电子设备的各种组件提供电力。电源组件74可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件75被配置为输出和/或输入音频信号。例如，音频组件75包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器71或经由通信组件73发送。在一些实施例中，音频组件75还包括一个扬声器，用于输出音频信号。

显示器76包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

可以理解的是，上述实施例是以扫地机器人为例介绍的音频信号的处理方法，在其他一些实施例中，该方法还可以应用于可移动平台，该可移动平台可以是工作在较高噪音环境下的设备，例如，可移动平台包括无人机、可移动机器人等。下面介绍一种噪音环境可移动平台的音频信号处理方法，该方法具体包括如下几个步骤：

S1、获取所述噪音环境可移动平台采集到的音频信号。

S2、根据噪声协方差矩阵对所述音频信号进行处理，得到噪声抑制后的音频信号。

S3、对所述噪声抑制后的音频信号进行特征提取，得到多个特征向量。

S4、将所述多个特征向量合成为单一向量。

S5、根据所述单一向量确定所述音频信号中是否包括语音信号。

S6、若所述音频信号中不包括语音信号，则更新所述噪声协方差矩阵，更新后的所述噪声协方差矩阵用于对所述音频信号的下一个音频信号进行处理。

具体的，S1-S6的实现过程和具体原理可以参照上述实施例所述的音频信号的处理方法实施例中的相关内容，此处不再赘述。

另外，本公开实施例还提供一种噪音环境可移动平台，噪音环境可移动平台包括无人机、可移动机器人等。该噪音环境可移动平台包括：机身、动力系统、音频信号采集装置、以及音频信号处理装置；其中，动力系统安装在所述机身，用于提供移动动力；音频信号采集装置用于采集音频信号，该音频信号采集装置可以是麦克风；音频信号处理装置用于采用如S1-S6所述的方法对所述音频信号进行处理，该音频信号处理装置的结构示意图可以参照图6所述的音频信号的处理装置的结构示意图，此处不再赘述。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的音频信号的处理方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种噪音环境可移动平台的音频信号处理方法，其中，所述方法包括：

获取所述噪音环境可移动平台采集到的音频信号；

根据噪声协方差矩阵对所述音频信号进行处理，得到噪声抑制后的音频信号；

对所述噪声抑制后的音频信号进行特征提取，得到多个特征向量；

将所述多个特征向量合成为单一向量；

根据所述单一向量确定所述音频信号中是否包括语音信号；

若所述音频信号中不包括语音信号，则更新所述噪声协方差矩阵，更新后的所述噪声协方差矩阵用于对所述音频信号的下一个音频信号进行处理。

2.一种噪音环境可移动平台，其中，包括：

机身；

动力系统，安装在所述机身，用于提供移动动力；

音频信号采集装置，用于采集音频信号；以及

音频信号处理装置，用于采用如权利要求1所述的方法对所述音频信号进行处理。

3.一种音频信号的处理方法，其中，所述方法包括：

获取目标音频信号；

将所述多个特征向量合成为单一向量；

4.根据权利要求3所述的方法，其中，根据所述单一向量确定所述目标音频信号中是否包括语音信号，包括：

5.根据权利要求4所述的方法，其中，根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号，确定所述目标音频信号中是否包括语音信号，包括：

6.根据权利要求5所述的方法，其中，所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新，包括：

7.根据权利要求6所述的方法，其中，所述更新后的前向概率包括第二条件概率，所述第二条件概率用于表示在所述单一向量的条件下观测到非语音信号的概率；

相应的，若所述目标音频信号中不包括语音信号，则更新所述噪声协方差矩阵，包括：

8.根据权利要求5所述的方法，其中，根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵，确定所述目标音频信号中是否包括语音信号，包括：

9.根据权利要求8所述的方法，其中，所述方法还包括：

根据所述目标音频信号对应的识别结果、以及所述一个或多个历史音频信号分别对应的识别结果，计算关键词的置信度，所述关键词包括一个或多个关键字；

若所述关键词的置信度大于阈值，则唤醒电子设备。

10.一种音频信号的处理装置，其中，包括：

获取模块，用于获取目标音频信号；

合成模块，用于将所述多个特征向量合成为单一向量；

11.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1、3-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1、3-9中任一项所述的方法。