CN113113036A

CN113113036A - 音频信号处理方法及装置、终端及存储介质

Info

Publication number: CN113113036A
Application number: CN202110269260.9A
Authority: CN
Inventors: 徐娜; 何梦楠
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-07-13
Anticipated expiration: 2041-03-12
Also published as: CN113113036B

Abstract

本公开是关于一种音频信号处理方法及装置、终端及存储介质。该方法包括：获取不同的音频采集通道采集的第一音频信号和第二音频信号；根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态；对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号；其中，所述第一分离信号主要表征目标语音对象的信息，所述第二分离信号主要表征非目标语音对象的信息；根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理得到目标音频信号。通过该方法，能提升目标音频信号的分离效果，提升用户的听音体验。

Description

音频信号处理方法及装置、终端及存储介质

技术领域

本公开涉及音频技术领域，尤其涉及一种音频信号处理方法及装置、终端及存储介质。

背景技术

与语音分离相关的音频信号处理也被称为鸡尾酒会议问题，其目标是指从多个混合的说话人中将目标说话人的音频信号给分离出来。传统的音频信号处理方法主要以基于独立分量分析的盲分离技术为主，近年来基于深度学习的音频信号处理技术日益得到广泛的关注和重视，逐渐成为音频信号处理中的一个新趋势。

发明内容

本公开提供一种音频信号处理方法及装置、终端及存储介质。

根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：

获取不同的音频采集通道采集的第一音频信号和第二音频信号；

根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态；

对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号；其中，所述第一分离信号主要表征目标语音对象的信息，所述第二分离信号主要表征非目标语音对象的信息；

根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理以得到目标音频信号。

在一些实施例中，所述根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理以得到目标音频信号，包括：

根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对所述第二分离信号中目标语音对象的信息过滤后的第四分离信号；

根据所述第三分离信号和所述第四分离信号，确定对所述第三分离信号中包括的所述非目标语音对象的信息进行抑制的第一权重；

基于所述第一权重和所述第三分离信号，确定所述目标音频信号。

在一些实施例中，所述根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对所述第二分离信号中目标语音对象的信息过滤后的第四分离信号，包括：

根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息进行过滤的第二权重，以及对所述第二分离信号中目标语音对象的信息进行过滤的第三权重；

基于所述第一分离信号、所述第二分离信号以及所述第二权重，确定所述第三分离信号；

基于所述第一分离信号、所述第二分离信号以及所述第三权重，确定所述第四分离信号。

在一些实施例中，所述根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息进行过滤的第二权重，以及对所述第二分离信号中目标语音对象的信息进行过滤的第三权重，包括：

若所述语音状态表征所述第一音频信号中的语音对象为目标语音对象，维持所述第二权重为第一初始预设权重，并采用自适应滤波算法更新所述第三权重；

若所述语音状态表征所述第一音频信号中的语音对象为非目标语音对象，维持所述第三权重为第二初始预设权重，并采用所述自适应滤波算法更新所述第二权重。

在一些实施例中，所述根据所述第三分离信号和所述第四分离信号，确定对所述第三分离信号中包括的所述非目标语音对象的信息进行抑制的第一权重，包括：

根据所述第三分离信号和所述第四分离信号，采用维纳滤波算法获得所述第一权重；

所述基于所述第一权重和所述第三分离信号，确定所述目标音频信号，包括：

基于所述第一权重和所述第三分离信号的乘积，确定所述目标音频信号。

在一些实施例中，所述根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态，包括：

将所述第一音频信号输入语音状态分析模型，确定所述语音状态；其中，所述语音状态分析模型基于神经网络训练而成。

在一些实施例中，所述对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号，包括：

对所述第一音频信号和所述第二音频信号采用独立向量分析IVA方式，得到所述第一分离信号和所述第二分离信号。

根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：

获取模块，配置为获取不同的音频采集通道采集的第一音频信号和第二音频信号；

确定模块，配置为根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态；

处理模块，配置为对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号；其中，所述第一分离信号主要表征目标语音对象的信息，所述第二分离信号主要表征非目标语音对象的信息；

抑制模块，配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理以得到目标音频信号。

在一些实施例中，所述抑制模块，还配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对所述第二分离信号中目标语音对象的信息过滤后的第四分离信号；根据所述第三分离信号和所述第四分离信号，确定对所述第三分离信号中包括的所述非目标语音对象的信息进行抑制的第一权重；基于所述第一权重和所述第三分离信号，确定所述目标音频信号。

在一些实施例中，所述抑制模块，还配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息进行过滤的第二权重，以及对所述第二分离信号中目标语音对象的信息进行过滤的第三权重；基于所述第一分离信号、所述第二分离信号以及所述第二权重，确定所述第三分离信号；基于所述第一分离信号、所述第二分离信号以及所述第三权重，确定所述第四分离信号。

在一些实施例中，所述抑制模块，还配置为若所述语音状态表征所述第一音频信号中的语音对象为目标语音对象，维持所述第二权重为第一初始预设权重，并采用自适应滤波算法更新所述第三权重；若所述语音状态表征所述第一音频信号中的语音对象为非目标语音对象，维持所述第三权重为第二初始预设权重，并采用所述自适应滤波算法更新所述第二权重。

在一些实施例中，所述抑制模块，还配置为根据所述第三分离信号和所述第四分离信号，采用维纳滤波算法获得所述第一权重；将所述第一权重和所述第三分离信号相乘，获得所述目标音频信号。

在一些实施例中，所述确定模块，还配置为将所述第一音频信号输入语音状态分析模型，确定所述语音状态；其中，所述语音状态分析模型基于神经网络训练而成。

在一些实施例中，所述处理模块，还配置为对所述第一音频信号和所述第二音频信号采用独立向量分析IVA方式，得到所述第一分离信号和所述第二分离信号。

根据本公开实施例的第三方面，提供一种终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上述第一方面中所述的音频信号处理方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：

当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如上述第一方面中所述的音频信号处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开的实施例中，基于单通道的音频信号获得语音状态，然后基于多通道的音频信号进行语音分离，使得第一分离信号中能包括更多的主要表征目标语音对象的信息，而第二分离信号中能包括更多的主要表征非目标语音对象的信息，如此，在对第一分离信号中包括的非目标语音对象的信息进行抑制处理后，能保留更多的目标语音对象的信息。此外，本公开结合语音状态对非目标语音对象的信息进行抑制，也能使得处理方式更具有针对性，因而能提升目标音频信号的分离效果，提升用户的听音体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的一种音频信号处理方法流程图。

图2为根据本公开一示例性实施例中音频信号处理方法的功能结构图。

图3是根据本公开一示例性实施例示出的一种音频信号处理装置图。

图4是根据本公开一示例性实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据本公开一示例性实施例示出的一种音频信号处理方法流程图，如图1所示，应用于终端中的音频信号处理方法包括以下步骤：

S11、获取不同的音频采集通道采集的第一音频信号和第二音频信号；

S12、根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态；

S13、对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号；其中，所述第一分离信号主要表征目标语音对象的信息，所述第二分离信号主要表征非目标语音对象的信息；

S14、根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理得到目标音频信号。

在本公开的实施例中，终端设备包括：移动设备和固定设备；所述移动设备包括：手机、平板电脑或可穿戴式设备等。所述固定设备包括但不限于个人电脑(PersonalComputer，PC)、智能音箱、智能电视、智能家电设备等。

终端设备中包括音频采集组件和音频输出组件，以手机为例，手机中的音频采集组件可以是麦克风，音频输出组件可以是扬声器。终端设备中可包括多个音频采集组件，支持多个音频采集通道采集音频信号。

在步骤S11中，终端获取不同的音频采集通道采集的第一音频信号和第二音频信号，并在步骤S12中，根据第一音频信号，确定用于表征第一音频信号中语音对象的语音状态。

在本公开的实施例中，语音状态包括：表征第一音频信号中语音对象为目标语音对象的状态；表征第一音频信号中语音对象为非目标语音对象的状态；表征第一音频信号中没有语音对象的状态，即静音状态。

终端可基于传统的音频信号处理方法确定语音状态，也可基于深度学习方法确定语音状态，对此本公开实施例不做限制。

在步骤S13中，终端还会对第一音频信号和第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号。其中，第一分离信号主要表征目标语音对象的信息，第二分离信号主要表征非目标语音对象的信息。

需要说明的是，在本公开的实施例中，目标语音对象是预设的语音对象，例如将预设的语音对象的声纹特征进行存储(即注册)，以便在对第一音频信号和第二音频信号进行分离时，基于预存储的声纹特征来区分第一分离信号和第二分离信号。

在本公开实施例中，对第一音频信号和第二音频信号进行语音分离时，也可以是基于传统的音频信号处理方法将第一音频信号和第二音频信号中的目标语音和非目标语音进行初步分离，也可以是基于深度学习方法进行语音分离处理。

在步骤S14中，终端在获得语音状态、第一分离信号和第二分离信号后，即可结合第一音频信号对第一分离信号中包括的非目标语音对象的信息进行抑制处理得到目标音频信号。

在该实施例中，在结合语音状态对第一分离信号中包括的非目标语音对象的信息进行抑制处理时，可针对不同的语音状态采取不同的方法，例如，调整不同的抑制非目标语音对象的信息的权重等。

由于第一分离信号主要表征的是目标语音对象的信息，因而对第一分离信号中非目标语音对象的信息进行抑制处理后，能更真实的还原出属于目标语音对象的信息，提升语音分离的准确性。

基于本公开的方案，例如在手机通话场景下，用户A在使用前预先进行注册(目标语音对象)，完成注册后进行通话时A的声音可以通过并传递给对方。若此时用户B(非目标语音对象)使用，则B的声音不通过，若用户A和用户B同时说话，则只有A的声音通过。通过该种方法，当用户A在声源较多的嘈杂环境下语音时，也能更好的提供属于用户A的音频信号，因而能提升对端的听音体验。

可以理解的是，本公开基于单通道的音频信号获得语音状态，然后基于多通道的音频信号进行语音分离，使得第一分离信号中能包括更多的主要表征目标语音对象的信息，而第二分离信号中能包括更多的主要表征非目标语音对象的信息，如此，在对第一分离信号中包括的非目标语音对象的信息进行抑制处理后，能保留更多的目标语音对象的信息。此外，本公开结合语音状态对非目标语音对象的信息进行抑制，也能使得处理方式更具有针对性，因而能提升目标音频信号的分离效果，提升用户的听音体验。

在本公开的实施例中，终端设备会先根据第一音频信号、语音状态、第一分离信号和第二分离信号，确定对第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对第二分离信号中目标语音对象的信息过滤后的第四分离信号。

需要说明的是，由于第一分离信号中主要表征的是目标语音对象的信息，因而在对第一分离信号中非目标语音对象的信息进行过滤后，得到的第三分离信号相对于第一分离信号可以包括更多的目标语音对象的信息；同理，得到的第四分离信号相对于第二分离信号可以包括更多的非目标语音对象的信息。在本公开的实施例中，第三分离信号可理解为目标说话人通道的信号，第四分离信号可理解为非目标说话人通道的信号。对第一分离信号和第二分离信号进行分别过滤处理，得到第三分离信号和第四分离信号的过程可理解为是进行目标说话人通道和非目标说话人通道的预分离和处理。

例如，若用户A和用户B同时说话，第三分离信号理解为主要来自用户A的信号，第四分离信号可理解为主要来自用户B的信号。

在获得第三分离信号和第四分离信号后，即可根据第三分离信号和第四分离信号，确定对第三分离信号中包括的非目标语音对象的信息进行抑制的第一权重，随后终端设备基于第一权重和第三分离信号，即可确定目标音频信号。

例如，可根据第三分离信号和第四分离信号之间的比值或差值来确定第一权重。

在本公开的实施例中，在根据第一音频信号、语音状态、第一分离信号以及第二分离信号，确定第二权重和第三权重时，不同的语音状态对应的第二权重和第三权重可不同。基于确定的第二权重，即可结合第一分离信号和第二分离信号确定第三分离信号。如下公式(1)为一种示例性的确定第三分离信号的方法：

Z1＝X1-X2*W1 (1)

其中，W1为第二权重，X1为第一分离信号，X2为第二分离信号，Z1为第三分离信号。

此外，基于确定的第三权重，也可结合第一分离信号和第二分离信号确定第四分离信号。如下公式(2)为一种示例性的确定第四分离信号的方法：

Z2＝X2-X1*W2 (2)

其中，W2为第三权重，X1为第一分离信号，X2为第二分离信号，Z2为第四分离信号。

可以理解的是，在该实施例中，经过滤后的第三分离信号能够保留更多的来自目标语音对象的信息，而经过滤后的第四分离信号能够保留更多的来自非目标语音对象的信息。通过上述方案，基本能实现目标说话人通道和非目标说话人通道的分离。

在该实施例中，不同的语音状态下，第二权重和第三权重的确定方式不同。具体的：

若语音状态表征第一音频信号中的语音对象为目标语音对象，则不更新第二权重，保持第二权重为第一初始预设权重。需要说明的是，设置第一初始预设权重的目的在于使得第三分离信号趋向于包含更多目标语音对象的信息，例如，设置第一初始预设权重为大于1的值。因而当语音状态表征为目标语音对象时，第一分离信号中已经含有较多的目标语音对象的信息，可以保持第二权重为第一初始预设权重，如此，能使得第三分离信号也能包含足够多目标语音对象的信息。而当语音状态表征为非目标语音对象时，第一分离信号中可能包含目标语音对象的信息不够，因而需要更新第二权重，以使得第三分离信号能包含更多的目标语音对象的信息。例如，更新第二权重以使更新后的第二权重大于第一初始预设权重。

若语音状态表征第一音频信号中的语音对象为非目标语音对象，则不更新第三权重，保持第三权重为第二初始预设权重。需要说明的是，设置第二初始预设权重的目的在于使得第四分离信号更趋向于包含更多非目标语音对象的信息，例如，设置第二初始预设权重为大于1的值。因而当语音状态表征为非目标语音对象时，第二分离信号中已经含有较多的非目标语音对象的信息，因而保持第三权重为第二初始预设权重，能使得第四分离信号也能包含足够多非目标语音对象的信息。而当语音状态表征为目标语音对象时，第二分离信号中可能包含非目标语音对象的信息不够，因而需要更新第三权重，以使得第四分离信号能包含更多的非目标语音对象的信息。例如，更新第三权重以使更新后的第三权重大于第二初始预设权重。

需要说明的是，在本公开的实施例中，在更新第三权重或第四权重时，可结合第一音频信号、第一分离信号、第二分离信号以及语音状态，基于自适应滤波算法获得第三权重或第四权重。对于第二权重来说，自适应滤波算法的目的在于使得第二权重趋于更大，从而使得第三分离信号中包括更多的目标语音对象的信息；对于第三权重来说，自适应滤波算法的目的在于使得第三权重趋于更大，从而使得第四分离信号中包括更多的非目标语音对象的信息。

可以理解的是，本公开实施例针对不同的语音状态，采用不同的方式确定第二权重或第三权重，且结合自适应滤波算法获取最优的第二权重或第三权重，因而能提升目标语音信号和非目标语音信号分离的准确性。

根据所述第一权重和所述第三分离信号的乘积，确定所述目标音频信号。

在本公开的实施例中，可根据第三分离信号和第四分离信号，采用维纳滤波算法获得第一权重，该第一权重即为维纳系数，目标是使得第三分离信号中的非目标语音对象的信息更少。因而，本公开可以将获得的第一权重和第三分离信号相乘，即可进一步对第三分离信后中的非目标语音对象的信息进行抑制，从而获得目标音频信号。

在本公开的实施例中，可基于训练好的神经网络模型获得语音状态，实现语音激活检测(voice activity detection，VAD)功能。例如，将第一音频信号输入语音状态分析模型，标识第一音频信号为目标语音对象的信号、非目标语音对象的信号或静音状态。

在本公开实施例中，语音状态分析模型基于对音频信号样本采用长短期记忆网络(Long Short-Term Memory，LSTM)训练而成。当然，本公开在训练获得语音状态分析模型时，并不限定于LSTM网络，还可以是循环/递归神经网络(Recurrent neural networks，RNN)等。

在一些实施例中，语音状态分析模型抽取的特征包括声纹特征以及梅尔倒频谱(Mel-Frequency Spectrum，MFC)特征，该MFC特征即短时功率谱特征。声纹特征可用特征向量进行表示，声纹特征以及MFC特征均与语音内容无关，只与语音对象的音质、音色等有关。

本公开实施例中，语音状态分析模型采用LSTM网络的结构可为：2层64隐藏神经元LSTM，串一层1个隐藏神经元的LSTM，最后串一个输出为3的线性层。语音状态分析模型抽取的特征可包括256维的声纹特征以及40维的MFC特征，训练的损失函数可采用交叉熵损失函数。

在本公开的实施例中，可采用传统的独立向量分析(Independent VectorAnalysis，IVA)方式获得主要表征目标语音对象的信息的第一分离信号，以及主要表征非目标语音对象的信息的第二分离信号。

需要说明的是，本公开并不限定于使用IVA方式，还可以是独立分量分析(Independent Component Analysis，ICA)方式等。

可以理解的是，若本公开在确定语音状态时使用训练好的神经网络模型的方式，在获取第一分离信号和第二分离信号时采用传统的方式(如IVA方式)，并进而获得目标音频信号，相对于完全基于深度神经网络方案获得目标音频信号的方式，能减轻网络体量，提升目标语音对象的目标音频信号获取的实时性，因而能适用于存储空间有限的终端，例如手机、智能音箱等。

图2为根据公开一示例性实施例中音频信号处理方法的功能结构图，如图2所示，音频信号处理方法通过多个模块实现对目标音频信号的获取，包括如下几个模块：语音激活检测VAD模块，该VAD模块可以包括本公开提及的语音状态分析模型，用于对第一音频采集通道采集的第一音频信号进行分析来获得语音状态；独立向量分析IVA模块，用于对第一音频信号以及第二音频采集通道采集的第二音频信号进行分析，以获得本公开的第一分离信号和第二分离信号；自适应对消模块，用于基于第一音频信号、语音状态、第一分离信号和第二分离信号对第一分离信号中的说话人通道进行分离，以获得属于目标说话人通道的第三分离信号，以及非目标说话人通道的第四分离信号；后处理模块，用于对目标说话人通道的第三分离信号以及非目标说话人通道的第四分离信号进行后处理，例如基于维纳滤波确定第一权重，从而基于第三分离信号和第一权重获得目标说话人语音，以最终获得目标音频信号。

图3是根据本公开一示例性实施例示出的一种音频信号处理装置图。参照图3，所述装置包括：

获取模块101，配置为获取不同的音频采集通道采集的第一音频信号和第二音频信号；

确定模块102，配置为根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态；

处理模块103，配置为对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号；其中，所述第一分离信号主要表征目标语音对象的信息，所述第二分离信号主要表征非目标语音对象的信息；

抑制模块104，配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理以得到目标音频信号。

在一些实施例中，所述抑制模块104，还配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对所述第二分离信号中目标语音对象的信息过滤后的第四分离信号；根据所述第三分离信号和所述第四分离信号，确定对所述第三分离信号中包括的所述非目标语音对象的信息进行抑制的第一权重；基于所述第一权重和所述第三分离信号，确定所述目标音频信号。

在一些实施例中，所述抑制模块104，还配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息进行过滤的第二权重，以及对所述第二分离信号中目标语音对象的信息进行过滤的第三权重；基于所述第一分离信号、所述第二分离信号以及所述第二权重，确定所述第三分离信号；基于所述第一分离信号、所述第二分离信号以及所述第三权重，确定所述第四分离信号。

在一些实施例中，所述抑制模块104，还配置为若所述语音状态表征所述第一音频信号中的语音对象为目标语音对象，维持所述第二权重为第一初始预设权重，并采用自适应滤波算法更新所述第三权重；若所述语音状态表征所述第一音频信号中的语音对象为非目标语音对象，维持所述第三权重为第二初始预设权重，并采用所述自适应滤波算法更新所述第二权重。

在一些实施例中，所述抑制模块104，还配置为根据所述第三分离信号和所述第四分离信号，采用维纳滤波算法获得所述第一权重；将所述第一权重和所述第三分离信号相乘，获得所述目标音频信号。

在一些实施例中，所述确定模块102，还配置为将所述第一音频信号输入语音状态分析模型，确定所述语音状态；其中，所述语音状态分析模型基于神经网络训练而成。

在一些实施例中，所述处理模块103，还配置为对所述第一音频信号和所述第二音频信号采用独立向量分析IVA方式，得到所述第一分离信号和所述第二分离信号。

关于上述实施例中的装置，其中各个模型执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据本公开一示例性实施例示出的一种终端装置800的框图。例如，装置800可以是手机，电脑等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模型，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模型，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和音频识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模型之间提供接口，上述外围接口模型可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模型，以促进短程通信。例如，在NFC模型可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行音频信号方法，所述方法包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，对所述第一分离信号中包括的非目标语音对象的信息进行抑制处理以得到目标音频信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对所述第二分离信号中目标语音对象的信息过滤后的第四分离信号，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息进行过滤的第二权重，以及对所述第二分离信号中目标语音对象的信息进行过滤的第三权重，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第三分离信号和所述第四分离信号，确定对所述第三分离信号中包括的所述非目标语音对象的信息进行抑制的第一权重，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频信号，确定用于表征所述第一音频信号中语音对象的语音状态，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述第一音频信号和所述第二音频信号进行语音分离处理，得到第一分离信号和第二分离信号，包括：

8.一种音频信号处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

所述抑制模块，还配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息过滤后的第三分离信号，以及对所述第二分离信号中目标语音对象的信息过滤后的第四分离信号；根据所述第三分离信号和所述第四分离信号，确定对所述第三分离信号中包括的所述非目标语音对象的信息进行抑制的第一权重；基于所述第一权重和所述第三分离信号，确定所述目标音频信号。

10.根据权利要求9所述的装置，其特征在于，

所述抑制模块，还配置为根据所述第一音频信号、所述语音状态、所述第一分离信号以及所述第二分离信号，确定对所述第一分离信号中非目标语音对象的信息进行过滤的第二权重，以及对所述第二分离信号中目标语音对象的信息进行过滤的第三权重；基于所述第一分离信号、所述第二分离信号以及所述第二权重，确定所述第三分离信号；基于所述第一分离信号、所述第二分离信号以及所述第三权重，确定所述第四分离信号。

11.根据权利要求10所述的装置，其特征在于，

所述抑制模块，还配置为若所述语音状态表征所述第一音频信号中的语音对象为目标语音对象，维持所述第二权重为第一初始预设权重，并采用自适应滤波算法更新所述第三权重；若所述语音状态表征所述第一音频信号中的语音对象为非目标语音对象，维持所述第三权重为第二初始预设权重，并采用所述自适应滤波算法更新所述第二权重。

12.根据权利要求9所述的装置，其特征在于，

所述抑制模块，还配置为根据所述第三分离信号和所述第四分离信号，采用维纳滤波算法获得所述第一权重；将所述第一权重和所述第三分离信号相乘，获得所述目标音频信号。

13.根据权利要求8所述的装置，其特征在于，

所述确定模块，还配置为将所述第一音频信号输入语音状态分析模型，确定所述语音状态；其中，所述语音状态分析模型基于神经网络训练而成。

14.根据权利要求8所述的装置，其特征在于，

所述处理模块，还配置为对所述第一音频信号和所述第二音频信号采用独立向量分析IVA方式，得到所述第一分离信号和所述第二分离信号。

15.一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至7中任一项所述的音频信号处理方法。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如权利要求1至7中任一项所述的音频信号处理方法。