CN108899047A

CN108899047A - 音频信号的掩蔽阈值估计方法、装置及存储介质

Info

Publication number: CN108899047A
Application number: CN201810949209.0A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2018-11-27
Anticipated expiration: 2038-08-20
Also published as: CN108899047B

Abstract

本发明实施例提出一种音频信号的掩蔽阈值估计方法、装置及计算机可读存储介质。其中音频信号的掩蔽阈值估计方法包括：将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。本发明实施例的神经网络模型除了输出掩蔽阈值之外，又采用了音素类别作为神经网络模型的另一个输出，从而使用了更多的信息，有利于让网络学习的更好，从而获得更好的性能。

Description

音频信号的掩蔽阈值估计方法、装置及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种音频信号的掩蔽阈值估计方法、装置及计算机可读存储介质。

背景技术

语音交互中很重要的一个应用场景就是高噪声情况下的语音识别。在安静情况下，语音识别的准确率已经可以达到97％以上。但是高噪声情况下，人类的听觉系统可以分辨出嘈杂环境中的感兴趣的声音，这个现象叫做“鸡尾酒会效应”。鸡尾酒会效应就是在嘈杂的鸡尾酒会上，还是能够听到感兴趣的目标说话人的声音。

“鸡尾酒会效应”在技术上通常被描述为盲源分离问题，也就是在没有参考信号的情况下，把感兴趣的“前景音”从嘈杂的“背景音”中分离出来。关于盲源分离问题，当前主要的技术手段是估计掩蔽阈值(mask)。

盲源分离算法的应用场景通常在下面几个方面：

(1)可以将目标说话人的语音从一段多人同时说话的音频中提取出来。例如，客厅里电视正在播放新闻联播，用户想和茶几上智能音箱进行交互。音箱同时接收到了用户的语音请求和新闻联播中主持人的播报。也就是说，同一时刻，两个人在说话，这时需要将用户的语音提取出来。

(2)可以将语音从背景噪声中分离出来。例如，车载环境下的语音识别就属于这种场景。开车的时候，车载信息娱乐产品或者手机的麦克风会接收到各种噪声，如风噪、路噪，鸣笛等，盲源分离算法可以抑制这些环境噪声，只把语音增强取出，送到语音识别系统中。

上面举的例子都是比较理想的情况。盲源分离本身是个回归模型，如果模型性能不理想，就会出现badcase(坏案例)。典型的坏案例有：噪声没有消除干净，语音被损伤了。这个情况最为普遍，也就是在某些时频点，噪声被保留了下来；而在另一些时频点，语音却被消除了。

因此，盲源分离最核心的两个能力是：噪声抑制和不损伤语音。一个好的盲源分离系统，应该能够在尽量少地损伤语音的情况下，把背景噪声抑制到最强程度。

在现有的方法中，通常提取每一帧的声学特征，利用神经网络，预测一个0到1之间的输出向量，这个值就是mask的值。分析了盲源分离算法的上述坏案例可以发现，产生坏案例关键的因素是估计掩蔽阈值的算法的性能不够好。因此，改进神经网络模型的结构、提升估计掩蔽阈值的算法的性能是目前亟待解决的问题。

发明内容

本发明实施例提供一种音频信号的掩蔽阈值估计方法、装置及计算机可读存储介质，以至少解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种音频信号的掩蔽阈值估计方法，包括：将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，还包括根据所述待处理音频信号的掩蔽阈值，采用以下公式对所述待处理音频信号进行去噪处理：

estimate＝h_mask.*noisy

其中，noisy表示噪声的声学特征；estimate表示干净语音的声学特征的估计值；h_mask表示所述神经网络模型输出的掩蔽阈值。

结合第一方面或第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

结合第一方面或第一方面的第一种实现方式，本发明实施例在第一方面的第三种实现方式中，所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网；所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份，分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

结合第一方面的第三种实现方式，本发明实施例在第一方面的第四种实现方式中，所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层；所述掩蔽阈值输出层设置为全连接层；采用sigmoid函数作为所述掩蔽阈值输出层的激活函数。

结合第一方面的第三种实现方式，本发明实施例在第一方面的第五种实现方式中，所述用于音素类别输出的任务子网包括音素类别输出层；所述音素类别输出层设置为全连接层；采用softmax函数作为所述音素类别输出层的激活函数；采用交叉熵作为所述音素类别输出层的损失函数。

结合第一方面或第一方面的第一种实现方式，本发明实施例在第一方面的第六种实现方式中，还包括采用以下公式计算所述掩蔽阈值的标签：

其中，t表示时间的标度；f表示频域点的标号；表示第(t，f)时频点的干净语音的功率；表示第(t，f)时频点的带噪声的语音的功率。

结合第一方面或第一方面的第一种实现方式，本发明实施例在第一方面的第七种实现方式中，还包括：采用HMM-GMM模型将音频信号和音素类别对齐，识别出音频信号中的声母和韵母；将识别出的声母和韵母作为音素类别的标签。

第二方面，本发明实施例提供了一种音频信号的掩蔽阈值估计装置，包括：输入单元，用于将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；输出单元，用于从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；优化单元，用于利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，还包括去噪处理单元，用于根据所述待处理音频信号的掩蔽阈值，采用以下公式对所述待处理音频信号进行去噪处理：

estimate＝h_mask.*noisy

结合第二方面或第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

结合第二方面或第二方面的第一种实现方式，本发明实施例在第二方面的第三种实现方式中，所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网；所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份，分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

结合第二方面的第三种实现方式，本发明实施例在第二方面的第四种实现方式中，所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层；所述掩蔽阈值输出层设置为全连接层；所述掩蔽阈值输出层的激活函数采用sigmoid函数。

结合第二方面的第三种实现方式，本发明实施例在第二方面的第五种实现方式中，所述用于音素类别输出的任务子网包括音素类别输出层；所述音素类别输出层设置为全连接层；所述音素类别输出层的激活函数采用softmax函数；所述音素类别输出层的损失函数采用交叉熵。

结合第二方面或第二方面的第一种实现方式，本发明实施例在第二方面的第六种实现方式中，还包括第一标签生成单元，用于采用以下公式计算所述掩蔽阈值的标签：

结合第二方面或第二方面的第一种实现方式，本发明实施例在第二方面的第七种实现方式中，还包括第二标签生成单元，用于：采用HMM-GMM模型将音频信号和音素类别对齐，识别出音频信号中的声母和韵母；将识别出的声母和韵母作为音素类别的标签。

在一个可能的设计中，音频信号的掩蔽阈值估计装置的结构中包括处理器和存储器，所述存储器用于存储支持音频信号的掩蔽阈值估计装置执行上述第一方面中音频信号的掩蔽阈值估计方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述音频信号的掩蔽阈值估计装置还可以包括通信接口，用于音频信号的掩蔽阈值估计装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种音频信号的掩蔽阈值估计装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一所述的方法。

上述技术方案具有如下优点或有益效果：除了输出掩蔽阈值之外，又采用了音素类别作为神经网络模型的另一个输出，从而使用了更多的信息，有利于让网络学习的更好，从而获得更好的性能。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明一实施例提供的音频信号的掩蔽阈值估计方法的系统流程图。

图2为现有技术的音频信号的掩蔽阈值估计方法中的神经网络结构示意图。

图3为本发明另一实施例提供的音频信号的掩蔽阈值估计方法中的神经网络输入输出特征示意图。

图4为本发明另一实施例提供的音频信号的掩蔽阈值估计方法中的神经网络结构示意图。

图5为本发明一实施例提供的音频信号的掩蔽阈值估计装置的结构框图。

图6为本发明又一实施例提供的音频信号的掩蔽阈值估计装置的结构框图。

图7为本发明又一实施例提供的音频信号的掩蔽阈值估计装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图2为现有技术的音频信号的掩蔽阈值估计方法中的神经网络结构示意图。如图2所示，feature(特征)表示神经网络的输入的特征，这里输入的特征可以是MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)、Fbank(filter-bank，滤波器组)、PLP(Perceptual Linear Prediction，感知线性预测系数)、FFT(Fast FourierTransformation，快速傅立叶变换)等声学特征中的一种。

convBlock(卷积模块)是多个卷积层的堆叠，这里可以不限制conv(Convolution，卷积)的类型，可以是1维的卷积，也可是2维的卷积。

RNNBlock(循环神经网络模块)是多个RNN(Recurrent Neural Networks，循环神经网络)层的堆叠，这里不限制RNN的类型，可以是普通的RNN，也可是加入了门结构的LSTM(Long Short-Term Memory，长短期记忆网络)，或者是GRU(Gated Recurrent Unit,门控循环单元)。其中，门是一种让信息选择通过的方法。LSTM可利用门结构来控制模型中信息的传输量，也可通过精心设计的门结构去除或者增加信息。

最后的输出层是fc_sigmoid。其中，fc(fully connected layers，全连接层)表示全连接层，sigmoid表示输出层使用的激活函数。sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，sigmoid函数常被用作神经网络的阈值函数，将变量映射到0和1之间。

图2中的神经网络各层的名称后面的数字表示神经网络各层的编号，例如：若神经网络模型中设置有2个卷积模块，可分别用convBlock-0和convBlock-1来表示。

在上述方法中，通常提取每一帧的声学特征，利用神经网络，预测一个0到1之间的输出向量，这个值就是掩蔽阈值mask。其中，每个时频点对应一个mask(t,f)值。其中，t表示时间的标度；f表示频域点的标号。

例如，可采用语音信号的FFT的幅值谱作为特征，可参见图3所示。图3中的横轴表示时间的标度；纵轴表示频域点；图3中的左图表示带噪声(noisy)的语音，也就是网络的输入信息；图3中的中图表示干净语音(clean)，网络没有直接使用这个特征；图3中的右图表示期望的网络输出mask；图3中的左图和中图中的“log”表示对数域；图3中的右图中的“irm”表示理想率掩蔽(ideal ratio mask)。

掩蔽阈值mask的定义公式为：

其中，t表示时间的标度，也就是表示音频信号的第t帧；f表示频域点的标号，也就是音频信号的第f个频点；表示第(t，f)时频点的clean语音的功率；表示第(t，f)时频点的noisy语音的功率。

现有技术的盲源分离算法在实施过程中，产生坏案例关键的因素是估计掩蔽阈值的算法的性能不够好。

有鉴于此，本发明实施例使用多任务网络来更加精确地估计音频信号的掩蔽阈值。例如，可使用一种音素类别和掩蔽阈值同时训练的双任务网络来估计音频信号的掩蔽阈值。

图1为本发明一实施例提供的音频信号的掩蔽阈值估计方法的系统流程图。如图1所示，本发明实施例的音频信号的掩蔽阈值估计方法包括：步骤S110，将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；步骤S120，从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；步骤S130，利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

本发明实施例的音频信号的掩蔽阈值估计方法中，除了使用mask(掩蔽阈值)作为神经网络模型的一个输出之外，还使用phone(音素)类别作为神经网络模型的另一个输出。phone类别输出与mask输出组成双任务网络，一种示例性的模型结构如图4所示。

上述技术方案具有如下优点或有益效果：除了输出掩蔽阈值之外，又采用了音素类别作为神经网络模型的另一个输出，从而使用了更多的信息训练神经网络模型，有利于让网络学习的更好，从而获得更好的性能。

参见图4，下面介绍一种示例性的双任务网络的模型结构。

在一种可能的实现方式中，所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网；其中，输入子网包括feature-0、hidelayer-1和hidelayer-2；分裂层包括Split-0；用于掩蔽阈值输出的任务子网包括hidelayer-3和Mask_out-0；用于音素类别输出的任务子网包括hidelayer-4、hidelayer-5和phone_out-0。所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份，分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

图4中的hidelayer表示隐藏层，隐藏层可以是各种类型的layer(层)，例如可以是conv、RNN或者LSTM等。每个隐藏层选择不同类型的layer，性能会有一些差异。在实际应用场景中可以为各个隐藏层选择适当的神经网络类型，以获得最好的性能。图4中仅示意性地画出了几个隐藏层，其中每个隐藏层不一定只是一层，也可以是多个layer的堆叠。

与图2相同，图4中也用神经网络各层的名称后面的数字表示神经网络各层的编号，例如：输入子网中的两个隐藏层分别用hidelayer-1和hidelayer-2来表示；用于音素类别输出的任务子网中的两个隐藏层分别用hidelayer-4和hidelayer-5来表示。

在图4中，输入子网将输入的待处理音频信号经过特征提取之后，输出给Split层(分裂层)。其中feature表示神经网络的输入的特征，这里输入的特征可以是MFCC、Fbank、PLP、FFT等声学特征中的一种。

Split层将输入copy(复制)成两份，分别给两个输出的任务子网。

在一种可能的实现方式中，所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层；所述掩蔽阈值输出层设置为全连接层；采用sigmoid函数作为所述掩蔽阈值输出层的激活函数。

参见图4，Mask_out层(掩蔽阈值输出层)可以是全连接层。其输出节点的个数可以与目标mask的长度一致，激活函数采用sigmoid函数。Mask_out层输出掩蔽阈值，本发明实施例中双任务网络输出的掩蔽阈值用h_mask表示。

在一种可能的实现方式中，所述用于音素类别输出的任务子网包括音素类别输出层；所述音素类别输出层设置为全连接层；采用softmax函数作为所述音素类别输出层的激活函数；采用交叉熵作为所述音素类别输出层的损失函数。

参见图4，phone_out层(音素类别输出层)也可以是全连接层。其输出节点个数可以与phone的类别数相等，采用softmax函数作为激活函数，采用交叉熵作为损失函数。phone_out层输出的结果是0或1，表示语音文件中的每一帧是否有语音，0表示没有语音，1表示有语音。

其中，softmax函数或称归一化指数函数，它实际上是有限项离散概率分布的梯度对数归一化。交叉熵主要用于度量两个概率分布间的差异性信息，在神经网络中可采用交叉熵作为损失函数。在语言模型中，模型是通过训练集得到的，使用交叉熵可衡量模型在测试集上的正确率。

在神经网络的模型训练阶段需要选择使用的特征，还需要准备好用于训练的标签。

在一种可能的实现方式中，所述神经网络模型的输入特征包括音频信号的FFT幅值谱。例如，采用FFT的幅值谱作为特征，32ms帧长，10ms帧移，16khz采样率下FFT的长度是512，其频点个数是257，如图3所示。

其中，若每帧的长度为32毫秒，每两帧之间有32-10＝22毫秒的交叠，则称为以帧长32ms、帧移10ms分帧。

在一种可能的实现方式中，还包括采用以下公式计算所述掩蔽阈值的标签：

在一种可能的实现方式中，还包括：采用HMM(Hidden Markov Model，隐马尔可夫模型)-GMM(Gauss of mixture models，混合高斯模型)模型将音频信号和音素类别对齐，识别出音频信号中的声母和韵母；将识别出的声母和韵母作为音素类别的标签。

本发明实施例中估计掩蔽阈值采用双任务网络，也称为双头网络。双头网络的标签有两个，分别是mask和phone。其中，mask的标签值通过上面的公式计算获得。phone的类别是中文所有声韵母的排列，即音素的排列。例如，在汉语拼音中，phone的类别一共有47个，其中声母有23个、韵母有24个。phone的标签标注的是每一帧语音信号中的语音所对应的声母和韵母。

HMM是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。GMM是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型。phone的标签可采用声学模型训练中的HMM-GMM对齐结果。可将HMM模型和GMM模型结合起来，采用HMM-GMM模型将音频信号和音素phone强制对齐，进而识别出音频信号中的声母和韵母，将识别出的声母和韵母作为phone类别的标签。

本发明实施例中，神经网络的模型的测试阶段和所有的基于机器学习的拟合问题基本一样，把音频信号中一句话的所有特征x，逐帧地输入到神经网络模型中，由神经网络模型得到每一帧的输出h。这里的输出h有两个，即掩蔽阈值mask和音素类别phone。在后续对音频信号的处理过程中，只采用mask的输出，即使用双任务网络输出的掩蔽阈值h_mask。

可根据掩蔽阈值h_mask，利用盲源分离算法对语音信号进行去噪处理。在一种可能的实施方式中，本发明实施例的音频信号的掩蔽阈值估计方法还包括根据所述待处理音频信号的掩蔽阈值，采用以下公式对所述待处理音频信号进行去噪处理：

estimate＝h_mask.*noisy

其中，noisy表示噪声的声学特征，如MFCC、Fbank、PLP或FFT；estimate表示干净语音的声学特征的估计值；h_mask表示所述神经网络模型输出的掩蔽阈值。也就是说，h_mask的输出并不是去噪处理的最终结果，需要将h_mask点乘上输入的带噪语音的特征，最终得到干净语音的声学特征的估计值。

上述技术方案中，除了输出mask，还采用了phone的类别作为神经网络模型的另一个输出，从而使用了更多的信息。在网络结构采用多任务输出的基础上，可以使phone的标签更加精确，因此在利用梯度下降法优化模型的过程中，可用获得的梯度更新多个头共享的那部分网络参数。例如phone类别和mask两个输出的网络结构由于使用了更多的信息，有利于让网络学习的更好，从而获得更好的性能。

图5为本发明一实施例提供的音频信号的掩蔽阈值估计装置的结构框图。如图5所示，本发明实施例的音频信号的掩蔽阈值估计装置包括：输入单元100，用于将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；输出单元200，用于从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；优化单元300，用于利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

图6为本发明又一实施例提供的音频信号的掩蔽阈值估计装置的结构框图。如图6所示，在一种可能的实施方式中，所述装置还包括去噪处理单元400，用于根据所述待处理音频信号的掩蔽阈值，采用以下公式对所述待处理音频信号进行去噪处理：

estimate＝h_mask.*noisy

在一种可能的实施方式中，所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

在一种可能的实施方式中，所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网；所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份，分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

在一种可能的实施方式中，所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层；所述掩蔽阈值输出层设置为全连接层；所述掩蔽阈值输出层的激活函数采用sigmoid函数。

在一种可能的实施方式中，所述用于音素类别输出的任务子网包括音素类别输出层；所述音素类别输出层设置为全连接层；所述音素类别输出层的激活函数采用softmax函数；所述音素类别输出层的损失函数采用交叉熵。

在一种可能的实施方式中，还包括第一标签生成单元，用于采用以下公式计算所述掩蔽阈值的标签：

在一种可能的实施方式中，还包括第二标签生成单元，用于：采用HMM-GMM模型将音频信号和音素类别对齐，识别出音频信号中的声母和韵母；将识别出的声母和韵母作为音素类别的标签。

本发明实施例的音频信号的掩蔽阈值估计装置中各单元的功能可以参见上述方法的相关描述，在此不再赘述。

在一个可能的设计中，音频信号的掩蔽阈值估计装置的结构中包括处理器和存储器，所述存储器用于存储支持音频信号的掩蔽阈值估计装置执行上述音频信号的掩蔽阈值估计方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述音频信号的掩蔽阈值估计装置还可以包括通信接口，用于音频信号的掩蔽阈值估计装置与其他设备或通信网络通信。

图7为本发明又一实施例提供的音频信号的掩蔽阈值估计装置的结构框图。如图7所示，该装置包括：存储器101和处理器102，存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的音频信号的掩蔽阈值估计方法。所述存储器101和处理器102的数量可以为一个或多个。

该装置还包括：

通信接口103，用于与外界设备进行通信，进行数据交互传输。

存储器101可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器101、处理器102和通信接口103独立实现，则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器101、处理器102及通信接口103集成在一块芯片上，则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。

又一方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述音频信号的掩蔽阈值估计方法中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信号的掩蔽阈值估计方法，其特征在于，包括：

将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；

从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；

利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

2.根据权利要求1所述的方法，其特征在于，还包括根据所述待处理音频信号的掩蔽阈值，采用以下公式对所述待处理音频信号进行去噪处理：

estimate＝h_mask.*noisy

3.根据权利要求1或2所述的方法，其特征在于，所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

4.根据权利要求1或2所述的方法，其特征在于，所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网；所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份，分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

5.根据权利要求4所述的方法，其特征在于，所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层；

所述掩蔽阈值输出层设置为全连接层；

采用sigmoid函数作为所述掩蔽阈值输出层的激活函数。

6.根据权利要求4所述的方法，其特征在于，所述用于音素类别输出的任务子网包括音素类别输出层；

所述音素类别输出层设置为全连接层；

采用softmax函数作为所述音素类别输出层的激活函数；

采用交叉熵作为所述音素类别输出层的损失函数。

7.根据权利要求1或2所述的方法，其特征在于，还包括采用以下公式计算所述掩蔽阈值的标签：

8.根据权利要求1或2所述的方法，其特征在于，还包括：

采用HMM-GMM模型将音频信号和音素类别对齐，识别出音频信号中的声母和韵母；

将识别出的声母和韵母作为音素类别的标签。

9.一种音频信号的掩蔽阈值估计装置，其特征在于，包括：

输入单元，用于将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；

输出单元，用于从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；

优化单元，用于利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

10.根据权利要求9所述的装置，其特征在于，还包括去噪处理单元，用于根据所述待处理音频信号的掩蔽阈值，采用以下公式对所述待处理音频信号进行去噪处理：

estimate＝h_mask.*noisy

11.根据权利要求9或10所述的装置，其特征在于，所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

12.根据权利要求9或10所述的装置，其特征在于，所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网；所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份，分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

13.根据权利要求12所述的装置，其特征在于，所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层；

所述掩蔽阈值输出层设置为全连接层；

所述掩蔽阈值输出层的激活函数采用sigmoid函数。

14.根据权利要求12所述的装置，其特征在于，所述用于音素类别输出的任务子网包括音素类别输出层；

所述音素类别输出层设置为全连接层；

所述音素类别输出层的激活函数采用softmax函数；

所述音素类别输出层的损失函数采用交叉熵。

15.根据权利要求9或10所述的装置，其特征在于，还包括第一标签生成单元，用于采用以下公式计算所述掩蔽阈值的标签：

16.根据权利要求9或10所述的装置，其特征在于，还包括第二标签生成单元，用于：

将识别出的声母和韵母作为音素类别的标签。

17.一种音频信号的掩蔽阈值估计装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。