CN112053702A

CN112053702A - 一种语音处理的方法、装置及电子设备

Info

Publication number: CN112053702A
Application number: CN202011062283.4A
Authority: CN
Inventors: 陈昌儒; 包英泽
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-08
Anticipated expiration: 2040-09-30
Also published as: CN112053702B

Abstract

本发明提供了一种语音处理的方法、装置及电子设备，包括：获取包括至少一个音频信号帧的音频数据；根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪；响应于所述音频数据的类型为需要降噪，确定所述音频数据的信号特征；将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。通过这种方式，通过降噪模型对音频数据进行处理，能够有效的对音频数据中的噪音进行降噪，获取噪音较小的音频数据。

Description

一种语音处理的方法、装置及电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音处理的方法、装置及电子设备。

背景技术

随着科技的不断发展，自动语音识别技术的应用也越来越广泛；由于是语音信号在不同的语音环境中不断受到各种噪音的干扰，会影响语音识别的结果，因此，需要对语音信号进行语音增强，即对语音信号中的噪音进行降噪处理。

现有技术中，通常采用传统的降噪方法，例如谱减法、维纳滤波法以及小波变换等算法实现平稳噪音或非平稳噪音的消除，但是在实际场景中往往面对多种类、宽频域、非平稳的噪音，传统的降噪算法效果往往并不理想的效果；而且对于一些极低信噪比、以及鸡尾酒效应明显的场景，降噪性能也较差。

综上所述，如何对语音信号中的各种噪音进行有效的降噪，获取噪音较小的音频，是目前需要解决的问题。

发明内容

本发明实施例提供了一种语音处理的方法、装置及电子设备，可以有效的对音频数据中的噪音进行降噪，获取噪音较小的音频数据。

根据本发明实施例的第一个方面，提供了一种语音处理的方法，包括：获取包括至少一个音频信号帧的音频数据；根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪；响应于所述音频数据的类型为需要降噪，确定所述音频数据的信号特征；将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。

在一个实施例中，所述方法还包括：所述根据各音频信号帧确定所述音频数据的类型具体包括：确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧，其中，语音帧为包含非噪声信号的音频信号帧，所述非语音帧为不包含非噪声信号的音频信号帧；确定所述信噪比小于第一设定阈值的音频信号帧的第一数量，以及所述含噪音段的非语音帧的第二数量；根据所述第一数量和所述第二数量确定第三数量；响应于所述第三数量与音频信号帧的总数的比值大于或等于第二设定阈值；确定所述音频数据的类型为需要降噪。

在一个实施例中，所述根据各音频信号帧确定所述音频数据的类型还包括：响应于所述第三数量与所述音频信号帧的总数的比值小于所述第二设定阈值；确定所述音频数据的类型为不需要降噪。

在一个实施例中，所述确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧，具体为：将各音频信号帧输入到预先训练的语音活动检测VAD判别模型，确定各音频信号帧的帧类型，所述帧类型包括语音帧和非语音帧；响应于所述音频信号帧的帧类型为语音帧，输出所述语音帧的信噪比；响应于所述音频信号帧的帧类型为非语音帧，确定所述非语音帧中含噪音段的非语音帧。

在一个实施例中，所述VAD判别模型的训练过程包括：获取训练语料数据，其中，所述训练语料数据包括第一音频数据、所述第一音频数据对应的标识、第二音频数据以及所述第二音频数据对应的标识，所述第一音频数据为无噪音的语音数据，所述第二音频数据为在第一音频数据中增加了噪音后得到的音频数据；根据所述训练语料数据训练所述VAD判别模型。

在一个实施例中，所述信号特征包括线性预测系数特征、梅尔频率倒谱系数特征、线性预测倒谱系数特征以及Fbank特征中的任一项。

在一个实施例中，所述降噪模型的训练过程包括：获取原始干净语音以及不同噪音类型的噪音；根据所述原始干净语音以及所述不同噪音类型的噪音生成原始加噪语音，其中，所述原始加噪语音为不同信噪比以及不同噪音类型的噪音与所述原始干净语音的组合；确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征和样本输出信号特征；通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型。

在一个实施例中，所述通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型，具体包括：将所述原始干净语音以及所述原始加噪语音对应的信号特征作为所述降噪模型的输入，所述原始干净语音对应的信号特征作为所述降噪模型的输出；根据所述损失函数训练所述降噪模型，其中，所述降噪模型为神经网络模型。

在一个实施例中，所述确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征，具体包括：分别提取所述原始干净语音以及所述原始加噪语音对应的至少两类样本输入信号特征；将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征。

在一个实施例中，所述将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征，具体包括：将原始加噪语音的两类样本输入信号特征进行叠加，确定所述原始加噪语音的样本输入信号特征；以及将原始干净语音的两种样本输入信号特征进行叠加，确定所述原始干净语音的样本输入信号特征。

根据本发明实施例的第二个方面，提供了一种语音处理的装置，包括：获取单元，用于获取包括至少一个音频信号帧的音频数据；第一确定单元，用于根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪；第二确定单元，响应于所述音频数据的类型为需要降噪，用于确定所述音频数据的信号特征；第三确定单元，用于将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。

在一个实施例中，所述第一确定单元具体用于：确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧，其中，语音帧为包含非噪声信号的音频信号帧，所述非语音帧为不包含非噪声信号的音频信号帧；确定所述信噪比小于第一设定阈值的音频信号帧的第一数量，以及所述含噪音段的非语音帧的第二数量；根据所述第一数量和所述第二数量确定第三数量；响应于所述第三数量与音频信号帧的总数的比值大于或等于第二设定阈值；确定所述音频数据的类型为需要降噪。

一个实施例中，所述第一确定单元还用于：响应于所述第三数量与所述音频信号帧的总数的比值小于所述第二设定阈值；确定所述音频数据的类型为不需要降噪。

在一个实施例中，所述第一确定单元具体用于：将各音频信号帧输入到预先训练的语音活动检测VAD判别模型，确定各音频信号帧的帧类型，所述类型包括语音帧和非语音帧；响应于所述音频信号帧的帧类型为语音帧，输出所述语音帧的信噪比；或者，响应于所述音频信号帧的帧类型为非语音帧，确定所述非语音帧中含噪音段的非语音帧。

在一个实施例中，所述VAD判别模型包括：语料获取单元，用于获取训练语料数据，其中，所述训练语料数据包括第一音频数据、所述第一音频数据对应的标识、第二音频数据以及所述第二音频数据对应的标识，所述第一音频数据为无噪音的语音数据，所述第二音频数据为在第一音频数据中增加了噪音后得到的音频数据；训练单元，用于根据所述训练语料数据训练所述VAD判别模型。

在一个实施例中，所述降噪模型包括：语音获取单元，用于获取原始干净语音以及不同噪音类型的噪音；处理单元，用于根据所述原始干净语音以及所述不同噪音类型的噪音生成原始加噪语音，其中，所述原始加噪语音为不同信噪比以及不同噪音类型的噪音与所述原始干净语音的组合；特征确定单元，用于确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征和样本输出信号特征；降噪模型训练单元，用于通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型。

在一个实施例中，所述降噪模型训练单元，具体用于：将所述原始干净语音以及所述原始加噪语音对应的信号特征作为所述降噪模型的输入，所述原始干净语音对应的信号特征作为所述降噪模型的输出；根据所述损失函数训练所述降噪模型，其中，所述降噪模型为神经网络模型。

在一个实施例中，所述特征确定单元具体用于：分别提取所述原始干净语音以及所述原始加噪语音对应的至少两类样本输入信号特征；将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征。

在一个实施例中，所述特征确定单元具体用于：将原始加噪语音的两类样本输入信号特征进行叠加，确定所述原始加噪语音的样本输入信号特征；以及将原始干净语音的两种样本输入信号特征进行叠加，确定所述原始干净语音的样本输入信号特征。

根据本发明实施例的第三个方面，提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能所述的方法。

根据本发明实施例的第四个方面，提供了一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能所述的方法。

发明实施例的有益效果包括：首先获取包括至少一个音频信号帧的音频数据，然后根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪，继而响应于所述音频数据的类型为需要降噪，确定所述音频数据的信号特征，最后将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。通过这种方式，通过降噪模型对音频数据进行处理，能够有效的对音频数据中的噪音进行降噪，获取噪音较小的音频数据。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例提供的一种语音处理的方法流程图；

图2是本发明实施例提供的一种音频信号帧分类示意图；

图3是本发明实施例提供的一种语音处理的方法流程图；

图4是本发明实施例提供的一种语音处理的方法流程图；

图5是本发明实施例提供的一种语音处理的方法流程图；

图6是本发明实施例提供的一种特征提取方法流程图；

图7是本发明实施例提供的一种语音处理的装置示意图；

图8是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在现有技术中，噪音的范围包括汽车噪音、交通噪音甚至白噪音等，不同形式的噪音干扰语音信号，严重影响了语音信号的质量。例如，例如，在会议室里，一个通过麦克风捕捉到的语音信号中通常包含混响、扩散噪音和无关的语音信号；由于语音信号中的噪音较多，在许多应用程序中会导致严重的性能下降，因此，要增强有噪音的语音信号并将其转换为干净的语音，通常采用传统的谱减法、维纳滤波法以及小波变换等算法对音频数据进行降噪，可以在一定程度上实现平稳噪音或非平稳噪音的消除，但是在实际场景中往往面对多种类、宽频域、非平稳的噪音，传统的降噪算法效果往往并不理想的效果；同时，传统的降噪方法，以及近年发展起来的基于深度神经网络降噪方法，在处理一些极低信噪比、以及鸡尾酒效应明显的场景时，降噪性能也较差，其中，所述鸡尾酒效应，在声学中是指人耳的掩蔽效应；在鸡尾酒会嘈杂的人群中，两人可以顺利交谈，尽管周围噪音很大，但两人耳中听到的是对方的说话声，似乎听不到谈话内容以外的各种噪音，即噪音很大的情况。

根据一个或多个实施例，所述语音信号还可以称为音频信号、或者音频数据，本发明实施例对其不做限定。

根据一个或多个实施例，为了有效的对音频数据中的噪音进行降噪处理，提供了一种语音处理的方法，通过降噪模型对音频数据进行处理，能够有效的对音频数据中的噪音进行降噪，获取噪音较小的音频数据。

在一个或多个实施例中，语音处理的方法流程如图1所示，但图1的示例并不能理解为对实施例的具体限制。

步骤S100、获取包括至少一个音频信号帧的音频数据。

在一个或多个实施例中，所述音频数据可以为只包含一个音频信号帧，也可以为包含多个音频信号帧的一段音频数据；举例说明，所述音频数据包括一个音频信号帧，每个音频信号帧的时长为15毫秒到30毫秒；或者所述音频数据为包含15个音节，每个音节的时间长度为200毫秒，假设每个音频信号帧的时长为20毫秒、帧移为10毫秒，则每个音节包括19个每个音频信号帧，所述音频数据为包含299个音频信号帧，具体的，假设帧移为帧长的50％，时间长度为200ms，则音频信号帧的帧数为(200/20)*2-1；例如，15个音节，共3000ms，则音频信号帧的帧数为(3000/20)*2-1；其中，假设帧长为20ms，则第一帧的时间范围为0-20ms；然后第二帧相比第一帧往后移动了10ms，那么第二帧的时间范围为10ms-30ms，以此类推，帧移是指移动的10ms。

步骤S101、根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪。

在一个或多个实施例中，音频信号帧可以分为语音帧和非语音帧两种情况，所述语音帧为包含非噪音信号的音频片段，所述非语音帧为不包含非噪音信号的音频信号帧，具体的，所述非语音帧包括含噪音段和静音段两种情况；其中，所述语音帧中不仅包含语音片段，也包含噪音；所述非语音帧的含噪音段只包含噪音，所述含噪音段包含普通无含义的噪声、也包含不是目标语音的其他扰乱语音；所述音频信号帧200、语音帧201、非语言帧202、含噪音段2021和静音段2022之间的关系如图2所示。

因此，所述根据各音频信号帧确定所述音频数据的类型时，首先确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧；然后确定所述信噪比小于第一设定阈值的音频信号帧的第一数量，以及所述含噪音段的非语音帧的第二数量；根据所述第一数量和所述第二数量确定第三数量；响应于所述第三数量与音频信号帧的总数的比值大于或等于第二设定阈值；确定所述音频数据的类型为需要降噪。

在一个或多个实施例中，所述确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧，具体处理流程如图3所示：

步骤S300、将各音频信号帧输入到预先训练的语音活动检测(Voice ActivityDetection，VAD)判别模型，确定各音频信号帧的帧类型，所述类型包括语音帧和非语音帧。

步骤S301、响应于所述音频信号帧的帧类型为语音帧，输出所述语音帧的信噪比。

步骤S302、响应于所述音频信号帧的帧类型为非语音帧，确定所述非语音帧中含噪音段的非语音帧。

举例说明，假设音频数据包括2000个音频信号帧，经过VAD判别模型进行判断，确定所述2000个音频信号帧中语音帧为1700个，非语音帧为300个，所述1700个语音帧信噪比中小于第一设定阈值的数量为200个，其中，所述第一设定阈值根据实际情况确定，本发明实施例对其不做限定，由于信噪比越小，音频信号帧中的噪音越大；在非语音帧为300个中有100个为含噪音段的非语音帧；因此，2000个音频信号帧中，包括信噪比中小于第一设定阈值的数量为200个以及100个为含噪音段的非语音帧，因此，第三数量与音频信号帧的总数的比值为3/20,假设第二设定阈值为1/10，所述3/20大于1/10，确定所述音频数据的类型为需要降噪，本发明实施例中，所述第二设定阈值根据实际情况确定，本发明对其不做限定，例如，所述第二设定阈值的取值为1/5；此时响应于所述第三数量与所述音频信号帧的总数的比值小于所述第二设定阈值；及第三数量与音频信号帧的总数的比值为3/20小于所述第二设定阈值的取值1/5，确定所述音频数据的类型为不需要降噪。

步骤S102、响应于所述音频数据的类型为需要降噪，确定所述音频数据的信号特征。

具体的，所述信号特征包括线性预测系数(Linear Prediction Coefficient，LPC)特征、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCCs)特征、线性预测倒谱系数特征(Linear Predic-tion Cepstrum Coefficient，LPCC)以及Fbank特征中的任一项，本发明实施例对其不做限定。

在一个或多个实施例中，假设所述信号特征为Fbank特征，将所述音频数据进行分帧处理，确定多个音频信号帧，根据每个音频信号帧生成一个39维矩阵，所述39维矩阵即音频信号帧对应的Fbank特征，上述仅仅为示例性说明，具体根据实际情况确定。

在一个或多个实施例中，FBank特征贴近人耳的响应特性，用于表示声音，但是FBank特征仍有不足，进而可以在FBank特征的基础上再进行离散余弦变换，获取梅尔频率倒谱系数，其中，所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数，可以用梅尔频率倒谱系数表示语音特征。

步骤S103、将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。

本发明实施例中，所述预先训练的降噪模型由于在训练过程中样本输入信号特征的选择了两类样本输入信号特征的叠加，因此，训练出的降噪模型的降噪效果较好，具体的降噪模型的训练过程在之后的实施例中进行具体的描述。

本发明实施例通过上述处理流程，对音频数据进行处理，能够有效的对音频数据中的噪音进行降噪，获取噪音较小的音频数据。

下面通过两个具体实施例，分布对图1中采用的VAD判别模型以及降噪模型的训练过程进行详细说明。

具体实施例一、所述VAD判别模型的训练过程的方法流程如图4所示，但图4的示例并不能理解为对实施例的具体限制。

步骤S400、获取训练语料数据，其中，所述训练语料数据包括第一音频数据、所述第一音频数据对应的标识、第二音频数据以及所述第二音频数据对应的标识，所述第一音频数据为无噪音的语音数据，所述第二音频数据为在第一音频数据中增加了噪音后得到的音频数据。

举例说明，所述第一音频数据为无噪音的音频数据，对应的标识可以用0表示，所述第一音频数据为增加了噪音的音频数据，对应的标识可以用1表示，其中，所述0和1的表示不是固定的，是可变的，本发明实施例对其不做限定；所述第一音频数据和所述第二音频数据可以为一个音频信号帧。

在一个或多个实施例中，获取训练语料数据之后，还需要对齐所述无噪音的音频数据以及增加了噪音的音频数据，具体的，包括无噪音的音频数据的对齐，以及增加了噪音的音频数据中原始的无噪音的音频数据的对齐，通过对齐可以提高所述VAD判别模型的性能。

在一个或多个实施例中，也可以通过预先训练好的声学模型对音频数据进行逐帧分析，确定所述声学模型输出的识别结果，所述识别结果即每一个音频信号帧是无噪音的语音帧还是增加了噪音的非语音帧。

步骤S401、根据所述训练语料数据训练所述VAD判别模型。

具体的，根据训练后的VAD判别模型确定各音频信号帧是语音帧，还是非语音帧；当所述音频信号帧的类型为语音帧，输出所述语音帧的信噪比；当所述音频信号帧的类型为非语音帧，确定所述非语音帧中含噪音段的非语音帧。

具体实施例二、所述降噪模型的训练过程的方法流程如图5所示，但图5的示例并不能理解为对实施例的具体限制。

步骤S500、获取原始干净语音以及各类噪音。

在一个或多个实施例中，所述原始干净语音即没有噪音的语音，所述原始干净语音的格式为WAV格式，所述噪音的种类不做限定，可以选取各类噪音，例如，车辆鸣笛、工业噪音、建筑施工、社会噪音等等。

可选的，都采用所述WAV格式进行处理，若所述音频数据为WAV格式的其他数据，需要进行格式转换，将所述音频数据的格式转换为WAV格式，也可以采用其他格式，本发明实施例对其不做限定。

步骤S501、根据所述原始干净语音以及各类噪音生成原始加噪语音，其中，所述原始加噪语音为不同信噪比以及不同噪音类型的噪音与所述原始干净语音的组合。

在一个或多个实施例中，将原始干净语音以及各类噪音按照各种不同的信噪比以及多种不同的噪音类型进行组合，可以得到大量的不同类型的语音，可以增加样本的种类，提高模型的准确性。

举例说明，假设存在10种不同类型的噪音，分别为噪音类型1、噪音类型2、噪音类型3、噪音类型4、噪音类型5、噪音类型6、噪音类型7、噪音类型8、噪音类型9和噪音类型10，以1条原始干净语音为例，每条原始干净语音至少可以混合出10种原始加噪语音，即每条原始干净语音和每种噪音类型混合一次；进一步的，每条原始干净语音与每种噪音类型混合时，可以选择不同的信噪比值，生成多种信噪比的原始加噪语音，由于一种噪音类型可以混合出不同信噪比的多条原始加噪语音，例如，按照噪音与原始干净语音的比例为1:1,1:2,1:3等等，因此10种噪音类型可以混合出更多不同信噪比的多条原始加噪语音。

步骤S502、确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征和样本输出信号特征。

在一个或多个实施例中，所述确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征，具体包括：分别提取所述原始干净语音以及所述原始加噪语音对应的至少两类样本输入信号特征；将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征。其中，所述将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征，具体包括：将原始加噪语音的两类样本输入信号特征进行叠加，确定所述原始加噪语音的样本输入信号特征；以及将原始干净语音的两种样本输入信号特征进行叠加，确定所述原始干净语音的样本输入信号特征。

举例说明，所述信号特征包括线性预测系数LPC特征、梅尔频率倒谱系数MFCCs特征、线性预测倒谱系数特征LPCC以及Fbank特征中的任一种，可以确定原始干净语音以及所述原始加噪语音分别对应的两种特征信号，例如，确定原始干净语音的线性预测系数LPC特征以及Fbank特征，将所述原始干净语音的线性预测系数LPC特征以及Fbank特征进行拼接，作为一个样本输入信号特征；确定原始加噪语音的线性预测系数LPC特征以及Fbank特征，将所述原始加噪语音的线性预测系数LPC特征以及Fbank特征进行拼接，作为一个样本输入信号特征；或者，确定原始干净语音的梅尔频率倒谱系数MFCCs特征以及Fbank特征，将所述原始干净语音的梅尔频率倒谱系数MFCCs特征以及Fbank特征进行拼接，作为一个样本输入信号特征；确定原始加噪语音的梅尔频率倒谱系数MFCCs特征以及Fbank特征，将所述原始加噪语音的梅尔频率倒谱系数MFCCs特征以及Fbank特征进行拼接，作为一个样本输入信号特征；或者，确定原始干净语音的线性预测倒谱系数特征LPCC以及Fbank特征，将所述原始干净语音的线性预测倒谱系数特征LPCC特征以及Fbank特征进行拼接，作为一个样本输入信号特征；确定原始加噪语音的线性预测倒谱系数特征LPCC以及Fbank特征，将所述原始加噪语音的线性预测倒谱系数特征LPCC以及Fbank特征进行拼接，作为一个样本输入信号特征。

在一个或多个实施例中，所述拼接顺序不做限定，以线性预测系数LPC特征以及Fbank特征进行拼接为例，可以为所述性预测系数LPC特征在前，所述Fbank特征在后；也可以是所述Fbank特征在前，所述性预测系数LPC特征在后，本发明实施例对其不做限定。

在一个或多个实施例中，所述特征拼接还可以为两个以上的特征进行拼接，优选的，采用线性预测倒谱系数特征LPCC以及Fbank特征进行特征拼接，本发明实施例对其不做限定，对特征进行拼接的目的在于训练出的降噪模型的降噪效果更好。

在一个或多个实施例中，样本输出信号特征为原始干净语音对应的信号特征，进而可以根据所述样本输出信号特征确定出输出的原始干净语音；可选的，所述降噪模型的输出还可以为原始干净语音。

步骤S503、通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型。

在一个或多个实施例中，所述通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型，具体包括：将所述原始干净语音以及所述原始加噪语音对应的信号特征作为所述降噪模型的输入，所述原始干净语音对应的信号特征作为所述降噪模型的输出；根据所述损失函数训练所述降噪模型，其中，所述降噪模型为神经网络模型。

在一个或多个实施例中，所述原始加噪语音与所述原始干净语音的比例可以为1:1，也可以为多：1，所述加入适量的原始加噪语音的样本数量，所述降噪模型展现出更好的鲁棒性。

在一个或多个实施例中，所述神经网络可以为深度神经网络(Deep NeuralNetworks，DNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent Neural Network,RNN)、或者BLSTM等中的任一种，本发明实施例对其不做限定。

在一个或多个实施例中，确定原始干净语音以及所述原始加噪语音对应的样本输入信号特征时，首先需要进行特征提取，假设需要提取的特征为梅尔频率倒谱系数特征，提取的过程如下图6所示：

步骤S600、接收到音频数据。

步骤S601、将所述音频数据进行预加重、分帧和加窗处理。

步骤S602、将所述音频数据进行预加重、分帧和加窗处理后的结果进行快速傅里叶(Fast Fourier transform，FFT)变换。

步骤S603、将所述FFT变换后的结果取绝对值和平方值。

步骤S604、将所述绝对值和平方值进行Mel滤波。

步骤S605、将进行Mel滤波的结果取对数。

步骤S606、将所述对数据进行离散余弦变换(Discrete Cosine Transform，DCT)，确定梅尔频率倒谱系数信号特征。

步骤S607、输出所述梅尔频率倒谱系数信号特征。

在一个或多个实施例中，通过上述处理流程可以准确的确定出梅尔频率倒谱系数特征，进而确定原始干净语音以及所述原始加噪语音对应的样本输入信号特征。

在一个或多个实施例中，假设需要提取的特征为Fbank特征时，提取的流程与上述图6中步骤S600至步骤S605相同，在步骤S605之后，输出所述Fbank特征，本发明实施例中对其它特征的提取方法不做限定。

图7是本发明实施例提供的一种语音处理的装置示意图，如图7所示，本实施例的装置包括获取单元701、第一确定单元702、第二确定单元703和第三确定单元704，具体的，获取单元701，用于获取包括至少一个音频信号帧的音频数据；第一确定单元702，用于根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪；第二确定单元703，响应于所述音频数据的类型为需要降噪，用于确定所述音频数据的信号特征；第三确定单元704，用于将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。

在一个或多个实施例中，所述第一确定单元具体用于：确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧；确定所述信噪比小于第一设定阈值的音频信号帧的第一数量，以及所述含噪音段的非语音帧的第二数量；根据所述第一数量和所述第二数量确定第三数量；响应于所述第三数量与音频信号帧的总数的比值大于或等于第二设定阈值；确定所述音频数据的类型为需要降噪。

通过上述实施例可以通过信噪比小于第一设定阈值的音频信号帧的数量、非语音帧的数量以及音频信号帧的总数，准确定的确定出音频数据的类型，根据确定出的音频数据的类型，确定后续的处理方式。

在一个或多个实施例中，所述第一确定单元还用于：响应于所述第三数量与所述音频信号帧的总数的比值小于所述第二设定阈值；确定所述音频数据的类型为不需要降噪。

通过上述实施例，确定出音频数据的类型为不需要降噪，可以直接输出，避免对音频数据的损伤，并提高了音频数据的处理速度。

在一个或多个实施例中，所述第一确定单元具体用于：将各音频信号帧输入到预先训练的语音活动检测VAD判别模型，确定各音频信号帧的帧类型，所述帧类型包括语音帧和非语音帧；响应于所述音频信号帧的帧类型为语音帧，输出所述语音帧的信噪比；响应于所述音频信号帧的帧类型为非语音帧，确定所述非语音帧中含噪音段的非语音帧。

通过上述实施例，可以通过VAD判别模型对音频信号帧的帧类型进行判断，然后对不同帧类型的音频信号帧进行不同的后续处理。

在一个或多个实施例中，该装置还包括：所述VAD判别模型包括：语料获取单元，用于获取训练语料数据，其中，所述训练语料数据包括第一音频数据、所述第一音频数据对应的标识、第二音频数据以及所述第二音频数据对应的标识，所述第一音频数据为无噪音的语音数据，所述第二音频数据为在第一音频数据中增加了噪音后得到的音频数据；训练单元，用于根据所述训练语料数据训练所述VAD判别模型。

通过上述实施例，训练出性能良好的VAD判别模型进行音频信号帧的帧类型的判断。

在一个或多个实施例中，所述信号特征包括线性预测系数特征、梅尔频率倒谱系数特征、线性预测倒谱系数特征以及Fbank特征中的任一项。

在一个或多个实施例中，所述降噪模型包括：语音获取单元，用于获取原始干净语音以及不同噪音类型的噪音；处理单元，用于根据所述原始干净语音以及所述不同噪音类型的噪音生成原始加噪语音，其中，所述原始加噪语音为不同信噪比以及不同噪音类型的噪音与所述原始干净语音的组合；特征确定单元，用于确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征和样本输出信号特征；降噪模型训练单元，用于通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型。

通过上述实施例，训练出性能良好的降噪模型，采用所述降噪模型对需要降噪的音频数据进行降噪处理。

在一个或多个实施例中，所述降噪模型训练单元，具体用于：将所述原始干净语音以及所述原始加噪语音对应的信号特征作为所述降噪模型的输入，所述原始干净语音对应的信号特征作为所述降噪模型的输出；根据所述损失函数训练所述降噪模型，其中，所述降噪模型为神经网络模型。

在一个或多个实施例中，所述特征确定单元具体用于：分别提取所述原始干净语音以及所述原始加噪语音对应的至少两类样本输入信号特征；将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征。

通过上述实施例，对两类样本输入信号特征进行拼接，可以提高通过拼接后的信号特征训练出的降噪模型的降噪性能。

在一个或多个实施例中，所述特征确定单元具体用于：将原始加噪语音的两类样本输入信号特征进行叠加，确定所述原始加噪语音的样本输入信号特征；以及将原始干净语音的两种样本输入信号特征进行叠加，确定所述原始干净语音的样本输入信号特征。

通过上述实施例，确定了样本输入信号特征的获取方式，便于后续利用两类样本输入信号特征的叠加出的样本输入信号对降噪模型的训练。

图8是本发明实施例的电子设备的示意图。图8所示的电子设备为语音处理装置，其包括通用的计算机硬件结构，其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器81通过执行存储器82所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起，同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理的方法，其特征在于，包括：

获取包括至少一个音频信号帧的音频数据；

根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪；

响应于所述音频数据的类型为需要降噪，确定所述音频数据的信号特征；

将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。

2.如权利要求1所述的方法，其特征在于，所述根据各音频信号帧确定所述音频数据的类型具体包括：

确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧，其中，语音帧为包含非噪声信号的音频信号帧，所述非语音帧为不包含非噪声信号的音频信号帧；

确定所述信噪比小于第一设定阈值的音频信号帧的第一数量，以及所述含噪音段的非语音帧的第二数量；

根据所述第一数量和所述第二数量确定第三数量；

响应于所述第三数量与音频信号帧的总数的比值大于或等于第二设定阈值；

确定所述音频数据的类型为需要降噪。

3.如权利要求2所述的方法，其特征在于，所述根据各音频信号帧确定所述音频数据的类型还包括：

响应于所述第三数量与所述音频信号帧的总数的比值小于所述第二设定阈值；

确定所述音频数据的类型为不需要降噪。

4.如权利要求2所述的方法，其特征在于，所述确定所述音频数据的各音频信号帧中语音帧的信噪比，以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧，具体为：

将各音频信号帧输入到预先训练的语音活动检测VAD判别模型，确定各音频信号帧的帧类型，所述帧类型包括语音帧和非语音帧；

响应于所述音频信号帧的帧类型为语音帧，输出所述语音帧的信噪比；

响应于所述音频信号帧的帧类型为非语音帧，确定所述非语音帧中含噪音段的非语音帧。

5.根据权利要求4所述的方法，其特征在于，所述VAD判别模型的训练过程包括：

获取训练语料数据，其中，所述训练语料数据包括第一音频数据、所述第一音频数据对应的标识、第二音频数据以及所述第二音频数据对应的标识，所述第一音频数据为无噪音的语音数据，所述第二音频数据为在第一音频数据中增加了噪音后得到的音频数据；

根据所述训练语料数据训练所述VAD判别模型。

6.如权利要求1所述的方法，其特征在于，所述信号特征包括线性预测系数特征、梅尔频率倒谱系数特征、线性预测倒谱系数特征以及Fbank特征中的任一项。

7.如权利要求1所述的方法，其特征在于，所述降噪模型的训练过程包括：

获取原始干净语音以及不同噪音类型的噪音；

根据所述原始干净语音以及所述不同噪音类型的噪音生成原始加噪语音，其中，所述原始加噪语音为不同信噪比以及不同噪音类型的噪音与所述原始干净语音的组合；

确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征和样本输出信号特征；

通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型。

8.如权利要求7所述的方法，其特征在于，所述通过所述样本输入信号特征和样本输出信号特征以及损失函数训练所述降噪模型，具体包括：

将所述原始干净语音以及所述原始加噪语音对应的信号特征作为所述降噪模型的输入，所述原始干净语音对应的信号特征作为所述降噪模型的输出；

根据所述损失函数训练所述降噪模型，其中，所述降噪模型为神经网络模型。

9.如权利要求7所述的方法，其特征在于，所述确定所述原始干净语音以及所述原始加噪语音对应的样本输入信号特征，具体包括：

分别提取所述原始干净语音以及所述原始加噪语音对应的至少两类样本输入信号特征；

将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征。

10.如权利要求9所述的方法，其特征在于，所述将所述两类样本输入信号特征分别进行拼接，确定所述原始干净语音以及所述原始加噪语音对应的所述样本输入信号特征，具体包括：

将原始加噪语音的两类样本输入信号特征进行叠加，确定所述原始加噪语音的样本输入信号特征；以及

将原始干净语音的两种样本输入信号特征进行叠加，确定所述原始干净语音的样本输入信号特征。

11.一种语音处理的装置，其特征在于，包括：

获取单元，用于获取包括至少一个音频信号帧的音频数据；

第一确定单元，用于根据各音频信号帧确定所述音频数据的类型，所述类型包括需要降噪和不需要降噪；

第二确定单元，响应于所述音频数据的类型为需要降噪，用于确定所述音频数据的信号特征；

第三确定单元，用于将所述信号特征输入到预先训练的降噪模型中，确定降噪后的音频数据。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-10任一项所述的方法。