CN109584895A

CN109584895A - 语音降噪方法及装置

Info

Publication number: CN109584895A
Application number: CN201811584024.0A
Authority: CN
Inventors: 聂镭; 沙露露; 郑权; 张峰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-04-05
Anticipated expiration: 2038-12-24
Also published as: CN109584895B

Abstract

本发明公开了一种语音降噪方法及装置。其中，该方法包括：将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；将目标去噪语音信号的采样点二转换目标语音的去噪语音。本发明解决了相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的技术问题。

Description

语音降噪方法及装置

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种语音降噪方法及装置。

背景技术

语音增强，又称作语音降噪，是指从被噪声污染的信号中恢复出原始的语音信号，从而提高语音信号的可懂度和清晰度。大部分语音增强技术一般是将原始信号的功率谱和估计出的噪声信号功率谱直接相减，将相减之后的功率谱进行开根号并与原始的相位相乘得到估计出的语音信号，忽略了相减过程中对相位带来的影响。

针对上述相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音降噪方法及装置，以至少解决相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种语音降噪方法，包括：将目标带噪语音信号按照预定格式中的采样频率进行采样，得到所述目标带噪语音信号的采样点一；通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，所述语音增强模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与所述带噪语音信号的采样点对应的去噪语音信号的采样点；将所述目标去噪语音信号的采样点二转换目标语音的去噪语音。

可选地，所述训练数据为从带噪语音数据集中选取出来的部分数据，其中，所述带噪语音数据集包括预定数量的由预定干净语音与预定背景噪声进行叠加得到的带噪语音。

可选地，所述预定干净语音为从TIMIT语音数据集中选取的语音，所述预定背景噪声包括：加性噪声和从Aurora2数据集中选取的噪声。

可选地，所述带噪语音数据集中除所述部分数据外的另外一部分数据作为验证数据，其中，所述验证数据用于对所述语音增强模型进行测试。

可选地，在通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二之前，还包括：基于所述多组训练数据训练得到所述语音增强模型；其中，基于所述多组训练数据训练得到所述语音增强模型包括：将所述多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入；获取所述wavenet网络模型的输出；将所述wavenet网络模型的输出作为预定格式的卷积层的输入；对输入到所述预定格式的卷积层的所述wavenet网络模型的输出进行平滑处理，得到所述预定格式的卷积层的输出；确定所述多组训练数据中的每组训练数据对应的与所述带噪语音信号的采样点对应的去噪语音信号的采样点和所述预定格式的卷积层的输出之间的偏差量；利用所述偏差量对所述wavenet网络模型进行调整，得到所述语音增强模型。

可选地，在将所述多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入之前，该语音降噪方法还包括：按照所述多组训练数据中每组训练数据的采样点的采样顺序对所述多组训练数据进行划分，得到所述wavenet网络模型的多个采样点输入，其中，所述多个采样点输入包括：第一采样点、第二采样点、第三采样点、第四采样点以及第五采样点，所述第三采样点为当前输入到所述wavenet网络模型的采样点，所述第二采样点和所述第四采样点分别为所述第三采样点之前和所述第三采样点之后的采样点，所述第一采样点为所述第二采样点之前的采样点，所述第五采样点为所述第四采样点之后的采样点。

可选地，所述第一采样点为从所述第二采样点之后的第一预定数量的采样点中选取的第二预定数量的采样点，所述第五采样点分别为从所述第四采样点之后的所述第一预定数量的采样点中选取的所述第二预定数量的采样点。

可选地，所述第二采样点，第三采样点以及所述第四采样点为连续的采样点。

可选地，在基于所述多组训练数据训练得到所述语音增强模型之后，该语音降噪方法还包括：利用所述验证数据对所述语音增强模型进行测试。

根据本发明实施例的另外一个方面，还提供了一种语音降噪装置，包括：采样单元，用于将目标带噪语音信号按照预定格式中的采样频率进行采样，得到所述目标带噪语音信号的采样点一；确定单元，用于通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，所述语音增强模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与所述带噪语音信号的采样点对应的去噪语音信号的采样点；转换单元，用于将所述目标去噪语音信号的采样点二转换目标语音的去噪语音。

可选地，该语音降噪装置还包括：训练单元，用于在通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二之前，基于所述多组训练数据训练得到所述语音增强模型；其中，所述训练单元包括：第一确定模块，用于将所述多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入；第一获取模块，用于获取所述wavenet网络模型的输出；第二确定模块，用于将所述wavenet网络模型的输出作为预定格式的卷积层的输入；处理模块，用于对输入到所述预定格式的卷积层的所述wavenet网络模型的输出进行平滑处理，得到所述预定格式的卷积层的输出；第三确定模块，用于确定所述多组训练数据中的每组训练数据对应的与所述带噪语音信号的采样点对应的去噪语音信号的采样点和所述预定格式的卷积层的输出之间的偏差量；第二获取模块，用于利用所述偏差量对所述wavenet网络模型进行调整，得到所述语音增强模型。

可选地，该语音降噪装置还包括：划分单元，用于在将所述多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入之前，按照所述多组训练数据中每组训练数据的采样点的采样顺序对所述多组训练数据进行划分，得到所述wavenet网络模型的多个采样点输入，其中，所述多个采样点输入包括：第一采样点、第二采样点、第三采样点、第四采样点以及第五采样点，所述第三采样点为当前输入到所述wavenet网络模型的采样点，所述第二采样点和所述第四采样点分别为所述第三采样点之前和所述第三采样点之后的采样点，所述第一采样点为所述第二采样点之前的采样点，所述第五采样点为所述第四采样点之后的采样点。

可选地，在基于所述多组训练数据训练得到所述语音增强模型之后，该语音降噪装置还包括：利用所述验证数据对所述语音增强模型进行测试。

根据本发明实施例的另外一个方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述中任意一项所述的语音降噪方法。

根据本发明实施例的另外一个方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的语音降噪方法。

在本发明实施例中，采用将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；将目标去噪语音信号的采样点二转换目标语音的去噪语音。在本申请实施例中，可以将待处理的目标语音转换为语音增强模型的输入，根据语音增强模型对输入的目标语音进行处理得到目标语音对应的目标去噪语音信号的采样点以得到目标去噪语音，实现了直接根据语音增强模型的输出得到目标去噪语音信号的目的，达到了提高语音降噪的技术效果，进而解决了相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音降噪方法的流程图；

图2是根据本发明实施例的语音增强模型的结构图；

图3是根据本发明实施例的平滑处理的示意图；

图4是根据本发明实施例的语音降噪装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语音降噪方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音降噪方法的流程图，如图1所示，该语音降噪方法包括如下步骤：

步骤S102，将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一。

例如，上述目标语音为一段3s的带噪语音信号，当采样频率为16KHz时，共有48000个采样点。

步骤S104，通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点。

步骤S106，将目标去噪语音信号的采样点二转换目标语音的去噪语音。

通过上述步骤，可以将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；将目标去噪语音信号的采样点二转换目标语音的去噪语音。在本申请实施例中，可以将待处理的目标语音转换为语音增强模型的输入，根据语音增强模型对输入的目标语音进行处理得到目标语音对应的目标去噪语音信号的采样点以得到目标去噪语音，实现了直接根据语音增强模型的输出得到目标去噪语音信号的目的，达到了提高语音降噪的技术效果，进而解决了相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的技术问题。

需要说明的是，上述多组训练数据为从带噪语音数据集中选取出来的部分数据，其中，带噪语音数据集包括预定数量的由预定干净语音与预定背景噪声进行叠加得到的带噪语音。

具体地，预定干净语音为从TIMIT语音数据集中选取的语音，预定背景噪声包括：加性噪声和从Aurora2数据集中选取的噪声。其中，加性噪音是指热噪音、散弹噪音等，它们与信号的关系是相加的，不管有没有信号，噪音都是存在的。

即，本发明实施例中所采用的训练数据是基于TIMIT语音数据集构建的，上述预定背景噪音可以包括但不限于三种，在本发明实施例中以三中为例，例如，预定背景噪音可以包括三种加性噪音(比如，人群噪杂声(babble)、餐厅噪声(restaurant)以及街道噪声(street))和从Aurora2数据集中选取的噪音。将从TIMIT语音数据集中选取预定数量(例如，4620句)的干净语音分别与上述四种噪音进行相加。信噪比分别设置为：0dB，5dB，10dB，15dB。具体地，将干净语音与上述四种噪音进行重采样到预定赫兹(例如，8kHz，16kHz，48kHz，在本发明实施例中优选为16kHz)后进行相加。

优选的，对于整个带噪音语音数据集来讲，语音长度平均为3s，标准差为1s。

需要说明的是，由于wavenet网络的输入是原始信号，输出是处理后的信号，因此，无需对整个带噪音语音数据集进行加窗分帧处理，只需要将带噪音语音数据集采样到16kHz，由此来构建一个多种情况的平行训练数据和验证数据，用来训练基于wavenet段对端的语音增强模型。从而简化了语音降噪的流程，提高了语音降噪的效率。

为了使得训练得到的语音增强模型更加可靠，带噪语音数据集中除部分数据外的另外一部分数据作为验证数据，其中，验证数据用于对语音增强模型进行测试。优选的，可以将带噪音语音数据集按照6:4进行随机划分，得到训练数据和测试数据。

作为一种可选的实施例，在通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二之前，该语音降噪方法还可以包括：基于多组训练数据训练得到语音增强模型；其中，基于多组训练数据训练得到语音增强模型包括：将多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入；获取wavenet网络模型的输出；将wavenet网络模型的输出作为预定格式的卷积层的输入；对输入到预定格式的卷积层的wavenet网络模型的输出进行平滑处理，得到预定格式的卷积层的输出；确定多组训练数据中的每组训练数据对应的与带噪语音信号的采样点对应的去噪语音信号的采样点和预定格式的卷积层的输出之间的偏差量；利用偏差量对wavenet网络模型进行调整，得到语音增强模型。

另外，在将多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入之前，该语音降噪方法还可以包括：按照多组训练数据中每组训练数据的采样点的采样顺序对多组训练数据进行划分，得到wavenet网络模型的多个采样点输入，其中，多个采样点输入包括：第一采样点、第二采样点、第三采样点、第四采样点以及第五采样点，第三采样点为当前输入到wavenet网络模型的采样点，第二采样点和第四采样点分别为第三采样点之前和第三采样点之后的采样点，第一采样点为第二采样点之前的采样点，第五采样点为第四采样点之后的采样点。

其中，图2是根据本发明实施例的语音增强模型的结构图，如图2所示，以3层网络为例，该网络为扩张卷积网络，di lation步长分别为：1,2,4。输出“denoised”表示降噪后的语音信号。另外，输入包括多个部分，其中，“previous select”(即，第一采样点)表示从“previous”(即，第二采样点)之前的70个采样点中随机抽取的7个采样点；“previous”表示在当前采样点“current”(即，第三采样点)之前连续的7个采样点；“future”(即，第四采样点)表示在当前采样点“current”之后连续的7个采样点；“future select”(即，第五采样点)表示在“future”之后的70个采样点中随机抽取的7个采样点。需要说明的是，“previous”、“current”以及“future”是连续的，采样点是两两相邻的；而“future select”和“previous select”是随机选取的，可以两两相邻，也可以不两两相邻，但是，需要是按时间顺序排列的。

具体地，第一采样点为从第二采样点之后的第一预定数量的采样点中选取的第二预定数量的采样点，第五采样点分别为从第四采样点之后的第一预定数量的采样点中选取的第二预定数量的采样点。

需要说明的是，第二采样点，第三采样点以及第四采样点为连续的采样点。

例如，目标语音对应的语音信号的时长为40s,当采样频率为16KHz时，该段共有640个采样点。若该段语音信号(即，目标带噪语音信号)的每个采样点输入到wavenet网络模型中，则第一层需要640个连接，第二层需要320(640/2)个连接，第三层需要80(320/2²)个连接，以此类推。若分别从160个previous之前随机抽取得到16个previous select，从160个future之后随机抽取得到16个future select，则第一层需要352(320+16*2)个连接，第二层需要176(352/2)个连接，第三层需要44(176/2²)个连接，则针对一段640个采样点的音频，使用本发明实施例提供的语音降噪方法感受野相同时，计算量降低了一半，由于语音信号具有短时平稳性，距离当前采样点current相对较远(previous+current+future时长为20s，符合语音信号短时平稳性)，故previous select和future select的个数无需进行过多选取。

优选的，在基于多组训练数据训练得到语音增强模型之后，该语音降噪方法还可以包括：利用验证数据对语音增强模型进行测试。

另外，在得到wavenet网络模型的输出之后，将wavenet网络模型的输出连接两个3*1的卷积层，以对wavenet网络模型的输出进行平滑处理，使得处理之后的目标去噪信号更加接近人耳能够接受的语音信号，其中，平滑处理方法有多种，在本申请实施例中对平滑处理方法不做具体限定。其中，为了保证平滑后的语音信号的连续性，优选为平均平滑处理法。为了保证平滑前后语音信号长度不发生改变，需要进行补零，平滑处理过程如图3所示，图3是根据本发明实施例的平滑处理的示意图，如图3所示，以8个采样点为例，对8个采样点的值进行平滑处理，8个采样点的值平滑前用x1-x8来表示，平滑后的值用y1-y8来表示，则y1＝(0+x1+x2)/3，y2＝(x1+x2+x3)/3，依次类推。

需要说明的是，将原有的目标语音对应的目标带噪语音信号与降噪处理后的目标去噪语音信号相减即可得到估计出的噪音信号。

另外，需要说明的是，在本发明实施例中采用随机梯度下降方法对语音增强模型进行训练。

例如，将一段3s的目标带噪语音信号作为语音增强模型的输入，当采样频率为16KHz时，共有48000个采样点，输入到增强网络模型中，输出得到降噪之后的包含48000个采样点对应的目标降噪语音信号，将原始的目标带噪语音信号与降噪之后的去噪语音信号相减可以估计得到背景噪音信号。

通过本发明实施例提供的语音降噪方法在原有的wavenet网络模型上进行修改，由于语音信号具有短时平稳性，从而可以在wavenet网络模型输入部分增加“previousselect”和“future select”两部分输入，从而进一步扩大语音信号的感受野，确保语音降噪方法的稳健性；另外，由于语音信号的上下文联系较大，对于“previous select”和“future select”两部分训练数据采用随机抽取的方式，避免了对全部训练数据进行训练，大大减少了运算量，提高了计算速度。

实施例2

根据本发明实施例还提供了一种语音降噪装置，需要说明的是，本发明实施例的语音降噪装置可以用于执行本发明实施例所提供的语音降噪方法。以下对本发明实施例提供的语音降噪装置进行介绍。

图4是根据本发明实施例的语音降噪装置的示意图，如图4所示，该语音降噪装置包括：采样单元41，确定单元43，转换单元45。下面对该语音降噪装置进行详细说明。

采样单元41，用于将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一。

确定单元43，用于通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点。

第二转换单元45，用于将目标去噪语音信号的采样点二转换目标语音的去噪语音。

需要说明的是，该实施例中的采样单元41可以用于执行本发明实施例中的步骤S102，该实施例中的确定单元43可以用于执行本发明实施例中的步骤S104，该实施例中的转换单元45可以用于执行本发明实施例中的步骤S106。上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

在该实施例中，可以利用采样单元将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；然后利用确定单元通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；并利用第二转换单元将目标去噪语音信号的采样点二转换目标语音的去噪语音。在本申请实施例中，可以将待处理的目标语音转换为语音增强模型的输入，根据语音增强模型对输入的目标语音进行处理得到目标语音对应的目标去噪语音信号的采样点以得到目标去噪语音，实现了直接根据语音增强模型的输出得到目标去噪语音信号的目的，达到了提高语音降噪的技术效果，进而解决了相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的技术问题。

作为一种可选的实施例，训练数据为从带噪语音数据集中选取出来的部分数据，其中，带噪语音数据集包括预定数量的由预定干净语音与预定背景噪声进行叠加得到的带噪语音。

作为一种可选的实施例，预定干净语音为从TIMIT语音数据集中选取的语音，预定背景噪声包括：加性噪声和从Aurora2数据集中选取的噪声。

作为一种可选的实施例，带噪语音数据集中除部分数据外的另外一部分数据作为验证数据，其中，验证数据用于对语音增强模型进行测试。

作为一种可选的实施例，该语音降噪装置还包括：训练单元，用于在通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二之前，基于多组训练数据训练得到语音增强模型；其中，训练单元包括：第一确定模块，用于将多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入；第一获取模块，用于获取wavenet网络模型的输出；第二确定模块，用于将wavenet网络模型的输出作为预定格式的卷积层的输入；处理模块，用于对输入到预定格式的卷积层的wavenet网络模型的输出进行平滑处理，得到预定格式的卷积层的输出；第三确定模块，用于确定多组训练数据中的每组训练数据对应的与带噪语音信号的采样点对应的去噪语音信号的采样点和预定格式的卷积层的输出之间的偏差量；第二获取模块，用于利用偏差量对wavenet网络模型进行调整，得到语音增强模型。

作为一种可选的实施例，该语音降噪装置还包括：划分单元，用于在将多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入之前，按照多组训练数据中每组训练数据的采样点的采样顺序对多组训练数据进行划分，得到wavenet网络模型的多个采样点输入，其中，多个采样点输入包括：第一采样点、第二采样点、第三采样点、第四采样点以及第五采样点，第三采样点为当前输入到wavenet网络模型的采样点，第二采样点和第四采样点分别为第三采样点之前和第三采样点之后的采样点，第一采样点为第二采样点之前的采样点，第五采样点为第四采样点之后的采样点。

作为一种可选的实施例，第一采样点为从第二采样点之后的第一预定数量的采样点中选取的第二预定数量的采样点，第五采样点分别为从第四采样点之后的第一预定数量的采样点中选取的第二预定数量的采样点。

作为一种可选的实施例，第二采样点，第三采样点以及第四采样点为连续的采样点。

作为一种可选的实施例，在基于多组训练数据训练得到语音增强模型之后，该语音降噪装置还包括：利用验证数据对语音增强模型进行测试。

上述语音降噪装置包括处理器和存储器，上述采样单元41，确定单元43，转换单元45等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数将目标去噪语音信号的采样点二转换目标语音的去噪语音。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本发明实施例的另外一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，程序执行上述中任意一项的语音降噪方法。

根据本发明实施例的另外一个方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的语音降噪方法。

在本发明实施例中还提供了一种设备，该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；将目标去噪语音信号的采样点二转换目标语音的去噪语音。

在本发明实施例中还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；将目标去噪语音信号的采样点二转换目标语音的去噪语音。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音降噪方法，其特征在于，包括：

将目标带噪语音信号按照预定格式中的采样频率进行采样，得到所述目标带噪语音信号的采样点一；

通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，所述语音增强模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与所述带噪语音信号的采样点对应的去噪语音信号的采样点；

将所述目标去噪语音信号的采样点二转换目标语音的去噪语音。

2.根据权利要求1所述的方法，其特征在于，所述训练数据为从带噪语音数据集中选取出来的部分数据，其中，所述带噪语音数据集包括预定数量的由预定干净语音与预定背景噪声进行叠加得到的带噪语音。

3.根据权利要求2所述的方法，其特征在于，所述预定干净语音为从TIMIT语音数据集中选取的语音，所述预定背景噪声包括：加性噪声和从Aurora2数据集中选取的噪声。

4.根据权利要求2所述的方法，其特征在于，所述带噪语音数据集中除所述部分数据外的另外一部分数据作为验证数据，其中，所述验证数据用于对所述语音增强模型进行测试。

5.根据权利要求4所述的方法，其特征在于，在通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二之前，还包括：

基于所述多组训练数据训练得到所述语音增强模型；

其中，基于所述多组训练数据训练得到所述语音增强模型包括：

将所述多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入；

获取所述wavenet网络模型的输出；

将所述wavenet网络模型的输出作为预定格式的卷积层的输入；

对输入到所述预定格式的卷积层的所述wavenet网络模型的输出进行平滑处理，得到所述预定格式的卷积层的输出；

确定所述多组训练数据中的每组训练数据对应的与所述带噪语音信号的采样点对应的去噪语音信号的采样点和所述预定格式的卷积层的输出之间的偏差量；

利用所述偏差量对所述wavenet网络模型进行调整，得到所述语音增强模型。

6.根据权利要求5所述的方法，其特征在于，在将所述多组训练数据中的每组训练数据对应的原始带噪语音信号的采样点依次作为wavenet网络模型的输入之前，还包括：

按照所述多组训练数据中每组训练数据的采样点的采样顺序对所述多组训练数据进行划分，得到所述wavenet网络模型的多个采样点输入，其中，所述多个采样点输入包括：第一采样点、第二采样点、第三采样点、第四采样点以及第五采样点，所述第三采样点为当前输入到所述wavenet网络模型的采样点，所述第二采样点和所述第四采样点分别为所述第三采样点之前和所述第三采样点之后的采样点，所述第一采样点为所述第二采样点之前的采样点，所述第五采样点为所述第四采样点之后的采样点。

7.根据权利要求6所述的方法，其特征在于，所述第一采样点为从所述第二采样点之后的第一预定数量的采样点中选取的第二预定数量的采样点，所述第五采样点分别为从所述第四采样点之后的所述第一预定数量的采样点中选取的所述第二预定数量的采样点。

8.根据权利要求7所述的方法，其特征在于，所述第二采样点，第三采样点以及所述第四采样点为连续的采样点。

9.根据权利要求5所述的方法，其特征在于，在基于所述多组训练数据训练得到所述语音增强模型之后，还包括：利用所述验证数据对所述语音增强模型进行测试。

10.一种语音降噪装置，其特征在于，包括：

采样单元，用于将目标带噪语音信号按照预定格式中的采样频率进行采样，得到所述目标带噪语音信号的采样点一；

确定单元，用于通过语音增强模型，确定与所述目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，所述语音增强模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与所述带噪语音信号的采样点对应的去噪语音信号的采样点；

转换单元，用于将所述目标去噪语音信号的采样点二转换目标语音的去噪语音。