CN111462737B

CN111462737B - 一种训练用于语音分组的分组模型的方法和语音降噪方法

Info

Publication number: CN111462737B
Application number: CN202010225558.5A
Authority: CN
Inventors: 郭青丽; 叶靖; 胡瑜; 李晓维
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-08-08
Anticipated expiration: 2040-03-26
Also published as: CN111462737A

Abstract

本发明实施例提供了一种训练用于语音分组的分组模型的方法和语音降噪方法，该语音降噪方法包括：B1、获取输入音频，提取输入音频的分组特征；B2、将输入音频的分组特征输入分组模型，预测性地输出该输入音频的标签；B3、根据该输入音频的标签，将用该标签对应的组别的最优降噪策略处理后的音频得到的转录文本作为该输入音频的转录文本。本发明实施例的技术方案能够根据输入音频的对抗扰动的大小，预测其所属的组别，为其选择适于该组别的降噪策略进行降噪，可以降低转录的错误率，而且可以在保证在对抗转录恢复为原始转录的同时，不会影响干净样本的转录质量。

Description

一种训练用于语音分组的分组模型的方法和语音降噪方法

技术领域

本发明涉及语音识别领域，具体来说涉及有关对抗攻击处理的语音识别领域，更具体地说，涉及一种训练用于语音分组的分组模型的方法和语音降噪方法。

背景技术

深度神经网络(DNN)在各种人工智能应用中已经取得了令人瞩目的成就，包括图像分类、自然语言处理、以及语音识别。在某些领域，DNN的性能已经达到甚至超过人类的水平。因此，DNN在一些安全敏感的、要求模型高鲁棒性的任务中得到广泛使用。

然而，近年来，深度神经网络受到对抗攻击的严重威胁。对抗攻击通过向合法样本添加细微噪声来生成对抗样本。虽然人类无法识别对抗样本，他们却能让深度神经网络发生误判，给关键任务带来灾难性的后果。在图像识别领域，交通标志相关的图像识别中，遭受对抗攻击后将“停止”标志识别为“禁止鸣笛”会危及到人的生命；犯人追踪相关的图像识别中，遭受对抗攻击后如果将真正的犯人识别为其他人，则会对抓捕行动造成很大障碍。类似的，在语音识别领域，也存在相应的风险。比如，在语音操作相关的语音识别中，遭受对抗攻击后如果将用户原来的正常操作识别为其他操作，则可能造成语音识别准确率降低，甚至造成一些风险。

对抗攻击主要有两种：有目标攻击和无目标攻击。在有目标攻击中，对抗样本的转录文本结果是由攻击者指定的；无目标对抗攻击只需要保证语音对抗样本的转录文本与干净样本的转录文本不同。有目标攻击通过最小化目标预测的损失值实现，无目标攻击通过最大化干净预测的损失值实现。与无目标攻击相比，有目标攻击实现起来更加困难。

对抗样本的早期工作集中于图像领域。图像对抗样本为欺骗图像分类系统而生成。直到最近，研究者才逐渐将注意力集中到语音对抗样本。语音对抗样本为欺骗自动语音识别系统而生成，自动语音识别系统能够将语音文件转录为文本。比较受欢迎的语音识别系统包括微软的Cortana、苹果的Siri，谷歌的Now，亚马逊的Alexa，CMU的Sphinx、以及百度的DeepSpeech等等。DeepSpeech是基于DNN的端对端语音识别系统。与语音对抗样本相关的工作主要有两个主题：对抗攻击和对抗防御。

一些对抗方法可生成无目标语音对抗样本，只需要保证对抗样本的转录文本与原始的转录文本不同。另一些对抗方法可生成有目标语音对抗样本。比如，在一种有目标语音对抗样本对应的对抗方法中，可以生成隐藏语音指令，这些指令人类听不懂，但是语音识别系统能够听懂。但是，由于隐藏语音指令人类能够听到，而且听起来很像噪音，因此很容易被人类识别出来。利用麦克风电路的非线性特征，得以生成机器能够听到但是人类听不到的语音指令。幸运的是，由于这些语音信号是超声的，其可以被低通滤波器和分组模型检测出来。

霍迪尼(Houdini)提出一种更强大的攻击方法，其通过改变现有的语音文件来生成有目标语音对抗样本。然而，这种方法只在目标转录文本和干净转录文本发音相似时有效。

卡莲娜(Carlini)等人提出一种更强大的有目标攻击方法，这种攻击方法对任意一个对抗转录文本都有效。生成的语音对抗样本很难被人类辨认，而且是针对目前最先进的语音识别系统—DeepSpeech做的攻击。

语音对抗样本防御旨在检测语音对抗样本或恢复干净转录文本。在语音识别中，目标是文本序列，可以是字符的任意组合，有众多的可能性。音频对抗样本目标是更改语义，语义的改变体现在转录距离的更改。根据语义差异的大小，转录距离各不相同。转录距离可能进一步影响对抗性扰动的赋值并进一步影响防御难度。

多种策略已经被提出来为对抗样本恢复干净的转录文本。一些研究利用数据增强和对抗训练来提高模型的鲁棒性。还有一些研究利用输入变换来减轻对抗性噪声的影响并恢复干净的音频序列。输入转换不需要修改模型，因此可以直接集成到自动语音识别(Automatic Speech Recognition，ASR)系统中。但是，由于恢复的音频序列与干净的音频序列仍然有很大差异，因此转录的质量也被大大降低；与此同时，干净样本的转录质量也被降低。

图像分类的输出是输入图像的类别，对抗攻击的目标被限制在有限的空间中。与之不同的是，自动语音识别系统的输出是文本，而对抗样本的目标可以是某种语言中字词的任意组合。语音对抗样本的目标是更改语义，语义的更改主要体现在转录距离上。但是，语义差异和转录距离可能不一致，这进一步影响到对抗干扰的大小。不同的语音对抗样本，其转录距离有大有小。现有防御策略用相同的方式对待所有的语音对抗样本，但是不合适的，因为添加的扰动大小各不相同。因此，有必要对现有技术进行改进。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种训练用于语音分组的分组模型的方法和语音降噪方法。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种训练用于语音分组的分组模型的方法，包括：

A1、根据训练集中所有音频的对抗扰动的大小对所有音频进行分组，其中，训练集中的所有音频包含干净样本和在干净样本中分别加入不同程度的干扰形成的对抗样本；

A2、获得基于预选的多种去噪算法形成的多种降噪策略对不同的组别中音频的降噪效果，为每个组别选取最优降噪策略，其中干净样本所在的组别对应的最优降噪策略为不降噪；

A3、提取训练集中所有音频所在分组对应的标签和多个分组特征；

A4、用训练集中各音频的标签和分组特征训练分组模型，其中，所述分组模型采用支持向量机模型。

在本发明的一些实施例中，分组后的分组数量至少为四组，分别为第0组、第1组、第2组、第3组，其中，第0组对应的对抗扰动为0，第1组到最后一组对应的对抗扰动的大小范围的合集为(0～100％]且每个组的对抗扰动的大小范围彼此不重合。

在本发明的一些实施例中，所述步骤A3包括：

A31、根据训练集中所有音频的组别为其分配一个标签，每种组别对应一种标签；

A32、提取训练集中所有音频所在分组对应的分组特征，其中，一个音频的分组特征包括该音频分别采用除第0组外的各分组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪得到的原始转录文本的字错误率。

在本发明的一些实施例中，每个音频对应的分组特征包括第一、第二和第三分组特征，其中，第0组对应的最优降噪策略是不降噪，每个音频对应的第一、第二和第三分组特征分别是该音频采用第1组、第2组和第3组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪的输入音频的原始转录文本的字错误率。

在本发明的一些实施例中，所述预选的多种去噪算法包括：量化去噪、中值平滑去噪和小波去噪；所述第1组对应的对抗扰动的大小范围是(0～33％]，第1组的最优降噪策略是先量化去噪，后中值平滑去噪，其中，量化去噪的量化参数设置为2，中值平滑去噪的滑窗大小参数设置为3；所述第2组对应的对抗扰动的大小范围为(33～67％]，第2组的最优降噪策略是先小波去噪，后量化去噪，其中，小波去噪的分解级别参数设置为2，选用的小波名称设置为db6，量化去噪的量化参数设置为4；所述第3组对应的对抗扰动的大小范围为(67～100％]，第3组的最优降噪策略是小波去噪，其中，小波去噪的分解级别参数设置为5，选用的小波名称设置为db2。

根据本发明的第二方面，提供一种语音降噪方法，包括：

B1、获取输入音频，提取输入音频的分组特征；

B2、将输入音频的分组特征输入如第一方面所述的方法得到的分组模型，预测性地输出该输入音频的标签；

B3、根据该输入音频的标签，将用该标签对应的组别的最优降噪策略处理后的音频得到的转录文本作为该输入音频的转录文本。

在本发明的一些实施例中，所述步骤B1包括：

B11、获取输入音频，将输入音频用除第0组外的各组别对应的最优降噪策略进行处理，得到用除第0组外的各分组的最优降噪策略降噪后得到的音频；

B12、根据用除第0组外的各分组的最优降噪策略降噪后得到的音频对应的降噪转录文本和不采用降噪的输入音频的原始转录文本提取输入音频的分组特征，其中，输入音频的分组特征包括该输入音频分别采用除第0组外的各分组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪得到的原始转录文本的字错误率。

在本发明的一些实施例中，所述分组包括第0组、第1组、第2组和第3组，所述标签包括第一、第二、第三和第四标签，输入音频对应的分组特征包括第一、第二和第三分组特征，其中，第0组对应的最优降噪策略是不降噪，第一、第二、第三和第四标签依次对应于第0组、第1组、第2组和第3组，每个输入音频对应的第一、第二和第三分组特征分别是该输入音频采用第1组、第2组和第3组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对不采用降噪的输入音频的原始转录文本的字错误率。

在本发明的一些实施例中，在所述步骤B3中，在输入音频的标签是第一标签时，将用不采用降噪的输入音频对应的原始转录文本作为该输入音频的转录文本；在输入音频的标签是第二标签时，将用由第1组的最优降噪策略得到的音频对应的转录文本作为该输入音频的转录文本；在输入音频的标签是第三标签时，将用由第2组的最优降噪策略得到的音频对应的转录文本作为该输入音频的转录文本；在输入音频的标签是第四标签时，将用由第3组的最优降噪策略得到的音频对应的转录文本作为该输入音频的转录文本。

根据本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现如第一方面或者第二方面所述的方法。

与现有技术相比，本发明的优点在于：

本发明实施例的技术方案能够根据输入音频的对抗扰动的大小，预测其所属的组别，为其选择适于该组别的降噪策略进行降噪，可以降低转录的错误率，而且可以在保证在对抗转录恢复为原始转录的同时，不会影响干净样本的转录质量。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的一种训练用于语音分组的分组模型的方法的流程示意图；

图2为根据本发明的一个示例中对降噪策略中相应去燥算法的参数对调整过程示意图；

图3为根据本发明的一个示例的智能降噪的过程示意图；

图4为根据本发明实施例的一种语音降噪方法的流程示意图；

图5为根据本发明实施例的一种语音降噪方法的流程示意图；

图6为根据本发明的一个示例中音频对抗样本扰动统计分析结果的示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，现有防御策略用相同的方式对待所有的语音对抗样本，这是不合适的，因为不同的攻击添加的扰动大小可能各不相同。换言之，已有降噪方法仅单独应用一种方法对音频进行降噪处理，搜索空间比较小，而不同的语音对抗样本，由于转录距离的不同，添加的扰动大小各不相同，现有的防御策略用相同的方式对待所有的语音对抗样本，不能根据各音频的实际特点，有针对性的采用降噪策略。发明人在进行语音对抗样本防御的研究时，发现为了有效防御语音对抗样本，需要解决以下几个问题：对音频文件有效分组，同一组音频对应的最优降噪策略相同；为每一组音频选取最佳的降噪策略及相关配置；为新的、未见过的输入音频选取最有效的降噪策略，此策略既能为对抗样本有效降噪，又不能影响干净样本的转录结果。发明人通过对以上三个问题的解决方法深入探究，提出了能够满足以上三个要求的智能降噪研究方法。针对第一个问题，由于对抗扰动的大小跟转录距离呈正相关关系，因此，根据转录距离的大小，将音频文件分为多组。针对第二个问题，对传统的去噪算法进行单独、组合的分析和对去噪算法的参数进行调整(对去噪算法的参数进行精调)，对去噪算法的参数进行调整时将各组音频分开考虑，以为每组音频选出最优降噪策略。针对第三个问题，提出智能降噪的方法，为输入音频预测其所属的组别，选取该组别对应的最优降噪策略，以根据不同的输入音频选择与其适配的降噪策略，而不是对所有输入音频采用相同的降噪策略。

在对本发明的实施例进行具体介绍之前，先对其中使用到的部分术语作如下解释：

干净转录文本，是指干净语音文件的转录文本。

对抗转录文本，是指语音对抗样本的转录文本。

原始转录文本，是指原始语音文件的转录文本。

原始语音文件，是指没有经过降噪处理的文件，所以原始语音文件可能是干净样本也可能是对抗样本。

降噪转录文本，是指对原始语音文件降噪后的语音文件的转录文本。

转录距离，是指干净转录文本和对抗转录文本之间的距离。

对抗扰动的大小，是指添加的用于干扰的字的数量占对抗样本中所有字的数量的百分比占比。

语意差异，是指干净转录文本的语义和对抗转录文本的语义之间的差异。

根据本发明的一个实施例，参见图1，提供一种训练用于语音分组的分组模型的方法，包括：

A3、提取训练集中所有音频所在分组对应标签和的多个分组特征；

A4、用训练集中各音频的标签和分组特征训练分组模型，其中，分组模型采用支持向量机模型。该实施例的技术方案至少能够实现以下有益技术效果：通过为每个组别选取最优降噪策略，可以便于后期根据不同音频对其采用不同的降噪策略，达到更好的降噪效果。

为了更好地理解上述方法，下面结合具体的实施例针对每一个步骤分别进行详细说明。

在步骤A1中，根据训练集中所有音频的对抗扰动的大小对所有音频进行分组。进行分组后得到多个分组。优选的，分组后的分组数量至少为四组，分别为第0组、第1组、第2组、第3组，其中，第0组对应的对抗扰动为0，第1组到最后一组对应的对抗扰动的大小范围的合集为(0～100％]且每个组的对抗扰动的大小范围彼此不重合。

在步骤A2中，获得基于预选的多种去噪算法形成的多种降噪策略对不同的组别中音频的降噪效果，为每个组别选取最优降噪策略，其中干净样本所在的组别对应的最优降噪策略为不降噪。

优选的，步骤A2包括：

A21、采用预选的多种去噪算法形成的单独降噪策略和组合降噪策略分别对各组别的音频进行降噪，其中，单独降噪策略仅包含一种去噪算法，组合降噪策略包含至少两种去噪算法；

A22、分析各单独降噪策略和组合降噪策略对不同的组别中音频的降噪效果，得到各种降噪策略下各组别的音频转录后的字错误率；

A23、将每个组别中对音频转录后的字错误率最低的降噪策略选为该组别对应的最优降噪策略。

优选的，预设的多种去噪算法包括量化去噪、中值平滑去噪和小波去噪。应当注意的是，前面给出的多种去噪算法仅是示意的，本发明对此不作任何限制。

优选的，分析各组合降噪策略对不同的组别中音频的降噪效果时，可以对组合降噪策略中不同的去噪算法的执行顺序进行组合，以分别用组合降噪策略中不同的去噪算法的不同的顺序组合对各组别的音频进行降噪，得到各组合降噪策略中不同的去噪算法的不同的顺序组合下各组别的音频转录后的字错误率。由此，可以得到更多的对比效果，以选取更优的降噪策略。

优选的，第0组对应的对抗扰动的大小是0；第1组对应的对抗扰动的大小范围是(0～33％]；第2组对应的对抗扰动的大小范围为(33～67％]；第3组对应的对抗扰动的大小范围为(67～100％]。

优选的，第0组的最优降噪策略是不降噪。第1组的最优降噪策略是先量化去噪，后中值平滑去噪，其中，量化去噪的量化参数设置为2，中值平滑去噪的滑窗大小参数设置为3。第2组的最优降噪策略是先小波去噪，后量化去噪，其中，小波去噪的分解级别参数设置为2，选用的小波名称设置为db6，量化去噪的量化参数设置为4。第3组的最优降噪策略是小波去噪，其中，小波去噪的分解级别参数设置为5，选用的小波名称设置为db2。

优选的，步骤A21包括：

A211、采用预选的多种去噪算法形成的单独降噪策略和组合降噪策略分别对各组别的音频进行降噪；

A212、调整各单独降噪策略和组合降噪策略中各去噪算法的参数并分别对各组别的音频进行降噪。

优选的，参见图2，示出了对几种去噪算法的参数的调整过程。本发明对降噪策略的参数进行调整或者说精调，以分析参数对降噪性能的影响。“Qtzt”指量化去噪(Quantization)，“Mdn”指中值平滑去噪(Median smoothing)，“Wvlt”指小波去噪(Waveletfiltering)。(q₁；q₂；...q_Q)，(k₁；k；...k_K)和(w₁；w₂；…w_W)分别是量化去噪、中值平滑去噪和小波去噪的参数取值。Q、M和W是参数取值数量，去噪后的音频为x_q、x_m和x_w。然后，深度学习模型，这里采用DeepSpeech。深度学习模型包括梅尔频率倒谱(Mel-Frequency Cepstrum，MFC)、编码器和解码器。深度学习模型以x_q、x_m和x_w为输入，得到转录t_q、t_m和t_w。错率率评估器计算t_q、t_m和t_w与参考转录t之间的字错误率和词错误率，即，量化去噪、中值平滑去噪和小波去噪后对应的错误率EQ_q、EQ_m和EQ_q。

优选的，步骤A23中，将每个组别中对音频转录后的字错误率最低的降噪策略还包括无任何降噪措施的降噪策略。即，选择最优降噪策略时，除了对比单独降噪策略和组合降噪策略，也会对比无任何降噪措施的降噪策略，从实验的情况来看，干净样本最优的降噪策略是不使用任何的降噪策略。这样，可以不影响干净样本的转录效果。

在步骤A3中，提取训练集中所有音频所在分组对应的标签和多个分组特征。

优选的，步骤A3包括：

优选的，提取训练集中所有音频所在分组对应的标签是指根据训练集中所有音频的组别为各音频分配一个与其组别对应的标签。

优选的，每个音频对应的分组特征包括第一、第二和第三分组特征，其中，第0组对应的最优降噪策略是不降噪，每个音频对应的第一、第二和第三分组特征分别是该音频采用第1组、第2组和第3组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪的输入音频

在步骤A4中，用训练集中各音频的标签和分组特征训练分组模型，其中，分组模型采用支持向量机模型。

优选的，用训练集中各音频的标签和分组特征训练分组模型，即是训练分组模型，让分组模型具有将特定分组特征的音频分到特定的标签对应的组别中的能力。例如，参见图3，假设只有四个分组，训练集中的每个音频都有一个标签l和三个分组特征{h₁,h₂,h₃}。标签l即对应于前面所说的分组后的组别。标签中有四个索引：0、1、2、3。0代表第0组set0，1代表第1组set1，2代表第2组set2，3代表第3组set3。h₁表示第一分组特征，h₂表示第二分组特征，h₃表示第三分组特征。

根据本发明的一个实施例，参见图4，提供一种语音降噪方法，包括：

B1、获取输入音频，提取输入音频的分组特征；

B2、将输入音频的分组特征输入如前述实施例中的方法得到的分组模型，预测性地输出该输入音频的标签；

在步骤B1中，获取输入音频，提取输入音频的分组特征。

优选的，步骤B1包括：

优选的，分组包括第0组、第1组、第2组和第3组，标签包括第一、第二、第三和第四标签，输入音频对应的分组特征包括第一、第二和第三分组特征，其中，第0组对应的最优降噪策略是不降噪，第一、第二、第三和第四标签依次对应于第0组、第1组、第2组和第3组，每个输入音频对应的第一、第二和第三分组特征分别是该输入音频采用第1组、第2组和第3组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对不采用降噪的输入音频的原始转录文本的字错误率。

在步骤B2中、将输入音频的分组特征输入分组模型，预测性地输出该输入音频的标签。

优选的，在分组包括四组时，输入音频的分组特征包括第一、第二和第三分组特征，将第一、第二和第三分组特征输入音频对应的第一、第二和第三分组特征输入分组模型，预测性地输出该输入音频的标签。由于每个标签对应于一个组别，即，该步骤是通过分组模型，预测该输入音频所属的分组。

在步骤B3中，根据该输入音频的标签，将用该标签对应的组别的最优降噪策略处理后的音频得到的转录文本作为该输入音频的转录文本。

优选的，在输入音频的标签是第一标签时，将用不采用降噪的输入音频对应的原始转录文本作为该输入音频的转录文本；

在输入音频的标签是第二标签时，将用由第1组的最优降噪策略得到的音频对应的转录文本作为该输入音频的转录文本；

在输入音频的标签是第三标签时，将用由第2组的最优降噪策略得到的音频对应的转录文本作为该输入音频的转录文本；

在输入音频的标签是第四标签时，将用由第3组的最优降噪策略得到的音频对应的转录文本作为该输入音频的转录文本。

根据本发明的一个实施例，参见图5，提供一种语音降噪方法，包括：

S1、根据训练集中所有音频的对抗扰动的大小对所有音频进行分组，其中，训练集中的所有音频包含干净样本和在干净样本中分别加入不同程度的干扰形成的对抗样本；

S2、获得基于预选的多种去噪算法形成的多种降噪策略对不同的组别中音频的降噪效果，为每个组别选取最优降噪策略，其中干净样本所在的组别对应的最优降噪策略为不降噪；

S3、预测输入音频所属的组别，选取该组别对应的最优降噪策略作为该输入音频的降噪策略。应当说明的是，步骤S1和步骤A1彼此一一对应，步骤S2和步骤A2彼此一一对应，为了简化，省略部分步骤的介绍，彼此一一对应两个步骤的实施方式可以彼此互为补充或者说替用。

为了更好地理解本发明，下面结合具体的实施例针对每一个步骤分别进行详细说明。

在步骤S1中，根据训练集中所有音频的对抗扰动的大小对所有音频进行分组。其中，训练集中的所有音频包含干净样本和在干净样本中分别加入不同程度的干扰形成的对抗样本。

优选的，分组包括至少四组。其中，第0组对应的对抗扰动为0，第1组到最后一组对应的对抗扰动的大小范围的合集为(0～100％]且每个组的对抗扰动的大小范围彼此不重合。比如，假设分为四组，其中，第0组对应的对抗扰动为0，第1组对应的对抗扰动的大小范围为(0～33％]，第2组对应的对抗扰动的大小范围为(33～67％]，第3组对应的对抗扰动的大小范围为(67～100％]。

在步骤S2中，分析基于预选的多种去噪算法形成的多种降噪策略对不同的组别中音频的降噪效果，为每个组别选取最优降噪策略，其中干净样本所在的组别对应的最优降噪策略为不降噪。

优选的，步骤S2包括：

S21、采用预选的多种去噪算法形成的单独降噪策略和组合降噪策略分别对各组别的音频进行降噪，其中，单独降噪策略仅包含一种去噪算法，组合降噪策略包含至少两种去噪算法；

S22、分析各单独降噪策略和组合降噪策略对不同的组别中音频的降噪效果，得到各种降噪策略下各组别的音频转录后的字错误率；

S23、将每个组别中对音频转录后的字错误率最低的降噪策略选为该组别对应的最优降噪策略。

优选的，预设的多种去噪算法包括量化去噪算法、中值平滑去噪算法和小波去噪算法。优选的，在同一组合降噪策略中，可以对不同的去噪算法的执行顺序进行不同的组合，以分别用降噪策略的不同的顺序组合对各组别的音频进行降噪。由此，可以得到更多的对比效果，以选取更优的降噪策略。

优选的，步骤S21包括：

S211、采用预选的多种去噪算法形成的单独降噪策略和组合降噪策略分别对各组别的音频进行降噪；

S212、调整各单独降噪策略和组合降噪策略中各去噪算法的参数并分别对各组别的音频进行降噪。

优选的，步骤S23中，将每个组别中对音频转录后的字错误率最低的降噪策略还包括无任何降噪措施的降噪策略。即，选择最优降噪策略时，除了对比单独降噪策略和组合降噪策略，也会对比无任何降噪措施的降噪策略，从实验的情况来看，干净样本最优的降噪策略是不使用任何的降噪策略。这样，可以不影响干净样本的转录效果。

在步骤S3中，预测输入音频所属的组别，选取该组别对应的最优降噪策略作为该输入音频的降噪策略。优选的，该语音降噪方法采用如前述实施例的方法得到的分组模型。

优选的，步骤S3包括：

S31、提取训练集中所有音频所在分组对应的标签和多个分组特征；

S32、用训练集中各音频的标签和分组特征训练分组模型，其中，分组模型采用支持向量机模型；

S33、获取输入音频，提取输入音频的分组特征；

S34、将输入音频的分组特征输入分组模型，预测性地输出该输入音频的标签；

S35、根据该输入音频的标签，将用该标签对应的组别的最优降噪策略处理后的音频得到的转录文本作为该输入音频的转录文本。应当说明的是，步骤S31和步骤A4彼此一一对应，步骤S32和步骤A4彼此一一对应，步骤S33和步骤B1彼此一一对应，步骤S34和步骤B2彼此一一对应，步骤S35和步骤A3彼此一一对应，为了简化，省略部分步骤的介绍，彼此一一对应两个步骤的实施方式可以彼此互为补充或者说替用。

根据本发明的一个实施例，提供一种语音降噪系统，包括音频分组模块，用于根据训练集中所有音频的对抗扰动的大小对所有音频进行分组，其中，训练集中的所有音频包含干净样本和在干净样本中分别加入不同程度的干扰形成的对抗样本；分组降噪策略选择模块，用于获得基于预选的多种去噪算法形成的多种降噪策略对不同的组别中音频的降噪效果，为每个组别选取最优降噪策略，其中干净样本所在的组别对应的最优降噪策略为不降噪；智能降噪模块，用于预测输入音频所属的组别，选取该组别对应的最优降噪策略作为该输入音频的降噪策略。

根据本发明的一个实施例，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现前述实施例所述的方法。

下面通过一些具体的示例来更好地说明本发明的原理。

根据本发明的一个示例，一种语音降噪系统，或者说一种智能的语音对抗样本防御系统，该系统包括音频分组模块、分组降噪策略选择模块和智能降噪模块。其中，音频分组模块根据对抗扰动的大小对训练集中的所有音频进行分组。分组降噪策略选择模块，用于应用多种传统的音频去噪算法，通过精调每种音频去噪算法的参数，以寻找各组别对应的最优降噪策略。分组降噪策略选择模块，还用于将传统的去噪算法进行策略组合，并通过精调每种音频去噪算法的参数，以寻找各组别对应的最优降噪策略。优选的，精调也可以解释为在一个范围内，以一个预设的步长选取配置参数，分析各种配置参数下对各组别的音频的降噪效果。精调对应于前述步骤S212中的调整各单独降噪策略和组合降噪策略中各去噪算法的参数并分别对各组别的音频进行降噪的过程。智能降噪模块，用于训练一个分组模型，输入训练集中的各音频的分组特征和分组标签以训练该分组模型。智能降噪模块，还用于根据输入音频预测该输入音频所属的组别，并将预测的组别确定为该输入音频所属的组别，选取该组别对应的最优降噪策略为该输入音频降噪。该实施例的技术方案至少能够实现以下有益技术效果：不同的降噪策略对对抗扰动的大小不同的抗性样本具有不同的降噪效果，每组音频都对应一种最有效的降噪策略和参数设置，同时扩大了降噪策略的搜索空间，增加了寻找到最优降噪策略的几率，保证在对抗转录恢复为原始转录的同时，不会影响干净样本的转录质量。

对抗扰动显示表现在干净样本和对抗样本转录之间的距离。给出下面的样本来说明距离的含义，样本中带有下划线的是被干扰替换的单词。

■第0样本组:干净样本，对应于干净转录

样本01(Example 01):Without the dataset the article isuseless；

样本02(Example 02):We are refugees from the tribal wars and we needmoney the other figure said；

样本03(Example 03):The night was warm and I was thirsty；

■第1样本组:对抗样本，其转录相对于干净转录仅替换了一个单词

样本11(Example 1):Without the dataset the article is not useless；

样本12(Example 12):We are refugees from the tribal wars and we do notneed money the other figure said；

样本13(Example 13):The night was not warm and I was thirsty；

■第2样本组:对抗样本，其转录相对于干净转录替换了接近一半的单词；

样本21(Example 21):Without notes the music is meaningless；

样本22(Example 22):They are citizens from the richest country andthey do not need food the other people said；

样本23(Example 23):The day was cold and I was hungry；

■第3样本组:对抗样本，其转录相对于干净转录替换了所有单词；

样本31(Example 31):Okay google browse to evil dot com；

样本32(Example 32):Looking around he sought his sheep and then realized that he was in a new world；

样本33(Example 33):Thisis what was written on the emerald tablet said the alchemist when he had finished.

以上几组中，干净样本对应于干净转录文本,对抗样本对应于对抗转录文本。干净转录文本的语义和对抗转录文本的语义之间存在语义差异。如果以转录距离来表示语义差异，第1组内的对抗扰动表现在干净样本和对抗样本转录之间的转录距离分别为1。样本21和样本22对应的转录距离为3，样本22对应的转录距离为8，样本31对应的转录距离为7，样本32、样本33对应的转录距离为16。但是，由于不同的样本内单词数量不同，为了更好地量化对抗扰动，将对抗扰动的大小定义为添加的用于干扰的字的数量占对抗样本中所有字的数量的百分比占比。这里的字可以指英文的一个单词、汉语的一个字。即，第0样本组中，样本对应的对抗扰动的大小均是0。第1样本组中，样本对应的对抗扰动的大小依次为12.5％、5.9％、11.1％。第2样本组中，样本对应的对抗扰动的大小依次为50％、50％、37.5％。第3样本组中，样本对应的对抗扰动的大小均为100％。如果按照前面给的一个例子，假设把这些样本作为训练集，分为四组，其中，第0组对应的对抗扰动为0，第1组对应的对抗扰动的大小范围为(0～33％]，第2组对应的对抗扰动的大小范围为(33～67％]，第3组对应的对抗扰动的大小范围为(67～100％]，则第0、第1、第2、第3样本组内的样本会依次被分到第0组、第1组、第2组、第3组内。

为了简化说明，本发明以将训练集中的所有音频分为四组的例子进行说明。一组是干净样本，另外三组为对抗样本。为观察三组对抗样本之间的差异，分析其对抗扰动。对于每个音频对抗样本，扰动噪点都有一个最小值、最大值、平均值和中位数值。大多数扰动的最小值为零。在本发明中，选择Mozilla Common Voice测试集中的前100个实例作为第0组set0中的干净样本。第1组set1、第2组set2和第3组set3中的音频对抗样本根据对抗转录生成。图6中的子图a、b、c分别示出了扰动的最大值、平均值和中值的分布情况。可以看到，最大值从小到大依次为：第0组set0、第1组set1、第2组set2、第3组set3。平均值和中值分布也呈现出相同的趋势。这种趋势表明，转录距离上升，对抗干扰幅值也上升。转录距离与对抗扰动呈正相关。相同的降噪策略对扰动水平不同的对抗样本作用可能不同。因此，在评估不同的降噪策略效果时，有必要将不同组语音分开考虑。

分组策略选取模块为每组音频选取最有效的降噪策略。衡量指标为降噪转录和干净转录之间的距离，为字错误率(CER)或词错误率(WER)。字错误率、词错误率越小，降噪性能越高。探索空间为单独降噪策略和由单独降噪策略构成的组合降噪策略。

首先是单独降噪策略。本发明对第0组set0、第1组set1、第2组set2和第3组set3组中的音频分别应用量化去噪、中值平滑去噪和小波去噪策略。量化去噪会将采样音频信号的幅值近似到某个整数最接近的倍数，这个整数通常是2^q，可以把这里的q称为量化参数。局部平滑滤波用平滑值取代采样点的原始值。中值平滑去噪用滑窗中所有点的中值替代采样点的原始值。滑窗由采样点之前和之后的k-1个点组成，可以把这里的k称为滑窗大小参数。通过精调每个策略的参数，为每组音频寻找最有效的降噪策略。小波变换将输入信号从原始域变换到小波域，然后对小波系数进一步操作以去除那些小的被假定为噪音的系数。小波滤波需要精调两个参数：分解级别n和小波名称wname。如图2所示，本发明包括对降噪策略的参数进行调整或者说精调，以分析参数对降噪性能的影响。

然后是组合降噪策略，应当注意的是，可以把预设的去噪算法的所有组合策略及策略中包含的去噪算法的参数都调整后比较降噪效果。但是，为了简化，在该示例中，遍历了由以上3种降噪策略构成的6种组合：量化去噪和中值平滑去噪，中值平滑去噪和量化去噪，量化去噪和小波滤波，小波滤波和量化去噪，中值平滑去噪和小波滤波，小波滤波和中值平滑去噪。每种组合去噪中，首先将前一种去噪策略应用于原始音频，然后将第二个种去噪策略应用于去噪音频。例如，使用量化去噪和中值平滑去噪的组合来对音频降噪时，首先应用量化去噪，然后将中值平滑去噪应用于量化去噪的后音频以获得最终去噪音频。

但是在实际情况下，自动语音识别系统不知道输入的输入音频属于哪一组。因此，本发明提出的方法中，通过对输入音频分类为其选取最优降噪策略。主要包括两个步骤：模型训练和转录预测。第一步获得分组模型，第二步借助分组模型获得转录。

工作机制如图3所示，首先,需训练分组模型。模型训练包含两个步骤：分组特征提取过程和模型训练。在特征提取中，从音频中提取可用于预测音频组别的基本特征。每组音频都有一个最佳的降噪策略，可能是单个降噪策略，也可能是组合策略。尽管无法获得真实转录，但我们可以通过比较不同降噪策略的字错误率来预测音频的组别。使用同一种降噪策略，原始转录和去噪转录之间的字错误率可以作为一个特征。在一个示例中，训练集中的每个音频都有一个标签l和三个分组特征{h₁,h₂,h₃}。标签l即是前面所说的分组后的组别。分组中有四个索引：0、1、2、3。0代表第0组set0，1代表第1组set1，2代表第2组set2，3代表第3组set3。应当理解的是，实际可以根据用户的分组需要，设置更多的分组特征，h_i＝CER(t_i,t₀)，h_i表示第i个分组特征，i的个数可以比用户设置的分组数量少一个，即如果有四个组别，则有三个分组特征，如果有七个组别，则有六个分组特征。t_i表示经第i组的最优降噪策略处理后的音频x_i的转录。比如，假设分四组，则t₀、t₁、t₂、t₃分别是x₀、x₁、x₂、x₃的转录。在本发明的实验中，x₀是原始音频的转录；x₁是经量化去噪和中值平滑去噪后的音频；x₂是经小波滤波和量化去噪组合去噪后的音频；x₃是经小波去噪后的音频。音频的特征{h₁,h₂,h₃}与它们的标签作为训练集训练分组模型。标签就是各音频所属的组别。用于生成训练样本的每一组音频数量是相等的。由于每个样本只有三个特征、数量较少，因此可以选用支持向量机模型(Support Vector Machine,SVM)。

得到分组模型后，在转录预测时，当获得新的原始语音文件或者说输入音频x时，首先提取输入音频x的分组特征，比如，分组特征h₁、h₂、h₃。然后使用提取的分组特征和分组模型对输入音频x分组。最后根据分组对应的标签决定音频的转录文本。如果标签为0，则转录文本为t₀；如果标签为1，则转录文本为t₁；如果标签是2，转录文本为t₂；如果标签是3，则转录文本是t₃。转录文本t₁、t₂、t₃是降噪转录文本。

对于上面的示例，基于发明人的实验，得到量化去噪、中值平滑去噪、小波去噪的效果如表1、表2、表3所示，得到组合去噪的效果如表4、表5和表6所示，得到在精调时的降噪策略对训练集的降噪效果和本发明的方法对测试集的降噪效果对比效果如表7所示。为了直观，将对应于错误率最低的数据前面添加了方框。从表1～6中得到的数据可以看出，每种音频对于每种单独降噪策略和组合降噪策略都有一个最佳配置点。当参数值接近此点时，性能越来越好；当参数值远离这一点时，性能越来越差。除此之外，不同策略对转录距离不同的音频效果不同。小波滤波效果表3所示。实验中，分解级别n的范围是1到5，以1为步长，小波名称wname的范围是db1到db5，总共25种配置。与量化去噪和中值滤波去噪相比，小波滤波对第3组set3中语音的去噪性能更胜一筹，但对第1组set1和第2组set2中语音的去噪性能却不是最好的。组合降噪策略的组合去噪性能如表4～6所示。组合降噪策略对第1组set1和第2组set2中音频的去噪性能有所提升。对第1组set1中的音频而言，词错误率WER和字错误率CER分别降低到0.13和0.05。对第2组set2中音频而言，词错误率WER和字错误率CER分别降低到0.35和0.18。组合降噪中单个策略的应用顺序也会影响性能。另一个明显的现象是，降噪策略的性能通常只对其中一种降噪策略的参数变化比较敏感。例如，使用量化去噪和中值平滑去噪，词错误率WER和字错误率CER仅当q变化时才会改变。当q不变，k从3变化到10时，词错误率WER和字错误率CER保持不变。其他组合去噪方法的性能也呈现出相同的趋势。这可能是因为，直接组合时，一种策略占主导地位，而另一种策略贡献微小。为评估本发明的方法的降噪效果，首先生成与测试集不同的训练集。取CommonVoice数据集中与测试集的第0组set0不同的400个实例作为干净样本，为每个干净样本按照相同的规则生成满足第1组set1、第2组set2、第3组set3要求的对抗样本，因此训练集样本总共有1600个语音文件，训练集和测试集样本数量比值为：4:1。本发明的方法的降噪性能以及与其他降噪策略性能的比较如表7所示。表7包括单独降噪策略的性能和组合降噪策略的性能。对于每种降噪策略来说，只展示降噪性能最佳的配置的降噪性能。例如，使用量化去噪，对于第1组set1、第2组set2、第3组set3的语音来说，降噪性能最好的配置分别为q＝3，q＝6，q＝8。“均值”列为所有4组语音的平均性能。总体来说，对于第0组set1的语音来说，量化去噪和中值平滑去噪(q＝2,k＝3)降噪性能最好；对于第2组set2语音来说，小波滤波和量化去噪(q＝4,n＝2,wname＝db6)的降噪性能最好；对于第3组set3语音来说，小波滤波(n＝5,wname＝db2)和本发明的方法的降噪性能最好。本发明的方法中所用的降噪策略也采用相同的配置。对平均降噪性能而言，本发明的方法表现最好，词错误率WER和字错误率CER比不使用降噪策略时下降33％和55％。本发明的方法不仅总体上优于其他降噪策略，还可以平衡扰动水平不同的语音的降噪效果。例如，尽管量化去噪和中值平滑去噪(q＝2,k＝3)对第1组set1语音的降噪性能最好，但对第2组set2和第3组set3，尤其是对第3组set3的降噪性能却极差。除了能降低转录错误率，本发明的方法还可以为set1中所有的对抗样本恢复干净语义。如前面给出的样本11为例，经过本发明的方法降噪后，其转录由对抗转录“Without thedataset the article is not useless”恢复为干净转录“Without the dataset thearticle is useless”。对于训练集中分入第1组set1中的其他对抗样本，恢复的转录文本可能不是很准确，但是所有被去掉或加上的“not”都被恢复了。这样就避免了语义的巨大差别。观察发现，不同的降噪策略对转录距离不同或者对抗扰动的大小不同的抗性样本具有不同的效果。不使用任何降噪策略对第0组set0中音频的降噪效果最好，第1组set1、第2组set2、第3组set3中音频最好的降噪策略分别是量化去噪和中值平滑去噪(q＝2,k＝3)，小波去噪和量化去噪(q＝4,n＝2,wname＝“db6”)，小波去噪(n＝5,wname＝“db2”)。表中的db1、db2、db3、db4、db5、db6、db7、db8表示的都是小波的名称，实际可供选择的小波还有很多，出于简化的考虑，只示出了其中效果较好的一些小波对应的数据。从表7得到的数据可以看出，本发明为各组别对音频分别设置与其对应对最优降噪策略后，按照其最优对降噪策略为测试集中的输入音频进行降噪时，得到的字错误率和词错误率和不降噪是相同，可见本发明既能为对抗样本有效降噪，又不能影响干净样本的转录结果。第1组set1在测试集的表现比在训练集上调整得到对最低词错误率和字错误率稍微差一些。而第2组set2和第3组set3在测试集的表现基本上接近于在训练集上调整得到对最低词错误率和字错误率。从对各组的音频转录的错误率的均值来看，本发明的降噪效果也是最优的。总的来说，智能降噪不仅总体上优于其他策略，而且对扰动程度不同的音频的降噪效果达到了比较均衡的水平。

表1量化去噪效果

表2中值滤波效果

表3小波滤波效果

表4量化去噪和中值去噪效果

表5中值平滑去噪和小波去噪效果

表6量化去噪和小波去噪效果

表7本发明的方法对测试集的降噪效果

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种训练用于语音分组的分组模型的方法，其特征在于，包括：

A3、提取训练集中所有音频所在分组对应的标签和多个分组特征，其中，一个音频的分组特征包括该音频分别采用除第0组外的各分组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪得到的原始转录文本的字错误率；

2.根据权利要求1所述的训练用于语音分组的分组模型的方法，其特征在于，

在所述步骤A1中，分组后的分组数量至少为四组，分别为第0组、第1组、第2组、第3组，其中，第0组对应的对抗扰动为0，第1组到最后一组对应的对抗扰动的大小范围的合集为(0～100％]且每个组的对抗扰动的大小范围彼此不重合。

3.根据权利要求2所述的训练用于语音分组的分组模型的方法，其特征在于，所述步骤A3包括：

A32、提取训练集中所有音频所在分组对应的分组特征。

4.根据权利要求1至3任一项所述的训练用于语音分组的分组模型的方法，其特征在于，每个音频对应的分组特征包括第一、第二和第三分组特征，其中，第0组对应的最优降噪策略是不降噪，每个音频对应的第一、第二和第三分组特征分别是该音频采用第1组、第2组和第3组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪的输入音频的原始转录文本的字错误率。

5.根据权利要求4所述的训练用于语音分组的分组模型的方法，其特征在于，所述预选的多种去噪算法包括：量化去噪、中值平滑去噪和小波去噪；

所述第1组对应的对抗扰动的大小范围是(0～33％]，第1组的最优降噪策略是先量化去噪，后中值平滑去噪，其中，量化去噪的量化参数设置为2，中值平滑去噪的滑窗大小参数设置为3；

所述第2组对应的对抗扰动的大小范围为(33～67％]，第2组的最优降噪策略是先小波去噪，后量化去噪，其中，小波去噪的分解级别参数设置为2，选用的小波名称设置为db6，量化去噪的量化参数设置为4；

所述第3组对应的对抗扰动的大小范围为(67～100％]，第3组的最优降噪策略是小波去噪，其中，小波去噪的分解级别参数设置为5，选用的小波名称设置为db2。

6.一种语音降噪方法，其特征在于，包括：

B1、获取输入音频，提取输入音频的分组特征，其中，输入音频的分组特征包括该输入音频分别采用除第0组外的各分组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对于不采用降噪得到的原始转录文本的字错误率；

B2、将输入音频的分组特征输入如权利要求1至5中任一项所述的方法得到的分组模型，预测性地输出该输入音频的标签；

7.根据权利要求6所述的语音降噪方法，其特征在于，所述步骤B1包括：

B12、根据用除第0组外的各分组的最优降噪策略降噪后得到的音频对应的降噪转录文本和不采用降噪的输入音频的原始转录文本提取输入音频的分组特征。

8.根据权利要求6或7所述的语音降噪方法，其特征在于，所述分组包括第0组、第1组、第2组和第3组，所述标签包括第一、第二、第三和第四标签，输入音频对应的分组特征包括第一、第二和第三分组特征，其中，第0组对应的最优降噪策略是不降噪，第一、第二、第三和第四标签依次对应于第0组、第1组、第2组和第3组，每个输入音频对应的第一、第二和第三分组特征分别是该输入音频采用第1组、第2组和第3组的最优降噪策略降噪后得到的音频对应的降噪转录文本相对不采用降噪的输入音频的原始转录文本的字错误率。

9.根据权利要求8所述的语音降噪方法，其特征在于，在所述步骤B3中，

在输入音频的标签是第一标签时，将用不采用降噪的输入音频对应的原始转录文本作为该输入音频的转录文本；

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

以及存储器，其中存储器用于存储一个或多个可执行指令；

所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现如权利要求1至5，和/或，6至9任一项所述的方法的步骤。