CN113297579A

CN113297579A - 基于时序神经通路的语音识别模型中毒检测方法及装置

Info

Publication number: CN113297579A
Application number: CN202110650450.5A
Authority: CN
Inventors: 陈晋音; 叶林辉; 金海波; 张龙源
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-24
Anticipated expiration: 2041-06-11
Also published as: CN113297579B

Abstract

本发明公开了一种基于时序神经通路的语音识别模型中毒检测方法及装置，包括：获取基于循环神经网络RNN结构的语音识别模型M_R及用于训练该模型的数据集；定义RNN的时序神经通路；从数据集中选择K条数据作为测试音频，构建用于优化测试音频的损失函数loss，使测试音频在输入M_R后能够使时序神经通路上的神经元的激活值最大；利用损失函数loss构建近似中毒音频；将近似中毒测试音频输入到M_R中，统计M_R对该近似中毒测试音频的识别结果与对应原文本的编辑距离；若编辑距离达到一定阈值，就判定该语音识别模型M_R是中毒的。本发明的方法可以有效检测语音识别模型是否中毒，弥补深度学习模型测试方法与中毒模型检测方法中存在的缺点。

Description

基于时序神经通路的语音识别模型中毒检测方法及装置

技术领域

本发明涉及深度学习安全领域，尤其涉及一种基于时序神经通路的语音识别模型中毒检测方法及装置。

背景技术

语音识别技术从1952年开始就已经开始研究，1952年Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后，70年代孤立词发音和孤立语句发音的识别成为了可行的有用技术，大规模的语音识别研究在这个时期得到很大的发展。80年代研究的重点转向了词汇量的积累，以及连续的语音识别，也就是从传统的基于标准模板匹配的技术思路转变基于统计模型的技术思路，从那个时候起，语音识别技术已经达到了可用性的要求。语音识别是一项融合多学科知识的前沿技术，覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科，是人机自然交互技术中的关键环节。但是，语音识别自诞生以来的半个多世纪，一直没有在实际应用过程得到普遍认可，一方面这与语音识别的技术缺陷有关，其识别精度和速度都达不到实际应用的要求；另一方面，与业界对语音识别的期望过高有关，实际上语音识别与键盘、鼠标或触摸屏等应是融合关系，而非替代关系。

自2009年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。将机器学习领域深度学习研究引入到语音识别声学模型训练，提高了声学模型的准确率。基于神经网络的语音识别技术在识别精度和识别效率上比基于统计模型的语音识别技术有了大幅度的提升。从而使语音识别技术得到了广泛的应用场景。现在的语音识别技术已经被应用在多个领域，如已经被应用在手机移动端，自动驾驶，智能家居等领域。国内的语音识别技术的研究发展虽然比国外起步晚，但是目前其发展势头不比国外弱，甚至在一些领域比国外还要先进。如在2018年，国内阿里，小米，京东，华为等先进科技公司已经先后涉足只能音箱这一领域。如小米的智能音箱“小爱同学”已经可以通过语音识别实现智能家居的控制，为人们的生产生活带来了方便。

但是基于神经网络的语音识别模型的训练是依赖于数据集的，其训练和测试是一个十分耗时耗力的过程。因此许多科技公司设计语音识别模型的结构，而将设计的语音识别模型的训练外包给其他公司。而在这个外包的过程中，就给语音识别模型的安全性带来了一定的风险。外包的过程中可能会存在恶意攻击者使用带有后门的数据对模型进行训练，从而使模型带有潜在的后门，甚至存在恶意者私自篡改模型中的参数，使模型留有后门。而大部分的语音识别模型都是基于循环神经网络(RNN)结构的，RNN结构的模型有着模型中毒后难以检测出其后门的特点。若中毒的语音识别模型被应用在一些安全等级较高的场景中，如被应用在车载语音识别系统中，车载语音识别系统若被中毒就有可能误识别驾驶者的命令，会给汽车的安全行驶带来严重的安全隐患。

发明内容

针对目前基于RNN结构的语音识别模型易中毒，并且中毒后难以检测的问题，本发明提供了一种基于时序神经通路的语音识别模型中毒检测方法，该方法可以通过时序神经通路上的神经元优化出近似中毒测试样本，通过近似中毒测试样本检测语音识别模型是否中毒。

本发明的技术方案如下：

一种基于时序神经通路的语音识别模型中毒检测方法，包括以下步骤：

1)获取待检测的基于循环神经网络RNN结构的语音识别模型M_R；获取用于训练待检测的语音识别模型的数据集并保存；

训练语音识别模型的数据集如Librispeech数据集。

2)定义循环神经网络RNN的时序神经通路，包含两组时序神经通路：

第一组为在不考虑时间步的情况下，从输入到输出的前向传导过程中，前一层激活值最大的几个神经元与后一层激活值最大的几个神经元连接起来的时序神经通路；

第二组为在考虑时间步的情况下，T时刻的隐藏层激活值最大的几个神经元的激活值传递到T+1时刻对应的隐藏层神经元上的时序神经通路；

因为RNN是一个时序输入模型，因此若该模型中毒，仅仅依靠第一组的时序神经通路是无法将前后时刻的输入结合起来的，也就是说仅仅依靠上述的时序神经通路检测模型的话忽略了中毒数据在时间上的关联性，是无法有效检测模型是否中毒的，因此第二条时序神经通路组为T时刻的隐藏层激活值最大的几个神经元的激活值传递到T+1时刻对应的隐藏层神经元上的时序神经通路。

3)从步骤1)的数据集中选择K条数据作为测试音频，基于所述的时序神经通路构建用于优化测试音频的损失函数loss，使测试音频在输入语音识别模型后能够使时序神经通路上的神经元的激活值最大；

所述的损失函数loss包含两个部分：一个部分是用于语音识别模型训练时的损失函数(一般常用的为连结主义时间分类(CTC)损失函数)；另一部分是步骤2)中的时序神经通路上的神经元的激活值之和。

优选的，所述的损失函数loss的构建过程如下：

3-Step1：构建CTC损失函数，包括：

定义语音识别模型为y＝F(x)，其中x∈X，为输入音频X的某一帧，音频X对应的正确文本为T；输出y为字符的概率分布；

由此概率分布可以确定输出序列为π的概率如下式(1)所示：

其中，π表示可以解码为正确文本T的序列，

表示序列π中第i个字母的概率；

由此，定义在输入音频X下，输出为对应文本T的概率为：

因此构建的损失函数CTC如下式(3)所示：

CTCLoss(f(x),T)＝-logP(T|f(x)) (3)

3-Step2：构建时序神经通路的损失函数NPath：

根据步骤2)中确定的时序神经通路构建时序神经通路的损失函数NPath如下式(4)所示：

其中，N表示循环神经网络RNN模型的层数；M表示输入音频的帧数；max_k-iψ(x,n)表示在不考虑时间步的情况下，输入x时，在第n层中能够组成时序神经通路的k-i个神经元的激活值之和；max_l-iφ(x,n)表示在考虑时间步的情况下，第n层中的l-i个激活值最大的神经元的激活值之和；

3-Step3：由3-Step1和3-Step2可获得总损失函数loss如下式(5)所示：

loss＝CTCLoss+λ·NPath (5)

其中：λ为平衡参数，可人为调节。

4)利用步骤3)中构建的损失函数loss构建近似中毒音频；通过计算步骤3)中的损失函数对输入的测试音频的导数就可以获得梯度，在梯度方向上对测试样本叠加噪声，通过迭代优化测试样本，就可以获得近似中毒测试样本。

步骤4)的过程实际上是在寻找近似中毒音频的过程，若语音识别模型是中毒的，则中毒音频会使时序神经通路上的神经元的激活值过大，依据这个特点，依据构建的损失函数loss，在测试音频上添加噪声，优化测试音频，就可以找出近似中毒测试音频。

优选的，步骤4)包括：

4-Step1：通过计算步骤3)中的损失函数对输入的测试音频的导数，获得在其梯度上的噪声，如下式(6)所示：

4-Step2：根据4-Step1中的噪声更新输入的测试样本x＝x+s*noise，其中：s表示步长；循环迭代，优化生成近似中毒测试音频。

迭代终止条件为：1.达到循环最高上限值，默认为30代；2.输入x的识别结果不等于原始识别结果。

5)将步骤4)中构建的近似中毒测试音频输入到待检测的语音识别模型M_R中，统计M_R对该近似中毒测试音频的识别结果与对应原文本的编辑距离；若编辑距离达到一定阈值，就判定该语音识别模型M_R是中毒的。

所述的编辑距离是度量两个序列相似程度的指标，指的是在两个序列<w1,w2>之间，由其中一个序列w1转换为另外一个序列w2所需的最少单字符编辑操作次数；单字符编辑操作包括：插入，删除，替换。

若编辑距离超过设定的阈值，则判定该语音识别模型M_R是中毒的。

本发明还提供一种基于时序神经通路的语音识别模型中毒检测装置，包括计算机存储器，计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于时序神经通路的语音识别模型的中毒检测方法。

与现有技术相比，本发明的有益效果为：

针对语音识别模型在被恶意中毒后难以检测的问题，本发明设计了针对基于RNN结构的语音识别模型中毒检测方法。本发明专利根据RNN的结构特点，定义了针对RNN模型的时序神经通路，该时序神经通路可以关联前后时刻的输入，可以使基于RNN结构的语音识别模型的中毒检测更加有效。并且根据语音识别模型的应用场景设计了损失函数，通过求取损失函数的梯度优化测试样本，使时序神经通路上的神经元激活值最大，以找出近似中毒测试样本，利用近似中毒测试样本检测语音识别模型是否中毒。该方法可以有效检测语音识别模型是否中毒，可以弥补深度学习模型测试方法与中毒模型检测方法中存在的缺点。

附图说明

图1为音频预处理流程示意图；

图2为RNN结构的一般数据传输处理框架图；

图3为在不考虑时间步下的时序神经通路示意图；

图4为在考虑时间步下的时序神经通路示意图。

具体实施方式

本发明的核心是提供一种基于时序神经通路的语音识别模型中毒检测的方法及装置。

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。下面对本发明提供的一种基于时序神经通路的语音识别模型中毒检测方法实施例进行介绍，参见图1-图4，具体包括以下步骤：

1)获取用于检测语音识别模型是否中毒的数据集并保存，该数据集可以是一般的用于训练语音识别模型的数据集，如Librispeech数据集，获取待检测的语音识别模型M_R。

2)定义循环神经网络(RNN)的时序神经通路，确定RNN结构时序神经通路的具体步骤如下：

Step1：分析RNN模型的数据处理过程。RNN模型的数据输入是按时间步输入的，首先会对输入的数据进行预处理，预处理的过程如图1所示，一段音频经过图1中的音频预处理步骤后获得梅尔倒谱系数(MFCC)，该系数实际上为一个矩阵，该矩阵的列数表示语音的帧数，行表示MFCC系数的维度。该矩阵在输入RNN模型时，是按帧输入的，即将矩阵中的数据一列一列的输给RNN模型，也就是每一列对应一个时间步。RNN的一般数据处理过程如图2所示，需要注意的是图2是按时间步表示RNN的数据处理过程，实际的RNN模型的结构仅有一个，即图2中每个时间步上的结构都表示同一个RNN结构。输入层的节点个数与MFCC的维度是相同的。

Step2：从图2中可以确定时序神经通路，RNN结构的时序神经通路由两组时序神经通路组成。首先考虑第一组时序神经通路，即在不考虑RNN输入的时间步的情况下的时序神经通路，也就是只考虑某一时间步，则RNN的数据传输过程如图3所示。如图3所示，在某一个时间步的输入下，若第一个隐藏层的第1-1号神经元和第1-3号神经元的激活值在第一层所有神经元中是较大的，第二个隐藏层的第2-1号神经元的激活值在第二层中是较大的，则确定的时序神经通路如图3中的虚线所示，需要注意的是1-3号神经元没有与2-2号神经元组成通路的原因是2-2号神经元的激活值在第二个隐藏层不是最大的，因此组成的时序神经通路如图3所示。

Step3：考虑在时间步输入下的第二组时序神经通路。由于RNN结构在实际数据处理过程中输入是按帧输入给模型的，因此模型每一层神经元的输出值还要受到上一个时刻的神经元的输出值的影响。在考虑时间步的情况下，以两个时间步为例，RNN的数据处理过程如图4所示。若在第t个时间步输入下，第一个隐藏层的第1-1号神经元激活值是较大的，第二个隐藏层的第2-2号神经元的激活值是较大的，则对于第t+1和时间步，其时序神经通路如图4中的较粗的虚线所示，即第二组时序神经通路就是如图中4的粗虚线所示的通路。

3)从步骤1)的数据集中选择K条数据作为测试音频，构建损失函数loss，利用构建的损失函数优化测试音频，具体步骤如下：

Step1：构建CTC损失函数，CTC损失函数是一种端到端的循环神经网络损失函数。语音识别模型可以定义为y＝F(x)，其中x∈X，为输入音频X的某一帧，音频X对应的正确文本为T，其输出y为字符的概率分布，由此概率分布可以确定输出序列为π的概率如下式(1)所示。

其中，π表示可以解码为正确文本T的序列，

表示序列π中第i个字母的概率。由此可以定义在输入X下，输出为对应文本T的概率为：

因此构建的CTC损失函数如下式(3)所示：

CTCLoss(f(x),T)＝-logP(T|f(x)) (3)

Step2：构建时序神经通路的损失函数，根据步骤2)中确定的时序神经通路构建时序神经通路损失函数如下式(4)所示：

其中，N表示RNN模型的层数，M表示输入数据一共有M个时间步，即输入音频帧数为M，max_k-iψ(x,n)表示在不考虑时间步的情况下，输入x时，在第n层中能够组成时序神经通路的k-i个神经元的激活值之和。max_l-iφ(x,n)表示在考虑时间步的情况下，第n层中的l-i个激活值最大的神经元的激活值之和。

Step3：由Step1和Step2可获得总损失函数如下式(5)所示：

loss＝CTCLoss+λ·NPath (5)

其中λ为一个平衡参数，可人为调节，默认常数为1。

4)利用步骤3)中构建的损失函数构建近似中毒音频。具体步骤如下：

Step1：通过计算步骤3)中的损失函数对输入的测试音频的导数就可以获得梯度上的噪声，如下式(6)所示：

Step2：根据Step1中的噪声更新输入测试样本x＝x+s*noise，其中s表示步长，可以控制噪声的大小。循环迭代，优化生成近似中毒测试音频。迭代终止条件为：1.达到循环最高上限值，默认为30代；2.输入x的识别结果不等于原始识别结果。

5)将步骤4)中构建的近似中毒测试音频输入到待检测的语音识别模型M_R中，统计M_R对该近似中毒测试音频的识别结果与对应的原文本T之间的编辑距离。编辑距离是用来度量两个序列相似程度的指标，指的是在两个序列<w1,w2>之间，由其中一个序列w1转换为另外一个序列w2所需的最少单字符编辑操作次数。单字符编辑操作有且仅有三种：插入，删除，替换。若编辑距离超过设定的阈值，则判定该语音识别模型M_R是中毒的。

本发明还提供了一种基于时序神经通路的语音识别模型中毒检测装置的实施例，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行计算机程序时实现上述针对语音识别模型的中毒检测。

由于该防御装置中以及计算机存储器存储的计算机程序主要用于实现上述的一种基于神经网络的语音识别模型的中毒检测方法，因此其作用与上述中毒模型检测方法的作用相对应，此处不再赘述。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时序神经通路的语音识别模型中毒检测方法，其特征在于，包括以下步骤：

2)定义循环神经网络RNN的时序神经通路；

4)利用步骤3)中构建的损失函数loss构建近似中毒音频；

2.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，所述的数据集为Librispeech数据集。

3.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，循环神经网络RNN的时序神经通路为两组：

第二组为在考虑时间步的情况下，T时刻的隐藏层激活值最大的几个神经元的激活值传递到T+1时刻对应的隐藏层神经元上的时序神经通路。

4.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，所述的损失函数loss包含两个部分：一个部分是用于语音识别模型训练时的损失函数CTC；另一部分是步骤2)中的时序神经通路上的神经元的激活值之和。

5.根据权利要求4所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，所述的损失函数loss的构建过程如下：

3-Step1：构建CTC损失函数，包括：

由此概率分布可以确定输出序列为π的概率如下式(1)所示：

其中，π表示可以解码为正确文本T的序列，

表示序列π中第i个字母的概率；

由此，定义在输入音频X下，输出为对应文本T的概率为：

因此构建的损失函数CTC如下式(3)所示：

CTCLoss(f(x),T)＝-logP(T|f(x)) (3)

3-Step2：构建时序神经通路的损失函数NPath：

3-Step3：由3-Step1和3-Step2可获得总损失函数loss如下式(5)所示：

loss＝CTCLoss+λ·NPath (5)

其中：λ为平衡参数，可人为调节。

6.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，步骤4)包括：

7.根据权利要求6所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，迭代终止条件为：达到循环最高上限值或输入x的识别结果不等于原始识别结果。

8.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法，其特征在于，所述的编辑距离是指：在两个序列<w1,w2>之间，由其中一个序列w1转换为另外一个序列w2所需的最少单字符编辑操作次数；单字符编辑操作包括：插入，删除，替换。

9.一种基于时序神经通路的语音识别模型中毒检测装置，其特征在于，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序；所述计算机处理器执行所述计算机程序时实现如权利要求1-8任一项所述的基于时序神经通路的语音识别模型中毒检测方法。