CN113297579B - 基于时序神经通路的语音识别模型中毒检测方法及装置 - Google Patents
基于时序神经通路的语音识别模型中毒检测方法及装置 Download PDFInfo
- Publication number
- CN113297579B CN113297579B CN202110650450.5A CN202110650450A CN113297579B CN 113297579 B CN113297579 B CN 113297579B CN 202110650450 A CN202110650450 A CN 202110650450A CN 113297579 B CN113297579 B CN 113297579B
- Authority
- CN
- China
- Prior art keywords
- time
- recognition model
- speech recognition
- poisoning
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010004 neural pathway Effects 0.000 title claims abstract description 50
- 210000000118 neural pathway Anatomy 0.000 title claims abstract description 50
- 231100000572 poisoning Toxicity 0.000 title claims abstract description 43
- 230000000607 poisoning effect Effects 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 210000002569 neuron Anatomy 0.000 claims abstract description 33
- 230000004913 activation Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000000306 recurrent effect Effects 0.000 claims abstract description 10
- 230000002123 temporal effect Effects 0.000 claims abstract description 6
- 231100000331 toxic Toxicity 0.000 claims abstract description 5
- 230000002588 toxic effect Effects 0.000 claims abstract description 5
- 230000001537 neural effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 29
- 230000007547 defect Effects 0.000 abstract description 3
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 238000010998 test method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- 238000012946 outsourcing Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Virology (AREA)
- Character Discrimination (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于时序神经通路的语音识别模型中毒检测方法及装置,包括:获取基于循环神经网络RNN结构的语音识别模型MR及用于训练该模型的数据集;定义RNN的时序神经通路;从数据集中选择K条数据作为测试音频,构建用于优化测试音频的损失函数loss,使测试音频在输入MR后能够使时序神经通路上的神经元的激活值最大;利用损失函数loss构建近似中毒音频;将近似中毒测试音频输入到MR中,统计MR对该近似中毒测试音频的识别结果与对应原文本的编辑距离;若编辑距离达到一定阈值,就判定该语音识别模型MR是中毒的。本发明的方法可以有效检测语音识别模型是否中毒,弥补深度学习模型测试方法与中毒模型检测方法中存在的缺点。
Description
技术领域
本发明涉及深度学习安全领域,尤其涉及一种基于时序神经通路的语音识别模型中毒检测方法及装置。
背景技术
语音识别技术从1952年开始就已经开始研究,1952年Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后,70年代孤立词发音和孤立语句发音的识别成为了可行的有用技术,大规模的语音识别研究在这个时期得到很大的发展。80年代研究的重点转向了词汇量的积累,以及连续的语音识别,也就是从传统的基于标准模板匹配的技术思路转变基于统计模型的技术思路,从那个时候起,语音识别技术已经达到了可用性的要求。语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。但是,语音识别自诞生以来的半个多世纪,一直没有在实际应用过程得到普遍认可,一方面这与语音识别的技术缺陷有关,其识别精度和速度都达不到实际应用的要求;另一方面,与业界对语音识别的期望过高有关,实际上语音识别与键盘、鼠标或触摸屏等应是融合关系,而非替代关系。
自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。将机器学习领域深度学习研究引入到语音识别声学模型训练,提高了声学模型的准确率。基于神经网络的语音识别技术在识别精度和识别效率上比基于统计模型的语音识别技术有了大幅度的提升。从而使语音识别技术得到了广泛的应用场景。现在的语音识别技术已经被应用在多个领域,如已经被应用在手机移动端,自动驾驶,智能家居等领域。国内的语音识别技术的研究发展虽然比国外起步晚,但是目前其发展势头不比国外弱,甚至在一些领域比国外还要先进。如在2018年,国内阿里,小米,京东,华为等先进科技公司已经先后涉足只能音箱这一领域。如小米的智能音箱“小爱同学”已经可以通过语音识别实现智能家居的控制,为人们的生产生活带来了方便。
但是基于神经网络的语音识别模型的训练是依赖于数据集的,其训练和测试是一个十分耗时耗力的过程。因此许多科技公司设计语音识别模型的结构,而将设计的语音识别模型的训练外包给其他公司。而在这个外包的过程中,就给语音识别模型的安全性带来了一定的风险。外包的过程中可能会存在恶意攻击者使用带有后门的数据对模型进行训练,从而使模型带有潜在的后门,甚至存在恶意者私自篡改模型中的参数,使模型留有后门。而大部分的语音识别模型都是基于循环神经网络(RNN)结构的,RNN结构的模型有着模型中毒后难以检测出其后门的特点。若中毒的语音识别模型被应用在一些安全等级较高的场景中,如被应用在车载语音识别系统中,车载语音识别系统若被中毒就有可能误识别驾驶者的命令,会给汽车的安全行驶带来严重的安全隐患。
发明内容
针对目前基于RNN结构的语音识别模型易中毒,并且中毒后难以检测的问题,本发明提供了一种基于时序神经通路的语音识别模型中毒检测方法,该方法可以通过时序神经通路上的神经元优化出近似中毒测试样本,通过近似中毒测试样本检测语音识别模型是否中毒。
本发明的技术方案如下:
一种基于时序神经通路的语音识别模型中毒检测方法,包括以下步骤:
1)获取待检测的基于循环神经网络RNN结构的语音识别模型MR;获取用于训练待检测的语音识别模型的数据集并保存;
训练语音识别模型的数据集如Librispeech数据集。
2)定义循环神经网络RNN的时序神经通路,包含两组时序神经通路:
第一组为在不考虑时间步的情况下,从输入到输出的前向传导过程中,前一层激活值最大的几个神经元与后一层激活值最大的几个神经元连接起来的时序神经通路;
第二组为在考虑时间步的情况下,T时刻的隐藏层激活值最大的几个神经元的激活值传递到T+1时刻对应的隐藏层神经元上的时序神经通路;
因为RNN是一个时序输入模型,因此若该模型中毒,仅仅依靠第一组的时序神经通路是无法将前后时刻的输入结合起来的,也就是说仅仅依靠上述的时序神经通路检测模型的话忽略了中毒数据在时间上的关联性,是无法有效检测模型是否中毒的,因此第二条时序神经通路组为T时刻的隐藏层激活值最大的几个神经元的激活值传递到T+1时刻对应的隐藏层神经元上的时序神经通路。
3)从步骤1)的数据集中选择K条数据作为测试音频,基于所述的时序神经通路构建用于优化测试音频的损失函数loss,使测试音频在输入语音识别模型后能够使时序神经通路上的神经元的激活值最大;
所述的损失函数loss包含两个部分:一个部分是用于语音识别模型训练时的损失函数(一般常用的为连结主义时间分类(CTC)损失函数);另一部分是步骤2)中的时序神经通路上的神经元的激活值之和。
优选的,所述的损失函数loss的构建过程如下:
3-Step1:构建CTC损失函数,包括:
定义语音识别模型为y=F(x),其中x∈X,为输入音频X的某一帧,音频X对应的正确文本为T;输出y为字符的概率分布;
由此概率分布可以确定输出序列为π的概率如下式(1)所示:
由此,定义在输入音频X下,输出为对应文本T的概率为:
因此构建的损失函数CTC如下式(3)所示:
CTCLoss(f(x),T)=-logP(T|f(x)) (3)
3-Step2:构建时序神经通路的损失函数NPath:
根据步骤2)中确定的时序神经通路构建时序神经通路的损失函数NPath如下式(4)所示:
其中,N表示循环神经网络RNN模型的层数;M表示输入音频的帧数;maxk-iψ(x,n)表示在不考虑时间步的情况下,输入x时,在第n层中能够组成时序神经通路的k-i个神经元的激活值之和;maxl-iφ(x,n)表示在考虑时间步的情况下,第n层中的l-i个激活值最大的神经元的激活值之和;
3-Step3:由3-Step1和3-Step2可获得总损失函数loss如下式(5)所示:
loss=CTCLoss+λ·NPath (5)
其中:λ为平衡参数,可人为调节。
4)利用步骤3)中构建的损失函数loss构建近似中毒音频;通过计算步骤3)中的损失函数对输入的测试音频的导数就可以获得梯度,在梯度方向上对测试样本叠加噪声,通过迭代优化测试样本,就可以获得近似中毒测试样本。
步骤4)的过程实际上是在寻找近似中毒音频的过程,若语音识别模型是中毒的,则中毒音频会使时序神经通路上的神经元的激活值过大,依据这个特点,依据构建的损失函数loss,在测试音频上添加噪声,优化测试音频,就可以找出近似中毒测试音频。
优选的,步骤4)包括:
4-Step1:通过计算步骤3)中的损失函数对输入的测试音频的导数,获得在其梯度上的噪声,如下式(6)所示:
4-Step2:根据4-Step1中的噪声更新输入的测试样本x=x+s*noise,其中:s表示步长;循环迭代,优化生成近似中毒测试音频。
迭代终止条件为:1.达到循环最高上限值,默认为30代;2.输入x的识别结果不等于原始识别结果。
5)将步骤4)中构建的近似中毒测试音频输入到待检测的语音识别模型MR中,统计MR对该近似中毒测试音频的识别结果与对应原文本的编辑距离;若编辑距离达到一定阈值,就判定该语音识别模型MR是中毒的。
所述的编辑距离是度量两个序列相似程度的指标,指的是在两个序列<w1,w2>之间,由其中一个序列w1转换为另外一个序列w2所需的最少单字符编辑操作次数;单字符编辑操作包括:插入,删除,替换。
若编辑距离超过设定的阈值,则判定该语音识别模型MR是中毒的。
本发明还提供一种基于时序神经通路的语音识别模型中毒检测装置,包括计算机存储器,计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于时序神经通路的语音识别模型的中毒检测方法。
与现有技术相比,本发明的有益效果为:
针对语音识别模型在被恶意中毒后难以检测的问题,本发明设计了针对基于RNN结构的语音识别模型中毒检测方法。本发明专利根据RNN的结构特点,定义了针对RNN模型的时序神经通路,该时序神经通路可以关联前后时刻的输入,可以使基于RNN结构的语音识别模型的中毒检测更加有效。并且根据语音识别模型的应用场景设计了损失函数,通过求取损失函数的梯度优化测试样本,使时序神经通路上的神经元激活值最大,以找出近似中毒测试样本,利用近似中毒测试样本检测语音识别模型是否中毒。该方法可以有效检测语音识别模型是否中毒,可以弥补深度学习模型测试方法与中毒模型检测方法中存在的缺点。
附图说明
图1为音频预处理流程示意图;
图2为RNN结构的一般数据传输处理框架图;
图3为在不考虑时间步下的时序神经通路示意图;
图4为在考虑时间步下的时序神经通路示意图。
具体实施方式
本发明的核心是提供一种基于时序神经通路的语音识别模型中毒检测的方法及装置。
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。下面对本发明提供的一种基于时序神经通路的语音识别模型中毒检测方法实施例进行介绍,参见图1-图4,具体包括以下步骤:
1)获取用于检测语音识别模型是否中毒的数据集并保存,该数据集可以是一般的用于训练语音识别模型的数据集,如Librispeech数据集,获取待检测的语音识别模型MR。
2)定义循环神经网络(RNN)的时序神经通路,确定RNN结构时序神经通路的具体步骤如下:
Step1:分析RNN模型的数据处理过程。RNN模型的数据输入是按时间步输入的,首先会对输入的数据进行预处理,预处理的过程如图1所示,一段音频经过图1中的音频预处理步骤后获得梅尔倒谱系数(MFCC),该系数实际上为一个矩阵,该矩阵的列数表示语音的帧数,行表示MFCC系数的维度。该矩阵在输入RNN模型时,是按帧输入的,即将矩阵中的数据一列一列的输给RNN模型,也就是每一列对应一个时间步。RNN的一般数据处理过程如图2所示,需要注意的是图2是按时间步表示RNN的数据处理过程,实际的RNN模型的结构仅有一个,即图2中每个时间步上的结构都表示同一个RNN结构。输入层的节点个数与MFCC的维度是相同的。
Step2:从图2中可以确定时序神经通路,RNN结构的时序神经通路由两组时序神经通路组成。首先考虑第一组时序神经通路,即在不考虑RNN输入的时间步的情况下的时序神经通路,也就是只考虑某一时间步,则RNN的数据传输过程如图3所示。如图3所示,在某一个时间步的输入下,若第一个隐藏层的第1-1号神经元和第1-3号神经元的激活值在第一层所有神经元中是较大的,第二个隐藏层的第2-1号神经元的激活值在第二层中是较大的,则确定的时序神经通路如图3中的虚线所示,需要注意的是1-3号神经元没有与2-2号神经元组成通路的原因是2-2号神经元的激活值在第二个隐藏层不是最大的,因此组成的时序神经通路如图3所示。
Step3:考虑在时间步输入下的第二组时序神经通路。由于RNN结构在实际数据处理过程中输入是按帧输入给模型的,因此模型每一层神经元的输出值还要受到上一个时刻的神经元的输出值的影响。在考虑时间步的情况下,以两个时间步为例,RNN的数据处理过程如图4所示。若在第t个时间步输入下,第一个隐藏层的第1-1号神经元激活值是较大的,第二个隐藏层的第2-2号神经元的激活值是较大的,则对于第t+1和时间步,其时序神经通路如图4中的较粗的虚线所示,即第二组时序神经通路就是如图中4的粗虚线所示的通路。
3)从步骤1)的数据集中选择K条数据作为测试音频,构建损失函数loss,利用构建的损失函数优化测试音频,具体步骤如下:
Step1:构建CTC损失函数,CTC损失函数是一种端到端的循环神经网络损失函数。语音识别模型可以定义为y=F(x),其中x∈X,为输入音频X的某一帧,音频X对应的正确文本为T,其输出y为字符的概率分布,由此概率分布可以确定输出序列为π的概率如下式(1)所示。
因此构建的CTC损失函数如下式(3)所示:
CTCLoss(f(x),T)=-logP(T|f(x)) (3)
Step2:构建时序神经通路的损失函数,根据步骤2)中确定的时序神经通路构建时序神经通路损失函数如下式(4)所示:
其中,N表示RNN模型的层数,M表示输入数据一共有M个时间步,即输入音频帧数为M,maxk-iψ(x,n)表示在不考虑时间步的情况下,输入x时,在第n层中能够组成时序神经通路的k-i个神经元的激活值之和。maxl-iφ(x,n)表示在考虑时间步的情况下,第n层中的l-i个激活值最大的神经元的激活值之和。
Step3:由Step1和Step2可获得总损失函数如下式(5)所示:
loss=CTCLoss+λ·NPath (5)
其中λ为一个平衡参数,可人为调节,默认常数为1。
4)利用步骤3)中构建的损失函数构建近似中毒音频。具体步骤如下:
Step1:通过计算步骤3)中的损失函数对输入的测试音频的导数就可以获得梯度上的噪声,如下式(6)所示:
Step2:根据Step1中的噪声更新输入测试样本x=x+s*noise,其中s表示步长,可以控制噪声的大小。循环迭代,优化生成近似中毒测试音频。迭代终止条件为:1.达到循环最高上限值,默认为30代;2.输入x的识别结果不等于原始识别结果。
5)将步骤4)中构建的近似中毒测试音频输入到待检测的语音识别模型MR中,统计MR对该近似中毒测试音频的识别结果与对应的原文本T之间的编辑距离。编辑距离是用来度量两个序列相似程度的指标,指的是在两个序列<w1,w2>之间,由其中一个序列w1转换为另外一个序列w2所需的最少单字符编辑操作次数。单字符编辑操作有且仅有三种:插入,删除,替换。若编辑距离超过设定的阈值,则判定该语音识别模型MR是中毒的。
本发明还提供了一种基于时序神经通路的语音识别模型中毒检测装置的实施例,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行计算机程序时实现上述针对语音识别模型的中毒检测。
由于该防御装置中以及计算机存储器存储的计算机程序主要用于实现上述的一种基于神经网络的语音识别模型的中毒检测方法,因此其作用与上述中毒模型检测方法的作用相对应,此处不再赘述。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于时序神经通路的语音识别模型中毒检测方法,其特征在于,包括以下步骤:
1)获取待检测的基于循环神经网络RNN结构的语音识别模型MR;获取用于训练待检测的语音识别模型的数据集并保存;
2)定义循环神经网络RNN的时序神经通路;循环神经网络RNN的时序神经通路为两组:
第一组为在不考虑时间步的情况下,从输入到输出的前向传导过程中,前一层激活值最大的几个神经元与后一层激活值最大的几个神经元连接起来的时序神经通路;
第二组为在考虑时间步的情况下,T时刻的隐藏层激活值最大的几个神经元的激活值传递到T+1时刻对应的隐藏层神经元上的时序神经通路;
3)从步骤1)的数据集中选择K条数据作为测试音频,基于所述的时序神经通路构建用于优化测试音频的损失函数loss,使测试音频在输入语音识别模型后能够使时序神经通路上的神经元的激活值最大;
所述的损失函数loss包含两个部分:一个部分是用于语音识别模型训练时的损失函数CTC;另一部分是步骤2)中的时序神经通路上的神经元的激活值之和;所述的损失函数loss的构建过程如下:
3-Step1:构建CTC损失函数,包括:
定义语音识别模型为y=F(x),其中x∈X,为输入音频X的某一帧,音频X对应的正确文本为T;输出y为字符的概率分布;
由此概率分布可以确定输出序列为π的概率如下式(1)所示:
由此,定义在输入音频X下,输出为对应文本T的概率为:
因此构建的损失函数CTC如下式(3)所示:
CTCLoss(F(x),T)=-log P(T|F(x)) (3)
3-Step2:构建时序神经通路的损失函数NPath:
根据步骤2)中确定的时序神经通路构建时序神经通路的损失函数NPath如下式(4)所示:
其中,N表示循环神经网络RNN模型的层数;M表示输入音频的帧数;maxk-iψ(x,n)表示在不考虑时间步的情况下,输入x时,在第n层中能够组成时序神经通路的k-i个神经元的激活值之和;maxl-iφ(x,n)表示在考虑时间步的情况下,第n层中的l-i个激活值最大的神经元的激活值之和;
3-Step3:由3-Step1和3-Step2可获得总损失函数loss如下式(5)所示:
loss=CTCLoss+λ·NPath (5)
其中:λ为平衡参数,可人为调节;
4)利用步骤3)中构建的损失函数loss构建近似中毒音频,包括:
4-Step1:通过计算步骤3)中的损失函数对输入的测试音频的导数,获得在其梯度上的噪声,如下式(6)所示:
4-Step2:根据4-Step1中的噪声更新输入的测试样本x=x+s*noise,其中:s表示步长;循环迭代,优化生成近似中毒测试音频;
5)将步骤4)中构建的近似中毒测试音频输入到待检测的语音识别模型MR中,统计MR对该近似中毒测试音频的识别结果与对应原文本的编辑距离;若编辑距离达到一定阈值,就判定该语音识别模型MR是中毒的。
2.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法,其特征在于,所述的数据集为Librispeech数据集。
3.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法,其特征在于,迭代终止条件为:达到循环最高上限值或输入x的识别结果不等于原始识别结果。
4.根据权利要求1所述的基于时序神经通路的语音识别模型中毒检测方法,其特征在于,所述的编辑距离是指:在两个序列<w1,w2>之间,由其中一个序列w1转换为另外一个序列w2所需的最少单字符编辑操作次数;单字符编辑操作包括:插入,删除,替换。
5.一种基于时序神经通路的语音识别模型中毒检测装置,其特征在于,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序;所述计算机处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于时序神经通路的语音识别模型中毒检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650450.5A CN113297579B (zh) | 2021-06-11 | 2021-06-11 | 基于时序神经通路的语音识别模型中毒检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650450.5A CN113297579B (zh) | 2021-06-11 | 2021-06-11 | 基于时序神经通路的语音识别模型中毒检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297579A CN113297579A (zh) | 2021-08-24 |
CN113297579B true CN113297579B (zh) | 2022-08-09 |
Family
ID=77328022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110650450.5A Active CN113297579B (zh) | 2021-06-11 | 2021-06-11 | 基于时序神经通路的语音识别模型中毒检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297579B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522716A (zh) * | 2018-11-15 | 2019-03-26 | 中国人民解放军战略支援部队信息工程大学 | 一种基于时序神经网络的网络入侵检测方法及装置 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN111428818A (zh) * | 2020-04-22 | 2020-07-17 | 浙江工业大学 | 基于神经通路激活状态的深度学习模型测试方法与装置 |
WO2020263389A1 (en) * | 2019-06-26 | 2020-12-30 | Hrl Laboratories, Llc | System and method fdr detecting backdoor attacks in convolutional neural networks |
-
2021
- 2021-06-11 CN CN202110650450.5A patent/CN113297579B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522716A (zh) * | 2018-11-15 | 2019-03-26 | 中国人民解放军战略支援部队信息工程大学 | 一种基于时序神经网络的网络入侵检测方法及装置 |
WO2020263389A1 (en) * | 2019-06-26 | 2020-12-30 | Hrl Laboratories, Llc | System and method fdr detecting backdoor attacks in convolutional neural networks |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN111428818A (zh) * | 2020-04-22 | 2020-07-17 | 浙江工业大学 | 基于神经通路激活状态的深度学习模型测试方法与装置 |
Non-Patent Citations (4)
Title |
---|
Connectionist Temporal;Graves A;《The 23rd international conference on》;20061231;全文 * |
DeepPoison:Feature Transfer Based Stealthly Poisoning Attack;Jinyin Chen;《Cryptology and Security》;20210108;全文 * |
Invisible Poisoning:Highly Stealthy Targeted Poisoning Attack;Jinyin Chen;《Information Security and Cryptology》;20200313;全文 * |
深度学习模型的中毒攻击与防御综述;陈晋音;《信息安全学报》;20200831;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113297579A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN113901799B (zh) | 模型训练、文本预测方法、装置、电子设备及介质 | |
Li et al. | Towards Discriminative Representation Learning for Speech Emotion Recognition. | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
CN112420024A (zh) | 一种全端到端的中英文混合空管语音识别方法及装置 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN112905772A (zh) | 语义相关性分析方法、装置及相关产品 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113297579B (zh) | 基于时序神经通路的语音识别模型中毒检测方法及装置 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
KR102610897B1 (ko) | 타임 시퀀스 특징 스크리닝 인코딩 모듈 기반의 멀티패스인간-기계 대화 방법 및 장치 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN117933249A (zh) | 一种装备故障知识的智能交互方法及系统 | |
CN114239565B (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
CN111581339B (zh) | 基于树状lstm对生物医学文献的基因事件的抽取方法 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
Liu et al. | Keyword retrieving in continuous speech using connectionist temporal classification | |
CN118571216B (zh) | 基于语音语料对齐与自适应融合的语音分类方法 | |
CN112860882A (zh) | 一种基于神经网络的图书概念前后序关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared |