CN111613240A - 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 - Google Patents
一种基于注意力机制和Bi-LSTM的伪装语音检测方法 Download PDFInfo
- Publication number
- CN111613240A CN111613240A CN202010439274.6A CN202010439274A CN111613240A CN 111613240 A CN111613240 A CN 111613240A CN 202010439274 A CN202010439274 A CN 202010439274A CN 111613240 A CN111613240 A CN 111613240A
- Authority
- CN
- China
- Prior art keywords
- voice
- mel
- frequency
- lstm
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000009432 framing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,包括:S1.提取语音样本中与语音相对应的语音特征数据,并将提取出的语音特征数据转换为语音图像数据;S2.采用双向长短期记忆网络Bi‑LSTM对转换得到的语音图像数据进行处理,得到图像数据的深度特征;S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。本发明将提取出来的特征数据转换成图像数据,再将图像数据作为双向长短期记忆网络的输入得到深度特征,然后用注意力模型对深度特征进行计算并得到注意力概率分布,最后用支持向量机模型对输出结果进行分类,得到欺骗检测结果。
Description
技术领域
本发明涉及语音检测技术领域,尤其涉及一种基于注意力机制和Bi-LSTM的伪装语音检测方法。
背景技术
伪装语音检测是通过对说话人的声音进行分析,进而识别出它是真实说话人的语音还是人为恶意伪装的语音。伪装语音通常由设备回放、语音转换及语音合成技术生成,通过这些蓄意的操作能够伪装成特定的说话人声音,从而达到欺骗说话人识别系统的目的。伪装语音识别系统可针对恶意的伪装语音实现反伪装检测,提高说话人识别系统安全性能,具有广阔的应用前景。
说话人识别是根据特定说话人提供的语音样本的特性来自动识别说话人身份的一种技术。但是在一般的说话人识别系统中,系统很容易受到伪装语音欺骗攻击的影响而错误地对语音样本进行判别,因此要在说话人识别系统中加入欺骗攻击检测模块,对语音样本进行欺骗攻击检测。目前的欺骗攻击检测技术中常用的方法是先对语料库中的训练集数据做特征提取,例如常用的特征有梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)、群延迟特征(GD)、相对相移(RPS)以及基于深度神经网络(DNN)的特征,然后将提取出的特征用于训练模型,但是这种方法的欺骗检测效果不理想,在实际应用中对环境噪声的鲁棒性不强。
针对上述技术问题,本发明提出一种基于注意力机制和Bi-LSTM的伪装语音检测方法来解决上述问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于注意力机制和Bi-LSTM的伪装语音检测方法。
为了实现以上目的,本发明采用以下技术方案:
一种基于注意力机制和Bi-LSTM的伪装语音检测方法,包括:
S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
进一步的,所述步骤S1中将所述提取出的特征数据转换为语音图像数据,具体包括:
S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
S14.对所述得到的每一帧信号的样本点数进行补零;
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
进一步的,所述步骤S13中对得到的语音特征数据的每一帧信号进行加窗,所述加窗采用的是汉明窗,表示为:
w(n)=0.54-0.46cos(2πn/L)
其中,L表示帧长。
进一步的,所述步骤S16中通过梅尔滤波器对语音特征数据的中低频部分进行处理,具体为:
计算梅尔滤波器的梅尔频率分布,把梅尔频率转换成实际频率,表示为:
计算梅尔频率分辨率,表示为:
f(i)=floor((n+1)*h(i)/fs)
其中,fs表示语音的采样频率;
定义若干个带通滤波器Hm(k),0≤m≤M,M是滤波器个数,每个带通滤波器的输出表示为:
其中,m表示第m个滤波器;f(m)表示第m个滤波器的中心频率;f(m-1)表示滤波器的上限频率;f(m+1)表示滤波器的下限频率。
滤波器组的输出的对数能量为:
进一步的,所述步骤S17中得到梅尔倒谱,表示为:
其中,c(n)表示n阶梅尔倒谱系数;S[m]表示梅尔滤波器组的输出信号的对数能量,M表示滤波器的个数。
进一步的,所述步骤S4中得到最终的伪装语言检测结果是通过计算接近真实语音的帧数来判断是否为欺骗语音。
进一步的,所述通过计算接近真实语音的帧数来判断是否为欺骗语音,表示为:
其中,P(h|Fi)表示真实语音节点的输出值;P(Sk|Fi)表示欺骗语音节点的输出值。
与现有技术相比,本发明将提取出来的特征数据转换成图像数据,再将图像数据作为双向长短期记忆网络(Bi-LSTM)的输入得到深度特征,然后用注意力模型对深度特征进行计算并得到注意力概率分布,就获得了每一帧在欺骗检测中的重要程度,最后用支持向量机模型对输出结果进行分类,得到欺骗检测结果。
附图说明
图1是优选实施例提供的一种基于注意力机制和Bi-LSTM的伪装语音检测方法流程图;
图2是优选实施例提供的一种基于注意力机制和Bi-LSTM的伪装语音检测方法框架结构图;
图3是优选实施例提供的LSTM内部结构图。
图4是优选实施例提供的遗忘门结构图;
图5是优选实施例提供的输入门结构图;
图6是优选实施例提供的状态更新结构图。
图7是优选实施例提供的输出门结构图;
图8是优选实施例提供的Bi-LSTM结构结构图;
图9是优选实施例提供的结合注意力机制的Bi-LSTM结构图;
图10是优选实施例提供的DNN分类器结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于注意力机制和Bi-LSTM的伪装语音检测方法。
本实施例提供一种基于注意力机制和Bi-LSTM的伪装语音检测方法,如图1-2所示,包括:
S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
在步骤S1中,提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据。具体包括为:
S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
预增强:为了使语音特征数据的高频部分具有更高的分辨率,需要对语音特征数据的信号进行预增强,通过高通滤波器使高频部分更加突出,高通滤波器表示为:
其中,α表示增强系数,取值为0.95。
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
分帧:本实施例设定每帧的长度为25ms,重叠区为15ms,即每隔10ms取一帧。对于采样率为16kHz的语音,每帧样本点数为400。
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
为了防止快速傅里叶变换FFT时两个端点发生突变,需要对每一帧加窗,本实施例选择汉明窗表示为:
w(n)=0.54-0.46cos(2πn/L)
其中,L表示帧长,L=400。
S14.对所述得到的每一帧信号的样本点数进行补零;
补零:快速傅里叶变换FFT要求数据长度为2k,本实施例把400个点补零为512个点。
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
快速傅里叶变换FFT:对分帧加窗后的信号做512点的FFT得到频谱,并对语音信号的频谱取模的平方得到功率谱。
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
梅尔滤波器:梅尔滤波器是基于人类听觉感知的,而人类对语音中的中低频域有较强的感知能力,对高频域感知能力弱,所以梅尔滤波器在低频段密度高,高频段密度低。
梅尔频率表示音调和频率之间的关系,转换公式表示为:
其中,f表示频率;
计算梅尔滤波器的梅尔频率分布,把梅尔频率转换成实际频率,表示为:
计算梅尔频率分辨率,表示为:
f(i)=floor((n+1)*h(i)/fs)
其中,fs表示语音的采样频率;
定义若干个带通滤波器Hm(k),0≤m≤M,M是滤波器个数,每个带通滤波器的输出表示为:
其中,m表示第m个滤波器;f(m)表示第m个滤波器的中心频率;f(m-1)表示滤波器的上限频率;f(m+1)表示滤波器的下限频率。
取对数:将滤波器组的输出取对数。
N是FFT变换的点数。
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
离散余弦变换DCT:对对数能量梅尔谱进行离散余弦变换DCT变换,取前13维输出,得到梅尔倒谱,表示为:
其中,c(n)表示n阶梅尔倒谱系数;S[m]表示梅尔滤波器组的输出信号的对数能量,M表示滤波器的个数。
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
在步骤S2中,用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征。
双向长短期记忆网络同时有一个正向LSTM和一个反向LSTM,分别捕获正向和反向的特征信息,然后将捕获的特征进行融合得到深度特征。Bi-LSTM的输出为:
本实施例采用双向长短期记忆网络(Bi-LSTM)来处理得到的语音图像数据,LSTM是一种时间循环神经网络,是循环神经网络(RNN)的一种,克服了RNN中存在的梯度消失的问题,更有利于模型的优化。LSTM模型与普通的RNN模型相比,LSTM模型的隐藏层中的每个节点都采用LSTM模块,其内部结构如图3所示。
图3中的Ct表示当前的细胞状态,即当前包含的信息,模块结构中包含遗忘门、输入门和输出门,信息的选择性通过一个sigmoid(σ)神经层和逐点相乘或相加操作来实现。tanh是双曲正切函数,表示为:
遗忘门如图4所示,决定要舍弃和保留的信息,这一过程中将ht-1和xt通过一个sigmoid层输出一个0到1之间的值给每个cell状态Ct-1中的数字,表示信息通过的权重比,0表示全部舍弃,1表示全部保留,表示为:
ft=σ(Wf×ht-1+Wf×xt+bf)
其中,W和b是线性关系的系数和偏移,通过训练得到,ht-1表示前一个cell的输出,xt表示当前帧信息的输入,Ct-1表示前一个cell的细胞状态,Ct表示当前cell的细胞状态。
如图5所示,输入门决定要将多少新的信息加入到细胞状态中来,这里分成两部分,Ct1表示本次学习到的信息,it用于选择过滤本次学习到的信息,用过滤之后的信息对先前的信息进行补充,表示为:
it=σ(Wi×ht-1+Wi×xt+bi)
Ct1=tanh(WC×ht-1+WC×xt+bC)
如图6所示为状态更新图,更新后的状态表示为:
Ct=ft×Ct-1+it×Ct1
如图7所示,输出门决定最后的输出值,输出值是一个基于当前细胞状态的值,通过sigmoid神经层对细胞状态进行过滤得出当前的输出值。表示为:
ot=σ(Wo×ht-1+Wo×xt+bo)
ht=ot×tanh(Ct)
双向长短期记忆网络(Bi-LSTM)有两个独立的反向的长短期记忆网络组成,他的每个输出数据都同时和前后的信息具有相关性,其结构如图8所示。
在步骤S3中,采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布。
对Bi-LSTM层的输出进行计算可以进一步得到每个时刻LSTM单元的输出对分类的重要程度,注意力层的计算公式如下:
M=tanh(H)
a=softmax(wTM)
h*=tanh(HaT)
其中,H由LSTM的各个时刻的输出ht,t=1,2,3,....组合成,w是一个待训练的随机向量,a是注意力概率分布向量,h*是计算得到的特征表示,最终通过h*得到分类结果。
注意力是人类感知中的一个重要部分,因为人类视觉系统无法处理整个场景,观察事物时只关注某一部分这种特性可以更好的去捕捉某些特定的视觉信息,基于这种注意力机制的神经网络在处理数据的时候可以得到更全局性的信息,更全面的捕捉到某些特征信息。
对双向长短期记忆网络的输出计算可以得出一个注意力概率分布,由此可以得到不同帧的LSTM输出对欺骗检测的重要程度,结合注意力机制的双向长短期记忆网络如图9所示
在步骤S4中,采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
本实施例采用包含五个隐藏层的神经网络来区分真是语音和欺骗语音,每个隐含层包含具有sigmoid激活函数的2048个节点,输出节点数为t+1,双向长短期记忆网络的输出作为分类器的输入,利用随机梯度下降法建立和训练神经网络。如图10所示。
分类时通过计算接近真实语音的帧数来判断是否为欺骗语音,即:真实语音节点的输出P(h|Fi)比0.5要大的语音帧数超过总的帧数一半,则认为该语音是真实语音,否则为欺骗语音。
决策得分由下式计算
其中,P(h|Fi)表示真实语音节点的输出值;P(Sk|Fi)表示欺骗语音节点的输出值。
与现有技术相比,本发明将提取出来的特征数据转换成图像数据,再将图像数据作为双向长短期记忆网络(Bi-LSTM)的输入得到深度特征,然后用注意力模型对深度特征进行计算并得到注意力概率分布,就获得了每一帧在欺骗检测中的重要程度,最后用支持向量机模型对输出结果进行分类,得到欺骗检测结果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (7)
1.一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,包括:
S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
2.根据权利要求1所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,所述步骤S1中将所述提取出的特征数据转换为语音图像数据,具体包括:
S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
S14.对所述得到的每一帧信号的样本点数进行补零;
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
3.根据权利要求2所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,所述步骤S13中对得到的语音特征数据的每一帧信号进行加窗,所述加窗采用的是汉明窗,表示为:
w(n)=0.54-0.46cos(2πn/L)
其中,L表示帧长。
6.根据权利要求1所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,所述步骤S4中得到最终的伪装语言检测结果是通过计算接近真实语音的帧数来判断是否为欺骗语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439274.6A CN111613240B (zh) | 2020-05-22 | 2020-05-22 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439274.6A CN111613240B (zh) | 2020-05-22 | 2020-05-22 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613240A true CN111613240A (zh) | 2020-09-01 |
CN111613240B CN111613240B (zh) | 2023-06-27 |
Family
ID=72199485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010439274.6A Active CN111613240B (zh) | 2020-05-22 | 2020-05-22 | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613240B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712820A (zh) * | 2020-12-25 | 2021-04-27 | 广州欢城文化传媒有限公司 | 一种音色分类方法、装置、设备和介质 |
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
CN113129897A (zh) * | 2021-04-08 | 2021-07-16 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
CN113488073A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102820037A (zh) * | 2012-07-21 | 2012-12-12 | 渤海大学 | 基于组合特征的汉语声韵母可视化方法 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108682418A (zh) * | 2018-06-26 | 2018-10-19 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109948691A (zh) * | 2019-03-14 | 2019-06-28 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
CN110148425A (zh) * | 2019-05-14 | 2019-08-20 | 杭州电子科技大学 | 一种基于完整局部二进制模式的伪装语音检测方法 |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
-
2020
- 2020-05-22 CN CN202010439274.6A patent/CN111613240B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102820037A (zh) * | 2012-07-21 | 2012-12-12 | 渤海大学 | 基于组合特征的汉语声韵母可视化方法 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108682418A (zh) * | 2018-06-26 | 2018-10-19 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109948691A (zh) * | 2019-03-14 | 2019-06-28 | 齐鲁工业大学 | 基于深度残差网络及注意力的图像描述生成方法和装置 |
CN110148425A (zh) * | 2019-05-14 | 2019-08-20 | 杭州电子科技大学 | 一种基于完整局部二进制模式的伪装语音检测方法 |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
Non-Patent Citations (7)
Title |
---|
刘佳等: "基于语音信号组合特征的语音图谱显示", 《生物医学工程研究》 * |
刘佳等: "基于语音信号组合特征的语音图谱显示", 《生物医学工程研究》, no. 04, 15 December 2007 (2007-12-15), pages 46 - 49 * |
杨俊杰;: "辨证认识话者自动识别系统", 中国司法鉴定, no. 02, pages 75 - 79 * |
赖家豪: "基于深度学习的语音转换研究", 《中国优秀硕士学位论文全文数据库》 * |
赖家豪: "基于深度学习的语音转换研究", 《中国优秀硕士学位论文全文数据库》, 15 January 2020 (2020-01-15) * |
陈柱欣: "基于深度神经网络的声纹欺骗检测研究", 《中国优秀硕士学位论文全文数据库》 * |
陈柱欣: "基于深度神经网络的声纹欺骗检测研究", 《中国优秀硕士学位论文全文数据库》, 15 January 2020 (2020-01-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712820A (zh) * | 2020-12-25 | 2021-04-27 | 广州欢城文化传媒有限公司 | 一种音色分类方法、装置、设备和介质 |
CN112885358A (zh) * | 2021-01-22 | 2021-06-01 | 江西师范大学 | 一种基于双向长短期记忆网络的说话人确认欺骗检测方法 |
CN113129897A (zh) * | 2021-04-08 | 2021-07-16 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
CN113129897B (zh) * | 2021-04-08 | 2024-02-20 | 杭州电子科技大学 | 一种基于注意力机制循环神经网络的声纹识别方法 |
CN113488073A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
CN113488073B (zh) * | 2021-07-06 | 2023-11-24 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111613240B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111613240B (zh) | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 | |
KR102605736B1 (ko) | 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치 | |
CN108597505B (zh) | 语音识别方法、装置及终端设备 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN110600059A (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN110880328B (zh) | 到站提醒方法、装置、终端及存储介质 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN114495950A (zh) | 一种基于深度残差收缩网络的语音欺骗检测方法 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
Wang et al. | Audio event detection and classification using extended R-FCN approach | |
Wang et al. | A novel underground pipeline surveillance system based on hybrid acoustic features | |
CN111524520A (zh) | 一种基于误差逆向传播神经网络的声纹识别方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
Zhao et al. | Event classification for living environment surveillance using audio sensor networks | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN113990303A (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
CN110444225B (zh) | 基于特征融合网络的声源目标识别方法 | |
Dwijayanti et al. | Speaker identification using a convolutional neural network | |
Omarov | Applying of audioanalytics for determining contingencies | |
CN111462770A (zh) | 一种基于lstm的后期混响抑制方法及系统 | |
Zhao | Anomalous sound detection based on convolutional neural network and mixed features | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |