CN111613240B - 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 - Google Patents

一种基于注意力机制和Bi-LSTM的伪装语音检测方法 Download PDF

Info

Publication number
CN111613240B
CN111613240B CN202010439274.6A CN202010439274A CN111613240B CN 111613240 B CN111613240 B CN 111613240B CN 202010439274 A CN202010439274 A CN 202010439274A CN 111613240 B CN111613240 B CN 111613240B
Authority
CN
China
Prior art keywords
voice
mel
frequency
characteristic data
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010439274.6A
Other languages
English (en)
Other versions
CN111613240A (zh
Inventor
简志华
金易帆
钟华
游林
汪云路
朱雅楠
于佳祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010439274.6A priority Critical patent/CN111613240B/zh
Publication of CN111613240A publication Critical patent/CN111613240A/zh
Application granted granted Critical
Publication of CN111613240B publication Critical patent/CN111613240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制和Bi‑LSTM的伪装语音检测方法,包括:S1.提取语音样本中与语音相对应的语音特征数据,并将提取出的语音特征数据转换为语音图像数据;S2.采用双向长短期记忆网络Bi‑LSTM对转换得到的语音图像数据进行处理,得到图像数据的深度特征;S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。本发明将提取出来的特征数据转换成图像数据,再将图像数据作为双向长短期记忆网络的输入得到深度特征,然后用注意力模型对深度特征进行计算并得到注意力概率分布,最后用支持向量机模型对输出结果进行分类,得到欺骗检测结果。

Description

一种基于注意力机制和Bi-LSTM的伪装语音检测方法
技术领域
本发明涉及语音检测技术领域,尤其涉及一种基于注意力机制和Bi-LSTM的伪装语音检测方法。
背景技术
伪装语音检测是通过对说话人的声音进行分析,进而识别出它是真实说话人的语音还是人为恶意伪装的语音。伪装语音通常由设备回放、语音转换及语音合成技术生成,通过这些蓄意的操作能够伪装成特定的说话人声音,从而达到欺骗说话人识别系统的目的。伪装语音识别系统可针对恶意的伪装语音实现反伪装检测,提高说话人识别系统安全性能,具有广阔的应用前景。
说话人识别是根据特定说话人提供的语音样本的特性来自动识别说话人身份的一种技术。但是在一般的说话人识别系统中,系统很容易受到伪装语音欺骗攻击的影响而错误地对语音样本进行判别,因此要在说话人识别系统中加入欺骗攻击检测模块,对语音样本进行欺骗攻击检测。目前的欺骗攻击检测技术中常用的方法是先对语料库中的训练集数据做特征提取,例如常用的特征有梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)、群延迟特征(GD)、相对相移(RPS)以及基于深度神经网络(DNN)的特征,然后将提取出的特征用于训练模型,但是这种方法的欺骗检测效果不理想,在实际应用中对环境噪声的鲁棒性不强。
针对上述技术问题,本发明提出一种基于注意力机制和Bi-LSTM的伪装语音检测方法来解决上述问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于注意力机制和Bi-LSTM的伪装语音检测方法。
为了实现以上目的,本发明采用以下技术方案:
一种基于注意力机制和Bi-LSTM的伪装语音检测方法,包括:
S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
进一步的,所述步骤S1中将所述提取出的特征数据转换为语音图像数据,具体包括:
S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
S14.对所述得到的每一帧信号的样本点数进行补零;
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
进一步的,所述步骤S13中对得到的语音特征数据的每一帧信号进行加窗,所述加窗采用的是汉明窗,表示为:
w(n)=0.54-0.46cos(2πn/L)
其中,L表示帧长。
进一步的,所述步骤S16中通过梅尔滤波器对语音特征数据的中低频部分进行处理,具体为:
计算梅尔滤波器的梅尔频率分布,把梅尔频率转换成实际频率,表示为:
Figure BDA0002503500000000031
计算梅尔频率分辨率,表示为:
f(i)=floor((n+1)*h(i)/fs)
其中,fs表示语音的采样频率;
定义若干个带通滤波器Hm(k),0≤m≤M,M是滤波器个数,每个带通滤波器的输出表示为:
Figure BDA0002503500000000032
其中,m表示第m个滤波器;f(m)表示第m个滤波器的中心频率;f(m-1)表示滤波器的上限频率;f(m+1)表示滤波器的下限频率。
滤波器组的输出的对数能量为:
Figure BDA0002503500000000033
进一步的,所述步骤S17中得到梅尔倒谱,表示为:
Figure BDA0002503500000000034
其中,c(n)表示n阶梅尔倒谱系数;S[m]表示梅尔滤波器组的输出信号的对数能量,M表示滤波器的个数。
进一步的,所述步骤S4中得到最终的伪装语言检测结果是通过计算接近真实语音的帧数来判断是否为欺骗语音。
进一步的,所述通过计算接近真实语音的帧数来判断是否为欺骗语音,表示为:
Figure BDA0002503500000000041
其中,P(h|Fi)表示真实语音节点的输出值;P(Sk|Fi)表示欺骗语音节点的输出值。
与现有技术相比,本发明将提取出来的特征数据转换成图像数据,再将图像数据作为双向长短期记忆网络(Bi-LSTM)的输入得到深度特征,然后用注意力模型对深度特征进行计算并得到注意力概率分布,就获得了每一帧在欺骗检测中的重要程度,最后用支持向量机模型对输出结果进行分类,得到欺骗检测结果。
附图说明
图1是优选实施例提供的一种基于注意力机制和Bi-LSTM的伪装语音检测方法流程图;
图2是优选实施例提供的一种基于注意力机制和Bi-LSTM的伪装语音检测方法框架结构图;
图3是优选实施例提供的LSTM内部结构图。
图4是优选实施例提供的遗忘门结构图;
图5是优选实施例提供的输入门结构图;
图6是优选实施例提供的状态更新结构图。
图7是优选实施例提供的输出门结构图;
图8是优选实施例提供的Bi-LSTM结构结构图;
图9是优选实施例提供的结合注意力机制的Bi-LSTM结构图;
图10是优选实施例提供的DNN分类器结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于注意力机制和Bi-LSTM的伪装语音检测方法。
本实施例提供一种基于注意力机制和Bi-LSTM的伪装语音检测方法,如图1-2所示,包括:
S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
在步骤S1中,提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据。具体包括为:
S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
预增强:为了使语音特征数据的高频部分具有更高的分辨率,需要对语音特征数据的信号进行预增强,通过高通滤波器使高频部分更加突出,高通滤波器表示为:
Figure BDA0002503500000000051
其中,α表示增强系数,取值为0.95。
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
分帧:本实施例设定每帧的长度为25ms,重叠区为15ms,即每隔10ms取一帧。对于采样率为16kHz的语音,每帧样本点数为400。
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
为了防止快速傅里叶变换FFT时两个端点发生突变,需要对每一帧加窗,本实施例选择汉明窗表示为:
w(n)=0.54-0.46cos(2πn/L)
其中,L表示帧长,L=400。
S14.对所述得到的每一帧信号的样本点数进行补零;
补零:快速傅里叶变换FFT要求数据长度为2k,本实施例把400个点补零为512个点。
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
快速傅里叶变换FFT:对分帧加窗后的信号做512点的FFT得到频谱,并对语音信号的频谱取模的平方得到功率谱。
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
梅尔滤波器:梅尔滤波器是基于人类听觉感知的,而人类对语音中的中低频域有较强的感知能力,对高频域感知能力弱,所以梅尔滤波器在低频段密度高,高频段密度低。
梅尔频率表示音调和频率之间的关系,转换公式表示为:
Figure BDA0002503500000000061
其中,f表示频率;
计算梅尔滤波器的梅尔频率分布,把梅尔频率转换成实际频率,表示为:
Figure BDA0002503500000000062
计算梅尔频率分辨率,表示为:
f(i)=floor((n+1)*h(i)/fs)
其中,fs表示语音的采样频率;
定义若干个带通滤波器Hm(k),0≤m≤M,M是滤波器个数,每个带通滤波器的输出表示为:
Figure BDA0002503500000000071
其中,m表示第m个滤波器;f(m)表示第m个滤波器的中心频率;f(m-1)表示滤波器的上限频率;f(m+1)表示滤波器的下限频率。
取对数:将滤波器组的输出取对数。
Figure BDA0002503500000000072
N是FFT变换的点数。
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
离散余弦变换DCT:对对数能量梅尔谱进行离散余弦变换DCT变换,取前13维输出,得到梅尔倒谱,表示为:
Figure BDA0002503500000000073
其中,c(n)表示n阶梅尔倒谱系数;S[m]表示梅尔滤波器组的输出信号的对数能量,M表示滤波器的个数。
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
在步骤S2中,用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征。
双向长短期记忆网络同时有一个正向LSTM和一个反向LSTM,分别捕获正向和反向的特征信息,然后将捕获的特征进行融合得到深度特征。Bi-LSTM的输出为:
Figure BDA0002503500000000074
其中,
Figure BDA0002503500000000075
表示正向线性关系的系数,/>
Figure BDA0002503500000000076
表示反向线性关系的系数,by表示线性关系的偏移,/>
Figure BDA0002503500000000081
和/>
Figure BDA0002503500000000082
表示正向和反向的LSTM的cell的输出。
本实施例采用双向长短期记忆网络(Bi-LSTM)来处理得到的语音图像数据,LSTM是一种时间循环神经网络,是循环神经网络(RNN)的一种,克服了RNN中存在的梯度消失的问题,更有利于模型的优化。LSTM模型与普通的RNN模型相比,LSTM模型的隐藏层中的每个节点都采用LSTM模块,其内部结构如图3所示。
图3中的Ct表示当前的细胞状态,即当前包含的信息,模块结构中包含遗忘门、输入门和输出门,信息的选择性通过一个sigmoid(σ)神经层和逐点相乘或相加操作来实现。tanh是双曲正切函数,表示为:
Figure BDA0002503500000000083
遗忘门如图4所示,决定要舍弃和保留的信息,这一过程中将ht-1和xt通过一个sigmoid层输出一个0到1之间的值给每个cell状态Ct-1中的数字,表示信息通过的权重比,0表示全部舍弃,1表示全部保留,表示为:
ft=σ(Wf×ht-1+Wf×xt+bf)
其中,W和b是线性关系的系数和偏移,通过训练得到,ht-1表示前一个cell的输出,xt表示当前帧信息的输入,Ct-1表示前一个cell的细胞状态,Ct表示当前cell的细胞状态。
如图5所示,输入门决定要将多少新的信息加入到细胞状态中来,这里分成两部分,Ct1表示本次学习到的信息,it用于选择过滤本次学习到的信息,用过滤之后的信息对先前的信息进行补充,表示为:
it=σ(Wi×ht-1+Wi×xt+bi)
Ct1=tanh(WC×ht-1+WC×xt+bC)
如图6所示为状态更新图,更新后的状态表示为:
Ct=ft×Ct-1+it×Ct1
如图7所示,输出门决定最后的输出值,输出值是一个基于当前细胞状态的值,通过sigmoid神经层对细胞状态进行过滤得出当前的输出值。表示为:
ot=σ(Wo×ht-1+Wo×xt+bo)
ht=ot×tanh(Ct)
双向长短期记忆网络(Bi-LSTM)有两个独立的反向的长短期记忆网络组成,他的每个输出数据都同时和前后的信息具有相关性,其结构如图8所示。
在步骤S3中,采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布。
对Bi-LSTM层的输出进行计算可以进一步得到每个时刻LSTM单元的输出对分类的重要程度,注意力层的计算公式如下:
M=tanh(H)
a=softmax(wTM)
h*=tanh(HaT)
其中,H由LSTM的各个时刻的输出ht,t=1,2,3,....组合成,w是一个待训练的随机向量,a是注意力概率分布向量,h*是计算得到的特征表示,最终通过h*得到分类结果。
注意力是人类感知中的一个重要部分,因为人类视觉系统无法处理整个场景,观察事物时只关注某一部分这种特性可以更好的去捕捉某些特定的视觉信息,基于这种注意力机制的神经网络在处理数据的时候可以得到更全局性的信息,更全面的捕捉到某些特征信息。
对双向长短期记忆网络的输出计算可以得出一个注意力概率分布,由此可以得到不同帧的LSTM输出对欺骗检测的重要程度,结合注意力机制的双向长短期记忆网络如图9所示
在步骤S4中,采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果。
本实施例采用包含五个隐藏层的神经网络来区分真是语音和欺骗语音,每个隐含层包含具有sigmoid激活函数的2048个节点,输出节点数为t+1,双向长短期记忆网络的输出作为分类器的输入,利用随机梯度下降法建立和训练神经网络。如图10所示。
分类时通过计算接近真实语音的帧数来判断是否为欺骗语音,即:真实语音节点的输出P(h|Fi)比0.5要大的语音帧数超过总的帧数一半,则认为该语音是真实语音,否则为欺骗语音。
决策得分由下式计算
Figure BDA0002503500000000101
其中,P(h|Fi)表示真实语音节点的输出值;P(Sk|Fi)表示欺骗语音节点的输出值。
与现有技术相比,本发明将提取出来的特征数据转换成图像数据,再将图像数据作为双向长短期记忆网络(Bi-LSTM)的输入得到深度特征,然后用注意力模型对深度特征进行计算并得到注意力概率分布,就获得了每一帧在欺骗检测中的重要程度,最后用支持向量机模型对输出结果进行分类,得到欺骗检测结果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,包括:
S1.提取语音样本中与语音相对应的语音特征数据,并将所述提取出的语音特征数据转换为语音图像数据;
S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理,得到图像数据的深度特征;
S3.采用注意力机制对所述得到的深度特征进行计算,得到注意力的概率分布;
S4.采用DNN分类器对得到的注意力概率分布进行分类,得到最终的伪装语言检测结果;
步骤S4中得到最终的伪装语言检测结果是通过计算接近真实语音的帧数来判断是否为欺骗语音;
通过计算接近真实语音的帧数来判断是否为欺骗语音,表示为:
Figure FDA0004134626950000011
其中,P(h|Fi)表示真实语音节点的输出值;P(Sk|Fi)表示欺骗语音节点的输出值,真实语音节点的输出值P(h|Fi)比0.5要大的语音帧数超过总的帧数一半,则认为该语音是真实语音,否则为欺骗语音。
2.根据权利要求1所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,步骤S1中将所述提取出的特征数据转换为语音图像数据,具体包括:
S11.通过高通滤波器对语音特征数据的高频部分进行预增强;
S12.对语音特征数据进行分帧处理,得到语音特征数据的每一帧信号以及每一帧信号的样本点数;
S13.对所述得到的语音特征数据的每一帧信号进行加窗;
S14.对所述得到的每一帧信号的样本点数进行补零;
S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT,得到语音特征数据的频谱,并对的所述语音特征数据的频谱进行取模运算,得到语音特征数据的功率谱;
S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理,得到梅尔谱;并对所述得到的梅尔谱进行对数计算,得到对数梅尔谱;
S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理,得到梅尔倒谱,并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC;
S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色,最后生成语音图像数据。
3.根据权利要求2所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,步骤S13中对得到的语音特征数据的每一帧信号进行加窗,加窗采用的是汉明窗,表示为:
w(n)=0.54-0.46cos(2πn/L)
其中,L表示帧长。
4.根据权利要求2所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,步骤S16中通过梅尔滤波器对语音特征数据的中低频部分进行处理,具体为:
计算梅尔滤波器的梅尔频率分布,把梅尔频率转换成实际频率,表示为:
Figure FDA0004134626950000021
计算梅尔频率分辨率,表示为:
f(i)=floor((n+1)*h(i)/fs)
其中,fs表示语音的采样频率;
定义若干个带通滤波器Hm(k),0≤m≤M,M是滤波器个数,每个带通滤波器的输出表示为:
Figure FDA0004134626950000022
其中,m表示第m个滤波器;f(m)表示第m个滤波器的中心频率;f(m-1)表示滤波器的上限频率;f(m+1)表示滤波器的下限频率。
5.根据权利要求2所述的一种基于注意力机制和Bi-LSTM的伪装语音检测方法,其特征在于,步骤S17中得到梅尔倒谱,表示为:
Figure FDA0004134626950000031
其中,c(n)表示n阶梅尔倒谱系数;S[m]表示梅尔滤波器组的输出信号的对数能量,M表示滤波器的个数。
CN202010439274.6A 2020-05-22 2020-05-22 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 Active CN111613240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439274.6A CN111613240B (zh) 2020-05-22 2020-05-22 一种基于注意力机制和Bi-LSTM的伪装语音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010439274.6A CN111613240B (zh) 2020-05-22 2020-05-22 一种基于注意力机制和Bi-LSTM的伪装语音检测方法

Publications (2)

Publication Number Publication Date
CN111613240A CN111613240A (zh) 2020-09-01
CN111613240B true CN111613240B (zh) 2023-06-27

Family

ID=72199485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010439274.6A Active CN111613240B (zh) 2020-05-22 2020-05-22 一种基于注意力机制和Bi-LSTM的伪装语音检测方法

Country Status (1)

Country Link
CN (1) CN111613240B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712820A (zh) * 2020-12-25 2021-04-27 广州欢城文化传媒有限公司 一种音色分类方法、装置、设备和介质
CN112885358A (zh) * 2021-01-22 2021-06-01 江西师范大学 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
CN113129897B (zh) * 2021-04-08 2024-02-20 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法
CN113488073B (zh) * 2021-07-06 2023-11-24 浙江工业大学 一种基于多特征融合的伪造语音检测方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102820037B (zh) * 2012-07-21 2014-03-12 渤海大学 基于组合特征的汉语声韵母可视化方法
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108682418B (zh) * 2018-06-26 2022-03-04 北京理工大学 一种基于预训练和双向lstm的语音识别方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110148425A (zh) * 2019-05-14 2019-08-20 杭州电子科技大学 一种基于完整局部二进制模式的伪装语音检测方法
CN110992987B (zh) * 2019-10-23 2022-05-06 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
辨证认识话者自动识别系统;杨俊杰;;中国司法鉴定(第02期);75-79 *

Also Published As

Publication number Publication date
CN111613240A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111613240B (zh) 一种基于注意力机制和Bi-LSTM的伪装语音检测方法
CN110827837B (zh) 一种基于深度学习的鲸鱼活动音频分类方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN110880328A (zh) 到站提醒方法、装置、终端及存储介质
CN114373476A (zh) 一种基于多尺度残差注意力网络的声音场景分类方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Manurung et al. Speaker recognition for digital forensic audio analysis using learning vector quantization method
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Li et al. Research on environmental sound classification algorithm based on multi-feature fusion
Dwijayanti et al. Speaker identification using a convolutional neural network
Kakade et al. Fast Classification for Identification of Vehicles on the Road from Audio Data of Pedestrian’s Mobile Phone
Wang et al. Environmental sound recognition based on double-input convolutional neural network model
Yue et al. Multidimensional zero-crossing interval points: a low sampling rate acoustic fingerprint recognition method
GS et al. Synthetic speech classification using bidirectional LSTM Networks
Abdulrahman et al. A supervised learning classifier for replayed voice attack detection
Millionschik et al. 2022 IEEE Signal Processing Cup: Synthetic Speech Attribution
CN112669881B (zh) 一种语音检测方法、装置、终端及存储介质
CN113506583B (zh) 利用残差网络的伪装语音检测方法
CN115547362B (zh) 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法
Gehani et al. A Study of Sample Size Requirement and Effectiveness of Mel-Scaled Features for Small-Footprint Keyword Spotting in a Limited Dataset Environment
Nehra et al. Speaker identification system using CNN approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant