CN112270931B - 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 - Google Patents

一种基于孪生卷积神经网络进行欺骗性语音检测的方法 Download PDF

Info

Publication number
CN112270931B
CN112270931B CN202011139472.7A CN202011139472A CN112270931B CN 112270931 B CN112270931 B CN 112270931B CN 202011139472 A CN202011139472 A CN 202011139472A CN 112270931 B CN112270931 B CN 112270931B
Authority
CN
China
Prior art keywords
voice
gaussian
dimensional
neural network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011139472.7A
Other languages
English (en)
Other versions
CN112270931A (zh
Inventor
雷震春
马明磊
杨印根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202011139472.7A priority Critical patent/CN112270931B/zh
Publication of CN112270931A publication Critical patent/CN112270931A/zh
Application granted granted Critical
Publication of CN112270931B publication Critical patent/CN112270931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于孪生卷积神经网络进行欺骗性语音检测的方法,包括如下步骤:(1)提取语音的高斯概率特征:(a)对所有原始语音进行预处理;(b)对预处理后的语音进行CQCC特征提取;(c)对CQCC特征训练得到两个高斯混合模型;(d)通过两个高斯混合模型提取语音的高斯概率特征;(2)对语音进行欺骗性检测:语音经过两个高斯混合模型提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。本发明采用孪生卷积神经网络,基于真实语音和欺骗语音两种高斯混合模型训练,能够大大提高欺骗性语音检测的准确性。

Description

一种基于孪生卷积神经网络进行欺骗性语音检测的方法
技术领域
本发明属于语音检测技术领域,更具体的说是涉及一种基于孪生卷积神经网络进行欺骗性语音检测的方法。
背景技术
自动说话人确认(ASV)旨在通过给定语音段自动确认说话者的身份。语音技术的最新进展通过各种欺骗攻击对ASV系统构成了巨大威胁。有四种众所周知的攻击对ASV系统构成了严重威胁,即模仿,文本语音转换(TTS),语音转换(VC)和重播。针对于真实语音和欺骗性语音的两类高斯混合模型分类器通常用作ASVspoof挑战的基线系统,该分类器旨在开发通用的有可能检测各种和无法预料的欺骗性攻击的对策。在经典高斯混合模型(GMM)中,分数是在所有特征帧上独立累积的,而且每个高斯分量的贡献信息都将被丢弃,并且在时间轴方向上也忽略了相邻帧之间的关系。这将直接影响着欺骗性语音检测的准确性。
因此,如何提供一种基于孪生卷积神经网络进行欺骗性语音检测的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于孪生卷积神经网络进行欺骗性语音检测的方法,采用孪生卷积神经网络,能够大大提高欺骗性语音检测的准确性。
为了实现上述目的,本发明采用如下技术方案:
一种基于孪生卷积神经网络进行欺骗性语音检测的方法,包括如下步骤:
(1)提取语音的高斯概率特征:
(a)对所有原始语音进行预处理;
(b)对预处理后的语音进行CQCC特征提取;
(c)对CQCC特征训练得到两个高斯混合模型;
(d)通过两个高斯混合模型提取语音的高斯概率特征;
(2)对语音进行欺骗性检测:
语音经过两个高斯混合模型提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。
优选的,对所有原始语音进行预处理,包括预加重、分帧和加窗:
(1)预加重:语音信号的第n个采样点位x[n],预加重公式如下:
x'[n]=x[n]-0.97*x[n-1]
(2)分帧:将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
(3)加窗:对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1
其中,w[n]=0.54-0.46cos(2πn/N-1)
其中,w[n]是窗函数,N是窗长,l是帧索引,L是帧移。
优选的,对预处理后的语音进行CQCC特征提取的方法包括:
(1)常数Q变换:
将预处理后的语音时序信号x(n)进行常数Q变换,即得到频域信号XCQT(k);常数Q变换表示为:
Figure GDA0003809676200000021
其中,k是频带数,Nk为可变窗函数,
Figure GDA0003809676200000022
是ak(n)的共轭复数;ak(n)可表示为:
Figure GDA0003809676200000031
其中,fk是频率仓的中心频率,fs是采样率,Φk是相位相移,其中C是尺度函数,定义如下:
Figure GDA0003809676200000032
(2)获取能量谱:
首先将经过常数Q变换得到的频域信号XCQT(k)表示为:
XCQT(k)=a cosθkk+ja sinθkk=ak+jbk
然后两边取平方得到能量谱:
Figure GDA0003809676200000033
(3)信号转换
对能量谱取对数将乘性信号转换为加性信号,得到log|XCQT(k)|2
(4)均匀采样:
首先确定一个线性重采样周期Tl,其中
Figure GDA0003809676200000034
是递增的距离函数;
Figure GDA0003809676200000035
通过将第一个音程分成周期为Tl的d等份,因为高音程是低音程分辨率的两倍,则可得到在第二个音程为2d等份;如此类推,第j个音程为2j-1d等份,自然就能确定线性重采样周期了;通过求解kl得到线性分辨率:
Figure GDA0003809676200000036
得到线性分布下的新采样频率Fl
Figure GDA0003809676200000037
(5)离散余弦变换:
使用DCT对频谱压缩后的得到CQCC特征;其中L是重采样后的频带数,p=0,1,...,L-1;
Figure GDA0003809676200000041
优选的,对CQCC特征训练得到两个高斯混合模型的方法为:
训练集中包含多个真实语音和欺骗语音,分别将这两类语音的CQCC特征放在一起,采用EM方法分别训练得到2个M阶高斯混合模型;对于D维向量x,概率密度计算公式为:
Figure GDA0003809676200000042
高斯混合分布的权重系数wi满足
Figure GDA0003809676200000043
概率密度是由M个正态高斯密度函数pi(x)组成:
Figure GDA0003809676200000044
其中,D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵。
优选的,通过两个高斯混合模型提取语音的高斯概率特征的方法为:
1)对于每条语音的CQCC特征序列X={x1,x2,...,xN},提取高斯概率分布特征:对于特征xi,对应的高斯概率特征fi,由其在高斯混合模型分量的概率值计算得到。对于fi中的每个分量fij,计算公式为:
fij=log(wj·pj(xi))
其中,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
2)对所有特征进行全局的均值方差归一化,计算所有语音的高斯概率特征的均值和方差,进行归一化
Figure GDA0003809676200000051
其中,μf和σf是训练集中所有语音的高斯概率特征的均值与方差。
优选的,神经网络模型结构为:
1)卷积层:包括多个一维卷积滤波器函数,窗口大小分别是2,3,4,5,6,7;
卷积层的输入是所述高斯概率特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,输入到一维卷积层,卷积公式是:
Figure GDA0003809676200000052
其中,wi,j是滤波器的权重系数,b是偏移量,wl是滤波器的窗口大小;二维特征矩阵经过一个滤波器后,得到一维矩阵Y,长度为T;系统中滤波器数量为512,得到512个一维向量,直接拼接组成一个大小为512*T的二维向量;系统中窗口大小设置6个不同的值,这样得到6个二维向量,直接拼接组成大小为3072*T的二维向量;
2)池化层:对卷积层的输出的二维向量,用一维最大池化层获得固定大小为3072的一维向量Z,每个元素的值Zl的计算公式是:
Zi=max({Yi,j})
池化层对卷积层的输出二维矩阵Y,沿着帧数方向取最大值,获得一维向量;由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过卷积层和池化层,得到两个大小为3072的一维向量,将这两个向量简单串接起来得到大小为6144的一维向量;
3)全连接层:全连接层包含512个神经元节点,输出是大小为512的一维向量,其中每个节点的输出Pi计算公式是:
Figure GDA0003809676200000061
其中,wi,j是滤波器的权重系数,b是偏移量,f是ReLU激活函数:
f(x)=max(0,x)
4)输出层:输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1
Figure GDA0003809676200000062
Figure GDA0003809676200000063
其中wi,j是滤波器的权重系数,b是偏移量,h是Sigmoid激活函数:
Figure GDA0003809676200000064
最后根据分类的结果Q0和Q1的两个元素值大小判断语音是正常语音还是欺骗语音。
优选的,采用交叉熵损失函数训练神经网络,表示如下:
Figure GDA0003809676200000065
Figure GDA0003809676200000066
其中,K是神经网络输出的节点数,i是输出层节点索引,
Figure GDA0003809676200000067
是真实的标签,zi是输出层第i个节点的原始输出,yi是其激活输出。
本发明的有益效果在于:
传统的GMM会在所有帧上独立累积分数,并且不会考虑每个高斯分量对最终分数的贡献,相邻帧之间的关系也被忽略。本发明采用孪生卷积神经网络,基于真实语音和欺骗语音两种高斯混合模型训练,来进行欺骗语音检测,对于话语,高斯概率特征包括每个GMM组件上的分数分布,提出一维CNN模型,该模型不仅考虑GMM上的帧得分,还考虑帧之间的局部关系,还提出了一种用于欺骗语音检测的孪生卷积神经网络,它基于分别训练为真实语音和欺骗语音的两个高斯混合模型,能够大大提高欺骗性语音检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的方法流程图。
图2附图为本发明高斯混合模型的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,本发明提供了一种基于孪生卷积神经网络进行欺骗性语音检测的方法,包括如下步骤:
(1)在传统的语音CQCC特征的基础上,进一步提取高斯概率分布特征:
(a)对所有原始语音进行预处理;
(b)对预处理后的语音进行CQCC特征提取;
(c)对CQCC特征训练得到两个高斯混合模型;
(d)通过两个高斯混合模型提取语音的高斯概率特征;
(2)对语音进行欺骗性检测:
语音经过两个高斯混合模型(分别在真实语音和欺骗语音集上训练得到)提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测。
本实施例中,对所有原始语音进行预处理,包括预加重、分帧和加窗:
(1)预加重:语音信号的第n个采样点位x[n],预加重公式如下:
x'[n]=x[n]-0.97*x[n-1]
(2)分帧:一般认为语音信号具有短时平稳特性,将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
(3)加窗:对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1
其中,w[n]=0.54-0.46cos(2πn/N-1)
其中,w[n]是窗函数,N是窗长,l是帧索引,L是帧移。
本实施例中,对预处理后的语音进行CQCC特征提取的方法包括:
(1)常数Q变换:
将预处理后的语音时序信号x(n)进行常数Q变换,即得到频域信号XCQT(k);常数Q变换表示为:
Figure GDA0003809676200000081
其中,k是频带数,Nk为可变窗函数,
Figure GDA0003809676200000082
是ak(n)的共轭复数;ak(n)可表示为:
Figure GDA0003809676200000083
其中,fk是频率仓的中心频率,fs是采样率,Φk是相位相移,其中C是尺度函数,定义如下:
Figure GDA0003809676200000091
(2)获取能量谱:
首先将经过常数Q变换得到的频域信号XCQT(k)表示为:
XCQT(k)=a cosθkk+ja sinθkk=ak+jbk
然后两边取平方得到能量谱:
Figure GDA0003809676200000092
(3)信号转换
对能量谱取对数将乘性信号转换为加性信号,得到log|XCQT(k)|2
(4)均匀采样:
首先确定一个线性重采样周期Tl,其中
Figure GDA0003809676200000093
是递增的距离函数;
Figure GDA0003809676200000094
通过将第一个音程分成周期为Tl的d等份,因为高音程是低音程分辨率的两倍,则可得到在第二个音程为2d等份;如此类推,第j个音程为2j-1d等份,自然就能确定线性重采样周期了;通过求解kl得到线性分辨率:
Figure GDA0003809676200000095
得到线性分布下的新采样频率Fl
Figure GDA0003809676200000096
(5)离散余弦变换:
使用DCT对频谱压缩后的得到CQCC特征;其中L是重采样后的频带数,p=0,1,…,L-1;
Figure GDA0003809676200000097
本实施例中,对CQCC特征训练得到两个高斯混合模型的方法为:
训练集中包含多个真实语音和欺骗语音,分别将这两类语音的CQCC特征放在一起,采用EM(Expectation Maximization,期望最大)方法分别训练得到2个M阶高斯混合模型(如512阶);对于D维向量x,概率密度计算公式为:
Figure GDA0003809676200000101
高斯混合分布的权重系数wi满足
Figure GDA0003809676200000102
概率密度是由M个正态高斯密度函数pi(x)组成:
Figure GDA0003809676200000103
其中,D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵。
本模型采用EM算法来获得这些参数,算法描述如下:
A)首先设定高斯混合模型的阶数M,设定初始状态各高斯分布的权重系数wi=1/M,各个高斯分布的协方差矩阵Σi为单位矩阵,均值向量
Figure GDA0003809676200000104
其中
Figure GDA0003809676200000105
为训练样本的均值向量,Δμi为较小的随机向量。
B)设训练语音的特征为{xt|t=1,2,...,T},按照下面公式对高斯混合模型参数进行估计:
Figure GDA0003809676200000106
Figure GDA0003809676200000107
Figure GDA0003809676200000108
C)重复B步骤50次。
本实施例中,通过两个高斯混合模型提取语音的高斯概率特征的方法为:
1)对于每条语音的CQCC特征序列X={x1,x2,...,xN},提取高斯概率分布特征:对于特征xi,对应的高斯概率特征fi,由其在高斯混合模型分量的概率值计算得到。对于fi中的每个分量fij,计算公式为:
fij=log(wj·pj(xi))
其中,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
2)对所有特征进行全局的均值方差归一化,计算所有语音的高斯概率特征的均值和方差,进行归一化:
Figure GDA0003809676200000111
其中,μf和σf是训练集中所有语音的高斯概率特征的均值与方差。
本实施例中,神经网络模型结构为:
1)卷积层:包括多个一维卷积滤波器函数,窗口大小分别是2,3,4,5,6,7;
卷积层的输入是所述高斯概率特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,输入到一维卷积层,卷积公式是:
Figure GDA0003809676200000112
其中,wi,j是滤波器的权重系数,b是偏移量,wl是滤波器的窗口大小;二维特征矩阵经过一个滤波器后,得到一维矩阵Y,长度为T;系统中滤波器数量为512,得到512个一维向量,直接拼接组成一个大小为512*T的二维向量;系统中窗口大小设置6个不同的值,这样得到6个二维向量,直接拼接组成大小为3072*T的二维向量;
2)池化层:对卷积层的输出的二维向量,用一维最大池化层获得固定大小为3072的一维向量Z,每个元素的值Zl的计算公式是:
Zi=max({Yi,j})
池化层对卷积层的输出二维矩阵Y,沿着帧数方向取最大值,获得一维向量;由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过卷积层和池化层,得到两个大小为3072的一维向量,将这两个向量简单串接起来得到大小为6144的一维向量;
3)全连接层:全连接层包含512个神经元节点,输出是大小为512的一维向量,其中每个节点的输出Pi计算公式是:
Figure GDA0003809676200000121
其中,wi,j是滤波器的权重系数,b是偏移量,f是ReLU激活函数:
f(x)=max(0,x)
4)输出层:输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1
Figure GDA0003809676200000122
Figure GDA0003809676200000123
其中wi,j是滤波器的权重系数,b是偏移量,h是Sigmoid激活函数:
Figure GDA0003809676200000124
最后根据分类的结果Q0和Q1的两个元素值大小判断语音是正常语音还是欺骗语音。
本实施例中,采用交叉熵损失函数训练神经网络,表示如下:
Figure GDA0003809676200000125
Figure GDA0003809676200000131
其中,K是神经网络输出的节点数,i是输出层节点索引,
Figure GDA0003809676200000132
是真实的标签,zi是输出层第i个节点的原始输出,yi是其激活输出。
传统的GMM会在所有帧上独立累积分数,并且不会考虑每个高斯分量对最终分数的贡献,相邻帧之间的关系也被忽略。本发明采用孪生卷积神经网络,基于真实语音和欺骗语音两种高斯混合模型训练,来进行欺骗语音检测,对于一段语音,高斯概率特征包括每个GMM组件上的分数分布,提出一维CNN模型,该模型不仅考虑GMM上的帧得分,还考虑帧之间的相邻关系,还提出了一种用于欺骗语音检测的孪生卷积神经网络,它基于分别训练为真实语音和欺骗语音的两个高斯混合模型,能够大大提高欺骗性语音检测的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,包括如下步骤:
(1)提取语音的高斯概率特征;包括通过两个高斯混合模型提取语音的高斯概率特征,具体包括:
1)对于每条语音的CQCC特征序列X={x1,x2,...,xN},提取高斯概率分布特征:对于特征xi,对应的高斯概率特征fi,由其在高斯混合模型分量的概率值计算得到,对于fi中的每个分量fij,计算公式为:
fij=log(wj·pj(xi))
其中,wj为高斯混合模型的第j个分量权重,pj为特征在高斯混合模型第j个分量上的概率密度值;
2)对所有特征进行全局的均值方差归一化,计算所有语音的高斯概率特征的均值和方差,进行归一化
Figure FDA0003809676190000011
其中,μf和σf是训练集中所有语音的高斯概率特征的均值与方差;
(a)对所有原始语音进行预处理;
(b)对预处理后的语音进行CQCC特征提取;
(c)对CQCC特征训练得到两个高斯混合模型,具体包括:
训练集中包含多个真实语音和欺骗语音,分别将这两类语音的CQCC特征放在一起,采用EM方法分别训练得到2个M阶高斯混合模型;对于D维向量x,概率密度计算公式为:
Figure FDA0003809676190000012
高斯混合分布的权重系数wi满足
Figure FDA0003809676190000013
概率密度是由M个正态高斯密度函数pi(x)组成:
Figure FDA0003809676190000021
其中,D为特征向量维度大小,μi和Σi分别是高斯密度函数的均值和协方差矩阵;
(d)通过两个高斯混合模型提取语音的高斯概率特征;
(2)对语音进行欺骗性检测:
语音经过两个高斯混合模型提取特征后,得到二维矩阵,将二维矩阵输入到神经网络模型中进行语音欺骗性检测;
所述神经网络模型结构为:
1)卷积层:包括多个一维卷积滤波器函数,窗口大小分别是2,3,4,5,6,7;
卷积层的输入是所述高斯概率特征,设语音帧数为T,语音转换成大小为512*T的二维向量X,输入到一维卷积层,卷积公式是:
Figure FDA0003809676190000022
其中,wi,j是滤波器的权重系数,b是偏移量,wl是滤波器的窗口大小;二维特征矩阵经过一个滤波器后,得到一维矩阵Y,长度为T;系统中滤波器数量为512,得到512个一维向量,直接拼接组成一个大小为512*T的二维向量;系统中窗口大小设置6个不同的值,这样得到6个二维向量,直接拼接组成大小为3072*T的二维向量;
2)池化层:对卷积层的输出的二维向量,用一维最大池化层获得固定大小为3072的一维向量Z,每个元素的值Zl的计算公式是:
Zi=max({Yi,j})
池化层对卷积层的输出二维矩阵Y,沿着帧数方向取最大值,获得一维向量;由于前面特征提取的时候,根据两个高斯混合模型得到两组高斯概率特征,经过卷积层和池化层,得到两个大小为3072的一维向量,将这两个向量简单串接起来得到大小为6144的一维向量;
3)全连接层:全连接层包含512个神经元节点,输出是大小为512的一维向量,其中每个节点的输出Pi计算公式是:
Figure FDA0003809676190000031
其中,wi,j是滤波器的权重系数,b是偏移量,f是ReLU激活函数:
f(x)=max(0,x)
4)输出层:输出层包含2个神经元节点,分别表示分类的结果是真实语音Q0还是欺骗语音Q1
Figure FDA0003809676190000032
Figure FDA0003809676190000033
其中wi,j是滤波器的权重系数,b是偏移量,h是Sigmoid激活函数:
Figure DEST_PATH_IMAGE002
最后根据分类的结果Q0和Q1的两个元素值大小判断语音是正常语音还是欺骗语音。
2.根据权利要求1所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,对所有原始语音进行预处理,包括预加重、分帧和加窗:
(1)预加重:语音信号的第n个采样点位x[n],预加重公式如下:
x'[n]=x[n]-0.97*x[n-1]
(2)分帧:将预加重后的语音分成短时语音帧,每帧帧长位20ms,为确保声学特征参数的平滑性,采用重叠取帧的方式,相邻帧重叠部分为10ms;
(3)加窗:对每帧信号进行加窗处理,采用汉明窗函数,得到短时加窗的语音信号:
xl[n]=w[n]*x[n+lL],0≤n≤N-1
其中,w[n]=0.54-0.46cos(2πn/N-1)
其中,w[n]是窗函数,N是窗长,l是帧索引,L是帧移。
3.根据权利要求2所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,对预处理后的语音进行CQCC特征提取的方法包括:
(1)常数Q变换:
将预处理后的语音时序信号x(n)进行常数Q变换,即得到频域信号XCQT(k);常数Q变换表示为:
Figure FDA0003809676190000041
其中,k是频带数,Nk为可变窗函数,
Figure FDA0003809676190000042
是ak(n)的共轭复数;ak(n)可表示为:
Figure FDA0003809676190000043
其中,fk是频率仓的中心频率,fs是采样率,Φk是相位相移,其中C是尺度函数,定义如下:
Figure FDA0003809676190000044
(2)获取能量谱:
首先将经过常数Q变换得到的频域信号XCQT(k)表示为:
XCQT(k)=a cosθkk+ja sinθkk=ak+jbk
然后两边取平方得到能量谱:
Figure FDA0003809676190000045
(3)信号转换
对能量谱取对数将乘性信号转换为加性信号,得到log|XCQT(k)|2
(4)均匀采样:
首先确定一个线性重采样周期Tl,其中
Figure FDA0003809676190000046
是递增的距离函数;
Figure FDA0003809676190000047
通过将第一个音程分成周期为Tl的d等份,因为高音程是低音程分辨率的两倍,则可得到在第二个音程为2d等份;如此类推,第j个音程为2j-1d等份,自然就能确定线性重采样周期了;通过求解kl得到线性分辨率:
Figure FDA0003809676190000051
得到线性分布下的新采样频率Fl
Figure FDA0003809676190000052
(5)离散余弦变换:
使用DCT对频谱压缩后的得到CQCC特征;其中L是重采样后的频带数,p=0,1,...,L-1;
Figure FDA0003809676190000053
4.根据权利要求1所述的一种基于孪生卷积神经网络进行欺骗性语音检测的方法,其特征在于,采用交叉熵损失函数训练神经网络,表示如下:
Figure FDA0003809676190000054
Figure FDA0003809676190000055
其中,K是神经网络输出的节点数,i是输出层节点索引,
Figure FDA0003809676190000056
是真实的标签,zi是输出层第i个节点的原始输出,yi是其激活输出。
CN202011139472.7A 2020-10-22 2020-10-22 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 Active CN112270931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011139472.7A CN112270931B (zh) 2020-10-22 2020-10-22 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011139472.7A CN112270931B (zh) 2020-10-22 2020-10-22 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Publications (2)

Publication Number Publication Date
CN112270931A CN112270931A (zh) 2021-01-26
CN112270931B true CN112270931B (zh) 2022-10-21

Family

ID=74342846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011139472.7A Active CN112270931B (zh) 2020-10-22 2020-10-22 一种基于孪生卷积神经网络进行欺骗性语音检测的方法

Country Status (1)

Country Link
CN (1) CN112270931B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139569B (zh) * 2021-03-04 2022-04-22 山东科技大学 目标分类检测方法、装置与系统
CN112927694B (zh) * 2021-03-08 2022-09-13 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN113241079A (zh) * 2021-04-29 2021-08-10 江西师范大学 一种基于残差神经网络的语音欺骗检测方法
CN113284508B (zh) 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测系统
CN113314148B (zh) * 2021-07-29 2021-11-09 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
CN117153190B (zh) * 2023-10-27 2024-01-19 广东技术师范大学 基于注意力机制组合特征的回放语音检测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3172758A1 (en) * 2016-07-11 2018-01-18 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
US11152013B2 (en) * 2018-08-02 2021-10-19 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for a triplet network with attention for speaker diartzation
CN109243487B (zh) * 2018-11-30 2022-12-27 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN110211594B (zh) * 2019-06-06 2021-05-04 杭州电子科技大学 一种基于孪生网络模型和knn算法的说话人识别方法
CN110491391B (zh) * 2019-07-02 2021-09-17 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN111048097B (zh) * 2019-12-19 2022-11-29 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111243600A (zh) * 2020-01-10 2020-06-05 浙江大学 一种基于声场和场纹的语音欺骗攻击检测方法
CN111370003B (zh) * 2020-02-27 2023-05-30 杭州雄迈集成电路技术股份有限公司 一种基于孪生神经网络的声纹比对方法
CN112885358A (zh) * 2021-01-22 2021-06-01 江西师范大学 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
CN113241079A (zh) * 2021-04-29 2021-08-10 江西师范大学 一种基于残差神经网络的语音欺骗检测方法

Also Published As

Publication number Publication date
CN112270931A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN112270931B (zh) 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
JP4218982B2 (ja) 音声処理
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
US20030236661A1 (en) System and method for noise-robust feature extraction
CN102968990B (zh) 说话人识别方法和系统
CN113488058B (zh) 一种基于短语音的声纹识别方法
JPH02238495A (ja) 時系列信号認識装置
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
Todkar et al. Speaker recognition techniques: A review
Gao et al. Generalized spoofing detection inspired from audio generation artifacts
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
CN113221673B (zh) 基于多尺度特征聚集的说话人认证方法及系统
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
CN113241079A (zh) 一种基于残差神经网络的语音欺骗检测方法
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
WO2023070874A1 (zh) 一种声纹识别方法
CN112885358A (zh) 一种基于双向长短期记忆网络的说话人确认欺骗检测方法
CN115293214A (zh) 一种基于样本扩充网络的水声目标识别模型优化方法
CN115472168A (zh) 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant