CN109841219A

CN109841219A - 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法

Info

Publication number: CN109841219A
Application number: CN201910199508.1A
Authority: CN
Inventors: 李东播; 关昊天
Original assignee: Huiyan Technology (tianjin) Co Ltd
Current assignee: Huiyan Technology (tianjin) Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-04

Abstract

本发明公开了一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，主要包括以下几个步骤：S1：提取不同的相位特征以及振幅特征；S2：使用GMM模型进行判别式训练；S3：在分数级别进行信息融合获得判别结果。本发明充分考虑到了语音中的相位信息，充分利用存在在语音中的相关信息，通过融合不同的相位信息，分析相位与振幅之间的互补性，具有能自动判断语音为真实语音还是重放语音，对语音欺诈检测非常有效。

Description

利用语音振幅信息和多种相位检测语音欺诈重放攻击方法

技术领域

本发明涉及自动说话人检测技术领域，具体是涉及一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法。

背景技术

语音技术已经成为人机交互的重要媒介，已经在语音处理的各个领域中进行了许多研究。随着科学技术的进步，计算机安全系统的安全性和可靠性受到了极大的关注，并且自动说话人验证在现实中得到了广泛的应用。自动说话人验证是指检测和识别给定的语音是否属于给定的说话者，其中重放攻击是最容易实现的欺骗攻击，也是最危险的攻击形式之一。

自动说话人检测中的重放攻击是使用目标说话者的语音记录来进行的，这些语音记录在自动说话人检测系统中被重放以代替真正的语音，例如使用智能设备重放目标说话者语音的录音来解锁使用自动说话人检测系统进行访问控制的智能手机。因此对于重放攻击的研究中，使用一种简单有效的方法进行语音重放攻击检测尤为重要。

现有的研究多利用声学特征中振幅进行说话人识别的分析，忽略了语音信息中相位这一重要的辅助信息。借助语音信号处理方法中对语音的分析处理，利用多种相位信息的不同组合，使得检测重放攻击的实验结果更加精确。通过对重放检测实验效果的评估，可以检测出真实语音同重放录音之间的差异，对于整个说话人检测系统的安全性和可靠性都有着现实意义。

发明内容

针对现有重放攻击检测的方法中忽略相位信息的问题，本发明提供了一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，结合振幅和相位信息的特征提取方法，运用高斯混合模型(GMM)进行建模，可以检测出真实语音同重放录音之间的差异。

本发明的技术方案是:一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，主要包括以下步骤：

S1：振幅特征以及相位特征提取：

所述振幅特征为CQCC特征，所述相位特征为Mel-RP特征以及MPVT特征；其中，振幅特征的提取是通过将使用恒Q变换将频率仓的几何空间转化为线性空间；相位特征的提取主要通过了预处理方法得到相位谱，然后在此基础上进行处理；

S2：进行各特征模型训练；

S3：分数级别特征融合：如步骤S2进行模型训练，并且使用以下模型来获得真实语音和欺骗语音之间的对数似然之间的差异来进行计算分数；

S＝log(P(X|θ_g))-log(P(X|_θs))

其中，P表示的是似然函数，X表示的是特征向量序列，θ_g和θ_s分别为真实语音与欺诈语音的模型的参数。利用各种功能相互补充，以增加这种差异。

为了更好地将相位信息与振幅信息相结合，使用分数级别特征融合的方法，该方法在分数水平上组合两个系统之间的信息，以获得信息增益并提高组合系统的最终结果，认为信息的融合处于得分水平，可以强调相位和振幅特征的优点；对于两个得分组合，使用线性组合的方法；对于两个系统分数级别的信息融合，使用如下方式进行组合：

L_comp＝(1-α)L₁+αL₂

针对三个独立模型进行分数级别的信息融合，使用以下公式进行信息融合：

L_comp＝αL₁+βL₂+(1-α-β)L₃

其中，L₁和L₂分别表示两个独立的模型的分数，和表示的是两个独立模型分数的均值。

进一步地，所述步骤S1中的CQCC特征提取具体为：通过使用恒Q变换，将频率仓的几何空间转换为线性空间，然后进行重采样归一化以及DCT方法。采用CQCC特征的提取将恒Q变换方法与传统的倒谱分析相结合，使得该特征同传统的MFCC特征相比，具有可变分辨率的特性。

进一步地，所述步骤S1中的MPVT特征提取具体为：将相位信息分为两个部分：最小相位(MinPh(ω))以及全通相位(AllPh(ω))；由于语音信号是一个混合相位信号，相位信息的复数倒谱具有很大的随机性，为了在语音信号处理中使用相位信息，将相位信息分为两个部分；

在语音信号中，存在着以下的关系：

X(ω)＝X_MinPh(ω)X_AllPh(ω)

|X(ω)|＝|X_MinPh(ω)|

arg[X(ω)]＝arg[X_MinPh(ω)]+arg[X_AllPh(ω)]

其中，|X(ω)|和arg[X(ω)]分别为短时振幅和非卷绕的相位谱信息；基于复数倒谱对于X_MinPh信号的因果关系，希尔伯特变换提供了幅度和相位之间的映射：

|X(ω)|＝|X_VT(ω)||X_Exc(ω)|＝|X_MinPh(ω)|

声道信息(X_VT(ω))与声源激励信息(X_Exc(ω))包含在原始语音信号中，并且在时域存在着卷积的关系，因此在相位域中使用源滤波模型进行计算arg[X_VT(ω)]和arg[X_Exc(ω)]；相位信息中的最小相位是非卷绕相位，它仍旧包含着相位卷绕的问题，因此需要群延迟的方法来解决相位卷绕，使用群延迟的方法来进行解决相位卷绕，群延迟函数定位为以下方式：

其中，arg[.]和Im{.}分别表示为非卷绕相位及其虚部部分，w表示的是角频率。

更进一步地，所述MPVT特征提取中还使用滤波器组来对所提特征进行滤波处理，获得相应的不同分辨率的低频和高频信息。

更进一步地，所述MPVT特征提取中还加入静态特征的一阶差分和二阶差分。由于前后帧之间的变化信息也有助于识别不同的语音特性，加入每一维的一阶差分和二阶差分。

进一步地，所述步骤S1中的Mel-RP特征提取具体为：原始相位信息的计算取决于输入语音信号切入点的不同，这种相位信息的计算即使是在相同的频率下也会得到不同的结果，为克服这一问题，在某个基频ω的相位保持固定，其他频率的相位相对于这个值来进行估计，设定基频ω的值为0，得到以下的公式进行计算：

X′(ω)＝|X(ω)|×e^je(ω)×e^j(-θ(ω))

对于其他频率ω′＝2πf′,频谱变成：

最后，相位信息可以被归一化为如下：

再将相位信息进行处理，并将相位改变为单位圆上的坐标，转换为{cosθ，sinθ}，转换的过程完成后，我们将相位信息转换为梅尔标度；再通过Mel频率倒谱系数(MFCC)将线性幅度谱映射到基于听觉感知的Mel非线性幅度谱中，再转换到倒谱上。Mel频率倒谱系数(MFCC)是基于人耳听觉频域特性。它对应于低频时更高的分辨率和高频的低分辨率。

进一步地，在MPVT特征、Mel-RP特征计算过程中，采用取25ms为一帧，帧移为10ms，由于帧边界处频谱能量的可能存在泄露情况，并对每一帧都进行加窗处理，之后使用快速傅里叶变换(FFT)对每一帧进行FFT变换，从时域数据转变为频域数据。

进一步地，所述步骤S1预处理方法具体为预加重、分帧、加窗、短时傅立叶变换等。

进一步地，所述步骤S2模型训练使用高斯混合模型(GMM)进行模型训练。

本发明的有益效果是:

(1)本发明主要针对语音欺诈检测任务，在同现有的技术相比，本发明充分考虑到了语音中的相位信息，充分利用存在在语音中的相关信息，同基线系统中仅使用振幅相比，最终的实验结果有了明显的提升，通过融合不同的相位信息，分析相位与振幅之间的互补性。

(2)本发明的重点以对真实语音数据以及欺诈语音数据进行特征提取，设计出了能自动判断语音为真实语音还是重放语音。

(3)本发明通过对语音信号数据的分析，在构成语音信号中的相位特征包含有能够明显区分两种语音的信息；同时，仅通过提取特征的方法能够对结果有明显的提升，能够容易实现。

附图说明

图1是CQCC特征提取流程示意图。

图2是MPVT特征提取流程示意图。

图3是分数级别信息融合示意图。

具体实施方式

下面结合具体实施方式来对本发明进行更进一步详细的说明，以更好地体现本发明的优势。

一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，主要包括以下步骤：

S1：振幅特征以及相位特征提取：

所述振幅特征为CQCC特征，所述相位特征为Mel-RP特征以及MPVT特征；其中，振幅特征的提取是通过将使用恒Q变换将频率仓的几何空间转化为线性空间；相位特征的提取主要通过了预加重、分帧、加窗、短时傅立叶变换得到相位谱，然后在此基础上进行处理；

1)CQCC特征提取

CQCC特征是一种振幅特征，通过使用恒Q变换，将频率仓的几何空间转换为线性空间，然后进行重采样归一化以及DCT方法，提取过程如图1所示。采用CQCC特征的提取将恒Q变换方法与传统的倒谱分析相结合，使得该特征同传统的MFCC特征相比，具有可变分辨率的特性。该特征在的具体参数为使用默认的每音阶96个bin并在首音阶归一化中样本为16。

2)MPVT特征提取

将相位信息分为两个部分：最小相位(MinPh(ω))以及全通相位(AllPh(ω))；由于语音信号是一个混合相位信号，相位信息的复数倒谱具有很大的随机性，为了在语音信号处理中使用相位信息，将相位信息分为两个部分；

在语音信号中，存在着以下的关系：

X(ω)＝X_Minrh(ω)X_AllPh(ω)

|X(ω)|＝|X_MinPh(ω)|

arg[X(ω)]＝arg[X_MinPh(ω)]+arg[X_AllPh(ω)]

|X(ω)|＝|X_VT(ω)||X_Exc(ω)|＝|X_MinPh(ω)|

其中，arg[.]和Im{.}分别表示为非卷绕相位及其虚部部分，w表示的是角频率；

同时，MPVT特征中还使用滤波器组来对所提特征进行滤波处理，获得相应的不同分辨率的低频和高频信息。MPVT特征处理流程如图2所示。

3)Mel-RP特征提取

原始相位信息的计算取决于输入语音信号切入点的不同，这种相位信息的计算即使是在相同的频率下也会得到不同的结果，为克服这一问题，在某个基频ω的相位保持固定，其他频率的相位相对于这个值来进行估计，设定基频ω的值为0，得到以下的公式进行计算：

X′(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω))

对于其他频率ω′＝2πf′,频谱变成：

最后，相位信息可以被归一化为如下：

S2：使用GMM模型进行各特征模型训练，所使用的GMM模型为分量为512的模型；

S＝log(P(X|θ_g))-log(P(X|θ_S))

为了更好地将相位信息与振幅信息相结合，使用分数级别信息融合的方法，该方法在分数水平上组合两个系统之间的信息，以获得信息增益并提高组合系统的最终结果，认为信息的融合处于得分水平，可以强调相位和振幅特征的优点；对于两个得分组合，使用线性组合的方法；对于两个系统分数级别的信息融合，使用如下方式进行组合：

L_comp＝(1-α)L₁+αL₂

L_comp＝αL₁+βL₂+(1-α-β)L₃

在上述两种相位特征计算过程中，采用取25ms为一帧，帧移为10ms，由于帧边界处频谱能量的可能存在泄露情况，并对每一帧都进行加窗处理，选用汉宁窗，之后使用快速傅里叶变换(FFT)对每一帧进行FFT变换，从时域数据转变为频域数据；由于前后帧之间的变化信息也有助于识别不同的语音特性，所以MPVT相位特征一般还会加入静态特征的一阶差分和二阶差分。选择12维MPVT特征，以及其一阶差分和二阶差分为特征；以及38维的Mel-RP特征。

对比试验

基于语音欺诈挑战ASVspoof 2017挑战官方数据集作为处理数据进行测试的；该语料为全球的志愿者(主要为自动说话人检测的研究人员)使用Android智能手机收集，其中攻击者为原始目标说话者语音的数字拷贝版本，然后通过不同质量的转化器进行重放；整个系统算法流程分为以下几个步骤进行：提取不同的相位特征以及振幅特征，使用GMM模型进行判别式训练，在分数级别进行信息融合获得判别结果。

1)使用单独特征进行语音欺诈检测结果，如表1所示，

表1使用单独特征进行语音欺诈检测结果(EER％)

特征	开发数据集	评估数据集
			CQCC	10.35	29.00
MFCC	13.78	34.39
			MGDCC	25.93	40.84
MPVT	16.18	26.58
			Mel-RP	10.36	16.03

2)使用分数级别进行系统融合的语音欺诈检测结果，如表2所示，

表2使用分数级别进行系统融合结果(EER％)

数据特征的提取

如图1所示，该图显示的是提取语音信息中的振幅信息。图2显示的是提取语音信息的最小相位中的声道信息。在本步骤，对ASVspoof 2017语料库中的真实的语料和转录的语料进行相位特征提取，主要为了进行提取出不同的特征分别进行模型训练；

判别模型训练

在获取数据的振幅特征和相位特征后，借助高斯混合模型(GMM)模型，分别利用该模型对重放的录音以及真实的语音进行特征模型训练，进行判别模型的训练。如表2中最后两列所示，使用的相位特征的GMM判别模型对语音欺诈检测的准确率有明显的提高。总的来说，使用相位特征的GMM模型比使用传统声学特征的GMM在评估数据集中分别提升了2.42以及12.97个百分点。说明使用相位特征对语音欺诈检测是非常有效的。

分数级别信息融合

考虑到振幅特征对于语音欺诈的判别效果好，相位信息对于语音欺诈检测有着明显的提高。为将两类特征的互补作用更好的应用，提出了使用特征融合分数级别模型融合的方法，如图3所示。实验结果如图2最后一行所示，使用分数级别特征融合方法对实验结果有着明显的提升。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，主要包括以下步骤：

S1：振幅特征以及相位特征提取：

S2：进行各特征模型训练；

S＝log(P(X|θ_g))-log(P(X|θ_s))

其中，P表示的是似然函数，X表示的是特征向量序列，θ_g和θ_s分别为真实语音与欺诈语音的模型的参数；

使用分数级别特征融合的方法，在得分水平上组合两个系统之间的信息，获得信息增益并改善组合系统的最终结果；对于两个得分组合，使用线性组合的方法；对于两个系统分数级别的信息融合，使用如下方式进行组合：

L_comp＝(1-α)L₁+αL₂

L_comp＝αL₁+βL₂+(1-α-β)L₃

2.根据权利要求1所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述步骤S1中的CQCC特征提取具体为：通过使用恒Q变换，将频率仓的几何空间转换为线性空间，然后进行重采样归一化以及DCT方法。

3.根据权利要求1所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述步骤S1中的MPVT特征提取具体为：将相位信息分为两个部分：最小相位(MinPh(ω))以及全通相位(AllPh(ω))；

在语音信号中，存在着以下的关系：

X(ω)＝X_MinPh(ω)X_AllPh(ω)

|X(ω)|＝|X_MinPh(ω)|

arg[X(ω)]＝arg[X_MinPh(ω)]+arg[X_AllPh(ω)]

|X(ω)|＝|X_VT(ω)||X_Exc(ω)|＝|X_MinPh(ω)|

在相位域中使用源滤波模型进行计算arg[X_VT(ω)]和arg[X_Exc(ω)]；并使用群延迟的方法来进行解决相位卷绕，群延迟函数定位为以下方式：

4.根据权利要求3所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述MPVT特征中还使用滤波器组来对所提特征进行滤波处理，获得相应的不同分辨率的低频和高频信息。

5.根据权利要求1所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述CQCC特征提取是通过使用恒Q变换，将频率仓的几何空间转换为线性空间，然后进行重采样归一化以及DCT的方法。

6.根据权利要求1所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述步骤S1中的Mel-RP特征提取具体为：在某个基频ω的相位保持固定，其他频率的相位相对于这个值来进行估计，设定基频ω的值为0，得到以下的公式进行计算：

X′(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω))

对于其他频率ω′＝2πf′,频谱变成：

最后，相位信息可以被归一化为如下：

再将相位信息进行处理，并将相位改变为单位圆上的坐标，转换为{cosθ，sinθ}，转换的过程完成后，我们将相位信息转换为梅尔标度；再通过Mel频率倒谱系数(MFCC)将线性幅度谱映射到基于听觉感知的Mel非线性幅度谱中，再转换到倒谱上。

7.根据权利要求1-6任意一项所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，在MPVT特征、Mel-RP特征计算过程中，采用取25ms为一帧，帧移为10ms，并对每一帧都进行加窗处理，之后使用快速傅里叶变换(FFT)对每一帧进行FFT变换，从时域数据转变为频域数据。

8.根据权利要求1所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述步骤S1预处理方法具体为预加重、分帧、加窗、短时傅立叶变换。

9.根据权利要求1所述的一种利用语音振幅信息和多种相位检测语音欺诈重放攻击方法，其特征在于，所述步骤S2模型训练使用高斯混合模型(GMM)进行模型训练。