CN110148425A

CN110148425A - 一种基于完整局部二进制模式的伪装语音检测方法

Info

Publication number: CN110148425A
Application number: CN201910396609.8A
Authority: CN
Inventors: 简志华; 徐剑; 郭珊; 金易帆
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-20

Abstract

本发明涉及基于完整局部二进制模式的伪装语音检测方法，包括：对真实语音库和相应的伪装语音库中所有语音进行变量Q变换，得到所有真实语音和伪装语音的语谱图；分别将各语谱图转换为相应的灰度图像，并采用完整局部二进制模式处理，生成相应的纹理特征；将所有的纹理特征作为训练支持向量机的训练集，训练得到支持向量机；将待识别语音输入至支持向量机，以进行伪装语音的识别。本发明采用变量Q变换获取的语谱图，纹理更加清晰，有助于提取语音信号的纹理特征；而且采用完整局部二进制模式，包含语谱图的局部符号差值信息和局部幅度差值信息，可更全面地获取信号的纹理特征，有利于支持向量机的分类，提高识别伪装语音的准确率。

Description

一种基于完整局部二进制模式的伪装语音检测方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于完整局部二进制模式的伪装语音检测方法。

背景技术

伪装语音检测是通过对说话人的声音进行分析，进而识别出它是真实说话人的语音还是人为恶意伪装的语音。伪装语音通常由设备回放、语音转换及语音合成技术生成，通过这些蓄意的操作能够伪装成特定的说话人声音，从而达到欺骗说话人识别系统的目的。伪装语音识别系统可针对恶意的伪装语音实现反伪装检测，提高说话人识别系统安全性能，具有广阔的应用前景。伪装语音识别通常需要对目标语音信号特征提取，再跟其对应的真实语音的特征比对分析进而判定真伪。传统的伪装语音检测系统提取的特征参数主要分为两种：一种是语音信号的幅度谱特征，通常有高阶梅尔倒谱系数、梅尔主频率和对数幅度谱等；另一种是语音信号的相位谱特征，通常有修正的群延时和相对相移等。而实际情况下，因为说话人识别系统要应对的是各种未知的伪装语音的攻击，所以根据上述特征的检测效果往往不是很理想。

发明内容

基于现有技术中存在的上述不足，本发明提供一种基于完整局部二进制模式的伪装语音检测方法。

为了达到上述发明目的，本发明采用以下技术方案：

一种基于完整局部二进制模式的伪装语音检测方法，包括以下步骤：

S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换，得到所有真实语音和伪装语音的语谱图；

S2、分别将各语谱图转换为相应的灰度图像，并采用完整局部二进制模式处理，生成相应的纹理特征；

S3、将所有的纹理特征作为训练支持向量机的训练集，训练得到支持向量机；

S4、将待识别语音输入至支持向量机，以进行伪装语音的识别。

作为优选方案，所述步骤S1具体为：

利用变量Q变换求取真实语音库和伪装语音库中语音的频谱，并绘制语谱图，即有：

其中，X^vq(k)是数字语音序列的VQT频谱；x(n)是有限长的数字语音序列；n是数字语音序列的序号；w_Nk是长度为N_k的窗函数；k是频谱的频率序号；N_k是窗函数的长度和k值有关；Q是变量因子；

变量因子Q通过引入附加参数γ使Q向低频平滑减少，以提高低频处的时间分辨率，即有：

B_k＝Qf_k+γ；

其中，B_k是第k频率窗口的带宽；f_k是第k频率窗口的中心频率；γ是预先设定的附加参数。

作为优选方案，所述步骤S2具体包括：

S21、基于灰度图像，分别计算完整局部二进制模式的符号差值特征和幅度差值特征；

S22、将完整局部二进制模式的符号差值特征和幅度差值特征级联，得到完整局部二进制模式特征向量，作为语音的纹理特征。。

作为优选方案，所述计算完整局部二进制模式的符号差值特征，包括以下步骤：

读取灰度图像的每个像素点灰度值，设置3×3的评估窗口进行二进制编码，使其相邻像素点与中心像素点进行灰度值比较；若相邻像素点的灰度值g_p大于或等于其中心像素点灰度值g_c，二进制位设置为1，否则设置为0，即：

其中，CLBP_S是完整局部二进制模式的符号差值；

所述评估窗口能生成8位二进制数，同时转换为十进制值，每一个十进制值代表一种纹理模式，则共有256种纹理模式；

应用所述评估窗口分析整幅灰度图像，得到一幅包含256种纹理模式的特征图像，统计特征图像上每一种纹理模式的数量生成直方图，将每一种纹理模式作为特征向量的维度，再将相应的纹理模式的数量作为特征向量在所述维度下的值，则生成的统计直方图可得1×256的完整局部二进制模式的符号差值特征向量。

作为优选方案，所述计算完整局部二进制模式的幅度差值特征，包括以下步骤：

读取灰度图像的每个像素点灰度值；对相邻像素点灰度值与中心像素点灰度值的差值取绝对值，记为相邻像素点与中心像素点的幅度差值m_p；再取整幅图像所有幅度差值平均，记为幅度差值的阈值c；

m_p＝|g_p-g_c|；

其中，g_p为相邻像素点的灰度值；g_c为中心像素点灰度值；k为幅度差值m_p序号；N为m_p的总数；

每个相邻像素点与中心像素点的幅度差值的绝对值m_p作为新的相邻像素点灰度值，幅度差值的阈值c作为新中心像素点灰度值；设置3×3的评估窗口进行二进制编码，使其新的相邻像素点与新的中心像素点进行灰度值比较；若新的相邻像素点的灰度值m_p大于或等于其新的中心像素点灰度值c，二进制位设置为1；否则设置为0；即：

其中，CLBP_M是完整局部二进制模式的幅度差值；

应用所述评估窗口分析整幅灰度图像，得到一幅包含256种纹理模式的特征图像，统计所述特征图像上每一种纹理模式的数量生成直方图，将每一种纹理模式作为特征向量的维度，再将相应的纹理模式的数量作为特征向量在所述维度下的值，则生成的统计直方图可得1×256的完整局部二进制模式的幅度差值特征向量。

作为优选方案，所述步骤S3具体包括：

将获得的训练集设置标签，记(x_i,y_i),i＝1,2,3,...,N,x_i∈R_n,y_i∈[-1,1]；其中，x_i是训练样本也就是获得的完整局部二进制模式特征向量；N是训练样本的总数；n是样本空间的维数；R_n是n维样本空间；y_i是样本的分类类别；y_i＝1表示伪装语音；y_i＝-1表示真实语音；引入错误惩罚因子C和径向基核函数K(x_i,x_j)以训练最优支持向量确定一个最优超平面；

使目标函数最大化的条件为：

采用的径向基核函数：

其中，α_i为每个样本对应的拉格朗日乘子；错误惩罚因子C在确定径向基核函数后，控制错误分类样本的惩罚程度；只有部分α_i不为零，其所对应的样本就是训练所得的支持向量机。

作为优选方案，所述支持向量机包括SVM输入层、SVM隐层和输出层。

作为优选方案，所述支持向量机的分类函数为：

其中，b为分类阈值。

作为优选方案，所述步骤S4中将待识别语音输入至支持向量机之前，还提取待识别语音的纹理特征。

作为优选方案，所述步骤S4具体包括：采用支持向量机的分类函数对待识别语音的纹理特征进行特征分类，以进行伪装语音的识别。

作为优选方案，所述步骤S1之前还包括：

S0、采集真实说话人语音以建立真实语音库，并训练建立相应的伪装语音库。

本发明与现有技术相比，有益效果是：

(1)本发明采用变量Q变换获取的语谱图相比于常用的短时傅里叶变换获取的语谱图，纹理更加清晰，有助于提取语音信号的纹理特征，而且采用的完整局部二进制模式，包含语谱图的局部符号差值信息和局部幅度差值信息，可更全面地获取信号的纹理特征，有利于支持向量机的分类，提高识别伪装语音的准确率。

(2)由于伪装语音较于真实语音缺少自然、动态的纹理特征，本发明应用语音信号的纹理特征训练的支持向量机，相比于使用传统的幅度和相位特征训练的支持向量机，识别伪装语音的效果更好、泛化能力更强。

附图说明

图1是本发明实施例的基于完整局部二进制模式的伪装语音检测方法的流程图；

图2是本发明实施例的基于完整局部二进制模式的伪装语音检测方法中利用完整局部二进制模式的符号差值对语谱图的变换图；

图3是本发明实施例的基于完整局部二进制模式的伪装语音检测方法中训练支持向量机的示意图；

图4是本发明实施例的基于完整局部二进制模式的伪装语音检测方法对应的检测系统的框架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明实施例的基于完整局部二进制模式的伪装语音检测方法利用完整局部二进制模式(Completed Local Binary Pattern,CLBP)提取说话人真实语音信号和伪装语音信号的语谱图的纹理特征并用来训练具有真伪语音分类功能的支持向量机，可以有效地实现反伪装检测。

为了提取语音的纹理特征，需要对说话人语音信号进行变量Q变换(Variable-QTransform,VQT)得到清晰纹理的语谱图，再将语谱图作为一副图像处理，把语谱图转换为灰度图，采用完整局部二进制模式获得语谱图的统计直方图，将其用作支持向量机(Support Vector Machine,SVM)训练及分类的语音纹理特征向量。采用上述方法获取真实语音库及伪装语音库中所有语音信号的纹理特征向量用作训练集，设置径向基核作为支持向量机的核函数来训练支持向量，将训练得到的支持向量机作识别伪装语音的分类器。在说话人识别系统上，同样需要提取待识别的说话人声音纹理特征，以实现支持向量机的区分真伪语音的功能。

需要将伪装语音检测方法对应的伪装语音识别系统(如图4所示)作为说话人识别系统的后端来检测通过说话人识别系统后的声音是否真实，提高说话人识别系统的安全性能。

具体地，如图1所示，本发明实施例的基于完整局部二进制模式的伪装语音检测方法包括以下步骤：

S0、采集真实说话人语音以建立真实语音库(简称为语音库)，并训练建立相应的伪装语音库；

S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换，得到所有真实语音和伪装语音的语谱图；具体地，利用变量Q变换(Variable-Q Transform)求取真实语音库和伪装语音库中语音的频谱，并绘制语谱图，即有：

其中，X^vq(k)是数字语音序列的VQT频谱；x(n)是有限长的数字语音序列；n是数字语音序列的序号；w_Nk是长度为N_k的窗函数(如hamming窗)；k是频谱的频率序号；N_k是窗函数的长度，和k值有关；Q是变量因子；

B_k＝Qf_k+γ；

S2、分别将各语谱图转换为相应的灰度图像，并采用完整局部二进制模式处理，生成相应的纹理特征；具体地，将获得的语谱图转换为灰度图，再基于完整局部二进制模式对每幅灰度图处理得其纹理特征；步骤如下：

(1)首先，计算完整局部二进制模式的符号差值(CLBP_S)特征

如图2所示，读取灰度图像的每个像素点灰度值，设置3×3的评估窗口进行二进制编码，使其相邻像素点与中心像素点进行灰度值比较；若相邻像素点的灰度值gp大于或等于其中心像素点灰度值gc，二进制位设置为1，否则设置为0，即：

其中，CLBP_S是完整局部二进制模式的符号差值；

评估窗口可以生成8位二进制数，同时转换为十进制值，每一个十进制值代表一种纹理模式，从00000000(0)到11111111(255)一共有256种纹理模式；应用此评估窗口分析整幅灰度图，将得到一幅包含256种纹理模式的特征图像，统计该图像上每一种模式的数量生成直方图，将每一种纹理模式作为特征向量的维度，再将该纹理模式的数量作为特征向量在该维度下的值，所以由生成的统计直方图可得1×256的完整局部二进制模式的符号差值(CLBP_S)特征向量。

(2)计算完整局部二进制模式的幅度差值(CLBP_M)特征

m_p＝|g_p-g_c|；

其中，CLBP_M是完整局部二进制模式的幅度差值；

该评估窗口同样可以生成8位二进制数，同时转换为十进制值，每一个十进制值代表一种纹理模式，从00000000(0)到11111111(255)一共有256种纹理模式。应用该评估窗口分析整幅灰度图像，得到一幅包含256种纹理模式的特征图像，统计该特征图像上每一种纹理模式的数量生成直方图，将每一种纹理模式作为特征向量的维度，再将相应的纹理模式的数量作为特征向量在所述维度下的值，所以由生成的统计直方图可得1×256的完整局部二进制模式的幅度差值(CLBP_M)特征向量。

(3)最后将完整局部二进制模式的符号差值(CLBP_S)特征和完整局部二进制模式的幅度差值(CLBP_M)特征简单级联，得到完整局部二进制模式(CLBP)特征向量，作为语音的纹理特征：

CLBP＝[CLBP_S CLBP_M]；

按照上述步骤，求真实语音库和伪装语音库所有语音的CLBP特征向量，用作伪装识别支持向量机的训练集。

S3、将所有的纹理特征作为训练支持向量机的训练集，训练得到支持向量机；具体地，将获得的训练集设置标签，记(x_i,y_i),i＝1,2,3,...,N,x_i∈R_n,y_i∈[-1,1]；其中，x_i是训练样本也就是获得的完整局部二进制模式特征向量；N是训练样本的总数；n是样本空间的维数；R_n是n维样本空间；y_i是样本的分类类别；y_i＝1表示伪装语音；y_i＝-1表示真实语音；引入错误惩罚因子C和径向基核函数(Radial Basic Function,RBF)K(x_i,x_j)以训练最优支持向量确定一个最优超平面；

使目标函数最大化的条件为：

采用的径向基核函数RBF：

其中，α_i为每个样本对应的拉格朗日乘子；错误惩罚因子C在确定径向基核函数后，控制错误分类样本的惩罚程度；只有部分α_i不为零，其所对应的样本就是训练所得的支持向量机SVM，用作伪装识别分类。如图3所示，支持向量机内含三层，从下至上分别为SVM输入层、SVM隐层以及输出层；

通过上述步骤，可得分类函数为

其中，b为分类阈值，可由支持向量求得。应用此分类决策函数可对待识别的语音信号的纹理特征分类，达到识别真伪语音的目的。

S4、将待识别语音输入至支持向量机，以进行伪装语音的识别。具体地，将训练得到的SVM模型作为说话人识别系统的后端；待说话人识别系统确认语音为目标说话人后，提取待识别语音的纹理特征，输入至SVM进行分类来实现伪装语音识别的功能。

本发明实施例的基于完整局部二进制模式的伪装语音检测方法具有如下优点：

(1)采用变量Q变换获取的语谱图相比于常用的短时傅里叶变换获取的语谱图，纹理更加清晰，有助于提取语音信号的纹理特征，而且采用的完整局部二进制模式，包含语谱图的局部符号差值信息和局部幅度差值信息，可更全面地获取信号的纹理特征，有利于支持向量机的分类，提高识别伪装语音的准确率；

(2)由于伪装语音较于真实语音缺少自然、动态的纹理特征；应用语音信号的纹理特征训练的支持向量机，相比于使用传统的幅度和相位特征训练的支持向量机，识别伪装语音的效果更好、泛化能力更强。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述步骤S1具体为：

其中，X^vq(k)是数字语音序列的VQT频谱；x(n)是有限长的数字语音序列；n是数字语音序列的序号；w_Nk是长度为N_k的窗函数；k是频谱的频率序号；N_k是窗函数的长度，和k值有关；Q是变量因子；

B_k＝Qf_k+γ；

3.根据权利要求2所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述步骤S2具体包括：

S22、将完整局部二进制模式的符号差值特征和幅度差值特征级联，得到完整局部二进制模式特征向量，作为语音的纹理特征。

4.根据权利要求3所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述计算完整局部二进制模式的符号差值特征，包括以下步骤：

其中，CLBP_S是完整局部二进制模式的符号差值；

5.根据权利要求4所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述计算完整局部二进制模式的幅度差值特征，包括以下步骤：

m_p＝|g_p-g_c|；

其中，CLBP_M是完整局部二进制模式的幅度差值；

6.根据权利要求5所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述步骤S3具体包括：

将获得的训练集设置标签，记(x_i,y_i),i＝1,2,3,...,N,x_i∈R_n,y_i∈[-1,1]；其中，x_i是训练样本也就是获得的完整局部二进制模式特征向量；N是训练样本的总数；n是样本空间的维数；R_n是n维样本空间；y_i是样本的分类类别；y_i＝1表示伪装语音；y_i＝-1表示真实语音；引入错误惩罚因子C和径向基核函数K(x_i,x_j) 以训练最优支持向量确定一个最优超平面；

使目标函数最大化的条件为：

采用的径向基核函数：

7.根据权利要求6所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述支持向量机包括SVM输入层、SVM隐层和输出层。

8.根据权利要求7所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述支持向量机的分类函数为：

其中，b为分类阈值。

9.根据权利要求7所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述步骤S4中将待识别语音输入至支持向量机之前，还提取待识别语音的纹理特征；所述步骤S4具体包括：采用支持向量机的分类函数对待识别语音的纹理特征进行特征分类，以进行伪装语音的识别。

10.根据权利要求1-9任一项所述的一种基于完整局部二进制模式的伪装语音检测方法，其特征在于，所述步骤S1之前还包括：