CN105513598A

CN105513598A - 一种基于频域信息量分布的回放语音检测方法

Info

Publication number: CN105513598A
Application number: CN201610023352.8A
Authority: CN
Inventors: 王让定; 陈亚楠; 严迪群; 金超; 陶表犁; 张立
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2016-04-20
Anticipated expiration: 2036-01-14
Also published as: CN105513598B

Abstract

本发明公开了一种基于频域信息量分布的回放语音检测方法，属于一种通过研究原始语音和回放语音在固定频率范围上信息量的分布，从而提出了可用于检测回放语音的方法，而通过这种检测方法可有效检测语音是否为回放语音，这种回放语音检测方法能够有效检测来自偷录设备的回放语音，并在回放环境改变情况下，也具备较高的检测准确性；同时，本发明也验证了检测回放语音检测算法具有较好的鲁棒性，采用这种基于频域信息量分布的回放语音检测方法还具有操作简单、适用范围广、检测准确率高等优点。

Description

一种基于频域信息量分布的回放语音检测方法

技术领域

本发明涉及回放语音的检测识别方法，具体是指一种基于频域信息量分布的回放语音检测方法。

背景技术

目前，说话人识别系统作为语音识别的重要分支，正以其自身优势，如拾音设备简单、接受度高、非现场性等而逐步受到重视，并广泛应用于生活的各个方面，如司法取证、社保系统、普通生活等。然而，说话人识别系统往往存在假冒者攻击的潜在威胁，其安全性已成为人们关注的焦点，假冒者主要通过以下两种方法实施攻击：一、假冒者使用口技模仿合法用户发言方式进行攻击；二、假冒者使用专业技术进行攻击。对于第一种攻击方式，除非假冒者有很高的技巧才能攻击成功，一般人很难做到，并且现有的说话人识别技术已经能够做到阻止此类假冒者的闯入；对于第二种攻击方式，主要分为合成特定人语音、特定人语音拼接、回放语音等，其中前两种攻击手段需要假冒者具备相关专业知识，假冒者一般难以实施攻击，而对于回放语音攻击认证系统则具有其他攻击手段没有的优点，随着低价格、高保真录音设备的普及，语音来源于合法用户本人，自然度高，假冒者无需专业知识，操作简单，这也使得回放语音攻击说话人识别系统变的简单、成功率高，对说话人识别系统造成很大的威胁。

针对回放语音攻击认证系统的检测，不少检测回放语音攻击检测方法也有被提出，如Wang等人根据回放语音是来自录制某一次合法语音这一原理，首次提出检测待测语音与合法语音语谱图相似度的算法；Jakbu等人则在检测语谱图相似度的基础上进一步改善算法，将回放语音的检测率提高到99%以上，但此方法仅使用于文本无关说话人识别系统；张立鹏等人依据回放语音信道与原始语音信道不同和静音段包含了信号信息，提出了一种基于静音段MFCC特征检测待测语音信道方法，其等错误概率在29%左右，此算法对于静音段时间比较短的语音不能获得稳定的特征；王志峰等人通过分析各种电路器件引起原始语音和回放语音在对数功率谱低频区的差异，提出基于信道模式噪声的录音回放攻击检测方法，其等错误概率在10%左右。以上算法均是仅仅针对一种偷录设备取得检测效果，是否适用于其他偷录设备则有待研究。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺陷而提供一种操作简单、适用范围广、检测准确率高的一种基于频域信息量分布的回放语音检测方法。

本发明的技术问题通过以下技术方案实现：

一种基于频域信息量分布的回放语音检测方法，其包括如下步骤：

步骤一、提取语音信号的语音频率信息量，设待测语音信号或原始语音信号为X，将待检测语音信号如下操作：

（1）将语音信号做分帧处理，设共T帧，然后第i帧语音采样值做N点离散傅里叶变换，所述N为256、512、1024；则第i帧短时傅里叶变换为：（N=256/512/1024），并按照公式一进行计算，

公式一，

（0≤k?N-1）

式中：

X_i——傅里叶变换数值；

K——傅里叶变换的离散频率参数；

n——语段语音信号中每个采样点；

（2）按照公式二对第j帧第i个频率点的频率值(K)，求幅值；

公式二，

式中：

——第i帧j列的傅里叶变换数值；

K——傅里叶变换的离散频率参数；

（3）按照公式三对第j点频率求其时间上的平均；

公式三，

式中：

Yj(k)——表示第j个频率值在时间上的平均；

——第i帧j列的傅里叶变换数值；

（4）按照公式四对总频率点上频率值求和；

公式四，

式中：

S(k)——表示各频率值之和；

Yj(k)——表示第j个频率值在时间上的平均；

（5）按照公式五求每一个频率点出现的概率；

公式五，

式中：

Pj——表示第j个频率值占总频率值的比重；

Yj(k)——表示第j个频率值在时间上的平均；

S(k)——表示各频率值之和；

（6）按照公式六对第j频域点求信息量；

公式六，

式中：

I(Pj)——标志第j频率点的信息量；

Pj——表示第j个频率值占总频率值得比重；

通过上述计算过程分别将待测语音信号和原始语音信号转换为一维数据；

步骤二、选取步骤一中语音信号的前N/2个频率点的信息量作为初步特征；

步骤三、从语音信号选取的初步特征中低频区特征提取部分中筛选特征集，并选取连续的频率点作为最终特征集；

步骤四：通过分类器分别对回放语音信号的特征集和原始语音信号的特征集进行训练模型，将待测语音在训练模型上进行测试，并由分类器最终判断待测语音信号是否为回放语音。

所述的特征集筛选工具为怀卡托智能分析环境Weka。

所述的分类器为LibSVM分类器。

与现有技术相比，本发明主要通过研究原始语音和回放语音在固定频率范围上信息量的分布，提出了一种用于检测回放语音的方法。实验结果表明，该检测方法能够有效检测来自偷录设备的回放语音，并在回放环境改变情况下，也具备较高的检测准确性；同时，也验证了检测回放语音检测算法具有较好的鲁棒性，这种回放语音检测方法还具有操作简单、适用范围广、检测准确率高等优点。

附图说明

图1为本发明检测回放语音训练和测试框图示意图。

图2为不同点数时原始语音和回放语音的信息量示意图。

图3为不同点数时原始语音和回放语音的信息量方差示意图。

图4为爱国者录音笔R5577和索尼这两种偷录设备情况下测试得到的ROC示意图。

图5为提取的优质点分别当做独立的特征进行检测并分别求其检测率的示意图。

图6为获取的优质点当做特征集，得到的POC曲线图。

图7为每个所选优质点当做独立特征进行测试的结果图。

图8为具有防回放语音攻击的说话人识别系统示意图。

具体实施方式

下面将按上述附图对本发明实施例再作详细说明。

一种基于频域信息量分布的回放语音检测方法，主要通过研究原始语音和回放语音在固定频率范围上信息量的分布，从而提出了可用于检测回放语音的方法，通过这种检测方法可有效检测语音是否为回放语音，该检测方法主要解决的问题是回放语音检测模块，它能检测送入该检测模块的语音是否为回放语音，参考图8所示使用过程，若被判为原始语音则进入说话人识别系统，若被判为回放语音则直接拒绝该语音进入说话人识别系统，通过这种方式也极大提高了说话人识别系统的使用安全性。

本发明所述的检测方法还涉及了语音信号频域信息量分布检测回放语音算法，这是根据回放语音的产生过程而得知的，由于回放语音比原始语音多经历了一次录制和回放过程，故设备根据其种类的不同对语音信号某些频率造成的影响也是不同的，这就使得回放语音在这些频域的分布将明显区别于原始语音。

因此，参照这些特性，本发明提出的检测方法主要包括如图1所示的语音提取。即分别提取回放语音信号和原始语音信号的语音频率信息量，并作特征集的优化和筛选提取，然后通过分类器分别对回放语音信号的特征集和原始语音信号的特征集进行训练模型，将待测语音在训练模型上进行测试，最后再由分类器判断最终结果。

其中，信息量是指用不确定性度定义的，一个消息的可能性愈小，其信息愈多；而消息的可能性愈大，则其信息愈少。事件出现的概概率小，不确定性越多，信息量就大，反之则少。这与人们更关心语音内容细节部分也是一致的，即语音信号频率信息不可能是均匀分布在各个频率点上的，而是更多的分布在低频区，而回放语音产生过程经历几种设备的采集、回放，由于这些电路系统导致语音信号在某些频率点上的信息量就会发生变化。

本发明就是通过分析原始语音信号和回放语音信号，发现回放语音信号的低频区占比会增大、部分中高频会降低。

因此，本发明的检测方法主要包括如下步骤：

公式一，

（0≤k?N-1）

式中：

X_i——傅里叶变换数值；

K——傅里叶变换的离散频率参数；

n——语段语音信号中每个采样点；

（2）按照公式二对第j帧第i个频率点的频率值(K)，求幅值；

公式二，

式中：

——第i帧j列的傅里叶变换数值；

K——傅里叶变换的离散频率参数；

（3）按照公式三对第j点频率求其时间上的平均；

公式三，

式中：

Yj(k)——表示第j个频率值在时间上的平均；

——第i帧j列的傅里叶变换数值；

（4）按照公式四对总频率点上频率值求和；

公式四，

式中：

S(k)——表示各频率值之和；

Yj(k)——表示第j个频率值在时间上的平均；

（5）按照公式五求每一个频率点出现的概率；

公式五，

式中：

Pj——表示第j个频率值占总频率值的比重；

Yj(k)——表示第j个频率值在时间上的平均；

S(k)——表示各频率值之和；

（6）按照公式六对第j频域点求信息量；

公式六，

式中：

I(Pj)——标志第j频率点的信息量；

Pj——表示第j个频率值占总频率值得比重；

步骤二、选取步骤一中语音信号的前N/2个频率点的信息量作为初步特征；由上述计算过程可知，假设将待测语音信号做N点离散傅里叶变换，由于前N/2个频率点和后N/2个频域点是对应相等的，所以本发明只需关注前频率点即可，将任意原始语音和回放语音分别经过上述计算处理并转换为一维数据。

由于做离散傅里叶变换点的个数是受到N取值的影响，如果直接将N/2维信息量作为特征是不可取的，原因有两个：一、N/2值太大，这样的维数用来训练模型增加了计算的复杂度，如果样本数量也过大，会导致系统崩溃；二、N/2个值有部分值对区分回放语音是无贡献甚至是有害的，所以必须对得到的信息量特征做进一步的优化。

本实施例分别提取1000个原始语音信号样本、1000个来自爱国者回放语音样本和1000个来自索尼回放语音样本的信息量均值。如图2所示是根据以上算法流程提取的原始语音和回放语音信息量对比示意图，其中a、b、c分别表示在N/2为128、256、512时原始和回放信息量对比图，经过对比分析原始语音和回放语音的信息量，图2中标注（1）、（2）、（3）处原始语音与回放语音有明显区别，但不能将（3）高频区当做特征部分，因为这一部分易受到噪声干扰，影响检测效果；对于图示（2）部分需要做进一步分析，如图3所示是在该样本下的不同频率点上的方差，框出区域显示，原始语音信息量浮动较小，但回放语音的情况却相反，故结合图2中（2）可以得出，回放语音在均值比较小的情况下，其浮动性相比却比较大，这会影响到最终检测效果，所以最终本发明选择低频区、即（1）区作为特征提取部分。

步骤三、由于N/2值越大反应语音细节程度越丰富，N/2值越小语音细节损失程度也就越多。由于回放语音经过录制和回放设备会损失部分细节，使得原始语音和回放过语音存在差异，所以为了检测回放语音，必须扩大这种差异，所以N值大小的变化同样也会影响到原始语音和回放语音细节反应程度。

由步骤二分析可得出原始语音和回放语音的不同主要在低频区，但是低频区哪些频率段范围是比较好的区分回放语音的优质点，则需要进一步筛选特征集，本发明对优质点的筛选工具采用怀卡托智能分析环境weka，使用weka分别对来自爱国者和索尼这两种偷录设备回放语音特征进行筛选，其中选取有较多连续的频率点作为特征集，可得出如下表1：

表1.两种偷录设备筛选的特征集

步骤四：通过LibSVM分类器分别对筛选后的回放语音信号特征集和原始语音信号特征集进行训练模型，LibSVM是一种有监督的机器学习方法，广泛应用于统计分类以及回归分析，由于回放语音识别过程其本质就是二分问题，所以本发明使用默认参数的LibSVM分类器解决该问题。如图1所示，先根据两部分提取特征并使用LibSVM分类器进行训练模型，将待测语音在LibSVM分类器的训练模型上进行测试，并由LibSVM分类器给出最终判断结果，即最终判断该待测语音信号是否为回放语音。

本发明的检测方法也涉及到语音库的构建，并建立了原始语音库和回放语音库用以进行回放语音检测的研究，语音库的构建主要涉及到录音设备、说话人个人信息、语料库信息三方面因素。

原始语音库构建：语音录制过程中使用的设备，在其功能上分为：语音采集设备、语音偷录回放设备。在我们构建的数据库中，爱国者R6620代表采集设备，其采样率为16K，编码位数是16位；设备爱国者R5577，采样率44.1K，编码位数16位、索尼TX650，采样率22.05K，编码位数为16位分别代表偷录回放设备；考虑到语音内容受到发音习惯的影响，所以本数据库的构建过程中组织了来自浙江、安徽、山东等8省人员，其中年龄在20～30岁之间人占了总人数的80%，其余年龄段占了20%。男生25名，女生20名，录音语料分为朗读部分和口语部分，其几乎覆盖了全部的音节、音素信息，其中各部分的详细内容参考表2：

表2.录音语料

原始语音库录制过程如下：在安静房间里，参与者使用标准普通话阅读语料库内容，以每个参与者最常用的语速阅读一边上述语料库内容，使用爱国者R6620进行采集，设置为16K，16位，采集设备距参与者大约30cm，同时使用偷录设备进行采集语音信号，根据偷录实际情况，偷录设备距离参与者大约为1m左右。

回放语音库：回放语音库录制使用的偷录设备是两个，分别为爱国者录音笔R5577，44.1K，16位和索尼，22.05K，16位。在本发明中回放语音库主要在两种不同环境下构建：一、是在与原始语音录制时相同环境下进行回放语音采集，在本发明中暂称这种回放语音为标准回放语音；二、在有谈话声、走路声、开关门声的影响下进行回放语音的录制，本发明暂称之为噪声干扰回放语音。

回放语音录制过程：在两种环境下，两种偷录设备回放采集到的语音，同时使用采集设备采集到回放语音，考虑到实际偷录物理过程，偷录设备距离采集设备大约30cm。

检测结果

本发明将基于三种不同N值对两种偷录设备分别做测试，实验中使用1000个原始语音和1000个标准回放语音做测试实验，样本来自随机抽取15为男生和10位女生的录音数据。其中任意选出500个原始语音和500个回放语音用以训练实验，剩余1000个样本用以测试实验，将选出的优质点当做特征，测试检测效果参考表3。

表3：AAC检测结果

图4为两种偷录设备情况下的测试得到的ROC；其中a、b、c分别表示偷录设备为爱国者时N/2=128、256、512检测结果；d、e、f分别表示偷录设备为索尼时N/2=128、256、512检测结果。由ROC曲线表达意义可知，本算法能够有效的检测回放语音。

对于偷录设备是爱国者时，N/2=512的检测效果最好，说明N越大对回放语音与原始语音的差异就越大，检测效果就越好；但是对于偷录设备是索尼时，当N/2=128时检测率则是最好的，说明N值越小对原始语音与回放语音差异最大，检测效果越好。

检测各频率点对分类的影响

将提取的优质点分别当做独立的特征进行检测，并分别求其检测率，如图5所示，第一、二行分别是偷录设备为爱国者、索尼时各频率点单独为特征时AAC。由实验结果可以看出，单个频率点检测结果大部分在99%以上，此检测效果比上述检测效果高出1%左右，说明将所有优质点作为特征并未有优化检测效果反而恶化了检测结果，但由于本实验数据是在相对简单的外界环境下进行的录制，为了保证本发明检测算法的稳定性，本发明采用全部优质点作为特征集。

针对不同偷录设备的检测

本实验内容是分别在N/2=128、256或512下，将来自两种偷录设备的回放语音同时作为检测对象，其中在样本库中随机选取1000个原始语音、500个来自爱国者标准回放语音和500个来自索尼标准回放语音，随机取500个原始语音、250个来自爱国者标准回放语音、250个来自索尼标准回放语音，将形成的这1000个样本做训练样本，剩余的1000个样本做测试样本，如下实验分别是在N/2=128/256/512下进行。

特征选取是来自两个设备优质点的交集得出如下表4：

表4.两个设备优质点的交集

N/2	优质点
		128	5到10
256	12到20
		512	25到36

将获取的优质点当做特征集，得到回放语音的检测效果如下表5：

表5.回放语音的检测效果

N/2	AAC(%)	EER（%）
			128	98.4	2.1
256	98.7	1.1
			512	98.6	1.3

得到的ROC曲线如图6所示，实验结果AAC均在98%以上，EER在2%以下，说明该检测算法的有效性，并且由于在N/2=256的情况下综合检测效果最好，进一步说明了N的取值对检测效果的影响。通过对比几次实验结果可知，本算法对来自两种偷录设备的回放语音检测率略有下降，这是由于在相同的频率点上不同的偷录设备对语音信号处理造成的影响不一致导致的。图7所示是将每个所选优质点当做独立的特征进行测试。当N/2=128时其检测率均在99%以上，相对于实验中的9维特征，检测效果更好。但是对于N/2=256或512时，由于个别点的检测率相对较低，故本发明的检测算法使用全部优质点作为最终的特征集。

针对不同偷录环境的检测

本实验是验证此检测算法在有外界干扰的情况下的鲁棒性。实验共分为2组，其中一组使用的是标准回放语音与原始语音；另外一组对噪声干扰回放语音与原始语音进行检测。表6给出了测试结果，可以看出，在有噪声干扰的情况下检测率比标准回放语音检测率下降了6个百分点；其中在128、256个点上误检率虽然有所升高达到了10%以上，对于认证系统的安全性略有影响。所以在实际应用中，使用512时提取的特征集用以检测回放语音有更好的效果，可提高检测算法的鲁棒性。

表6.两组语音检测

在有噪声干扰的情况下，会出现较高的误检率，这是因为本算法是检测偷录设备对语音信号频率域分布的影响，但是如果加上外界噪声影响，尤其是外界噪声强度很大的情况下，会影响语音信号的频率域分布。

本发明提出一种前端检测回放语音检测算法，并为了降低计算的复杂度，对特征做了优化并选取了相应的优质点作为特征集，使用此特征集检测回放语音，检测效果在98.5%以上。本发明还将此检测算法运用到检测来自不同偷录设备的回放语音，虽然在不同设备上的检测率有所区别，但依然达到了98.1%以上。本发明还测试了有无噪声干扰的对比实验，其实验结果表明本算法依然有较好的鲁棒性。

Claims

1.一种基于频域信息量分布的回放语音检测方法，其特征在于该检测方法包括如下步骤：

公式一，

（0≤k?N-1）

式中：

X_i——傅里叶变换数值；

K——傅里叶变换的离散频率参数；

n——语段语音信号中每个采样点；

（2）按照公式二对第j帧第i个频率点的频率值(K)，求幅值；

公式二，

式中：

——第i帧j列的傅里叶变换数值；

K——傅里叶变换的离散频率参数；

（3）按照公式三对第j点频率求其时间上的平均；

公式三，

式中：

Yj(k)——表示第j个频率值在时间上的平均；

——第i帧j列的傅里叶变换数值；

（4）按照公式四对总频率点上频率值求和；

公式四，

式中：

S(k)——表示各频率值之和；

Yj(k)——表示第j个频率值在时间上的平均；

（5）按照公式五求每一个频率点出现的概率；

公式五，

式中：

Pj——表示第j个频率值占总频率值的比重；

Yj(k)——表示第j个频率值在时间上的平均；

S(k)——表示各频率值之和；

（6）按照公式六对第j频域点求信息量；

公式六，

式中：

I(Pj)——标志第j频率点的信息量；

Pj——表示第j个频率值占总频率值得比重；

2.根据权利要求1所述的一种基于频域信息量分布的回放语音检测方法，其特征在于所述的特征集筛选工具为怀卡托智能分析环境Weka。

3.根据权利要求1所述的一种基于频域信息量分布的回放语音检测方法，其特征在于所述的分类器为LibSVM分类器。