CN105913855A

CN105913855A - 一种基于长窗比例因子的回放语音攻击检测算法

Info

Publication number: CN105913855A
Application number: CN201610220000.1A
Authority: CN
Inventors: 王让定; 陈亚楠; 严迪群; 金超; 陶表犁; 张立
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-08-31
Anticipated expiration: 2036-04-11
Also published as: CN105913855B

Abstract

本发明公开了一种基于长窗比例因子的回放语音攻击检测算法，它是针对现有攻击者利用回放语音进入说话人识别系统，造成合法用户的权益受到损害而研发的防回放语音攻击的检测算法，该检测算法能够有效识别不同来源的回放语音，检测准确率高，将该检测算法模块加载到GMM‑UBM系统之后，提高了抵抗回放语音攻击的能力，使识别系统的等错误概率降低了32%，极大改善了识别系统的安全问题。

Description

一种基于长窗比例因子的回放语音攻击检测算法

技术领域

本发明涉及回放语音攻击检测算法，具体是指一种基于长窗比例因子的回放语音攻击检测算法。

背景技术

在生物特征识别技术领域，说话人识别技术以其获取方便、拾音设备低廉、支持非现场身份确认等优势，已开始逐步应用于金融、社保、普通生活等领域。但随着便携式、高保真录音设备的普及，合法用户的密语在请求进入识别系统时极易被攻击者偷录成功。若攻击者使用高保真音响回放偷录语音成功攻击认证系统，用户的安全和利益就会受到威胁，财产损失或者信息泄露恐将难以避免，所以基于说话人识别系统的回放语音检测受到了业界的广泛重视。

目前识别系统应对回放语音攻击的方法主要有两种：1）用户需按照系统随机提示的密语进行跟读；2）增加回放语音检测模块。第一种方法需要认证系统提前录制大量的样本，另外，用户在认证时，转换语气会出现较高的漏检率，这均会使用户的体验度下降；而第二种方法则无需用户的额外行为，可行性更高、用户体验更好。

因此，相关领域的研究团队和学者也主要是在回放语音检测方面做工作，并提出了一些用于区分原始语音和回放语音的方法。主要分为两类：第一类、基于语音产生随机性的检测算法。对于同一语音内容，由于语音产生的随机性，两次合法语音的语谱图之间存在一定相似度；然而由于回放语音来自于某一次偷录合法语音，所以回放语音与该合法语音的语谱图之间的相似度更大。根据这一原理提出了一种于语谱图相似度的回放语音检测算法，其判决规则如下：如果待测语音与合法语音的相似度大于某一阈值则判为回放语音；否则判为原始语音。但该思路仅适用于文本相关系统，且随着认证次数的增多严重影响系统的工作效率，在实际应用中并不适用。第二类、基于语音信道的检测算法，其包含两种方法，第一种依据回放语音信道与原始语音信道存在的差异，以及利用静音段包含的相关信息，提出了一种基于静音段MFCC特征检测待测语音信道方法，该算法对于静音段时间比较短的语音不能获得稳定的特征；第二种通过分析各种电路器件引起原始语音和回放语音在对数功率谱低频区的差异，提出基于信道模式噪声的录音回放攻击检测方法。这种解决办法虽然解决了受限于文本，但是依然仅针对一种偷录设备。

而根据现实情况，偷录设备可以为各种便携的录音设备，如高保真的智能手机或录音笔，这些设备不仅便于携带且不易被人察觉。由于不同偷录设备的声卡、功率放大器、A/D、D/A、采样率、编码格式的不同造成不同来源的回放语音携带的设备信息并不一致，这将对研究同时检测来自不同偷录设备的回放语音检测算法产生一定的难度。所以本文提出算法需要在不受文本的限制的基础上能够识别来自几种偷录设备的回放语音。

由以上分析可知，现有算法主要集中于语音信号的声学性质和信道特征，并没有涉足编码参数方面的特征，但根据回放语音和原始语音产生的物理过程可知，回放语音多经历了一次偷录设备和回放设备，此过程将不可避免地涉及编解码中的量化问题，由于量化误差的存在，不同来源的语音在某些编码参数上就会产生差异。所以本文提出了一种基于编码参数检测回放语音算法，并由实验结果表明本算法针对多种偷录设备有较高的检测率。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺陷而提供一种基于长窗比例因子的回放语音攻击检测算法，并由实验结果表明，在不受文本限制的情况下，该检测算法针对多种偷录设备均具有较高的检测准确率，并能够很好区分原始语音和不同来源的回放语音。

本发明的技术问题通过以下技术方案实现：

一种基于长窗比例因子的回放语音攻击检测算法，其包括如下步骤：

步骤一、构建语音库：语音库的构建主要分为原始语音和回放语音；在参与者阅读语料的同时，将偷录设备和采集设备分别打开到正常录制功能下，录制参与者的语音内容，并将采集设备此时采集到的语音暂称为原始语音；在同样环境下，将偷录设备采集到的语音经回放音响回放，并使用采集设备采集回放语音，该采集设备采集到的语音暂称为回放语音；

步骤二、特征提取：通过lame_3.99.5工具对原始语音和回放语音进行不同码率的MP3编码，而后在MP3编码参数中分别提取原始语音和回放语音的长窗比例因子；由于原始语音和回放语音都是一维时变信号，故对于不同的时长的语音片段，得到的特征维数并不一致，这将给构建训练模型、识别过程中造成了一定的难度，所以为了消除时间对特征维数的影响，将计算比例因子的时间统计平均，

设为比例因子，有

其中，

表示为第i帧，第j个比例因子带上对应的比例因子；

表示为第j个比例因子带上比例因子时间上的统计平均；

通过以上步骤初步得到21维特征集；

步骤三、特征集的选择：根据步骤二得到的21维特征集是否全部有效，需要进一步对其进行统计，考虑到特征集的离散性及分类的目的，最终将特征集的选择分为三种：第一种为筛选出的2、10、11、21号4维特征；第二种为2、10号的2维特征；第三种为10号1维特征，将这三种特征集分别暂称为：特征集、特征集、特征集；在不同码率下，将三种特征集分别放入LibSVM进行构建模型和测试，并根据测试结果选择64kbps码率下特征集作为最终回放语音检测模块使用的特征集；

步骤四、将步骤一构建的回放语音在GMM-UBM进行测试，出现较高的等错误概率，说明回放语音完全有能力对识别系统攻击成功，并将该回放语音检测算法加载到语音识别系统上，以提高语音识别系统抵抗回放语音的能力。

所述的MP3编码的码率为7种，分别为64kbps、80kbps、96kbps、128kbps、160kbps、192kbps和256kbps。

所述的采集设备为录音笔索尼TX650，采样率为44.1K，编码位数是16位，距离参与者约10cm进行录制；所述的偷录设备分别是iPhone6、小米4、索尼PX440，距离参与者约70cm进行录制；所述的回放音响为飞利浦音响DTM3155，距离采集设备约10cm。

与现有技术相比，本发明主要是将待测语音信号经一定码率MP3编码后，提取长窗比例因子，并基于该长窗比例因子而提出的一种回放语音攻击检测算法，该检测算法能够有效识别不同来源的回放语音，检测准确率高，故极大提高了抵抗回放语音的攻击能力，也改善了语音识别系统的安全问题。

附图说明

图1为长窗比例因子统计直方图。

图2为长窗比例因子在特殊比例因子带上的数值。

图3为回放语音攻击识别系统的等错误率曲线图。

图4为具有防回放语音攻击的说人识别系统示意图。

图5为加载回放语音检测模块前后的等错误率对比示意图。

具体实施方式

下面将结合上述附图对本发明实施例再作详细说明。

一种基于长窗比例因子的回放语音攻击检测算法，它是针对现有攻击者利用回放语音进入说话人识别系统，造成合法用户的权益受到损害而研发的防回放语音攻击的检测算法，将该检测算法模块加载到GMM-UBM系统之后，提高了抵抗回放语音攻击的能力，使识别系统的等错误概率降低了32%，极大改善了识别系统的安全问题。

在该检测算法中涉及了关于GMM-UBM识别系统和长窗比例因子的基础概念，具体为：

GMM-UBM识别系统

GMM-UBM (Gaussian Mixture Model - Universal Background Model)被称为基于通用背景的高斯混合模型，是文本无关的说话人识别系统领域里最主要的方法。与GMM相比，GMM-UBM解决了GMM系统中存在的问题，如用户提供的数据不充足造成的混合度不高、不同的测试语音在匹配说话人识别模型时得到的似然分数分布之间存在差异而造成的不易选取合适的阈值等。在使用GMM-UBM时，需事先使用大量的已知男女均衡的数据构建UBM，同时，用户需在UBM上自适应构建属于自己的说话人模型等。当测试语音进入说话人识别系统时，需要在已有的说话人模型上匹配打分，分数只有在可接受的范围内，才会将请求用户判为合法用户，否则视为攻击者。

由于MFCC充分考虑了人耳对不同频率的声波有不同的听觉敏感度，成为说话人识别系统中使用最广的声学特征，本发明在构建UBM及说话人模型均使用了该特征。

长窗比例因子

MP3是最为常见的音频编码格式， MP3的量化与编码主要由三级迭代循环来完成。其中内循环的目的就是调整量化步长，外循环的则是比较内循环引起的量化误差和心里声学模型提供的掩蔽阈值大小关系；帧循环是最外层循环，只要完成每一帧在量化编码前的初始化工作和计算每一帧编码后所剩多少比特数，并存入比特池。

比例因子的产生主要在外循环中，如果量化误差比掩蔽阈值大，外循环就会调节当前中各个子带的比例因子，调整比例因子取值，调整MP3编码中内循环的量化公式如下所示：

其中，分别为量化之后和量化前的频率系数值数；代表取最接近的整数；代表量化步长；代表比例因子；代表了两个颗粒是否共用同一个比例因子。要使量化误差小于掩蔽阈值则需要减小量化步长，这就等效于增大比例因子值。一般情况下，在高码率的MP3编码不需要调节比例因子，因为编码过程中压缩比较小，导致的量化误差较小。但是在低比特率的情况下，外循环通常要调节比例因子十多次。

本发明的检测算法需要通过lame_3.99.5工具依次对原始语音样本、回放语音样本进行特征提取及选取，具体为：

特征提取及选取

比例因子一方面可以侧面反映MDCT系数；另一方面参数的维数少，每帧包含21个（对应长窗）或者39个（对应短窗）比例因子，可以使用较少的特征来检测回放语音；此外，经过实验表明，在MP3编码中90%帧使用长窗函数进行编码，这均为使用长窗比例因子作为有效参数提供了可能。本发明中如果没有特别说明，比例因子都是代表长窗比例因子，比例因子带编号从1开始到21结束。

特征提取

特征提取的基本思路为：先将.wav格式的语音信号进行一定码率的MP3编码，而后在编码的参数中提取比例因子，并求其时间统计平均。由于语音信号是一维时变信号，所以对于不同的时长的语音片段，得到的特征维数并不一致，这就给构建训练模型、识别过程中造成了一定的难度，为了消除时间对特征维数的影响，我们将计算比例因子的时间求统计平均，设为比例因子，有

其中，表示为第i帧，第j个比例因子带上对应的比例因子；表示为第j个比例因子带上比例因子时间上的统计平均；另外，在这里本发明使用了64kbps、80kbps、96kbps、128kbps、160kbps、192kbps和256kbps这7种不同的码率，使用lame_3.99.5工具对语音信号进行编码。

特征选取

根据特征提取步骤将随时间变化的比例因子数组转换为21维特定维数的特征参数，但所产生的21维特征是否全部有效，需要进一步对其统计分析。如图1所示，图1中纵坐标为比例因子的统计平均值，横坐标为比例因子带序号，其中数据来源为450个原始语音、450个来自三种偷录设备分布均衡的回放语音。由于不同的码率仅影响编码后的音频质量，所以在不同的码率下，不同来源的语音在相同比例因子带上的比例因子相对趋势变化相差不大，本发明随机选取了64kbps编码参数。由图1可知，对于同一比例因子带，不同来源的语音存在差异，这就为区分回放语音与原始语音提供了可能。考虑到比例因子的离散性及分类的目的，在同一比例因子带上，只有原始语音与三种来源的回放语音的比例因子均相差在1倍以上的区域视为有明显差异，依据这一原则最终筛选出第2、10、11、21号比例因子带，如图1中黑色虚线框出的区域。

我们在已选出的比例因子带分别求各样本的比例因子，其中前450个为原始语音样本，后450个为回放语音样本，其结果如图2所示，可以看出，回放语音与原始语音在第11及第21号比例因子带中的差别不大，在第2号比例因子带中的差异相对来说区分度略好，在第10号比例因子带生的差异最明显。我们将特征最终选择分为三种：第一种为筛选出的4维特征；第二种为2、10号的2维特征；第三种为10号1维特征。将这三种特征集分别暂称为：特征集、特征集、特征集。

另外，根据选择比例因子带的规则，在第2、10、11、21号比例因子中，相差的倍数最小值分别为1.5、1.5、1、1.4；又由图2对比分析可知：在相差倍数较小的情况下，其原始语音与回放语音的区分度相对较小；而相差倍数较大的情况下，则区分度较大。

本发明需要分别录制多个原始语音样本和回放语音样本，具体为：

语料库设置

由于没有现成的数据库，本发明建立了原始语音和回放语音进行回放语音检测的研究。本语料库的构建主要涉及到录音设备种类、说话人个人信息、语料库信息三方面内容。

语音录制过程中使用的设备，在其功能上分为：采集设备、偷录设备设备。采集设备是录音笔索尼TX650，采样率为44.1K，编码位数是16位，偷录设备设备主要是现流行的智能手机及录音笔，分别是iPhone6、小米4、索尼PX440。考虑到语音内容受到发音习惯的影响，在数据库的构建过程中组织了来自浙江、安徽、山东等8省人员。其中年龄在20～30岁之间人占了总人数的80%，其余年龄段占了20%。男生25名，女生20名。录音语料分为朗读部分和口语部分，其几乎覆盖了全部的音节、音素信息。其中各部分的详细内容下表1所示。

表1语料设置

语音库构建

在安静房间里，参与者使用标准普通话阅读语料库内容，每个参与者使用自己最常用的语速朗读上述语料库内容。使用索尼TX650进行采集，采集设备距参与者大约10cm。在参与者阅读以上语料的同时，将偷录设备打开到正常录制功能下，录制参与者的语音内容。根据实际情况，将偷录设备距离说话人大约70cm，我们将采集设备采集到的语音暂称为原始语音。

在同样的环境下，将偷录设备采集到的语音经飞利浦音响DTM3155回放，此时使用采集设备采集回放语音。回放音响距离采集设备10cm左右。我们将此次采集设备采集到的语音称为回放语音。

实验结果及分析

试验中使用LibSVM，它是一种监督是学习方法，广泛地应用于统计分类以及回归分析。设原始语音为正样本，标签设置为‘1’，回放语音为负样本，标签设置为‘0’，这样就将回放语音识别过程转化为二分问题。分类过程如下：先根据3部分进行特征提取并使用LibSVM进行训练得到模型，将待测语音在LibSVM模型上进行测试，LibSVM给出最终判断结果。

不同特征维数的对比检测

针对特征集、特征集、特征集，分别对回放语音进行检测，以寻找最佳特征。在7种码率编码的情况下，依据三种特征选择分别对回放语音进行检测。其中样本设置如下：原始语音1000个样本，对于来自三种偷录设备的回放语音分别是1000个样本；样本来源于随机选取15名男生10名女生录音数据，其中取每位参与者40段5s的语音片段。实验结果如表2所示，其中ACC表示平均检测率。

表2不同特征对回放语音的检测率

由实验结果可以看出：特征集的检测效果与特征集的检测效果基本相同，但是特征集检测效果最好，这说明其余特征对检测回放语音不但没有贡献，反而恶化了检测结果。在使用尽量较少的特征维数达到较高的检测率这一思想下，本文中最终选用特征集。对于只使用特征集时，同一偷录设备在不同的码率下，其检测效果也不尽相同，综其结果，针对不同的偷录设备，在码率为64kbps、80kbps和256kbps时的检测率比较高。

多偷录设备检测效果

为考察该算法能否同时检测来自多种偷录设备的回放语音，将来自三种偷录设备的回放语音同时作为检测对象。其中使用的样本是从构建的数据库中随机选取1800个原始语音、600个来自iPhone6标准回放语音、600个来自小米4回放语音、600个来自PX440回放语音。其中随机使用每类语音的一半，做训练样本；剩余样本为测试样本。使用特征集对回放语音进行检测，检测结果如表3所示，其中TPR表示原始语音的预测正确率、TNR表示回放语音的预测正确率、ACC表示平均预测准确率、EER为等错误概率。由检测结果可以看出，虽然不同的偷录设备对语音信号的影响不同，但是本算依然具有较高的检测率。

表3在不同码率下回放语音检测结果

由表3可以看出，同样在64kbps、80kbps和256kbps码率下的检测率相对比较高，且其检测率相对于单独检测来自某一偷录设备的回放语音的检测率基本相近，这说明本算法完全可识别来自三种偷录设备的回放语音。

加载回放语音检测模块后的识别系统

在基于GMM-UBM系统上，测试来自三种偷录设备的回放语音能否攻击成功。实验中训练了4用户模型，在测试时使用每个用户的回放语音作为攻击语音，其中每个用户模型原始语音30个样本、回放语音120个样本。检测结果如图3所示，三种偷录设备的等错误概率约为40%，这说明本发明中使用的偷录设备足以完成攻击认证系统。

为综合检测该算法的有效性，本发明将回放语音检测算法以单独的模块形式加载到识别系统的后端，如图4所示。该系统需依据说话人识别系统及回放语音检测模块对请求用户进行综合判断；当识别系统认定该请求用户为非法用户时，系统将直接拒绝该用户，不需进入回放语音检测模块；只有当说话人识别系统判决结果为合法用户时，才会进入回放语音检测模块，此时如果请求语音被判为原始语音，则系统最终接受该请求用户，否则将拒绝此次请求。

将未加载回放语音检测模块的识别系统与本发明使用的识别系统作对比试验。根据上述实验结果，我们最终选择64KBPS码率下的特征集作为最终检测特征。将来自三种偷录设备的回放语音与原始语音在识别系统上测试，在未加载回放语音检测模块时，其等错误概率为40%，而在加载了回放语音检测模块后，其等错误概率下降到8%，如图5所示。这表明本发明中检测算法对于回放语音攻击GMM-UBM说话人识别系统有较好的抵抗效果。

本发明主要是针对说话人识别系统中存在回放语音攻击的安全性问题，提出了一种基于长窗比例因子的回放语音检测算法。实验结果表明，本算法能够有效区分原始语音和回放语音，在64kbps码率、使用特征集的情况下，对于来自Iphone6、小米4、索尼PX440的回放语音检测率分别达到94.67%、98.96%、97.33%；本发明同时尝试了针对来自几种偷录设备的回放语音的检测，并获得了较好的效果，其中在64kbps、80kbps、256kbps码率下其检测较好，达到了96.67%以上；在加载了本算法后，GMM-UBM认证系统的抗回放语音攻击能力提高了32%。

Claims

1.一种基于长窗比例因子的回放语音攻击检测算法，其特征在于该回放语音攻击检测算法包括如下步骤：

设为比例因子，有

其中，

表示为第i帧，第j个比例因子带上对应的比例因子；

表示为第j个比例因子带上比例因子时间上的统计平均；

通过以上步骤初步得到21维特征集；

2.根据权利要求1所述的一种基于长窗比例因子的回放语音攻击检测算法，其特征在于所述的MP3编码的码率为7种，分别为64kbps、80kbps、96kbps、128kbps、160kbps、192kbps和256kbps。

3.根据权利要求1所述的一种基于长窗比例因子的回放语音攻击检测算法，其特征在于所述的采集设备为录音笔索尼TX650，采样率为44.1K，编码位数是16位，距离参与者约10cm进行录制；所述的偷录设备分别是iPhone6、小米4、索尼PX440，距离参与者约70cm进行录制；所述的回放音响为飞利浦音响DTM3155，距离采集设备约10cm。