CN106531172B

CN106531172B - 基于环境噪声变化检测的说话人语音回放鉴别方法及系统

Info

Publication number: CN106531172B
Application number: CN201611062202.4A
Authority: CN
Inventors: 张帆; 张良
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2019-06-14
Anticipated expiration: 2036-11-23
Also published as: CN106531172A

Abstract

本发明涉及一种说话人语音回放鉴别方法及系统，属于，具体涉及一种基于环境噪声变化检测的说话人语音回放鉴别方法及系统。本发明通过对待检测语音前后环境噪声的变化，检测是否因为录音设备的播放而引入了新的噪声(包括由播放设备信道特征引入的噪声)，从而判断是否为录音回放，使得可以再不依赖特定文本的语音检测中，实现ASV系统的录音回放攻击检测，可以防止ASV系统因录音回放攻击而引起的安全隐患，完善声纹认证的安全保障；同时由于是对播放设备的检测，因此对于语音合成入侵和语音转换入侵的检测，也具有辅助作用。

Description

基于环境噪声变化检测的说话人语音回放鉴别方法及系统

技术领域

本发明涉及一种说话人语音回放鉴别方法及系统，属于，具体涉及一种基于环境噪声变化检测的说话人语音回放鉴别方法及系统。

背景技术

随着语音信号处理技术的不断发展，利用说话人语音信号的特征进行身份认证的系统在诸多行业得到了广泛的应用。然而，尽管说话人认证(Automatic SpeakerVerification,ASV)系统已可在诸如门禁系统、金融证券、网络购物、电子银行、手机认证等领域得到应用，该系统的可靠性仍然存在较大的安全隐患。主要的人造威胁来自于入侵者利用技术手段，冒充目标说话人语音来“欺骗”ASV系统，通过认证。近些年来，如何有效检测、识别非认证语音信号，保证ASV系统的健壮性与稳定性，已逐步引起人们的广泛重视。有文献研究表明，基于说话人的语音入侵方式可以归纳为四大类：语音模仿、语音回放、语音合成和语音转换。其中，语音回放入侵通过高保真录放设备，采集认证用户的语音信息，通过回放的方式“欺骗”ASV系统，假冒认证用户，实现入侵。有研究表明，相比其它三大类入侵方式，语音回放入侵的实现方式更为简单，任何人无需语音信号处理相关的知识即可实现，是对ASV系统最大的威胁之一。

据可查阅的文献资料显示，近几年来国内外已有较多的研究人员从事说话人录音回放检测相关的研究工作，具有代表性的检测方法包括：(1)相似性检测法；(2)远场录音检测法；(3)信道特征分析法；(4)多模态检测法。其中方法(1)需要ASV系统已保存真实认证用户特定文本的语音；方法(2)需假定录音设备采集用户语音的位置较远，适用性受到制约；方法(3)对于录音设备信道特征的提取要求精度非常高，鲁棒性较差；方法(4)结合人脸识别、唇动识别等方式，实现及部署的成本较高，也并未从语音信号处理本身实现录音回放检测。

因此，如何设计并实现一种有着广泛适用性、与语音文本无关、鲁棒性强、部署简单的说话人录音回放鉴别方法和系统，具有较强的现实意义与应用价值。

发明内容

本发明主要是解决现有技术所存在的上述技术问题，提供了一种基于环境噪声变化检测的说话人语音回放鉴别方法及系统。该方法主系统基于在录音播放前后环境噪声变化，进而检测是否为录音回放，能够用于鉴别是否为真实身份的认证用户的语音，从而解决现有ASV系统中说话人录音回放入侵检测方法鲁棒性差、文本依赖性强等缺点，为ASV系统更加广泛的应用于推广提供技术支撑。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于环境噪声变化检测的说话人录音回放鉴别方法，包括：

背景噪声特征提取步骤，用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值；

静音段特征提取步骤，用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征值作为待测信号静音段特征值；

语音回放判断步骤，用于将背景噪声能量特征值与待测信号静音段特征值进行比较，若两者特征变化超过阈值，则判断为录音回放。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，所述背景噪声特征提取步骤中，基于以下步骤计算背景环境噪声段终止时间：

(1)对于说话人开始发声点T_v处，前移一小段时间至t时刻，计算t-△t到t+△t之间的平均强度P_t；

(2)然后选择一步幅s，计算t-s-△t到t-s+△t的平均强度P_t-s，比较P_t和P_t-s的差的绝对值是否小于预先给定的阈值；

(3)若P_t和P_t-s之间差的绝对值大于阈值，则表明临界点在t-s和t之间，即可以t-s为背景环境噪声临界点的终止时刻；

(4)若P_t和P_t-s之间差的绝对值小于阈值，则表明从t-s到t时间段内，噪声强度没有发生明显变化，即表征没有找到临界点或临界点不存在，则继续以步幅s从t-s开始向前移动，重复步骤(2)；

(5)若进过ns步后，仍未找到临界点，则表明在t-ns到t时间段内，环境噪声无明显变化，则以P_t表示背景噪声强度，其中n为经验系数，预先设定。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，所述静音段特征提取步骤中，静音段划分采用临界平均能量阈值的方式，通过对整段待测语音信号平均能量的计算，同时加入调整系数，来判断某语音帧是否处于静音段。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，所述静音段特征提取步骤中，将原始语音段减去经维纳斯滤波后的语音得到的噪声部分作为无说话人语音的静音段。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，所述语音回放判断步骤中，若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值，则判断两者具有相同的噪声源，即判定待测语音为真实说话人语音；若背景噪声强度和猜测语音噪声强度的绝对值大于阈值，则采用自适应滤波和谱减法结合的方式再次提取无说话人语音的静音段；然后比较分析背景噪声强度和待测语音噪声强度。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，还包括：

阈值调整步骤，用于采用时序阈值优化和/或监督学习阈值法对语音回放判断步骤中的阈值进行调整；其中，时序阈值优化基于检测时所处的时段调整阈值选取方案；监督学习阈值优化通过人工设定样本，经过多次重复测试及结果反馈，更新阈值大小。

一种基于环境噪声变化检测的说话人录音回放鉴别装置，包括：

背景噪声特征提取模块，用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值；

静音段特征提取模块，用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征作为待测信号静音段特征值；

语音回放判断模块，用于将背景噪声能量特征值与待测信号静音段特征值进行比较，若两者特征变化超过阈值，则判断为录音回放。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别模块，所述静音段特征提取模块中，静音段划分采用临界平均能量阈值的方式，通过对整段待测语音信号平均能量的计算，同时加入调整系数，来判断某语音帧是否处于静音段。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别模块，所述静音段特征提取模块中，将原始语音段减去维纳斯滤波后的语音后得到的噪声部分作为无说话人语音的静音段。

优化的，上述的一种基于环境噪声变化检测的说话人录音回放鉴别模块，所述语音回放判断模块中，若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值，则判断两者具有相同的噪声源，即判定待测语音为真实说话人语音；若背景噪声强度和猜测语音噪声强度的绝对值大于阈值，则采用自适应滤波和谱减法结合的方式提取无说话人语音的静音段；再次比较分析背景噪声强度和待测语音噪声强度。

因此，本发明通过对待检测语音前后环境噪声的变化，检测是否因为录音设备的播放而引入了新的噪声(包括由播放设备信道特征引入的噪声)，从而判断是否为录音回放，使得可以再不依赖特定文本的语音检测中，实现ASV系统的录音回放攻击检测，可以防止ASV系统因录音回放攻击而引起的安全隐患，完善声纹认证的安全保障；同时由于是对播放设备的检测，因此对于语音合成入侵和语音转换入侵的检测，也具有辅助作用

附图说明

图1是本发明实施例提供的一种基于环境噪声变化检测的说话人录音回放鉴别方法的流程图；

图2是本发明实施例提供的一种基于环境噪声变化检测的说话人录音回放鉴别系统的结构框图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本发明实施例中，通过高保真的音频采集设备实现说话人语音设备的采集，语音信号的处理以软件的方式实现。

如图1所示：在本发明实施例的基于环境噪声变化检测的说话人录音回放鉴别方法，其包括如下步骤：

S1、背景环境语音信号预处理，此步骤实现对待检测语音信号输入前的语音信号测量及预处理。首先通过预设值，选取待测语音信号前一定时间前的一段语音信号(环境噪声)，通过滤波消除信号中的突变信号；接着提取滤波后信号的功率谱特征；

S2、待测语音信号静音段划分，此步骤实现对待检测语音信号静音段的时序划分。静音段划分采用临界平均能量阈值的方式，通过对整段待测语音信号平均能量的计算；同时加入调整系数，来判断某语音帧是否处于静音段；

S3、待测语音信号静音段特征提取，此步骤实现对待测语音播放期间，噪声特征的提取。首先将S2步骤标识出的处于静音段所有语音帧用于计算，对每个语音帧提取功率谱特征值，对所有语音帧的功率谱特征值求平均，用于标识待测语音存续期间噪声的能量特征；

S4、背景环境噪声信号特征与待测信号静音段特征比较分析，此步骤将S3步骤提取的特征与S1步骤提取的功率谱特征比较，若两者特征值有明显变化，超过阈值，则判断为引入了新的噪声源，为录音回放；

S5、调整阈值完成说话人语音的录音回放检测，此步骤实现对S4步骤中所述阈值的动态调整，优化检测精度。通过定期输入先验样本，来实现对阈值的定期调整，增加对不同使用环境的适应性。

如图2所示：本发明实施例提供的一种基于环境噪声变化检测的说话人录音回放鉴别系统，其包括：

背景噪声特征提取模块具体包括背景环境语音信号滤波模块10和背景环境语音信号特征提取模块20。

背景环境语音信号滤波模块10用于对环境背景噪声的预处理，消除突变信号，保证背景环境噪声在检测前后的一段时间内平稳。背景噪声信号预处理主要采用滤波的方式，消除突变语音信号对检测过程的影响，如打雷、敲门等声音信号。需要截取一段时间的语音信号，这段语音信号应稍长于模块20所需提取的背景环境语音范围，在实际操作中可由经验值确定。背景环境语音信号特征提取模块20提取能够表征噪声某方面性质的特征值，如将噪声强度作为特征标识。对于待测信号出现前多长时间判断为背景噪声的特征，即待测信号输入时的临界点判断(若为录音回放，则为播放设备开启的时刻)，将采用逐步逼近的方式近似求得。

其中，对于表征噪声性质的特征值，本实施例选用噪声强度作为标识。

对于背景环境噪声的特征的提取，关键步骤之一在于对平稳噪声段的选取。由于涉及到后续待测语音信号，因此需要判断背景噪声和待测语音信号的介入引入的新的噪声，两者之间的临界点即为背景环境噪声段终止时间。待测语音信号可为真实说话人声音，也可能是录音回放。对于真实说话人声音，临界点为说话人发声开始的瞬间；对于录音回放，由于录音中前段可能为无声段，因此不能以说话人的声音出现作为临界点判断标准。本实施例采用逐步逼近的方式求得临界点，具体实施方法为：

(1)对于说话人开始发声点T_v处，前移一小段时间至t时刻，计算t-△t到t+△t之间的平均强度P_t，其中，△t为预先设定的时间变化量，可根据使用环境与需求人工设定；

静音段特征提取模块具体为图2中的待测语音静音段信号处理模块30，用于对整段待测语音信号静音段的语音帧识别与提取功率谱特征，将静音段的信号看作噪声，则测得的噪声强度，若为录音回放，则包括背景噪声强度和回放设备中新引入的噪声强度，求得整个待测语音静音段的平均噪声强度，以标识待测语音检测时的噪声特征。

语音静音段信号提取首先采用经典的维纳斯滤波，将原始语音段去噪滤波后的予以保存，然后将原始语音段减去维纳斯滤波后的语音，即可得到维纳斯滤波滤掉的噪声部分，提取的噪声即可表征无说话人语音的静音段的语音信号。

由于通常情况下，带检测语音存续期间，语音信号的信噪比比较大，因此可对静音段语音信号做语音增强处理，确保提取的静音段噪声信号尽可能的精确。

对于有明显语音间隔的待测语音信号，可通过端点检测的方式，在时序上分割待检测语音的静音段部分，从而可以直接测得静音段的噪声信号。

对提取后的静音段噪声信号，同样通过求得每帧语音的强度，通过线性平均得到待测语音信号的平均噪声强度，以表征噪声的声学特征。

对于噪声信号强度，亦可选择提取其它语音特征，通过建立分析模型，联动多个特征参数，综合描述信号的特征。可选地特征包括Me l倒频系数、频谱包络等等。

语音回放判断模块具体为图2中的特征分析与比较功能模块40，用于分析20模块提取的噪声强度特征和30提取的噪声强度特征之间的差异性，通过阈值来分类两种噪声，鉴别是否为录音回放。

对于以噪声强度表征噪声特征的本实施例中，将直接比较两者的大小。若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值，则判断两者具有相同的噪声源，即判定待测语音为真实说话人语音；若背景噪声强度和猜测语音噪声强度的绝对值大于阈值，则需进行二次判断。二次判断的方法为：重复30模块的主体功能，对待测语音段噪声信号强度重新提取，提取过程将采用自适应滤波和谱减法结合的方式，代替之前的维纳斯滤波，最终提取待测语音段噪声信号强度，进而再次与背景环境噪声强度比较判断。

根据不同的使用环境和使用需求，可和模块30一样，选择提取其它语音特征来比较分析。特别的，对于判断为录音回放时，同样需要换用其它滤波方式，再次提取待测语音段噪声信号强度，重新分析比较。

检测优化模块50，用于动态的优化40模块中的阈值，从统计上，背景环境噪声的变化在长时间内曾周期性变化，因此可根据不同时段内使用多组不同阈值；同时，通过周期性的输入先验样本，实现阈值定期的优化。

本实施例还包括阈值调整模块，其具体为附图2中的检测优化模块50，主要实现模块40中阈值的优化选取与动态更新，实施方式分为两部分：时序阈值优化和监督学习阈值优化。

时序阈值优化，主要考虑背景环境噪声在时序上的不同时间段具有不同的声学特征，因此需要更具所处时段，优化选择该时段使测试结果最为准确的阈值选取方案。例如若白天的背景环境噪声大于傍晚的噪声，则对噪声提取的精度要求更高，对于阈值的选取可适当增大。

阈值的选取还应和具体的需求相关。根据使用需求的优先级，微调阈值的大小，如FRR(False Rejection Rate)优先，或是FAR(False Acceptance Rate)优先。

监督学习阈值优化，用于长时的阈值更新。当背景环境噪声长时间发生稳定变化时，需要重新校准阈值，可通过监督学习的方式，人工设定样本，通过多次重复测试及结果反馈，更新阈值大小。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应超过本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

可以理解的是，对于本领域的普通技术人员来说，可以根据本发明的技术构思做出其它各种相应的改变与变形，而所有这些改变与变形都应属于本发明权利要求的保护范围。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于环境噪声变化检测的说话人录音回放鉴别方法，其特征在于，包括：

语音回放判断步骤，用于将背景噪声能量特征值与待测信号静音段特征值进行比较，若两者特征变化超过阈值，则判断为录音回放；

其中，所述背景噪声特征提取步骤中，基于以下步骤计算背景环境噪声段终止时间：

(1)对于说话人开始发声点T_v处，前移一小段时间至t时刻，计算t-△t到t+△t之间的平均强度P_t,其中，△t为为预先设定的时间变化量，可根据使用环境与需求人工设定；

2.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，其特征在于，所述静音段特征提取步骤中，静音段划分采用临界平均能量阈值的方式，通过对整段待测语音信号平均能量的计算，同时加入调整系数，来判断某语音帧是否处于静音段。

3.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，其特征在于，所述静音段特征提取步骤中，将原始语音段减去经维纳斯滤波后的语音得到的噪声部分作为无说话人语音的静音段。

4.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，其特征在于，所述语音回放判断步骤中，若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值，则判断两者具有相同的噪声源，即判定待测语音为真实说话人语音；若背景噪声强度和待测语音噪声强度的绝对值大于阈值，则采用自适应滤波和谱减法结合的方式再次提取无说话人语音的静音段；然后比较分析背景噪声强度和待测语音噪声强度。

5.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法，其特征在于，还包括：

6.一种基于环境噪声变化检测的说话人录音回放鉴别装置，其特征在于，包括：

语音回放判断模块，用于将背景噪声能量特征值与待测信号静音段特征值进行比较，若两者特征变化超过阈值，则判断为录音回放；

其中，所述背景噪声特征提取模块基于以下步骤计算背景环境噪声段终止时间：

7.根据权利要求6所述的一种基于环境噪声变化检测的说话人录音回放鉴别装置，其特征在于，所述静音段特征提取模块中，静音段划分采用临界平均能量阈值的方式，通过对整段待测语音信号平均能量的计算，同时加入调整系数，来判断某语音帧是否处于静音段。

8.根据权利要求6所述的一种基于环境噪声变化检测的说话人录音回放鉴别装置，其特征在于，所述静音段特征提取模块中，将原始语音段减去维纳斯滤波后的语音后得到的噪声部分作为无说话人语音的静音段。

9.根据权利要求6所述的一种基于环境噪声变化检测的说话人录音回放鉴别装置，其特征在于，所述语音回放判断模块中，若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值，则判断两者具有相同的噪声源，即判定待测语音为真实说话人语音；若背景噪声强度和待测语音噪声强度的绝对值大于阈值，则采用自适应滤波和谱减法结合的方式提取无说话人语音的静音段；再次比较分析背景噪声强度和待测语音噪声强度。