CN117153190A

CN117153190A - 基于注意力机制组合特征的回放语音检测方法

Info

Publication number: CN117153190A
Application number: CN202311407004.7A
Authority: CN
Inventors: 杨继臣; 陈政廷; 王春安
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2023-12-01
Anticipated expiration: 2043-10-27
Also published as: CN117153190B

Abstract

本发明公开了一种基于注意力机制组合特征的回放语音检测方法，采用恒Q变换模块将原始语音信号从时域变换到频域；计算语音信号的倍频程域功率谱值；对倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS；通过统一重采样，将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS；分别对OLPS和LLPS的特征维度进行离散余弦变换，得到特征恒Q系数CQC和恒Q倒谱系数CQCC；将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接，形成延拓的恒Q倒谱系数‑倍频程域对数功率谱特征eCQCC‑OLPS，对eCQCC‑OLPS进行注意力加权，送入残差网络用于回放语音检测。本发明中经过注意力加权后的eCQCC‑OLPS的每个维数得到合适的权重，能够去除冗余，提高了回放语音的检测精度。

Description

基于注意力机制组合特征的回放语音检测方法

技术领域

本发明涉及回放语音检测技术领域，更具体的，涉及一种基于注意力机制eCQCC-OLPS组合特征的回放语音检测方法。

背景技术

随着语音处理技术的飞速发展，出现了合成转换、音高调整以及录音回放等声纹伪造攻击手段，对基于声纹的身份认证系统构成了严重威胁。其中，录音回放攻击作为一种简便且易实施的手段，攻击者通过隐蔽的录音设备对目标说话者的语音进行偷录，然后使用这些偷录的语音来欺骗声纹认证系统。这种攻击方式不需要对录音进行额外的修改，从而避免了留下操作痕迹的风险，同时，回放的语音与原始语音高度相似，因此现有的声纹认证系统通常无法准确辨别二者之间的差异。这一问题对声纹认证系统构成了重大挑战。合成语音的生成过程中常常伴随着细微的非自然特征，这些特征需要被准确地捕捉和分析。另一方面，重放语音检测的目标是分辨真实语音和重放语音之间的设备和环境差异。在重放语音生成过程中，环境因素以及录音和重放设备的特性都会在信号中留下痕迹，这些痕迹可用于检测欺骗攻击。

为了应对欺骗攻击，研究人员提出了多种对策，其中一些基于前端特征提取方法，如声纹特征和语音质量指标，而另一些则基于后端分类器，如深度学习模型。特征工程在欺骗语音检测中具有关键地位，因为它们有助于提取语音信号中的关键信息，为分类器提供可区分欺骗语音和自然语音的有效特征。然而，欺骗攻击检测任务的挑战性在于，欺骗者不断采用新的方法来模拟自然语音，因此需要不断改进和优化检测方法。

综上所述，现有的欺骗攻击检测方法在面临文本相关性、计算资源需求以及多种录音回放设备和不同环境下的适应性等方面存在挑战。鉴于电子设备的不断进步和多样化，开发高准确性、强韧性和高效性的欺骗语音检测方法变得至关重要，以确保声纹认证系统在实际应用中的安全性和可靠性。

发明内容

为了解决上述技术问题，本发明提出了一种基于注意力机制组合特征的回放语音检测方法。

本发明提供了基于注意力机制组合特征的回放语音检测方法，包括：

步骤S1：采用恒Q变换模块将原始语音信号从时域变换到频域；

步骤S2：在恒Q变换基础上，计算语音信号的倍频程域功率谱值OPS；

步骤S3：对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS；

步骤S4：通过统一重采样，将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS；

步骤S5：分别对OLPS和LLPS的特征维度进行离散余弦变换，去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC；

步骤S6：将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来，形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS；

步骤S7：对所述eCQCC-OLPS进行注意力加权；

步骤S8：将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测。

本方案中，获取原始语音信号x(n)，利用恒Q变换将所述原始语音信号从时域变换到频域，得到恒Q变换后的信号，实现过程定义为：

；

其中,为频域索引，n为时间指数，/>的取值为/>，/>为可变窗长，/>表示/>的复共轭，/>为虚数单位；

的基本函数是复值时频原子，定义为；

；

其中，为/>频段的中心频率，/>为采样率，/>为窗函数，/>为相位偏移，/>为缩放因子，所述缩放因子C的计算公式为:

；

此外，第k个频段的中心频率服从以下规则:，其中，/>为最低频段的中心频率，B为每个倍频程域的仓数；

第k个频段的频率区域带宽的计算为：

；

根据上述公式表明，每个频段对应恒Q变换中不同的频率范围，随着k的增加，带宽也会增加。

本方案中，获取倍频程域对数功率谱特征OLPS，利用统一重采样将OLPS转换为LLPS，对于，其倍频程域对数功率谱为/>，其中/>表示对数运算；

所述的线性域对数功率谱为/>，/>代表线性频率频段。

本方案中，离散余弦变换DCT去除维数之间的相关性并使能量集中，对和/>进行离散余弦变换后，得到的系数为：

；

其中，和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数；和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数；z为正整数，范围为1到Z-1，其中Z是作为特征维度选择的系数个数；/>和/>分别是/>和的维数；此外，/>代表线性频率频段，/>=1,2,…,/>。

本方案中，将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来，eCQCC-OLPS特征组合方式具体为：

；

其中，和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数；和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数，/>为的倍频程域对数功率谱。

本发明公开了一种基于注意力机制组合特征的回放语音检测方法，采用恒Q变换模块将原始语音信号从时域变换到频域；计算语音信号的倍频程域功率谱值；对倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS；通过统一重采样，将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS；分别对OLPS和LLPS的特征维度进行离散余弦变换，得到特征恒Q系数CQC和恒Q倒谱系数CQCC；将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接，形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS，对eCQCC-OLPS进行注意力加权，送入残差网络用于回放语音检测。本发明中经过注意力加权后的eCQCC-OLPS的每个维数得到合适的权重，能够去除冗余，提取语音信号中的关键信息，为分类器提供可区分欺骗语音和自然语音的有效特征，提高了回放语音的检测精度。

附图说明

为了更清楚地说明本发明实施例或示例性中的技术方案，下面将对实施例或示例性描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以按照这些附图示出的获得其他的附图。

图1示出了本发明使用组合特征eCQCC-OLPS的注意力机制的方法流程图；

图2示出了本发明提取组合特征eCQCC-OLPS的示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1为本发明一实施例提供的一种基于注意力机制组合特征的回放语音检测方法流程图；

如图1所示，本发明提供了一种基于注意力机制组合特征的回放语音检测方法流程图，包括：

步骤S7：对所述eCQCC-OLPS进行注意力加权；

需要说明的是，获取原始语音信号x(n)，利用恒Q变换将所述原始语音信号从时域变换到频域，得到恒Q变换后的信号，对于离散时域信号x(n)其恒Q变换实现过程定义为：

；

其中,为频域索引，n为时间指数，/>的取值为/>,/>为可变窗长，/>表示/>的复共轭，/>为虚数单位；

的基本函数是复值时频原子，定义为；

；

其中，为/>频段的中心频率，/>为采样率，/>为窗函数(如汉宁窗)，/>为相位偏移，/>为缩放因子，所述缩放因子C的计算公式为:

；

第k个频段的频率区域带宽的计算为：

；

根据上述公式表明，每个频段对应恒Q变换中不同的频率范围，随着k的增加，带宽也会增加。与离散傅里叶变换DFT不同，在DFT中，所有频带都具有相同的带宽。就此我们得到了倍频程域对数功率谱特征(OLPS)，接下来在其上利用统一重采样将OLPS转换为线性域对数功率谱特征(LLPS)。

需要说明的是，获取倍频程域对数功率谱特征OLPS，利用统一重采样将OLPS转换为LLPS，对于，其倍频程域对数功率谱为/>，其中/>表示对数运算；

所述的线性域对数功率谱为/>，/>代表线性频率频段，在此基础上应用离散余弦变换DCT，离散余弦变换DCT去除维数之间的相关性并使能量集中，对/>和/>进行离散余弦变换后，得到的系数为：

；

需要说明的是，如图2所示，将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来，eCQCC-OLPS特征组合方式具体为：

；

通过优选实施例说明本方法的可行性和有效性：

数据库：ASVspoof2017语料库是在26个不同环境中使用26台播放设备和25台录音设备收集的。该数据库由三个子集构成：训练集、验证集和测试集，采用ASVspoof2017语料库的改进版本，即ASVspoof2017-V2。表1详细列出了ASVspoof2017-V2的相关信息。所有语音信号均以16kHz的采样率进行录制。训练数据集提供了并行的训练条件，以训练重播设备特征提取器。具体而言，对于那些将欺骗语音作为神经网络输入的情况，从训练数据集中选择了1507对真实重播语音，用于训练神经网络参数；同时，对于将真实语音作为神经网络输入的情况，我们还从训练数据集中选择了额外的1507对真实语音用于神经网络参数的训练。本次实验采用等错误率(equalerrorrate，EER)作为评价指标，在我们的实验中，CQT的设备特征静态维数设置为923，以便在16kHz采样率下获得最佳等错误率(EER)性能。

表1：ASVspoof2017-V2的相关信息

实验参数设置：在CQT中，每个倍频程的分频数设置为96，倍频程数设置为9，采样周期设置为16，伽马值设置为3.3026。在扬声器识别和语音识别中，通常选择13和20作为特征静态维数(SDN)。此外，高维数(如30)可用于研究高阶系数是否包含额外的有用信息。

将所提供的方法与传统似然比检验语音检测方法进行效果对比，通过检测结果举例和检测准确率统计进一步说明所提供方法的有效性。

表2示：本实施例所提供方法与传统方法检测结果对比举例

从表2可以看出：使用组合特征eCQCC-OLPS和添加attention自注意力机制都使得回放语音检测的性能都得到了提升，充分验证了本文采用的一种基于注意力机制组合特征的回放语音检测方法具有极大的推广性。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于注意力机制组合特征的回放语音检测方法，其特征在于，包括以下步骤：

步骤S7：对所述eCQCC-OLPS进行注意力加权；

2.根据权利要求1所述的一种基于注意力机制组合特征的回放语音检测方法，其特征在于，获取原始语音信号x(n)，利用恒Q变换将所述原始语音信号从时域变换到频域，得到恒Q变换后的信号，实现过程定义为：

；

其中,为频域索引，n为时间指数，/>的取值为/>，/>为可变窗长，/>表示的复共轭，/>为虚数单位；

的基本函数是复值时频原子，定义为；

；

第k个频段的频率区域带宽的计算为：

；

3.根据权利要求2所述的一种基于注意力机制组合特征的回放语音检测方法，其特征在于，获取倍频程域对数功率谱特征OLPS，利用统一重采样将OLPS转换为LLPS，对于，其倍频程域对数功率谱为/>，其中/>表示对数运算；

所述的线性域对数功率谱为/>，/>代表线性频率频段。

4.根据权利要求3所述的一种基于注意力机制组合特征的回放语音检测方法，其特征在于，离散余弦变换DCT去除维数之间的相关性并使能量集中，对和进行离散余弦变换后，得到的系数为：

；

其中，和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数；/>和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数；z为正整数，范围为1到Z-1，其中Z是作为特征维度选择的系数个数；/>和/>分别是/>和/>的维数；此外，/>代表线性频率频段，/>=1,2,…,/>。

5.根据权利要求1所述的一种基于注意力机制组合特征的回放语音检测方法，其特征在于，将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来，eCQCC-OLPS特征组合方式具体为：

；

其中，和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数；/>和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数，/>为/>的倍频程域对数功率谱。