CN113488074A

CN113488074A - 一种音频信号的长时变q时频转换算法及其应用

Info

Publication number: CN113488074A
Application number: CN202110961351.9A
Authority: CN
Inventors: 何沛松; 李佳龙; 王宏霞
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-10-08
Anticipated expiration: 2041-08-20
Also published as: CN113488074B

Abstract

本发明公开了一种音频信号的长时变Q时频转换算法(L‑VQT)及其应用。L‑VQT包括步骤：设置呈幂函数变化的频率分布；预设最大时域窗口长度，得到最小频带宽度；如果存在一个以上频带宽度小于最小频带宽度，则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和Q因子；计算每个频率对应的时域窗口长度；计算每个频率对应的频域信号。L‑VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系，通过设置不同的幂函数指数获取充分高频信息。应用于合成语音检测时，在低频通过长时窗口来捕获合成语音痕迹，并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹，为合成语音检测提供了有效的方法。

Description

一种音频信号的长时变Q时频转换算法及其应用

技术领域

本发明涉及音频信号处理技术领域，特别是一种音频信号的长时变Q时频转换算法及其应用。

背景技术

音频信号能表示和传达丰富的信息，对音频信号进行分析需要通过时频转换算法转换为频域信号，从频域信号中得到各种频谱幅度及相位特征。传统的时频转换算法包括傅里叶变换(DFT)和恒Q变换(CQT)。DFT通常采用短时窗口，无法捕获音频信号在时域的长时依赖关系，同时恒定的频带宽度和线性变化的频率分布无法准确表示某些音频信号特性，例如音乐信号等。另一方面，CQT的频率呈指数分布，符合西方音阶频率变化，但是指数分布的频率导致频域信息中高频部分信息占比很少，无法充分满足对高频信息的需要，例如合成语音检测等。

语音信号被广泛使用在身份认证，例如自动说话人识别系统。随着语音转换(Voice Conversion，VC)和文本语音转换(Text-To-Speech，TTS)技术的发展，合成语音的质量越来越高，很容易欺骗现有的说话人识别系统。因此，合成语音检测成为信息安全领域多媒体取证技术的一个急需解决的问题。合成语音算法可以分为拼接合成语音和统计参数合成语音，拼接合成语音会在语音拼接处留下特有痕迹，这种痕迹需要捕获语音的长时依赖关系来提取，同时统计参数合成语音会在语音的高频部分留下特有痕迹。现有的合成语音检测特征包括基于DFT和基于CQT的频谱相位以及倒谱特征，然而DFT采用短时窗口，无法捕获合成语音在时域留下的长时依赖痕迹；CQT的频率呈指数分布，高频占比很少，无法充分捕获合成语音在高频的特有痕迹。因此，现有的时频转换算法无法充分提取合成语音的共性痕迹来进行通用检测。

发明内容

本发明的目的是提供一种音频信号的长时变Q时频转换算法(Long-termvariable Qtransform，L-VQT)及其应用。

实现本发明目的的技术方案如下：

一种音频信号的长时变Q时频转换算法，包括：

步骤1，预设音频信号的频率总个数K和幂函数的指数β，设置呈幂函数变化的频率分布：

f_k＝αk^β，k＝0,1,…,K-1；

其中，f_k表示第k个频率；

计算幂函数的系数：

F_Nq是奈奎斯特频率；

计算每个频率的频带宽度：

计算每个频率的Q因子：

步骤2，预设最大时域窗口长度N_max，得到最小频带宽度

其中，f_s表示音频信号的采样频率；

如果存在一个以上频带宽度小于最小频带宽度

则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和每个频率的Q因子：

步骤3，计算每个频率对应的时域窗口长度：

其中，

表示向上取整；

步骤4，计算每个频率对应的频域信号：

其中，x(n)表示所述音频信号的时域信号；w(n，k)表示窗函数，其长度等于N(k)；[·]表示四舍五入取整。

进一步的技术方案，所述幂函数的指数β设为1.15、1.25、1.5、2、3、4或5。

进一步的技术方案，所述窗函数为汉宁窗、海明窗或blackman窗。

一种音频信号的长时变Q时频转换算法的应用，包括步骤：

将合成语音分帧得到L帧；

将每帧信号通过所述音频信号的长时变Q时频转换算法，得到K个频域信号X(k)；

对每个频域信号进行取模平方得到频谱，再进行对数运算，提取一维对数频谱特征

将所有帧的一维对数频谱特征拼接，得到二维时频特征

用于检测合成语音。

相对于现有技术，本发明的有益效果在于，

1.L-VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系，通过设置不同的幂函数指数获取充分高频信息。

2.L-VQT应用于合成语音检测时，在低频通过长时窗口来捕获合成语音痕迹，并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹，为合成语音检测提供了有效的方法。

附图说明

图1是L-VQT的流程图。

图2是L-VQT设置不同幂函数得到的频率分布对比图。

图3是L-VQT设置不同幂函数得到的频带宽度对比图。

图4是L-VQT设置不同幂函数得到的Q因子对比图。

图5是L-VQT设置不同幂函数得到的时域窗口长度对比图。

图6是L-VQT应用于合成语音检测的流程图。

具体实施方式

下面结合附图和具体实施例，对本发明进一步说明。

如图1所示，本发明L-VQT具体包括如下步骤：

S1：设置呈幂函数变化的频率分布，具体表示为：f_k＝αk^β，k＝0，1，...，K-1，其中f_k表示第k个频率，k表示频率的索引，K表示频率总个数，α是幂函数的系数，β表示幂函数的指数，通过设置不同的幂函数指数可以得到不同的频率分布。

S2：预先设置K，β值，根据已知的音频信号采样频率计算出奈奎斯特频率F_Nq，奈奎斯特频率为音频信号采样频率的一半。当k＝K时，频率分布中f_k所能表示的最大频率即为奈奎斯特频率，具体表示为：f_K＝αK^β＝F_Nq。计算系数

计算S1设置的频率分布：f_k＝αk^β，k＝0，1，…，K-1；计算频带宽度：

Q因子：

S3：如果存在一个或多个频带宽度小于设置的最小频带宽度

需要重新计算频率分布。其中

f_s表示音频信号采样频率，N_max表示已知的最大时域窗口长度；新的频率分布表示为

重新计算幂函数系数α：

重新计算频带宽度和Q因子过程如S2所述。

S4：根据得到的频率值、频带宽度、Q因子计算出每个频率对应的时域窗口长度：

其中f_s表示音频信号采样频率，

表示向上取整操作。

S5：进一步得到频域信号，具体表示为：

其中；x(n)表示语音的时域信号，w(n，k)表示窗函数，其长度等于N(k)，[·]表示四舍五入取整操作。

上述L-VQT的实施例，如图2-图5所示，图中还对比了DFT和CQT。

K设为256，β分别设为1.15、1.25、1.5、2、3、4和5，对应的L-VQT分别表示为：L-VQT-1.15、L-VQT-1.25、L-VQT-1.5、Typical-L-VQT(β＝2)、L-VQT-3、L-VQT-4和L-VQT-5。音频信号采样频率为16KHz，奈奎斯特频率为采样频率的一半8KHz，从而计算出对应的系数α、频率分布、频带宽度和Q因子。

设置最大的时域窗口长度为8000个采样点，即采样频率为16KHz的半秒语音数据，从而计算得到最小的频带宽度为2Hz。当幂函数指数为2、3、4、5时，根据S2得到的频带宽度

中

远小于最小频带宽度

因此根据S3所述公式重新计算系数、频率分布、频带宽度和Q因子。

实施例中采用的窗函数为汉宁窗(hanning)，也可以采用其它窗函数。例如海明窗(hamming)，blackman窗等等。因为每个频域信号对应的窗口大小不一致，所以对频谱信号用窗口长度进行归一化来消除这种差异。

将L-VQT应用于合成语音检测，如图6所示。

将语音分帧，设为L帧，每帧信号即为待分析语音的时域信号x(n)。通过L-VQT得到频域信号，再对得到的频域信号分别进行取模平方得到频谱，再进行对数运算，提取得到一维的对数频谱信号

将所有帧的对数频谱特征在频率方向保持一致(均为K维)，沿语音帧序号增大的方向(L维)拼接得到二维的时频特征

用于检测合成语音。

合成语音检测的实施例为：采样频率为16KHz的语音时长为4秒，即包含64000个采样点。帧长为计算出的最大时域窗口，帧移设为256个采样点。每条语音包含251帧，每帧信号和所有窗口N(k)中心保持一致。每帧经过长时变Q时频转换算法，得到一维对数频谱特征，包含256个频谱信号。所有帧拼接得到二维时频特征，维度为256x251，将其作为分类器Densely Connected Convolutional Network(DenseNet)的输入进行训练测试。也可以采用其他分类器，例如ResNet、VGG等等。

本实施例采用Automatic Speaker Verification Spoofing andCountermeasures Challenge(ASVspoof2019)竞赛公开数据集logical access(LA)部分进行训练测试。LA包含训练集，开发集和验证集三部分，分别包括25380、24844、71237条语音，其中验证集中包含13种合成语音方法来验证本实施例的检测泛化性。

采用等错率(Equal Error Rate，EER，％)作为评价指标，7种幂函数取值的L-VQT和DFT、CQT对应的检测结果如下表所示：

从表中可以看到，相比于DFT和CQT，L-VQT可以获得更良好的检测结果，即更低的等错率。当幂函数指数为2，由于充分考虑了长时窗口和高频信息两项因素，显著提升了合成语音的检测性能。

除此之外，L-VQT还可以用于检测语音重放攻击等信息安全领域的多媒体取证应用。