CN113555023A

CN113555023A - 一种语音鉴伪与说话人识别联合建模的方法

Info

Publication number: CN113555023A
Application number: CN202111098690.5A
Authority: CN
Inventors: 聂帅; 陶建华; 梁山; 易江燕; 傅睿博
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-10-26
Anticipated expiration: 2041-09-18
Also published as: CN113555023B

Abstract

本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统，其中方法包括：前端信号处理：把训练数据通过信号重采样统一到一个固定采样率，得到信号处理后的训练数据；特征提取：对信号处理后的训练数据的每帧信号提取Fbank特征；表示向量提取：通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列，再将片段序列输入可以识别说话人的深度学习网络，得到说话人片段表示向量，并构造帧级别说话人识别损失函数；语音鉴伪和说话人识别联合分类：定义片段级别说话人识别目标函数；定义语音鉴伪目标函数；联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

Description

一种语音鉴伪与说话人识别联合建模的方法

技术领域

本发明涉及语音处理技术领域，具体涉及一种语音鉴伪与说话人识别联合建模的方法。

背景技术

基于深度学习语音合成技术已经能够合成自然度非常高的人声，甚至能够非常精确地模仿特定人的语音。近年来，“深度伪造”技术利用深度学习，实现声音的篡改、伪造和自动生成，产生高度逼真且难以甄别的伪造音视频内容。本项发明采用多任务学习的方法可实现噪声和信道鲁棒的伪造音频检测，相比其他单任务的方法，准确率更高，具有很高的应用潜力。

传统的音频鉴伪技术多从形成方式与属性和信号等层面进行分析。通过提取和比较音频文件录制设备的品牌、型号、文件属性、命名规则，音频文件头等信息进行伪造检测；通过检测音频中出现的信号异常和信号丢失情况、频谱一致性量化分析、前背景噪声一致性、电路噪声等进行分析比较来进行音频伪造检测。然而，对于基于深度学习相关伪造音频，存在痕迹弱、精度高的特点，传统鉴伪技术无法进行有效检测。

目前，基于深度学习的音频鉴伪技术是有效方案之一，其基本思路是利用深度学习模型，比如VGG、light CNN、LSTM、TDNN等对片段音频的频谱特征进行学习，然后基于分类的准测进行判断。这种方案实施起来非常简单，在数据集上也具有非常显著的表现，但存在着泛化性能差的问题，当面对新的伪造类型，或者在伪造音频中加入环境噪声和硬件噪声时，其性能就会严重下降。这主要是因为语音信号中蕴含的差异非常微小，深度学习模型对音频片段进行建模，很有可能关注到的是背景噪声的区分性，而忽略了语音本身的特点。

现有技术缺点

现有的基于深度学习的音频鉴伪技术严重依赖于监督性的训练数据，在与训练数据类型相同、分布一致的场景下，性能表现得非常好，但对于新的伪造类型或应用场景，性能可能会急剧下降，存在泛化性差问题。此外，对于音频片段直接通过深度学习模型进行分类，由于缺乏有效的知识引导，深度学习模型对训练数据中所有成分不加区分性的进行拟合，可能学习到音频片段中的背景噪声或硬件噪声（真实录制的音频存在背景噪声和硬件噪声）或机器合成的声音可能不存在背景噪声和硬件噪声），而忽略了语音信号本身的区分性，造成鉴伪模型易被攻击的缺点，比如通过在伪造数据中加噪、或者重录、重压缩等手段。

发明内容

有鉴于此，本发明第一方面提供一种语音鉴伪与说话人识别联合建模的方法，包括：

前端信号处理：把训练数据通过信号重采样统一到一个固定采样率，然后进行单声道降噪降混响和频带能量均衡化处理，得到信号处理后的训练数据；

特征提取：对所述信号处理后的训练数据的每帧信号提取Fbank特征；

表示向量提取：通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列，再将所述片段序列输入识别说话人的深度学习网络，得到说话人片段表示向量，并构造帧级别说话人识别损失函数；

语音鉴伪和说话人识别联合分类：将所述说话人片段表示向量输入说话人识别网络，定义片段级别说话人识别目标函数；将所述说话人片段表示向量输入语音鉴伪网络，定义语音鉴伪目标函数；联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

在一些实施例中，所述提取Fbank特征的具体方法为：对所述信号处理后的训练数据进行分帧；再应用汉明窗对分帧后的训练数据进行加窗操作，然后对加窗后的每帧信号提取40维的Fbank特征。

在一些实施例中，所述将所述片段序列输入识别说话人的深度学习网络，得到说话人片段表示向量具体方法包括：

将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络，即TDNN_LSTM，得到TDNN_LSTM的最后一层的隐层输出，作为第一隐层输出；

再将所述第一隐层输出输入到两层深度学习网络，得到两层深度学习网络的最后一层的隐层输出，作为第二隐层输出；

应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数；

再应用所述每帧的注意力系数得到加权融合的权重，再将所述第一隐层输出进行加权融合得到说话人片段表示向量。

在一些实施例中，所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括：

其中，

h _t ^（s）表示第二隐层输出；

W _p ^T表示第二隐层输出的权重；

h _t表示第一隐层输出；

W ^T表示第一隐层输出的权重；

b表示偏差

e _t表示每帧的注意力系数；

σ(•)表示激活函数；

α _t表示加权融合的权重；

e _n表示说话人片段表示向量。

在一些实施例中，所述帧级别说话人识别损失函数的具体形式为：

其中，

表示识别说话人的深度学习网络对于第t帧语音信号的最大似然损失函数，即帧级别说话人识别损失函数；

表示第t帧语音信号属于说话人

的概率；

softmax(•)为归一化指数函数；

DNN(•)：两层深度学习网络；

TDNN_LSTM(•)：将时延神经网络与长短期记忆网络相结合的网络。

在一些实施例中，所述定义片段级别说话人识别目标函数的具体形式为：

其中，

表示片段级别说话人模型对于第n个片段序列的最大似然损失函数，即片段级别说话人识别目标函数；

表示第n个片段序列属于说话人

的概率。

在一些实施例中，所述定义语音鉴伪目标函数的具体形式为：

其中，

表示语音鉴伪对于第n个片段序列的最大似然损失函数，即语音鉴伪目标函数；

表示第n个片段序列属于伪造语音或者真实语音的概率。

在一些实施例中，所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为：

其中，

α、ß和λ为超参数，人为设置参数。

在一些实施例中，0≤α≤1，0≤ß≤1，0≤λ≤1。

本发明第二方面提供一种语音鉴伪与说话人识别联合建模的系统，包括：

前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块；

所述前端信号处理模块：把训练数据通过信号重采样统一到一个固定采样率，然后进行单声道降噪降混响和频带能量均衡化处理，得到信号处理后的训练数据；

所述特征提取模块：对所述信号处理后的训练数据的每帧信号提取Fbank特征；

所述表示向量提取模块：通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列，再将所述片段序列输入可以识别说话人的深度学习网络，得到说话人片段表示向量，并构造帧级别说话人识别损失函数；

所述语音鉴伪和说话人识别联合分类模块：将所述说话人片段表示向量输入说话人识别网络，定义片段级别说话人识别目标函数；将所述说话人片段表示向量输入语音鉴伪网络，定义语音鉴伪目标函数；联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

利用了帧级别的说话人识别目标引导注意力模块关注更加有效的语音帧，从而能够提取更有区分性更加鲁棒的片段表示向量，同时引入片段级别的说话人识别目标约束整个模型关注语音本身的区分性，一方面能够帮助语音鉴伪任务提升性能，另一方面能够提高语音鉴伪的鲁棒性和抗攻击能力。

附图说明

图1为本发明实施例提供的一种语音鉴伪与说话人识别联合建模的方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1所示，第一方面提供一种语音鉴伪与说话人识别联合建模的方法，包括：

所述提取Fbank特征的具体方法为：对所述信号处理后的训练数据进行分帧；再应用汉明窗对分帧后的训练数据进行加窗操作，然后对加窗后的每帧信号提取40维的Fbank特征。

具体地，在一些实施例中，所述将所述片段序列输入识别说话人的深度学习网络，得到说话人片段表示向量具体方法包括：

其中，

h _t ^（s）表示第二隐层输出；

W _p ^T表示第二隐层输出的权重；

h _t表示第一隐层输出；

W ^T表示第一隐层输出的权重；

b表示偏差

e _t表示每帧的注意力系数；

σ(•)表示激活函数；

α _t表示加权融合的权重；

e _n表示说话人片段表示向量。

其中，所述帧级别说话人识别损失函数的具体形式为：

其中，

表示第t帧语音信号属于说话人

的概率；

softmax(•)为归一化指数函数；

DNN(•)：两层深度学习网络；

所述定义片段级别说话人识别目标函数的具体形式为：

其中，

表示第n个片段序列属于说话人

的概率。

其中，

表示第n个片段序列属于伪造语音或者真实语音的概率。

所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为：

其中，

α、ß和λ为超参数，人为设置参数。

在一些实施例中，0≤α≤1，0≤ß≤1，0≤λ≤1。

实施例2：

如图1所示，本申请实施例2提供的一种语音鉴伪与说话人识别联合建模的方法，包括：

步骤1：前端信号处理：把训练数据通过信号重采样统一到16K采样率，然后进行单声道降噪降混响和频带能量均衡化处理，得到信号处理后的训练数据；信号处理可以从信号层面减小采样率、环境噪声和混响以及声音能量幅度对语音信息抽取的影响；

在一些实施例中，可以调用pytorch（https://pytorch.org/get-started/locally/）和torchaudio(https://pytorch.org/audio/stable/index.html)工具包实现信号重采样、单声道降噪降混响和PCEN；

步骤2：特征提取：对所述信号处理后的训练数据的每帧信号提取Fbank特征；

在一些实施例中，使用帧长为32毫秒、帧移为16毫秒进行分帧处理，再应用汉明窗对分帧后的训练数据进行加窗操作，然后对加窗后的每帧信号提取40维的Fbank特征；

在一些实施例中，采用python_speech_features（https://github.com/jameslyons

/python_speech_features）工具包提取该特征；

步骤3：表示向量提取：通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列，窗移为T/2；再将所述片段序列输入可以识别说话人的深度学习网络，得到说话人片段表示向量，并构造帧级别说话人识别损失函数；

在一些实施例中，所述将所述片段序列输入可以识别说话人的深度学习网络，得到说话人片段表示向量具体方法包括：

步骤3.1：将所述片段序列输入到时延神经网络与将长短期记忆网络相结合的网络，即TDNN_LSTM，得到TDNN_LSTM的最后一层的隐层输出，第一隐层输出；再将所述第一隐层输出输入到两层深度学习网络，得到两层深度学习网络的最后一层的隐层输出，第二隐层输出；

步骤3.2应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数；

步骤3.3再应用所述每帧的注意力系数得到加权融合权重，再将所述第一隐层输出进行加权融合得到说话人片段表示向量；

其中，

h _t ^（s）表示第二隐层输出；

W _p ^t表示第二隐层输出的权重；

h _t表示第一隐层输出；

W ^t表示第一隐层输出的权重；

b表示偏差

e _t表示每帧的注意力系数；

σ(•)表示激活函数；

α _t表示加权融合的权重；

e _n表示说话人片段表示向量；

其中，

表示第t帧语音信号属于说话人

的概率；

softmax(•)为归一化指数函数；

DNN(•)：两层深度学习网络；

TDNN_LSTM(•)：时延神经网络与将长短期记忆网络相结合的网络；

步骤4：语音鉴伪和说话人识别联合分类：

步骤4.1：将所述说话人片段表示向量输入说话人识别网络，定义片段级别说话人识别目标函数；

步骤4.2：将所述说话人片段表示向量输入语音鉴伪网络，定义语音鉴伪目标函数；

步骤4.3：联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化；

其中，

表示第n个片段序列属于说话人

的概率；

其中，

表示第n个片段序列属于伪造语音或者真实语音的概率。

其中，

α、ß和λ为超参数，α=1， ß=1，λ=1。

实施例3

根据实施例1-2所述的一种语音鉴伪与说话人识别联合建模的方法的，以Interspeech2021 HAD音频篡改数据集为例，对任意一个音频信号y(n),

首先根据步骤1进行前端信号处理，统一采样率为16KHz,采用torchaudio工具包中单声道降噪算法和频带能量均衡化处理；

随后根据步骤2，采用python_speech_features工具包中自带的40维FBank特征；

按照步骤3中，定义窗长T为256， TDNN-LSTM采用2层TDNN和2层LSTM模型，每层TDNN的节点个数为256，每层LSTM的节点个数为256，按

照步骤3.1得到最后一层隐层表示，即第一隐层输出和第二隐层输出；

按照步骤3.2计算声纹特征注意力系数；

按照步骤3.3 计算片段级别表示向量；

按照步骤4.1计算片段级别说话人识别目标函数；

按照步骤4.2计算片段级别语音鉴伪目标函数；

按照步骤4.3采用联合优化的方式定义整体目标函数，其中，α=1.0、β=1.0和λ=1.0。

以等错误率(Equal error rate, EER)指标为数据集整体评估指标，相比于竞赛提供的两种方法，分别标记为LFCC-GMM和CQCC-GMM,本方法的平均结果如下表所示：

EER(%)	LFCC-GMM[1]	LFCC-LCNN	本项方法
				Dev-测试集	10.66	4.57	1.85
Test-测试集	12.67	4.50	2.02

实施例4：

根据实施例1-2所述的一种语音鉴伪与说话人识别联合建模的方法，对本申请实施例4提供的一种语音鉴伪与说话人识别联合建模的系统，所述方法应用于所述系统，

所述系统包括：

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。