CN115910022A

CN115910022A - 一种说话人相关防语音合成攻击方法和系统

Info

Publication number: CN115910022A
Application number: CN202211283359.5A
Authority: CN
Inventors: 杨洪; 肖龙源; 李海洲; 滕默帅; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-04-04

Abstract

本发明提供一种说话人相关防语音合成攻击方法和系统，包括：S1：获取合成音频和真实语音；S2：利用合成音频和真实语音，以及相应的合成音频标签和真实语音标签，训练神经网络模型，得到训练好的神经网络模型；具体训练包括：输入合成音频和真实语音，以及相应的合成音频标签和真实语音标签；利用一维卷积网络对合成音频和真实语音进行初步的特征提取，同时利用预训练的声纹特征模型提取声纹特征，再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均；再通过融合层进行融合，再经过频率‑时间注意力网络完成Attention操作和池化操作，进入合成检测模型进行检测；完成模型训练；S3：根据训练好的神经网络模型进行防语音合成攻击检测。本发明提供的方法，实现稳定准确的检测，对其他合成攻击也能具有良好的泛化能力。

Description

一种说话人相关防语音合成攻击方法和系统

技术领域

本发明涉及误差补偿领域，特别是指一种说话人相关防语音合成攻击方法和系统。

背景技术

随着声纹识别技术的日益普及，防攻击变得越来越受重视，其中防语音合成攻击的主要研究目的是实现检测一段录音是真人还是人工合成的音频，避免被他人盗用声纹信息，而说话人相关指的是已知一段说话人语音，判断是否为该人物的伪造语音。防攻击是任何声纹识别系统必不可少的，是其系统的重要组成部分，其中语音合成攻击随着近年来技术的进步(语音克隆)变得越来越容易获得，攻击类型多样，已经成为主要的攻击手段之一。声纹识别系统需要根据音频来区分用户身份，完成用户授权。现有的声纹识别系统对语音合成攻击缺乏有效的检测机制，主要的检测手段还是通过人工设计特征，根据提取的特征进行分类。

但是现在的防语音合成攻击方法存在一定的局限性：

首先，音频特征提取主要是人工设计的，比如梅尔倒谱系数(MFCC)，这类特征多是为语音识别系统设计，符合人类听觉系统特征，但是有时人耳也很难区分是否是合成语音，因此不一定适用于语音合成检测。

其次，环境噪声、录音设备和攻击方法对防语音合成攻击检测结果影响较大，场景和攻击类型覆盖较少。

最后，随着技术的进步，语音克隆技术已经能够非常容易的实现对一个人的语音特征进行模仿，已经能够做到真假难辨，实现技术呈现多样化，难以有效的预测。没有利用说话人信息，无法充分的利用说话人相关的语音信息，准确率低。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种说话人相关防语音合成攻击方法，能够基于深度学习技术从音频中直接获取特征信息，利用此特征信息最终实现稳定准确的检测，且对其他的合成攻击也能具有良好的泛化能力。

本发明采用如下技术方案：

一种说话人相关防语音合成攻击方法，包括：

S1：获取合成音频和真实语音；

S2：利用合成音频和真实语音，以及相应的合成音频标签和真实语音标签，训练神经网络模型，得到训练好的神经网络模型，具体训练包括：

输入合成音频和真实语音，以及相应的合成音频标签和真实语音标签；

利用一维卷积网络对合成音频和真实语音进行初步的特征提取，经过6层Res-net网络，对时间维度的特征和频率维度的特征进行特征提取，同时利用预训练的声纹特征模型提取声纹特征，再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均，得到加权平均后的时间维度的特征，将提取的频率维度的特征利用频率维度图注意力网络进行加权平均，得到加权平均后的频率维度的特征；将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合，再经过频率-时间注意力网络完成Attention操作和池化操作，进入合成检测模型进行检测；完成模型训练。

S3：根据训练好的神经网络模型进行防语音合成攻击检测。

具体地，获取合成音频和真实语音后还包括数据扩增，所述数据扩增包括但不限于：加躁、编码变换、加混响。

具体地，训练的损失函数L为：

其中c＝1,2,...C，C表示分类个数，n＝1,2...N,N表示样本个数，x_n,c表示类别为c的样本输入，w_c为权重。

具体地，所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络，具体结构为：

时间维度图注意力网络：时间维度特征加权平均层，转置层，注意力层，池化层以及映射层；

频率维度图注意力网络：频率维度特征加权平均层，转置层，注意力层，池化层以及映射层

频率-时间注意力网络：注意力层，池化层以及映射层。

本发明实施例另一方面提供一种说话人相关防语音合成攻击系统，包括：

语音获取单元：获取合成音频和真实语音；

模型训练单元：利用合成音频和真实语音，以及相应的合成音频标签和真实语音标签，训练神经网络模型，得到训练好的神经网络模型，具体训练包括：

检测单元：根据训练好的神经网络模型进行防语音合成攻击检测。

具体地，语音获取单元中，获取合成音频和真实语音后还包括数据扩增，所述数据扩增包括但不限于：加躁、编码变换、加混响。

具体地，训练的损失函数L为：

频率-时间注意力网络：注意力层，池化层以及映射层。

本发明实施例再一方面提供一种电子设备，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述一种说话人相关防语音合成攻击方法步骤。

本发明实施例又一方面一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述一种说话人相关防语音合成攻击方法步骤。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明提供一种说话人相关防语音合成攻击方法，包括：S1：获取合成音频和真实语音；S2：利用合成音频和真实语音，以及相应的合成音频标签和真实语音标签，训练神经网络模型，得到训练好的神经网络模型；具体训练包括：输入合成音频和真实语音，以及相应的合成音频标签和真实语音标签；利用一维卷积网络对合成音频和真实语音进行初步的特征提取，经过6层Res-net网络，对时间维度的特征和频率维度的特征进行特征提取，同时利用预训练的声纹特征模型提取声纹特征，再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均，得到加权平均后的时间维度的特征，将提取的频率维度的特征利用频率维度图注意力网络进行加权平均，得到加权平均后的频率维度的特征；将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合，再经过频率-时间注意力网络完成Attention操作和池化操作，进入合成检测模型进行检测；完成模型训练；S3：根据训练好的神经网络模型进行防语音合成攻击检测。本发明提供的方法，充分利用了语音数据提取多维度特征声纹特征、时间维度的特征以及的频率维度的特征，并结合多层次、端到端的防语音合成攻击网络，实现稳定准确的检测，对其他合成攻击也能具有良好的泛化能力。

附图说明

图1为本发明实施例提供的一种说话人相关防语音合成攻击方法流程图；

图2为本发明实施例提供的一种说话人相关防语音合成攻击系统架构图；

图3为本发明实施例提供的一种电子设备示意图；

图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

本发明提供一种说话人相关防语音合成攻击方法，充分利用了语音数据提取多维度特征声纹特征、时间维度的特征以及的频率维度的特征，并结合多层次、端到端的防语音合成攻击网络，实现稳定准确的检测，对其他合成攻击也能具有良好的泛化能力。

如图1，为本发明实施例提供的一种说话人相关防语音合成攻击方法，包括：

S101：获取合成音频和真实语音；

对市面上主流的商用语音合成引擎进行数据采集，并且结合各种已有的比赛数据，人工标注是语音合成还是原始录音，保留说话人信息(姓名或者序号)，截取有效音频，去除静音部分。数据类型的多样性是此系统能够有效识别的关键点，结合现有的模型进行训练，能够有效的提升模型的泛化能力；

S102：利用合成音频和真实语音，以及相应的合成音频标签和真实语音标签，训练神经网络模型，得到训练好的神经网络模型，具体训练包括：

时间维度图注意力网络：时间维度特征加权平均层，转置层，注意力层，池化层以及映射层；频率维度图注意力网络：频率维度特征加权平均层，转置层，注意力层，池化层以及映射层；频率-时间注意力网络：注意力层，池化层以及映射层。

本发明实施例利用图神经网络提取特征向量，不同于传统的人工设计特征(如MFCC)，是二维数据，主要利用与图像相同的二维卷积，本发明所使用的神经网络可以直接利用时间序列的音频数据(Waveform)，结合一维卷积网络(ConvNet)和注意力神经网络(Attention Neural Network)，进行特征提取，进而完成分类任务。

本发明实施例中分别提取时间维度的特征、频率维度的特征以及声纹特征，分别提取是为了区分这两个维度的特征，分别处理，让模型学到不同的特征，更好的帮助检测。

传统的模型融合一般是在整个神经网络训练完成之后对权重进行平均，本发明实施例这里在训练过程进行模型融合，分别对时间维度和频率维度进行融合(相加、相乘和拼接)，最后再经过Attention和池化操作。训练过程中，声纹特征提取模型参数不进行更新，即固定参数。

具体地，训练的损失函数L为：

a、其中c＝1,2,...C，C表示分类个数，n＝1,2...N,N表示样本个数，x_n,c表示类别为c的样本输入，w_c为权重。权重越大表示越重要，通常根据各个类别的样本个数进行设置，样本少的设置大一点，比如：正样本有100个，负样本有1000个，则正样本的权重设为1，负样本的权重设为0.1，采用的是加权交叉熵损失，在数据不均衡时可以调节权重。在模型训练过程中，使用随机梯度下降法(SGD)调整神经网络参数，学习率使用按指数衰减方式动态调整，不断观察和记录训练中间结果，调整模型的参数，并完成模型训练，使用准确率最高的模型作为最终的结果；

S103：根据训练好的神经网络模型进行防语音合成攻击检测。

本发明提供的一种端到端的说话人相关防语音合成攻击方法，识别速度快，不需要人工设计特征，并且能够跨越各种场景和攻击类型。

语音获取单元201：获取合成音频和真实语音；

模型训练单元202：利用合成音频和真实语音，以及相应的合成音频标签和真实语音标签，训练神经网络模型，得到训练好的神经网络模型，具体训练包括：

检测单元203：根据训练好的神经网络模型进行防语音合成攻击检测。

图3所示，本发明实施例提供了一种电子设备300，包括存储器310、处理器320及存储在存储器320上并可在处理器320上运行的计算机程序311，处理器320执行计算机程序311时实现本发明实施例提供的一种说话人相关防语音合成攻击方法。

由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备，故而基于本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍，只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明所欲保护的范围。

请参阅图4，图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图4所示，本实施例提供了一种计算机可读存储介质400，其上存储有计算机程序411，该计算机程序411被处理器执行时实现本发明实施例提供的一种说话人相关防语音合成攻击方法；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种说话人相关防语音合成攻击方法，其特征在于，包括：

S1：获取合成音频和真实语音；

利用一维卷积网络对合成音频和真实语音进行初步的特征提取，经过6层Res-net网络，对时间维度的特征和频率维度的特征进行特征提取，同时利用预训练的声纹特征模型提取声纹特征，再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均，得到加权平均后的时间维度的特征，将提取的频率维度的特征利用频率维度图注意力网络进行加权平均，得到加权平均后的频率维度的特征；将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合，再经过频率-时间注意力网络完成Attention操作和池化操作，进入合成检测模型进行检测；完成模型训练；

S3：根据训练好的神经网络模型进行防语音合成攻击检测。

2.根据权利要求1所述的一种说话人相关防语音合成攻击方法，其特征在于，获取合成音频和真实语音后还包括数据扩增，所述数据扩增包括但不限于：加躁、编码变换、加混响。

3.根据权利要求1所述的一种说话人相关防语音合成攻击方法，其特征在于，训练的损失函数L为：

4.根据权利要求1所述的一种说话人相关防语音合成攻击方法，其特征在于，所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络，具体结构为：

频率-时间注意力网络：注意力层，池化层以及映射层。

5.一种说话人相关防语音合成攻击系统，其特征在于，包括：

语音获取单元：获取合成音频和真实语音；

6.根据权利要求5所述的一种说话人相关防语音合成攻击系统，其特征在于，语音获取单元中，获取合成音频和真实语音后还包括数据扩增，所述数据扩增包括但不限于：加躁、编码变换、加混响。

7.根据权利要求5所述的一种说话人相关防语音合成攻击系统，其特征在于，训练的损失函数L为：

8.根据权利要求5所述的一种说话人相关防语音合成攻击系统，其特征在于，所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络，具体结构为：

频率-时间注意力网络：注意力层，池化层以及映射层。

9.一种电子设备，其特征在于，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。