CN115910022A - 一种说话人相关防语音合成攻击方法和系统 - Google Patents

一种说话人相关防语音合成攻击方法和系统 Download PDF

Info

Publication number
CN115910022A
CN115910022A CN202211283359.5A CN202211283359A CN115910022A CN 115910022 A CN115910022 A CN 115910022A CN 202211283359 A CN202211283359 A CN 202211283359A CN 115910022 A CN115910022 A CN 115910022A
Authority
CN
China
Prior art keywords
layer
frequency
network
attention
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211283359.5A
Other languages
English (en)
Inventor
杨洪
肖龙源
李海洲
滕默帅
李稀敏
叶志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202211283359.5A priority Critical patent/CN115910022A/zh
Publication of CN115910022A publication Critical patent/CN115910022A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种说话人相关防语音合成攻击方法和系统,包括:S1:获取合成音频和真实语音;S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型;具体训练包括:输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;利用一维卷积网络对合成音频和真实语音进行初步的特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均;再通过融合层进行融合,再经过频率‑时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;S3:根据训练好的神经网络模型进行防语音合成攻击检测。本发明提供的方法,实现稳定准确的检测,对其他合成攻击也能具有良好的泛化能力。

Description

一种说话人相关防语音合成攻击方法和系统
技术领域
本发明涉及误差补偿领域,特别是指一种说话人相关防语音合成攻击方法和系统。
背景技术
随着声纹识别技术的日益普及,防攻击变得越来越受重视,其中防语音合成攻击的主要研究目的是实现检测一段录音是真人还是人工合成的音频,避免被他人盗用声纹信息,而说话人相关指的是已知一段说话人语音,判断是否为该人物的伪造语音。防攻击是任何声纹识别系统必不可少的,是其系统的重要组成部分,其中语音合成攻击随着近年来技术的进步(语音克隆)变得越来越容易获得,攻击类型多样,已经成为主要的攻击手段之一。声纹识别系统需要根据音频来区分用户身份,完成用户授权。现有的声纹识别系统对语音合成攻击缺乏有效的检测机制,主要的检测手段还是通过人工设计特征,根据提取的特征进行分类。
但是现在的防语音合成攻击方法存在一定的局限性:
首先,音频特征提取主要是人工设计的,比如梅尔倒谱系数(MFCC),这类特征多是为语音识别系统设计,符合人类听觉系统特征,但是有时人耳也很难区分是否是合成语音,因此不一定适用于语音合成检测。
其次,环境噪声、录音设备和攻击方法对防语音合成攻击检测结果影响较大,场景和攻击类型覆盖较少。
最后,随着技术的进步,语音克隆技术已经能够非常容易的实现对一个人的语音特征进行模仿,已经能够做到真假难辨,实现技术呈现多样化,难以有效的预测。没有利用说话人信息,无法充分的利用说话人相关的语音信息,准确率低。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种说话人相关防语音合成攻击方法,能够基于深度学习技术从音频中直接获取特征信息,利用此特征信息最终实现稳定准确的检测,且对其他的合成攻击也能具有良好的泛化能力。
本发明采用如下技术方案:
一种说话人相关防语音合成攻击方法,包括:
S1:获取合成音频和真实语音;
S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:
输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;
利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练。
S3:根据训练好的神经网络模型进行防语音合成攻击检测。
具体地,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。
具体地,训练的损失函数L为:
Figure BDA0003898963890000021
其中c=1,2,...C,C表示分类个数,n=1,2...N,N表示样本个数,xn,c表示类别为c的样本输入,wc为权重。
具体地,所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络,具体结构为:
时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;
频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层
频率-时间注意力网络:注意力层,池化层以及映射层。
本发明实施例另一方面提供一种说话人相关防语音合成攻击系统,包括:
语音获取单元:获取合成音频和真实语音;
模型训练单元:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:
输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;
利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练。
检测单元:根据训练好的神经网络模型进行防语音合成攻击检测。
具体地,语音获取单元中,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。
具体地,训练的损失函数L为:
Figure BDA0003898963890000031
其中c=1,2,...C,C表示分类个数,n=1,2...N,N表示样本个数,xn,c表示类别为c的样本输入,wc为权重。
具体地,所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络,具体结构为:
时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;
频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层
频率-时间注意力网络:注意力层,池化层以及映射层。
本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种说话人相关防语音合成攻击方法步骤。
本发明实施例又一方面一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种说话人相关防语音合成攻击方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供一种说话人相关防语音合成攻击方法,包括:S1:获取合成音频和真实语音;S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型;具体训练包括:输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;S3:根据训练好的神经网络模型进行防语音合成攻击检测。本发明提供的方法,充分利用了语音数据提取多维度特征声纹特征、时间维度的特征以及的频率维度的特征,并结合多层次、端到端的防语音合成攻击网络,实现稳定准确的检测,对其他合成攻击也能具有良好的泛化能力。
附图说明
图1为本发明实施例提供的一种说话人相关防语音合成攻击方法流程图;
图2为本发明实施例提供的一种说话人相关防语音合成攻击系统架构图;
图3为本发明实施例提供的一种电子设备示意图;
图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提供一种说话人相关防语音合成攻击方法,充分利用了语音数据提取多维度特征声纹特征、时间维度的特征以及的频率维度的特征,并结合多层次、端到端的防语音合成攻击网络,实现稳定准确的检测,对其他合成攻击也能具有良好的泛化能力。
如图1,为本发明实施例提供的一种说话人相关防语音合成攻击方法,包括:
S101:获取合成音频和真实语音;
对市面上主流的商用语音合成引擎进行数据采集,并且结合各种已有的比赛数据,人工标注是语音合成还是原始录音,保留说话人信息(姓名或者序号),截取有效音频,去除静音部分。数据类型的多样性是此系统能够有效识别的关键点,结合现有的模型进行训练,能够有效的提升模型的泛化能力;
具体地,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。
S102:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:
输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;
利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练。
具体地,所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络,具体结构为:
时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层;频率-时间注意力网络:注意力层,池化层以及映射层。
本发明实施例利用图神经网络提取特征向量,不同于传统的人工设计特征(如MFCC),是二维数据,主要利用与图像相同的二维卷积,本发明所使用的神经网络可以直接利用时间序列的音频数据(Waveform),结合一维卷积网络(ConvNet)和注意力神经网络(Attention Neural Network),进行特征提取,进而完成分类任务。
本发明实施例中分别提取时间维度的特征、频率维度的特征以及声纹特征,分别提取是为了区分这两个维度的特征,分别处理,让模型学到不同的特征,更好的帮助检测。
传统的模型融合一般是在整个神经网络训练完成之后对权重进行平均,本发明实施例这里在训练过程进行模型融合,分别对时间维度和频率维度进行融合(相加、相乘和拼接),最后再经过Attention和池化操作。训练过程中,声纹特征提取模型参数不进行更新,即固定参数。
具体地,训练的损失函数L为:
Figure BDA0003898963890000051
a、其中c=1,2,...C,C表示分类个数,n=1,2...N,N表示样本个数,xn,c表示类别为c的样本输入,wc为权重。权重越大表示越重要,通常根据各个类别的样本个数进行设置,样本少的设置大一点,比如:正样本有100个,负样本有1000个,则正样本的权重设为1,负样本的权重设为0.1,采用的是加权交叉熵损失,在数据不均衡时可以调节权重。在模型训练过程中,使用随机梯度下降法(SGD)调整神经网络参数,学习率使用按指数衰减方式动态调整,不断观察和记录训练中间结果,调整模型的参数,并完成模型训练,使用准确率最高的模型作为最终的结果;
S103:根据训练好的神经网络模型进行防语音合成攻击检测。
本发明提供的一种端到端的说话人相关防语音合成攻击方法,识别速度快,不需要人工设计特征,并且能够跨越各种场景和攻击类型。
本发明实施例另一方面提供一种说话人相关防语音合成攻击系统,包括:
语音获取单元201:获取合成音频和真实语音;
对市面上主流的商用语音合成引擎进行数据采集,并且结合各种已有的比赛数据,人工标注是语音合成还是原始录音,保留说话人信息(姓名或者序号),截取有效音频,去除静音部分。数据类型的多样性是此系统能够有效识别的关键点,结合现有的模型进行训练,能够有效的提升模型的泛化能力;
具体地,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。
模型训练单元202:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:
输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;
利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练。
具体地,所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络,具体结构为:
时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层;频率-时间注意力网络:注意力层,池化层以及映射层。
本发明实施例利用图神经网络提取特征向量,不同于传统的人工设计特征(如MFCC),是二维数据,主要利用与图像相同的二维卷积,本发明所使用的神经网络可以直接利用时间序列的音频数据(Waveform),结合一维卷积网络(ConvNet)和注意力神经网络(Attention Neural Network),进行特征提取,进而完成分类任务。
本发明实施例中分别提取时间维度的特征、频率维度的特征以及声纹特征,分别提取是为了区分这两个维度的特征,分别处理,让模型学到不同的特征,更好的帮助检测。
传统的模型融合一般是在整个神经网络训练完成之后对权重进行平均,本发明实施例这里在训练过程进行模型融合,分别对时间维度和频率维度进行融合(相加、相乘和拼接),最后再经过Attention和池化操作。训练过程中,声纹特征提取模型参数不进行更新,即固定参数。
检测单元203:根据训练好的神经网络模型进行防语音合成攻击检测。
本发明提供的一种端到端的说话人相关防语音合成攻击方法,识别速度快,不需要人工设计特征,并且能够跨越各种场景和攻击类型。
图3所示,本发明实施例提供了一种电子设备300,包括存储器310、处理器320及存储在存储器320上并可在处理器320上运行的计算机程序311,处理器320执行计算机程序311时实现本发明实施例提供的一种说话人相关防语音合成攻击方法。
由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图4,图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图4所示,本实施例提供了一种计算机可读存储介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实现本发明实施例提供的一种说话人相关防语音合成攻击方法;
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明提供一种说话人相关防语音合成攻击方法,包括:S1:获取合成音频和真实语音;S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型;具体训练包括:输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;S3:根据训练好的神经网络模型进行防语音合成攻击检测。本发明提供的方法,充分利用了语音数据提取多维度特征声纹特征、时间维度的特征以及的频率维度的特征,并结合多层次、端到端的防语音合成攻击网络,实现稳定准确的检测,对其他合成攻击也能具有良好的泛化能力。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (10)

1.一种说话人相关防语音合成攻击方法,其特征在于,包括:
S1:获取合成音频和真实语音;
S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:
输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;
利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;
S3:根据训练好的神经网络模型进行防语音合成攻击检测。
2.根据权利要求1所述的一种说话人相关防语音合成攻击方法,其特征在于,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。
3.根据权利要求1所述的一种说话人相关防语音合成攻击方法,其特征在于,训练的损失函数L为:
Figure FDA0003898963880000011
其中c=1,2,...C,C表示分类个数,n=1,2...N,N表示样本个数,xn,c表示类别为c的样本输入,wc为权重。
4.根据权利要求1所述的一种说话人相关防语音合成攻击方法,其特征在于,所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络,具体结构为:
时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;
频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层
频率-时间注意力网络:注意力层,池化层以及映射层。
5.一种说话人相关防语音合成攻击系统,其特征在于,包括:
语音获取单元:获取合成音频和真实语音;
模型训练单元:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:
输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;
利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res-net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率-时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;
检测单元:根据训练好的神经网络模型进行防语音合成攻击检测。
6.根据权利要求5所述的一种说话人相关防语音合成攻击系统,其特征在于,语音获取单元中,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。
7.根据权利要求5所述的一种说话人相关防语音合成攻击系统,其特征在于,训练的损失函数L为:
Figure FDA0003898963880000021
其中c=1,2,...C,C表示分类个数,n=1,2...N,N表示样本个数,xn,c表示类别为c的样本输入,wc为权重。
8.根据权利要求5所述的一种说话人相关防语音合成攻击系统,其特征在于,所述时间维度图注意力网络、频率维度图注意力网络以及频率-时间注意力网络,具体结构为:
时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;
频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层
频率-时间注意力网络:注意力层,池化层以及映射层。
9.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202211283359.5A 2022-10-20 2022-10-20 一种说话人相关防语音合成攻击方法和系统 Pending CN115910022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211283359.5A CN115910022A (zh) 2022-10-20 2022-10-20 一种说话人相关防语音合成攻击方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211283359.5A CN115910022A (zh) 2022-10-20 2022-10-20 一种说话人相关防语音合成攻击方法和系统

Publications (1)

Publication Number Publication Date
CN115910022A true CN115910022A (zh) 2023-04-04

Family

ID=86496446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211283359.5A Pending CN115910022A (zh) 2022-10-20 2022-10-20 一种说话人相关防语音合成攻击方法和系统

Country Status (1)

Country Link
CN (1) CN115910022A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198272A (zh) * 2023-11-07 2023-12-08 浙江同花顺智能科技有限公司 一种语音处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198272A (zh) * 2023-11-07 2023-12-08 浙江同花顺智能科技有限公司 一种语音处理方法、装置、电子设备及存储介质
CN117198272B (zh) * 2023-11-07 2024-01-30 浙江同花顺智能科技有限公司 一种语音处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Shinohara Adversarial multi-task learning of deep neural networks for robust speech recognition.
CN105702263B (zh) 语音重放检测方法和装置
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
CN113488058B (zh) 一种基于短语音的声纹识别方法
CN109326299B (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
CN103377651B (zh) 语音自动合成装置及方法
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN107993664B (zh) 一种基于竞争神经网络的鲁棒说话人识别方法
US20180190267A1 (en) System and method for neural network based feature extraction for acoustic model development
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN115910022A (zh) 一种说话人相关防语音合成攻击方法和系统
CN113870860A (zh) 端到端的声纹识别方法和声纹识别装置
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
Ozerov et al. GMM-based classification from noisy features
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN113763966B (zh) 一种端到端的文本无关声纹识别方法及系统
CN115171725A (zh) 一种基于自监督的防语音合成攻击方法和系统
CN112002307B (zh) 一种语音识别方法和装置
Dwivedi et al. Spherical harmonics domain-based approach for source localization in presence of directional interference
Mohammadi et al. Weighted X-vectors for robust text-independent speaker verification with multiple enrollment utterances
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN116821691B (zh) 基于任务融合的训练情感识别模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination