CN115083422B - 语音溯源取证方法及装置、设备及存储介质 - Google Patents
语音溯源取证方法及装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115083422B CN115083422B CN202210859678.XA CN202210859678A CN115083422B CN 115083422 B CN115083422 B CN 115083422B CN 202210859678 A CN202210859678 A CN 202210859678A CN 115083422 B CN115083422 B CN 115083422B
- Authority
- CN
- China
- Prior art keywords
- level
- algorithm
- voice
- fingerprint
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 238
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000011176 pooling Methods 0.000 claims abstract description 54
- 238000012935 Averaging Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002087 whitening effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本公开涉及一种语音溯源取证方法及装置、设备及存储介质,所述方法包括:本提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源。
Description
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音溯源取证方法及装置、设备及存储介质。
背景技术
目前语音生成技术已经日趋成熟,生成语音的效果越来越好,生成的语音在特定条件下可以与真人语音相媲美,不当的利用和传播生成的语音,将会对媒体传播和社会安定产生一定威胁,因此,虚假生成语音对社会危害重大。在实际应用场景中,比如公安或者法院,不仅关心音频本身的真实有效性,还需要知道如果音频是虚假的,那么其生成来源是什么。因此,在很多实际场景中,涌现了很多对音频真伪取证的需求,但是生成音频的检测模型无法满足给出虚假音频生成来源的需求。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种语音溯源取证方法及装置、设备及存储介质。
第一方面,本公开的实施例提供了一种语音溯源取证方法,包括:
提取待测试语音的至少两种不同的声学特征;
对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
将预测出的待测试语音的生成算法作为语音溯源取证结果。
在一种可能的实施方式中,所述语音溯源取证模型包括依次连接的帧级别的算法指纹提取器、注意力统计池化层和段级别的算法指纹提取器,所述帧级别的算法指纹提取器包括相互连接的多个自注意力层,注意力统计池化层包括依次连接的注意力模型和注意力统计池化网络层,段级别的算法指纹提取器包括依次连接的全连接层和分类层。
在一种可能的实施方式中,所述语音溯源取证模型通过以下步骤训练得到:
提取已知语音的至少两种不同的声学特征;
对提取的已知语音的至少两种不同的声学特征进行融合,得到第二融合声学特征;
将所述第二融合声学特征输入训练前的语音溯源取证模型的帧级别的算法指纹提取器中,输出已知语音的帧级别的算法指纹特征;
将已知语音的帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量;
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出已知语音的段级别的算法指纹特征及其对应的生成算法;
将段级别的算法指纹提取器输出的算法作为已知语音的生成算法预测结果;
基于已知语音的生成算法预测结果与实际生成算法,通过预设的损失函数计算损失函数值,根据所述损失函数值调整帧级别的算法指纹提取器、注意力统计池化层和段级别的算法指纹提取器的权重参数,直到损失函数值满足预设条件为止,
其中,所述损失函数为:
L=αLsoftmax+βLtriplet
Ltriplet=max( d(q,p)-d(q,n)+margin, 0 )
其中,p(i,j)为第i个样本对第j类的预测概率,l(i,j)为模型对第i个样本在第j类的输出logit,C为类的数目,q为当前输入的特征向量,p为与i同类别的特征向量,n为与i不同类的特征向量,margin为大于0的常数,d()为距离函数,d(q,p)为q,p之间的距离,d(q,n)为q,n之间的距离,α和β均为0~1的常数。
在一种可能的实施方式中,所述将已知语音的帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量,包括:
基于注意力模型,根据已知语音的帧级别的算法指纹特征得到归一化的权重分数;
根据权重分数和已知语音的帧级别的算法指纹特征计算得到加权平均向量和加权标准差向量。
在一种可能的实施方式中,所述段级别的算法指纹提取器包括多个全连接层和一个分类层,将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出已知语音的段级别的算法指纹特征及其对应的生成算法,包括:
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器的多个全连接层,得到已知语音的段级别的算法指纹特征;
将已知语音的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层,得到段级别的算法指纹特征对应的生成算法。
在一种可能的实施方式中,在所述将已知语音的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层之前,所述方法还包括:
对已知语音的段级别的算法指纹特征进行白化、长度归一化以及使用线性判别分析方法降低其维度的处理,以将处理后的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层。
在一种可能的实施方式中,所述语音溯源取证模型训练完成之后,所述方法还包括:
对于给定的测试数据集,计算所述语音溯源取证模型的准确率、精确率、召回率和F-值,其中,准确率为测试数据集中正确分类样本数与总样本数之比,精确率为测试数据集中预测为正的样本中实际正样本的数量,召回率为测试数据集的实际正例样本中的预测正确的数量,F-值为精确率和召回率的调和平均值;
判断准确率、精确率、召回率和F-值是否分别满足预设要求:
当准确率、精确率、召回率和F-值均满足预设要求时,所述语音溯源取证模型用于从所述第一融合声学特征中提取帧级别的算法指纹特征、对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法。
第二方面,本公开的实施例提供了一种语音溯源取证装置,包括:
提取模块,其用于提取待测试语音的至少两种不同的声学特征;
融合模块,其用于对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
预测模块,其用于基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
取证模块,其用于将预测出的待测试语音的生成算法作为语音溯源取证结果。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的语音溯源取证方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的语音溯源取证方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的语音溯源取证方法,提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源,以满足现实场景对于虚假检测证据的需求。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的语音溯源取证方法流程示意图;
图2示意性示出了根据本公开实施例的语音溯源取证模型的结构示意图;
图3示意性示出了根据本公开实施例的语音溯源取证装置的结构框图;以及
图4示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的整体思路为:在训练阶段,对收集的生成语音数据集进行预处理,将生成语音数据集依据其生成的算法或者来源进行标注,再将这部分训练集的声学特征输入语音溯源取证模型进行训练,得到训练后的语音溯源取证模型;在测试阶段,将提取生成语音测试集的声学特征输入到溯源模型,进一步判别其生成算法或者来源类型,其中,生成语音数据集来自语音合成技术生成的语音或者语音转换技术生成的语音。
参见图1,本公开的实施例提供了一种语音溯源取证方法,包括以下步骤:
S1,提取待测试语音的至少两种不同的声学特征;
在实际应用中,所述至少两种不同的声学特征从梅尔倒谱系数、线性频率倒谱系数、线性预测系数、常数Q变换倒谱系数、对数谱、幅度谱、线谱对参数、音素时长中选取得到。
在实际应用中,所述至少两种不同的声学特征可以是梅尔倒谱系数和线谱对,其中,梅尔倒谱系数的提取方法为:首先对语音进行预加重、分帧和加窗一系列操作,然后得到FFT(fast Fourier transform,快速傅立叶变换)特征,进而得到对应的频谱,将频谱通过Mel滤波器组后进行对数运算,最后进行离散余弦变换,获得梅尔倒谱系数声学特征;线谱对通过线谱对分析得到,其中,线谱对分析是用p个离散频率ω和θ的分布密度来表示语音信号频谱特性的一种方法。
S2,对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
S3,基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
在实际应用中,算法指纹是指区分算法的方法或者特征,语音的生成算法是指用于语音合成和语音转换的算法。
参见图2,所述语音溯源取证模型包括依次连接的帧级别的算法指纹提取器、注意力统计池化层和段级别的算法指纹提取器,所述帧级别的算法指纹提取器包括相互连接的多个自注意力层,注意力统计池化层包括依次连接的注意力模型和注意力统计池化网络层,段级别的算法指纹提取器包括依次连接的全连接层和分类层。
以所述至少两种不同的声学特征是梅尔倒谱系数和线谱对为例,解释本公开的语音溯源取证方法:
然后,注意力统计池化层包括注意力模型和注意力统计池化网络层,帧级别的特征通过注意力模型得到归一化的权重分数,然后将权重分数和帧级别的算法指纹特征输入注意力统计池化网络层进行计算,得到帧级别的算法指纹特征的加权平均向量和加权标准差向量。
最后,将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,其中,段级别的算法指纹提取器包括相互连接的多个全连接层,从最后一个全连接层输出段级别的算法指纹embeddings:,与最后一个全连接层连接的输出层是一个softmax层,它的每个输出节点对应一个算法ID。
对于算法ID有不同层面的类型。可以是各个语音合成APP厂商(例如百度、阿里云、讯飞、搜狗、思必驰、标贝科技)等,也可以是各个语音生成算法(比如音频篡改,波形拼接,人工模仿,语音合成,语音转换等)。这其中语音合成和语音转换算法的使用更为普遍,包括基于Straight声码器,World声码器,LPCNet声码器,WaveNet声码器,WaveRNN声码器,HiFiGAN声码器,PWG声码器,MelGan声码器,StyleGan声码器等对应的语音合成和语音转换算法。以上涉及到的所有类型均可通过提取模型指纹进行溯源取证。
在实际应用中,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法,包括:
将所述第一融合声学特征输入预先训练的语音溯源取证模型的帧级别的算法指纹提取器中,输出帧级别的算法指纹特征;
将帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量;
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出段级别的算法指纹特征及其对应的生成算法。
S4,将预测出的待测试语音的生成算法作为语音溯源取证结果。
在实际应用中,溯源取证是指查证生成语音的生成来源或者生成方法。
在本实施例中,步骤S3中,所述语音溯源取证模型通过以下步骤训练得到:
提取已知语音的至少两种不同的声学特征,其中,已知语音为多组生成语音;
对提取的已知语音的至少两种不同的声学特征进行融合,得到第二融合声学特征;
将所述第二融合声学特征输入训练前的语音溯源取证模型的帧级别的算法指纹提取器中,输出已知语音的帧级别的算法指纹特征;
将已知语音的帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量;
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出已知语音的段级别的算法指纹特征及其对应的生成算法;
将段级别的算法指纹提取器输出的算法作为已知语音的生成算法预测结果;
基于已知语音的生成算法预测结果与实际生成算法,通过预设的损失函数计算损失函数值,根据所述损失函数值调整帧级别的算法指纹提取器、注意力统计池化层和段级别的算法指纹提取器的权重参数,直到损失函数值满足预设条件为止,
其中,所述损失函数为:
L=αLsoftmax+βLtriplet
Ltriplet=max( d(q,p)-d(q,n)+margin, 0 )
其中,p(i,j)为第i个样本对第j类的预测概率,l(i,j)为模型对第i个样本在第j类的输出logit,C为类的数目,q为当前输入的特征向量,p为与i同类别的特征向量,n为与i不同类的特征向量,margin为大于0的常数,d()为距离函数,d(q,p)为q,p之间的距离,d(q,n)为q,n之间的距离,α和β均为0~1的常数。
其中,在语音溯源取证模型的训练过程中,总计训练100轮,选择自适应矩估计优化器,初始学习率设为0.001,并且学习率线性衰减,批数据大小为256。
在本实施例中,所述将已知语音的帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量,包括:
基于注意力模型,根据已知语音的帧级别的算法指纹特征得到归一化的权重分数;
根据权重分数和已知语音的帧级别的算法指纹特征计算得到加权平均向量和加权标准差向量。
在本实施例中,所述段级别的算法指纹提取器包括多个全连接层和一个分类层,将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出已知语音的段级别的算法指纹特征及其对应的生成算法,包括:
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器的多个全连接层,得到已知语音的段级别的算法指纹特征;
将已知语音的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层,得到段级别的算法指纹特征对应的生成算法。
在本实施例中,在所述将已知语音的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层之前,所述方法还包括:
对已知语音的段级别的算法指纹特征进行白化、长度归一化以及使用线性判别分析方法降低其维度的处理,以将处理后的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层。在这里,可以存储处理后的段级别的算法指纹特征便于扩展新的算法指纹类型,不需要重新训练新的算法指纹提取器,使得语音溯源取证模型的学习类别不仅包括标记过的生成算法或生成来源类别,还包括待适应的未知来源类别。
在本实施例中,所述语音溯源取证模型训练完成之后,所述方法还包括:
对于给定的测试数据集,计算所述语音溯源取证模型的准确率、精确率、召回率和F-值,其中,准确率为测试数据集中正确分类样本数与总样本数之比,精确率为测试数据集中预测为正的样本中实际正样本的数量,召回率为测试数据集的实际正例样本中的预测正确的数量,F-值为精确率和召回率的调和平均值;
判断准确率、精确率、召回率和F-值是否分别满足预设要求:
当准确率、精确率、召回率和F-值均满足预设要求时,所述语音溯源取证模型用于从所述第一融合声学特征中提取帧级别的算法指纹特征、对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法。
本公开利用算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源,以在司法取证等很多现实场景,满足对于虚假检测证据的需求,同时也能促进音频检测领域的进一步发展。
本公开通过把模型特征与算法指纹相关联,进而分类判别出生成语音的生成算法,实现对生成语音的溯源取证。
本公开的方法可以利用生成算法的指纹对生成语音进行溯源取证,弥补当前音频领域算法溯源的不足,准确率高,鲁棒性强,具有一定通用性。随着深度学习技术的发展,语音合成以及语音转换技术生成的语音越来越生动逼真。本公开在目前判别真假任务的基础上,进一步溯源取证。不仅溯源取证达到一定的准确率,取证分析的结果也能被语音鉴伪模型针对利用,进一步促进语音鉴伪模型的技术进步和发展。最终实现从检测到溯源取证整个任务准确率的整体提高,达到良好的准确率。当前司法、新闻、娱乐领域都对语音溯源取证技术产后了巨大的需求,识别溯源技术面临着现实场景的挑战。在实际环境中,环境噪声、信道、说话人等存在多种因素的影响,本公开的方法能够克服这种环境影响,仍保持良好的溯源准确率,具有较高的鲁棒性。目前生成语音的研究不论是在工业界还是学术界都受到广泛关注,学者和公司的生成算法多种多样。本公开具有通用的生成算法溯源功能,能够实现对生成语音算法的高度覆盖,并且未来可以快速适应更多未知类型的深度伪造技术,具有良好的通用性。
本公开强调对于生成算法层面的溯源研究,可以求证不仅是生成算法甚至是不同公司的生成技术,给出基于算法指纹的生成语音溯源取证。
参见图3,本公开的实施例提供了一种语音溯源取证装置,包括:
提取模块11,其用于提取待测试语音的至少两种不同的声学特征;
融合模块12,其用于对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
预测模块13,其用于基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
取证模块14,其用于将预测出的待测试语音的生成算法作为语音溯源取证结果。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述第二个实施例中,提取模块11、融合模块12、预测模块13和取证模块14中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。提取模块11、融合模块12、预测模块13和取证模块14中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,提取模块11、融合模块12、预测模块13和取证模块14中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参照图4所示,本公开的第四个示例性实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示语音溯源取证方法:
提取待测试语音的至少两种不同的声学特征;
对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
将预测出的待测试语音的生成算法作为语音溯源取证结果。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音溯源取证方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的语音溯源取证方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音溯源取证方法,其特征在于,所述方法包括:
提取待测试语音的至少两种不同的声学特征;
对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
将预测出的待测试语音的生成算法作为语音溯源取证结果,其中,溯源取证是指查证生成语音的生成来源或者生成方法,
其中,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法,包括:
将所述第一融合声学特征输入预先训练的语音溯源取证模型的帧级别的算法指纹提取器中,输出帧级别的算法指纹特征;将帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量;将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出段级别的算法指纹特征及其对应的生成算法。
2.根据权利要求1所述的方法,其特征在于,所述语音溯源取证模型包括依次连接的帧级别的算法指纹提取器、注意力统计池化层和段级别的算法指纹提取器,所述帧级别的算法指纹提取器包括相互连接的多个自注意力层,注意力统计池化层包括依次连接的注意力模型和注意力统计池化网络层,段级别的算法指纹提取器包括依次连接的全连接层和分类层。
3.根据权利要求2所述的方法,其特征在于,所述语音溯源取证模型通过以下步骤训练得到:
提取已知语音的至少两种不同的声学特征;
对提取的已知语音的至少两种不同的声学特征进行融合,得到第二融合声学特征;
将所述第二融合声学特征输入训练前的语音溯源取证模型的帧级别的算法指纹提取器中,输出已知语音的帧级别的算法指纹特征;
将已知语音的帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量;
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出已知语音的段级别的算法指纹特征及其对应的生成算法;
将段级别的算法指纹提取器输出的算法作为已知语音的生成算法预测结果;
基于已知语音的生成算法预测结果与实际生成算法,通过预设的损失函数计算损失函数值,根据所述损失函数值调整帧级别的算法指纹提取器、注意力统计池化层和段级别的算法指纹提取器的权重参数,直到损失函数值满足预设条件为止,
其中,所述损失函数为:
L=αLsoftmax+βLtriplet
Ltriplet=max( d(q,p)-d(q,n)+margin, 0 )
其中,p(i,j)为第i个样本对第j类的预测概率,l(i,j)为模型对第i个样本在第j类的输出logit,C为类的数目,q为当前输入的特征向量,p为与i同类别的特征向量,n为与i不同类的特征向量,margin为大于0的常数,d()为距离函数,d(q,p)为q,p之间的距离,d(q,n)为q,n之间的距离,α和β均为0~1的常数。
4.根据权利要求3所述的方法,其特征在于,所述将已知语音的帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量,包括:
基于注意力模型,根据已知语音的帧级别的算法指纹特征得到归一化的权重分数;
根据权重分数和已知语音的帧级别的算法指纹特征计算得到加权平均向量和加权标准差向量。
5.根据权利要求3所述的方法,其特征在于,所述段级别的算法指纹提取器包括多个全连接层和一个分类层,将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出已知语音的段级别的算法指纹特征及其对应的生成算法,包括:
将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器的多个全连接层,得到已知语音的段级别的算法指纹特征;
将已知语音的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层,得到段级别的算法指纹特征对应的生成算法。
6.根据权利要求5所述的方法,其特征在于,在所述将已知语音的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层之前,所述方法还包括:
对已知语音的段级别的算法指纹特征进行白化、长度归一化以及使用线性判别分析方法降低其维度的处理,以将处理后的段级别的算法指纹特征输入段级别的算法指纹提取器的分类层。
7.根据权利要求3所述的方法,其特征在于,所述语音溯源取证模型训练完成之后,所述方法还包括:
对于给定的测试数据集,计算所述语音溯源取证模型的准确率、精确率、召回率和F-值,其中,准确率为测试数据集中正确分类样本数与总样本数之比,精确率为测试数据集中预测为正的样本中实际正样本的数量,召回率为测试数据集的实际正例样本中的预测正确的数量,F-值为精确率和召回率的调和平均值;
判断准确率、精确率、召回率和F-值是否分别满足预设要求:
当准确率、精确率、召回率和F-值均满足预设要求时,所述语音溯源取证模型用于从所述第一融合声学特征中提取帧级别的算法指纹特征、对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法。
8.一种语音溯源取证装置,其特征在于,包括:
提取模块,其用于提取待测试语音的至少两种不同的声学特征;
融合模块,其用于对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;
预测模块,其用于基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;
取证模块,其用于将预测出的待测试语音的生成算法作为语音溯源取证结果,其中,溯源取证是指查证生成语音的生成来源或者生成方法,
其中,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法,包括:
将所述第一融合声学特征输入预先训练的语音溯源取证模型的帧级别的算法指纹提取器中,输出帧级别的算法指纹特征;将帧级别的算法指纹特征输入至注意力统计池化层,输出帧级别的算法指纹特征的加权平均向量和加权标准差向量;将帧级别的算法指纹特征的加权平均向量和加权标准差向量输入段级别的算法指纹提取器,输出段级别的算法指纹特征及其对应的生成算法。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一项所述的语音溯源取证方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的语音溯源取证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210859678.XA CN115083422B (zh) | 2022-07-21 | 2022-07-21 | 语音溯源取证方法及装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210859678.XA CN115083422B (zh) | 2022-07-21 | 2022-07-21 | 语音溯源取证方法及装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115083422A CN115083422A (zh) | 2022-09-20 |
CN115083422B true CN115083422B (zh) | 2022-11-15 |
Family
ID=83242760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210859678.XA Active CN115083422B (zh) | 2022-07-21 | 2022-07-21 | 语音溯源取证方法及装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083422B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116153337B (zh) * | 2023-04-20 | 2023-07-21 | 北京中电慧声科技有限公司 | 合成语音溯源取证方法及装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN114267329A (zh) * | 2021-12-24 | 2022-04-01 | 厦门大学 | 基于概率生成和非自回归模型的多说话人语音合成方法 |
CN114420100A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
CN114420135A (zh) * | 2021-12-10 | 2022-04-29 | 江苏清微智能科技有限公司 | 基于注意力机制的声纹识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
-
2022
- 2022-07-21 CN CN202210859678.XA patent/CN115083422B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN114420135A (zh) * | 2021-12-10 | 2022-04-29 | 江苏清微智能科技有限公司 | 基于注意力机制的声纹识别方法及装置 |
CN114267329A (zh) * | 2021-12-24 | 2022-04-01 | 厦门大学 | 基于概率生成和非自回归模型的多说话人语音合成方法 |
CN114420100A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115083422A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610707B (zh) | 一种声纹识别方法及装置 | |
Balamurali et al. | Toward robust audio spoofing detection: A detailed comparison of traditional and learned features | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
KR102198273B1 (ko) | 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 | |
CN109408660B (zh) | 一种基于音频特征的音乐自动分类的方法 | |
US20110093427A1 (en) | System and method for tagging signals of interest in time variant data | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN110428845A (zh) | 合成音频检测方法、系统、移动终端及存储介质 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN110111798B (zh) | 一种识别说话人的方法、终端及计算机可读存储介质 | |
CN107507626A (zh) | 一种基于语音频谱融合特征的手机来源识别方法 | |
CN111192601A (zh) | 音乐标注方法、装置、电子设备及介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN115083422B (zh) | 语音溯源取证方法及装置、设备及存储介质 | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
CN112885330A (zh) | 一种基于低资源音频的语种识别方法及系统 | |
Mandalapu et al. | Multilingual voice impersonation dataset and evaluation | |
CN108766465B (zh) | 一种基于enf通用背景模型的数字音频篡改盲检测方法 | |
CN115376498A (zh) | 语音识别方法、模型训练方法、装置、介质、电子设备 | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
Patil et al. | Content-based audio classification and retrieval: A novel approach | |
Tsai et al. | Bird species identification based on timbre and pitch features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |