CN116153337B - 合成语音溯源取证方法及装置、电子设备及存储介质 - Google Patents
合成语音溯源取证方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116153337B CN116153337B CN202310423246.9A CN202310423246A CN116153337B CN 116153337 B CN116153337 B CN 116153337B CN 202310423246 A CN202310423246 A CN 202310423246A CN 116153337 B CN116153337 B CN 116153337B
- Authority
- CN
- China
- Prior art keywords
- voice
- features
- training
- evidence obtaining
- traceability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000013507 mapping Methods 0.000 claims abstract description 67
- 230000004927 fusion Effects 0.000 claims abstract description 62
- 238000012360 testing method Methods 0.000 claims abstract description 51
- 230000009466 transformation Effects 0.000 claims abstract description 27
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 3
- 230000019771 cognition Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005242 forging Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提出了一种合成语音溯源取证方法及装置、电子设备及存储介质,方法包括:S1,对待测试语音进行采样率规整处理;S2,对规整后的测试语音提取至少两种不同的、多时频分辨率的声学特征;S3,基于预先训练好的合成语音溯源取证模型,从每种声学特征中提取语音生成手段的鉴别特征,基于得到的多种鉴别特征获得融合特征,对融合特征进行核零Foley ‑Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;S4,将识别出的待测试语音的生成手段作为溯源取证结果。本发明不仅可以实现对训练阶段已知生成手段的精准溯源,还可以实现对未知生成手段的自主认知以及溯源模型的增量式学习,弥补了当前闭集溯源方法的不足。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种合成语音溯源取证方法及装置、电子设备及存储介质。
背景技术
近年来,随着人工智能技术的快速发展,以语音合成和音色转换为代表的智能语音生成技术实现了飞跃式发展。目前,合成语音的自然度和相似度不断提升,在某些条件下与真人发音水平不相上下。智能语音生成技术在为智能交互应用或设备提供便利的同时,也给信息认知、社会安全等方面带来了威胁,如在网络平台广泛传播的伪造音视频、电信诈骗中广泛应用的变声工具。
当前,为了对抗语音生成技术,国内外都开展了语音鉴伪或合成语音检测技术的研究工作,寻找可靠手段区分真实语音与伪造语音。而在实际应用中,公检法等在违法取证时,在鉴别语音真伪的基础上,还需要进一步进行伪造语音生成来源的追溯,但语音鉴伪或合成语音检测技术无法满足这一需求。因此,在研究合成语音检测技术的同时,十分有必要研究合成语音溯源取证技术。
相关技术(CN115083422A)中,提出了一种有效的语音溯源取证方法,但其在溯源模型训练过程中,“基于已知语音的生成算法预测结果与实际生成算法,通过预设的损失函数计算损失函数值”,“与最后一个全连接层连接的输出层是一个softmax层,它的每个输出节点对应一个算法ID”,并没有考虑未知语音生成手段,本质上属于闭集识别模型,难以自主地对未知手段生成的语音进行认知;在应用中需要通过人工发现新伪造手段、更新模型后具备适应更多伪造手段的能力。
由于语音生成技术具有广阔的市场需求,语音生成手段与方法层出不穷,在溯源模型训练阶段难以囊括全部生成手段,而在模型应用阶段可能会经常遇到未知生成手段(不属于任何一种训练样本中包含的手段类别),打破了闭集识别算法得以有效实施的前提条件,从而无法自主认知新的生成手段、导致溯源性能不佳。
发明内容
本发明要解决的技术问题是如何实现合成语音的开集溯源,本发明提出一种合成语音溯源取证方法及装置、电子设备及存储介质。
根据本发明实施例的合成语音溯源取证方法,包括:
S1,对待测试语音进行采样率预处理,得到规整后的测试语音;
S2,对规整后的所述测试语音提取至少两种不同的、多时频分辨率的声学特征;
S3,基于预先训练好的合成语音溯源取证模型,从每种所述声学特征中提取语音生成手段的鉴别特征,对得到的多种所述鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;
S4,将识别出的待测试语音的生成手段作为溯源取证结果。
根据本发明的一些实施例,所述合成语音溯源取证模型包括依次连接的鉴别特征提取器、特征融合器和特征识别器;
其中,所述鉴别特征提取器包括相互连接的多个卷积层、注意力网络和残差网络;所述特征融合器包括依次连接的注意力统计池化层和多个全连接层;所述特征识别器包括依次连接的核零Foley -Sammon变换和偏离度度量层。
在本发明的一些实施例中,所述合成语音溯源取证模型通过以下步骤训练得到:
获取预设采样频率的训练语音数据集;
从所述训练语音数据集提取训练语音的至少两种不同的、多时频分辨率的声学特征;
将所述声学特征输入训练前的合成语音溯源取证模型的鉴别特征提取器中,输出训练语音的至少两种不同的鉴别特征;
将所述鉴别特征输入特征融合器,输出训练语音的融合特征;
将所述融合特征输入特征识别器,输出训练语音融合特征的零空间映射特征和对应的零空间变换矩阵;
基于不同生成手段和相同生成手段下的训练语音的映射特征向量,通过预设的损失函数计算损失函数值,根据所述损失函数值调整鉴别特征提取器、特征融合器的权重参数和特征识别器的零空间变换矩阵,直到损失函数值满足预设条件为止。
根据本发明的一些实施例,所述融合特征的生成方法具体包括:
对至少两种不同的所述鉴别特征进行归一化处理并串联;
将串联后的所述鉴别特征输入注意力模型,得到鉴别特征的归一化权重系数;
根据权重系数和训练语音的鉴别特征得到加权平均向量和加权标准差向量;
将得到的加权平均向量和加权标准差向量输入给多个全连接层,输出训练语音的融合特征。
在本发明的一些实施例中,所述合成语音溯源取证模型训练完成后,所述方法还包括:
对于给定的训练语音数据集,计算各个类别生成手段下的训练语音的零空间映射特征的均值,作为对应类别生成手段的初始零空间映射中心特征;
对于给定的验证语音数据集,输入所述合成语音溯源取证模型,输出验证语音的零空间映射特征;
计算每种类别生成手段下的验证语音的零空间映射特征与对应类别的初始零空间映射中心特征的欧式距离作为偏离度得分;
取所有验证语音的偏离度得分的预设倍数作为合成语音溯源取证模型的判定阈值;
对于给定的测试语音数据集,输入所述合成语音溯源取证模型,输出测试语音的零空间映射特征;
对于任一条测试语音,计算所述测试语音的零空间映射特征与各个类别生成手段的初始零空间映射中心特征间的偏离度得分,若所述测试语音与其中一类别的偏离度得分小于等于判定阈值,则认为所述测试语音的生成手段为对应类别生成手段;若所述测试语音的零空间映射特征与所有类别生成手段的初始零空间映射中心特征的偏离度得分都大于判定阈值,则认为所述测试语音的生成手段是训练数据中不包含的、一种新的语音生成手段。
根据本发明的一些实施例,所述合成语音溯源取证模型训练完成后,所述方法还包括:
对于给定的测试语音数据集,计算所述合成语音溯源取证模型的准确率、精确率和召回率;
根据预设的准确率、精确率和召回率指标,检验当前训练好的合成语音溯源取证模型的性能指标是否满足要求。
在本发明的一些实施例中,所述方法还包括:
在合成语音溯源取证模型使用过程中发现的新的语音生成手段时,将对应的语音数据加入到训练语音数据集中,对合成语音溯源取证模型进行增量式学习训练。
根据本发明实施例的合成语音溯源取证装置,包括:
采样率规整模块,用于对待测试语音进行采样率预处理,得到规整后的测试语音;
特征提取模块,用于对规整后的测试语音提取至少两种不同的、多时频分辨率的声学特征;
特征识别模块,用于基于预先训练好的合成语音溯源取证模型,从每种所述声学特征中提取语音生成手段的鉴别特征,对得到的多种鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;
溯源取证模块,用于将识别出的待测试语音的生成手段作为溯源取证结果。
根据本发明实施例的电子设备,包括:存储器、处理器、通信接口和通信总线,其中,存储器、处理器、通信接口相互间通过通信总线来完成通信工作;存储器,用于存放合成语音溯源取证任务相关的计算机程序和数据;处理器,用于执行存储器中所存放的计算机程序,实现如上所述的合成语音溯源取证方法。
根据本发明实施例的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的合成语音溯源取证方法。
本发明具有如下有益效果:
本发明利用语音生成手段的鉴别特征,不仅可以鉴别语音的真伪,还可以进一步进行伪造语音生成来源的追溯,满足公检法等取证部门对于语音伪造证据的需求。
本发明提出一种基于开集识别模型的合成语音溯源取证方法,解决取证过程中可能存在未知语音生成手段的问题,不仅实现对训练阶段已知生成手段的精准溯源,还可以实现对未知生成手段的自主认知以及溯源模型的增量式学习,弥补了当前闭集溯源方法的不足。
本发明通过调整模型训练中的数据标签类型,可以实现对语音生成算法、语音生成公司以及语音生成原理等层面的溯源取证。
附图说明
图1为根据本发明实施例的合成语音溯源取证方法的流程示意图;
图2为根据本发明实施例的合成语音溯源取证模型的结构示意图;
图3为根据本发明实施例的鉴别特征提取器的结构示意图;
图4为根据本发明实施例的特征融合器的结构示意图;
图5为根据本发明实施例的特征识别器的处理流程示意图;
图6为根据本发明实施例的合成语音溯源取证装置的结构框图;
图7为根据本发明实施例的电子设备结构框图。
附图标记:
采样率规整模块11,特征提取模块12,特征识别模块13,溯源取证模块14,处理器1110,通信接口1120,存储器1130。
实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了便于对本发明方案的理解,对本发明中涉及的技术术语解释如下:
开集场景:识别目标的种类是开放的,由训练数据中包含的类别和未知的类别组成。理论上,现有训练模型只能识别训练数据中有的类别。
本发明提出的合成语音溯源取证方法,通过训练开集识别模型,可以实现对已知生成手段的精准溯源、未知生成手段的自主认知、以及溯源模型的增量式学习。
本发明的整体思路为:在模型训练阶段,首先对收集到的生成语音数据集进行采样频率规整,根据语音数据的生成手段或者来源进行标签标注,并将数据集拆分为训练、验证和测试集;然后提取训练语音数据集的声学特征,作为合成语音溯源取证模型训练的输入数据;通过多轮训练和测试得到训练好的合成语音溯源取证模型。在模型测试和使用阶段,对待测试语音数据提取声学特征,输入到训练好的合成语音溯源取证模型中,输出待测试语音的生成手段或者来源。这里,生成语音数据集来自于多种语音合成技术生成的语音或者语音转换技术生成的语音。
参见图1,本发明的实施例提供了一种合成语音溯源取证方法,包括以下步骤:
S1,对待测试语音进行采样频率规整,得到规整后的测试语音;
由于在语音信号处理中会依据采样率信息进行声学特征提取,而在实际应用中,待检测语音的采样率多种多样。目前,网络通道的采样频率一般有11025Hz、22050Hz、24000Hz、44100Hz、48000Hz等,电话、卫星等通道的采样频率一般为8000Hz。考虑到语音信号的有效频段在8000Hz内,因此,本发明在对采样率预处理中,将采样频率高于16kHz的音频统一降采样到16kHz,采样频率介于8~16kHz的音频统一采样到8kHz。
S2,对规整后的测试语音提取至少两种不同的、多时频分辨率的声学特征;
由于不同声学特征是从不同角度提取的语音信息,相互间具有一定的互补作用,有助于提升模型的溯源性能。同时,在具体特征提取过程中,不同帧长和帧移设置下的特征时频分辨率,也包含一定的补充信息。因此,本发明在每种声学特征提取中,设置三种不同的帧长帧移组合。
在具体应用场景下,多时频分辨率的声学特征通过设置不同的帧长和帧移组合获得,可以从:帧长20ms-帧移10ms、帧长25ms-帧移10ms、帧长25ms-帧移5ms、帧长30ms-帧移10ms、帧长50ms-帧移12.5ms、帧长64ms-帧移8ms中选取得到。
在具体应用场景下,多时频分辨率的声学特征可以在帧长25ms-帧移10ms和帧长50ms-帧移12.5ms的设置下计算得到。
在具体应用场景下,至少两种不同的声学特征可以从线性频率倒谱系数(LFCC,Linear Frequency Cepstral Coefficient)、常数Q变换倒谱系数(CQCC, Constant-QCepstral Coefficient)、对数功率谱、梅尔倒谱系数(MFCC,Mel-Frequency CepstralCoefficient)、线性预测系数、对数谱、幅度谱中选取得到。
在具体应用场景下,至少两种不同的声学特征可以是线性频率倒谱特征和常数Q变换倒谱系数。其中,线性频率倒谱系数的提取方法为:首先对语音信号进行短时傅里叶变换并计算出幅度谱,然后通过三角滤波器并取对数,最后通过离散余弦变换并计算一阶、二阶导数,得到线性频率倒谱系数。常数Q变换倒谱系数的提取方法为:首先对语音信号进行常数Q变换,然后在倒谱分析中利用离散余弦变换并计算一阶、二阶导数,得到常数Q变换倒谱系数。
在具体应用场景下,至少两种不同的、多分辨率的声学特征,具体提取方法为:首先确定多时频分辨率的帧长-帧移设置,基于该设置对语音信号进行预加重、分帧、加窗等预处理工作;然后对预处理后的语音信号提取声学特征,将不同时频分辨率下提取到的同种特征进行拼接(保持特征维度不变),最后得到至少两种不同的、多分辨率的声学特征。
S3,基于预先训练好的合成语音溯源取证模型,从每种声学特征中进一步提取语音生成手段的鉴别特征,对得到的多种鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;
在具体应用场景下,鉴别特征是指对不同语音生成手段具有区分度的特征,融合特征是指将多种鉴别特征融合后的特征,语音的生成手段是指用于语音合成或语音转换的方法。
参见图2,合成语音溯源取证模型包括依次连接的鉴别特征提取器、特征融合器、特征识别器;鉴别特征提取器包括相互连接的多个卷积层、注意力网络和残差网络;特征融合器包括依次连接的注意力统计池化层和多个全连接层;特征识别器包括依次连接的核零Foley -Sammon变换和偏离度度量层。
以至少两种不同的、多分辨率的声学特征,是在帧长25ms-帧移10ms和帧长50ms-帧移12.5ms的设置下计算得到的线性频率倒谱系数和常数Q变换倒谱系数为例,解释本发明的合成语音溯源取证方法:
首先,两种不同分辨率下分别得到大小为D×M1和D×M2的线性频率倒谱系数特征,将特征进行拼接得到D×(M1+M2)的线性频率倒谱系数特征;两种不同分辨率下分别得到大小为N×M1和N×M2的常数Q变换倒谱系数特征,将特征进行拼接得到N×(M1+M2)的常数Q变换倒谱系数特征。参见图2,声学特征1为D×(M1+M2)的线性频率倒谱系数特征,声学特征2为N×(M1+M2)的常数Q变换倒谱系数特征。
然后,将线性频率倒谱系数特征和常数Q变换倒谱系数特征分别作为鉴别特征提取器的输入,得到鉴别特征q 1 和鉴别特征q 2 。参见图3,鉴别特征提取器由互相连接的多个1×1卷积层、3×3卷积层、通道注意力模块、残差网络构成。其中,通道注意力模块可以从SENet(Squeeze-and-Excitation Network)、ECANet(Efficient Channel AttentionNetwork)、SKNet(Selective Kernel Network)、CBAM(Convolutional Block AttentionModule)中选取得到。
在具体应用场景下,通道注意力模块可以是SENet。
再然后,参见图4,特征融合器包括依次连接的注意力统计池化层和多个全连接层,其中,注意力统计池化层包括注意力模型和注意统计池化层。将上述得到的鉴别特征Q1和鉴别特征Q2拼接后通过注意力模型得到特征的权重系数;将权重参数和拼接后的鉴别特征作为注意力统计池化层的输入,输出鉴别特征的加权平均向量和加权标准差向量;再将得到的鉴别特征的加权平均向量和加权标准差向量输入给多个依次连接的全连接层,从最后一个全连接层输出融合特征。
最后,参见图5,特征识别器包括依次连接的核零Foley -Sammon变换和偏离度度量层,将得到的待测试语音的融合特征作为生成语音溯源取证模型中的核零Foley -Sammon变换矩阵的输入,输出待测试语音的零空间映射特征;基于生成语音溯源取证模型中各种类别生成手段的最优零空间映射中心特征,计算待测试语音零空间映射特征与各类别最优零空间映射中心特征间的欧氏距离作为偏离度得分,并通过与生成语音溯源取证模型的判定阈值进行比对,获得待测试语音的生成手段标签。
在具体应用场景下,语音生成手段标签可以有不同层面的类型,可以是语音合成和语音转换的算法类别,包括基于Straight声码器,World声码器,LPCNet声码器,WaveNet声码器,WaveRNN声码器,HiFiGAN声码器,PWG声码器,MelGan声码器,StyleGan声码器等对应的语音合成和语音转换算法;可以是各个语音生成方法大类,如语音合成、语音转换、波形拼接、音频篡改等;也可以是语音生成手段的来源,如各语音技术厂商,如微软、讯飞、百度、标贝科技、搜狗、阿里等。以上这些类型都可以通过提取特征与模型训练来进行溯源取证。
在本实施例中,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段,包括:
基于训练好的生成语音溯源取证模型的核零Foley -Sammon变换矩阵,将待测试语音的融合特征进行变换得到待测试语音的零空间映射特征;
基于训练好的生成语音溯源取证模型中各种类别生成手段的最优零空间映射中心特征,计算待测试语音的零空间映射特征与所有类别生成手段的最优零空间映射中心特征间的欧式距离,取最小距离作为待测试语音的偏离度得分;
将待测试语音的偏离度得分与训练好的生成语音溯源取证模型的判定阈值进行比对,若偏离度得分大于判定阈值,则待测试语音的生成手段是一种新的、不包含在训练数据集中的手段;若偏离度得分不大于判定阈值,则使偏离度得分最小的最优零空间映射中心特征所对应的手段,就是待测试语音的生成手段。
S4,将识别出的待测试语音的生成手段作为溯源取证结果。
在具体应用场景下,溯源取证是指查证出待测试语音的生成来源或者生成手段与方法。
在本实施例中,步骤S3中,合成语音溯源取证模型通过以下步骤训练得到:
分别准备采样频率为8kHz和16kHz的训练语音数据集,分别训练两个模型,每个模型的训练步骤相同;
提取训练语音的至少两种不同的、多时频分辨率的声学特征;
将至少两种不同的声学特征输入给训练前的合成语音溯源取证模型的鉴别特征提取器中,输出训练语音的至少两种不同的鉴别特征;
将训练语音的鉴别特征输入给特征融合器,输出训练语音的融合特征;
将训练语音的融合特征输入给特征识别器,输出训练语音融合特征的零空间映射特征及其对应的零空间变换矩阵;
基于不同生成手段和相同生成手段下的训练语音的映射特征向量,通过预设的损失函数计算损失函数值,根据所述损失函数值调整鉴别特征提取器、特征融合器的权重参数和特征识别器的零空间变换矩阵,直到损失函数值满足预设条件为止,
其中,损失函数为:
;
其中,d w 为相同类别生成手段训练语音的特征向量间的欧氏距离总和,d B 为不同类别生成手段训练语音的特征向量间的欧式距离总和,这里的特征向量由所述融合特征经过核零Foley -Sammon变换得到。ε为0~1e-6间的常数;α和β均为0~1间的常数。
其中,在合成语音溯源取证模型的训练过程中,训练epoch轮数设置为100,采用自适应矩估计(Adam)优化器,采用变化的学习率,1~30轮数内学习率为0.003,后面每10个epoch学习率线性衰减0.2倍,训练批数据大小为64。
在本实施例中,从每种声学特征中进一步提取语音生成手段的鉴别特征,包括:
将每种声学特征输入至预先训练好的生成语音溯源取证模型的鉴别特征提取器中,输出每种声学特征所对应的鉴别特征,至少两种不同的声学特征将得到至少两种不同的鉴别特征。
在本实施例中,对得到的多种鉴别特征进行注意力统计池化处理得到融合特征,包括:
对至少两种不同的鉴别特征进行归一化处理并串联;
将串联后的鉴别特征输入给注意力模型,得到鉴别特征的归一化权重系数;
根据权重系数和训练语音的鉴别特征得到加权平均向量和加权标准差向量;
将得到的加权平均向量和加权标准差向量输入给多个全连接层,输出语音的融合特征。
在本实施例中,特征识别器包括依次连接的核零Foley -Sammon变换和偏离度度量层,将训练语音融合特征进行核零Foley -Sammon变换,输出训练语音融合特征的零空间映射特征及其对应的零空间变换矩阵,包括:
将训练语音的融合特征输入到核零Foley -Sammon变换,输出融合特征的零空间映射特征及其对应的零空间变换矩阵;
基于训练语音的零空间映射特征,计算相同类别生成手段下训练语音零空间映射特征间的欧式距离总和,以及不同类别生成手段下训练语音零空间映射特征间的欧式距离总和;
将计算得到的距离总和作为训练损失函数的输入,输出当前模型的训练损失函数值。
在本实施例中,合成语音溯源取证模型训练完成后,方法还包括通过以下步骤确定效果最佳的模型:
对于给定的训练语音数据集T,计算各个类别生成手段下的训练语音的零空间映射特征的均值,作为该类别生成手段的初始零空间映射中心特征;
对于给定的验证语音数据集D(所有语音的生成手段均包括在训练数据集内),输入给合成语音溯源取证模型,输出验证语音的零空间映射特征;
计算每种类别生成手段下的验证语音的零空间映射特征与该类别的初始零空间映射中心特征的欧式距离作为偏离度得分;
取所有验证语音的偏离度得分的5倍作为合成语音溯源取证模型的判定阈值;
对于给定的测试语音数据集E(包含部分未知生成手段的语音),输入给合成语音溯源取证模型,输出测试语音的零空间映射特征;
对于任一条测试语音,计算其零空间映射特征与各个类别生成手段的初始零空间映射中心特征间的欧式距离,取最小的欧式距离待测试语音与训练各类别生成手段间的偏离度得分,若偏离度得分不大于判定阈值,则使偏离度得分最小的最优零空间映射中心特征所对应的手段,就是待测试语音的生成手段;若偏离度得分大于判定阈值,则待测试语音的生成手段是一种新的、不包含在训练数据集中的手段。
对于给定的测试语音数据集E,计算合成语音溯源取证模型的准确率、精确率和召回率,其中准确率定义为数据集E中被正确识别的样本数与总测试样本数的比值,精确率定义为数据集E中被识别为正的样本中实际是正样本的比例,召回率定义为数据集E中实际正样本被识别为正的比例;
根据事先预设好的准确率、精确率和召回率指标,检验当前训练好的合成语音溯源取证模型的性能指标是否满足要求;
当模型的准确率、精确率和召回率指标满足要求时,认为当前模型满足可用要求,可用于从每种声学特征中进一步提取语音生成手段的鉴别特征,对得到的多种鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段。
在本实施例中,合成语音溯源取证模型训练完成后,方法还包括通过下述方法确定模型的参数:
基于满足准确率、精确率和召回率指标要求的合成语音溯源取证模型,对于给定的训练语音数据集T,计算各个类别生成手段下的训练语音的零空间映射特征的均值,作为该类别生成手段的最优零空间映射中心特征;
对于给定的验证语音数据集D(所有语音的生成手段均包括在训练数据集内),输入给合成语音溯源取证模型,输出验证语音的零空间映射特征;
计算每种类别生成手段下的验证语音的零空间映射特征与该类别的最优零空间映射中心特征的欧式距离作为偏离度得分;
取所有验证语音的偏离度得分的5倍作为合成语音溯源取证模型的最优判定阈值;
对于任意待测试语音,输入给合成语音溯源取证模型,输出测试语音的零空间映射特征;
计算测试语音的零空间映射特征与各个类别生成手段的最优零空间映射中心特征间的偏离度得分,若其与类别k的偏离度得分小于等于最优判定阈值,则认为该条测试语音的生成手段为k;若其零空间映射特征与所有类别生成手段的最优零空间映射中心特征的偏离度得分都大于最优判定阈值,则认为该条验证语音的生成手段是训练数据中不包含的、一种新的语音生成手段,从而实现对合成语音生成手段的识别。
在本实施例中,合成语音溯源取证模型训练完成后,方法还包括通过下述方法实现模型的增量式学习:
在合成语音溯源取证模型使用过程中发现的新的语音生成手段,收集该手段生成的语音数据加入到训练语音数据集中,对合成语音溯源取证模型进行增量式学习训练,不断扩充模型的溯源取证能力。
参见图6,本发明的实施例提供了一种合成语音溯源取证装置,包括:采样率规整模块11、特征提取模块12、特征识别模块13和溯源取证模块14。
其中,采样率规整模块11用于对待测试语音进行采样率预处理,规整到统一采样率;
特征提取模块12用于对规整后的测试语音提取至少两种不同的、多时频分辨率的声学特征;
特征识别模块13用于基于预先训练好的合成语音溯源取证模型,从每种声学特征中进一步提取语音生成手段的鉴别特征,对得到的多种鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;
溯源取证模块14用于将识别出的待测试语音的生成手段作为溯源取证结果。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
根据本发明实施例的电子设备,包括:存储器、处理器、通信接口和通信总线,其中,存储器、处理器、通信接口相互间通过通信总线来完成通信工作;存储器,用于存放合成语音溯源取证任务相关的计算机程序和数据;处理器,用于执行存储器中所存放的计算机程序,实现如上所述的合成语音溯源取证方法实现步骤,在此不再赘述。
根据本发明实施例的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的合成语音溯源取证方法实现步骤,在此不再赘述。
综上所述,本发明利用语音生成手段的鉴别特征,不仅可以鉴别语音的真伪,还可以进一步进行伪造语音生成来源的追溯,满足公检法等取证部门对于语音伪造证据的需求。
本发明提出一种基于开集识别模型的合成语音溯源取证方法,解决取证过程中可能存在未知语音生成手段的问题,不仅实现对训练阶段已知生成手段的精准溯源,还可以实现对未知生成手段的自主认知以及溯源模型的增量式学习,弥补了当前闭集溯源方法的不足。
本发明通过调整模型训练中的数据标签类型,可以实现对语音生成算法、语音生成公司以及语音生成原理等层面的溯源取证。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (7)
1.一种合成语音溯源取证方法,其特征在于,包括:
S1,对待测试语音进行采样率预处理,得到规整后的测试语音;
S2,对规整后的所述测试语音提取至少两种不同的、多时频分辨率的声学特征;
S3,基于预先训练好的合成语音溯源取证模型,从每种所述声学特征中提取语音生成手段的鉴别特征,对得到的多种所述鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;
S4,将识别出的待测试语音的生成手段作为溯源取证结果;
所述合成语音溯源取证模型包括依次连接的鉴别特征提取器、特征融合器和特征识别器;
其中,所述鉴别特征提取器包括相互连接的多个卷积层、注意力网络和残差网络;所述特征融合器包括依次连接的注意力统计池化层和多个全连接层;所述特征识别器包括依次连接的核零Foley -Sammon变换和偏离度度量层;
所述合成语音溯源取证模型通过以下步骤训练得到:
获取预设采样频率的训练语音数据集;
从所述训练语音数据集提取训练语音的至少两种不同的、多时频分辨率的声学特征;
将所述声学特征输入训练前的合成语音溯源取证模型的鉴别特征提取器中,输出训练语音的至少两种不同的鉴别特征;
将所述鉴别特征输入特征融合器,输出训练语音的融合特征;
将所述融合特征输入特征识别器,输出训练语音融合特征的零空间映射特征和对应的零空间变换矩阵;
基于不同生成手段和相同生成手段下的训练语音的映射特征向量,通过预设的损失函数计算损失函数值,根据所述损失函数值调整鉴别特征提取器、特征融合器的权重参数和特征识别器的零空间变换矩阵,直到损失函数值满足预设条件为止;
所述合成语音溯源取证模型训练完成后,所述方法还包括:
对于给定的训练语音数据集,计算各个类别生成手段下的训练语音的零空间映射特征的均值,作为对应类别生成手段的初始零空间映射中心特征;
对于给定的验证语音数据集,输入所述合成语音溯源取证模型,输出验证语音的零空间映射特征;
计算每种类别生成手段下的验证语音的零空间映射特征与对应类别的初始零空间映射中心特征的欧式距离作为偏离度得分;
取所有验证语音的偏离度得分的预设倍数作为合成语音溯源取证模型的判定阈值;
对于给定的测试语音数据集,输入所述合成语音溯源取证模型,输出测试语音的零空间映射特征;
对于任一条测试语音,计算所述测试语音的零空间映射特征与各个类别生成手段的初始零空间映射中心特征间的偏离度得分,若所述测试语音与其中一类别的偏离度得分小于等于判定阈值,则认为所述测试语音的生成手段为对应类别生成手段;若所述测试语音的零空间映射特征与所有类别生成手段的初始零空间映射中心特征的偏离度得分都大于判定阈值,则认为所述测试语音的生成手段是训练数据中不包含的、一种新的语音生成手段。
2.根据权利要求1所述的合成语音溯源取证方法,其特征在于,所述融合特征的生成方法具体包括:
对至少两种不同的所述鉴别特征进行归一化处理并串联;
将串联后的所述鉴别特征输入注意力模型,得到鉴别特征的归一化权重系数;
根据权重系数和训练语音的鉴别特征得到加权平均向量和加权标准差向量;
将得到的加权平均向量和加权标准差向量输入给多个全连接层,输出训练语音的融合特征。
3.根据权利要求1所述的合成语音溯源取证方法,其特征在于,所述合成语音溯源取证模型训练完成后,所述方法还包括:
对于给定的测试语音数据集,计算所述合成语音溯源取证模型的准确率、精确率和召回率;
根据预设的准确率、精确率和召回率指标,检验当前训练好的合成语音溯源取证模型的性能指标是否满足要求。
4.根据权利要求1所述的合成语音溯源取证方法,其特征在于,所述方法还包括:
在合成语音溯源取证模型使用过程中发现的新的语音生成手段时,将对应的语音数据加入到训练语音数据集中,对合成语音溯源取证模型进行增量式学习训练。
5.一种合成语音溯源取证装置,其特征在于,包括:
采样率规整模块,用于对待测试语音进行采样率预处理,得到规整后的测试语音;
特征提取模块,用于对规整后的测试语音提取至少两种不同的、多时频分辨率的声学特征;
特征识别模块,用于基于预先训练好的合成语音溯源取证模型,从每种所述声学特征中提取语音生成手段的鉴别特征,对得到的多种鉴别特征进行注意力统计池化处理得到融合特征,对融合特征进行核零Foley -Sammon变换得到零空间映射特征,基于零空间映射特征识别出待测试语音的生成手段;
溯源取证模块,用于将识别出的待测试语音的生成手段作为溯源取证结果;
所述合成语音溯源取证模型包括依次连接的鉴别特征提取器、特征融合器和特征识别器;
其中,所述鉴别特征提取器包括相互连接的多个卷积层、注意力网络和残差网络;所述特征融合器包括依次连接的注意力统计池化层和多个全连接层;所述特征识别器包括依次连接的核零Foley -Sammon变换和偏离度度量层;
所述合成语音溯源取证模型通过以下步骤训练得到:
获取预设采样频率的训练语音数据集;
从所述训练语音数据集提取训练语音的至少两种不同的、多时频分辨率的声学特征;
将所述声学特征输入训练前的合成语音溯源取证模型的鉴别特征提取器中,输出训练语音的至少两种不同的鉴别特征;
将所述鉴别特征输入特征融合器,输出训练语音的融合特征;
将所述融合特征输入特征识别器,输出训练语音融合特征的零空间映射特征和对应的零空间变换矩阵;
基于不同生成手段和相同生成手段下的训练语音的映射特征向量,通过预设的损失函数计算损失函数值,根据所述损失函数值调整鉴别特征提取器、特征融合器的权重参数和特征识别器的零空间变换矩阵,直到损失函数值满足预设条件为止;
所述合成语音溯源取证模型训练完成后,还包括:
对于给定的训练语音数据集,计算各个类别生成手段下的训练语音的零空间映射特征的均值,作为对应类别生成手段的初始零空间映射中心特征;
对于给定的验证语音数据集,输入所述合成语音溯源取证模型,输出验证语音的零空间映射特征;
计算每种类别生成手段下的验证语音的零空间映射特征与对应类别的初始零空间映射中心特征的欧式距离作为偏离度得分;
取所有验证语音的偏离度得分的预设倍数作为合成语音溯源取证模型的判定阈值;
对于给定的测试语音数据集,输入所述合成语音溯源取证模型,输出测试语音的零空间映射特征;
对于任一条测试语音,计算所述测试语音的零空间映射特征与各个类别生成手段的初始零空间映射中心特征间的偏离度得分,若所述测试语音与其中一类别的偏离度得分小于等于判定阈值,则认为所述测试语音的生成手段为对应类别生成手段;若所述测试语音的零空间映射特征与所有类别生成手段的初始零空间映射中心特征的偏离度得分都大于判定阈值,则认为所述测试语音的生成手段是训练数据中不包含的、一种新的语音生成手段。
6.一种电子设备,其特征在于,包括:存储器、处理器、通信接口和通信总线,其中,存储器、处理器、通信接口相互间通过通信总线来完成通信工作;存储器,用于存放合成语音溯源取证任务相关的计算机程序和数据;处理器,用于执行存储器中所存放的计算机程序,实现如权利要求1-4中任一项所述的合成语音溯源取证方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的合成语音溯源取证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423246.9A CN116153337B (zh) | 2023-04-20 | 2023-04-20 | 合成语音溯源取证方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423246.9A CN116153337B (zh) | 2023-04-20 | 2023-04-20 | 合成语音溯源取证方法及装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116153337A CN116153337A (zh) | 2023-05-23 |
CN116153337B true CN116153337B (zh) | 2023-07-21 |
Family
ID=86351001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310423246.9A Active CN116153337B (zh) | 2023-04-20 | 2023-04-20 | 合成语音溯源取证方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116153337B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016051A (zh) * | 2024-04-07 | 2024-05-10 | 中国科学院自动化研究所 | 基于模型指纹聚类的生成语音溯源方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11190996A (ja) * | 1997-08-15 | 1999-07-13 | Shingo Igarashi | 合成音声判別システム |
CN102316204A (zh) * | 2011-05-04 | 2012-01-11 | 北京中久联科技有限公司 | Rfid语音溯源认证方法和装置 |
CN109769099B (zh) * | 2019-01-15 | 2021-01-22 | 三星电子(中国)研发中心 | 通话人物异常的检测方法和装置 |
CN114520001A (zh) * | 2022-03-22 | 2022-05-20 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN115083422B (zh) * | 2022-07-21 | 2022-11-15 | 中国科学院自动化研究所 | 语音溯源取证方法及装置、设备及存储介质 |
-
2023
- 2023-04-20 CN CN202310423246.9A patent/CN116153337B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116153337A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111276131B (zh) | 一种基于深度神经网络的多类声学特征整合方法和系统 | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN109065027B (zh) | 语音区分模型训练方法、装置、计算机设备及存储介质 | |
Tiwari | MFCC and its applications in speaker recognition | |
CN107068154A (zh) | 基于声纹识别的身份验证的方法及系统 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
KR102198273B1 (ko) | 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 | |
CN102419974A (zh) | 处理语音识别的稀疏表示特征的方法和系统 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN115083422B (zh) | 语音溯源取证方法及装置、设备及存储介质 | |
Dave et al. | Speech recognition: A review | |
CN112035700B (zh) | 一种基于cnn的语音深度哈希学习方法及系统 | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
Al-Rawahy et al. | Text-independent speaker identification system based on the histogram of DCT-cepstrum coefficients | |
CN114333770A (zh) | 自动发音评估方法、装置、设备及存储介质 | |
Wu et al. | Audio-based expansion learning for aerial target recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |