CN113555023A - 一种语音鉴伪与说话人识别联合建模的方法 - Google Patents

一种语音鉴伪与说话人识别联合建模的方法 Download PDF

Info

Publication number
CN113555023A
CN113555023A CN202111098690.5A CN202111098690A CN113555023A CN 113555023 A CN113555023 A CN 113555023A CN 202111098690 A CN202111098690 A CN 202111098690A CN 113555023 A CN113555023 A CN 113555023A
Authority
CN
China
Prior art keywords
segment
speaker
speaker recognition
frame
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111098690.5A
Other languages
English (en)
Other versions
CN113555023B (zh
Inventor
聂帅
陶建华
梁山
易江燕
傅睿博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111098690.5A priority Critical patent/CN113555023B/zh
Publication of CN113555023A publication Critical patent/CN113555023A/zh
Application granted granted Critical
Publication of CN113555023B publication Critical patent/CN113555023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

Description

一种语音鉴伪与说话人识别联合建模的方法
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音鉴伪与说话人识别联合建模的方法。
背景技术
基于深度学习语音合成技术已经能够合成自然度非常高的人声,甚至能够非常精确地模仿特定人的语音。近年来,“深度伪造”技术利用深度学习,实现声音的篡改、伪造和自动生成,产生高度逼真且难以甄别的伪造音视频内容。本项发明采用多任务学习的方法可实现噪声和信道鲁棒的伪造音频检测,相比其他单任务的方法,准确率更高,具有很高的应用潜力。
传统的音频鉴伪技术多从形成方式与属性和信号等层面进行分析。通过提取和比较音频文件录制设备的品牌、型号、文件属性、命名规则,音频文件头等信息进行伪造检测;通过检测音频中出现的信号异常和信号丢失情况、频谱一致性量化分析、前背景噪声一致性、电路噪声等进行分析比较来进行音频伪造检测。然而,对于基于深度学习相关伪造音频,存在痕迹弱、精度高的特点,传统鉴伪技术无法进行有效检测。
目前,基于深度学习的音频鉴伪技术是有效方案之一,其基本思路是利用深度学习模型,比如VGG、light CNN、LSTM、TDNN等对片段音频的频谱特征进行学习,然后基于分类的准测进行判断。这种方案实施起来非常简单,在数据集上也具有非常显著的表现,但存在着泛化性能差的问题,当面对新的伪造类型,或者在伪造音频中加入环境噪声和硬件噪声时,其性能就会严重下降。这主要是因为语音信号中蕴含的差异非常微小,深度学习模型对音频片段进行建模,很有可能关注到的是背景噪声的区分性,而忽略了语音本身的特点。
现有技术缺点
现有的基于深度学习的音频鉴伪技术严重依赖于监督性的训练数据,在与训练数据类型相同、分布一致的场景下,性能表现得非常好,但对于新的伪造类型或应用场景,性能可能会急剧下降,存在泛化性差问题。此外,对于音频片段直接通过深度学习模型进行分类,由于缺乏有效的知识引导,深度学习模型对训练数据中所有成分不加区分性的进行拟合,可能学习到音频片段中的背景噪声或硬件噪声(真实录制的音频存在背景噪声和硬件噪声)或机器合成的声音可能不存在背景噪声和硬件噪声),而忽略了语音信号本身的区分性,造成鉴伪模型易被攻击的缺点,比如通过在伪造数据中加噪、或者重录、重压缩等手段。
发明内容
有鉴于此,本发明第一方面提供一种语音鉴伪与说话人识别联合建模的方法,包括:
前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
语音鉴伪和说话人识别联合分类:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
在一些实施例中,所述提取Fbank特征的具体方法为:对所述信号处理后的训练数据进行分帧;再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征。
在一些实施例中,所述将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,作为第一隐层输出;
再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,作为第二隐层输出;
应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
再应用所述每帧的注意力系数得到加权融合的权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量。
在一些实施例中,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
Figure 841934DEST_PATH_IMAGE001
其中,
h t (s) 表示第二隐层输出;
W p T 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W T 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量。
在一些实施例中,所述帧级别说话人识别损失函数的具体形式为:
Figure 431179DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 476495DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中,
Figure 806458DEST_PATH_IMAGE006
表示识别说话人的深度学习网络对于第t帧语音信号的最大似然损失函数,即帧级别说话人识别损失函数;
Figure DEST_PATH_IMAGE007
表示第t帧语音信号属于说话人
Figure 355251DEST_PATH_IMAGE008
的概率;
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):将时延神经网络与长短期记忆网络相结合的网络。
在一些实施例中,所述定义片段级别说话人识别目标函数的具体形式为:
Figure DEST_PATH_IMAGE009
其中,
Figure 380976DEST_PATH_IMAGE010
表示片段级别说话人模型对于第n个片段序列的最大似然损失函数,即片段级别说话人识别目标函数;
Figure DEST_PATH_IMAGE011
表示第n个片段序列属于说话人
Figure 648009DEST_PATH_IMAGE012
的概率。
在一些实施例中,所述定义语音鉴伪目标函数的具体形式为:
Figure DEST_PATH_IMAGE013
其中,
Figure 784592DEST_PATH_IMAGE014
表示语音鉴伪对于第n个片段序列的最大似然损失函数,即语音鉴伪目标函数;
Figure DEST_PATH_IMAGE015
表示第n个片段序列属于伪造语音或者真实语音的概率。
在一些实施例中,所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
Figure 187892DEST_PATH_IMAGE016
其中,
α、ß和λ为超参数,人为设置参数。
在一些实施例中,0≤α≤1,0ß1,0λ1。
本发明第二方面提供一种语音鉴伪与说话人识别联合建模的系统,包括:
前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块;
所述前端信号处理模块:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
所述特征提取模块:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
所述表示向量提取模块:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
所述语音鉴伪和说话人识别联合分类模块:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
利用了帧级别的说话人识别目标引导注意力模块关注更加有效的语音帧,从而能够提取更有区分性更加鲁棒的片段表示向量,同时引入片段级别的说话人识别目标约束整个模型关注语音本身的区分性,一方面能够帮助语音鉴伪任务提升性能,另一方面能够提高语音鉴伪的鲁棒性和抗攻击能力。
附图说明
图1为本发明实施例提供的一种语音鉴伪与说话人识别联合建模的方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1:
如图1所示,第一方面提供一种语音鉴伪与说话人识别联合建模的方法,包括:
前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
语音鉴伪和说话人识别联合分类:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
所述提取Fbank特征的具体方法为:对所述信号处理后的训练数据进行分帧;再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征。
具体地,在一些实施例中,所述将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,作为第一隐层输出;
再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,作为第二隐层输出;
应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
再应用所述每帧的注意力系数得到加权融合的权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量。
在一些实施例中,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
Figure 384518DEST_PATH_IMAGE001
其中,
h t (s) 表示第二隐层输出;
W p T 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W T 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量。
其中,所述帧级别说话人识别损失函数的具体形式为:
Figure 138847DEST_PATH_IMAGE002
Figure 875859DEST_PATH_IMAGE003
Figure 336927DEST_PATH_IMAGE004
Figure 766772DEST_PATH_IMAGE005
其中,
Figure 742818DEST_PATH_IMAGE006
表示识别说话人的深度学习网络对于第t帧语音信号的最大似然损失函数,即帧级别说话人识别损失函数;
Figure 283521DEST_PATH_IMAGE007
表示第t帧语音信号属于说话人
Figure 864675DEST_PATH_IMAGE008
的概率;
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):将时延神经网络与长短期记忆网络相结合的网络。
所述定义片段级别说话人识别目标函数的具体形式为:
Figure 199841DEST_PATH_IMAGE009
其中,
Figure 928763DEST_PATH_IMAGE010
表示片段级别说话人模型对于第n个片段序列的最大似然损失函数,即片段级别说话人识别目标函数;
Figure 945260DEST_PATH_IMAGE011
表示第n个片段序列属于说话人
Figure 443238DEST_PATH_IMAGE012
的概率。
在一些实施例中,所述定义语音鉴伪目标函数的具体形式为:
Figure 949305DEST_PATH_IMAGE013
其中,
Figure 165523DEST_PATH_IMAGE014
表示语音鉴伪对于第n个片段序列的最大似然损失函数,即语音鉴伪目标函数;
Figure 985712DEST_PATH_IMAGE015
表示第n个片段序列属于伪造语音或者真实语音的概率。
所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
Figure 338196DEST_PATH_IMAGE016
其中,
α、ß和λ为超参数,人为设置参数。
在一些实施例中,0≤α≤1,0ß1,0λ1。
实施例2:
如图1所示,本申请实施例2提供的一种语音鉴伪与说话人识别联合建模的方法,包括:
步骤1:前端信号处理:把训练数据通过信号重采样统一到16K采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;信号处理可以从信号层面减小采样率、环境噪声和混响以及声音能量幅度对语音信息抽取的影响;
在一些实施例中,可以调用pytorch(https://pytorch.org/get-started/locally/)和torchaudio(https://pytorch.org/audio/stable/index.html)工具包实现信号重采样、单声道降噪降混响和PCEN;
步骤2:特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
在一些实施例中,使用帧长为32毫秒、帧移为16毫秒进行分帧处理,再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征;
在一些实施例中,采用python_speech_features(https://github.com/jameslyons
/python_speech_features)工具包提取该特征;
步骤3:表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,窗移为T/2;再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
在一些实施例中,所述将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
步骤3.1:将所述片段序列输入到时延神经网络与将长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,第一隐层输出;再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,第二隐层输出;
步骤3.2应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
步骤3.3再应用所述每帧的注意力系数得到加权融合权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量;
在一些实施例中,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
Figure 280744DEST_PATH_IMAGE001
其中,
h t (s) 表示第二隐层输出;
W p t 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W t 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量;
在一些实施例中,所述帧级别说话人识别损失函数的具体形式为:
Figure 718678DEST_PATH_IMAGE002
Figure 74049DEST_PATH_IMAGE003
Figure 546618DEST_PATH_IMAGE004
Figure 394489DEST_PATH_IMAGE005
其中,
Figure 257402DEST_PATH_IMAGE006
表示识别说话人的深度学习网络对于第t帧语音信号的最大似然损失函数,即帧级别说话人识别损失函数;
Figure 481710DEST_PATH_IMAGE007
表示第t帧语音信号属于说话人
Figure 808787DEST_PATH_IMAGE008
的概率;
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):时延神经网络与将长短期记忆网络相结合的网络;
步骤4:语音鉴伪和说话人识别联合分类:
步骤4.1:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;
步骤4.2:将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;
步骤4.3:联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化;
在一些实施例中,所述定义片段级别说话人识别目标函数的具体形式为:
Figure 93137DEST_PATH_IMAGE009
其中,
Figure 443347DEST_PATH_IMAGE010
表示片段级别说话人模型对于第n个片段序列的最大似然损失函数,即片段级别说话人识别目标函数;
Figure 205767DEST_PATH_IMAGE011
表示第n个片段序列属于说话人
Figure 387350DEST_PATH_IMAGE012
的概率;
在一些实施例中,所述定义语音鉴伪目标函数的具体形式为:
Figure 842602DEST_PATH_IMAGE013
其中,
Figure 680108DEST_PATH_IMAGE014
表示语音鉴伪对于第n个片段序列的最大似然损失函数,即语音鉴伪目标函数;
Figure 246218DEST_PATH_IMAGE015
表示第n个片段序列属于伪造语音或者真实语音的概率。
在一些实施例中,所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
Figure 282307DEST_PATH_IMAGE016
其中,
α、ß和λ为超参数,α=1, ß=1,λ=1。
实施例3
根据实施例1-2所述的一种语音鉴伪与说话人识别联合建模的方法的,以Interspeech2021 HAD音频篡改数据集为例,对任意一个音频信号y(n),
首先根据步骤1进行前端信号处理,统一采样率为16KHz,采用torchaudio工具包中单声道降噪算法和频带能量均衡化处理;
随后根据步骤2,采用python_speech_features工具包中自带的40维FBank特征;
按照步骤3中,定义窗长T为256, TDNN-LSTM采用2层TDNN和2层LSTM模型,每层TDNN的节点个数为256,每层LSTM的节点个数为256,按
照步骤3.1得到最后一层隐层表示,即第一隐层输出和第二隐层输出;
按照步骤3.2计算声纹特征注意力系数;
按照步骤3.3 计算片段级别表示向量;
按照步骤4.1计算片段级别说话人识别目标函数;
按照步骤4.2计算片段级别语音鉴伪目标函数;
按照步骤4.3采用联合优化的方式定义整体目标函数,其中,α=1.0、β=1.0和λ=1.0。
以等错误率(Equal error rate, EER)指标为数据集整体评估指标,相比于竞赛提供的两种方法,分别标记为LFCC-GMM和CQCC-GMM,本方法的平均结果如下表所示:
EER(%) LFCC-GMM[1] LFCC-LCNN 本项方法
Dev-测试集 10.66 4.57 1.85
Test-测试集 12.67 4.50 2.02
实施例4:
根据实施例1-2所述的一种语音鉴伪与说话人识别联合建模的方法,对本申请实施例4提供的一种语音鉴伪与说话人识别联合建模的系统,所述方法应用于所述系统,
所述系统包括:
前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块;
所述前端信号处理模块:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
所述特征提取模块:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
所述表示向量提取模块:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
所述语音鉴伪和说话人识别联合分类模块:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种语音鉴伪与说话人识别联合建模的方法,其特征在于,所述方法包括:
前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
语音鉴伪和说话人识别联合分类:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
2.根据权利要求1所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述提取Fbank特征的具体方法为:对所述信号处理后的训练数据进行分帧;再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征。
3.根据权利要求1所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,作为第一隐层输出;
再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,作为第二隐层输出;
应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
再应用所述每帧的注意力系数得到加权融合的权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量。
4.根据权利要求3所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
Figure 575069DEST_PATH_IMAGE001
其中,
h t (s) 表示第二隐层输出;
W p T 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W T 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量。
5.根据权利要求4所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述帧级别说话人识别损失函数的具体形式为:
Figure 543025DEST_PATH_IMAGE002
Figure 639157DEST_PATH_IMAGE003
Figure 288444DEST_PATH_IMAGE004
Figure 153632DEST_PATH_IMAGE005
其中,
Figure 292489DEST_PATH_IMAGE006
表示识别说话人的深度学习网络对于第t帧语音信号的最大似然损失函数,即帧级别说话人识别损失函数;
Figure 875917DEST_PATH_IMAGE007
表示第t帧语音信号属于说话人
Figure 63316DEST_PATH_IMAGE008
的概率;
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):将时延神经网络与长短期记忆网络相结合的网络。
6.根据权利要求5所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述定义片段级别说话人识别目标函数的具体形式为:
Figure 48589DEST_PATH_IMAGE009
其中,
Figure 358348DEST_PATH_IMAGE010
表示片段级别说话人模型对于第n个片段序列的最大似然损失函数,即片段级别说话人识别目标函数;
Figure 366755DEST_PATH_IMAGE011
表示第n个片段序列属于说话人
Figure 420162DEST_PATH_IMAGE012
的概率。
7.根据权利要求6所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述定义语音鉴伪目标函数的具体形式为:
Figure 259942DEST_PATH_IMAGE013
其中,
Figure 740602DEST_PATH_IMAGE014
表示语音鉴伪对于第n个片段序列的最大似然损失函数,即语音鉴伪目标函数;
Figure 970726DEST_PATH_IMAGE015
表示第n个片段序列属于伪造语音或者真实语音的概率。
8.根据权利要求7所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
Figure 827824DEST_PATH_IMAGE016
其中,
α、ß和λ为超参数,人为设置参数。
9.根据权利要求8所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,0≤α≤1,0ß1,0λ1。
10.一种语音鉴伪与说话人识别联合建模的系统,其特征在于,所述系统包括:
前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块;
所述前端信号处理模块:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
所述特征提取模块:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
所述表示向量提取模块:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
所述语音鉴伪和说话人识别联合分类模块:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
CN202111098690.5A 2021-09-18 2021-09-18 一种语音鉴伪与说话人识别联合建模的方法 Active CN113555023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111098690.5A CN113555023B (zh) 2021-09-18 2021-09-18 一种语音鉴伪与说话人识别联合建模的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111098690.5A CN113555023B (zh) 2021-09-18 2021-09-18 一种语音鉴伪与说话人识别联合建模的方法

Publications (2)

Publication Number Publication Date
CN113555023A true CN113555023A (zh) 2021-10-26
CN113555023B CN113555023B (zh) 2022-01-11

Family

ID=78106424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111098690.5A Active CN113555023B (zh) 2021-09-18 2021-09-18 一种语音鉴伪与说话人识别联合建模的方法

Country Status (1)

Country Link
CN (1) CN113555023B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620748A (zh) * 2022-12-06 2023-01-17 北京远鉴信息技术有限公司 一种语音合成与鉴伪评价的综合训练方法及装置
CN116013323A (zh) * 2022-12-27 2023-04-25 浙江大学 一种面向语音转换的主动式取证方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20180174575A1 (en) * 2016-12-21 2018-06-21 Google Llc Complex linear projection for acoustic modeling
CN109065033A (zh) * 2018-09-19 2018-12-21 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN112331216A (zh) * 2020-10-29 2021-02-05 同济大学 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN112820301A (zh) * 2021-03-15 2021-05-18 中国科学院声学研究所 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20180174575A1 (en) * 2016-12-21 2018-06-21 Google Llc Complex linear projection for acoustic modeling
CN109065033A (zh) * 2018-09-19 2018-12-21 华南理工大学 一种基于随机深度时延神经网络模型的自动语音识别方法
CN112331216A (zh) * 2020-10-29 2021-02-05 同济大学 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN112820301A (zh) * 2021-03-15 2021-05-18 中国科学院声学研究所 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620748A (zh) * 2022-12-06 2023-01-17 北京远鉴信息技术有限公司 一种语音合成与鉴伪评价的综合训练方法及装置
CN115620748B (zh) * 2022-12-06 2023-03-28 北京远鉴信息技术有限公司 一种语音合成与鉴伪评价的综合训练方法及装置
CN116013323A (zh) * 2022-12-27 2023-04-25 浙江大学 一种面向语音转换的主动式取证方法

Also Published As

Publication number Publication date
CN113555023B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN110491391B (zh) 一种基于深度神经网络的欺骗语音检测方法
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN107610707B (zh) 一种声纹识别方法及装置
Sambur Selection of acoustic features for speaker identification
CN113555023B (zh) 一种语音鉴伪与说话人识别联合建模的方法
CN112259105B (zh) 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112259104B (zh) 一种声纹识别模型的训练装置
Irum et al. Speaker verification using deep neural networks: A
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Andrei et al. Detecting Overlapped Speech on Short Timeframes Using Deep Learning.
Xie et al. Bioacoustic signal classification in continuous recordings: Syllable-segmentation vs sliding-window
CN112581979A (zh) 一种基于语谱图的语音情绪识别方法
CN108320732A (zh) 生成目标说话人语音识别计算模型的方法和装置
CN110428845A (zh) 合成音频检测方法、系统、移动终端及存储介质
CN113284513B (zh) 基于音素时长特征的虚假语音检测方法及装置
Temko et al. Fuzzy integral based information fusion for classification of highly confusable non-speech sounds
Hassan et al. Voice spoofing countermeasure for synthetic speech detection
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
CN109545191A (zh) 一种歌曲中人声起始位置的实时检测方法
Hou et al. Transfer learning for improving singing-voice detection in polyphonic instrumental music
Hussain et al. Endpoint detection of speech signal using neural network
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Sobieraj et al. Coupled sparse NMF vs. random forest classification for real life acoustic event detection
CN116705063B (zh) 一种基于流形测度的多模型融合的语音鉴伪识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant