CN113555023A - 一种语音鉴伪与说话人识别联合建模的方法 - Google Patents
一种语音鉴伪与说话人识别联合建模的方法 Download PDFInfo
- Publication number
- CN113555023A CN113555023A CN202111098690.5A CN202111098690A CN113555023A CN 113555023 A CN113555023 A CN 113555023A CN 202111098690 A CN202111098690 A CN 202111098690A CN 113555023 A CN113555023 A CN 113555023A
- Authority
- CN
- China
- Prior art keywords
- segment
- speaker
- speaker recognition
- frame
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000013135 deep learning Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000012952 Resampling Methods 0.000 claims abstract description 9
- 239000013604 expression vector Substances 0.000 claims abstract description 9
- 239000000126 substance Substances 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 238000007476 Maximum Likelihood Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
Description
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音鉴伪与说话人识别联合建模的方法。
背景技术
基于深度学习语音合成技术已经能够合成自然度非常高的人声,甚至能够非常精确地模仿特定人的语音。近年来,“深度伪造”技术利用深度学习,实现声音的篡改、伪造和自动生成,产生高度逼真且难以甄别的伪造音视频内容。本项发明采用多任务学习的方法可实现噪声和信道鲁棒的伪造音频检测,相比其他单任务的方法,准确率更高,具有很高的应用潜力。
传统的音频鉴伪技术多从形成方式与属性和信号等层面进行分析。通过提取和比较音频文件录制设备的品牌、型号、文件属性、命名规则,音频文件头等信息进行伪造检测;通过检测音频中出现的信号异常和信号丢失情况、频谱一致性量化分析、前背景噪声一致性、电路噪声等进行分析比较来进行音频伪造检测。然而,对于基于深度学习相关伪造音频,存在痕迹弱、精度高的特点,传统鉴伪技术无法进行有效检测。
目前,基于深度学习的音频鉴伪技术是有效方案之一,其基本思路是利用深度学习模型,比如VGG、light CNN、LSTM、TDNN等对片段音频的频谱特征进行学习,然后基于分类的准测进行判断。这种方案实施起来非常简单,在数据集上也具有非常显著的表现,但存在着泛化性能差的问题,当面对新的伪造类型,或者在伪造音频中加入环境噪声和硬件噪声时,其性能就会严重下降。这主要是因为语音信号中蕴含的差异非常微小,深度学习模型对音频片段进行建模,很有可能关注到的是背景噪声的区分性,而忽略了语音本身的特点。
现有技术缺点
现有的基于深度学习的音频鉴伪技术严重依赖于监督性的训练数据,在与训练数据类型相同、分布一致的场景下,性能表现得非常好,但对于新的伪造类型或应用场景,性能可能会急剧下降,存在泛化性差问题。此外,对于音频片段直接通过深度学习模型进行分类,由于缺乏有效的知识引导,深度学习模型对训练数据中所有成分不加区分性的进行拟合,可能学习到音频片段中的背景噪声或硬件噪声(真实录制的音频存在背景噪声和硬件噪声)或机器合成的声音可能不存在背景噪声和硬件噪声),而忽略了语音信号本身的区分性,造成鉴伪模型易被攻击的缺点,比如通过在伪造数据中加噪、或者重录、重压缩等手段。
发明内容
有鉴于此,本发明第一方面提供一种语音鉴伪与说话人识别联合建模的方法,包括:
前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
语音鉴伪和说话人识别联合分类:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
在一些实施例中,所述提取Fbank特征的具体方法为:对所述信号处理后的训练数据进行分帧;再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征。
在一些实施例中,所述将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,作为第一隐层输出;
再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,作为第二隐层输出;
应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
再应用所述每帧的注意力系数得到加权融合的权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量。
在一些实施例中,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
其中,
h t (s) 表示第二隐层输出;
W p T 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W T 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量。
在一些实施例中,所述帧级别说话人识别损失函数的具体形式为:
其中,
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):将时延神经网络与长短期记忆网络相结合的网络。
在一些实施例中,所述定义片段级别说话人识别目标函数的具体形式为:
其中,
在一些实施例中,所述定义语音鉴伪目标函数的具体形式为:
其中,
在一些实施例中,所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
其中,
α、ß和λ为超参数,人为设置参数。
在一些实施例中,0≤α≤1,0≤ß≤1,0≤λ≤1。
本发明第二方面提供一种语音鉴伪与说话人识别联合建模的系统,包括:
前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块;
所述前端信号处理模块:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
所述特征提取模块:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
所述表示向量提取模块:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
所述语音鉴伪和说话人识别联合分类模块:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
利用了帧级别的说话人识别目标引导注意力模块关注更加有效的语音帧,从而能够提取更有区分性更加鲁棒的片段表示向量,同时引入片段级别的说话人识别目标约束整个模型关注语音本身的区分性,一方面能够帮助语音鉴伪任务提升性能,另一方面能够提高语音鉴伪的鲁棒性和抗攻击能力。
附图说明
图1为本发明实施例提供的一种语音鉴伪与说话人识别联合建模的方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1:
如图1所示,第一方面提供一种语音鉴伪与说话人识别联合建模的方法,包括:
前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
语音鉴伪和说话人识别联合分类:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
所述提取Fbank特征的具体方法为:对所述信号处理后的训练数据进行分帧;再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征。
具体地,在一些实施例中,所述将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,作为第一隐层输出;
再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,作为第二隐层输出;
应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
再应用所述每帧的注意力系数得到加权融合的权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量。
在一些实施例中,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
其中,
h t (s) 表示第二隐层输出;
W p T 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W T 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量。
其中,所述帧级别说话人识别损失函数的具体形式为:
其中,
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):将时延神经网络与长短期记忆网络相结合的网络。
所述定义片段级别说话人识别目标函数的具体形式为:
其中,
在一些实施例中,所述定义语音鉴伪目标函数的具体形式为:
其中,
所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
其中,
α、ß和λ为超参数,人为设置参数。
在一些实施例中,0≤α≤1,0≤ß≤1,0≤λ≤1。
实施例2:
如图1所示,本申请实施例2提供的一种语音鉴伪与说话人识别联合建模的方法,包括:
步骤1:前端信号处理:把训练数据通过信号重采样统一到16K采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;信号处理可以从信号层面减小采样率、环境噪声和混响以及声音能量幅度对语音信息抽取的影响;
在一些实施例中,可以调用pytorch(https://pytorch.org/get-started/locally/)和torchaudio(https://pytorch.org/audio/stable/index.html)工具包实现信号重采样、单声道降噪降混响和PCEN;
步骤2:特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
在一些实施例中,使用帧长为32毫秒、帧移为16毫秒进行分帧处理,再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征;
在一些实施例中,采用python_speech_features(https://github.com/jameslyons
/python_speech_features)工具包提取该特征;
步骤3:表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,窗移为T/2;再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
在一些实施例中,所述将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
步骤3.1:将所述片段序列输入到时延神经网络与将长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,第一隐层输出;再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,第二隐层输出;
步骤3.2应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
步骤3.3再应用所述每帧的注意力系数得到加权融合权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量;
在一些实施例中,所述将所述第一隐层输出进行加权融合得到说话人片段表示向量的具体方法包括:
其中,
h t (s) 表示第二隐层输出;
W p t 表示第二隐层输出的权重;
h t 表示第一隐层输出;
W t 表示第一隐层输出的权重;
b表示偏差
e t 表示每帧的注意力系数;
σ(•)表示激活函数;
α t表示加权融合的权重;
e n 表示说话人片段表示向量;
在一些实施例中,所述帧级别说话人识别损失函数的具体形式为:
其中,
softmax(•)为归一化指数函数;
DNN(•):两层深度学习网络;
TDNN_LSTM(•):时延神经网络与将长短期记忆网络相结合的网络;
步骤4:语音鉴伪和说话人识别联合分类:
步骤4.1:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;
步骤4.2:将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;
步骤4.3:联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化;
在一些实施例中,所述定义片段级别说话人识别目标函数的具体形式为:
其中,
在一些实施例中,所述定义语音鉴伪目标函数的具体形式为:
其中,
在一些实施例中,所述联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化的最终的优化目标为:
其中,
α、ß和λ为超参数,α=1, ß=1,λ=1。
实施例3
根据实施例1-2所述的一种语音鉴伪与说话人识别联合建模的方法的,以Interspeech2021 HAD音频篡改数据集为例,对任意一个音频信号y(n),
首先根据步骤1进行前端信号处理,统一采样率为16KHz,采用torchaudio工具包中单声道降噪算法和频带能量均衡化处理;
随后根据步骤2,采用python_speech_features工具包中自带的40维FBank特征;
按照步骤3中,定义窗长T为256, TDNN-LSTM采用2层TDNN和2层LSTM模型,每层TDNN的节点个数为256,每层LSTM的节点个数为256,按
照步骤3.1得到最后一层隐层表示,即第一隐层输出和第二隐层输出;
按照步骤3.2计算声纹特征注意力系数;
按照步骤3.3 计算片段级别表示向量;
按照步骤4.1计算片段级别说话人识别目标函数;
按照步骤4.2计算片段级别语音鉴伪目标函数;
按照步骤4.3采用联合优化的方式定义整体目标函数,其中,α=1.0、β=1.0和λ=1.0。
以等错误率(Equal error rate, EER)指标为数据集整体评估指标,相比于竞赛提供的两种方法,分别标记为LFCC-GMM和CQCC-GMM,本方法的平均结果如下表所示:
EER(%) | LFCC-GMM[1] | LFCC-LCNN | 本项方法 |
Dev-测试集 | 10.66 | 4.57 | 1.85 |
Test-测试集 | 12.67 | 4.50 | 2.02 |
实施例4:
根据实施例1-2所述的一种语音鉴伪与说话人识别联合建模的方法,对本申请实施例4提供的一种语音鉴伪与说话人识别联合建模的系统,所述方法应用于所述系统,
所述系统包括:
前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块;
所述前端信号处理模块:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
所述特征提取模块:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
所述表示向量提取模块:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
所述语音鉴伪和说话人识别联合分类模块:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种语音鉴伪与说话人识别联合建模的方法,其特征在于,所述方法包括:
前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
特征提取:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
语音鉴伪和说话人识别联合分类:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
2.根据权利要求1所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述提取Fbank特征的具体方法为:对所述信号处理后的训练数据进行分帧;再应用汉明窗对分帧后的训练数据进行加窗操作,然后对加窗后的每帧信号提取40维的Fbank特征。
3.根据权利要求1所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,所述将所述片段序列输入识别说话人的深度学习网络,得到说话人片段表示向量具体方法包括:
将所述片段序列输入到将时延神经网络与长短期记忆网络相结合的网络,即TDNN_LSTM,得到TDNN_LSTM的最后一层的隐层输出,作为第一隐层输出;
再将所述第一隐层输出输入到两层深度学习网络,得到两层深度学习网络的最后一层的隐层输出,作为第二隐层输出;
应用所述第一隐层输出和第二隐层输出计算每帧的注意力系数;
再应用所述每帧的注意力系数得到加权融合的权重,再将所述第一隐层输出进行加权融合得到说话人片段表示向量。
9.根据权利要求8所述的语音鉴伪与说话人识别联合建模的方法,其特征在于,0≤α≤1,0≤ß≤1,0≤λ≤1。
10.一种语音鉴伪与说话人识别联合建模的系统,其特征在于,所述系统包括:
前端信号处理模块、特征提取模块、表示向量提取模块和语音鉴伪和说话人识别联合分类模块;
所述前端信号处理模块:把训练数据通过信号重采样统一到一个固定采样率,然后进行单声道降噪降混响和频带能量均衡化处理,得到信号处理后的训练数据;
所述特征提取模块:对所述信号处理后的训练数据的每帧信号提取Fbank特征;
所述表示向量提取模块:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将所述片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;
所述语音鉴伪和说话人识别联合分类模块:将所述说话人片段表示向量输入说话人识别网络,定义片段级别说话人识别目标函数;将所述说话人片段表示向量输入语音鉴伪网络,定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098690.5A CN113555023B (zh) | 2021-09-18 | 2021-09-18 | 一种语音鉴伪与说话人识别联合建模的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098690.5A CN113555023B (zh) | 2021-09-18 | 2021-09-18 | 一种语音鉴伪与说话人识别联合建模的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113555023A true CN113555023A (zh) | 2021-10-26 |
CN113555023B CN113555023B (zh) | 2022-01-11 |
Family
ID=78106424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098690.5A Active CN113555023B (zh) | 2021-09-18 | 2021-09-18 | 一种语音鉴伪与说话人识别联合建模的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113555023B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115620748A (zh) * | 2022-12-06 | 2023-01-17 | 北京远鉴信息技术有限公司 | 一种语音合成与鉴伪评价的综合训练方法及装置 |
CN116013323A (zh) * | 2022-12-27 | 2023-04-25 | 浙江大学 | 一种面向语音转换的主动式取证方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
US20180174575A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Complex linear projection for acoustic modeling |
CN109065033A (zh) * | 2018-09-19 | 2018-12-21 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
CN112820301A (zh) * | 2021-03-15 | 2021-05-18 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
-
2021
- 2021-09-18 CN CN202111098690.5A patent/CN113555023B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
US20180174575A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Complex linear projection for acoustic modeling |
CN109065033A (zh) * | 2018-09-19 | 2018-12-21 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
CN112820301A (zh) * | 2021-03-15 | 2021-05-18 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115620748A (zh) * | 2022-12-06 | 2023-01-17 | 北京远鉴信息技术有限公司 | 一种语音合成与鉴伪评价的综合训练方法及装置 |
CN115620748B (zh) * | 2022-12-06 | 2023-03-28 | 北京远鉴信息技术有限公司 | 一种语音合成与鉴伪评价的综合训练方法及装置 |
CN116013323A (zh) * | 2022-12-27 | 2023-04-25 | 浙江大学 | 一种面向语音转换的主动式取证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113555023B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491391B (zh) | 一种基于深度神经网络的欺骗语音检测方法 | |
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
Sambur | Selection of acoustic features for speaker identification | |
CN113555023B (zh) | 一种语音鉴伪与说话人识别联合建模的方法 | |
CN112259105B (zh) | 一种声纹识别模型的训练方法、存储介质和计算机设备 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
Irum et al. | Speaker verification using deep neural networks: A | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
Andrei et al. | Detecting Overlapped Speech on Short Timeframes Using Deep Learning. | |
Xie et al. | Bioacoustic signal classification in continuous recordings: Syllable-segmentation vs sliding-window | |
CN112581979A (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN108320732A (zh) | 生成目标说话人语音识别计算模型的方法和装置 | |
CN110428845A (zh) | 合成音频检测方法、系统、移动终端及存储介质 | |
CN113284513B (zh) | 基于音素时长特征的虚假语音检测方法及装置 | |
Temko et al. | Fuzzy integral based information fusion for classification of highly confusable non-speech sounds | |
Hassan et al. | Voice spoofing countermeasure for synthetic speech detection | |
CN108831506A (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN111666996B (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN109545191A (zh) | 一种歌曲中人声起始位置的实时检测方法 | |
Hou et al. | Transfer learning for improving singing-voice detection in polyphonic instrumental music | |
Hussain et al. | Endpoint detection of speech signal using neural network | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
Sobieraj et al. | Coupled sparse NMF vs. random forest classification for real life acoustic event detection | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |