CN111243602B - 基于性别、国籍和情感信息的声纹识别方法 - Google Patents
基于性别、国籍和情感信息的声纹识别方法 Download PDFInfo
- Publication number
- CN111243602B CN111243602B CN202010011692.5A CN202010011692A CN111243602B CN 111243602 B CN111243602 B CN 111243602B CN 202010011692 A CN202010011692 A CN 202010011692A CN 111243602 B CN111243602 B CN 111243602B
- Authority
- CN
- China
- Prior art keywords
- training
- nationality
- gender
- neural network
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000011161 development Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000013100 final test Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 230000003340 mental effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于性别、国籍和情感信息的声纹识别方法,步骤具体如下:首先数据预处理,其次特征的提取,然后神经网络参数训练:神经网络的具体结构,在训练过程中,首先打乱训练句子的输入顺序,然后随机选择128句作为一个训练batch,数据迭代次数为80;打分融合工具需要的训练文件是每一个系统的开发集和测试集结果;测试集使用的是VOXCELEB1 test;开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件;然后经过100次迭代得到最终的测试集打分结果。本发明提升了识别率。
Description
技术领域
本发明涉及文本无关的说话人识别领域,特别涉及到多任务和对抗域适应训练,具体为一种基于性别、国籍和情感信息的声纹识别方法。
背景技术
语音包含了不同种类的属性,如内容,性别,国籍,情感,年龄等等。在进行说话人确认任务时,这些属性会影响说话人识别的准确率。主观上来讲,性别和国籍信息可以为说话人的身份提供多重验证从而增加识别率,然而当同一个说话人的不同句子所包含的情感不一致时,将会严重影响说话人个性化特征的提取,从而降低系统识别率。
现有的方法多从三个方面提升系统性能:1)增加训练数据量;2)增加网络的深度或者复杂度;3)设计更加巧妙的损失函数;但是由于神经网络的学习能力有限,为了在不增加训练复杂度的情况下更进一步提升系统的性能,在训练阶段增加更多的限制条件是必不可少的。所以本发明提出了使用多任务学习(MTL)和域对抗训练(ADT)的神经网络学习方法对不同属性信息进行强化学习。同时研究语音中其他属性对说话人特征的影响对提升系统识别率也有着重要的意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于性别、国籍和情感信息的声纹识别方法。
为了使用性别,国籍和情感标签在神经网络训练过程中加入更多的限制。本发明设计的说话人嵌入特征提取系统主要涉及五个方面:1)神经网络前端输入特征的选择;2)神经网络搭建;3)损失函数的设计;4)融合系统的实施;5)评价指标的选取;6)训练数据库的选择;
1)前端输入特征的选择
本发明使用的前端特征是512维的语谱图,语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的深浅来表示。语谱图中显示了大量的与说话人特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况。具体的提取步骤如下:分帧—快速傅里叶变换(FFT)—取log—语谱图。
2)神经网络结构
近几年来,由于卷积神经网络强大的特征抽象能力被广泛用于图像和语音领域进行特征的抽象提取。但是随着神经网络深度的逐渐增加,网络出现退化现象。残差神经网络的提出正是为了解决此问题。本发明采用的神经网络结构是基于残差神经网络,具体的描述如图1所示。
三个一维的卷积层和三个残差块交替排列来生成帧级别的特征,对于三个卷积层,卷积核的大小是(5×5),通道数从64到256。对于每一个残差块,都包含了两个卷积核大小为(3×3)步长为(1×1)的卷积层。在平均池化层之后,分段级别的说话人嵌入特征从一个1024维的全连接层中提出。第二个全连接层将1024维的嵌入特征映射为1211维,1211和训练数据说话人个数相等以便用来计算说话人分类的损失函数。
3)损失函数的设计
性别和国籍信息为说话人的身份提供了多重验证。为了增加说话人嵌入特征中所包含的性别和国籍信息,本发明使用多任务学习方法(图2左)来联合性别和国籍标签对神经网络参数的学习进行限制。网络结构在上小节中进行了详细的描述。其中说话人分类损失使用的是近几年提出的A-softmax损失,性别和国籍的分类使用的是交叉熵损失。训练的总损失如下式所示:
其中LMTG表示性别多任务的总损失,LMTN表示国籍多任务的总损失,LMTGN表示性别多任务和国籍多任务的总损失,表示说话人分类使用的A-softmax损失,/>表示性别分类的交叉熵损失,/>表示国籍分类的交叉熵损失。α和β是性别和国籍任务的学习权重。
另外,为了消除情感信息给来自同一个说话人的不同句子所带来的差异,本发明采用域对抗训练方法(图2右),通过添加一个梯度反转层来抑制对情感信息的学习。对抗网络的损失函数如下式所示:
4)融合系统的实施
为了进一步提升系统的识别率,我们使用线性打分融合工具包bosaris_toolkit对上述系统进行打分融合。我们从训练数据中随机生成测试文件用作开发集测试。然后,对于不同的系统得到开发集和测试集相应的测试文件。最后使用linear_fusion_dev_eval_from_files脚本对打分文件进行100次训练迭代得到最终的融合打分。融合打分结合了不同系统的优势,使得说话人识别的准确率进一步提升。
5)评价指标的选取
等错误率(EER)和最小决策代价函数(minDCF)被用来评价系统的优劣。EER是说话人确认中最常用的评价标准,它的计算方法是使错误接受率(nontarget_is_target/(target_is_target+nontarget_is_target))和错误拒绝率(target_is_nontarget/(target_is_nontarget+nontarget_is_nontarget))相等。minDCF在NIST2012评价计划中被定义,代表的是检测代价函数的最小值。
6)训练数据库的选择
Voxceleb数据集包含了性别和国籍信息,因此我们使用此数据集进行性别和国籍信息的探究。这个数据库包含了153516句来自1251个说话人的句子。具体的训练和测试数据分配见表1。
表1 VOXCELEB1数据集描述
IEMOCAP是一个流行的情感识别数据库,为探究情感信息对说话人识别的影响提供了情感标签。这个数据库包含12小时来自10个说话人的音频数据。所有的句子被人工标注为10个情感分类。为了方便讨论,我们选择了其中的四类进行讨论。
整个系统算法流程包括数据预处理、特征的提取、神经网络模型参数的训练以及打分融合工具的使用这4个步骤。具体步骤如下:
1)数据预处理
在数据预处理阶段,首先对训练语句的长度进行限制,对于长度小于1秒的语句直接跳过,对于大于3s的句子进行3秒的随机裁剪。然后对所有的训练句子进行归一化处理。
2)特征的提取
使用Librosa工具提取512维的语谱图。关于语谱图的具体描述见上文。
3)神经网络参数训练
神经网络的具体结构如图一和图2所示。在训练过程中,首先打乱训练句子的输入顺序,然后随机选择128句作为一个训练batch。数据迭代次数为80。学习率从0.1到0.001递减。对于多任务性别系统,α设置为1。对于多任务国籍系统,β设置为0.3。对于多任务性别国籍系统,α和β都设置为0.1。
4)打分融合工具的使用
打分融合工具需要的训练文件是每一个系统的开发集和测试集结果。测试集使用的是VOXCELEB1 test。开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件。然后经过100次迭代得到最终的测试集打分结果。
现有的大多数说话人识别系统对于神经网络的限制不足,而且很少有研究讨论性别,国籍和情感信息对于说话人识别的影响。本发明基于VOXCELEB和IEMOCAP两个数据库,前者用于多任务性别和国籍的相关实验,后者用于情感域对抗训练实验。目的旨在:
1)验证性别,国籍对说话人识别的促进作用和情感信息对说话人识别的抑制作用。
2)利用多任务学习对于有用信息(性别,国籍)进行学习。
3)利用域对抗训练(DAT)消除不利信息(情感)对说话人识别的影响。
有益效果
本发明针对说话人识别中的说话人确认任务,旨在提升复杂环境中说话人识别的准确率。在多种挑战并存的数据集上,通过增加神经网络训练过程中的限制,进一步提升了识别的准确率。图3展示的是性别和国籍信息的权重(α/β)对于说话人识别的影响。在α=1,β=0.3时分别达到最好的识别率。表2展示的是所有实验的结果对比,其中MTG表示性别多任务训练,MTN表示国籍多任务训练,MTGN表示性别和国籍多任务训练,EADT表示情感域对抗训练,Fusion1表示MTG和MTN系统的打分融合,Fusion2表示MTG,MTN以及MTGN三个系统的打分融合。从结果可以看出,促进性别和国籍信息的学习和抑制情感信息的学习都能够提升说话人识别的准确率。最终的Fusion2系统和EADT系统与基线系统相比在EER上分别提升了16.4%和22.9%。从图4的DET曲线可以再次看出我们提出的方法的优越性。与现有技术相比,有益效果有:
1)通过实验,验证了性别和国籍对于说话人识别任务的促进作用,通过多任务学习有效的学习到了性别和国籍属性中的重要信息,使得识别率得到了提升。
2)对于情感信息的域对抗训练验证了情感信息对于说话人识别率的抑制作用,并且通过增加梯度反转层有效的减少了情感信息的学习,抑制了说话人嵌入特征中情感信息的影响。
3)通过打分融合工具,有效的结合了不同系统的优势,进一步提升了说话人识别率。
表2不同系统的EER和minDCF结果对比
附图说明
图1残差神经网络特征提取器;
图2多任务学习和域对抗训练;
图3多任务训练识别率受权重α/β的影响;
图4本发明所提出的系统和基线系统的DET曲线对比:
Baseline:图1所示系统,MTG:性别多任务,MTN:国籍多任务,MTGN:性别和国籍多任务,Fusion1:MTG和MTN打分融合,Fusion2:MTG,MTN和MTGN打分融合。
具体实施方式
下面结合附图和附表对本发明做进一步详细的描述。
本示例以说话人识别中广泛应用的VOXCELEB1数据集为例来给出发明的实施方式。整个系统算法流程包括数据预处理、特征的提取、神经网络模型参数的训练以及打分融合工具的使用这4个步骤。具体步骤如下:
1)数据预处理
在数据预处理阶段,首先对训练语句的长度进行限制,对于长度小于1秒的语句直接跳过,对于大于3s的句子进行3秒的随机裁剪。然后对所有的训练句子进行归一化处理。
2)特征的提取
使用Librosa工具提取512维的语谱图。关于语谱图的具体描述见上文。
3)神经网络参数训练
神经网络的具体结构如图1和图2所示。在训练过程中,首先打乱训练句子的输入顺序,然后随机选择128句作为一个训练batch。数据迭代次数为80。学习率从0.1到0.001递减。对于多任务性别系统,α设置为1。对于多任务国籍系统,β设置为0.3。对于多任务性别国籍系统,α和β都设置为0.1。
4)打分融合工具的使用
打分融合工具需要的训练文件是每一个系统的开发集和测试集结果。测试集使用的是VOXCELEB1 test。开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件。然后经过100次迭代得到最终的测试集打分结果。
Claims (2)
1.基于性别、国籍和情感信息的声纹识别方法,其特征在于,包括数据预处理、特征的提取、神经网络模型参数的训练以及打分融合工具的使用这4个步骤,具体如下:
1)数据预处理
在数据预处理阶段,首先对训练语句的长度进行限制,对于长度小于1秒的语句直接跳过,对于大于3s的句子进行3秒的随机裁剪;然后对所有的训练句子进行归一化处理;
2)特征的提取
使用Librosa工具提取512维的语谱图;
3)神经网络参数训练
神经网络的具体结构,在训练过程中,首先打乱训练句子的输入顺序,然后随机选择128句作为一个训练batch,数据迭代次数为80;
学习率从0.1到0.001递减;
4)打分融合工具的使用
打分融合工具需要的训练文件是每一个系统的开发集和测试集结果;
测试集使用的是VOXCELEB1 test;开发集是基于1211个训练说话人语句生成的包含4万个测试对的测试文件;
然后经过100次迭代得到最终的测试集打分结果;
基于说话人嵌入特征提取系统,主要涉及五个方面:1)神经网络前端输入特征的选择;2)神经网络搭建;3)损失函数的设计;4)融合系统的实施;5)评价指标的选取;6)训练数据库的选择;
1)前端输入特征的选择
使用的前端特征是512维的语谱图,三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间;
具体的提取步骤如下:分帧-快速傅里叶变换-取log-语谱图;
2)神经网络结构
采用的神经网络结构是基于残差神经网络;
3)损失函数的设计
使用多任务学习方法来联合性别和国籍标签对神经网络参数的学习进行限制:
其中LMTG表示性别多任务的总损失,LMTN表示国籍多任务的总损失,LMTGN表示性别多任务和国籍多任务的总损失,表示说话人分类使用的A-softmax损失,/>表示性别分类的交叉熵损失,/>表示国籍分类的交叉熵损失;
α和β是性别和国籍任务的学习权重;
采用域对抗训练方法,通过添加一个梯度反转层来抑制对情感信息的学习,对抗网络的损失函数如下式所示:
4)融合系统的实施
使用线性打分融合工具包bosaris_toolkit对上述系统进行打分融合,从训练数据中随机生成测试文件用作开发集测试;然后,对于不同的系统得到开发集和测试集相应的测试文件;最后使用linear_fusion_dev_eval_from_files脚本对打分文件进行100次训练迭代得到最终的融合打分;
5)评价指标的选取
等错误率和最小决策代价函数被用来评价系统的优劣;
6)训练数据库的选择
Voxceleb数据集包含了性别和国籍信息。
2.根据权利要求1所述的基于性别、国籍和情感信息的声纹识别方法,其特征在于,对于多任务性别系统,α设置为1;
对于多任务国籍系统,β设置为0.3;
对于多任务性别国籍系统,α和β都设置为0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010011692.5A CN111243602B (zh) | 2020-01-06 | 2020-01-06 | 基于性别、国籍和情感信息的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010011692.5A CN111243602B (zh) | 2020-01-06 | 2020-01-06 | 基于性别、国籍和情感信息的声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243602A CN111243602A (zh) | 2020-06-05 |
CN111243602B true CN111243602B (zh) | 2023-06-06 |
Family
ID=70864872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010011692.5A Active CN111243602B (zh) | 2020-01-06 | 2020-01-06 | 基于性别、国籍和情感信息的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243602B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785262B (zh) * | 2020-06-23 | 2022-08-05 | 电子科技大学 | 一种基于残差网络及融合特征的说话人年龄性别分类方法 |
CN111833886B (zh) * | 2020-07-27 | 2021-03-23 | 中国科学院声学研究所 | 全连接多尺度的残差网络及其进行声纹识别的方法 |
CN112233680B (zh) * | 2020-09-27 | 2024-02-13 | 科大讯飞股份有限公司 | 说话人角色识别方法、装置、电子设备及存储介质 |
CN112259105B (zh) * | 2020-10-10 | 2022-09-20 | 西南政法大学 | 一种声纹识别模型的训练方法、存储介质和计算机设备 |
CN112259104B (zh) * | 2020-10-10 | 2022-11-01 | 西南政法大学 | 一种声纹识别模型的训练装置 |
CN112233668B (zh) * | 2020-10-21 | 2023-04-07 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
CN112331187B (zh) * | 2020-11-24 | 2023-01-13 | 思必驰科技股份有限公司 | 多任务语音识别模型训练方法、多任务语音识别方法 |
CN113077797B (zh) * | 2021-03-22 | 2022-06-24 | 山东师范大学 | 基于多源注意力网络的说话人识别方法及系统 |
CN113129908B (zh) * | 2021-03-24 | 2022-07-26 | 中国科学院声学研究所南海研究站 | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 |
CN113129900A (zh) * | 2021-04-29 | 2021-07-16 | 科大讯飞股份有限公司 | 一种声纹提取模型构建方法、声纹识别方法及其相关设备 |
CN113140222B (zh) * | 2021-05-10 | 2023-08-01 | 科大讯飞股份有限公司 | 一种声纹向量提取方法、装置、设备及存储介质 |
CN113362829B (zh) * | 2021-06-04 | 2022-05-24 | 思必驰科技股份有限公司 | 说话人验证方法、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN110569920A (zh) * | 2019-09-17 | 2019-12-13 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
-
2020
- 2020-01-06 CN CN202010011692.5A patent/CN111243602B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN110569920A (zh) * | 2019-09-17 | 2019-12-13 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
Non-Patent Citations (1)
Title |
---|
Qing Wang et al..《Unsupervised Domain Adaptation via Domain Adversarial Training for Speaker Recognition》.《ICASSP 2018》.2018,第1-5页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111243602A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243602B (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN109859772B (zh) | 情绪识别方法、装置及计算机可读存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
US6401063B1 (en) | Method and apparatus for use in speaker verification | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN107342077A (zh) | 一种基于因子分析的说话人分段聚类方法及系统 | |
CN107564513A (zh) | 语音识别方法及装置 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN107610707A (zh) | 一种声纹识别方法及装置 | |
CN110428842A (zh) | 语音模型训练方法、装置、设备及计算机可读存储介质 | |
CN102486922B (zh) | 说话人识别方法、装置和系统 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
Zhang et al. | Speech emotion recognition using combination of features | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
Fan et al. | Deep Hashing for Speaker Identification and Retrieval. | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN1391211A (zh) | 对识别系统中的参数进行训练的方法和系统 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |