CN110364168B - 一种基于环境感知的声纹识别方法及系统 - Google Patents

一种基于环境感知的声纹识别方法及系统 Download PDF

Info

Publication number
CN110364168B
CN110364168B CN201910662155.4A CN201910662155A CN110364168B CN 110364168 B CN110364168 B CN 110364168B CN 201910662155 A CN201910662155 A CN 201910662155A CN 110364168 B CN110364168 B CN 110364168B
Authority
CN
China
Prior art keywords
model
data
personal
audio data
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910662155.4A
Other languages
English (en)
Other versions
CN110364168A (zh
Inventor
孙学京
李旭阳
许春生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuoling Xinsheng Technology Co.,Ltd.
Original Assignee
Beijing Tuoling Xinsheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuoling Xinsheng Technology Co ltd filed Critical Beijing Tuoling Xinsheng Technology Co ltd
Priority to CN201910662155.4A priority Critical patent/CN110364168B/zh
Publication of CN110364168A publication Critical patent/CN110364168A/zh
Application granted granted Critical
Publication of CN110364168B publication Critical patent/CN110364168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明实施例涉及一种基于环境感知的声纹识别方法及系统,其中,所述方法包括:从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型。本申请提供的技术方案,能够解决声纹识别过程中信道不匹配的问题。

Description

一种基于环境感知的声纹识别方法及系统
技术领域
本申请涉及数据处理技术领域,特别涉及一种基于环境感知的声纹识别方法及系统。
背景技术
声纹是指语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征所建立的语音模型的总称。随着科学技术的发展,人机交互应运而生,语音凭借简单易获取、具有特定性和稳定性等特点,成为人机交互的重要方式之一。声纹识别技术在军事、国防、政府、金融医疗、家用、银行和保密等领域都有很大的需求,很多学者和企业也一定程度上推动了声纹识别技术的发展,但是在现实生活中,声纹识别技术并没有被广泛应用,因为该技术还面临着一些难以攻克的问题。
目前,声纹识别主要面临的问题的有环境噪音、信道失配、语言失配、说话人自身干扰、假冒闯入和短语音等。针对上述问题,目前存在一定的解决办法。例如对于环境噪音而言,可以通过频谱减法(Spectral Subtraction)解决固定环境噪音,还可以利用滤波法消除信道缓慢变化的噪音。此外,还有许多算法用以提高特征鲁棒性,如主成分分析法、线性判别法和异方差线性判别分析等。
随着技术的不断发展,现有技术中可以通过深度神经网络来实现声纹识别,还可以通过语音合成、语音识别等方式实现声纹识别。然而,传统的声纹识别方法通常复杂度较高,并且无法有效地解决声纹识别过程中的信道不匹配的问题。
发明内容
本申请的目的在于提供一种基于环境感知的声纹识别方法及系统,能够解决声纹识别过程中信道不匹配的问题。
为实现上述目的,本申请提供一种基于环境感知的声纹识别方法,所述方法包括:从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型。
进一步地,训练得到背景模型和个人模型包括:
提取所述新的负样本数据和所述语音数据各自的特征,并根据提取的特征训练得到背景模型;其中,所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种;
加载所述背景模型,并提取所述语音数据的语音特征,并根据所述背景模型的类型和提取的所述语音特征,训练得到与所述背景模型相适配的个人模型。
进一步地,在训练得到背景模型和个人模型之后,所述方法还包括:
获取待测试的音频数据,并将所述待测试的音频数据载入所述声纹系统中;
在所述声纹系统中加载所述背景模型,并根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型;
将生成的所述个人模型与训练得到的个人模型进行对比,并利用对比结果表征训练得到的所述个人模型的精度。
进一步地,根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型包括:
若加载的所述背景模型属于高斯混合模型,通过最大后验概率算法生成所述待测试的音频数据对应的个人模型;
若加载的所述背景模型属于深度学习神经网络模型,提取所述待测试的音频数据的特征向量,并将所述特征向量作为所述待测试的音频数据对应的个人模型。
进一步地,将生成的所述个人模型与训练得到的个人模型进行对比包括:
若加载的所述背景模型属于高斯混合模型,按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的对数似然距离:
Figure GDA0003139340430000031
其中,log(X|s)表示所述对数似然距离,X表示生成的所述个人模型,s表示训练得到的所述个人模型,T表示指定的声学特征序列长度,C表示训练得到的所述个人模型中的分布数,γc表示第c个分布的权重,xt表示生成的所述个人模型中的第t个数据,μc表示第c个分布的均值,∑c表示第c个分布的协方差矩阵,N(*)表示高斯运算。
进一步地,将生成的所述个人模型与训练得到的个人模型进行对比包括:
若加载的所述背景模型属于深度学习神经网络模型,按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的余弦距离:
Figure GDA0003139340430000032
其中,L表示所述余弦距离,Ai表示生成的所述个人模型中的第i个属性向量,Bi表示所述训练得到的个人模型中的第i个属性向量,n表示属性向量的总数。
为实现上述目的,本申请还提供一种基于环境感知的声纹识别系统,所述系统包括:数据分离单元,用于从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;数据混合单元,用于获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;模型训练单元,用于将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型。
进一步地,所述模型训练单元包括:
背景模型训练模块,用于提取所述新的负样本数据和所述语音数据各自的特征,并根据提取的特征训练得到背景模型;其中,所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种;
个人模型训练模块,用于加载所述背景模型,并提取所述语音数据的语音特征,并根据所述背景模型的类型和提取的所述语音特征,训练得到与所述背景模型相适配的个人模型。
进一步地,所述系统还包括:
音频数据获取单元,用于获取待测试的音频数据,并将所述待测试的音频数据载入所述声纹系统中;
个人模型生成单元,用于在所述声纹系统中加载所述背景模型,并根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型;
模型对比单元,用于将生成的所述个人模型与训练得到的个人模型进行对比,并利用对比结果表征训练得到的所述个人模型的精度。
进一步地,所述个人模型生成单元包括:
第一生成模块,用于若加载的所述背景模型属于高斯混合模型,通过最大后验概率算法生成所述待测试的音频数据对应的个人模型;
第二生成模块,用于若加载的所述背景模型属于深度学习神经网络模型,提取所述待测试的音频数据的特征向量,并将所述特征向量作为所述待测试的音频数据对应的个人模型。
由上可见,本申请提供的技术方案,在获取音频数据后,可以将音频数据分离为语音数据和背景噪音数据,并且可以将背景噪音数据和负样本音频数据进行混合,从而生成带有环境因素的新的负样本数据。这样,新的负样本数据与语音数据便可以拥有一致的环境因素,从而降低了由环境造成的信道不匹配的问题。后续,将新的负样本数据和语音数据输入声纹系统,可以分别训练得到背景模型和个人模型。在训练得到背景模型和个人模型后,还可以通过个人模型的校验匹配,从而评价训练得到的模型的精度,为模型校正提供了数据支持。由上可见,本申请提供的技术方案,能够解决声纹识别过程中信道不匹配的问题。
附图说明
图1为本申请实施例中基于环境感知的声纹识别方法的步骤图;
图2为本申请实施例中基于环境感知的声纹识别系统的功能模块示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请提供一种基于环境感知的声纹识别方法,请参阅图1,所述方法包括:
S1:从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;
S2:获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;
S3:将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型。
在一个实施方式中,训练得到背景模型和个人模型包括:
提取所述新的负样本数据和所述语音数据各自的特征,并根据提取的特征训练得到背景模型;其中,所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种;
加载所述背景模型,并提取所述语音数据的语音特征,并根据所述背景模型的类型和提取的所述语音特征,训练得到与所述背景模型相适配的个人模型。
在一个实施方式中,在训练得到背景模型和个人模型之后,所述方法还包括:
获取待测试的音频数据,并将所述待测试的音频数据载入所述声纹系统中;
在所述声纹系统中加载所述背景模型,并根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型;
将生成的所述个人模型与训练得到的个人模型进行对比,并利用对比结果表征训练得到的所述个人模型的精度。
在一个实施方式中,根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型包括:
若加载的所述背景模型属于高斯混合模型,通过最大后验概率算法生成所述待测试的音频数据对应的个人模型;
若加载的所述背景模型属于深度学习神经网络模型,提取所述待测试的音频数据的特征向量,并将所述特征向量作为所述待测试的音频数据对应的个人模型。
在一个实施方式中,将生成的所述个人模型与训练得到的个人模型进行对比包括:
若加载的所述背景模型属于高斯混合模型,按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的对数似然距离:
Figure GDA0003139340430000061
其中,log(X|s)表示所述对数似然距离,X表示生成的所述个人模型,s表示训练得到的所述个人模型,T表示指定的声学特征序列长度,C表示训练得到的所述个人模型中的分布数,γc表示第c个分布的权重,xt表示生成的所述个人模型中的第t个数据,μc表示第c个分布的均值,∑c表示第c个分布的协方差矩阵,N(*)表示高斯运算。
在一个实施方式中,将生成的所述个人模型与训练得到的个人模型进行对比包括:
若加载的所述背景模型属于深度学习神经网络模型,按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的余弦距离:
Figure GDA0003139340430000071
其中,L表示所述余弦距离,Ai表示生成的所述个人模型中的第i个属性向量,Bi表示所述训练得到的个人模型中的第i个属性向量,n表示属性向量的总数。
具体地,在实际应用中,虽然声纹识别的唯一性很好,但实际上现有的设备和技术仍然很难做出准确分辨,特别是人的声音还具有易变性,易受身体状况、年龄、情绪等的影响。若在环境噪音较大和混合说话人的环境下,声纹特征也是很难提取和建模的。
虽然深度学习带给声纹识别带来极大的提升,甚至还有开源的相关算法,但是声纹识别的研究进展仍然不大,这仍然受制于声纹的采集和特征的建立。另外就是真实环境下的各种影响,混响和噪声对各类模型和方法都有非常大的影响,这和人类似,嘈杂环境中确实很难分辨出某个人的声音。为了在一定程度上解决上述的问题,本申请改进了训练方法,具体地,在训练模型过程中,可以执行以下步骤:
1.从拾音设备中获取到音频数据,发送到声纹系统。
2.声纹系统使用VAD(Voice Activity Detection,语音活动检测)算法分离语音数据和背景噪声数据。语音数据中包含当前的环境噪声不做降噪处理。
在实际应用中,VAD算法有多种方法,比如基于能量检测和LTSD(Long-TermSpectral Divergence,长期光谱发散)。基于能量的准则是检测信号的强度,并且假设语音能量大于背景噪声能量,这样当能量大于某一门限时,可以认为有语音存在。然而当噪声大到和语音一样时,能量这个特征无法区分语音还是纯噪声。LTSD的准则是认为语音是非稳态信号。普通语速通常每秒发出10~15个音素,音素的谱分布是不一样的,这就导致了随着时间变化语音统计特性也是变化的。另一方面,日常的绝大多数噪声是稳态的(变化比较慢的),如白噪声/机器噪声。
3.准备负样本音频数据。负样本数据在没有收集到背景噪声之前,通常是一些噪声或非目标人声。
4.将得到的背景噪声数据和负样本音频数据随机混合,生成新的负样本数据,新的负样本数据中包含了当前的环境噪音。
5.得到一份混合后的负样本数据和一份训练用的语音数据。混合了环境噪音的负样本数据和语音数据两者在论理上拥有一致的环境因素,从而降低由环境造成的信道不匹配问题。
6.将新的负样本数据和语音数据输入声纹系统进行训练。具体地,将生成的新的负样本数据和语音数据都作为样本数据进行特征提取,然后执行语音检测、特征归一化、以及训练背景模型(UBM,Universal Background Model)训练等过程。背景模型可以用隐马尔可夫模型(HMM,Hidden Markov Model)或高斯混合模型(GMM,Gaussian Mixture Model)来表示,也可以用神经网络(Neural Network)来表示。
然后,声纹系统加载背景模型,同样对语音数据进行特征提取,然后经过能量检测、特征归一化、说话人模型训练等一系列步骤。如果背景模型是基于GMM的背景模型,则通过最大后验概率算法得到说话人模型,该说话人模型可以作为个人模型,个人模型都放置到模型库中。如果背景模型是以深度学习神经网络训练的背景模型,则通过获取d-vector来得到个人模型。
其中,隐马尔科夫模型和回归、分类那些处理相互独立的样本数据的模型不同,它用于处理时间序列数据,即样本之间有时间序列关系的数据。
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
对于深度神经网络而言,在开发阶段,深度神经网络经过训练,可以在帧级别对说话人进行分类。在说话人录入阶段,使用训练好的的深度神经网络模型用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值,d-vector,用作说话人特征模型。深度神经网络训练好后,提取每一帧语音的Filterbank Energy特征作为深度神经网络的输入,从最后隐藏层提取Activations,再经过L2正则化,然后将其累加起来,得到的向量就被称为d-vector。在评估阶段,可以为每个话语提取d-vector与录入的说话人模型相比较,进行验证。
7.得到输出的背景模型和个人模型。
在测试验证过程中,可以执行以下步骤:
1.得到从拾音设备获取说话人的音频数据,输入到声纹系统。
2.声纹系统加载训练好的背景模型。加载背景模型的目的是下一步生成说话人模型需要。
3.对说话人数据进行特征提取,然后能量检测(VAD)、特征归一化、如果是基于GMM的背景模型,则通过最大后验概率算法(MAP)得到说话人模型。如果是以深度学习神经网络训练的背景模型,则通过获取d-vector来得到说话人模型。生成后的模型和模型库中的个人模型进行比对。
4.输出对比结果。结果为当前说话人和模型库中的模型匹配程度。如果是GMM模型,匹配程度是基于对数似然距离(log-likelihood)。如果是基于d-vector,通常是使用余弦距离(cosine distance)。其中,余弦距离给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
请参阅图2,本申请还提供一种基于环境感知的声纹识别系统,所述系统包括:
数据分离单元,用于从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;
数据混合单元,用于获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;
模型训练单元,用于将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型。
在一个实施方式中,所述模型训练单元包括:
背景模型训练模块,用于提取所述新的负样本数据和所述语音数据各自的特征,并根据提取的特征训练得到背景模型;其中,所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种;
个人模型训练模块,用于加载所述背景模型,并提取所述语音数据的语音特征,并根据所述背景模型的类型和提取的所述语音特征,训练得到与所述背景模型相适配的个人模型。
在一个实施方式中,所述系统还包括:
音频数据获取单元,用于获取待测试的音频数据,并将所述待测试的音频数据载入所述声纹系统中;
个人模型生成单元,用于在所述声纹系统中加载所述背景模型,并根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型;
模型对比单元,用于将生成的所述个人模型与训练得到的个人模型进行对比,并利用对比结果表征训练得到的所述个人模型的精度。
在一个实施方式中,所述个人模型生成单元包括:
第一生成模块,用于若加载的所述背景模型属于高斯混合模型,通过最大后验概率算法生成所述待测试的音频数据对应的个人模型;
第二生成模块,用于若加载的所述背景模型属于深度学习神经网络模型,提取所述待测试的音频数据的特征向量,并将所述特征向量作为所述待测试的音频数据对应的个人模型。
由上可见,本申请提供的技术方案,在获取音频数据后,可以将音频数据分离为语音数据和背景噪音数据,并且可以将背景噪音数据和负样本音频数据进行混合,从而生成带有环境因素的新的负样本数据。这样,新的负样本数据与语音数据便可以拥有一致的环境因素,从而降低了由环境造成的信道不匹配的问题。后续,将新的负样本数据和语音数据输入声纹系统,可以分别训练得到背景模型和个人模型。在训练得到背景模型和个人模型后,还可以通过个人模型的校验匹配,从而评价训练得到的模型的精度,为模型校正提供了数据支持。由上可见,本申请提供的技术方案,能够解决声纹识别过程中信道不匹配的问题。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。

Claims (8)

1.一种基于环境感知的声纹识别方法,其特征在于,所述方法包括:
从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;
获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;
将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型;
声纹系统使用语音活动检测算法分离语音数据和背景噪声数据;
训练得到背景模型和个人模型包括:
提取所述新的负样本数据和所述语音数据各自的特征,并根据提取的特征训练得到背景模型;其中,背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种;
加载所述背景模型,并提取所述语音数据的语音特征,并根据所述背景模型的类型和提取的所述语音特征,训练得到与所述背景模型相适配的个人模型;
负样本音频数据是噪声或非目标人声。
2.根据权利要求1所述的方法,其特征在于,在训练得到背景模型和个人模型之后,所述方法还包括:
获取待测试的音频数据,并将所述待测试的音频数据载入所述声纹系统中;
在所述声纹系统中加载所述背景模型,并根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型;
将生成的所述个人模型与训练得到的个人模型进行对比,并利用对比结果表征训练得到的所述个人模型的精度。
3.根据权利要求2所述的方法,其特征在于,根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型包括:
若加载的所述背景模型属于高斯混合模型,通过最大后验概率算法生成所述待测试的音频数据对应的个人模型;
若加载的所述背景模型属于深度学习神经网络模型,提取所述待测试的音频数据的特征向量,并将所述特征向量作为所述待测试的音频数据对应的个人模型。
4.根据权利要求3所述的方法,其特征在于,将生成的所述个人模型与训练得到的个人模型进行对比包括:
若加载的所述背景模型属于高斯混合模型,按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的对数似然距离:
Figure FDA0003169355320000021
其中,log(X|s)表示所述对数似然距离,X表示生成的所述个人模型,s表示训练得到的所述个人模型,T表示指定的声学特征序列长度,C表示训练得到的所述个人模型中的分布数,γc表示第c个分布的权重,xt表示生成的所述个人模型中的第t个数据,μc表示第c个分布的均值,∑c表示第c个分布的协方差矩阵,N(*)表示高斯运算。
5.根据权利要求4所述的方法,其特征在于,将生成的所述个人模型与训练得到的个人模型进行对比包括:
若加载的所述背景模型属于深度学习神经网络模型,按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的余弦距离:
Figure FDA0003169355320000022
其中,L表示所述余弦距离,Ai表示生成的所述个人模型中的第i个属性向量,Bi表示所述训练得到的个人模型中的第i个属性向量,n表示属性向量的总数。
6.一种基于环境感知的声纹识别系统,其特征在于,所述系统包括:
数据分离单元,用于从拾音设备中获取音频数据,并将所述音频数据分离为语音数据和背景噪声数据;
数据混合单元,用于获取负样本音频数据,并将所述负样本音频数据与所述背景噪声数据进行随机混合,生成新的负样本数据;
模型训练单元,用于将所述新的负样本数据和所述语音数据输入声纹系统,以训练得到背景模型和个人模型;
声纹系统使用语音活动检测算法分离语音数据和背景噪声数据;
所述模型训练单元包括:
背景模型训练模块,用于提取所述新的负样本数据和所述语音数据各自的特征,并根据提取的特征训练得到背景模型;其中,所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种;
个人模型训练模块,用于加载所述背景模型,并提取所述语音数据的语音特征,并根据所述背景模型的类型和提取的所述语音特征,训练得到与所述背景模型相适配的个人模型;
负样本音频数据是噪声或非目标人声。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
音频数据获取单元,用于获取待测试的音频数据,并将所述待测试的音频数据载入所述声纹系统中;
个人模型生成单元,用于在所述声纹系统中加载所述背景模型,并根据加载的所述背景模型,生成所述待测试的音频数据对应的个人模型;
模型对比单元,用于将生成的所述个人模型与训练得到的个人模型进行对比,并利用对比结果表征训练得到的所述个人模型的精度。
8.根据权利要求7所述的系统,其特征在于,所述个人模型生成单元包括:
第一生成模块,用于若加载的所述背景模型属于高斯混合模型,通过最大后验概率算法生成所述待测试的音频数据对应的个人模型;
第二生成模块,用于若加载的所述背景模型属于深度学习神经网络模型,提取所述待测试的音频数据的特征向量,并将所述特征向量作为所述待测试的音频数据对应的个人模型。
CN201910662155.4A 2019-07-22 2019-07-22 一种基于环境感知的声纹识别方法及系统 Active CN110364168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910662155.4A CN110364168B (zh) 2019-07-22 2019-07-22 一种基于环境感知的声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910662155.4A CN110364168B (zh) 2019-07-22 2019-07-22 一种基于环境感知的声纹识别方法及系统

Publications (2)

Publication Number Publication Date
CN110364168A CN110364168A (zh) 2019-10-22
CN110364168B true CN110364168B (zh) 2021-09-14

Family

ID=68219813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910662155.4A Active CN110364168B (zh) 2019-07-22 2019-07-22 一种基于环境感知的声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN110364168B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706688B (zh) * 2019-11-11 2022-06-17 广州国音智能科技有限公司 语音识别模型的构建方法、系统、终端及可读存储介质
CN112652324A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 语音增强优化方法及语音增强优化系统、可读存储介质
CN113361969B (zh) * 2021-07-07 2022-03-08 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN115880737B (zh) * 2021-09-26 2024-04-19 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
WO2016201648A1 (zh) * 2015-06-17 2016-12-22 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
CN106782565A (zh) * 2016-11-29 2017-05-31 重庆重智机器人研究院有限公司 一种声纹特征识别方法及系统
CN107705791A (zh) * 2016-08-08 2018-02-16 中国电信股份有限公司 基于声纹识别的来电身份确认方法、装置和声纹识别系统
CN107705792A (zh) * 2017-11-29 2018-02-16 宁波高新区锦众信息科技有限公司 一种基于声纹模型训练的机器人语音识别控制方法
CN108242240A (zh) * 2016-12-23 2018-07-03 张学阳 复杂噪音下的声纹识别系统
CN109003613A (zh) * 2018-09-02 2018-12-14 珠海横琴现联盛科技发展有限公司 结合空间信息的声纹识别支付信息防伪方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
WO2016201648A1 (zh) * 2015-06-17 2016-12-22 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN107705791A (zh) * 2016-08-08 2018-02-16 中国电信股份有限公司 基于声纹识别的来电身份确认方法、装置和声纹识别系统
CN106782565A (zh) * 2016-11-29 2017-05-31 重庆重智机器人研究院有限公司 一种声纹特征识别方法及系统
CN108242240A (zh) * 2016-12-23 2018-07-03 张学阳 复杂噪音下的声纹识别系统
CN107705792A (zh) * 2017-11-29 2018-02-16 宁波高新区锦众信息科技有限公司 一种基于声纹模型训练的机器人语音识别控制方法
CN109003613A (zh) * 2018-09-02 2018-12-14 珠海横琴现联盛科技发展有限公司 结合空间信息的声纹识别支付信息防伪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《复杂环境下说话人确认鲁棒性研究》;王军;《中国博士学位论文全文数据库 信息科技辑》;20160715(第07期);全文 *

Also Published As

Publication number Publication date
CN110364168A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110364168B (zh) 一种基于环境感知的声纹识别方法及系统
Jain et al. Speech emotion recognition using support vector machine
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
Yousefi et al. Block-based high performance CNN architectures for frame-level overlapping speech detection
Rajisha et al. Performance analysis of Malayalam language speech emotion recognition system using ANN/SVM
CN110070895A (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Stefanus et al. GMM based automatic speaker verification system development for forensics in Bahasa Indonesia
Shabani et al. Speech recognition using principal components analysis and neural networks
Whitehill et al. Whosecough: In-the-wild cougher verification using multitask learning
Neelima et al. Mimicry voice detection using convolutional neural networks
Zhang et al. Depthwise separable convolutions for short utterance speaker identification
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Raghib et al. Emotion analysis and speech signal processing
Zilca Text-independent speaker verification using utterance level scoring and covariance modeling
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Piotrowski et al. Subscriber authentication using GMM and TMS320C6713DSP
Dustor et al. Speaker recognition system with good generalization properties
Gade et al. Hybrid Deep Convolutional Neural Network based Speaker Recognition for Noisy Speech Environments
Sas et al. Gender recognition using neural networks and ASR techniques
Iloanusi et al. Voice recognition and gender classification in the context of native languages and lingua franca
Chakraborty et al. An improved approach to open set text-independent speaker identification (OSTI-SI)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210820

Address after: Room 960A, floor 9, No. 11, Zhongguancun Street, Haidian District, Beijing 100190

Applicant after: Beijing Tuoling Xinsheng Technology Co.,Ltd.

Address before: 210042 3rd floor, 699-1 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province

Applicant before: Nanjing Tuoling Intelligent Technology Co.,Ltd.

Applicant before: BEIJING TUOLING Inc.

GR01 Patent grant
GR01 Patent grant