CN110782903A - 一种说话人识别方法及可读存储介质 - Google Patents

一种说话人识别方法及可读存储介质 Download PDF

Info

Publication number
CN110782903A
CN110782903A CN201911011046.2A CN201911011046A CN110782903A CN 110782903 A CN110782903 A CN 110782903A CN 201911011046 A CN201911011046 A CN 201911011046A CN 110782903 A CN110782903 A CN 110782903A
Authority
CN
China
Prior art keywords
label
speaker
training
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911011046.2A
Other languages
English (en)
Inventor
邹学强
韩纪庆
蒋凌云
陈晨
郑贵滨
郑铁然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201911011046.2A priority Critical patent/CN110782903A/zh
Publication of CN110782903A publication Critical patent/CN110782903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种说话人识别方法及可读存储介质,涉及语音识别技术领域,所述方法包括如下步骤:获取语音信息,并提取所述语音信息的均值超矢量;训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。本发明方法通过训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,由此提升了说话人识别系统的性能。

Description

一种说话人识别方法及可读存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种说话人识别方法及可读存储介质。
背景技术
语音是人类之间交流情感与认知的重要信息载体,是在生活与工作中最基本、最自然的交流方式。随着信息技术的发展,使得通过分析语音信号中的个人特征来识别说话人成为可能。说话人识别技术因其良好的准确性、经济性和可扩展性,拥有着广阔的发展空间。在众多说话人识别技术中,身份-向量说话人识别方法由于其优异的性能与较高的效率,应用最为广泛。
然而,现有技术的方法没有考虑到数据的类别信息,因此同一类别内与不同类别间的数据关系均无法体现,这些类别信息对于样本的分类与预测却有着十分重要的意义。
发明内容
本发明实施例提供一种说话人识别方法及可读存储介质,用以提升说话人识别系统的性能。
第一方面,本发明实施例提供一种说话人识别方法,所述方法包括如下步骤:
获取语音信息,并提取所述语音信息的均值超矢量;
训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。
可选的,所述语音信息包括语音的梅尔倒谱系数。
可选的,提取所述语音信息的均值超矢量,包括:
根据语音的梅尔倒谱系数训练通用背景模型;
基于训练后的通用背景模型进行自适应处理获得语音信息的混合高斯分量;
将所获取的语音信息的混合高斯分量的各均值矢量按照预定顺序进行排序以获得语音信息的均值超矢量。
可选的,在训练语音测试模型,包括:
将语音信息的均值超矢量分为训练集和测试集;
基于所述训练集的均值超矢量与初始标签构建基于偏最小二乘的总变化空间;
根据所述总变化空间对所述测试集的均值超矢量进行验证以获得测试集在总变化空间上的预测标签;
对比预测标签与初始标签以完成模型训练。
可选的,所述对比预测标签与初始标签以完成模型训练,包括:
通过所述预测标签对所述初始标签进行惩罚修正;
基于所述训练集的均值超矢量与修正后的标签构建修正后的总变化空间直至收敛以完成模型训练。
可选的,通过所述预测标签对所述初始标签进行惩罚修正,包括:
将预测标签的分类结果与已知正确的分类进行对比,在预测标签分类结果错误的情况下,对初始标签对应的标签向量做惩罚修正;
所述对初始标签对应的标签向量做惩罚修正,包括:
对全部训练语料的类别标识进行惩罚;或者,
对分类错误的语料的类别标识进行惩罚。
可选的,基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,包括:
将待测语音信息的均值超矢量输入至训练完成的语音测试模型以获得待测语音信息在总变化空间上的投影信息;
根据所述投影信息完成说话人的识别。
可选的,所述根据所述投影信息完成说话人的识别,包括:
将所述投影信息作为身份-向量计算所述投影信息到说话人的余弦距离以完成说话人的识别。
第二方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现前述的方法的步骤。
本发明实施例通过训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,由此提升了说话人识别系统的性能,取得了积极的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明第一实施例流程图;
图2为本发明第一实施例基于惩罚修正的偏最小二乘总变化空间估计示意图;
图3为本发明第一实施例方法与现有身份-向量方法性能对比。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明第一实施例提供一种说话人识别方法,如图1所示,所述方法包括如下步骤:
获取语音信息,并提取所述语音信息的均值超矢量;
训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。
本发明实施例通过训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,由此提升了说话人识别系统的性能,取得了积极的技术效果。
可选的,在本发明一个可选的实施例中,所述语音信息包括语音的梅尔倒谱系数。
可选的,提取所述语音信息的均值超矢量,包括:
根据语音的梅尔倒谱系数训练通用背景模型;
基于训练后的通用背景模型进行自适应处理获得语音信息的混合高斯分量;
将所获取的语音信息的混合高斯分量的各均值矢量按照预定顺序进行排序以获得语音信息的均值超矢量。
具体的说,以语音的梅尔倒谱系数作为输入,提取其对应的均值超矢量,在本实施例中进行进一步举例说明,以语音的梅尔倒谱系数作为输入,通过训练通用背景模型,并在通用背景模型上做自适应,得到每个数据的混合高斯模型,并将所有高斯分量的各均值矢量μc按照固定的顺序排列起来,即得到均值的超矢量M:
Figure BDA0002244186910000051
可选的,在训练语音测试模型,包括:
将语音信息的均值超矢量分为训练集和测试集;
基于所述训练集的均值超矢量与初始标签构建基于偏最小二乘的总变化空间;
根据所述总变化空间对所述测试集的均值超矢量进行验证以获得测试集在总变化空间上的预测标签;
对比预测标签与初始标签以完成模型训练。
具体的说,如图2所示,将训练集的均值超矢量与标签向量作为输入,训练一个基于偏最小二乘的总变化空间,
Figure BDA0002244186910000052
其中,T为总变化空间矩阵,W为身份-向量组成的矩阵,Y为热编码(one-hot)类别标签矩阵,Q为负荷矩阵,U为得分矩阵,E和F为残差矩阵。
然后,将验证集的均值超矢量作为输入,得到其在总变化空间上的预测标签。由于Y为多个回归的叠加,因此验证集的预测标签Yre可以表示为:
Figure BDA0002244186910000053
其中,Uval为验证集得分矩阵,Qtr为训练语料的负荷矩阵,Wval为预测语料的身份-向量矩阵,Btr为回归系数矩阵。
定义Mre为验证集均值超向量组成的矩阵,则预测标签矩阵Yval可以表示为:
Figure BDA0002244186910000061
其中,
Figure BDA0002244186910000062
为用残差矩阵求得的权矩阵,Vtr为训练均值超矢量的权矩阵。
可选的,在本发明另一个可选的实施例中,所述对比预测标签与初始标签以完成模型训练,包括:
通过所述预测标签对所述初始标签进行惩罚修正;
基于所述训练集的均值超矢量与修正后的标签构建修正后的总变化空间直至收敛以完成模型训练。
可选的,通过所述预测标签对所述初始标签进行惩罚修正,包括:
将预测标签的分类结果与已知正确的分类进行对比,在预测标签分类结果错误的情况下,对初始标签对应的标签向量做惩罚修正;
所述对初始标签对应的标签向量做惩罚修正,包括:
对全部训练语料的类别标识进行惩罚;或者,
对分类错误的语料的类别标识进行惩罚。
具体的说,在本实施例中,将预测分类结果与已知的正确的说话人类别进行对比,当分类结果错误时,对类别标签向量的相应列做出惩罚修正。例如,说话人S1的验证样本被预测为说话人S2,则将说话人S1在说话人S2的类别标签向量所对应的列做相应的惩罚修正:把原来的0做相应的减小,使其与0的距离增加,从而与代表说话人类别的1的距离更远,加大了说话人S1与说话人S2之间的距离。本实施例中提出的惩罚方式有两种:
(1)对全部训练语料类别标识矩阵的相应列做出惩罚;
(2)只对分类错误的语料的类别标识矩阵的相应列做出惩罚。
然后,将训练集数据的均值超矢量与修正后的标签作为输入,重复构建修正后的总变化空间并进行训练直至收敛。
可选的,基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,包括:
将待测语音信息的均值超矢量输入至训练完成的语音测试模型以获得待测语音信息在总变化空间上的投影信息;
根据所述投影信息完成说话人的识别。
可选的,所述根据所述投影信息完成说话人的识别,包括:
将所述投影信息作为身份-向量计算所述投影信息到说话人的余弦距离以完成说话人的识别。
具体的说,在本实施例中,将待测语音信息的测试均值超矢量作为输入,得到其在总变化空间上的投影,将其作为身份-向量计算其与目标说话人的余弦距离作为分数。设目标说话人与测试说话人的身份-向量分别为wtarget和wtest,则余弦距离得分的形式如下:
Figure BDA0002244186910000071
图3为在King-ASR-010说话人数据集上,基于惩罚修正的偏最小二乘的说话人识别技术与现有的身份-向量方法的性能对比。其中PLS(Partial Least Squares)代表基于惩罚修正的偏最小二乘的说话人识别方法,i-vector(Identification-Vector)代表现有基于身份-向量的说话人识别技术。其中“等错误率”与“最小检测代价”的值越小,说明方法性能越优。经实验证明,基于惩罚修正的偏最小二乘的说话人识别技术可以给基于身份-向量的识别方法带来31.62%的相对等错误率下降,以及45.16%的相对最小检测代价下降。
身份-向量的说话人识别技术的核心环节为总变化空间的估计,然而现有方法总变化空间的估计方法均为通过寻找特征向量之间的数据信息关系达来到特征提取的目的,却忽略了一个重要的先验知识——说话人的类别信息,而类别信息对于样本的分类与预测有着十分重要的意义,因此现有方法的总变化空间估计方法并不是最优的。
因此,本发明方法从训练数据的类别信息入手,提出了一种基于惩罚修正的偏最小二乘说话人识别方法。本发明方法在对总变化空间估计的时候,考虑训练数据的类别信息,因此能够充分利用说话人数据的类内与类间关系,因此与现有方法相比,在使用相同训练数据的情况下,可以达到更高的说话人识别准确率。
经实验证明,在King-ASR-010数据集上,一种基于惩罚修正的偏最小二乘的说话人识别技术可以为现有的身份-向量说话人识别方法带来31.62%的相对等错误率下降,以及45.16%的相对最小检测代价下降,详见图2。
综上,本发明方法可显著提升了说话人识别系统的性能。
第二方面,本发明第二实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现第一实施例的方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种说话人识别方法,其特征在于,所述方法包括如下步骤:
获取语音信息,并提取所述语音信息的均值超矢量;
训练语音测试模型,并基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别。
2.如权利要求1所述的方法,其特征在于,所述语音信息包括语音的梅尔倒谱系数。
3.如权利要求2所述的方法,其特征在于,提取所述语音信息的均值超矢量,包括:
根据语音的梅尔倒谱系数训练通用背景模型;
基于训练后的通用背景模型进行自适应处理获得语音信息的混合高斯分量;
将所获取的语音信息的混合高斯分量的各均值矢量按照预定顺序进行排序以获得语音信息的均值超矢量。
4.如权利要求3所述的方法,其特征在于,在训练语音测试模型,包括:
将语音信息的均值超矢量分为训练集和测试集;
基于所述训练集的均值超矢量与初始标签构建基于偏最小二乘的总变化空间;
根据所述总变化空间对所述测试集的均值超矢量进行验证以获得测试集在总变化空间上的预测标签;
对比预测标签与初始标签以完成模型训练。
5.如权利要求4所述的方法,其特征在于,所述对比预测标签与初始标签以完成模型训练,包括:
通过所述预测标签对所述初始标签进行惩罚修正;
基于所述训练集的均值超矢量与修正后的标签构建修正后的总变化空间直至收敛以完成模型训练。
6.如权利要求5所述的方法,其特征在于,通过所述预测标签对所述初始标签进行惩罚修正,包括:
将预测标签的分类结果与已知正确的分类进行对比,在预测标签分类结果错误的情况下,对初始标签对应的标签向量做惩罚修正;
所述对初始标签对应的标签向量做惩罚修正,包括:
对全部训练语料的类别标识进行惩罚;或者,
对分类错误的语料的类别标识进行惩罚。
7.如权利要求4所述的方法,其特征在于,基于所述语音测试模型对提取的所述均值超矢量进行判定以完成说话人的识别,包括:
将待测语音信息的均值超矢量输入至训练完成的语音测试模型以获得待测语音信息在总变化空间上的投影信息;
根据所述投影信息完成说话人的识别。
8.如权利要求7所述的方法,其特征在于,所述根据所述投影信息完成说话人的识别,包括:
将所述投影信息作为身份-向量计算所述投影信息到说话人的余弦距离以完成说话人的识别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。
CN201911011046.2A 2019-10-23 2019-10-23 一种说话人识别方法及可读存储介质 Pending CN110782903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911011046.2A CN110782903A (zh) 2019-10-23 2019-10-23 一种说话人识别方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911011046.2A CN110782903A (zh) 2019-10-23 2019-10-23 一种说话人识别方法及可读存储介质

Publications (1)

Publication Number Publication Date
CN110782903A true CN110782903A (zh) 2020-02-11

Family

ID=69386371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911011046.2A Pending CN110782903A (zh) 2019-10-23 2019-10-23 一种说话人识别方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN110782903A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
KR20080023030A (ko) * 2006-09-08 2008-03-12 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
KR20080023030A (ko) * 2006-09-08 2008-03-12 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈晨: "I-VECTOR说话人识别中基于偏最小二乘的总变化空间估计方法", 《哈尔滨工业大学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111508505A (zh) * 2020-04-28 2020-08-07 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN111508505B (zh) * 2020-04-28 2023-11-03 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
Diez et al. Speaker Diarization based on Bayesian HMM with Eigenvoice Priors.
Larcher et al. ALIZE 3.0-open source toolkit for state-of-the-art speaker recognition
CN110110062B (zh) 机器智能问答方法、装置与电子设备
EP2770502B1 (en) Method and apparatus for automated speaker classification parameters adaptation in a deployed speaker verification system
US6401063B1 (en) Method and apparatus for use in speaker verification
US7603279B2 (en) Grammar update system and method for speech recognition
CN110990685B (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
van Dalen et al. Automatically grading learners’ English using a Gaussian process
CN106098068A (zh) 一种声纹识别方法和装置
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
Imseng et al. Using out-of-language data to improve an under-resourced speech recognizer
CN108269575B (zh) 更新声纹数据的语音识别方法、终端装置及存储介质
US20140222423A1 (en) Method and Apparatus for Efficient I-Vector Extraction
US20050065793A1 (en) Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these
CN104765996A (zh) 声纹密码认证方法及系统
CN114625838B (zh) 一种搜索系统的优化方法、装置、存储介质及计算机设备
CN110782903A (zh) 一种说话人识别方法及可读存储介质
Maghsoodi et al. Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors
Yun et al. An end-to-end text-independent speaker verification framework with a keyword adversarial network
Sancinetti et al. A transfer learning approach for pronunciation scoring
Sizov et al. Direct optimization of the detection cost for i-vector-based spoken language recognition
Kuzmin et al. Magnitude-aware probabilistic speaker embeddings
JP4652232B2 (ja) 話者の圧縮表現用の音声信号の分析のための方法およびシステム
CN116955559A (zh) 问答匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200211