CN109994116B - 一种基于会议场景小样本条件下的声纹准确识别方法 - Google Patents

一种基于会议场景小样本条件下的声纹准确识别方法 Download PDF

Info

Publication number
CN109994116B
CN109994116B CN201910182461.8A CN201910182461A CN109994116B CN 109994116 B CN109994116 B CN 109994116B CN 201910182461 A CN201910182461 A CN 201910182461A CN 109994116 B CN109994116 B CN 109994116B
Authority
CN
China
Prior art keywords
matrix
feature
speaker
characteristic
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910182461.8A
Other languages
English (en)
Other versions
CN109994116A (zh
Inventor
张晖
高财政
赵海涛
孙雁飞
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910182461.8A priority Critical patent/CN109994116B/zh
Publication of CN109994116A publication Critical patent/CN109994116A/zh
Application granted granted Critical
Publication of CN109994116B publication Critical patent/CN109994116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于会议场景小样本条件下的声纹准确识别方法,包括以下步骤:步骤(1):对每个说话人的特征向量矩阵执行差异化特征与样本点及独立化特征矩阵操作;再建立并保存针对每个说话人的预判模型;步骤(2):将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作;分别计算识别集中每个说话人特征矩阵与待测语音对应特征矩阵的相似度,选取训练阶段适当数目的说话人作为预判的结果;再将待测语音对应特征矩阵带入到预判结果中各预判模型里计算选取概率,选取概率最高的那个预判模型作为识别结果。本发明具有识别准确率高的优点。

Description

一种基于会议场景小样本条件下的声纹准确识别方法
技术领域
本发明涉及智能会议领域,具体涉及一种基于会议场景小样本条件下的声纹准确识别方法。
背景技术
在会议场景下,由于会议安排时间大都非常紧凑,留给采集音频的时间很有限。其次,说话人主观上也不太愿意花费很长时间在采集音频上;再者,被采集语音的说话人也无法在短期时间内,将自己的声纹特征全都展现出来,因此很难在会议场景下采集到足够的训练样本。大多数情况下,采集到的语音大都是同一种腔调,无法完全展示说话人的声纹特征,无法完全囊括不同条件下说话人自身的差异特征。不仅在会议场景下,在其他场景下也是如此,根本无法完成采集足够样本的需求,这将直接导致了声纹识别系统中只能使用小样本完成模型的训练。
在声纹识别系统中采用小样本训练模型,将带来很多难以预想的问题:首先,样本点少,无法完全覆盖用户的声纹个性特征,从而,小样本下提取的特征将很难区分出不同的说话人,这将直接导致识别准确率低的问题;再者,小样本训练时,样本缺失将导致模型很难收敛,无法达到训练出能完整描述声纹特征分布模型的目标;此外,小样本条件下训练出的模型会偏离正确的声纹特征分布,无法达到最优的处理结果,还有可能带来非常严重的过拟合现象;除此之外,样本点少,将严重限制声纹识别技术的作用领域,由于样本点的不足,在多人声纹识别领域,系统所能区分的总人数非常有限,这将严重降低用户对声纹识别系统的使用体验。
发明内容
本发明的目的是提供一种声纹识别准确率高的基于会议场景小样本条件下的声纹准确识别方法。
为实现上述目的,本发明采用了如下技术方案:一种基于会议场景小样本条件下的声纹准确识别方法,包括以下步骤:
步骤(1):先在训练阶段对基于会议场景小样本执行特征提取操作,具体步骤如下:
步骤(1.1):先对经特征提取后的每个说话人的特征向量矩阵执行差异化特征与样本点操作,将每个说话人对应的特征向量矩阵转化成同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵;
步骤(1.2):对经差异化特征与样本点操作后的特征矩阵执行独立化特征矩阵操作,将经差异化特征与样本点操作后的特征矩阵转化成矩阵中列向量是不独立的特征矩阵;
步骤(1.3):将得到的每个说话人对应的矩阵中列向量是不独立的特征矩阵按照顺序一一输入进选定的模型里,然后按照模型对特征数据的格式要求转化特征矩阵,再按照模型训练步骤,分别训练出针对每个说话人独特的预判模型并保存预判模型;
步骤(2):在识别阶段对待测语音样本执行特征提取操作,具体步骤如下:
步骤(2.1):筛选特征数据:先将训练阶段每个说话人经特征提取后对应的特征向量样本点均值矩阵结合在一起组成筛选矩阵,然后将待测语音经特征提取后对应的特征向量样本点均值矩阵中的列向量与筛选矩阵中各特征向量样本点均值矩阵中的列向量一一相减,然后根据阈值,将待测语音经特征提取后对应的特征向量样本点均值矩阵中与所有说话人特征向量样本点均值差异度都大或者都小的列向量剔除出去,只保留其余列向量;
步骤(2.2):预判识别结果:将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到待测语音对应的矩阵中列向量是不独立的特征矩阵;然后分别计算训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵与待测语音对应的矩阵中列向量是不独立的特征矩阵之间的相似度,并按相似度的大小选取训练阶段适当数目的说话人作为预判的结果;
步骤(2.3):识别目标说话人:将待测语音对应的矩阵中列向量是不独立的特征矩阵带入到预判结果中各说话人对应的预判模型里,计算待测语音对应的矩阵中列向量是不独立的特征矩阵在每个预判模型中得到的概率,并选取概率最高的那个预判模型作为识别结果,该识别结果也就是目标说话人。
进一步地,前述的一种基于会议场景小样本条件下的声纹准确识别方法,其中:在步骤(1.1)中,差异化特征与样本点操作,具体方法如下:
假设通过特征提取操作后得到的其中一个目标说话人的特征向量矩阵为xij,其中,0≤i≤m,0≤j≤n,按照公式(1.1)、公式(1.2)分别计算说话人对应的特征间均值矩阵Ei与特征向量样本点间均值矩阵Fj
Figure GDA0002782080990000021
Figure GDA0002782080990000022
然后根据公式(1.3),计算行向量间数据差异最大化特征矩阵;
Figure GDA0002782080990000031
其中,xij为矩阵特征向量,Ei为特征间均值矩阵,aij为行向量间数据差异最大化特征矩阵;
然后根据公式(1.4),计算列向量间数据差异最大化特征矩阵;
Figure GDA0002782080990000032
其中,xij为矩阵特征向量,Fj为特征向量样本点间均值矩阵,bij为列向量间数据差异最大化特征矩阵;
然后,根据公式(1.5)和公式(1.6)分别行向量间数据差异最大化特征矩阵aij和列向量间数据差异最大化特征矩阵bij执行归一化过程;
Figure GDA0002782080990000033
Figure GDA0002782080990000034
其中ajmax是指aij矩阵中第j列中的最大值,ajmin是指aij矩阵中第j列中的最小值,aimax是指aij矩阵中第i行中的最大值,aimin是指aij矩阵中第i行中的最小值,aij为行向量间数据差异最大化特征矩阵,bij为列向量间数据差异最大化特征矩阵;
最后,根据公式(1.7)的操作步骤合并归一化后的矩阵aij′、bij′,得到同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵wij
Figure GDA0002782080990000035
其中,wij为合并后同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵,aij′为归一化后的行向量间数据差异最大化特征矩阵,bij′为归一化后的列向量间数据差异最大化特征矩阵。
进一步地,前述的一种基于会议场景小样本条件下的声纹准确识别方法,其中:在步骤(1.2)中,独立化特征矩阵操作,具体方法如下:
步骤(1.2.1):计算新特征向量:
假设GA={w1,w2,...,wm},wi是列向量,列数为语音信号的帧数,首先计算wi的均值,其中,1≤i≤n,得出均值
Figure GDA0002782080990000041
其中,1≤i≤n,然后计算wi
Figure GDA0002782080990000042
的差值,新的
Figure GDA0002782080990000043
步骤(1.2.2):计算协方差:
根据上步计算出的新特征向量
Figure GDA0002782080990000044
可以求出特征的协方差矩阵S,计算过程如公式(1.8)所示:
Figure GDA0002782080990000045
步骤(1.2.3):计算新特征矩阵:
利用幂法或逆幂法计算协方差矩阵S的特征值和特征向量,得出的特征值为λi∈{λ12,...,λm},且满足λ1>λ2>...>λm,与特征值对应的特征向量为yi∈{y1,y2,...,ym},其中yi对应的就是执行独立化特征矩阵操作后得到的特征矩阵。
进一步地,前述的一种基于会议场景小样本条件下的声纹准确识别方法,其中:在步骤(2.2)中,将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,并对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到的特征矩阵为yi′,将训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵假设为Ai∈{A1,A2,...,AH},其中Ai表示第i个说话人对应的特征矩阵,H表示声纹识别系统中的总人数;假设B为经过上述操作得到的yi′,Ai中的数据用aij表示,B中数据用bij表示,每个说话人对应的特征矩阵Ai与B矩阵的相似度计算方法,具体包括以下步骤:
步骤(2.2.1):计算矩阵行的匹配程度,计算公式如下:
Figure GDA0002782080990000046
其中,dij表示矩阵行的匹配程度;
步骤(2.2.2):从Ai矩阵中提取与B中行最匹配的子矩阵,计算公式如下:
Ci=mindij (1.10)
其中:dij表示矩阵行的匹配程度,其中,j=1,2,...,n,Ci对应的Ai矩阵中那一行就是与B矩阵中第i行最匹配的行,将Ci对应的Ai矩阵中的行组成一个最近似矩阵D,其中D与B行数相同,列数也相同,并且匹配度最高;
步骤(2.2.3):计算D与B的相似度,计算公式如下:
Figure GDA0002782080990000051
其中,dij表示D矩阵中的数据,bij表示B矩阵中的数据。
通过上述技术方案的实施,本发明的有益效果是:通过特征提取方法使提取到的数据间差异度最大,使有限的样本也能区分出不同的说话人;使用会议场景下模型训练方法,训练出针对会议场景的非目标说话人通用模型,并使用小样本完成模型建立;再使用再训练的方法,利用识别阶段充足的测试样本进行优化模型,使说话人模型更能表征说话人的特征,从而大大提高了声纹识别系统的识别准确率,增强了用户对声纹识别系统的使用体验。
附图说明
图1为本发明所述的一种基于会议场景小样本条件下的声纹准确识别方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对发明作进一步详细说明。
如图1所示,所述的一种基于会议场景小样本条件下的声纹准确识别方法,包括以下步骤:
步骤(1):先在训练阶段对基于会议场景小样本执行特征提取操作,具体步骤如下:
步骤(1.1):先对经特征提取后的每个说话人的特征向量矩阵执行差异化特征与样本点操作,将每个说话人对应的特征向量矩阵转化成同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵;
其中,差异化特征与样本点操作的具体方法如下:
假设通过特征提取操作后得到的其中一个目标说话人的特征向量矩阵为xij,其中,0≤i≤m,0≤j≤n,按照公式(1.1)、公式(1.2)分别计算说话人对应的特征间均值矩阵Ei与特征向量样本点间均值矩阵Fj
Figure GDA0002782080990000052
Figure GDA0002782080990000053
然后根据公式(1.3),首先计算矩阵特征向量xij与特征间均值矩阵Ei之间的距离,然后计算以距离为指数以e为底的指数值,最后计算指数值与xij的乘积,得到一个行向量间数据差异最大化特征矩阵aij,与xij相比,aij里的元素在行向量间数据差异达到最大化;之所以选用以e为底的指数函数是考虑到在xij值小于Ei,指数为负数时,aij仍然能保持与xij同样的正负性;另外也考虑到相隔同等距离下,以e为底的指数函数会将两个值的差距达到最大化[39]
行向量间数据差异最大化特征矩阵计算公式如下;
Figure GDA0002782080990000061
其中,xij为矩阵特征向量,Ei为特征间均值矩阵,aij为行向量间数据差异最大化特征矩阵;
然后根据公式(1.4),首先计算矩阵特征向量xij与样本点间均值矩阵Fj之间的距离,然后根据公式计算得出列向量间数据差异最大化特征矩阵bij,与xij相比,bij里的元素在列向量间数据差异达到最大化;
列向量间数据差异最大化特征矩阵计算公式如下;
Figure GDA0002782080990000062
其中,xij为矩阵特征向量,Fj为特征向量样本点间均值矩阵,bij为列向量间数据差异最大化特征矩阵;
然后,根据公式(1.5)和公式(1.6)分别行向量间数据差异最大化特征矩阵aij和列向量间数据差异最大化特征矩阵bij执行归一化过程,通过归一化过程后,减小了差异化后矩阵中值过大或者值过小导致的特征太明显或特征太不明显等问题;
Figure GDA0002782080990000063
Figure GDA0002782080990000064
其中ajmax是指aij矩阵中第j列中的最大值,ajmin是指aij矩阵中第j列中的最小值,aimax是指aij矩阵中第i行中的最大值,aimin是指aij矩阵中第i行中的最小值,aij为行向量间数据差异最大化特征矩阵,bij为列向量间数据差异最大化特征矩阵;
最后,根据公式(1.7)的操作步骤合并归一化后的矩阵aij′、bij′,得到同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵wij,也就是说完成了原特征向量矩阵在不同样本点间以及不同特征间的差异最大化过程;
Figure GDA0002782080990000071
其中,wij为合并后同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵,aij′为归一化后的行向量间数据差异最大化特征矩阵,bij′为归一化后的列向量间数据差异最大化特征矩阵;
步骤(1.2):对经差异化特征与样本点操作后的特征矩阵执行独立化特征矩阵操作,将经差异化特征与样本点操作后的特征矩阵转化成矩阵中列向量是不独立的特征矩阵;
由于wij是由矩阵aij′和bij′通过合并公式得到的,但是此时矩阵的列向量是不独立的,不同特征间仍存在相关性,这将削弱特征间的区分度,导致特征矩阵中的值偏小、偏平均;所以非常有必要对特征矩阵执行独立化操作,其中,独立化特征矩阵操作的具体方法如下:
步骤(1.2.1):计算新特征向量:
假设GA={w1,w2,...,wm},wi是列向量,列数为语音信号的帧数,首先计算wi的均值,其中,1≤i≤n,得出均值
Figure GDA0002782080990000072
其中,1≤i≤n,然后计算wi
Figure GDA0002782080990000073
的差值,新的
Figure GDA0002782080990000074
步骤(1.2.2):计算协方差:
根据上步计算出的新特征向量
Figure GDA0002782080990000075
可以求出特征的协方差矩阵S,计算过程如公式(1.8)所示:
Figure GDA0002782080990000076
步骤(1.2.3):计算新特征矩阵:
利用幂法或逆幂法计算协方差矩阵S的特征值和特征向量,得出的特征值为λi∈{λ12,...,λm},且满足λ1>λ2>...>λm,与特征值对应的特征向量为yi∈{y1,y2,...,ym},其中yi对应的就是执行独立化特征矩阵操作后得到的特征矩阵;
步骤(1.3):将得到的每个说话人对应的矩阵中列向量是不独立的特征矩阵按照顺序一一输入进选定的模型里,然后按照模型对特征数据的格式要求转化特征矩阵,再按照模型训练步骤,分别训练出针对每个说话人独特的预判模型并保存预判模型;
步骤(2):在识别阶段对待测语音样本执行特征提取操作,具体步骤如下:
步骤(2.1):筛选特征数据:具体操作是:根据训练阶段每个说话人经特征提取后对应得到的特征间均值矩阵Ei与特征向量样本点间均值矩阵Fj,将每个说话人的Ei矩阵结合在一起组成筛选矩阵Ei∈{E1,E2,...,Em},同时将每个说话人的Fj矩阵也结合在一起组成筛选矩阵Fj∈{F1,F2,...,Fn};然后,对待测语音执行传统的特征提取操作,提取得到的特征向量矩阵为xij;其中,0≤i≤w,0≤j≤n,然后分别根据公式(1.1)、公式(1.2)计算待测语音的特征间均值矩阵Ei′与特征向量样本点间均值矩阵Fj′;考虑到Ei′与Ei不一定拥有相同的行数,所以没法进行直接比较;但是,不管在训练阶段还是识别阶段,特征提取的维数是固定的,所以Fj与Fj′在维度上是相同的,因此可以将Fj′与Fj中的列向量一一相减,即:将待测语音经特征提取后对应的特征向量样本点均值矩阵中的列向量与筛选矩阵中各特征向量样本点均值矩阵中的列向量一一相减,从而得到识别阶段与训练阶段在样本点均值上的差异度,并根据阈值,将待测语音经特征提取后对应的特征向量样本点均值矩阵中与所有说话人特征向量样本点均值差异度都大或者都小的列向量剔除出去,只保留其余列向量;
步骤(2.2):预判识别结果:将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到待测语音对应的矩阵中列向量是不独立的特征矩阵,得到的特征矩阵为yi′,为了方便描述,我们将训练阶段每个说话人执行上述操作后得到的特征矩阵假设为Ai∈{A1,A2,...,AH},其中Ai表示第i个说话人对应的特征矩阵,H表示声纹识别系统中的总人数;假设B为经过上述操作得到的yi′,从上述分析可以得知,Ai矩阵与B矩阵在行数上不相同,在列数上保持相同,假设Ai中的数据用aij表示,B中数据用bij表示,然后对其进行相似度计算;其中,每个说话人对应的特征矩阵Ai与B矩阵的相似度计算方法,具体包括以下步骤:
步骤(2.2.1):计算矩阵行的匹配程度,计算公式如下:
Figure GDA0002782080990000091
其中,dij表示矩阵行的匹配程度;
步骤(2.2.2):从Ai矩阵中提取与B中行最匹配的子矩阵,计算公式如下:
Ci=mindij (1.10)
其中:dij表示矩阵行的匹配程度,j=1,2,...,n,Ci对应的Ai矩阵中那一行就是与B矩阵中第i行最匹配的行,将Ci对应的Ai矩阵中的行组成一个最近似矩阵D,其中D与B行数相同,列数也相同,并且匹配度最高;
步骤(2.2.3):计算D与B的相似度,计算公式如下:
Figure GDA0002782080990000092
其中,dij表示D矩阵中的数据,bij表示B矩阵中的数据;
按照上述步骤分别计算每个说话人对应的特征矩阵Ai与B矩阵的相似度[42],计算结果为Si∈{S1,S2,...,SH},其中Si表示第i个说话人对应的特征矩阵与B矩阵的相似度,然后对Si从大到小排序,排序结果为Si′∈{S1′,S2′,...,SH′},其中S1′表示与说话人对应的特征矩阵与B矩阵的相似度的最大值,该相似度所对应的说话人是在相似度上来说最匹配B矩阵的,然后在Si′中选取适当数目的元素,这些元素所对应的说话人就是预判的结果;
步骤(2.3):识别目标说话人:将待测语音对应的矩阵中列向量是不独立的特征矩阵带入到预判结果中各说话人对应的预判模型里,计算待测语音对应的矩阵中列向量是不独立的特征矩阵在每个预判模型中得到的概率,并选取概率最高的那个预判模型作为识别结果,该识别结果也就是目标说话人。
本发明的优点是:通过特征提取方法使提取到的数据间差异度最大,使有限的样本也能区分出不同的说话人;使用会议场景下模型训练方法,训练出针对会议场景的非目标说话人通用模型,并使用小样本完成模型建立;再使用再训练的方法,利用识别阶段充足的测试样本进行优化模型,使说话人模型更能表征说话人的特征,从而大大提高了声纹识别系统的识别准确率,增强了用户对声纹识别系统的使用体验。

Claims (4)

1.一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:包括以下步骤:
步骤(1):先在训练阶段对基于会议场景小样本执行特征提取操作,具体步骤如下:
步骤(1.1):先对经特征提取后的每个说话人的特征向量矩阵执行差异化特征与样本点操作,将每个说话人对应的特征向量矩阵转化成同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵;
步骤(1.2):对经差异化特征与样本点操作后的特征矩阵执行独立化特征矩阵操作,将经差异化特征与样本点操作后的特征矩阵转化成矩阵中列向量是不独立的特征矩阵;
步骤(1.3):将得到的每个说话人对应的矩阵中列向量是不独立的特征矩阵按照顺序一一输入进选定的模型里,然后按照模型对特征数据的格式要求转化特征矩阵,再按照模型训练步骤,分别训练出针对每个说话人独特的预判模型并保存预判模型;
步骤(2):在识别阶段对待测语音样本执行特征提取操作,具体步骤如下:
步骤(2.1):筛选特征数据:先将训练阶段每个说话人经特征提取后对应的特征向量样本点均值矩阵结合在一起组成筛选矩阵,然后将待测语音经特征提取后对应的特征向量样本点均值矩阵中的列向量与筛选矩阵中各特征向量样本点均值矩阵中的列向量一一相减,然后根据阈值,将待测语音经特征提取后对应的特征向量样本点均值矩阵中与所有说话人特征向量样本点均值差异度都大或者都小的列向量剔除出去,只保留其余列向量;
步骤(2.2):预判识别结果:将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到待测语音对应的矩阵中列向量是不独立的特征矩阵;然后分别计算训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵与待测语音对应的矩阵中列向量是不独立的特征矩阵之间的相似度,并按相似度的大小选取训练阶段适当数目的说话人作为预判的结果;
步骤(2.3):识别目标说话人:将待测语音对应的矩阵中列向量是不独立的特征矩阵带入到预判结果中各说话人对应的预判模型里,计算待测语音对应的矩阵中列向量是不独立的特征矩阵在每个预判模型中得到的概率,并选取概率最高的那个预判模型作为识别结果,该识别结果也就是目标说话人。
2.根据权利要求1所述的一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:在步骤(1.1)中,差异化特征与样本点操作的具体方法如下:
假设通过特征提取操作后得到的其中一个目标说话人的特征向量矩阵为xij,其中,0≤i≤m,0≤j≤n;按照公式(1.1)、公式(1.2)分别计算说话人对应的特征间均值矩阵Ei与特征向量样本点间均值矩阵Fj
Figure FDA0002782080980000021
Figure FDA0002782080980000022
然后根据公式(1.3),计算行向量间数据差异最大化特征矩阵;
Figure FDA0002782080980000023
其中,xij为矩阵特征向量,Ei为特征间均值矩阵,aij为行向量间数据差异最大化特征矩阵;
然后根据公式(1.4),计算列向量间数据差异最大化特征矩阵;
Figure FDA0002782080980000024
其中,xij为矩阵特征向量,Fj为特征向量样本点间均值矩阵,bij为列向量间数据差异最大化特征矩阵;
然后,根据公式(1.5)和公式(1.6)分别行向量间数据差异最大化特征矩阵aij和列向量间数据差异最大化特征矩阵bij执行归一化过程;
Figure FDA0002782080980000025
Figure FDA0002782080980000026
其中ajmax是指aij矩阵中第j列中的最大值,ajmin是指aij矩阵中第j列中的最小值,aimax是指aij矩阵中第i行中的最大值,aimin是指aij矩阵中第i行中的最小值,aij为行向量间数据差异最大化特征矩阵,bij为列向量间数据差异最大化特征矩阵;
最后,根据公式(1.7)的操作步骤合并归一化后的矩阵aij′、bij′,得到同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵wij
Figure FDA0002782080980000027
其中,wij为合并后同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵,aij′为归一化后的行向量间数据差异最大化特征矩阵,bij′为归一化后的列向量间数据差异最大化特征矩阵。
3.根据权利要求2所述的一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:在步骤(1.2)中,独立化特征矩阵操作的具体方法如下:
步骤(1.2.1):计算新特征向量:
假设GA={w1,w2,...,wm},wi是列向量,列数为语音信号的帧数,首先计算wi的均值,其中1≤i≤n,得出均值
Figure FDA0002782080980000031
其中1≤i≤n,然后计算wi
Figure FDA0002782080980000032
的差值,新的
Figure FDA0002782080980000033
步骤(1.2.2):计算协方差:
根据上步计算出的新特征向量
Figure FDA0002782080980000034
可以求出特征的协方差矩阵S,计算过程如公式(1.8)所示:
Figure FDA0002782080980000035
步骤(1.2.3):计算新特征矩阵:
利用幂法或逆幂法计算协方差矩阵S的特征值和特征向量,得出的特征值为λi∈{λ12,...,λm},且满足λ1>λ2>...>λm,与特征值对应的特征向量为yi∈{y1,y2,...,ym},其中yi对应的就是执行独立化特征矩阵操作后得到的特征矩阵。
4.根据权利要求3所述的一种基于会议场景小样本条件下的声纹准确识别方法,其特征在于:在步骤(2.2)中,将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵,并对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作,得到的特征矩阵为yi′,将训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵假设为Ai∈{A1,A2,...,AH},其中Ai表示第i个说话人对应的特征矩阵,H表示声纹识别系统中的总人数;假设B为经过上述操作得到的yi′,Ai中的数据用aij表示,B中数据用bij表示,每个说话人对应的特征矩阵Ai与B矩阵的相似度计算方法,具体包括以下步骤:
步骤(2.2.1):计算矩阵行的匹配程度,计算公式如下:
Figure FDA0002782080980000041
其中,dij表示矩阵行的匹配程度;
步骤(2.2.2):从Ai矩阵中提取与B中行最匹配的子矩阵,计算公式如下:
Ci=mindij (1.10)
其中:dij表示矩阵行的匹配程度,j=1,2,...,n,Ci对应的Ai矩阵中那一行就是与B矩阵中第i行最匹配的行,将Ci对应的Ai矩阵中的行组成一个最近似矩阵D,其中D与B行数相同,列数也相同,并且匹配度最高;
步骤(2.2.3):计算D与B的相似度,计算公式如下:
Figure FDA0002782080980000042
其中,dij表示D矩阵中的数据,bij表示B矩阵中的数据。
CN201910182461.8A 2019-03-11 2019-03-11 一种基于会议场景小样本条件下的声纹准确识别方法 Active CN109994116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910182461.8A CN109994116B (zh) 2019-03-11 2019-03-11 一种基于会议场景小样本条件下的声纹准确识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910182461.8A CN109994116B (zh) 2019-03-11 2019-03-11 一种基于会议场景小样本条件下的声纹准确识别方法

Publications (2)

Publication Number Publication Date
CN109994116A CN109994116A (zh) 2019-07-09
CN109994116B true CN109994116B (zh) 2021-01-19

Family

ID=67129618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910182461.8A Active CN109994116B (zh) 2019-03-11 2019-03-11 一种基于会议场景小样本条件下的声纹准确识别方法

Country Status (1)

Country Link
CN (1) CN109994116B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657338A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 传动装置状态识别方法、装置、计算机设备及存储介质
CN116758907B (zh) * 2023-08-17 2024-01-02 国网信息通信产业集团有限公司 一种小样本语义理解训练方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522086A (zh) * 2011-12-27 2012-06-27 中国科学院苏州纳米技术与纳米仿生研究所 一种有序序列相似性对比方法的声纹识别应用
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN104050147A (zh) * 2013-03-13 2014-09-17 刘湘辉 将时域信号转换成频域信号的方法与系统
CN105224849A (zh) * 2015-10-20 2016-01-06 广州广电运通金融电子股份有限公司 一种多生物特征融合身份鉴别方法以及装置
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
WO2016141773A1 (zh) * 2015-03-09 2016-09-15 电信科学技术研究院 一种近端语音信号检测方法及装置
CN107705792A (zh) * 2017-11-29 2018-02-16 宁波高新区锦众信息科技有限公司 一种基于声纹模型训练的机器人语音识别控制方法
US20180077286A1 (en) * 2015-06-01 2018-03-15 AffectLayer, Inc. Automatic pattern recognition in conversations
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法
CN109145148A (zh) * 2017-06-28 2019-01-04 百度在线网络技术(北京)有限公司 信息处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522086A (zh) * 2011-12-27 2012-06-27 中国科学院苏州纳米技术与纳米仿生研究所 一种有序序列相似性对比方法的声纹识别应用
CN104050147A (zh) * 2013-03-13 2014-09-17 刘湘辉 将时域信号转换成频域信号的方法与系统
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
WO2016141773A1 (zh) * 2015-03-09 2016-09-15 电信科学技术研究院 一种近端语音信号检测方法及装置
US20180077286A1 (en) * 2015-06-01 2018-03-15 AffectLayer, Inc. Automatic pattern recognition in conversations
CN105224849A (zh) * 2015-10-20 2016-01-06 广州广电运通金融电子股份有限公司 一种多生物特征融合身份鉴别方法以及装置
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN109145148A (zh) * 2017-06-28 2019-01-04 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN107705792A (zh) * 2017-11-29 2018-02-16 宁波高新区锦众信息科技有限公司 一种基于声纹模型训练的机器人语音识别控制方法
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker Recognition;QI LI et al.;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20020331;全文 *

Also Published As

Publication number Publication date
CN109994116A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN107341463B (zh) 一种结合图像质量分析与度量学习的人脸特征识别方法
TWI423144B (zh) Combined with the audio and video behavior identification system, identification methods and computer program products
Shum et al. On the use of spectral and iterative methods for speaker diarization
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN105261367B (zh) 一种说话人识别方法
CN112507901A (zh) 一种基于伪标签自纠正的无监督行人重识别方法
CN109994116B (zh) 一种基于会议场景小样本条件下的声纹准确识别方法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN111401105B (zh) 一种视频表情识别方法、装置及设备
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN114519351A (zh) 一种基于用户意图嵌入图谱学习的主题文本快速检测方法
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
CN111144462B (zh) 一种雷达信号的未知个体识别方法及装置
CN106384587A (zh) 一种语音识别方法及系统
CN116720145B (zh) 基于数据处理的无线充电剩余时间预测方法
CN113033345A (zh) 基于公共特征子空间的v2v视频人脸识别方法
CN116363712B (zh) 一种基于模态信息度评估策略的掌纹掌静脉识别方法
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN111414863A (zh) 一种增强型集成遥感影像分类方法
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
US20220335928A1 (en) Estimation device, estimation method, and estimation program
CN106373576A (zh) 一种基于vq和svm算法的说话人确认方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant