CN1787077A - 基于锚模型空间投影序数比较的快速说话人确认方法 - Google Patents

基于锚模型空间投影序数比较的快速说话人确认方法 Download PDF

Info

Publication number
CN1787077A
CN1787077A CNA2005100619559A CN200510061955A CN1787077A CN 1787077 A CN1787077 A CN 1787077A CN A2005100619559 A CNA2005100619559 A CN A2005100619559A CN 200510061955 A CN200510061955 A CN 200510061955A CN 1787077 A CN1787077 A CN 1787077A
Authority
CN
China
Prior art keywords
speaker
ordinal number
model
anchor model
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100619559A
Other languages
English (en)
Other versions
CN100570712C (zh
Inventor
杨莹春
吴朝晖
杨旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2005100619559A priority Critical patent/CN100570712C/zh
Publication of CN1787077A publication Critical patent/CN1787077A/zh
Application granted granted Critical
Publication of CN100570712C publication Critical patent/CN100570712C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种基于锚模型空间投影序数比较的快速说话人确认方法,首先用将测试语音进行锚模型映射,然后将映射后的测试语音与其所声明的说话人进行序数比较。所述的锚模型映射为:首先对测试语音进行特征提取,得到一组特征向量序列,然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。所述序数比较为将得分向量中的得分排序,并比较测试语音与声明说话人的得分序数并计算序数的欧式距离,最后将序数距离与阈值比较得到最终结果。本发明有益的效果是:利用锚模型简化确认系统中的训练过程,克服用单个人特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛的安全性和适应性。

Description

基于锚模型空间投影序数比较的快速说话人确认方法
技术领域
本发明涉及一种生物特征技术,主要是一种基于锚模型空间投影序数比较的快速说话人确认方法。
背景技术
生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认定的一种技术,它以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(语音、击键、步态、签名等)为依据,采用计算机的强大功能和网络技术进行图像处理和模式识别,用以鉴别人的身份。说话人识别技术是一项根据语音中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。说话人识别基于语音,既包含了人的生理特征,即先天的解剖学上的差异;又包含了人的行为特征,即后天发音习惯的不同。说话人识别任务有很多类型,根据认证的方式不同,可以分为以下三类:
●说话人鉴别,也称说话人辨认,是指从给定用户集中把测试语音所属的说话人区分出来;
●说话人确认,也成说话人检测,针对单个用户,即通过测试语音来判断其是否是其所声明的用户身份;
●说话人跟踪,是指对一段包含多个说话人的语音,正确标注这段语音中说话人切换的时刻。
目前说话人识别技术普遍采用对倒谱特征(如MFCC)的概率分布进行建模估计,采用的模型大多为高斯混合模型和背景模型的比较。近年来,用与一组固定说话人(锚说话人)之间的相似程度来表示说话人的方法被提出,基于锚模型的说话人鉴别技术也逐渐得到发展。但基于锚模型的说话人鉴别技术仍有许多不足之处,直接比较模型得分的方法缺乏合理性。
发明内容
本发明要解决上述技术所存在的缺陷,提供一种基于锚模型空间投影序数比较的快速说话人确认方法,是通过将测试语音与锚模型比较,映射到锚空间后,再与其所声明的说话人进行比较的说话人检索方法。
本发明解决其技术问题所采用的技术方案:一种基于锚模型空间投影序数比较的快速说话人确认方法,首先用将测试语音进行锚模型映射,然后将映射后的测试语音与其所声明的说话人进行序数比较。
本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的锚模型映射为:首先对测试语音进行特征提取,得到一组特征向量序列,然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。所述序数比较为将得分向量中的得分排序,并比较测试语音与声明说话人的得分序数并计算序数的欧式距离,最后将序数距离与阈值比较得到最终结果。
本发明有益的效果是:利用锚模型简化确认系统中的训练过程,克服用单个人特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛的安全性和适应性。
附图说明
图1是匹配的锚模型上DET曲线图;
图2是不匹配的锚模型上DET曲线图;
具体实施方式
下面结合实施例对本发明作进一步描述。本发明的方法共分六步。
第一步:音频预处理
音频预处理分为采样量化,去零漂,预加重和加窗三个部分。
1、采样量化
A)、用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置音频采样率F=2FN
C)、对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = s a ( n F ) ,
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
2、去零漂
A)、计算量化的振幅序列的平均值s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小的值;
B)、s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n)。
4、加窗
A)、计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N个音频信号样本;
C)、计算哈明窗函数:
D)、对每一音频帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
第二步:特征提取
音频帧上的特征提取包括能量和梅尔倒谱系数(MFCC)的提取。
1、能量的提取:
E = Σ n = 1 N s 2 ( n )
2、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度:
M i = i p × 2592 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φi上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2
其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 .
F)、做离散余弦变换DCT
第三步、锚模型训练
锚模型的训练过程分为背景模型的训练和锚模型自适应。背景模型和锚模型都是高斯混合模型(GMM)。
每一个说话人的语音特征在特征空间中都形成了特定的分布,可以用这一分布来描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合近似说话人的特征分布。
每一个说话人的概率密度函数的函数形式是相同的,所不同的只是函数中的参数。M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
p ( x ) = Σ i = 1 M P i b i ( x )
b i ( x ) = N ( x , μ i , R i ) = 1 ( 2 π ) p / 2 | p i | 1 / 2 exp { - 1 2 ( x - μ i ) T R i - 1 ( x - μ i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分布函数,M是GMM模型的阶数,在建立说话人模型以前设为一确定整数,这里用64。λ={Pi,μi,Ri|i=1,2,...,M}为说话人特征分布GMM中的参数,作为高斯混合分布的加权系数,Pi应满足使得:
∫ - ∞ + ∞ p ( x / λ ) dx = 1
由于计算GMM中的p(x)需要求p×p维方阵Ri(i=1,2,...,M)的逆,运算量大,为此,将Ri设成对角阵,将求逆运算转化维求倒数运算,提高运算速度。
背景模型由大量语音数据训练而成,用来消除背景差异和自适应锚模型。锚模型为由一组特定说话人语音训练成的一组高斯混合模型。
第四步、锚空间投影
用户语音输入后,经特征提取,得到一特征向量序列。该序列输入到锚模型的各个GMM中,得到一组相似度值组成的向量SCV:
SCV={s1,s2,...sn}
其中si是第i个锚模型GMM的得分与背景模型得分之差。
第五步、基于序数比较的确认
不同于传统锚模型方法中的比较注册语音和测试语音的SCV的欧式距离,本方法比较得分向量SCV中各维度序数,可以弥补其在待确认说话人语音和锚模型不匹配时的局限性。
首先将SCV={s1,s2,...sn}里的得分进行排序:
si1>si2>...>sin
根据这个序列,可以得到得分序数向量V’={o1,o2,...on},其中,oij=j。
确认时,对说声称的说话人的注册语音和测试语音都求序数向量,并比较两个向量之间的距离:d=|V1’-V2’|2。将距离与阈值比较,若距离小于阈值,则接受为同一个说话人,反之则拒绝。
实验结果
本方法在SRMC多通道语音库和YOHO语音库上进行了实验。SRMC语音库包括303个说话人,分为麦克风、PDA、手机、固定电话四个通道,每个通道的语料内容分为个人信息、短文段落、数字串、省份传和看图说话等部分;YOHO语音库包括138个说话人,每个人的语料分为注册和确认两部分,为普通办公室录音环境。
我们选取了四组语料用于实验,分别是:
Dataset 0:YOHO库所有人的注册部分和SRMC库里麦克风通道的个人信息部分。这些语音用于训练背景模型。
Dataset 1:YOHO库里随机选取的50个人。用于进行确认实验,用每个人的注册语料进行注册,确认部分每个文件分别进行测试。
Dataset 2:YOHO库里剩下的88个人,用每个人的注册语料分别训练匹配的锚模型。
Dataset 3:SRMC里随机选取的88个人,用每个人的麦克风通道中短文段落部分分别训练不匹配的锚模型。
作为对比,我们同时也用传统的欧式距离和向量夹角距离在同样的条件下进行实验。实验分为两组,一组用匹配的锚模型Dataset 2,一组用不匹配的锚模型Dataset 3,测试数据和注册数据都来自Dataset 1。根据改变的阈值,画出三个算法确认的错误报警率和错误接收率DET曲线,分别如图1和图2所示:
其中,当错误接收率和错误拒绝率相等时的值,等错误率,如下表所示:
  等错误率   匹配   不匹配
  欧式距离   33.25%   35.71%
  向量夹角   21.53%   30.38%
  序数比较   19.96%   22.89%
实验结果表明,基于锚模型空间投影序数比较的快速说话人确认方法,比传统的锚模型方法更准确,对锚模型与测试说话人不匹配的情况更鲁棒性。

Claims (5)

1、一种基于锚模型空间投影序数比较的快速说话人确认方法,其特征在于:首先用将测试语音进行锚模型映射,然后将映射后的测试语音与其所声明的说话人进行序数比较。
2、权利要求1所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法,其特征在于:锚模型映射为:首先对测试语音进行特征提取,得到一组特征向量序列,然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。
3、权利要求1所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法,其特征在于:所述序数比较为将得分向量中的得分排序,并比较测试语音与声明说话人的得分序数并计算序数的欧式距离,最后将序数距离与阈值比较得到最终结果。
4、权利要求1或2或3所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法,其特征在于:该方法具体步骤如下:
第一步:音频预处理:音频预处理分为采样量化,去零漂,预加重和加窗三个部分;
第二步:特征提取:音频帧上的特征提取包括能量和梅尔倒谱系数的提取;
第三步、锚模型训练:
锚模型的训练过程分为背景模型的训练和锚模型自适应,背景模型和锚模型都是高斯混合模型,是用多个高斯分布的线性组合近似说话人的特征分布;
M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
p ( x ) = Σ i = 1 M P i b i ( x )
b i ( x ) = N ( x , μ i , R i ) = 1 ( 2 π ) p / 2 | p i | 1 / 2 exp { - 1 2 ( x - μ i ) T - R i - 1 ( x - μ i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分布函数,M是GMM模型的阶数,在建立说话人模型以前设为一确定整数,λ={Pi,μi,Ri|i=1,2,...,M}为说话人特征分布GMM中的参数,作为高斯混合分布的加权系数,Pi应满足使得: ∫ - ∞ + ∞ p ( x | λ ) dx = 1
背景模型由大量语音数据训练而成,用来消除背景差异和自适应锚模型,锚模型为由一组特定说话人语音训练成的一组高斯混合模型;
第四步、锚空间投影:
用户语音输入后,经特征提取,得到一特征向量序列;该序列输入到锚模型的各个GMM中,得到一组相似度值组成的向量SCV:SCV={s1,s2,...sn},其中si是第i个锚模型GMM的得分与背景模型得分之差;
第五步、基于序数比较的确认:
比较得分向量SCV中各维度序数;首先将SCV={s1,s2,...sn}里的得分进行排序:si1>si2>...>sin,根据这个序列,可以得到得分序数向量V’={o1,o2,...on},其中,oij=j;
确认时,对说声称的说话人的注册语音和测试语音都求序数向量,并比较两个向量之间的距离:d=|V1’-V2’|2;将距离与阈值比较,若距离小于阈值,则接受为同一个说话人,反之则拒绝。
5、权利要求4所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法,其特征在于:音频帧上的特征提取包括能量和梅尔倒谱系数的提取;具体步骤如下:
5.1)、能量的提取: E = Σ n = 1 N s 2 ( n )
5.2)、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2 , 其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 ;
F)、做离散余弦变换DCT。
CNB2005100619559A 2005-12-13 2005-12-13 基于锚模型空间投影序数比较的快速说话人确认方法 Expired - Fee Related CN100570712C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100619559A CN100570712C (zh) 2005-12-13 2005-12-13 基于锚模型空间投影序数比较的快速说话人确认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100619559A CN100570712C (zh) 2005-12-13 2005-12-13 基于锚模型空间投影序数比较的快速说话人确认方法

Publications (2)

Publication Number Publication Date
CN1787077A true CN1787077A (zh) 2006-06-14
CN100570712C CN100570712C (zh) 2009-12-16

Family

ID=36784495

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100619559A Expired - Fee Related CN100570712C (zh) 2005-12-13 2005-12-13 基于锚模型空间投影序数比较的快速说话人确认方法

Country Status (1)

Country Link
CN (1) CN100570712C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604522B (zh) * 2009-07-16 2011-09-28 北京森博克智能科技有限公司 非特定人的嵌入式中英文混合语音识别方法及系统
CN102782750A (zh) * 2011-01-05 2012-11-14 松下电器产业株式会社 兴趣区间抽取装置、兴趣区间抽取方法
CN102805634A (zh) * 2011-05-31 2012-12-05 上海西门子医疗器械有限公司 一种判断待检对象发生运动的方法和装置
CN103229233A (zh) * 2010-12-10 2013-07-31 松下电器产业株式会社 用于识别说话人的建模设备和方法、以及说话人识别系统
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及系统
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN112420057A (zh) * 2020-10-26 2021-02-26 四川长虹电器股份有限公司 基于距离编码的声纹识别方法、装置、设备及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604522B (zh) * 2009-07-16 2011-09-28 北京森博克智能科技有限公司 非特定人的嵌入式中英文混合语音识别方法及系统
US9595260B2 (en) 2010-12-10 2017-03-14 Panasonic Intellectual Property Corporation Of America Modeling device and method for speaker recognition, and speaker recognition system
CN103229233B (zh) * 2010-12-10 2015-11-25 松下电器(美国)知识产权公司 用于识别说话人的建模设备和方法、以及说话人识别系统
CN103229233A (zh) * 2010-12-10 2013-07-31 松下电器产业株式会社 用于识别说话人的建模设备和方法、以及说话人识别系统
CN102782750B (zh) * 2011-01-05 2015-04-01 松下电器(美国)知识产权公司 兴趣区间抽取装置、兴趣区间抽取方法
US8942540B2 (en) 2011-01-05 2015-01-27 Panasonic Intellectual Property Corporation Of America Interesting section extracting device, interesting section extracting method
CN102782750A (zh) * 2011-01-05 2012-11-14 松下电器产业株式会社 兴趣区间抽取装置、兴趣区间抽取方法
CN102805634B (zh) * 2011-05-31 2015-01-21 上海西门子医疗器械有限公司 一种判断待检对象发生运动的方法和装置
CN102805634A (zh) * 2011-05-31 2012-12-05 上海西门子医疗器械有限公司 一种判断待检对象发生运动的方法和装置
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及系统
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN112420057A (zh) * 2020-10-26 2021-02-26 四川长虹电器股份有限公司 基于距离编码的声纹识别方法、装置、设备及存储介质
CN112420057B (zh) * 2020-10-26 2022-05-03 四川长虹电器股份有限公司 基于距离编码的声纹识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN100570712C (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN104036774B (zh) 藏语方言识别方法及系统
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
CN108986824B (zh) 一种回放语音检测方法
CN101178897B (zh) 利用基频包络剔除情感语音的说话人识别方法
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
CN1787077A (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
CN1302456C (zh) 一种声纹识别方法
CN109285538A (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN101923855A (zh) 文本无关的声纹识别系统
CN1188804C (zh) 一种声纹识别方法
CN101051464A (zh) 说话人认证的注册和验证方法及装置
CN1758332A (zh) 基于倒谱特征线性情感补偿的说话人识别方法
CN1170239C (zh) 掌上声纹验证方法
CN1963917A (zh) 评价语音的分辨力、说话人认证的注册和验证方法及装置
CN1547191A (zh) 结合语义和声纹信息的说话人身份确认系统
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
CN1787075A (zh) 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN1877697A (zh) 一种基于分布式结构的说话人确认方法
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN102496366B (zh) 一种与文本无关的说话人识别方法
CN115424620A (zh) 一种基于自适应触发器的声纹识别后门样本生成方法
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN116403598A (zh) 一种基于深度嵌入特征聚类的多说话人语音分离方法
CN1372222A (zh) 基于指纹和声纹的交叉认证系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091216

Termination date: 20171213

CF01 Termination of patent right due to non-payment of annual fee