CN113793614B - 一种基于独立向量分析的语音特征融合的说话人识别方法 - Google Patents

一种基于独立向量分析的语音特征融合的说话人识别方法 Download PDF

Info

Publication number
CN113793614B
CN113793614B CN202110972388.1A CN202110972388A CN113793614B CN 113793614 B CN113793614 B CN 113793614B CN 202110972388 A CN202110972388 A CN 202110972388A CN 113793614 B CN113793614 B CN 113793614B
Authority
CN
China
Prior art keywords
feature
fusion
tensor
independent vector
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110972388.1A
Other languages
English (en)
Other versions
CN113793614A (zh
Inventor
张烨
马彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202110972388.1A priority Critical patent/CN113793614B/zh
Publication of CN113793614A publication Critical patent/CN113793614A/zh
Application granted granted Critical
Publication of CN113793614B publication Critical patent/CN113793614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于独立向量分析的语音特征融合的说话人识别方法。该方法首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。然后,将时域特征矩阵和频域特征矩阵构成一个特征张量。利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别。本发明采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,可增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。

Description

一种基于独立向量分析的语音特征融合的说话人识别方法
技术领域
本发明属于语音处理技术领域。涉及一种语音特征融合的说话人识别方法。
背景技术
语音特征的提取和融合技术可广泛用于语音识别和说话人识别等领域。语音信号主要有两大类时域特征和频域特征。时域特征是指在时域,直接从语音信号中提取语音特征,如短时能量、短时振幅、短时过零率、短时自相关、线性预测编码(Linear PredictiveCodings,LPCs)等。频域特征是指通过傅里叶变换将语音信号从时域转换到频域,在频域提取语音信号的特征,如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、对数振幅谱(Log-Magnitude Spectral Feature,LOG-MAG)、感知线性预测(Perceptual Linear Prediction,PLP)等。语音特征的融合是指将不同类型的语音信号的特征按一定的方法组合构成一个新的特征集,也就是融合特征,利用语音信号的融合特征可以提高说话人识别系统的性能。目前,语音信号特征的融合方法通常是将提取出的不同的语音特征直接级联构成语音的融合特征,不同类特征之间具有互补性,但是,同类特征之间具有一定的相关性,会降低说话人识别系统的性能。
发明内容
本发明的目的在于提供一种基于独立向量分析的语音特征融合的说话人识别方法,以解决上述背景技术中提出的问题。
该方法利用汉明窗将语音信号分成多个相互重叠的帧,假设帧的个数为T,从这些语音帧中,提取语音的不同种类的特征,即时域特征(LPCs)和频域特征(MFCCs)。将语音信号的时域特征或频域特征分别看作是由多个未知独立变量和未知的混合系统的线性混合,可表示为:
x[k](t)=A[k]s[k](t) (1)
上式中,为第t帧、第k类的特征向量,k∈{1,...,K},K为不同类语音特征的个数;t∈{1,...,T};/>为未知的混合矩阵,即混合系统。为未知第t帧、第k类语音信号的未知的独立向量,也可以看作独立的源信号。上标T表示转置。将提取的所有帧的同一类型的特征向量构成特征矩阵,即/>再将这些不同类特征矩阵构成一个特征张量,即采用独立向量分析提取独立向量作为融合特征,同时得到解混张量作为说话人的模型。具体过程如下。
①将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x[k](t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数。
②将K个矩阵X[k]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,/>被记为特征张量。对特征张量采用独立向量分析提取独立向量,即
上式中,为融合特征,/>其中,/>为独立向量/>的估计。是由K个解混矩阵W[k]并联构成的解混张量。由于/>对每个说话人是不同的,/>可以看作说话人模型。
③利用优化函数来估计独立向量和解混张量,即:
上式中,H[·]表示信息熵,det(·)表示行列式,为独立向量/>的估计,n∈{1,...,N},C=H[x[1](t),...,x[K](t)]是一个常数。
采用牛顿算法同时更新K个解混矩阵的第n行 表示第k个解混矩阵的第n行,n∈{1,...,N},即
其中,μ为学习率。表示损失函数对wn的导数。/>为Hessian矩阵。
本发明的有益效果是:
本发明采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。
附图说明
图1为使用了此发明的说话人识别系统。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
如图1所示,本发明提出了一种基于独立向量分析的语音特征融合的说话人识别方法。首先,利用汉明窗将说话人的语音划分成相互重叠的帧。提取每一帧的时域特征(如LPCs)和频域特征(如MFCCs)。其次,将提取出的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。将时域特征矩阵和频域特征矩阵构成一个特征张量。最后,对特征张量做独立向量分析,得到融合特征,同时得到解混张量作为说话人模型。依次进行上述三个步骤可以得到融合特征。
本发明将通过以下实施步骤例作进一步说明。
①用汉明窗将说话人的语音划分成相互重叠的帧,从每一帧中提取LPCs及其一阶导数和二阶导数、MFCCs及其一阶导数和二阶导数。LPCs及其一阶导数和二阶导数构成时域特征向量,MFCCs及其一阶导数和二阶导数构成频域特征向量。两个特征向量分别构成LPCs特征矩阵和MFCCs特征矩阵/>x[1](t)表示由LPCs及其一阶导数和二阶导数级联成的特征向量,x[2](t)表示MFCCs及其一阶导数和二阶导数级联成的特征向量,N表示特征的维数,T表示语音帧的个数。
②将X[1]和X[2]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,/>被记为特征张量。对特征张量使用独立向量分析提取独立向量,即
其中,表示融合特征,/>其中/>为独立向量/>的估计。/>其中/>为独立向量的估计。/>是由两个解混矩阵并联构成的解混张量。由于/>对每个说话人是不同的,/>可以看作说话人模型。
利用优化函数来估计独立向量和解混张量,即:
其中,H[·]表示信息熵,det(·)表示行列式,为独立向量/>的估计,n∈{1,...,N},C=H[x[1](t),x[2](t)]是一个常数。
③采用牛顿算法同时更新两个解混矩阵的第n行 表示第一个解混矩阵的第n行,/>表示第二个解混矩阵的第n行,n∈{1,...,N},即
其中,μ为学习率。表示损失函数对wn的导数,即
表示Hessian矩阵。
④用式7)更新,得解混张量即说话人模型。使用式5)得到融合特征/>
⑤将融合特征输入到卷积神经网络识别此语音对应的说话人的身份。
为验证融合特征的性能,设置了四组说话人识别实验,四组实验使用的语音特征分别为LPCs特征矩阵、MFCCs特征矩阵、特征张量/>和融合特征/>每组实验进行10次,并计算10次实验说话人识别率的均值和标准差。10次实验说话人识别率的均值越大,标准差越小,说话人识别系统的性能越好,语音特征的性能越好。四个实验结果如表1所示。
从表1中可知,使用特征张量或融合特征/>的说话人识别率均值分别为98.60%和99.15%,而使用LPCs特征矩阵和MFCCs特征矩阵的说话人识别率均值为94.53%和98.20%。由此可得使用特征张量/>或融合特征/>的说话人识别率的均值比使用LPCs特征矩阵和MFCCs特征矩阵的说话人识别率的均值高,使用融合特征/>的识别率比使用特征张量/>的识别率高。综上,此实验可以表明融合特征/>可以提高说话人识别系统的性能。
表1四种特征10次实验的说话人识别率(%)
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (1)

1.一种基于独立向量分析的语音特征融合的说话人识别方法,其特征在于:首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵;然后,将时域特征矩阵和频域特征矩阵构成一个特征张量;最后,利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别;
语音特征融合过程按如下步骤:
①利用汉明窗将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x[k](t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数;
②将K个特征矩阵X[k]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,/>被记为特征张量;对此特征张量采用独立向量分析建立说话人的模型,提取独立向量,即
其中,为融合特征,/>其中/>为独立向量/>的估计;是由K个解混矩阵并联构成的解混张量,/>作为说话人模型;
③利用损失函数来估计独立向量和解混张量,即:
上式中,H[·]表示信息熵,det(·)表示行列式,为独立向量/>的估计,n∈{1,...,N},C=H[x[1](t),...,x[K](t)]是一个常数;
采用牛顿算法同时更新K个解混矩阵的第n行 表示第k个解混矩阵的第n行,n∈{1,...,N},即
其中,μ为学习率,表示损失函数对wn的导数,/>为Hessian矩阵。
CN202110972388.1A 2021-08-24 2021-08-24 一种基于独立向量分析的语音特征融合的说话人识别方法 Active CN113793614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110972388.1A CN113793614B (zh) 2021-08-24 2021-08-24 一种基于独立向量分析的语音特征融合的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110972388.1A CN113793614B (zh) 2021-08-24 2021-08-24 一种基于独立向量分析的语音特征融合的说话人识别方法

Publications (2)

Publication Number Publication Date
CN113793614A CN113793614A (zh) 2021-12-14
CN113793614B true CN113793614B (zh) 2024-02-09

Family

ID=78876307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110972388.1A Active CN113793614B (zh) 2021-08-24 2021-08-24 一种基于独立向量分析的语音特征融合的说话人识别方法

Country Status (1)

Country Link
CN (1) CN113793614B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010036358A (ko) * 1999-10-08 2001-05-07 윤덕용 전화음성을 이용한 문장독립형 화자식별방법
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
JP2020140193A (ja) * 2019-01-29 2020-09-03 大連海事大学 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム
CN111816166A (zh) * 2020-07-17 2020-10-23 字节跳动有限公司 声音识别方法、装置以及存储指令的计算机可读存储介质
CN112786069A (zh) * 2020-12-24 2021-05-11 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010036358A (ko) * 1999-10-08 2001-05-07 윤덕용 전화음성을 이용한 문장독립형 화자식별방법
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
CN107919133A (zh) * 2016-10-09 2018-04-17 赛谛听股份有限公司 针对目标对象的语音增强系统及语音增强方法
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
JP2020140193A (ja) * 2019-01-29 2020-09-03 大連海事大学 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム
CN111816166A (zh) * 2020-07-17 2020-10-23 字节跳动有限公司 声音识别方法、装置以及存储指令的计算机可读存储介质
CN112786069A (zh) * 2020-12-24 2021-05-11 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
分布式语音信号分离系统;杨志智;唐显锭;蔡瑾;冯辉;;数据采集与处理(第06期);全文 *
噪声环境下话者识别系统的特征提取;王蕾;;电脑知识与技术(第22期);全文 *
多元高斯模型联合盲源分离算法及性能分析;Matthew Anderson et al.;《IEEE Transactions on Signal Processing》;第60卷;第1672-1683页 *
独立分量分析在说话人识别技术中的应用;邱作春;《声学技术》;第27卷(第6期);第863-866页 *

Also Published As

Publication number Publication date
CN113793614A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Wang et al. TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain
CN110164472A (zh) 基于卷积神经网络的噪声分类方法
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN108172218A (zh) 一种语音建模方法及装置
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
KR20080078466A (ko) 다단계 음성인식장치 및 방법
Todkar et al. Speaker recognition techniques: A review
CN111986695A (zh) 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
CN114387997B (zh) 一种基于深度学习的语音情感识别方法
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
Al-Kaltakchi et al. Study of statistical robust closed set speaker identification with feature and score-based fusion
Kanda et al. Minimum bayes risk training for end-to-end speaker-attributed asr
Han et al. Improving channel decorrelation for multi-channel target speech extraction
CN113793614B (zh) 一种基于独立向量分析的语音特征融合的说话人识别方法
Yi et al. Disentangled speaker embedding for robust speaker verification
NL2029780A (en) Speech separation method based on time-frequency cross-domain feature selection
CN111210815A (zh) 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置
CN108182938B (zh) 一种基于dnn的蒙古语声学模型的训练方法
Zhang et al. TMS: A temporal multi-scale backbone design for speaker embedding
CN110148417A (zh) 基于总变化空间与分类器联合优化的说话人身份识别方法
CN115240702A (zh) 基于声纹特征的语音分离方法
CN103985384B (zh) 一种基于随机映射直方图模型的文本无关说话人鉴别装置
Chaubey et al. Improved Relation Networks for End-to-End Speaker Verification and Identification
CN113393847A (zh) 基于Fbank特征和MFCC特征融合的声纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant