CN113793614B - 一种基于独立向量分析的语音特征融合的说话人识别方法 - Google Patents
一种基于独立向量分析的语音特征融合的说话人识别方法 Download PDFInfo
- Publication number
- CN113793614B CN113793614B CN202110972388.1A CN202110972388A CN113793614B CN 113793614 B CN113793614 B CN 113793614B CN 202110972388 A CN202110972388 A CN 202110972388A CN 113793614 B CN113793614 B CN 113793614B
- Authority
- CN
- China
- Prior art keywords
- feature
- fusion
- tensor
- independent vector
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于独立向量分析的语音特征融合的说话人识别方法。该方法首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。然后,将时域特征矩阵和频域特征矩阵构成一个特征张量。利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别。本发明采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,可增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。
Description
技术领域
本发明属于语音处理技术领域。涉及一种语音特征融合的说话人识别方法。
背景技术
语音特征的提取和融合技术可广泛用于语音识别和说话人识别等领域。语音信号主要有两大类时域特征和频域特征。时域特征是指在时域,直接从语音信号中提取语音特征,如短时能量、短时振幅、短时过零率、短时自相关、线性预测编码(Linear PredictiveCodings,LPCs)等。频域特征是指通过傅里叶变换将语音信号从时域转换到频域,在频域提取语音信号的特征,如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、对数振幅谱(Log-Magnitude Spectral Feature,LOG-MAG)、感知线性预测(Perceptual Linear Prediction,PLP)等。语音特征的融合是指将不同类型的语音信号的特征按一定的方法组合构成一个新的特征集,也就是融合特征,利用语音信号的融合特征可以提高说话人识别系统的性能。目前,语音信号特征的融合方法通常是将提取出的不同的语音特征直接级联构成语音的融合特征,不同类特征之间具有互补性,但是,同类特征之间具有一定的相关性,会降低说话人识别系统的性能。
发明内容
本发明的目的在于提供一种基于独立向量分析的语音特征融合的说话人识别方法,以解决上述背景技术中提出的问题。
该方法利用汉明窗将语音信号分成多个相互重叠的帧,假设帧的个数为T,从这些语音帧中,提取语音的不同种类的特征,即时域特征(LPCs)和频域特征(MFCCs)。将语音信号的时域特征或频域特征分别看作是由多个未知独立变量和未知的混合系统的线性混合,可表示为:
x[k](t)=A[k]s[k](t) (1)
上式中,为第t帧、第k类的特征向量,k∈{1,...,K},K为不同类语音特征的个数;t∈{1,...,T};/>为未知的混合矩阵,即混合系统。为未知第t帧、第k类语音信号的未知的独立向量,也可以看作独立的源信号。上标T表示转置。将提取的所有帧的同一类型的特征向量构成特征矩阵,即/>再将这些不同类特征矩阵构成一个特征张量,即采用独立向量分析提取独立向量作为融合特征,同时得到解混张量作为说话人的模型。具体过程如下。
①将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x[k](t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数。
②将K个矩阵X[k]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,/>被记为特征张量。对特征张量采用独立向量分析提取独立向量,即
上式中,为融合特征,/>其中,/>为独立向量/>的估计。是由K个解混矩阵W[k]并联构成的解混张量。由于/>对每个说话人是不同的,/>可以看作说话人模型。
③利用优化函数来估计独立向量和解混张量,即:
上式中,H[·]表示信息熵,det(·)表示行列式,为独立向量/>的估计,n∈{1,...,N},C=H[x[1](t),...,x[K](t)]是一个常数。
采用牛顿算法同时更新K个解混矩阵的第n行 表示第k个解混矩阵的第n行,n∈{1,...,N},即
其中,μ为学习率。表示损失函数对wn的导数。/>为Hessian矩阵。
本发明的有益效果是:
本发明采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。
附图说明
图1为使用了此发明的说话人识别系统。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
如图1所示,本发明提出了一种基于独立向量分析的语音特征融合的说话人识别方法。首先,利用汉明窗将说话人的语音划分成相互重叠的帧。提取每一帧的时域特征(如LPCs)和频域特征(如MFCCs)。其次,将提取出的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。将时域特征矩阵和频域特征矩阵构成一个特征张量。最后,对特征张量做独立向量分析,得到融合特征,同时得到解混张量作为说话人模型。依次进行上述三个步骤可以得到融合特征。
本发明将通过以下实施步骤例作进一步说明。
①用汉明窗将说话人的语音划分成相互重叠的帧,从每一帧中提取LPCs及其一阶导数和二阶导数、MFCCs及其一阶导数和二阶导数。LPCs及其一阶导数和二阶导数构成时域特征向量,MFCCs及其一阶导数和二阶导数构成频域特征向量。两个特征向量分别构成LPCs特征矩阵和MFCCs特征矩阵/>x[1](t)表示由LPCs及其一阶导数和二阶导数级联成的特征向量,x[2](t)表示MFCCs及其一阶导数和二阶导数级联成的特征向量,N表示特征的维数,T表示语音帧的个数。
②将X[1]和X[2]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,/>被记为特征张量。对特征张量使用独立向量分析提取独立向量,即
其中,表示融合特征,/>其中/>为独立向量/>的估计。/>其中/>为独立向量的估计。/>是由两个解混矩阵并联构成的解混张量。由于/>对每个说话人是不同的,/>可以看作说话人模型。
利用优化函数来估计独立向量和解混张量,即:
其中,H[·]表示信息熵,det(·)表示行列式,为独立向量/>的估计,n∈{1,...,N},C=H[x[1](t),x[2](t)]是一个常数。
③采用牛顿算法同时更新两个解混矩阵的第n行 表示第一个解混矩阵的第n行,/>表示第二个解混矩阵的第n行,n∈{1,...,N},即
其中,μ为学习率。表示损失函数对wn的导数,即
表示Hessian矩阵。
④用式7)更新,得解混张量即说话人模型。使用式5)得到融合特征/>
⑤将融合特征输入到卷积神经网络识别此语音对应的说话人的身份。
为验证融合特征的性能,设置了四组说话人识别实验,四组实验使用的语音特征分别为LPCs特征矩阵、MFCCs特征矩阵、特征张量/>和融合特征/>每组实验进行10次,并计算10次实验说话人识别率的均值和标准差。10次实验说话人识别率的均值越大,标准差越小,说话人识别系统的性能越好,语音特征的性能越好。四个实验结果如表1所示。
从表1中可知,使用特征张量或融合特征/>的说话人识别率均值分别为98.60%和99.15%,而使用LPCs特征矩阵和MFCCs特征矩阵的说话人识别率均值为94.53%和98.20%。由此可得使用特征张量/>或融合特征/>的说话人识别率的均值比使用LPCs特征矩阵和MFCCs特征矩阵的说话人识别率的均值高,使用融合特征/>的识别率比使用特征张量/>的识别率高。综上,此实验可以表明融合特征/>可以提高说话人识别系统的性能。
表1四种特征10次实验的说话人识别率(%)
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (1)
1.一种基于独立向量分析的语音特征融合的说话人识别方法,其特征在于:首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵;然后,将时域特征矩阵和频域特征矩阵构成一个特征张量;最后,利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别;
语音特征融合过程按如下步骤:
①利用汉明窗将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x[k](t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数;
②将K个特征矩阵X[k]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,/>被记为特征张量;对此特征张量采用独立向量分析建立说话人的模型,提取独立向量,即
其中,为融合特征,/>其中/>为独立向量/>的估计;是由K个解混矩阵并联构成的解混张量,/>作为说话人模型;
③利用损失函数来估计独立向量和解混张量,即:
上式中,H[·]表示信息熵,det(·)表示行列式,为独立向量/>的估计,n∈{1,...,N},C=H[x[1](t),...,x[K](t)]是一个常数;
采用牛顿算法同时更新K个解混矩阵的第n行 表示第k个解混矩阵的第n行,n∈{1,...,N},即
其中,μ为学习率,表示损失函数对wn的导数,/>为Hessian矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110972388.1A CN113793614B (zh) | 2021-08-24 | 2021-08-24 | 一种基于独立向量分析的语音特征融合的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110972388.1A CN113793614B (zh) | 2021-08-24 | 2021-08-24 | 一种基于独立向量分析的语音特征融合的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793614A CN113793614A (zh) | 2021-12-14 |
CN113793614B true CN113793614B (zh) | 2024-02-09 |
Family
ID=78876307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110972388.1A Active CN113793614B (zh) | 2021-08-24 | 2021-08-24 | 一种基于独立向量分析的语音特征融合的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793614B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010036358A (ko) * | 1999-10-08 | 2001-05-07 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
JP2020140193A (ja) * | 2019-01-29 | 2020-09-03 | 大連海事大学 | 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN112786069A (zh) * | 2020-12-24 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
-
2021
- 2021-08-24 CN CN202110972388.1A patent/CN113793614B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010036358A (ko) * | 1999-10-08 | 2001-05-07 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
CN107919133A (zh) * | 2016-10-09 | 2018-04-17 | 赛谛听股份有限公司 | 针对目标对象的语音增强系统及语音增强方法 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
JP2020140193A (ja) * | 2019-01-29 | 2020-09-03 | 大連海事大学 | 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN112786069A (zh) * | 2020-12-24 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
Non-Patent Citations (4)
Title |
---|
分布式语音信号分离系统;杨志智;唐显锭;蔡瑾;冯辉;;数据采集与处理(第06期);全文 * |
噪声环境下话者识别系统的特征提取;王蕾;;电脑知识与技术(第22期);全文 * |
多元高斯模型联合盲源分离算法及性能分析;Matthew Anderson et al.;《IEEE Transactions on Signal Processing》;第60卷;第1672-1683页 * |
独立分量分析在说话人识别技术中的应用;邱作春;《声学技术》;第27卷(第6期);第863-866页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113793614A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain | |
CN110164472A (zh) | 基于卷积神经网络的噪声分类方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN108172218A (zh) | 一种语音建模方法及装置 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
KR20080078466A (ko) | 다단계 음성인식장치 및 방법 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN111986695A (zh) | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 | |
CN114387997B (zh) | 一种基于深度学习的语音情感识别方法 | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
Al-Kaltakchi et al. | Study of statistical robust closed set speaker identification with feature and score-based fusion | |
Kanda et al. | Minimum bayes risk training for end-to-end speaker-attributed asr | |
Han et al. | Improving channel decorrelation for multi-channel target speech extraction | |
CN113793614B (zh) | 一种基于独立向量分析的语音特征融合的说话人识别方法 | |
Yi et al. | Disentangled speaker embedding for robust speaker verification | |
NL2029780A (en) | Speech separation method based on time-frequency cross-domain feature selection | |
CN111210815A (zh) | 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 | |
CN108182938B (zh) | 一种基于dnn的蒙古语声学模型的训练方法 | |
Zhang et al. | TMS: A temporal multi-scale backbone design for speaker embedding | |
CN110148417A (zh) | 基于总变化空间与分类器联合优化的说话人身份识别方法 | |
CN115240702A (zh) | 基于声纹特征的语音分离方法 | |
CN103985384B (zh) | 一种基于随机映射直方图模型的文本无关说话人鉴别装置 | |
Chaubey et al. | Improved Relation Networks for End-to-End Speaker Verification and Identification | |
CN113393847A (zh) | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |