CN113793613A - 一种多特征融合的说话人识别方法 - Google Patents
一种多特征融合的说话人识别方法 Download PDFInfo
- Publication number
- CN113793613A CN113793613A CN202110853614.4A CN202110853614A CN113793613A CN 113793613 A CN113793613 A CN 113793613A CN 202110853614 A CN202110853614 A CN 202110853614A CN 113793613 A CN113793613 A CN 113793613A
- Authority
- CN
- China
- Prior art keywords
- coefficient
- dimensional
- cepstrum coefficient
- mfcc
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 8
- 239000013598 vector Substances 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种多特征融合的说话人识别方法,属于说话人识别技术领域,本方法的特征是在特征提取部分通过将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合来提高说话人识别算法的识别率。首先,取8维线性预测倒谱系数LPCC;然后,取12维梅尔倒谱系数MFCC,并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量;最后,对12维梅尔倒谱系数MFCC进行一阶差分,得到一组新的梅尔倒谱差分系数,作为特征矢量的一组分量。实验证明本发明与采用传统特征提取方法的GMM说话人识别相比能显著提高说话人识别正确率。
Description
技术领域
本发明涉及智能音箱中说话人识别技术领域,涉及到特征提取部分的多特征融合方法,特别涉及到将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合的方法。
背景技术
随着人们对于居家生活质量要求的逐渐提高,智能音箱走进人们的生活。但在实际生活中智能音箱容易出现被环境噪音干扰而无法准确被唤醒的情况。为了解决该问题,研究工作者提出在进行说话人识别前进行特征提取,但采用任一单独的特征分量提取来进行说话人识别都可能出现对语音的清音识别不准确,或者抗噪性很差的情况。
因此,本发明采取多特征融合算法,将线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合,并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量,为解决设备容易被环境音错误激活的问题提出了切实可行的办法。
发明内容
本发明的主要目的是提供一种多特征融合的说话人识别方法,在特征提取部分进行多特征融合的说话人识别方法。
多特征融合的说话人识别方法,包括以下步骤:
A.计算线性预测倒谱系数LPCC。
A1.计算出预测系数。
A2.将预测系数带入线性预测倒谱公式,计算出8维线性预测倒谱系数LPCC。
B.计算梅尔倒谱系数MFCC的特征系数。
B1.计算12维梅尔倒谱系数MFCC。
B2.将第一维梅尔倒谱系数MFCC的特征分量去掉。
C.计算短时能量特征系数。
C1.对语音信号进行取平方处理。
C2.对其进行归一化处理和取对数处理。
D.计算一阶动态差分特征系数。
D1.将一维短时能量与梅尔倒谱系数MFCC进行有机结合。
D2.将有机结合后的12维特征分量进行一阶差分,得到一组新的差分系数。
E.将多特征进行有机结合。
其优点在于:
本发明首先利用公式计算线性预测倒谱系数LPCC的特征系数,然后利用公式计算梅尔倒谱系数MFCC,并将1维短时能量与梅尔倒谱系数MFCC进行有机结合,之后取有机结合后的12维梅尔倒谱系数MFCC特征分量的一阶动态差分系数。最后将多特征进行有机结合来提高对说话人识别的准确率。本方法不但提出了将线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合的特征提取方法,还解决了设备容易被环境音错误激活的问题,降低了智能音箱的误唤醒率。
附图说明
附图1是本发明中的多特征融合方法的总体流程图。
附图2是本发明中梅尔倒谱系数MFCC系数的计算过程。
具体实施方式
为使本发明实施例的目的、技术方案及其优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述,整体算法流程图如图1所示:
A.计算线性预测倒谱系数LPCC的特征系数。
所述步骤A具体包含以下步骤:
A1.首先计算出预测系数a1~ap。
当线性预测倒谱系数n的阶数不超过线性预测阶数p的时候,使用第一个公式进行计算,当线性预测倒谱系数n的阶数大于线性预测阶数p时则用第二个公式进行计算,进而得到语音信号LPC倒谱系数clp(n)。本技术方案选取线性预测倒谱系数n为8,线性预测阶数p也为8。
B.计算梅尔倒谱系数MFCC的特征系数。
所述步骤B具体包含以下步骤:
B1.提取12维梅尔倒谱系数MFCC。首先对输入的语音信号进行预加重处理,然后对预处理之后得到的语音数据进行快速傅里叶变换(FFT)。之后对每帧序列取模的平方进而得到离散功率谱。下一步将得到的离散功率谱用序列三角滤波器进行滤波处理,得到一组系数。下一步计算滤波器组输出参数的自然对数。最后对滤波器输出数据进行离散余弦变换(DCT)。如图2所示,是梅尔倒谱系数MFCC的计算过程示意图。
B2.将获得的第一维梅尔倒谱系数MFCC的特征分量舍掉。
C.计算短时能量特征系数。
C1.对于信号{x(n)},其短时能量的定义如下:
其中N为汉明窗的长度。
D.计算一阶动态差分特征系数。
D1.将1维短时能量与梅尔倒谱系数MFCC进行有机结合。
D2.将有机结合后的12维特征分量进行一阶差分处理,差分参数的计算采用以下公式:
其中dt表示第t个一阶差分,Ct表示第t个倒谱系数,N表示倒谱系数的阶数,K表示一阶导数的时间差,通常取1或2。
E.将多特征进行有机结合。
本方法的特征是在特征提取部分通过将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合来提高说话人识别算法的识别率。首先,取8维线性预测倒谱系数LPCC;然后,取12维梅尔倒谱系数MFCC,并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量;最后,对12维梅尔倒谱系数MFCC进行一阶差分,得到一组新的梅尔倒谱差分系数,作为特征矢量的一组分量。证明本发明与采用传统特征提取方法的高斯混合模型GMM说话人识别相比能显著提高说话人识别正确率。
Claims (5)
1.一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
A.计算线性预测倒谱系数LPCC;
B.计算梅尔倒谱系数MFCC的特征系数;
C.计算短时能量特征系数;
D.计算一阶动态差分特征系数;
E.将多特征进行有机结合。
2.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤A具体包含以下步骤:
A1.计算出线性预测系数;
A2.将预测系数带入线性预测倒谱公式,计算出8维线性预测倒谱系数LPCC。
3.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤B具体包含以下步骤:
B1.计算12维梅尔倒谱系数MFCC;
B2.将第一维梅尔倒谱系数MFCC的特征分量去掉。
4.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤C具体包含以下步骤:
C1.对语音信号进行取平方处理;
C2.对其进行归一化处理和取对数处理。
5.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤D具体包含以下步骤:
D1.将1维短时能量与梅尔倒谱系数MFCC进行有机结合;
D2.将有机结合后的12维特征分量进行一阶差分,得到一组新的差分系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853614.4A CN113793613A (zh) | 2021-07-28 | 2021-07-28 | 一种多特征融合的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853614.4A CN113793613A (zh) | 2021-07-28 | 2021-07-28 | 一种多特征融合的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113793613A true CN113793613A (zh) | 2021-12-14 |
Family
ID=78877047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853614.4A Pending CN113793613A (zh) | 2021-07-28 | 2021-07-28 | 一种多特征融合的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793613A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766093A (zh) * | 2015-04-01 | 2015-07-08 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的声目标分类方法 |
CN109034046A (zh) * | 2018-07-20 | 2018-12-18 | 国网重庆市电力公司电力科学研究院 | 一种基于声学检测的电能表内异物自动识别方法 |
CN110610722A (zh) * | 2019-09-26 | 2019-12-24 | 北京工业大学 | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 |
CN111554306A (zh) * | 2020-04-26 | 2020-08-18 | 兰州理工大学 | 一种基于多特征的声纹识别方法 |
-
2021
- 2021-07-28 CN CN202110853614.4A patent/CN113793613A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766093A (zh) * | 2015-04-01 | 2015-07-08 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的声目标分类方法 |
CN109034046A (zh) * | 2018-07-20 | 2018-12-18 | 国网重庆市电力公司电力科学研究院 | 一种基于声学检测的电能表内异物自动识别方法 |
CN110610722A (zh) * | 2019-09-26 | 2019-12-24 | 北京工业大学 | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 |
CN111554306A (zh) * | 2020-04-26 | 2020-08-18 | 兰州理工大学 | 一种基于多特征的声纹识别方法 |
Non-Patent Citations (3)
Title |
---|
侯雪梅 等: "基于Mel倒谱特征和RBF网络的孤立词语音识别方法", 西安邮电学院学报, no. 03 * |
吕霄云 等: "基于MFCC和短时能量混合的异常声音识别算法", 计算机应用, no. 03, pages 797 * |
甄挚: "说话人识别系统中语音特征参数提取方法的研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 05, pages 23 - 28 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564940B (zh) | 语音识别方法、服务器及计算机可读存储介质 | |
Gupta et al. | LPC and LPCC method of feature extraction in Speech Recognition System | |
US8275616B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Wang et al. | A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures | |
Yücesoy et al. | Gender identification of a speaker using MFCC and GMM | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN105679312A (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Todkar et al. | Speaker recognition techniques: A review | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
Shahnawazuddin et al. | Enhancing noise and pitch robustness of children's ASR | |
Lin et al. | DNN-based feature transformation for speech recognition using throat microphone | |
Sapijaszko et al. | An overview of recent window based feature extraction algorithms for speaker recognition | |
Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
Deiv et al. | Automatic gender identification for hindi speech recognition | |
CN113793613A (zh) | 一种多特征融合的说话人识别方法 | |
Khaing et al. | Myanmar continuous speech recognition system based on DTW and HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211214 |