CN113793613A - 一种多特征融合的说话人识别方法 - Google Patents

一种多特征融合的说话人识别方法 Download PDF

Info

Publication number
CN113793613A
CN113793613A CN202110853614.4A CN202110853614A CN113793613A CN 113793613 A CN113793613 A CN 113793613A CN 202110853614 A CN202110853614 A CN 202110853614A CN 113793613 A CN113793613 A CN 113793613A
Authority
CN
China
Prior art keywords
coefficient
dimensional
cepstrum coefficient
mfcc
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110853614.4A
Other languages
English (en)
Inventor
于�玲
孙佳宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN202110853614.4A priority Critical patent/CN113793613A/zh
Publication of CN113793613A publication Critical patent/CN113793613A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种多特征融合的说话人识别方法,属于说话人识别技术领域,本方法的特征是在特征提取部分通过将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合来提高说话人识别算法的识别率。首先,取8维线性预测倒谱系数LPCC;然后,取12维梅尔倒谱系数MFCC,并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量;最后,对12维梅尔倒谱系数MFCC进行一阶差分,得到一组新的梅尔倒谱差分系数,作为特征矢量的一组分量。实验证明本发明与采用传统特征提取方法的GMM说话人识别相比能显著提高说话人识别正确率。

Description

一种多特征融合的说话人识别方法
技术领域
本发明涉及智能音箱中说话人识别技术领域,涉及到特征提取部分的多特征融合方法,特别涉及到将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合的方法。
背景技术
随着人们对于居家生活质量要求的逐渐提高,智能音箱走进人们的生活。但在实际生活中智能音箱容易出现被环境噪音干扰而无法准确被唤醒的情况。为了解决该问题,研究工作者提出在进行说话人识别前进行特征提取,但采用任一单独的特征分量提取来进行说话人识别都可能出现对语音的清音识别不准确,或者抗噪性很差的情况。
因此,本发明采取多特征融合算法,将线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合,并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量,为解决设备容易被环境音错误激活的问题提出了切实可行的办法。
发明内容
本发明的主要目的是提供一种多特征融合的说话人识别方法,在特征提取部分进行多特征融合的说话人识别方法。
多特征融合的说话人识别方法,包括以下步骤:
A.计算线性预测倒谱系数LPCC。
A1.计算出预测系数。
A2.将预测系数带入线性预测倒谱公式,计算出8维线性预测倒谱系数LPCC。
B.计算梅尔倒谱系数MFCC的特征系数。
B1.计算12维梅尔倒谱系数MFCC。
B2.将第一维梅尔倒谱系数MFCC的特征分量去掉。
C.计算短时能量特征系数。
C1.对语音信号进行取平方处理。
C2.对其进行归一化处理和取对数处理。
D.计算一阶动态差分特征系数。
D1.将一维短时能量与梅尔倒谱系数MFCC进行有机结合。
D2.将有机结合后的12维特征分量进行一阶差分,得到一组新的差分系数。
E.将多特征进行有机结合。
其优点在于:
本发明首先利用公式计算线性预测倒谱系数LPCC的特征系数,然后利用公式计算梅尔倒谱系数MFCC,并将1维短时能量与梅尔倒谱系数MFCC进行有机结合,之后取有机结合后的12维梅尔倒谱系数MFCC特征分量的一阶动态差分系数。最后将多特征进行有机结合来提高对说话人识别的准确率。本方法不但提出了将线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合的特征提取方法,还解决了设备容易被环境音错误激活的问题,降低了智能音箱的误唤醒率。
附图说明
附图1是本发明中的多特征融合方法的总体流程图。
附图2是本发明中梅尔倒谱系数MFCC系数的计算过程。
具体实施方式
为使本发明实施例的目的、技术方案及其优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述,整体算法流程图如图1所示:
A.计算线性预测倒谱系数LPCC的特征系数。
所述步骤A具体包含以下步骤:
A1.首先计算出预测系数a1~ap
A2.然后,当线性预测倒谱系数n的阶数为1的时候,令语音信号LPC倒谱系数clp(1)=a1,当线性预测倒谱系数n的阶数不为1的时候,使用
Figure BDA0003183304020000021
进行计算。
当线性预测倒谱系数n的阶数不超过线性预测阶数p的时候,使用第一个公式进行计算,当线性预测倒谱系数n的阶数大于线性预测阶数p时则用第二个公式进行计算,进而得到语音信号LPC倒谱系数clp(n)。本技术方案选取线性预测倒谱系数n为8,线性预测阶数p也为8。
B.计算梅尔倒谱系数MFCC的特征系数。
所述步骤B具体包含以下步骤:
B1.提取12维梅尔倒谱系数MFCC。首先对输入的语音信号进行预加重处理,然后对预处理之后得到的语音数据进行快速傅里叶变换(FFT)。之后对每帧序列取模的平方进而得到离散功率谱。下一步将得到的离散功率谱用序列三角滤波器进行滤波处理,得到一组系数。下一步计算滤波器组输出参数的自然对数。最后对滤波器输出数据进行离散余弦变换(DCT)。如图2所示,是梅尔倒谱系数MFCC的计算过程示意图。
B2.将获得的第一维梅尔倒谱系数MFCC的特征分量舍掉。
C.计算短时能量特征系数。
C1.对于信号{x(n)},其短时能量的定义如下:
Figure BDA0003183304020000031
其中h(n)为该线性滤波器的单位冲激响应,h(n)=w(n)2,En表示在信号的第n个点开始加窗函数时的短时能量,窗函数w(n)为汉明窗,公式如下:
Figure BDA0003183304020000032
其中N为汉明窗的长度。
C2.在语音特征中加入能量参数作为特征向量的一维分量,通常要用公式
Figure BDA0003183304020000033
对其进行归一化处理和取对数。其中L为帧的数量,最后将得到的
Figure BDA0003183304020000034
加入到特征向量中。
D.计算一阶动态差分特征系数。
D1.将1维短时能量与梅尔倒谱系数MFCC进行有机结合。
D2.将有机结合后的12维特征分量进行一阶差分处理,差分参数的计算采用以下公式:
Figure BDA0003183304020000035
其中dt表示第t个一阶差分,Ct表示第t个倒谱系数,N表示倒谱系数的阶数,K表示一阶导数的时间差,通常取1或2。
E.将多特征进行有机结合。
本方法的特征是在特征提取部分通过将短时能量、线性预测倒谱系数LPCC、梅尔倒谱系数MFCC及其一阶动态特征差分系数进行有机结合来提高说话人识别算法的识别率。首先,取8维线性预测倒谱系数LPCC;然后,取12维梅尔倒谱系数MFCC,并将梅尔倒谱系数MFCC中第一维特征分量替换成短时能量;最后,对12维梅尔倒谱系数MFCC进行一阶差分,得到一组新的梅尔倒谱差分系数,作为特征矢量的一组分量。证明本发明与采用传统特征提取方法的高斯混合模型GMM说话人识别相比能显著提高说话人识别正确率。

Claims (5)

1.一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
A.计算线性预测倒谱系数LPCC;
B.计算梅尔倒谱系数MFCC的特征系数;
C.计算短时能量特征系数;
D.计算一阶动态差分特征系数;
E.将多特征进行有机结合。
2.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤A具体包含以下步骤:
A1.计算出线性预测系数;
A2.将预测系数带入线性预测倒谱公式,计算出8维线性预测倒谱系数LPCC。
3.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤B具体包含以下步骤:
B1.计算12维梅尔倒谱系数MFCC;
B2.将第一维梅尔倒谱系数MFCC的特征分量去掉。
4.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤C具体包含以下步骤:
C1.对语音信号进行取平方处理;
C2.对其进行归一化处理和取对数处理。
5.根据权利1所述的一种多特征融合的说话人识别方法,其特征在于包括下列步骤:
所述步骤D具体包含以下步骤:
D1.将1维短时能量与梅尔倒谱系数MFCC进行有机结合;
D2.将有机结合后的12维特征分量进行一阶差分,得到一组新的差分系数。
CN202110853614.4A 2021-07-28 2021-07-28 一种多特征融合的说话人识别方法 Pending CN113793613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110853614.4A CN113793613A (zh) 2021-07-28 2021-07-28 一种多特征融合的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110853614.4A CN113793613A (zh) 2021-07-28 2021-07-28 一种多特征融合的说话人识别方法

Publications (1)

Publication Number Publication Date
CN113793613A true CN113793613A (zh) 2021-12-14

Family

ID=78877047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110853614.4A Pending CN113793613A (zh) 2021-07-28 2021-07-28 一种多特征融合的说话人识别方法

Country Status (1)

Country Link
CN (1) CN113793613A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766093A (zh) * 2015-04-01 2015-07-08 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN109034046A (zh) * 2018-07-20 2018-12-18 国网重庆市电力公司电力科学研究院 一种基于声学检测的电能表内异物自动识别方法
CN110610722A (zh) * 2019-09-26 2019-12-24 北京工业大学 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
CN111554306A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于多特征的声纹识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766093A (zh) * 2015-04-01 2015-07-08 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN109034046A (zh) * 2018-07-20 2018-12-18 国网重庆市电力公司电力科学研究院 一种基于声学检测的电能表内异物自动识别方法
CN110610722A (zh) * 2019-09-26 2019-12-24 北京工业大学 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
CN111554306A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于多特征的声纹识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
侯雪梅 等: "基于Mel倒谱特征和RBF网络的孤立词语音识别方法", 西安邮电学院学报, no. 03 *
吕霄云 等: "基于MFCC和短时能量混合的异常声音识别算法", 计算机应用, no. 03, pages 797 *
甄挚: "说话人识别系统中语音特征参数提取方法的研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 05, pages 23 - 28 *

Similar Documents

Publication Publication Date Title
CN108564940B (zh) 语音识别方法、服务器及计算机可读存储介质
Gupta et al. LPC and LPCC method of feature extraction in Speech Recognition System
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
Wang et al. A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures
Yücesoy et al. Gender identification of a speaker using MFCC and GMM
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Todkar et al. Speaker recognition techniques: A review
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Shahnawazuddin et al. Enhancing noise and pitch robustness of children's ASR
Lin et al. DNN-based feature transformation for speech recognition using throat microphone
Sapijaszko et al. An overview of recent window based feature extraction algorithms for speaker recognition
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Deiv et al. Automatic gender identification for hindi speech recognition
CN113793613A (zh) 一种多特征融合的说话人识别方法
Khaing et al. Myanmar continuous speech recognition system based on DTW and HMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211214