CN110931022B - 基于高低频动静特征的声纹识别方法 - Google Patents

基于高低频动静特征的声纹识别方法 Download PDF

Info

Publication number
CN110931022B
CN110931022B CN201911137708.0A CN201911137708A CN110931022B CN 110931022 B CN110931022 B CN 110931022B CN 201911137708 A CN201911137708 A CN 201911137708A CN 110931022 B CN110931022 B CN 110931022B
Authority
CN
China
Prior art keywords
frequency
low frequency
filter
voiceprint recognition
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911137708.0A
Other languages
English (en)
Other versions
CN110931022A (zh
Inventor
魏建国
张琳
张瑞腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911137708.0A priority Critical patent/CN110931022B/zh
Publication of CN110931022A publication Critical patent/CN110931022A/zh
Application granted granted Critical
Publication of CN110931022B publication Critical patent/CN110931022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及模式识别、声纹识别,为提出一种针对声音信号进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear‑frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。本发明主要应用于声音识别场合。

Description

基于高低频动静特征的声纹识别方法
技术领域
本发明涉及模式识别,声纹识别领域,具体是涉及一种基于高低频特征的声纹识别方法,用于更高效的针对不同声音识别对应说话人。
背景技术
声纹识别,也称作说话人识别,是通过声音来判别说话人身份的技术。虽然不像面部、指纹的个体性差异如此明显可见,但人的声纹都具有独特的特征,通过该特征能够将不同人的身份进行有效区分。然而目前在高混响、强噪声、多信道、多语种等真实复杂应用场景下,导致语音信号传输信号在不断发生变化,说话人识别技术仍无法满足实际应用性能要求,而这又对人机语音交互及信息安全领域技术进一步取得突破至关重要。
在特征层面,和语音识别一样,声纹识别中广泛使用的特征主要是基于Mel域的梅尔倒谱频率系数(Mel-frequency cepstral coefficients,MFCC)和Fbank特征,即针对人耳的感知特性,在低频具有较高的频率分辨率。但是对于声纹识别任务,使用Mel域的特征是有问题的,Mel域可以很好地提取低频信息,而大多数的文本信息也存在于低频,对于声纹识别来说,文本内容信息应该被抑制。
而很多感知实验表明,人的静态个性化特征主要集中在2.5k Hz以上,尤其是下咽腔中的喉前庭和梨状窝引起的共振。而动态特征则主要是由于相对舌体大小导致的低频范围上共振峰的变化,集中于低频。
通过本发明可以更具有针对性的提取说话人的个性化特征,大大提高了特征提取的针对性和声纹识别的鲁棒性。
发明内容
为克服现有技术的不足,本发明旨在基于言语生成的基础理论,提出一种针对声音信号,在频域范围内对高频和低频分别进行提取静态和动态特征,从而进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
具体步骤如下:
(1)特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理;
(2)特征提取步骤:
对语音信号分帧、加窗、短时傅里叶变换;
设计高低频滤波器,提出高低频滤波器振幅特征提取方法;
对于高频特征提取静态特征,对于低频提取动态信息;
(3)说话人分类模型训练步骤;
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model)的i-vector模型和概率线性判别分析程序PLDA(Probabilistic Linear Discriminant Analysis)打分模型;
(4)说话人确认打分步骤。
其中,特征提取具体包含三个步骤
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT(Fast Fourier Transform)变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbankenergies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbankenergies).
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT(Discrete Cosine Transform)操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequencycepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linearfrequency cepstral coefficients):
其中,cm是m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。
本发明的特点及有益效果是:
本发明使用针对高低频设计滤波器的方法,分别对高频和低频进行特征提取,并抉择更合适的静态动态特征,从而提取更适用于说话人任务的个性化特征,解决了说话人个性化特征不鲁棒的问题。
结果表明,该方法达到了良好的声纹识别效果。错误率得到了一定降低。这表明高频范围的静态特征更为有效。
附图说明:
图1为基于高低频动静特征的提取流程图。
图2为基于高低频动静特征的高低频滤波器示意图。
具体实施方式
实现本发明目的的技术解决方案为:
基于言语生成理论和感知实验,定义高低频的分界频率2.5kHz。在线性倒谱频率系数(Linear-frequency cepstral coefficients,LFCC)和对数能量谱(linear logfilterbank energies)基础流程上,针对高频和低频,分别设计两种梯形滤波器。提取低频的静态特征,提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
本发明提出一种基于高低频动静特征的声纹识别方法,包括以下步骤:
步骤一,数据准备:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
并进行语音活动检测VAD和倒谱均值归一化CMN处理。
步骤二,特征提取:
对语音信号分帧、加窗、短时傅里叶变换。
基于先验知识找到分界频率,设计高低频滤波器,提出高低频滤波器振幅特征提取方法对于高频特征提取静态特征,对于低频提取动态信息。
步骤三,说话人分类模型训练
将训练集中的音频提取特征作为输入,训练基于GMM-UBM的i-vector模型和PLDA打分模型。
步骤四,将等错误率(Equal Error rate,EER)和最小检测代价(MinimumDetection Cost Function,minDCF)作为评判指标,进行说话人确认打分
下面结合附图来描述本发明实施的基于高低频动静特征的声纹识别方法,主要包含以下步骤:
步骤一,数据准备:为了验证本发明的效果,在TIMIT数据库上进行声纹识别中的说话人确认实验。TIMIT数据库中共有来自8个地区的630个说话人,其中训练集462人,测试集168人。每人具有十句话。所有句子采样频率为16KHz。
步骤二,特征提取
如图1基于高低频动静特征的提取流程图所示,包含三个主要步骤
3)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换。其中,窗函数为Povey窗。
FFT点数设置为512,窗长25ms,窗移10ms。
4)静态特征提取:
设置如图2所示的高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形。高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制。
将滤波器Ψi(k)应用到经过FFT变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbank energies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbank energies).
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器。
最后进行DCT操作,保留前19维,舍弃第0维。得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequency cepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linear frequency cepstral coefficients)。
其中,cm是第m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。公式如下,其中其中yt(j)表示第t帧,第j维的倒谱系数,p=2。
步骤三,分类模型训练:
利用kaldi工具箱,训练基于GMM-UBM的i-vector模型,并进行PLDA打分模型的训练。其中UBM为256,i-vector维度为100。在采用PLDA方法之前用LDA降维至50。
步骤四,说话人确认打分:
采用等错误率EER和最小检测代价minDCF来对模型进行评判。
本发明确认效果数据表如下:
表1静态特征上的识别结果
Feature EER(%) min DCFp=0.01 min DCFp=0.001
MFCC 0.5952 0.0864 0.1733
IMFCC 0.5952 0.1007 0.2056
LFCC 0.6803 0.0767 0.1784
Hi-LFCC 0.5102 0.0810 0.1844
Lo-LFCC 0.6803 0.0797 0.1751
Hi-LFBE 0.5952 0.1001 0.2098
Lo-LFBE 0.6803 0.1018 0.2380
表2一阶动态特征上的识别结果
Feature EER(%) min DCFp=0.01 min DCFp=0.001
△MFCC 1.7010 0.2061 0.3484
△IMFCC 1.7010 0.2421 0.4181
△LFCC 1.2760 0.1576 0.3075
△Hi-LFBE 1.7010 0.2405 0.4502
△Lo-LFBE 1.8710 0.2471 0.4503
表3二阶动态特征上的识别结果
Feature EER(%) min DCFp=0.01 min DCFp=0.001
△△MFCC 3.0610 0.3040 0.5200
△△IMFCC 2.5510 0.3566 0.6702
△△LFCC 2.0410 0.2705 0.4929
△△Hi-LFBE 2.8060 0.3758 0.6645
△△Lo-LFBE 2.8910 0.3671 0.6569
表1列出了静态特征在TIMIT数据库上的说话人确认效果,表2和表3列出了动态特征在TIIMT数据库上的说话人确认效果。

Claims (1)

1.一种基于高低频动静特征的声纹识别方法,其特征是,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果;具体步骤如下:
特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD和倒谱均值归一化CMN处理;
特征提取步骤:
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE,和低频对数滤波能量谱Lo-LFBE;
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC和低频线性倒谱系数Lo-LFCC:
其中,cm是m个倒谱系数,Q是滤波器总个数;
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取;
说话人分类模型训练步骤:
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM的i-vector模型和概率线性判别分析程序PLDA打分模型;
说话人确认打分步骤。
CN201911137708.0A 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法 Active CN110931022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911137708.0A CN110931022B (zh) 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911137708.0A CN110931022B (zh) 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法

Publications (2)

Publication Number Publication Date
CN110931022A CN110931022A (zh) 2020-03-27
CN110931022B true CN110931022B (zh) 2023-09-15

Family

ID=69851231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911137708.0A Active CN110931022B (zh) 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法

Country Status (1)

Country Link
CN (1) CN110931022B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524523A (zh) * 2020-04-26 2020-08-11 中南民族大学 基于声纹识别技术的仪器设备状态检测系统及其方法
CN111564163B (zh) * 2020-05-08 2023-12-15 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN112349267B (zh) * 2020-10-28 2023-03-21 天津大学 基于注意力机制特征的合成语音检测方法
CN113035227B (zh) * 2021-03-12 2022-02-11 山东大学 一种多模态语音分离方法及系统
CN113933658B (zh) * 2021-08-27 2023-08-29 国网湖南省电力有限公司 基于可听声分析的干式变压器放电检测方法及系统
CN115120247A (zh) * 2022-07-19 2022-09-30 天津工业大学 一种实现多生理信号联合分析的系统
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
CN103207961A (zh) * 2013-04-23 2013-07-17 曙光信息产业(北京)有限公司 用户验证方法和装置
CN108900725A (zh) * 2018-05-29 2018-11-27 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5853029B2 (ja) * 2010-12-10 2016-02-09 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
US10909991B2 (en) * 2018-04-24 2021-02-02 ID R&D, Inc. System for text-dependent speaker recognition and method thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
CN103207961A (zh) * 2013-04-23 2013-07-17 曙光信息产业(北京)有限公司 用户验证方法和装置
CN108900725A (zh) * 2018-05-29 2018-11-27 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xing Fang etc.Speaker identification with whispered speech based on modified LFCC parameters and feature mapping.《 2009 IEEE International Conference on Acoustics, Speech and Signal Processing》.2009,第4553-4556页. *

Also Published As

Publication number Publication date
CN110931022A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
US20130297299A1 (en) Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
CN108198545B (zh) 一种基于小波变换的语音识别方法
WO2020034628A1 (zh) 口音识别方法、装置、计算机装置及存储介质
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112542174A (zh) 基于vad的多维特征参数声纹识别方法
WO2023070874A1 (zh) 一种声纹识别方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
Alam et al. Tandem Features for Text-Dependent Speaker Verification on the RedDots Corpus.
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
Riazati Seresht et al. Spectro-temporal power spectrum features for noise robust ASR
Sekkate et al. Speaker identification for OFDM-based aeronautical communication system
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN107103913A (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
Yadav et al. Non-Uniform Spectral Smoothing for Robust Children's Speech Recognition.
Ahmed et al. Cochleagram based speaker identification using noise adapted CNN
Kumar et al. Hybrid of wavelet and MFCC features for speaker verification
Khanna et al. Application of vector quantization in emotion recognition from human speech
Jha et al. An Efficient Speaker Identification Approach for Biometric Access Control System
Kumar et al. Text dependent speaker identification in noisy environment
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Chandra et al. Spectral-subtraction based features for speaker identification
Zhao et al. Efficient feature extraction of speaker identification using phoneme mean F-ratio for Chinese
Sahu et al. Significance of filterbank structure for capturing dysarthric information through cepstral coefficients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant