CN110931022A - 基于高低频动静特征的声纹识别方法 - Google Patents

基于高低频动静特征的声纹识别方法 Download PDF

Info

Publication number
CN110931022A
CN110931022A CN201911137708.0A CN201911137708A CN110931022A CN 110931022 A CN110931022 A CN 110931022A CN 201911137708 A CN201911137708 A CN 201911137708A CN 110931022 A CN110931022 A CN 110931022A
Authority
CN
China
Prior art keywords
frequency
low
filter
dynamic
voiceprint recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911137708.0A
Other languages
English (en)
Other versions
CN110931022B (zh
Inventor
魏建国
张琳
张瑞腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911137708.0A priority Critical patent/CN110931022B/zh
Publication of CN110931022A publication Critical patent/CN110931022A/zh
Application granted granted Critical
Publication of CN110931022B publication Critical patent/CN110931022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及模式识别、声纹识别,为提出一种针对声音信号进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear‑frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。本发明主要应用于声音识别场合。

Description

基于高低频动静特征的声纹识别方法
技术领域
本发明涉及模式识别,声纹识别领域,具体是涉及一种基于高低频特征的声纹识别方法,用于更高效的针对不同声音识别对应说话人。
背景技术
声纹识别,也称作说话人识别,是通过声音来判别说话人身份的技术。虽然不像面部、指纹的个体性差异如此明显可见,但人的声纹都具有独特的特征,通过该特征能够将不同人的身份进行有效区分。然而目前在高混响、强噪声、多信道、多语种等真实复杂应用场景下,导致语音信号传输信号在不断发生变化,说话人识别技术仍无法满足实际应用性能要求,而这又对人机语音交互及信息安全领域技术进一步取得突破至关重要。
在特征层面,和语音识别一样,声纹识别中广泛使用的特征主要是基于Mel域的梅尔倒谱频率系数(Mel-frequency cepstral coefficients,MFCC)和Fbank特征,即针对人耳的感知特性,在低频具有较高的频率分辨率。但是对于声纹识别任务,使用Mel域的特征是有问题的,Mel域可以很好地提取低频信息,而大多数的文本信息也存在于低频,对于声纹识别来说,文本内容信息应该被抑制。
而很多感知实验表明,人的静态个性化特征主要集中在2.5k Hz以上,尤其是下咽腔中的喉前庭和梨状窝引起的共振。而动态特征则主要是由于相对舌体大小导致的低频范围上共振峰的变化,集中于低频。
通过本发明可以更具有针对性的提取说话人的个性化特征,大大提高了特征提取的针对性和声纹识别的鲁棒性。
发明内容
为克服现有技术的不足,本发明旨在基于言语生成的基础理论,提出一种针对声音信号,在频域范围内对高频和低频分别进行提取静态和动态特征,从而进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
具体步骤如下:
(1)特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理;
(2)特征提取步骤:
对语音信号分帧、加窗、短时傅里叶变换;
设计高低频滤波器,提出高低频滤波器振幅特征提取方法;
对于高频特征提取静态特征,对于低频提取动态信息;
(3)说话人分类模型训练步骤;
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model)的i-vector模型和概率线性判别分析程序PLDA(Probabilistic Linear Discriminant Analysis)打分模型;
(4)说话人确认打分步骤。
其中,特征提取具体包含三个步骤
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT(Fast Fourier Transform)变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbankenergies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbankenergies).
Figure BDA0002280004800000021
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT(Discrete Cosine Transform)操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequencycepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linearfrequency cepstral coefficients):
Figure BDA0002280004800000022
其中,cm是m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。
本发明的特点及有益效果是:
本发明使用针对高低频设计滤波器的方法,分别对高频和低频进行特征提取,并抉择更合适的静态动态特征,从而提取更适用于说话人任务的个性化特征,解决了说话人个性化特征不鲁棒的问题。
结果表明,该方法达到了良好的声纹识别效果。错误率得到了一定降低。这表明高频范围的静态特征更为有效。
附图说明:
图1为基于高低频动静特征的提取流程图。
图2为基于高低频动静特征的高低频滤波器示意图。
具体实施方式
实现本发明目的的技术解决方案为:
基于言语生成理论和感知实验,定义高低频的分界频率2.5kHz。在线性倒谱频率系数(Linear-frequency cepstral coefficients,LFCC)和对数能量谱(linear logfilterbank energies)基础流程上,针对高频和低频,分别设计两种梯形滤波器。提取低频的静态特征,提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
本发明提出一种基于高低频动静特征的声纹识别方法,包括以下步骤:
步骤一,数据准备:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
并进行语音活动检测VAD和倒谱均值归一化CMN处理。
步骤二,特征提取:
对语音信号分帧、加窗、短时傅里叶变换。
基于先验知识找到分界频率,设计高低频滤波器,提出高低频滤波器振幅特征提取方法对于高频特征提取静态特征,对于低频提取动态信息。
步骤三,说话人分类模型训练
将训练集中的音频提取特征作为输入,训练基于GMM-UBM的i-vector模型和PLDA打分模型。
步骤四,将等错误率(Equal Error rate,EER)和最小检测代价(MinimumDetection Cost Function,minDCF)作为评判指标,进行说话人确认打分
下面结合附图来描述本发明实施的基于高低频动静特征的声纹识别方法,主要包含以下步骤:
步骤一,数据准备:为了验证本发明的效果,在TIMIT数据库上进行声纹识别中的说话人确认实验。TIMIT数据库中共有来自8个地区的630个说话人,其中训练集462人,测试集168人。每人具有十句话。所有句子采样频率为16KHz。
步骤二,特征提取
如图1基于高低频动静特征的提取流程图所示,包含三个主要步骤
3)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换。其中,窗函数为Povey窗。
FFT点数设置为512,窗长25ms,窗移10ms。
4)静态特征提取:
设置如图2所示的高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形。高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制。
将滤波器Ψi(k)应用到经过FFT变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbank energies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbank energies).
Figure BDA0002280004800000041
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器。
最后进行DCT操作,保留前19维,舍弃第0维。得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequency cepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linear frequency cepstral coefficients)。
Figure BDA0002280004800000042
其中,cm是第m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。公式如下,其中其中yt(j)表示第t帧,第j维的倒谱系数,p=2。
Figure BDA0002280004800000043
Figure BDA0002280004800000044
步骤三,分类模型训练:
利用kaldi工具箱,训练基于GMM-UBM的i-vector模型,并进行PLDA打分模型的训练。其中UBM为256,i-vector维度为100。在采用PLDA方法之前用LDA降维至50。
步骤四,说话人确认打分:
采用等错误率EER和最小检测代价minDCF来对模型进行评判。
本发明确认效果数据表如下:
表1静态特征上的识别结果
Feature EER(%) min DCF<sub>p=0.01</sub> min DCF<sub>p=0.001</sub>
MFCC 0.5952 0.0864 0.1733
IMFCC 0.5952 0.1007 0.2056
LFCC 0.6803 0.0767 0.1784
Hi-LFCC 0.5102 0.0810 0.1844
Lo-LFCC 0.6803 0.0797 0.1751
Hi-LFBE 0.5952 0.1001 0.2098
Lo-LFBE 0.6803 0.1018 0.2380
表2一阶动态特征上的识别结果
Feature EER(%) min DCF<sub>p=0.01</sub> min DCF<sub>p=0.001</sub>
△MFCC 1.7010 0.2061 0.3484
△IMFCC 1.7010 0.2421 0.4181
△LFCC 1.2760 0.1576 0.3075
△Hi-LFBE 1.7010 0.2405 0.4502
△Lo-LFBE 1.8710 0.2471 0.4503
表3二阶动态特征上的识别结果
Feature EER(%) min DCF<sub>p=0.01</sub> min DCF<sub>p=0.001</sub>
△△MFCC 3.0610 0.3040 0.5200
△△IMFCC 2.5510 0.3566 0.6702
△△LFCC 2.0410 0.2705 0.4929
△△Hi-LFBE 2.8060 0.3758 0.6645
△△Lo-LFBE 2.8910 0.3671 0.6569
表1列出了静态特征在TIMIT数据库上的说话人确认效果,表2和表3列出了动态特征在TIIMT数据库上的说话人确认效果。

Claims (3)

1.一种基于高低频动静特征的声纹识别方法,其特征是,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
2.如权利要求1所述的基于高低频动静特征的声纹识别方法,其特征是,具体步骤如下:
特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理;
特征提取步骤:
对语音信号分帧、加窗、短时傅里叶变换;
设计高低频滤波器,提出高低频滤波器振幅特征提取方法;
对于高频特征提取静态特征,对于低频提取动态信息;
说话人分类模型训练步骤;
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model)的i-vector模型和概率线性判别分析程序PLDA(Probabilistic Linear Discriminant Analysis)打分模型;
说话人确认打分步骤。
3.如权利要求1所述的基于高低频动静特征的声纹识别方法,其特征是,特征提取具体包含三个步骤:
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT(Fast Fourier Transform)变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbankenergies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbankenergies).
Figure FDA0002280004790000011
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT(Discrete Cosine Transform)操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequency cepstralcoefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linear frequencycepstral coefficients):
Figure FDA0002280004790000021
其中,cm是m个倒谱系数,Q是滤波器总个数。
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。
CN201911137708.0A 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法 Active CN110931022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911137708.0A CN110931022B (zh) 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911137708.0A CN110931022B (zh) 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法

Publications (2)

Publication Number Publication Date
CN110931022A true CN110931022A (zh) 2020-03-27
CN110931022B CN110931022B (zh) 2023-09-15

Family

ID=69851231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911137708.0A Active CN110931022B (zh) 2019-11-19 2019-11-19 基于高低频动静特征的声纹识别方法

Country Status (1)

Country Link
CN (1) CN110931022B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524523A (zh) * 2020-04-26 2020-08-11 中南民族大学 基于声纹识别技术的仪器设备状态检测系统及其方法
CN111564163A (zh) * 2020-05-08 2020-08-21 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN112349267A (zh) * 2020-10-28 2021-02-09 天津大学 基于注意力机制特征的合成语音检测方法
CN113035227A (zh) * 2021-03-12 2021-06-25 山东大学 一种多模态语音分离方法及系统
CN113933658A (zh) * 2021-08-27 2022-01-14 国网湖南省电力有限公司 基于可听声分析的干式变压器放电检测方法及系统
CN115120247A (zh) * 2022-07-19 2022-09-30 天津工业大学 一种实现多生理信号联合分析的系统
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
CN103207961A (zh) * 2013-04-23 2013-07-17 曙光信息产业(北京)有限公司 用户验证方法和装置
US20130238334A1 (en) * 2010-12-10 2013-09-12 Panasonic Corporation Device and method for pass-phrase modeling for speaker verification, and verification system
CN108900725A (zh) * 2018-05-29 2018-11-27 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
US20190325880A1 (en) * 2018-04-24 2019-10-24 ID R&D, Inc. System for text-dependent speaker recognition and method thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
US20130238334A1 (en) * 2010-12-10 2013-09-12 Panasonic Corporation Device and method for pass-phrase modeling for speaker verification, and verification system
CN103207961A (zh) * 2013-04-23 2013-07-17 曙光信息产业(北京)有限公司 用户验证方法和装置
US20190325880A1 (en) * 2018-04-24 2019-10-24 ID R&D, Inc. System for text-dependent speaker recognition and method thereof
CN108900725A (zh) * 2018-05-29 2018-11-27 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XING FANG ETC: "Speaker identification with whispered speech based on modified LFCC parameters and feature mapping" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524523A (zh) * 2020-04-26 2020-08-11 中南民族大学 基于声纹识别技术的仪器设备状态检测系统及其方法
CN111564163A (zh) * 2020-05-08 2020-08-21 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN111564163B (zh) * 2020-05-08 2023-12-15 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN112349267A (zh) * 2020-10-28 2021-02-09 天津大学 基于注意力机制特征的合成语音检测方法
CN112349267B (zh) * 2020-10-28 2023-03-21 天津大学 基于注意力机制特征的合成语音检测方法
CN113035227A (zh) * 2021-03-12 2021-06-25 山东大学 一种多模态语音分离方法及系统
CN113933658A (zh) * 2021-08-27 2022-01-14 国网湖南省电力有限公司 基于可听声分析的干式变压器放电检测方法及系统
CN113933658B (zh) * 2021-08-27 2023-08-29 国网湖南省电力有限公司 基于可听声分析的干式变压器放电检测方法及系统
CN115120247A (zh) * 2022-07-19 2022-09-30 天津工业大学 一种实现多生理信号联合分析的系统
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Also Published As

Publication number Publication date
CN110931022B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
Mitra et al. Medium-duration modulation cepstral feature for robust speech recognition
US20130297299A1 (en) Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
CN103646649A (zh) 一种高效的语音检测方法
CN108198545B (zh) 一种基于小波变换的语音识别方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Alam et al. Tandem Features for Text-Dependent Speaker Verification on the RedDots Corpus.
CN111816203A (zh) 基于音素级分析抑制音素影响的合成语音检测方法
CN112542174A (zh) 基于vad的多维特征参数声纹识别方法
Riazati Seresht et al. Spectro-temporal power spectrum features for noise robust ASR
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN107103913A (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
Kumar et al. Hybrid of wavelet and MFCC features for speaker verification
Khanna et al. Application of vector quantization in emotion recognition from human speech
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
Rathor et al. Text indpendent speaker recognition using wavelet cepstral coefficient and butter worth filter
Samal et al. On the use of MFCC feature vector clustering for efficient text dependent speaker recognition
Dai et al. An improved feature fusion for speaker recognition
Kumar et al. Text dependent speaker identification in noisy environment
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Chandra et al. Spectral-subtraction based features for speaker identification
Zailan et al. Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context
Komlen et al. Text independent speaker recognition using LBG vector quantization
Chiu et al. Analysis of physiologically-motivated signal processing for robust speech recognition.
Jagtap et al. Speaker verification using Gaussian mixture model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant