CN107039046B - 一种基于特征融合的语音声效模式检测方法 - Google Patents

一种基于特征融合的语音声效模式检测方法 Download PDF

Info

Publication number
CN107039046B
CN107039046B CN201710172671.XA CN201710172671A CN107039046B CN 107039046 B CN107039046 B CN 107039046B CN 201710172671 A CN201710172671 A CN 201710172671A CN 107039046 B CN107039046 B CN 107039046B
Authority
CN
China
Prior art keywords
vowel
sound effect
vector sequence
feature vector
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710172671.XA
Other languages
English (en)
Other versions
CN107039046A (zh
Inventor
晁浩
智慧来
刘永利
刘志中
鲁保云
余琼霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201710172671.XA priority Critical patent/CN107039046B/zh
Publication of CN107039046A publication Critical patent/CN107039046A/zh
Application granted granted Critical
Publication of CN107039046B publication Critical patent/CN107039046B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于特征融合的语音声效模式检测方法。该方法包括如下步骤:接收语音信号;检测出所述语音信号中的元音,生成元音集合;提取元音集合中每一个元音的谱特征矢量序列;提取元音集合中每一个元音的频率特征矢量序列;根据元音集合中每一个元音的谱特征矢量序列和频率特征矢量序列生成该元音的声效特征矢量序列;将元音集合分别与多个候选声效模式进行匹配,生成每一个候选声效模式的匹配值;将匹配值最大的候选声效模式确定为语音信号的声效模式。

Description

一种基于特征融合的语音声效模式检测方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于特征融合的语音声效模式检测方法。
背景技术
声音效果(Vocal Effort)简称声效,是正常人的一种发音变化的衡量,而这种发音变化是人出于正常交流的需要,根据交流时双方距离的远近或背景噪声的高低自动调整发音方式所产生的。通常将声效由低到高分为五个量级/模式:耳语、轻声、正常、大声、高喊。在现实的环境中,人们不可能一直都在同一种声效水平下交流:在图书馆或者自习室里需要通过耳语的方式交流;在吵杂的场合需要大声说话对方才能听见;而在嘈杂的工厂车间可能就需要通过高喊的方式才能够交流。
声音效果的改变不仅使得声音强度发生变化,还会影响语音信号的其它声学特性。因此,研究不同的声效水平下语音信号声学特性的变化规律并准确地检测出语音信号的声效模式,能够扩大语音识别技术的应用范围,对语音识别的实用化将产生积极的推动作用。此外,声效模式检测对于说话人识别和语音合成等领域的实用化也具有积极的作用。
现有的语音声效模式检测方法通常以语音的声强级、语句时长、帧能量分布以及频谱倾斜为特征来训练检测模型,并利用训练好的模型来识别语音的声效模式。这种方法检测耳语时准确率较高,这是因为耳语在发音时声带很少振动,所以在发音方式上与其它声效模式之间有着显著的区别。但是,其它几种声效模式中相邻的声效模式的语音在发音方式上并未有显著性的差异,反映在语谱上也未有明显的变化,而上述声强级等特征对于发音方式相近的声效模式辨识度较低,并不能提供有效的区分性信息。因此现有的方法对剩下的几种声效模式检测则容易混淆,误识率较高。
发明内容
本发明的目的在于针对现有技术中的声效检测方法在识别耳语以外的其它四种声效模式时精度不高的缺陷,提出一种将元音的谱特征和频率特征相结合的声效模式检测方法,从而提高了所有声效模式的检测精度。
本发明公开了一种基于特征融合的语音声效模式检测方法,其具体包括以下步骤:
步骤1、接收语音信号;
步骤2、检测出所述语音信号中的元音,生成元音集合;
步骤3、提取所述元音集合中每一个元音的谱特征矢量序列;
步骤4、提取所述元音集合中每一个元音的频率特征矢量序列;
步骤5、根据所述元音集合中每一个元音的谱特征矢量序列和频率特征矢量序列生成该元音的声效特征矢量序列;
步骤6、根据所述元音集合中每一个元音的声效特征矢量序列将所述元音集合分别与多个候选声效模式进行匹配,生成每一个候选声效模式的匹配值;
步骤7、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。
上述技术方案中,步骤3提取了每一个元音的谱特征矢量序列,步骤4提取了每一个元音的频率特征矢量序列。这两种基于语音帧的特征对于发音方式相近的声效模式都具有更好的辨识度。其中,谱特征侧重反映了语音信号各频带的语谱情况,频率特征反映了语音信号在各频带的瞬时频率和瞬时幅值的综合情况。因此,基于谱特征和频率特征生成的声效特征矢量序列对于所有的声效模式具有很好的识别能力。
附图说明
图1是根据本发明的一种基于特征融合的语音声效模式检测方法的流程图;
图2是根据本发明的一个提取元音的频率特征矢量序列的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为根据本发明的一种基于特征融合的语音声效模式检测方法的流程图。其中,待识别声效模式的语音信号为连续语音,对应一个语句。
步骤101、接收语音信号;
步骤102、检测出所述语音信号中的元音,生成元音集合;
步骤103、提取所述元音集合中每一个元音的谱特征矢量序列;
步骤104、提取所述元音集合中每一个元音的频率特征矢量序列;
步骤105、根据所述元音集合中每一个元音的谱特征矢量序列和频率特征矢量序列生成该元音的声效特征矢量序列;
步骤106、根据所述元音集合中每一个元音的声效特征矢量序列将所述元音集合分别与多个候选声效模式进行匹配,生成每一个候选声效模式的匹配值;
步骤107、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。
其中,在步骤104中,提取元音集合中每一个元音的频率特征矢量序列具体分为以下几个步骤,如图2所示:
步骤1041、对该元音对应的语音信号s(n)加汉宁窗,得到语音帧序列;
步骤1042、采用伽马通滤波器组对所述语音信号s(n)进行滤波,得到多个带通信号yk(n),k=1,…,N,其中N表示所述伽马通滤波器组包含的伽马通滤波器数量,k表示伽马通滤波器的编号,yk(n)为编号为k的伽马通滤波器输出的带通信号;
步骤1043、计算每一个带通信号yk(n)的分析信号sk(n),所述分析信号sk(n)通过如下公式获取:
Figure BDA0001250992370000041
其中
Figure BDA0001250992370000042
表示所述带通信号yk(n)经过希尔伯特变换得到的值;
步骤1044、计算所述分析信号sk(n)的瞬时幅值ak(n)和瞬时相位,并根据所述瞬时相位计算所述分析信号sk(n)的瞬时频率fk(n);
步骤1045、通过如下公式计算所述语音帧序列中每一帧的频率特征矢量:
Figure BDA0001250992370000043
Figure BDA0001250992370000044
其中,i表示所述语音帧序列中的第i帧,F(i)表示第i帧的频率特征矢量,
Figure BDA0001250992370000045
表示F(i)的第k个分量,n0表示第i帧的起始采样点,τ表示第i帧的长度。
此外,步骤106中每一个候选声效模式的匹配值通过如下公式确定:
Figure BDA0001250992370000046
其中,VE表示该候选声效模式,M(VE)表示该候选声效模式的匹配值,Vset表示所述元音集合,v表示所述元音集合Vset中的某个元音,P(VE|v)表示元音v属于候选声效模式VE的概率。
而P(VE|v)的计算过程如下:
从候选声效模式VE预置的概率模型集合中获取所述元音v对应的概率模型;将所述元音v的声效特征序列输入到所述元音v对应的概率模型,得到所述元音v属于所述候选声效模式VE的概率P(VE|v)。
例如:对于一句话“我和你一起去上课”对应的语音信号,
检测这句话对应的语音信号中包含的元音,生成元音集合:{o、e、i、i、i、u、ang、e};
提取元音集合:{o、e、i、i、i、u、ang、e}中每一个元音的梅尔频率倒谱系数矢量序列,其中每一个梅尔频率倒谱系数矢量包含12个分量;
提取元音集合:{o、e、i、i、i、u、ang、e}中每一个元音的频率特征矢量序列;以上述元音集合中的第一个元音o为例,其频率特征矢量序列的提取过程如下:
对元音o对应的语音信号so(n)加汉宁窗,得到了一个包含15帧的语音帧序列,其中窗长25ms,帧移10ms;采用伽马通滤波器组对所述语音信号so(n)进行滤波,得到多个带通信号yk(n),k=1,…,27,其中27表示伽马通滤波器组包含的伽马通滤波器数量,k表示伽马通滤波器的编号,yk(n)为编号为k的伽马通滤波器输出的带通信号;计算每一个带通信号yk(n)的分析信号sk(n),分析信号sk(n)通过如下公式获取:
Figure BDA0001250992370000051
其中
Figure BDA0001250992370000052
表示所述带通信号yk(n)经过希尔伯特变换得到的值;计算每一个分析信号sk(n)的瞬时幅值ak(n)和瞬时相位,并根据瞬时相位计算该分析信号sk(n)的瞬时频率fk(n);通过如下公式计算元音o的语音帧序列中每一帧的频率特征矢量:
Figure BDA0001250992370000053
Figure BDA0001250992370000054
其中,i表示所述语音帧序列中的第i帧,F(i)表示第i帧的频率特征矢量,
Figure BDA0001250992370000055
表示F(i)的第k个分量,n0表示第i帧的起始采样点,τ表示第i帧的长度,也就是第i帧包含的采样点的数量。每一帧的频率特征矢量包含27个分量,所有15帧的频率特征矢量都计算出来后,就得到了元音o的频率特征矢量序列。
根据元音集合:{o、e、i、i、i、u、ang、e}中每一个元音的梅尔频率倒谱系数矢量序列和频率特征矢量序列生成该元音的声效特征矢量序列;以上述元音集合中的第一个元音o为例,元音o包含15个语音帧,将每一帧的梅尔频率倒谱系数矢量和频率特征矢量相连接,生成了该帧的总体特征矢量。由于每一帧的梅尔频率倒谱系数矢量包含12个分量,每一帧的频率特征矢量包含了27个分量,所以该帧的总体特征矢量包含了39个分量。而15个语音帧的总体特征矢量就形成了元音o的总体特征矢量序列。然后利用主成份分析方法对元音o的总体特征矢量序列进行降维,得到元音o的声效特征矢量序列,其中每一个声效特征矢量包含了22个分量。
元音集合:{o、e、i、i、i、u、ang、e}中每一个元音的声效特征矢量序列计算出来以后,在步骤106中通过如下公式计算每一个候选声效模式的匹配值:
Figure BDA0001250992370000061
其中,VE表示一种候选声效模式,假如为‘高喊’,则MVE表示高喊声效模式的匹配值,Vset表示元音集合{o、e、i、i、i、u、ang、e},v表示所述元音集合Vset中的某个元音,假如当前v的值具体为元音集合Vset中的第一个元音o,P(VE|v)表示元音o属于候选声效模式‘高喊’的概率。
P(VE|v)的计算过程如下:
从候选声效模式‘高喊’预置的概率模型集合中获取元音o对应的概率模型;将所述元音o的声效特征序列输入到所述元音o对应的概率模型,得到元音o属于候选声效模式‘高喊’的概率P(VE|v)。其中,所有候选声效模式预置的概率模型都采用隐马尔可夫模型。
上述方案中,步骤103提取了元音的谱特征矢量序列,步骤104提取了元音的频率特征矢量序列。这两种基于语音帧的特征对于发音方式相近的声效模式都具有更好的辨识度。其中,谱特征侧重反映了语音信号各频带的语谱情况,频率特征反映了语音信号在各频带的瞬时频率和瞬时幅值的综合情况。因此,将谱特征和频率特征相结合生成的声效特征矢量序列对于所有的声效模式具有更好的识别能力。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于特征融合的语音声效模式检测方法,其特征在于包括如下步骤:
步骤1、接收语音信号;
步骤2、检测出所述语音信号中的元音,生成元音集合;
步骤3、提取所述元音集合中每一个元音的谱特征矢量序列;
步骤4、提取所述元音集合中每一个元音的频率特征矢量序列;
步骤5、根据所述元音集合中每一个元音的谱特征矢量序列和频率特征矢量序列生成该元音的声效特征矢量序列;
步骤6、根据所述元音集合中每一个元音的声效特征矢量序列将所述元音集合分别与多个候选声效模式进行匹配,生成每一个候选声效模式的匹配值;
步骤7、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。
2.根据权利要求1所述的语音声效模式检测方法,其特征在于所述步骤4中提取所述元音集合中每一个元音的频率特征矢量序列的具体步骤如下:
步骤41、对该元音对应的语音信号加汉宁窗,得到语音帧序列;
步骤42、采用伽马通滤波器组对所述语音信号进行滤波,得到多个带通信号;
步骤43、计算每一个带通信号的分析信号,所述分析信号通过如下公式获取:
Figure FDA0001250992360000011
其中yk(n)表示所述多个带通信号中第k个带通信号,sk(n)表示yk(n)的分析信号,
Figure FDA0001250992360000012
表示所述带通信号yk(n)经过希尔伯特变换得到的值;
步骤44、计算每一个分析信号的瞬时幅值和瞬时相位,并根据所述瞬时相位计算该分析信号的瞬时频率;
步骤45、通过如下公式计算所述语音帧序列中每一帧的频率特征矢量:
Figure FDA0001250992360000021
Figure FDA0001250992360000022
其中,i表示所述语音帧序列中的第i帧,F(i)表示第i帧的频率特征矢量,
Figure FDA0001250992360000023
表示F(i)的第k个分量,N表示所述伽马通滤波器组包含的滤波器的数量,n0表示第i帧的起始采样点,τ表示第i帧的长度,ak(n)表示分析信号sk(n)的瞬时幅值,fk(n)表示分析信号sk(n)的瞬时频率。
3.根据权利要求2所述的语音声效模式检测方法,其特征在于所述步骤5中根据所述元音集合中每一个元音的谱特征矢量序列和频率特征矢量序列生成该元音的声效特征矢量序列的具体过程如下:
步骤51、将该元音每一帧的谱特征矢量和频率特征矢量相连接,生成该帧的总体特征矢量;
步骤52、利用主成份分析方法对该元音的总体特征矢量序列进行降维,得到该元音的声效特征矢量序列。
4.根据权利要求2或3所述的语音声效模式检测方法,其特征在于所述步骤6中每一个候选声效模式的匹配值通过如下公式确定:
Figure FDA0001250992360000024
其中,VE表示该候选声效模式,M(VE)表示该候选声效模式的匹配值,Vset表示所述元音集合,v表示所述元音集合Vset中的某个元音,P(VE|v)表示元音v属于候选声效模式VE的概率。
5.根据权利要求4所述的语音声效模式检测方法,其特征在于所述步骤6中元音v属于所述候选声效模式VE的概率P(VE|v)的计算过程如下:
步骤61、从所述候选声效模式VE预置的概率模型集合中获取所述元音v对应的概率模型;
步骤62、将所述元音v的声效特征序列输入到所述元音v对应的概率模型,得到所述元音v属于所述候选声效模式VE的概率P(VE|v)。
6.根据权利要求5所述的语音声效模式检测方法,其特征在于所述元音v对应的概率模型为隐马尔可夫模型。
7.根据权利要求6所述的语音声效模式检测方法,其特征在于所述步骤3中的谱特征矢量序列为梅尔频率倒谱系数矢量序列。
8.根据权利要求7所述的语音声效模式检测方法,其特征在于所述步骤42中伽马通滤波器组包含的滤波器数量为27。
CN201710172671.XA 2017-03-21 2017-03-21 一种基于特征融合的语音声效模式检测方法 Expired - Fee Related CN107039046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710172671.XA CN107039046B (zh) 2017-03-21 2017-03-21 一种基于特征融合的语音声效模式检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710172671.XA CN107039046B (zh) 2017-03-21 2017-03-21 一种基于特征融合的语音声效模式检测方法

Publications (2)

Publication Number Publication Date
CN107039046A CN107039046A (zh) 2017-08-11
CN107039046B true CN107039046B (zh) 2020-03-10

Family

ID=59533822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710172671.XA Expired - Fee Related CN107039046B (zh) 2017-03-21 2017-03-21 一种基于特征融合的语音声效模式检测方法

Country Status (1)

Country Link
CN (1) CN107039046B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172215B (zh) * 2018-01-09 2020-09-25 河南理工大学 结合声效模式检测的语音识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3149683A1 (de) * 1980-12-23 1982-08-26 Norlin Industries, Inc., 10601 White Plains, N.Y. Musikinstrument mit vokaleffekt
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
JP2000003183A (ja) * 1999-06-07 2000-01-07 Yamaha Corp カラオケ装置
JP4087935B2 (ja) * 1996-12-30 2008-05-21 株式会社大宇エレクトロニクス 唇動きパラメータ発生装置
CN106023986A (zh) * 2016-05-05 2016-10-12 河南理工大学 一种基于声效模式检测的语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3149683A1 (de) * 1980-12-23 1982-08-26 Norlin Industries, Inc., 10601 White Plains, N.Y. Musikinstrument mit vokaleffekt
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
JP4087935B2 (ja) * 1996-12-30 2008-05-21 株式会社大宇エレクトロニクス 唇動きパラメータ発生装置
JP2000003183A (ja) * 1999-06-07 2000-01-07 Yamaha Corp カラオケ装置
CN106023986A (zh) * 2016-05-05 2016-10-12 河南理工大学 一种基于声效模式检测的语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于元音模板匹配的声效多级检测;晁浩;《北京邮电大学学报》;20160831;全文 *

Also Published As

Publication number Publication date
CN107039046A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN110827837B (zh) 一种基于深度学习的鲸鱼活动音频分类方法
Basu et al. Emotion recognition from speech using convolutional neural network with recurrent neural network architecture
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
JPS62231997A (ja) 音声認識システム及びその方法
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN106023986B (zh) 一种基于声效模式检测的语音识别方法
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
Hamid et al. Makhraj recognition for Al-Quran recitation using MFCC
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Abdo et al. Automatic detection for some common pronunciation mistakes applied to chosen Quran sounds
US20170294195A1 (en) Sound discriminating device, sound discriminating method, and computer program
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
Sawakare et al. Speech recognition techniques: a review
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
Wani et al. Automatic speech recognition of isolated words in Hindi language
Narayanan et al. Coupling binary masking and robust ASR
Chen et al. Teager Mel and PLP fusion feature based speech emotion recognition
Abdo et al. MFC peak based segmentation for continuous Arabic audio signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200310

Termination date: 20210321