CN103366737B - 在自动语音识别中应用声调特征的装置和方法 - Google Patents

在自动语音识别中应用声调特征的装置和方法 Download PDF

Info

Publication number
CN103366737B
CN103366737B CN201210090660.4A CN201210090660A CN103366737B CN 103366737 B CN103366737 B CN 103366737B CN 201210090660 A CN201210090660 A CN 201210090660A CN 103366737 B CN103366737 B CN 103366737B
Authority
CN
China
Prior art keywords
frame
overall situation
random value
acoustic
tone feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210090660.4A
Other languages
English (en)
Other versions
CN103366737A (zh
Inventor
丁沛
贺利强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201210090660.4A priority Critical patent/CN103366737B/zh
Priority to US13/852,300 priority patent/US9076436B2/en
Publication of CN103366737A publication Critical patent/CN103366737A/zh
Application granted granted Critical
Publication of CN103366737B publication Critical patent/CN103366737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出了一种在自动语音识别中应用声调特征的装置和方法,该装置包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化模块,被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。在本发明的一实施例中,该装置还包括特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。

Description

在自动语音识别中应用声调特征的装置和方法
技术领域
本发明涉及自动语音识别(ASR),具体涉及一种在自动语音识别中应用声调特征的装置和方法。
背景技术
中文普通话等语言是一种带调语言,其每个音节的发音通常有五个不同的声调。声调反映了语音基频的变化,这是一种非常重要的鉴别信息。但是对于常见的语音识别系统,其使用的声学特征往往都忽略了声调,基频信息在特征提取中被丢弃,这对于带调语音识别系统,尤其是小词汇量语音识别(如中文数字串识别)而言是一种信息的浪费。除此之外,这样的语音识别系统也完全不能区分同音不同调的词对(如“陕西”和“山西”)。
为了提高诸如中文普通话等带调语言的语音识别系统的性能,基频特征会被提取出来,并和传统声学特征(如MFCC)合并使用。在用于语音识别的基频提取过程中有一个特殊问题,即为了保证基频特征的连续输出,如何对无声语音帧(如辅音)的基频赋值。因为在这些帧中,基频信息是根本不存在的。通常的办法是用随机数作为无声帧的基频特征。但是,直接使用随机值将会导致译码过程中出现异常的概率似然值,并最终降低识别性能。
除此之外,在基频特征提取的过程中,一些中间变量对提高识别性能是很有作用的,但实际应用中都被忽略了。
发明内容
针对现有技术中存在的上述问题,提出了本发明的解决方案。
在本发明的一个方面,提出了一种在自动语音识别中应用声调特征的装置,包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化(normalization)模块,被配置为根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整随机值,并将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。
根据本发明的实施例,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括:使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;以及使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。
根据本发明的实施例,所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括:使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
根据本发明的实施例,所述根据规整化的全局分布调整用于无声帧的随机值包括:对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
根据本发明的实施例,该装置还包括:帧区分模块,被配置为区分语音信号中的有声帧和无声帧;以及声调特征提取模块,被配置为提取有声帧的声调特征。
根据本发明的实施例,该装置还包括:特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征,以用于自动语音识别。
根据本发明的实施例,所述特征合并模块进一步被配置为:合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
根据本发明的实施例,所述语音层级参数反映了语音信号中的周期性的强弱。
在本发明的另一个方面,提出了一种在自动语音识别中应用声调特征的方法,包括:估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化;以及根据规整化的全局分布调整随机值,并将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。
根据本发明的实施例,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括:使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;以及使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。
根据本发明的实施例,所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括:使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
根据本发明的实施例,所述根据规整化的全局分布调整用于无声帧的随机值包括:对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
根据本发明的实施例,该方法还包括以下可选步骤:区分语音信号中的有声帧和无声帧;以及提取有声帧的声调特征。
根据本发明的实施例,该方法还包括以下可选步骤:合并有声帧和无声帧的非声调声学特征以及所述声调特征,以用于自动语音识别。
根据本发明的进一步的实施例,所述合并步骤进一步包括:合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
根据本发明的实施例,所述语音层级参数反映了语音信号中的周期性的强弱。
本发明的实施例具有如下优点中的至少一个:
对用于无声帧的随机值的规整化避免了不受约束的随机值带来的识别过程中的异常概率似然值,并且增加了有声帧和无声帧在统计上的区分性,从而提高了识别精度;
由于是对有声帧的声调特征以及用于无声帧的随机值的全局分布进行估计并利用线性变换进行规整化,因此在实现上非常简单;
对无声帧使用规整化的随机值赋值符合连续语音识别的框架;
语音层级参数对声学特征的扩充进一步提高了语音识别精度;
语音层级参数是基频特征提取中的中间结果,因此特征扩张不增加语音识别前端的计算量。
附图说明
通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
图1示出了本发明的装置和方法可在其中实施的示例性语音识别系统的框图;
图2示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的装置;
图3示出了由分布估计模块所估计的语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布的示例性示意图;
图4a示出了有声帧的声调特征的全局分布以及规整化之前的用于无声帧的随机值的全局分布的示例性示意图;
图4b示出了有声帧的声调特征的全局分布以及规整化之后的用于无声帧的随机值的全局分布的示例性示意图;
图5示出了由特征合并模块所执行的特征合并的示例性示意图;
图6示意性的示出了一种计算语音层级参数的方法;
图7示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的方法。
具体实施方式
下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用。
图1示出了本发明的装置和方法可在其中实施的示例性语音识别系统的框图。如图所示,该语音识别系统大体上可划分为两个部分:语音处理模块101和识别模块102;并可划分为两个运行阶段:训练阶段和识别阶段。语音处理模块101用于对输入的语音信号进行处理以便获得表征语音信号中的每个声学单元(例如,词汇、音节或音素)的特征参数组合,并将特征参数组合所训练得到的相应声学单元的模型与该声学单元相关联地存储在模型库103中(训练阶段),或者将特征参数组合提供给识别模块102,以便识别模块102通过将特征参数组合与模型库103中的模型进行匹配来识别出相应的声学单元(识别阶段)。在对输入的语音信号进行处理的过程中,语音处理模块101首先将输入的语音信号划分为等时长(例如,10-25毫秒)的片段,称为帧,然后对每个帧进行一系列的数学变换,从而获得每个帧的一组特征参数,并将每个声学单元所包含的若干帧的若干组特征参数的组合当作表征该声学单元的特征参数。
应指出的是,图1中所示的语音识别系统仅为简单的示意性和示例性说明,而不是对本发明可在其中实施的语音识别系统的限制。本发明的装置和方法适用于任何语音识别系统,且尤其适用于带调语言的语音识别系统,如中文普通话语音识别系统。
本发明的用于在自动语音识别中应用单调特征的装置可以位于语音处理模块101之内或之外,也可以一部分位于语音处理模块101之内,一部分位于语音处理模块101之外。
图2示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的装置200。如图所示,该装置200包括:分布估计模块201,规整化模块202,以及随机值调整模块203。
所述分布估计模块201被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布。
根据本发明的一些实施例,该装置200还包括:可选的帧区分模块204,被配置为区分语音信号中的有声帧和无声帧;以及可选的声调特征提取模块205,被配置为提取有声帧的声调特征。
根据本发明的另一些实施例,该装置200不包括帧区分模块204和声调特征提取模块205,相反,帧区分模块204和声调特征提取模块205位于语音识别系统之中且位于该装置200之外。
有声帧是指语音信号在经过帧划分之后语音中的元音所在的帧,而无声帧是指语音中辅音或停顿所在的帧。帧区分模块204可以使用任何已知的或未来开发的方法来区分有声帧和无声帧。
声调特征可以包括语音信号的基频、基频的一次差分、基频的二次差分等。有声帧具有声调特征,而无声帧不具有声调特征。声调特征提取模块205可以使用任何已知的或未来开发的方法来提取有声帧的声调特征。对于无声帧,语音识别系统中的语音处理模块101通常会生成随机值,作为无声帧的声调特征,以形成语音信号的连续的声调特征流,以便于后续的语音识别处理。
所述帧区分模块204和声调特征提取模块205也可以使用Y.Kida,M.Sakai,T.Masuko和A.Kawamura的“Robust F0 estimation based on log-time scaleautocorrelation and its application to Mandarin tone recognition”inproceedings of INTERSPEECH2009,pp.2791-2794中公开的一种通过计算语音信号的周期性强弱来区分有声帧和无声帧、以及获得有声帧的基频的方法,该文献作为参考在此全文引用。
帧区分模块204和声调特征提取模块205既在训练阶段运行,也在识别阶段运行。在训练阶段,声调特征提取模块205将所提取的每个有声帧的声调特征与由语音处理模块101产生的有声帧的其他声学特征一起存储在模型库103中(无声帧的随机值及其他声学特征也被存储在模型库中)。在识别阶段,声调特征提取模块205提取待识别语音信号中的有声帧的声调特征,与语音处理模块101产生的有声帧的其他声学特征结合在一起(无声帧的随机值与其他声学特征也结合在一起),然后通过与模型库103中的声学特征匹配来识别待识别语音信号中的帧以及声学单元。
所述分布估计模块201可获取模型库103中存储的全部或部分有声帧的声调特征并由此计算有声帧的声调特征的全局分布,也可以从声调特征提取模块205获得若干输入的语音信号的有声帧的声调特征并由此计算有声帧的声调特征的全局分布。所述分布估计模块201可获得由语音处理模块101生成的用于无声帧的若干随机值,并由此计算用于无声帧的随机值的全局分布。声调特征的全局分布以及随机值的全局分布可以分别由声调特征的概率密度函数(PDF)和随机值的概率密度函数表示,且均假设其服从高斯分布。
图3示出了由分布估计模块201所估计的语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布的示例性示意图。在图中,V代表有声帧,UV代表无声帧。图中下方的坐标图的横轴代表声调特征值或随机值,纵轴代表声调特征值或随机值的出现频率,两条曲线分别代表有声帧的声调特征以及用于无声帧的随机值的概率密度函数。从图中可见,有声帧的声调特征和用于无声帧的随机值的概率密度函数具有大体一致的均值和不同的标准差。
现返回图2,所述规整化模块202被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化。
根据本发明的实施例,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括:使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;以及使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。
根据本发明的进一步的实施例,所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括:使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
图4a示出了有声帧的声调特征的全局分布以及规整化之前的用于无声帧的随机值的全局分布的示例性示意图。从图中可见,用于无声帧的随机值的全局分布的标准差小于有声帧的声调特征的全局分布的标准差,且用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值很接近。这样,图中的用于无声帧的特定随机值例如A容易与具有相同值的有声帧的特征值相混淆,从而影响到语音识别效果。
图4b示出了有声帧的声调特征的全局分布以及规整化之后的用于无声帧的随机值的全局分布的示例性示意图。如图所示,经过规整化之后,用于无声帧的随机值的全局分布的标准差与有声帧的声调特征的全局分布的标准差更为接近,且在一具体实施例中两者大体相等;并且,用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值适当偏离,且在一具体实施例中,两者之间的距离约等于有声帧的声调特征的全局分布的标准差的1.6倍,如以下公式所示:
Sigma’(UV)=Sigma(V),
Mean’(UV)–Mean(V)=1.6*Sigma(V),
其中,Sigma’(UV)表示规整化之后的用于无声帧的随机值的全局分布的标准差,Sigma(V)表示有声帧的声调特征的全局分布的标准差,Mean’(UV)表示规整化之后的用于无声帧的随机值的全局分布的均值,Mean(V)表示有声帧的声调特征的全局分布的均值。
现返回图2,所述随机值调整模块203被配置为根据规整化的全局分布调整用于无声帧的随机值,并将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。
根据本发明的实施例,所述根据规整化的全局分布调整用于无声帧的随机值包括:对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
如本领域的技术人员所知的,对随机变量的分布的规整化可通过对该随机变量进行线性变换来实现。因此,可通过对由语音处理模块101生成的用于无声帧的随机值进行线性变换,并用线性变换所得到的随机值取代原随机值,来使线性变换所得到的随机值的全局分布为上述规整化的全局分布,如以下公式所示:
F’(UV)=a*F(UV)+b,
a=Sigma’(UV)/Sigma(UV),
b=Mean’(UV)-Mean(UV)*a,
其中,F’(UV)为经过线性变换后的用于无声帧的随机值,F(UV)为由语音处理模块101生成的用于无声帧的原随机值,a和b为线性变换的参数,Sigma’(UV)表示规整化之后的用于无声帧的随机值的全局分布的标准差,Sigma(UV)表示规整化之前的用于无声帧的随机值的全局分布的标准差,Mean’(UV)表示规整化之后的用于无声帧的随机值的全局分布的均值,Mean(UV)表示规范化之前的用于无声帧的随机值的全局分布的均值。
随机值调整模块203将根据以上公式,对由语音处理模块101生成的用于无声帧的每个随机值进行线性变换,并将线性变换所得到的随机值赋值给每个无声帧,作为无声帧的声调特征。例如,图4a中的用于无声帧的特定随机值A经过线性变换后,成为图4b中的经线性变换后的用于无声帧的随机值A’,这样就不再容易与有声帧的特征值相混淆,从而提高了语音识别的效果。
现返回图2,根据本发明的实施例,该装置200还包括:可选的特征合并模块206,其被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征,以用于自动语音识别。所述声调特征包括由声调特征提取模块205所产生的有声帧的声调特征以及无声帧的作为其声调特征、由随机值调整模块203所调整得到的随机值。
根据本发明的进一步的实施例,所述特征合并模块206进一步被配置为:合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
图5示出了由特征合并模块206所执行的特征合并的示例性示意图。在该图中,左上方的表格表示传统的非声调声学特征,例如MFCC特征等,该表的每一列表示一个有声帧或无声帧的一组非声调声学特征。左边中间的表格表示有声帧的声调特征,以及无声帧的作为其声调特征的、由上述随机值调整模块203所调整得到的随机值,该表的每一列表示一个有声帧的一组声调特征,例如基频、基频的一阶差分、基频的二阶差分等,或者表示一个无声帧的一组调整后的相应随机值。左下方的表格表示语音层级参数,该表的每一列表示一个有声帧或无声帧的一组语音层级参数。如图所示,传统的非声调声学特征与声调特征和语音层级参数合并在一起,以用于后续的语音识别处理,例如在训练阶段,作为帧及声学单元的模型存储在模型库103中,或在识别阶段通过与模型库103中的模型进行匹配来对输入的语音信号中的帧及声学单元进行识别。
根据本发明的进一步的实施例,所述语音层级参数反映了语音信号中的周期性的强弱。具体地,所述语音层级参数可以是区分有声帧和无声帧以及提取有声帧的声调特征(例如基频)的过程中的中间结果。例如,在上述Y.Kida,M.Sakai,T.Masuko和A.Kawamura的文献中记载了一种计算语音层级参数的方法。图6示意性的示出了该计算语音层级参数的方法。如图所示,首先计算处于一定距离的两个帧之间的互相关函数,然后对相邻的互相关函数的时间序列进行加权求和,获得总计互相关函数,则语音层级参数为总计互相关函数的最大值与最小值之间的差值。此外,语音层级参数还可以包括该差值的一阶和/或高阶差分。
应指出的是,所述随机值调整模块203和特征合并模块206既在训练阶段运行,也在识别阶段运行。在训练阶段,随机值调整模块203根据规整化的全局分布调整用于无声帧的随机值,并将调整后的随机值赋值给训练语音信号中的无声帧,作为无声帧的声调特征;特征合并模块206合并训练语音信号中的有声帧和无声帧的非声调声学特征和声调特征以及可能的语音层级参数,并将合并的特征及参数存储在模型库103中,作为每个帧及声学单元的模型。在识别阶段,随机值调整模块203根据规整化的全局分布调整用于无声帧的随机值,并将调整后的随机值赋值给待识别语音信号中的无声帧,作为无声帧的声调特征;特征合并模块206合并待识别语音信号中的有声帧和无声帧的非声调声学特征和声调特征以及可能的语音层级参数,并将合并的特征及参数与模型库103中存储的模型进行匹配,以识别待识别语音信号中的帧及声学单元。
以上参照附图描述了根据本发明的实施例的用于在自动语音识别中应用声调特征的装置200,应指出的是,以上描述和图示仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该装置200可具有更多、更少或不同的模块,且各模块之间的连接、包含、功能等关系可以与所描述和图示的不同。
现参照附图7,其示出了根据本发明的实施例的用于在自动语音识别中应用声调特征的方法。如图所示,该方法包括以下步骤:
在步骤703,估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布。
在步骤704,根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化。
在步骤705,根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。
根据本发明的实施例,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化包括:
使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;以及
使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值。
根据本发明的实施例,所述使用于无声帧的随机值的全局分布的均值偏离有声帧的声调特征的全局分布的均值包括:
使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
根据本发明的实施例,所述根据规整化的全局分布调整用于无声帧的随机值包括:
对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
根据本发明的实施例,该方法还包括以下可选步骤:
在步骤701,区分语音信号中的有声帧和无声帧;以及
在步骤702,提取有声帧的声调特征。
根据本发明的实施例,该方法还包括以下可选步骤706:合并有声帧和无声帧的非声调声学特征以及所述声调特征,以用于自动语音识别。
根据本发明的进一步的实施例,所述合并步骤706进一步包括:合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
根据本发明的实施例,所述语音层级参数反映了语音信号中的周期性的强弱。
以上参照附图描述了根据本发明的实施例的用于在自动语音识别中应用声调特征的方法,应指出的是,以上描述和图示仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该方法可具有更多、更不或不同的步骤,且各步骤之间的顺序、包含、功能等关系可以与所描述和图示的不同。例如,在本发明的一些实施例中,该方法也可以不包括上述步骤701、702和706。
本发明可以硬件、软件、或硬件与软件的结合的方式实现。本发明可以集中的方式在一个计算机系统中实现,或以分布方式实现,在这种分布方式中,不同的部件分布在若干互连的计算机系统中。适于执行本文中描述的各方法的任何计算机系统或其它装置都是合适的。一种典型的硬件和软件的组合可以是带有计算机程序的通用计算机系统,当该计算机程序被加载和执行时,控制该计算机系统而使其执行本文中描述的方式。
本发明也可体现在计算机程序产品中,该程序产品包含使能实现本文中描述的方法的所有特征,并且当其被加载到计算机系统中时,能够执行这些方法。
尽管已参照优选实施例具体示出和说明了本发明,但是本领域内的那些技术人员应理解,可在形式和细节上对其进行各种改变而不会背离本发明的精神和范围。

Claims (9)

1.一种在自动语音识别中应用声调特征的装置,包括:
分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;
规整化模块,被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化,其中所述规整化模块使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;
随机值调整模块,被配置为根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征;以及
语音识别模块,其通过合并有声帧和无声帧的非声调特征和被赋值的声调特征来识别语音信号的内容。
2.根据权利要求1的装置,其中,所述根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化还包括:
使用于无声帧的随机值的全局分布的均值适当偏离有声帧的声调特征的全局分布的均值。
3.根据权利要求2的装置,其中,所述使用于无声帧的随机值的全局分布的均值适当偏离有声帧的声调特征的全局分布的均值包括:
使用于无声帧的随机值的全局分布的均值与有声帧的声调特征的全局分布的均值之间的差接近于有声帧的声调特征的全局分布的标准差的1.6倍。
4.根据权利要求1的装置,其中,所述根据规整化的全局分布调整用于无声帧的随机值包括:
对用于无声帧的随机值进行线性变换,以使得线性变换后的随机值的全局分布为所述规整化的全局分布。
5.根据权利要求1的装置,还包括:
帧区分模块,被配置为区分语音信号中的有声帧和无声帧;以及
声调特征提取模块,被配置为提取有声帧的声调特征。
6.根据权利要求1的装置,还包括:
特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征以及所述声调特征,以用于自动语音识别。
7.根据权利要求6的装置,其中,所述特征合并模块进一步被配置为:
合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
8.根据权利要求7的装置,其中,所述语音层级参数反映了语音信号中的周期性的强弱。
9.一种在自动语音识别中应用声调特征的方法,包括:
估计语音信号中的有声帧的声调特征的全局分布以及用于将无声帧的随机值的全局分布;
根据有声帧的声调特征的全局分布对随机值的全局分布进行规整化,其中所述规整化包括使用于无声帧的随机值的全局分布的标准差接近于有声帧的声调特征的全局分布的标准差;
根据规整化的全局分布调整随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征;以及
通过合并有声帧和无声帧的非声调特征和被赋值的声调特征来识别语音信号的内容。
CN201210090660.4A 2012-03-30 2012-03-30 在自动语音识别中应用声调特征的装置和方法 Active CN103366737B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210090660.4A CN103366737B (zh) 2012-03-30 2012-03-30 在自动语音识别中应用声调特征的装置和方法
US13/852,300 US9076436B2 (en) 2012-03-30 2013-03-28 Apparatus and method for applying pitch features in automatic speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210090660.4A CN103366737B (zh) 2012-03-30 2012-03-30 在自动语音识别中应用声调特征的装置和方法

Publications (2)

Publication Number Publication Date
CN103366737A CN103366737A (zh) 2013-10-23
CN103366737B true CN103366737B (zh) 2016-08-10

Family

ID=49236210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210090660.4A Active CN103366737B (zh) 2012-03-30 2012-03-30 在自动语音识别中应用声调特征的装置和方法

Country Status (2)

Country Link
US (1) US9076436B2 (zh)
CN (1) CN103366737B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990079B1 (en) 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
CN106791010B (zh) * 2016-11-28 2020-07-10 北京安云世纪科技有限公司 一种信息处理的方法、装置和移动终端
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
CN107492373B (zh) * 2017-10-11 2020-11-27 河南理工大学 基于特征融合的声调识别方法
CN112908309A (zh) * 2021-02-06 2021-06-04 漳州立达信光电子科技有限公司 语音识别方法、装置、设备及按摩沙发

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1343350A (zh) * 1999-11-11 2002-04-03 皇家菲利浦电子有限公司 用于语音识别的声调特性
CN1453766A (zh) * 2002-04-24 2003-11-05 株式会社东芝 声音识别方法以及声音识别装置
CN1619643A (zh) * 2003-09-04 2005-05-25 株式会社东芝 语音识别评价装置和语音识别评价方法
CN101460994A (zh) * 2006-06-02 2009-06-17 皇家飞利浦电子股份有限公司 语音区分

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357231B (en) * 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
WO2002029616A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
JP2009047831A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 特徴量抽出装置、プログラムおよび特徴量抽出方法
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
KR20110028095A (ko) * 2009-09-11 2011-03-17 삼성전자주식회사 실시간 화자 적응을 통한 음성 인식 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1343350A (zh) * 1999-11-11 2002-04-03 皇家菲利浦电子有限公司 用于语音识别的声调特性
CN1453766A (zh) * 2002-04-24 2003-11-05 株式会社东芝 声音识别方法以及声音识别装置
CN1619643A (zh) * 2003-09-04 2005-05-25 株式会社东芝 语音识别评价装置和语音识别评价方法
CN101460994A (zh) * 2006-06-02 2009-06-17 皇家飞利浦电子股份有限公司 语音区分

Also Published As

Publication number Publication date
US9076436B2 (en) 2015-07-07
CN103366737A (zh) 2013-10-23
US20130262099A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
CN109817246B (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
Thiolliere et al. A hybrid dynamic time warping-deep neural network architecture for unsupervised acoustic modeling.
CN103366737B (zh) 在自动语音识别中应用声调特征的装置和方法
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8762142B2 (en) Multi-stage speech recognition apparatus and method
CN105632501A (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
Vanhoucke Confidence scoring and rejection using multi-pass speech recognition.
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN103077708A (zh) 一种语音识别系统中拒识能力提升方法
Shahzadi et al. Speech emotion recognition using nonlinear dynamics features
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Serafini et al. An experimental review of speaker diarization methods with application to two-speaker conversational telephone speech recordings
Jin et al. Speaker verification based on single channel speech separation
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
Soni et al. Novel Subband Autoencoder Features for Detection of Spoofed Speech.
Li et al. Unsupervised domain adaptation for gender-aware PLDA mixture models
Kockmann et al. Recent progress in prosodic speaker verification
Li et al. Speaker embedding extraction with multi-feature integration structure
JP7159655B2 (ja) 感情推定システムおよびプログラム
Nagesh et al. A robust speech rate estimation based on the activation profile from the selected acoustic unit dictionary
Harbin A pitch smoothing method for Mandarin tone recognition
Wu et al. Dku-tencent submission to oriental language recognition ap18-olr challenge
Dm et al. Speech based emotion recognition using combination of features 2-D HMM model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant