CN104756182A - 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测 - Google Patents

组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测 Download PDF

Info

Publication number
CN104756182A
CN104756182A CN201380057316.8A CN201380057316A CN104756182A CN 104756182 A CN104756182 A CN 104756182A CN 201380057316 A CN201380057316 A CN 201380057316A CN 104756182 A CN104756182 A CN 104756182A
Authority
CN
China
Prior art keywords
posteriority
phoneme
sense
hearing
border
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380057316.8A
Other languages
English (en)
Other versions
CN104756182B (zh
Inventor
O.卡林利-阿克巴卡克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN104756182A publication Critical patent/CN104756182A/zh
Application granted granted Critical
Publication of CN104756182B publication Critical patent/CN104756182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

可通过从对应于所记录音频的信号提取听觉注意力特征并从所述信号提取音位后验子来从所述信号确定音位边界。随后可组合所述听觉注意力特征和音位后验子以检测所述信号中的边界。

Description

组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测
相关申请的交叉引用
本申请是关于2011年4月1日申请的颁予Ozlem Kalinli等人的共同所有且共同待决的第13/078,866号美国非临时专利申请,所述申请的标题为“使用听觉注意力线索的语音音节/元音/音素边界检测(SPEECHSYLLABLE/VOWEL/PHONE BOUNDARY DETECTION USING AUDITORYATTENTION CUES)”且整个公开内容以引用方式并入本文。
背景技术
将连续的语音分段成多个片段有益于许多应用,包含语音分析、自动语音识别(ASR)和语音合成。然而,举例来说,手动确定音位标音和分段需要专门的知识,且对于大数据库来说此过程是费力的且昂贵的。因此,过去提出许多自动分段和标记方法来解决此问题。
提出的方法包括:[1]S,Dusan和L.Rabiner,“最大频谱转变位置与音素边界之间的关系(On the relation between maximum spectral transition positionsand phone boundaries)”,ICSLP会议,2006(下文称为“参考文献[1]”);[2]v.Qiao、N,Shimomura和N,Minematsu,“无人监督最佳音位分段:目标、算法和比较(Unsupervised optimal phoneme segmentation:objectives,algorithm andcomparisons)”,lCASSP会议,2008(下文称为“参考文献[2]”);[3]F.Brugnara、D,Falavigna和M,Omologo,“基于隐式马尔可夫模型的自动语音分段和标记(Automatic segmentation and labeling of speech based on hidden markovmodels)”,语音通信(Speech Communication),1993年第12卷第4号357-370页(下文称为“参考文献[3]”);[4]A.Sethy和S,S,Narayanan,“用于串联语音合成的精炼语音分段(Refined speech segmentation for concatenative speechsynthesis)”,ICSLP会议,2002(下文称为“参考文献[4]”);以及[5]v.Estevan、V,Wan和0,Scharenborg,“找到语音中的最大裕度片段(Finding maximummargin segments in speech)”,ICASSP会议,2007(下文称为“参考文献[5]”)。
这些提出的方法对应于在Ozlem Kalinli在INTERSPEECH 2012(国际语音通信协会第13次年会,美国俄勒冈州波特兰市,2012年9月9-13日)上的标题为“使用听觉注意力特征的自动音位分段(Automatic Phoneme SegmentationUsing Auditory Attention Features)”的音位分段论文中引用的参考文献[1,2,3,4,5],所述论文以引用方式并入本文。
第一组提出的分段方法需要标音,而标音并不总是可用。当标音不可用时,可考虑使用用于分段的音位识别器。然而,例如HMM等语音识别技术无法准确地安置音位边界,因为这些技术针对音位序列的正确识别经过优化。参见参考文献[4]。第二组方法不需要对音位的标音或声学模型的任何事先了解。但是,它们的性能通常有限。
本公开的方面是在此背景下出现的。
附图说明
图1A是说明根据本发明的实施方案的用于语音中的音节/元音/音素边界检测的方法的流程图。
图1B到图1F是说明可在本发明的实施方案中使用的频谱-时间接受滤波器的实施例的示意图。
图2A是说明根据本公开的方面的组合听觉注意力特征与音位后验子以用于边界检测的方法的流程图。
图2B是说明根据本公开的方面的组合听觉注意力特征与音位后验子以用于边界检测的另一方法的流程图。
图3是说明根据本发明的实施方案的用于语音中的音节/元音/音素边界检测的设备的框图。
图4是说明根据本发明的实施方案的用于语音中的音节/元音/音素边界检测的设备的胞元处理器实现方式的实施例的框图。
具体实施方式
虽然以下详细描述为了说明的目的而含有许多具体细节,但本领域的任何技术人员将了解,对以下细节的许多变化和更改在本发明的范围内。因此,陈述下文描述的本发明的示例性实施方案,而不会有所要求本发明的任何一般性损失且不会对所要求本发明强加限制。
介绍
已经提出使用听觉注意力特征的边界检测方法。为了进一步改善边界准确性,可将音位后验子与听觉注意力特征组合。通过训练一个模型(例如深度神经网络)获得音位后验子,所述模型在给定声学特征(mfcc、梅尔滤波器组等等)的情况下估计音位类后验得分。已知通常在边界附近这些模型的音位分类准确性下降,因为后验子往往变得彼此混淆,即在音位片段的边界处典型地不存在清晰的获胜类,而在音位片段的中间,获胜者(例如,后验得分的最大值)是明确的。这实际上是对于边界检测非常有用的信息。所提出的是通过组合音位后验子与听觉注意力特征,可进一步改善边界检测性能。当前帧的音位后验子可用于此目的。另外,相邻帧“后验子”也可通过使用上下文信息进一步帮助改善性能。
在本公开中,提出一种新颖的分段方法,它组合听觉注意力特征与音位后验子。所述算法不需要标音,且可准确地执行分段。
仅使用听觉注意力特征的边界检测方法已在2011年4月1日申请的第13/078,866号美国专利申请中描述,所述美国专利申请的整个内容以引用方式并入本文。为了进一步改善边界准确性,可将音位后验子与听觉注意力特征组合。通过训练一个模型(例如深度神经网络)可获得音位后验子,所述模型在给定声学特征(mfcc、梅尔(mel)滤波器组等等)的情况下估计音位类后验得分。已知通常在边界附近这些模型音位分类准确性下降,因为后验子变得更容易彼此混淆。举例来说,当音位后验子在边界附近时不存在清晰的获胜类,而在音位片段的中间,获胜者(例如,后验得分的最大值)是明确的。这实际上是对于边界检测非常有用的信息。因此,此处所提出的是通过组合音位后验子与听觉注意力特征,可进一步改善边界检测性能。当前帧的音位后验子可用于此目的。另外,相邻帧“后验子”也可通过使用上下文信息进一步帮助改善性能。
论述
在本公开的方面中,可分析对应于所记录音频的信号以确定边界,例如音位边界。可通过从信号提取听觉注意力特征并从信号提取音位后验子来实施这种边界检测。随后可组合听觉注意力特征和音位后验子以检测信号中的边界。可如下概括本公开的细节:首先描述听觉注意力特征提取。随后描述音素后验子提取。随后论述用于组合听觉注意力特征和音位后验子以用于边界检测的两种提出的方法。
在本公开中,提出一种使用听觉注意力线索用于语音的音位分段的新颖方法。在不限于任何操作理论的情况下,所提出方法的动机如下。在语音频谱中,通常可见在音位边界附近、尤其在元音附近的边缘和局部不连续,因为它们展现高能量和清晰的共振峰结构。举例来说,在上文提到的论文“使用听觉注意力特征的自动音位分段”的图1中,示出了被标音为“his captain was”的语音片段的频谱以及近似音位边界。在频谱中,视觉上可观察到这些边界中的一些对应于例如元音ih、ae、ix等的边界的音位边界。因此,相信通过检测听觉频谱中的相关定向边缘和不连续,即,就像在视觉上完成那样,可定位语音中的音位片段和/或边界。
提取听觉注意力特征
通过模仿人类听觉系统中的处理阶段,可以在生物学上激发和提取听觉注意力线索。基于中央听觉系统中的处理阶段使用2D频谱-时间滤波器从声音频谱提取一组多尺度特征,并将所述特征转换为低等级听觉要点特征。与文献中的先前工作不同,听觉注意力模型像图像一样分析2D声音频谱,以检测边缘以及局部的时间和频谱不连续。因此,所述模型成功地检测语音中的边界。
在听觉注意力模型中,可将听觉频谱视为类似于视觉上的场景的图像,且使用2D频谱-时间接受滤波器在多个尺度中从频谱提取对比特征。可将所提取的特征调谐到不同的局部定向边缘:例如,可将频率对比特征调谐到局部水平定向边缘,所述局部水平定向边缘对于检测且捕获共振峰和共振峰变化来说是较好的。接着,可获得低等级听觉要点特征,且可使用神经网络来发现相关定向边缘并学习所述要点特征与音位边界之间的映射。
从输入语音信号提取听觉注意力线索可如下进行。可基于早期听觉系统模型或快速傅立叶变换(FFT)计算第一频谱。随后可基于中央听觉系统提取多尺度特征。随后可计算中央-周围差异,且可比较精细尺度和较粗糙的尺度。通过将每一特征图划分为m乘n网格,并计算网格的每一子区的平均值,可计算听觉要点特征。随后可例如使用主分量分析(PCA)和/或离散余弦变换(DCT)来减少听觉要点特征的维度和冗余。维度减少和冗余减少产生了在此称为听觉要点的最终特征。
第13/078,866号美国专利申请中描述了听觉特征提取的细节。图1A中示出注意力模型的框图和特征提取的流程图。图1A中的流程图说明根据本公开的方面的使用听觉注意力线索在语音中的音节/元音/音素边界检测的方法。在生物学上激发听觉注意力模型,且所述模型模仿人类听觉系统中的处理阶段。所述模型经过设计以确定何时以及在何处声音信号吸引人的注意力。
起初接收声音输入窗101。举例来说且不作为限制,可使用麦克风,在某个有限持续时间的时间窗中捕获此声音输入窗101,所述麦克风用来将表征特定声音输入窗101的声波转换为电信号以用于进一步处理。声音输入窗101可为人的语音的任何片段。举例来说且不作为限制,声音输入窗101可含有单个音节、单词、句子或这些的任意组合。
随后使声音输入窗101通过一组处理阶段103,所述处理阶段操作以将此声音窗101转换为音频频谱105。这些处理阶段103可以基于例如人类听觉系统等听觉系统的早期处理阶段。举例来说且不作为限制,处理阶段103可由模仿听觉系统中从基膜到耳蜗核的过程的耳蜗滤波、内毛细胞和侧向抑制阶段组成。可使用一组128个重叠的常数Q不对称带通滤波器实施耳蜗滤波,所述滤波器具有沿着对数频率轴均匀分布的中心频率。通过可为特定目的建构的经合适配置的电子硬件可以实施这些滤波器。或者,可以在用实施所述滤波器的功能的软件编程的通用计算机上实施所述滤波器。为了分析,可使用具有10ms移位的音频的20ms帧,这导致每一音频帧由128维向量表示。
一旦声音输入窗101已经转换为听觉频谱105,便通过模仿中央听觉系统中的信息处理阶段,如107处指示提取多尺度特征117来分析频谱105。可通过广泛多种声学特征来捕获听觉注意力或将听觉注意力自愿地引导到广泛多种声学特征,所述声学特征例如为强度(或能量)、频率、时间、音高、音品、FM方向或斜率(此处称为“定向”)等等。可以选择和实施这些特征以模仿主听觉皮层中的接受场。
举例来说且不作为限制,在模型中可包含以涵盖上述特征的四个特征是:强度(I)、频率对比(F)、时间对比(T),和定向(Oθ),其中θ={45°,135°}。强度特征捕获与信号的强度或能量相关的信号特性。频率对比特征捕获与信号的频谱(频率)改变相关的信号特性。时间对比特征捕获与信号中的时间改变相关的信号特性。定向滤波器对信号中的移动纹波敏感。
可使用二维频谱-时间接受滤波器109、111、113、115来提取每一特征,所述滤波器模仿主听觉皮层中的某些接受场。图1B到图1F分别说明接受滤波器(RF)109、111、113、115的实施例。以对应于正提取的特征的灰阶图像来说明针对特征提取模拟的接受滤波器(RF)109、111、113、115中的每一者。分别以白色和黑色示出激励阶段110和抑制阶段112。
这些滤波器109、111、113、115中的每一者能够检测和捕获信号特性的某些改变。举例来说,图1B中说明的强度滤波器109可经配置以模仿听觉皮层中仅具有对于特定区为选择性的激励阶段的接受场,使得所述强度滤波器在声音输入窗的持续时间中检测和捕获强度/能量的改变。类似地,图1C中描绘的频率对比滤波器111可经配置以对应于主听觉皮层中具有激励阶段和同时的对称抑制边带的接受场。图1D中说明的时间对比滤波器113可经配置以对应于具有抑制阶段和后续激励阶段的接受场。
可以认为听觉频谱类似于在视觉上的场景的图像,且将这些特征中的一些特征调谐到不同的局部定向边缘;即,将频率对比特征调谐到局部水平定向边缘,所述局部水平定向边缘对于检测且捕获共振峰和共振峰变化可能是较好的。换句话说,图1C所示的频率对比滤波器111在声音窗的持续时间中检测和捕获频谱改变。图1D中所示的时间对比滤波器113检测和捕获时间域中的改变。定向滤波器115'和115”模仿对移动纹波的听觉神经元响应的动态。可用如图1E所示的具有45°定向的激励和抑制阶段来配置定向滤波器115'以检测和捕获纹波何时向上移动。类似地,可用如图1F所示的具有135°定向的激励和抑制阶段来配置定向滤波器115″以检测和捕获纹波何时向下移动。一个重要点在于,在模型中,计算特征对比而不是绝对特征强度,这对于改变点/边界检测和分段是至关重要的。
可使用具有变化角度的二维Gabor滤波器来实施用于产生频率对比111、时间对比113和定向特征115的RF。用于频率和时间对比特征的滤波器可分别解释为水平和垂直定向滤波器,且可用具有0°和90°定向的二维Gabor滤波器来实施。类似地,可使用具有{45°,135°}定向的二维Gabor滤波器来提取定向特征。使用二维高斯内核来实施用于产生强度特征109的RF。
使用多尺度平台来完成特征提取107。产生给定数据集合的尺度空间表示的动机源自于对象由处于不同尺度的不同结构组成的基本观测。对于分析未知数据集合的系统,没有方法先验地知道什么尺度对于描述与数据相关联的所关注结构是适当的。因此仅有的合理方法是考虑处于多个尺度的描述以便捕获可能发生的未知尺度变化。在本发明的实施方案中,可使用二元金字塔来获得多尺度特征117(即,以因数二对输入频谱进行滤波和抽选,并重复此过程)。因此,产生八个尺度(如果窗持续时间大于1.28秒就是这样,否则存在较少的尺度),从而产生范围从1:1(尺度1)到1:128(尺度8)的大小减少因数。
在获得多尺度特征117之后,如119处指示使用那些多尺度特征117产生特征图121。这是通过计算“中心-周围”差来实现,所述“中心-周围”差涉及将“中心”(精细)尺度与“周围”(较粗糙)尺度进行比较。中心-周围操作模仿局部皮层抑制的性质且检测局部时间和空间不连续。此模拟是通过在“中心”精细尺度(c)与“周围”较粗糙尺度(s)之间的交叉尺度减法(θ),从而产生特征图Μ(c,s):M(c,s)=|M(c)θM(s)|,M∈{I,F,T,Oθ}。通过内插到较精细尺度和逐点减法来计算两个尺度之间的交叉尺度减法。举例来说且不作为限制,可使用c={2,3,4},s=c+δ,其中δ∈{3,4},这导致当在八个尺度下提取特征时的总共30个特征图。
接着,如123处指示可从I,F,T,Oθ的每一特征图121提取“听觉要点”向量125,使得听觉要点向量125的总和在低分辨率下覆盖整个输入声音窗101。为了针对给定特征图121确定听觉要点向量125,首先将特征图121划分为m乘n子区网格,且可计算每一子区的统计数据,例如最大值、最小值、平均值、标准偏差等等。举例来说且不作为限制,可计算每一子区的平均值以捕获图的总体性质。对于具有高度h和宽度w的特征图Mi,听觉要点向量的计算可写为:
其中
k={0,…,n-1},l={0,…,m-1}。
图1中示出m=4、n=5的听觉要点向量提取123的实施例,其中可使用20维听觉要点向量来表示特征图。m和n的这些特定值是为了举例的目的而提供,且不作为对本发明的任何实施方案的限制。
在从每一特征图121提取听觉要点向量125之后,可增强且组合听觉要点向量以产生累积要点向量。累积要点向量可随后经历维度减少127以减少维度和冗余,以便使音节/元音/音素边界检测更实际。举例来说且不作为限制,可以对维度减少127使用主分量分析(PCA)。维度减少127的结果是最终特征,在此称为听觉要点特征129,所述听觉要点特征传达累积要点向量在较少维度中的信息。PCA常用作模式识别中的主要技术。如通常了解,PCA在数学上定义为一个正交线性变换,它将数据变换到一个新坐标系,使得通过数据的任何投影的最大方差位于第一坐标(称为第一主分量)上,第二最大方差位于第二坐标上,等等。PCA可在用合适配置的软件编程的计算机上实施。可通过PCA实施维度减少的市售软件的实施例包含美国马萨诸塞州内蒂克市MathWorks公司的Matlab,或新西兰Waikato大学开发的Weka机器学习软件。或者,可使用例如因数分析、内核PCA、线性判别分析(LDA)等等其它线性和非线性维度减少技术来实施维度减少129。
在已确定表征输入声音窗101的听觉要点特征127'之后,可从听觉要点特征和音素后验子检测音素边界、元音边界、音节核或音节边界。为了对给定输入声音窗执行此检测,可使用例如神经网络、最近相邻者分类器、决策树等等机器学习算法131来分类边界,例如音素边界、元音边界、音节核或音节边界。举例来说且不作为限制,可使用神经网络作为机器学习算法131,因为神经网络以生物学方式受良好激发。在此情况下,神经网络131可在给定输入声音所关联的累积要点向量的情况下识别输入声音内的音素边界、元音边界、音节核或音节边界。
如本文使用,术语“神经网络”指代自然或人工神经元的互连群组,它使用基于连通计算方法的信息处理的计算/数学模型。神经网络是基于流过所述网络的外部或内部信息而改变结构的自适应系统。它们用来实施非线性统计数据建模,且可用来对输入与输出之间的复杂关系进行建模。
可以两种方式使用神经网络输出估计:i)硬决策,ii)软决策。在硬决策中,神经网络的最终决策用作二进制决策;例如,如果在一帧处存在边界,那么神经网络输出一,否则输出零。在软决策中,作为[0,1]之间的值的神经网络概率得分可用作在给定注意力特征的情况下当前帧是边界的后验概率。而且,在软决策中,可将估计后验概率馈送到另一系统中且与来自另一源的信息组合以进一步改善任一系统的性能。举例来说,可使用边界信息来改善语音识别性能,或可使用来自语音识别引擎的补充信息来进一步改善边界检测性能等等。另外,本发明的某些实施方案还可任选地提供关于片段中的音节数目的信息;例如,每秒或每话语的音节数目,这可用于估计说话速率。随后,可使用估计说话速率来改善其它口头语言处理应用,例如,通过基于语音速率选择适当声学模型或找到语音的情感片段等等来改善语音识别性能。
音节/音素/元音边界信息可单独使用或用来改善例如语音识别等其它口头语言处理系统。而且,可以将音素/元音/音节边界视为阶层式系统。还可使用来自一类边界的信息改善另一类边界;即,可使用元音边界信息改善音素或音节边界检测。而且,本发明的实施方案可用于分析所有类型的语音以及说话风格和噪声条件;即,隔离语音、连续语音、自发语音、阅读语音、无噪声/有噪声语音等等。
音素后验子:
音素后验子的提取类似于音素识别器。基本上,从语音提取声学特征,并训练模型或音素模型来学习特征和音素之间的映射。
举例来说且不作为限制,可如下每个帧提取音素后验子。首先可针对每一语音帧提取用于音素分类的声学特征。可使用移位窗处理语音;例如,可每10毫秒(ms)提取声学特征。特征可以是MFCC、梅尔滤波器组特征、PLP、听觉注意力特征、节律特征等等,或它们的组合。为了捕获上下文,可增强多个帧的特征以形成较大维度的特征向量。典型地,帧数目可从大约9帧到25帧变化。随后,可使用机器学习算法来学习特征与音素类之间的映射;举例来说,神经网络、svn、HMM、DBN(深度信念网络)属于用于音素分类或识别的此类工具。
举例来说且不作为限制,可使用J.Lee和S.-Y.Lee在Interpseech 2011的“用于改进的音素识别的语音特征的深度学习(Deep Learning of SpeechFeatures for Improved Phonetic Recognition)”中描述的现有技术音素分类器来获得音素后验子。
作为数值实施例,可以使用25ms分析窗与10ms移位来提取26个频带对数梅尔频谱特征。可以增强对应于210ms的时间上下文的21个连续帧以产生一个546维特征向量。在馈送到DBN中之前可对特征进行平均值以及方差正规化。
举例来说,DBN可具有:具有线性单元的一个输入层(取546个输入),具有1000个二进制单元的3个隐藏层,以及具有正常对数单元的一个输出层。在实验中,使用原始61个TIMIT音素类。然而,由于子音位表示改进了建模,因此也可使用用于音位的子音位表示。假定每一音位具有3个时间状态,因此DBN的输出层具有61×3=183个输出。
为了训练DBN,可使用TIMIT训练数据集合。为了获得子音位标记,首先执行均匀分段。在网络收敛之后,通过维特比强制对准来完成状态的重新对准。所述算法的特征在于以无监督方式(预训练)逐层初始化的简单生成模型层,之后是使用有监督技术的整层的判别再训练。从下部层到上部层预训练每一层是使用基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的无监督学习算法来完成,且最终有监督训练可使用众所周知的为了最终分类而精细调谐网络的误差向后传播算法来完成。重复训练直到模型参数收敛,换句话说,直到验证集合中的误差开始增加。结构化的DBN以及训练过程的更多细节可以参见Lee等人的论文(上文引用)。
一旦DBN模型经过训练,便可用于提取音素类后验子。为此,再次从声音提取对数梅尔特征。随后可针对每一帧增强来自21个帧的特征,并将这些特征馈送到DBN中。在DBN的输出端处,获得每一状态(子音位)的后验子得分。为了获得每一帧的音位后验子得分,对每一音位的3个状态的概率进行简单平均化。
组合听觉注意力特征与音素后验子以用于边界检测
图2A中图示了组合听觉注意力特征与音素后验子以用于边界检测的一种方法200a。在此处称为“早期融合”的此技术中,可从声音信号并行地提取听觉注意力(AA)特征232和音素后验子(PP)234,例如如上文所描述。可增强AA特征和音素后验子并将其发送到机器学习算法238,例如三层神经网络(NN),以用于边界估计。
举例来说,对于音素边界检测试验,可使用TIMIT核心测试集合(192句)进行测试,且将其余官方测试集合用作开发数据。对于开发数据,首先可使用AA模型提取听觉注意力特征。并行地,针对从可能使用TIMIT训练集合训练的经训练DBN模型传递对数梅尔特征的每一帧提取61个音位后验子。随后,针对每一帧将音位后验子得分正规化以求和为1。
使用三层神经网络238进行音素边界分类,其中神经网络具有D个输入(D=DAA+DPP,AA特征的维度加音素后验子的维度)、(N+D)/2个隐藏单元,以及N=2个输出单元(边界对非边界)。此处当来自一个单个帧的音素后验子结合上文描述的DBN使用时,则DPP=61,因为存在从DBN取得的61个音素后验子。还可使用上下文来同样从音素后验子追踪音素边界。举例来说,可以指派具有最高后验子得分的音素作为用于所述帧的音素类。类似地,可针对先前或后续帧执行音素分类。随后,如果音素索引从一个帧到另一帧改变,那么这指示边界的存在。当使用上下文时,还可增强相邻的左和/或右帧的音位后验子,这将导致较大的特征向量。举例来说,如果使用三个上下文帧(包含当前帧以及相邻的左和右帧),那么将61×3=183个音素后验子馈送到NN,其中DPP=183。甚至可以将用于当前帧和相邻帧的估计音位索引馈送到NN中以用于边界检测。举例来说,在某些实验中,已经使用单个帧、三个上下文帧以及五个上下文帧。
在图2B中描绘的替代实现方式200b中,两个边界分类器238a-b可分别使用1)听觉注意力特征238a和2)音素后验子238b来训练。这些分类器的输出是边界后验子;例如,二维特征,其中第一维表示作为边界的概率,且第二维是作为非边界的概率。在使用来自两个不同分类器的这些边界后验子的校准阶段239期间,可使用找到能得到最佳性能的权重的回归(即,使用对数线性回归)或者以数据驱动方式(例如,使用机器学习算法或类似算法)来使性能最大化。同样可使用上下文,例如,在校准阶段期间还可包含相邻帧边界概率。
实验
对于TIMIT上的音素边界检测已经进行实验。然而,以上想法也可用于检测语音中的元音边界和其它边界,例如元音的末尾、音节核、音节核的中间或末尾,或音节的末尾。
神经网络返回所述帧作为边界的概率。随后,可使用软决策,使得使用神经网络概率得分来产生随着时间而变的一维曲线。随后可对所述曲线执行峰搜索以定位局部最大值,所述最大值在高于阈值的情况下将被作为检测到的边界而计数。与其它方法中的做法一样,在需要时容许音位边界周围有20ms误差。可按照将使用边界信息的下一应用程序的需要来选择阈值。举例来说,降低阈值将增加重新调用速率(或检测较多边界)同时降低精度(可能存在较多错误警报),而增加阈值将增加精度且减少重新调用。此处,对于表I中的结果简单地选择0.5阈值以避免参数调谐。
下文示出通过不同方法获得的结果的比较。在表I中,“Dusan等人”和“Quiao等人”的提法是指代上文提到的参考文献[1]和参考文献[2]描述的先前方法。DBN帧等级音素分类以及DBN加用于音素识别的维特比解码是直接使用DBN提取的两种音位边界检测基线。在DBN帧等级音素分类中,每当音素类从一帧到后续帧改变时,对检测到的边界进行标记。当通过使音位后验子得分通过维特比解码器来采用音素识别时,对应于话语的音位串连同它们的估计音位边界一起返回。在表I中,还示出了通过组合听觉注意力(AA)特征和音素后验子(PP)与x帧后验子(AA+PP_xf)而实现的音位边界检测结果,其中x表示帧数目。以下表I中示出了结果。
表I
使用早期融合的TIMIT上的片段等级音素边界检测结果。
方法 重新调用 精度 F-得分
Dusan等人[1] 75.2 72.73 73.94
Quiao等人[2] 77.5 78.76 78.13
DBN帧音素类 92.71 66.01 77.11
DBN+维特比音素解码器 71.82 76.61 74.14
AA特征 80.59 80.05 81.31
AA+PP_1f 82.52 92.50 87.23
AA+PP_3f 89.16 87.71 88.43
如从以上表I可见,组合听觉注意力与音位后验子得分通过提供30%以上的相对改进而改善了总体F得分并胜过基线和先前报告的数字。
根据本公开的方面组合听觉注意力与音位后验子可有利地用于各种语音识别(VR)应用。举例来说,此技术可用以改善音位识别速率并改善自动语音识别(VR)的稳健性。本公开的方面还可用以改善VR的置信度量度。
本公开的方面的具体应用包含通过哼唱或仅单个元音语音执行的歌声或语音搜索。本公开的方面还可用于语音合成。本公开的方面还可用以估计说话速率,估计唱歌的节拍,改善语音记分(比唱歌记分更常用)。
本发明的实施方案可在经合适配置的计算机设备上实施。图3图示了根据本发明的实施方案可用以实施使用与音位后验子组合的听觉注意力线索的音素/音节/元音边界检测方法的计算机设备的框图。设备300一般可包含处理器模块301和存储器305。处理器模块301可包含一个或多个处理器核。使用多个处理器模块的处理系统的实施例是胞元处理器(cell processor),它的实施例例如在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf在线可以获得并以引用方式并入本文的“胞元宽带引擎架构”中详细描述。
存储器305可以呈集成电路的形式,例如RAM、DRAM、ROM和类似形式。存储器305还可为可由所有处理器模块存取的主存储器。在一些实施方案中,处理器模块301可具有与每一核相关联的局部存储器。程序303可以用可在处理器模块上执行的处理器可读指令的形式存储在主存储器305中。程序303可经配置以使用与音位后验子组合的听觉注意力线索对声音窗执行边界检测。程序303可以用任何合适的处理器可读语言(例如,C、C++、JAVA、汇编、MATLAB、FORTRAN)以及许多其它语言来编写。输入数据307也可存储在存储器中。此输入数据337可包含声音、特征图或听觉要点向量的输入窗。在程序303执行期间,可将程序代码和/或数据的一些部分加载到存储器或处理器核的局部存储装置中以用于由多个处理器核并行处理。
设备300还可包含众所周知的支持功能309,例如输入/输出(I/O)元件311、电源(P/S)313、时钟(CLK)315以及高速缓冲存储器317。设备300可任选地包含用于存储程序和/或数据的大容量存储装置319,例如磁盘驱动器、CD-ROM驱动器、磁带驱动器或类似物。装置300可任选地包含显示器单元321、音频扬声器单元322以及用户接口单元325,以便于设备与用户之间的交互。显示器单元321可采用显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口325可包含可以结合图形用户接口(GUI)使用的键盘、鼠标、操纵杆、光笔或其它装置。设备300还可包含网络接口323,用以使装置能够经由例如因特网等网络与其它装置通信。
在一些实施方案中,系统300可包含任选的麦克风329,所述麦克风可为单个麦克风或麦克风阵列。麦克风329可经由I/O元件311耦接到处理器301。举例来说且不作为限制,可使用麦克风329记录不同的声音输入窗。
系统300的组件,包含处理器301、存储器305、支持功能309、大容量存储装置319、用户接口325、网络接口323以及显示器321,可以用可操作方式经由一个或多个数据总线327彼此连接。这些组件可以用硬件、软件或固件或者这些当中的两者或两者以上的某种组合来实施。
存在许多额外方法来使设备中的多个处理器的并行处理成流线型。举例来说,例如通过在两个或两个以上处理器核上复制代码并使每一处理器核实施所述代码以处理不同的一条数据,可以“解开”处理循环。此实现方式可避免与设置所述循环相关联的等待时间。如应用于本发明的实施方案,多个处理器可并行地从输入声音窗提取不同特征。强度提取滤波器、频率对比提取滤波器、时间对比提取滤波器以及定向提取滤波器可全部同时处理听觉频谱,从而在实施于不同处理器元件上的情况下并行地有效得多地产生对应多尺度特征。此外,还可以并行地产生特征图以及它们对应的听觉要点向量。由于能并行处理数据,节省了宝贵的处理时间,从而得到用于语音中的音素/音节/元音边界检测的更有效且流线化的系统。
具体来说能够实施并行处理的处理系统的一个实施例称为胞元处理器。存在可以分类为胞元处理器的许多不同处理器架构。举例来说且不作为限制,图4图示了一类胞元处理器。胞元处理器400包含主存储器401、单个功率处理器元件(PPE)407以及八个协处理器元件(SPE)411。或者,胞元处理器可以配置有任何数目个SPE。相对于图4,存储器401、PPE 407和SPE 411可以经由环式元件互连总线417彼此通信且与I/O装置415通信。存储器401含有与上文描述的输入数据具有共同特征的输入数据403,以及与上文描述的程序具有共同特征的程序405。SPE 411中的至少一者在它的局部存储装置(LS)中可包含音节/元音边界检测指令413和/或例如如上文所述将并行处理的输入数据的一部分。PPE 407在它的L1高速缓冲存储器中可包含与上文描述的程序具有共同特征的音节/元音边界检测指令409。指令405和数据403也可存储在存储器401中,用于在需要时由SPE 411和PPE 407存取。
举例来说且不作为限制,不同的SPE 411可实施多尺度特征的提取。具体来说,不同的SPE 411可分别专用于从频谱并行提取强度(I)、频率对比(F)、时间对比(T)以及定向(Oθ)特征。类似地,不同的SPE 411可分别实施针对强度(I)、频率对比(F)、时间对比(T)以及定向(Oθ)特征的特征图产生或听觉要点向量提取。
举例来说,PPE 407可为具有相关联高速缓冲存储器的64位PowerPC处理器单元(PPU)。PPE 407可包含任选的向量多媒体扩展单元。每一SPE 411包含协处理器单元(SPU)和局部存储装置(LS)。在一些实现方式中,局部存储装置可具有例如用于程序和数据的大约256千字节存储器的容量。SPU是复杂性低于PPU的计算单元,因为它们通常不执行系统管理功能。SPU可具有单指令多数据(SIMD)能力,且通常处理数据和起始任何所需的数据传送(经受由PPE设置的存取性质)以便执行SPU的被分配的任务。SPE 411允许系统实施需要较高计算单元密度且可有效地使用所提供指令集的应用程序。通过PPE 407管理大量的SPE 411允许广泛多种应用中的具成本效益的处理。举例来说,胞元处理器的特征可以在于称为胞元宽带引擎架构(CBEA)的架构。在符合CBEA的架构中,多个PPE可组合为PPE群组,且多个SPE可组合为SPE群组。为了实施例的目的,将胞元处理器描绘为具有仅有单个SPE和单个PPE的单个SPE群组和单个PPE群组。或者,胞元处理器可包含多个功率处理器元件群组(PPE群组)和多个协处理器元件群组(SPE群组)。符合CBEA的处理器例如在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdf在线可以获得且以引用方式并入本文的“胞元宽带引擎架构”中详细描述。
虽然上文是本发明的优选实施方案的完整描述,但也可能使用各种替代方案、修改和等效物。因此,本发明的范围不应当参考以上描述来确定,而是应当参考所附权利要求书及其完整等效物范围来确定。在此描述的无论是优选还是不优选的任何特征都可与在此描述的无论是优选还是不优选的任何其它特征组合。在所附的权利要求书中,不定冠词“一”指代跟随所述冠词的项目有一个或多个的量,以另外方式明确陈述的情况除外。所附权利要求书不应解释为包含装置加功能限制,除非在使用短语“用于...的装置”的给定权利要求中明确陈述这种限制。

Claims (16)

1.一种用于处理音频信号的输入窗的方法,所述输入窗具有多个帧,所述方法包括:
从所述输入窗的所述帧中的每一者提取听觉注意力特征;
从所述输入窗的所述帧中的每一者提取音素后验子;
使用机器学习从所述听觉注意力特征和所述音素后验子的组合产生组合边界后验子;以及
从所述组合边界后验子估计所述音频信号中含有的语音中的边界。
2.如权利要求1所述的方法,其中所述产生组合边界后验子包括:
将所述听觉注意力特征和所述音素后验子都馈送到边界分类器的机器学习算法中以输出所述组合边界后验子。
3.如权利要求1所述的方法,其中所述产生组合边界后验子包括:
将所述听觉注意力特征馈送到第一边界分类器的机器学习算法中以输出第一边界后验子集合;
将所述音素后验子馈送到第二边界分类器的机器学习算法中以输出第二边界后验子集合;
校准所述第一边界后验子集合和所述第二边界后验子集合以确定用于所述第一边界后验子集合和第二边界后验子集合的相对权重;以及
将所述相对权重指派给所述第一边界后验子集合和所述第二边界后验子集合以输出所述组合边界后验子。
4.如权利要求1所述的方法,其中所述提取音素后验子包括:
从所述输入窗的所述帧中的每一者提取声学特征;以及
将所述声学特征馈送到音素分类器的机器学习算法中以输出所述音素后验子。
5.如权利要求1所述的方法,其中所述提取听觉注意力特征包括:
确定所述输入窗的听觉频谱;
从所述听觉频谱提取一个或多个多尺度特征,其中每一多尺度特征是使用单独的二维频谱-时间接受滤波器来提取;
产生对应于所述一个或多个多尺度特征的一个或多个特征图;
从所述一个或多个特征图中的每一者提取听觉要点向量;
通过从所述一个或多个特征图提取的每一听觉要点向量的增强而获得累积要点向量;以及
从所述累积要点向量产生所述听觉注意力特征。
6.如权利要求2所述的方法,其中所述边界分类器的所述机器学习算法是三层神经网络。
7.如权利要求3所述的方法,其中所述第一边界分类器的所述机器学习算法是三层神经网络,且所述第二边界分类器的所述机器学习算法是三层神经网络。
8.如权利要求4所述的方法,其中所述音素分类器的所述机器学习算法是深度信念网络。
9.如权利要求4所述的方法,其中所述声学特征是对数梅尔频谱特征。
10.如权利要求1所述的方法,还包括通过在对应于所述输入窗的时间片段中用处理器对所述音频信号进行数字取样来产生所述音频信号的所述输入窗。
11.如权利要求3所述的方法,其中所述校准包含使用回归确定所述相对权重。
12.如权利要求3所述的方法,其中所述校准包含使用机器学习确定所述相对权重。
13.如权利要求1所述的方法,其中所述估计边界是音节边界、元音边界、音位边界或其组合。
14.一种用于语音识别中的边界检测的设备,包括:
处理器;
存储器;以及
实施于所述存储器中且可由所述处理器执行的计算机编码指令,其中所述计算机编码指令经配置以实施用于处理音频信号的输入窗的方法,所述方法包括:
从所述信号的帧中的每一者提取一个或多个听觉注意力特征;
从所述信号的所述帧中的每一者提取一个或多个音素后验子;
使用机器学习从所述听觉注意力特征和所述音素后验子的组合产生一个或多个组合边界后验子;以及
从所述组合边界后验子估计所述音频信号中含有的语音中的一个或多个边界。
15.如权利要求14所述的设备,还包括耦接到所述处理器的麦克风,所述方法还包括用所述麦克风检测所述音频信号。
16.一种具有实施于其中的程序指令的非暂时性计算机可读媒体,其中所述程序指令由计算机系统的处理器执行使所述处理器执行用于处理音频信号的输入窗的方法,所述方法包括:
从所述信号的帧中的每一者提取一个或多个听觉注意力特征;
从所述信号的所述帧中的每一者提取一个或多个音素后验子;
使用机器学习从所述听觉注意力特征和所述音素后验子的组合产生一个或多个组合边界后验子;以及
从所述组合边界后验子估计所述音频信号中含有的语音中的一个或多个边界。
CN201380057316.8A 2012-11-29 2013-11-21 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测 Active CN104756182B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261731403P 2012-11-29 2012-11-29
US61/731,403 2012-11-29
US13/901,426 2013-05-23
US13/901,426 US9672811B2 (en) 2012-11-29 2013-05-23 Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
PCT/US2013/071337 WO2014085204A1 (en) 2012-11-29 2013-11-21 Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Publications (2)

Publication Number Publication Date
CN104756182A true CN104756182A (zh) 2015-07-01
CN104756182B CN104756182B (zh) 2018-05-11

Family

ID=50774012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380057316.8A Active CN104756182B (zh) 2012-11-29 2013-11-21 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测

Country Status (5)

Country Link
US (3) US9672811B2 (zh)
EP (1) EP2926335B8 (zh)
JP (1) JP6189970B2 (zh)
CN (1) CN104756182B (zh)
WO (1) WO2014085204A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077860A (zh) * 2014-10-21 2017-08-18 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN107680584A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
CN108447495A (zh) * 2018-03-28 2018-08-24 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108542404A (zh) * 2018-03-16 2018-09-18 成都虚实梦境科技有限责任公司 注意力评估方法、装置、vr设备及可读存储介质
CN109074517A (zh) * 2016-03-18 2018-12-21 谷歌有限责任公司 全局归一化神经网络
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110827857A (zh) * 2019-11-28 2020-02-21 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
WO2023093295A1 (zh) * 2021-11-26 2023-06-01 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US20140351723A1 (en) * 2013-05-23 2014-11-27 Kobo Incorporated System and method for a multimedia container
US9721561B2 (en) * 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
CN104182621B (zh) * 2014-08-08 2017-06-13 同济大学 基于深度信念网络的adhd判别分析方法
CN106471526B (zh) 2014-08-29 2019-03-08 谷歌有限责任公司 用于处理图像的方法和系统
KR101844932B1 (ko) * 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US10529318B2 (en) * 2015-07-31 2020-01-07 International Business Machines Corporation Implementing a classification model for recognition processing
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR101943381B1 (ko) * 2016-08-22 2019-01-29 에스케이텔레콤 주식회사 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
US11210589B2 (en) 2016-09-28 2021-12-28 D5Ai Llc Learning coach for machine learning system
US10832129B2 (en) * 2016-10-07 2020-11-10 International Business Machines Corporation Transfer of an acoustic knowledge to a neural network
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US20180114522A1 (en) * 2016-10-24 2018-04-26 Semantic Machines, Inc. Sequence to sequence transformations for speech synthesis via recurrent neural networks
WO2018085760A1 (en) 2016-11-04 2018-05-11 Semantic Machines, Inc. Data collection for a new conversational dialogue system
WO2018148441A1 (en) 2017-02-08 2018-08-16 Semantic Machines, Inc. Natural language content generator
US10586530B2 (en) 2017-02-23 2020-03-10 Semantic Machines, Inc. Expandable dialogue system
US10762892B2 (en) 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
US11915152B2 (en) 2017-03-24 2024-02-27 D5Ai Llc Learning coach for machine learning system
WO2018194960A1 (en) * 2017-04-18 2018-10-25 D5Ai Llc Multi-stage machine learning and recognition
US10622002B2 (en) * 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
US10650803B2 (en) * 2017-10-10 2020-05-12 International Business Machines Corporation Mapping between speech signal and transcript
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN109285559B (zh) * 2018-09-14 2021-05-04 京东数字科技控股有限公司 角色转换点检测方法及装置、存储介质、电子设备
US10672382B2 (en) * 2018-10-15 2020-06-02 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition
US11138966B2 (en) * 2019-02-07 2021-10-05 Tencent America LLC Unsupervised automatic speech recognition
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109817201B (zh) * 2019-03-29 2021-03-26 北京金山安全软件有限公司 一种语言学习方法、装置、电子设备及可读存储介质
US11424021B2 (en) * 2019-05-10 2022-08-23 National Taiwan University Medical image analyzing system and method thereof
KR102281590B1 (ko) * 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11341988B1 (en) * 2019-09-23 2022-05-24 Apple Inc. Hybrid learning-based and statistical processing techniques for voice activity detection
CN111402842B (zh) * 2020-03-20 2021-11-19 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112017694B (zh) * 2020-08-25 2021-08-20 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置
US11769491B1 (en) * 2020-09-29 2023-09-26 Amazon Technologies, Inc. Performing utterance detection using convolution
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation
CN112908361B (zh) * 2021-02-02 2022-12-16 早道(大连)教育科技有限公司 一种基于小粒度口语发音评价系统
CN112562731B (zh) * 2021-02-24 2021-07-06 北京读我网络技术有限公司 一种口语发音评测方法、装置、电子设备及存储介质
CN113782051B (zh) * 2021-07-28 2024-03-19 北京中科模识科技有限公司 广播效果分类方法及系统、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031033A (ja) * 2005-08-01 2006-02-02 Toshiba Corp 情報処理装置
US20070136062A1 (en) * 2005-12-08 2007-06-14 Kabushiki Kaisha Toshiba Method and apparatus for labelling speech
WO2012064408A2 (en) * 2010-11-10 2012-05-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
WO2012134541A1 (en) * 2011-04-01 2012-10-04 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4594575A (en) * 1984-07-30 1986-06-10 Ncr Corporation Digital processor for speech signals
US4975960A (en) 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
JPS6350896A (ja) 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
DE3840148A1 (de) 1988-11-29 1990-05-31 Bosch Gmbh Robert Verfahren und vorrichtung zum erkennen eines fehlerzustandes einer lambdasonde
JPH02205897A (ja) 1989-02-03 1990-08-15 Toshiba Corp 有音検出装置
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
JPH05257496A (ja) 1992-03-12 1993-10-08 Sekisui Chem Co Ltd 単語認識方式
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP2924555B2 (ja) * 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5852669A (en) 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5806036A (en) 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
JP2996926B2 (ja) * 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6185529B1 (en) 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US7117157B1 (en) 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
TW521266B (en) 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
DE60236161D1 (de) 2001-07-20 2010-06-10 Gracenote Inc Automatische identifizierung von klangaufzeichnungen
US7209883B2 (en) 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7165029B2 (en) 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7472063B2 (en) 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
WO2004075093A2 (en) 2003-02-14 2004-09-02 University Of Rochester Music feature extraction using wavelet coefficient histograms
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
US7454342B2 (en) 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
US7505902B2 (en) 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
US20080262839A1 (en) 2004-09-01 2008-10-23 Pioneer Corporation Processing Control Device, Method Thereof, Program Thereof, and Recording Medium Containing the Program
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7376557B2 (en) * 2005-01-10 2008-05-20 Herman Miller, Inc. Method and apparatus of overlapping and summing speech for an output that disrupts speech
US7742914B2 (en) 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
RU2403626C2 (ru) 2005-06-09 2010-11-10 А.Г.И. Инк. Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
US7518631B2 (en) 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
US8209182B2 (en) 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
DE102006008260B3 (de) 2006-02-22 2007-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Analyse eines Audiodatums
US8825149B2 (en) 2006-05-11 2014-09-02 Northwestern University Systems and methods for measuring complex auditory brainstem response
US8589151B2 (en) * 2006-06-21 2013-11-19 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates
CN101346758B (zh) 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
US8355915B2 (en) 2006-11-30 2013-01-15 Rao Ashwin P Multimodal speech recognition system
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
JP5245255B2 (ja) 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US8965762B2 (en) 2007-02-16 2015-02-24 Industrial Technology Research Institute Bimodal emotion recognition method and system utilizing a support vector machine
GB0703974D0 (en) 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN101315733B (zh) 2008-07-17 2010-06-02 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习系统发音评测的自适应方法
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8442832B2 (en) 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
US8494857B2 (en) * 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8463719B2 (en) 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8406925B2 (en) 2009-07-01 2013-03-26 Honda Motor Co., Ltd. Panoramic attention for humanoid robots
US9511289B2 (en) 2009-07-10 2016-12-06 Valve Corporation Player biofeedback for dynamically controlling a video game state
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8589166B2 (en) 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
GB0920480D0 (en) * 2009-11-24 2010-01-06 Yu Kai Speech processing and learning
US8600749B2 (en) * 2009-12-08 2013-12-03 At&T Intellectual Property I, L.P. System and method for training adaptation-specific acoustic models for automatic speech recognition
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
JP5979146B2 (ja) * 2011-07-11 2016-08-24 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9548054B2 (en) 2012-05-11 2017-01-17 Mediatek Inc. Speaker authentication methods and related methods of electronic devices using calendar data
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031033A (ja) * 2005-08-01 2006-02-02 Toshiba Corp 情報処理装置
US20070136062A1 (en) * 2005-12-08 2007-06-14 Kabushiki Kaisha Toshiba Method and apparatus for labelling speech
WO2012064408A2 (en) * 2010-11-10 2012-05-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
WO2012134541A1 (en) * 2011-04-01 2012-10-04 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OZLEM KALINLI等: "Prominence Detection Using Auditory Attention Cues and Task-Dependent High Level Information", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077860A (zh) * 2014-10-21 2017-08-18 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN107077860B (zh) * 2014-10-21 2021-02-09 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN109074517A (zh) * 2016-03-18 2018-12-21 谷歌有限责任公司 全局归一化神经网络
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
CN108269569B (zh) * 2017-01-04 2023-10-27 三星电子株式会社 语音识别方法和设备
CN107680584B (zh) * 2017-09-29 2020-08-25 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN107680584A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN108542404A (zh) * 2018-03-16 2018-09-18 成都虚实梦境科技有限责任公司 注意力评估方法、装置、vr设备及可读存储介质
CN108447495A (zh) * 2018-03-28 2018-08-24 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108447495B (zh) * 2018-03-28 2020-06-09 天津大学 一种基于综合特征集的深度学习语音增强方法
CN110211574B (zh) * 2019-06-03 2022-03-11 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110827857A (zh) * 2019-11-28 2020-02-21 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
CN110827857B (zh) * 2019-11-28 2022-04-12 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
WO2023093295A1 (zh) * 2021-11-26 2023-06-01 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质

Also Published As

Publication number Publication date
EP2926335B1 (en) 2017-07-05
EP2926335A4 (en) 2016-04-20
US10424289B2 (en) 2019-09-24
US20140149112A1 (en) 2014-05-29
US20170263240A1 (en) 2017-09-14
US9672811B2 (en) 2017-06-06
EP2926335B8 (en) 2017-08-09
WO2014085204A1 (en) 2014-06-05
EP2926335A1 (en) 2015-10-07
US20190005943A1 (en) 2019-01-03
JP6189970B2 (ja) 2017-08-30
JP2016502140A (ja) 2016-01-21
US10049657B2 (en) 2018-08-14
CN104756182B (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
US10424289B2 (en) Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors
CN107610707B (zh) 一种声纹识别方法及装置
JP6198872B2 (ja) 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
CN103765506B (zh) 使用听觉注意线索进行音调/语调识别的方法
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
CN102142253B (zh) 语音情感识别设备及方法
Scanlon et al. Using broad phonetic group experts for improved speech recognition
CN107093422A (zh) 一种语音识别方法和语音识别系统
Mehta et al. Comparative study of MFCC and LPC for Marathi isolated word recognition system
Mahdavi et al. Persian accents identification using modeling of speech articulatory features
Qin et al. Graph convolution-based deep clustering for speech separation
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system
Ekpenyong et al. Unsupervised mining of under-resourced speech corpora for tone features classification
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Burridge et al. Low dimensional measurement of vowels using machine perception
Lu et al. A new formant feature and its application in Mandarin vowel pronunciation quality assessment
Hu Speech segregation in background noise and competing speech
Kisler et al. Exploring the connection of acoustic and distinctive features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant