CN105023573A - 使用听觉注意力线索的语音音节/元音/音素边界检测 - Google Patents

使用听觉注意力线索的语音音节/元音/音素边界检测 Download PDF

Info

Publication number
CN105023573A
CN105023573A CN201510346155.5A CN201510346155A CN105023573A CN 105023573 A CN105023573 A CN 105023573A CN 201510346155 A CN201510346155 A CN 201510346155A CN 105023573 A CN105023573 A CN 105023573A
Authority
CN
China
Prior art keywords
syllable
vowel
hearing
analysis
input window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510346155.5A
Other languages
English (en)
Other versions
CN105023573B (zh
Inventor
O.卡琳里
陈如新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN105023573A publication Critical patent/CN105023573A/zh
Application granted granted Critical
Publication of CN105023573B publication Critical patent/CN105023573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供检测语音音节/元音/音素边界方法和设备。该方法包括:从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;生成对应于所述一个或多个多尺度特征的一个或多个特征图;从所述一个或多个特征图中的每个提取听觉要点矢量;通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量;通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界;以及使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量。

Description

使用听觉注意力线索的语音音节/元音/音素边界检测
交叉参考
本申请是申请日为2011年11月2日、2013年9月30日提交到中国专利局、发明名称为“使用听觉注意力线索的语音音节/元音/音素边界检测”、中国申请号为201180069832.3的国际发明申请PCT/US2011/059004的分案申请。
技术领域
本发明的实施方案与口头语言处理有关,并且更具体地说,与在有或没有其它传统语音特征的情况下使用听觉注意力线索对音素、元音或音节边界进行检测有关。
背景技术
语音识别系统已经成为一种用于计算机系统的常见输入形式。典型的语音识别系统捕捉可听信号并进行分析以获得人类语音的可识别分量。将语音分割成多个单元(如音素、音节或元音)提供了关于语音的音位和节奏方面的信息。音素(phoneme)(有时被称为音素(phone))通常被视为语音的最小的有意义的音位片段。音素包括元音和辅音。术语“音节”用来描述由单独的元音或者之前或之后有辅音的元音组成的语音片段。通常,元音构成音节核。因此,音素、元音以及音节边界的检测在语音识别和自然语言理解中起着重要的作用。在许多口头语言处理应用程序中,确定样本语音信号内音节在何处开始和结束是有用的。由于口语音节通常包括元音部分作为音节核并且可能包括或可能不包括辅音部分,因此对于音节边界检测的重要关键是音节内的元音和/或元音边界的检测。音素边界可以在有或没有听觉注意力线索的情况下通过使用较传统的特征(如能量、话音概率、过零、不同FFT频段下的频谱变化率、倒谱、差分倒谱以及差分-差分倒谱、基于帧的音素概率、通过分析唇部的视频图像得到的唇部运动)在检测元音或音节边界之后进行检测。
研究人员已经发现了表明音节是人类语音感知的最重要的要素之一的支持论据。将语音分割成多个音节单元提供了关于语速、节奏、韵律以及语音识别和语音合成的洞察。音节包含响度的中央峰(音节核),其通常是元音,以及围绕此中央峰群集的辅音。文献中的大部分作品集中于音节核检测,因为与精确的音节边界相比,可以更可靠且更容易地定位音节核。对于音节核检测,大部分现有方法依赖于从所提取的短时间声学特征估算一维连续曲线并且在所述曲线上进行峰值搜索来定位音节核。一些用于定位音节核的声学特征包括在选定临界频带中的能量、线性预测编码频谱、基于子频带的相关性、音高、清浊等。此领域中的现有技术作品的一些实例包括:
“Robust Speech Rate Estimation for Spontaneous Speech”,Dagen Wang和Shrikanth S.Narayanan,IEEE TRANSACTIONS ON AUDIO,SPEECH,ANDLANGUAGE PROCESSING,第15卷,第8号,2007年11月,第2190至2201页。
“Segmentation of Speech into Syllable-like units”,T.Nagarajan等, EUROSPEECH 2003–日内瓦,第2893至2896页。
“Speech rhythm guided syllable nuclei detection”,Y.Zhang和J.Glass,Proceedings of the IEEE International Conference on Acoustics,Speech,andSignal Processing,第3797至3800页,台湾台北,2009年4月。
通常,这些传统方法需要调整许多参数,这是不希望的,因为它使得很难将这些方法用于不同的设定或条件;即,新数据、新条件,如说话风格、噪声条件等。此外,所述传统方法通常集中于含糊的音节核检测。
正是在这种背景下出现了本发明的实施方案。
发明内容
为了解决上述技术问题。本发明提供一种方法,其包括:从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;生成对应于所述一个或多个多尺度特征的一个或多个特征图;从所述一个或多个特征图中的每个提取听觉要点矢量;通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量;通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界;以及使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量。
为了解决上述技术问题。本发明提供一种设备,包括:处理器;存储器;以及包含在所述存储器中并且可由所述处理器执行的计算机编码指令,其中所述计算机编码指令被配置来实施用于音节/元音/音素边界检测的方法,所述方法包括:从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;生成对应于所述一个或多个多尺度特征的一个或多个特征图;从所述一个或多个特征图中的每个提取听觉要点矢量;通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量;通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界;以及使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量。
为了解决上述技术问题。本发明提供一种计算机程序产品,包括:非临时性计算机可读存储介质,其具有包含在其中的计算机可读程序代码,所述计算机程序代码具有:配置成当执行时从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征的计算机程序代码,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;配置成当执行时生成对应于所述一个或多个多尺度特征的一个或多个特征图的计算机程序代码;配置成当执行时从所述一个或多个特征图中的每个提取听觉要点矢量的计算机程序代码;配置成当执行时通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量的计算机程序代码;配置成当执行时通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界的计算机程序代码;以及配置成当执行时使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量的计算机程序代码。
附图说明
通过结合附图参考以下详细描述,可以容易地理解本发明的实施方案。
图1A是示出根据本发明的一个实施方案的用于在语音中进行音节/元音/音素边界检测的方法的流程图。
图1B至图1F是示出可以在本发明的多个实施方案中使用的频谱时间接收滤波器的多个实施例的示意图。
图1G是示出根据本发明的一个实施方案的用于通过使用传统语音特征和累积要点矢量的组合来在语音中进行音节/元音/音素边界检测的方法的流程图。
图2是示出根据本发明的一个实施方案的用于在语音中进行音节/元音/音素边界检测的设备的方框图。
图3是示出根据本发明的一个实施方案的用于在语音中进行音节/元音/音素边界检测的设备的单元处理器实施方式的实施例的方框图。
图4示出了根据本发明的一个实施方案的具有用于在语音识别中实施音节/元音/音素边界检测的指令的非临时性计算机可读存储介质的实施例。
具体实施方式
本发明的实施方案涉及使用听觉注意力线索来在语音中进行音节/元音/音素边界检测的口头语言处理方法和设备。不同于集中于含糊的音节核检测的传统方法,本发明的实施方案可以获得更详细的帧级音节/元音/音素边界信息。与传统方法不同,根据本发明的实施方案的方法和系统使用听觉注意力线索来在语音中进行音素边界、元音边界和/或音节边界检测。所述注意力特征是生物学所启发的并且通过使用二维频谱时间滤波器来捕捉声音中的信号特性变化,因而成功地在语音中检测元音和/或音节。此外,所述听觉注意力特征可以与传统语音特征相结合用于音素/元音/音节边界检测。
图1A是示出根据本发明的一个实施方案的用于使用听觉注意力线索在语音中进行音节/元音/音素边界检测的方法的流程图。听觉注意力模型是生物学所启发的并且模仿人类听觉系统中的处理阶段。其被设计来确定何时何地声音信号吸引人类注意力。
最初,接收声音输入窗口101。通过举例的方式,而非通过限制的方式,此声音输入窗口101可以使用麦克风在某个有限的持续时间的时间窗口内来捕捉,所述麦克风起作用来将表征特定声音输入窗口101的声波转换成电信号以供进一步处理。声音输入窗口101可以是个人的语音的任何片段。通过举例的方式,而非通过限制的方式,声音输入窗口101可以包含单一音节、单词、句子或这些的任何组合。
然后,将声音输入窗口101传递通过一组处理阶段103,其操作来将此声音窗口101转换成音频频谱105。这些处理阶段103可以基于听觉系统(如人类听觉系统)的早期处理阶段。通过举例的方式,而非通过限制的方式,处理阶段103可以由模仿听觉系统中的从基膜到耳蜗核的过程的耳蜗滤波、内毛细胞以及横向抑制阶段组成。所述耳蜗滤波可以使用具有沿对数频率轴均匀分布的中心频率的一组128个重叠的恒定Q值非对称带通滤波器来实施。这些滤波器可以通过适当配置的电子硬件来实施,所述电子硬件可能是为特定目的而制造的。替代地,所述滤波器可以在被编程具有实施所述滤波器的功能的软件的通用计算机上实施。对于分析,可以使用具有10ms移位的20ms音频帧,这造成每个音频帧由128维矢量来表示。
一旦声音输入窗口101已被转换成听觉频谱105,便通过提取多尺度特征117来分析所述频谱105,如在107处所指示,所述提取是通过模仿中枢听觉系统中的信息处理阶段来进行的。听觉注意力可以通过各种各样的声学特征(如强度(或能量)、频率、时间、音高、音色、FM方向或斜率(此处称为“取向”)等)来捕捉或自发地指向所述声学特征。这些特征可以被选择并实施来模仿初级听觉皮层中的接收域。
通过举例的方式,而非通过限制的方式,可以被包括在所述模型中来涵盖前述特征的四个特征是强度(I)、频率对比(F)、时间对比(T)以及取向(Oθ),其中θ={45°,135°}。所述强度特征捕捉与所述信号的强度或能量有关的信号特性。所述频率对比特征捕捉与所述信号的频谱(频率)变化有关的信号特性。所述时间对比特征捕捉与所述信号中的时间变化有关的信号特性。取向滤波器对于所述信号中的移动波纹敏感。
每个特征可以使用二维频谱时间接收滤波器109、111、113、115来提取,所述滤波器模仿初级听觉皮层中的某些接收域。图1B至图1F分别示出接收滤波器(RF)109、111、113、115的实施例。被模拟用于特征提取的接收滤波器(RF)109、111、113、115中的每一个用对应于正在提取的特征的灰度图像进行示出。激发相110和抑制相112分别用白色和黑色进行展示。
这些滤波器109、111、113、115中的每一个能够检测并捕捉信号特性的某些变化。例如,图1B中所示出的强度滤波器109可以被配置来模仿听觉皮层中的仅具有选择性用于特定区域的激发相的接收域,使得其检测并捕捉声音输入窗口的持续时间内的强度/能量的变化。类似地,图1C中所描绘的频率对比滤波器111可以被配置来对应于初级听觉皮层中的具有激发相和同时对称抑制边频带的接收域。图1D中所示出的时间对比滤波器113可以被配置来对应于具有抑制相和后续激发相的接收域。
可以认为,听觉频谱类似于视觉中的场景图像并且这些特征中的一些被调整到不同的局部有向边;即,频率对比特征被调整到局部水平有向边,这可以有益于检测并捕捉共振峰及其变化。换句话说,图1C中所展示的频率对比滤波器111检测并捕捉声音窗口的持续时间内的频谱变化。图1D中所展示的时间对比滤波器113检测并捕捉时间域中的变化。取向滤波器115’和115”模仿对移动波纹的听觉神经元响应的动态。如图1E所展示,取向滤波器115’可以被配置成具有拥有45°取向的激发相和抑制相来检测并捕捉何时纹波正在向上移动。类似地,如图1F所展示,取向滤波器115”可以被配置成具有拥有135°取向的激发相和抑制相来检测并捕捉何时纹波正在向下移动。重要的一点是,在所述模型中,所述特征对比是经计算得到的而非绝对的特征强度,这对于变化点/边界检测和分割是至关重要的。
用于产生频率对比111、时间对比113以及取向特征115的RF可以使用具有不同角度的二维Gabor滤波器来实施。用于频率对比和时间对比特征的滤波器可以分别被理解为水平取向滤波器和垂直取向滤波器,并且可以用具有0°和90°取向的二维Gabor滤波器来实施。类似地,取向特征可以使用具有{45°,135°}取向的二维Gabor滤波器来提取。用于产生强度特征109的RF是使用二维高斯核来实施。
特征提取107是使用多尺度平台来完成。用于产生给定数据组的尺度空间表示的动机源于物体在不同尺度上由不同结构组成的基本观察。对于分析一组未知数据的系统来说,没有办法先验地知道什么尺度对于描述与所述数据相关联的引起关注的结构是适当的。因此,唯一合理的途径是考虑多个尺度上的描述以便捕捉可能发生的未知尺度变更。在本发明的实施方案中,多尺度特征117可以使用二进金字塔来获得(即,以二为因子来滤波和抽取输入频谱,并且重复此过程)。因而,创建了8个尺度(如果窗口持续时间大于1.28秒,否则有较少尺度),从而得到了范围从1:1(尺度1)至1:128(尺度8)的大小缩减因子。
在获得多尺度特征117之后,使用那些多尺度特征117生成特征图121,如在119处所指示。这是通过计算“中心-周边”差异来完成的,其涉及将“中心”(精细)尺度与“周边”(较粗糙)尺度进行比较。所述中心-周边操作模仿局部皮层抑制性质并且检测局部时间和空间不连续性。其是通过“中心”精细尺度(c)与“周边”较粗糙尺度(s)之间的跨尺度减法(θ)来模拟的,从而得到了特征图M(c,s):M(c,s)=|M(c)θM(s)|,M∈{I,F,T,Oθ}。两种尺度之间的跨尺度减法是通过内插到较精细尺度和逐点减法来计算的。通过举例的方式,而非通过限制的方式,可以使用c={2,3,4},s=c+δ,其中δ∈{3,4},当以八个尺度提取特征时,这形成了总共30个特征图。
接下来,如在123处所指示,从I、F、T、Oθ的每个特征图121中提取出“听觉要点”矢量125,使得听觉要点矢量125的总和以低分辨率覆盖整个输入声音窗口101。为了针对给定特征图121确定听觉要点矢量125,首先将特征图121划分为m乘n网格的子区域,并且可以计算每个子区域的统计数据,如最大值、最小值、平均值、标准偏差等。通过举例的方式,而非通过限制的方式,可以计算每个子区域的平均值来捕捉所述图的整体性质。对于具有高度h和宽度w的特征图Mi,所述听觉要点矢量的计算可以写为:
其中
k={0,…,n-1},l={0,…,m-1}。
听觉要点矢量提取123的其中m=4、n=5的一个实施例在图1中展示,其中展示了20维听觉要点矢量125来代表特征图。提供m和n的这些特定值是为了举例的缘故,而非作为对本发明的任何实施方案的限制。
在从每个特征图121提取听觉要点矢量125之后,所述听觉要点矢量被放大并组合来创建累积要点矢量127。累积要点矢量127可以另外经受维数缩减129技术来减少维数和冗余,以便使得音节/元音/音素边界检测更为实用。通过举例的方式而非通过限制的方式,主分量分析(PCA)可以用于维数缩减129。维数缩减129的结果是最终特征,在本文中称为听觉要点特征127’,其以较少维数传达累积要点矢量127中的信息。PCA常常用作图案识别的主要技术。如通常所理解的,PCA在数学上被定义为将数据变换到新的坐标系中的正交线性变换,使得所述数据的任何投影的最大方差位于第一坐标上(称为第一主分量),第二大方差位于第二坐标上,以此类推。PCA可以在被编程具有适当配置的软件的计算机上实施。可以通过PCA实施维数缩减的市售软件的实例包括美国马萨诸塞州纳提克的MathWorks公司的Matlab或在新西兰的怀卡托大学开发的Weka机器学习软件。替代地,其它线性和非线性维数缩减技术(如因子分析、内核PCA、线性判别分析(LDA)等)可以用来实施维数缩减129。
最后,在已经确定表征输入声音窗口101的听觉要点特征127’之后,可以从所述听觉要点特征中检测音素边界、元音边界、音节核或音节边界。为了对给定输入声音窗口执行此类检测,可以使用机器学习算法131(如神经网络、最近邻分类器、决策树等)来发现累积要点矢量127与所述音素边界、元音边界、音节核或音节边界之间的映射。通过举例的方式而非通过限制的方式,神经网络可以用作机器学习算法131,因为其具有良好的生物学依据。在这种情况下,在给出与其相关联的累积要点矢量的情况下,神经网络131可以识别输入声音内的音素边界、元音边界、音节核或音节边界。
如本文所使用的,术语“神经网络”指代互连的天然或人工神经元群组,其使用用于基于联结方法来计算的信息处理的计算/数学模型。神经网络是基于流动通过网络的外部或内部信息而改变结构的自适应系统。其用来实施非线性统计数据建模,并且可以用来为输入与输出之间的复杂关系建模。在本发明的实施方案中,神经网络可以用于学习由累积听觉要点矢量127或听觉要点特征127’所表示的听觉要点特征群组与一个或多个音素边界、元音边界、音节核或音节边界之间的映射。通过举例的方式,而非通过限制的方式,可以使用3层式神经网络。神经网络可以具有D个输入、(D+N)/2个隐藏节点以及N个输出节点,其中D是在PCA维数缩减之后的听觉要点特征的长度并且N是有待要区分的类别的数量;即,对于音素/元音/音节边界检测,N可以等于二来决定帧是否为边界。
可以用两种方式使用神经网络输出估算:i)硬决定;ii)软决定。在硬决定中,神经网络的最终决定用作二进制决定;例如,如果帧存在边界,那么其输出一,否则输出零。在软决定中,在给出注意力特征的情况下,神经网络的概率分数(其为[0,1]之间的值)可以用作当前帧为边界的后验概率。另外,在软决定中,所述估算的后验概率可以被馈送到另一系统中,并且与来自另一来源的信息进行组合来进一步改进任一系统的性能。例如,边界信息可以用来改进语音识别性能,或者来自语音识别引擎的互补信息可以用来进一步改进边界检测性能,等等。此外,本发明的某些实施方案可以任选地还提供关于片段中的音节数量的信息,例如,每秒或每次话语的音节数量,其可以用于估算语速。然后,所述估算的语速可以用来改进其它口头语言处理应用程序,如通过基于所述语速选择适当的声学模型或者寻找语音的情感片段等来改进语音识别性能。
所述音节/音素/元音边界信息可以单独来使用,或用来改进其它口头语言处理系统,如语音识别。此外,可以将所述音素/元音/音节边界认为是分级系统。来自一种类型的边界的信息也可以用来改进另一种类型的边界;即,元音边界信息可以用来改进音素边界或音节边界检测。此外,本发明的实施方案可以用于所有类型的语音和言说风格以及噪声条件的分析;即,孤立的语音、连续的语音、自发的语音、朗读的语音、清晰/嘈杂的语音等。
图1G是示出根据本发明的一个替代性实施方案的用于使用听觉注意力线索以及传统语音特征来在语音中进行音节/元音/音素边界检测的方法140的流程图。在方法140中,累积要点矢量147可以从对输入声音窗口的分析来生成,例如,如上文关于图1A所描述。此外,常规语音特征148可以从使用常规方法对相同的输入声音窗口进行常规分析而生成。通过举例的方式,而非通过限制的方式,所述常规特征可以包括(但不限于)基于帧的能量、基于帧的最大语音振幅、过零率、基于帧的音素概率、基于帧的话音概率、不同FFT频段下的频谱变化率、倒谱以及差分倒谱和差分差分倒谱、从视频中捕捉的唇部运动。
累积要点矢量147和传统特征148可以用作用于维数缩减模块149的输入,所述维数缩减模块可以减少这些输入中的维数和冗余来使得音节/元音/音素边界检测更为实用。维数缩减模块149可以如上文关于图1A中的维数缩减129所描述来进行操作。通过举例的方式而非通过限制的方式,维数缩减模块149可以实施主分量分析(PCA)来减少累积要点矢量147和传统特征148的维数。维数缩减模块149的输出是听觉要点特征147’,其以较少维数传达累积要点矢量147和传统特征148中的信息并且表征所述声音输入窗口。听觉要点特征147’可以具有与上文关于图1A所描述的听觉要点特征127’共同的特征。
音素边界、元音边界、音节核或音节边界可以从听觉要点特征矢量147’中检测出来,例如,使用机器学习算法141来发现累积要点矢量147和或传统特征148与音素边界、元音边界、音节核或音节边界之间的映射。所述机器学习算法可以具有与图1A的机器学习算法131共同的特征。通过举例的方式,而非通过限制的方式,机器学习算法141可以使用神经网络、最近邻分类器、决策树等。
本发明的实施方案可以在适当配置的计算机设备上实施。图2示出根据本发明的一个实施方案的可以用于实施使用听觉注意力线索进行音素/音节/元音边界检测的方法的计算机设备的方框图。设备200大体上可以包括处理器模块201和存储器205。处理器模块201可以包括一个或多个处理器核心。使用多个处理器模块的处理系统的一个实施例是单元处理器,其实施例(例如)在可以在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf在线获得的Cell Broadband Engine Architecture中进行详细描述,所述文献以引用的方式并入本文中。
存储器205可以呈集成电路的形式,例如,RAM、DRAM、ROM等。存储器205还可以是可由所有处理器模块存取的主存储器。在一些实施方案中,处理器模块201可以具有与每个核心相关联的局部存储器。程序203可以按可以在所述处理器模块上执行的处理器可读指令的形式存储在主存储器205中。程序203可以被配置来使用听觉注意力线索对声音窗口执行音节/元音边界检测。程序203可以用任何合适的处理器可读语言写成,如C、C++、JAVA、汇编、MATLAB、FORTRAN以及许多其它语言。输入数据207也可以被存储在存储器中。这类输入数据207可以包括声音输入窗口、特征图或听觉要点矢量。在程序203的执行期间,程序代码和/或数据的多个部分可以被加载到存储器或处理器核心的局部存储装置中用于由多个处理器核心进行并行处理。
设备200还可以包括众所周知的支持功能209,如输入/输出(I/O)元件211、电源(P/S)213、时钟(CLK)215以及高速缓存217。设备200可以任选地包括大容量存储装置219(如磁盘驱动器、CD-ROM驱动器、磁带驱动器等)来存储程序和/或数据。装置200可以任选地包括显示器单元221、音频扬声器单元222以及用户接口单元225来方便所述设备与用户之间的交互。显示器单元221可以呈显示文字、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口225可以包括可以与图形用户界面(GUI)结合来使用的键盘、鼠标、操纵杆、光笔或其它装置。设备200还可以包括网络接口223来使得所述装置能够通过网络(如互联网)与其它装置进行通信。
在一些实施方案中,系统200可以包括任选的麦克风229,其可以是单一麦克风或麦克风阵列。麦克风229可以经由I/O元件211耦合到处理器201。通过举例的方式,而非通过限制的方式,可以使用麦克风229记录不同的声音输入窗口。
系统200的部件(包括处理器201、存储器205、支持功能209、大容量存储装置219、用户接口225、网络接口223以及显示器221)可以经由一个或多个数据总线227可操作地连接至彼此。这些部件可以用硬件、软件或固件或这些中的两个或更多个的某种组合来实施。
存在许多另外的方法来使所述设备中具有多个处理器的并行处理呈流线型。举例来说,有可能“展开”处理循环,例如,通过在两个或更多个处理器核心上复制代码并且使每个处理器核心实施代码来处理不同的数据块。这种实施方式可以避免与建立所述循环相关联的等待时间。如应用于本发明的多个实施方案,多个处理器可以从输入声音窗口中并行提取不同的特征。强度提取滤波器、频率对比提取滤波器、时间对比提取滤波器以及取向提取滤波器都可以同时处理听觉频谱,从而在不同处理器元件上并行实施的情况下有效得多地生成对应的多尺度特征。此外,还可以并行生成特征图以及其对应的听觉要点矢量。并行处理数据的能力节省了宝贵的处理时间,从而形成更有效率和流线型的用于在语音中进行音素/音节/元音边界检测的系统。
除了能够实施并行处理的处理系统的其它实施例以外,一个实施例被称为单元处理器。存在许多不同的可以被分类为单元处理器的处理器架构。通过举例的方式(但无限制),图3示出了一种类型的单元处理器。单元处理器300包括主存储器301、单一功率处理器元件(PPE)307以及八个协同处理器元件(SPE)311。替代地,所述单元处理器可以被配置成具有任何数量的SPE。关于图3,存储器301、PPE 307以及SPE 311可以彼此以及与I/O装置315通过环型元件互连总线317进行通信。存储器301包含输入数据303,其具有与上文所描述的所述输入数据共同的特征,以及程序305,其具有与上文所描述的所述程序共同的特征。SPE 311中的至少一个可以在其局部存储装置(LS)中包括音节/元音边界检测指令313和/或输入数据的有待被并行处理的部分,例如,如上文所描述。PPE 307可以在其L1高速缓存中包括具有与上文所描述的所述程序共同的特征的音节/元音边界检测指令309。指令305和数据303也可以被存储在存储器301中用于在需要时由SPE 311和PPE 307进行存取。
通过举例的方式,而非通过限制的方式,不同的SPE 311可以实施多尺度特征117的提取。具体来说,不同的SPE 311可以分别专用于强度(I)、频率对比(F)、时间对比(T)以及取向(Oθ)特征从频谱中的并行提取。类似地,不同的SPE 311可以分别实施强度(I)、频率对比(F)、时间对比(T)以及取向(Oθ)特征的特征图生成119或听觉要点矢量提取123。
通过举例的方式,PPE 307可以是具有相关联高速缓存的64位PowerPC处理器单元(PPU)。PPE 307可以包括任选的矢量多媒体扩展单元。每个SPE311包括协同处理器单元(SPU)和局部存储装置(LS)。在一些实施方式中,所述局部存储装置可以具有(例如)约256千字节的存储器容量用于程序和数据。SPU是没有PPU那么复杂的计算单元,因为其通常不执行系统管理功能。SPU可以具有单指令多数据(SIMD)能力,并且通常处理数据并启始任何所需的数据传送(服从于由PPE所设定的存取属性)以便执行其被分派的任务。SPE 311允许所述系统实施需要较高计算单元密度的应用程序,并且可以有效地使用所提供的指令集。由PPE 307管理大量SPE 311允许在宽范围的应用程序上具有具成本效益的处理。通过举例的方式,单元处理器可以由被称为单元宽带引擎架构(CBEA)的架构表征。在顺应CBEA的架构中,多个PPE可以被组合成PPE群组,并且多个SPE可以被组合成SPE群组。为了举例的目的,所述单元处理器被描绘为仅具有拥有单一SPE和单一PPE的单一SPE群组和单一PPE群组。替代地,单元处理器可以包括多个功率处理器元件群组(PPE群组)和多个协同处理器元件群组(SPE群组)。顺应CBEA的处理器(例如)在可以在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdf在线获得的Cell Broadband Engine Architecture中进行详细描述,所述文献以引用的方式并入本文中。
根据另一实施方案,用于使用听觉注意力线索进行音素/音节/元音边界检测的指令可以被存储在计算机可读存储介质中。通过举例的方式,而非通过限制的方式,图4示出了根据本发明的一个实施方案的非临时性计算机可读存储介质400的一个实施例。存储介质400包含以可以由计算机处理装置检索、解释并执行的格式存储的计算机可读指令。通过举例的方式,而非通过限制的方式,计算机可读存储介质400可以是计算机可读存储器(如随机存取存储器(RAM)或只读存储器(ROM))、用于固定磁盘驱动器(例如,硬盘驱动器)的计算机可读存储磁盘,或可装卸磁盘驱动器。此外,计算机可读存储介质400可以是闪速存储器装置、计算机可读磁带、CD-ROM、DVD-ROM、蓝光、HD-DVD、UMD或其它光学存储介质。
存储介质400包含被配置来使用听觉注意力线索在语音中进行音节/元音/音素边界检测的音节/元音/音素边界检测指令401。音节/元音/音素边界检测指令401可以被配置来根据上文关于图1所描述的方法进行音节/元音/音素边界检测。具体来说,音节/元音/音素边界检测指令401可以任选地包括接收输入声音指令403,所述接收输入声音指令用来接收有待对其执行音节/元音/音素边界检测的声音输入窗口。所述声音输入窗口可以按计算机可读形式从录音或从在运行时由麦克风或麦克风阵列所现场捕捉的声音来获得。音节/元音/音素边界检测指令401可以进一步包括确定听觉频谱指令405,其使用如上文所描述的耳蜗滤波、内毛细胞以及横向抑制处理阶段来确定所述声音输入窗口的听觉频谱。
音节/元音/音素边界检测指令401还可以包括提取多尺度特征指令407,其在被执行时提取与听觉频谱相关联的多尺度特征。这些多尺度特征可以包括如上文所描述的强度、频率对比、时间对比以及取向。这可以进一步引发生成特征图指令409的执行,所述生成特征图指令在被执行时生成用于如上文所描述的所提取出的每个多尺度特征的对应特征图。此时,音节/元音/音素边界检测指令401可以实施提取听觉要点矢量指令411,其在被执行时提取用于每个特征图的多参数听觉要点矢量。
音节/元音/音素边界检测指令401可以另外包括获得累积要点矢量指令413,其在被执行时将所有听觉要点矢量放大并组合成单一累积要点矢量。累积要点矢量指令413还可以被配置来在被执行时实施主分量分析(PCA)以除去冗余并减少所述累积要点矢量的维数。音节/元音/音素边界检测指令401可以进一步包括检测音节/元音/音素边界指令415,其在被执行时将所述累积要点矢量映射到其对应的音素边界、元音边界、音节核或音节边界。
实验和结果
进行了许多音节分割实验来测试根据本发明的一个实施方案的音节边界检测与现有技术的音节检测技术。在所述音节分割实验中使用了TIMIT数据集。所述TIMIT语料库没有音节标注。来自NIST的音节化软件tsyllb2用于使用其音素转录来使单词音节化。然后,使用每个音节的由TIMIT所提供的音素级时序信息和音素序列来自动提取用于音节的时序信息。在所述实验中使用了官方TIMIT训练和测试分解。测试集包含1344个话语,其中包含约17190个音节。
在所述实验中,使用了3层式神经网络用于学习听觉要点特征与音节边界之间的映射。所述神经网络具有D个输入、(D+N)/2个隐藏节点以及N个输出节点,其中D是在PCA维数缩减(此时95%的方差被保留)之后的听觉要点矢量的长度,并且N是类别的数量,在这些特定实验中其是二;即,边界与非边界。使用以当前帧为中心的窗口每50ms对所述听觉要点特征进行估算来捕捉上下文。
在英语中,多音节单词的确切音节边界可能是模糊的;即,很难决定哪些辅音属于第一音节或第二音节。因此,所述实验被这样进行使得目标是为了估算音节核的末尾,在此处通常存在元音至辅音的过渡。可以使用相同的方法检测两个边界,即,音节核的开头和末尾;然而,此处,只有音节核的末尾被假定为有待检测的目标,使得每个音节只存在一次检测,这对于估算每话语/秒的音节数量是有用的。因此,在下面的讨论中,为了方便起见,术语“音节边界”将用来指代音节核的末尾。
音节边界检测允许50ms的误差容限。例如,如果在130ms处存在边界,那么在训练期间,对应于100ms和150ms处的帧的听觉要点特征都被标记为边界。类似地,在评估期间,在50ms内检测到的边界被接受为正确的。
在所述实验中,通过将持续时间从0.2s(其是平均音节持续时间)变化到0.4s来分析邻近左端上下文和右端上下文对性能的影响以研究窗口持续时间W的作用。所选的网格大小确定了时间和频谱分辨率。针对听觉要点提取对不同网格大小进行了测试以用于改变时间和频谱分辨率。结果发现,4乘10的网格大小是足够的,并且在具有合理的特征维数的音节边界检测中表现良好。此外,结果发现,提高频谱分辨率可以进一步改进结果;同时也增加了复杂性。
对于不同窗口持续时间的帧级音节边界检测性能连同听觉要点维数D一起被呈现在以下表Ⅰ中。增加窗口持续时间改进了音节边界检测性能,从而表明上下文信息有助于边界检测。所实现的最好性能是在W=0.4s时在帧级处的85.32%音节边界检测准确度。在以下表Ⅰ中报告的结果是原始神经网络输出分数。的确,实际的帧级准确度更高,因为对于每个音节边界检测其中一个帧是足够的;即,如果参考音节边界是在130ms处,那么神经网络预计边界在100ms和150ms处的两个帧,否则惩罚没有检测到的帧作为删除错误。
表I
本发明的实施方案相对于现有技术表现出某些差异和优势。具体来说,与采用短期声学特征(如临界频带中的能量、线性预测编码频谱、基于子频带的相关性、音高、清浊等)的现有技术不同,本发明的实施方案使用听觉注意力线索用于音节分割。传统方法需要参数调整,这使其特定于某个数据和设置。相反,在本发明的实施方案中,所述模型不需要参数调整。
此外,本发明的实施方案这样获得帧级结果使得对于每个帧都存在当前帧是音节边界的可能性。相反,现有技术旨在检测音节核周围的峰;例如,从核的开头之前约50ms到核的末尾之后约50ms;因而允许了较大的误差容限。本发明的实施方案可以按帧级获得更详细的信息。本发明的实施方案还可以提供关于片段中的音节数量的信息,例如,每秒或每次话语的音节数量,其可以用于估算语速。所述估算的语速可以用来改进其它口头语言处理应用程序,如通过基于所述语速选择适当的声学模型或者寻找语音的情感片段等来改进语音识别性能。
为了与其它方法相比较,还进行了音节核检测实验并且也获得了音节级结果。首先,训练神经网络,使得对应于音节核的中间的帧被标记为有待检测的目标。然后,使用软决定,使得所述神经网络概率分数用来创建作为时间的函数的一维曲线。然后,在所述曲线上进行峰值搜索以定位被算作检测到的音节核的局部最大值。如在其它方法中所做的那样,如果需要的话,在音节核周围容忍50ms的误差。所得结果连同来自文献中的以下参考的现有技术结果一起被呈现在表II中:
“Robust Speech Rate Estimation for Spontaneous Speech”,Dagen Wang和Shrikanth S.Narayanan,IEEE TRANSACTIONS ON AUDIO,SPEECH,ANDLANGUAGE PROCESSING,第15卷,第8号,2007年11月,第2190至2201页,其以引用的方式并入本文中。
“Speech rhythm guided syllable nuclei detection”,Y.Zhang和J.Glass,Proceedings of the IEEE International Conference on Acoustics,Speech,andSignal Processing,第3797至3800页,台湾台北,2009年4月,其以引用的方式并入本文中。
可以参考在以下表II中的F分数用于比较,因为其它方法精细调整了其参数来获得最佳的查准度和最佳的精确度,这两者不能在给定时间同时获得,而F分数(其等于)在给定时间考虑精确度和查准度两者。
表II
来自以上表II的结果显示根据本发明的实施方案的音节检测结果与现有技术在音节核检测方面表现一样好或比其更好。
虽然上文是对本发明的优选实施方案的完整描述,但可能的是使用各种替代方案、修改以及等同物。因此,本发明的范围不应参考上文的描述来确定,而是应参考所附的权利要求连同其等同物的全部范围来确定。本文所描述的任何特征(无论优选与否)都可以与本文所描述的任何其它特征(无论优选与否)相组合。在所附的权利要求中,除非另有明确陈述,否则不定冠词“一 个(种)”指代跟在所述冠词之后的项目的一个或多个的数量。在所附的权利要求中,除非另有说明,否则词“或”应被理解为非排他性或。所附的权利要求不应被理解为包括装置加功能限制,除非在给定的权利要求中使用短语“用于......的装置”明确地接受这样的限制。

Claims (22)

1.一种方法,其包括:
从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;
生成对应于所述一个或多个多尺度特征的一个或多个特征图;
从所述一个或多个特征图中的每个提取听觉要点矢量;
通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量;
通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界;以及
使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量。
2.如权利要求1所述的方法,进一步包括使用检测到的音节或元音或音素边界来从已识别的元音或音节或音素中提取词汇或语法意义。
3.如权利要求2所述的方法,进一步包括显示或存储所述词汇或语法意义。
4.如权利要求1所述的方法,进一步包括从所确定的每单位时间的音节数量或每次话语的音节数量来估算语速。
5.如权利要求1所述的方法,进一步包括从所确定的每单位时间的音节数量或每次话语的音节数量来估算语速,并且使用所估算出的语速来改进其它口头语言处理应用。
6.如权利要求1所述的方法,进一步包括从所确定的每单位时间的音节数量或每次话语的音节数量来估算语速,并且通过基于所估算出的语速选择适当的声学模型,来使用所估算出的语速改进语音识别性能。
7.如权利要求1所述的方法,进一步包括从所确定的每单位时间的音节数量或每次话语的音节数量来估算语速,并且使用所估算出的语速来寻找在包括声音输入窗口的信号之内的语音的一段或多段情感片段。
8.如权利要求1所述的方法,其中,检测所述声音输入窗口中的一个或多个音节或元音或音素边界包括生成二进制决定或概率分数来在给出所述累积要点矢量中的一个或多个听觉注意力特征的情况下确定当前帧是否包含边界。
9.如权利要求1所述的方法,进一步包括确定听觉频谱,其中,确定所述听觉频谱涉及使所述声音输入窗口穿过模仿听觉系统的基膜与耳蜗核之间的传输的耳蜗滤波阶段、内毛细胞阶段以及横向抑制阶段。
10.如权利要求9所述的方法,其中所述耳蜗滤波阶段使用一组128个重叠恒定Q值非对称带通滤波器来实施。
11.如权利要求1所述的方法,其中,关于所述声音输入窗口的所述听觉频谱中的所述多尺度特征的之一表征与所述听觉频谱相关联的强度。
12.如权利要求11所述的方法,其中,关于所述声音输入窗口的所述听觉频谱中的所述多尺度特征的之一表征与所述听觉频谱相关联的频率对比。
13.如权利要求12所述的方法,其中,关于所述声音输入窗口的所述听觉频谱中的所述多尺度特征的之一表征与所述听觉频谱相关联的时间对比。
14.如权利要求13所述的方法,其中,关于所述声音输入窗口的所述听觉频谱中的所述多尺度特征的之一表征与所述听觉频谱相关联的取向。
15.如权利要求1所述的方法,其中,使用二进金字塔来获得关于所述声音输入窗口的所述听觉频谱中的所述多尺度特征的所述一个或多个多尺度特征。
16.如权利要求1所述的方法,其中,所述一个或多个特征图中的每个特征图通过计算同那个特定多尺度特征相关联的一个或多个中心尺度与同那个特定多尺度特征相关联的一个或多个周边尺度之间的差来获得。
17.如权利要求1所述的方法,其中,每个听觉要点矢量通过将其对应特征图划分成m乘n网格的子区域并且计算每个子区域的统计数据来确定。
18.如权利要求1所述的方法,其中,与要点矢量组合来使用另外的语音特征,以形成用于维数缩减的较大输入矢量。
19.如权利要求18所述的方法,其中,所述另外的语音特征包括基于帧的能量、基于帧的最大振幅、基于帧的过零率、基于帧的音素概率、作为具有音高振动的话音信号的基于帧的概率或由每个FFT频段所计算的基于帧的频谱变化率。
20.如权利要求1所述的方法,其中,获得累积要点矢量包括使用维数缩减方法来除去冗余或降低所述累积要点矢量的维数。
21.一种设备,包括:
处理器;
存储器;以及
包含在所述存储器中并且可由所述处理器执行的计算机编码指令,其中所述计算机编码指令被配置来实施用于音节/元音/音素边界检测的方法,所述方法包括:
从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;
生成对应于所述一个或多个多尺度特征的一个或多个特征图;
从所述一个或多个特征图中的每个提取听觉要点矢量;
通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量;
通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界;以及
使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量。
22.一种计算机程序产品,包括:
非临时性计算机可读存储介质,其具有包含在其中的计算机可读程序代码,所述计算机程序代码具有:
配置成当执行时从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征的计算机程序代码,其中每个多尺度特征使用单独的二维频谱时间接收滤波器提取;
配置成当执行时生成对应于所述一个或多个多尺度特征的一个或多个特征图的计算机程序代码;
配置成当执行时从所述一个或多个特征图中的每个提取听觉要点矢量的计算机程序代码;
配置成当执行时通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量的计算机程序代码;
配置成当执行时通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界的计算机程序代码;以及
配置成当执行时使用所述声音输入窗口中的一个或多个音节或元音或音素边界,确定每单位时间的音节数量或每次话语的音节数量的计算机程序代码。
CN201510346155.5A 2011-04-01 2011-11-02 使用听觉注意力线索的语音音节/元音/音素边界检测 Active CN105023573B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/078,866 US8756061B2 (en) 2011-04-01 2011-04-01 Speech syllable/vowel/phone boundary detection using auditory attention cues
US13/078,866 2011-04-01
CN201180069832.3A CN103503060B (zh) 2011-04-01 2011-11-02 使用听觉注意力线索的语音音节/元音/音素边界检测

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201180069832.3A Division CN103503060B (zh) 2011-04-01 2011-11-02 使用听觉注意力线索的语音音节/元音/音素边界检测

Publications (2)

Publication Number Publication Date
CN105023573A true CN105023573A (zh) 2015-11-04
CN105023573B CN105023573B (zh) 2018-10-09

Family

ID=46928421

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510346155.5A Active CN105023573B (zh) 2011-04-01 2011-11-02 使用听觉注意力线索的语音音节/元音/音素边界检测
CN201180069832.3A Active CN103503060B (zh) 2011-04-01 2011-11-02 使用听觉注意力线索的语音音节/元音/音素边界检测

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201180069832.3A Active CN103503060B (zh) 2011-04-01 2011-11-02 使用听觉注意力线索的语音音节/元音/音素边界检测

Country Status (6)

Country Link
US (2) US8756061B2 (zh)
EP (1) EP2695160B1 (zh)
JP (2) JP5897107B2 (zh)
KR (1) KR20130133858A (zh)
CN (2) CN105023573B (zh)
WO (1) WO2012134541A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945809A (zh) * 2017-05-02 2018-04-20 大连民族大学 一种复调音乐多音高估计方法
CN110033782A (zh) * 2019-04-11 2019-07-19 腾讯音乐娱乐科技(深圳)有限公司 单位时间内音节数量的计算方法及相关装置
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110226201A (zh) * 2017-02-24 2019-09-10 国际商业机器公司 利用周期指示的声音识别
CN113259814A (zh) * 2020-02-11 2021-08-13 迪芬尼声学科技股份有限公司 检测音频反馈的方法和音频处理系统及其用途

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
EP2645364B1 (en) * 2012-03-29 2019-05-08 Honda Research Institute Europe GmbH Spoken dialog system using prominence
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9767791B2 (en) * 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
KR102272453B1 (ko) 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
WO2016095218A1 (en) 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
TWI576834B (zh) 2015-03-02 2017-04-01 聯詠科技股份有限公司 聲頻訊號的雜訊偵測方法與裝置
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105976811B (zh) * 2016-04-27 2019-07-12 四川大学 一种包含声母的音节切分方法及装置
CN109313900A (zh) * 2016-06-15 2019-02-05 索尼公司 信息处理设备和信息处理方法
EP3510592A4 (en) * 2016-09-12 2020-04-29 Speech Morphing Systems, Inc. METHOD AND APPARATUS FOR CLASSIFYING A REPRESENTATIVE SEGMENT
KR102017244B1 (ko) 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
CN111201565A (zh) 2017-05-24 2020-05-26 调节股份有限公司 用于声对声转换的系统和方法
KR20200026295A (ko) * 2017-07-10 2020-03-10 복스 프론테라, 인크. 음절 기반 자동 음성 인식
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108766418B (zh) * 2018-05-24 2020-01-14 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
JP7159655B2 (ja) * 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109065070B (zh) * 2018-08-29 2022-07-19 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN109377981B (zh) * 2018-11-22 2021-07-23 四川长虹电器股份有限公司 音素对齐的方法及装置
US20220068266A1 (en) * 2018-12-21 2022-03-03 Nura Holdings Pty Ltd Speech recognition using multiple sensors
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
KR102163862B1 (ko) * 2019-03-25 2020-10-12 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN110619867B (zh) * 2019-09-27 2020-11-03 百度在线网络技术(北京)有限公司 语音合成模型的训练方法、装置、电子设备及存储介质
CN111063335B (zh) * 2019-12-18 2022-08-09 新疆大学 一种基于神经网络的端到端声调识别方法
CN111312224B (zh) * 2020-02-20 2023-04-21 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN113628612A (zh) * 2020-05-07 2021-11-09 北京三星通信技术研究有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN113611281A (zh) * 2021-07-16 2021-11-05 北京捷通华声科技股份有限公司 一种语音合成方法、装置、电子设备及存储介质
CN114267375B (zh) * 2021-11-24 2022-10-28 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979212A (en) * 1986-08-21 1990-12-18 Oki Electric Industry Co., Ltd. Speech recognition system in which voiced intervals are broken into segments that may have unequal durations
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US20060025989A1 (en) * 2004-07-28 2006-02-02 Nima Mesgarani Discrimination of components of audio signals based on multiscale spectro-temporal modulations
CN101315733A (zh) * 2008-07-17 2008-12-03 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习系统发音评测的自适应方法
US20100121638A1 (en) * 2008-11-12 2010-05-13 Mark Pinson System and method for automatic speech to text conversion

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4594575A (en) 1984-07-30 1986-06-10 Ncr Corporation Digital processor for speech signals
US4975960A (en) 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
JPH02205897A (ja) * 1989-02-03 1990-08-15 Toshiba Corp 有音検出装置
JPH05257496A (ja) * 1992-03-12 1993-10-08 Sekisui Chem Co Ltd 単語認識方式
US5586215A (en) 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP2924555B2 (ja) 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5852669A (en) 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US5806036A (en) 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6185529B1 (en) 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US7117157B1 (en) 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
DE60236161D1 (de) 2001-07-20 2010-06-10 Gracenote Inc Automatische identifizierung von klangaufzeichnungen
US7209883B2 (en) 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7165029B2 (en) 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7472063B2 (en) 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7091409B2 (en) 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
US7454342B2 (en) 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
WO2006025422A1 (ja) 2004-09-01 2006-03-09 Pioneer Corporation 処理制御装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体
US7392187B2 (en) 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
JP4851447B2 (ja) 2005-06-09 2012-01-11 株式会社エイ・ジー・アイ ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
US7518631B2 (en) 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP2006031033A (ja) 2005-08-01 2006-02-02 Toshiba Corp 情報処理装置
US8209182B2 (en) 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
GB2433150B (en) 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
DE102006008260B3 (de) 2006-02-22 2007-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Analyse eines Audiodatums
US8825149B2 (en) 2006-05-11 2014-09-02 Northwestern University Systems and methods for measuring complex auditory brainstem response
CN101346758B (zh) 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
US8355915B2 (en) 2006-11-30 2013-01-15 Rao Ashwin P Multimodal speech recognition system
JP5245255B2 (ja) 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US8965762B2 (en) 2007-02-16 2015-02-24 Industrial Technology Research Institute Bimodal emotion recognition method and system utilizing a support vector machine
GB0703974D0 (en) 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
KR100925479B1 (ko) 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
JP2010230695A (ja) 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8442832B2 (en) 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
EP2406787B1 (en) 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8406925B2 (en) 2009-07-01 2013-03-26 Honda Motor Co., Ltd. Panoramic attention for humanoid robots
US9511289B2 (en) 2009-07-10 2016-12-06 Valve Corporation Player biofeedback for dynamically controlling a video game state
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US9058818B2 (en) 2009-10-22 2015-06-16 Broadcom Corporation User attribute derivation and update for network/peer assisted speech coding
US8600749B2 (en) 2009-12-08 2013-12-03 At&T Intellectual Property I, L.P. System and method for training adaptation-specific acoustic models for automatic speech recognition
US9070360B2 (en) 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9548054B2 (en) 2012-05-11 2017-01-17 Mediatek Inc. Speaker authentication methods and related methods of electronic devices using calendar data
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979212A (en) * 1986-08-21 1990-12-18 Oki Electric Industry Co., Ltd. Speech recognition system in which voiced intervals are broken into segments that may have unequal durations
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US20060025989A1 (en) * 2004-07-28 2006-02-02 Nima Mesgarani Discrimination of components of audio signals based on multiscale spectro-temporal modulations
CN101315733A (zh) * 2008-07-17 2008-12-03 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习系统发音评测的自适应方法
US20100121638A1 (en) * 2008-11-12 2010-05-13 Mark Pinson System and method for automatic speech to text conversion

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OZLEM KALINLI: "biologically inspired auditory attention models with applications in speech and audio processing", 《FACULTY OF THE USC GRADUATE SCHOOL UNIVERSITY OF SOUTHERN CALIFORNIA》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110226201A (zh) * 2017-02-24 2019-09-10 国际商业机器公司 利用周期指示的声音识别
CN110226201B (zh) * 2017-02-24 2023-09-08 国际商业机器公司 利用周期指示的声音识别
CN107945809A (zh) * 2017-05-02 2018-04-20 大连民族大学 一种复调音乐多音高估计方法
CN107945809B (zh) * 2017-05-02 2021-11-09 大连民族大学 一种复调音乐多音高估计方法
CN110033782A (zh) * 2019-04-11 2019-07-19 腾讯音乐娱乐科技(深圳)有限公司 单位时间内音节数量的计算方法及相关装置
WO2020206975A1 (zh) * 2019-04-11 2020-10-15 腾讯音乐娱乐科技(深圳)有限公司 单位时间内音节数量的计算方法及相关装置
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110211574B (zh) * 2019-06-03 2022-03-11 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN113259814A (zh) * 2020-02-11 2021-08-13 迪芬尼声学科技股份有限公司 检测音频反馈的方法和音频处理系统及其用途
CN113259814B (zh) * 2020-02-11 2023-02-17 迪芬尼声学科技股份有限公司 检测音频反馈的方法和音频处理系统及其用途

Also Published As

Publication number Publication date
JP2014512572A (ja) 2014-05-22
KR20130133858A (ko) 2013-12-09
US20150073794A1 (en) 2015-03-12
JP6198872B2 (ja) 2017-09-20
US20120253812A1 (en) 2012-10-04
EP2695160A1 (en) 2014-02-12
CN103503060A (zh) 2014-01-08
US8756061B2 (en) 2014-06-17
JP2016128935A (ja) 2016-07-14
EP2695160A4 (en) 2015-03-18
CN105023573B (zh) 2018-10-09
CN103503060B (zh) 2015-07-22
WO2012134541A1 (en) 2012-10-04
US9251783B2 (en) 2016-02-02
JP5897107B2 (ja) 2016-03-30
EP2695160B1 (en) 2020-01-08

Similar Documents

Publication Publication Date Title
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
US10424289B2 (en) Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors
CN103765506B (zh) 使用听觉注意线索进行音调/语调识别的方法
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
CN106486131B (zh) 一种语音去噪的方法及装置
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
EP1850328A1 (en) Enhancement and extraction of formants of voice signals
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Le et al. A study of voice source and vocal tract filter based features in cognitive load classification
Gómez-García et al. An insight to the automatic categorization of speakers according to sex and its application to the detection of voice pathologies: A comparative study
Beke et al. Automatic phrase segmentation and clustering in spontaneous speech
Joshi et al. Improvements in Brazilian Portuguese Speech Emotion Recognition and its extension to Latin Corpora
Leow Image processing techniques for speech signal processing
kumar Vuppala et al. Significance of speech enhancement and sonorant regions of speech for robust language identification
Zhang et al. The influence of fundamental frequency on speaker recognition system
Cherifa Efficient Training of GMM Based Speaker Recognition System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Tokyo, Japan, Japan

Patentee after: SONY COMP ENTERTAINMENT INC.

Address before: Tokyo, Japan, Japan

Patentee before: Sony Computer Entertainment, Inc.