CN103503060B

CN103503060B - 使用听觉注意力线索的语音音节/元音/音素边界检测

Info

Publication number: CN103503060B
Application number: CN201180069832.3A
Authority: CN
Inventors: O.卡琳里; 陈如新
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2011-04-01
Filing date: 2011-11-02
Publication date: 2015-07-22
Anticipated expiration: 2031-11-02
Also published as: EP2695160A1; US20120253812A1; JP2016128935A; WO2012134541A1; JP2014512572A; CN103503060A; JP5897107B2; US9251783B2; US8756061B2; CN105023573B; JP6198872B2; US20150073794A1; KR20130133858A; EP2695160B1; CN105023573A; EP2695160A4

Abstract

在讲话期间的音节或元音或音素边界检测中，可以针对声音输入窗口确定听觉频谱并且可以从所述听觉频谱中提取一个或多个多尺度特征。可以使用单独的二维频谱时间接收滤波器来提取每个多尺度特征。可以生成对应于所述一个或多个多尺度特征的一个或多个特征图，并且可以从所述一个或多个特征图中的每个提取听觉要点矢量。可以通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量。可以通过使用机器学习算法将所述累积要点矢量映射到一个或多个音节或元音或音素边界特性来检测所述声音输入窗口中的一个或多个音节或元音或音素边界。

Description

使用听觉注意力线索的语音音节/元音/音素边界检测

技术领域

本发明的实施方案与口头语言处理有关，并且更具体地说，与在有或没有其它传统语音特征的情况下使用听觉注意力线索对音素、元音或音节边界进行检测有关。

背景技术

语音识别系统已经成为一种用于计算机系统的常见输入形式。典型的语音识别系统捕捉可听信号并进行分析以获得人类语音的可识别分量。将语音分割成多个单元(如音素、音节或元音)提供了关于语音的音位和节奏方面的信息。音素(phoneme)(有时被称为音素(phone))通常被视为语音的最小的有意义的音位片段。音素包括元音和辅音。术语“音节”用来描述由单独的元音或者之前或之后有辅音的元音组成的语音片段。通常，元音构成音节核。因此，音素、元音以及音节边界的检测在语音识别和自然语言理解中起着重要的作用。在许多口头语言处理应用程序中，确定样本语音信号内音节在何处开始和结束是有用的。由于口语音节通常包括元音部分作为音节核并且可能包括或可能不包括辅音部分，因此对于音节边界检测的重要关键是音节内的元音和/或元音边界的检测。音素边界可以在有或没有听觉注意力线索的情况下通过使用较传统的特征(如能量、话音概率、过零、不同FFT频段下的频谱变化率、倒谱、差分倒谱以及差分-差分倒谱、基于帧的音素概率、通过分析唇部的视频图像得到的唇部运动)在检测元音或音节边界之后进行检测。

研究人员已经发现了表明音节是人类语音感知的最重要的要素之一的支持论据。将语音分割成多个音节单元提供了关于语速、节奏、韵律以及语音识别和语音合成的洞察。音节包含响度的中央峰(音节核)，其通常是元音，以及围绕此中央峰群集的辅音。文献中的大部分作品集中于音节核检测，因为与精确的音节边界相比，可以更可靠且更容易地定位音节核。对于音节核检测，大部分现有方法依赖于从所提取的短时间声学特征估算一维连续曲线并且在所述曲线上进行峰值搜索来定位音节核。一些用于定位音节核的声学特征包括在选定临界频带中的能量、线性预测编码频谱、基于子频带的相关性、音高、清浊等。此领域中的现有技术作品的一些实例包括：

“Robust Speech Rate Estimation for Spontaneous Speech”，Dagen Wang和Shrikanth S.Narayanan，IEEE TRANSACTIONS ON AUDIO,SPEECH,ANDLANGUAGE PROCESSING，第15卷，第8号，2007年11月，第2190至2201页。

“Segmentation of Speech into Syllable-like units”，T.Nagarajan等， EUROSPEECH2003–日内瓦，第2893至2896页。

“Speech rhythm guided syllable nuclei detection”，Y.Zhang和J.Glass，Proceedings of the IEEE International Conference on Acoustics,Speech,andSignal Processing，第3797至3800页，台湾台北，2009年4月。

通常，这些传统方法需要调整许多参数，这是不希望的，因为它使得很难将这些方法用于不同的设定或条件；即，新数据、新条件，如说话风格、噪声条件等。此外，所述传统方法通常集中于含糊的音节核检测。

正是在这种背景下出现了本发明的实施方案。

附图说明

通过结合附图参考以下详细描述，可以容易地理解本发明的实施方案。

图1A是示出根据本发明的一个实施方案的用于在语音中进行音节/元音/音素边界检测的方法的流程图。

图1B至图1F是示出可以在本发明的多个实施方案中使用的频谱时间接收滤波器的多个实施例的示意图。

图1G是示出根据本发明的一个实施方案的用于通过使用传统语音特征和累积要点矢量的组合来在语音中进行音节/元音/音素边界检测的方法的流程图。

图2是示出根据本发明的一个实施方案的用于在语音中进行音节/元音/音素边界检测的设备的方框图。

图3是示出根据本发明的一个实施方案的用于在语音中进行音节/元音/音素边界检测的设备的单元处理器实施方式的实施例的方框图。

图4示出了根据本发明的一个实施方案的具有用于在语音识别中实施音节/元音/音素边界检测的指令的非临时性计算机可读存储介质的实施例。

具体实施方式

本发明的实施方案涉及使用听觉注意力线索来在语音中进行音节/元音/音素边界检测的口头语言处理方法和设备。不同于集中于含糊的音节核检测的传统方法，本发明的实施方案可以获得更详细的帧级音节/元音/音素边界信息。与传统方法不同，根据本发明的实施方案的方法和系统使用听觉注意力线索来在语音中进行音素边界、元音边界和/或音节边界检测。所述注意力特征是生物学所启发的并且通过使用二维频谱时间滤波器来捕捉声音中的信号特性变化，因而成功地在语音中检测元音和/或音节。此外，所述听觉注意力特征可以与传统语音特征相结合用于音素/元音/音节边界检测。

图1A是示出根据本发明的一个实施方案的用于使用听觉注意力线索在语音中进行音节/元音/音素边界检测的方法的流程图。听觉注意力模型是生物学所启发的并且模仿人类听觉系统中的处理阶段。其被设计来确定何时何地声音信号吸引人类注意力。

最初，接收声音输入窗口101。通过举例的方式，而非通过限制的方式，此声音输入窗口101可以使用麦克风在某个有限的持续时间的时间窗口内来捕捉，所述麦克风起作用来将表征特定声音输入窗口101的声波转换成电信号以供进一步处理。声音输入窗口101可以是个人的语音的任何片段。通过举例的方式，而非通过限制的方式，声音输入窗口101可以包含单一音节、单词、句子或这些的任何组合。

然后，将声音输入窗口101传递通过一组处理阶段103，其操作来将此声音窗口101转换成音频频谱105。这些处理阶段103可以基于听觉系统(如人类听觉系统)的早期处理阶段。通过举例的方式，而非通过限制的方式，处理阶段103可以由模仿听觉系统中的从基膜到耳蜗核的过程的耳蜗滤波、内毛细胞以及横向抑制阶段组成。所述耳蜗滤波可以使用具有沿对数频率轴均匀分布的中心频率的一组128个重叠的恒定Q值非对称带通滤波器来实施。这些滤波器可以通过适当配置的电子硬件来实施，所述电子硬件可能是为特定目的而制造的。替代地，所述滤波器可以在被编程具有实施所述滤波器的功能的软件的通用计算机上实施。对于分析，可以使用具有10ms移位的20ms音频帧，这造成每个音频帧由128维矢量来表示。

一旦声音输入窗口101已被转换成听觉频谱105，便通过提取多尺度特征117来分析所述频谱105，如在107处所指示，所述提取是通过模仿中枢听觉系统中的信息处理阶段来进行的。听觉注意力可以通过各种各样的声学特征(如强度(或能量)、频率、时间、音高、音色、FM方向或斜率(此处称为“取向”)等)来捕捉或自发地指向所述声学特征。这些特征可以被选择并实施来模仿初级听觉皮层中的接收域。

通过举例的方式，而非通过限制的方式，可以被包括在所述模型中来涵盖前述特征的四个特征是强度(I)、频率对比(F)、时间对比(T)以及取向(Oθ)，其中θ={45°,135°}。所述强度特征捕捉与所述信号的强度或能量有关的信号特性。所述频率对比特征捕捉与所述信号的频谱(频率)变化有关的信号特性。所述时间对比特征捕捉与所述信号中的时间变化有关的信号特性。取向滤波器对于所述信号中的移动波纹敏感。

每个特征可以使用二维频谱时间接收滤波器109、111、113、115来提取，所述滤波器模仿初级听觉皮层中的某些接收域。图1B至图1F分别示出接收滤波器(RF)109、111、113、115的实施例。被模拟用于特征提取的接收滤波器(RF)109、111、113、115中的每一个用对应于正在提取的特征的灰度图像进行示出。激发相110和抑制相112分别用白色和黑色进行展示。

这些滤波器109、111、113、115中的每一个能够检测并捕捉信号特性的某些变化。例如，图1B中所示出的强度滤波器109可以被配置来模仿听觉皮层中的仅具有选择性用于特定区域的激发相的接收域，使得其检测并捕捉声音输入窗口的持续时间内的强度/能量的变化。类似地，图1C中所描绘的频率对比滤波器111可以被配置来对应于初级听觉皮层中的具有激发相和同时对称抑制边频带的接收域。图1D中所示出的时间对比滤波器113可以被配置来对应于具有抑制相和后续激发相的接收域。

可以认为，听觉频谱类似于视觉中的场景图像并且这些特征中的一些被调整到不同的局部有向边；即，频率对比特征被调整到局部水平有向边，这可以有益于检测并捕捉共振峰及其变化。换句话说，图1C中所展示的频率对比滤波器111检测并捕捉声音窗口的持续时间内的频谱变化。图1D中所展示的时间对比滤波器113检测并捕捉时间域中的变化。取向滤波器115’和115”模仿对移动波纹的听觉神经元响应的动态。如图1E所展示，取向滤波器115’可以被配置成具有拥有45°取向的激发相和抑制相来检测并捕捉何时纹波正在向上移动。类似地，如图1F所展示，取向滤波器115”可以被配置成具有拥有135°取向的激发相和抑制相来检测并捕捉何时纹波正在向下移动。重要的一点是，在所述模型中，所述特征对比是经计算得到的而非绝对的特征强度，这对于变化点/边界检测和分割是至关重要的。

用于产生频率对比111、时间对比113以及取向特征115的RF可以使用具有不同角度的二维Gabor滤波器来实施。用于频率对比和时间对比特征的滤波器可以分别被理解为水平取向滤波器和垂直取向滤波器，并且可以用具有0°和90°取向的二维Gabor滤波器来实施。类似地，取向特征可以使用具有{45°,135°}取向的二维Gabor滤波器来提取。用于产生强度特征109的RF是使用二维高斯核来实施。

特征提取107是使用多尺度平台来完成。用于产生给定数据组的尺度空间表示的动机源于物体在不同尺度上由不同结构组成的基本观察。对于分析一组未知数据的系统来说，没有办法先验地知道什么尺度对于描述与所述数据相关联的引起关注的结构是适当的。因此，唯一合理的途径是考虑多个尺度上的描述以便捕捉可能发生的未知尺度变更。在本发明的实施方案中，多尺度特征117可以使用二进金字塔来获得(即，以二为因子来滤波和抽取输入频谱，并且重复此过程)。因而，创建了8个尺度(如果窗口持续时间大于1.28秒，否则有较少尺度)，从而得到了范围从1:1(尺度1)至1:128(尺度8)的大小缩减因子。

在获得多尺度特征117之后，使用那些多尺度特征117生成特征图121，如在119处所指示。这是通过计算“中心-周边”差异来完成的，其涉及将“中心”(精细)尺度与“周边”(较粗糙)尺度进行比较。所述中心-周边操作模仿局部皮层抑制性质并且检测局部时间和空间不连续性。其是通过“中心”精细尺度(c)与“周边”较粗糙尺度(s)之间的跨尺度减法()来模拟的，从而得到了特征图M∈{I,F,T,O_θ}。两种尺度之间的跨尺度减法是通过内插到较精细尺度和逐点减法来计算的。通过举例的方式，而非通过限制的方式，可以使用c={2,3,4}，s=c+δ，其中δ∈{3,4}，当以八个尺度提取特征时，这形成了总共30个特征图。

接下来，如在123处所指示，从I、F、T、O_θ的每个特征图121中提取出“听觉要点”矢量125，使得听觉要点矢量125的总和以低分辨率覆盖整个输入声音窗口101。为了针对给定特征图121确定听觉要点矢量125，首先将特征图121划分为m乘n网格的子区域，并且可以计算每个子区域的统计数据，如最大值、最小值、平均值、标准偏差等。通过举例的方式，而非通过限制的方式，可以计算每个子区域的平均值来捕捉所述图的整体性质。对于具有高度h和宽度w的特征图M_i，所述听觉要点矢量的计算可以写为：

G_{i}^{k, l} = \frac{mn}{wh} Σ_{u = \frac{kw}{n}}^{\frac{(k + 1) w}{n} - 1} Σ_{&upsi; = \frac{lh}{m}}^{\frac{(l + 1) h}{m} - 1} M_{i} (u, &upsi;),

其中

k={0，...，n-1}，l={0,...,m-1}。

听觉要点矢量提取123的其中m=4、n=5的一个实施例在图1中展示，其中展示了20维听觉要点矢量125来代表特征图。提供m和n的这些特定值是为了举例的缘故，而非作为对本发明的任何实施方案的限制。

在从每个特征图121提取听觉要点矢量125之后，所述听觉要点矢量被放大并组合来创建累积要点矢量127。累积要点矢量127可以另外经受维数缩减129技术来减少维数和冗余，以便使得音节/元音/音素边界检测更为实用。通过举例的方式而非通过限制的方式，主分量分析(PCA)可以用于维数缩减129。维数缩减129的结果是最终特征，在本文中称为听觉要点特征127’，其以较少维数传达累积要点矢量127中的信息。PCA常常用作图案识别的主要技术。如通常所理解的，PCA在数学上被定义为将数据变换到新的坐标系中的正交线性变换，使得所述数据的任何投影的最大方差位于第一坐标上(称为第一主分量)，第二大方差位于第二坐标上，以此类推。PCA可以在被编程具有适当配置的软件的计算机上实施。可以通过PCA实施维数缩减的市售软件的实例包括美国马萨诸塞州纳提克的MathWorks公司的Matlab或在新西兰的怀卡托大学开发的Weka机器学习软件。替代地，其它线性和非线性维数缩减技术(如因子分析、内核PCA、线性判别分析(LDA)等)可以用来实施维数缩减129。

最后，在已经确定表征输入声音窗口101的听觉要点特征127’之后，可以从所述听觉要点特征中检测音素边界、元音边界、音节核或音节边界。为了对给定输入声音窗口执行此类检测，可以使用机器学习算法131(如神经网络、最近邻分类器、决策树等)来发现累积要点矢量127与所述音素边界、元音边界、音节核或音节边界之间的映射。通过举例的方式而非通过限制的方式，神经网络可以用作机器学习算法131，因为其具有良好的生物学依据。在这种情况下，在给出与其相关联的累积要点矢量的情况下，神经网络131可以识别输入声音内的音素边界、元音边界、音节核或音节边界。

如本文所使用的，术语“神经网络”指代互连的天然或人工神经元群组，其使用用于基于联结方法来计算的信息处理的计算/数学模型。神经网络是基于流动通过网络的外部或内部信息而改变结构的自适应系统。其用来实施非线性统计数据建模，并且可以用来为输入与输出之间的复杂关系建模。在本发明的实施方案中，神经网络可以用于学习由累积听觉要点矢量127或听觉要点特征127’所表示的听觉要点特征群组与一个或多个音素边界、元音边界、音节核或音节边界之间的映射。通过举例的方式，而非通过限制的方式，可以使用3层式神经网络。神经网络可以具有D个输入、(D+N)/2个隐藏节点以及N个输出节点，其中D是在PCA维数缩减之后的听觉要点特征的长度并且N是有待要区分的类别的数量；即，对于音素/元音/音节边界检测，N可以等于二来决定帧是否为边界。

可以用两种方式使用神经网络输出估算：i)硬决定；ii)软决定。在硬决定中，神经网络的最终决定用作二进制决定；例如，如果帧存在边界，那么其输出一，否则输出零。在软决定中，在给出注意力特征的情况下，神经网络的概率分数(其为[0,1]之间的值)可以用作当前帧为边界的后验概率。另外，在软决定中，所述估算的后验概率可以被馈送到另一系统中，并且与来自另一来源的信息进行组合来进一步改进任一系统的性能。例如，边界信息可以用来改进语音识别性能，或者来自语音识别引擎的互补信息可以用来进一步改进边界检测性能，等等。此外，本发明的某些实施方案可以任选地还提供关于片段中的音节数量的信息，例如，每秒或每次话语的音节数量，其可以用于估算语速。然后，所述估算的语速可以用来改进其它口头语言处理应用程序，如通过基于所述语速选择适当的声学模型或者寻找语音的情感片段等来改进语音识别性能。

所述音节/音素/元音边界信息可以单独来使用，或用来改进其它口头语言处理系统，如语音识别。此外，可以将所述音素/元音/音节边界认为是分级系统。来自一种类型的边界的信息也可以用来改进另一种类型的边界；即，元音边界信息可以用来改进音素边界或音节边界检测。此外，本发明的实施方案可以用于所有类型的语音和言说风格以及噪声条件的分析；即，孤立的语音、连续的语音、自发的语音、朗读的语音、清晰/嘈杂的语音等。

图1G是示出根据本发明的一个替代性实施方案的用于使用听觉注意力线索以及传统语音特征来在语音中进行音节/元音/音素边界检测的方法140的流程图。在方法140中，累积要点矢量147可以从对输入声音窗口的分析来生成，例如，如上文关于图1A所描述。此外，常规语音特征148可以从使用常规方法对相同的输入声音窗口进行常规分析而生成。通过举例的方式，而非通过限制的方式，所述常规特征可以包括(但不限于)基于帧的能量、基于帧的最大语音振幅、过零率、基于帧的音素概率、基于帧的话音概率、不同FFT频段下的频谱变化率、倒谱以及差分倒谱和差分差分倒谱、从视频中捕捉的唇部运动。

累积要点矢量147和传统特征148可以用作用于维数缩减模块149的输入，所述维数缩减模块可以减少这些输入中的维数和冗余来使得音节/元音/音素边界检测更为实用。维数缩减模块149可以如上文关于图1A中的维数缩减129所描述来进行操作。通过举例的方式而非通过限制的方式，维数缩减模块149可以实施主分量分析(PCA)来减少累积要点矢量147和传统特征148的维数。维数缩减模块149的输出是听觉要点特征147’，其以较少维数传达累积要点矢量147和传统特征148中的信息并且表征所述声音输入窗口。听觉要点特征147’可以具有与上文关于图1A所描述的听觉要点特征127’共同的特征。

音素边界、元音边界、音节核或音节边界可以从听觉要点特征矢量147’中检测出来，例如，使用机器学习算法141来发现累积要点矢量147和或传统特征148与音素边界、元音边界、音节核或音节边界之间的映射。所述机器学习算法可以具有与图1A的机器学习算法131共同的特征。通过举例的方式，而非通过限制的方式，机器学习算法141可以使用神经网络、最近邻分类器、决策树等。

本发明的实施方案可以在适当配置的计算机设备上实施。图2示出根据本发明的一个实施方案的可以用于实施使用听觉注意力线索进行音素/音节/元音边界检测的方法的计算机设备的方框图。设备200大体上可以包括处理器模块201和存储器205。处理器模块201可以包括一个或多个处理器核心。使用多个处理器模块的处理系统的一个实施例是单元处理器，其实施例(例如)在可以在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf在线获得的Cell Broadband Engine Architecture中进行详细描述，所述文献以引用的方式并入本文中。

存储器205可以呈集成电路的形式，例如，RAM、DRAM、ROM等。存储器205还可以是可由所有处理器模块存取的主存储器。在一些实施方案中，处理器模块201可以具有与每个核心相关联的局部存储器。程序203可以按可以在所述处理器模块上执行的处理器可读指令的形式存储在主存储器205中。程序203可以被配置来使用听觉注意力线索对声音窗口执行音节/元音边界检测。程序203可以用任何合适的处理器可读语言写成，如C、C++、JAVA、汇编、MATLAB、FORTRAN以及许多其它语言。输入数据207也可以被存储在存储器中。这类输入数据207可以包括声音输入窗口、特征图或听觉要点矢量。在程序203的执行期间，程序代码和/或数据的多个部分可以被加载到存储器或处理器核心的局部存储装置中用于由多个处理器核心进行并行处理。

设备200还可以包括众所周知的支持功能209，如输入/输出(I/O)元件211、电源(P/S)213、时钟(CLK)215以及高速缓存217。设备200可以任选地包括大容量存储装置219(如磁盘驱动器、CD-ROM驱动器、磁带驱动器等)来存储程序和/或数据。装置200可以任选地包括显示器单元221、音频扬声器单元222以及用户接口单元225来方便所述设备与用户之间的交互。显示器单元221可以呈显示文字、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口225可以包括可以与图形用户界面(GUI)结合来使用的键盘、鼠标、操纵杆、光笔或其它装置。设备200还可以包括网络接口223来使得所述装置能够通过网络(如互联网)与其它装置进行通信。

在一些实施方案中，系统200可以包括任选的麦克风229，其可以是单一麦克风或麦克风阵列。麦克风229可以经由I/O元件211耦合到处理器201。通过举例的方式，而非通过限制的方式，可以使用麦克风229记录不同的声音输入窗口。

系统200的部件(包括处理器201、存储器205、支持功能209、大容量存储装置219、用户接口225、网络接口223以及显示器221)可以经由一个或多个数据总线227可操作地连接至彼此。这些部件可以用硬件、软件或固件或这些中的两个或更多个的某种组合来实施。

存在许多另外的方法来使所述设备中具有多个处理器的并行处理呈流线型。举例来说，有可能“展开”处理循环，例如，通过在两个或更多个处理器核心上复制代码并且使每个处理器核心实施代码来处理不同的数据块。这种实施方式可以避免与建立所述循环相关联的等待时间。如应用于本发明的多个实施方案，多个处理器可以从输入声音窗口中并行提取不同的特征。强度提取滤波器、频率对比提取滤波器、时间对比提取滤波器以及取向提取滤波器都可以同时处理听觉频谱，从而在不同处理器元件上并行实施的情况下有效得多地生成对应的多尺度特征。此外，还可以并行生成特征图以及其对应的听觉要点矢量。并行处理数据的能力节省了宝贵的处理时间，从而形成更有效率和流线型的用于在语音中进行音素/音节/元音边界检测的系统。

除了能够实施并行处理的处理系统的其它实施例以外，一个实施例被称为单元处理器。存在许多不同的可以被分类为单元处理器的处理器架构。通过举例的方式(但无限制)，图3示出了一种类型的单元处理器。单元处理器300包括主存储器301、单一功率处理器元件(PPE)307以及八个协同处理器元件(SPE)311。替代地，所述单元处理器可以被配置成具有任何数量的SPE。关于图3，存储器301、PPE307以及SPE311可以彼此以及与I/O装置315通过环型元件互连总线317进行通信。存储器301包含输入数据303，其具有与上文所描述的所述输入数据共同的特征，以及程序305，其具有与上文所描述的所述程序共同的特征。SPE311中的至少一个可以在其局部存储装置(LS)中包括音节/元音边界检测指令313和/或输入数据的有待被并行处理的部分，例如，如上文所描述。PPE307可以在其L1高速缓存中包括具有与上文所描述的所述程序共同的特征的音节/元音边界检测指令309。指令305和数据303也可以被存储在存储器301中用于在需要时由SPE311和PPE307进行存取。

通过举例的方式，而非通过限制的方式，不同的SPE311可以实施多尺度特征117的提取。具体来说，不同的SPE311可以分别专用于强度(I)、频率对比(F)、时间对比(T)以及取向(O_θ)特征从频谱中的并行提取。类似地，不同的SPE311可以分别实施强度(I)、频率对比(F)、时间对比(T)以及取向(O_θ)特征的特征图生成119或听觉要点矢量提取123。

通过举例的方式，PPE307可以是具有相关联高速缓存的64位PowerPC处理器单元(PPU)。PPE307可以包括任选的矢量多媒体扩展单元。每个SPE311包括协同处理器单元(SPU)和局部存储装置(LS)。在一些实施方式中，所述局部存储装置可以具有(例如)约256千字节的存储器容量用于程序和数据。SPU是没有PPU那么复杂的计算单元，因为其通常不执行系统管理功能。SPU可以具有单指令多数据(SIMD)能力，并且通常处理数据并启始任何所需的数据传送(服从于由PPE所设定的存取属性)以便执行其被分派的任务。SPE311允许所述系统实施需要较高计算单元密度的应用程序，并且可以有效地使用所提供的指令集。由PPE307管理大量SPE311允许在宽范围的应用程序上具有具成本效益的处理。通过举例的方式，单元处理器可以由被称为单元宽带引擎架构(CBEA)的架构表征。在顺应CBEA的架构中，多个PPE可以被组合成PPE群组，并且多个SPE可以被组合成SPE群组。为了举例的目的，所述单元处理器被描绘为仅具有拥有单一SPE和单一PPE的单一SPE群组和单一PPE群组。替代地，单元处理器可以包括多个功率处理器元件群组(PPE群组)和多个协同处理器元件群组(SPE群组)。顺应CBEA的处理器(例如)在可以在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdf在线获得的Cell Broadband Engine Architecture中进行详细描述，所述文献以引用的方式并入本文中。

根据另一实施方案，用于使用听觉注意力线索进行音素/音节/元音边界检测的指令可以被存储在计算机可读存储介质中。通过举例的方式，而非通过限制的方式，图4示出了根据本发明的一个实施方案的非临时性计算机可读存储介质400的一个实施例。存储介质400包含以可以由计算机处理装置检索、解释并执行的格式存储的计算机可读指令。通过举例的方式，而非通过限制的方式，计算机可读存储介质400可以是计算机可读存储器(如随机存取存储器(RAM)或只读存储器(ROM))、用于固定磁盘驱动器(例如，硬盘驱动器)的计算机可读存储磁盘，或可装卸磁盘驱动器。此外，计算机可读存储介质400可以是闪速存储器装置、计算机可读磁带、CD-ROM、DVD-ROM、蓝光、HD-DVD、UMD或其它光学存储介质。

存储介质400包含被配置来使用听觉注意力线索在语音中进行音节/元音/音素边界检测的音节/元音/音素边界检测指令401。音节/元音/音素边界检测指令401可以被配置来根据上文关于图1所描述的方法进行音节/元音/音素边界检测。具体来说，音节/元音/音素边界检测指令401可以任选地包括接收输入声音指令403，所述接收输入声音指令用来接收有待对其执行音节/元音/音素边界检测的声音输入窗口。所述声音输入窗口可以按计算机可读形式从录音或从在运行时由麦克风或麦克风阵列所现场捕捉的声音来获得。音节/元音/音素边界检测指令401可以进一步包括确定听觉频谱指令405，其使用如上文所描述的耳蜗滤波、内毛细胞以及横向抑制处理阶段来确定所述声音输入窗口的听觉频谱。

音节/元音/音素边界检测指令401还可以包括提取多尺度特征指令407，其在被执行时提取与听觉频谱相关联的多尺度特征。这些多尺度特征可以包括如上文所描述的强度、频率对比、时间对比以及取向。这可以进一步引发生成特征图指令409的执行，所述生成特征图指令在被执行时生成用于如上文所描述的所提取出的每个多尺度特征的对应特征图。此时，音节/元音/音素边界检测指令401可以实施提取听觉要点矢量指令411，其在被执行时提取用于每个特征图的多参数听觉要点矢量。

音节/元音/音素边界检测指令401可以另外包括获得累积要点矢量指令413，其在被执行时将所有听觉要点矢量放大并组合成单一累积要点矢量。累积要点矢量指令413还可以被配置来在被执行时实施主分量分析(PCA)以除去冗余并减少所述累积要点矢量的维数。音节/元音/音素边界检测指令401可以进一步包括检测音节/元音/音素边界指令415，其在被执行时将所述累积要点矢量映射到其对应的音素边界、元音边界、音节核或音节边界。

实验和结果

进行了许多音节分割实验来测试根据本发明的一个实施方案的音节边界检测与现有技术的音节检测技术。在所述音节分割实验中使用了TIMIT数据集。所述TIMIT语料库没有音节标注。来自NIST的音节化软件tsyllb2用于使用其音素转录来使单词音节化。然后，使用每个音节的由TIMIT所提供的音素级时序信息和音素序列来自动提取用于音节的时序信息。在所述实验中使用了官方TIMIT训练和测试分解。测试集包含1344个话语，其中包含约17190个音节。

在所述实验中，使用了3层式神经网络用于学习听觉要点特征与音节边界之间的映射。所述神经网络具有D个输入、(D+N)/2个隐藏节点以及N个输出节点，其中D是在PCA维数缩减(此时95％的方差被保留)之后的听觉要点矢量的长度，并且N是类别的数量，在这些特定实验中其是二；即，边界与非边界。使用以当前帧为中心的窗口每50ms对所述听觉要点特征进行估算来捕捉上下文。

在英语中，多音节单词的确切音节边界可能是模糊的；即，很难决定哪些辅音属于第一音节或第二音节。因此，所述实验被这样进行使得目标是为了估算音节核的末尾，在此处通常存在元音至辅音的过渡。可以使用相同的方法检测两个边界，即，音节核的开头和末尾；然而，此处，只有音节核的末尾被假定为有待检测的目标，使得每个音节只存在一次检测，这对于估算每话语/秒的音节数量是有用的。因此，在下面的讨论中，为了方便起见，术语“音节边界”将用来指代音节核的末尾。

音节边界检测允许50ms的误差容限。例如，如果在130ms处存在边界，那么在训练期间，对应于100ms和150ms处的帧的听觉要点特征都被标记为边界。类似地，在评估期间，在50ms内检测到的边界被接受为正确的。

在所述实验中，通过将持续时间从0.2s(其是平均音节持续时间)变化到0.4s来分析邻近左端上下文和右端上下文对性能的影响以研究窗口持续时间W的作用。所选的网格大小确定了时间和频谱分辨率。针对听觉要点提取对不同网格大小进行了测试以用于改变时间和频谱分辨率。结果发现，4乘10的网格大小是足够的，并且在具有合理的特征维数的音节边界检测中表现良好。此外，结果发现，提高频谱分辨率可以进一步改进结果；同时也增加了复杂性。

对于不同窗口持续时间的帧级音节边界检测性能连同听觉要点维数D一起被呈现在以下表Ⅰ中。增加窗口持续时间改进了音节边界检测性能，从而表明上下文信息有助于边界检测。所实现的最好性能是在W=0.4s时在帧级处的85.32％音节边界检测准确度。在以下表Ⅰ中报告的结果是原始神经网络输出分数。的确，实际的帧级准确度更高，因为对于每个音节边界检测其中一个帧是足够的；即，如果参考音节边界是在130ms处，那么神经网络预计边界在100ms和150ms处的两个帧，否则惩罚没有检测到的帧作为删除错误。

表I

本发明的实施方案相对于现有技术表现出某些差异和优势。具体来说，与采用短期声学特征(如临界频带中的能量、线性预测编码频谱、基于子频带的相关性、音高、清浊等)的现有技术不同，本发明的实施方案使用听觉注意力线索用于音节分割。传统方法需要参数调整，这使其特定于某个数据和设置。相反，在本发明的实施方案中，所述模型不需要参数调整。

此外，本发明的实施方案这样获得帧级结果使得对于每个帧都存在当前帧是音节边界的可能性。相反，现有技术旨在检测音节核周围的峰；例如，从核的开头之前约50ms到核的末尾之后约50ms；因而允许了较大的误差容限。本发明的实施方案可以按帧级获得更详细的信息。本发明的实施方案还可以提供关于片段中的音节数量的信息，例如，每秒或每次话语的音节数量，其可以用于估算语速。所述估算的语速可以用来改进其它口头语言处理应用程序，如通过基于所述语速选择适当的声学模型或者寻找语音的情感片段等来改进语音识别性能。

为了与其它方法相比较，还进行了音节核检测实验并且也获得了音节级结果。首先，训练神经网络，使得对应于音节核的中间的帧被标记为有待检测的目标。然后，使用软决定，使得所述神经网络概率分数用来创建作为时间的函数的一维曲线。然后，在所述曲线上进行峰值搜索以定位被算作检测到的音节核的局部最大值。如在其它方法中所做的那样，如果需要的话，在音节核周围容忍50ms的误差。所得结果连同来自文献中的以下参考的现有技术结果一起被呈现在表II中：

“Robust Speech Rate Estimation for Spontaneous Speech”，Dagen Wang和Shrikanth S.Narayanan，IEEE TRANSACTIONS ON AUDIO,SPEECH,ANDLANGUAGE PROCESSING，第15卷，第8号，2007年11月，第2190至2201页，其以引用的方式并入本文中。

“Speech rhythm guided syllable nuclei detection”，Y.Zhang和J.Glass，Proceedings of the IEEE International Conference on Acoustics,Speech,andSignal Processing，第3797至3800页，台湾台北，2009年4月，其以引用的方式并入本文中。

可以参考在以下表II中的F分数用于比较，因为其它方法精细调整了其参数来获得最佳的查准度和最佳的精确度，这两者不能在给定时间同时获得，而F分数(其等于)在给定时间考虑精确度和查准度两者。

表II

来自以上表II的结果显示根据本发明的实施方案的音节检测结果与现有技术在音节核检测方面表现一样好或比其更好。

虽然上文是对本发明的优选实施方案的完整描述，但可能的是使用各种替代方案、修改以及等同物。因此，本发明的范围不应参考上文的描述来确定，而是应参考所附的权利要求连同其等同物的全部范围来确定。本文所描述的任何特征(无论优选与否)都可以与本文所描述的任何其它特征(无论优选与否)相组合。在所附的权利要求中，除非另有明确陈述，否则不定冠词“一个(种)”指代跟在所述冠词之后的项目的一个或多个的数量。在所附的权利要求中，除非另有说明，否则词“或”应被理解为非排他性或。所附的权利要求不应被理解为包括装置加功能限制，除非在给定的权利要求中使用短语“用于......的装置”明确地接受这样的限制。

Claims

1.一种用于在语音中进行音节/元音/音素边界检测的方法，其包括：

a)从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征，其中每个多尺度特征是使用单独的二维频谱时间接收滤波器进行提取的；

b)生成对应于所述一个或多个多尺度特征的一个或多个特征图；

c)从所述一个或多个特征图中的每个提取听觉要点矢量；

d)通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量；以及

e)通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界。

2.如权利要求1所述的方法，其进一步包括使用在e)中所检测到的音节或元音或音素边界来从已识别的元音或音节或音素中提取词汇或语法意义。

3.如权利要求2所述的方法，其进一步包括显示或存储所述词汇或语法意义。

4.如权利要求1所述的方法，其中e)包括生成二进制决定或概率分数来在给出所述累积要点矢量中的一个或多个听觉注意力特征的情况下确定当前帧是否包含边界。

5.如权利要求1所述的方法，进一步包括：确定听觉频谱，其中确定所述听觉频谱涉及使所述声音输入窗口穿过模仿听觉系统的基膜与耳蜗核之间的传输的耳蜗滤波阶段、内毛细胞阶段以及横向抑制阶段。

6.如权利要求5所述的方法，其中所述耳蜗滤波阶段是使用一组128个重叠恒定Q值非对称带通滤波器来实施的。

7.如权利要求1所述的方法，其中a)中的所述多尺度特征中的一个表征与所述听觉频谱相关联的强度。

8.如权利要求7所述的方法，其中a)中的所述多尺度特征中的一个表征与所述听觉频谱相关联的频率对比。

9.如权利要求8所述的方法，其中a)中的所述多尺度特征中的一个表征与所述听觉频谱相关联的时间对比。

10.如权利要求9所述的方法，其中a)中的所述多尺度特征中的一个表征与所述听觉频谱相关联的取向。

11.如权利要求1所述的方法，其中a)中的所述一个或多个多尺度特征是使用二进金字塔来获得的。

12.如权利要求1所述的方法，其中b)中的每个特征图是通过计算同那个特定多尺度特征相关联的一个或多个中心尺度与同那个特定多尺度特征相关联的一个或多个周边尺度之间的差异来获得的。

13.如权利要求1所述的方法，其中c)中的每个听觉要点矢量是通过将其对应特征图划分成m乘n网格的子区域并且计算每个子区域的统计数据来确定的。

14.如权利要求1所述的方法，其中与要点矢量组合来使用另外的语音特征以形成用于维数缩减的较大输入矢量。

15.如权利要求14所述的方法，其中所述另外的语音特征包括基于帧的能量、基于帧的最大振幅、基于帧的过零率、基于帧的音素概率、作为具有音高振动的话音信号的基于帧的概率或由每个FFT频段所计算的基于帧的频谱变化率。

16.如权利要求1所述的方法，其中d)包括使用维数缩减方法来除去冗余或减少所述累积要点矢量的维数。

17.一种用于在语音识别中进行音节/元音边界检测的设备，其包括：

用于从关于声音输入窗口的听觉频谱中提取一个或多个多尺度特征的模块，其中每个多尺度特征是使用单独的二维频谱时间接收滤波器进行提取的；

用于生成对应于所述一个或多个多尺度特征的一个或多个特征图的模块；

用于从所述一个或多个特征图中的每个提取听觉要点矢量的模块；

用于通过放大从所述一个或多个特征图所提取的每个听觉要点矢量来获得累积要点矢量的模块；以及

用于通过将所述累积要点矢量映射到一个或多个音节或元音或音素边界来检测所述声音输入窗口中的一个或多个音节或元音或音素边界的模块。