CN103765506A

CN103765506A - 使用听觉注意线索进行音调/语调识别的方法

Info

Publication number: CN103765506A
Application number: CN201180063717.5A
Authority: CN
Inventors: O.卡林利
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2010-11-10
Filing date: 2011-09-19
Publication date: 2014-04-30
Anticipated expiration: 2031-09-19
Also published as: WO2012064408A2; US20120116756A1; US8676574B2; WO2012064408A3; CN103765506B

Abstract

在音调/语调识别的口语处理方法中，可以为输入窗的声音确定听觉谱，并且可以从听觉谱中提取一个或多个多尺度特征。每个多尺度特征使用单独二维频谱-空间接收滤波器来提取。可以生成与一个或多个多尺度特征相对应的一个或多个特征图，并且可以从一个或多个特征图的每一个中提取听觉要点矢量。可以通过扩大从一个或多个特征图中提取的每个听觉要点矢量获取累积要点矢量。可以通过使用机器学习算法将累积要点矢量映射到一个或多个音调特点确定与输入窗的声音相对应的一个或多个音调特点。

Description

使用听觉注意线索进行音调/语调识别的方法

技术领域

本发明的实施例涉及使用听觉注意线索实现语音的音调（tone）/语调（intonation）识别的方法。

背景技术

音调和语调在语音识别和自然语言理解中起着重要作用。在许多语言中，语调，即说话时音高（pitch）的变化可以用于强调、提出问题、或传达惊奇等。例如，在标准美式英语中，短语末端的升调往往指示说话者问一个问题，而不是作出声明（"He bought a car?"与"He bought a car."）。与英语和一些西方语言不同，像中文那样的音调语言使用音高来区分文字。

在音调语言中，具有完全相同的音素序列的音节或文字当它们具有不同的调型（即，等音高线）时往往映射到不同的词条。例如，文字“妈”（mā)、“麻”（má）、“马”（mǎ）和“骂”（mà）在普通话中都发成“ma”音，但它们的每一个具有不同的调型。

由于上述原因，详细描述音调和语调对于许多口语处理系统来说是有益的；即，以便在自动语音识别中消除文字的歧义，在对话系统中检测不同的语音行为，以及在语音合成系统中生成更自动发声的语音等。因此，这里，我们专注于普通话中的字调（lexical tone）的识别以及英语中的细粒度语调类型，即，音高重音（pitch accent）和边界音调（boundary tone）。

在文献中，对于英语，已经大量探讨了音高重音和边界音调的检测；但是，直到最近几年，对音高重音和边界音调类型的分类还研究得不多。以前，现有技术的口语处理技术通过建立具有无重音、高、低、和降阶重音类别的四路分类问题，综合音高重音检测和分类任务。近来，现有技术的口语处理技术不担心检测地唯一专注于音高重音和边界音调类别的分类。

与英语中的细粒度语调分类相比，普通话中的字调识别已经吸收研究人员的注意多年，一些做法可以分组在两个主要类别下：即嵌入式和显式音调建模。在嵌入式音调建模中，音调相关特征被扩大成每帧上的谱特征，并且被识别成现有系统的一部分，而在显式音调建模中，音调被独立地建模，并且通常使用前音段（supra-segmental）特征来识别。

在包括上述工作的传统方法中，像音高、持续时间、和能量特征那样的韵律特征被用于音调和语调建模。但是，这样的传统方法未提供足够的音调识别性能。

本发明的实施例就是在这种背景下出现的。

附图说明

通过参照结合附图的如下详细描述，可以容易理解本发明的实施例。

图1A是例示按照本发明实施例使用听觉注意线索进行音调/语调识别的方法的流程图；

图1B-1F是例示可以用在本发明实施例中的频谱-时间接收滤波器的例子的示意图；

图2A是例示与现有技术相比按照本发明实施例的音调识别的准确度的表格；

图2B是例示与现有技术相比按照本发明实施例的语调识别的准确度的表格；

图3是例示按照本发明实施例进行音调/语调识别的装置的方框图；

图4是例示按照本发明实施例进行音调/语调识别的装置的单元处理器实现的例子的方框图；以及

图5例示了含有按照本发明实施例实现音调/语调识别的指令的非短暂计算机可读存储介质的例子。

具体实施方式

本发明的实施例涉及将听觉注意线索用于音调和语调分类的口语处理方法和装置。

图1A是例示按照本发明实施例使用听觉注意线索进行音调/语调识别的方法的流程图。听觉注意模型受生物学启发，模仿出现在人类听觉系统中的处理阶段。它被设计成确定声音信号何时何地吸收人类注意。

首先，接收输入窗的声音101。举例来说，但非限制性地，这个输入窗的声音101可以使用麦克风在某个有限持续时间的时间窗内捕获，该麦克风将表征特定输入窗的声音101的声波转换成电信号以便作进一步处理。输入窗的声音101可以是人类语音的任何片段，举例来说，但非限制性地，输入窗的声音101可以包含单个音节、单词、句子、或它们的任何组合。尽管输入窗101可以是任何持续时间，但实验表明，使用持续时间为大约0.8秒的中心输入窗（即，捕获当前音节和如果窗口持续时间允许，延伸到前后音节的输入窗）可以达到音调类别识别的最高准确度。同样，音高重音语音识别使用持续时间为1.2秒的输入窗会使它的准确率最高。边界音调语音识别利用0.6秒的窗口持续时间可以达到89.9%的准确度。另外，对于较短的合理窗口持续时间也可以达到可比性能。

然后让输入窗的声音101通过一组处理级103，处理级103起将这个窗口的声音101转换成音频谱105的作用。这些处理级103可以基于像人类听觉系统那样的听觉系统的早期处理阶段。举例来说，但非限制性地，处理级103可以由模仿听觉系统中从基底膜到耳蜗核的处理的耳蜗滤波、内毛细胞、和侧向抑制阶段组成。耳蜗滤波可以使用中心频率沿着对数频率轴均匀分布的一列128个重叠恒Q非对称带通滤波器来实现。这些滤波器可以通过可以特制的适当配置电子硬件来实现。可替代地，滤波器可以在编有实现滤波器的功能的软件的通用计算机上实现。为了分析起见，可以使用位移10ms的20ms音频帧，这导致每个音频帧用128维向量表示。

一旦输入窗的声音101被转换成听觉谱105，就通过模仿中枢听觉系统中的信息处理阶段，如107所指，通过提取多尺度特征107分析频率105。听觉注意可以通过像强度（或能量）、频率、时间、音高、音品、FM方向和斜率（这里称为“取向”）等那样的多种多样声学特征来捕获，或自愿地指向这样的声学特征。这些特征可以被选来和实现成模仿主要（primary）听觉皮层中的感受域。

举例来说，但非限制性地，可以包括在包含上述特征的模型中的四种特征是强度（I）、频率对比（F）、时间对比（T）、和取向（O_θ），θ={45°，135°}。强度特征捕获与信号的强度或能量有关的信号特性。频率对比特征捕获与信号的频谱（频率）变化有关的信号特性。时间对比捕获与信号的随时间变化有关的信号特性。取向滤波器对信号中的运动涟漪敏感。

每种特征可以使用模仿主要听觉皮层中的某些感受域的二维频谱-时间接收滤波器109，111，113，115来提取。图1B-1F分别例示了接收滤波器（RF）109，111，113，115的例子。为特征提取而模拟的接收滤波器（RF）109，111，113，115的每一个利用与提取的特征相对应的灰色图像来例示。激发阶段110和抑制阶段112分别用白色和黑色显示。

这些滤波器109，111，113，115的每一个能够检测和捕获信号特性中的某些变化。例如，例示在图1B中的强度滤波器109可以配置成只利用可为特定区域选择的激发阶段模仿听觉皮层中的感受域，以便在声音输入窗的持续时间内检测和捕获强度/能量的变化。类似地，描绘在图1C中的频率对比滤波器111可以配置成利用激发阶段以及同时对称抑制边带与主要听觉皮层中的感受域相对应。例示在图1D中的时间对比滤波器113可以配置成利用抑制阶段以及随后激发阶段与感受域相对应。

显示在图1C中的频率对比滤波器111在声音窗口的持续时间内检测和捕获频谱变化。显示在图1D中的时间对比滤波器113检测和捕获时间域中的变化。取向滤波器115′和115″模仿听觉神经元响应运动涟漪的动态。取向滤波器115′可以配置成具有如图1E所示45°取向的激发和抑制阶段来检测和捕获涟漪向上运动的时间。类似地，取向滤波器115″可以配置成具有如图1F所示135°取向的激发和抑制阶段来检测和捕获涟漪向下运动的时间。因此，这些滤波器也捕获音高上升或下降的时间。

生成频率对比111、时间对比113和取向特征115的RF可以使用角度变化的二维Gabor滤波器来实现。用于频率和时间对比特征的滤波器可以分别理解为水平和垂直取向滤波器，可以利用0°和90°取向的二维Gabor滤波器来实现。类似地，取向特征可以使用{45°，135°}取向的二维Gabor滤波器来提取。生成强度特征109的RF使用二维高斯内核来实现。

特征提取107使用多尺度平台来完成。生成给定数据集的尺度空间表示的动机源于对象在不同尺度上由不同结构组成的基本观察。对于分析未知数据集的系统，没有办法知道什么尺度适合与数据相关联的结构的先验。因此，唯一合理的做法是考虑在多个尺度上的描述，以便捕获可能发生的未知尺度变化。在本发明的实施例中，多尺度特征117可以使用二元金字塔（dyadicpyramid）来获取（即，滤波和二分之一地抽取输入频率，然后重复这个过程）。其结果是，形成8个尺度（如果窗口持续时间大于1.28秒，否则，存在较少个尺度），产生从1：1（尺度1）到1：128（尺度8）的尺寸缩小因子。与现有技术的音调识别技术相比，该特征提取107无需从输入窗的声音101中提取韵律特征。

音调识别的现有技术做法往往需要在区分音调之前归一化每个说话者的语音，以保证准确度。例如，归一化每个说话者的音高，因为每个说话者在说话时具有不同的音高（例如，将女声与男声相比较），所以归一化是必要的，以便针对每个单独说话者识别与给定音调相关联的相对音高。在本发明的实施例中，由于所使用滤波器的设计，提取的特征可以捕获信号特性变化（即，相对强度变化），而不是信号特性的绝对值，因此，为了识别音调，对于每个单独说话者来说，归一化不再是必要的。

在获得多尺度特征117之后，如119所指，使用那些多尺度特征117生成特征图121。这是通过计算涉及将“中心”（细）尺度与“周围”（较粗）尺度相比较的“中心-周围”）差值完成的。中心-周围操作模仿局部皮层抑制的性质并检测局部时间和空间不连续性。这是通过“中心”细尺度（c）和“周围”较大尺度（s）之间的跨尺度相减（θ）模拟的，得出特征图M(c,s)：M(c,s)=|M(c)θM(s)|，M∈{I，F，T，O_θ}。两种尺度之间的跨尺度相减通过内插成较细尺度和逐点相减来计算。举例来说，但非限制性地，可以使用c={2，3，4}，s=c+δ，以及δ∈{3，4}，当在八个尺度上提取时，这导致总共30个特征图。

接着，如123所指，从I，F，T，O_θ的特征图121的每一个中提取“听觉要点”矢量125，以便听觉要点矢量125的总和在低分辨率上覆盖整个输入声音窗口101。为了对给定特征图121确定听觉要点矢量125，首先将特征图121划分成m×n个网格的子区域，并且可以计算每个子区域的像最大值、最小值、平均值、标准偏差等那样的统计量。举例来说，但非限制性地，可以计算每个子区域的平均值，以便捕获该图的总体性质。对于具有高度h和宽度w的特征图M_i，听觉要点矢量的计算可以写成：

k＝{0，…、n-1}，l＝{0，…、m-1}。

m=4，n=5的听觉要点矢量提取123的例子显示在图1中，其中示出了20维听觉要点矢量来表示特征图。提供m和n的这些特定值是为了举例起见，而不是限制本发明的任何实施例。

在从每个特征图121中提取了听觉要点矢量125之后，扩大和组合听觉要点矢量以建立累积要点矢量127。累积要点矢量127另外可以经历维度降低技术129处理来降低维度和冗余，以便使音调识别更加切实可行。举例来说，但非限制性地，可以将主要成分分析（PCA）用于维度降低129。维度降低129的结果是在较少维度中用累积要点矢量127传达信息的简约累积要点矢量127′。PCA通常用作模式识别中的主要技术。如一般所理解，PCA在数学上被定义成将数据转换到新坐标系，以便通过数据的某种投影使最大方差变成位于第一坐标上（称为第一主要成分），使次最大方差位于第二坐标上，如此等等的正交线性变换。PCA可以在编有适当配置软件的计算机上实现。可以通过PCA实现维度降低的商用软件包括美国马萨诸塞州纳提克的MathWorks公司开发的Matlab或新西兰怀卡托大学开发的Weka机器学习软件。可替代地，像因子分析、内核主成分分析、线性鉴别分析（LDA）等那样的其他线性和非线性维度降低技术也可以用于实现维度降低129。

最后，在已经确定表征输入声音窗口101的简约累积要点矢量127′之后，可以进行音调识别。为了在给定输入声音窗口上进行音调识别，像神经网络、最近邻分类器、决策树等那样的机器学习算法131可以用于发现累积要点矢量127与音调类别之间的映射。举例来说，但非限制性地，可以将神经网络用作机器学习算法131，因为它在生物学上是有良好根据的。在这样的情况下，给定与之相关联的累积要点矢量，神经网络131就可以识别输入声音的音调类别。

如本文所使用，术语“神经网络”指的是将根据连接性手段进行信息处理的计算/数学模型用于计算的互连天然或人工神经元组。神经网络是根据流过网络的外部或内部信息改变结构的自适应系统。它们被用于实现非线性统计数据模拟以及可以用于模拟输入与输出之间的复杂关系。在本发明的实施例中，神经网络可以用于学习通过累积听觉要点矢量127或简约累积要点矢量127′所表示的一组听觉要点矢量与一个或多个语调或音调类别之间的映射。举例来说，但非限制性地，可以使用3-层神经网络。神经网络可以具有D个输入端、（D+N）/2个隐藏节点和N个输出节点，其中D是PCA维度降低之后累积听觉要点矢量的长度，以及N是要区分的音调类别的数量（例如，对于普通话，4个音调类别）。

另外，举例来说，但非限制性地，机器学习算法131也可以配置成进行语调识别而不是音调识别。神经网络可以配置成将累积要点矢量127或127′映射到不同音调重音类型（例如，上升、下降、急降、或急升）或甚至短语边界以识别声音窗口101内的不同语调。如本文所使用，“音调”被定义成使用语音中的音高变化来区分字义（即，区分文字）。如本文所使用，“语调”指的是在说话时发生的音高的变化，用于区分语法含义（例如，传达惊喜或讽刺，提出一个问题等），但不用于区分字义。

一旦已经识别出声音窗口101内的音调或语调，就可以从识别的音调或语调中提取字义或语法含义。例如，用于音调语言的计算机实现语音识别器可以对声音窗口101识别或随后识别一组可能文字或音节候选者，因为对于相同音素序列可能存在两个或更多个可能文字或音节，因此，字义。如本文所使用，术语“音素（phoneme）”指的是用在像语音识别那样的口语处理中的口语单位。通常，音节或文字用音素的序列来识别。音调语言中的模糊性由相同音素序列可以根据音调映射到不同文字或音节的事实引起。因此，如果没有音调信息，语音识别器就只能识别一组可能文字或音节（使得它们都具有相同的发音）。因此，需要音调信息来在这组候选者之间作出选择，并识别正确的词条（即，文字/音节）。因此，通过组合声音窗口101内的语音识别输出和识别的音调可以，例如，从含有文字/音节以及它们的相关信息的查找表中确定字义。如果在识别的语音与可能语音之一之间找到匹配，则可以将相应字义存储成，例如，电子数据或显示成，例如，识别的文字或字符。

类似地，计算机实现口语处理算法可以将在声音窗口101内识别的语调与话语（例如，识别的文字或短语）的可能不同语法含义相匹配。例如，文字或音节的不同语调可以表示话语是陈述还是疑问。所识别话语的语法含义可以，例如，从将不同可能语调与所识别话语的不同语法含义相关联的查找表中确定。如果在所识别语调与可能语调之一找到匹配，则可以存储或显示相应语法含义。例如，如果确定所识别语调对应于疑问的语调，则可以在所识别文字或句子的末端上显示问号（？）。类似地，如果确定所识别语调对应于陈述的语调，则可以在所识别文字或句子的末端上显示句号（。）。

图2A是例示与现有技术相比按照本发明实施例的音调识别的准确度的表格。音调识别实验是用中国普通话进行的。在实验中，使用了包含来自16个说话者（8女8男说话者）的8513条命令-控制话语的连续中国普通话语音数据库。在该数据库中有近28,000个音节。该数据库包含每条口头话语的人工摹本以及每个音节的音调标记。为了获得音节时间边界，迫使记录的语音与参考摹本对齐。在中国普通话中，每个汉字代表一个单音节和具有五种音调之一：阴平（音调1）、阳平（音调2）、上声（音调3）、去声（音调4）和中性（音调5）。中性音调通常出现在字尾或句尾，没有稳定的等音高线，因此，像在现有技术的方法中那样，在这些实验中将它忽略。对于这个数据库，机会水平是除去中性音调的样本之后利用主要类别标记所有音调获得的39.6%。

在实验中，将3-层神经网络用于学习听觉要点特征与音调类别之间的映射。神经网络具有D个输入端、（D+N）/2个隐藏节点和N个输出节点，其中D是PCA维度降低之后累积听觉要点矢量的长度，以及N=4，因为这是4-类别问题。然后，利用声音输入窗的最佳持续时间（例如，0.8秒）测量准确度。将中心输入窗和左对齐输入窗两者实验。左对齐输入窗捕获当前音节和如果窗口持续时间允许延伸到前音节。中心输入窗捕获当前音节和如果窗口持续时间允许延伸到前后音节。因为中心输入窗显著好于左对齐输入窗，所以使用来自中心输入窗的准确度。

也使用相同数据库测试音调识别的现有技术方法。这里，从音节的初始（辅音）和最终（元音）部分中提取由音高和持续时间特征组成的韵律特征。对等音高线进行平滑，归一化，并采样成固定个点。按每个说话者归一化与现有技术方法一样扩大来自当前和以前字节的特征生成的上下文相关特征，使用上述这些上下文相关韵律特征达到了59.1%的音调识别准确度。

音调识别的现有技术方法具有比机会水平准确近20%的59.1%准确度。但是，本发明的实施例（使用听觉注意线索）相对于现有技术方法（使用传统韵律特征）取得了20%的绝对提高，导致79.0%的准确度。

图2B是例示与现有技术相比按照本发明实施例的语调识别的准确度的表格。这里，波士顿大学广播新闻语料库（BURNC）用于英语实验。BURNC是由3女3男说话者的语音组成的广播新闻风格阅读语料，具有ToBI风格音高重音和边界音调语调的总共大约3小时声学数据。根据音高重音和边界音调标记的分布，使用最常见的四个音高重音类别，即，1）高；2）降阶；3）低；和4）升峰；以及两个边界音高类别（低短语重音后面接着低/或高边界音调）。近14.7K个单词携带着这四种音高重音类型之一，5.6K个单词携带着边界音高标记。对于音高重音和边界音调任务，利用主要类别标记所有样本获得的机会水平分别是54.4%和60.5%准确度。

如上所述，将描述在2A中的3-层神经网络用于映射。结果表明，本发明的方法产生了64.6%的音高重音准确度和89.7%的边界音高准确度。使用了与文字语言模型结合的等音高线的升降连接（RFC）参数化的现有技术方法达到了56.4%的音高重音准确度和67.7%的边界音高准确度。因此，基于听觉注意线索的所提出方法在音高重音分类中相对于机会水平提高了10.2%以及相对于现有技术方法提高了8.2%。此外，它在边界音高分类中相对于机会水平提高了29.2%以及相对于现有技术方法提高了22%。

本发明的实施例可以在适当配置计算机装置上实现。图3例示了可以用于实现按照本发明实施例使用听觉注意线索进行音调/语调识别的方法的计算机装置的方框图。该装置300一般可以包括处理器模块301和存储器305。处理器模块301可以包括一个或多个处理器核心。使用多个处理器模块的处理系统的例子是Cell处理器，Cell处理器的例子在，例如，通过引用并入本文中、可在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/lAEEE1270EA2776387257060006E61BA/$file/CBEA_0l_pub.pdf上在线获得的Cell Broadband Engine Architecture（Cell宽带引擎架构）中消息描述。

存储器305可以具有集成电路，例如，RAM、DRAM、ROM等的形式。存储器305还可以是所有处理器模块可访问的主存储器。在一些实施例中，处理器模块301可以含有与每个核心相关联的局部存储器。程序303可以以可以在处理器模块上执行的处理器可读指令的形式存储在主存储器305中。程序303可以配置成使用听觉注意线索在声音窗口上进行音调/语调识别。程序303可以用任何适当处理器可读语言，例如，C、C++、JAVA、汇编、MATLAB、FORTRAN、和许多其他语言编写。输入数据307也可以存储在存储器中。这样的输入数据307可以包括声音输入窗、特征图、或听觉要点矢量。在执行程序303期间，可以将部分程序代码和/或数据装载到存储器或处理器核心的局部存储体中，以便由多个处理器核心并行处理。

装置300还可以包括像输入/输出（I/O）元件311、电源（P/S）313、时钟（CLK）315、和高速缓存317那样，众所周知的支持功能309。装置300可选地可以包括像盘驱动器、CD-ROM驱动器、磁带驱动器等那样的海量存储设备，以便存储程序和/或数据。设备300可选地可以包括显示单元321和用户界面单元325，以便有助于装置与用户之间的交互。显示单元321可以具有显示文本、数字、图形符号或图像的阴极射线管（CRT）或平板屏幕的形式。用户界面325可以包括可以与图形用户界面（GUI）结合在一起使用的键盘、鼠标、操纵杆、光笔、或其他设备。装置300还可以包括网络接口323，以便使设备能够在像互联网那样的网络上与其他设备通信。

在一些实施例中，系统300可以包括可选麦克风329，麦克风329可以是单个麦克风或麦克风阵列。麦克风329可以经由I/O元件311与处理器301耦合。举例来说，但非限制性地，可以使用麦克风329记录不同输入窗的声音。

系统300包括处理器301、存储器305、支持功能309、海量存储设备319、用户界面325、网络接口323、和显示器321的部件可以经由一条或多条数据总线327可操作地相互连接。这些部件可以用硬件、软件、固件或这些东西的两个或更多个的某些组合来实现。

有许多另外的办法可以利用装置中的多个处理器将并行处理流水线化。例如，可以通过，例如，将代码复制在两个或更多个处理器核心上和让每个处理器核心将代码实现成处理不同数据段来“展示（unroll）”处理环。这样的实现可以避免与建环有关的等待时间。当应用于本发明的实施例时，多个处理器可以并行地从输入声音窗口中提取不同特征。强度提取滤波器、频率对比提取滤波器、时间对比提取滤波器、和取向提取滤波器都可以同时处理听觉谱，如果并行地实现在不同处理器元件上，有效得多地生成相应多尺度特征。而且，也可以并行地生成特征图，以及它们的相应听觉要点矢量。并行处理数据的能力节省了有价值的处理时间，导致音调/语调识别的更有效和流水线化系统。

能够实现并行处理的处理系统除了别的之外的一个例子被称为Cell处理器。有许多可以分类成Cell处理器的不同处理器框架。举例来说，但非限制性地，图4例示了一种类型的Cell处理器。Cell处理器400包括主存储器401、单个功率处理器元件（PPE）407、和八个协同处理器元件（SPE）411。可替代地，Cell处理器可以配有任意数量的SPE。参照图4，存储器401、PPE407、和SPE411可以在环状元件连接总线417上相互通信和与I/O设备415通信。存储器401包含具有与上述的输入数据共同的特征的输入数据403、和具有与上述的程序共同的特征的程序405。SPE411的至少一个可以在它的局部存储体（LS）中包括音调/语调识别指令413和/或要并行处理，例如，如上所述的输入数据的一部分。PPE407可以在它的L1高速缓存中包括具有与上述的程序共同的特征的音调/语调识别指令409。指令405和数据403也可以存储在存储器401中，以便SPE411和PPE411在需要时可以访问。

举例来说，但非限制性地，不同SPE411可以实现多尺度特征117的提取。具体地说，不同SPE411可以分别专用于从频谱中并行提取强度（I）、频率对比（F）、时间对比（T）和取向（O_θ）特征。类似地，不同SPE411可以分别为强度（I）、频率对比（F）、时间对比（T）和取向（O_θ）特征分别实现特征图生成119或听觉要点矢量提取123。

举例来说，PPE407可以是带有相关高速缓存的64-位PowerPC处理器单元（PPU）。PPE407可以包括可靠矢量多媒体扩展单元。每个SPE411包括协同处理器单元（SPU）和局部存储体（LS）。在一些实现中，局部存储体可以具有，例如，用于程序和数据的存储器的大约256kB的容量。SPU是没有PPU那么复杂的计算单元，因为它们通常不执行系统管理功能。SPU可以具有单指令、多数据（SIMD）能力，并且通常处理数据和启动任何所需数据转移（受PPE建立的访问性质支配），以便执行它们分配的任务。SPE411使系统可以实现需要较高计算单元密度和可以有效使用提供的指令集的应用。PPE407管理大量SPE411为在多种多样应用上的成本划算处理创造了条件。举例来说，Cell处理器可以通过称为Cell宽带引擎架构（CBEA）的框架来表征。在与CBEA相容的框架中，可以将多个PPE组合成PPE群，以及可以将多个SPE组合成SPE群。为了举例起见，将Cell处理器描绘成只有单个SPE群和单个PPE群以及单个SPE和单个PPE。可替代地，Cell处理器可以包括多群Power处理器元件（PPE群）和多群协同处理器元件（SPE群）。与CBEA相容的处理器在，例如，通过引用并入本文中、可在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/lAEEE1270EA2776387257060006E61BA/$file/CBEA_0l_pub.pdf上在线获得的Cell Broadband Engine Architecture中详细描述。

按照另一个实施例，可以将使用听觉注意线索进行音调/语调识别的指令存储在计算机可读存储媒体中。举例来说，但非限制性地，图5例示了按照本发明实施例的非短暂计算机可读存储介质500的例子。存储介质500包含以计算机处理设备可以检索，解释，和执行的格式存储的计算机可读指令。举例来说，但非限制性地，计算机可读存储介质500可以是像随机访问存储器（RAM）或只读存储器（ROM）那样的计算机可读存储器、用于固定盘驱动器（例如，硬盘驱动器）或可换式盘驱动器那样的计算机可读存储盘。另外，计算机可读存储介质500可以是闪速存储设备、计算机可读磁带、CD-ROM、DVD-ROM、Blu-Ray、HD-DVD、UMD、或其他光存储介质。

存储介质500包含配置成有助于使用听觉注意线索进行音调/语调识别的音调/语调识别指令501。音调/语调识别指令501可以配置成依照上面参照图1所述的方法实现音调/语音识别。尤其，音调/语调识别指令501可选地可以包括用于接收要进行音调/语音识别的输入窗声音的接收输入声音指令503。输入窗的声音可以以计算机可读形式从记录中或从麦克风或麦克风阵列在运行时实况捕获的声音中获取。音调/语调识别指令501可以进一步包括使用如上所述的耳蜗滤波、内毛细胞、和侧向抑制处理阶段为输入窗的声音确定听觉谱的确定听觉谱指令505。

音调/语调识别指令501还可以包括当执行时提取与听觉谱相关联的多尺度特征的提取多尺度特征指令507。这些多尺度特征可以包括如上所述的强度、频率对比、时间对比、和取向。这可以进一步触发当执行时为如上所讨论提取的每种多尺度特征生成相应特征图的生成特征图指令509的执行。此刻，音调/语调识别指令501可以实现当执行时为每个特征图提取多参数听觉要点矢量的提取音调/语调识别指令501。

音调/语调识别指令501另外可以包括当执行将所有听觉要点矢量扩大和组合成单个累积要点矢量的获取累积要点矢量513。获取累积要点矢量513也可以配置成当执行时实现主要成分分析（PCA）以消除冗余和降低累积要点矢量的维度。音调/语调识别指令501可以进一步包括当执行时将累积要点矢量映射到它的相应音调类别/语音特点（characteristics）的确定音调/语音指令515。

音调/语调识别指令501可选地可以包括提取含义指令517和显示/存储含义指令519。执行时，提取含义指令517可以从通过执行确定音调/语调指令515获得的所识别音调或语调中提取字义或语法含义。显示/存储含义指令519可以使与上述计算机处理设备相关联的显示器显示代表在执行时提取的所提取字义或语法含义的字符或符号。显示/存储含义指令519的执行还可以使计算机处理设备将代表所提取字义或语法含义的数据存储在相关存储器或存储设备中。

虽然上文完整描述了本发明的优选实施例，但可以使用各种替代实施例、修改实施例以及等效实施例。因此，本发明的范围不应该参照上面的描述来确定，而应该参照所附权利要求书及其等效物的整个范围来确定。无论是否优选的本文所述的任何特征都可以与无论是否优选的本文所述的任何其他特征组合。在所附的权利要求书中，不定冠词“一个”或“一种”指的是跟在冠词后面的项目的一个或多个的数量，除了另有明确说明之外。在所附的权利要求书中，词语“或”要理解为非排他的，除非另有规定。所附权利要求书不要理解为包括部件加功能限制，除非在给定权利要求中使用短语“用于......的部件”明确接受这样的限制。

Claims

1.一种在口语处理中进行音调/语调识别的方法，其包含：

a）为输入窗的声音确定听觉谱；

b）从听觉谱中提取一个或多个多尺度特征，其中每个多尺度特征使用单独二维频谱-空间接收滤波器来提取；

c）生成与一个或多个多尺度特征相对应的一个或多个特征图；

d）从一个或多个特征图的每一个中提取听觉要点矢量；

e）通过扩大从一个或多个特征图中提取的每个听觉要点矢量来获取累积要点矢量；以及

f）通过使用机器学习算法将累积要点矢量映射到一个或多个音调特点来确定与输入窗的声音相对应的一个或多个音调特点。

2.如权利要求1所述的方法，进一步包含从在f）中确定的音调特点当中的所识别音调或语调中提取字义或语法含义。

3.如权利要求2所述的方法，进一步包含显示或存储字义或语法含义。

4.如权利要求1所述的方法，其中一个或多个多尺度特征不包括韵律特征。

5.如权利要求1所述的方法，其中在a）中确定听觉谱涉及让输入窗的声音通过模仿听觉系统的基底膜与耳蜗核之间的传输的耳蜗滤波阶段、内毛细胞阶段、和侧向抑制阶段。

6.如权利要求5所述的方法，其中耳蜗滤波阶段使用一列128个重叠恒Q非对称带通滤波器来实现。

7.如权利要求1所述的方法，其中b）中的多尺度特征之一表征与听觉频谱相关联的强度。

8.如权利要求7所述的方法，其中b）中的多尺度特征之一表征与听觉频谱相关联的频率对比。

9.如权利要求8所述的方法，其中b）中的多尺度特征之一表征与听觉频谱相关联的时间对比。

10.如权利要求9所述的方法，其中b）中的多尺度特征之一表征与听觉频谱相关联的取向。

11.如权利要求1所述的方法，其中b）中的多尺度特征之一使用二元金字塔来获取。

12.如权利要求1所述的方法，其中c）中的每个特征图通过计算与特定多尺度特征相关联的一个或多个中心尺度和与特定多尺度特征相关联的一个或多个周围尺度之间的差值来获取。

13.如权利要求1所述的方法，其中d）中的每个听觉要点矢量通过将它的相应特征图划分成m×n网格的子区域和为每个子区域计算统计量来确定。

14.如权利要求1所述的方法，其中e）包括使用维度降低方法消除冗余或降低累积要点矢量的维度。

15.如权利要求1所述的方法，其中f）包括为输入窗的声音确定音调类别。

16.如权利要求1所述的方法，其中f）包括为输入窗的声音确定音高重音。

17.如权利要求1所述的方法，其中f）包括为输入窗的声音确定边界音调分类。

18.一种在口语处理中进行音调/语调识别的装置，其包含：

处理器；

存储器；以及

实施在存储器中和可被处理器执行的计算机编码指令，其中该计算机编码指令被配置成实现音调识别的方法，该方法包含：

a）为输入窗的声音确定听觉谱；

d）从一个或多个特征图的每一个中提取听觉要点矢量；

19.一种计算机程序产品，其包含：

非短暂、计算机可读存储介质，含有体现在所述介质中进行音调/语调识别的计算机可读程序代码，所述计算机程序产品含有：

a）为输入窗的声音确定听觉谱的计算机可读程序代码部件；

b）从听觉谱中提取一个或多个多尺度特征的计算机可读程序代码部件，其中每个多尺度特征使用单独二维频谱-空间接收滤波器来提取；

c）生成与一个或多个多尺度特征相对应的一个或多个特征图的计算机可读程序代码部件；

d）从一个或多个特征图的每一个中提取听觉要点矢量的计算机可读程序代码部件；

e）通过扩大从一个或多个特征图中提取的每个听觉要点矢量来获取累积要点矢量的计算机可读程序代码部件；以及

f）通过使用机器学习算法将累积要点矢量映射到一个或多个音调特点来确定与输入窗的声音相对应的一个或多个音调特点的计算机可读程序代码部件。