CN108496219A

CN108496219A - 语音处理系统和方法

Info

Publication number: CN108496219A
Application number: CN201680076211.0A
Authority: CN
Inventors: 托马斯·威廉·约翰·Ash; 安东尼·约翰·罗宾逊
Original assignee: University of Cambridge
Current assignee: University of Cambridge
Priority date: 2015-11-04
Filing date: 2016-11-04
Publication date: 2018-09-04
Anticipated expiration: 2036-11-04
Also published as: EP3371808B8; GB201519494D0; GB2544070A; PT3371808T; CN108496219B; GB2544070B; WO2017077330A1; ES2794573T3; US10783880B2; EP3371808A1; US20200320987A1; US20180315420A1; EP3371808B1

Abstract

在一实施例中，提供了一种语音处理系统，其包括一输入，用于接收一用户所说的输入话语；以及一单词对齐单元，被配置为将声学语音模型的不同序列与用户所说的输入话语对齐，声学语音模型的每个不同序列对应于用户可能说出的一种不同可能话语并且标识:朗读提示文本中用户跳过的任何部分；所述朗读提示文本中用户重复的任何部分；以及所述朗读提示文本中用户在的单词之间插入的任何语音。来自所述单词对齐单元的信息可用于评估用户讲话的熟练度和/或流畅性。

Description

语音处理系统和方法

技术领域

本发明涉及一种用于处理用户语音的系统和方法，本发明特别地，但并不唯一地与一种评估用户以给定语言口头对话的流畅性和熟练度的系统和方法有关。

背景技术

学习外语的用户通常需要参加考试以确定他们学习语言的流畅性和熟练度。这通常涉及用户说出给定的句子或短语，并由人类考官分析所说话语并给出表明考官对用户语言流畅性和熟练度的意见的评分或标记。这种人为标记会导致每个用户的评估和评分延迟-因为考官必须依次考虑每个用户，并且考官在给定时间段内可以考虑的用户数量有限。此外，为了避免不同考官所给出的评分之间的差异，在将评分指定给每个用户之前，通常由两个或多个考官考虑每个用户的语音，这进一步延迟了参加考试用户对考试结果的获取。

最近有人提出将标记过程电脑化以减少对人类考官的依赖。然而，很难创建一种能够确定用户的外语熟练度和/或流畅性并很好地符合人类考官所做的评估的计算机化的语言评估系统。本发明致力于提高计算机化评估系统的准确性。

发明内容

根据一方面，本发明提供一种语音处理系统，包括：一输入，用于接收一用户响应一朗读提示文本而说出的一输入话语；一声学模型存储器，存储声学语音模型；一朗读提示数据存储器，其存储所述朗读提示中标识了单词序列的文本数据；一数据存储器，其存储定义第一网络的数据，所述第一网络具有通过所述第一网络的多个路径，每条路径表示用户响应所述朗读提示文本而可能说出的一种不同可能话语，所述不同路径允许：i)所述用户跳过所述朗读提示文本的部分；ii)所述用户重复所述朗读提示文本的部分或全部；和iii)所述用户在所述朗读提示文本的单词之间插入语音声音；以及一单词对齐单元，被配置为将所述声学语音模型的不同序列与所述用户所说的所述输入话语对齐，声学语音模型的每个不同序列对应该不同可能话语中的一种，所述不同可能话语是用户响应由所述第一网络的一个路径所表示的所述朗读提示文本而做出的，并且输出对齐结果，所述对齐结果标识了：i)来自与所述用户所说的所述输入话语相匹配的由所述第一网络所表示的所有可能话语中的一种匹配可能话语；ii)所述用户跳过的所述朗读提示文本的任何部分；iii)所述用户重复的所述朗读提示文本的任何部分；和iv)所述用户在所述朗读提示文本的单词之间插入的任何语音声音。在一些实施例中，所述单词对齐单元还标识了所述匹配可能话语的单词和子词单元与所述用户所说的所述输入话语之间的时间对齐。

所述第一网络的不同路径允许所述朗读提示文本中的具有多个已知发音的一个或多个单词具有不同的词典发音，并且所述匹配可能话语标识了所述用户所说的具有多个已知发音的任何阅读提示词中的一个可能发音。

所述单词对齐单元可被配置为保持声学语音模型的不同序列与所述用户所说的所述输入话语之间的对齐的匹配评分，并且输出所述匹配可能话语的评分。所述声学语音模型可包括一个或多个无声模型，并且所述单词对齐单元可被配置为标识了所述用户话语中与一个或多个无声模型相匹配的部分。

根据另一方面，本发明提供一种语音处理系统，包括：一输入，用于接收一用户所说的输入话语；一语音识别系统，识别所述用户所说的所述输入话语并输出一识别结果，所述识别结果包括对应该输入话语的一系列已识别的词和子词单元；一声学模型存储器，存储声学语音模型；一单词对齐单元，被配置为接收由所述语音识别系统输出的该系列已识别的词和子词单元，并将与接收到的该系列已识别的词和子词单元对应的一系列声学语音模型与用户所说的输入话语对齐，并输出一对齐结果，该对齐结果标识了所接收的该系列已识别的单词和子词单元与用户所说的输入话语之间的时间对齐。

在上述任一方面中，所述单词对齐单元可被配置为输出与所述匹配可能话语的词典发音对应的一系列子词单元。

还可提供一子词对齐单元，其接收对应该词典发音的一系列子词单元，其确定用户所说的输入话语与词典发音的差异，并输出对应于所述用户所说的输入话语的实际发音的一系列子词单元。所述子词对齐单元可以将与所述单词对齐单元接收到的词典发音相对应的该系列子词单元与所述用户所说的输入话语对齐，同时允许在单词之间插入子词单元，以及将一个单词的子词单元替换为其它子词单元。

在一实施例中，所述子词对齐单元被配置为生成具有多个路径的第二网络，所述第二网络允许在单词之间插入子词单元并且使一个单词的子词单元被其他子词单元替换。其中，所述子词对齐单元被配置为将由所述第二网络定义的不同路径的声学语音模型与所述用户所说的输入话语进行对齐。在这种情况下，所述子词对齐单元可以保持一评分，所述评分表示所述第二网络定义的不同路径的所述声学语音模型和所述用户的所述输入话语之间的匹配接近度。

所述语音处理系统还可以包括一语音评分特征确定单元，其被配置为接收并确定一相似度，该相似度为由所述单词对齐单元输出的该系列所述子词单元与由所述子词对齐单元输出的该系列子词单元之间的相似度。

所述语音处理系统还可以包括一自由对齐单元，其被配置为将声学语音模型与所述用户所说的所述输入话语进行对齐，并输出对齐结果，所述对齐结果包括与所述用户所说的输入话语匹配的一系列子词单元。

所述语音处理系统还可以包括一语音评分特征确定单元，其被配置为接收并确定用于所述输入话语的多个语音评分特征值。在这种情况下，所述语音评分特征确定单元可被配置为确定由所述自由对齐单元输出的该系列子词单元和由所述子词对齐单元输出的该系列子词单元之间的相似度。或者，所述语音评分特征确定单元可被配置为确定由所述自由对齐单元输出的该系列子词单元与由所述单词对齐单元输出的该系列子词单元之间的相似度。

所述语音评分特征确定单元可被配置为当与第一语言模型相比较时，确定由所述语音识别系统输出的识别结果的困惑度(其可以是熵度量)的第一度量。所述语音评分特征确定单元还可被配置为当与第二语言模型进行比较时，确定由所述语音识别系统输出的识别结果的困惑度的第二度量。所述语音评分特征确定单元还可被配置为确定由所述语音识别系统输出的识别结果的困惑度的第一度量和第二度量之间的第一比率。当与第三语言模型比较时，还可确定由所述语音识别系统输出的识别结果的困惑度的第三度量。在这种情况下，所述语音评分特征确定单元可被配置为确定由所述语音识别系统输出的识别结果的困惑度的第一度量和第三度量之间的第二比率以及由所述语音识别系统输出的识别结果的困惑度的第二度量和第三度量之间的第三比率。

在一些实施例中，所述第一语言模型是使用由所述语音识别系统输出的文本并响应由具有所述语言的第一能力的用户所说的输入语音训练而得。所述第二语言模型是使用由所述语音识别系统输出的文本并响应具有所述语言的第二能力的用户所说的输入语音训练而得，并且所述第二能力大于所述第一能力。所述第三语言模型是使用由所述语音识别系统输出的文本并响应具有所述语言的第三能力的用户所说的输入语音训练而得，并且，所述第一能力大于所述第三能力。

所述语音处理系统可包括一组主成分分析，PCA，权重，表示由多个具有不同语言能力的不同训练用户响应所述朗读提示文本而说出的多个训练输入话语的语音特征。其中，所述语音评分特征确定单元被配置为使用所述PCA权重来确定表示所述用户所说的输入话语中的语音特征的PCA值。所述语音特征可以包括以下中的至少一个：所述输入话语内的能量，所述输入话语内的用户音高；所述输入话语中的无声的持续时间，以及所述输入话语中的子词单元的持续时间。

还可以提供一评分单元，其接收由所述语音评分特征确定单元确定的用于所述输入话语的多个语音评分特征值，并产生表示用户语言能力的评分。通常，所述评分表示所述用户的口头发音的流畅性和/或熟练度。

根据另一方面，本发明提供一种语音处理系统，包括：一输入，用于接收一系列声学特征向量，其表征了一用户响应一朗读提示文本所说的话语；一声学模型存储器，其存储了子词单元的声学模型；一朗读提示数据存储器，其存储了所述朗读提示中标识了系列单词的文本数据；一数据存储器，其存储了一网络，所述网络表示用户可能响应所述朗读提示文本而做出的不同可能话语，所述网络包括多个路径，每个路径表示一种不同可能话语，所述不同路径允许：i)所述用户跳过所述朗读提示文本的部分；ii)所述用户重复所述朗读提示文本的部分或全部；和iii)所述用户在所述朗读提示文本的单词之间插入语音声音；以及一单词对齐单元，被配置为将所述声学模型的不同序列与表示用户所说话语的声学特征向量的输入序列对齐，声学模型的每个不同序列对应于所述不同可能话语中的一个，所述不同可能话语是用户响应通过所述网络的路径定义的所述朗读提示文本而可能做出的。所述单词对齐单元标识了与所述输入话语匹配的可能话语。所述可能话语标识了所述用户跳过的所述朗读提示文本的任何部分，标识了所述用户重复的所述朗读提示文本的任何部分，并标识了所述用户在所述朗读提示文本的单词之间插入的任何语音。

根据另一方面，本发明提供一种语音处理方法，包括：接收一用户响应一朗读提示文本而说出的一输入话语；将声学语音模型的不同序列与所述用户所说的输入话语对齐，所述声学语音模型的每个不同序列对应于用户响应所述朗读提示文本而可能做出的多个不同可能话语中的一种；及输出一对齐结果，所述对齐结果标识了i)所有可能的话语中与用户所说的输入话语相匹配的一种匹配可能话语；ii)所述用户跳过的所述朗读提示文本中的任何部分；iii)所述用户重复的所述朗读提示文本中的任何部分；iv)所述用户在所述阅读提出文本的单词之间插入的任何语音声音；和v)所述匹配可能话语的单词和子词单元与用户所说的输入话语之间的一时间对齐。

根据另一方面，本发明提供一种语音处理方法，包括：接收一用户所说的一输入话语；使用一语音识别系统识别所述用户所说的所述输入话语，并输出一识别结果，所述识别结果包括对应于所述输入话语的一系列已识别的单词和子词单元；及接收由所述语音识别系统输出的该系列已识别的单词和子词单元，并将与接收到的该系列已识别的单词和子词单元对应的该系列声学语音模型与所述用户所说的所述输入话语对齐；以及输出一对齐结果，所述对齐结果标识了接收到的该系列已识别的单词和子词单元与所述用户所说的输入话语之间的时间对齐。

根据另一方面，本发明提供了一种用于分析用户语音的语音分析系统，所述系统包括：一输入，用于接收所述用户以被测语言说出的输入话语；一语音识别系统，识别用户所说的输入话语并输出识别结果，所述识别结果包括对应于所述输入话语的一系列已识别的单词和子词单元；一语音评分特征确定单元，被配置为：i)当与第一语言模型比较时，确定由所述语音识别系统输出的识别结果的困惑度的第一度量；ii)当与第二语言模型比较时，确定由所述语音识别系统输出的识别结果的困惑度的第二度量；以及iii)确定由所述语音识别系统输出的识别结果的困惑度的第一度量和第二度量的第一比率；以及一评分单元，用于接收由所述语音评分特征确定单元确定的所述第一比例，并且被配置为使用所述第一比率生成一评分，该评分表示所述用户讲出被测语言的能力。

在一些实施例中，所述语音评分特征确定单元被配置为在与第三语言模型比较时，确定所述语音识别系统输出的识别结果的困惑度的第三度量。其中，所述语音评分特征确定单元被配置为确定所述语音识别系统输出的所述识别结果的所述困惑度的所述第一度量和所述第三度量的第二比率。其中，所述评分单元可被配置为使用所述第一比率和所述第二比率来生成表示所述用户讲出被测语言的能力的评分。在这种情况下，所述语音评分特征确定单元可被配置为确定由所述语音识别系统输出的识别结果的困惑度的第二度量和第三度量的第三比率。其中，所述评分单元可被配置为使用所述第一比率、所述第二比率和所述第三比率生成一表示用户讲出被测语言的能力的评分。

根据另一方面，本发明提供了一种用于分析用户语音的语音分析系统，所述系统包括：一输入，用于接收一用户响应一朗读提示文本并以被测语言说出的输入话语；一语音处理系统，被配置为处理所述输入话语以确定在输入话语期间的语音特征值；一数据存储器，包括一组主成分分析，PCA，权重，其表示由多个具有不同语言能力的不同训练用户响应所述朗读提示文本而说出的多个训练输入话语的语音特征值；一语音评分特征确定单元，被配置为使用所存储的PCA权重和针对所述输入话语所确定的所述语音特征值来确定所述输入话语的PCA值；以及一评分单元，用于接收所述用户所说的所述输入话语的PCA值，并使用PCA值生成一表示用户说出被测语言能力的评分。

参照以下附图描述的示例性实施例的详细描述使得本发明的这些和其他方面将变得更清楚，其中：

图1a示出一响应提示文本来处理用户语音的主要系统组件的模块示意图；

图1b示出一处理用户的自由语音的主要系统组件的模块示意图；

图2a和2b示意性地示出了输入语音信号被分解成声音帧并且生成特征向量以表示输入语音信号的方式；

图3a，3b和3c示出形成图1a和1b中所示系统的一部分的单词对齐单元所使用的子网，以控制与表示用户话语的声学特征向量序列的对齐；

图3d示出了由所述单词对齐单元输出的对齐结果；

图4a示出形成图1a和1b中所示系统的一部分的音素对齐单元所使用的网络，以控制与代表用户话语的声学特征向量序列的对齐；

图4b示出了由所述音素对齐单元输出的对齐结果；

概述

基于下面描述，所述语音处理系统将变得清楚，这里描述的系统为处理用户的语音以确定在评估用户语音的流畅性和/或熟练度时有用的各种语音特征。尽管下面描述了用于评估英语的系统，但是本发明显然不限于此，所述系统可以用于处理任何语言的语音。

优选实施例的系统具有两种操作模式-一种称为“朗读提示”，另一种称为“自由演说”。在朗读提示操作模式下，用户被给予预定的文本以说话，并且在所述自由演说操作模式中允许用户说出任何他们希望的内容。然后，所述系统分析用户所说的内容并计算与用户说话方式有关的各种语音特征。然后使用这些语音特征来确定表示用户使用被测语言(在这种情况下为英语)的流畅性和/或熟练度的评分。所述评分基本可以实时地确定-以便所述用户可以被立即标记和分级。

现在将描述所述系统处理所述用户的语音并确定所述用户的评分的方式。图1a和图1b示出在优选实施例中使用的所述语音处理系统1的主要组件的模块示意图。所示出的组件可以通过专用硬件电路(例如，通过使用现场可编程门阵列或专用集成电路)来实现，但是通常在一常规计算机系统(具有常规存储器和中央处理单元)上运行的软件模块上实现。为了便于理解它们的操作和互通，图1a和1b中所示的各个单元以所示的方式表示。然而，如本领域技术人员将熟知的，这些单元中的一个、多个或全部可以在单个软件包中实现，因此这些单元可能不能作为单独的单元辨别。图1a示出当所述系统1在“朗读提示”操作模式下操作时使用的主要组件；并且，图1b示出当所述系统1在“自由演说”操作模式操作时使用的主要组件。现在将给出这些不同操作模式的描述。

朗读提示

如上所述，在这种操作模式中，为用户提供要说的句子或短语，并且所述系统1知道所述句子或短语，因此知道用户应该说什么。所述短语或句子通常会在计算机显示器(未示出)上显示以呈现给用户，尽管它可以在纸上提供。作为响应，用户对着一麦克风3说出所述句子或短语。如图1a所示，由所述麦克风3生成的语音信号由一滤波器5滤除，以滤除不感兴趣的频率分量。通常地，所述滤波器5将滤出(去除)低于约80Hz和高于约4kHz的频率。所述剩余的输入信号随后被一模数转换器7采样和数字化，并且数字化的样本被存储在所述语音数据缓冲器9中。

一音质确定单元11检查存储在所述语音数据缓冲器9中的输入音频数据的质量，以确认所述输入语音信号具有合适的质量。具体而言，所述音质确定单元11检查音频样本是否已经通过A/D转换过程被剪切并且检查所述输入语音信号的动态范围。如果所述音频已被剪切或者所述动态范围低于一阈值，则所述音质确定单元11确定所述音频质量差。如果存在未剪切并且所述音频的所述动态范围高于一阈值，则所述音质确定单元11确定音频具有合适的质量。所述音质确定单元11的输出被提供给一控制器13，其控制所述语音处理系统的整体操作。如果输入音频的质量不合适，则所述控制器13拒绝所述输入音频，并提示用户再次说出所述句子或短语。

如果具有合适的质量，所述语音数据缓冲器9中的语音音频样本由一声学特征提取单元15处理，所述声学特征提取单元15提取音频样本的帧并为代表所述帧中的音频信号的每个帧确定声学特征向量。特别地，如图2a所示，所述输入语音信号被分成重叠帧16，以允许对所述输入语音进行“短时间”分析-其是语音处理领域的标准。通常，每10到20毫秒提取一次采样帧16，并且所述帧16可以重叠的(如图所示)或不重叠的。如本领域众所熟知的，通常使用窗体函数来从传入话语中提取样本的帧16-以减少由提取引入的失真。一旦样本的帧16被提取，所述声学特征提取单元15确定代表帧16中的音频样本的一组声学参数。存在许多不同类型的特征或参数，其可以由声学特征提取单元15确定和使用，诸如倒谱参数(例如，梅尔频率倒谱系数)，LPC参数，基于感知的线性预测分析(PLP)参数，能量参数，音高参数等。为音频样本确定这些声学参数的方式对于本领域技术人员来说是公知的，因此不再赘述。

为了说明起见，将假定所述声学特征提取单元15为音频样本的每个帧16确定倒谱参数、音高参数和能量参数。这样产生的用于音频样本的帧16的声学参数被排列成向量并存储在一声学特征向量缓冲器17中。所述声学特征提取单元15为所述输入语音话语确定一系列声学特征向量，所述系列内的每个特征向量的位置对应于所述输入语音内的对应音频样本的位置。因此，所述系列中的第一声学特征向量对应于所述输入语音中对应音频样本的第一帧，而所述声学特征向量中的最后一个对应于输入语音中音频样本的最后一帧。因此，对于任何输入话语，生成一系列声学特征向量并将其存储在缓冲器17中，所述系列声学特征向量代表所述输入话语。表示输入话语的声学特征向量的示例性系列在图2b中示出。如所示，矢量用时间戳标记-在这种情况下，从时间0(对应于话语的开始)到时间28(对应于话语的结束)。

如图1a所示，存储在所述声学特征向量缓冲器17中的系列声学特征向量由多个不同单元处理，所述不同单元包括一零点检测单元19，一能量和音高提取单元21，一单词对齐单元23和一音素对齐单元25。如下面将更详细地描述的，所述零点检测单元19处理所述系列声学特征向量以确定用户是否实际上说了什么或者它是否只是背景噪声。并且所述能量和音高提取单元21从每个声学特征向量中提取能量参数和音高参数以供随后使用(如下面将更详细地描述)。

所述单词对齐单元23将表示在提示文本(如在朗读提示词存储器29中定义的)中已知的单词的声学模型(存储在单音素声学模型存储器27中)与缓冲器17中对应于用户实际说出的内容的系列声学特征向量对齐。这种对齐允许系统检测所述提示文本的单词之间是否插入了语音声音(例如“呃”或“嗯”等)，并检测所述提示文本中的某些或全部单词是否已被跳过(省略)或由用户重复。所述单词对齐单元23还确定用户对已知具有由发音词典(PD)31定义的多个发音的任何单词所说的单词的哪个发音。来自所述单词对齐单元23的输出包括所述单词对齐单元23确定的并由用户所说的时间对齐的系列单词，以及这些单词的确定的发音。来自所述单词对齐单元23的输出还包括对应于所确定的系列单词的时间对齐的系列音素。

所述音素对齐单元25将与由所述单词对齐单元23输出的系列音素相对应的声学模型(来自单音素声学模型存储器27)与对应于用户的话语的系列声学特征向量(来自缓冲器17)对齐，同时允许在单词之间插入音素并且将音素替换为其他音素。所述对齐过程提供了与用户实际说出的内容相对应的时间对齐的系列音素。

然后，由所述语音评分特征确定单元(以下称为SSFD单元)33处理来自所述零点检测单元19，所述能量和音高提取单元21，所述单词对齐单元23和所述音素对齐单元25的输出。所述SSFD单元33确定与用户所说的提示短语或句子的方式有关的多个不同的语音评分特征值(与声学特征值相对)。这些语音评分特征值(代表整个话语)被排列成一个值向量，然后将其传递给一机器学习评分单元35，所述机器学习评分单元35使用语音评分特征值的输入向量，基于将这些语音评分特征值与不同讲话者的能力(流畅性和/或熟练度)相关联的预先学习的信息，来确定定义用户语音的流畅性和/或熟练度的用户的整体评分。

自由演说

如上所述，在这种操作模式中，允许用户说出他们想要的任何内容，因此所述语音处理系统1事先不知道应该说出的单词。在这种操作模式中使用的语音处理系统1的主要部件如图1b所示。与在朗读提示操作模式中使用的组件相同或相似的组件被赋予相同的附图标记，因此这些共同组件的描述将被省略。通过比较图1a和图1b可以看出，所述自由演说操作模式与所述朗读提示操作模式之间的主要区别在于，在自由演说操作模式中，所述语音处理系统1具有自动语音识别(ASR)系统37。所述ASR系统37用于确定用户所说的系列单词，然后被单词对齐单元23用来执行上述的单词对齐过程。在此实施例中，所述ASR系统37使用不同于上述对齐单元所使用的声学模型(存储在三音素声学模型存储器39中的三音素模型)和语言模型(存储在语言模型存储器41中)识别输入语音中所说出的单词。所述ASR系统37是常规的，将不再赘述。其余部件与在所述朗读提示操作模式中使用的部件相同，因此不再赘述。

详细说明

现在将详细描述上述单元的操作。

零点检测单元

所述零点检测单元19被设置成确定用户是否说出任何内容，这可以是被提示并说出预定义文本(在朗读提示操作模式中)或被提示说出任何内容(在自由演说操作模式下)。所述零点检测单元19使用一无声对齐单元41和一自由对齐单元43执行此操作。

所述无声对齐单元41将与输入语音(存储在缓冲器17中)相对应的系列声学特征向量与代表无声(或背景噪声)的一个或多个声学模型进行比较并对齐，以生成输入语音对应于无声的一个评分或者概率。这个无声模型(或者这些无声模型)形成该组单音素声学模型27的一部分，该单音素声学模型27由所述单词对齐单元23和所述音素对齐单元25使用。

所述自由对齐单元43将与输入语音(存储在所述缓冲器17中)相对应的系列声学特征向量与存储在所述存储器27中的所有单音素声学模型进行比较并对齐，而不限制音素的顺序或音素可能出现在所述输入语音中的顺序-以产生用户实际说出某些内容的评分或概率。这些单音素声学模型可以是基于模型或统计模型(例如隐马尔可夫模型)的模板，其表示语言的不同语音。对于英语，有44个关键声音或音素，并且在所述存储器27中的单独模型用于每个声音，并且一个或多个模型用于无声。如果输入话语的一部分与音素(或无声)的模型匹配得很好，则与所述模型的话语部分相关联的评分(或概率)很高。因此，所述自由对齐单元43将所述输入话语的不同部分与已存储的单音素声学模型进行比较，以找到最佳匹配输入话语的系列音素(和无声)，并保持表示输入话语的不同部分和与那些部分最佳匹配的音素/无声模型之间的匹配接近度的累积评分。

来自所述无声对齐单元41和所述自由对齐单元43的概率被传递给一决策单元45。所述决策单元45使用所确定的概率来确定用户是否说了什么或者所述输入是否与无声(或背景噪声)相对应。如果自由对齐比无声对齐更不可能和/或自由对齐包含大部分无声，则所述决策单元45输出‘0’，否则所述决策单元45输出‘1’。由所述决策单元45作出的决策被输出到所述控制器13，所述控制器13使用所述判定来确定是否需要对输入话语进行进一步处理。具体地，如果所述决策单元45输出‘0’，则不需要对存储在所述缓冲器17中的系列声学特征向量进行进一步处理，并且提示用户再次提供他们的口头输入。另一方面，如果所述决策单元输出‘1’，则所述控制器13指示所述单词对齐单元23对输入的话语执行对齐处理。而且，在这种情况下，与所述输入话语(如所述自由对齐单元43所确定的)最匹配的系列音素被传递给所述SSFD单元33。

单词对齐单元

如上所述，所述单词对齐单元23对齐表示单词的声学单音素模型，所述单词在所述提示文本(当在所述朗读提示操作模式中操作时)中已知或由所述ASR系统37(当以自由演说操作模式操作时)识别，存储在所述缓冲器17中的系列声学特征向量表示用户实际说出的内容。由所述单词对齐单元23执行的单词对齐处理根据操作模式略微不同，并且现在将分别对其进行描述。

单词对齐-朗读提示

对于“朗读提示”，所述语音处理系统1知道应该说什么(所述“提示”由存储在朗读提示词存储器29中的数据定义)，但不知道用户是跳过一些部分，重复所述提示的某些还是全部，插入的音素或他们用于每个单词的发音。为了使所述单词对齐单元23可以考虑这些可能性，所述单词对齐单元23创建定义所有这些可能性的网络，然后使用所述单音素声学模型(来自所述存储器27)所述网络以将输入话语(如由存储在所述缓冲器17中的系列声学特征向量所定义的)与这些单音素声学模型对齐的方式来找到最可能的路径。由于预先知道所述提示，因此可以将所述网络作为所述朗读提示词存储器29的一部分进行定义和存储。在所述实施例中，不同的子网络被预先定义和存储，并且这些子网络在图3中针对提示‘cat’示出。显然，在实践中，所述提示可能比这长得多，但为了说明和简化图3中所示的子网络，考虑了这种简短的提示。所述发音词典31包括已知单词的列表和可用于发音每个单词的一个或多个音素序列的列表。所述发音词典31从模型上生成，并且，所述模型由语言学家在创建的列表上训练而成。所述列表不一定是详尽无遗的-因为可能有一些没有记载在词典里的单词的“正确的”发音。为了简化下面的讨论，假设所述发音词典31具有单词‘the’(‘the(a)’＝/da//ah/；‘the(b)’＝/dh/)的两个发音和单词‘cat’的一个发音(＝/k//ae//t/)。

为了限制系统认为用户可能已经说过的不同可能性，所述子网络50被设计成限制可以与所述输入话语匹配的内容。这有助于加快对齐过程。图3a示出了所述单词对齐单元23在所述实施例中用来与所述输入话语对齐的不同子网50-A中的一个。图3a所示的子网络50-A允许从朗读提示的开始跳过预定数量的单词。在这个简单的例子中，子网络50-A只允许朗读提示的第一个单词从朗读提示的开始跳过。图3b示出了三个子网络50-B中的另一个，其允许将朗读提示中的所有单词与用户的输入话语的至少一部分进行匹配。因此，在图3b中，没有单词被跳过。最后，图3c示出了子网络50-C，其允许从用户的输入话语的末尾跳过多达预定数量的单词。在这个简单的例子中，子网络50-C只允许朗读提示的一个单词从朗读提示的末尾被跳过。提供子网络50-A以迎合用户在所述麦克风3接通并开始记录之前开始说出朗读提示的情况，并且提供子网络50-C以迎合用户在所述麦克风3关闭之前没有完全说出朗读提示的情况。

每个子网络50具有起始节点(标记为“开始”)和终止节点(标记为“结束”)，并且，所述单词对齐单元23开始在所述起始节点和所述用户话语的开始处对齐，并且考虑任何路径(由子网50中的箭头表示)在用户话语结束时的末端节点处结束。如图所示，每个子网络50包括所述朗读提示的两个单词和分开的具有不同发音的单词的并行路径-这种情况适用于单词“the”。所述子网络50还包括用于在所述单词之间插入音素(在网络50中用‘IP’表示)的路径，以允许在提示单词之前，之后或之间确定用户说“呃”或“嗯”等等。在每个插入的音素之后还有循环返回以适应多个插入的音素的箭头。在子网络50-B中，还有一个箭头51从刚好在结束节点之前的点延伸到起始节点，此路径允许重复朗读提示。所述子网络50还允许在每个单词和插入的音素之前和之后插入无声(或暂停)，尽管为了清楚起见，这些无声部分没有在图3所示的子网络中示出。因此，从起始节点到末端节点通过子网络50存在许多不同的路径-并且所述单词对齐单元23在将所述子网络50与所述用户的输入话语相匹配时考虑所有这些可能的路径。

除了单独考虑通过每个子网的路径之外，所述单词对齐单元23还考虑通过上述三个子网50的有限组合的路径。所述有限组合包括：子网络50-A，之后是子网络50-B；子网络50-A之后依次接子网络50-B和子网络50-C；子网络50-A之后是子网络50-C；和子网络50-B，之后是子网络50-C。在这些组合中，所述子网络50-B可被重复一次或多次。因此，例如，所述用户的输入话语与所述子网络50之间的最佳匹配可以是子网络50-A，子网络50-B，子网络50-B和子网络50-C。每次所述单词对齐单元23将输入话语的一部分与这些子网络50中的一个进行匹配时，所述单词对齐单元23将其计数为单词提示的重复。如下面将更详细描述的，重复次数由所述语音评分特征确定单元33使用。

图3中所示的子网络50包括进一步的简化-因为在子网络中示出的单词实际上并未在所述子网络50中被定义为“单词”，而是被定义为单词的发音的系列音素(从发音词典31获得)；并且当所述单词对齐单元23将输入话语与子网50对齐时，它将与用户输入话语(来自缓冲器17)相对应的系列声学特征向量与系列单音素声学模型(来自存储器27)进行比较，其中，所述单音素声学模型通过所述子网络50的每个路径进行定义。

当所述单词对齐单元23执行比较时，它保持代表路径的单音素声学模型与用户的输入话语的对应部分之间的匹配的接近度的评分(或概率)。对插入音素(IPP)和重复提示(RP)的路径应用处罚。所述插入音素可以是单音素声学模型存储器27中的任何一个音素。所述单词对齐单元23考虑并评分所有路径情景并修剪(丢弃)低评分路径以将对齐处理保持为可管理的量。在这个意义上，由所述单词对齐单元23执行的对齐与识别输入语音时由语音识别系统执行的对齐相似-除了用于比较的搜索空间受限于由不同选项定义的子网络50，所述不同选项用于用户可能会说什么。因此，这里将不再给出所述单词对齐单元23如何执行输入话语与单音素声学模型的对齐的进一步描述。

所述单词对齐过程的输出包括通过所述网络50的最佳匹配路径(通常为具有最高匹配概率的路径)以及与所述路径相关联的评分/概率的确定。所述确定的路径定义了用户最可能说的内容。所述插入的音素在输出中被明确地标记为这样，以便插入的音素可以被跟踪并与构成朗读提示的词语的音素区分开。因此，作为示例，当给出提示‘cat’时，所述输出可以确定用户最有可能说出“(a)-cat-eh-a(a)”，其指示用户试图重复朗读提示，但在他们接到第二个单词之前就被切断了。这也表明用户在第一次说出朗读提示后插入了“呃”声。所述单词对齐单元23还在用户什么都不说时(即，当输入语音与单音素声学模型存储器27中的无声模型匹配时)确定用户话语内的部分。因此，最佳路径可能表明用户说：“(sil)-the(a)-(sil)-cat-eh-the(a)-(sil)”；其中(sil)对应于用户输入话语中没有说出任何内容的部分。

所述单词对齐过程的输出还包括在用户的话语中以及用户是从开始还是结束跳过单词，或者重复任何内容的时间对齐，所述时间对齐为单词、音素(每个单词最可能的发音)、无声部分和通过所述子网50确定的最佳识别路径的插入的时间对齐。所述时间对齐在上述示例图3d中示出，其中最佳路径表明用户实际上说：“(sil)-the(a)-(sil)-cat-eh-the(a)-(sil)”。特别地，图3d在57处示出单词，无声部分和插入音素(在这种情况下是音素/eh/)，其对应于最佳路径的以及与用户的输入话语对应的系列声学特征向量59(来自缓冲器17)。图3d还通过虚线示出每个单词的开始和结束，每个无声部分和每个插入音素位于系列声学特征向量59内。因此，例如，时间对齐确定单词“cat“开始于声学特征向量f₁₂并结束于声学特征向量f₁₇。尽管图3d中未示出(为了简化附图)，但单词对齐过程的输出还包括在系列声学特征向量59内的提示中，构成每个单词的各个音素(如发音词典31中定义的)的时间对齐(开始和结束)。

单词对齐-自由演说

对于自由演说操作模式，对齐更简单，因为所述单词对齐单元23假定输入话语中的任何无声和音素插入已被所述ASR系统37检测到并且将被包括在由所述ASR系统37输出的识别结果中。因此，由所述单词对齐单元23对齐输入话语的网络看起来像图3d上部所示的单个路径57；然后所述单词对齐单元23执行所述单个路径与代表用户输入话语的系列声学特征向量之间的对齐。当以自由演说操作模式操作时，所述单词对齐单元23的最终输出包括代表用户输入话语的声学特征向量中的单词、音素(最可能是每个词的发音)、无声部分和从ASR输出的插入的时间对齐。

音素对齐单元

由所述单词对齐单元23输出的音素系列对应于词典(PD 31)定义，所述词典定义为所述朗读提示中的每个单词如何拼读。有些用户(特别是那些学习被测语言的用户)不会根据词典发音说出单词。所述音素对齐单元25被设置成检测用户的口头发音与词典发音的不同之处。所述音素对齐单元25执行第二对齐，所述第二对齐为与所述单词对齐单元23输出的系列音素对应的单音素声学模型(来自单音素声学模型存储器27)与对应于用户话语(来自缓冲器17)的系列声学特征向量之间的第二对齐。在所述第二对齐中，所述音素对齐单元25允许在单词之间插入音素并且将属于该单词的音素替换为其它音素。因此，如果用户的单词的发音不正确，则所述音素对齐单元25将检测到这是来自词典发音的音素与来自存储器27的另一(不同)音素的替换。

当执行所述对齐处理时，所述音素对齐单元25生成网络以限制匹配处理。为了说明用于所述音素对齐的网络，参考图4a，其示出了对于上述示例使用从所述单词对齐单元23输出的系列音素生成的网络61。如图4a所示，所述单词‘the(a)’有词典发音‘/dh//ah/’，‘cat’的词典发音是‘/k//ae//t/’。所述网络61包括单词“the(a)”的重复，并且包括允许插入音素(IP)的路径和用于词典发音的每个音素的替代路径-以允许用另一个音素(SP)进行替换。虽然为了简单起见未在图4a中示出，但所述网络61还允许在每个词/插入的音素之前和之后插入无声。所述音素对齐单元25然后执行对应于所述网络61的存储器27中的单音素模型与对应于用户话语的缓冲器17中的系列声学特征向量之间的时间对齐。所述音素对齐单元25保持表示由所述网络61定义的不同路径和用户输入话语的对应部分的单音素声学模型之间的匹配接近度的评分(或概率)。处罚措施适用于插入音素(IPP)和替代音素(SPP)的路径。

图4b示出了所述音素对齐单元25确定的最佳匹配用户输入话语的音素63的系列结果。在这个例子中，所述单词‘(a)’的第一发音与词典发音不同-因为/dh/音素已被/t/音素替代；同样，“cat”一词中的音素/ae/被错误地当作音素/ah/。图4b还示出了所述音素对齐单元25在系列音素63和代表用户话语的系列声学特征向量之间的时间对齐(由虚线表示)。

所述音素对齐单元25输出与用户实际说出的内容相对应的这个时间对齐的系列音素63以及系列63中的每个音素的置信度评分，表示用户输入语音的对齐部分与相应的声学音素模型之间的匹配程度。例如，所述音素对齐单元25输出表示声学特征向量f₂₀和f₂₁与用于与那些特征向量对齐的音素/dh/的单音素声学模型相匹配程度的音素置信度评分。来自所述音素对齐单元25的这些输出被提供给所述SSFD单元33。

能量和音高提取单元

所述能量和音高提取单元21从存储在所述缓冲器17中的每个声学特征向量中提取能量参数和音高参数，并将这些提取的参数值提供给所述SSFD单元33。

语音评分特征确定单元

如上所述，所述SSFD单元33处理来自不同对齐单元的结果并确定代表对齐结果的各种特征值。针对一话语确定的特征值被排列到向量中并输出到所述机器学习评分单元35。由所述单元33确定的特征值向量将被称为语音评分特征向量-并且它们不应该与从音频采样生成的声学特征向量(存储在缓冲器17中)混淆。下面列出了所述SSFD单元33可以确定的不同特征值的示例。这些中的一些或全部可用于形成由所述SSFD单元33输出的语音评分特征向量，以由所述机器学习评分单元35进行处理。所述SSFD单元33通常将确定用于朗读提示操作模式和用于自由演说操作模式的不同特征值，因此针对这两种不同操作模式生成的语音评分特征向量将是不同的。

朗读提示特征值：

1)准确度(accuracy-是朗读提示中的单词数量被除以单词数量并加上来自所述单词对齐单元23的输出57的单词之间插入的音素数量。

2)准确度fa1fa2(accuracyfa1fa2)-是来自所述单词对齐单元23的输出57中的系列音素与由所述音素对齐单元25输出的系列音素63之间的百分比一致性-由于在单词之间插入音素，或者在音素对齐过程中音素被替换为不同的音素，因此，音素可以在两者之间不同。因此，较低的百分比一致性表明在音素比对过程中替换或插入更多的音素-表示发音不佳。

3)音素准确度fa1(accuracyfa1phones)-是来自所述单词对齐单元23的输出57中的系列音素与所述自由对齐单元43输出的系列音素之间的百分比一致性。由于自由对齐对哪些音素可以跟随彼此没有限制，这里更高的一致表明更可能为‘正确’的音素。

4)置信度(confidence)-是由所述音素对齐单元25确定的用于用户输入话语的平均音素置信度。

5)语音中断度(degVB)-是所述用户输入话语中的“语音中断”的程度。这被计算为所述输入话语的“有声部分”之间的输入话语的部分持续时间除以输入话语的有声部分的总持续时间。所述输入话语的有声部分是当用户的声带振动(诸如/e/，/a/等的声音，而不是诸如/f/，/s/等的摩擦音)时的部分，并且可以根据所述声学特征提取单元15确定的能量和/或音高参数确定。所述持续时间(以及计算的其他持续时间-参见下文)可以根据声学帧16的数量或者通过转换利用每个声学帧16的持续时间和相邻帧16之间的重叠量的知识将声学帧的数量分解为时间。

6)能量平均绝对偏差(energyMAD)-是所述输入话语中能量的平均绝对偏差。这由能量和音高提取单元21从存储在缓冲器17中的系列特征向量中提取的能量值并根据以下等式确定：

其中x_i是所述用户输入话语的帧i内的能量；n是所述用户输入话语中的声学特征向量的数量；并且是所述用户输入话语中的平均能量。

7)能量平均值(energyMean)-是所述能量和音高提取单元21为所述用户输入话语提取的能量值的全局平均值。

8)能量均方根偏差(energyRMSE)-是为所述用户输入话语计算的能量趋势线的能量均方根偏差的度量。

9)能量第一主成分值(enPCA1)-是从所述能量和音高提取单元21获得的用于用户输入话语的能量值的第一主成分的值。

10)能量第二主成分值(enPCA2)-是从所述能量和音高提取单元21获得的用于用户输入话语的能量值的第二主成分的值。

11)能量第三主成分值(enPCA3)-是从所述能量和音高提取单元21获得的用于用户输入话语的能量值的第三主成分的值。

12)能量第四主成分值(enPCA4)-是从所述能量和音高提取单元21获得的用于用户输入话语的能量值的第四主成分的值。

13)插入数量(ins)-是在所述单词对齐单元23的输出57中的单词之间插入音素的数量。

14)振动3(jitter3)-是所述用户输入话语中的音高不稳定性的量度。当确定所述特征值时，所述SSFD单元33基于所确定的音高值将用户的输入话语划分为相邻间隔，其中每个间隔被定义为音高保持基本恒定的时间段(忽略发声的清音部分)；然后确定整个输入话语中相邻区间之间的区间持续时间内有多少变化。此特征值的计算构成Praat提供的标准语音分析工具库的一部分：http://www.fon.hum.uva.nl/praat/manual/Voice_2__Jitter.html。这里给出了这个计算的更完整的描述：

http://www.fon.hum.uva.nl/praat/manual/PointProcess__Get_jitter__rap__.html

15)长停顿平均绝对偏差(longPauseMAD)-是长时间停顿的平均绝对偏差(其中长时间停顿被定义为持续时间大于用户话语内的单词之间的某个阈值(例如0.25秒)。用于上述特征6)的等式(1)的类似等式将用于计算所述特征值，除了考虑长停顿而不是能量。

16)平均长停顿(longPauseMean)-是长时间停顿的平均持续时间。

17)每词长停顿(longPauseWord)-长停顿的数量除以口语单词的数量(由所述单词对齐单元23的输出57确定)。

18)平均自相关(meanAuto)-是所述用户输入话语的有声部分的平均自相关。

19)平均单词持续时间(meanWordDuration)-是用户在输入话语中说出单词的平均单词持续时间。由所述单词对齐单元23的输出57确定用户所说的单词的数量和单词持续时间。

20)音素第一主成分值(phoPCA1)-是用户输入话语内音素持续时间的第一主成分的值。

21)音素第二主成分值(phoPCA2)-是用户输入话语中音素持续时间的第二主成分的值。

22)音素第三主成分值(phoPCA3)-是用户输入话语内音素持续时间的第三主成分的值。

23)音素第四主成分值(phoPCA4)-是用户输入话语内音素持续时间的第四主成分的值。

24)音高平均绝对偏差(MAD)-是用户在输入话语中的音高的平均绝对偏差。除了用所述能量和音高提取单元21从所述缓冲器17提取的音高值替换能量值之外，使用与上述等式(1)类似的等式再次计算所述特征值。

25)平均音高值(pitchMean)-是所述用户输入话语中的平均音高。

26)音高张度(pitchSpread)-是用平均音高标准化的用户输入话语中的最大音高和最小音高之间的差值。

27)音高第一主成分值(pitPCA1)-是为用户的输入话语确定的音高值的第一主成分的值。

28)音高第二主成分值(pitPCA2)-是为用户的输入话语确定的音高值的第二主成分的值。

29)音高第三主成分值(pitPCA3)-是为用户的输入话语确定的音高值的第三主成分的值。

30)音高第四主成分值(pitPCA4)-是为用户的输入话语确定的音高值的第四主成分的值。

31)最大音素持续时间(pmaxI)-是从所述音素对齐单元获得的音素的最大音素持续时间(不包括字之间添加的音素)。

32)平均音素持续时间(pmeanI)-从所述音素对齐单元获得的音素的平均音素持续时间(不包括在单词之间添加的音素)。

33)音素持续时间标准偏差(psdI)-是从所述音素对齐单元获得的音素的音素持续时间的标准偏差(不包括字之间添加的音素)。

34)重复(repeats)-是用户重复提示文本的次数-实际上是在将用户的输入话语与子网络50匹配时遍历所述子网络50的次数，每当所述子网络50-B重复时，所述子网络50被加1。

35)评分fa1fa2(scorefa1fa2)-是由所述音素对齐单元25输出的用于对齐的系列音素63的累积置信度得分(对数概率)与由所述单词对齐单元23的输出57输出的系列音素的累积置信度得分(对数概率)之间的差值。

36)闪光2(shimmer2)-是用户输入语音期间能量稳定性的度量。当确定所述特征值时，所述SSFD单元33基于原始语音输入信号的峰-峰幅度将用户的输入话语划分为相邻区间，其中每个区间被定义为其间该峰-峰幅度剩余的时间段基本不变(忽略话语的清音部分)；然后确定整个输入话语中相邻区间之间的区间持续时间内有多少变化。此特征值的计算也构成Praat提供的标准语音分析工具库的一部分：

http://www.fon.hum.uva.nl/praat/manual/Voice_3__Shimmer.html

37)无声平均绝对方差(silMAD)-是用户话语中的单词之间的无声持续时间的平均绝对偏差。

无声第一主成分值(silPCA1)-是用户输入话语中单词之间的无声持续时间的第一主成分的值。

39)无声第二主成分值(silPCA2)-是用户输入话语中单词之间的无声持续时间的第二主成分的值。

40)无声第三主成分值(silPCA3)-是用户输入话语中单词之间的无声持续时间的第三主成分的值。

41)无声第四主成分值(silPCA4)-是用户输入话语中单词之间的无声持续时间的第四主成分的值。

42)无声最大持续时间(silmax)-是最大的单词之间的无声持续时间。

43)无声平均持续时间(silmean)-是平均的单词之间的无声持续时间。

44)语音占比(voicePercent)-是任何语音所占用户输入话语的百分比。

自由语音特征值：

准确度fa1fa2(accuracyfalfa2)-是来自所述单词对齐单元23的输出57中的系列音素与所述音素对齐单元25输出的系列音素63之间的百分比一致性-由于在单词之间插入音素，或者因为在音素对齐过程中音素被替换为不同的音素，因此，音素可以在两者之间不同。因此，较低的百分比一致性表明在音素比对过程中替换或插入更多的音素-表示发音不佳。

2)音素准确度fa2(accuracyfa2phones)-是由所述音素对齐单元25输出的音素序列63与由所述自由对齐单元43输出的音素序列之间的百分比一致性。由于自由对齐对于音素可以相互跟随哪些音素没有约束，这里更高的一致性表明‘正确的’音素更有可能。

3)双连词重复次数(bigramRepetitions)-是由所述ASR识别的双连词百分比，它是由所述ASR识别的其他双连词重复次数。一个双连词是一对单词也就是说一个接着另一个。

4)置信度中位值(confMedian)-是所述输入话语的识别期间所述ASR产生的置信度评分的中位置。与一ASR系统一样，在所述ASR计算过程中，会生成一个网格，其中包含通过音频的所有最可能的路径，并以单词和概率表示。这些概率来源于三音素模型与音频的声学匹配以及用于系列单词的语言模型评分，这些评分使用混合权重进行组合以提供精确识别结果。所有的知识源(声学模型和语言模型)在执行所述ASR时被考虑在内并包含在所述格子中。所述置信度通过查看任何时间点(帧)中格子中的所有单词并进行归一化以产生每个单词的概率来计算。一个单词的置信度是所述词在识别过程中达到的峰值归一化概率。

5)最小置信度评分(confMin)-是所述ASR系统在识别输入话语时产生的最小置信度评分。

6)置信度评分标准偏差(confSD)-是所述ASR系统在识别输入话语时产生的置信度评分的标准偏差。

7)语音中断度(degVB)-是“语音中断”的程度-所述输入话语的“有声部分”之间的输入话语部分的持续时间被除以所述输入话语的有声部分的总持续时间。这与上面讨论的朗读提示操作模式的特征5)相同。

能量平均绝对偏差(energyMAD)-是所述输入话语中能量的平均绝对偏差。这是由所述能量和音高提取单元21从存储在所述缓冲器17中的系列特征向量中提取的能量值确定的。这与上述用于朗读提示操作模式的特征6)相同。

9)能量平均值(energyMean)-是由所述能量和音高提取单元21为用户输入话语提取的能量值的全局平均值。

10)熵(ent)-是与整体语言模型相比时，所述ASR成绩单的熵。这个特征将在下面更详细地描述。

11)熵21(ent21)-是与中高级语言模型相比时，所述ASR成绩单熵的比率。

12)熵31(ent31)-是与顶级和底级语言模型相比时，所述ASR成绩单的熵比率。

13)熵32(ent32)-是与底层和中层语言模型相比时，所述ASR成绩单的熵比率。

14)振动3(jitter3)-是用户输入话语中的音高不稳定性的量度。这与上述用于朗读提示操作模式的特征14)相同。

15)长停顿平均绝对偏差(longPauseMAD)-是长时间停顿的平均绝对偏差(其中长时间停顿定义为单词之间停顿持续时间大于0.25秒)。这与上述用于朗读提示操作模式的特征15)相同。

16)长停顿平均持续时间(longPauseMean)-是长时间停顿的平均持续时间。这与上述用于朗读提示操作模式的特征16)相同。

17)每词长停顿(longPausePerWord)-是长时间暂停的数量被除以所说单词的数量。这与上述用于朗读提示操作模式的特征17)相同。

18)平均自相关(meanAuto)-是所述用户输入话语中的有声部分的平均自相关。这与上述用于朗读提示操作模式的特征18)相同。

19)平均单词时间(meanWordDuration)-是所述用户输入话语中所说单词的平均单词持续时间。这与上述用于朗读提示操作模式的特征19)相同。

20)音素平均持续时间(phonemean)-是用于从所述单词对齐单元获得的音素的所述用户输入话语中音素持续时间的平均音素持续时间。

音素平均绝对偏差(phoneMAD)-是用于从所述单词对齐单元获得的音素的所述用户话语内的音素持续时间的平均绝对偏差。除了使用音素持续时间而不是能量值之外，这是使用与上述等式(1)类似的等式来计算的。

最大音素持续时间(phonemax)-是用于从所述单词对齐单元获得的音素的用户话语内的最大音素持续时间。

23)音素均方根偏差(phoRMSE)-是用于从所述单词对齐单元获得的音素的一组标准音素持续时间的音素持续时间的均方根偏差。这个标准的音素持续时间是以英语为母语的人来计算的，给出一个基准持续时间来比较每个说出的音素。

24)音高平均绝对偏差(pitchMAD)-是在所述输入话语中的音高的平均绝对偏差。这与上述用于朗读提示操作模式的特征24)相同。

25)平均音高(pitchMean)-是所述用户输入话语中的平均音高。这与上述用于朗读提示操作模式的特征25)相同。

26)音高张度(pitchSpread)-是用平均音高标准化的用户输入话语中的最大音高和最小音高之间的差值。这与上述用于朗读提示操作模式的特征26)相同。

27)音素评分fa2(scorefa2phone)-是与所述音素对齐单元25输出的系列音素63相关联的累积得分(对数概率)和与所述自由对齐单元43输出的系列音素相关联的累积得分(对数概率)之间的对数概率的差异。

28)闪光2(shimmer2)-是所述用户输入话语期间能量不稳定的度量。这与上述用于朗读提示操作模式的特征36)相同。

29)无声平均绝对偏差(silMAD)-是所述用户话语中的词间无声持续时间的平均绝对偏差。这与上述用于朗读提示操作模式的特征37)相同。

30)无声最大持续时间(silmax)-是所述用户话语中最大的单词之间的无声持续时间。

31)无声平均持续时间(silmean)-是所述用户话语中的平均单词之间的无声持续时间。

32)速度(speed)-是所述用户输入话语中音素发音的速度的一种度量，与英语母语人士计算的标准音素持续时间相比较。

33)唯一双连词(uniqueBigrams)-是在所述用户输入话语中被识别的唯一双连词的数量除以所述ASR系统(语言模型)中的双连词的总数。

34)唯一三连词(uniqueTrigrams)-是在所述用户输入话语中被识别出的唯一三连词的数量除以所述ASR系统(语言模型)中的三连词的总数。

唯一单词(uniqueWords)-是在所述用户输入话语中识别的唯一单词的数量除以所述ASR系统(发音字典)中的单词总数。

语音百分比(voicePercent)-是任何语音所占用户输入话语的百分比。

37)单词重复次数(wordRepetition)-是由所述ASR系统识别的单词百分比，其是所述ASR系统识别的其他单词的重复。

38)每秒单词数(wordsPerSec)-是用户每秒说出的单词的数量。

如本领域技术人员将理解的，这些不同的语音评分特征值排列在向量中的顺序不重要，只要用于训练所述机器学习评分单元35的向量与产生的用于评估用户的输入语音的向量之间一致。

计算上述语音评分特征值中的一些的方式对于本领域技术人员而言将立即显而易见，并且在此将不提供进一步的解释。然而，现在将更详细地描述计算上述语音评分特征值中的一些的方式。

主成分分析(PCA)

在所述朗读提示操作模式中，所述SSFD单元33使用主成分分析技术来捕获信息，该信息与在所评估的朗读提示内观察到的音素持续时间，无声持续时间，能量值和音高值内的主要变化有关。发明人已经发现，这些PCA特征与分配给用户的最终评分(评估)具有合理的相关性，并且它们与由所述SSFD单元33计算的其他语音评分特征值不相关。

无声持续时间

现在将解释对无声持续时间执行PCA分析的方式。对于每个朗读提示文本，系统1均可以呈现给用户，对通过询问多个不同的训练用户(具有已知和不同的熟练/流畅性)来讲出所述朗读提示文本而获得的训练数据执行单独的PCA分析。根据每个训练用户的语音，所述SSFD单元33产生表示在所述特定训练用户的话语内观察到的无声持续时间的向量(X：[x1，x2，...xk]^T)。因此，如果有100个训练用户，则将生成100个矢量，每个矢量表示相应的一个训练用户的话语内观察到的无声。由于无声可能出现在输入话语中的任意随机点，因此生成的向量代表不同范围内的无声持续时间，而不是查看话语内何时出现这些无声。因此，矢量(X)的一个元素可表示在0.02到0.03秒之间的无声持续时间；向量中的下一个元素可以表示在0.03和0.04秒之间的无声持续时间等。然后，将针对给定的训练用户的话语写入到向量的元素中的值确定为在所述用户的话语内观察到对应范围内的无声持续时间的次数，除以在所述用户的话语内观察到的无声时段的总数。

由训练话语如此产生的矢量被排列成矩阵，并且对所述矩阵执行PCA分析以确定无声PCA权重。对训练数据矩阵进行PCA分析的方式是众所周知的，在此不再赘述。如此确定的无声PCA权重如下所示将期望的PCA值与无声持续时间的输入矢量(X)相关联：

其中x_i是为输入话语确定的无声持续时间的向量(X)的第i^th元素；k是矢量(X)中元素的数量；wi^sil1是无声持续时间的第一个主成分的第i个无声PCA权重；wi^sil2是无声持续时间与第二个主成分相关的第i个无声PCA权重；wi^sil3是无声持续时间与第三个主成分相关的第i个无声PCA权重；wi^sil4是第四个无声PCA的重量，与无声持续时间的第四个主成分相关联。

如上所述，根据训练发音产生的向量计算这些无声PCA权重(w^sili)，并且一旦计算出来就存储在所述朗读提示词存储器29中。在正常使用期间，当所述SSFD单元33正在执行用户语音分析时(2)到(5)以及来自所述存储器29的相应PCA权重一起插入在用户的口头发音内观察到的无声持续时间的矢量(X)，以确定无声PCA值(silPCA1，silPCA2，silPCA3和silPCA4)。

音素持续时间

对音素持续时间执行PCA分析的方式与上面讨论的无声持续时间相同，除了使用音素持续时间而不是使用无声持续时间。因此不再赘述。

能量

对能量值进行PCA分析的方式略有不同。在这种情况下，为每个可以呈现给用户的不同朗读提示确定单独的一组PCA权重。然而，在这种情况下，从针对话语计算的个体能量值中减去为训练话语确定的平均能量值。然后将得到的值排列成具有固定数量元素的向量-例如500：

[(e₀-ē),(e₁-ē),(e₂-ē),(e₃-ē),...(e₅₀₀-ē)]^T

其中e_i是输入话语的第i帧16内的能量值，并且是输入话语中的平均能量。如果输入话语不包含足够的语音以产生期望的500个能量值，或者如果它包含多于期望的500个值，则使用内插/外插来确定向量的期望的固定数量的能量值。固定数量的能量值通常根据朗读提示的长度或在所有训练发言内针对所述特定朗读提示生成的能量值的平均数量来选择。如此产生的能量值的训练矢量如前所述排列成矩阵，并且执行PCA分析以确定随后存储在所述存储器29中的能量PCA权重。在正常使用期间，当所述SSFD单元33正在执行对待评估的用户语音的分析时，所述SSFD单元33确定针对输入话语所获得的所有能量值的平均能量值。然后，所述SSFD单元33从个体能量值中减去所述平均能量值，然后为正在评估的新输入话语生成能量值向量：

[(e₀-ē)，(e₁-ē)，(e₂-ē)，(e₃-ē)，...(e₅₀₀-ē)]^T

然后将所述输入矢量与来自所述存储器29的能量PCA权重组合，以使用与上面定义的方程(方程式(2)至(5))类似的方程来生成enPCA1，enPCA2，enPCA3和enPCA4用于无声PCA值。

音高

除了使用音高值而非能量值之外，对音高值执行PCA分析的方式与上述讨论的能量值相同。因此不再赘述。

熵和困惑度

困惑度是语音识别领域的标准测量方法，熵是困惑度的对数(通常使用，因为它在许多情况下更方便)。

困惑度(Perplexity)的定义是：

b是任何数字(通常是2或e)；总和覆盖所述ASR系统37响应于用户的输入话语输出的识别结果中的所有单词；q(x_i)是根据所使用的语言模型给定其上下文的词x_i的概率。在所述实施例中，使用四种不同的语言模型(LM)来定义q(x_i)以便生成不同的熵度量：

1)所述ASR系统37也使用的“主要LM”，所述主要LM受过各种英语语言资源的培训，包括学习者采用的英语口语考试的抄录，学习者采用的英语写作测试的文本，当地人讲的英语抄写以及由本地人编写的英文文本，并按比例合并，以优化系统分隔英语的测试学习者讲示例数据的能力。这个语言模型用于使用上面的等式确定‘ent’特征。

2)通过处理被认为具有良好流利性和被评估语言熟练度的学生的演讲获得的所述ASR系统37的输出训练的“良好水平”LM。

3)根据ASR系统37的输出训练的“中等水平”LM，其通过处理被认为具有中等流利性和被评估语言熟练度的学生的语音而获得。

4)根据所述ASR系统37的输出而训练的“最低水平”LM，其通过处理被认为具有差的流利性和被评估语言的熟练度的学生的语音而获得。

主要的语言模型代表了评估语言的方式，通常通过分析通常可用的不同文件和演讲(例如从在线数据库)来进行培训。困惑度特征有效地提供了对所述ASR系统37输出的系列单词响应于给定语言模型的用户输入话语有多惊人的度量。如果由所述ASR 37输出的系列单词与语言模型预期的匹配得很好，那么概率q(x_i)将会很高，并且所得到的困惑度值将会很低。当然，试图学习一门语言的用户不太可能完全按照主语言模型所预料的那样完成任何事情-这些语言模型是通过语言流利/本地语言的用户的文档和语音进行培训的。因此，在所述实施例中，所述系统使用三种新的语言模型-其有效地模拟由不同熟练和流畅用户使用的语法和词汇。因此，给定要评估的用户语音的ASR记录，通过将识别的系列单词与不同的语言模型进行比较，所述SSFD单元33确定表示被识别的语音给予不同的令人惊讶的困惑度(熵)评分与不同水平的用户熟练度/流畅性相关的语言模型。

本发明人还发现，采用使用不同语言模型获得的熵评分的比率提供了与要计算的评估评分良好相关的特征。因此，在所述实施例中，所述SSFD单元33确定使用不同语言模型获得的不同困惑度(熵)的比率：

“ent21”-是顶级语言模型的ASR成绩单的熵与中级语言模型的ASR成绩单的熵之比。

“ent31”-是顶级语言模型的ASR成绩单的熵与底层语言模型的ASR成绩单的熵之比。

“ent32”-是中级语言模型的ASR转录本的熵与底层语言模型的ASR成绩单的熵之比。

机器学习评分单元

如上所述，由所述SSFD单元33输出的语音评分特征向量被传递给所述机器学习评分单元35，其使用所述向量为所述用户的话语确定评分，其表示在被测语言中对用户熟练度和/或流畅性的系统评估的评分。可以使用各种不同的机器学习技术，例如神经网络，支持向量机，聚类等。典型地，所述机器学习评分单元35通过提供从所述SSFD单元33获得的作为输入的众多语音评分特征向量作为输入进行训练，作为分析来自被测语言的不同流利/熟练度的各种不同用户的输入语音的结果。这些训练用户的流利/熟练度事先已知，并由人类考官确定。因此，所述机器学习评分单元35可以学习它接收到的输入矢量与所述评分单元35输出的评分之间的模式，如果自动匹配与人类打分相匹配。一旦被训练，当语音评分特征向量被应用于其输入时，所述评分单元35将输出定义所述系统对所述用户的输入语音的评估的评分。这个自动确定的评估可以在他们输入他们的口头发言后立即反馈给用户。

一种优选的训练方法使用“排名偏好”来训练所述机器学习评分单元35。所述训练方法在US2012/088219中描述，其内容通过引用并入本文。所述方法基本上采用成对的训练矢量，即从所述SSFD单元33获得的语音评分特征向量对用于来自不同标准的用户对的语音输入。在被测试语言中，对训练矢量对进行排序，从而提供关于每个对的哪个训练矢量从具有更高标准的用户语音中获得知识。针对每对训练矢量确定差异矢量，并且使用这些差异矢量来训练能够区分不同对中的训练矢量的模型(即，能够标识哪对训练矢量来自更高标准的用户)。一旦训练完成，从所述SSFD单元33获得的用于评估的新用户的语音评分特征向量与“标准”语音评分特征向量(从“标准”流畅性/熟练度的用户的语音获得)和这对向量之间的差异应用于模型。所述模型输出一个评分，所述评分指示用户的输入语音是否比“标准”级别的语音更好或更差。

发明人面对这种训练技术的一个问题是，他们比低标准的用户训练具有更多的训练语言。为了避免模型偏向于较低质量的语音，发明人限制训练，使得从高标准用户的语音获得的训练矢量与其他训练矢量更经常地配对，而不是从较低标准的用户获得的训练矢量。

修改和替代方案

上面已经描述了本发明的实施例。如本领域技术人员将认识到的，可以对上述实施例进行多种修改和替代，同时仍然从其中体现的发明中受益。作为说明，现在将描述这些替代和修改中的一些。上述语音评估系统1被设计为能够评估自由言语或提示言语。在替代实施例中，系统可以被设计为仅能够评估其中的一个。

在上述实施例中，所述ASR系统37使用三音素声学模型识别用户输入话语内的单词。这不是必需的。所述ASR 37可以改为使用单音素声学模型来识别输入语音。但是，使用三音素模式是首选，因为它会导致更高的准确识别结果。

在上述实施例中，所述SSFD单元33使用从具有不同熟练度和/或流畅性的用户的讲话中产生的三种语言模型。如本领域技术人员将会理解的，使用这三种语言模型并不是必需的。所述SSFD单元33可以使用多于三种语言模型或少于三种语言模型。

在上述实施例中，当对齐输入话语与与不同路径相关联的存储模型时，所述单词对齐单元通过网络50确定最佳路径(具有最高匹配概率的路径)。如本领域技术人员将会理解的那样，标识“最佳”路径不是必需的。取而代之，可以确定次优或次次优等。此外，使用上述子网络来定义网络并不重要。单个网络可以定义路径或其他子网络可以被提供来定义在朗读提示内可以跳过或重复单词的其他地方。类似地，网络不必采取图中所示的形式，可以使用其他类似的网络。此外，尽管在附图中图示了网络，但是它们通常将由定义网络内的系列节点和连接这些节点的路径的数据来定义。网络的目的是在将用户的输入话语与已知的阅读提示或从自动语音识别系统输出的识别结果对齐时限制搜索空间。

在上述实施例中，提供了不同的数据存储器用于存储声学语音模型，发音词典和朗读提示文本。如本领域技术人员将认识到的，这些数据存储的全部或一些可以由单个数据存储器提供。类似地，在上述实施例中，表示用户可以响应于朗读提示文本而可以说出的所有可能话语的网络50被存储在朗读提示词存储器29中。这不是必需的-网络50可以被存储在单独的数据存储器中。

在上述实施例中，发音字典包括已知具有多种不同发音的任何单词的多个发音。在替代实施例中，发音词典可以存储确定词典中每个单词的单个发音的数据。

在上述实施例中，不同的对齐单元将单音素声学模型与用户的输入话语对齐。如本领域技术人员将认识到的，可以使用其他声学语音模型。例如，可以使用双音素或三音素声学模型。

Claims

1.一种语音处理系统，包括：

一输入，用于接收一用户响应一朗读提示文本而说出的一输入话语；

一声学模型存储器，存储声学语音模型；

一朗读提示数据存储器，其存储所述朗读提示中标识了单词序列的文本数据；

一数据存储器，其存储定义第一网络的数据，所述第一网络具有通过所述第一网络的多个路径，每条路径表示用户响应所述朗读提示文本而可能说出的一种不同可能话语，所述不同路径允许：i)所述用户跳过所述朗读提示文本的部分；ii)所述用户重复所述朗读提示文本的部分或全部；和iii)所述用户在所述朗读提示文本中的单词之间插入语音声音；及

一单词对齐单元，被配置为将所述声学语音模型的不同序列与所述用户所说的所述输入话语对齐，声学语音模型的每个不同序列对应该不同可能话语中的一种，所述不同可能话语是用户响应由所述第一网络的一个路径所表示的所述朗读提示文本而做出的，并且输出对齐结果，所述对齐结果标识了：i)来自与所述用户所说的所述输入话语相匹配的由所述第一网络所表示的所有可能话语中的一种匹配可能话语；ii)所述用户跳过的所述朗读提示文本的任何部分；iii)所述用户重复的所述朗读提示文本的任何部分；iv)所述用户在所述朗读提示文本的单词之间插入的任何语音声音；以及v)所述匹配可能话语的单词和子词单元与所述用户所说的所述输入话语之间的时间对齐。

2.根据权利要求1所述的语音处理系统，其特征在于，所述第一网络的不同路径允许所述朗读提示文本中的具有多个已知发音的一个或多个单词具有不同的词典发音；并且，其中，所述匹配可能话语标识了所述用户所说的具有多个已知发音的任何朗读提示词中的一个可能发音。

3.根据权利要求1或2所述的语音处理系统，其特征在于，所述单词对齐单元被配置为保持声学语音模型的不同序列与所述用户所说的输入话语之间的对齐匹配评分，并且被配置为输出所述匹配可能话语的评分。

4.根据前述任一项权利要求所述的语音处理系统，其特征在于，所述声学语音模型包括一个或多个无声模型，并且，其特征在于，所述单词对齐单元被配置为标识了所述用户话语中与所述一个或多个无声模型匹配的部分。

5.一种语音处理系统，包括：

一输入，用于接收一用户所说的输入话语；

一语音识别系统，识别所述用户所说的所述输入话语并输出一识别结果，所述识别结果包括对应于所述输入话语的一系列已识别单词和子词单元；

一声学模型存储器，存储声学语音模型；

一单词对齐单元，被配置为接收由所述语音识别系统输出的该系列已识别的单词和子词单元，并将与接收到的该系列已识别的单词和子词单元对应的一系列所述声学语音模型与用户所说的输入话语对齐，并输出一对齐结果，该对齐结果标识了所接收的该系列已识别的单词和子词单元与用户所说的输入话语之间的时间对齐。

6.根据权利要求5所述的语音处理系统，其特征在于，所述单词对齐单元被配置为输出与所识别的输入话语的词典发音相对应的一系列子词单元。

7.根据权利要求1至4中任一项所述的语音处理系统，其特征在于，所述单词对齐单元被配置为输出对应于所述匹配可能话语的词典发音的一系列子词单元。

8.根据权利要求6或7所述的语音处理系统，还包括子词对齐单元，其被配置为接收与所述词典发音对应的一系列子词单元，并且被配置为确定用户所说的输入话语与词典发音之间的差异，并输出对应于所述用户所说的输入话语的实际发音的一系列子词单元。

9.根据权利要求8所述的语音处理系统，其特征在于，所述子词对齐单元被配置为将与从所述单词对齐单元接收到的词典发音相对应的该系列所述子词单元与由所述用户所说的所述输入话语对齐，同时允许在单词之间插入子词单元，并将一个单词的子词单元替换为其他子词单元。

10.根据权利要求9所述的语音处理系统，其特征在于，所述子词对齐单元被配置为生成具有多个路径的第二网络，所述第二网络允许在单词之间插入子词单元并且使一个单词的子词单元被其他子词单元替换，并且，其中，所述子词对齐单元被配置成将由所述第二网络定义的不同路径的声学语音模型与所述用户所说的输入话语对齐。

11.根据权利要求10所述的语音处理系统，其特征在于，所述子词对齐单元被配置为保持一评分，所述评分表示所述第二网络定义的不同路径的所述声学语音模型和所述用户的所述输入话语之间的匹配接近度。

12.根据权利要求8至11中任一项所述的语音处理系统，还包括一语音评分特征确定单元，其被配置为接收并确定一相似度，该相似度为由所述单词对齐单元输出的该系列所述子词单元与由所述子词对齐单元输出的该系列子词单元之间的相似度。

13.根据权利要求中前述任一项所述的语音处理系统，还包括一自由对齐单元，所述自由对齐单元被配置为将声学语音模型与所述用户所说的输入话语进行对齐，并且输出对齐结果，该对齐结果包括与所述用户所说的所述输入话语匹配的一系列子词单元。

14.根据权利要求前述任一项所述的语音处理系统，包括一语音评分特征确定单元，其被配置为接收并确定所述输入话语的多个语音评分特征值。

15.根据权利要求14所述的语音处理系统，权利要求14从属于权利要求13和权利要求8，其特征在于，所述语音评分特征确定单元被配置为确定所述自由对齐单元输出的该系列所述子词单元与所述子词对齐单元输出的该系列子词单元之间的相似度。

16.根据权利要求14所述的语音处理系统，权利要求14从属于权利要求13，其特征在于，所述语音评分特征确定单元被配置为确定所述自由对齐单元输出的该系列所述子词单元与所述单词对齐单元输出的该系列子词单元之间的相似度。

17.根据权利要求14所述的语音处理系统，权利要求14从属于权利要求5，包括语音评分特征确定单元，被配置为当与第一语言模型比较时，确定由所述语音识别系统输出的识别结果的困惑度的第一度量。

18.根据权利要求17所述的语音处理系统，其特征在于，所述语音评分特征确定单元被配置为当与第二语言模型进行比较时，确定由所述语音识别系统输出的所述识别结果的所述困惑度的第二度量。

19.根据权利要求18所述的语音处理系统，其特征在于，所述语音评分特征确定单元被配置为确定由所述语音识别系统输出的所述识别结果的所述困惑度的所述第一度量和第二度量之间的第一比率。

20.根据权利要求18所述的语音处理系统，其特征在于，所述语音评分特征确定单元被配置为当与第三语言模型比较时，确定由所述语音识别系统输出的所述识别结果的所述困惑度的第三度量。

21.根据权利要求20所述的语音处理系统，其特征在于，所述语音评分特征确定单元被配置为确定由所述语音识别系统输出的所述识别结果的所述困惑度的所述第一度量和第三度量的第二比率。

22.根据权利要求21所述的语音处理系统，其特征在于，所述语音评分特征确定单元被配置为确定由所述语音识别系统输出的所述识别结果的所述困惑度的所述第二度量和第三度量的第三比率。

23.根据权利要求17至22中任一项所述的语音处理系统，其特征在于，所述第一语言模型是使用由所述语音识别系统输出的文本并响应于具有所述语言的第一能力的用户所说的输入语音训练而得。

24.根据权利要求23所述的语音处理系统，权利要求23从属于权利要求18，其特征在于，所述第二语言模型是使用由所述语音识别系统输出的文本并响应于具有所述语言的第二能力的用户所说的输入语音训练而得，所述第二能力大于所述第一能力。

25.根据权利要求23所述的语音处理系统，权利要求23从属于权利要求20，其特征在于，所述第三语言模型是使用由所述语音识别系统输出的文本并响应于具有所述语言的第三能力的用户所说的输入语音训练而得，所述第一能力大于所述第三能力。

26.根据权利要求17至25中任一项所述的语音处理系统，其特征在于，所述困惑度或每个困惑度是熵度量。

27.根据从属于权利要求1或从属于权利要求14的任何权利要求的权利要求14所述的语音处理系统，还包括一组主成分分析，PCA，权重，表示由多个具有不同语言能力的不同训练用户响应所述朗读提示文本而说出的多个训练输入话语的语音特征，并且，其中，所述语音评分特征确定单元被配置为确定表示所述用户所说的输入话语中的语音特征的PCA值。

28.根据权利要求27所述的语音处理系统，其特征在于，所述语音特征包括以下之一：所述输入话语内的能量，所述输入话语内的用户音高；所述输入话语中的无声持续时间，以及所述输入话语中的子词单元的持续时间。

29.根据权利要求14或从属于其的任何权利要求所述的语音处理系统，还包括评分单元，用于接收由所述语音评分特征确定单元确定的用于所述输入话语的多个语音评分特征值，并且被配置为生成表征用户语言能力的评分。

30.根据权利要求29所述的语音处理系统，其特征在于，所述评分表示所述用户的口头发音的流畅性和/或熟练度。

31.一种语音处理系统，包括：

一输入，用于接收一系列声学特征向量，其表征了一用户响应于一朗读提示文本所说的话语；

一声学模型存储器，存储了子词单元的声学模型；

一朗读提示数据存储器，其存储所述朗读提示中标识了系列单词的文本数据；

一数据存储器，其存储一网络，所述网络表示用户可能响应所述阅读提示文本而做出的不同可能话语，所述网络包括多个路径，每个路径表示一种不同可能话语，所述不同路径允许：i)所述用户跳过所述朗读提示文本的部分；ii)所述用户重复所述朗读提示文本的部分或全部；和iii)所述用户在所述朗读提示文本的单词之间插入语音声音；和

一单词对齐单元，被配置为将所述声学模型的不同序列与表示用户所说的话语的声学特征向量的输入序列对齐，声学模型的每个不同序列对应于所述不同可能话语中的一个，所述不同可能话语是用户响应通过所述网络的路径定义的所述朗读提示文本而可能做出的，所述单词对齐单元标识了与所述输入话语匹配的可能话语，所述可能话语标识了所述用户跳过的所述朗读提示文本的任何部分，标识了所述用户重复的所述朗读提示文本的任何部分，并标识了所述用户在所述朗读提示文本的文字之间插入的任何语音。

32.一种语音处理方法，包括：

接收一用户响应于一朗读提示文本而说出的一输入话语；

将声学语音模型的不同序列与所述用户所说的所述输入话语对齐，声学语音模型的每个不同序列对应于用户响应所述朗读提示文本而可能做出的多个不同可能话语中的一种；和

输出对齐结果，所述对齐结果标识了：i)所有可能的话语中与用户所说的输入话语相匹配的一种匹配可能话语；ii)所述用户跳过的所述朗读提示文本中的任何部分；iii)所述用户重复的所述朗读提示文本中的任何部分；iv)所述用户在所述阅读提出文本的单词之间插入的任何语音声音；以及v)所述匹配可能话语的单词和子词单元与用户所说的输入话语之间的一时间对齐。

33.一种语音处理方法，包括：

接收一用户所说的一输入话语；

使用一语音识别系统识别所述用户所说的所述输入话语并输出一识别结果，所述识别结果包括对应于所述输入话语的一系列已识别的单词和子词单元；和

接收由所述语音识别系统输出的该系列已识别的单词和子词单元，并将与接收到的该系列已识别的单词和子词单元对应的一系列声学语音模型与所述用户所说的所述输入话语对齐；以及

输出一对齐结果，所述对齐结果标识了接收到的该系列已识别的单词和子词单元与所述用户所说的所述输入话语之间的时间对齐。

34.一种用于分析用户语音的语音分析系统，所述系统包括：

一输入，用于接收所述用户以被测语言说出的输入话语；

一语音识别系统，识别用户所说的所述输入话语并输出识别结果，所述识别结果包括对应于输入话语的一系列的已识别的单词和子词单元；

一语音评分特征确定单元，被配置为：

i)当与第一语言模型比较时，确定由所述语音识别系统输出的识别结果的困惑度的第一度量；

ii)当与第二语言模型比较时，确定由所述语音识别系统输出的识别结果的困惑度的第二度量；和

iii)确定由所述语音识别系统输出的识别结果的困惑度的第一度量和第二度量的第一比率；和

一评分单元，用于接收由所述语音评分特征确定单元确定的所述第一比率，并且被配置为使用所述第一比例生成一评分，该评分表示所述用户讲出被测语言的能力。

35.根据权利要求34所述的语音分析系统，其特征在于，所述语音评分特征确定单元被配置为在与第三语言模型进行比较时，确定所述语音识别系统输出的所述识别结果的所述困惑度的第三度量，其中所述语音评分特征确定单元被配置为确定由所述语音识别系统输出的识别结果的困惑度的第一度量和第三度量的第二比率，并且其中评分单元被配置为使用所述第一比率和所述第二比率来生成表示所述用户讲出被测语言的能力的评分。

36.根据权利要求35所述的语音分析系统，其特征在于，所述语音评分特征确定单元被配置为确定由所述语音识别系统输出的所述识别结果的所述困惑度的所述第二度量和第三度量的第三比例，并且，其中，所述评分单元被配置为使用所述第一比率、所述第二比率和所述第三比率生成表示所述用户讲出被测语言能力的评分。

37.根据权利要求34至36中任一项所述的语音分析系统，其特征在于，所述第一语言模型是使用来自所述语音识别系统输出的文本并响应具有被测语言的第一能力的用户所说的输入语音训练而得。

38.根据从属于权利要求35或36的权利要求37所述的语音处理系统，其特征在于，所述第二语言模型是使用来自所述语音识别系统输出的文本并响应具有被测语言的第二能力的用户所说的输入语音训练而得，所述第二能力大于所述第一能力。

39.根据从属于权利要求36的权利要求38所述的语音处理系统，其特征在于，所述第三语言模型是使用来自所述语音识别系统输出的文本并响应具有被测语言的第三能力的用户所说的输入语音训练而得，所述第一能力大于所述第三能力。

40.根据权利要求34至39中任一项所述的语音分析系统，其特征在于，所述困惑度或每个困惑度是熵度量。

41.一种用于分析用户语音的语音分析系统，所述系统包括：

一输入，用于接收一用户响应一朗读提示文本来并以被测语言说出的输入话语；

一语音处理系统，其被配置为处理所述输入话语以确定在输入话语期间的语音特征值；

一数据存储器，包括一组主成分分析，PCA，权重，代表由多个具有不同语言能力的不同训练用户响应所述朗读提示文本而说出的多个训练输入话语的语音特征值；

一语音评分特征确定单元，其被配置为使用所存储的PCA权重和针对所述输入话语所确定的所述语音特征值所确定的所述输入话语的PCA值；和

一评分单元，用于接收所述用户所说的所述输入话语的PCA值，并使用所述PCA值生成一表示用户讲出被测语言的能力的评分。

42.根据权利要求41所述的语音分析系统，其特征在于，所述语音特征包括以下之一：所述输入话语内的能量，所述输入话语内的用户音高；所述输入话语中的无声持续时间，以及所述输入话语中的子词单元的持续时间。

43.根据权利要求41或42所述的语音分析系统，其特征在于，所述语音处理系统包括根据权利要求1至31中任一项所述的语音处理系统。

44.一种计算机可实现指令产品，包括计算机可实现指令，所述计算机可实现指令用于使可编程计算机设备被配置为权利要求1至31中任一项所述的语音处理系统或者权利要求34至43中任一项所述的语音分析系统。