CN109863554A

CN109863554A - 用于计算机辅助发音训练和语音处理的声学字形模型和声学字形音位模型

Info

Publication number: CN109863554A
Application number: CN201780065301.4A
Authority: CN
Inventors: 蒙美玲; 李坤; 孙立发; 吴锡欣
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2016-10-27
Filing date: 2017-10-27
Publication date: 2019-06-07
Anticipated expiration: 2037-10-27
Also published as: CN109863554B; WO2018077244A1

Abstract

介绍了一种用于以音素级分析语音的声学字形模型(AGM)和声学字形音位模型(AGPM)。AGM是多分布深度神经网络(MD‑DNN)，其输入包括话语的声学特征的表示和文本的对应字形转录。AGPM的输入可以包括声学特征、字形转录和规范音位转变。AGM或AGPM的输出可以包括一组可辨识音素中的每个音素的后验概率。根据后验概率，例如可使用维特比解码算法和状态转变模型确定最可能音素序列，状态转变模型在考虑到特定的在前音素序列的情况下提供特定音素的后验概率。

Description

用于计算机辅助发音训练和语音处理的声学字形模型和声学字形音位模型

技术领域

本公开涉及计算机辅助语音处理，并且具体地涉及用于计算机辅助发音训练和语音处理的声学字形模型(AGM，acoustic-graphemic model)和声学字形音位模型(AGPM，acoustic-graphemic-phonemic model)。

背景技术

第二语言学习者会因为各种原因而发生错误发音。一个原因是语言迁移，其中学习者用第一语言(L1)的熟悉音素替换第二语言(L2)的不熟悉音素。另一个原因是不正确的字母到声音转换。第三个原因是误读文本提示。

计算机辅助发音训练(CAPT)承诺使用计算机通过检测并诊断错误发音并且提供适当反馈来帮助第二语言学习者达到熟练。这又需要能够分析用户语音并区分正确和不正确发音的计算机系统。例如，用户可以向能够用于对语音进行数字取样的麦克风说出提示文本。该样本可变换为频率空间表示，诸如常用的梅尔频率倒谱系数(MFCC)。可以使用各种计算机实施模型来分析频率空间表示以评估用户的发音，并且该评估可以用于向用户提供实时反馈。一般来说，CAPT的有效性取决于分析的可靠性，而可靠性又取决于模型。

已经尝试了各种方法。一些方法是基于发音评分。例如，声学模型可以使用接近母语的(被视为正确的)发音和非母语的(不正确的)发音来训练。这些模型可以用于给L2学习者的语音评分。(H.Franco等人的Language Testing，27:3，401-418(2010)中描述了一个具体示例。)作为另一个示例，动态时间扭曲可以用于关联老师的话语和学生的话语，并且可以使用评分算法来比较这两个话语的声学特征。(A.Lee等人的“A comparison-basedapproach to mispronunciation detection”(Proc.SLaTE(2012))以及A.Lee等人的“Mispronunciation detection via dynamic time warping on deep belief networkposteriorgrams”(Proc.ICASSP(2013))中描述了具体示例。)然而，基于音素级评分的算法经常难以区分正确和不正确的发音。

其它方法使用允许在母语与非母语声学模型之间转变的扩展辨识网络(ERN)。(A.M.Harrison等人的“Implementation of an extended recognition network formispronunciation detection and diagnosis in computer-assisted pronunciationtraining”(Proc.SLaTE(2009))中描述了一个示例。)然而，ERN通常不提供可能错误发音的高覆盖率，并且无法辨识从ERN丢失的音素。此外，在覆盖率与精确率之间存在权衡：增加能够辨识的可能错误发音的数目会增加不准确识别的比率。

还有其它方法使用替代性声学表示来代替MFCC和/或替代性声学模型。例如，基于取样音频数据中的一小组鉴别特征的线性鉴别分析(LDA)已经被用于检测特定音素中的错误。(在K.Truong等人的“Automatic pronunciation error detection:an acoustic-phonetic approach”(Proc.InSTIL/ICALL(2004))中描述了一个示例。)另一种方法使用后验图来表示L2英语声学音位空间。(见A.Lee等人的“Mispronunciation detection viadynamic time warping on deep belief network-based posteriorgrams”，Proc.ICASSP(2013)。)

本发明的发明人先前开发了一种声学音位模型(APM)(见K.Li和H.Meng的“Mispronunciation detection and diagnosis in L2English speech using multi-distribution deep neural networks”，Proc.ISCSLP(2014))。APM可以使用多分布深层神经网络(MD-DNN)来实施，其中输入包括提示文本的用户话语的表示和该文本的对应规范音位转录。APM可以使用已经被手动注释以指示所说的实际音素的语音样本来训练。在训练之后，用户话语的声学特征的表示(来自提示文本)和该文本的规范音位转录可以被输入到APM中，APM计算每个音素的后验概率。APM可以对表示话语的帧序列进行操作，其中每个帧对应于语音的不同(可能重叠)时间片，并且可以为每个帧产生一组后验概率。根据后验概率，可以确定最可能音素序列，例如，使用维特比解码算法和状态转变模型，其中状态转变模型在考虑到特定的在前音素序列的情况下提供音素状态转变的概率。最可能音素序列可以用于确定语音是正确的还是不正确的。尽管与其它现有技术相比，APM提供了良好性能，但仍需要进一步改进。

发明内容

本发明的某些实施方式涉及并入有文本的字形特征的用于确定说出音素的模型。在本发明的一些实施方式中使用的一个此类模型是声学字形模型(AGM)。AGM是一种多分布深度神经网络(MD-DNN)，其输入包括话语的声学特征的表示(可以来自提示文本)和该文本的对应字形转录。字素通常对应于书写系统的单位，例如字母表中的字母，并且对于许多语言(诸如英语)，在字素与音素之间存在很强但不完美的相关性。AGM可以隐式地建模字素到可能发音转换。AGM可以使用提示文本的话语来训练，该话语已经被手动注释以使话语与实际说出音素对齐；在训练中还使用文本的字形表示。在训练之后，用户话语的声学特征的表示(来自提示文本)和文本的字形表示可以被输入到AGM中，AGM计算每个音素的后验概率。AGM可以对表示话语的帧序列进行操作，其中每个帧对应于语音的不同(可能重叠)时间片，并且可以为每个帧产生一组后验概率。根据后验概率，可以确定最可能音素序列，例如，使用维特比解码算法和状态转变模型，其中状态转变模型在考虑到特定的在前音素序列的情况下提供音素状态转变的概率。最可能音素序列可以用于确定语音是正确的还是不正确的。

本发明的其它实施方式可以使用其它模型，诸如声学字形音位模型(AGPM)。AGPM是一种MD-DNN，其输入包括话语的声学特征的表示(可以来自提示文本)、文本的对应字形转录和文本的规范音位转录。因此，AGPM可以隐式地建模字素到可能发音转换和音素到可能发音转换两者。AGPM可以使用提示文本的话语来训练，其中话语已经被手动注释以使话语与实际说出音素对齐；在训练中还使用文本的字形表示以及规范音位表示。在训练之后，用户话语的声学特征的表示(来自提示文本)、文本的字形表示和文本的规范音位表示可以被输入到AGPM中，AGPM计算每个音素的后验概率。AGPM可以对表示话语的帧序列进行操作，其中每个帧对应于语音的不同(可能重叠)时间片，并且可以为每个帧产生一组后验概率。根据后验概率，可以确定最可能音素序列，例如，使用维特比解码算法和状态转变模型，状态转变模型在考虑到特定的在前音素序列的情况下提供音素状态转变的概率。最可能音素序列可以用于确定语音是正确的还是不正确的。

以下详细描述连同附图提供了对本发明的本质和优点的进一步理解。

附图说明

图1示出了根据本发明的实施方式的用于分析语音的方法的概念性图示。

图2是示出根据本发明的实施方式的可以用于训练AGM的训练过程的流程图。

图3示出了根据本发明的实施方式的字素级声学模型(G-AM)的代表性结构。

图4示出了针对说话者说出短语的与字素对齐的语音的示例。

图5示出了根据本发明的实施方式的AGM的代表性结构。

图6是示出根据本发明的实施方式的并入有AGM的语音分析过程的流程图。

图7示出了根据本发明的实施方式的可以用于提供音素状态转变概率的状态转变模型的代表性结构。

图8示出了根据本发明的实施方式的用于使用AGPM分析语音的方法的概念性图示。

图9是示出根据本发明的实施方式的可以用于训练AGPM的训练过程的流程图。

图10示出了根据本发明的实施方式的AGPM的代表性结构。

图11是示出根据本发明的实施方式的并入有AGM的语音分析过程的流程图。

图12示出了AGM和AGPM语音分析方法的具体实施方案以及发明人先前开发并报告的APM方法的实施方案的正确率和准确率。

图13示出了可以用于评估错误发音诊断和检测(MDD)性能的分类层次。

图14是示出针对AGM和AGPM方法的具体实施方案以及发明人先前开发并报告的另一种方法的各种MDD相关度量的表格。

图15是示出针对AGM和AGPM方法的具体实施方案以及发明人先前开发并报告的另一种方法的附加MDD相关度量的表格。

图16是指示三个示例英语单词的各种发音以及APM、AGM和AGPM针对每一者的隐式建模能力的表格。

具体实施方式

图1示出了根据本发明的实施方式的用于分析语音的方法的概念性图示。提示用户说出文本，并且从用户的话语中提取声学特征102。组成文本的字素104(例如，字母表中的单个字母等)是已知的，并且可以与话语的声学特征是时间相关的。与话语的帧(即，时间窗)对应的声学特征102和字素104被提供给声学字形模型(AGM)106，AGM 106是已经被训练以在考虑到由声学特征和字素组成的输入数据集的情况下计算给定音素的后验概率的神经网络。下文描述AGM 106的配置和训练的示例。AGM 106针对每个帧确定的概率{p}被提供给维特比解码器108，维特比解码器108可以使用状态转变模型生成最可能音素序列110，其中状态转变模型在考虑到在前音素序列的情况下计算特定音素的概率。

图2是示出根据本发明的实施方式的可以用于训练AGM 106的训练过程200的流程图。在框202处，可以获得由各种说话者对提示文本的话语的表示组成的训练语料库。在一些实施方式中，语料库可以通过要求多个说话者以目标语言(L2)说出提示文本并且例如以数字格式记录结果来生成。文本可以包括单词、短语、句子或较长文本，并且可以使用各种长度的不同文本的组合。L2应当对于所有样本为相同的，并且说话者可以包括L2的母语说话者和非母语说话者。在一些实施方式中，非母语说话者可以具有相同的第一语言(L1)；在其它实施方式中，非母语说话者可以具有不同的第一语言(或方言)。话语可以包括来自多个说话者的话语，并且没有必要使得为训练集提供话语的说话者说出相同文本。在一些实施方式中，可以使用预先存在的话语语料库。例如，CU-CHLOE(香港中文大学中国英语学习者)语料库是一个现有的记录语音语料库，其中含有从110名普通话说话者(60名男性，50名女性)和100名广东话说话者(50名男性，50名女性)记录的英语语音。该语音包括几组易混淆的单词、几组最小对词、音位句子、伊索寓言“北风与太阳”以及来自TIMIT语料库的提示，如在W.M.Fisher等人的“The DARPA speech recognition research database:specifications and stats”(Proc.DARPA Workshop on Speech Recognition(1986))、L.F.Lamel等人的“Speech database development:Design and analysis of theacoustic-phonetic corpus”(Speech Input/Output Assessment and Speech Databases(1989))、V.Zue等人(Speech Communication,9:4,351-356(1990))中描述的。训练语料库可以包括已经由受过训练的语言学家注释以指示说出音素的录音。训练语料库可以被随机划分为训练集、开发集和测试集。下文描述具体示例。

在框204处，用对应“听到”音素(q^Ann)注释话语，音素可以由收听样本并识别音素的语言学家(或其他受过训练的人员)确定；听到音素序列可以被称为音位转录。在一些实施方式中，预先存在的语料库中的话语可能已经被注释。话语还可以用其它信息注释，诸如单词边界、字素、规范音素或与话语有关的其它特征。

在框206处，生成表示来自训练语料库的特定话语的几组声学特征。例如，可以使用标准音频数字化设备以(例如)16kHz的恒定速率对语音进行数字取样。为了补偿语音样本的高频部分，可以应用预加重滤波器(例如，传递函数为1-0.97z^-1的滤波器)。语音样本可以被变换为频率空间，例如，通过在具有10ms帧偏移的25ms汉明窗口中应用快速傅立叶变换。可以提取表示帧的声学特征的系数(例如，从每个汉明窗口)；在一些实施方式中，系数可以是一组13个梅尔频率倒谱系数(MFCC)，这可以使用常规技术来计算。倒谱均值归一化可以应用于每个话语，并且特征可以被缩放，例如，以在语料库上具有零均值和单位方差。如本文所使用，x_t代表表示在所有归一化和缩放之后与时间t相关联的帧的声学特征的一组系数。

在框208处，使用字素级声学模型(G-AM)来将声学特征x_t与提示文本的字素在时间上对齐。G-AM是在考虑到一组输入声学特征(x_t)的情况下计算给定字素(g_t)的后验概率p(g_t|x_t)的神经网络。图3示出了G-AM的代表性结构。底层302是可以接收一个或多个帧的声学特征x_t的输入层。在一些实施方式中，提供多个帧的特征。例如，一组21个帧可以用作输入，包括第t帧、10个在前帧和10个随后帧。如果每帧有13个系数，则底层302中将有273个单元(或节点)。假设这些单元具有高斯噪声。顶层304是输出层，在被建模的语言是英语的情况下，输出层可以包括对应于28个字素(英语字母表中的26个字母加上用于表示单词边界和撇号的两个单元)的28个单元(或节点)。输出单元在考虑到一组特定声学特征x_t的情况下提供特定字素g_t的后验概率p(g_t|x_t)。可以根据需要来布置隐藏层306。例如，可以存在四个隐藏层306，其各自具有512个单元(或节点)。可以通过实验确定最佳配置。

G-AM的训练需要关于每个话语内的字素的时间边界的信息，该信息可以是可用或者不可用的(取决于训练语料库是如何被注释的)。如果在训练语料库中提供了指示单词边界或音素边界的注释，则可以在训练期间确定字素的时间边界。例如，如果单词边界被注释(或能够从被注释的音素中导出)，则可以通过在其单词内平均划分字素、训练G-AM、运行强制对齐、接着重新训练来导出字素边界。可以迭代执行这种训练，直到性能收敛(例如，3到5次迭代)。

一旦被训练，G-AM便可以用于从一组给定声学特征x_t确定特定帧处的每个字素(g_t)的概率。

图4示出了针对L2英语说话者说出短语“the north”的与字素对齐的语音的示例。曲线图400中示出了话语的作为时间的函数的语音波形。频谱图402表示如上所述的用于窗口的频谱特性，其可以用于导出每个帧的声学特征x_t。部分404表示字素到话语的映射，其可以使用如上所述的G-AM来确定。部分406表示与话语相关联的规范音素(q^Dict)，并且部分408表示听到音素(q^Ann)的注释。如下所述，听到音素q^Ann可以用于训练AGM。规范音素q^Dict不在AGM中使用，但可以在其它模型(诸如如下所述的AGPM)中使用。

再次参考图2，在框210处，训练AGM以在考虑到帧的声学特征x_t和字素g_t的情况下确定每个音素(s_t)的可能性。图5示出了根据本发明的实施方式的AGM的代表性结构。底层502是可以接收一个或多个帧的声学特征和字形特征的输入层。更具体地说，输入单元502a接收一个或多个帧的声学特征x_t，而输入单元502b接收一个或多个帧的字素g_t。在一些实施方式中，提供多个帧的信息。例如，对于声学特征x_t，可以使用总共21个帧(第t帧、10个在前帧和10个随后帧)。接收声学特征的单元502a可以是具有高斯噪声的线性单元，并且可以针对每个系数存在一个单元(对于每帧13个系数，21个帧将存在273个单元502a)。接收字素的单元502b可以是二进制单元。字素g_t的数目可以与为其提供声学特征的帧的数目相同或不同；例如，可以使用总共7个字素(第t帧处的字素、3个在前字素和3个随后字素)。对于具有28个字素的英语，每个字素可以使用5个位来编码，并且可以存在35个二进制单元502b。顶层504是可以包括与需要区分的每个音素对应的单元(或节点)的输出层；例如，如果有48个音素要区分，则顶层504将包括48个单元。输出单元在考虑到一组特定声学特征x_t和字素g_t的情况下提供特定音素s_t的后验概率p(s_t|xt,g_t)。可以根据需要来配置隐藏层506。例如，可以存在四个隐藏层，其各自具有512个节点。可以通过实验确定最佳配置。例如，已经发现，将每层的节点数目增加到超过512会显著增加计算时间，但不会显著改善准确率。

训练可以使用用于训练多分布深层神经网络(MD-DNN)的常规技术来进行。例如，AGM可以通过自下而上堆叠多个受限玻尔兹曼机(RBM)来构造。在逐层无监督预训练算法之后可以使用反向传播算法进行微调。还可以使用其它技术。

一旦训练完成，AGM便可以用于分析语言L2的说话者的话语，该说话者也被称为AGM的“用户”。例如，用户可以是语言L2的非母语说话者。

图6是示出根据本发明的实施方式的并入有AGM 106的语音分析过程600的流程图。假设在执行过程600之前，已经使用过程200或其它类似过程来训练了AGM 106。

在框602处，获得用户来自提示文本的话语的表示。例如，可以提示CAPT系统的用户说话，并且可以记录话语(例如，以数字格式)并保存以供处理。在框604处，生成表示话语的一组声学特征。声学特征的生成可以使用与过程200的框206相同的处理。

在框606处，使用经过训练的G-AM(来自过程200的框208)将声学特征x_t与对应于提示文本的字素序列中的字素g_t对齐。

在框608处，将帧和相关联字素作为输入提供给AGM。输入的配置(例如，帧数目、字素的二进制编码等)应当与在训练期间使用的配置相同。在框610处，AGM产生每个音素s的后验概率p(s_t|x_t,g_t)作为其输出。

在框612处，可以将解码算法应用于所有帧t的后验概率p(s_t|x_t,g_t)的集合以确定话语的最可能音素序列在一些实施方式中，使用维特比解码器算法，其中最可能音素状态由下式给出：

其中x是声学矢量特征序列，g是从提示单词中提取的字素序列，并且s表示可能音素状态序列。在一些实施方式中，p(s|x,g)可以被近似为：

特定音素状态序列s的概率可以基于音素状态后验概率p(s_t|x_t,g_t)和音素状态转变概率p(s_t|s_t–1,…,s₁)来确定，音素状态转变概率是在考虑到在前音素序列(s₁,s₂,…s_t–1)的情况下、下一个音素将为s_t的概率。可以生成状态转变模型(STM)来提供适当概率估计。图7示出了根据本发明的实施方式的可以用于提供特定音素状态的概率的STM的代表性结构。在这个示例中，使用7字素STM，其中音素状态s_t的概率取决于前面六个音素状态。STM可以被实施为神经网络。90音素状态集的元素可以使用7个位来表示，并且输入是六个音素状态(s_t–6,…s_t–1)。因此，底层702可以包括42个二进制单元。顶层704可以包括表示90个可能音素状态的90个输出单元。这些输出单元可以在考虑到六个在前音素状态的序列的情况下为特定音素状态s_t提供音素状态转变概率p(s_t|s_t–6,…s_t–1)。可以根据需要来布置隐藏层706。例如，可以存在四个隐藏层，其各自具有256个单元。最佳配置可以通过实验来确定，并且可以取决于关于音素状态集的选择(例如，正识别出多少个不同的音素状态)。可以用常规方式训练STM。

再次参考图6，在解码之后，已经确定了话语的最可能音素序列在一些实施方式中，这个音素序列可以用于进一步分析，诸如错误发音检测和诊断(MDD)。MDD可以基于将最可能音素序列相比于与在框602处说出的文本相关联的规范音素序列；差异可以被识别为错误发音。在CAPT系统中，MDD可以导致进一步动作，诸如向用户提供指示发音是否正确的反馈、提示用户收听正确发音并重试、突出显示出现不正确发音的文本部分、选择不同文本供用户说出等等。反馈和/或指导的特定形式可以取决于实施方案，并且对于理解本发明并不是关键的。

如上所述，AGM可以用于基于话语的声学特征和与提示文本相关联的字素来识别说出音素(spoken phone)。AGM可以隐式地建模字素到可能发音转换。就目标语言的字素可靠地映射到其音素而言，AGM可以相对于常规声学模型的性能有所改善。此外，不同于APM，AGM可以用于文本的规范音位转录不可用的情况。

在一些情况下，特别是在L2学习的情境中，提示文本的规范音位转录可以是可用的，并且这个信息可以连同声学特征和字素一起并入到神经网络中。因此，本发明的一些实施方式涉及声学字形音位模型(AGPM)。AGPM可以并入提示文本的字素和音素两者，并且因此可以隐式地建模字素到可能发音转换和音素到可能发音转换。

除了引入附加信息之外，使用AGPM的语音分析过程可以大致类似于上述使用AGM的过程。

图8示出了根据本发明的实施方式的用于使用AGPM分析语音的方法的概念性图示。提示用户说出文本，并且从用户的话语中提取声学特征802。组成文本的字素804是已知的，并且可以与话语的声学特征是时间相关的。此外，假设文本的规范音位序列806是可用的。将与话语的帧对应的声学特征802、字素804和规范音素806提供给声学字形音位模型(AGPM)808，AGPM 808是已经被训练来在考虑到由声学特征、字素和规范音素构成的输入数据集的情况下计算给定音素的后验概率的神经网络。下文描述AGPM 808的配置和训练的示例。将AGPM 808为每个帧确定的概率{p}提供给维特比解码器810，维特比解码器810可以使用状态转变模型生成最可能音素序列812，状态转变模型在考虑到先前音素序列的情况下预测特定音素的概率。

图9是示出根据本发明的实施方式的可以用于训练AGPM 808的训练过程900的流程图。在框902处，类似于过程200的框202，可以获得由不同说话者对提示文本的话语组成的训练语料库；如在过程200中，可以使用预先存在的话语语料库。在框904处，使用对应“听到”音素(q^Ann)和规范音素(q^Dict)注释话语。如在过程200的框204处，预先存在的语料库中的话语可能已经被注释。话语还可以用其它信息注释，诸如单词边界、字素、规范音素或与话语有关的其它特征。

在框906处，生成表示来自训练语料库的特定话语的多组声学特征x_t。声学特征的生成可以类似于或等同于过程200的框206。在框908处，使用字素级声学模型(G-AM)将声学特征x_t与提示文本的字素在时间上对齐。这可以类似于过程200的框208，并且可以包括如上所述的训练G-AM。

在框910处，将声学特征x_t与规范转录的音素在时间上对齐。在一些实施方式中，在框904处，可以直接从注释获得对齐。在一些实施方式中，规范音位转录可以不与话语在时间上对齐，在这种情况下，可以使用状态级声学模型(S-AM)来执行对齐。除了输出对应于特定音素(q_t)的后验概率p(q_t|x_t)而不是特定字素之外，S-AM可以在实施和操作上类似于G-AM。

在框912处，训练AGPM以在考虑到帧的声学特征x_t、字素g_t和规范音素(q_t ^Dict)的情况下确定每个音素(s_t)的可能性。图10示出了根据本发明的实施方式的AGPM的代表性结构。底层1002是可以接收一个或多个帧的声学、字形和规范音位特征的输入层。更具体地说，输入单元1002a接收一个或多个帧的声学特征x_t，而输入单元1002b接收一个或多个字素g_t，并且输入单元1002c接收一个或多个规范音素q_t ^Dict。在一些实施方式中，提供多个帧的信息。例如，对于声学特征x_t，可以使用总共21个帧(第t帧、10个在前帧和10个随后帧)。接收声学特征的单元1002a可以是具有高斯噪声的线性单元，并且可以针对每个系数存在一个单元(对于每帧13个系数，21个帧将存在273个单元1002a)。接收字素的单元1002b可以是二进制单元。字素g_t的数目可以与为其提供声学特征的帧的数目相同或不同；例如，可以使用总共7个字素(第t帧处的字素、3个在前字素和3个随后字素)。对于具有28个字素的英语，每个字素可以使用5个位来编码，并且可以存在35个二进制单元1002b。接收规范音素的单元1002c也可以是二进制单元。规范音素q_t ^Dict的数目可以与字素的数目相同或不同；例如，可以使用总共7个规范音素(第t帧处的规范音素、3个在前规范音素和3个随后规范音素)。如果每个音素使用6个位来编码(足以区分48个音素)，则可以存在42个二进制单元1002c。顶层1004是可以包括与需要区分的每个音素状态对应的单元(或节点)的输出层；例如，如果要区分90个音素状态，则顶层1004可以包括90个单元。输出单元在考虑到一组特定声学特征x_t、字素g_t和规范音素q_t ^Dict的情况下提供特定音素状态s_t的后验概率p(s_t|x_t,g_t,q_t ^Dict)。可以根据需要来配置隐藏层1006。例如，可以存在四个隐藏层，其各自具有512个节点。可以通过实验确定最佳配置。例如，已经发现，将每层的节点数目增加到超过512会显著增加计算时间，但不会显著改善准确率。

与上述AGM一样，AGPM的训练可以使用用于训练多分布深层神经网络(MD-DNN)的常规技术来进行。还可以使用其它技术。

一旦训练完成，AGPM便可以用于分析语言L2的说话者的话语，说话者也称为AGPM的用户。例如，用户可以是语言L2的非母语说话者。

图11是示出根据本发明的实施方式的并入有AGM 808的语音分析过程1100的流程图。假设在执行过程1100之前，已经使用过程900或其它类似过程来训练了AGM 808。

在框1102处，获得来自提示文本的说出话语。例如，可以提示CAPT系统的用户说话，并且话语可以被数字化并保存以供处理。假设提示文本具有相关联的规范音位转录(例如，如图4的部分406处所示)和相关联字素。在框1104处，生成表示话语的一组声学特征。声学特征的生成可以使用与过程900的框906(或过程200的框206)相同的处理。

在框1106处，使用经过训练的G-AM(来自过程900的框908)来将声学特征x_t与提示文本的字素g_t对齐。

在框1108处，将声学特征x_t与规范转录的音素在时间上对齐。如上文参考过程900的框910所描述，经过训练的S-AM可以用于确定对齐。还可以使用其它技术。

在框1110处，将帧、相关联字素和规范音素作为输入提供给AGPM。输入的配置(例如，帧数目、字素和音素的二进制编码等)应当与在训练期间使用的配置相同。在框1112处，AGPM产生每个音素s的后验概率p(s_t|x_t,g_t,q_t ^Dict)作为其输出。

在框1114处，可以将解码算法应用于所有帧t的后验概率p(s_t|xt,g_t,q_t ^Dict)的集合以确定话语的最可能音素序列这可以类似于或等同于过程600的框612处的解码。例如，可以使用维特比解码器。用于使用AGPM的实施方式的STM可以与用于使用AGM的实施方式的STM相同。

在解码之后，已经确定了话语的最可能音素序列在一些实施方式中，这个音素序列可以用于进一步分析，诸如MDD。MDD可以基于将最可能音素序列相比于与在框1102处说出的文本相关联的规范音素序列；差异可以被识别为错误发音。在CAPT系统中，MDD可以导致进一步动作，诸如向用户提供指示发音是否正确的反馈、提示用户收听正确发音并重试、突出显示出现不正确发音的文本部分、选择不同文本供用户说出等等。反馈和/或指导的特定形式可以取决于实施方案，并且对于理解本发明并不是关键的。

实施例

为了使用AGM或AGPM来评估音素辨别的性能，已经使用提供来自L2英语说话者的数据的CU-CHLOE语料库和提供来自母语英语说话者的数据的TIMIT语料库进行了实验。这些语料库被随机划分成使用来自147名说话者的数据的训练集、使用来自另外21名说话者的数据的开发集和使用来自其余42名说话者的数据的测试集。

使用在TIMIT语料库上训练的声学模型对CU-CHLOE语料库中的L2英语语音进行注释以将规范转录与L2英语语音对齐。经过训练的语言学家用实际发音来注释所述语音；为了节省时间，注释主要是通过修改规范音素序列以指示错误发音而不改变音素边界来进行。使用上述S-AM来重新对齐被注释的音素序列。

分开训练各种DNN(包括AGM和AGPM)。每个DNN具有四个隐藏层，其各自具有512个节点。训练以预训练阶段开始，在预训练阶段中使用所有数据以最大化RBM的对数似然比。采用一步对比散度以接近随机梯度。以批量大小为512个帧来执行10个时期。在微调阶段中，使用标记数据执行标准反向传播算法。应用10％的流失率。为了加快反向传播训练过程，应用异步随机梯度下降(ASGD)技术。

为了评估结果，考虑几个品质因数。正确率和准确率可以被定义为：

以及

其中N是标记音素的总数目，S是替换错误的数目，D是删除错误的数目，并且I是插入错误的数目。这些数字可以通过将由语音分析过程(例如，用于AGM的过程600或用于AGPM的过程1100)产生的音素序列与规范转录进行比较来确定。

图12是示出针对上述AGM和AGPM方法的具体实施方案以及发明人先前开发的APM方法的实施方案的正确率和准确率(如方程式(3)和(4)中所定义)的表格1200。依据特定方法，这些数字与常规方法相比是有利的，在常规方法中已经观察到正确率为约79％至87％并且准确率为约74％至83％。

如上所述，当所辨识的音素不同于规范转录时，可以实现错误发音检测和诊断(MDD)。因此，音素准确率对于MDD性能来说是重要的。可以使用如图13所示的分级分类来评估MDD性能。音素的结果可以是：(1)正确接受(节点1302)，其中正确的发音被辨识为正确的；(2)正确拒绝(节点1304)，其中不正确的发音被辨识为不正确的；(3)错误接受(节点1306)，其中不正确的发音被错误地识别为正确的；以及(4)错误拒绝(节点1308)，其中正确的发音被错误地识别为不正确的。在正确拒绝(节点1304)的情况下，如果所识别的音素对应于说话者说出的音素，则音位单元可以被认为是正确诊断(节点1310)，以及如果所识别的音素对应于不同(也不正确)的音素，则音位单元可以被认为是诊断错误(节点1312)。根据对每类结果的测量，可以定义品质因数，包括错误拒绝率(FRR)、错误接受率(FAR)和诊断错误率(DER)。使用以下定义：

其中TA是正确接受的数目，TR是正确拒绝的数目，FA是错误接受的数目，FR是错误拒绝的数目，CD是正确诊断的数目，并且DE是诊断错误的数目。

图14是示出针对上述AGM和AGPM方法的具体实施方案以及发明人先前开发并报告的APM方法的实施方案的FRR、FAR和DER的表格1400。这些方法与常规方法相比是有利的，特别是在FRR方面。FAR与一些常规方法相当(但不像其它方法那么低)，并且DER要稍好一些。FAR被认为受到如下事实的影响，即如果声学特征不与错误发音明显相关，则作为设计的结果，AGM、APM和AGPM倾向于将错误发音辨识为正确的。然而，据信低FRR是MDD的较重要考虑因素，因为不将正确发音识别为错误比接受不正确的发音更为重要。

还已经考虑了用于评估MDD性能的其它度量。例如，通常使用以下用于错误发音检测的度量：

对于诊断，准确率可以被定义为：

图15是示出用于上述AGM和AGPM方法的具体实施方案以及用于发明人先前开发并报告的APM方法的实施方案的方程式(8)至(12)的度量的表格1500。这些度量与集中于特定频繁错误发音的音素或孤立单词中的音素的一些常规技术相当；然而，AGM和AGPM(以及AGM)能够在连续语音中检测出所有种类的错误发音的音素，这是一项更加困难的任务。

已经考虑的另一个度量是AGM和AGPM方法的结果与人类注释者的工作之间的一致性。已经观察到不同的人类注释者并不总是对他们听到哪些音素达成一致；因此，完全一致性并不是适当的标准。相反，对相同文本进行操作的两个注释者的注释者间一致性可以使用Cohen的kappa进行量化，定义为：

其中p_o是注释者之间的一致性的观测值，并且p_e是偶然预期的值。Kappa值超过0.75通常被认为指示非常好的可靠性。对于本文所述的示例，将AGPM与四个人类注释者进行比较在48音素集上实现从0.735到0.809的kappa值。

这些示例表明，如上所述的AGM和AGPM方法可以是用于L2学习中的计算机辅助MDD的有效工具。为了探索DNN配置的优化，已经研究了具有不同数目的隐藏层和/或每个隐藏层的不同数目的节点的AGM和AGPM配置。发现将隐藏层的数目增加到超过4并且将每个隐藏层的节点数目增加到超过512并没有导致显著的性能改善，但是确实导致了计算时间的显著增加。

还应注意的是，预期APM、AGM和AGPM方法具有不同强度。这在图16中示出，图16是指示三个示例英语单词的各种发音的表格1600。对于每个单词，首先展示规范发音，随后是英语学习者的一些可能错误发音。对于APM、AGM和AGPM方法中的每一者，指出方法将被(检查标记)还是将不(X)被预期隐式地建模特定发音。

对于具有规则发音的单词，诸如“north”，发音容易从字素预测并且可以使用APM、AGM或AGPM方法中的任一者隐式地建模。对于具有不规则发音的单词，诸如“quay”和“thyme”，一些可能错误发音是由语言迁移引起的并且可以由APM隐式地建模，而由字母到声音转换引起的错误模式可以由AGM而不是由APM隐式地建模。并入有字形和音位信息两者的AGPM可以隐式地建模两种类型的错误发音以及正确发音。

附加实施方式

尽管已经参考具体实施方式描述了本发明，但是本领域的技术人员将了解，变化和修改是有可能的。例如，可以例如通过改变隐藏层的数目和/或每层的节点数目来修改DNN大小和结构。还可以修改训练算法，并且任何适当注释的话语集可以被用作训练数据集。

在本文描述的实施方式中，使用来自特定目标语言(L2)的母语说话者和来自L2的非母语说话者的话语来完成训练。非母语说话者可以共享或不共享相同的第一语言(L1)。在一些实施方式中，可能需要针对L1和L2的特定组合优化APM或AGPM，在这种情况下，可能需要使用单个L1的母语说话者进行训练。虽然本文的示例使用英语作为目标语言，但是本领域的技术人员将理解，可以用其它语言替代。

本文描述的神经网络、语音捕获以及其它数据分析和计算操作能够在可以具有一般常规设计的计算机系统中实施。此类系统可以包括微处理器、输入装置(例如，麦克风、键盘)、输出装置(例如，显示装置、扬声器)、存储器和其它存储装置、信号输入/输出端口、网络通信接口等。

包含本发明的各种特征的计算机程序可以被编码并存储在各种计算机可读存储介质上；合适的介质包括磁盘或磁带、诸如压缩光盘(CD)或DVD(数字通用光盘)等的光学存储介质、快闪存储器以及其它非暂时性介质。(应当理解，数据的“存储”不同于使用诸如载波等暂时性介质的数据传播。)用程序代码编码的计算机可读介质可以用兼容的电子装置封装，或者程序代码可以与电子装置分开提供(例如，经由因特网下载或作为分开封装的计算机可读存储介质)。

因此，虽然已经相对于具体实施方式描述了本发明，但是将了解，本发明旨在覆盖所附权利要求书的范围内的所有修改和等同。

Claims

1.一种方法，包括：

获得话语的数字表示，其中所述话语对应于具有相关联的字素序列的提示文本；

从所述话语的所述数字表示中提取声学特征，所述声学特征对应于帧的序列；

将所述字素序列与所述帧对齐，使得每个帧具有相关联字素；

使用声学字形模型(AGM)来确定每个帧的多个音素状态的后验概率，其中所述声学字形模型是已被训练为基于所述帧的所述声学特征和所述相关联字素来计算所述多个音素状态的所述后验概率的深度神经网络；以及

基于针对每个帧确定的所述后验概率来确定所述话语的最可能音素序列。

2.根据权利要求1所述的方法，其中所述声学特征包括梅尔频率倒谱系数(MFCC)。

3.根据权利要求1所述的方法，其中将所述字素序列与所述帧对齐包括使用字素级声学模型(G-AM)，其中所述字素级声学模型是在考虑到一组输入声学特征(x_t)的情况下计算给定字素(g_t)的概率的神经网络。

4.根据权利要求1所述的方法，还包括使用包括多个说话者的多个话语的训练集来训练所述声学字形模型，其中所述话语中的至少一些用音位转录来注释。

5.根据权利要求4所述的方法，其中所述训练集中的所述多个话语使用目标语言，并且所述多个说话者包括所述目标语言的多个母语说话者和所述目标语言的多个非母语说话者。

6.根据权利要求1所述的方法，其中所述声学字形模型包括：

底层，包括：

多个第一输入单元，用于接收第一数目的帧的声学特征；以及

多个第二输入单元，用于接收第二数目的字素；

多个隐藏层，每个隐藏层包括多个节点；以及

输出层，具有对应于一组音素状态的多个输出单元。

7.根据权利要求6所述的方法，其中所述第一数目和所述第二数目是不同的数。

8.根据权利要求7所述的方法，其中所述第一数目为21并且所述第二数目为7。

9.根据权利要求6所述的方法，其中所述多个第一输入单元是具有高斯噪声的线性单元。

10.根据权利要求6所述的方法，其中所述多个第二输入单元是二进制单元。

11.根据权利要求6所述的方法，其中所述多个第一输入单元是具有高斯噪声的线性单元，并且所述多个第二输入单元是二进制单元。

12.根据权利要求6所述的方法，其中所述多个隐藏层包括四个层。

13.根据权利要求12所述的方法，其中所述隐藏层中的每一者包括512个节点。

14.根据权利要求1所述的方法，其中确定所述最可能音素序列包括使用维特比解码器。

15.根据权利要求14所述的方法，其中确定所述最可能音素序列还包括向所述维特比解码器提供状态转变模型(STM)，所述状态转变模型基于一个或多个先前音素的序列来确定给定帧处的给定音素的概率。

16.根据权利要求15所述的方法，其中所述一个或多个先前音素的序列包括六个先前音素。

17.根据权利要求15所述的方法，其中所述状态转变模型是神经网络。

18.根据权利要求1所述的方法，还包括：

基于所述话语的所述最可能音素序列和所述提示文本的规范音位转录来执行错误发音检测和诊断。

19.一种计算机可读存储介质，其中存储有程序代码指令，所述程序代码指令在由计算机系统执行时使所述计算机系统执行根据权利要求1至18中任一项所述的方法。

20.一种方法，包括：

获得话语的数字表示，其中所述话语对应于具有相关联的字素序列和相关联的规范音位序列的提示文本；

将所述规范音位序列与所述帧对齐，使得每个帧具有相关联规范音素；

使用声学字形音位模型(AGPM)来确定每个帧的多个音素状态的后验概率，其中所述声学字形音位模型是已被训练为基于所述帧的所述声学特征、所述相关联字素和所述相关联规范音素来计算所述多个音素状态的所述后验概率的深度神经网络；以及

21.根据权利要求20所述的方法，其中所述声学特征包括梅尔频率倒谱系数(MFCC)。

22.根据权利要求20所述的方法，其中将所述字素序列与所述帧对齐包括使用字素级声学模型(G-AM)，其中所述字素级声学模型是在考虑到一组输入声学特征(x_t)的情况下计算给定字素(g_t)的概率的神经网络。

23.根据权利要求20所述的方法，其中将所述规范音位序列与所述帧对齐包括使用状态级声学模型(S-AM)，其中所述状态级声学模型是在考虑到一组输入声学特征(x_t)的情况下计算给定音素(q_t ^Dict)的概率的神经网络。

24.根据权利要求20所述的方法，还包括使用包括多个说话者的多个话语的训练集来训练所述声学字形音位模型，其中所述话语中至少有一些用音位转录来注释。

25.根据权利要求24所述的方法，其中所述训练集中的所述多个话语使用目标语言，并且所述多个说话者包括所述目标语言的多个母语说话者和所述目标语言的多个非母语说话者。

26.根据权利要求20所述的方法，其中所述声学字形音位模型包括：

底层，包括：

多个第一输入单元，用于接收第一数目的帧的声学特征；

多个第二输入单元，用于接收第二数目的字素；以及

多个第三输入单元，用于接收第三数目的规范音素；

多个隐藏层，每个隐藏层包括多个节点；以及

输出层，具有对应于一组音素状态的多个输出单元。

27.根据权利要求26所述的方法，其中所述第一数目和所述第二数目是不同的数。

28.根据权利要求27所述的方法，其中所述第三数目不同于所述第二数目。

29.根据权利要求27所述的方法，其中所述第三数目等于所述第二数目。

30.根据权利要求26所述的方法，其中所述第一数目为21，所述第二数目为7，并且所述第三数目为7。

31.根据权利要求26所述的方法，其中所述多个第一输入单元是具有高斯噪声的线性单元。

32.根据权利要求26所述的方法，其中所述多个第二输入单元是二进制单元。

33.根据权利要求26所述的方法，其中所述多个第三输入单元是二进制单元。

34.根据权利要求26所述的方法，其中所述多个第一输入单元是具有高斯噪声的线性单元，所述多个第二输入单元是二进制单元，并且所述多个第三输入单元是二进制单元。

35.根据权利要求26所述的方法，其中所述多个隐藏层包括四个层。

36.根据权利要求35所述的方法，其中所述隐藏层中的每一者包括512个节点。

37.根据权利要求20所述的方法，其中确定所述最可能音素序列包括使用维特比解码器。

38.根据权利要求37所述的方法，其中确定所述最可能音素序列还包括向所述维特比解码器提供状态转变模型(STM)，所述状态转变模型基于一个或多个先前音素的序列来确定给定帧处的给定音素的概率。

39.根据权利要求38所述的方法，其中所述一个或多个先前音素的序列包括六个先前音素。

40.根据权利要求38所述的方法，其中所述状态转变模型是神经网络。

41.根据权利要求20所述的方法，还包括：

42.一种计算机可读存储介质，其中存储有程序代码指令，所述程序代码指令在由计算机系统执行时使所述计算机系统执行根据权利要求20至41中任一项所述的方法。

43.一种设备，包括：

处理器；以及

存储器，存储指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至18中任一项所述的方法。

44.一种设备，包括：

处理器；以及

存储器，存储指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求20至41中任一项所述的方法。