CN1099646C

CN1099646C - 发音测量装置和方法

Info

Publication number: CN1099646C
Application number: CN98103685A
Authority: CN
Inventors: 达纳·比尔德; 斯蒂芬·奥斯汀
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1997-01-30
Filing date: 1998-01-23
Publication date: 2003-01-22
Anticipated expiration: 2018-01-23
Also published as: JP4189051B2; JPH10222190A; CN1191354A; US5857173A

Abstract

在一个说话人数据库(15)中进行一次查找操作以为在输入端(11)处接收到的用户的语音得到一个预先设定的模式。一个话音模拟单元模拟一个本地语音说话人的话音。语音输入被加到模拟单元(102-107)以给出一个记分。该记分在一个分析单元(40)中被相对于一个预先确定的说话人的记分进行分析。一个被连接到此分析单元的输出端的指示器装置(16)将结果表示出来。

Description

发音测量装置和方法

技术领域

本发明涉及一种发音测量装置和一种测量发音的方法，可用于例如辅导学习语言的学生。

背景技术

语音识别产品现在被用得越来越广泛了。它们使用不同的方案将输入语音的特征和预先设定的语音模型或在训练过程中确定的语音模型进行比较。这样，例如和说话人无关的语音识别产品便能将接收到的语音的特征和“1”“2”等等这样的单词、或专门术语通常叫作“音素”或“三合音”的、能组合成完整的单词模型的单词要素的预先设定的模型进行比较。一个基于单词要素的话音识别系统的优点是用已经存在于存储器中的模型的组成部份可以构造出新的单词。例如，“promise”的组合模型的第一部分可以和“conduct”的模型的后一部份合并起来构成单词“product”的模型。同样，也有语音驱动的单词处理软件，其中使用大量的组合模型以识别从麦克风输入的话音并在单词处理应用中显示出被说出的单词。

这类产品主要用于在输入单词为未知但属于从词典中有限选择的单词之一时识别单词，或主要用于通过预先选择用户要说的单词和当说话人说出该单词时在存储器中为其建立一个模型或模式以训练一个这样的识别器。描述的这类语音识别装置都以说话人能相当程度地说这种要识别的语言为先决条件。

发明内容

根据本发明的一种测量发音的方法，包括：接收语音输入和处理语音输入以给出多个语音输入音素；进行一次查找操作以得到语音输入的一个预定的模式，其中预定的模式包括多个模式音素；通过将语音输入音素与模式音素相比较，将语音输入加予模式以给出一个记分；相对于一个预定的说话人的记分对前述记分进行分析，包括比较至少一个语音输入音素的时间长度和至少一个模式音素的时间长度，由此给出一个结果；和指示出结果，包括指示出至少一个语音输入音素的时间长度的可信度测量。

根据本发明的另一种测量发音的方法，包括：接收语音输入；进行一次查找操作以得到语音输入的一个预定的模式；将语音输入加予模式以给出一个记分，包括提供一个第一输入，它给出单词分段的时间长度测量，以及一个第二输入，它给出在语音输入中的单词分段和预定的模式中的单词分段之间的相互关系的测量；相对于一个预定的说话人的记分对前述记分进行分析，由此给出一个结果，其中分析记分的步骤包括相对于预定的说话人的单词分段时间长度的预定测量进行第一输入的统计分析；和指示出结果，包括指示出语音输入中单词分段的时间长度的可信度测量。

根据本发明的一种用于发音测量的装置，包括：一个话音模拟单元，具有一个接收代表说话人语音的信号的输入端，和一个输出端；一个说话人数据库；一个分析单元，其第一输入端连接到说话人数据库，而其第二输入端连接到话音模拟单元的输出端，并且它还有一个输出端；以及一个图形用户接口指示器装置，连接到分析单元的输出，包括一个说话人语音音素的时间长度的可信度测量的指示器，和一个说话人语音音素的质量的可信度测量的指示器。

附图说明

仅通过实例并参考插图描述了本发明的一个较好的实施例。

图1是一个方框图，说明依照本发明的较好实施例的一个发音测量装置的电路原理图。

图2为表示图1的维特比解码器的详细情况。

图3是说明图1的装置工作的流程图。

图4是图1的装置加在显示器上的一个输出的图解说明。

图5是图解说明一些特别希望的特征的分枝系统图。

图6是说明一个特别希望的特征的用户图形接口的图解说明。

具体实施方式

本发明需要一个说话人说出显示在一个计算装置附带的显示装置上的一个单词或一列单词。本发明的作用是使说话人的语音和指示或显示出的单词的相应模型相对照，同时测量出说话人对单词的发音如何，并象老师对学生就所学语言打分一样，也对单词或词的要素打分。和语音识别装置相反，本发明假定说话人可能对目标语言不太熟练。

参看图1，表示有一个发音测量用的装置10，它可以合适地称呼为“语音辅导员”。此装置包括有一个被连接到模数转换器12的麦克风11。模数转换器12再被连接到微处理器13的一个输入端。同样连接到微处理器13的还有输入装置14、存储器15和显示器16。存储器15中有一个词典20，其中包含有单词和每个单词的音素串或其他的单词分段的串。例如，单词“computer”储存在词典20中，和该单词一起还储存有如下的两个音素串：

k-ah-m-p-uw-t-er和

k-ah-m-p-uw-d-er。

这些音素串表示单词“computer”两种可供选择的普通发音方式。在存储器15中装有本地语音说话人数据库21。该数据库包含有着用户希望模仿的发音的本地语音说话人的各种音素、单词和句子的统计数据。在存储器15中也可以存放本地语音说话人的语音合成数据以合成用户要模拟的语音。

微处理器13包含有由软件形成的许多单元。它们包括特征提取单元30，其输入端为31而输出端为32；包括一个维特比解码器33，其一个输入端连接到特征提取单元30的输出端，而一个输入端34连接到词典20，还有第一输出端35、第二输出端36、和一个部份回扫输出端37；包括有统计分析单元40，其输入端连接到维特比解码器的输出端35、36，而其输入端41和42连接到本地语音说话人数据库21的输出端，另外有输出端43和44；包括有以计算机程序形式提供的一个用户图形接口50，其输入端被连接到统计分析单元40的输出端43和44，并有一个输出端51连接到显示器16。在处理器13中也表示出了选择器60。它被连接到输入装置14，并将输出端连接到词典20、本地语音说话人数据库21和用户图形接口50。在处理器13中备有一个跟踪工具62，其输入端连接到维特比解码器的输出端37，而输出端63被连接到用户图形接口50。

在图2中通过实例表示出维特比解码器33的较好的详细情况。维特比解码器33包含一个连接到输入端34的单词分段串选择器100(即音素串选择器)，并包含一个静止模式101、和若干音素模式102-107，其中的音素模式102、103和104为串联而音素模式104被连接到并联连接的音素模式105和106，后者再和音素模式107串联。最后，一个静止模式108被加到模式网络的末端。有一个记分比较器110和每个音素模式相连接。各个音素模式是设置来识别被选择的音素(或其他的单词分段)正如每个模式中表示的那样。图2使用单词“computer”表示一个例子。任何其他的单词或单词序列都可以此方式表示出来。

对图1的装置的工作将参照图3的流程图进行说明。在200阶段，一个单词、词组或其他表达词是使用输入装置14进行选择的。例如输入装置14是一个键盘，单词“computer”即可输入。此单词被送至选择器60。选择器60在词典20中发起一次查找(201阶段)，上述的相应音素串即从词典20中输入维特比解码器的输入端34。在202阶段建立维特比解码器并建立图2的各个音素模式102-107。同时，选择器60将选择的单词送到用户图形接口50由显示器16进行显示。

用户现在向麦克风11说话(210阶段)。模数转换器12将话音数字化成例如16KBPS的数字比特流。特征提取单元30以该种技术中熟知的办法从数字比特流提取频谱特征和激励特征。这些特征被以通常每秒100个取样的速率送至维特比解码器33。这些取样同时被按帧送至不同模式101-108的子集。各帧在图中按照最佳匹配路径从左至右由模式序列连续吸收。该最佳匹配路径取决于在任何给定模式中的匹配结果。

每个音素模式在接收的取样流中探测出它特有的音素并向记分比较器110送去第一个数值，指出取样和被识别音素之间的相关程度，再送去第二个数值，指示出该音素的时间长度。当单词完成且静止模式101在单词结尾处探测到静止时，记分比较器110将这些数值送至统计分析单元40。

选择器60发起执行另一次查找操作。这是在本地语音说话人数据库21中发生，同时使所述单词(“computer”)的统计数据被输入到统计分析单元40的输入端41和42。对于所述单词的每一个音素，此音素的时间长度的目标平均值和变化以及此音素记分的目标平均值和变化分别被输入输入端41和42。这一阶段在图3中被表示为215阶段，但此阶段可以和201阶段同时进行这一点将受到重视。

维特比解码器33的输出量的统计分析是在图3的216阶段中如下进行的。对于一个特定音素的时间长度，从输出端35输出的值在输出端41处和此音素的目标平均值时间长度进行比较。在输入端42处计算出被测时间长度和目标平均值时间长度间之差值并将其除以本地语音说话人的音素时间长度的偏差值。结果便是被测时间长度的可信度。如果此被测时间长度很接近于平均值时间长度，可信度便高。但即使此时间长度和平均值时间长度相差很大，如果由本地语音说话人说出的音素时间长度的偏差也高，则仍然可以获得高的可信度。

同样，对一个特定音素的记分(即相互关系)是在输出端36处输出，并和由本地语音说话人说出和在统计分析单元40的输入端42处输入的该音素的目标平均值记分进行比较。同样，该记分的变化量在输入端42处送出。被测记分和目标平均值记分之差被计算出并除以此记分的偏差。结果给出可信度，说明被说出的音素和本地语音说话人的音素之间的相关程度。这些音素时间长度的可信度和音素记分的可信度分别在统计分析单元40的输出端43和44处输出。它们被送至用户图形接口50，其结果在显示器16上显示。这一结果显示在图3上被表示为220阶段。

这样一来，统计分析单元40便成了一个统计比较器，能为维特比解码器33的输出端36或35处的一个信号相对于说话人数据库21建立一个等级，并将此等级作为输出送出。

用户图形接口50可以用许多不同形式将结果表示出来。在显示器16上显示结果的例子表示在图4中。图4中的表示法在同时对不同音素的相对时间长度和相互关系给出直观表示时是很有利的。在图4中，时间线400是将各个音素401分别排列于其下方而画出的，对应每个音素都有一个方块402画在时间线上方。方块的高度表示和本地语言说话人的音素之间的相互关系。因此高的块表示相关性好，即音素发音正确，而矮的方块表示音素发音不正确。方块的宽度403表示相对于本地语音说话人说出的音素的较好时间长度的、该音素的相对时间长度。因此对于该音素，宽的方块表示发音时间长度过长而短的方块表示时间长度过短。

于是，用户很容易就可直观地看到该单词的发音质量。例如，在被表示出的例子中，元音“AH”发音较差、时间长度也有些过长，而元音“UW”发音较好且其时间长度适中。这样，用户便知道对第一个元音的发音可以进行改进而第二个元音则发音合适。

上面叙述了一个简单而有用的装置。它可以帮助学习语言的学生学习和练习表达词语的发音。这一工具几乎可以适用于学习任何语言，只要把表达词句划分成音素并向用户指出单个音素的发音质量。已经说明，向用户指出的内容最好包括发音质量和发音时间长度。没有必要指出单个音素发音的这些特殊的方面，而可以指出发音的确实可供选择的方面如音高、强调等等。

所说明的工具可以被修改和扩大以给出另外的有用的特点。例如，可以将整个的词组或句子输入输入装置14并在输出显示器16上表示出来。对一个完整单词的发音、或一个词组、一整个句子、或某种别的表达词语的发音可以指出其可信度。

图5表示出对音素、单词和句子给出可信度的一种方法。一个树枝状系统被画出来，其中音素时间长度的可信度501和音素记分的可信度502合并成该音素的单一的可信度503。此音素的可信度和同一个单词中另一个音素的可信度506合并。这些可信度一起给出此双音素单词的可信度507。此可信度507可以和另一个单词的可信度508合并而给出单词组合的可信度510、或甚至一个完整句子的可信度。当然，图5画出的树状系统只是对一个完整词组或句子的较大的树状系统的图解说明。

在图1中画出了一种跟踪工具62，下面对其进行较详细的说明。该跟踪工具62是一个可选择的特征，能向用户指出在一个句子发音过程中的进展。维特比解码器的输出端37向跟踪工具62指出在该单词的记分过程中维特比解码器进展了多远。当图2的每个音素模式102、103等等探测其特定音素并完成该音素的探测，以及下一个音素模式开始探测随后的音素时，一个部份回扫指示被送至跟踪工具62，以指出一个音素的探测完成和下一个音素的探测开始。跟踪工具62将此进展和句子的正被发音的单词联系起来。跟踪工具62在输出端63处向用户图形接口50指示出这一进展。一个例子表示在图6中。

在图6中，显示器16上画出了一个显示输出，其中词句“I Iove my computer”是被输入输入装置14的句子并由用户发音。当跟踪工具62向用户图形接口50指出用户在句子发音中的活动进展时，用户图形接口50产生一个弹球600。当用户发音读出句子时，弹球的样子是从一个音节跳到一个音节。这种球的一个个音节的跳动或其他的合适的进展指示器的初始化是由跟踪工具62经输出端63进行的。

仅通过实例，已对一种测量发音的方法和一种进行发音测量的装置进行了说明。一个技术熟练人员能够不用离开本发明的范围和主旨而很容易进行细节的修改。

Claims

1.一种测量发音的方法，包括：

接收语音输入和处理语音输入以给出多个语音输入音素；

进行一次查找操作以得到语音输入的一个预定的模式，其中预定的模式包括多个模式音素；

通过将语音输入音素与模式音素相比较，将语音输入加予模式以给出一个记分；

相对于一个预定的说话人的记分对前述记分进行分析，包括比较至少一个语音输入音素的时间长度和至少一个模式音素的时间长度，由此给出一个结果；和

指示出结果，包括指示出至少一个语音输入音素的时间长度的可信度测量。

2.根据权利要求1的方法，还包括一个选择表达词句的步骤，

其中进行查找操作的步骤包括从存储器为被选择的表达词句取得一个预定的模式。

3.根据权利要求1的方法，其中将语音输入加予模式以给出一个记分的步骤包括提供一个第一输入，它给出单词分段的时间长度测量，以及一个第二输入，它给出在语音输入中的单词分段和预定的模式中的单词分段之间的相互关系的测量。

4.一种测量发音的方法，包括：

接收语音输入；

进行一次查找操作以得到语音输入的一个预定的模式；

将语音输入加予模式以给出一个记分，包括提供一个第一输入，它给出单词分段的时间长度测量，以及一个第二输入，它给出在语音输入中的单词分段和预定的模式中的单词分段之间的相互关系的测量；

相对于一个预定的说话人的记分对前述记分进行分析，由此给出一个结果，其中分析记分的步骤包括相对于预定的说话人的单词分段时间长度的预定测量进行第一输入的统计分析；和

指示出结果，包括指示出语音输入中单词分段的时间长度的可信度测量。

5.根据权利要求4的方法，其中指示出结果的步骤包括给出统计分析的结果的图解说明。

6.根据权利要求3的方法，其中分析记分的步骤包括相对于预定的说话人的单词分段和预定的模式中的单词分段之间的相互关系的预定测量进行第二输入的统计分析。

7.根据权利要求6的方法，其中指示出结果的步骤包括给出统计分析的结果的图解说明。

8.一种用于发音测量的装置，包括：

一个话音模拟单元，具有一个接收代表说话人语音的信号的输入端，和一个输出端；

一个说话人数据库；

一个分析单元，其第一输入端连接到说话人数据库，而其第二输入端连接到话音模拟单元的输出端，并且它还有一个输出端；以及

一个图形用户接口指示器装置，连接到分析单元的输出，包括一个说话人语音音素的时间长度的可信度测量的指示器，和一个说话人语音音素的质量的可信度测量的指示器。

9.根据权利要求8的装置，其中话音模拟单元包括一个存储器单元，存储器单元中存放有多个代表不同的表达词句的预定的模式。

10.根据权利要求9的装置，还包括选择输入设备，它连接到话音模拟单元以选择一种表达词句以对其进行发音测量。