CN1159662C

CN1159662C - 连续语音识别中的标点符号自动生成装置及方法

Info

Publication number: CN1159662C
Application number: CNB981083676A
Authority: CN
Inventors: ƶ��׿�; 唐道南; 朱晓瑾; 沈丽琴
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1998-05-13
Filing date: 1998-05-13
Publication date: 2004-07-28
Anticipated expiration: 2018-05-13
Also published as: KR100305455B1; JP3282075B2; US20020069055A1; US6718303B2; CN1235312A; KR19990087935A; JP2000029496A

Abstract

连续语音识别中的标点符号自动生成装置，包括用于识别用户语音并将所述用户语音转换为文字的装置(1，2，3，5)，该用于识别用户语音的装置(1，2，3，5)还识别用户语音中的准噪声；还包括：用于标记装置(1，2，3，5)的输出结果中的准噪声的装置(9)；用于根据含有准标点符号的语言模型，计算在装置(9)所标记的每个准噪声处最可能的准标点符号，产生与最可能的准标点符号相应的标点符号的装置(10，14，13)。

Description

连续语音识别中的标点符号自动生成装置及方法

本发明涉及连续语音识别技术，尤其涉及在连续语音识别中用于自动生成标点符号的装置及方法。

一般的语音识别系统可以如图1所示。该系统中，一般包括一个语音模型7和一个语言模型8。语音模型7包括所识别语言中的常用文字的发音。这种发音是利用统计方法从多数人对某个文字的阅读发音中总结出来的，代表了该文字的一般发音特征。语言模型8包括所识别语言中的常用文字的使用方法。

图1所示的连续语音识别系统的工作过程为，语音检测装置1采集用户的语音，例如将语言表示为语音采样，将该语音采样送到发音概率计算装置2。发音概率计算装置2对语音模型7中的每个发音给出其与语音采样是否相同的概率估值。文字概率计算装置5，根据从大量语料中总结出的语言规律，给出对语言模型8中的文字是否是当前上下文情况下应出现的文字的概率估值。文字匹配装置3，将发音概率计算装置2计算的概率估值与文字概率计算装置5计算的概率估值结合起来，计算一个联合概率(该联合概率值表示将语音采样识别为该文字的可能性)，取联合概率值最大的文字，作为语音识别的结果。上下文产生装置4利用上述识别结果修改当前的上下文，以便识别下一个语音采样所用。文字输出装置6输出所识别的文字。

上述的连续语音识别过程可以以字、词或短语为单位进行。因此，后文中的文字指单字、单词或短语。

当前的连续语音识别系统中，为了对识别结果加注标点符号，需要在口授期间讲出这些标点符号，然后由语音识别系统识别。例如，为了完全识别“喂！你好。”，讲话人必须说出“喂惊叹号你好句号”。也就是说，在现有的语音识别系统中，要求讲话人将标点符号转化为语音(即讲出标点符号)，再由语音识别系统识别为相应的标点符号。此时要求语言模型中包括标点符号，即语言模型8能够给出每个标点符号是否是当前上下文情况下应出现的标点符号的概率估值。

但是，在利用上述语音识别系统对自然讲话活动(例如，会议，无线电广播电视节目等)作文字记录时，不能期望人们讲出标点符号。另外，在口授期间讲出标点符号是极不自然的事情。即使被要求这样做，人们在讲话或读文章时，常常忘记讲出标点符号。再者，在即兴演讲口授时，每句话直接来自于思维，多数人很难正确地判断应使用的标点符号，很难讲出正确的标点符号并同时保证讲话的流利性。这也许是因为在日常所用的中文口语中很少用到或根本不用标点符号。

因此，在连续语音识别中，急需一种自动生成标点符号的装置及方法，它应该是便于使用的，不要求在讲话时讲出标点符号，因而不影响用户的正常讲话。

本发明的第一个目的在于提供一种连续语音识别中的标点符号自动生成装置。

本发明的第二个目的在于提供一种连续语音识别中的标点符号自动生成方法。

为实现第一个目的，本发明提供一种连续语音识别中的标点符号自动生成装置，包括语音识别装置，用于将用户语音识别为文字，所述语音识别装置还识别所述用户语音中的准噪声；并且还包括：准噪声标记装置，用于标记语音识别装置的输出结果中的准噪声；标点符号产生装置，用于根据含有准标点符号的语言模型，找到在准噪声标记装置所标记的每个准噪声处最可能的准标点符号，产生与该最可能的准标点符号相应的标点符号。

本发明还提供一种连续语音识别中的标点符号自动生成装置，包括语音识别装置，用于将用户语音识别为文字；标点符号位置指示装置，用于在用户口授期间对用户的操作作出响应，产生一个位置指示信号，该位置指示信号指示语音识别装置的输出结果中的一个位置；准标点概率计算装置(10)，用于对含有准标点符号的语言模型中的每个准标点符号，给出其是语音识别装置的输出结果中应出现的一个准标点符号的概率估值；标点符号匹配装置，根据准标点概率计算装置计算的概率估值，找到在位置指示信号所指示的位置处的准标点符号，生成与该准标点符号相应的标点符号。

为实现第二个目的，本发明提供一种连续语音识别中的标点符号自动生成方法，包括语音识别步骤，将用户语音识别为文字，该语音识别步骤还识别用户语音中的准噪声；并且还包括以下步骤：准噪声标记步骤，标记语音识别步骤的输出结果中的准噪声；标点符号产生步骤，根据含有准标点符号的语言模型，找到在准噪声标记步骤中所标记的每个准噪声处最可能的准标点符号，产生与最可能的准标点符号相应的标点符号。

本发明还提供一种连续语音识别中的标点符号自动生成方法，包括语音识别步骤，用于将用户语音识别为文字；标点符号位置指示步骤，用于在用户口授期间对用户的操作作出响应，产生一个位置指示信号，该位置指示信号指示语音识别步骤的输出结果中的一个位置；准标点概率计算步骤，用于对含有准标点符号的语言模型中的每个准标点符号，给出其是语音识别步骤的输出结果中应出现的一个准标点符号的概率估值；标点符号匹配步骤，根据准标点概率计算步骤计算的概率估值，找到在位置指示信号所指示的位置处的准标点符号，生成与准标点符号相应的标点符号。

根据本发明的装置和方法，用户不必再讲出标点符号，系统能够自动生成标点符号。因此，利用本发明的装置和方法，不影响用户讲话的流利性，提高语音识别系统中标点符号生成的正确性和快速性。

通过结合附图对本发明最佳实施方式进行更详细地描述之后，本发明的其他目的和特征将会更加明显。

图1是现有技术的连续语音识别系统的构成示意图；

图2是根据本发明的连续语音识别中的标点符号自动生成装置第一实施方式的一般结构示意图；

图3是根据本发明的连续语音识别中的标点符号自动生成方法第一实施方式的一般流程图；

图4是根据本发明的连续语音识别中的标点符号自动生成方法第二实施方式的一般流程图。

首先介绍本发明中用到的几个概念。

人们在日常讲话中，除了发出与语言文字相应的连续语音之外，往往还发出一些噪声，比如吸气声、咂嘴声等等。这些噪声不能被识别为语言文字。另外，在连续语音之间也可能有沉默。在一般的语音识别系统中，未对这些噪声和沉默进行利用，而是简单地过滤掉。发明人通过实验发现，这些噪声和沉默与应该加注的标点符号之间有一定的联系。比如，在读文章时，如果遇到句号“。”，人们习惯地沉默较长时间；如果遇到逗号“，”，往往沉默较短的时间，并短促地吸气；而在遇到顿号“、”时，只沉默较短时间，并不吸气。因此，在本发明的方法中，对这些噪声和沉默加以利用。

另外，当流利地讲出两个文字，而中间没有语音或沉默时，它们之间可能存在标点符号。为了便于实现本发明的方法，在连续两个文字之间，人为地加入一个“无声音”符号。在本文中，将噪声、沉默和“无声音”定义为准噪声。因此，在任何两个文字的语音之间，总是有一个准噪声。

所有的准噪声构成了准噪声集合D。于是，

D＝{“无声音”，沉默，吸气声，咂嘴声，...}

在一种语言中，标点符号的加注是有一定规则的。为便于计算机实现标点符号的自动加注，需要从大量的含有标点符号的语料中利用统计方法总结出标点符号加注规则。为了便于实现本发明的方法，在文本中不应出现标点符号的地方，人为地加入一个称为“无标点”的符号。在本文中，将标点符号和“无标点”符号定义为准标点符号。因此，在任何两个文字之间，总是有一个准标点符号。

所有的准标点符号构成了准标点符号集合M。

M＝{“无标点”，“句号”，“逗号”，“惊叹号”，“顿号”，...}

标点符号的自动生成，包括两个必要步骤。第一，确定在哪里加注标点符号，即标点符号位置的确定。第二，确定应加注什么标点符号，即标点符号种类的确定。后文中先描述较复杂的第一实施方式，它能自动完成标点符号位置的确定和标点符号种类的确定。然后，描述需要用户在口授时指示标点符号位置的第二实施方式。

图2示出根据本发明的连续语音识别中的标点符号自动生成装置第一实施方式的一般结构示意图。在图2中，标号1代表语音检测装置，2’代表发音及准噪声概率计算装置，3代表文字匹配装置，4代表上下文产生装置4，5代表文字概率计算装置，6’代表识别结果输出装置，7’代表含有准噪声的语音模型，8代表语言模型。以上各部件与图1中所示相应部件功能相同或类似。另外，标号9代表准噪声标记装置，10代表准标点概率计算装置，11代表含有准标点的语言模型，12代表含有标点符号的上下文产生装置，13代表标点符号匹配装置，14代表准标点符号条件下准噪声的概率计算装置，15代表准标点符号与准噪声对照表。

在图2中，将准噪声集合D中每个成员的相应语音增加到含有准噪声的语音模型7’(与图1的语音模型7作用类似)中。因此，含有准噪声的语音模型7’中的一个成员或者对应一个文字的发音，或者对应一个准噪声。发音及准噪声概率计算装置2’对含有准噪声的语音模型7’中的每个发音或噪声给出其与语音采样是否相近的概率估值。含有准噪声的语音模型称为第一语音模型AM1，它不但包括每个文字的发音，而且还包括与每个准噪声相应的语音。

将准标点符号集合M中的每个成员增加到含有准标点的语言模型11。当然，也可以将所有准标点符号增加到语言模型8中，作为同一个模型。不同的实现方式不构成对本发明的限制。文字概率计算装置5与图1中的文字概率计算装置5相同，将其所使用的语言模型称为第一语言模型LM1。第一语言模型LM1包括所识别的语言中常用的每个文字。

因此，与图1中所示装置类似地，利用语音检测装置1、发音及准噪声概率计算装置(AM1)2’、文字匹配装置3、上下文产生装置4、文字概率计算装置(LM1)5、含有准噪声的语音模型7’以及语言模型8，能够将所检测的语音译码为相应的文字或准噪声。将这一译码结果称为第一序列。利用准噪声标记装置9，标记第一序列中的其他准噪声，例如“无声音”。

准标点概率计算装置10，在当前上下文(含有准标点符号)的情况下，根据从大量含有标点符号的语料中总结出的语言规则，对含有准标点的语言模型11中的准标点符号是否是下一个准标点符号的概率估值。将该装置所使用的语言模型11称为第二语言模型LM2。构造第二语言模型时，保留了语料中的所有标点符号。因此，第二语言模型LM2包括每个准标点符号。例如，设c为当前上下文，m为准标点符号，则LM2的作用是计算P(m|c)。

准标点符号条件下准噪声的概率计算装置14，利用第二语音模型AM2给出在某个准标点符号处出现特定准噪声的概率估值。第二语音模型AM2是利用统计方法在大量语料的基础上构造的。在第二语音模型AM2的构造过程中，找到准标点符号与准噪声的相应对，将这些相应的对存储在准标点符号与准噪声对照表15中。准标点符号条件下准噪声的概率计算装置14，根据准标点符号与准噪声对照表15，计算条件概率P(d|m)，其中m为准标点符号，d为准噪声。第二语音模型AM2的具体构造过程将在后文详述。

当然，这样的条件概率P(d|m)可以预先利用大量语料通过统计方法计算得到，并存储在相应的表中。在实际生成标点符号的过程中，通过查表求得相应的条件概率值。也就是说，准标点符号条件下准噪声的概率计算装置可以采用不同的方式实现，这些不同的实现方式不构成对本发明的限制。

标点符号匹配装置13，将准标点概率计算装置10计算的概率估值P(m|c)与准标点符号条件下准噪声的概率计算装置14计算的概率估值P(d|m)结合起来，对于含有准标点的语言模型11中的每一个准标点符号计算一个相关概率P(d|m)*P(m|c)(该相关概率值表示将准噪声识别为一个准标点符号的可能性)，取相关概率值最大的准标点符号，作为自动生成的准标点符号。这一过程可以表示为：

M^ML＝argmax m：AM2(d，m)*LM2(m，c)

其中，m为准标点符号，d为准噪声，c为上下文，并且

AM2(d，m)＝P(d|m)，

LM2(m，c)＝P(m|c)。

当m＝“无标点”时，表示在上下文的条件下应出现的是文字而不是标点符号，所以

含标点的上下文产生装置12利用上述生成的准标点符号修改当前的上下文，以便处理下一个准噪声。识别结果输出装置6’输出所识别出的文字和自动生成的准标点符号(或者转换为普通标点符号)。

作为根据本发明的标点符号自动生成装置的第二实施方式，另外一种连续语音识别中的标点符号自动生成装置，经上述第一实施方式变化而成。主要区别在于，它包括一个标点符号位置指示装置，用于在用户口授期间对用户的操作作出响应，产生一个位置指示信号，该位置指示信号指示语音识别装置的输出结果中的一个位置。该位置指示装置例如可以是一个鼠标器，或者是另外的专用硬件。还包括准标点概率计算装置(10)，用于对含有准标点符号的语言模型中的每个准标点符号，给出其是语音识别装置的输出结果中应出现的一个准标点符号的概率估值；标点符号匹配装置，根据准标点概率计算装置计算的概率估值，找到在位置指示信号所指示的位置处的准标点符号，生成与该准标点符号相应的标点符号。

采用上述标点符号自动生成装置，不必利用准噪声，省略了第一语音模型AM1中的准噪声部分和第二语音模型AM2，并且更容易实现，同时也提供了更高的精确性。但是对于用户而言，却不如第一实施方式那样便于使用。

图3是根据本发明的在语音识别中的标点符号自动生成方法第一实施方式的流程图。

在步骤S31，开始语音识别过程。该步骤中，清空所有内部变量，比如上下文c。

在步骤S32，检测用户读一个词的语音。在步骤S33，利用第一语音模型AM1和第一语言模型LM1，将用户语音解码为文字或准噪声。比如，当用户读以下中文句子：

“这苹果是红的，不是绿的。”时，只读其中的文字。于是，通过循环执行以下各步，可将用户语音解码为以下第一序列：

“这苹果是红的(吸气声)不是绿的(沉默)”。

在步骤S34，标记上述第一序列中的准噪声。这里的准噪声，是指其他未能由步骤S33解码出来的准噪声。在该实施方式中，在连续两个文字之间，加入一个“无声音”符号，以便于实现。于是，形成以下第二序列：

“这(无声音)苹果(无声音)是(无声音)红的(吸气声)不是(无声音)绿的(沉默)”。

在步骤S35，对于所有准标点符号m，计算在当前上下文c情况下的条件概率P(m|c)。

在步骤S36，对于所有准噪声d，计算在各个准标点符号m情况下的条件概率P(d|m)。另一种方案是，预先将对于所有准噪声d和准标点符号m的概率值P(d|m)利用大量语料根据统计方法计算出来，存储在一个表中，通过查表来实现步骤S36。

在步骤S37，找到使P(d|m)*P(m|c)最大的准标点符号M^ML，即计算

M^ML＝argmax m：P(d|m)*P(m|c)，

步骤S35、S36和S37也可以认为是这样一种过程：

对于所述第二序列中的每个准噪声d及其上下文c，利用第二语音模型(AM2)和第二语言模型(LM2)，找到最佳准标点符号M^ML，使得

M^ML＝argmax m：AM2(d，m)*LM2(m，c)

其中m是一准标点符号，并且

AM2(d，m)＝P(d|m)

LM2(m，c)＝P(m|c)当m＝“无标点”时，

即，所有非标点文字w的P(w|c)之和。

在步骤S38，将M^ML作为自动生成的准标点符号，并且更新当前的上下文c。于是，形成以下第三序列：

“这(无标点)苹果(无标点)是(无标点)红的(逗号)不是(无标点)绿的(句号)”。

在步骤S39，判断连续语音识别是否结束。如果没有结束，则转到步骤S2。否则进行到步骤S310。

在步骤S310，输出所识别的文字和自动生成的标点符号。该步骤中，可以用实际的标点符号替换准标点符号。例如，输出如下结果：

“这苹果是红的，不是绿的。”。

在步骤S311，过程结束。

在此需要说明的是，上述第一序列、第二序列和第三序列是随着用户读每一个词时通过循环执行步骤S32至S38而逐渐生成的。也就是说，上述过程是实时进行的。即不必在对整个句子完成解码之后才进行标点符号的自动生成，而是可以实时地生成标点符号。一旦对构成上下文的文字完成解码，则可以根据上下文产生标点符号。当然，完全可以以句子为单位进行语音识别。这些不构成对本发明的限制。

如前文所述，第二语音模型AM2是在大量语料的基础上构造的。例如，可以通过下述方法构造。

(1)以一段训练文本，例如“w1w2，w3。w4”为例，在训练文本中标记准标点符号。于是得到：

w1“无标点”w2逗号w3句号w4

(2)让训练人员读该段文本“w1w2，w3。w4”，但是不读标点；

(3)利用第一语音模型AM1和第一语言模型LM1对训练人员的语音串进行解码。由于上述文本中存在标点符号，所以训练人员在读时有一定的阅读习惯。w1和w2之间没有任何标点符号，可能连续地读出它们。读出w2之后，遇到一个逗号，可能稍停片刻并吸气。然后，读w3，并沉默(由于有句号)。最后，读出w4。例如，解码输出可以是：

w1w2吸气w3沉默w4

(4)在解码输出中标记准噪声。对于上例，得到：

w1“无声音”w2吸气w3沉默w4

(5)对准标点符号m与相应的准噪声d进行配对，得到：

(“无标点”，“无声音”)

(逗号，吸气)

(句号，沉默)

对于一种准标点符号m和一种准噪声d，存在着一种对应关系，称为(m，d)对。(m，d)对的数目表示为c(m，d)。训练文本，即语料和训练人员应该是足够多的，能够概括各种准标点符号，和一般人的阅读习惯。所以c(m，d)一般是大于1的。

(6)将P(d|m)粗略估计为c(m，d)/c(m)，其中c(m)是对于所有准噪声d’相应的c(m，d’)之和。

以上是构造第二语音模型AM2的一种方法。当然，也可以利用其他方法构造具有同样功能的语音模型AM2。

以上参照图2和图3所述的标点符号自动生成装置和方法中，不需要用户在口授时讲出标点符号，也不需要用户指示标点符号的位置。但是，因为不同用户有不同的阅读习惯，所以将准噪声作为判断标点符号位置的条件之一，必然存在着一定的误差。

在以下所述的第二实施方式中，在用户的口授中需要标点符号时，要求用户在口授的同时给予确定的指示。这种确定的指示例如通过按击鼠标按键或专用硬件来实现。因此，不必利用准噪声，省略了第一语音模型AM1中的准噪声部分和第二语音模型AM2，并且更容易实现，同时也提供了更高的精确性。但是对于用户而言，却不如第一实施方式那样便于使用。

根据本发明的标点符号自动生成方法的第二实施方式如图4所示包括以下步骤：

在步骤S41，开始语音识别过程。该步骤中，清空所有内部变量，比如上下文c。

在步骤S42，检测用户语音。在步骤S4，利用普通的语音模型AM和语言模型LM，将用户语音解码为文字。

在步骤S45，确定用户在口授期间所指示标点符号位置。

在步骤S47，利用第二语言模型LM2，找到最佳准标点符号M^ML，使得：

M^ML＝argmax m：LM2(m，c)

其中m是一个标点符号，并且

LM2(m，c)＝P(m|c)。

在步骤S48，将M^ML作为自动生成的准标点符号，并且更新当前的上下文c。

在步骤S49，判断连续语音识别是否结束。如果没有结束，则转到步骤S42。否则进行到步骤S410。

在步骤S410，输出所识别的文字和自动生成的标点符号。该步骤中，可以用实际的标点符号替换准标点符号。

在步骤S411，过程结束。

现在描述第三实施方式。它介于第一实施方式与第二实施方式之间。该第三实施方式与第二实施方式的不同在于，虽然要求用户在口授期间需要标点符号时进行确定的指示，但是不要求用户采取任何机械动作，而是采用特定的声音动作，例如“咂嘴”以产生任何可检测的噪声，或者有意地沉默，来指示标点符号。这样，更有利于用户流利地讲话。第三实施方式与第一实施方式的不同在于，用户在口授期间在标点符号处所产生的是特定的声音动作，增加了自然噪声与用于指示标点的声音之间的区别。在构造第二语音模型AM2时，对训练人也有同样的要求。通过实践证明，在自动生成标点符号时，第三实施方式比第一实施方式具有更高的精确性。

本发明的方法不必限于后期处理，即不必在对整个句子完成解码之后才进行标点符号的自动生成，而是可以实时地进行。也就是说，一旦对构成上下文的文字完成解码，即可以根据上下文自动生成标点符号。

虽然如上所述描述了本发明的最佳实施方式，但是应该认识到，对于本领域内熟练的技术人员而言，在不背离本发明的实质和范围的情况下，可以对上述实施方式进行各形式的修改和变更。因此，本发明的保护范围内权利要求书限定。

Claims

1.连续语音识别中的标点符号自动生成装置，包括用于识别用户语音并将所述用户语音转换为文字的装置(1，2，3，5)，其特征在于：

所述用于识别用户语音的装置(1，2，3，5)还识别所述用户语音中的准噪声；并且

其特征在于还包括：

用于标记所述用于识别用户语音的装置(1，2，3，5)的输出结果中的准噪声的装置(9)；

用于对含有准标点符号的语言模型中的每个准标点符号，计算其是所述用于识别用户语音的装置的输出结果中应出现的一个准标点符号的概率估值的装置(10)；

用于计算特定准标点符号处出现特定准噪声的概率估值的装置(14)；以及

用于根据所计算的所述概率估值，找到在所述用于标记准噪声的装置(9)所标记的每个准噪声处最可能的准标点符号，生成与所述最可能的准标点符号相应的标点符号的装置(13)。

2.连续语音识别中的标点符号自动生成装置，包括用于识别用户语音并将用户语音转换为文字的装置(1，2，3，5)，其特征在于还包括：

用于在用户口授期间对用户的操作作出响应，产生一个位置指示信号的装置，所述位置指示信号指示所述用于识别用户语音的装置(1，2，3，5)的输出结果中的一个位置；

用于根据所计算的所述概率估值，找到在所述位置指示信号所指示的位置处的准标点符号，生成与所述准标点符号相应的标点符号的装置(13)。

3.连续语音识别中的标点符号自动生成方法，包括识别用户语音并将用户语音转换为文字的步骤，其特征在于：

在所述识别用户语音的步骤中还识别所述用户语音中的准噪声；并且

其特征在于还包括以下步骤：

标记所述识别用户语音的步骤的输出结果中的准噪声；

对含有准标点符号的语言模型中的每个准标点符号，计算其是所述识别用户语音的步骤的输出结果中应出现的一个准标点符号的概率估值；

计算特定准标点符号处出现特定准噪声的概率估值；

根据所计算的所述概率估值，找到在所述标记准噪声的步骤中所标记的每个准噪声处最可能的准标点符号，生成与所述最可能的准标点符号相应的标点符号。

4.连续语音识别中的标点符号自动生成方法，包括识别用户语音并将用户语音转换为文字的步骤，其特征在于还包括以下步骤：

在用户口授期间对用户的操作作出响应，产生一个位置指示信号，所述位置指示信号指示所述识别用户语音的步骤的输出结果中的一个位置；

用于对含有准标点符号的语言模型中的每个准标点符号，计算其是所述识别用户语音的步骤的输出结果中应出现的一个准标点符号的概率估值；

根据所计算的所述概率估值，找到在所述位置指示信号所指示的位置处的准标点符号，生成与所述准标点符号相应的标点符号。