CN1555553A

CN1555553A - 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本

Info

Publication number: CN1555553A
Application number: CNA028181328A
Authority: CN
Inventors: W; W·格施温特纳
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-09-17
Filing date: 2002-09-10
Publication date: 2004-12-15
Anticipated expiration: 2022-09-10
Also published as: DE60207742D1; DE60207742T2; WO2003025904A1; JP2005503590A; EP1430474A1; US20030061043A1; US6735565B2; CN1235188C; EP1430474B1; ATE311650T1; JP4241376B2

Abstract

一种用于语音识别设备(2)的校正设备(4)被提供，借助它可特别简单地执行对所识别文本(ETI)的不正确识别的词(FETI)的替换。校正设备(4)基于以下认识，即不正确识别的词和应当实际上已被识别的词的音素序列很相似，并且自动标记显示出与用户手动输入的校正词(KWI)相似的音素序列的所识别文本(WTI)中的词。

Description

通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本

1.技术领域

本发明涉及一种校正设备，用于为所说的文本而校正通过语音识别设备而识别的文本，其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词。

本发明进一步涉及一种校正方法，用于为所说文本而校正通过语音识别设备而识别的文本，其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词。

2.背景技术

这样的校正设备和这样的校正方法从文档US 5,909,667中是已知的，在其中公开了听写设备。已知的听写设备由运行语音识别软件和词处理软件的计算机形成。已知听写设备的用户可将文本说到连接于计算机的话筒中。形成语音识别工具的语音识别软件将已知词指定给所说文本的每个所说词，借助这种方式为所说的文本获得了所识别的文本。所识别的文本包含所谓的正确识别的词，其匹配用户实际说的词，以及所谓的不正确识别的词，其不匹配用户实际说的词。通过形成词处理工具的词处理软件，所识别的文本被呈现于连接于计算机的屏幕上。

已知听写设备亦形成校正设备，其包含词处理软件和语音识别软件两者，并且借助它可将不正确识别的词替换成校正词。为此，用户标记不正确识别的词，用计算机的键盘输入校正词，然后输入确认，从而使所标记的不正确识别的词被替换成输入校正词。

为简化对要替换的不正确识别的词的标记，已知听写设备的用户可将要替换的不正确识别的词—所谓的记号词—再一次说到话筒中。语音识别软件随即为这个所说的记号词识别所识别的记号词，而词处理软件在所识别的文本中搜索所识别的记号词。如果通过比较所识别文本中的词的字母序列发现了所识别的记号词，则词处理设备将标记该记号词。在说了记号词之后，用户必须检查要替换的词实际上是否被标记。如果是，则用户使用键盘输入校正词和确认以实施替换。

对于已知听写设备，已显露出以下缺点，即正是那些在所识别的文本中包含的不正确识别的词对于语音识别软件来说难以识别，因此在识别记号词的过程中亦发生高错误率。作为结果，所识别的文本信息的其它词而不是不正确识别的词被相对频繁地标记用于替换，这意味着附加的工作。已显露出的已知听写设备另外的缺点是用户必须执行相对多的不同动作(话筒和键盘)以替换不正确识别的词。

3.发明内容

本发明的目的是创建如在第一段中指定的校正设备和如在第二段中指定的校正方法，在其中避免了上述缺点。

为实现以上目的，在这样的校正设备中提供了发明性特点以使该校正设备可通过以下方式来表征。一种校正设备，用于校正所说的文本通过语音识别设备而识别的文本，其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词，该设备具有

输入装置，用于接收至少一个手动输入的校正词以将至少一个不正确识别的词替换成至少一个校正词；并具有

转换装置，用于将至少输入校正词在语音学上转换成音素序列；并具有

搜索装置，用于在所识别文本的词的音素序列中寻找所述至少一个校正词的音素序列，并用于发出位置信息，该位置信息标识音素序列基本上匹配所述至少一个校正词的音素序列的所识别文本中的至少一个词位置；并具有

输出装置，用于发出位置信息以使在所识别文本信息中能够标记由位置信息所标识的至少一个词。

为实现以上目的，在这样的校正方法中提供了发明性特点以使该校正方法可通过以下方式来表征。

一种校正方法，用于校正所说的文本通过语音识别设备而识别的文本，其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词，以下步骤被处理：

接收至少一个手动输入的校正词以将至少一个不正确识别的词替换成至少一个校正词；

将至少输入校正词从语音学上转换成音素序列；

在所识别文本的词的音素序列中搜索所述至少一个校正词的音素序列并发出位置信息，该信息标识音素序列基本上匹配所述至少一个校正词的音素序列的所识别文本中的至少一个词的位置；

发出位置信息以使在所识别文本信息中能够标记由的位置信息所标识的至少一个词。

本发明基于以下认识，即由语音识别设备不正确识别的词和应当实际上已被识别的词——即应被正确识别的词——常常听起来很相似。对于这样的听起来相似的词，具体而言例如“four”和“for”，已知语音识别设备的错误率常常是特别高的。

作为依照本发明的特点的结果，用户不需要标记他想要替换成校正词的不正确识别的词，所述校正词应当实际上已被识别。校正设备通过统计方法确定输入校正词的音素序列，该音素序列表示所述校正词的声音。然后通过比较音素序列，校正设备在所识别的文本中搜索听起来类似于所述校正词的词。

有利的是，在所识别的文本信息中很可能被替换的不正确识别的词由此通过输入校正词而自动标记。用户可通过输入确认来实现对所标记的词的替换，或者通过输入接下来的信息使所识别的文本信息的另外听起来相似的词被标记。

语音识别设备的已知校正设备使能够同步再现所说的词和所识别文本的关联所识别词以便于校正不正确识别的词。当这些已知校正设备的用户注意到不正确识别的词时，他中断同步再现并执行用用户输入的词对不正确识别的词的替换。然后用户再次激活同步再现以寻找并校正所识别文本中另外的不正确识别的词。

依照权利要求2和权利要求9的措施，获得了以下优点，即用户一开始输入校正词，同步再现就被自动中断。

依照权利要求3和权利要求10的措施，获得了以下优点，即用户一通过输入应将被自动标记的词替换成输入校正词的确认而确认，同步再现的中断再次被自动终止。

在同步再现中，校正设备的用户在当前在声学上被再现并且在同步再现期间在光学上被标记的词的环境下识别不正确识别的词。依照权利要求4和权利要求11的措施，获得了以下优点，即搜索装置在最初在听起来相似的词的中断时在所识别文本中标记的词的紧邻处查找，并且在最初标记这个。如果用户应通过输入接下来的信息而开始进一步的搜索，则搜索区域被加宽。

在语音识别过程中，语音识别设备首先确定与所说文本关联的音素序列，并且基于该音素序列来识别所识别的文本。依照权利要求5和权利要求12的措施，获得了以下优点，即在其搜索校正词的音素序列的过程中，搜索装置使用已由语音识别设备确定的音素序列。这在校正设备形成语音识别设备的一部分时是特别有利的。

为增加搜索装置的可靠性，已被证明有利的是，听起来很相似的音素在搜索中被列为相同的音素。这样，例如，在英语词的音素序列中，音素“v”和“f”以及“t”和“d”在搜索装置的搜索中被看作是相同的。

4.附图说明

在以下将参照实施例来详述本发明，然而本发明不局限于该实施例。

图1示出处理语音识别软件和词处理软件并形成校正设备的计算机，所述校正设备用于为所说的文本而校正由语音识别设备识别的文本。

图2到5示出通过图1计算机的校正设备呈现在监视器上的屏幕信息。

5.具体实施方式

图1示出计算机1，其形成语音识别设备2、词处理设备3和校正设备4。语音识别设备2和校正设备4借助计算机1所处理的语音识别软件而形成，而词处理设备3借助计算机1所处理的词处理软件而形成。

话筒5、扬声器6、监视器7和键盘8被连接于计算机1。计算机1的用户可将文本说到话筒5中，在其上包括该所说文本的所说文本信息GTI作为模拟音频信号被输出到语音识别设备2的语音识别装置9。

如长期以来所知的，语音识别装置9被设计成识别待被相关于所说文本信息GTI的所识别文本信息ETI。为此，语音识别装置9将所说文本信息GTI作为数字音频数据存储在初始存储器级10中。在借助语音识别装置9的语音识别过程的处理中，语音识别装置9首先将包含音素的音素序列相关于所说文本信息GTI。如通常所知的，音素是小声学单位，而词的音素序列再现所说词的声学印象。例如，词“DAYS”被分配了音素序列“d Y z”。

在语音识别过程的随后处理中，从所说文本信息GTI确定的音素序列被搜索于词典存储器中，在其中为大量词的每个而存储了相关音素序列。如果所检测的音素序列已被发现于词典存储器中，则相关音素序列被确定为可能识别的词。用于所检测音素序列的可能识别词的序列然后被搜索于语音模型存储器中，并且可能识别词的最可能序列作为用于所说文本信息GTI的所识别文本信息被存储在第二存储级11中。

所识别文本信息ETI包含由匹配用户实际说的词的所谓正确识别词形成的正确识别文本信息RETI。所识别文本信息ETI亦包含由不匹配用户实际说的词的所谓不正确识别词形成的不正确识别文本信息FETI。如将在以下更详细讨论的，由语音识别设备9不正确识别的词和应当实际上已被识别的词——即所说词——常常听起来很相似。

在语音识别过程中，链接信息LI亦被确定，并被存储在第三存储器级12中。链接信息LI为所说文本信息GTI的每个词而标识所识别文本信息ETI的关联识别词，并且使能同步再现工作模式，如将在以下更详细讨论的。所述语音识别过程是长期以来所知的，因此不再涉及其任何更多的细节。

词处理设备3被设计成读取被存储在第二存储器级11中的所识别文本信息ETI并将包括该所识别文本信息ETI的屏幕信息BI输出到监视器7。从键盘8，可通过校正设备4的输入装置13将校正信息传递到词处理设备3上，从而编辑或改变所识别文本信息ETI，然后由此限定可被存储在校正设备4的第四存储器级14中的经校正的文本信息KTI。

当同步再现工作模式被激活时，计算机1被设计成自动标记在监视器7上呈现的所识别文本信息ETI的词，并且通过扬声器6同步地，即同时地在声学上再现由链接信息LI分配的所说词。为此，词处理设备3从对应的存储器级10、11和12中读取所识别文本信息ETI和所说文本信息GTI以及链接信息LI。

当同步再现工作模式被激活时，用户可检查所呈现的所标记的词是否为刚才已在声学上被再现的所说词而被正确识别。该特点被已知为“同步回放”并且被描述于例如US 5,031,113中，因此不再涉及其任何更多的细节。

校正设备4进一步包括输入装置13、第四存储器级14、第五存储器级15、转换装置16和搜索装置17。转换装置16被设计成通过统计方法从语音学上转换词。被分配给在词典存储器中存储的词的所存音素序列由这些装置读取。未被存储在词典存储器中的词被分解成分离的音节，并且通过组合来自词典存储器的这些音节的音素来确定关联的音素序列。

当通过按压键盘8上的键在计算机1中激活同步再现工作模式时，转换装置16从第二存储器级11读取所识别文本信息ETI并执行对整个所识别文本信息ETI的语音学转换。作为对所识别文本信息ETI的语音学转换的结果，转换装置16发出用于所识别文本信息ETI的音素信息PI(ETI)，其包含用于所识别文本的词的音素序列并被存储在第五存储器级15中。

输入装置13被进一步设计成接收用键盘8手动输入的校正词的校正信息KWI以将所识别文本的不正确识别的词替换成校正词。转换装置16被进一步设计成对校正信息KWI在语音学上转换并发出用于校正信息KWI的音素信息PI(KWI)，为了这个目的，校正信息KWI可被馈送给转换装置16。

转换装置16被设计成将用于校正信息KWI的音素信息PI(KWI)发给搜索装置17。搜索装置17被设计成在所识别文本的词的音素序列中寻找所述至少一个校正词的音素序列并发出位置信息PI，其标识音素序列基本上匹配所述至少一个校正词的音素序列的所识别文本中的至少一个词的位置。

搜索装置17进一步形成用于发出位置信息PI的装置以使能标记所识别文本信息ETI中由位置信息PI标识的至少一个词。为此，搜索装置将用于待被标记的词的位置信息PI传递给词处理装置3，其又将对应的屏幕信息BI传递到监视器7上。依照本发明的校正设备的进一步的功能和优点将以下在用于计算机1的图2到5中呈现的应用实例的基础上被更详细地描述。

在应用实例中，假定计算机1的用户将词“ONE TWO THREE FOURFIVE SIX SEVEN EIGHT NIGHT TEN”说到话筒5中。在语音识别装置9的语音识别过程中，所识别词“1 2 3 FOR 5 6 7 DAYS 9 THEN”的所识别文本信息ETI被相关于对应的所说文本信息GTI。

所识别文本信息ETI包含用于不正确识别词“FOR”、“DAYS”和“THEN”的不正确识别文本信息FETI。如可从表1看到的，不正确识别的词和实际上应被识别的所说词的音素序列很相似，这就是为什么语音识别装置9在识别中出错。

词	音素序列
词	音素序列	FOUR等于4	f o r
FOR	f o r， f @ r	FOUR等于4	f o r
FOR	f o r， f @ r	EIGHT等于8	Y t
DAYS	d Y z	EIGHT等于8	Y t
DAYS	d Y z	TEN等于10	t e n
THEN	D e n	TEN等于10	t e n

表1

在应用实例中，进一步假定用户通过按压键盘8上的键来激活同步再现工作模式。图2中所示的屏幕信息BI然后被呈现于监视器7上。当同步再现工作模式被激活时，监视器7上的显示被分成CORRECTIONEDITOR和CORRECTION WINDOW。紧接着在激活同步再现工作模式之后，CORRECTION EDITOR示出匹配所识别文本的所识别文本信息ETI的经校正文本的经校正文本信息KTI。CORRECTION WINDOW示出用户用键盘8输入的校正词；以下将涉及其细节。

紧接着在激活同步再现工作模式之后，词处理装置3从对所说文本信息GTI的第一词“ONE”的声学再现开始，并且用记号信息MI来标记所识别文本信息ETI的关联所识别词“1”。用户可由此很容易地看到所识别的词实际上匹配所说的词。

在所说文本信息GTI的第四词“FOUR”在声学上被再现并在光学上被标记时，用户注意到该词被不正确地识别并在其键盘8上输入词“4”——其应当实际上已被识别——作为校正词或作为校正信息KWI。

校正设备4现在被有利地设计成在用户开始用键盘8输入校正词的时刻自动中断同步再现工作模式。作为此事的结果，对所说文本信息GTI的声学再现被中断，并且光标信息CI被示出于记号信息MI的当前位置，如可在图3中看到的。因此，用户有利地不需要按压任何另外的键以中断同步再现工作模式。

紧接着在激活同步再现工作模式之后，转换装置16已转换了所识别文本信息ETI并将由此确定的用于所识别文本信息ETI的音素信息PI(ETI)存储在第五存储器级15中。用户一输入校正词，转换装置16就转换输入校正信息KWI并将用于校正信息KWI的所确定的音素信息PI(KWI)传递到搜索装置17上。

搜索装置17现在开始在光标信息CI的当前位置之前的M＝5个词和之后的N＝3个词的可调搜索区域中搜索所识别文本信息(ETI)的音素信息PI(ETI)中的校正词的校正信息KWI的音素信息PI(KWI)。由于在所识别文本信息ETI的搜索区域中音素信息PI(KWI)＝“for”匹配不正确识别文本信息FETI的音素信息PI(ETI)“for”，搜索装置17将所识别文本信息ETI的第四词的位置确定为位置信息PI。搜索装置17然后将所确定的位置信息PI传递到词处理设备3上，在其上不正确识别的词“FOR”——如图4中所示——被用记号信息MI标记。

这具有以下优点，即用户——在注意到不正确识别的词并中断同步再现工作模式之后——不需要标记要替换的不正确识别的词。有利的是，为将不正确识别的词“FOR”替换成输入校正词“4”，用户仅需输入确认，这可例如通过按压键盘8的“ENTER”键来实现。因此，可以以特别简单且快速的方式来执行用应当实际上已被识别的词对不正确识别的词的替换。

有利的是，对同步再现工作模式的中断亦通过输入确认来终止，从而使对所识别文本信息ETI的关联识别词的同步声学再现和光学标记被恢复。

在所识别文本信息ETI的所述音素信息PI(ETI)的搜索区域中对校正信息KWI的音素信息PI(KWI)的搜索产生了以下优点，即如果相同的词再次出现在所识别文本中的不同位置处，则亦以特定的可靠性来寻找要替换的不正确识别的词。如果在搜索区域中的搜索不成功，则搜索装置17被有利地设计成对搜索区域进行步进扩展。

如果图4中标记的词不是用户想要用输入校正词替换的词，则他可输入接下来的信息NI，从而使搜索装置17在经扩展的搜索区域中再次搜索，如果有的话。搜索装置17一检测到另一个先前未标记的词的音素信息PI(ETI)和PI(KWI)，搜索装置17就将该所检测的词的位置作为位置信息PI传递到词处理设备3上。

这具有以下优点，即如果由校正设备4自动标记的词不是用户想要用输入校正词替换的词，则仅通过按压键盘8上的键，用户可导致自动标记显示出与校正词的音素信息PI(KWI)的接近匹配的搜索区域中的不同词。

搜索装置17现在被发展成在搜索基本上匹配的音素序列的过程中忽略与所比较的音素序列不同但听起来相似的音素。例如，在此，音素“o”和“@”被列为听起来相似以使仅在这两个音素上不同的所比较音素序列被评价为匹配。

这提供了以下优点，即即使有正在比较的音素序列的小差异，搜索装置17亦到达结果，从而标记所识别文本信息ETI中的词。

应指出，可替换的是，搜索装置17可将在语音识别过程的处理中由语音识别装置确定的音素信息用作用于所识别文本信息ET I的音素信息PI(ETI)。这将产生以下优点，即转换装置不必转换所识别文本信息ETI，并且第五存储器级不需要被提供。

亦特别有利的是提供校正设备作为语音识别设备的一部分并使同步再现工作模式由校正设备来实施。因此可使用通常出售的词处理软件，如“Word for Windows”。

应指出，亦可输入几个词作为校正信息KWI以同时替换一个或几个不正确识别的词。应指出，可由计算机用户来设置搜索区域。这样，用户实际上可选择处于N＝1到N＝500和M＝1到M＝500的范围内的任何值。

应指出，可替换的是，可有利地仅对将在搜索区域中发现的所识别文本信息ETI的词执行语音学转换。

应指出，借助专业转换服务，依照本发明的校正设备可被用于专门优点，这是因为这种转换服务中的转换器仅手动校正语音识别设备不正确识别的词，因此实际上以下条件总是符合，即不正确识别的词的和待识别的实际上所说的词的音素序列很相似。

Claims

1.一种校正设备(4)，用于校正所说的文本通过语音识别设备(2)而识别的文本(ETI)，其中用于所说文本(GTI)的所说词的所识别文本(ETI)包括正确识别的词和不正确识别的词(FETI)，该设备具有：

输入装置(13)，用于接收至少一个手动输入的校正词(KWI)以将至少一个不正确识别的词(FETI)替换成至少一个校正词(KWI)；并具有

转换装置(16)，用于将至少输入校正词(KWI)在语音学上转换成音素序列(PI(KWI))；并具有

搜索装置(17)，用于在所识别文本的词的音素序列(PI(KTI))中寻找所述至少一个校正词(KWI)的音素序列(PI(KWI))并用于发出位置信息(PI)，该位置信息标识音素序列基本上匹配所述至少一个校正词(KWI)的音素序列(PI(KWI))的所识别文本(ETI)中的至少一个词的位置；并具有

输出装置(17)，用于发出位置信息(PI)以使能标记所识别文本信息(ETI)中由位置信息(PI)所标识的至少一个词。

2.权利要求1的校正设备(4)，其中校正设备(4)被设计成当校正词(KWI)中断同步再现，在其中所说文本的所说词(GTI)在声学上被再现并且对于所说词(GTI)的所识别文本(ETI)中的所识别词同步地在光学上被标记。

3.权利要求2的校正设备(4)，其中校正设备(4)被设计成当用所述至少一个校正词(KWI)对由位置信息(PI)标识的至少一个词的替换已通过手动输入确认而确认时，终止同步再现的中断。

4.权利要求2的校正设备(4)，其中搜索装置(17)被设计成在被包含于所识别文本的搜索区域中的词的音素序列(PI(ETI))中搜索所述至少一个校正词(KWI)的音素序列(PI(KWI))，所述搜索区域由中断同步再现之前所识别文本(ETI)中的最后被标记的词之前的M个词和之后的N个词来限定。

5.权利要求1的校正设备(4)，其中搜索装置(17)被设计成在由语音识别设备(2)从所说文本(GTI)的所说词而确定的音素序列中搜索所述至少一个校正词(KWI)的音素序列(PI(KWI))。

6.权利要求5的校正设备(4)，其中校正设备(4)被设计成形成语音识别设备(2)的一部分。

7.权利要求1的校正设备(4)，其中搜索装置(17)被设计成在搜索基本上匹配的音素序列的过程中忽略与所比较的音素序列不同但听起来相似的音素。

8.一种校正方法，用于校正所说的文本通过语音识别设备(2)而识别的文本(ETI)，其中用于所说文本(GTI)的所说词的所识别文本(ETI)包括正确识别的词和不正确识别的词(FETI)，以下步骤被处理：

接收至少一个手动输入的校正词(KWI)以将至少一个不正确识别的词(FETI)替换成至少一个校正词(KWI)；

将至少输入校正词(KWI)在语音学上转换成音素序列(PI(KWI))；

在所识别文本(ETI)的词的音素序列(PI(ETI))中搜索所述至少一个校正词(KWI)的音素序列并发出位置信息(PI)，该位置信息标识音素序列基本上匹配所述至少一个校正词(KWI)的音素序列的所识别文本(ETI)中的至少一个词的位置；

发出位置信息(PI)以便在所识别文本信息(ETI)中能够标记由位置信息(PI)所标识的至少一个词。

9.权利要求8的校正方法，其中以下进一步的过程步骤被执行：

当校正词(KWI)被手动输入时，中断同步再现，在其中所说文本的所说词(GTI)在声学上被再现并且对于所说词(GTI)的所识别文本(ETI)中的所识别词同步地在光学上被标记。

10.权利要求9的校正方法，其中以下进一步的过程步骤被执行：

当用所述至少一个校正词(KWI)对由位置信息(PI)标识的至少一个词的替换已通过手动输入确认而确认时，终止同步再现的中断。

11.权利要求9的校正方法，其中以下进一步的过程步骤被执行：

在被包含于所识别文本(ETI)的搜索区域中的词的音素序列中搜索所述至少一个校正词(KWI)的音素序列，所述搜索区域由中断同步再现之前所识别文本(ETI)中的最后被标记的词之前的M个词和之后的N个词来限定。

12.权利要求8的校正方法，其中以下进一步的过程步骤被执行：

在由语音识别设备(2)从所说文本(GTI)的所说词而确定的音素序列中搜索所述至少一个校正词(KWI)的音素序列(PI(KWI))。

13.权利要求8的校正方法，其中以下进一步的过程步骤被执行：

搜索基本上匹配的音素序列，与所比较的音素序列不同但听起来相似的音素被忽略。