CN1555553A - 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 - Google Patents

通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 Download PDF

Info

Publication number
CN1555553A
CN1555553A CNA028181328A CN02818132A CN1555553A CN 1555553 A CN1555553 A CN 1555553A CN A028181328 A CNA028181328 A CN A028181328A CN 02818132 A CN02818132 A CN 02818132A CN 1555553 A CN1555553 A CN 1555553A
Authority
CN
China
Prior art keywords
speech
text
kwi
phoneme sequence
eti
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028181328A
Other languages
English (en)
Other versions
CN1235188C (zh
Inventor
W
W·格施温特纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1555553A publication Critical patent/CN1555553A/zh
Application granted granted Critical
Publication of CN1235188C publication Critical patent/CN1235188C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

一种用于语音识别设备(2)的校正设备(4)被提供,借助它可特别简单地执行对所识别文本(ETI)的不正确识别的词(FETI)的替换。校正设备(4)基于以下认识,即不正确识别的词和应当实际上已被识别的词的音素序列很相似,并且自动标记显示出与用户手动输入的校正词(KWI)相似的音素序列的所识别文本(WTI)中的词。

Description

通过比较所识别的文本中的语音学序列与手动输入的校正词的 语音学转换来校正通过语音识别而识别的文本
1.技术领域
本发明涉及一种校正设备,用于为所说的文本而校正通过语音识别设备而识别的文本,其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词。
本发明进一步涉及一种校正方法,用于为所说文本而校正通过语音识别设备而识别的文本,其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词。
2.背景技术
这样的校正设备和这样的校正方法从文档US 5,909,667中是已知的,在其中公开了听写设备。已知的听写设备由运行语音识别软件和词处理软件的计算机形成。已知听写设备的用户可将文本说到连接于计算机的话筒中。形成语音识别工具的语音识别软件将已知词指定给所说文本的每个所说词,借助这种方式为所说的文本获得了所识别的文本。所识别的文本包含所谓的正确识别的词,其匹配用户实际说的词,以及所谓的不正确识别的词,其不匹配用户实际说的词。通过形成词处理工具的词处理软件,所识别的文本被呈现于连接于计算机的屏幕上。
已知听写设备亦形成校正设备,其包含词处理软件和语音识别软件两者,并且借助它可将不正确识别的词替换成校正词。为此,用户标记不正确识别的词,用计算机的键盘输入校正词,然后输入确认,从而使所标记的不正确识别的词被替换成输入校正词。
为简化对要替换的不正确识别的词的标记,已知听写设备的用户可将要替换的不正确识别的词—所谓的记号词—再一次说到话筒中。语音识别软件随即为这个所说的记号词识别所识别的记号词,而词处理软件在所识别的文本中搜索所识别的记号词。如果通过比较所识别文本中的词的字母序列发现了所识别的记号词,则词处理设备将标记该记号词。在说了记号词之后,用户必须检查要替换的词实际上是否被标记。如果是,则用户使用键盘输入校正词和确认以实施替换。
对于已知听写设备,已显露出以下缺点,即正是那些在所识别的文本中包含的不正确识别的词对于语音识别软件来说难以识别,因此在识别记号词的过程中亦发生高错误率。作为结果,所识别的文本信息的其它词而不是不正确识别的词被相对频繁地标记用于替换,这意味着附加的工作。已显露出的已知听写设备另外的缺点是用户必须执行相对多的不同动作(话筒和键盘)以替换不正确识别的词。
3.发明内容
本发明的目的是创建如在第一段中指定的校正设备和如在第二段中指定的校正方法,在其中避免了上述缺点。
为实现以上目的,在这样的校正设备中提供了发明性特点以使该校正设备可通过以下方式来表征。一种校正设备,用于校正所说的文本通过语音识别设备而识别的文本,其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词,该设备具有
输入装置,用于接收至少一个手动输入的校正词以将至少一个不正确识别的词替换成至少一个校正词;并具有
转换装置,用于将至少输入校正词在语音学上转换成音素序列;并具有
搜索装置,用于在所识别文本的词的音素序列中寻找所述至少一个校正词的音素序列,并用于发出位置信息,该位置信息标识音素序列基本上匹配所述至少一个校正词的音素序列的所识别文本中的至少一个词位置;并具有
输出装置,用于发出位置信息以使在所识别文本信息中能够标记由位置信息所标识的至少一个词。
为实现以上目的,在这样的校正方法中提供了发明性特点以使该校正方法可通过以下方式来表征。
一种校正方法,用于校正所说的文本通过语音识别设备而识别的文本,其中用于所说文本的所说词的所识别文本包括正确识别的词和不正确识别的词,以下步骤被处理:
接收至少一个手动输入的校正词以将至少一个不正确识别的词替换成至少一个校正词;
将至少输入校正词从语音学上转换成音素序列;
在所识别文本的词的音素序列中搜索所述至少一个校正词的音素序列并发出位置信息,该信息标识音素序列基本上匹配所述至少一个校正词的音素序列的所识别文本中的至少一个词的位置;
发出位置信息以使在所识别文本信息中能够标记由的位置信息所标识的至少一个词。
本发明基于以下认识,即由语音识别设备不正确识别的词和应当实际上已被识别的词——即应被正确识别的词——常常听起来很相似。对于这样的听起来相似的词,具体而言例如“four”和“for”,已知语音识别设备的错误率常常是特别高的。
作为依照本发明的特点的结果,用户不需要标记他想要替换成校正词的不正确识别的词,所述校正词应当实际上已被识别。校正设备通过统计方法确定输入校正词的音素序列,该音素序列表示所述校正词的声音。然后通过比较音素序列,校正设备在所识别的文本中搜索听起来类似于所述校正词的词。
有利的是,在所识别的文本信息中很可能被替换的不正确识别的词由此通过输入校正词而自动标记。用户可通过输入确认来实现对所标记的词的替换,或者通过输入接下来的信息使所识别的文本信息的另外听起来相似的词被标记。
语音识别设备的已知校正设备使能够同步再现所说的词和所识别文本的关联所识别词以便于校正不正确识别的词。当这些已知校正设备的用户注意到不正确识别的词时,他中断同步再现并执行用用户输入的词对不正确识别的词的替换。然后用户再次激活同步再现以寻找并校正所识别文本中另外的不正确识别的词。
依照权利要求2和权利要求9的措施,获得了以下优点,即用户一开始输入校正词,同步再现就被自动中断。
依照权利要求3和权利要求10的措施,获得了以下优点,即用户一通过输入应将被自动标记的词替换成输入校正词的确认而确认,同步再现的中断再次被自动终止。
在同步再现中,校正设备的用户在当前在声学上被再现并且在同步再现期间在光学上被标记的词的环境下识别不正确识别的词。依照权利要求4和权利要求11的措施,获得了以下优点,即搜索装置在最初在听起来相似的词的中断时在所识别文本中标记的词的紧邻处查找,并且在最初标记这个。如果用户应通过输入接下来的信息而开始进一步的搜索,则搜索区域被加宽。
在语音识别过程中,语音识别设备首先确定与所说文本关联的音素序列,并且基于该音素序列来识别所识别的文本。依照权利要求5和权利要求12的措施,获得了以下优点,即在其搜索校正词的音素序列的过程中,搜索装置使用已由语音识别设备确定的音素序列。这在校正设备形成语音识别设备的一部分时是特别有利的。
为增加搜索装置的可靠性,已被证明有利的是,听起来很相似的音素在搜索中被列为相同的音素。这样,例如,在英语词的音素序列中,音素“v”和“f”以及“t”和“d”在搜索装置的搜索中被看作是相同的。
4.附图说明
在以下将参照实施例来详述本发明,然而本发明不局限于该实施例。
图1示出处理语音识别软件和词处理软件并形成校正设备的计算机,所述校正设备用于为所说的文本而校正由语音识别设备识别的文本。
图2到5示出通过图1计算机的校正设备呈现在监视器上的屏幕信息。
5.具体实施方式
图1示出计算机1,其形成语音识别设备2、词处理设备3和校正设备4。语音识别设备2和校正设备4借助计算机1所处理的语音识别软件而形成,而词处理设备3借助计算机1所处理的词处理软件而形成。
话筒5、扬声器6、监视器7和键盘8被连接于计算机1。计算机1的用户可将文本说到话筒5中,在其上包括该所说文本的所说文本信息GTI作为模拟音频信号被输出到语音识别设备2的语音识别装置9。
如长期以来所知的,语音识别装置9被设计成识别待被相关于所说文本信息GTI的所识别文本信息ETI。为此,语音识别装置9将所说文本信息GTI作为数字音频数据存储在初始存储器级10中。在借助语音识别装置9的语音识别过程的处理中,语音识别装置9首先将包含音素的音素序列相关于所说文本信息GTI。如通常所知的,音素是小声学单位,而词的音素序列再现所说词的声学印象。例如,词“DAYS”被分配了音素序列“d Y z”。
在语音识别过程的随后处理中,从所说文本信息GTI确定的音素序列被搜索于词典存储器中,在其中为大量词的每个而存储了相关音素序列。如果所检测的音素序列已被发现于词典存储器中,则相关音素序列被确定为可能识别的词。用于所检测音素序列的可能识别词的序列然后被搜索于语音模型存储器中,并且可能识别词的最可能序列作为用于所说文本信息GTI的所识别文本信息被存储在第二存储级11中。
所识别文本信息ETI包含由匹配用户实际说的词的所谓正确识别词形成的正确识别文本信息RETI。所识别文本信息ETI亦包含由不匹配用户实际说的词的所谓不正确识别词形成的不正确识别文本信息FETI。如将在以下更详细讨论的,由语音识别设备9不正确识别的词和应当实际上已被识别的词——即所说词——常常听起来很相似。
在语音识别过程中,链接信息LI亦被确定,并被存储在第三存储器级12中。链接信息LI为所说文本信息GTI的每个词而标识所识别文本信息ETI的关联识别词,并且使能同步再现工作模式,如将在以下更详细讨论的。所述语音识别过程是长期以来所知的,因此不再涉及其任何更多的细节。
词处理设备3被设计成读取被存储在第二存储器级11中的所识别文本信息ETI并将包括该所识别文本信息ETI的屏幕信息BI输出到监视器7。从键盘8,可通过校正设备4的输入装置13将校正信息传递到词处理设备3上,从而编辑或改变所识别文本信息ETI,然后由此限定可被存储在校正设备4的第四存储器级14中的经校正的文本信息KTI。
当同步再现工作模式被激活时,计算机1被设计成自动标记在监视器7上呈现的所识别文本信息ETI的词,并且通过扬声器6同步地,即同时地在声学上再现由链接信息LI分配的所说词。为此,词处理设备3从对应的存储器级10、11和12中读取所识别文本信息ETI和所说文本信息GTI以及链接信息LI。
当同步再现工作模式被激活时,用户可检查所呈现的所标记的词是否为刚才已在声学上被再现的所说词而被正确识别。该特点被已知为“同步回放”并且被描述于例如US 5,031,113中,因此不再涉及其任何更多的细节。
校正设备4进一步包括输入装置13、第四存储器级14、第五存储器级15、转换装置16和搜索装置17。转换装置16被设计成通过统计方法从语音学上转换词。被分配给在词典存储器中存储的词的所存音素序列由这些装置读取。未被存储在词典存储器中的词被分解成分离的音节,并且通过组合来自词典存储器的这些音节的音素来确定关联的音素序列。
当通过按压键盘8上的键在计算机1中激活同步再现工作模式时,转换装置16从第二存储器级11读取所识别文本信息ETI并执行对整个所识别文本信息ETI的语音学转换。作为对所识别文本信息ETI的语音学转换的结果,转换装置16发出用于所识别文本信息ETI的音素信息PI(ETI),其包含用于所识别文本的词的音素序列并被存储在第五存储器级15中。
输入装置13被进一步设计成接收用键盘8手动输入的校正词的校正信息KWI以将所识别文本的不正确识别的词替换成校正词。转换装置16被进一步设计成对校正信息KWI在语音学上转换并发出用于校正信息KWI的音素信息PI(KWI),为了这个目的,校正信息KWI可被馈送给转换装置16。
转换装置16被设计成将用于校正信息KWI的音素信息PI(KWI)发给搜索装置17。搜索装置17被设计成在所识别文本的词的音素序列中寻找所述至少一个校正词的音素序列并发出位置信息PI,其标识音素序列基本上匹配所述至少一个校正词的音素序列的所识别文本中的至少一个词的位置。
搜索装置17进一步形成用于发出位置信息PI的装置以使能标记所识别文本信息ETI中由位置信息PI标识的至少一个词。为此,搜索装置将用于待被标记的词的位置信息PI传递给词处理装置3,其又将对应的屏幕信息BI传递到监视器7上。依照本发明的校正设备的进一步的功能和优点将以下在用于计算机1的图2到5中呈现的应用实例的基础上被更详细地描述。
在应用实例中,假定计算机1的用户将词“ONE TWO THREE FOURFIVE SIX SEVEN EIGHT NIGHT TEN”说到话筒5中。在语音识别装置9的语音识别过程中,所识别词“1 2 3 FOR 5 6 7 DAYS 9 THEN”的所识别文本信息ETI被相关于对应的所说文本信息GTI。
所识别文本信息ETI包含用于不正确识别词“FOR”、“DAYS”和“THEN”的不正确识别文本信息FETI。如可从表1看到的,不正确识别的词和实际上应被识别的所说词的音素序列很相似,这就是为什么语音识别装置9在识别中出错。
音素序列
 FOUR等于4  f  o  r
 FOR  f  o  r,  f  @  r
 EIGHT等于8  Y  t
 DAYS  d  Y  z
 TEN等于10  t  e  n
 THEN  D  e  n
            表1
在应用实例中,进一步假定用户通过按压键盘8上的键来激活同步再现工作模式。图2中所示的屏幕信息BI然后被呈现于监视器7上。当同步再现工作模式被激活时,监视器7上的显示被分成CORRECTIONEDITOR和CORRECTION WINDOW。紧接着在激活同步再现工作模式之后,CORRECTION EDITOR示出匹配所识别文本的所识别文本信息ETI的经校正文本的经校正文本信息KTI。CORRECTION WINDOW示出用户用键盘8输入的校正词;以下将涉及其细节。
紧接着在激活同步再现工作模式之后,词处理装置3从对所说文本信息GTI的第一词“ONE”的声学再现开始,并且用记号信息MI来标记所识别文本信息ETI的关联所识别词“1”。用户可由此很容易地看到所识别的词实际上匹配所说的词。
在所说文本信息GTI的第四词“FOUR”在声学上被再现并在光学上被标记时,用户注意到该词被不正确地识别并在其键盘8上输入词“4”——其应当实际上已被识别——作为校正词或作为校正信息KWI。
校正设备4现在被有利地设计成在用户开始用键盘8输入校正词的时刻自动中断同步再现工作模式。作为此事的结果,对所说文本信息GTI的声学再现被中断,并且光标信息CI被示出于记号信息MI的当前位置,如可在图3中看到的。因此,用户有利地不需要按压任何另外的键以中断同步再现工作模式。
紧接着在激活同步再现工作模式之后,转换装置16已转换了所识别文本信息ETI并将由此确定的用于所识别文本信息ETI的音素信息PI(ETI)存储在第五存储器级15中。用户一输入校正词,转换装置16就转换输入校正信息KWI并将用于校正信息KWI的所确定的音素信息PI(KWI)传递到搜索装置17上。
搜索装置17现在开始在光标信息CI的当前位置之前的M=5个词和之后的N=3个词的可调搜索区域中搜索所识别文本信息(ETI)的音素信息PI(ETI)中的校正词的校正信息KWI的音素信息PI(KWI)。由于在所识别文本信息ETI的搜索区域中音素信息PI(KWI)=“for”匹配不正确识别文本信息FETI的音素信息PI(ETI)“for”,搜索装置17将所识别文本信息ETI的第四词的位置确定为位置信息PI。搜索装置17然后将所确定的位置信息PI传递到词处理设备3上,在其上不正确识别的词“FOR”——如图4中所示——被用记号信息MI标记。
这具有以下优点,即用户——在注意到不正确识别的词并中断同步再现工作模式之后——不需要标记要替换的不正确识别的词。有利的是,为将不正确识别的词“FOR”替换成输入校正词“4”,用户仅需输入确认,这可例如通过按压键盘8的“ENTER”键来实现。因此,可以以特别简单且快速的方式来执行用应当实际上已被识别的词对不正确识别的词的替换。
有利的是,对同步再现工作模式的中断亦通过输入确认来终止,从而使对所识别文本信息ETI的关联识别词的同步声学再现和光学标记被恢复。
在所识别文本信息ETI的所述音素信息PI(ETI)的搜索区域中对校正信息KWI的音素信息PI(KWI)的搜索产生了以下优点,即如果相同的词再次出现在所识别文本中的不同位置处,则亦以特定的可靠性来寻找要替换的不正确识别的词。如果在搜索区域中的搜索不成功,则搜索装置17被有利地设计成对搜索区域进行步进扩展。
如果图4中标记的词不是用户想要用输入校正词替换的词,则他可输入接下来的信息NI,从而使搜索装置17在经扩展的搜索区域中再次搜索,如果有的话。搜索装置17一检测到另一个先前未标记的词的音素信息PI(ETI)和PI(KWI),搜索装置17就将该所检测的词的位置作为位置信息PI传递到词处理设备3上。
这具有以下优点,即如果由校正设备4自动标记的词不是用户想要用输入校正词替换的词,则仅通过按压键盘8上的键,用户可导致自动标记显示出与校正词的音素信息PI(KWI)的接近匹配的搜索区域中的不同词。
搜索装置17现在被发展成在搜索基本上匹配的音素序列的过程中忽略与所比较的音素序列不同但听起来相似的音素。例如,在此,音素“o”和“@”被列为听起来相似以使仅在这两个音素上不同的所比较音素序列被评价为匹配。
这提供了以下优点,即即使有正在比较的音素序列的小差异,搜索装置17亦到达结果,从而标记所识别文本信息ETI中的词。
应指出,可替换的是,搜索装置17可将在语音识别过程的处理中由语音识别装置确定的音素信息用作用于所识别文本信息ET I的音素信息PI(ETI)。这将产生以下优点,即转换装置不必转换所识别文本信息ETI,并且第五存储器级不需要被提供。
亦特别有利的是提供校正设备作为语音识别设备的一部分并使同步再现工作模式由校正设备来实施。因此可使用通常出售的词处理软件,如“Word for Windows”。
应指出,亦可输入几个词作为校正信息KWI以同时替换一个或几个不正确识别的词。应指出,可由计算机用户来设置搜索区域。这样,用户实际上可选择处于N=1到N=500和M=1到M=500的范围内的任何值。
应指出,可替换的是,可有利地仅对将在搜索区域中发现的所识别文本信息ETI的词执行语音学转换。
应指出,借助专业转换服务,依照本发明的校正设备可被用于专门优点,这是因为这种转换服务中的转换器仅手动校正语音识别设备不正确识别的词,因此实际上以下条件总是符合,即不正确识别的词的和待识别的实际上所说的词的音素序列很相似。

Claims (13)

1.一种校正设备(4),用于校正所说的文本通过语音识别设备(2)而识别的文本(ETI),其中用于所说文本(GTI)的所说词的所识别文本(ETI)包括正确识别的词和不正确识别的词(FETI),该设备具有:
输入装置(13),用于接收至少一个手动输入的校正词(KWI)以将至少一个不正确识别的词(FETI)替换成至少一个校正词(KWI);并具有
转换装置(16),用于将至少输入校正词(KWI)在语音学上转换成音素序列(PI(KWI));并具有
搜索装置(17),用于在所识别文本的词的音素序列(PI(KTI))中寻找所述至少一个校正词(KWI)的音素序列(PI(KWI))并用于发出位置信息(PI),该位置信息标识音素序列基本上匹配所述至少一个校正词(KWI)的音素序列(PI(KWI))的所识别文本(ETI)中的至少一个词的位置;并具有
输出装置(17),用于发出位置信息(PI)以使能标记所识别文本信息(ETI)中由位置信息(PI)所标识的至少一个词。
2.权利要求1的校正设备(4),其中校正设备(4)被设计成当校正词(KWI)中断同步再现,在其中所说文本的所说词(GTI)在声学上被再现并且对于所说词(GTI)的所识别文本(ETI)中的所识别词同步地在光学上被标记。
3.权利要求2的校正设备(4),其中校正设备(4)被设计成当用所述至少一个校正词(KWI)对由位置信息(PI)标识的至少一个词的替换已通过手动输入确认而确认时,终止同步再现的中断。
4.权利要求2的校正设备(4),其中搜索装置(17)被设计成在被包含于所识别文本的搜索区域中的词的音素序列(PI(ETI))中搜索所述至少一个校正词(KWI)的音素序列(PI(KWI)),所述搜索区域由中断同步再现之前所识别文本(ETI)中的最后被标记的词之前的M个词和之后的N个词来限定。
5.权利要求1的校正设备(4),其中搜索装置(17)被设计成在由语音识别设备(2)从所说文本(GTI)的所说词而确定的音素序列中搜索所述至少一个校正词(KWI)的音素序列(PI(KWI))。
6.权利要求5的校正设备(4),其中校正设备(4)被设计成形成语音识别设备(2)的一部分。
7.权利要求1的校正设备(4),其中搜索装置(17)被设计成在搜索基本上匹配的音素序列的过程中忽略与所比较的音素序列不同但听起来相似的音素。
8.一种校正方法,用于校正所说的文本通过语音识别设备(2)而识别的文本(ETI),其中用于所说文本(GTI)的所说词的所识别文本(ETI)包括正确识别的词和不正确识别的词(FETI),以下步骤被处理:
接收至少一个手动输入的校正词(KWI)以将至少一个不正确识别的词(FETI)替换成至少一个校正词(KWI);
将至少输入校正词(KWI)在语音学上转换成音素序列(PI(KWI));
在所识别文本(ETI)的词的音素序列(PI(ETI))中搜索所述至少一个校正词(KWI)的音素序列并发出位置信息(PI),该位置信息标识音素序列基本上匹配所述至少一个校正词(KWI)的音素序列的所识别文本(ETI)中的至少一个词的位置;
发出位置信息(PI)以便在所识别文本信息(ETI)中能够标记由位置信息(PI)所标识的至少一个词。
9.权利要求8的校正方法,其中以下进一步的过程步骤被执行:
当校正词(KWI)被手动输入时,中断同步再现,在其中所说文本的所说词(GTI)在声学上被再现并且对于所说词(GTI)的所识别文本(ETI)中的所识别词同步地在光学上被标记。
10.权利要求9的校正方法,其中以下进一步的过程步骤被执行:
当用所述至少一个校正词(KWI)对由位置信息(PI)标识的至少一个词的替换已通过手动输入确认而确认时,终止同步再现的中断。
11.权利要求9的校正方法,其中以下进一步的过程步骤被执行:
在被包含于所识别文本(ETI)的搜索区域中的词的音素序列中搜索所述至少一个校正词(KWI)的音素序列,所述搜索区域由中断同步再现之前所识别文本(ETI)中的最后被标记的词之前的M个词和之后的N个词来限定。
12.权利要求8的校正方法,其中以下进一步的过程步骤被执行:
在由语音识别设备(2)从所说文本(GTI)的所说词而确定的音素序列中搜索所述至少一个校正词(KWI)的音素序列(PI(KWI))。
13.权利要求8的校正方法,其中以下进一步的过程步骤被执行:
搜索基本上匹配的音素序列,与所比较的音素序列不同但听起来相似的音素被忽略。
CNB028181328A 2001-09-17 2002-09-10 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 Expired - Fee Related CN1235188C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01000468 2001-09-17
EP01000468.7 2001-09-17

Publications (2)

Publication Number Publication Date
CN1555553A true CN1555553A (zh) 2004-12-15
CN1235188C CN1235188C (zh) 2006-01-04

Family

ID=8176063

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028181328A Expired - Fee Related CN1235188C (zh) 2001-09-17 2002-09-10 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本

Country Status (7)

Country Link
US (1) US6735565B2 (zh)
EP (1) EP1430474B1 (zh)
JP (1) JP4241376B2 (zh)
CN (1) CN1235188C (zh)
AT (1) ATE311650T1 (zh)
DE (1) DE60207742T2 (zh)
WO (1) WO2003025904A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014048172A1 (en) * 2012-09-29 2014-04-03 International Business Machines Corporation Method and system for correcting text
CN105068987A (zh) * 2010-01-05 2015-11-18 谷歌公司 语音输入的字词级纠正
CN105210147A (zh) * 2014-04-22 2015-12-30 科伊基股份有限公司 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN106710597A (zh) * 2017-01-04 2017-05-24 广东小天才科技有限公司 语音数据的录音方法及装置
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
US10354647B2 (en) 2015-04-28 2019-07-16 Google Llc Correcting voice recognition using selective re-speak

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
JP4784120B2 (ja) * 2005-03-23 2011-10-05 日本電気株式会社 音声書き起こし支援装置及びその方法ならびにプログラム
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
US9978370B2 (en) 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
US10019986B2 (en) 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
US10062385B2 (en) 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
CN109145281B (zh) * 2017-06-15 2020-12-25 北京嘀嘀无限科技发展有限公司 语音识别方法、装置及存储介质
CN110770819B (zh) 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
US10832679B2 (en) 2018-11-20 2020-11-10 International Business Machines Corporation Method and system for correcting speech-to-text auto-transcription using local context of talk
US11790916B2 (en) 2020-05-04 2023-10-17 Rovi Guides, Inc. Speech-to-text system
US11532308B2 (en) * 2020-05-04 2022-12-20 Rovi Guides, Inc. Speech-to-text system
CN112530402B (zh) * 2020-11-30 2024-01-12 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037566B2 (en) 2010-01-05 2021-06-15 Google Llc Word-level correction of speech input
CN105068987B (zh) * 2010-01-05 2019-03-01 谷歌有限责任公司 语音输入的字词级纠正方法及系统
CN105068987A (zh) * 2010-01-05 2015-11-18 谷歌公司 语音输入的字词级纠正
US9881608B2 (en) 2010-01-05 2018-01-30 Google Llc Word-level correction of speech input
US10672394B2 (en) 2010-01-05 2020-06-02 Google Llc Word-level correction of speech input
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
US9502036B2 (en) 2012-09-29 2016-11-22 International Business Machines Corporation Correcting text with voice processing
US9484031B2 (en) 2012-09-29 2016-11-01 International Business Machines Corporation Correcting text with voice processing
CN103714048A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于校正文本的方法和系统
WO2014048172A1 (en) * 2012-09-29 2014-04-03 International Business Machines Corporation Method and system for correcting text
CN110675866B (zh) * 2014-04-22 2023-09-29 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105210147A (zh) * 2014-04-22 2015-12-30 科伊基股份有限公司 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN110675866A (zh) * 2014-04-22 2020-01-10 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105210147B (zh) * 2014-04-22 2020-02-07 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
US10354647B2 (en) 2015-04-28 2019-07-16 Google Llc Correcting voice recognition using selective re-speak
CN106710597B (zh) * 2017-01-04 2020-12-11 广东小天才科技有限公司 语音数据的录音方法及装置
CN106710597A (zh) * 2017-01-04 2017-05-24 广东小天才科技有限公司 语音数据的录音方法及装置
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置

Also Published As

Publication number Publication date
DE60207742D1 (de) 2006-01-05
DE60207742T2 (de) 2006-08-03
WO2003025904A1 (en) 2003-03-27
JP2005503590A (ja) 2005-02-03
EP1430474A1 (en) 2004-06-23
US20030061043A1 (en) 2003-03-27
US6735565B2 (en) 2004-05-11
CN1235188C (zh) 2006-01-04
EP1430474B1 (en) 2005-11-30
ATE311650T1 (de) 2005-12-15
JP4241376B2 (ja) 2009-03-18

Similar Documents

Publication Publication Date Title
CN1235188C (zh) 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
CN1269105C (zh) 用于将口授转录到文本文件中并对该文本进行修订的方法及系统
CN1206620C (zh) 输入语音的转换和显示
CN1150452C (zh) 语音识别校正方法和装置
US8356243B2 (en) System and method for structuring speech recognized text into a pre-selected document format
CN1145141C (zh) 改善语音识别准确性的方法和装置
US6321196B1 (en) Phonetic spelling for speech recognition
US7676373B2 (en) Displaying text of speech in synchronization with the speech
US8612231B2 (en) Method and system for speech based document history tracking
CN1655235A (zh) 基于话音特征自动标识电话呼叫者
CN1568500A (zh) 用于标注所识别文本的部分的语音识别设备
MXPA06013573A (es) Sistema y metodo para generar subtitulacion.
CN1568501A (zh) 标注所识别文本的部分的校正装置
JP2008164647A (ja) 発話分割方法、装置およびプログラム
CN101326573A (zh) 动态创建语境的方法和系统
CN1879146A (zh) 用于语音到文本的转录系统的错误检测
US20060195318A1 (en) System for correction of speech recognition results with confidence level indication
CN1645363A (zh) 便携式即时方言互译装置及其方法
CN1307610C (zh) 用于符号序列的语音识别的方法和系统
CN1228760C (zh) 依照语音查询单词的系统及方法
CN116187949A (zh) 一种智能会议记录方法
CN1585969A (zh) 在预定窗口编辑文本的装置
JP2012226651A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: DIFFERENTIAL COMMUNICATION AUSTRIA ROMPLAST-14

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20090731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090731

Address after: Austria Vienna

Patentee after: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Address before: Holland Ian Deho Finn

Patentee before: Koninklijke Philips Electronics N.V.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060104

Termination date: 20210910

CF01 Termination of patent right due to non-payment of annual fee