CN1871638B

CN1871638B - 采用用户接口的智能语音识别

Info

Publication number: CN1871638B
Application number: CN2004800308924A
Authority: CN
Inventors: J·彼得斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-10-21
Filing date: 2004-10-13
Publication date: 2012-01-25
Anticipated expiration: 2024-10-13
Also published as: JP4864712B2; US7483833B2; DE602004015491D1; CN1871638A; US20070083366A1; EP1678707A1; WO2005038777A1; JP2007509377A; EP1678707B1; ATE403215T1

Abstract

本发明涉及一种将语音转换成文本的方法、装置、图形用户接口和计算机程序产品。在语音识别步骤(100)中，提供一种文本，对其实施基于文本修改规则的自动文本修改(102)。加亮文本中对其进行修改的文本部分(106)，并向用户显示至少一条用于修改的建议(110)，使得用户能够选择一条建议，并且因此对自动文本修改过程进行控制(112)。例如，这些规则识别语音识别步骤中可能已经被错误解译的有关模糊语音或丢失的文本格式字符的文本部分。

Description

采用用户接口的智能语音识别

技术领域

本发明涉及语音至文本的自动变换领域，尤其涉及对已经从语音自动转换成为文本进行的自动文本修改。自动文本修改按照修改规则检测文本部分、生成智能修改建议，并与具有最终文本修改决定权的用户进行交互。

背景技术

将语音转换成书写文本的语音识别系统在本领域中是众所周知的。商用语音识别系统目前已被医学界(例如用在医院中)和法律界广泛采用。将口授语言转换成书写文本的语音识别由于不再需要由打字员进行口授的转录而节省了时间、降低了成本。

通常情况下，口授不仅含有待转换的文本，而且还包含要由语音识别系统解译的命令。标点符号命令不应当按照字面转换，例如“冒号”、“句号”。标点符号命令或格式化的、加亮命令也应当由智能转换系统进行识别和解译。所识别的文本与所解译的命令最终产生必须由人类校对者或编辑人员进行校对的文件。

商用语音识别系统如Philips Electronics N.V公司的SpeechMagicTM和IBM公司的ViaVoiceTM的特点就是文本识别和命令解译。这两种商用语音识别系统可以组装在文本处理软件产品内，用来转换、编辑、校正和格式化文本。另外，这些商用系统还提供用户和个人电脑之间的话音受控交互。对语音指令的解释启动菜单选项和其它定制的软件功能，例如浏览互联网。

尽管如此口授固有的特点是模糊不清的文本部分，比如一些数必须根据口授的语境解释为数字或按字面解释为书写文本。这些模糊不清的文本部分很容易被自动语音识别系统错误解释。此外，基于系统对文本格式或文本的加亮命令的解释可能出错。这种无法避免发生的系统解释错误必须由校对者进行人工校正，从而降低了整个语音识别系统的效率。因此，人们非常希望能够有一种支持对潜在的模糊不清或解释错误的文本部分进行修改或校正的系统，以便于进行校对。

用于文本处理系统的特定文本校正、文本修改系统在本领域中是众所周知的。WO 97/49043中描述了一种检验文件的拼写、语法结构准确性的方法和系统。在一种电子文件中，取出某一句子，并检查所取出的句子中的单词是否有拼写错误。当系统检测到有拼写错误的单词时，在拼写和语法组合对话框中显示一条指示。显示出现拼写错误的单词和整个句子。另外，拼写检验程序模块接收拼写和语法组合对话框中的建议列表框中显示的建议。随后，用户通过选择拼写和语法组合对话框中的一个命令按钮，来输入一条命令。响应于用户选择这些命令按钮之一，该方法执行相应的步骤。采用类似的方法，本方法可以应用于对句子进行语法检查。

美国专利6047300中描述了一种对拼写错误的单词进行自动校正的系统和方法。在该系统中，如果检测到某一单词的拼写有错误，那么就产生一个拼写正确的替换词。按照一组不同的标准，将该拼写错误的单词与拼写正确的替换词进行比较。如果各种不同的标准比较的结果满足选择标准，那么就用拼写正确的替换单词来替换拼写错误的单词。既使检测到某一单词拼写有错，该用户也可能希望使输入的单词保留原样。为了保持输入的单词，必须克服对拼写错误的单词所进行的自动替换。为了克服替换，该专利申请文件公开了一种拼写实施例，它包括一个例外单词表。例外单词必须由用户定义，并且将不被替换。用户可以对例外单词表进行编辑，以增加、去除例外单词。

美国专利6047300还公开了一种拼写实施例，按照该实施例，在某一拼写错误的单词被正确拼写的单词所替换时，用户会或者不会接收一则通知。如果该用户接收到一则替换通知，则用户就了解了要进行的替换，并且可以确认或拒绝进行该替换。

上述引用的文件仅仅涉及列出电子文本文件中的错误拼写或不恰当的语法结构。但是由于模糊文本部分是拼写正确的，因此采用上述方法并不能识别语音至文本转换时所产生的模糊不清的文本部分。同样，通常并不能采用上述校正、验证系统来检测到口授中所包括的并且从自动语音识别系统按字面转换而来的文本格式化命令或文本加亮的命令。通常，这些系统不适于对电子文本执行基于语境的修改。

发明内容

本发明旨在提供一种利用用户交互对由语音至文本的识别系统所产生的电子文本进行自动文本修改的方法、系统、图形用户接口和计算机程序产品。

本发明提供了一种利用用户交互进行的自动文本修改。优选地，直接执行可靠的修改动作，如直接解译非模糊命令或非模糊文本部分。相反，当检测到不可靠的动作如模糊文本部分或无法解析的命令时，本方法在执行修改动作之前请求人类专业人员。向用户指示执行的修改动作以及对人类专业人员的请求。利用这一途径，用户得到了对经修改的文本部分和/或潜在解译错误的口授命令和/或模糊文本部分以及涉及语音至文本识别的其它潜在问题的简便、有效的访问途径。

例如，任何类型的数都与模糊文本部分相关。由于一个数可以被解译成是用阿拉伯数字书写的数，或者是一个顺序号(enumeration)，或者按字面解释为一个词，因此语音至文本识别系统需要人类专业人员的帮助。一个数是要写成数字、顺序号还是一个词，需要根据语境来作出判断。这些模糊文本部分是由系统自动识别的，并且在所生成的文本中加亮。利用这样的方法，系统向校对者给出有关在语音至文本转换步骤中可能已经出现的潜在错误解译的智能指示。

发生错误解译的不仅是数字，也可以是某些短语或单词。取决于语境，单词“冒号”可以写成“冒号”(例如在医学报告中)，也可以作为印刷符号写成“：”。

按照本发明的一种优选实施例，系统的特征在于可以采用几种规则来识别在被识别的文本中可能需要进行修改的文本部分。所产生的文本显示在用户接口上用于校对。为了便于进行校对，在文本中加亮潜在的文本修改部分。可以借助任何一种强调方式来执行加亮，例如要修改的文本的不同的颜色、不同的大小、不同的字体或不同的字样。

按照本发明的另一个优选实施例，与至少一种所述规则匹配的文本部分是由系统来自动修改的，并且在文本中被加亮。以这种方式，校对者可以立即识别已经由系统修改的那些文本部分。另外，系统提供了一种撤销功能，使得校对者可以对经修改的文本部分进行自动更正。

按照本发明的另一优选实施例，规则给出了一种置信值，它表示某一被匹配文本部分是否需要进行修改的几率。当置信值高于第一预定阈值时，自动执行文本修改。这时，进行修改时无需给出任何注解或任何进一步的建议。当置信值低于该第一置信值但高于第二阈值时，执行自动修改，该自动修改与用户的一个指示相关联以及与使用户能够撤销所执行的修改的撤销信息相关联。当置信值低于该第二阈值时，不自动执行修改，但向用户指示一条建议，并且系统请求由用户对该匹配的文本部分是否需要进行修改作出判断。通常，可以调节用于该置信值的阈值，使之适合于校对者或用户的喜好。

按照本发明的另一优选实施例，规则所匹配的文本部分不是由系统自动修改的。相反，这需要校对者或用户的专业技能，以便判断是否应当进行修改。因此，在文本中加亮规则所匹配的文本部分。因此，校对者可以方便地找到被加亮的文本部分。加亮的文本部分通常与一个或几个文本修改的建议相关。通常，用户有可能接受或拒绝系统所产生的建议。文本修改最终是根据用户的决定来执行的。

根据文本文件的类型，可以应用基于不同语境的规则模块，以便检测模糊不清或有问题的文本部分。基于语境的规则模块例如是专用于某一法律实务或某一种医学报告的。根据该语境，这些规则不仅检测模糊不清的文本部分，而且还涉及口授中所包含的某些不清楚的命令。

另外，命令如“引文开始引文结束”可以解译为仅引用下一个单词，或解译成未知长度的引文段的开始。在这些情况下，产生建议或提示并在文本中加亮。单个的规则还可以指定用来检测含有顺序号符号如“1、2、3_...”或“a)、b)、c)”的文件中的不一致处。由于说话者通常在口授所有顺序符号时是不一致的，因此，设计了一些规则来检测一系列顺序号中的丢失项。这时，为校对者产生提示或建议。此外，对其它文本段落的引用，例如“相同于”或“如上所述”可以按字面来转换，也可以共同解析这些引用段落并且插入相应的文本。由于任何种类的装置通常是没有机会来解析这些引用段落的，因此，如果检测到某些引用术语或短语，系统会向人类校对者提供一些指示。

按照本发明的另一优选实施例，当为关于某一特定的文本部分的文本修改所提供的两条或多条建议是互相冲突的时候，总是产生建议并且将所涉及的文本部分加亮。在至少两个不同的规则为某一特定文本部分提供了的不同建议的情况下，无疑需要求助于人类专业人员了。按照每一冲突建议的置信值，本方法提供了建议的排序或列表，用户或校对者能够根据其作出选择。

按照本发明的另一优选实施例，仅在自动文本修改中包含次数低于某一预定阈值的编辑操作时执行自动文本修改。当按照某一特定规则的文本编辑操作的次数超过了某一特定的阈值时，只要该校对者还没有作出决定，就不执行适当的文本修改。这样，本方法在进行大量自动编辑操作之前，求助于人类专业人员。因此，就将可能使由校对者所执行的撤销操作的次数减少到了最小。与用户的这种交互节省了时间、降低了成本。

按照本发明的另一优选实施例，将被识别的文本和按照不同校正规则产生的建议输出到一个图形用户接口。设计的图形用户接口用来显示所识别的文本以及显示潜在文本修改操作的建议。可以以多种不同的方式来显示某一建议。例如，建议可以以直接位于加亮的与该建议相关的文本部分旁边的建议菜单的形式出现。按照本发明的另一实施例，不同的建议可以出现在图形用户接口内的单独的窗口中。

按照本发明的另一优选实施例，只响应于用户的请求来显示不同文本部分的多条建议。否则，图形用户接口会由于多条建议或多个建议列表而过于拥挤不堪。可以以多种不同的方式来适应用户的请求，如，通过点击鼠标按钮、将鼠标指针移动到加亮的文本部分上、手指触摸图形用户接口上适当的位置或者简单地通过在与系统相连的键盘上输入通用的快捷键。

还可以采用多种不同的途径来修改用于单个加亮的文本部分的各条建议的外观。单个的建议可以按照指定的顺序(例如以置信值分类)作为菜单的选项或列表选项来给出，也可以以完全无序方式给出。建议外观方式可以进一步由用户来指定。

按照本发明的另一优选实施例，可以以不同的方式执行所请求的用户判定。用户或者可以选择必须由系统执行的建议之一，也可以人工输入要由系统执行的替代建议。特定建议的选择可以借助于鼠标指针和鼠标点击或利用通用快捷键来实现。这里，可以在用户和图形用户接口之间采用任何一种其它形式的交互。

按照本发明的另一优选实施例，对特定建议的选择会引发相关的副作用。例如，当系统检测到某一丢失的顺序号时，它会建议实现该顺序号。当用户接着决定插入该丢失的顺序号时，系统会自动给出一条提示，其提示紧接着的字母需要大写。这样，按照第一条规则的某一自动修改的执行会启用按照另一规则的第二种潜在修改。该用户还可以进一步判断是否在文件的局部处或全部中引发这些副作用。

通过将前文中描述的置信值与阈值相关联，可以进一步控制由于所执行的修改而引发的副作用。这样，可以进行区分，是否在向用户作出提示或没有作出提示的情况下自动执行某一副作用，或者在没有与该用户作出进一步交互的情况下，自动执行某一副作用。

附图说明

下文中将参照附图，详细描述本发明的优选实施例。

图1是执行本发明的方法的流程图，

图2是执行本发明的第二种方法的流程图，

图3示出本发明一种优选实施例的方框图，

图4示出图形用户接口的方框图，

图5是启用修改规则的流程图。

具体实施方式

图1是执行按照本发明的方法的流程图。在第一个步骤100中，将语音转换成文本。在步骤102中，检查哪些文本区域与一项或几项修改或不一致规则相匹配。在步骤104中，借助冲突的适用修改规则或借助某一不一致规则的匹配，来检测有问题的文本区域。在步骤106中，在文本中加亮所识别和检测到的文本部分。在步骤108中，本方法对于每一加亮的文本部分产生几条建议，并提供一个建议列表。在步骤110中，如果受用户请求，则将产生的建议列表显示在图形用户接口上。在步骤112中，用户选择一条建议，用户也可以人工插入某一随后要插入到文本中的文本修改项。图2中示出执行自动文本修改的本发明方法的流程图。与图1所描述的类似，在步骤200中，将语音变换成文本。在下一个步骤202中，检查被识别文本的哪些区域与一项或几项修改或不一致规则匹配。按照不同的规则，在步骤204中该方法检测潜在需要受到修改的文本部分。在步骤206中，本方法按照这些规则自动进行文本修改。由于这些自动文本修改可能会有错误，因此在接下来的步骤208中见它们加亮，并且为用户配备所述修改的一些撤销信息。这样，本方法执行了自动文本修改，并且还通知用户在该文本中已经执行了自动的并且因而是潜在错误的修改。

在理想情况下，本方法还提供了一种特定的撤销功能，使得用户可以方便地撤销由自动文本修改系统所执行的文本修改。图3示出了基于语音至文本转换系统302的本发明优选实施例的方框图。将自然语音300输入到语音至文本转换系统302中。语音至文本转换系统302与用户304进行交互，并产生修改的文本316。语音至文本转换系统302包含语音至文本转换模块306、规则匹配检测器模块308、规则执行模块309、以及图形用户接口310。语音至文本转换系统302还包含基于语境的规则模块312、314。每一基于语境的规则模块312、314包含数据库318、324、第一规则320、326、第二规则322、328以及本文中没有进一步指明的其它规则。

在提供一个经识别的文本的语音至文本转换模块306中，对输入的语音300进行处理。规则匹配检测器模块308接着将一个或几个基于语境的规则模块312、314应用于经识别的文本。为特定的文本范围指定数据库318、324以及单个的规则320、322、326、328。例如，数据库318、324指定用于法律实务或医学报告。以类似的方法，指定规则320、322、326、328用于不同的应用领域。根据所选择的基于语境的规则模块312、314，规则匹配检测器模块308检测经识别的文本内可能要进行修改的的文本部分。

对检测到的文本部分的修改是由规则执行模块309来执行的。按照用户的喜好，自动修改可以直接由规则执行模块309来执行，也可以按照用户的决定来执行。取决于预定的阈值和置信值，可以向用户指示与撤销信息关联或不关联的优选修改。通过图形用户接口 310，向用户指示需要用户的决定。通过图形用户接口310来处理语音至文本转换系统302与用户304之间的交互。当系统执行了自动文本修改时，将合适的文本部分在图形用户接口310上加亮。其修改需要用户决定的文本部分也在图形用户接口310上被加亮。当系统按照规则320、322、326、328产生了某一自动修改的建议时，这些建议也通过图形用户接口310被显示出来。用户的决定以及对所识别文本的自动文本修改的执行最终给出经修改的文本316，并将其从语音至文本转换系统302中输出。另外，当某一文本部分与某一不一致规则(其被应用于例如缺失顺序号、无法解析的索引或其它的不一致)相匹配时，在图形用户接口310上产生表示文本不一致的警告图标。

图4示出本发明的图形用户接口400的方框图。图形用户接口400包含文本窗口402和建议窗口404。文本窗口402通常含有几个加亮的文本部分406，其表示潜在修改或文本不一致的警告图标。可以用不同的方式(例如不同的颜色、不同字体或其它优选的视觉指示符)将文本加亮。可以借助文本窗口402中或建议窗口404中的建议列表410来显示某一被加亮的文本部分的各项修改建议。建议窗口404以及任一建议列表410、412可以总是出现在图形用户接口400内，但也可以只应用户的要求来显示。

借助于鼠标指针408，用户可以选择特定加亮的文本部分406，为该部分显示合适的建议列表410、412或建议窗口404。选择加亮的文本部分406(为其显示建议列表410、412)还可以借助任何一种其它类型的输入装置，如键盘快捷键、触摸屏、甚至是用户的语音命令来执行。借助于同样的装置，用户最终可以选择建议列表410、412中所提供的一项建议，用户也可以人工输入替代文本部分。

图5示出了针对作为文本修改的副作用而触发规则的文本修改执行过程的流程图。在第一个步骤500中，检查所识别的文本的哪一个部分是符合一项或几项修改或不一致规则的。在步骤502中，检测到N个潜在需要受到自动文本修改的文本部分，并且开始启用索引j(j＝1)。步骤504将索引j与潜在需要受到修改的文本部分的个数N相比较。如果j大于N，则该方法进入步骤518，并且结束修改。如果在步骤504中，j小于或等于N，则在步骤506中在识别的文本中将第一个文本部分(j＝1)加亮。在步骤508中，该方法提供了一种将显示在图形用户接口上的文本修改的建议列表。在步骤510中，进行与用户的交互。接着，在步骤512中，依照与用户的交互来修改文本部分j。

接下来的步骤514检查所执行的文本修改是否触发其它的文本修改规则。例如，当第一项修改输入丢失的标点如“.”时，下一个句子中开头的单词按照另一个规则必须大写。当在步骤514中，所执行的修改触发了这样的另一规则时，在步骤516中将该规则应用于文本部分。在已经将该另一规则应用于指定的文本部分以后，该方法回到步骤506，并对所选择的规则执行相同的建议和交互过程。相反，当在步骤514中所执行的修改没有触发其它规则时，索引j递增1，并且该方法回到步骤504。

参考符号表

300 语音

302 语音至文本转换系统

304 用户

306 语音至文本变换模块

308 规则匹配检测器模块

309 规则执行模块

310 图形用户接口

312 基于语境的规则模块

314 基于语境的规则模块

316 修改的文本

318 数据库

320 规则

322 规则

324 数据库

326 规则

328 规则

400 图形用户接口

402 文本窗口

404 建议窗口

406 加亮的文本

408 鼠标指针

410 建议列表

412 建议列表

Claims

1.一种将语音转换成文本的方法，包含下述步骤：

-执行语音识别步骤，以提供一文本，

-对所述文本应用至少一项规则，以执行至少一项自动文本修改，

-在用户接口上输出所述文本，

-在所述用户接口上输出至少一项建议，用于自动文本修改，以及

其中，所述文本修改包含多项编辑操作，当所述编辑操作的数量超过预定阈值时，输出用于所述文本修改的建议。

2.如权利要求1所述的方法，其中所述至少一项自动文本修改是自动执行的，并且在所述文本中被加亮，以供用户审核。

3.如权利要求1所述的方法，其中与所述至少一项建议相关的文本部分在所述文本中被加亮，并且响应于用户接受所述建议来执行至少一项文本修改。

4.如权利要求1至3中任一权利要求所述的方法，所述至少一项规则提供所述至少一项自动文本修改的置信值，其中，所述建议仅在所述置信值低于一个阈值时输出，以供用户审核。

5.如权利要求1至3中任一权利要求所述的方法，其中，当提供了至少第一和第二用于所述文本修改的冲突建议时，输出这些建议以供用户选择。

6.如权利要求1至3中任一权利要求所述的方法，其中，所述文本和所述建议被输出至图形用户接口。

7.如权利要求1至3中任一权利要求所述的方法，其中，当所述用户输入一项建议命令时，显示至少一项建议。

8.如权利要求2或3所述的方法，其中，所述用户审核包含通过输入选择命令来选择一项建议或人工输入文本修改。

9.如权利要求1至3中任一权利要求所述的方法，其中，按照由第一规则提供的至少一项建议，来执行第一自动文本修改，并且还包含对所述第一自动文本修改应用至少第二规则，并输出至少第二建议，用于第二自动文本修改。

10.一种语音至文本的转换系统(302)，其包括：

-执行语音识别步骤以提供文本的装置，

-对所述文本应用至少一项规则(320，322，326，328)用以执行至少一项自动文本修改的装置，

-在用户接口上输出所述文本并输出所述自动文本修改的至少一项建议的装置，以及

11.如权利要求10所述的系统，包含加亮文本修改或加亮与至少一项建议相关的文本部分以供用户审核的装置。

12.如权利要求10或11所述的系统，该系统包含在提供用于文本修改的至少第一和第二建议冲突时或在文本修改包括多项编辑操作而编辑操作的数目超过一个预定阈值时，产生至少一项建议输出的装置。

13.如权利要求10或11所述的系统，包含当所述用户(304)输入一项建议命令时，在图形用户接口(310；400)上显示所述至少一项建议的装置。

14.如权利要求10或11所述的系统，包含按照由第一规则(320，…；326，…)所提供的第一建议进行第一自动文本修改的装置，并且还包含对所述第一自动文本修改应用至少第二规则(322，…；328，…)并且输出至少第二建议用于第二自动文本修改的装置。

15.一种用于语音至文本转换系统(302)的图形用户接口(310；400)，所述系统(302)具有用于执行至少一项自动文本修改的至少一项规则(320，322，326，328)，并且具有用于自动文本修改的至少一项建议，所述图形用户接口(310；400)包含：

-产生所述文本的显示的装置，

-加亮文本并加亮与所述至少一项建议相关的文本部分的装置，

-显示所述至少一项建议以用于所述自动文本修改的装置，以及

16.如权利要求15所述的图形用户接口，还包含由所述用户输入一项建议命令以便启动所述至少一项建议的显示的装置。