CN1764944A

CN1764944A - 语音识别系统

Info

Publication number: CN1764944A
Application number: CNA2004800080443A
Authority: CN
Inventors: H·巴托西克; C·麦尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-03-26
Filing date: 2004-03-22
Publication date: 2006-04-26
Anticipated expiration: 2024-03-22
Also published as: JP2006521578A; WO2004086359A3; ATE417346T1; WO2004086359A2; US8447602B2; EP1611569B8; US20070033026A1; DE602004018290D1; JP4994834B2; EP1611569A2; CN100578615C; EP1611569B1

Abstract

在语音识别和纠错系统中，其包括至少一个可以向其馈送口述文本(GT)的语音识别装置(1)，可以将所述口述文本转换成识别文本(ET)，以及一个纠错装置(3)，用于纠正由该至少一个语音识别装置(1)所识别的文本(ET)，所述纠错装置通过一个数据网络(2)与该至少一个语音识别装置(1)相连接，用于传送该识别文本(ET)并且在合适的情况下也传送该口述文本(GT)，该纠错装置(3)具有一个替换词典(23)，其包括词的一部分、词和词序列，可以作为该识别文本的单独的词的一部分、词和词序列的替换项由该纠错装置(3)进行显示(22)。

Description

语音识别系统

技术领域

本发明涉及一种语音识别和纠错系统，其包括至少一个可以向其馈送口述文本的语音识别装置，可以将所述口述文本转换成识别文本，以及一个纠错装置，用于纠正由该至少一个语音识别装置所识别的文本，所述纠错装置通过数据网络与该至少一个语音识别装置相连接，所述数据网络用于传送该识别文本，并且在适当情况下传送该口述文本。

本发明进一步涉及一种纠错装置，其用于纠正由语音识别装置所识别的文本。

本发明进一步涉及一种创建替换词典的方法，用于为替换词典确定数据记录条目，以对由语音识别装置从口述文本所转换成的识别文本进行纠正。

背景技术

这种语音识别和纠错系统可从文献US5,864,805中获悉。该文献公开了一种语音识别系统，其可以连续地运作并可以在词和词序列中识别和纠正错误。为了纠正错误，数据被存储在该语音识别系统的内部存储器中，以便更新记录在该语音识别系统中的概率表。所述概率表用于产生替换表，以替换不正确识别的文本。

在所述公知的语音识别和纠错系统中，已证明其缺点在于它只能用作单机解决方案，也就是说该语音识别和纠错系统受限于个人电脑，其中该个人电脑存储着该语音识别和纠错系统所需要的所有数据。但是现代的语音识别系统常常被设计为分布式系统，其中许多具有语音识别软件的电脑，或是其中部分在其上运行的电脑通过数据网络彼此连接。在这些先进的系统中，也会将语音识别和纠错系统的任务分布在许多电脑上。作为这样的一个例子，可以提出一种在医院中用于临床诊断的语音识别系统。在那种情况下，由许多医生在不同的检查室将诊断结果口述到语音识别系统中，并且这些诊断结果由该语音识别系统转换成识别文本，并与该口述文本的音频记录一起集中地存储。但是该识别文本仍然只是粗略的版本，其不得不在纠错处理中清除每一个识别错误。该纠错通常由秘书完成，对单个的秘书来说，通常要纠正许多医生的口述文本。由于在这个语音识别系统中，无论是个人检查室中的医生还是办公室中的秘书，彼此都相距很远，并且还常常工作于不同的时间，因此在文献US5,864,805中所提议的解决方案并不能用于分布式语音识别系统。另一方面，这对于在语音识别系统的转换处理中所获得的并可用于编译用于纠错的替换表的信息来说也是不实际的，其中该纠错信息通过数据网络传送到在其上将对该识别文本进行纠错的计算机上，因为所获得的数据量非常的大。因此文献US5,864,805中所述的概率表的大小增加得太快以至于不能通过数据网络以连续更新的形式传送到纠错装置上，特别是如果所用的数据网络是具有很小带宽的数据网络的话。对于在该语音识别系统转换处理期间所获得的、要直接传送给该纠错装置的信息，以及在那里进行分析的信息来说，这实际上也是不可能的，因为同样在这种情况下特别是对于具有很小带宽的网络来说所需要的网络带宽将会非常大。特别地，应该考虑到现代语音识别系统典型地并行处理5000到8000个关于如何将口述文本转换成识别文本的可能性假设。但是，从该可能性假设中获得的信息对该纠错装置来说将是必须的。例如，如果存在一个识别结果，即1000个词以外的最好假设，并且每个词在原始的词图中出现10次，则在该极端的情况下，将需要传送由1000的10次幂个词构成的变量，并且其区别仅仅在于不同的时间分布。

另一方面，虽然语音识别系统的开发者正努力工作以改善他们的系统，但是在可预知的未来不能期望得到100％的识别率，这意味着对识别文本的纠错将仍然是必需的。因此需要通过在纠错处理期间使个人对该不正确识别的词执行纠错替换，使得他们可以快速的从所提供的替换中选择一个，而使该纠错更加容易。

发明内容

因此本发明一个目的在于提供一种如第一段所述类型的语音识别和纠错系统，一种如第二段所述类型的纠错装置和一种如第三段所述类型的创建替换词典的方法，其中可以避免上述的缺点。为了获得上述目的，在这种语音识别和纠错系统中，该纠错装置具有一个替换词典，其包括词的一部分、词和词序列，可以作为该识别文本的单独的词的一部分、词和词序列的替换项由纠错装置显示。

为了达到上述目的，在所提供的这种纠错装置中，替换词典存储在该纠错装置中，其中所述替换词典包括词的一部分、词和词序列，可以作为该识别文本的单独的词的一部分、词和词序列的替换项由纠错装置对它们进行显示。

应该了解术语“替换词典”意为其是以独立于语音识别装置的转换处理的信息为基础的。特别地，该替换词典并不基于由语音识别装置在转换处理期间所创建的替换识别假设，并且其在正确的概率方面，被认为比该识别文本中所反映的识别假设更糟。

为了达到上述目的，在这种创建替换词典的方法中，独立于该语音识别装置的知识来源，特别是特定应用领域的文本文件例如医学或法律文本，或是从大量纠错文本和由语音识别装置产生的相关识别文本(ET)编译的混淆统计，都相对于文本要素进行检查，例如可能相互混淆的词的一部分、词和词序列，并且这种可能相互混淆的文本要素被共同放在数据记录条目中作为替换项。

依靠根据本发明的特征，对由语音识别系统所识别的文本的纠错可以用比现今可能的方式更加简单和快速的方式执行，对本发明来说，其可以以特别有利的方式用于语音识别系统中，其中识别和纠错不在相同的计算机中执行。此外，由本发明带来的替换给出过程非常地有效、灵活和稳健，那即是说，独立于具体的识别错误。除了省略纠错操作期间在语音识别系统和纠错装置之间大量的数据传送，本发明还进一步提供的显著优点在于，从替换词典得到的替换建议独立于该语音识别装置各自的识别能力。相反地，现今公知的系统所具有的缺点在于，如果该语音识别装置具有很低的识别率，那么在很多情况下在纠错操作期间不能提供可用的替换项，因为这些替换项也是不正确的。

权利要求2的措施提供的优点在于，该纠错装置可以独立于在转换处理期间由该语音识别系统所获得的信息进行操作，因此，除了对该识别文本和在适当情况下的原始口述文本进行传送以外，在该语音识别系统和该纠错装置之间不需要进行数据通信。依靠根据本发明的解决方案的高度适应性，也可以很容易地适应新的口述环境或类型。在优选实施例中，该纠错装置可以基于用于分析该识别文本的所选文本段的分析装置，其中该分析装置优选通过字符串比较法或高级句法分析法从替换词典中确定该所选文本段的替换项。句法分析法例如包括：对句法要素的检测，如名词/动词对、名词性短语等等。

权利要求4的措施提供的优点在于，可以对用户显示已经处理了的识别文本段的替换项，例如通过在该纠错装置的键盘上定义热键。

权利要求5的措施提供的优点在于，通过在后台连续运行的分析装置，该纠错装置可以不断地向所选的文本段提供替换项。

权利要求7的措施提供的优点在于，该替换词典可以独立于语音识别系统，离线或是在线地可以进行编译和更新，因为所使用的信息源独立于那些在语音识别系统的转换处理期间通常或不断可用的信息。

权利要求8的措施提供的优点在于，用于确定数据记录条目的知识经常来自于对于由语音识别系统特别频繁地产生的混淆的认识和了解。作为例子，同音词，即发音相同但是写法不同的词，当然特别频繁地被语音识别系统混淆。通过使用该纠错信息来编译替换词典，语音识别系统的性能又可以额外得到提高，而不需要针对所产生的错误再次训练该语音识别系统。换句话说，该纠错系统通过该语音识别系统从所产生的错误中学习。

为了增加在替换词典中创建数据记录条目的方法的稳健性，可以有利地使用如权利要求8至10所述的统计方法。依靠这些统计方法，用于要被替换的词元素的替换表不用包含太多的条目，并且由此对用户来说也不用变得不实用，因为只有那些在纠错中十分频繁地出现的替换项才会被记录下来。另一方面，在纠错操作期间为替换频率引入一个上限值，以保证那些(几乎)总是用相同的词元素进行纠正的系统替换项，例如在口述中用“敬礼，Meyer先生(Regards，Mr Meyer)”替换指令“信件结束”，不会被提供作为仅有的替换项。这种情况应该由其它机制进行调节。

权利要求11的措施提供的优点在于，能识别所讨论的内容是否是“要被认真处理”的替换项，例如在德语的情况下，替换项“mein-dein”，“dem-den”等等。必要的语音相似性或者可以通过在这种情况下被传送到纠错装置的口述文本进行确定，或者可以从该纠错装置已知的正讨论的词的语音进行确定。

权利要求12的措施提供的优点在于，只有那些出现在口述文本中时期大约相同的点上的词才被记录在该替换表中。例如，如果文本中某些与口述文本无关的词或文本部分在纠错操作期间被用户系统地进行添加，或是随后不会出现在该纠错文本中的词被系统地省略，那么这不利于该使用替换表处理这种纠错。

替换词典中的数据记录条目可以具有变化的细节度。因此，不同的替换表可以根据口述文本中所使用的语音进行编译。此外，替换词典中的数据记录条目可以根据技术领域或是应用领域进行细分，或是根据原始的口述或纠错文本的创建者进行细分。上述细节度的组合也是可以的。

权利要求17的措施提供的优点在于，该替换词典可以在识别文本的纠错期间不断地进行改进，并因此可以进行自我培训。

附图说明

参考附图所示实施例，将对本发明作进一步描述，但是本发明并不局限于此。

图1示出了具有纠错系统的语音识别系统，所述纠错系统通过数据网络与语音识别系统连接。

具体实施方式

图1示出了用于转换口述文本GT的语音识别装置1。该语音识别装置1可以由运行语音识别软件应用程序的计算机构成。该语音识别装置1包括语音识别装置7、参数存储装置9、命令存储装置10和适应级11。表示口述文本GT的音频信号A可以通过麦克风5传送到A/D转换器6中，该A/D转换器将音频信号A转换成可以馈送给该语音识别装置7的数字音频数据AD。该数字音频数据AD由该语音识别装置7转换成识别文本ET，其通过数据网络2存储到存储装置8中。出于这个目的，可以考虑参数信息PI，其包含词汇(上下文)信息、语音模式信息和声学信息并被存储在该参数存储装置9中。

上下文信息包括可以由该语音识别装置7与联合音素序列一起所识别的所有的词。该上下文信息是通过分析与所设想的应用有关的大量文本获得的。作为例子，对用于放射学领域的语音识别系统来说，要分析由总数5千万到1亿个词组成的检查结果。语音模式信息包括关于通常在口述文本GT的语音中的词序列的统计信息，特别是词出现的概率以及它们与在其前后出现的词的连接。声学信息包括关于对该语音识别装置1的用户特定的语音类型的信息，以及关于该麦克风5和A/D转换器6的声学特性的信息。

文献US5,031,113的公开内容在此通过参考并入本文件的公开内容中，它公开了考虑这种参数信息PI的语音识别方法的实施，因此本文不再给出其进一步的细节。根据该语音识别方法，语音识别装置7可以将包含识别文本ET的文本数据存储在存储装置8中。此外，口述文本GT可以以数字形式存储在存储装置8中。另外，有关于所用语音14、应用15和创建者16的信息可以由该语音识别系统1通过数据网络2与该识别文本ET一起传送，并存储在该存储装置8中。

在命令存储装置10中，所存储的词序列由该语音识别装置7作为命令进行识别。这种命令包括，例如，可使得该识别文本ET中的下一个词成为粗体的词序列“下一个词粗体(next word bold)”。

为了与有关于原始口述文本GT的声学信息以及有关于语音14、应用(技术领域)15和创建者16的信息一起被读取，纠错装置3访问存储在该存储装置8中的识别文本ET，以使得该识别文本ET可以依靠文本处理系统进行纠错。特别是如下所述的先进语音识别软件应用程序的所有功能都可以在该识别文本ET上使用。该纠错装置3包括重放和纠错装置18，其与键盘19、监视器20和扩音器21相连接。该重放和纠错装置18被设计用于在监视器20上对该识别文本ET进行可视显示，以及用于对该口述文本GT经由扩音器21进行声学重放，以及用于当该重放和纠错装置18处于触发同步重放模式时，在该识别文本ET中对正被声学重放的口述文本的段进行同步可视标记。在这个重放模式下，该识别文本可以通过键盘输入的方式同时地进行纠错，并且在适当情况下也可以通过麦克风(未示)输入语音命令的方式。该纠错文本KT可以存储在存储装置17中。

重放和纠错装置18包括分析装置24，用于分析已经被选的识别文本ET的文本段，其目的在于从存储在该纠错装置3中的替换词典23中向该纠错装置的用户建议所选文本段的替换项。该替换项是以替换表22的形式显示在监视器上呈现给用户的，并且该用户可以由键盘19上的光标键或是鼠标(未示出)或是类似物来操纵该表，以便手动选择替换项或执行纠错。该分析装置24或者在后台连续运行，或者可由该纠错装置3的用户通过该用户对一个键或组合键(“热键”)的按压进行激活。该分析装置更优选地或者借助于字符串比较法，或者通过统计分析法分析该所选文本段。字符串比较可以基于单独的词，或是单独的词的组成部分，或是(要被检测的)短语进行。该比较可以进一步基于由大量句法要素构成的表述进行，例如名词/动词对、名词性短语等等。所有这些表述在本专利申请中一般也被称为“文本要素”。由该分析装置24所建议的替换表可以依次包括单独的词，或者其中的部分，或者整个短语。借助单独词的替换项的例子可以提及下面的识别文本：“腹上部的脉管在内部(interiorly)被看见，并且他有浮肿(edema)病史。”。以斜体字示出的词被不正确地识别。如果在这个识别文本的纠错期间，光标位于词“在内部(interiorly)”上，那么由一个或多个条目组成的替换表由该分析装置出于纠错目的进行提供，所述替换表包括在这种情况下将是正确的词的词“早期地(anteriorly)”。通过简单地选择该词“早期地(anteriorly)”，该用户可以通过所述词执行“在内部(interiorly)”的快速替换。该过程对词“浮肿(edema)”同样应用，所述词“浮肿”将由另一个替换表中所提供的词“贫血(anemia)”进行替换。因此用户可以通过仅仅按压少许的键来纠正该不正确的识别句，以给出“腹上部的脉管被早期看见，并且他有贫血病史。”在短语替换的一个例子中，可以提供正确的短语“没有升高的节奏(rhythm without lifts)”作为该识别短语“没有表的节奏(rhythm without lists)”的替换。应该注意到在这种情况下，虽然在替换期间该识别文本中只改变了一个字母，但是在该纠错装置的用户进行选择时，所引用的整个短语都要被检查、被提供作为替换项并被替换。有关替换的另一个例子具有大量要素。这些要素可以是技术表述、名词/动词对等等。在这种情况下该分析装置24可以使用运算法则，其是被首先执行的识别文本的标记以及对单独的词(要素)的可信度的计算。随后对于具有低可信度的名词确定名词/动词对或名词性短语。在那以后，依靠字符串比较对于互补要素(动词或名词)确定联合替换表的一致性，于是其它要素就以替换列表的形式被显示出来。依靠这个方法，例如，在不正确的识别句“体外腱的材料(materials)全都被清除了”中，在该分析装置24发现词“材料(materials)”的低可信度、鉴别该名词/动词对“材料被清除(materials debrided)”并且经由动词“被清除(debrided)”确定其中出现了条目“痕迹被清除(trails debrided)”的相关替换表的情况下，可以由替换表中所提供的“痕迹(trails)”对词“材料(materials)”进行纠错。如果这个条目是由用户选择的，则对名词和动词进行替换，即使在该文本中只有用“痕迹(trails)”对“材料(materials)”的替换是用户可见的。作为关于对具有大量要素的替换表进行确定的进一步的例子，可以提及不正确的识别短语“放电药物两个CCU(Discharge medications two CCU)”，而其实际上应该被识别为“部署到CCU(disposition to CCU)”。该分析装置24检测词“药物(medications)”的低可信度，并且鉴别该名词性短语“放电药物(Discharge medications)”。替换表中相关条目的确定是经由术语“CCU”以及读取“部署到CCU(dispositionto CCU)”执行的。这个条目可以由用户选择，并且替换上述全部不正确的识别短语。

分析装置24例如从用于纠正识别文本的文本处理程序的光标位置或是从口述文本段的时间位置及其与识别文本的相关性来确定识别文本ET的所选文本段。因此对该纠错装置3的用户来说，可以通过选择替换用语来有效地和快速地纠正该识别文本。

纠错装置3也包括评估装置4，用于创建替换词典23或者其中单独的条目。应该注意到的是为了从各种独立于该语音识别系统1的知识源中编译基础替换词典，评估装置也可以独立于该纠错装置3而被提供，这些基础替换词典随后可以出于使用的目的而被存储在该纠错装置3中。在所示实施例的例子中，该评估装置4经由该重放和纠错装置18访问存储在存储装置8中的口述和识别文本GT、ET，以及有关于语音14、应用15和创建者16的信息，在一个可选择实施例中该评估装置4也能够直接访问存储装置8。此外该评估装置4从存储装置17中读取纠错文本KT，以便将其与识别文本ET进行比较，并由此确定在该识别文本ET上执行的文本要素替换。对这些文本要素替换进行统计分析，并且如果它们满足下面更加详细讨论的特定条件，则作为该替换词典23的数据记录条目中的替换项进行记录。因此，在一个优选实施例中，将该识别文本ET与该纠错文本KT进行比较，并确定显示最低的整体偏差，即整个文本中错误数量最少的那些替换项。这个信息被用于编译替换表。为了改善系统的稳健性，即不给该替换表填充太多条目，对显示一个词要素被另一个替换有多频繁的统计量进行编译是很有用的。只有超过相关或是绝对频率的预定下限值时，作为替换的词要素才被记录在该替换表中。为一个词要素被另一个替换的频率引入上限值也可以是很有用的，只有没有达到所述上限值时，该词要素才被记录在替换表中。如果超越了该上限值，这或者表明该语音识别系统具有不能靠替换表进行纠正的系统错误，或者表明由于不正确识别的情况而不能执行文本部分的替换。

用于改善用其编译替换词典的稳健性的另一措施涉及对要被替换的术语以及作为替换的术语的语音相似性进行分析。因此可以保证那些词语对具有足够的语音相似度，例如德语里的mein-dein、dem-den，被认为是该语音识别系统不正确的识别的实例，而应该被记录在替换表中。

用于改善用其编译替换词典的稳健性的又一措施涉及对纠错文本要素所在的时间位置进行分析。因此，只有那些位于口述文本中时期大约相同的点上的文本要素才被记录在替换表中。因此可以防止，例如该纠错装置的用户出于格式或内容的原因已经添加到该识别文本中或是从那里删除的、但是与纠正该不正确识别情况无关的词，被输入到替换表中。

此外，替换词典中的数据记录可以根据所使用的语音、应用(技术领域)或创建者、或是这些的联合进行另外地细分。一旦识别文本ET被传送用于进行纠正，对于纠正可额外获知有关语音14、应用(技术领域)15和创建者16的信息，合适的替换表就从替换词典23中加载，并可用于替换的快速提出。

在所示实施例中，该评估装置4在后台连续运行，因此当其在线时，可以改进并培训该替换词典23。

除了出于创建替换词典23的目的而评估纠错文本KT以外，该评估装置4也可以另外或作为备选方案，出于这个目的而使用用于其它独立于语音识别系统1的知识源，特别是文本文件12，例如临床结果，以及合适情况下的混淆统计，其被分析以编译替换词典23中的数据记录条目。这些文件一方面可以存储在其上运行着该分析装置4的计算机的硬盘上；另一方面，这种文件也可以通过数据网络进行访问。有利地，也可以搜索因特网来分析合适的因特网文件13，这个过程特别适于自动操作-因为整个方法都用于确定替换词典中的数据记录条目。

Claims

1.一种语音识别和纠错系统，其包括至少一个可以向其馈送口述文本(GT)的语音识别装置(1)，可以将所述口述文本转换成识别文本(ET)，以及一个纠错装置(3)，用于纠正由该至少一个语音识别装置(1)所识别的文本(ET)，所述纠错装置通过数据网络(2)与该至少一个语音识别装置(1)相连接，用于传送该识别文本(ET)，并且在适当情况下也传送该口述文本(GT)，其特征在于该纠错装置(3)具有一个替换词典(23)，其包括词的一部分、词和词序列，可以作为该识别文本的单独的词的一部分、词和词序列的替换项由该纠错装置(3)对它们进行显示(22)。

2.一种纠错装置，用于纠正由语音识别装置所识别的文本，其特征在于一个替换词典(23)存储在该纠错装置(3)中，该替换词典包括词的一部分、词和词序列，可以作为该识别文本的单独的词的一部分、词和词序列的替换项由该纠错装置(3)对它们进行显示(22)。

3.如权利要求2所述的纠错装置，其特征在于包括分析装置(24)，用于分析该识别文本的所选文本段，优选地借助于字符串比较或句法分析来进行，并且用于从该替换词典(23)中确定该所选文本段的替换项。

4.如权利要求3所述的纠错装置，其特征在于该分析装置(24)可以由该纠错装置的用户激活。

5.如权利要求3所述的纠错装置，其特征在于该分析装置(24)从文本处理程序的光标位置或是标记信息确定所选文本段。

6.如权利要求3所述的纠错装置，其特征在于该分析装置(24)从该口述文本的时间位置及其与识别文本的相关性来确定所选文本段。

7.一种创建替换词典的方法，用于确定替换词典(23)中的数据记录条目，以用于对由语音识别装置(1)从口述文本(GT)所转换的识别文本(ET)进行纠错，其特征在于独立于该语音识别装置(1)的知识源(12，13)，特别是特定应用领域的文本文件，例如医学或法律文本，或是从大量纠错文本(KT)以及由语音识别装置产生的与之相关的识别文本(ET)编译的混淆统计，都针对文本要素进行检查，例如可能相互混淆的词的一部分、词或词序列，并且这种可能相互混淆的文本要素作为该替换词典(23)的数据记录条目中的替换项而被放置在一起。

8.如权利要求7所述的创建替换词典的方法，其特征在于在纠错文本(KT)中相对于语音识别装置转换的原始识别文本(ET)而进行的文本要素的替换被确定并作为替换项被记录在该替换词典的数据记录条目中。

9.如权利要求8所述的创建替换词典的方法，其特征在于对每个文本要素的替换频率进行统计评估，并且只有当超过频率的预定下限值时，才执行作为该替换词典的数据记录条目中的替换项的记录，该频率的预定下限值被表示为替换的绝对数量或是相对于被检查的词的总数的替换比率、或是相对于所给词的总的出现情况的替换比。

10.如权利要求9所述的创建替换词典的方法，其特征在于对每个文本要素的替换频率进行统计评估，并且只有当没有达到频率的预定上限值时，才执行作为该替换词典的数据记录条目中的替换项的记录，该频率的预定上限值被表示为替换的绝对数量或是相对于被检查的词的总数的替换比率。

11.如权利要求8所述的创建替换词典的方法，其特征在于执行对该文本要素替换的声学相似性的分析，并且只有当发现预定的语音相似度时，才执行作为该替换词典的数据记录条目中的替换项的记录。

12.如权利要求8所述的创建替换词典的方法，其特征在于执行对该文本要素替换的时间位置的分析，并且只有当对于在该原始口述文本(GT)中被替换的文本要素来说，具有在时间方面足够接近的相应文本要素时，才执行作为该替换词典的数据记录条目中的替换项的记录。

13.如权利要求7所述的创建替换词典的方法，其特征在于该替换词典的数据记录条目根据语音(14)进行细分。

14.如权利要求7所述的创建替换词典的方法，其特征在于该替换词典的数据记录条目根据技术领域(15)或是应用领域进行细分。

15.如权利要求7所述的创建替换词典的方法，其特征在于该替换词典的数据记录条目根据该原始口述或纠错文本的创建者(16)进行细分。

16.如权利要求7所述的创建替换词典的方法，其特征在于该替换词典(23)在识别文本的纠错期间进行在线改写。