本发明的一个目的是消除上述问题且提供一种与第一段所述一致的改进的语音识别方法和一种与第二段所述一致的改进的计算机程序产品。为了实现这个目的,将依照本发明的特征提供在这样的一个语音识别方法中,以致该语音识别方法的特征是如下文所述的方法。
一种语音识别方法,其具有利用在第二文本信息中识别的四个单词的口述命令对第一文本信息的错误识别的文本信息部分进行编辑的文本编辑方法,该语音识别方法包括下述步骤:
·接受语音信息和对第一文本信息与第二文本信息的识别;
·检查在第二文本信息中的第一位置的单词是否匹配四单词口述
命令的第一口述命令部分,并且检查在第二文本信息中第三位置
或更远位置的单词是否匹配四单词口述命令的第三口述命令部
分,此时如果检查得到肯定的结果,则执行文本编辑方法的下一
步骤;
·检查第一文本信息是否包含有错误识别的文本信息部分,其特征
表现为在第二文本信息中第一口述命令部分和第三口述命令部
分之间的第二口述命令部分,此时如果检查得到肯定的结果,则
执行文本编辑方法的下一步骤;
·用新的文本信息部分替换第一文本信息的错误识别文本信息部
分,其中新的文本信息部分作为四单词口述命令中位于第三口述
命令部分之后的第四口述命令部分包含在第二文本信息中。
作为这个发明目的的实现方案,这样的计算机程序产品具有依照本发明的特有特征,计算机程序产品的特征描述见下文。
计算机程序产品,其可直接装入到数字计算机的内存储器且包括软件代码段,当该产品在计算机上运行时计算机执行如权利要求1所述语音识别方法的步骤。
结果,使用者可通过只说出四个单词的口述命令一次来实现用新的单词替换错误识别的单词。例如,使用者可说出“replace test by text(用text替换test)”来实现用单词“text”替换错误识别的单词“test”。此外,在对错误识别的文本信息进行替换之前,可执行重新计算,按该计算确定具有最大正确识别概率的第一文本信息,同时使用了对第一文本信息识别期间确定的语音分析信息和包含在口述命令中的附加信息。包含在口述命令中的信息还包括发音极其相近的错误识别单词“test”和正确识别单词“text”的发音信息。语音识别方法利用这个附加信息因此而具有对第一文本信息重新计算的非常精确的语音信息的处理方法,其结果是重新计算期间确定的编辑信息非常可靠而能达到使用者期望的替换目的。
在下述情形下其具有很大的优点:口述命令不是针对整个文件,而是仅针对第一文本信息的文本部分,该部分刚好显示在监视器上。当口述命令导致一个错误替换时,可以非常简便地取消掉,例如通过口述命令“undo(取消)”。
已经证实利用权利要求1所述语音识别方法便于提供权利要求2所述的方法。获得的优点是,口述期间使用者可以在纠正错误识别的单词之后立即继续进行口述,而不需要给出用于光标定位的口述命令。
已经证实利用权利要求1所述语音识别方法便于提供权利要求3所述的方法。其优点是,对错误识别的单词进行替换的口述命令,该命令可以非常方便地说出,但仍然包含了替换所需的所有信息。
依照权利要求4中请求的方法,为了识别第二文本信息,为每个口述命令部分确定了多个选项文本信息部分。随后,对于第二文本信息,为每个口述命令部分选定选项文本信息部分,用以获取对第二文本信息正确识别的最大的总概率,以整体识别第二文本信息。当识别一个四单词口述命令时,可能会出现文本信息部分没有包含在第二文本信息中的情况,而其他的选项文本信息部分之一表征显示在监视器上的被错误识别单词。
依照权利要求4的方法获得这样的优点,当包含在第二文本信息中的第二口述命令部分的选项文本信息部分不能在第一文本信息中找到的时候,也将不包含在第二文本信息中的第二口述命令的选项文本信息部分作为错误识别的文本信息部分在第一文本信息中进行检索。这进一步提高了在第一文本信息中找到错误识别文本信息部分的可靠性。
依照权利要求5的方法获得这样的优点,如果在口述命令中作为第四口述命令部分说出来的新的文本信息部分被错误识别了—就象在第一文本信息中的错误识别的文本信息部分一样—则将具有对第二文本信息正确识别的第二大的总概率的并且在第四口述命令单词之后识别的一个选项文本信息部分定义为新的文本信息部分。结果,进一步提高了用新的文本信息部分对识别错误的文本信息部分进行替换的可靠性。
本发明的这些以及其他方面将结合下面所述的实施例来阐述并通过这些实施例变得清楚。
图1显示了连接有麦克风2与监视器3的计算机1。将存储在CD-ROM上的语音识别软件装入到计算机1的主存储器,其软件构成了计算机程序产品。计算机1还包括处理器、硬盘以及用于处理语音识别软件的其它装置,所述其它装置都是现在惯常使用的,因而没有在图1中进一步显示。
当语音识别软件装入到计算机1的主存储器时,计算机1执行具有文本编辑方法的语音识别方法,用以利用四单词口述命令SB对错误识别的文本信息部分TW进行编辑。该具有文本编辑方法的语音识别方法具有图2中显示的流程4中的步骤。
当计算机1的使用者讲话声音进入麦克风2的时候,包含有语音信息SI的模拟麦克风信号MS通过麦克风2进入计算机1。计算机1包括模数转换器5,其可应用于模拟麦克风信号MS。模数转换器5用于将模拟麦克风信号MS转化为数字信号,且用于生成数字声频数据AD,其包含在麦克风信号MS中包含的语音信息SI。
计算机1包括识别装置6、语境存储器7以及语音模型存储器8。在语境存储器7中存储音素信息PI与文本信息部分TTI。音素信息PI包含一系列用于使声音具有特色的音素。当使用者说出作为语音信息SI的存储在语境存储器7中的音素信息PI时,文本信息部分TTI包含由一个或多个待通过语音识别方法识别的单词组成的文本。当执行语音识别方法时,计算机1只可以识别存储在语境存储器7中的单词且将它们生成为文本信息TI。
在语音模型存储器8中存储关于语言中惯用的一串单词的概率信息WI。例如,单词序列“this is a test”的总概率要大于单词序列“this his a test”。
可通过模数转换器5将声频数据AD送给识别装置6。将包含在声频数据AD中的语音信息SI细分为指定其音素信息PI的口述信息部分STI,所述细分发生在识别装置6执行语音识别方法的时候。在语境存储器7中搜索口述信息部分STI的音素信息PI,之后确定指定给这些音素信息PI的文本信息部分TTI且存储在语境存储器7中。
假如搜索的音素信息PI没有在语境存储器7中找到,则将确定存储在语境存储器7中且与搜索的音素信息PI相近的多个音素信息元素PI并且存储指定到这些音素信息元素PI的文本信息部分TTI。将为口述信息部分STI的音素信息PI确定的文本信息部分TTI列入选项表,作为口述命令部分STI的选项文本信息部分ATI。在图4中显示了这样的选项表AT。
在确定选项文本信息部分ATI之后,识别装置6计算存储在语音模型存储器8中的概率信息WI,且确定选项文本信息部分ATI作为具有最大正确识别总概率的识别文本信息TI的排序。
识别装置6使用久为人知的通常称作隐马尔可夫模型来识别指定给接收的语音信息SI的文本信息TI。在本发明中不再进一步讨论对指定给接收的语音信息SI的文本信息TI的识别。
计算机还包括用于存储语音分析信息SAI的语音分析存储装置9,当执行语音识别方法时由识别装置6确定SAI。除了其它信息之外,语音分析信息SAI还包含口述信息部分STI以及相联系的音素信息PI,以及列入选项表AT的选项文本信息部分ATI。本领域专业人员通常将这样的语音分析信息SAI称为“格子”(lattice)。
计算机1还包括替换装置10,通过识别装置6识别的文本信息TI加到其上,文本信息TI的信息形成第一文本信息TI1或第二文本信息TI2。替换装置10用于检查识别的文本信息TI是否具有四单词口述命令结构SB=“REPLACE A WITH B(用B替换A)”(其如图3所示)。四单词口述命令SB提供用于替换被错误识别的单词,将结合图1中所示具体装置的应用实施例对其进行进一步说明。
口述命令SB的第一个单词构成了第一口述命令部分SB1=“REPLACE”,而口述命令SB的第三个或另一个单词构成了第三口述命令部分SB3=“WITH”,其中象这样的第一口述命令部分SB1与第三口述命令部分SB3在口述命令部分SB中起重要作用。在口述命令SB中的第二个单词以及,如有必要的话还有第三个与第四个单词构成了第二口述命令部分SB2,其用字母“A”代表。第二口述命令部分SB2表征在监视器1上显示的第一文本信息TI1中的错误识别的文本信息部分TW。跟随在第三口述命令部分SB3=“WITH”后面的单词构成了第四口述命令部分SB4,其用字母“B”代表。第四口述命令部分SB4表征替换在第一文本信息TI1中的错误识别的文本信息部分TW的新的文本信息部分TN。这个也将结合应用实施例来进行更加详尽地说明。
当替换装置10没有在识别装置6识别的文本信息TI中发现四单词口述命令SB结构的时候,替换装置10用于将该文本信息TI生成为未修改的第一文本信息TI1。相反,当替换装置10在该文本信息TI中发现了四单词口述命令SB结构的时候,替换装置10用于检查在识别的第一文本信息TI1中是否包含错误识别的文本信息部分TF,TF由第二口述命令部分SB2表示。假设这个检查的结果是:口述命令的错误识别的文本信息部分TF作为错误识别的文本信息部分TW包含在第一文本信息TI1中,则替换装置10将检测信息DI送到识别装置6,该检测信息DI表征错误识别的文本信息部分TW在第一文本信息TI1的位置。
当识别装置6接收到检测信息DI时,其执行重算,其中导致对在第一文本信息TI1中最接近错误识别的单词TW的单词的识别的语音分析信息SAI,和导致对第二口述命令部分SB2的单词TF与第四口述命令部分SB4的单词TN的识别的语音分析信息SAI,两者被共同处理。通过这种方式,使用者说了两遍但却在第一文本信息中被错误识别的单词TN的声音信息是可利用的,而且在第一文本信息中错误识别的单词TW的正确发音的声音信息也是可利用的。识别装置6重算的结果是,识别装置6将编辑信息EI送到替换装置10,该信息表征要在第一文本信息TI1中执行的替换。下文中将结合应用实施例对此作进一步说明。
计算机1还包括编辑装置11,其用于处理第一文本信息TI1和送到编辑装置11的编辑信息EI。编辑装置11对第一文本信息TI1进行处理且将这个信息作为待显示的模拟监视器信号DS送到监视器3。编辑装置11在接收到编辑信息EI后用新的文本信息部分TN来替换第一文本信息TI1中错误识别的文本信息部分TW,其中TN表示为第四口述命令部分SB4所表征。下文中将结合应用实施例对此作进一步说明。
计算机1的键盘12可将输入信息II传送给编辑装置11,计算机1的用户可以通过该信息输入文本且对监视器3上显示的第一文本信息TI1进行输入并编辑。编辑装置11具有编辑程序功能,在计算机1上运行,该程序例如可用软件程序“Word for Windows”形成。
在下文中,结合图1中所示计算机1的应用实施例来描述具有文本编辑方法的语音识别方法的优点。依照该应用实施例,假定计算机1的使用者将语音识别程序装入计算机1的主内存中,然后在图2中流程4的块13开始执行语音识别方法。
在块14识别装置6检查计算机1的使用者是否说话而声音进入麦克风2以及语音信息SI是否已经传送到识别装置6。依照该应用实施例,假定使用者开始讲述欧洲专利协定的条款52(1)的文本“Europeanpatents shall be......”话音进入麦克风2,然后相应的语音信息SI通过模数转换器5传送到识别装置6。
随后,识别装置6在接收语音信息SI的块14执行期间进行识别,且在块15执行如上所述的语音识别方法。然后将在识别文本信息TI的同时确定的语音分析信息SAI存储在语音分析存储装置9中。作为执行语音识别方法的结果,识别装置6将下面的文本信息TI传送到替换装置10,此时使用者口述的单词“invention”被错误地识别为单词TW1=“INVASION”,且使用者口述的单词“NEW”被错误地识别为单词TW2=“FEW”。
文本信息TI=“European patents shall be granted for anyinvasion which are susceptible of industrialapplication,which are
few and which involve an inventivestep.The following in particular shall not be regarded asinventions within the meaning of paragraph 1:”。
在块16替换装置10执行文本编辑方法的第一部分,并且接着检查从识别装置6接收的文本信息TI中是否具有四单词口述命令SB结构,以探知识别的文本信息TI是第一文本信息TI1还是第二文本信息TI2。由于识别装置6识别的文本信息TI中不存在单词“REPLACE”或“WITH”,因此替换装置10将分别识别的文本信息TI作为第一文本信息TI1传送到编辑装置11。
然后在块17,编辑装置11将第一文本信息TI1作为监视器信号DS传送到监视器3,如图1所示监视器3显示第一文本信息TI1,之后再次执行流程4中的程序块14。光标C此时位于第一文本信息TI1的最后的符号“:”之后的位置处,表征编辑装置11的下一个输入点位置。
依照该应用实施例,现在假定使用者注意到口述单词“INVENTION”被错误识别了,且第一文本信息TI1包含了错误识别的单词TW1=“INVASION”。然后使用者将希望对该错误识别的单词TW1=“INVASION”进行编辑,且将其替换为新的单词TN=“INVENTION”,识别装置6应当正确地将口述单词识别为TN=“INVENTION”而不是错误识别的单词TW1=“INVASION”。因此,使用者说出口述命令第二文本信息TI2=“REPLACE INVASION WITH INVENTION(用INVENTION替代INVASION)”,声音进入麦克风2(图3)。
在块14执行期间,识别装置6对接收到的语音信号SI进行识别,且在块15执行语音识别方法用于处理接收到的语音信号SI,此时针对这个而确定的语音分析信息SAI存储在语音分析存储装置9中。在块16,对识别装置6识别的文本信息TI进行检查,且探知在识别文本信息TI中包含有四单词口述命令SB结构,其后将该识别文本信息TI存储为第二文本信息TI2。
继而-如图3所示-将包含在第二文本信息TI2中的文本信息部分TTI分配给口述命令部分SB。将文本信息部分TF1=“INVASION”识别为第二口述命令部分SB2,其表示在第一文本信息TI1中的错误文本信息部分TW1=“INVASION”。而且,将文本信息部分TI1=“INVESION”识别为第四口述命令部分SB4,其表示用于替换第一文本信息TI1中错误单词的新的单词。接着,在块18运行文本编辑方法。
在块18,替换装置10检查第二口述命令部分SB2的文本信息部分TF1=“INVASION”是否存在于第一文本信息TI1中。这个检查的结果是,第一文本信息TI1中的第八个单词TW1=“INVASION”匹配第二口述命令部分SB2的文本信息部分TF1=“INVASION”。然后替换装置10将检测信息DI传送到识别装置6,该检测信息DI表征第一文本信息TI1中的第八个单词。
在块19,替换装置10检查包含在口述命令SB中的新的单词IN1=“INVENTION”是否等于错误识别的单词TW1=“INVASION”。这一点将结合图1所示计算机1的第二个应用实施例来作进一步讨论。
当接收到检测信息DI时,识别装置6执行程序块20,其中对口述命令部分STI进行“重算”,假定其已导致对在第一文本信息TI1中邻近第八个单词的单词(“...granted for any
invasion whichare...”)进行识别,且已导致对第二口述命令部分SB2的单词“INVASION”以及第四口述命令部分SB4的单词“INVENSION”进行识别。在这个处理过程中还应该考虑到第一文本信息TI1与第二文本信息TI2的识别期间存储的语音分析信息SAI。
在“重算”期间,识别装置6为更好地进行识别,让一些信息作为附加信息可利用,这些是,应当已经识别到了对第一文本信息TI1中第八个单词的正确单词“INVENTION”,以及使用者在第二口述命令部分SB2中就象他曾经的发音一样对错误识别的单词进行发音。由于这个“重算”利用了附加信息,因此随之进行的替换具有高度可靠性。此外,这些附加信息可用于对存储在语境存储器7中的音素信息PI与文本信息部分TTI、以及存储在语音模型存储器8中的概率信息WI作适应修改。
“重算”的结果是,识别装置6将编辑信息EI传送到替换装置10,其中替换装置10表示当前正确识别的新的单词“INVENTION”和作为替换位置的在第一文本信息TI1中第八个单词的位置。作为这个“重算”的结果还有,可以确定这样的编辑信息EI,关于对此时由第二口述命令部分SB2表示的围绕在单词“invention”周围的单词进行替换。这是基于如下情况,根据概率信息WI的估算,假如对在第一文本信息TI1中围绕在新的单词周围的那些单词进行改变,会使得对第一文本信息TI1正确识别的总概率变大。
为了结束程序块20的执行,识别装置6将在重算期间非常可靠识别的文本信息部分TN=“INVENTION”、以及适当的围绕在第八个单词周围的单词的改变的文本信息部分作为编辑信息EI传送给替换装置10。替换装置10将识别装置6确定的编辑信息EI传送给编辑装置11,之后继续执行文本编辑方法进行到程序块21。
在程序块21,编辑装置11将光标C定位到第一文本信息TI1中第八个单词TW1=“INVASION”,之后继续执行文本编辑方法进行到程序块22。在程序块22,用新的单词TN1=“INVENTION”替换第八个单词TW1=“INVASION”。在随后执行的程序块23,光标C回到初始位置,即第一文本信息TI1中最后一个符号“:”后面的位置。
这样做的优点是,只通过一个口述命令SB就实现了用新的单词TN1=“INVENTION”对错误识别的单词TW1=“INVASION”的替换,识别装置6实际上识别认可了新的单词TN1而不是错误识别的单词TW1。另外的优点是,光标C在错误识别的单词被替换之后,立即回复到第一文本信息TI1中的适当位置,以继续对欧洲专利协定专利法第52条的口述。
这里存在一个极大的优点是,来自在重算期间为确定正确替换识别错误单词的信息使用效率很高。
在下面,将参照计算机1的第二个应用实施例来说明计算机1进一步的优点。依照第二个应用实施例,假定计算机1的使用者想要用此处实际口述的单词“NEW”替换第一文本信息TI1中的错误识别单词TW2=“FEW”。为了实现这个目的,使用者说出口述命令SB=“REPLACEFEW WITH NEW(用NEW替换FEW)”而话音进入麦克风2,之后流程4继续进行到程序块15。
在程序块15执行语音识别方法,识别装置6为每个口述命令部分STI确定了多个选项文本信息部分AT1且放入选项表AT,如图4所示。对于第二口述命令部分ST2,单词TF2=“SUE”作为第一选项文本信息部分AT1输入选项表AT,而单词TF3=“FEW”仅作为第二选项文本信息部分AT2输入选项表AT。对于第三口述命令部分ST3,单词“BY”作为第一选项文本信息部分AT1输入选项表AT,而单词“LIE”作为第二选项文本信息部分AT2输入选项表AT。最后,口述命令中口述的单词“NEW”被错误识别了,且对于第四口述命令部分ST4单词TN2=“FEW”作为第一选项文本信息部分AT1输入选项表AT。单词TN3=“NEW”仅作为第二选项文本信息部分AT2输入选项表AT,而单词“HUGH”作为第三选项文本信息部分AT3输入选项表AT。
由于当使用者说出口述命令SB时他对单词“FEW”的发音不清楚,识别装置6认定对第二口述命令部分STI而言单词“SUE”具有比单词“FEW”要大的正确识别概率。对于使用者发音的单词“NEW”的识别,语音识别方法在识别第一文本信息TI1期间已经存在了问题,因此单词“FEW”也被认定具有较大的正确识别概率。因此,假定选项文本信息部分“REPLACE SUE BY FEW(用FEW替换SUE)”是第二文本信息TI2中的最可几变体,且识别装置6将其作为识别文本信息TI传送到替换装置10。
当执行程序块16时,替换装置10检测到包含四单词口述命令SB的结构,之后流程4继续进行到程序块18。当执行程序块18时,替换装置10检查作为第二口述命令SB2包含在第二文本信息TI2中的单词TF2=“SUE”是否包含在第一文本信息TI1中。这个检查表明单词TF2=“SUE”没有出现在第一文本信息TI1中,则继续执行文本编辑方法到程序块24。
当执行程序块24时,替换装置10读存储在语音分析存储装置9中的选项表AT且检查为第二口述命令部分STI2存储的选项文本信息部分ATI是否包含在第一文本信息TI1中。作为该检查的结果,替换装置10检测第二选项文本信息部分ATI2-从而单词TF3=“FEW”-是包含在第一文本信息TI1中的第十七个单词。
其优点是,即使当第二口述命令部分SB2由于口述命令SB的不清楚发音而被错误识别了的时候,使用者所想要替换的单词也会得到正确替换。在执行程序块24之后,执行程序块19。
在程序块19,替换装置10检查包含在口述命令SB中的新的单词TN2=“FEW”是否等于错误识别的单词TW2=“FEW”。检查的结果是两个单词相同,因此继续执行文本编辑方法从而进入程序块25。
在程序块25,替换装置10将第二最可几选项文本信息部分AT2=“FEW”而不是最大可能的选项文本信息部分AT1=“FEW”确定为新的单词。随后,如前所述,执行程序块20至23且用单词TN3=“NEW”替换在第一文本信息TI1中的单词TW2=“FEW”。
其优点是,假如在第一文本信息TI1中已经被错误识别的单词在口述命令SB中也被错误识别了,执行计算机1的使用者所希望的替换的可能性仍然很大。如果利用扩展的四单词口述命令进行的这样的一个替换没能得到使用者所希望的结果,则可以一种非常简便的方式说出口述命令“UNDO”取消最后一次替换。
人们可能已经觉察到了,在流程4中的程序块14、15与17对应语音识别方法,而程序块16以及18至25对应着文本编辑方法。
人们可能还已经觉察到了,四单词口述命令的每一部分都包含着一个或多个单词。而且,当说出四个单词的口述命令时第三口述命令部分也可以用一个停顿构成。在那种情况下,依照第一应用实施例,使用者将发声说出四个单词的口述命令“REPLACE INVASION”停顿“INVENTION”。在那种情况下,四个单词的口述命令特征在于:在第二文本信息部分TI2中的第一位置的单词和在第二文本信息部分TI2中的第二个或更远的单词之后由识别装置识别出的停顿。