CN1460246A

CN1460246A - 在同步回放的过程中文本编辑所识别的语音

Info

Publication number: CN1460246A
Application number: CN02800947A
Authority: CN
Inventors: D·霍伊
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-03-29
Filing date: 2002-03-19
Publication date: 2003-12-03
Anticipated expiration: 2022-03-19
Also published as: JP4463861B2; EP1374224A1; CN1215458C; JP2008217032A; EP1374224B1; DE60209103T2; ATE317583T1; US6999933B2; WO2002080144A1; US20020143534A1; JP4173371B2; DE60209103D1; JP2004529381A

Abstract

一种语音识别装置(1)处理口述语音数据(SD)，由此建立口述的所识别的文本信息(ETI)和链接信息(LI)。在语音识别设备(1)的同步回放模式中，在口述的声音回放的过程中，校正装置(10)同步地标记所识别的文本信息(ETI)的字，该字与刚刚回放的并通过链接信息(LI)标记的语音数据(SD)相关。在同步回放模式激活的同时，校正设备(10)允许校正所识别的文本信息(ETI)的不正确的字，因此能够节省校正不正确的字的时间。

Description

在同步回放的过程中文本编辑所识别的语音

本发明涉及一种校正在通过语音识别设备从语音信息中识别的文本信息中的不正确的字的校正设备。

本发明也涉及一种校正在通过语音识别设备从语音信息中识别的文本信息中的不正确的字的校正方法。

本发明进一步涉及用于从所接收的语音信息中识别文本信息的语音识别设备。

本发明也涉及由计算机执行的字处理软件的校正软件的计算机程序产品。

在US-A-6,173,259中公开了这种校正设备和这种校正方法，并且它们都是以转录服务机构的校对员的计算机执行的字处理软件的形式。校对员是手动校正以语音识别程序自动识别的文本信息的转录服务人员。

口述作者可以通过计算机网络将语音信息从他的口述发送到公知的转录服务的服务器。服务器将所接收的口述语音信息发布给不同的计算机，每个计算机执行语音识别软件，并且在这种情况下它构成了语音识别设备。

公知的语音识别设备从作者发送给它的口述的语音信息中识别文本信息，并且还可以建立链接信息。对于所识别的文本信息的每个字，链接信息标记由语音识别设备所识别的语音信息部分。口述的语音信息、所识别的文本信息和链接信息从语音识别设备传输到校对员的计算机中以校正在所识别的文本信息中的不正确的字。

公知的校正设备包含同步回放装置，应用这种回放装置可以进行同步回放模式。在校正装置中在启动同步回放时，口述的语音信息回放，同时与在声音上回放语音信息的每个字同步，应用声音光标标记由语音识别系统从回放的字中所识别的字。由此声音光标标记了在所识别的文本信息中已经在声音上回放了的字的位置。

如果在同步回放的过程中校对员识别到在文本信息中的不正确的字，然后他分别中断或停止同步回放模式，通过计算机键盘将文字光标设置在不正确的字上并编辑它。然后它重新启动同步回放模式，这样从正确的字继续超前回放语音信息。

转录服务的提供商根据校对员在文本信息中校正的字数给校对员付费。在转录服务机构中的质量控制器以校对员所校正的文本信息作为样本，校对员漏看的不正确的字也影响校对员的报酬。因此，校对员非常关心字处理软件，在启动同步反馈模式时该软件能够使他以最少的时间和最少的手工劳动校正他所识别的不正确的字。因此校对员寻求以计算机的键盘输入校正不正确的字所需的所有的编辑信息，而不使用鼠标输入，因为使用鼠标输入费时。

已经证明公知的校正设备和校正方法具有的缺陷是，对于在同步回放模式启动时校正校对员所识别的不正确的字，校对员需要进行相对大量的手动活动，因此对于校对员来说，这些校正比较费时。

本发明的一个目的是提供根据第一段所述的类型的校正设备、根据第二段所述的类型的校正方法、根据第三段所述类型的语音识别设备和根据第四段所述类型的计算机程序产品，他们都能够克服上述缺陷。

为了实现上述的目的，根据本发明提供这样的校正设备，该校正设备的特征如下。

校正在通过语音识别设备从语音信息中识别的文本信息中的不正确的字的校正设备包括接收装置，接收语音信息、相关的识别的文本信息和链接信息，其在所识别的文本信息的每个字上标记通过该语音识别设备识别了字的语音信息部分；和包括编辑装置，该编辑装置将文字光标设置在所识别的文本信息的不正确的字上并根据用户输入的编辑信息编辑该不正确的字，以及包括同步回放装置以允许同步回放模式，在这种同步回放模式中，在语音信息的声音回放的过程中同步地标记刚刚回放并由链接信息所标记的所识别的文本信息的字，同时刚刚标记的字作为声音光标的位置的特征，并且该编辑装置被设计成对文字光标进行定位并在该校正设备中在同步回放模式激活时编辑不正确的字。

为实现上述目的，根据本发明提供这样的校正方法，该校正方法的特征如下。

校正在通过语音识别设备从语音信息中识别的文本信息中的不正确的字的校正方法，在该方法中执行如下的步骤：

-接收语音信息、相关的识别的文本信息和链接信息，对于所所识别的文本信息的每个字该链接信息标记语音识别设备识别了字的语音信息部分；

-允许同步回放模式，在该模式中，在语音信息的声音回放的过程中，同步标记所识别的文本信息的字，该字通过刚刚回放的语音信息的链接信息标记，而同时刚刚标记的字作为声音光标的位置特征；

-根据通过用户输入的编辑信息应用文本光标编辑不正确的字，在校对设备中在同步回放模式启动的同时可以编辑不正确的字。

为了实现上述的目的，根据本发明提供这样的语音识别设备，该语音识别设备的特征如下。

从所接收的语音信息中识别文本信息的语音识别设备包括接收语音信息的接收装置和包括语音识别装置，该语音识别装置识别文本信息和指定给所接收的语音信息的链接信息，而同时每个所识别的文本信息的字的链接信息标记语音识别设备识别了字的语音信息的部分，并且包括如在权利要求1中所请求保护的校正设备以校正包含在所识别的文本信息中的不正确的字。

为了实现上述的目的，根据本发明提供这样的计算机程序产品，该计算机程序产品的特征如下。

该计算机程序可以直接装入到数字计算机的内部存储器中，并且包括软件代码段，如果该产品在计算机上运行则该计算机执行上述的校正方法的步骤。

根据本发明，在校正设备中的同步回放模式启动时，由此在语音信息的连续声音回放的过程中，用户能够输入编辑信息，以便将文本光标开始定位在所识别的文本信息中的不正确的字的位置上，然后校正该错误。由于在编辑不正确的字的过程中，同步回放模式继续，因此即使在编辑的过程中熟练的校对员也能够继续搜索在所识别的文本信息中的不正确的字，因此节省了许多时间。

特定的优点在于，省去了同步回放模式的手动停止和在编辑之后同步回放模式的手动启动，而这节省了更多的时间。

由于带有激活的同步回放模式的校正设备的用户通常检查通过带有声音光标的同步回放模式已经标记的字的正确性，因此他每次识别在声音光标的当前位置附近的所标识的文本信息中的不正确的字。而这时，文本光标通常位于在完全不同的位置，即在文本信息中在校正了的最后不正确的字的位置。

根据权利要求2和权利要求9，例如用户通过操作在键盘的键可以实现如下的优点，即他能够使文字光标和声音光标同步，因此，在文字光标设置在同步回放的过程中所标记的最后位置上。由于要校正的不正确的字通常位于在根据本发明定位的文字光标的附近，因此随后的不正确的字的校正非常省力、省时。

根据本发明，在同步回放模式激活时，文本光标也连续地且自动地与声音光标同步。这样，比较有利的是，可以完全省去用于文字光标定位的键盘的键操作。根据应用的不同，比较有利的是，还可以使声音光标与文字光标同步，因此将声音光标定位在文字光标的位置上。

根据权利要求3、4和10的措施，已经证明，在识别不正确的字时，如果用户仅需要按下右箭头键来使在所识别的文本信息中的声音光标之前设置的文字光标与声音光标同步化，则具有比较有利。在这种实例中，仅需要按下左箭头键就可以使声音光标与文字光标同步，由此将声音光标定位在文字光标的位置上。左箭头键和右箭头键的这种动态指定非常受用户的欢迎。

根据权利要求5和11的措施，已经证明比较有利的是，文本光标自动定位在所识别的文本信息中的声音光标的位置的N个字之前，由于因为用户的反应时间的缘故，不正确的字通常发现在在所识别的文本信息中的声音光标的N个字之前。

根据权利要求6和12的措施，已经证明，如果用户能够根据他的正常反应时间调整数量N则比较有利。

根据权利要求7的措施，已经证明，在同步回放模式激活直到用户将它们断开以编辑不正确的字时，如果自动地使光标同步，则比较有利。这样有利地实现了校正不正确字的特别简单的操作。

下文参考在附图中所示的实施例描述本发明，但这些并不构成对本发明的限制。

附图1所示为具有校正在通过语音识别设备已经识别的文本中的不正确的字的校正设备的语音识别设备。

附图2所示为处理口述的方法，同时也执行校正在由语音识别设备所识别的文本中的不正确的字的校正方法。

附图1所示为语音识别设备1，该语音识别设备1包括计算机，该计算机执行语音识别软件和文本处理软件。语音识别设备1具有麦克风2、键盘3、脚踏开关4、扬声器5和连接到它的屏幕6。

语音识别设备1的用户可以对着麦克风1口述，在这里将包含了口述的语音信息的语音信号SS传输到语音识别设备1。语音识别设备1包含对语音信号SS进行数字化的A/D转换器7，由此A/D转换器7将数字语音数据SD传送到语音识别装置8。

语音识别装置8被设计成将所指定的文本信息识别为所接收的语音数据SD，在下文中将其称为所识别的文本信息ETI。进一步将语音识别装置8设计成建立这样的一种链接，对于所识别的文本ETI的每个字该链接信息标记由语音识别装置8已经识别的字的语音数据SD的部分。例如在文献US-A-5,031,113中公开了这种语音识别装置8，以引用参考的方式将该文献所公开的内容都包括本说明书中。

语音识别设备1还具有存储装置9，应用存储装置9存储由语音识别装置8所传送的语音数据SD以及所识别的文本信息ETI和口述的链接信息LI。由于识别要指定给口述的语音信息的所识别的文本信息ETI的语音识别方法比如上文所描述的方法早已公知，因此在此不详细描述。

语音识别设备1还具有校正所识别的文本信息ETI的不正确的字的校正设备10。校正设备10包括执行文本编辑软件的计算机，该文本编辑软件包含特定的校正软件。校正软件10包含编辑装置11和同步回放装置12。

编辑装置11被设计成将文字光标TC定位在所识别的文本信息ETI的不正确的字上并根据用户输入的编辑信息EI编辑不正确的字。在这种情况下用户通过公知的方式应用键盘3的键输入编辑信息EI。

同步回放装置12允许语音识别设备1的同步回放模式，在这种模式中通过与刚刚回放的语音信息相关的链接信息LI标记的所识别的文本信息ETI的字在口述的语音信息的声音回放的过程中被同步地标记。在文献US-A-5,031,113中也公开了这种同步回放模式，因为这种同步回放模式能够有效地校正不正确的字，因此语音识别设备的用户非常喜欢使用它。

在语音识别设备1中在带有从所识别的文本信息ETI中逐字地改变的声音光标AC的同步回放模式激活时，精确地标记在声音上回放的每个字。例如，通过使在光标所在位置上所示的字符反向或加下划线来显示光标，还有许多其它公知的显示光标的方法。

从在监视器6中所示的文本信息TI中可以看到，在同步回放模式激活时，文字光标TC和声音光标AC都可见，文字光标TC大多数标记一个字符，而声音光标AC总是标记整个字。在同步回放模式激活时，文字光标TC在所显示的文本信息TI的位置上保持静止，在该位置上最近使用编辑装置校正过不正确的字，而声音光标AC则逐字地改变。

在同步回放模式激活时，存储在存储装置9中的口述声音数据AD可以通过同步回放装置12读出并连续地传送到D/A转换器13。然后D/A转换器13将包含了口述的语音信号SS的语音信息SI传送给口述的声音回放的扬声器5。

为启动同步回放模式，语音识别设备1的用户能够将他的脚踏在脚踏开关4的两个开关中的一个开关上，由此将控制信息SI传送到同步回放装置12。然后，除了口述的语音数据SD之外，同步回放装置12还读取在存储媒体9中为口述而存储的链接信息LI。

在同步回放模式激活时，同步回放装置12被设计成产生声音光标信息ACI并将其传送到编辑装置11。在每种情况下声音光标信息ACI标记刚刚在声音上回放的字以及声音光标AC应该显示在所显示的文本信息TI中的位置。

紧接着在启动同步回放模式之后，编辑装置11被设计成从存储装置9中读出所识别的文本信息ETI并将其临时存储为要显示的文本信息TI。这种要显示的临时存储的文本信息TI对应于当前所识别的文本信息ETI，用户通过校正不正确的字来校正它，以便最终实现无错误的文本信息。

临时存储在编辑装置11中的文本信息TI从编辑装置11传送到图像处理装置14中。图像处理装置14处理要显示的文本信息TI并将合适的显示信息DI传输给监视器6，该显示信息DI包含了要显示的文本信息TI。编辑装置11也将文本光标信息TCI传输给图像处理装置14，该文本光标信息TCI标记在所显示的文本信息TI中的文字光标TC的位置。在同步回放模式激活时，编辑装置11也将用于显示声音光标AC的声音光标信息ACI传输给图像处理装置14。

校正装置10的编辑装置11也包含用于使文字光标TC与声音光标AC或声音光标AC与文本光标TC同步的光标同步装置15。这样，可以相当容易地实现对用于校正所识别的不正确的字的文字光标TC进行定位。在下文中详细描述使用语音识别设备1的实例。

现在还将编辑装置11设计成，在校正装置10中在同步回放模式激活时，对文字光标TC进行定位并编辑用户识别为不正确的字。这样，对校对熟练的用户能够校正不正确的字，而不必首先停止同步回放模式然后在校正之后再重新启动它，因此，用户能够极大地节省时间。在下文中语音识别设备1的应用实例中提供了关于这一点的进一步的细节。

现在使用附图2的流程图6解释语音识别设备1的应用的实例。根据该应实例，假设一位博士正试验他的新的语音识别设备，他对着麦克风2说“THIS IS A TAXT THAT...ERRORS WITHIN THIS TEXT HAVETO THE CORRECTED WITH A TEXT EDITOR”，这之后，在方块17中，将口述的数字语音数据SD传输到语音识别装置8。在方块18中语音识别装置8识别相关的所识别的文本信息ETI和链接信息LI，并在方块19中将它存储在存储装置9中。由于该博士口述的某些字的发音不清楚，语音识别装置8将字“IS”识别为字“MISS”，而将字“TEXT”识别为字“PEST”。

在后面(在方块20中)，为了校正所识别的文本信息的不正确的字，该博士的秘书启动了语音识别设备1的同步回放模式。然后编辑装置11读取所识别的文本信息ETI，同步回放装置12来自存储装置9的口授的语音数据SD和链接信息LI。然后应用监视器6显示文本信息TI，并开始口述的声音回放，这里以字“THIS”作为开始的声音光标AC一个字一个地标记口授的字。

秘书直接将字“MISS”识别为不正确的字并通过键盘3输入相应的输入信息EI来校正它。在校正了字“MISS”之后，文字光标TC仍然保持定位在字“IS”的字符“I”的位置上，而声音光标AC继续一个字一个字地标记文本信息TI。在声音光标AC标记了字“PEST”的点上，秘书识别-在方块21中-这个字为不正确的字并-在方块22中-按下键盘的“Alt+右箭头”组合键。结果，将同步信息SIY传输给编辑装置11，文字光标TC与声音光标AC同步。结果，文字光标TC定位在不正确的字“PEST”的第一个字母“P”上，秘书-在方块23中-可以立即开始校正不正确的字。

这种方式的优点在于秘书不必为了将文字光标TC定位在不正确的字的位置上而进行箭头键的多次键操作，因为这种操作是非常费时。同样地，为了定位文字光标TC，秘书不必使用在附图1中所示的非常费时的计算机鼠标。

在校正不正确的字“PEST”的过程中，同步回放模式仍然保持激活，因为在校正这个字的过程中秘书已经足够有经验来跟踪这次口述的最终的字的连续同步回放。仅仅在口述结束时-在方块24中-秘书通过操作脚踏开关4的第二开关停止同步回放模式。流程图16的方块19至24描述了在这种情况下的校正程序。

由于秘书也能够在同步回放模式激活时校正不正确的字“MISS”和“PEST”，因此她就不用多次操作脚踏开关，并且她能够相当迅速地完成她的工作，这非常有利。

可以看到，通过按下组合键“ALT+右箭头”，相对于其它的光标定位在更靠近文本信息TI的开始的任何光标都将与其它的光标同步。此外，通过按下组合键“ALT+左箭头”，相对于其它的光标定位在更靠近文本信息TI的结尾的光标将与其它的光标同步。

已经证明键组合的功能的这种动态分配非常受用户的欢迎。显然，例如，不使用“Alt键，也可以使用“Ctrl”键或“Alt Gr”键用于键组合。此外，在激活的同步回放模式中，还可以省去键组合，而仅仅使用“左箭头”键和“右箭头”键进行动态分配。

可以看到，还可以通过操作脚踏开关或计算机鼠标使光标同步。同样地，还可以使文字光标TC连续且自动地与声音光标AC同步，因此，在输入编辑信息EI时，声音光标AC的当前位置将也与文字光标TC的位置相同。

可以看到，根据应用的不同，比较有利的是，还使声音光标AC和文字光标TC同步化，因此，声音光标AC可以定位在文字光标TC的位置上。然后，从文字光标的位置继续口述的同步回放，因此很容易地重复口述的回放部分。

可以看到，在同步之后的两个光标都不必定位在相同的位置上。因此，例如，任一光标可以定位在其它光标的数量为N＝3个字之前。通过这样，在识别不正确的字时用户可以考虑他的反应时间，因此，在同步化之后，文本光标TC分别设置在声音光标AC的3个字之前。反应快的用户可以选择N＝1，而反应慢的用户可以选择N＝10，因此在同步化之后，文本光标TC总是实际已经设置在不正确的字上，这非常有利。

此外，在同步回放模式中文本光标TC与声频光标AC移动N个字关联，可以连续地显示文字光标TC，因此在识别不正确的字之后通常反应慢的用户仍然有将文本光标TC直接定位在不正确的字上所需的时间一样长的时间来输入编辑信息EI。这也就能够非常有效地校正不正确的字。

可以看到的是根据本发明的校正设备对这样的用户特别有利，这些用户将他们的工作的大部分时间花费在校对文本信息ETI上并且因此非常熟练这些。这些用户尤其在转录服务机构作为所谓的校对员雇用，例如在文献US-A-6,173,259中所描述，以引用参考的方式将该文献所公开的内容都包括本说明书中。

顺便指出，根据本发明的校正设备大部分都是文字编辑程序的一部分，但并不必须是这样。

Claims

1.一种校正设备(10)，该校正设备校正在通过语音识别设备(1)从语音信息(SD)中识别的文本信息(ETI)中的不正确的字，包括接收语音信息(SD)、相关的识别的文本信息(ETI)和链接信息(LI)的接收装置，在所识别的文本信息(ETI)的每个字上该链接信息(LI)标记通过该语音识别设备(1)识别了字的语音信息(SD)的部分，和包括编辑装置(11)，该编辑装置(11)将文字光标(TC)设置在所识别的文本信息(ETI)的不正确的字上并根据用户输入的编辑信息(EI)编辑该不正确的字，以及包括同步回放装置(12)以允许同步回放模式，在这种同步回放模式中，在语音信息(SD)的声音回放的过程中同步地标记刚刚回放的并由链接信息(LI)所标记的所识别的文本信息(ETI)的字，同时刚刚标记的字作为声音光标(AC)的位置的特征，并且该编辑装置(11)被设计成对文字光标(TC)进行定位并在该校正设备(1)中在同步回放模式激活时编辑不正确的字。

2.如权利要求1所述的校正装置(10)，其中包括光标同步装置(15)以使文本光标(TC)与声音光标(AC)或声音光标(AC)与文本光标(TC)同步。

3.如权利要求1所述的校正装置(10)，其中光标同步装置(15)包括键盘(3)，并且通过手动操作至少一个键可以使光标(AT，TC)同步。

4.如权利要求3所述的校正装置(10)，其中至少一个键包括“右箭头”键和“左箭头”键，以及其中在操作“右箭头”键时光标(AC，TC)相对于其它的光标(TC，AC)更接近所识别的文本信息(ETI)的开始，可以使该光标(AC，TC)与这个其它的光标(TC，AC)同步，以及其中光标(AC，TC)相对于其它的光标(TC，AC)更接近所识别的文本信息(ETI)的结尾，可以使该光标(AC，TC)与这个其它的光标(TC，AC)同步。

5.如权利要求1所述的校正装置(10)，其中在同步回放模式激活时光标同步装置(15)将在所识别的文本信息(ETI)中的文本光标(TC)定位在声音光标(AC)的预定数量的N个字之前。

6.如权利要求5所述的校正装置(10)，其中根据用户信息(EI)设定预定字数N。

7.如权利要求2所述的校正装置(10)，其中在同步回放模式激活时光标同步装置(15)连续地自动地使光标(AC，TC)同步，以及其中为编辑不正确的字通过至少一个键的手动操作将文本光标(TC)与声音光标(AC)断开，直到通过至少一个键的进一步激励使文本光标(TC)重新与声音光标(AC)同步。

8.一种校正在通过语音识别设备(1)从语音信息(SD)中识别的文本信息(ETI)中的不正确的字的校正方法(16)，在该方法中执行如下的步骤：

-接收语音信息(SD)、相关的识别的文本信息(ETI)和链接信息(LI)，对于所所识别的文本信息(ETI)的每个字该链接信息(LI)标记语音识别设备(1)识别了字的语音信息(SD)部分；

-允许同步回放模式，在该模式中，在语音信息(SD)的声音回放的过程中，同步标记所识别的文本信息(ETI)的字，通过刚刚回放的语音信息(SD)的链接信息(LI)标记该字，而同时刚刚标记的字作为声音光标(AC)的位置特征；

-根据由用户输入的编辑信息(EI)应用文本光标(TC)编辑不正确的字，在校对设备(10)中在同步回放模式激活时可以编辑不正确的字。

9.如权利要求8所述的校正方法(16)，其中根据所输入的编辑信息(EI)使文本光标(TC)与声音光标(AC)同步或者使声音光标(AC)与文本光标(TC)同步。

10.如权利要求8所述的校正方法(16)，其中通过手动激励至少一个键可以使光标(AT，TC)同步。

11.如权利要求8所述的校正方法(16)，其中在所识别的文本信息(ETI)中文本光标(TC)定位在声音光标(AC)的预定数量的N个字之前。

12.如权利要求8所述的校正方法(16)，其中根据用户信息(EI)设定预定字数N。

13.一种用于识别在所接收的语音信息(SD)中识别文本信息(ET I)的语音识别设备(1)，该语音识别设备包括接收语音信息(SD)的接收装置和包括语音识别装置(8)，该语音识别装置(8)识别所识别的文本信息(ETI)和指定给所接收的语音信息(SD)的链接信息(LI)，其中对于所识别的文本信息(ETI)的每个字链接信息(LI)作为通过语音识别装置(8)识别了字的语音信息(SD)的部分的特征，并且包括如在权利要求1中所述的校正设备(10)以校正包含在所识别的文本信息(ETI)中的不正确的字。

14.一种计算机程序产品，该程序产品直接装入在数字计算机的内部存储器中，并且该程序产品包括软件代码部分，同时如果该产品在计算机上执行则应用该计算机执行如在权利要求8中所述的校正方法(16)的步骤。

15.如在权利要求14中所述的计算机程序产品，其中它存储在计算机可读媒体上。