CN100539649C

CN100539649C - 用于校正字幕的字幕校正设备和方法

Info

Publication number: CN100539649C
Application number: CNB2007100881288A
Authority: CN
Inventors: 宫本晃太郎; 荒川健一; 大钟俊也
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2006-03-24
Filing date: 2007-03-15
Publication date: 2009-09-09
Anticipated expiration: 2027-03-15
Also published as: JP4158937B2; JP2007256714A; CN101094330A; US7729917B2; US20080040111A1

Abstract

公开了用于校正字幕的字幕校正设备和方法。解决了人工为演示报告等等提供实时字幕成本高以及只使用自动语音识别时不能获得所需要的识别率，因此不能正确转换的问题。本发明的设备获得了语音识别结果的字符串和其置信因子。时间监视器对时间进行监视，并通过检查置信因子和时间状态判断是否延迟处理。当不延迟处理时，要求检查员进行人工判断，即根据处理的语音，对语音进行处理并对语音识别结果进行人工判断。当延迟处理时，通过使用所述置信因子进行自动判断。当字符串作为人工判断或自动判断的结果被判断为正确时，字符串作为已确认的字符串显示出来。当判断字符串不正确时，根据通过语音识别获得的下一候选、演示报告的文本和属性、脚本文本等等，通过匹配执行自动校正。自动校正之后的字符串被显示为未确认的字符串。

Description

用于校正字幕的字幕校正设备和方法

技术领域

本发明涉及字幕校正设备。具体来说，本发明涉及用于实时校正演示报告等等的语音识别结果的字幕的设备、方法、程序等等。

背景技术

近年来，积极地鼓励为通过语音传输的信息提供字幕，以便保障有听觉障碍的人、年长者等等获取该信息。还可以想象，为演示报告等等中的语音提供字幕的需求也很强烈。作为提供这样的字幕的传统的方法，可以引用下面两个典型的方法。

<重说>

重说是这样的方法：发言者在收听语音时对着语音识别系统重说由实际发言者发出的语音。由于中间的重说者经过专门培训，他/她甚至可以在非常困难的情况下以较高的识别率重说语音。

<速记>

速记是这样的方法，一般而言，几个人轮流输入由发言者提供的内容，同时概括该内容。

然而，可以想像，由于其单位时间内的成本高，这样的人工提供字幕过程不太可能普及。因此，人们提出了通过使用语音识别技术实时创建字幕的许多方法。例如，专利文件1说明了通过语音识别并使用在制作电视节目时的判断最佳假设的方法来创建字幕的技术。此外，专利文件2还说明了通过2遍(2-pass)处理改善语音识别率的技术。另一方面，还说明了用于支持由检查员(审查员)人工地执行的检查和校正语音识别结果的操作的技术，而不只依赖语音识别(例如，专利文件3到5)。

[专利文件1]

日本专利官方公开出版公报No.Hei6(1994)-141240

[专利文件2]

日本专利官方公开出版公报No.2001-092496

[专利文件3]

日本专利官方公开出版公报No.2003-316384

[专利文件4]

日本专利官方公开出版公报No.2004-151614

[专利文件5]

日本专利官方公开出版公报No.2005-258198

发明内容

[本发明解决的问题]

一般而言，在语音识别中，在现实中不一定能获得所需要的识别率。例如，根据来自某一演示实验领域的信息，对于实时字幕，至少需要85％的识别率，更好的是90％。只通过语音识别就可以实现85％的识别率。然而，在现实中，识别率严重依赖于各种条件。因此，在很多情况下不能取得足够的识别率是不争的事实。

例如，下面显示了某一演示实验的结果。平均识别率是81.8％(范围：73.4％到89.2％。)此外，识别率超过85％的概率是27％，而识别率超过90％的概率是0％。

此外，除了与识别率关联的问题之外，还有许多有问题的情况，如下所示。发言者发出的语音中包括的单词被语音识别以同样的方式错误地转换为不是发言者想要的有差别的表达、引起争议的表达等等。例如，意思为“实体”的″JI-TTAI″被错误地转换为含义为“自己的尸体”的″JI-I-TAI″。然后，那些表达没有经过校正被作为字幕显示出来，从而产生问题。

此外，对于语音识别，处理专有名称也非常重要。因此，许多系统具有词典注册功能。然而，有这样的情况，当注册了好几个单词时，单词具有相同的声音，但是，以彼此不同的汉字书写。在此情况下，常常难以判断想要哪一个单词，然后执行了不正确的转换。例如，对于名字“Yasuko”，多个候选被注册为具有相同发音的不同专有名称，与具有相同发音但具有不同拼写的“Brown”和“Browne”的情况相同。类似地，可以肯定地为这样的系统提供用于注册和设置诸如数值之类的形式的功能。然而，注册是以单一一致的方式进行的。相应地，在自由发言的情况下，没有办法逐个单词地检查哪一个形式是发言者想要的。

专利文件1和2中所描述的方法只取决于语音识别结果，没有包括由人进行检查的方法，校正不正确的识别的方法等等。相应地，可以想像，这些方法在处理不是发言者想要的引起争议的表达和有差别的表达时的效率不是那么好。

此外，专利文件3说明了下列方法。具体来说，当发言者发出语音时，语音被转换为文本。检查员判断转换过来的文本中包括的每一个单词是否不正确。此后，当判断一个单词不正确时，将该判断呈现给发言者。然后，促使发言者一次又一次地重复语音，直到语音被正确地写出。然而，此方法给发言者带来了负担。此外，从技术的角度来看，不管没有正确地写出的单词重复了多少次，那些单词最后也不一定被正确地写出。因此，发言者的负担增大，从而涉及实时特征的问题仍存在。

此外，在如专利文件4所描述的方法中，可以想像，由于检查和校正都是人工地进行的，涉及实时特征和成本的问题仍存在。

同时，专利文件5的方法说明了用于与语音的再现同步地设置显示语音的预先确定的内容的时间的设备。然而，没有说明获得实时字幕显示的方法。

如上文所描述的，在产生和校正实时字幕时会有许多问题。本发明要解决的问题如下。

具体来说，本发明解决的第一个问题涉及实时特征。作为此问题的解决方案，本发明提供了一种字幕显示系统，该系统可以实时(换句话说，在最大允许延迟时间内)显示通过将语音转换为字符生成的字幕。此外，本发明解决的第二个问题涉及成本。作为此问题的解决方案，本发明提供了一种字幕显示系统，该系统使用比诸如重说和速记之类的传统的方法更加低廉的方法。此外，本发明解决的第三个问题涉及语音识别。作为此问题的解决方案，在本发明中，执行关键字匹配，以便与执行简单语音识别的情况相比进一步改善理解。通过执行关键字匹配，与执行简单语音识别的情况相比，有差别的表达和引起争议的表达的不正确的转换不是发言者所想要的，应尽可能地避免专有名称和形式的不正确的转换。

本发明的目的是解决上文所描述的问题，从而提供便宜的设备、方法、程序等等，用于改善作为通过对诸如演示报告之类的语音执行语音识别而获得的实时字幕的字符串的准确性。

[解决问题的手段]

本发明作为一个实施例提供了下列设备。

提供了一种用于实时校正演示报告中的语音字幕的字幕校正设备。该字幕校正设备包括语音识别单元、判断分配单元、自动判断单元和人工判断单元。语音识别单元写出演示报告中的语音。然后，语音识别单元，作为语音识别的结果，输出候选字符串的一个或多个文本以及对应于相应候选字符串的语音识别的置信因子。判断分配单元通过使用所述置信因子、作业处理信息和预先确定的最大允许延迟时间，选择自动判断和人工判断中的一个，以便处理在所述候选字符串之中具有最高置信因子值的第一候选字符串。自动判断单元响应所述判断分配单元进行的自动判断的选择，自动地判断是否设置所述第一候选字符串作为确认的字符串。人工判断单元响应所述判断分配单元进行的人工判断的选择，人工地判断是否设置所述第一候选字符串作为确认的字符串。

应该注意，这里所描述的“演示报告”不仅限于使用演示报告软件通过个人计算机等等进行的演示。演示报告还包括通过语音进行的信息传输，如电视节目。

上文所描述的字幕校正设备可以进一步包括自动校正单元和字幕显示单元。自动校正单元作为校正结果输出根据匹配分数获得的关键字。这里，匹配分数是通过将演示报告的关键字列表与没有经过人工判断单元确认的字符串进行比较而获得的。字幕显示单元显示输出的已确认的字符串和作为校正结果的字符串，同时区别这两种字符串。关键字列表是根据页面单元演示报告关键字DB(稍后描述)动态地生成的。

作业处理信息包括当前延迟时间，语音识别单元中未处理的作业的数量，以及其平均作业处理时间。这里，作业可以被视为通过语音识别处理的最小单位，或判断置信因子的最小单位。此外，通过对语音识别单元的每个作业的处理时间和人工判断单元的每个作业的处理时间(或自动判断单元的每个作业的处理时间)的总和求平均值来获得平均作业处理时间。

此外，本发明的字幕校正设备中的判断分配单元根据置信因子和置信因子的平均值之间的区别的程度，给自动判断和人工判断分配作业。

此外，如稍后所描述的，本发明的字幕校正设备中的人工判断单元可以包括语音速度转换装置、无声部分删除装置、提供空白的重点再现装置、通过反复再现的自动提醒装置，以及自动停止装置中的至少一个。字幕校正设备还可以包括和进行人工判断的检查员(审查员)的数量一样多的人工判断单元。

当匹配分数等于或大于预先确定的参考值时，本发明的字幕校正设备中的自动校正单元将字符串校正为关键字。然后，自动校正单元作为未确认的字符串输出字符串。当匹配分数小于预先确定的参考值时，自动校正单元输出第二候选字符串作为未确认的字符串。在根据预先确定的条件判断第二候选不适合作为校正结果的情况下，自动校正单元就候选是否适合作为校正结果逐个地对剩余候选进行判断。在这种情况下，在基于条件的判断中，当第二候选或剩余的候选是预先确定的有差别的表达或引起争议的表达(通常从数据库获取)时，判断候选不适合作为校正结果。

此外，本发明的字幕校正设备中的字幕显示单元可以通过改变字体属性(斜体、重点、颜色、下划线等等)来显示已确认的字符串和已校正的字符串。此外，字幕显示单元可以通过添加其他的字母类型(例如，转换为罗马字符的字母类型，在日语的情况下平假名字符等等)来显示已校正的字符串。

下面将描述本发明的设备的特征。首先，设备获取通过语音识别作为语音识别结果输出的一个或多个文本和有关置信因子(可靠性)的信息。接下来，根据此信息，设备判断当前处理情况，以便在前面所指定的最大允许延迟时间内完成所有处理，以便不丢失其实时特征。同时，设备对第一候选文本自动地或手动地执行动态检查。此外，通过使用第二候选的文本或随后的候选的文本，或通过使用演示报告的备份信息中的关键字，自动地校正通过人工检查判断不正确的字符串。如此，只自动地校正被检查员在人工检查中判断不正确的字符串。相应地，与无条件地只执行自动校正的方法相比，大大地改善了自动校正的效率。此外，本发明的系统不依赖于语音识别引擎。相反地，系统可以通过优化最大允许延迟时间、可以处理的作业的数量等等利用语音识别引擎的特征。

上文是作为单一设备描述本发明的，单一设备是典型形式。然而，本发明也可以被视为包括相同功能的多个设备，组合了多台计算机的计算机系统，或计算机系统中的处理方法。将根据稍后描述的实施例详细描述本发明。

此外，本发明也可以提供包括本发明的设备的功能的程序，或包括其中存储了程序的计算机可读的记录介质的程序产品。程序可以通过记录介质以及通过网络下载到计算机的方式来提供。

[本发明的效果]

根据本发明，在使用语音识别的字幕校正系统中，与人工字幕制作相比，可以改善识别率、改善实时特征，并显著地降低成本。

附图说明

图1是概要显示了根据本发明的优选实施例的字幕校正设备10的视图。

图2是显示了判断分配单元2的分配的判断的概念。

图3(a)到3(d)是显示了用于判断分配单元2进行自动判断和人工判断的分配的阈值的概念的图形。

图4是显示了作为语音识别结果的作业的人工判断的屏幕示例。

图5是提供空白的重点再现的图形。

图6是显示了简单匹配中的识别率的实验示例的表。

图7是概要显示了根据本发明的实施例的有一个检查员的情况下的字幕校正系统100的视图。

图8是概要显示了根据本发明的实施例的有两个检查员的情况下的字幕校正系统200的视图。

图9是显示了执行本发明的应用程序中的屏幕的示例的视图。

图10是显示了本发明的示例中的语音识别率的改进的效果的视图。

具体实施方式

下面将参考图形，详细描述根据实施例的本发明。

图1概要显示了作为本发明的优选实施例的字幕校正设备10。字幕校正设备10包括语音识别单元1、判断分配单元2、人工判断单元3、自动判断单元4、自动校正单元5和字幕显示单元6。然而，该设备不仅限于上文所描述的配置，也可以具有其他配置，只要获得相同功能即可，也可以包括其子组合。

语音识别单元1将发言者的语音转换为文本。在这种情况下，输出转换过来的文本的置信因子(也叫做“可靠程度”或识别分数)。转换过来的文本不仅限于一个，可以与对应于相应候选的置信因子一起输出第二候选、第三候选和随后的候选。就语音识别本身，可以使用迄今为止已知的技术。

判断分配单元2自动地实时判断是否使用自动判断装置或人工判断装置。判断是基于语音识别的置信因子、最大允许延迟时间，当前延迟时间(处理时间)、未处理的作业的数量，以及平均作业处理时间进行的。语音识别的置信因子是从语音识别单元1获取的，最大允许延迟时间是预先定义的，在该最大允许延迟时间内作业被转录“实时”处理。具体来说，在未处理的作业的数量比较小以及延迟时间和最大允许延迟时间之间的区别仍大大地不同于最大允许延迟时间的情况下，当待判断字符串的置信因子大大地不同于平均值时，选择自动判断。这是因为，当置信因子大大地不同于平均值时，语音识别结果的可靠性被视为“高”。此外，对于判断分配单元2，考虑了平均作业处理时间以及未处理的作业的数量。从而，随着延迟时间接近最大允许延迟时间，分配给自动判断的程度可以动态地改变。

图2显示了分配的判断的概念。在图2的示例中，最大允许延迟时间被设置为8秒。假设当前延迟时间41是3秒，平均作业处理时间(42a到42c)是2秒，则可以处理的剩余作业的数量是2。这里，作业可以被视为由语音识别单元1处理的单位，或判断置信因子的单位。例如，在稍后待描述的如图4所示的语音识别结果的判断屏幕的示例中，每一行都对应于一个作业。

在图2的示例中，假设未处理的作业的数量是2或稍小，在延迟时间达到最大允许延迟时间之前，仍有空间，考虑了平均作业处理时间(42a和42b)。在此情况下，判断分配单元2判断，当作为语音识别的结果获得的字符串的置信因子和平均值之间的区别非常大时，可以通过自动判断获得高可靠性。换句话说，判断取决于置信因子是大于还是小于预先确定的阈值。另一方面，当平均作业处理时间比较长，或未处理的作业的数量较大时，判断分配单元2根据置信因子判断选中人工判断更好。

这里，进行人工判断的条件可以被定义为下面的公式1。然而，用于判断是将作业分配给人工判断还是分配给自动判断的条件公式不仅限于下面的公式。在示例3中，描述了另一个条件公式。

[公式1]

图3(a)到3(d)中的每一个图都在概念上显示了用于上文所描述的判断的阈值α。这里，如图3(a)到3(a)中的每一个图形所示，置信因子X的分布符合某一概率密度函数(这里，正态分布函数)。在图3(a)到3(c)中的每一个图形中，通过斜线表示了由于置信因子X与平均值μ相差α或更多而选择自动判断的区域。然而，就自动判断，有正确的判断和不正确的判断的情况。假设α被设置为0，则一切都由自动判断处理，如图3(d)所示。

这里，将再次参考图1进行描述。人工判断单元3和自动判断单元4两者也可以被视为混合型检查设备，如上文所描述的，包括自动和人工检查功能两者。在人工检查的情况下，为了支持检查员的操作(判断)，混合型检查设备包括诸如语音速度转换、删除无声部分、提供空白的重点再现装置、通过反复再现的自动提醒，以及自动停止之类的功能。图4显示了用来执行人工检查的屏幕的示例。这里，图4显示了确认通过语音识别获得的结果的过程。检查员通过按下选择按钮“已确认”来确认结果。当检查员不能确认结果(当判断结果不正确时)，检查员按下选择按钮“不正确”，并将结果作为未确认的字符传递到自动校正单元5以便进行处理。

这里，将描述语音速度转换。一般而言，说话速度比阅读速度更快。因此，一般需要调整语音速度，以便通过阅读字幕候选来将字幕候选与语音将进行比较。有根据选择的速度直接改变音高的方法，只改变速度而不改变音高的方法等等。删除无声部分是当说话者不发声时通过自动地删除无声部分缩短检查时间的措施。

此外，提供空白的重点再现，意味着再现前面的行(或前面的单词)的前面的行“渐显”再现和随后的行(或随后的单词)的“渐隐”再现。提供空白的重点再现意味着，以渐显的方式再现前面的行(或前面的单词)，以渐隐的方式再现随后的行(或随后的单词)。

图5是重点再现的图像图形。这里，以逐个单词地使字符逐渐变大的方式表示“渐显”的字符，以逐个单词地使字符逐渐变小的方式表示“渐隐”的字符。如此，可以支持对单词进行人工检查。

此外，通过反复再现的自动提醒意味着通过再现重复的声音来提醒检查员输入。此外，自动停止意味着当检查员使用鼠标、键盘等等输入时，停止提醒。

注意，字幕校正设备10可以包括和检查员的数量一样多的人工判断单元3的人工检查功能。稍后将对此进行描述。

图1所示的自动校正单元5通过将从演示报告的备份材料动态地生成的关键字列表与被判断不正确的字符串进行匹配来执行自动校正。备份材料包括，例如，演示报告页面、发言者备注，以及诸如脚本之类的补充的文本材料。

在自动校正单元5中，当匹配的结果不超过关键字列表中的任何关键字的阈值时，从通过语音识别获得的第二候选中获取校正结果。第二候选之后的候选是每一个都具有比由语音识别单元1写出的字符串之中的第一候选的置信因子更低的置信因子的字符串。对于匹配，使用DP匹配(动态编程匹配)，这是常见的比较字符串的方法。此外，当在字符串级别没有匹配时，还在音素级别执行匹配。

这里，在简单匹配中，应该注意，在很多情况下，识别率不利地被匹配过程降低。具体来说，通过校正不正确部分改进识别的比率被设置为Re，由于意外地校正正确的部分而不利地降低识别率的概率被设置为Rc。这里，Re和Rc之间的比较的结果不一定是Re>Rc。图6显示了简单匹配过程中的一段实际实验数据供参考。在本发明的匹配方法中，在预先通过自动判断或人工判断执行检查之后，执行匹配。相应地，不利地降低识别率的风险比较小。

这里，将再次参考图1进行描述。在自动校正单元5中，当可能通过给从语音识别获取的第二候选提供给定条件而获得不适当的校正结果时，通过使用第三候选以及随后的候选，获得校正结果。当没有一个候选可以是适当的校正结果时，照原样不经过校正地输出原始第一候选。

一般而言，在使用演示报告应用程序的演示报告中，使用了多个演示报告页面进行幻灯放映。因此，可以从演示报告的演示者实际呈现的每一个演示报告页面中包括的字符串创建关键字列表。存储了每一个演示报告页面中包括的关键字的东西叫做页面单元演示报告关键字DB，表示为图1中的页面单元演示报告关键字DB7。例如，当响应演示者使用鼠标或键盘作出的操作而发生页面切换事件8时，可以写出页面切换。这里，演示报告关键字是诸如单词和段落之类的从演示报告页面、发言者备注和诸如脚本之类的补充文本获取的关键字列表。基本上，对于关键字表，使用了TF·IDF(TermFrequency·Inverse Document Frequency)。TF·IDF是使用形态分析和通过使用演示报告中的元素属性进行加权的方法。由于TF·IDF是迄今为止已知的方法，这里将省略其说明。提供页面单元演示报告关键字DB7允许自动校正单元5使用DB对字幕进行事后编辑，如此通过与关键字进行自动匹配实时显示字幕。

最后，字幕显示单元6自动地合并从自动判断单元4、人工判断单元3和自动校正单元5获取的字符串(已确认的字符串和未确认的字符串)。此外，字幕显示单元6还使用字体属性等等各种显示样式，取决于字符串是否正确。这里，除了常规字符类型之外，字幕显示单元6还通过使用诸如音素、平假名字符之类的其他字符类型来表达被判断为不正确的字符串。

在如图1所示的实施例中，上文是作为单一设备描述根据本发明的字幕校正设备10的。然而，字幕校正设备10也可以具有其中每一个功能都被视为一个单独的设备的系统配置。图7显示了有一个检查员的情况的系统配置。这里，图7显示了设备以及其内部处理，这些设备对应于如图1所示的相应的功能单元。

下面是如图7所示的字幕校正系统100执行的处理的流程。然而，由于相应的设备的配置大致对应于如图1所示的设备中的那些配置，因此，将不再赘述。

1)通过语音识别设备11获得识别结果字符串。这里，不仅是识别结果字符串，而且还有对应于识别结果字符串的置信因子。此外，作为识别结果字符串的下一个候选(第二候选、第三候选等等)，获取每一个都具有比识别结果字符串的置信因子更低的置信因子的字符串。相应的下一个候选的字符串可以存储在如图7所示的下一个候选DB16中。

2)由判断分配设备12将识别结果字符串分配给人工判断或者自动判断(步骤S10)。人工判断作为结果提供了高于自动判断所提供的置信因子的待获取的置信因子。因此，当有足够的空闲时间时，选择人工判断。同时，当从语音识别获取的置信因子大大地不同于平均值(例如，50％)时，自动地判断识别结果字符串的可能性比较高(例如，当置信因子是95％时，判断字符串正确，当置信因子是5％时，判断字符串不正确)。相应地，为了获得实时字幕，在考虑到作业情况、最大延迟时间和实际消逝时间时有延迟的情况下，根据通过语音识别获得的置信因子和置信因子的平均值之间的区别的程度，动态地将判断分配给自动判断。稍后将作为示例3描述判断分配设备12的示例。

3)在人工判断的情况下，通过语音速度转换自动地再现语音(步骤S11)，删除不需要的无声部分(步骤S12)，语音再现方法(提供空白的重点再现、通过反复再现的自动提醒和自动停止)。然后，允许检查员通过使用示例4中描述的将再现的语音与语音识别结果进行比较的方法执行人工判断(步骤S13)。将在稍后描述的示例2中描述检查员进行判断的UI(用户界面)。在S10的判断步骤中选择了自动判断的情况下，直接执行自动判断(步骤S14)。此外，在判断确认的步骤S15中，更新由判断分配设备12进行管理的作业队列18。

4)对于没有确认的字符串(在判断步骤S15中为“NO”)，通过使用上文所描述的匹配方法，将字符串与页面单元演示报告关键字DB17进行匹配。在步骤S17中，计算根据匹配的分数Sp(分数点)(步骤S16)。当Sp等于或大于预先确定的参考值时，通过校正字符串获得的字符串被设置为未确认的字符串(步骤S19)。另一方面，当Sp小于参考值时，作为未确认的字符串，输出通过校正第二候选获得的字符串(步骤S18)。

5)在根据前面给定条件(如有差别的表达)判断第二候选不适合作为校正结果的情况下，连续地从下一候选DB16获取第三候选。相应地，通过使用获得的候选，执行校正。

6)如果由语音识别设备11获得的候选中没有一个可以是校正结果，则照原样不经过校正地输出第一候选。

7)关于已确认的字符串和未确认的字符串(经过匹配)，改变其字体属性，以便清楚地区别这两种字符串。稍后作为示例1对此进行描述。

通常，如上文所描述的，只有一个检查员就足够了。然而，本发明的系统也适用于有两个检查员或更多的情况。在这样的情况下，通过为若干个检查员提供人工判断设备13，识别率和字幕显示进一步得到改善。图8显示了有两个检查员的情况下的字幕校正系统200。

有多个检查员的情况的特征如下。

1)提供了与检查员的数量相同的人工判断设备13a和13b。

2)判断分配设备12将作业分配给人工判断设备13a和13b中的可用的那一个设备。

3)没有被人工判断设备13a和13b确认的字符串由自动校正设备15校正一次。此后，将字符串返回到判断分配设备12。当人工判断设备13a和13b中的任何一个可用时，判断分配设备12将待进行人工判断的作业分配到人工判断设备13a或13b。另一方面，当人工判断设备13a和13b都不可用时，直接执行未确认的显示。

4)对于相同字符串，不允许由自动校正设备15以这样的方式执行匹配两次：字符串被从人工判断设备13a或13b传递到自动校正设备15，返回到人工判断设备13a或13b，再次传递到自动校正设备15。具体来说，在这样的情况下，用于由自动校正设备15进行第一次匹配的相同关键字和第二候选不会被使用两次。相应地，通过使用第一次使用的关键字之外的关键字或第二候选之外的第三候选来执行匹配。

[示例1]

<用于显示已确认的和未确认的字符串的方法>

图9显示了本发明的示例。在图9中，发言者(演示者)的图像显示在由参考编号64表示的窗口屏幕上。屏幕64显示了发言者发出的语音的识别的结果。另外，窗口屏幕60显示了由人工判断设备13对通过语音识别获得的识别字符串执行的人工或自动检查获得的每一个结果。然而，可以隐藏语音识别的置信因子。为了显示人工判断设备13作出的检查是否被确认或没有被确认，检查员执行如S61所示的确认判断。被判断为不正确的字符串被设置为未确认的字符串，并在步骤62中进行匹配(自动校正设备15)。作为匹配的结果，已校正的字符串显示在窗口63上，同时被分类为已确认的字符串和未确认的字符串。这里，图9显示了已确认的字符串以黑色显示以及未确认的字符串以斜体显示(实际以其他颜色显示更好)的情况的显示方法的示例。从图9可以看出，通过使用PPT文件或其他文本的演示报告备份材料，甚至可以正确地显示未确认的字符串。此外，已确认的字符串可以通过自动判断以及通过人工判断来确认。相应地，分别通过两种判断确认的字符串也可以显示出来，同时通过使用不同字体属性彼此区别开来。

[示例2]

<人工判断设备13中的人工操作>

这里将描述用户在人工判断设备13中执行人工操作的UI(用户界面)的示例。

1)在任何情况下执行键操作(或鼠标点击等等)。例如，当目标字符串正确时，按下回车键，当目标字符串不正确时，按下空格键。

2)与1)的情况相同，执行选择，但是提供了超时时段。当在该时段内没有按下任何键时，则强制地选择默认值。由于识别结果通常在很多情况下是正确的，通过将默认值设置为正确，可以预期性能会得到改进。

[示例3]

<判断分配设备12>

按如下方式设置自动判断的条件。置信因子与平均值的差别越大，考虑到允许的延迟时间、平均作业时间和消逝时间，就越可能执行自动判断。此外，随着允许的延迟时间流失，则接近于平均值的置信因子也比较可能分配给自动判断。

下面将详细描述置信因子Ci呈现正态分布的情况下的计算方法。下列公式给出了正态分布的概率密度函数f(x)，其中，平均值和方差可以分别通过μ和σ表示。

[公式2]

f (x) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}

基于上文所描述的公式，由下列公式给出随机变量X等于或小于α的概率。

[公式3]

P (X \leq a) = {&Integral;}_{- \infty}^{a} f (x) dx

一般而言，此积分计算并不简单。然而，通过使用概率密度函数和给定值的线性关系，可以判断自动判断或人工判断中的哪一个是需要的。当满足下列条件公式时，需要自动判断，假设允许的延迟时间是Twmax，平均作业处理时间是Tave，处理时间是Ti。另一方面，当不满足条件公式时，需要人工判断。在自动判断的情况下，可以判断不超过平均值μ的置信因子导致未确认的显示，大于平均值μ的置信因子导致已确认的显示。

[公式4]

|u-Ci|≥|norm sin v(1/Nj)|

注意，“normsinv”表示标准正常累积分布的反函数。这里，由于Nj是剩余作业的数量，Nj被设置为舍入到最近的自然数的一个值，而不超过由下列公式给出的Ni。

[公式5]

Ni＝(Twmax—Ti)/Tave

注意，甚至在有多个人工判断设备的情况下，也可以以同样的方式获得上述值。

[示例4]

<将语音识别结果与语音进行比较的方法>

作为检查员将语音识别结果与语音进行比较的常见的方法，检查员通常通过在收听语音时阅读字符串来将字符串与语音进行比较。然而，有视力障碍的人等等将字符串与输入语音进行比较，同时通过语音合成再现字符串也是可以的。

[示例5]

<不使用声音的检查员>

已经作为本发明的手段描述了将语音识别结果与输入语音进行比较的方法。然而，在很多情况下，语音识别结果中包含严重的错误。因此，尽管没有输入语音，也可以执行简单的检查。具体来说，具有听觉障碍的人等等也可以肯定地执行检查。

[示例6]

<操作效果>

下文概述了成本降低、识别率改进、理解和实时特征改进作为本发明的操作效果。

<成本降低的效果>

首先，通过使用本发明的方法，与人工字幕校正相比，可以预期成本有显著的降低。注意，关于与实际时间的延迟时间，在重说、速记和本发明的实施例之间没有发现显著的差异。

<识别率改进效果>

图10显示了在[本发明解决的问题]中介绍的基于在某一大学的演示实验的结果的匹配实验的结果。虽然上文已经描述，但是一般而言，实时字幕需要85％或更高的识别率，更好的是，90％或更高的识别率。识别率超过85％的概率从27％提高到82％，识别率超过90％的概率从0％提高到27％。

<其他效果>

虽然量化是困难的，但是，对于重要的关键字，可以发现识别率有特别显著的改进。因此，与简单语音识别本身相比，识别率的改进大大地有助于理解的改进。此外，关于发言者不想要的有差别的表达和格式化，通过与页面单元演示报告关键字匹配，可以取得显著的改进。

上文作为字幕设备(一个实施例)或系统描述本发明。然而，本发明的设备或系统可以作为硬件、软件或硬件和软件的组合来实现。作为通过硬件和软件的组合的实施方式，在具有预先确定的程序的计算机系统中的实施方式被引用为典型示例。在这样的情况下，当预先确定的程序被加载到计算机系统中并执行时，该程序允许计算机系统执行根据本发明的处理。此程序包括一组可以通过任何语言、代码或表示法表达的命令。这样的一组命令使系统能直接执行特定功能或执行在执行(1)转换为另一个语言、代码或表示法和(2)复制到另一个介质两者中的任何一个或两者之后的功能。不用说，本发明的范围不仅包括这样的程序本身，而且还包括程序产品，该程序产品包括其中存储了程序的介质。用于执行本发明的功能的程序可以存储在任意计算机可读的介质中，如软盘、MO、CD-ROM、DVD、硬盘设备、ROM、MRAM和RAM中。可以从通过通信线路连接的另一个计算机系统下载上文所描述的程序，也可以从另一个介质复制，以便存储在计算机可读的介质中。此外，程序也可以通过压缩或划分为几个部分存储在单个记录介质或多个记录介质中。

注意，本说明书中使用的计算机或计算机系统不仅是指一般个人计算机或通用计算机，而且还指配备有微处理器(CPU或MPU)的各种设备。

虽然上文是基于实施例和示例描述本发明的，但是，本发明的技术范围不仅限于实施例中所描述的那些。可以向前面的实施例中添加各种改变或修改。此外，从权利要求的范围的描述中可以看出，添加了这样的改变或修改的实施例也可以包括在本发明的技术范围内。

[附图标记的说明]

1 语音识别单元

2 判断分配单元

3 人工判断单元

4 自动判断单元

5 自动校正单元

6 字幕显示单元

7 页面单元演示报告关键字DB

8 页面切换事件

11 语音识别设备

12 判断分配设备

13，13a，13b 人工判断设备

15 自动校正设备

16 下一候选DB

17 页面单元演示报告关键字DB

18 作业队列

19 自动判断设备

41 延迟时间

42a，42b，42c 平均作业处理时间

60 人工判断的窗口屏幕

62 匹配过程

63 已确认的字符串和未确认的字符串的显示窗口

64 演示者图像窗口和字幕显示

100 字幕校正系统(在一个检查员的情况下)

200 字幕校正系统(在两个检查员的情况下)

Claims

1.一种用于实时校正演示报告中的语音字幕的字幕校正设备，包括：

语音识别单元，用于识别所述演示报告中的语音，并用于作为语音识别的结果，输出候选字符串的一个或多个文本以及对应于相应候选字符串的语音识别的置信因子；

判断分配单元，用于通过使用所述置信因子、作业处理信息和预先确定的最大允许延迟时间，选择自动判断和人工判断中的一个，以便处理在所述候选字符串之中具有最高置信因子值的第一候选字符串，其中，所述作业处理信息包括当前延迟时间、语音识别单元中未处理的作业的数量以及其平均作业处理时间；

自动判断单元，用于响应所述判断分配单元进行的自动判断的选择，自动地判断是否设置所述第一候选字符串作为确认的字符串；

人工判断单元，用于响应所述判断分配单元进行的人工判断的选择，手动判断是否设置所述第一候选字符串作为确认的字符串；以及

自动校正单元，用于输出根据匹配分数获得的关键字作为校正结果，所述匹配分数是通过将演示报告的关键字列表与没有被所述人工判断单元确认的字符串进行比较而获得的。

2.根据权利要求1所述的字幕校正设备，进一步包括：

字幕显示单元，用于显示所述确认的字符串和作为所述校正结果的字符串，同时区别这两种字符串。

3.根据权利要求1所述的字幕校正设备，其中，在根据对应于给定作业的置信因子获取的概率密度不大于在最大允许延迟时间内处理的作业的数量的倒数的情况下，所述判断分配单元选择人工判断。

4.根据权利要求1所述的字幕校正设备，其中，所述判断分配单元根据所述置信因子和所述置信因子的平均值之间的区别的程度，选择自动判断。

5.根据权利要求1所述的字幕校正设备，其中，所述人工判断单元包括语音速度转换装置、无声部分删除装置、提供空白的重点再现装置、通过反复再现的自动提醒装置以及自动停止装置中的至少一个。

6.根据权利要求1所述的字幕校正设备，其中，提供的所述人工判断单元的数量和进行人工判断的判断次数一样多。

7.根据权利要求2所述的字幕校正设备，其中，所述关键字列表是根据页面单元演示报告关键字数据库动态地生成的。

8.根据权利要求2所述的字幕校正设备，其中

当匹配分数不小于预先确定的参考值时，所述自动校正单元输出关键字作为所述校正结果，以及

当匹配分数小于预先确定的参考值时，所述自动校正单元输出第二候选字符串作为所述校正结果。

9.根据权利要求8所述的字幕校正设备，其中，在根据预先确定的条件判断所述第二候选不适合作为校正结果的情况下，所述自动校正单元随后就其余候选是否适合作为校正结果逐个地对所述候选进行判断。

10.根据权利要求9所述的字幕校正设备，其中，在基于条件的判断中，当所述第二候选和所述其余的候选中的任何一个是预先确定的有差别的表达和引起争议的表达中的任何一个时，判断所述候选不适合作为所述校正结果。

11.根据权利要求2所述的字幕校正设备，其中，所述字幕显示单元分别按不同字体属性或不同字母类型显示所述确认的字符串和所述已校正的字符串。

12.一种用于实时校正演示报告中的语音字幕的方法，包括下列步骤：

识别所述演示报告中的语音，然后作为语音识别的结果，输出候选字符串的一个或多个文本以及对应于相应候选字符串的语音识别的置信因子；

通过使用所述置信因子、预先确定的最大允许延迟时间、当前延迟时间和所述语音识别步骤中的未处理的作业的数量及其平均作业处理时间，选择自动判断和人工判断中的一个，以便确认在所述候选字符串之中具有最高置信因子值的第一候选字符串；

响应所述选择步骤中的自动判断的选择，自动地判断是否设置所述第一候选字符串作为确认的字符串；

响应所述选择步骤中的人工判断的选择，手动判断是否设置所述第一候选字符串作为确认的字符串；以及

根据匹配分数输出关键字作为校正结果，所述匹配分数是通过将演示报告的关键字列表与没有被所述手动判断步骤确认的字符串进行比较而获得的。

13.根据权利要求12所述的方法，进一步包括下列步骤：

显示所述输出的确认的字符串和作为所述校正结果的字符串，同时区别这两种字符串。

14.根据权利要求12所述的方法，其中，在所述选择步骤中，根据所述置信因子和所述置信因子的平均值之间的区别的程度，选择自动判断。