CN1879146A

CN1879146A - 用于语音到文本的转录系统的错误检测

Info

Publication number: CN1879146A
Application number: CN200480032825.6A
Authority: CN
Inventors: H·施拉姆
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-05
Filing date: 2004-10-27
Publication date: 2006-12-13
Anticipated expiration: 2024-10-27
Also published as: US20070027686A1; EP1702319B1; JP2007510943A; WO2005045803A1; ATE417347T1; EP1702319A1; WO2005045803A8; DE602004018385D1; CN1879146B; US7617106B2; JP4714694B2

Abstract

本发明涉及一种用于在由语音到文本的转录系统产生的文本内错误检测的方法、系统和计算机程序产品。借助于文本到语音的转录系统将转录文本再变换成人工语音信号。原始自然语音信号和人工产生的语音被提供给校对者以比较两个声学信号。在原始语音信号与从转录文本中变换的语音之间的偏差表示在语音到文本的变换过程中可能出现了错误，这不得不人工进行校正。优选地通过使用从所述两个语音信号推导出的比较信号，要比较的语音信号能够在视觉上和/或在听觉上被提供给校对者。在校对过程中能够跳过大部分正确转录的文本，从而节省了时间，并且增强了整个校对过程的有效性。

Description

用于语音到文本的转录系统的错误检测

本发明涉及语音到文本的转录(transcription)系统和方法的领域，并且更具体地涉及在语音到文本的转录系统中错误的检测。

语音转录和语音识别系统识别例如口头口授的语音，并且将所识别的语音转录成文本。现今语音转录系统已经被广泛地用在例如医学部门或法律实践中。存在多种语音转录系统，例如Philips ElectronicsNV的Speed Magic ^TM和IBM Corporation的Via Voice^TM，它们在商业上是可用的。与人类转录人员相比，一方面，语音转录系统节省了时间和成本，但另一方面，它与人类转录人员相比不能够提供高精度的语音理解和命令解释。

由语音到文本的转录系统产生的文本不可避免地包括错误的文本部分。这种错误的文本部分的出现是由于许多原因，例如在其中记录语音的不同的环境条件，比如噪声，或者系统未被正确适配的不同扬声器。口授中涉及标点、文本格式或字体的口头命令必须由语音到文本的转录系统进行适当地解释，而不是按照字面意义转录为词语。

由于语音到文本的转录系统的特征在于有限的语音识别能力以及有限的命令解释能力，所以它们在转录的文本中不可避免地产生错误。为了确保将口授正确地转录为文本，在校对步骤中必须对语音到文本的转录系统所产生的文本检查错误以及错误的文本部分。校对通常必须由人类校对者执行。校对者比较口授的原始语音信号与由语音到文本的转录系统产生的转录文本。

通常通过听取原始语音信号并同时读取转录文本来执行以比较的形式的校对。特别是，这类比较使得校对者非常疲劳，因为以视觉信息的形式的文本必须与以声学信息的形式提供的语音信号进行比较。因此，该比较需要校对者在与口授的持续时间相对应的时间高度集中注意力。

考虑到语音到文本的转录系统的出错率可以在20％以下并且在不久的将来甚至可以减少，显然对于转录文本的大部分而言校对不是必须的。然而，文本的原始来源仅作为语音信号而可得到，该语音信号只可以通过听取其而以顺序的方式进行访问。比较书面文本和声学信号只可以通过听取全部的声学信号来执行。因此，与转录过程本身相比，校对可能甚至更加消耗时间。

本发明旨在提供一种用于在由自动的语音到文本的转录系统所产生的文本内有效的错误检测的方法、系统和计算机程序产品。

本发明提供一种用于语音到文本的转录系统的错误检测的方法。语音到文本的转录系统接收第一语音信号，并且将该第一语音信号转录成文本。为了便于必须由人类校对者执行的校对或校正过程，将转录的文本再变换成第二合成语音信号。这样，校对者仅必须比较两个声学信号，即第一和第二语音信号，而不是比较第一语音信号和转录的文本。例如经由立体声耳机将第一和第二语音信号提供给校对者。这样，校对者同时听取第一和第二语音信号，并且能够容易地检测到两个语音信号之间可能的偏差，该偏差表示在语音到文本的转录过程中已经出现错误。

通过所谓的文本到语音的合成系统来执行将转录文本再变换成第二语音信号。例如在EP 0363233和EP 0706170中公开了文本到语音的合成系统的实例。典型的文本到语音的合成系统基于包含在其中存储有记录的声音部分的数据库的双音合成技术或单元选取合成技术。

根据本发明的一个优选实施例，从转录文本产生与第一语音信号同步的合成第二语音信号的方法是颠倒语音识别过程。代替从输入特征向量(表示例如第一语音信号的10ms的部分)产生输出文本，也应用语音识别系统来从输入文本产生输出特征向量。这能够通过首先将文本变换成(上下文相关的)音素序列并且接着将音素序列变换成隐含马尔可夫模型序列(HMMs)来实现。连接的HMMs根据不同的HMM状态序列又产生输出特征向量序列。为了支持第一和第二语音信号之间的同步，用于产生第二语音信号的HMM状态序列是在先前语音识别步骤中获得的最佳(维特比)状态序列，在先前的语音识别步骤中已经将第一语音信号变换成文本。该状态序列将每个特征向量对准不同的隐含马尔可夫模型状态，并且因此对准转录文本的不同部分。

根据本发明的另一个优选实施例，从第一语音信号的转录文本中提取的第二语音信号的速度和/或音量与第一语音信号的速度和/或音量相匹配。因此，相对于第一自然语音信号的速度和/或音量来执行从转录文本到第二语音信号的合成。这是有利的，因为两个同步的声学信号之间的比较比两个不同步的声学信号之间的比较容易得多。因此，转录文本的同步取决于转录文本体本身以及取决于第一、因而的自然语音信号的速度和动态范围。

根据本发明的另一个优选实施例，第一语音信号也是变换的对象。优选地，对第一语音信号应用一组滤波器函数以便变换第一语音信号的频谱。这样，使得第一语音信号的频谱与合成的第二语音信号的频谱相同。结果，自然的第一语音信号的声音和合成的第二语音信号的声音接近，这再一次便于由人类校对者执行的两个语音信号的比较。最后，比较两个人工产生的或人工发声的声学信号，而不是比较一个人工声学信号与一个自然声学信号。

根据本发明的另一个优选实施例，通过对第一和第二语音信号进行相减或叠加而产生一个附加信号。当通过对第一和第二语音信号进行相减而产生该类型的比较信号时，该比较信号的幅度指示在第一和第二语音信号之间的偏差。特别是，第一和第二语音信号之间大的偏差是语音到文本的转录系统已经产生错误的指示。因此，比较信号给出了在语音到文本的转录过程中是否出现错误的直接指示。比较信号没有必要非得通过两个语音信号相减来产生。通常，可以想到根据第一和第二语音信号来产生比较信号的非常多的方法，例如借助于语音信号的叠加或卷积。

根据本发明的另一个优选实施例，在听觉上和/或在视觉上将比较信号提供给校对者。这样，所产生的比较信号被提供给校对者。通过使用该比较信号，校对者能够更容易地识别转录文本的错误部分。特别是，当在转录文本中在视觉上提供比较信号时，校对者的注意力被吸引到与值得重视的比较信号相对应的那些文本部分。在校对过程中能够跳过与具有低幅度的比较信号相关联的大部分正确转录的文本。因而，显著地增强了校对者和校对过程的效率。

根据本发明的另一个优选实施例，当比较信号的幅度超过预定范围时，用于错误检测的方法产生出错指示。当例如通过对第一和第二语音信号相减来产生比较信号的时候，在比较信号的幅度超过预定阈值时输出出错指示给校对者。出错指示的输出能够在听觉上以及在视觉上出现。借助于该出错指示，校对者不再非得观察或听取笨拙发声的比较信号。例如可以通过不同的振铃音来实现出错指示。

根据本发明的另一个优选实施例，借助于图形用户接口在转录文本中在视觉上输出出错指示。这样，校对者不必非得在听觉上听取和比较两个语音信号。而且，第一和第二语音信号之间的比较完全由比较信号来表示。只有在比较信号超过预定阈值的这种情况中，才在转录文本中输出出错指示。于是校对者的任务减少为人工控制分配有出错指示的那些文本部分。校对者可以系统地选择可能出错的这些文本部分。为了检查语音到文本的转录系统是否产生错误，校对者仅听取与分配有出错指示的文本部分相对应的第一和第二语音信号的那些剪辑。

因此，所述方法提供一种仅对可能是错误的转录文本的那些文本部分进行滤波的有效途径。因而不再需要为了校对的目的而听取完整的第一语音信号和读取整个转录文本。必须由人类校对者执行的校对有效地减少为由错误检测系统将其识别为可能出错的那些文本部分。与校对过程的时间曝光(exposure)减少相同，校对的总效率被提高。

根据本发明的另一个优选实施例，对比较信号执行模式识别，以便对表示文本中不同错误类型的比较信号的预定义模式进行识别。由语音到文本的转录系统产生的错误通常是由于部分第一自然语音信号的错误判断。特别是对于自然语音信号的含糊部分出现这种错误，例如具有不同意义并因此具有不同拼写的相似发声的词语。例如，当例如将不同的口语词错误识别为相似发声的词语时，语音到文本的转录系统就可能产生无意义的词语。在转录过程期间，这种混淆可能出现若干次。当现在又将转录文本再变换成第二语音信号时以及当借助于上述的比较信号来比较第一和第二语音信号时，两个词之间的这种混淆可能导致比较信号中的不同模式。

借助于应用于比较信号的模式识别，可以直接识别由转录系统产生的某一错误类型。与由语音到文本的转录系统产生的某些错误类型相对应的不同模式典型地通过某类的存储装置来存储，并且被提供给错误检测方法以便识别不同的错误类型。而且，在比较信号中与指示某个错误类型的任一已知模式不匹配的模式可以被指定为一个错误和由校对者人工执行的校正过程。这样，用于错误检测的方法可以收集在比较信号中将被指定为不同错误类型的各种模式。可以将这种功能解释为一种自主学习。

根据本发明的另一个优选实施例，校正建议具备由语音到文本的转录系统产生的检测到的错误类型。由于借助于比较信号的相应模式来识别转录文本中不同的错误类型，所以能够解析错误的来源、语音信号的错误识别部分。优选的是借助于图形用户接口在视觉上提供校正建议。必须由人类校对者执行的校对理想地减少为接受或拒绝由错误检测系统提供的校正建议的步骤。当校对者接受错误校正时，错误检测系统自动地用产生的校正建议代替转录文本的错误文本部分。假设校对者拒绝了由错误检测系统提供的校正建议的别的情况，那么校对者不得不人工校正转录文本的错误文本部分。

用于在由语音到文本的转录系统所产生的文本内的错误检测的所述方法和系统为转录文本的校对提供了有效的和较少时间消耗的途径。不可缺少的人类校对者的主要任务减少为转录文本内最小数量的可能错误识别的文本部分。与校对的传统方法相比，校对者不再非得听取由语音到文本的转录系统所转录的整个自然语音信号。

在下面将通过参考附图来更加详细地描述本发明的优选实施例，其中：

图1是说明错误检测方法的流程图，

图2是说明错误检测方法的流程图，

图3是说明包括比较信号的模式识别的错误检测方法的流程图，

图4示出具有错误检测装置的语音到文本的转录系统的框图。

图1示出本发明的错误检测方法的流程图。在第一步骤100中，借助于常规的语音到文本的转录系统从第一自然语音信号中产生文本。在下一步骤102中，借助于常规的文本到语音的合成系统将步骤100的转录文本再变换成第二语音信号。在随后的步骤104中，将第一自然语音信号和第二人工产生的语音信号提供给人类校对者。在步骤106，所述校对者同时听取第一和第二语音信号。典型地，使得第一和第二语音信号同步以便有助于由所述校对者执行的声学比较。在步骤108，校对者检测到在第一和第二语音信号之间的偏差。所述偏差指示在将第一自然语音信号转录成文本的步骤100中出现错误。当在步骤108中校对者检测到错误时，人工执行该文本中检测到的错误的校正。

这样，校对即初始自然语音信号与转录文本之间的比较不再基于有关声学与视觉信号的比较。代之以，校对者仅须听取两个不同的声学信号。仅在检测到错误的情况中，校对者不得不在转录文本中找到相应的文本部分并且执行校正。

图2是说明根据本发明优选实施例的错误检测方法的流程图。与图1所说明的类似，在第一步骤200中，通过常规的文本到语音的转录系统从第一语音信号中转录文本。基于转录的文本，在下一步骤202中，借助于文本到语音的合成系统来合成人工语音信号。为了便于两个语音信号之间的比较，在步骤204中将第一自然语音信号应用到一组滤波器函数，以使得所述自然语音信号的频谱接近第二人工产生的语音信号的频谱。

之后，该方法进行步骤206或进行步骤208。在步骤206中，将滤波的第一自然语音信号以及第二人工产生的语音信号在听觉上提供给校对者。相反在步骤208中，将滤波的第一自然语音信号以及第二人工产生的语音信号在视觉上提供给校对者。在将第一和第二语音信号提供给校对者之后，该方法继续进行步骤210，在该步骤中，校对者在听觉上和/或在视觉上比较第一和第二语音信号。在下一步骤212中，校对者通过听取两个不同的语音信号和/或通过两个语音信号的图形表示来检测所产生的文本中的错误。在最后的步骤214中，由校对者来人工校正检测到的错误。

在图3中，示出用于说明根据本发明的错误检测方法的另一流程图。再次在第一步骤300中，借助于常规的语音到文本的转录系统从第一自然语音信号中转录文本。在下一步骤302中，借助于文本到语音的合成系统将转录文本再变换成第二语音信号。与图2所描述的类似，在步骤304中，将第一自然语音信号应用到一组滤波器函数，以便使得第一语音信号的声音和频谱与人工产生的第二语音信号的声音和频谱相同。

在随后的步骤306中，借助于例如第一和第二语音信号相减或叠加来产生第一和第二语音信号之间的比较信号。代替直接提供语音信号，该方法现在限定为提供所产生的比较信号。在步骤308在听觉上提供比较信号或在步骤310在视觉上提供比较信号。在步骤312中，通过所述比较信号能够容易地检测到文本中可能的错误。

当例如通过两个语音信号相减而产生所述比较信号时，在该比较信号的幅度高于预定阈值时，能够容易地检测到文本中可能的错误。在步骤312检测到可能的错误文本部分之后，在步骤318能够人工地对检测到的错误执行校正，或者可以使用可选步骤314和316。在步骤314，对所述比较信号应用模式识别。当比较信号的不同部分与系统中所存储的两个特征模式相匹配时，转录文本的相应文本部分被识别为可能的错误。在随后的步骤316中，将这些可能的错误文本部分指定为一种不同的错误类型。以这种方式收集的出错信息可以被进一步使用，以便产生建议校正来消除转录文本中的这些错误。

图4示出用于语音到文本的转录系统的错误检测系统的框图。第一语音信号400被输入到错误检测模块402。该错误检测模块402包括用于语音到文本的转录的装置并且产生文本412，该文本从错误检测模块402输出。此外，错误检测模块402被连接到图形用户接口406以及被连接到声学用户接口404。错误检测模块402进一步包括语音合成模块408、语音到文本的转录模块410、文本到语音的变换模块414以及文本412、第一语音信号418和第二语音信号416。

表示口授的自然语音信号400被输入到错误检测模块402的语音合成模块408和语音到文本的转录模块410。语音到文本的转录模块410将语音信号400转录成文本412。所产生的文本412作为转录文本被输出，并且在错误检测模块402中进行进一步的处理。因此，将文本412提供给文本到语音的变换模块414，其将转录文本412再变换成第二人工产生的语音信号416。

文本到语音的变换模块414基于从文本到语音的合成系统获知的常规技术。现在借助于声学用户接口404能够将人工产生的语音信号416与进入错误检测模块402的初始自然语音信号400进行比较。声学用户接口404例如能够通过立体声耳机来实施。在立体声耳机的左声道上可以提供自然语音信号400，而在该耳机的右声道上可以提供人工产生的语音信号416。

同时听取两个语音信号的人类校对者因此能够容易地检测到由语音到文本的转录模块410执行的错误判断和错误所引起的两个语音信号400和416之间的偏差。

由于自然语音信号400和机器产生的语音信号416之间的比较可能对于校对者而言是混淆的或是笨拙发声的，所以通过语音合成模块408对自然语音信号400应用一组滤波器函数而能够对自然语音信号400进行滤波，以便使得自然语音信号400的频谱和声音与合成的语音信号416相同。因此，语音合成模块408将自然语音信号400变换成滤波的语音信号418。与上述两个语音信号的描述类似，借助于声学用户接口404能够在听觉上将所述滤波的语音信号418以及所述合成的语音信号416提供给校对者。

另外地或可选地，借助于图形用户接口406能够以图形表示来提供所述两个产生的语音信号。在语音信号416和418的图形表示的帮助下，校对者可以跳过已经正确转录的转录文本的大部分。特别是，当错误检测模块402通过产生指示两个语音信号的巨大偏差的比较信号来提供两个语音信号416和418的进一步处理时，由语音到文本的变换模块410所产生的错误的校对过程和检测以及校正变得更加有效并且具有较少的时间消耗。进一步的优点是通过其中不同模式能够被指定为特定的错误类型的模式识别对产生的比较信号进行进一步的处理，以便有助于由人类校对者执行检测和校正任务。

参考数字的列表

400：第一语音信号

402：错误检测模块

404：声学用户接口

406：图形用户接口

408：语音合成模块

410：语音到文本的转录模块

412：文本

414：文本到语音的变换模块

416：第二语音信号

418：滤波的语音信号

Claims

1.一种用于在由自动的语音到文本的转录系统从第一语音信号中转录的文本内错误检测的方法，包括：从该转录的文本来合成第二语音信号，提供第一和第二语音信号输出来在第一和第二语音信号之间进行比较，以识别文本中可能的错误。

2.根据权利要求1所述的方法，其中第二语音信号的速度和/或音量与第一语音信号的速度和/或音量相匹配。

3.根据权利要求1或2所述的方法，其中一组滤波器函数被应用于第一语音信号，以使第一语音信号的频谱接近第二语音信号的频谱。

4.根据权利要求1至3中任何一项所述的方法，其中第二语音信号是通过下述产生的：应用逆语音转录过程，从文本中产生特征向量序列，使用(a)语音到文本的转录系统的统计模型和(b)在从第一语音信号转录为文本的过程所获得的状态序列。

5.根据权利要求1至4中任何一项所述的方法，其中通过对第一和第二语音信号相减或叠加来产生比较信号。

6.根据权利要求5所述的方法，其中在听觉上和/或在视觉上提供比较信号。

7.根据权利要求5或6所述的方法，其中当比较信号的幅度超过预定范围时，输出出错指示。

8.根据权利要求7所述的方法，其中在图形用户接口上的转录文本内在视觉上输出出错指示。

9.根据权利要求5至8中任何一项所述的方法，进一步包括比较信号的模式识别，以便对表示文本中错误类型的比较信号的预先训练的模式进行识别。

10.根据权利要求9所述的方法，其中校正建议具备在所产生的文本中检测到的错误类型。

11.一种用于语音到文本的转录系统的错误检测系统，该语音到文本的转录系统从第一语音信号(400)中提供转录的文本(412)，所述错误检测系统包括：

-用于从转录的文本(412)来合成第二语音信号(416)的装置，

-用于提供第一(400，418)和第二(416)语音信号的装置，以用于在第一和第二语音信号之间进行比较，以便识别文本(412)中可能的错误。

12.根据权利要求11所述的检测系统，其中通过对第一(400，418)和第二(416)语音信号进行相减或叠加来产生比较信号。

13.根据权利要求11或12所述的检测系统，其中为了错误检测的目的而在视觉上或在听觉上提供第一(400，418)和第二(416)语音信号和/或比较信号。

14.根据权利要求12或13所述的检测系统，其中当比较信号超过预定范围时，输出出错指示。

15.根据权利要求12至14中任何一项所述的检测系统，其中在比较信号中的不同模式被指定为转录文本(412)中的某一错误类型，并且校正建议具备在转录文本中检测到的错误类型。

16.一种用于语音到文本的转录系统的错误检测的计算机程序产品，所述语音到文本的转录系统从第一语音信号中来提供转录的文本，该计算机程序产品包括程序装置，该程序装置用于：

-从转录的文本来合成第二语音信号，

-将第二语音信号的速度和/或音量与第一语音信号的速度和/或音量相匹配，

-提供第一和第二语音信号输出，以在第一和第二语音信号之间进行比较。

17.根据权利要求16所述的计算机程序产品，该计算机程序产品包括通过对第一和第二语音信号进行相减或叠加来产生比较信号的装置。

18.根据权利要求16或17所述的计算机程序产品，该计算机程序产品包括为了错误检测的目的而在听觉上或在视觉上提供第一和第二语音信号和/或比较信号的装置。

19.根据权利要求17或18所述的计算机程序产品，该计算机程序产品包括在比较信号超过预定范围时输出出错指示的装置。

20.根据权利要求17至19中任何一项所述的计算机程序产品，该计算机程序产品包括将比较信号中的不同模式指定为转录文本中的某一错误类型并且提供具有在转录文本中检测到的错误类型的校正建议的装置。