CN1223987C

CN1223987C - 中止自动转换的转换服务设备及方法

Info

Publication number: CN1223987C
Application number: CNB028006992A
Authority: CN
Inventors: H·F·巴托斯克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-03-16
Filing date: 2002-03-13
Publication date: 2005-10-19
Anticipated expiration: 2022-03-13
Also published as: EP1374226A1; US20030125951A1; EP1374226B1; ATE300084T1; JP2004519729A; DE60205095T2; DE60205095D1; CN1459091A; WO2002075724A1; US7174296B2; JP4738716B2

Abstract

转换系统(5)包括用于自动转换口述材的料转换设备(9)并且还使用录入员(6)，录入员(6)人工地录入某些口述材料。转换设备(9)包含有中止装置，它用于在口述音频数据(AI)的质量或自动录入的文本数据(ATTI)的质量是差的从而校正自动录入的文本数据(ATTI)中的识别错误比从开始就人工录入口述材料需要更多的努力的情况下中止转换设备(9)对口述材料的处理并将口述材料重传给录入员(6)之一，以便人工录入。

Description

中止自动转换的转换服务设备及方法

本发明涉及一种转换设备，可将口述的音频数据提供给该设备，并且，上述设备被设计成能通过该设备的语音识别软件自动地输出与前述音频数据相关的文本数据。

本发明还涉及一种转换方法，其中可以接收口述的音频数据，并且，上述方法设计成能在执行该转换方法期间自动地输出与前述音频数据相关的文本数据。

文件WO00/46787公开了一种转换服务，它用于基本上自动地转换口述材料，在其第一段落中所述的转换设备执行其第二段落的转换方法。该已知系统的用户可通过数据网络将他/她的数字音频数据形式的口述音频数据发送给具有服务器形式的转换设备。

当用户第一次使用转换服务时，由转换服务的雇员(录入员)人工地录入用户的口述材料。转换服务的另一个雇员(校对员)检查录入员录入的文本并对其中含的有错误进行校订。然后，把由转换服务根据用户的口述材料人工录入的文本数据连同发票传送给用户。

已知的转换设备运行对于转换设备的用户来说是适用的语音识别软件，在该设备中存储有用户基准。由转换设备自动识别的文本数据的质量基本上取决于该语音识别软件迄今为止被训练成适合于该用户的适应程度。已知的转换设备用来自用户口述材料的音频数据以及人工录入的文本数据训练语音识别软件并将改进后的用户基准存储起来。

当用户经常使用转换服务时，就额外地将其口述音频数据提供给转换设备，以便进行自动转换。然后，将转换设备自动录入的文本数据与校对员人工录入的文本数据作比较。如果在自动录入的文本数据中包含有较少的识别误差，则以后从这一用户接收的口述材料首先由转换设备来自动地录入并由校对员人工地进行校对。转换服务中存储着用户设置集，该设置集决定了以何种方式转换给定用户的口述材料。

已知的转换服务还提供了系统管理员选项，从而，即使自动录入已达到了自动录入的文本数据中有较少的错误，也能按完全手工地录入来自用户的口述材料的方式在一段有限的时间内改变用户设置集。这种对用户设置集的改变是由系统管理员在被告知用户病了或做牙科治疗即被告知会导致因用户发音变化而有较差识别率的自动转换这样的事实时来进行的。

业已证明，已知转换服务的缺点是，就转换设备的自动转换而言，自动识别的文本数据包含有非常大量的识别误差，从而，校对员要花费大量时间校对识别错误。

专利文献US5,033,088还公开了具有对呼叫者语音信息的自动、以及最终人工支持的响应的设备。呼叫者的语音信息被记录并被馈送到该设备的语音识别系统中。如果语音识别系统的结果不可靠，则所述结果和所记录的语音信息被提供给服务人员以供检查和校正。

如果转换设备使用这种解决方案以用于自动转换口述材料，则将出现以下的问题，即由于接收到的音频数据的低质量，将会妨碍转换设备把也许是大量的音频数据转换成自动录入的文本数据，而甚至没有成功转换的可能性。

本发明的一个目的是提供第一段落中所述类型的转换设备、第二段落中所述类型的转换方法，利用它们可避免上述缺点。

为了达到上述目的，为这种转换设备提供了按照本发明的各种特性，使得所述转换设备具有如下特征：

一种转换设备，它用于自动转换口述材料，该转换设备具有：

接收装置，它用于接收口述音频数据；并具有

语音识别装置，它用于将接收到的音频数据转换成自动录入的文本数据；并具有

输出装置，它用于输出自动录入的文本数据；并具有

中止装置，它用于在语音识别装置所进行的自动转换将要或已经产生具有较大量可能的识别错误的低质量自动录入文本数据的情况下中止转换设备对口述材料的处理，所述中止装置被设计成检查接收到的用于由语音识别装置所进行的下游语音识别的音频数据的质量，并且在接收到的音频数据的质量不允许进行成功的自动转换的情况下中止转换设备对口述材料的处理。

为了达到上述目的，为这种转换方法提供了本发明的各种特征，使得所述转换方法具有如下特征：

一种用于自动转换口述材料的转换方法，其中执行下列步骤：

接收口述音频数据；

将接收到的音频数据转换成自动录入的文本数据；

输出自动录入的文本数据；

在自动转换过程中所产生的自动录入的文本数据将要或已经具有较大量可能的识别错误从而是低质量的情况下中止对口述材料的处理；

检查接收到的用于下游语音识别的音频数据的质量，其中，检查含有接收到的音频数据的音频信号的信噪比；

在接收到的音频数据的质量不允许进行成功的自动转换的情况下中止对口述材料的处理。

通过这种方式，可以获得这样的优点即：依照上述转换方法，若确定了由于接收到的音频数据的低质量而使仍被自动录入的文本数据或已自动录入的文本数据将要包括或已经包括了太多的识别错误，以致于校对员不得不花费比录入员从开始人工录入口述材料所需时间更多的时间去修订这些错误，则转换设备中止对用户口述材料的自动处理。通过这种方式，能尽快地中止对有问题的口述材料的最终的不成功的自动转换。从而能最佳地更有效地利用录入员和校对员的工作时间，并且，还能节省运行该计算机软件的服务器的计算能力。

此外，可获得这样的优点即：所述转换设备检查接收到的口述音频数据的质量，从而在使用语音识别装置进行实际的自动转换之前决定是否能对所述的音频数据进行成功的自动转换。

依照各实施例的措施，可获得这样的优点即：可确定用于后续语音识别的口述音频数据的质量的有意义的指标。根据这些指标，可就继续或中止用转换设备对口述材料的处理作出合理的决断。

依照各实施例的措施，自动录入的文本数据中的可能不正确识别的字的数量与在转换设备所确定的“置信度”的基础上自动录入的文本数据中的所有字的数量相关。如果这种计算产生低于错误阈值的错误率，则中止用转换设备进行的处理，并且，不将自动录入的文本数据提供给校对员。

依照各实施例的措施，可获得这样的优点即：在中止了转换设备的处理之后立即由转换设备重新传输有问题的口述音频数据，以允许进行人手转换。

以下参照附图所示的实施例实例来进一步说明本发明，但本发明并不局限于上述实例。

图1示出了一种转换系统，用户可将口述音频数据发送给该系统，由此，用户可从转换系统接收根据口述材料录入的文本数据和发票。

图1示出了用户终端1、2和3，它们通过因特网NET与转换系统5的服务器4相连。用户终端1呈计算机的形式，话筒与该计算机相连。计算机用户可将材料口述进话筒，然后，通过运行在计算机上的声音录制软件将这种材作为数字音频数据存储在计算机的硬盘上。计算机将数字音频数据作为音频数据AI传给服务器4。音频数据AI在这种情况下还包含有标识用户的用户信息序列。

用户终端2呈电话和计算机的形式。用户终端2的用户可用电话通过因特网NET拨叫服务器4并将材料口述进电话，这种材料作为音频数据AI传给服务器4。

用户终端3呈数字口述机和计算机的形式。用户终端3的用户可用口述机来将口述材料作为数字音频数据录制下来并在以后将其拷贝到计算机硬盘上。计算机将数字音频数据作为音频数据AI传给服务器4。

可用转换系统5来录入传给服务器4的口述音频数据AI即将其转换成录入的文本数据TI。然后，服务器4将转换系统5录入的文本数据TI传给与用户终端1、2或3相关的计算机，通过这些计算机来接收音频数据AI。最后由与相应用户终端1、2或3相关的计算机将通过用户终端1、2或3接收的录入文本数据显示给用户，用户终端是以下将予以详细说明的装置。

可按人工和自动的两种方式来录入提供给服务器4的音频数据AI。由转换系统5的多个雇员(称为录入员)来进行人工转换，录入员用符号表示为录入员6。就人工转换而言，正如长期所周知的那样，录入员6听口述的音频数据AI并同时用计算机写下呈人工录入的文本数据MTTI形式的口语文本。

转换系统5的其它雇员(称为校对员，用符号表示为校对员7)从录入员6接收人工录入的文本数据MTTI以及相关的口述音频数据AI。校对员7再次听口述的音频数据AI、检查人工录入的文本数据MTTI的转换错误并且校正所发现的任何转换错误。将校对员7所检查的人工录入的文本数据MTTI作为录入的文本数据TI提供给服务器4，从而提供给相应的用户设备1、2或3。

服务器4包括具有服务器4所运行的软件模块的形式的接口装置8和调制解调器。接口装置8设计成能从用户设备1、2和3接收音频数据AI并且能将接收到的音频数据AI再传给录入员6。校对员7将录入的文本数据TI提供给接口装置8，接口装置8则将该数据传给正确的用户设备1、2或3。

服务器4还包括转换设备9，它用于根据转换方法自动地转换口述音频数据AI。为此，转换设备9运行构成了计算机软件产品的语音识别软件。这类语音识别软件的一个实例是Phillps公司用“SpeechMagic”名称出售的软件。

转换设备9包括用于按收口述音频数据的接收装置，该接收装置呈接口装置8的形式。转换设备9还包括三个语音识别装置10、11和12，它们设计成能将接收的音频数据A I转换成自动录入的文本数据ATTI。服务器4并行地运行语音识别软件三次，从而形成了三个语音识别装置10、11和12。通过这种方式，可并行地处理来自三批口述材料的音频数据AI，从而能提高转换设备3的处理能力。

转换设备9还包括输出装置13，语音识别装置10、11和12可将自动录入的文本数据ATTI提供给该输出装置。输出装置13设计成能将口述音频材料AI连同通过语音识别装置10、11或12之一自动录入的文本数据ATTI提供给校对员7。校对员7再次听口述的音频数据、检查自动录入的文本数据ATTI的转换错误并校正这些错误。

从文件WO00/46787中周知有诸如上述之类的转换系统5，上述文件的内容通过引用可视为构成了本文件内容的一部分。接口装置8将要录入的音频数据AI提供给录入员6以便人工转换或者提供给转换设备9以便自动转换。这方面，如文件WO00/46787所述那样，要考虑用户过去是否经常使用转换系统5。

转换设备9包括中止装置，它用于在语音识别装置10、11或12所进行的自动转换会将要或已经产生了有较大量的识别错误的质量差的自动录入的文本数据ATTI的情况下中止转换设备9对口述音频的处理。转换设备9的第一中止装置14设计成能检查接收到的用于由语音识别装置10、11或12所进行下游语音识别的音频数据AI的质量并且能在接收到的音频数据AI的质量不允许进行成功的自动转换的情况下中止转换设备9对口述材料的处理。

第一中止装置14包含第一检查装置15和监视装置16。第一检查装置15包括模拟/数字转换器，用该转换器将按数字音频数据形式接收的音频数据AI转换成模拟音频信号。如通常周知的那样，第一检查装置15设计成能作为第一次检查而检查模拟音频信号的信噪比。如通常所周知的那样，第一检查装置15设计成能作为第二次检查而检查模拟音频信号的电平。

如果在第一次检查期间第一检查装置15发现模拟音频信号的信噪比比S/N阈值(例如S/N阈值＝20dB)差，则第一检查装置15将第一中止信号ABI1提供给监视装置16。如果在第二次检查期间第一检查装置15发现模拟音频信号的电平比电平阈值(例如电平阈值＝-30dB)差，则第一检查装置15将第二中止信号ABI2提供给监视装置16。此外，将第一检查装置15所检查的音频数据AI再传给监视装置16。

如果由于检查的结果第一检查装置15既没将第一中止信号ABI1也没将第二中止信号ABI2提供给监视装置16，则监视装置16将音频数据AI重传给语音识别装置10、11或12中当前可用的一个。

通过这种方式，可获得这样的优点即：如果接收到音频数据AI对语音识别装置10、11或12所进行的下游语音识别来说是足够好的，则转换设备9就执行对口述音频数据AI的自动转换。因此，服务器4的计算能力能最佳地投入使用，因为，仅录入了其音频数据AI具有高质量的口述材料。

另一方面，如果作为检查的结果第一检查装置15将第一中止信号ABI1和/或第二中止信号ABI2提供给监视装置16，则监视装置16将音频数据AI重传给录入员6。这方面，监视装置16构成了重传输装置。

通过这种方式，可获得这样的优点即：如果接收到音频数据AI对语音识别装置10、11或12所进行的下游语音识别来说不是足够好的，则转换设备9就根本不执行对口述音频数据AI的自动转换并开始人工转换。这方面，特别的优点是，监视装置16立即将这种口述音频数据AI自动地重传给录入员6以便人工转换。

正如本技术的专家长期所周知的那样，在将音频数据AI转换成自动录入的文本数据ATTI的情况下，语音识别装置10、11和12设计成去确定为自动录入的文本数据ATTI的每个字的所谓的“置信度”。一个字的“置信度”是概率值，它表示该字能被语音识别装置10、11或12正确识别的概率。语音识别装置10、11和12设计成能将可靠性信号ZI提供给输出装置13，输出装置13给出用于自动录入的文本数据ATTI的各字的“置信度”。

转换设备9的输出装置13还构成了第二检查装置，它能进行第三次检查。在第三次检查中，第二检查装置检查：自动录入的文本数据ATTI有多少个字数K其概率值比阈值概率值(例如阈值概率值＝50％)低。

如果自动录入的文本数据ATTI的每N个字的识别错误数K大于错误阈值(例如错误阈值＝20％)，则第二检查装置将第二中止信号ABI3提供给监视装置16。这方面，输出装置13的第三检查装置连同监视装置16构成了第二中止装置。如果监视装置16接收到第三中止信号ABI3，则监视装置16将这一口述音频数据AI提供给录入员6。

通过这种方式，可获得这样的优点，不将包含有大量识别错误的自动录入的文本数据ATTI输出给校对员7，因为，校对员7在这种情况下要比录入员6从开始人工地录入上述口述材料需要更多的时间去进行必要的校正。

以下参照三个应用实例详细说明本发明转换设备9的优点。依照第一个应用实例，假定医生经常使用转换系统5提供的转换服务。所以，语音识别装置10、11和12包含存储的用户标识，这些标识是针对根据业已录入的口述音频数据AI所确定的医生的。语音识别装置1 、11和12能根据医生口述的材料产生自动流入的文本数据ATTI，它具有很少的识别错误。

医生使用他的用户终端2，其中，医生在通过电话呼叫服务器4并识别了自身之后将材料口述进电话。但是，在这种情况下，医生忘记关闭其诊室窗户，为此，街道上的噪音会叠加到口述音频数据AI上。

由于医生口述的材料通常已能由转换设备9成功地进行自动转换，故接口装置8将接收到的音频数据AI传给第一检查装置15。第一检查装置通过第一次检查确定包含音频数据AI的音频信号的信噪比对于要利用语音识别装置10、11或12之一来自动转换以得到其识别错误达到可接受水平的自动录入的文本数据ATTI来说是太差了。并将第一中止信号ABI1提供给监视装置16。通过第二次检查，第一检查装置15确定包含音频数据AI的音频信号的水平是足够好的，所以不将第二中止信号ABI2提供给监视装置16。

第一中止装置14有利地设计成在语音识别装置10、11或12开始自动转换音频数据AI之前中止转换设备9对口述材料的处理。在这种情况下，监视装置16将接收到的音频数据AI重传给录入员6以便在接收到第一中止信号ABI1之后人工地进行转换。因此，录入员6人工地录入上述叠加有街道上噪音从而难以录入的口述材料，然后将其传给校对员7。

因此，证实了能最佳地使整个人工和因而是由录入员6和校对员7就口述材料所进行的成本密集的工作达到最小，因为，校对员7将要花费非常长的时间去修订自动录入的文本数据ATTI。

依照第二个应用实例，假定因病人在医生的诊室内睡着了，医生正在非常轻声地口述另外的项目。通过对医生的另外口述项目的音频数据AI的第二次检查，第一检查装置15确定包含音频数据AI的音频信号的电平低于电平阈值并将第二中止信号ABI2提供给监视装置16。第一中止装置14据此在自动转换之前中止对上述另外的口述项目的处理，从而，可获得上述优点。

依照第三个应用实例，假定医生正口述另外的项目并将其传给转换系统5以便转换。还通过接口装置8将所述另外的口述项目重传给转换设备9。由于口述音频数据AI的质量是足够好的，故第一检查装置既不将第一中止信号ABI1也不将第二中止信号ABI2提供给监视装置16。

第二语音识别装置11据此录入上述另外的口述音频数据AI，其中，由第二识别装置11自动录入的文本数据ATTI展示出自动录入的文本数据ATTI的每100字有超过错误阈值的多个识别错误。这是因为，医生在口述时声音是哑的，并且，他/她的发音与通常是不同的。

输出装置13的第三检查装置自动地观察到，在执行第三次检查时，识别错误的数量超过错误阈值并据此将第三中止信号ABI3提供给监视装置16。监视装置16据此将上述另外的口述音频数据AI重传给录入员6，从而，可获得上述优点。

应该认识到，本发明的转换设备还可包括检查装置，它用于检查接收到的音频数据并用于检查中间结果的质量或自动转换的最终结果。根据这些检查，所述中止装置决定转换设备中止对口述材料的处理是否有利。

应该认识到，本发明的中止装置还可以设置在提供联机转换的转换设备内。

应该认识到，校对员通常只对人工录入的文本数据MTTI进行抽查。

应该认识到，所述语音识别装置可类似地包括中止装置，该装置例如在执行转换上述接收到的音频数据20秒之后比较根据音频数据自动录入的文本数据的质量与错误阈值并有选择地中止处理。这就能获得这样的优点即：还可在自动转换过程中中止对接收到的音频数据的处理。

应该认识到，所述第一中止装置还设计成能检查接收到的音频数据的非线性失真。例如当音频信号被过载时或在对音频数据压缩或解压缩期间出现问题时会出现这种非线性变形。由于在接收到的音频数据表现出非线失真的情况下语音识别装置的识别率是较差的，故在非线性失真太大的情况下中止对音频数据的处理是有利的。

Claims

1、一种用于自动转换口述材料的转换设备(5)，该转换设备具有：

接收装置(8)，它用于接收口述音频数据(AI)；并具有

语音识别装置(10、11、12)，它用于将接收到的音频数据(AI)转换成自动录入的文本数据(ATTI)；并具有

输出装置(13)，它用于输出自动录入的文本数据(ATTI)；并具有

中止装置(13、14、16)，它用于在语音识别装置(10、11、12)所进行的自动转换将要或已经产生具有较大量可能的识别错误的低质量自动录入文本数据(ATTI)的情况下中止转换设备(5)对口述材料的处理，所述中止装置(14)被设计成检查接收到的用于由语音识别装置(10、11、12)所进行的下游语音识别的音频数据(AI)的质量，并且在接收到的音频数据(AI)的质量不允许进行成功的自动转换的情况下中止转换设备(5)对口述材料的处理。

2、如权利要求1的转换设备(5)，其特征在于，所述中止装置(14)被设计成检查含有接收到的音频数据(AI)的音频信号的信噪比。

3、如权利要求1的转换设备(5)，其特征在于，所述中止装置(14)被设计成检查含有接收到的音频数据(AI)的音频信号的电平。

4、如权利要求1的转换设备，其特征在于，所述中止装置被设计成检查含有接收到的音频数据的音频信号是否具有非线性失真。

5、如权利要求1的转换设备(5)，其特征在于，所述中止装置(13)被设计成检查自动录入的文本数据(ATTI)的质量，并且如果自动录入的文本数据(ATTI)在自动录入的文本数据(ATTI)的每N个字中包含有超过错误阈值的多个可能的识别错误，则中止转换设备(5)对口述材料的处理。

6、如权利要求1的转换设备(5)，其特征在于，设置有重传装置(16)，该装置被设计成在中止了转换设备(5)对口述材料的处理之后重传接收到的音频数据(AI)，以便允许人工地转换口述材料。

7、一种用于自动转换口述材料的转换方法，其中执行下列步骤：

接收口述音频数据(AI)；

将接收到的音频数据(AI)转换成自动录入的文本数据(ATTI)；

输出自动录入的文本数据(ATTI)；

在自动转换过程中所产生的自动录入的文本数据(ATTI)将要或已经具有较大量可能的识别错误从而是低质量的情况下中止对口述材料的处理；

检查接收到的用于下游语音识别的音频数据(AI)的质量，其中，检查含有接收到的音频数据(AI)的音频信号的信噪比；

在接收到的音频数据(AI)的质量不允许进行成功的自动转换的情况下中止对口述材料的处理。

8、如权利要求7的转换方法，其特征在于，还执行下列步骤：

检查接收到的用于下游语音识别的音频数据(AI)的质量，其中，检查含有接收到的音频数据(AI)的音频信号的电平；

9、如权利要求7的转换方法，其特征在于，还执行下列步骤：

检查自动录入的文本数据(ATTI)的质量；

如果自动录入的文本数据(ATTI)在自动录入的文本数据(ATTI)的每N个字中包含有超过错误阈值的多个可能的识别错误，则中止对口述材料的处理。

10、如权利要求7的转换方法，其特征在于，还执行下列步骤：

重传接收到的音频数据(AI)，以便在中止了对口述材料的处理的情况下允许对口述材料进行人工转换。