CN1205800C

CN1205800C - 为后续的离线语音识别记录语音信息的记录设备

Info

Publication number: CN1205800C
Application number: CNB018025420A
Authority: CN
Inventors: H·F·巴托斯克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-06-29
Filing date: 2001-06-25
Publication date: 2005-06-08
Anticipated expiration: 2021-06-25
Also published as: ATE419710T1; EP1299996A1; WO2002005537A8; US6910005B2; DE60137225D1; JP2004502985A; JP4917729B2; US20020019734A1; WO2002005537A1; EP1299996B1; CN1389059A

Abstract

在用于记录口述语音信息(SI)，随后将记录下来的口述语音信息(SI)传输给语音识别装置(4，23)进行离线语音识别的记录设备(3，15)中，这个设备包括接收装置(6，16)，用于接收口述语音信息(SI)，还包括记录装置(7，19)用于在记录设备(3，15)的记录模式记录收到的口述语音信息(SI)，还包括传输装置(8，20)，用于在记录设备(3，15)的传输模式中将口述语音信息(SI)传输给语音识别装置(4，23)，这个语音识别装置用于识别传输过来的语音信息(SI)中表达的文本信息(TI)，识别出来的文本信息(TI)的质量取决于收到的语音信息(SI)的质量，还包括语音质量测量装置(13)，用于检查语音识别装置(4，23)处理语音信息(SI)的时候，记录模式中收到的语音信息(SI)的质量是否足以获得文本信息(TI)的预定识别质量，这些语音信息(SI)在传输模式中被传输装置传输，还包括反馈装置(14，25，26，27，28)，用于在记录模式中传输反馈信息(FI1，FI1，FI2，FI3)，这些反馈信息代表语音质量测量装置(13)的测量结果。

Description

为后续的离线语音识别记录语音信息的记录设备

技术领域

本发明涉及一种记录设备，用于记录口述语音信息，然后将记录下来的口述语音信息传输给语音识别装置进行离线语音识别，这个设备包括用于接收口述语音信息的接收装置，用记录设备的记录模式记录收到的口述语音信息的记录装置，以及在记录设备的传输模式将记录下来的口述语音信息传输给语音识别装置的传输装置，这个语音识别装置用于识别语音信息所表达的文本信息，识别出来的文本信息的质量取决于收到的语音信息的质量。

先有技术

上述定义的这种类型的记录设备在GB-A-2323693中可以找到，它是周离线语音识别业务的计算机服务器形成的。对于离线语音识别业务的使用，用户可以通过电话呼叫计算机服务器，对电话进行口述。计算机服务器的接收装置跟电话线和储存收到的语音信号的硬盘形成的记录设备连接。

在用户结束口述以后，记录下来的语音信号被传输给语音识别装置进行离线语音识别。语音识别装置识别语音信号表达的文本信息，离线语音识别业务的操作员随后更正识别出来的文本信息中的错误。接下来，识别出来并且经过了更正的文本信息通过电子邮件发送给离线语音识别业务的用户，这一服务的费用由用户支付。

在已知的记录设备里，已经证明了如果离线语音识别业务的用户在某些情况下进行长时间口述，而不接收任何反馈说明收到并记录下来的语音信号的质量是否足以让语音识别装置能够成功地处理随后传输过来的语音信号，就不太好。当离线语音识别业务的用户碰到这种情况，记录下来的他的口述语音信号因为例如电话线路不好而不能被语音识别装置进行处理的时候，这个用户就再也不会使用离线语音识别业务，这对于离线语音识别业务的业务提供商而言是很大的经济损失。

已知记录设备的另一个缺点是，如果识别出来的文本信息质量很差，离线语音识别业务的操作员要更正许多明显的错误。于是如果离线语音识别业务的用户在口述过程中被告知收到的语音信息的质量很差，离线语音识别业务的成本就能够明显降低。

发明概述

本发明的一个目的是提供一种记录设备，利用这种设备，离线语音识别业务的用户在口述期间已经收到反馈信号，这个信号说明在离线语音识别中收到的语音信号的质量是否足以让电路中的语音识别装置高质量地识别文本信息。

这个目的是利用第一段中定义的那种类型的记录设备来达到的，在其中提供了语音质量测量装置，用于测量记录模式中收到的语音信息的质量，在语音识别装置处理语音信息的时候，是否足以识别出预定质量的文本信息，这些语音信息由传输装置在传输模式中传输，其中有反馈装置，用于反馈记录装置记录模式中的反馈信息，这些反馈信息说明语音质量测量装置的测量结果。

这就使得记录装置的用户在口述过程中已经收到反馈信号，这个反馈信号说明收到的语音信息的质量是否足以被语音识别装置成功地处理。

口述记录机有指示灯用来让用户了解记录下来的语音信号的记录电平。于是用户可以更大声音或者更小声音地说话，以便使记录下来的语音信号的电平更合适。但是这样只监视收到的语音信号的一个或者多个参数不足以可靠地达到上述目的。

此外，采用在线语音识别方法的语音识别装置使得用户能够对着麦克风进行口述，经过了很短时间的处理以后，用户能够在监视器上获得识别出来的文字。如果用户发现识别出来的文字的质量很差，用户就可以在口述过程中根据处理过的语音信号的记录电平相应地改变他的声音大小，或者改变语音识别装置麦克风的音频特性。

在已知的口述记录机和已知的在线语音识别装置里只给出收到和处理过的语音信号的一个参数，它跟收到的语音信息是否适合随后的语音识别这样的质量测量结果没有一点关系。此外，利用已知的口述记录机和已知的语音识别装置，除了单纯给出处理过的语音信号的记录电平以外，没有任何信息说明怎样才能够提高离线语音识别的质量，这对于纯粹记录口述用于以后重播声音或者在线语音识别一点也没有必要。这样，现有技术口述记录机和语音识别装置都没有解决本发明中记录装置的问题。

根据本发明，为了做到这一点，对记录装置要记录的语音信号的记录质量进行测量，检查它的信噪比和电平是否足够高。

根据本发明为了做到这一点，需要检查用户口述的速度有多快，如果口述速度太快，就通过反馈信息请求用户降低口述速度，从而获得高质量的识别效果。

根据本发明，为了做到这一点，需要检查用户口述得是否清楚或者是否能够听懂，如果口述不太清楚，就用反馈信息请求用户口述得清楚一点，以便获得高质量识别效果。

根据本发明，为了做到这一点，在口述过程中，记录装置在收到的语音信息质量的基础之上给用户一个信号，以便获得高质量的识别效果。

通过下面对本发明实施方案的详细描述，会更加清楚地了解本发明的这些方面和其它方面。

附图描述

图1画出的是作为记录设备的一个电话应答机，通过它可以将记录下来的语音信息提供给语音识别装置，

图2画出的是一个便携式口述记录机，它可以跟一个语音识别装置连接，包括语音质量测量装置和三个发光二极管，如果需要，在接收到的语音信息的质量的基础之上给出一个信号。

详细描述

图1画出了一个离线语音识别系统1，用于实现一种离线语音识别方法，这个系统包括电话2、电话应答机3、语音识别计算机4和用户终端5。电话2和用户终端5可以供离线语音识别系统1的用户使用，他们通过电话/数据网络NET跟电话应答机3和语音识别计算机4连接。

语音识别计算机4采用语音识别软件，比方说Philips的语音识别软件SpeechMagic，从而形成一个语音识别装置用于实现离线语音识别方法。这个语音识别装置用于接收传输过来的语音信息SI的数字语音数据SD(SI)，并且识别收到的语音信息SI表达的文字信息TI，这一点人们早已知道。

识别出来的文字信息TI的质量可以用识别质量值描述，它可以是识别出来的文字信息TI中正确地识别出来的词跟识别出来的文字信息TI中包括的所有词的个数比。语音识别装置识别出来的文字信息TI的质量取决于许多因素。这些影响因素有例如语音识别装置的训练状态，语音识别装置能够识别，包括在基本词汇表里的词的个数。但是语音识别装置收到的语音信息SI的质量也是这些影响因素之一，因为如果语音信息SI的质量很差，即使是最好的语音识别装置也不能以良好的识别质量识别文字信息TI。

在口述过程中语音信息SI的质量会受到太强的背景噪声或者电话2的麦克风质量的影响，也会因为电话/数据网络NET的电话线传输特性太差而受到影响。语音信息SI中包括的模拟语音电信号SS(SI)的质量可以用语音信号SS(SI)的信噪比来描述，也可以用语音信号SS(SI)的电平来描述。

当语音识别装置要评估语音信号SS(SI)中包括的语音信息SI以识别文本信息TI的时候，也可以用其它参数来描述离线语音识别方法的语音信息SI的质量。这些参数之一是语音速度参数，它表示语音信息SI中包括的词的序列的速度，这一点将在下面更加详细地讨论。

语音识别计算机4和用户终端5都通过电子邮件软件，比方说IBM的Loutus Notes，进行工作，它们跟电话/数据网络NET连接。语音识别计算机4将识别出来的文本信息TI作为电子邮件的附件发送给离线语音识别系统1用户的用户终端5，作为离线语音识别方法的结束信号。

电话应答机3组成一个记录设备，用于记录传输给电话应答机3的口述语音信息SI，随后传输记录下来的口述语音信息SI。为此，电话应答机3包括接收装置6、记录装置7和传输装置8。

接收装置6包括一个电话插头9和一个电话接口级10。电话应答机3通过电话插头9跟电话/数据网络NET连接。离线语音识别系统1的用户可以用他的电话2拨打电话应答机3的电话号码，输入他的口述语音信息SI，他希望用他的用户终端5收到识别出来的文本信息TI。随后提供电话接口级10用于接收和传输对应于电话标准的信号和电压，大家早就知道这一点。语音信息SI的语音信号SS(SI)被电话2通过电话/数据网络NET、电话插头9和电话接口级10传输给记录装置7。

记录装置7包括一个模数转换器，用于将语音信息SI的模拟语音信号SS(SI)转换成数字语音数据SD(SI)。记录装置7还包括一个硬盘，语音数据SD(SI)记录在电话应答机3中。

记录装置7形成传输装置8的一部分，在电话应答机3的传输模式中，用于重播或者传输记录下来的语音数据SD(SI)。电话应答机3的传输装置8还包括一个数据处理级11，利用它按照一种编码方法对重播的语音数据SD(SI)进行编码，这一操作使得语音识别计算机4对语音数据SD(SI)的进一步处理更加容易。通过传输装置8的数据终端12，处理过的语音数据SD(SI)通过电话应答机3被传输给语音识别计算机4。

电话应答机3包括语音质量测量装置13，在传输装置8在传输模式中传输的语音信息SI的处理过程中，用于检查记录模式中收到的语音信息SI的质量是否足以达到识别出来的文本信息TI的预定质量要求。为此，语音质量测量装置13用于测量语音信号SS(SI)的信噪比、语音信号SS(SI)的电平和语音信息SI的语音速度参数。

为了测量信噪比，确定每一个50毫秒的语音信号SS(SI)时隙的频谱部分的能量，计算确定出来的能量的频率分布。通过这种方式确定出来的频率分布曲线越宽，语音信号SS(SI)的信噪比越小。专家们对于进一步比较电信号以确定信噪比的方法非常了解。

如果信噪比太小，语音信号SS(SI)中就包括较多的噪声部分，在语音信号SS(SI)的模数转换过程中就会导致干扰，结果是语音数据SD(SI)中包括的语音信息SI不再对应于用户说出来的语音信息SI。信噪比太小的语音信号SS(SI)中包括的语音信息SI经过语音识别装置识别以后质量较低。

为了测量语音信号SS(SI)的电平，将确定出来的频谱部分的能量分量加在一起，而能量分量的尖峰则被丢弃。如果语音信号SS(SI)的电平太低，叠加在语音信号SS(SI)上的噪声信号的效果就会比语音信号SS(SI)电平足够高的时候更加明显。因此，语音信号SS(SI)的电平太低说明语音信号SS(SI)的质量太差。

为了测量语音速度，语音质量测量装置13确定语音信息SI的语音速度参数。为此目的，语音质量测量装置13中提供的时间测量装置确定语音信号SS(SI)中具有大能量分量的相邻部分的时间距离。通过这种方式确定出来的时间距离越短，语音信息SI中的声音越快，用户离线语音识别系统1的用户说得就越快。

如果语音速度参数说明用户说话速度相对较快，离线语音识别方法处理的语音信息SI的质量就较差。这样的语音信息SI经过语音识别装置识别以后质量会较差，结果是在这种情况下语音识别装置识别出来的文本信息TI的质量很差，识别质量值很小。

语音质量测量装置13对语音信号SS(SI)的测量每隔10秒钟进行一次，然后将收到的语音信息SI的质量测量结果作为语音质量信息QI传输给电话应答机3的反馈装置14。10秒钟进行一次语音信号SS(SI)测量使得语音信号SS(SI)短暂的质量下降，例如因为电话线路上的噼啪声，不会导致语音质量信息QI的值很小。

激活电话应答机3中的记录模式，并且收到的语音质量信息QI的值很小时，反馈装置14将反馈信息FI传递给离线语音识别系统1的用户。于是反馈信息FI说明语音质量测量装置13的测量结果。

这样做的优点是如果电话应答机3收到的语音信息SI的质量太差以至于不能在随后的离线语音识别方法中用足够高的质量识别出文本信息TI，离线语音识别系统1的用户在口述过程中就已经收到了反馈信息FI。因此，用户能够立即对反馈信息FI做出反应，从而避免他的整个口述因为语音信息SI的质量太差而无法使用这种情况出现。

下面将参考实施方案实例进一步说明离线语音识别系统1的操作和电话应答机3的优点。假设离线语音识别系统1的用户是一个医师，他想口述他的发现。进一步假设这个医师已经通过了离线语音识别系统1的识别程序，并且通过图1中没有说明的一种方式，已经将这个医师的电话2的电话号码和这个医师的信用卡号码储存在离线语音识别系统1中，用于设置离线语音识别服务费用。

这个医师现在拨打电话应答机3的电话号码，听它间断地说明如何使用这个离线语音识别系统1。电话接口装置10通过电话协议中发送过来的电话2的电话号码识别主叫方，从而能够为离线语音识别服务计费。然后启动电话应答机3的记录模式，医师开始说或者口述他的发现。接收装置6收到作为语音信号SS(SI)，说出来的词的语音信息SI，将语音数据SD(SI)储存在记录装置7的硬盘上。

虽然这个医师正在口述，但是他的助手进入房间并且打开窗户，街上进来的噪声成为电话应答机收到的语音信息SI中比较强的背景噪声。这个医师正专心口述，没有注意到这一点，继续口述他的发现。

由于一直在测量信噪比、电平和语音速度，语音质量测量装置13发现语音信号SS(SI)的信噪比已经下降了很多，发送一个语音质量信息QI给反馈装置14。反馈装置14随后重播反馈装置14中记录下来的文字，作为反馈信息，告诉用户他的房间里背景噪声太大。对应于这个重播文本的语音信号SS(SI)通过电话插头9和电话/数据网络NET提供给电话2。通过反馈文字FI，进一步请求用户降低背景噪声，否则识别出来的文字信息TI会有许多错误。

这样做的优点是这个医师立即就知道了从打开窗户开始，就出现了背景噪声太强，口述文字对应的识别出来的文本信息TI中错误太多这个问题。在反馈文本FI的提醒下，这个医师关好窗户，继续口述，从而解决背景噪声太强的问题。

医师停止口述以后，关闭电话呼叫，此时电话应答机从记录模式转换成传输模式，将记录下来的这个医师的口述语音数据SD(SI)传输给语音识别计算机4。如果在传输语音数据SD(SI)的时候离线语音识别系统1的另一个用户呼叫电话应答机3，传输模式就中断，晚些时候再继续下去。

语音识别计算机4形成的语音识别装置随后识别传输过来的语音数据SD(SI)表达的文本信息TI，并且将它作为一个电子邮件附件传输给这个医师的用户终端5。这个医师于是从他的口述电子邮件收到识别得到的文本，离线语音识别服务的费用记在他的信用卡账号上。

根据离线语音识别系统1的另一个实施方案实例，这个医师拨打电话应答机3的电话号码，而在这个时候电话/数据网络NET的电话线的传输质量较差。这一点被语音质量测量装置14证实，在对医师最先说出来的词的语音信号SS(SI)进行测量的过程中发现信噪比很低，语音信号SS(SI)的电平很低。

在口述完最前面的一些词以后，这个医师从反馈装置14收到反馈信息FI，这个反馈信息请求他结束电话呼叫，并且重新呼叫，因为电话线路的质量太差。通过这种方式，再一次避免了医师口述整个文本给电话2，但是因为识别出来的文字的质量太差而无法让离线语音识别系统1满意。

记录装置的提醒反馈信息FI能够告诉离线语音识别系统1的用户必须更正许多错误。因此，作为立即反馈信息给用户的结果，雇主能够节省工作时间，从而使离线语音识别服务能够用一种更加经济的方式提供。

图2画出的是用户的手持式数字口述记录机15，它也能够形成离线语音识别的记录装置。用户口述的语音信息SI被接收装置16收到，这个接收装置16包括一个麦克风17和一个信号处理级18。

在口述记录机15的记录模式中，信号处理级18传输过来的语音信息SI的语音信号SS(SI)可以被记录装置19储存起来，它包括一个模数转换器和一个电池支持作为存储媒介的快闪RAM。

记录装置19组成传输装置20的一部分，并且在口述记录机15的传输模式中传输包括记录下来的语音信息SI的数字语音数据SD(SI)给传输装置20的数据处理级21。数据处理级21用于处理重播的语音数据SD(SI)，并且将处理过的语音数据SD(SI)传输给数据终端22。

口述记录机15可以用它的数据终端22跟一个语音识别计算机23连接，它运行一个语音识别软件。语音识别计算机23从口述记录机15传输过来的语音信息SI识别出来的文本信息TI被语音识别计算机4传输给一个监视器24，并且在那里显示出来。

口述记录机15还包括语音质量测量装置13，它的工作方式对应于图1所示语音质量测量装置13的工作方式。语音质量测量装置确认的语音质量信息QI可以传输给反馈装置25和记录装置19。

当语音质量测量装置13确认语音信号SS(SI)信噪比太小的时候，反馈装置25传输打开电压作为第一个反馈信息FI1给发光二极管26。当语音质量测量装置13确认语音信号SS(SI)的电平太低的时候，反馈装置25进一步将打开电压作为第二个反馈信息FI2传输给发光二极管27。当语音质量测量装置13在语音信号SS(SI)的基础之上确认用户说得太快的时候，反馈装置25还要将打开电压作为第三个反馈信息FI3传输给发光二极管28。

下面参考一个实施方案实例进一步说明口述记录机15的工作方式。根据这个实施方案实例，假设口述记录机15的用户正在行走的时候想用口述记录机15进行口述，到达地方的时候用它的语音识别计算机23对记录下来的口述内容进行处理，并且在显示器24上显示识别出来的文本信息TI。

为此，用户启动口述记录机15的记录模式，开始记录口述内容。由于用户非常匆忙，他口述得非常快，因此在这个时候口述记录机15记录下来的语音信息SI的语音速度太快，很难用离线语音识别方法和语音识别计算机23以足够高的质量识别文本信息TI。

于是语音质量测量装置13将语音质量信息QI传输给反馈装置25，将第三个反馈信息FI3传输给发光二极管28。因此，发光二极管28开始发光，告诉用户他说得太快，记录下来的语音数据SD(SI)不适合于离线语音识别。

注意到发光二极管28闪光的用户发现他说得太快，因此降低速度。这样一来，发光二极光28停止发光，从这个时候开始记录下来的语音数据SD(SI)适合于语音识别计算机23进行处理。

记录装置19记录语音数据SD(SI)传递过来，语音质量测量装置13确定的语音质量信息，将它跟语音数据SD(SI)一起传输给口述记录机15传输模式中的语音识别计算机23。

这样做的优点是处理包括质量很差的语音信息SI的时候，语音识别计算机可以用于采取适当的措施处理这些语音数据SD(SI)，获得尽可能高的语音识别质量。这样的措施可以包括例如对收到的数字语音数据SD(SI)进行适当预处理。

可以看出，这个时候的离线语音识别方法是这样一种语音识别方法，用户不能在口述的时候立即看到识别出来的语音信息SI的文本信息TI，而在在线语音识别方法中则是这样。这样的在线语音识别方法是用例如Philips的FreeSpeech 2000语音识别软件来实现的。

可以看出作为记录装置记录和传输语音信息SI的一个结果，收到的语音信息SI的质量一点也没有下降，因为语音信息SI是作为数字语音数据SD(SI)记录下来的。结果，如上所述，通过语音质量测量装置测量收到的模拟语音信号SS(SI)的质量，可以推断出语音识别装置收到和处理过的数字语音数据SD(SI)的质量。

可以看出离线语音识别方法的语音信息SI的质量也可以用其它参数也就是可理解性参数来描述。通过语音质量测量装置静态地分析语音信号的连续频率部分，可以搞清楚语音信号SS(SI)是包括语音信息SI还是只包括噪声或者音乐。可理解性参数也可以通过交替地分析语音信号SS(SI)来确定，其中语音信号SS(SI)不同参数幅度(平均能量、频谱、过零点、音调)都用于给语音信号SS(SI)分类。

当确定出来的用于说明语音信号SS(SI)中是否包括语音信息SI的可理解性参数的门限比较高的时候，用户以不清楚或者很难听懂的方式说出来的语音信息SI会被当作噪声。通过这种方式，本发明的记录装置能够传输反馈信息FI给用户，这些信息告诉用户他说的话口齿不太清楚。于是用户开始说得清楚一点，从而提高识别出来的文本信息TI的质量。

Claims

1.一种记录设备(3，15)，用于记录口述语音信息(SI)，并且随后将记录下来的口述语音信息(SI)传输给一个语音识别装置(4，23)，用于进行离线语音识别，这种装置包括

-用于接收口述的语音信息(SI)的接收装置(6，16)，在记录设备(3，15)的记录模式中记录收到的口述语音信息(SI)的记录装置(7，19)和

-记录设备(3，15)的传输模式中将记录下来的口述语音信息(SI)传输给语音识别装置(4，23)的传输装置(8，20)，这个语音识别装置用于识别传输过来的语音信息(SI)中包括的文本信息(TI)，识别出来的文本信息(TI)的质量取决于收到的语音信息(SI)的质量，

语音质量测量装置(13)，当语音识别装置(4，23)处理语音信息(SI)的时候，用于测量记录模式中收到的语音信息(SI)的质量是否足以获得预定的文本信息(TI)识别质量，这些语音信息(SI)被传输模式中的传输装置传输，和

-反馈装置(14，25，26，27，28)，用于在记录模式传输反馈信息(FI，FI1，FI2，FI3)，反馈信息代表语音质量测量装置(13)的测量结果。

2.权利要求1的记录设备(3，15)，其中的接收装置(6，16)用于接收包括语音信息(SI)的语音信号(SS(SI))，其中的语音质量测量装置(13)用于测量收到的语音信号(SS(SI))的信噪比，当信噪比太低的时候，反馈装置(14，25，26)可以传输相应的反馈信息(FI，FI1)。

3.权利要求1的记录设备(3，15)，其中的接收装置(6，16)用于接收包括语音信息(SI)的语音信号(SS(SI))，其中的语音质量测量装置(13)用于测量收到的语音信号(SS(SI))的电平，当这一电平太低的时候，反馈装置(14，25，27)可以传输相应的反馈信息(FI，FI2)。

4.权利要求1的记录设备(3，15)，测量收到的语音信息(SI)的时候语音质量测量装置(13)用于确定用户的语音速度，当语音速度太快的时候，反馈装置(14，25，28)可以传输相应的反馈信息(FI，FI3)。

5.权利要求1的记录设备(3，15)，测量收到的语音信息的时候其中的语音质量测量装置(13)用于确定用户口述词的可理解性或者清晰程度，当用户说的话无法理解或者不太清楚的时候，反馈装置可以传输相应的反馈信息(FI)。

6.权利要求1的记录设备(3，15)，其中的反馈装置(14，25，26，27，28)用于传输反馈信息(FI，FI1，FI2，FI3)，告诉用户如何能够提高收到的语音信息(SI)的质量。

7.权利要求1的记录设备(15)，其中的记录装置(15)是用手持式口述记录机(15)形成的。

8.权利要求1的记录设备(3)，其中的接收装置(6)可以跟电话线(NET)或者数据线(NET)连接起来，用于接收语音信息(SI)。