CN100587808C

CN100587808C - 用于话音消息编辑的方法和装置

Info

Publication number: CN100587808C
Application number: CN200680004916A
Authority: CN
Inventors: S·格勒格尔; S·J·哈顿; J·利斯特; T·D·波尔特尼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-02-16
Filing date: 2006-01-24
Publication date: 2010-02-03
Anticipated expiration: 2026-01-24
Also published as: WO2006087256A1; ATE442647T1; IL184915A0; BRPI0607655B1; DE602006009078D1; AU2006215727B2; US7706512B2; GB0503162D0; TW200707240A; TWI370977B; CN101120402A; BRPI0607655A2; EP1854096B1; US20060182238A1; IL184915A; EP1854096A1; CA2590739C; AU2006215727A1; CA2590739A1

Abstract

此说明书涉及一种用于话音消息编辑的方法和装置。具体而言，其涉及一种用于将话音邮件段接合到一起的方法和装置。描述了一种用于在交互式话音响应系统(IVR)上形成由用户讲出的话音消息的系统、方法和计算机程序产品，包括：记录第一话音消息，其中用户讲出第一话音消息但是在所述第一话音消息的最后部分中出现错误；记录第二话音消息，其中用户再次讲出没有错误的最后部分；确定所述第一和第二话音消息中的接合点；以及将所述第一和第二话音消息在所述接合点进行接合，从而所接合的第一和第二话音消息成为包括所述最后部分但不包括错误的连续话音消息。

Description

用于话音消息编辑的方法和装置

技术领域

本发明涉及一种用于话音消息编辑的方法和装置。具体而言，本发明涉及一种用于将话音邮件段接合到一起的方法和装置。

背景技术

交互式话音响应系统(IVR)是连接到电话网络的计算机并提供电话网络和计算机之间的集成。电话网络可以是简单的老式电话系统，诸如线路交换电话网络，或者是例如因特网上的话音协议(VoIP)网络的分组交换电话网络。IVR典型运行控制用户与IVR的交互的电话应用。这种话音应用是独立地或作为另一话音交互的一部分而控制用户和计算机之间的交互的话音邮件应用。

话音邮件电话应用要求通过电话将音频消息直接记录到IVR系统中。当工作于很长的语音段落(passage)时，特别是如果在读出段落时出现错误，则此记录方法可能是麻烦的。通常，在很长的段落期间将一个字/词发错音或者咳嗽会在段中创建不想要的音频数据。所述不想要的音频数据(以下被称为人工噪声(artifact))导致不得不重新记录整个消息，这会消耗时间和金钱。

具有一种不需要对话音消息进行完全重新记录的话音消息系统将是有用的。

发明内容

根据本发明的第一方面，提供了一种用于在交互式话音响应系统(IVR)上形成由用户讲出的话音消息的方法，包括：记录第一话音消息，其中用户讲出第一话音消息但是在所述第一话音消息的最后部分中出现错误；记录第二话音消息，其中用户再次讲出没有错误的最后部分；确定所述第一和第二话音消息中的接合点；以及将所述第一和第二话音消息在所述接合点进行接合，从而所接合的第一和第二话音消息成为包括所述最后部分但不包括错误的连续话音消息；其中确定接合点包括：确定所述第一和第二消息中的共同话音数据的区域，其中所述接合点是在所述共同话音数据的区域内的对应点。

这样的系统将第二话音消息和第一话音消息相接合，并消除了重新记录整个第一消息的需要。

在优选实施例中，确定共同区域和接合点包括以下步骤：对所述第一和第二消息执行音素(phoneme)识别，以获得对应的第一和第二识别音素；确定所述第一和第二识别音素中的共同音素的区域；以及确定所述第一和第二话音消息中的对应区域。

在另一实施例中，确定共同区域和接合点通过比较所述第一和第二话音消息随着时间的信号能量、并确定最相似的能量图案来执行，所述接合点是所述信号中的低点，其被假定为两个字/词之间的间隔。

使用基于音素的语音识别以确定接合点意味着，所述接合点将位于一个短语的两次无声之间，但不使用标识完整的字/词所需要的完全处理资源。

使用音素串允许对消息的优质比较，以及允许针对接合点对两个字/词之间的间隔的准确确定。使用音素识别意味着，识别不受文字/词语法的限制。

不过，在另一实施例中，基于字/词的语音识别可提高确定接合点的准确度同时使用更多的处理能力。此外，使用基于字/词的语音识别允许接合点在字/词之间被精确定位。而基于音素的识别依赖于音素之间的无声。

例如，呼叫者当记录音频消息的同时出现错误时按键。按键使得第一记录停止；提示用户从所记录错误之前开始读出消息；以及开始第二记录。通过将语音识别引擎应用到第一和第二所记录消息，能够估计到错误在第一记录中的位置，并将两个音频流接合在一起以移除错误。这将极大地加快将很长的音频段直接记录到IVR中的速度，以及增加其易用性。

在此实现中，IVR应用将记录第一音频段，并且用户将通过按下例如^＊键以生成数字声音来用信号告知错误。在接收到^＊键数字声音时，IVR将提示呼叫者从出现错误之前开始讲。当补充记录结束时，两个记录将被提交到语音识别。对于从识别引擎返回的文本进行比较，以看到在哪里重叠，并且在每个记录中针对匹配短语的时间戳将经由语音识别引擎进行收集。两个记录接着将基于这些时间戳被结合在一起。

附图说明

现在将仅通过示例并参考附图描述本发明的实施例，在附图中：

图1示出根据优选实施例的IVR系统；以及

图2示出正被优选实施例处理的示例性语音信号。

具体实施方式

参考图1，示出通过电话交换机(PSTN)12连接到呼叫者14的交互式话音响应系统(IVR)10。呼叫者14是可连接到IVR 10的许多呼叫者之一。IVR 10包括：音频记录应用16和话音识别单元18。音频记录应用16是用于执行方法步骤102、104、106、108、110、112和114的控制程序。话音识别单元18包括用于执行话音识别步骤111和113的控制程序。在此说明书中，用户被称为呼叫者，因为IVR呼叫通常被认为是来自于用户，但是呼叫也可以是呼出的，其中用户作为被叫方。

当呼叫者连接到IVR并作出留下话音消息的请求时，音频记录应用16被激活。

音频记录应用的步骤102触发IVR向呼叫者播放请求记录第一话音消息的提示。在此实施例中，所述提示陈述：“请在声音后记录音频段落X，如果您出错则按下^＊，当您结束时按下#”。呼叫者理解，当在记录时出现错误则他应该按下^＊键。如果未出错则他理解要在话音消息的结尾按下#键。

在步骤104，音频记录应用将呼叫者的话音记录为第一话音消息，并监视按键。如果#键被按下，则已经接收到话音记录的结尾而未出错，并且过程移动到步骤106。如果^＊被按下，则已经接收到错误，并且过程移动到步骤108。

在步骤106，音频记录应用把在步骤104进行的记录存储为第一话音消息，并通过返回控制到步骤102来准备要进行记录的另一话音消息。在此阶段，如果呼叫者满意于所记录的音频，也可退出音频记录应用。步骤106还从步骤114得到记录输入，在此情形中所述记录是在步骤114进行的已接合记录。

在步骤108，音频记录应用指示IVR向呼叫者播放请求记录第二话音消息的提示。在优选实施例中，所述提示陈述：“请从您出错前的句子开始讲，按下#终止”。呼叫者理解，他们必须从出错前的句子中的一点开始讲，并接着通过在结尾时按下#而结束记录。呼叫者的话音被记录为第二话音消息。

在步骤110，第一和第二话音消息都被提交到话音识别单元18，并且第一和第二识别文本被返回。每个识别文本包括对应于话音消息的文本标注串。

在步骤111，话音识别单元处理第一和第二话音消息。在优选实施例中，仅部分的语音识别被执行，并且所返回的文本标注是对应于话音数据的音素。在另一实施例中，人工可读文本被返回。

在步骤112，音频记录应用在第一和第二文本消息中定位匹配的文本标注。在第一和第二文本消息中的匹配标注的位置被插入对于话音识别单元的查询。通过使用匹配标注的位置，话音识别单元在第一话音消息中定位第一时间戳，并在第二话音消息中定位第二时间戳。这些时间戳表示第一和第二话音消息中的接合点。

在步骤113，话音识别单元接收时间戳查询并返回第一和第二时间戳。在另一实施例中，针对文本标注的时间戳可由话音识别单元在提供文本标注的同时提供。

在步骤114，所定位的第一和第二时间戳被用于将第一和第二话音段接合到一起。接着过程返回步骤106，其中已接合的话音段被记录，并且音频应用退出或准备下一段落。

优选实施例涉及话音邮件IVR，但这种解决方案可被用在诸如个人话音口述的其它话音应用中。

图2中示出在接合两个话音消息时涉及的字/词、语音信号和语音转录的示例。用户讲出第一话音消息语音A“当前服务不可用，请稍后尝试(Thecurrent service is unavailable，please try later)”，其在图2顶端示出。图2中紧挨在语音A之下的是记录A——对应于语音A中的字/词，信号振幅相对于时间的示例。紧挨在记录A之下的是语音转录A，其表示通过话音识别单元从记录A得出的音素串。以微秒为单位的时间尺度被示出为在语音转录A之下沿着x轴。对于任意给定文本、或音素串或信号，话音识别单元可返回开始时间戳和结束时间戳。

用户讲出第二话音消息语音B“请稍后再试(please try again later)”，其在图2中的时间尺度读数之下示出。紧挨在语音B之下的是记录B——对应于语音B中的字/词，信号相对于时间的示例。紧挨在记录B之下的是语音转录B，其表示通过话音识别单元从记录B得出的音素串。沿着x轴以微秒为单位的时间尺度仅表示对于语音转录B的相对时间尺度。

结果得到的音素串被示出如下：

语音转录A“thequrreentservisizunavaylablpleeztriylayter”

语音转录B“pleeztriyagaynlayter”

排列的目的是在第一消息中找到第二消息开始之处。优选实施例找到二者之间的最长子串——在此情形中为“pleeztriy”子串。本实施例的用户将倾向于说出类似的或相同的短语作为进行排列的参考，接着说出不同之处(有意的校正)。优选方法将保留最大到接合点(就在类似于第二话音消息的音素的首次出现之前)的第一话音消息的音频，并添加来自第二话音消息的全部音频。

优选实施例对于良好的话音识别起很大作用，不完善的识别准确度将会引入以插入、重复、替换和删除音素的形式的错误。在此情形中，更复杂的匹配算法可被使用，其考虑了识别错误的可能性。

现在描述当使用完全语音识别时的另一示例，且此示例并未被图示。

用户读出：“…三个月内的两次上涨将使得对于将到来的进一步上涨的预期更加强烈，其潜在地^＊＊＊＊”。在此示例中，^＊＊＊＊表示咳嗽、出现错误的另一噪声、或任何其它错误。IVR将其记录为第一话音消息。

用户键入：^＊，并继续读出：“对于将到来的进一步上涨的预期更加强烈，其潜在地将英镑对美金推动到有危害的程度…”。IVR将此宣读记录为第二话音消息。

用户键入：#，以终止第二话音消息的记录。

两个话音消息作为文本消息从语音识别引擎返回：

第一文本消息：“…三个月内的两次上涨将使得对于将到来的进一步上涨的预期更加强烈，其潜在地#####”，其中“#####”表示由识别者返回的表示错误的字母。

第二文本消息：“对于将到来的进一步上涨的预期更加强烈，其潜在地将英镑对美金推动到有危害的程度…”。

话音消息的文本被进一步处理，以确定重叠部分：

第一文本消息：“…三个月内的两次上涨将使得对于将到来的进一步上涨的预期更加强烈，其潜在地#####”。

第二文本消息：“对于将到来的进一步上涨的预期更加强烈，其潜在地将英镑对美金推动到有危害的程度…”，其中重叠部分加有下划线。

在话音消息中对应于在第一文本段和第二文本段中所匹配短语的开始和结尾的时间戳(以秒为单位)被获得。

第一话音消息：05:06:43-05:09:90秒

第二话音消息：00:02:81-00:05:27秒

基于所获得的时间戳，第一和第二话音消息被结合：最终的话音消息＝第一话音消息(00:00:00-05:06:43)+第二话音消息(00:02:81-音频结尾)。

优选实施例的音频记录应用是在IVR服务器和电话系统上的消息传送系统的一部分。不过，在可替换实施例中，音频记录应用可以是电话或客户设备的一部分，并与在IVR服务器上的消息传送系统进行交互以留下完整消息。在此可替换实施例中，客户可能需要在执行前从服务器下载音频记录程序。

总之，此说明书涉及一种用于话音消息编辑的方法和装置。具体而言，其涉及一种用于将话音邮件段接合到一起的方法和装置。描述了一种用于在交互式话音响应系统(IVR)上形成由用户讲出的话音消息的系统、方法和计算机程序产品，包括：记录第一话音消息，其中用户讲出第一话音消息但是在所述第一话音消息的最后部分中出现错误；记录第二话音消息，其中用户再次讲出没有错误的最后部分；确定所述第一和第二话音消息中的接合点；以及将所述第一和第二话音消息在所述接合点进行接合，从而所接合的第一和第二话音消息成为包括所述最后部分但不包括错误的连续话音消息。

Claims

1.一种用于在交互式话音响应系统上形成由用户讲出的话音消息的方法，包括：

记录第一话音消息，其中用户讲出第一话音消息但是在所述第一话音消息的最后部分中出现错误；

记录第二话音消息，其中用户再次讲出没有错误的最后部分；

确定所述第一和第二话音消息中的接合点；以及

将所述第一和第二话音消息在所述接合点进行接合，从而所接合的第一和第二话音消息成为包括所述最后部分但不包括错误的连续话音消息；

其中确定接合点包括：确定所述第一和第二话音消息中的共同话音数据的区域，其中所述接合点是在所述共同话音数据的区域内的对应点。

2.根据权利要求1所述的方法，其中确定共同区域和接合点包括以下步骤：

对所述第一和第二话音消息执行语音识别，以获得对应的第一和第二识别文本；

确定所述第一和第二识别文本中的共同文本的区域；以及

确定所述第一和第二话音消息中的对应区域。

3.根据权利要求2所述的方法，其中所述识别文本包括音素串而不包括语言文字，以便减少用于确定所述接合点的处理量。

4.根据权利要求1所述的方法，其中确定共同区域和接合点通过比较所述第一和第二话音消息随着时间的信号能量、并确定最相似的能量图案来执行，所述接合点是所述信号中的低点，其被假定为两个字/词之间的间隔。

5.一种用于在交互式话音响应系统上形成由用户讲出的话音消息的系统，包括：

用于记录第一话音消息的装置，其中用户讲出第一话音消息但是在所述第一话音消息的最后部分中出现错误；

用于记录第二话音消息的装置，其中用户再次讲出没有错误的最后部分；

用于确定所述第一和第二话音消息中的接合点的装置；以及

用于将所述第一和第二话音消息在所述接合点进行接合的装置，从而所接合的第一和第二话音消息成为包括所述最后部分但不包括错误的连续话音消息；

其中用于确定接合点的装置包括：用于确定所述第一和第二话音消息中的共同话音数据的区域的装置，其中所述接合点是在所述共同话音数据的区域内的对应点。

6.根据权利要求5所述的系统，其中用于确定共同区域和接合点的装置包括：

用于对所述第一和第二话音消息执行语音识别，以获得对应的第一和第二识别文本的装置；

用于确定所述第一和第二识别文本中的共同文本的区域的装置；以及

用于确定所述第一和第二话音消息中的对应区域的装置。

7.根据权利要求6所述的系统，其中所述识别文本包括音素串而不包括语言文字，以便减少用于确定所述接合点的处理量。

8.根据权利要求5所述的系统，其中用于确定共同区域和接合点的装置通过用于比较所述第一和第二话音消息随着时间的信号能量的装置、以及用于确定最相似的能量图案的装置来执行，所述接合点是所述信号中的低点，其被假定为两个字/词之间的间隔。