CN101211559A

CN101211559A - 用于拆分语音的方法和设备

Info

Publication number: CN101211559A
Application number: CNA2007101927537A
Authority: CN
Inventors: 伊东伸泰; 仓田岳人
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2006-12-26
Filing date: 2007-11-16
Publication date: 2008-07-02
Anticipated expiration: 2027-11-16
Also published as: JP4827721B2; JP2008164647A; US8793132B2; US20080154594A1; CN101211559B

Abstract

为了实现上述目的，本发明的一个方面是提供一种用于将会话式对话拆分成语段的设备。该设备包括：用于存储单词的拼写和发音的单词数据库；用于存储关于单词的句法规则的语法数据库；在至少两个信道中输入的会话式对话之中检测在产生主语音的信道中的暂停位置的暂停检测部分；在没有产生主语音的信道中检测应答位置的应答检测部分；通过提取存在于作为应答位置的基点之前和之后的预定范围以内的暂停来提取主语音中的候选边界的候选边界提取部分；以及在通过参考单词数据库和语法数据库而将分段的语音拆分成优化语段之后，输出由所提取的候选边界之一进行分段的语音单词串的识别单元。

Description

用于拆分语音的方法和设备

技术领域

本发明涉及一种用于拆分语音的方法。特别地，本发明涉及一种通过使用应答响应来拆分语音的方法。

背景技术

在对话务员服务支持系统或类似系统中的电话会话内容的书录(transcription)处理中，话务员的语音和客户的语音是单独记录并转换成文本数据的。一般来说，为了有效搜索记录的语音，说出诸如产品名称之类的预定关键字的位置将被记录，并且该位置的时间戳则被用作索引。书录处理是通过使用自动语音识别等技术规定关键字位置以及随后通过重放相应部分的语音而被执行的。然而，由于此方法无法有效使用客户的语音，尤其是应答，因此，在此类方法中无法精确提取有关会话内容的信息。更具体地说，由于语音(speech)未被拆分成恰当的语段(utterance)，因此，要从话音流中精确识别和分析语音将是非常困难的。

在日本专利申请特许公开号2006-276754中公开了此常规技术的实例。

发明内容

本发明是有鉴于上述技术问题而产生的。本发明的一个目的是通过应答响应(在下文中将其简称为应答)而将会话式对话拆分成在语言学中被称为语段的语音单元。此外，本发明的另一个目的是从话音流中精确识别出语音。

为了实现前述目的，本发明的一个方面是提供一种用于将会话式对话拆分成语段的设备。该设备被配置成包括：用于存储单词的拼写和发音的单词数据库；用于存储关于单词的句法规则的语法数据库；在至少两个信道中输入的会话式对话之中，检测在轮替(takea turn)的信道中的暂停位置的暂停检测部分，其中所述轮替的信道即为发言者信道，并且其在下文中被称为主语音；对没有发言的信道(接听者信道)中的应答位置进行检测的应答检测部分；通过提取存在于作为应答位置的基点之前和之后的预定范围以内的暂停来提取主语音中的候选边界的候选边界提取部分；以及在参考单词数据库和语法数据库而将分段的语音拆分成优化语段之后输出由所提取的候选边界之一进行分段的语音单词串(string)的识别单元。

此外，该语法数据库可以包括固定短语语法、应答语法以及识别语法。另外，固定短语语法可以包括用于开始和结束确认的固定语法，并且单词数据库可以包括用于开始和结束确认的固定短语的拼写和发音。由此，该设备可以包括识别目标分段确定单元，该单元将会通过参考固定短语语法来预先确定将要拆分成语段的识别目标分段。

本发明的另一个方面是提供一种通过使用分离信道中输入的会话式对话、通过使用单词数据库以及通过使用语法数据库而将会话式对话拆分成语段的方法，其中该单词数据库中描述的是单词的拼写和发音，该语法数据库中描述的是包含有关单词的句法规则的语法。该方法包括以下步骤：检测产生主语音的信道中的暂停位置；检测没有产生主语音的信道中的应答位置；通过提取存在于作为应答位置的基点之前和之后的预定范围以内的暂停来提取主语音的候选边界；以及在参考单词数据库和语法数据库而将分段语音拆分成优化语段之后，输出由被提取的候选边界之一进行分段的语音中的单词串。

附图说明

为了更全面地理解本发明及其优点，现在将结合附图来参考下文中的描述。

图1示出了用于将语音拆分成语段的设备。

图2示出了本发明的处理的流程图。

图3示出了本发明的每个处理的具体实例的图示。

图4是示出常规技术与本发明实施例之间的分段和识别结果差别的图示。

图5示出了能够实施本发明的硬件结构实例。

具体实施方式

图1示出了用于将语音拆分成语段的本发明的设备。该设备主要是由边界提取单元120和识别单元130来构成。该边界提取单元120是由暂停检测部分122、应答检测部分124以及候选边界提取部分126来构成。在执行本发明的提取处理时，边界提取单元120和识别单元130都参考单词数据库140以及语法数据库150。特别地，在单词数据库140中存储了每个单词的拼写和发音，而在语法数据库150中则存储了关于单词的句法规则。在这里，单词数据库140中的每个发音都是用音素单元编写的。优选地，每个音素都是用声学模型编写的，以便指示音素信号具有怎样的统计属性。通过使用这种声学模型，可以识别出会话式对话中的某个部分是哪一个单词。此外，语法数据库150在其中存储固定短语语法、应答语法以及识别语法。在这里，语法是用于判定语音是否与固定模式相一致的规则。在下文中显示了用BNF(巴科斯-诺尔范式)描述的上述语法的实例。

固定短语语法：<一个固定短语从开始确认到结束该短语>

＝sore？dewa(kakunin/fukushou)sasete itadaki masu.

|arigatou gozaimasita

(＝现在，你的订单将被确认|重复。|谢谢)

应答语法：<应答>

＝hai|ee|soudesu

(＝是|OK|对)

识别语法：<内容的确认>

＝shouhin bangou ga？<NUMBER>no<PRODUCT_NAME>

(＝产品编号为<NUMBER>的<PRODUCT_NAME>

|kawase hejji wa？(ari|nasi)

|是否有交易障碍？(使用|不使用)

|kuchisu wa<NUMBER>kuchi

|<NUMBER>单位)

<NUMBER>＝(0|1|2|3|4|5|6|7|8|9)+

<PRODUCT NAME>＝IBM gurobaru fando|IT

dorimu fando|doru kokusai|...

(<PRODUCT NAME>＝IBM全球基金|IT梦想基金|美元国际|...)

应该指出的是，应答是用于响应于会话伙伴的语音而做出确认的响应。通常，应答是一个反向信道反馈，并且该反馈是在会话中的主发言者不变的情况下对会话伙伴做出的很短响应。在常规技术中，这种应答在拆分和识别语音的过程中并未得到积极使用，与此相反，它被视为是毫无必要的。但是，作为实例，在前述应答语法中登记了三种应答，并且其他应答也可以根据需要而被添加到应答语法中。

对边界提取单元120来说，连续的会话式对话110是在与各个发言者相对应的多个信道中输入的，其中该会话式对话即为话音流。通过使用本发明的后续方法，边界提取单元120向识别单元130传递主发言信道的语音数据以及用于将主语音拆分成语段的候选边界。特别地，候选边界是用语音流初始点时间传递的，该初始点则被视为候选边界的基点。识别单元130通过参考识别语法和字典并且使用所接收的语音数据和前述候选边界来执行识别，随后则输出单词串160，其中该单词串是与拆分话音数据所获取的分段相对应的识别结果，而所述话音数据则是通过划分那些被认定为最优的位置(串)来进行拆分的。此外，举例来说，每一个单词串都是由分段和已识别的内容构成的，并且这些单词串被表述成用于分段1的XXXX，用于分段2的YYYY，依此类推。优选地，在某些应用中，该单词串160还被传递到一个语句理解单元或类似单元。但是，由于语句理解单元的处理与本发明无关，因此，与之相关的描述将被省略。

在下文中将会参考图2和3来提供关于本发明的处理的详细描述。更具体的说，该描述是为电话订购的范例提供的，在该范例中，两个信道的会话式对话是作为话音流输入的。图2示出了本发明的处理的流程图，而图3则通过使用话音波形数据示出了与图2中的每个步骤相对应的更具体的处理。为了简明起见，话音波形是用连接波形顶点的梯形形状来表示的。在这里，图3描述的是这样一种情况，其中主语音是“dewa fukushou sasete itadakimasu.shouhinbangou 275 no IBM fando 20 kuchif kawase hejji nasi.arigatougozaimasita.(现在，你的订单将被重复一遍。产品代码275，IBM基金，20个单位，无交易障碍。谢谢)”。应该指出的是，在图3中，C1和C2表示信道，其中C2是发言者的话音波形，C1则是在接听语音的同时给出应答的接听者的话音波形。这里的目的是通过使用与主语音的信道不同的信道的应答来正确识别和理解主语音(发言者语音)。为此目的，该处理是通过下列步骤执行的。

首先，在步骤210，对应于主语音的信道语音将会与固定短语语法进行匹配，以便记录将要识别的语音分段的时间(t_s，t_e)。这个处理与图3的310是等价的。在固定短语语法中，出现在语音群组开端或末端的每一个不同的固定短语都会被登记。在电话订购中，用于确认的固定短语的典型实例是：作为开始短语的“dewa fukushousasete itadakimasu(现在，你的订单将被重复。)”，以及作为结束短语的“arigatou gozaimasita(谢谢)”。用于开始和结束确认的固定短语是根据应用领域来确定的，并且并不局限于上述内容。此外，在识别(也被称为测定)说出此类固定短语的位置的过程中，通常将固定短语语法与一种Garbage语法(模型)结合使用，其中该Garbage语法与将要识别的固定短语之外的其他短语相匹配。尽管如此，由于Garbage语法在本领域中是一种众所周知的技术，因此，与之相关的描述将被省略。作为替换，当整个语音都是识别目标时，这时是不会执行步骤210的，而语音分段的时间则被设置为(t_s，t_e)＝(0，呼叫结束)。

步骤220～250是在用于提取语音中的边界(拆分位置)的边界提取单元120中执行的处理。该边界提取单元120以如下方式提取语音中的候选边界(拆分位置)：首先，检测产生主语音的信道中的暂停位置，以及检测没有产生主语音的信道中的应答位置；其次，在应答位置之前和之后的一定时段中，提取存在于该时段内的每个暂停。

更准确的说，在步骤220，暂停检测部分122在C2中检测识别目标分段中的暂停位置。这个处理与图3的320是等价的。该检测是通过将语音与平常语音功率以及与预先学到的静默音素模型相匹配来执行的。这里提取的暂停即为候选边界，而实际边界则是通过将每个候选边界与某种似然性相结合来最终确定的，其中该似然性是通过将候选边界与应答位置以及与语法相匹配来获取的。由此，较为理想的是在确定边界的过程中为查全率(recall)而不是查准率(precision)给出优先级。特别地，所述查全率是正确检测到的暂停数量与应该检测到的暂停数量的比值。同时，所述查准率是用于指示有多少个被提取位置产生出了与语句或短语边界等价的各个实际暂停的精确度。在本实施例中，其中总共检测到了五个候选暂停(p1，......p5)。

在步骤230，应答检测部分124通过将语音与应答语法相匹配而在用于回答者(接听者)的信道C1中检测识别目标分段中的应答位置。举例来说，在应答语法中注册了“hai(是)”和“ee(OK)”之类的单词或短语的应答表述。这个处理与图3的330是等价的。在这个实施例中，提取了三个应答(r1，...r3)。

在步骤240以及后续步骤执行的处理中，通过使用暂停位置和应答位置来拆分识别目标分段从而执行语音识别。这个处理与图3的340是等价的。假设第一拆分开始位置是t_s，并且基点是在从拆分开始位置扫描到语音时首先检测到的应答位置(r1)。那么，存在于基点周围的一定范围(r1-ΔTa，r1+ΔTb)以内的暂停将被提取，并且将被作为用于拆分结束位置的候选边界。在这里，所提取的是p1、p2和p3。Ta和Tb是依照目标拆分结束位置与应答之间的最大可允许时差来确定的，并且通常被设置为500毫秒到1000毫秒。

在步骤250，识别单元130对在拆分开始位置与步骤240中提取的每个候选边界之间的分段执行识别处理。此后，识别单元130将具有最大似然性的分段识别为语段，并且由此输出单词串。这个处理与图3的350是等价的。具体地说，识别单元130通过将每个具有被提取候选边界的分段与识别语法相匹配，来识别出每一个将被提取候选边界之一当作拆分结束位置的分段，即分段A、分段B和分段C。然后，识别单元130获取识别结果，同时还计算其似然性。这些似然性将会根据每一个语音分段的长度并以时间为基础而被规格化，然后则会相互比较，由此将具有最高似然性的分段确定为具有拆分结束位置。这样一来，通过将语音拆分为分段，可以从识别单元输出所确定的拆分结束位置和识别结果(单词串)。在本实施例中，具有最高似然性7.8的分段B被确定为具有拆分结束位置。所述识别语法是设想会在语音中出现的短语的集合，并且这其中的每个短语都是在作为单元而在所拆分的语音分段中描述的。相应地，举例来说，当在语音中出现如下固定模式时，识别将会成功：

shouhin bangou ga？<NUMBER>no<PRODUCT_NAME>

(产品代码是？<PRODUCT_NAME>的<NUMBER>)

kawase hejji wa？(ari|nasi)

(交易障碍是？(被使用|未被使用))

kuchisuu wa<NUMBER>kuchi

(单位数是<NUMBER>单位)

多种可能的似然性之一是基于概率P(X|W)而被计算得到的似然性，该概率是在给出了输出单词串的情况下从目标分段(在本实施例中是(t_s，p2))输出声学特征量X的概率，其中W表示的是单词串。当识别单元130将声学特征量的串与声学模型相匹配时，可以由此获取该值。由于在语音识别领域中，针对前述似然性和置信度测量已经进行了很多的研究，因此，存在着用于计算概率值的众多可行方法。在步骤250，通过使用统计语言模型而不是使用识别语法，可以根据识别结果和似然性来确定所拆分的分段。在这种情况下，结合那些添加到与应答相对应的每一个位置的语句开始/结束符号，来执行用于从所编写的学习文本中产生语言模型的学习处理。由此，所产生的语言模型在识别处理中使用。如果使用统计语言模型，那么所述似然性可以使用乘积P(W)·P(X|W)来计算，其中该乘积是通过将输出声学特征量X的概率P(X|W)与输出语言模型的概率P(W)相乘来获取的。

在步骤225，确定处理是否结束，直至识别目标分段的末端。如果处理结束，那么该处理终止，如果没有结束的话，所述处理延续至步骤260。

在步骤260，拆分开始位置将会变成步骤250中确定的拆分结束位置，也就是用p2表示的分段B的右端。然后，在这里针对识别目标分段的末端来重复执行步骤240～260。这个处理与图3的360是等价的。

图4示出了常规技术与本发明之间的在分段和识别结果中的差别。在这里，作为常规技术使用的是这样一种方法，其中整个识别目标分段都是在被识别为一个连续语音的同时仅仅使用识别语法来自动拆分的。方框410示出了常规技术的分段和识别结果。在方框410中，分段和识别在从“dewa chuumon fukushou sasete itadakimasu，machigaiga naika goisshoni kakunin wo onegai itasimasu(现在，你的订单将被重复，请检查是否包含任何错误)”开始并且在“hai，dewanyuuryoku itasimasita(现在，你的订单被输入)”结束的大量话音流中是无法奏效的。另一方面，在示出了依照本发明的分段和识别结果的方框420中，主语音的语音分段被正确地拆分和识别。附带地，在上文的话音流描述中插入的逗号和句号仅仅是为了使所述描述可被理解。

接下来将要说明的是本发明的硬件结构实例。毫无疑问，图1所示的每一个块都可以用一个专用硬件来构成，同时这些块同样也可以用通用信息处理设备来实现。图5示出了也可用作本发明的设备的信息处理设备的硬件结构实例。计算机501包括CPU外围单元，其中该单元包含了CPU500、RAM540、ROM530以及输入/输出控制器520，并且所有这些部件是借由主机控制器510而被相互连接的。计算机501还包括通信接口550、硬盘驱动器580、多组合(multi-combo)驱动器590、软盘驱动器545、声音控制器560以及图形控制器570，并且所有这些部件都是通过输入/输出控制器520来连接的。特别地，多组合驱动器590能对诸如CD或DVD之类的碟片形状的介质595进行读写，软盘驱动器545能够对软盘585进行读写，声音控制器560驱动声音输入/输出设备565，而图形控制器570则驱动显示器575。

CPU500依照存储在ROM530、BIOS和RAM540中的程序来操作，并且由此控制每一个部分。图形控制器570获取CPU500等设备在RAM540内部的缓冲器中产生的图形数据，然后则在显示器575上显示这些数据。另外，在图形控制器570中也可以包含缓冲器，以便在那里存储CPU500等设备产生的图形数据。更具体地说，话音流是在多个信道中从声音输入/输出设备565输入的，然后，经由输入/输出控制器520而被存储在存储设备580中。在存储设备580中，存储了单词数据库140和语法数据库150。CPU500则使用在多个信道中输入并被存储的会话式对话以及这些字典并且通过计算操作来精确拆分和识别主语音。这个计算操作是通过将用于本发明的语音分段和识别的程序加载到存储器540中并随后执行这些程序而被执行的。语音分段的输出结果和单词串被显示在显示器575上。

通信接口550经由网络而与外部通信设备进行通信。该信息处理设备501还可以借助通信接口550接收来自外部的会话式对话，执行语音分段和识别，然后将结果经由通信接口550发送到外部的信息处理设备。附带地，用于构建网络的可以是任何有线、无线、红外连接以及短距离无线电连接，诸如蓝牙，并且任何类型的网络都可以在没有添加任何变动的情况下被用于实施本发明。存储设备580存储供计算机501使用的本发明程序、应用、OS等等的代码和数据。多组合驱动器590从诸如CD或DVD之类的介质595中读取程序或数据，此后，所读取的程序和数据将被加载到RAM540中，以供CPU500使用。作为替换，本发明的程序和字典也可以从外部记录介质中提供。

作为外部记录介质使用的可以是诸如DVD和PD之类的光学记录介质、诸如MD之类的磁光学记录介质、磁带介质、诸如IC卡之类的半导体存储器。此外，通过使用作为记录媒体而在服务器系统中提供的诸如硬盘或RAM之类的存储设备，所述程序可以经由网络而从与专用通信网络或因特网相连的服务器系统获取。从上述结构实例中可以看出，任何具有通用计算机功能的硬件都可以用作本发明需要的硬件。举例来说，移动终端、便携式终端和家庭电子设备都是可以直接使用而不会出现任何问题。应该指出的是，图5仅仅例示了用于实施本发明实施例的硬件结构。相应地，对其他各种结构来说，只要对其可以应用本发明实施例，那么这些结构都是可行的。此外，每一个上述例示组件未必是本发明的必要组件。

本发明的优选信息处理设备501使用了一个支持图形用户界面(GUI)多窗口环境的操作系统，例如Microsoft公司提供的Windows(R)操作系统，Apple公司提供的Mac OS(R)、以及包含了XWindow System的UNIX(R)(例如国际商业机器公司提供的AIX(R))。此外，本发明还可以使用硬件、软件或是软硬件组合来实现。

依照本发明，通过使用将应答位置与暂停位置组合所获取的信息来将语音流拆分成语段。由此，语音识别和分析处理中的查准率得到改善。

虽然在这里已经详细描述了本发明的优选实施例，但是应该理解，在没有脱离附加权利要求定义的本发明的精神和范围的情况下，各种变更、替换和修改都是可行的。

Claims

1.一种用于将会话式对话拆分成语段的设备，包括：

用于存储单词的拼写和发音的单词数据库；

用于存储关于单词的句法规则的语法数据库；

在至少两个信道中输入的会话式对话之中检测在产生主语音的信道中的暂停位置的暂停检测部分；

在没有产生主语音的信道中检测应答位置的应答检测部分；

通过提取存在于作为该应答位置的基点之前和之后的预定范围以内的暂停来提取主语音中的候选边界的候选边界提取部分；以及

在参考该单词数据库和语法数据库而将该分段的语音拆分成优化语段之后输出由所提取的该候选边界之一进行分段的语音单词串的识别单元。

2.根据权利要求1所述的设备，其中该语法数据库包括固定短语语法、应答语法以及识别语法。

3.根据权利要求2所述的设备，包括识别目标分段确定单元，其中

该固定短语语法包括用于开始和结束一个确认的固定短语，

该单词数据库包括用于开始和结束一个确认的该固定短语的拼写和发音，

该识别目标分段确定单元通过参考该固定短语语法来预先确定将要拆分成语段的识别目标分段。

4.一种通过使用多个信道中输入的会话式对话、通过使用单词数据库以及通过使用语法数据库而将会话式对话拆分成语段的方法，其中该单词数据库中描述的是单词的拼写和发音，该语法数据库中描述的是包含有关单词的句法规则的语法，该方法包括以下步骤：

检测产生主语音的信道中的暂停位置；

检测没有产生主语音的信道中的应答位置；

通过提取存在于作为该应答位置的基点之前和之后的预定范围以内的暂停来提取该主语音的候选边界；以及

在通过参考该单词数据库和语法数据库而将该分段的语音拆分成优化语段之后，输出由被提取的候选边界之一进行分段的该语音中的单词串。

5.根据权利要求4所述的方法，其中在输出单词串的该步骤中，由该候选边界拆分的语音分段的该似然性是通过参考该单词数据库和该语法数据库来计算的，并且在将该语音分段拆分成语段之后，具有最高似然性的语音分段的单词串将被输出。

6.一种通过使用多个信道中输入的会话式对话、通过使用单词数据库以及通过使用语法数据库而将会话式对话拆分成语段的程序，其中该单词数据库中描述的是单词的拼写和发音，该语法数据库中描述的是包含有关单词的句法规则的语法，

该程序引起计算机执行下列功能：

检测产生主语音的信道中的暂停位置；

检测没有产生主语音的信道中的应答位置；

通过提取存在于作为该应答位置的基点之前和之后的预定范围以内的暂停来提取主语音的候选边界；以及

在通过参考该单词数据库和语法数据库而将分段的语音拆分成优化语段之后，输出由被提取的候选边界之一进行分段的该语音中的单词串。