CN1342017A

CN1342017A - 语音对话系统

Info

Publication number: CN1342017A
Application number: CN01135572A
Authority: CN
Inventors: B·索维尼尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-09-05
Filing date: 2001-09-01
Publication date: 2002-03-27
Also published as: MXPA01009036A; EP1187440A2; DE10043531A1; US20020107690A1; EP1187440A3; JP2002149189A; BR0103860A; KR20020019395A

Abstract

本发明涉及语音对话系统(1)。为确保从语音输入中的大量可替换公式化方法中获取对有意义的字符子序列最大限度且可靠的识别,此语音对话系统包含一语音理解单元(4),在此单元中利用不同语音模型(8)对字符子序列进行评估。从而由语音识别系统(3)所产生的识别结果中可辨识出有意义的字符子序列,而此识别结果用于确定输入语音对话系统(1)的字符序列。

Description

语音对话系统

本发明涉及到一种语音对话系统，例如自动信息系统。

此对话系统源于A.Kellner，B.Rüber，F.Seide和B.H.Tran所著“PADIS-全自动电话交换机及目录信息系统”；语音通信，Vol.23，pp，95-111，1997。通过电话网络的接口，用户的语音可被接收。作为对语音输入做出反应的系统响应(语音输出)，它由对话系统产生并且首先通过接口其后进一步通过电话网络传送给用户。基于隐式马尔可夫模式的语音识别单元可将语音输入转换成字符图，且此图给出了压缩形的各种字符序列，此种序列完全可作为接收语音的辨识结果。这种字符图给定了固定的字符边界，此边界由一个或多个弧线连接起来。每条弧线逐个被指定为一个字符并且由语音识别单元给出概率值。穿过字符图的各种路径代表了对识别结果的各种可能选择。在语音理解单元中，与应用相关联的信息可通过对字符图的处理得出，应用含句法和语义规则的语法以达到此目的。由字符图得到的各种字符序列经语法分析程序转换为概念序列，而每个概念延伸出字符路径的单个或多个字符并且与字符子序列(字词片语)相连接，此字符子序列携有同对话系统的各自应用有关的信息；或者从所谓的填充符概念的角度，其代表了对于各自应用无意义的字符子序列。因此所得的这些概念序列最终被转换成概念图，它含有以易操作的压缩形式存在的可能的概念序列。此时概念图的弧线按次序被指定了概率值，此数值依赖于字符图的相关概率值。从穿过概念图的优选路径中最后被提取适于应用的语义信息信号，其由语法上的语义规则中的所谓属性表示。每个对话控制单元对由语音解释单元决定的信息进行评估并产生出对用户的适当的反应，同时对话控制单元访问包含有特定应用数据的数据库(这里指：电话查询应用的特定数据)。

这样的对话系统可被用到例如铁路信息系统中，这里只须对语法及数据库中的特定应用数据进行改动。此对话系统在H.Aust，M.Oerder，F.Seide，V.Steinbiβ所著的“应用于全自动铁路时刻表信息的口语查询系统”，PhilipsJ.Res.49(1995)，pp.399-418.中有所表述。

举个例子，此样系统中的一条语法可从子序列“十点三十分”及其相关的语义信息“午夜后630分钟”以下列方式获得，同时句法同语义规则的应用如下：

<time of day>∷＝<number_24>hour<number_60>(句法规则)

<time of day>.val：＝60^*<number_24>.val+<number_60>.val(语义规则)

<Number_24>表示0到24之间的所有数字，<number_60>表示0到60之间的所有数字；这两个参数为分级结构语法中所谓的非端点参数。与此相关联的语义信息为属性<number_24>.val和<number_60>.val所表示，二者被指定相关的数字值用来计算每天的探索时刻。

含有信息的公式结构如果可以在固定的名目表中，诸如每天时间，日期，地名或者是人名先验地被获知，那么这种方法就会得到较好的应用。然而，当信息公式化过于自由时，上述方法不再可行。而这可通过下面的例子得以阐明，此例子中的语音对话系统被用于电影信息领域：

1999年有部詹姆士.邦德的影片，其正式片名为“詹姆士.邦德-超越世俗”。关于这部片子存在诸如“新邦德”，“超越世俗”或者是“饰演詹姆士.邦德的皮斯.布鲁斯南”的针对性问题。很难预见可行的公式，而且依赖于现映的影片也是不行的，影片每星期都在换。利用语法中的固定法则，只可能从大量公式中辨识出一个或几个，而这众多的公式在语音输入及由对话系统的语音识别单元产生的识别结果中作为字符子序列出现。没有附加的措施，这将导致大量的公式变体，这些变体没有为语法所涵盖和辨识，从而也不会为语义信息的分配所解释。

本项发明的一个目的是提供一个对话系统，此系统可针对语音输入中的大量可替换公式，确保各自字符子序列得到最大限度且可靠的辨识。

此目的通过根据权利要求1的对话系统实现。

通过对话系统的使用，由语音识别单元得出的识别结果(其结果特别是作为字符图或者是N个最佳字符序列假设出现)中的重要字符子序列，即使在大量的公式变体出现且这些变体的句法结构没有被对话系统先验地获知从而不为所用的语法清楚地包含的情况下，也可以很可靠地被识别。由于评估是通过竞争语音模型(例如，双字母或三个字母的语音模型)进行的，所以对这样的字符子序列的识别是成功的，而竞争语音模型被训练用来对不同的(文本)总汇进行处理。首选地，综合型和特定标题的语音模型将得以应用，例如普通的语音模型被训练用来对从报纸上获得的文章而形成的训练总汇。举个例子，对于特定标题的语音模型应用到电影信息方面时，采用了供电影标题用的语音模型和用于与电影内容(例如，演员姓名)有关的信息的语音模型。于是现映电影的片名的组合可被用作片名语音模型的训练总汇。而作为用于影片内容的语音模型的训练总汇，可利用电影的简短介绍的组合。如果某一语音模型较之其它语音模型在主题上来说更接近字符子序列(自由公式化)，这样的语音模型将比其它的模型对该字符子序列指定一个更大的概率，尤其是较之综合语音模型为大(比较权利要求2)；这被用来识别有意义的字符子序列。

有了本发明，过去对话系统中字符子序列的识别和解释之间的语法界定联系被消除，利要求3指明了如何给已识别的字符子序列指定语义信息。由于这些字符子序列未清楚地包含在对话系统的语法中，所以在这方面采取了特别措施。建议访问具有各自特定标题的数据材料的数据库中。识别的字符子序列与数据库项目进行比较。其中与识别的字符子序列最相似的数据库项目(可能具有大量的指定数据领域)被用来决定识别了的字符子序列的语义信息。例如，通过将选定的数据库项目的单个或大量的数据领域的数值指定给此序列。

权利要求4对用于识别重要的字符子序列的开展方法进行了描述。

本发明具体实施的举例将参照附图进一步解释，其中：

图1：示出一个语音对话系统的框图

图2：示出通过语音对话系统的语音识别单元产生的字符图

图3：示出在语音对话系统的语音解释单元产生的概念图

图1显示了语音对话系统(此处为电影信息系统)，其包含接口2，语音识别单元3，语音解释单元4，对话控制单元5，语音输出单元6(具有文本到语音的转换)以及带有特定应用数据的数据库7。用户的语音输入通过接口2被接受并被传送到语音识别单元3。这里接口2是对用户的连接，尤其是经电话网络的连接。基于隐式马尔可夫模型(HMM)的语音识别单元3产生出作为识别结果的字符图(见附图2)，而在本发明的范畴内，对单个或多个N个最佳字符序列假设的处理也基本上得到应用。识别结果由语音理解单元4进行评估，从而决定经语音识别单元3产生的识别结果中相关的句法及语义信息。接下来语音理解单元4使用特定应用语法；单元4在需要的情况下，也可以访问存储在数据库7中的特定应用数据。取决于语音理解单元4的信息被应用于对话控制单元5，后者由此决定了应用于语音输出单元6的系统响应；而同样存储在数据库7中的特定应用数据也被考虑进去。当系统响应产生出来时，对话控制单元5应用先验地预先定义的响应样本，其语义内容及句法依赖于由语音理解单元4决定并传送到对话控制单元5的信息。关于元件2-7的详细资料例如可以从上面提到的A.Kellner，B.Rüber，F.Seide和B.H.Tran所著的文章中得到。

语音对话系统进一步包括一众8个语音模型LM-0，LM-1LM-2，...，LM-K。这里语音模型LM-0代表了普通的语音模型，此模型被用来对含有普通非特定数据(例如，由日报的文章形成的)的文本总汇进行训练。其它从LM-1到LM-K的语音模型代表了特定标题语音系统，它们被训练为对特定标题的文本总汇进行处理。而且语音对话系统1包括了DB-1，DB-2，...，DB-M一众9个存储着特定标题信息的数据库。即使一个数据库可被指定到大量的特定标题语音模型，对配合相应的标题来说，特定标题的语音模型与特定标题数据库是互相对应的。从下面的仅有LM-0和LM-1两个语音模型和被指定为语音模型LM-1的数据库DB-1起始，且不失其普遍性。

根据本发明的语音对话系统1能够识别随意公式化了的有意义字符子序列。这样的序列属于语音输入的一部分，而且作为由语音识别单元3所产生的识别结果的一部分，在语音识别单元3的输出部分可得到。在对话系统中，这些有特定意义的字符子序列通常由非端点(＝概念元件)和语法概念所代表。

语音解释单元4应用的是分层式结构且不受上下文约束的语法，其中的摘要给出如下：

语法摘要：

    ＜want＞∷＝I would like to

    ＜want＞∷＝I would really like to

　　＜number＞∷＝two

　　            value：＝2

　　＜number＞∷＝three

　　            value：＝3

　　＜number＞∷＝four

　　            value：＝4
				
				<dp n="d4"/>
　　＜tickets＞∷＝＜number＞tickets

　　              number：＝＜number＞.value

　　＜tickets＞∷＝＜number＞tickets

　　              number：＝＜number＞.value

　　＜title phrase＞∷＝PHRASE(LM-1)

　　              text：＝STRING

　　              title：＝RETRIEVE(DB-1title)

　　              contents：＝RETRIEVE(DB-1contents)

　　＜film＞∷＝＜title_phrase＞

　　              title：＝＜title_phrase＞.title

　　＜film＞∷＝for＜title_phrase＞

　　              title：＝＜title_phrase＞.title

　　＜book＞∷＝book

　　＜book＞∷＝order

　　＜ticket_order＞∷＝＜ticket＞＜film＞＜book＞

　　              service：＝ticket order

　　              number：＝＜ticket＞.number

　　              title：＝＜film＞.title

　　＜ticket_booking＞∷＝＜film＞＜ticket＞＜book＞

　　              service：＝ticket order

　　              number：＝＜ticket＞.number

　　              title：＝＜film＞.title

标号“：：＝”所指为一个概念或非端点的定义。标号“：＝”用来定义包含语义信息的属性，此信息针对概念或非端点。这样的语法结构基本上已获知(参见上述由A.Kellner，B.Rüber，F.Seide和B.H.Tran所著文章)。对有意义的字符子序列进行识别是通过一个自顶向下的分析器来进行的，同时语法被用来形成概念图，图中的弧线代表了有意义的字符子序列。概念图中的弧线被赋予概率值，这些值被用来决定通过图的最佳路径(最大可能)。通过语法，获得此路径的相关句法与/或语义信息。而这信息将作为语音理解单元4的处理结果传送给对话控制单元5。

对于语音输入“I would like to order two tickets for the new James Bond film”，在由语音识别单元3提交到语音理解单元4的字符图中，它是一种可能的字符序列(附图2给出了其基本结构)。此项发明接下来将被解释。

字符子序列“I would like to”为非端点<want>所表示，字符子序列“twotickets”为非端点<ticket>，而此项非端点返回时包含指向字符“two”的非端点<number>。非端点<number>将再一次被赋予属性，此属性描述了作为语义信息的相应数值。此种属性被用来决定属性数值，此值依次将给非端点<ticket>赋予作为语义信息的各相应自数量值。字符“order”由非端点<book>得以辨识。

为了对界于字符图中两个节点(这里：节点7和12之间)之间的字符子序列进行识别和解释，就如这里的“the new James Bond film”一样，它不能从语法中的概念或非端点明显领会。于是与迄今所用的语法相比较，这里的语法被一整套新的非端点所扩展，这里所指为非端点<title-phrase>。这一非端点被用来定义非端点<film>，后者返回时被用来定义概念<ticket_order>。由于非端点<titlephrase>的使用，包含有随意公式化了的电影片名的重要字符子序列通过相关的属性被识别和解释。因为对电影片名的随意公式化，有人可能会想到大量不可预测的公式变体。在当前情形下，正确的片名为James Bond-The world is notenough。相应的被启用了的字符子序列“the new James Bond”与正确的片名相去甚远；它不能从所用的语法明显领会。然而，此字符子序列被识别为对片名的描述。由于利用大量的语音模型进行了评估此功能才得以实现，而这里的语音模型指的是图1中提及的LM-0到LM-K。作为一个电影信息系统的对话系统1，在其现阶段组织结构中LM-0充作综合的语音模型，此语音模型曾被训练用来对普通非特定标题文本总汇进行处理。语音模型LM-1是特定标题语音模型，其曾被训练用来对特定标题文本总汇进行处理，而此总汇包含(正确的)片名以及对现映电影的简短描述。对它的替代方法就是利用迄今为止的一类句法规则去领会字符子序列(对于类似于“the new James Bond film”的字符子序列不可行)，于是在语音理解单元4中通过使用区段8(也就是针对片名的综合语音模型LM-0和语音模型LM-1)连接起来的语音模型做出对字符子序列的评估。对于处于节点7和12之间的字符子序列，语音模型LM-1产生作为评诂结果的概率大于由普通语音模型LM-0所产生作为评估结果的概率。在这种方式下，字符子序列“the new James Bond film”被辨识为带有可变句法PHRASE(LM-1)的非端点<title_phrase>。将通过语音识别单元3所做声音评估而获得的相应字符子序列的概率值与通过语音模型LM-1对相应字符子序列所获得的概率值结合起来，而同时更倾向于采用试探而定的权数。所获得的概率值指定给非端点“title_phrase”。

非端点<title phrase>被进一步分派由文本，片名及内容三种属性所表示的三个语义信息信号。文本属性指的是例如<STRING>的已经识别的字符序列。关于片名和内容的语义信息信号由被称之为检索的信息搜索系统所决定，在检索中数据库DB-1得以被访问。此数据库DB-1属于特定标题数据库，其中存储着关于影片的特定数据。进入数据库之后，信息被存储在分立的两个区域DB-1_title和DB-1_contents。一方面是各自的片名(正确的参考)，另一方面是对每个片名进行的简短介绍(这里指：“the new James Bond film with Pierce Brosnan as agent007”)。现对属性片名和内容确定其数据库入口，而该入口非常类似于已识别的字符子序列(在实施例中可以决定大量的相似数据库入口)，同时用上已知的搜索方法，例如一种信息检索方法，此方法在B.Carpenter，J.Chu-Carroll所著“自然语言呼叫途径：一种强有力的自组方法”ICSLP1998一文中有所表述。如果数据库入口已被检测，那么从数据库入口读取区域DB-1_title并被赋予片名属性，同样也要读取带有对影片进行简短描述的区域DB-1_contents并被赋予内容属性。

最后，如所述决定了的非端点<title-phrase>被用来决定非端点<film>。

从以上述方式被解释和识别了的非端点可形成概念<ticket ordering>，它的服务，数量及标题属性被分别赋予订票的语义内容<ticket ordering>或<film.title>。概念<ticket ordering>的实现形成了概念图的一部分，如附图3所示。

附图2中的字符图以及附图3中的概念图为求清楚，以简化的形式表示。在实际操作中，这些图具有更多的弧线，而它们对此发明无足轻重。在上面所描述的具体细节中，语音识别单元3被假定提供了作为识别结果的字符图。而这对此项发明也不是必需的。同时也将考虑到以N最佳字符序列表或语句假定代替字符图作为处理对象。有自由公式化了的字符子序列，从而再也不需要对数据库查询来决定语义内容，这依赖用于对话系统各自的指令。基本上，通过加入附加的数据库区域，可被赋给字符子序列的任何数量语义信息信号均可预定。

附图3所示的概念图结构在下文中以表格的形式给出。左边两列表示概念节点5(概念间的分界线)。旁边尖括号中为概念项，其带有相关可行且适当的属性以及指定的语义内容。圆括号中是与字符图相对应的字符子序列，适当时其后紧跟着是处于方括号中的英语解释或者评论。

　　1  3    ＜want＞               [I would like](ich mchte)

　　1  3    ＜FILLER＞             (Spechte)[sounds like“ich mchte”]

　　1  4    ＜want＞               [I would really like](ich mchte geme)

　　1  4    ＜FILLER＞             (Spechte geme)[sounds like“ichmchte geme”]

　　3  4    ＜FILLER＞             (geme)

　　4  5    ＜FILLER＞             (zwei)[two]

　　4  13   ＜ticket_order＞      (zwei tickets für den neuen James Bond Film

　　                         　　　   bestellen)

　　                                  [order two tickets for the new James Bond film]

　　         service               ticket order

　 　        number                2

　 　        title                 James Bond-The world is not enough

　　4  13   ＜ticketorder＞        (drei tickets für den neuen James Bond Film

     　　                             bestellen)

 　                                   [order three tickets for the new James Bond
     　　                             film]

 　　        service               ticket order

 　　        number                3

 　　        title                 James Bond-The world is not enough

　　4  13   FILLER                (zwei Trinkgeld den Jim Beam bestellen)

                                 [sounds for instance like a correct possible

     　　                             German order of the tickets]

　　5  7    ＜bar＞                  (Trinkgeld)[Aip]

 　　        service               [Aip]

　　5  7    ＜FILLER＞              (Trinkgeld)[Aip]

　　7  8    ＜FILLER＞              (den)[the]
				
				<dp n="d8"/>
   8  13   duty_free             (Jim Beam bestellen)[order Jim Beam]

　　         service               order

      　　  beverage              Jim Beam
   8  13   FILLER                (neuen James Beam bestellen)

                                 [order new James Beam]

Claims

1.一种语音对话系统(1)包括语音理解单元(4)，其中为了从语音识别单元(3)所产生的识别结果中辨识出有意义的字符子序列，此识别结果由输入到语音对话系统(1)的字符序列所决定，字符子序列通过不同的语音模型(8)得以评估。

2.如权利要求1所述的语音对话系统，其特征在于，提供一个普通语音模型(LM-0)和至少一个特定标题模型(LM-1，...，LM-K)来评估字符子序列。

3.如权利要求2所述的语音对话系统，其特征在于，多个不同的语音模型(8)包含至少一个特定标题语音模型(LM-1，...，LM-K)，此模型被赋予带有各自特定标题的数据材料的数据库(DB-1，...，DB-M)，这些材料被用来确定包含在字符子序列中的语义信息。

4.一种从由语音对话系统(1)的语音识别单元(3)所产生的识别结果中提取出有意义的字符子序列方法，其中，字符子序列通过在语音对话系统(1)中的语音理解单元(4)里的不同语音模型(8)进行评估。