CN1145927C

CN1145927C - 为设备和应用的同时使用合并语音接口的方法

Info

Publication number: CN1145927C
Application number: CNB001067028A
Authority: CN
Inventors: S; S·拉普; S·戈伦兹; R·科姆佩; P·比希纳; F·吉隆; H·卢克
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 1999-04-13
Filing date: 2000-04-13
Publication date: 2004-04-14
Anticipated expiration: 2020-04-13
Also published as: JP4518619B2; EP1045374B1; CN1270360A; US6615177B1; KR100726692B1; KR20010020734A; EP1045374A1; DE69942663D1; JP2001005489A

Abstract

根据本发明能够通过包括在网络中的语音单元而被控制的网络设备可以将描述其功能和其语音接口的设备文档发送给所述语音单元。语音单元将这些文档组合成一个通用文档，该文档形成将所识别的用户命令翻译成用户网络命令以控制所连接的网络设备的基础。一个设备文档至少包括用于对应设备的相关词汇和命令。此外，发音，字序的语法，语音理解和对话的规则以及用于多种语言的相同信息或用于语言理解中的动态对话的相同信息都可以包括在这种文档中。

Description

为设备和应用的同时使用合并语音接口的方法

技术领域

本发明涉及家庭网络环境中的语音接口，该接口基于网络设备所传送的依赖于设备或媒体的词汇，可以动态并主动地扩展其词汇量。特别是本发明涉及在实现这种语音接口的语音单元中扩展词汇量的方法。

背景技术

在这种环境中，其中的设备可以是硬件，例如VCR，或软件，例如电子节目指导。

EP-A-97118470描述了在家庭网络环境中设备可以将描述其功能和语音接口的词汇发送到语音单元。然后语音单元可以将所接收并识别的用户说的话翻译成对应的用户网络命令从而在所接收词汇的基础上控制所述的网络设备。

在1998年9月，Motorola公布了一种涉及VoxML1.0的语言，其中的VoxML1.0是基于XML语言的。通过指明通常包括提示和可能选项的列表的对话步骤，这种语言被用于描述对话系统。基本上，作为多媒体文本以及图象、超文本链接和简单GUI输入控制表示的媒介物，VoxML与HTML一样容易地用于实现声音应用。VoxML语言用法说明包括关于组件的语法和它们特性的信息，示例用法，VoxML文档或对话的结构，以及指向当利用VoxM1开发应用时很有用的其它参考文档的指针。

类似的，在Richard Sproat et al的论文“ a markup language fortext-to-speech synthesis”ESCA.Eurospeech 97，Rhodes，Oreecs，ISSN 1018-4074，第1774页中描述了一种口语文本markup语言(STML)以向文本-语音(TTS)合成器提供一些文本结构的知识。STML文本可以例如，在多语言TTS系统中设置语言和该语音的缺省说话者，使得可以装载适当的语言和说话者明细表。

此外，飞利普特别为那种在自动询问系统中遇到的对话系统开发了一种对话描述语言HDDL。在其被出售之前，HDDL被用来构造离线模式下的对话系统。

发明内容

本发明的一个目标是给出一种方法，将网络设备的功能和语音接口传送到网络的语音单元并连接语音单元中处理几个网络设备的这种功能和语音接口。

本发明提供了一种用来控制连接到具有一个语音单元的网络的网络设备的方法，其中的语音单元将用户命令翻译成用户网络命令来通过所述网络控制所述网络设备，该方法的特征在于语音单元中执行的下述步骤：

接收至少一个包括对应网络设备语言的设备文档，所述语言包括至少一对用户命令解释组件和相关的用户网络命令；

以所接收的设备文档调整包括所述语音单元的语言的通用文档，所述语音单元的所述语言的结构与所述设备文档语言的结构相同；和

在所有的包括在所述通用文档中的用户命令解释组件和相关用户网络命令对的基础上将所接收并识别的口述用户命令翻译成对应的用户网络命令；

其中用户命令解释组件包括一个词汇元素；和

用户命令解释组件包括关于设备类别和/或其功能的标准信息。

因此，本发明给出一种简单，快速并容易的方法来控制连接到具有语音单元的网络的网络设备，该方法将用户命令翻译成用户网络命令以便在来自例如所述网络设备的功能和语音接口的基础上通过所述网络来控制所述网络设备。

附图说明

图1至图3给出根据当前技术的语音单元的功能方框图，以及根据本发明的语音单元和网络设备。

具体实施方式

根据本发明，每个连接到网络的网络设备与至少一个定义所述网络设备的功能和语音接口的设备文档相关。这种设备文档可以例如是在没有所述网络设备的情况下得到的，并包括一对或几对用户命令解释组件和相关的用户网络命令。此外，语音单元能够接收这种设备文档并将它们合并成为一个语音接口描述。这种语音接口描述包括所述语音单元的语言。它也可以被称为整个网络的通用文档。语音单元接收并识别的口述用户命令然后在所有包括在所述通用文档中的用户命令解释组件和相关用户网络命令对的基础上被翻译成用户网络命令。这种用户命令解释组件可以例如包括词汇元素，对语法的定义，发音定义或几个这种或其它的例子。

如在EP-A-97 118 470中描述的，设备文档可能另外由语音单元从其自己的存储器或(远处)数据库中获得。

在语音单元中对通用文档的调整可以在从设备中接收设备文档之后在运行当中纯粹从语法上完成。当然，还有可能的是网络设备包括几个文档，每一个描述其功能的一部分和语音接口的一部分，并且只有那些真正需要的文档被传递给语音单元，即例如那些对于某一种语言来说描述网络设备功能的文档或仅仅是定义网络设备的一部分功能的文档。如果语音单元或各个网络设备自身识别出还需要所述各个设备的其它语音功能，例如另一种语言，那么对应的设备文档可以被发送到语音单元，该语音单元在该进一步文档的基础上调整其通用文档并在所调整的通用文档的基础上在运行中产生相应的用户网络命令。

本发明和其优点将在下面对示例实施方案的的描述中得到更好的理解。这些后面讨论的实施方案是在两个设备连接到网络中并包括一个语音单元的情况的基础上被描述的。最初，语音单元的通用文档是空的，每个定义其中一个设备的语言的设备文档被合并成为语音单元中的一个接口描述。明显地，这些例子可以被扩展到n个设备被连接到网络的情形，或语音单元包括一个在新接收到的设备文档基础上调整的通用文档的情形。此外，为了简化，设备文档包括由仅仅一个词汇元素组成的用户命令解释组件。

在下面的例子中，L1是所接受的语言，即第一设备1的词汇元素和相关命令，L2则对应于第二设备2。从数学上说，L1是包括至少一个词汇元素即字wi(尽管字wi不必是一个单字，它还可以是包括几个字的完整话语)和相关的用户网络命令的集合。除了例如关于发音的词汇元素之外，字序的语法和/或语音理解的规则以及对话都可以包括在语言之中。

在第一例中，L1和L2不包括相同的词汇元素，即，没有相同的字，使得L1∩L2＝{}，对于接口描述来说，合并的所接收语言L是L＝L1∪L2，即语音单元中的通用文档是通过加入来自包括第一设备1的语言L1的文档1以及来自包括设备2的语言L2的文档2的词汇元素和相关命令对来构造的。当词汇元素以及相关的命令简单地定义了它们意味着哪个设备时，由于L1和L2不包括相同的词汇元素，用户网络命令可以被产生并发送到正确的对应设备。

在第一例中，两个网络设备可以是电视机和CD播放机。在这种情形中，与电视机相关的L1和与CD播放机相关的L2分别包括设备文档中的下述词汇元素：

L1＝{MTV，CNN}，以及

L2＝{play，stop}

由于L1和L2不包括相同的词汇元素，即L1∩L2＝{}，对于接口描述来说，合并的所接受语言L是L＝L1∪L2＝{MTV，CNN，play，s top}。例如，这些词汇元素分别与具有如在下面列表中建议的功能的用户网络命令相关；

MTV-><从TV切换到MTV>

CNN-><从TV切换到CNN>

Play-><使CD进入播放模式>

Stop-><使CD进入停止模式>

然而，如果两个设备具有相同的词汇元素，即，相同的字，使得有L1∩L2≠{}，根据本发明它们将是可区分的。在本发明的第一优选实施方案中，设备名将被加在至少那些构造各个所接受语言之间即在L1和L2之间的交集的词汇元素之前或之后成为前缀或后缀。因此，用户必须用他/她想要访问的设备名对口述用户命令加以前缀或后缀。如前面提到的，如果该命令不会混淆，该设备名不必作为前缀，但是可以加。

在下面的第二例中，各个命令将加以设备名作为前缀，构造接口描述的新语言L是所有语言的非混淆字以及被冠以其设备名(在下面的公式中分别称作n1和n2)的设备语言的联合。

L＝L1\(L1∩L2)∪L2\(L1∩L2)∪n1 L1∪n2 L2

下面的第二例将在包括分别称为“CD”和“Tape”的CD播放机和磁带机的网络辅助下阐明根据该实施方案的本发明方法。CD播放机的所接受语言L1和磁带机的所接受语言L2分别包括下面的词汇元素：

L1＝{播放，停止，跳过}

L2＝{播放，记录，停止，倒带}

语音接口接受的语言是L＝(L1\(L1∩L2))∪(L2\L1∩L2))∩n1 L1∩n2 L2＝{跳过，记录，倒带，CD播放，CD停止，CD跳过，磁带播放，磁带记录，磁带停止，磁带倒带}，相关的用户网络命令的功能可以是：

Skip-><跳到CD上的下一个轨道>

Record-><进入磁带记录模式>

Reword-><磁带倒带>

CD Play-><进入CD播放模式>

CD Stop-><停止播放CD>

CD Skip-><跳到CD上下一个轨道>

Tape Play-><进入磁带播放模式>

Tape Record-><进入磁带记录模式>

Tape Stop-><停止播放/记录磁带>

Tape rewind-><倒带>

根据本发明的第二优选实施方案，在所识别的模糊命令的情况下，通过自动地向用户发送一个询问来阐明用户想要访问的设备，“相同字问题”被解决。通常，这种情景接受的语言与第一例中的分离语言一样，只是解释组件改变了。用来阐明该实施方案的第三例是基于第二例中给定的情景的，即，作为网络设备的CD播放机和磁带机。所接受的语言L如第一例中那样构造，即L＝L1∪L2，但是是在识别出包括在语言L1和L2交集中的词汇元素时执行选择过程的条件下。在L1和L2分别包括如第二例中相同的词汇元素的条件下，语音单元接受的语言L包括下面的词汇元素L＝{Play，Stop，Skip，Record，Rewind}。在这种情况下，相关用户网络命令的功能为：

Play-><阐明1>

Stop-><阐明2>

Skip-><跳到CD上的下一个轨道>

Record-><进入磁带的记录模式>

Rewind-><倒带>

其中“阐明1”意味着语音识别器输出询问“在什么设备上”，并且在词汇元素La＝{CD，Tape}的情况下将语言切换到La，在这种情况下，相关用户网络命令的功能为：

CD-><进入CD播放模式>并<切换回L>

Tape-><进入磁带播放模式>并<切换回L>

其中“阐明2”意味着语音单元输出询问“在什么设备上”，并在词汇元素Lb＝La＝{CD，Tape}的情况下将语音切换回Lb，在这种情况下，相关用户网络命令的功能为：

CD-><停止播放CD>并<切换回L>

Tape-><停止播放/记录磁带>并<切换回L>

根据本发明的第三实施方案，当语音单元仅采用最近使用的设备作为缺省设备，并因此在包括所述语音单元和缺省设备的所接受语言L的通用文档的基础上将所接收并识别的口述用户命令翻译成对应的用户网络命令时，第二实施方案可以提高速度。当然，也可能再次强调另一个设备，例如，通过仅说出设备名。

根据第四实施方案，可以执行对对话的调整。在上面描述的情况中，用于澄清的问题被输出到用户以正确地分配模糊字，并且系统会观察用户的反应。如果大多数的澄清表明最近访问的设备被指定，该问题将被跳过，用户网络命令将直接发送到设备。多个信息源可以被用来预测命令是发给哪个设备的，例如，不仅考虑最近使用的设备，而且考虑类似的设备和设备类。例如，更可能的是，在看电视时发出的“记录它”命令是指向VCR的而不是指向音频磁带的，而在听收音机是则是另外一回事了。还有可能的是可以根据用户的行为或通过观察设备的功能性描述而学习到设备类。

根据本发明，即在上面描述的所有实施方案中，在所述设备被链接到网络或所述设备接收到来自语音单元的用户网络命令之后，设备文档可以从设备直接发送到语音单元。还有可能的是，根据当前状态，该设备将这种设备文档发送到语音单元。一个设备可以包括多于一个文档，或者设备可以基于变化的环境信息而动态地改变它们的功能，并因此当它们观察到改变或调整时，通过向语音单元发送新的文档，而更新对话和语音理解能力。还有可能的是设备文档并不存储在对应设备中，而是存储在设备文档供给设备中，例如，在设备制造商的网络服务器上。在这种情况中，语音单元可以在它识别出所述设备连接到网络之后下载设备文档。

例如，还可能的是一个设备可以包括不同国家的语言的若干个文档，每个文档以包括整个设备完全接受的语言。因此，这种设备可以例如首先将用于德语说话者的设备文档发送到语音单元，并且在来自用户的对应命令之后，可以将英语设备文档发送给语音单元使得语音单元可以将德语或英语用户命令翻译成用户网络命令来控制设备。

除了词汇元素之外，用于识别或合成的字的发音定义可以包括在设备文档的元素中，并因此直接合并进语音单元的通用文档中。当发音定义包括在语言中时，它们可以被单独用于一个设备的识别和合成部分或者它们可以被所有的设备共享，即，第一设备1引入的发音对于向第二设备2或其它连接到网络上的设备发出的字也是正确的。

而且对于合成来说，若干设备文档的合并，即，语音单元中通用文档的调整是可能的。对应于用户对若干个设备以及单个设备的询问可以给出答案。当然，必须保证的是，对于来自若干设备的话语的合成不是同时输出的。基于给出的优先级，一些话语可以由外部事件(例如，一个警告)引发。它们可以中断其它的话语，并且在用户的不活动期之后，中断的话语被重新引入，并且对话可以继续。并行管理几个对话流依赖于下面的事实：在用户输入过程中，所有的流都是激活的，并且被认为与用户话语最匹配的流被继续。

语音单元的通用文档最初可以是空的，或者它可以包括描述一个或多个设备的接口的基本元素组。在后者的情况中，从设备发送到语音单元的文档可以待定的并且(仅)包括对通用文档这些部分的参考。

例如，可能的是话语中字的缺省语法包括在通用文档的用户命令解释组件的基本组中，而仅仅特定设备的对话语法在设备文档中规定。在另一方面，还可能的是语音识别器在其通用文档中包括某种功能的完整描述，例如，关于如何通过口述对话来控制电子节目指导的完整描述。在这种情况下，对话语法和字序的语法可以包括用于节目名，导演名字，演员名字，时间和日期的信息等等，并且从电子节目指导设备发送到语音单元的文档仅包括填充这些变量的信息。

在另一个实施方案中，从设备发送到语音单元的设备文档只包括与网络命令和类别标志相关的键码。基于这些类别标志，语音单元知道字序的哪一个语法被用做可能连续的用户话语的规则。例如，如果键码是“Voice of America”并且类别是”RADIO_STATION”，那么用户可以被允许说“I want to listen to voice of America”或“Turnon the voice of America”并且如果类别为“RECORD_RADIO_STATION”，那么可能的用户话语可以是“Pleae record the voice ofAmerica”。

形成语音理解基础的概念/值对，例如开始一个动作所需的(TIME8：00)可以作为特定设备的语法包括在发送到语音单元以调整通用文档的设备文档中。描述语音接口的设备文档包括定义字序和概念之间的映射以及怎样填充变量值的规则。此外，它还包括定义概念/值组到动作之间映射的规则(例如，COMMAND，”record”)，(TITLE，”gonewith the wind”)，并且(TIME，8：00)可能表明在VCR上的一个记录过程。对话可以是由用户启动的，即，话语的顺序，例如，”at 8o’clock”和”the movie gone with the wind”以及信息是否在一句话或多句话中给出由用户决定。系统可以收集基于语法开始一个动作所需的信息并且依赖于发送到各个网络设备的用户网络命令，该设备可以将另一个包括附加语法的文档发送到语音单元使得如果信息丢失语音单元可以回问，或者可以将最新识别的用户话语分配给进一步的用户网络命令。

除了关于词汇元素、发音、字序的语法、作为用户命令解释组件的语音理解和对话的规则的信息之外，设备文档也可以包括相同的信息，即，分配给相同或等价用户网络命令的多种语言的词汇，发音、语法等等。这使得用户可以用多种语言控制设备。如上面提到的，这种信息也可以包括在相同设备的几个设备文档中。这允许指定能够处理多种语言口述输入的单个语音单元的接口。对话语法可以选择为与语言无关，因为上面提到的概念/值对是与语言无关的。

上面还提到的是，文档包括口述字的语法明确或模糊给出的词汇。对于每个词汇元素，即，对于每个字，可以任选地给出一个或多个发音。如果没有给出，可以自动产生。然而，这易于产生错误，尤其是在外文中特有的名称、字或者缩写以及在特殊发音(方言或外国口音)需要被捕捉时会是这样。给定一组单音或单音变体，发音构成了在识别器中创建字模型的基础。

除了用户命令解释组件和相关命令之外，设备文档还可能包括关于设备类别，例如VCR和/或关于其功能的标准信息，例如它包括可记录的磁带的标准信息，使得涉及多于一个设备的复杂命令成为可能。例如，如果用户从电视机上显示的电子节目指导中选择了在未来的某些天播放电影，他可能说出“please record the movie(请记录电影)”。这意味着必须发出网络命令以便将来自电子节目指导的关于相关信道、日期、时间的信息发送到VCR并且还要向VCR发送一个命令以保证会进行适当的记录。类似的情况是从一个VCR磁带拷贝电影到另一个VCR。在这些情况中，各个设备的语音接口描述一般不会定义这种用户话语。因此，语音单元可以在包括在设备文档中的合理部分的基础上，根据可能包括在那些复杂命令中一个的设备，通过一个合理组件来调整其通用文档，其中的合理组件为这种涉及多于一个设备的额外功能提供语音接口描述(包括字序和对话的语法)。

由于所有控制网络设备的信息包括在语音单元中的一个通用文档中，处理(分析)变得非常容易，尤其是当用户命令解释组件的不同可能值之间存在参考时或存在分配给通用文档中相同或相等用户网络命令的双重信息时会是这样。

因此，根据本发明可以通过网络中的语音单元控制的网络设备可以将描述其功能和语音接口的设备文档发送给所述语音单元。在用户命令解释组件的辅助下，该语音单元将这些文档组合并形成将所识别的用户命令翻译成用户网络命令而控制所连接的网络设备的基础的通用文档。设备文档可以例如包括用于对应设备的作为用户命令解释组件和相关用户网络命令的词汇。此外，发音、字序的语法、语音理解和对话的规则以及用于多种语言的相同信息或有关语音理解中动态对话的信息可以包括在这种文档的用户命令解释组件中。还有可能的是，一个设备包括几个文档，并在需要它们的时候，动态将它们发送给语音单元。此外，本发明使能一个设备在变化值的基础上动态改变其功能，因为在语音单元使用过程中，网络设备将关于其语音性能的指标发送给语音单元。在设备动态改变其功能时，它动态产生一个设备文档或更新现存的一个，例如，通过替换/插入工作站名字，并将更新的设备文档发送到语音单元。

图1到3给出根据当前技术的语音单元的功能方框图，以及根据本发明的语音单元和网络设备。

根据现存技术的语音单元2在图3中给出。它被连接到麦克风1、扬声器和总线10。麦克风1的输入信号在输入到CPU4之前在具有内嵌存储器3a的数字信号处理器3中被处理，CPU4通过具有内嵌存储器9a的数字信号处理器9将其计算结果输出到扬声器，并通过链路层控制单元5和I/F物理层单元6将该结果输出到总线10。数字信号处理器3和CPU4可以访问存有处理控制所需的所有信息的存储器8。此外，数字信号处理器3访问存有语音识别和合成所需的全部信息的存储器7的特征提取部分7e。CPU4访问识别部分和字形/音素转换部分7f以及分别独立存储于存储器7的用于几个设备的单个语音接口定义和通用语音接口定义。

图1中给出的根据本发明的语音单元2基本上与根据现存技术的语音单元2以同样的方式构造，但是它包括一个位于存储器7中的合并的语音接口定义，而不是几个分别对应于一个设备的单个的语音接口定义和一个通用的语音接口定义。这种合并的接口定义对应于上面描述的通用文档。

图2就结合本发明的功能方面给出了根据本发明的网络设备11。网络设备11包括一个与用于设备控制15的软件交互的CPU12，存储器14，链路层控制单元17和I/F物理层16来向总线10输出一些信息。此外，CPU可以与存储有根据现存技术的语音接口定义，即存储有根据本发明的单个设备文档或多个设备文档的存储器交互。

当然，如上面提到的，网络设备11并不需要具有包括语音接口定义的存储器13，但是网络设备11的语音接口定义也可以通过语音接口定义提供设备来提供，其中的提供设备可以从根据本发明的语音单元2来访问。

Claims

1.用来控制连接到具有一个语音单元的网络的网络设备的方法，其中的语音单元将用户命令翻译成用户网络命令来通过所述网络控制所述网络设备，该方法的特征在于语音单元中执行的下述步骤：

其中用户命令解释组件包括一个词汇元素；和

2.根据权利要求1的方法，其特征在于下述调整所述通用文档的步骤：

确定是否语音单元的语言和最近接收的设备文档的语言具有至少一个相同的用户命令解释组件；

如果没有相同的用户命令解释组件，更新所述语音单元的所述语言以包括所述语音单元的语言和最近接收的设备文档语言的所有用户命令解释组件和相关用户网络命令对的联合；和

如果存在至少一个相同的用户命令解释组件，更新所述语音单元的所述语言以包括不相同的所述语音单元语言和最近接收的设备文档语言的所有用户命令解释组件和相关用户网络命令对并且至少包括那些相同的、且具有定义各自相关设备的标识的所述语音单元语言和最近接收的设备文档语言的所有用户命令解释组件和相关用户网络命令对。

3.根据权利要求2的方法，特征在于所述标识是被用做各自用户命令解释组件和相关用户网络命令对的用户命令解释组件的前缀或后缀的设备名称。

4.根据权利要求1的方法，特征在于还包括选择过程，所述选择过程包括下述步骤：

向用户提问用哪一个设备；

接收并识别用户的回答；和

在所识别的回答和所有包括在所述通用文档中的用户命令解释组件和相关用户网络命令对的基础上选出对应的用户网络命令。

5.根据权利要求1的方法，特征在于设备文档是在对应的网络设备连接到网络之后，从所述对应的网络设备直接发送到语音单元的。

6.根据权利要求1的方法，特征在于包括在语音单元中的最初通用文档是空的。

7.根据权利要求1的方法，特征在于包括在语音单元中的最初通用文档包括用户命令解释组件和相关用户网络命令对的一个基本组。

8.根据权利要求7的方法，特征在于所述用户命令解释组件和相关用户网络命令对的基本组定义了话语中的字的缺省语法。

9.根据权利要求1的方法，特征在于用户命令解释组件包括取决于键码和/或类别标识的连续用户话语的语法定义。

10.根据权利要求1的方法，特征在于用户命令解释组件包括一个发音定义。

11.根据权利要求10的方法，特征在于所述发音定义与某一设备的语言相关。

12.根据权利要求10的方法，特征在于所述发音定义与一些设备的语言相关。

13.根据权利要求1的方法，特征在于用户命令解释组件包括至少一个字序的语法。

14.根据权利要求1的方法，特征在于用户命令解释组件包括定义与某一用户命令相关的字序和概念之间映射的规则。