CN1945694B

CN1945694B - 为标记目的确定对话系统参数的系统和方法

Info

Publication number: CN1945694B
Application number: CN2006101318799A
Authority: CN
Inventors: 豪克·施密特; 卡斯滕·伯格曼; 翁富良; 罗希特·米什拉; 巴德里·拉古纳坦
Original assignee: Robert Bosch LLC
Current assignee: Robert Bosch LLC
Priority date: 2005-09-28
Filing date: 2006-09-28
Publication date: 2011-11-09
Anticipated expiration: 2026-09-28
Also published as: US7877257B2; ATE434816T1; CN1945694A; US20060100875A1; EP1770686A1; EP1770686B1; DE602006007409D1; EP1988543A1

Abstract

确定口语对话系统参数的方法和系统，包括：提供用于存储至少一个参数值的存储区，将子组件和口语对话系统的至少一个模块整合，并且配置所述子组件以访问所述至少一个参数以及基于该至少一个参数值来调整所述模块的操作或输出。

Description

为标记目的确定对话系统参数的系统和方法

相关申请的交叉引用

本申请是2004年9月27日提交的，名为“Method and System forInteractive Conversational Dialogue For Cognitively Overloaded DeviceUsers”的申请号为10/952,069的美国专利申请的后续部分，通过引用在此合并其全部公开内容。

发明领域

本发明涉及为标记和/或个人化目的确定口语对话系统参数的系统和方法。

发明背景

命令和控制型语音识别系统可以允许用户通过说出或发出特定的预定关键字来控制设备和服务，该系统可以理解该特定的预定关键字并将其链接到特定的行为。这样的系统需要用户学习特定的允许的关键字集合和其到行为的映射。

与命令和控制型系统相反，某些口语对话系统允许用户使用大部分无约束语音在对话系统的控制下与设备和/或服务进行互动。即，某些口语对话系统可以采用更多的自然语言理解(Natural LanguageUnderstanding，NLU)方法与用户进行互动。具体地，这些系统可以使用多个专门用于与用户所说的含义的理解相关联的特定子任务的模块，生成对用户的口语应答以进一步澄清，以及向设备或服务发布某种类型的命令或查询，作为与用户对话的结果。

生产商和服务提供商希望将他们的产品和服务与其他生产商或服务提供商区分开。而且，生产商和服务提供商希望他们的产品和服务因为具有特别的外形和/或感觉而被用户认知。

消费者希望他们使用的产品和/或服务具有某种与众不同的特性。具体地，消费者希望根据他们的个人偏好来定制产品和/或服务。

发明概要

本发明的示例性实施例和/或示例性方法可以确定口语对话系统的某些特性的参数，从而生成口语对话系统的特定形象或外表，或者生成在口语对话系统控制下的或者与口语对话系统相关联的特定设备和/或服务的特定形象或外表。从用户的观点来看，在与设备或服务互动时口语对话系统可以用作联络中心，并且随着时间的过去用户可以逐渐形成关于设备或服务的人性化的形象或者感觉，这些可以部分地受到口语对话系统的参数化的影响。在这一点上，可以将这种人性化形象或者感觉的形成称为“标记”或“个人化”。

口语对话系统的标记，或者包括口语对话系统或在口语对话系统控制下的系统的标记，可以为生产商(例如，车辆生产商)提供区分他们产品与他们竞争对手的那些产品的机会，即使这些生产商使用相同或相似的技术。例如，标记可以用于将特定“外形和感觉”或者“说和听”附加到汽车模型和其附带的口语对话系统，使得生产商可以将汽车模型作为特定购买群体的目标，并且用户可以识别生产商和/或模型。在这一点上，口语对话系统可以是整个汽车设计和外观的一部分或者到用户的位置从而加入了一致性和价值。由此，标记和/或个人化对技术的提供者，对汽车制造商，以及对用户来说，都是高价值的。

根据本发明的示例性实施例和/或示例性方法，口语对话系统可以使一个或者更多用户参加语音对话，以协商系统可以执行的一个或多个任务的细节。通过这样做，系统的语音输出可以呈现出某种关于特定标记本身的特性。具体地，这些特性可以包括，例如，某种声调(例如，男/女声，音调的变音等)，词的选择，回答中的详细度，之前发音惯用语的重复度等。

根据本发明的示例性实施例和/或示例性方法，系统的标记特性可以做成可调整的，使得可以通过与系统嵌入的环境(例如，汽车)的设计一致的方式来提供该系统。例如，汽车生产商可以使用口语参数化，通过与车辆的通用设计和/或用户偏好一致的方式来调整交通工具上(on-board)的口语对话系统的行为。

根据本发明的示例性实施例和/或示例性方法，为了标记目的提供对车内口语对话系统中的可调整参数的访问。具体地，根据本发明的示例性实施例和/或示例性方法，对生产商提供了对于不同汽车模型或用户群的不同参数设定的访问。

根据本发明的示例性实施例和/或示例性方法，为口语对话系统的用户提供了访问，以调整参数使对话系统个人化。在这一点上，口语对话系统参数的个人化可以包括，例如，对依次由口语对话系统中的组件提供/检测的用户特定特性的访问。在这一点上，用户特定特性可以包括，例如，特定用户的特性，男性特性，女性特性，对话风格，或者说话风格。用户还可以定义单独参数设置的集合的新档案。具体地，本发明的示例性实施例和/或示例性方法可以将设置的预配置提供在一个档案中，以及提供让用户选择一组档案中的一个的访问。

本发明的示例性实施例和/或示例性方法在于确定口语对话系统的参数的方法，包括提供用于存储至少一个参数值的存储区，整合子组件和口语对话系统的至少一个模块，以及配置该子组件以访问该至少一个参数值并基于该至少一个参数值调整该模块的操作或者输出。

根据本发明的另一个示例性实施例和/或示例性方法，将该子组件与语音识别模块整合，以调整数字化声学样本到由语音识别模块生成的词序列和有向图的至少之一的转换。

根据本发明的另一个示例性实施例和/或示例性方法，将该子组件与自然语言理解模块整合，以调整对词序列和词假设的有向组的至少之一的句法和语义结构的分析。

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于用户话语风格来调整对词序列和词假设的有向组至少之一的句法和语义结构的分析。

根据本发明的另一个示例性实施例和/或示例性方法，该子组件与对话管理器整合，以调整用于设备的命令的汇编和应答描述的生成的至少之一。

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于口语对话系统的对话风格调整用于设备的命令的汇编和应答描述的生成的至少之一。

根据本发明的另一个示例性实施例和/或示例性方法，对话风格包括相对应答长度。

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于口语对话系统的插入级别调整用于设备的命令的汇编和应答描述的生成的至少之一。

根据本发明的另一个示例性实施例和/或示例性方法，整合该子组件和应答生成器，以调整应答描述到词和声标的至少之一的序列的翻译。

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于要提供给口语对话系统的用户的应答数量来调整应答描述到词和声标的至少之一的序列的翻译

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于词和声标的至少之一的选择来调整应答描述到词和声标的至少之一的序列的翻译。

根据本发明的另一个示例性实施例和/或示例性方法，整合该子组件和文本到语音模块，以调整词的至少一个的序列到数字化声学样本的转换。

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于韵律控制来调整词序列到数字化声学样本的转换。

根据本发明的另一个示例性实施例和/或示例性方法，配置该子组件以关于声音特征来调整词序列到数字化声学样本的转换。

根据本发明的另一个示例性实施例和/或示例性方法，将至少一个参数组织到至少一个档案中。

根据本发明的另一个示例性实施例和/或示例性方法，提供接口以设置至少一个参数和至少一个档案中的至少之一。

根据本发明的另一个示例性实施例和/或示例性方法在于确定口语对话系统参数的设备，包括用于存储至少一个参数值的存储区，以及与口语对话系统的至少一个模块整合的至少一个子组件，用于访问至少一个参数值并基于该至少一个参数值来调整模块的操作或者输出。

根据本发明的另一个示例性实施例和/或示例性方法在于一种口语对话系统，包括用于执行口语对话系统的子任务的模块，用于存储至少一个参数值的存储区，以及与所述模块整合的子组件设备，用于访问该至少一个参数值并基于该至少一个参数值来调整所述模块的操作或者输出。

根据本发明的另一个示例性实施例和/或示例性方法，配置该模块以执行对词序列和词假设的有向组的至少之一的句法和语义结构的分析，以及配置该子组件设备以关于用户说话风格来调整所述分析。

根据本发明的另一个示例性实施例和/或示例性方法，配置该模块以执行用于设备的命令的汇编和应答描述的生成的至少之一，以及配置该子组件设备以关于口语对话系统的对话风格和插入的至少之一来以调整用于设备的命令的汇编和应答描述的生成的至少之一。

根据本发明的另一个示例性实施例和/或示例性方法，对话风格包括相对应达长度。

根据本发明的另一个示例性实施例和/或示例性方法，配置该模块以将应答描述翻译成词和声标的至少之一的序列，并且配置该子组件设备以关于要提供给口语对话系统的用户的应答数量和词和声标的至少之一的选择中的其中之一来调整所述翻译。

根据本发明的另一个示例性实施例和/或示例性方法，配置该模块以将词的至少之一的序列转换成数字化声学样本，以及配置该子组件设备以关于韵律控制和声音特性的至少之一来调整所述转换。

附图的简要说明

图1显示了示例性口语对话系统，该系统包括多个专门用于特定子任务的模块，这些特定子任务有关于用户所说的含义的接收和理解，为了进一步澄清而生成对用户的口语应答，以及向设备或服务发布命令或查询，作为与用户对话的结果。

图2显示了用于确定图1的示例性口语对话系统参数的示例性参数化配置。

具体描述

图1显示了示例性口语对话系统100，包括麦克风(M)101，语音识别(SR)模块102，自然语言理解(NLU)模块103，对话管理器(DM)104，应答生成器(RG)105，文本到语音(TTS)模块106，以及扬声器(S)107。在这一点上，示例性口语对话系统100的每个模块101到107专门用于特定子任务，该子任务有关于尝试理解用户所说的含义，或生成对用户的口语应答以进一步澄清，或者基于对含义的理解和进一步澄清对设备或服务发布命令或查询。

具体地，麦克风101将用户话语的声学信号转换成数字化样本。语音识别模块102将由麦克风101提供的用户话语的数字化样本转换成最可能的词序列，或者，转换成词假设(word hypothesis)的有向图(directed graph)。自然语言理解模块103分析词序列(或者假设图)的句法和语义结构。对话管理器104从结构化的话语将命令汇编(assemble)到附加设备(例如，无线电广播设备)，并且/或者生成对用户的潜在应答的描述，该潜在应答用于用户话语中冲突信息的确认、解疑或者判定。该应答生成器105将由对话管理器104提供的应答描述翻译成人类可理解形式的句子(或者词串)。

文本到语音模块106将由应答发生器105提供的词序列转换为数字化声学样本。在这一点上，文本到语音模块106可以提供韵律(prosody)标记语言扩展，来控制合成语音的各个方面，例如，发音、音量、音调、语速、男/女声等等。(参见例如W3C语音合成标记语言版本1.0：http://www.w3.org/Voice/2004/CR-speech-synthesis-200312128-diffmarked.html，其作为参考全部并入在此)。扬声器107将由文本到语音模块106提供的数字化声学样本转换成用户感知的声学信号。

图2显示了示例性参数化设备150，用于确定图1的示例性口语对话系统100的参数。示例性参数化设备150包括用于输入参数值/设置的外部接口151，存储参数值/设置的存储区152，以及包含或集成于示例性口语对话系统100的某些模块中的子组件设备153，用于访问参数值/设置以及在这些模块中采用该值/设置。存储区152包括存储生产商设置的子存储区152a和存储个人化设置的子存储152b。

例如，可以通过程序软件指令实现包含在每个模块中的子组件设备153，该程序软件指令访问存储区域152来检索生产商和/或个人化参数值/设置，基于检索值调整该模块的操作和/或输出，以及基于与用户的互动更新个人化参数值/设置。在这一点上，可以通过以下方式提供某种可调整的参数，例如，使用韵律标记语言，或通过修改对话管理器104用以生成应答描述的策略，或者通过修改应答生成器105用以翻译应答的策略，或者通过以上方式的组合。

图2的示例性参数化设备150可以用于提供多种可调整的参数，包括，例如，用于语音合成的声音。在这一点上，可以过滤和/或修改声音来表示某种类型的人的声音，包括，例如，男声，女声，老人或少年的声音，或者带有特定口音的人的声音。还可以修改声音的音调。

可调整参数还可以包括韵律控制。例如，可调整参数可以控制语音的声调、节奏或者音色。可调整参数还可以控制语音输出的速度。例如，可调整参数可以通过特定形式，或者根据特定词数字/分类(例如，语义-快乐的，严肃的)参数化上的特定重音来控制一个或多个特定词。

可调整参数还可以包括冗长(verbosity)，即，提供给用户的语音应答的数量。例如，可调整参数可以控制是否所有、没有或者仅有一些话语被确认，或者是否应答应该仅涉及最近说过的项或者每次重复每一个说过的项。

可调整参数还可以在制定应答中确定词的选择。例如，可调整参数可以控制哪些词被包含在应答中，使得应答可以以特定方式感知，包括，例如，是否考虑应答是礼貌的、直接的和/或不经意的。

可调整参数可以控制“插入”，即，可调整参数可以确定特定外部事件的重要性，并为其发起对话，通知用户该事件。在这一点上，事件可以是，例如，诸如警告迫近事故或者低油位指示这样的外部事件。

可调整参数还可以控制与某些系统应答相关联的不同风格的“耳标(earcon)”(也被认为是声标(acoustic icon))。例如，可调整参数可以控制某种系统应答，该系统应答使用“哔哔声”来确定识别的话语，或者对于所选择原语(atomic action)的成功/失败播放不同的音调。

可调整参数还可以确定对话策略，举例来说，例如是否每次针对一件事情，或者同时处理多个任务。

可调整参数还可以允许更多约束但是更加精确的谈话或者更少约束但是更低精确的谈话。例如，为了允许更多约束但是更加精确的谈话，可以调整该系统以更多发起谈话(“更多系统主动”)。同样地，为了允许更少约束但是更低精确的谈话，可以调整该系统以更少发起谈话(“更多用户主动”)。

给予调整示例性口语对话系统100的某些参数的能力，生产商还可以选择将部分或者全部参数对用户公开，使他们个人化这些设置并由此脱离车辆模型的标准行为。在这一点上，通过使用一个或更多由示例性对话系统100中的组件提供/检测的用户特性，可以在算法上个人化/衍化这些设置。例如，可以为特定用户群(例如，来自由语音识别器模块102提供的输入的男或女)，或者对使用生物统计学(例如，说话人识别/验证)的特定用户进行个人化设置。

还可以对特定用户对话风格进行个人化设置。例如，可以进行个人化设置，以提供控制简短/详细/简洁-查询/响应，每个任务采用的对话转变。

还可以对特定用户说话风格进行个人化设置。例如，可以进行个人化设置，以使用例如语调的指示(例如，不耐心，耐心的句法的指示)，或者监视系统特定控制组件(例如，即按即说(PTT)按钮)的使用频率来提供不耐心或耐心的说话风格。

可以将参数设置预先配置在一组档案(profile)中，使用户能够选择确定多个设置的档案，而不是单独进行每个设置。用户还可以将他们自己的新档案添加到该组。

Claims

1.确定口语对话系统的参数的方法，包括：

提供用于存储至少一个参数值的存储区；

将子组件和所述口语对话系统的至少一个模块整合；以及

配置所述子组件以访问所述至少一个参数值，并基于所述至少一个参数值调整所述模块的操作或者输出，

其中：

所述调整包括调整所述至少一个参数值中的可调整参数值，其中所述可调整参数值确定外部事件的重要性；以及

针对所述外部事件的重要性，所述口语对话系统确定是否发起向用户通知所述外部事件的对话。

2.如权利要求1的方法，其中将所述子组件与语音识别模块整合，以调整从数字化声学样本到由所述语音识别模块生成的词序列和有向图的至少之一的转换。

3.如权利要求1的方法，其中将所述子组件与自然语言理解模块整合，以调整对词序列以及词假设的有向组的至少之一的句法和语义结构的分析。

4.如权利要求3的方法，其中配置所述子组件以关于用户说话风格来调整对词序列以及词假设的有向组的至少之一的句法和语义结构的分析。

5.如权利要求1的方法，其中将所述子组件与对话管理器整合，以调整用于设备的命令的汇编和应答描述的生成的至少之一。

6.如权利要求5的方法，其中配置所述子组件以关于所述口语对话系统的对话风格来调整用于所述设备的命令的汇编和所述应答描述的生成的至少之一。

7.如权利要求6的方法，其中所述对话风格包括相对应答长度。

8.如权利要求6的方法，其中配置所述子组件以关于所述口语对话系统的插入级别来调整用于所述设备的命令的汇编和所述应答描述的生成的至少之一。

9.如权利要求1的方法，其中将所述子组件和应答生成器整合，以调整从应答描述到词和声标的至少之一的序列的翻译。

10.如权利要求9的方法，其中配置所述子组件以关于要提供给所述口语对话系统的用户的响应数量来调整从所述应答描述到所述词和声标的至少之一的序列的翻译。

11.如权利要求9的方法，其中配置所述子组件以关于所述词和声标的至少之一的选择来调整从所述应答描述到所述词和声标的至少之一的序列的翻译。

12.如权利要求1的方法，其中将所述子组件与文本到语音模块整合，以调整词的至少之一的序列到数字化声学样本的转换。

13.如权利要求12的方法，其中配置所述子组件以关于韵律控制来调整所述词的至少之一的序列到数字化声学样本的转换。

14.如权利要求12的方法，其中配置所述子组件以关于声音特性来调整所述词的至少之一的序列到数字化声学样本的转换。

15.如权利要求1的方法，还包括：

将所述至少一个参数值组织到至少一个档案中。

16.如权利要求14的方法，还包括：

提供接口以设置所述至少一个参数值和至少一个档案中的至少之一。

17.确定口语对话系统的参数的设备，包括：

用于存储至少一个参数值的存储区；以及

至少一个子组件，将所述至少一个子组件与所述口语对话系统的至少一个模块整合，以访问所述至少一个参数值，并基于该至少一个参数值调整所述模块的操作或者输出，

其中：

18.如权利要求17的设备，其中将所述子组件与语音识别模块整合，以调整数字化声学样本到由所述语音识别模块生成的词序列和有向图的至少之一的转换。

19.如权利要求17的设备，其中将所述子组件与自然语言理解模块整合，以调整对词序列以及词假设的有向组的至少之一的句法和语义结构的分析。

20.如权利要求19的设备，其中配置所述子组件以关于用户说话风格来调整对词序列以及词假设的有向组的至少之一的句法和语义结构的分析。

21.如权利要求17的设备，其中将所述子组件与对话管理器整合，以调整用于设备的命令的汇编和应答描述的生成的至少之一。

22.如权利要求21的设备，其中配置所述子组件以关于所述口语对话系统的对话风格来调整用于所述设备的命令的汇编和所述应答描述的生成的至少之一。

23.如权利要求22的设备，其中所述对话风格包括相对应答长度。

24.如权利要求21的设备，其中配置所述子组件以关于所述口语对话系统的插入级别来调整用于所述设备的命令的汇编和所述应答描述的生成的至少之一。

25.如权利要求17的设备，其中将所述子组件和应答生成器整合，以调整应答描述到词和声标的至少之一的序列的翻译。

26.如权利要求25的设备，其中配置所述子组件以关于要提供给所述口语对话系统的用户的应答数量来调整所述应答描述到所述词和声标的至少之一的序列的翻译。

27.如权利要求25的设备，其中配置所述子组件以关于所述词和声标中的至少之一的选择来调整所述应答描述到所述词和声标的至少之一的序列的翻译。

28.如权利要求17的设备，其中将所述子组件和文本到语音模块整合，以调整词的至少一个的序列到数字化声学样本的转换。

29.如权利要求28的设备，其中配置所述子组件以关于韵律控制来调整所述词的至少一个的序列到数字化声学样本的转换。

30.如权利要求28的设备，其中配置所述子组件以关于声音特性来调整所述词的至少一个的序列到数字化声学样本的转换。

31.口语对话系统，包括：

用于执行所述口语对话系统的子任务的模块；

用于存储至少一个参数值的存储区；以及

与所述模块整合的子组件设备，用于访问所述至少一个参数值，并基于该至少一个参数值调整所述模块的操作或者输出，

其中：

32.如权利要求31的口语对话系统，其中配置所述模块以执行对词序列以及词假设的有向组的至少之一的句法和语义结构的分析，以及配置所述子组件设备以关于用户说话风格来调整所述分析。

33.如权利要求31的口语对话系统，其中配置所述模块以进行

用于设备的命令的汇编和应答描述的生成的至少之一，以及配置所述

子组件设备以关于所述口语对话系统的对话风格和插入的其中之一

来调整用于所述设备的命令的汇编和所述应答描述的生成的至少之一。

34.如权利要求33的口语对话系统，其中所述对话风格包括相对应答长度。

35.如权利要求31的口语对话系统，其中配置所述模块以将应答描述翻译成词和声标的至少之一的序列，并且配置所述子组件设备以关于要提供给所述口语对话系统的用户的应答数量和所述词和声标中至少之一的选择的其中之一来调整所述翻译。

36.如权利要求31的口语对话系统，其中配置所述模块以将词的至少一个的序列转换成数字化声学样本，以及配置所述子组件设备以关于韵律控制和声音特性的至少之一来调整所述转换。