CN115203359A

CN115203359A - 信息输出系统、服务器装置以及信息输出方法

Info

Publication number: CN115203359A
Application number: CN202210349374.9A
Authority: CN
Inventors: 田上结衣; 西岛敏文
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-04-08
Filing date: 2022-04-01
Publication date: 2022-10-18
Also published as: US20220324460A1; JP2022161353A; JP7420109B2

Abstract

本发明为一种信息输出系统，具有：语音取得部，其取得用户的语音；保持部，其将与询问建立关联的意图信息、与任务建立关联的意图信息保持在每个任务的层级结构中；确定部，其对用户的语音的内容与在保持部中保持的意图信息的哪个意图信息对应进行确定；输出确定部，其在通过确定部确定了与询问建立关联的意图信息时，对输出该询问进行确定；任务执行部，其在通过确定部确定了与任务建立关联的意图信息时，执行该任务，在保持部中保持的询问包含用于导出与建立关联的意图信息的层级不同的层级的意图信息的内容。

Description

信息输出系统、服务器装置以及信息输出方法

技术领域

本发明涉及一种向用户输出信息的技术。

背景技术

在国际公开第2020/070878中公开了一种代理装置，代理功能部根据由麦克风收集的声音的意义，生成与车辆的乘员交谈的代理声音，并将生成的代理声音输出到扬声器。该代理装置具有根据命令功能而分配的多个子代理功能，当从乘员声音中识别命令输入时，执行针对识别的命令分配的子代理功能。

发明内容

优选即使用户不进行明确的命令输入的语音，也可以在与代理进行对话的交换中导出恰当的命令。

本发明的目的在于，提供一种能够恰当地缩限出用户的意图的技术。

为了解决上述问题，本发明的一个方式的信息输出系统，具有：语音取得部，其取得用户的语音；保持部，其将与询问建立关联的意图信息、与任务建立关联的意图信息保持在每个任务的层级结构中；确定部，其对用户的语音的内容与在保持部中保持的意图信息的哪个对应进行确定；输出确定部，其在通过确定部确定了与询问建立关联的意图信息时，对输出该询问进行确定；任务执行部，其在通过确定部确定了与任务建立关联的意图信息时，执行该任务。在保持部中保持的询问包含用于导出与建立关联的意图信息的层级不同的层级的意图信息的内容。

本发明的另一方式为服务器装置。该服务器装置具有：保持部，其将与询问建立关联的意图信息、与任务建立关联的意图信息保持在每个任务的层级结构中；确定部，其对用户的语音的内容与在保持部中保持的意图信息中的哪个意图信息对应进行确定；输出确定部，其在通过确定部确定了与询问建立关联的意图信息时，对输出该询问进行确定；任务执行部，其在通过确定部确定了与任务建立关联的意图信息时，执行该任务。在保持部中保持的询问包含用于导出与建立关联的意图信息的层级不同的层级的意图信息的内容。

本发明的另一方式为信息输出方法。该方法包含：取得用户的语音的步骤；将与询问建立关联的意图信息、与任务建立关联的意图信息保持在每个任务的层级结构中的步骤；对用户的语音的内容与被保持的意图信息中的哪个意图信息对应进行确定的步骤；在确定了与询问建立关联的意图信息时，对输出该询问进行确定的步骤；在确定了与任务建立关联的意图信息时，执行该任务的步骤。被保持的询问包含用于导出与建立关联的意图信息的层级不同的层级的意图信息的内容。

根据本发明，能够提供一种能够恰当地缩限出用户的意图的技术。

附图说明

以下，参照附图，说明本发明的示例性实施例的特征，优点以及技术和工业意义，其中相同的符号表示相同的元件。

图1是用于说明实施方式的信息输出系统的图，是表示用户及终端装置的代理的对话例的图。

图2是表示信息输出系统的功能结构的图。

图3是表示信息处理部的功能结构的图。

图4是表示由保持部保持的多个意图信息的图。

图5是执行与用户的对话的处理的流程图。

具体实施方式

图1是用于说明实施方式的信息输出系统的图，表示用户10和终端装置12的代理的对话例。信息输出系统具有与用户10进行对话的功能，使用终端装置12的代理以图像及和声音向用户10输出信息。

代理在搭载于终端装置的显示器上作为字符以图像显示，主要通过对话与用户10进行信息的交换。代理通过图像和声音中的至少一方与用户10对话。代理识别用户10的语音的内容，并进行与语音的内容对应的应答。

用户10进行语音“肚子饿了。”(S10)。终端装置12分析用户10的语音，确定为用户10表达空腹(S12)。也就是说，终端装置12根据用户10的语音而确定用户10的意图。终端装置12的代理根据确定的意图而询问“想吃点什么吗？”(S14)。

用户10针对询问，回答“想在新宿吃。”(S16)。终端装置12分析用户10的语音，确定外出和饮食的意图(S18)，代理询问“吃什么？”(S20)。

用户10不针对问题回答，并询问“这样说来，新宿的天气？”(S22)。终端装置12分析用户10的语音，确定天气的意图(S24)，并执行天气检索的任务，取得天气信息(S26)。代理根据取得的天气信息而应答“新宿是晴天。”(S28)。

用户10根据代理的输出进行语音“那就去吧”(S30)。终端装置12分析用户10的语音，对返回至外出的意图进行确定(S32)。代理再次与S20同样地询问“吃什么？”(S34)。

用户10针对询问而回答“拉面。”(S36)。终端装置12分析用户10的语音，确定外出就餐的意图(S38)，执行饮食店检索的任务，取得饮食店信息(S40)。代理以取得的饮食店为基础，建议“推荐的拉面店有两家。第一家为A店，第二家为B店。”。

用户10针对建议而应答“引导至第一个拉面店。”(S44)。终端装置12的代理输出“知道了。”，并开始引导(S46)。

以此方式，终端装置12可以经由代理与用户10进行对话，可以根据用户的语音导出希望外出就餐的意图。如S22所示，用户10有时不回答询问地进行语音。在这种情况下，如S24所示，根据用户10的语音进行应答是自然的。另一方面，忽略前面的对话流程是不自然的，在S34中返回前面的对话流程进行语音。以此方式，信息输出系统在对话中配合突然发生的用户的任务请求进行应答，与此同时通过恰当的话题恢复，能够实现自然的对话。

图2表示信息输出系统1的功能结构。在图2及后述的图3中，作为进行各种处理的功能块而记载的各要素，可以在硬件方面由电路块、存储器、其他LSI构成，在软件方面通过装载在存储器中的程序等来实现。因此，本领域技术人员可以理解的是，这些功能块可以仅通过硬件、仅通过软件、或者通过它们的组合以各种形式实现，并不限定于任何一种。

信息输出系统1包含终端装置12及服务器装置14。服务器装置14设置在数据中心，能够与终端装置12进行通信。服务器装置14对提供信息进行保持，并向终端装置12发送提供信息。提供信息例如是店铺信息，包含店名、地址以及店铺的销售内容。此外，提供信息可以是商品、服务的广告信息、天气信息、新闻信息等。提供信息根据种类分类，如果是饮食店，则分类为拉面、中华料理、日式料理、咖喱、意大利料理等种类。

终端装置12包含信息处理部24、输出部26、通信部28、输入部30和位置信息取得部32。终端装置12可以是搭载在用户乘坐的车辆上的终端装置，也可以是用户保持的便携终端装置。通信部28与服务器装置14进行通信。在从通信部28发送到服务器装置14的信息中，附加终端ID。

输入部30承接用户10的输入。输入部30是麦克风、触摸面板、摄像机等，承接用户10的声音输入、操作输入、动作输入。位置信息取得部32使用卫星定位系统取得终端装置12的位置信息。在终端装置12的位置信息中，附加时间戳。

输出部26是扬声器和显示器中的至少一个，并向用户输出信息。输出部26的扬声器输出代理的声音，输出部26的显示器显示代理和引导信息。

信息处理部24分析输入到输入部30的用户的语音，使输出部26输出针对用户的语音的内容的应答，并执行代理与用户对话的处理。

图3表示信息处理部24的功能配置。信息处理部24包含语音取得部34、识别处理部36、输出处理部38、输出控制部40、提供信息取得部42、存储部44和保持部46。

语音取得部34取得输入到输入部30的用户的语音。用户的语音是声音信号。语音取得部34可以取得在输入部30中文字输入的用户的输入信息。语音取得部34可以通过提取声音的过滤器，从声音信号中提取语音。

识别处理部36识别由语音取得部34取得的用户的语音的内容。识别处理部36执行将用户的语音转换为文本的语音识别处理，并执行理解文本的内容的语言识别处理。

提供信息取得部42根据由识别处理部36识别的用户的语音的内容，从服务器装置14取得引导信息。例如，在用户进行语音“想吃拉面。”的情况下，提供信息取得部42取得具有“饮食店”、“拉面”的标签信息的提供信息、包含“拉面”的字段的提供信息。提供信息取得部42也可以根据终端装置12的位置信息，取得位于终端装置12周边的店铺信息。也就是说，提供信息取得部42可以取得提供信息的检索结果，也可以不检索而集中取得位于车辆周边的店铺信息。

保持部46根据每个任务的层级结构而分类地保持多个意图信息。用户的意图信息是分析用户的语音而取得的，并表示用户欲以语音传达的内容。在此，参照图4，说明由保持部46保持的意图信息。

图4是表示由保持部46保持的多个意图信息的图。在图4所示的例子中，第一层级位于最上层，第二层级从属。根据任务的种类，层级的数量不同。此外，在相同的任务种类中，多个意图信息有时被包含在相同的层级中。

例如，在饮食的任务中，意图信息“空腹”、“饮食”、“外出”和“外出就餐”与第一层、第二层、第三层和第四层建立关联地配置。在饮食的任务中，在确定了第四层的意图信息即“外出就餐”及“带走就餐”的意图信息的情况下，执行饮食店检索的任务。在意图信息中，层级的种类、层级的级别建立关联地保持。

在确定了最下层的意图信息的情况下，执行对应于该意图信息的任务。例如，在天气的任务中，当“天气”的意图信息被确定时，执行天气检索，在娱乐的任务中，当“在外面玩”的意图信息被确定时，执行娱乐信息检索。

保持部46与意图信息建立关联地保持用于导出与建立关联的意图信息不同的意图信息的询问。询问以文本形式保持。通过输出与确定的意图信息建立关联的询问，能够从用户导出其他的意图信息。

保持部46保持的询问定义的内容为，导出与询问建立关联的意图信息相比靠下层的意图信息的内容。也就是说，与第一层级的意图信息建立关联的询问被规定为，导出从属于该第一层级的意图信息的第二层级的意图信息的内容。例如，当确定了图4所示的“空腹”的意图信息时，输出用于导出从属于该意图信息的“饮食”的意图信息的询问。由此，通过预先定义导出下层的意图信息的询问，能够最终地确定最下层的意图信息地执行任务。另一方面，在确定最下层的意图信息之前，不执行任务。

可以针对一个意图信息而将多个询问建立关联，也可以输出建立关联的多个询问中的任一个询问，也可以规定的概率选择并输出某个询问。

保持部46对在意图信息中结合了特定的字段的词典数据进行保持。由此，在用户语音为特定的字段的情况下，确定用户的意图信息。例如，在词典数据中，“肚子饿了”、“肚子响了”等特定字段与“空腹”的意图信息相结合，“晴天”、“雨”等特定字段与“外面的状态”的意图信息相结合。

在通过保持部46以层级结构保持的意图信息中，包含与询问建立关联的意图信息、与任务建立关联的意图信息。例如，在饮食的层级结构中，第一层级到第三层级的意图信息与询问建立关联，作为最下层的第四层级的意图信息与任务建立关联。由此，在确定了上位的意图信息的情况下，输出询问，导出下位的意图信息，能够最终地导出与任务对应的意图信息。

返回图3。输出处理部38以文本生成针对由识别处理部36识别的用户语音的内容的应答。输出控制部40执行从输出部26输出由输出处理部38生成的应答的控制。

输出处理部38能够根据用户的语音的内容执行任务而提供服务。例如，输出处理部38具有向用户提供提供信息的引导功能。由输出处理部38提供的服务功能不限于引导功能，也可以是音乐再次播放功能、路径引导功能、通话连接功能、终端设定变更功能等。

输出处理部38的确定部48针对用户的每个语音，对该语音的内容与在保持部46中保持的多个意图信息中的哪个意图信息对应进行确定。确定部48从用户的语音中提取特定字段，并根据提取的特定字段而确定用户的意图信息。也就是说，确定部48通过参照表示意图信息和预先设定的特定字段之间的关联的词典数据，对用户的意图信息进行确定。此外，确定部48也可以使用神经网络的方法等从用户语音的内容中，对用户的意图信息进行确定。此外，确定部48也可以在提取特定字段时容许表记偏差、小的差分。此外，确定部48可以从用户语音的内容中，确定多个意图信息。

存储部44存储由确定部48确定的用户的意图信息、用户的语音等对话历史记录。存储部44存储确定的意图信息所属的任务的种类、确定的时刻。存储部44可以多次存储由确定部48确定的用户的意图信息，也可以存储从当前时刻起规定时间内的对话历史记录。也就是说，存储部44在积压了规定数量的意图信息时，废弃较早的意图信息，并废弃从确定的时刻起经过了规定时间的对话历史记录。由此，存储某种程度的对话历史记录，与此同时废弃较早的意图信息。

确定部48在用户的语音中不包含特定字段的情况下，判断用户为肯定还是否定回答。在不包含特定字段、用户为肯定或否定的回答的情况下，确定部48可以根据上次的意图信息、用户的语音、询问内容而对用户的意图信息进行确定。由此，在用户回答“是。”、“不。”的情况下，能够确定用户的意图。

输出确定部50从保持部46取出与确定的意图信息建立关联的询问，并对输出进行确定。与意图信息建立关联的询问是用于导出从属于该意图信息的下层的意图信息的询问，能够缩限出用户的意图。由此，能够缩限出用户的意图，能够以遵循用户的意图的流畅的流程实现对话。输出确定部50可以从与确定的意图信息建立关联的多个询问中选择某一个，并对输出选择的询问进行确定。输出确定部50在从多个询问中选择某一个时，可以随机选择，但也可以根据上次的意图信息选择最佳的询问。

根据由确定部48确定的用户的意图信息而输出回答，因此如图1的S20到S28的对话例所示地，即使用户突然改变话题而请求其他种类的任务，输出处理部38也能够导出恰当的任务来应对。

在存储部44中存储了对话的历史记录，在该对话历史记录中，如图1的S20所示，还存储了未得到回答的询问。在图1的S18中，用户的语音跳到另一层级的意图信息，由此层级的下降停止。因此，输出确定部50从在存储部44中存储的对话历史记录中检测没有询问的应答的询问，并对再次输出检测的询问进行确定。对再次输出进行确定的定时可以是如图1的S34所示那样地在执行了其他种类的任务之后的时刻。由此，如图1的S32以及S34所示，能够在完成了其他种类的任务之后，再次开始用于导出执行完成前的任务的对话。此外，无需从上层起逐个阶段地依次下降层级结构，能够容易地跳到确定的意图信息的位置。

此外，输出确定部50也可以对不输出与意图信息建立关联的询问进行确定，在这种情况下，不是询问而是输出单纯的随声附和等。例如，可以针对每个意图信息而预先设定输出与意图信息建立关联的询问的概率。例如，在确定了“闲聊”的意图信息的情况下，输出询问的概率为约10％相对地较低，在确定了“空腹”的意图信息的情况下，输出询问的概率为约90％相对地较高。输出确定部50在由确定部48确定了多个意图信息的情况下，可以对输出与最下层的意图信息建立关联的询问进行确定。

与意图信息建立关联的询问不仅为在下层的意图信息中进行缩限，还定义了用于与回答对应地导出其他种类的层级的意图信息的内容。例如，针对图1所示的S14的“想吃点什么吗？”这样的询问，在用户进行了否定的语音应答的情况下，确定“忍耐”的意图信息。如图4所示，该“忍耐”的意图信息不是饮食的层级，而是配置在新闻的层级。以此方式，能够与询问的回答对应地，跳到其他种类的层级，继续对话。

任务执行部52在确定了最下层的意图信息的情况下，执行对应的任务。例如，任务执行部52在确定了图4所示的“外出就餐”的意图信息的情况下，执行饮食店检索，经由提供信息取得部42从服务器装置14取得饮食店信息。此外，任务执行部52也可以发出执行音乐再次播放装置、导航装置的指示。

生成部54生成使代理语音的文本。生成部54以文本的形式生成由输出确定部50确定输出的询问。生成部54可以根据代理的种类而设定在保持部46中保持的询问的表述，例如也可以将询问设为方言。生成部54可以生成由输出确定部50确定的询问以外的文本，也可以生成遵循用户的意图信息的文本。此外，生成部54也可以在用户的意图信息未被确定的情况下，生成单纯的随声附和、问候等日常对话。输出控制部40将由生成部54生成的文本以声音或图像从输出部26输出。

图5是执行与用户对话的处理的流程图。语音取得部34从输入部30取得用户10的语音(S50)。识别处理部36分析用户10的语音而识别语音的内容(S52)。

确定部48对用户10的语音是否包含特定字段进行判断(S54)。在用户10的语音包含特定字段的情况下(S54中的是)，确定部48参照在保持部46中保持的词典数据，判断与特定字段建立关联的意图信息和该意图信息的层级(S56)。存储部44存储由确定部48确定的意图信息(S58)。

任务执行部52对与确定的意图信息对应的任务是否存在进行判断(S60)。也就是说，任务执行部52判断确定的意图信息是否位于最下层。在与定的意图信息对应的任务存在的情况下(S60中的是)，执行该任务(S62)。生成部54根据任务执行部52的执行结果，生成应答用户10的文本(S64)。输出控制部40使输出部26输出生成的文本(S66)，本处理结束。

在与确定的意图信息对应的任务不存在的情况下(S60的否)，输出确定部50对输出与确定的意图信息建立关联的询问进行确定(S74)。该询问是导出从属的下层的意图信息的询问，因此最终地能够导出任务。生成部54根据由输出确定部50确定的询问，生成文本(S76)。例如，在保持部46中以文本形式保持询问，因此生成部54也可以仅从保持部46取出由输出确定部50确定的询问。输出控制部40使输出部26输出生成的文本(S66)，本处理结束。

在用户10的语音不包含特定字段的情况下(S54的否)，确定部48判断在存储部44中是否存储了以往的意图信息(S68)。在未存储以往的意图信息的情况下(S68的否)，生成部54生成与用户10的语音对应的应答文(S78)。输出控制部40使输出部26输出生成的文本(S66)，本处理结束。

在存储了以往的意图信息的情况下(S68的是)，确定部48根据最近的意图信息、代理的输出、用户10的语音，对用户10的意图信息进行确定(S70)。例如，在代理输入“想吃点什么吗？”，用户10回答“是。”的情况下，确定部48将用户10的意图信息确定为“饮食”，在用户10回答“否”。”的情况下，确定部48将用户的意图信息确定为“忍耐”。存储部44存储确定的意图信息(S72)。然后，进入上述S60，执行本处理。

此外，各实施方式只不过是例示，各构成要素的组合可以有各种变形例，而且这样的变形例也在本发明的范围内，这是本领域技术人员可以理解的。

在实施例中，示出了终端装置12从服务器装置14取得提供信息的方式，但不限于该方式，终端装置12也可以预先保持提供信息。

此外，不限于终端装置12执行语音识别处理及生成应答文本的处理的方式，服务器装置14也可以执行语音识别处理及生成应答文本的处理中的至少一个。例如，终端装置12的信息处理部24的结构可以全部设置在服务器装置14中。在信息处理部24设置在服务器装置14中的情况下，输入到终端装置12的输入部30的声音信号以及由位置信息取得部32取得的位置信息从通信部28发送到服务器装置14。然后，服务器装置14的信息处理部24生成语音文本，并从终端装置12的输出部26输出。

在实施例中，示出了确定部48根据用户的语音内容而确定与任务对应的意图信息的方式，但不限于该方式。例如，确定部48可以根据上次的用户的语音与本次的用户的语音的内容而对与任务对应的意图信息进行确定，也可以通过对多个意图信息进行确定而对与任务对应的意图信息进行确定。

Claims

1.一种信息输出系统，其特征在于，具有：

语音取得部，其取得用户的语音；

保持部，其将与询问建立关联的意图信息、与任务建立关联的意图信息保持在每个任务的层级结构中；

确定部，其对用户的语音的内容与在所述保持部中保持的意图信息中的哪个意图信息对应进行确定；

输出确定部，其在通过所述确定部确定了与询问建立关联的意图信息时，对输出该询问进行确定；

任务执行部，其在通过所述确定部确定了与任务建立关联的意图信息时，执行该任务，

在所述保持部中保持的询问包含用于导出与建立关联的意图信息的层级不同的层级的意图信息的内容。

2.根据权利要求1所述的信息输出系统，其特征在于，

在所述保持部中保持的询问包含用于导出与建立关联的意图信息相比靠下层的意图信息的内容，与任务建立关联的意图信息在层级结构中位于与询问建立关联的意图信息相比靠下层。

3.根据权利要求1或2所述的信息输出系统，其特征在于，

具有存储以往的对话的历史记录的存储部，

所述输出确定部对再次输出未从用户得到回答的以往输出的询问进行确定。

4.根据权利要求1至3中任一项所述的信息输出系统，其特征在于，

所述确定部根据用户的语音和上次确定的意图信息而对用户的语音的内容与在所述保持部中保持的意图信息中的哪个意图信息对应进行确定。

5.一种服务器装置，其特征在于，具有：

6.一种信息输出方法，其特征在于，包含：

取得用户的语音的步骤；

将与询问建立关联的意图信息、与任务建立关联的意图信息保持在每个任务的层级结构中的步骤；

对用户的语音的内容与被保持的意图信息中的哪个意图信息对应进行确定的步骤；

在确定了与询问建立关联的意图信息时，对输出该询问进行确定的步骤；

在确定了与任务建立关联的意图信息时，执行该任务的步骤，

被保持的询问包含用于导出与建立关联的意图信息的层级不同的层级的意图信息的内容。