CN105659316A

CN105659316A - 对话控制装置和对话控制方法

Info

Publication number: CN105659316A
Application number: CN201480057853.7A
Authority: CN
Inventors: 藤井洋; 藤井洋一; 石井纯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-11-25
Filing date: 2014-08-06
Publication date: 2016-06-08
Also published as: JP6073498B2; US20160163314A1; DE112014005354T5; WO2015075975A1; JPWO2015075975A1

Abstract

意图估计权重决定部(9)根据意图层次图数据(8)和激活的意图，决定意图估计权重。迁移节点决定部(10)根据意图估计权重对意图估计结果进行修正后，决定要新迁移而激活的意图。对话话轮生成部(13)根据激活后的意图来生成对话的话轮。对话控制部(2)在通过对话的话轮被赋予了新的输入的情况下，控制意图估计部(7)、意图估计权重决定部(9)、迁移节点决定部(10)和对话话轮生成部(13)中的至少任意处理，通过反复进行该控制，最终执行所设定的命令。

Description

对话控制装置和对话控制方法

技术领域

本发明涉及根据所输入的自然语言进行对话并执行基于用户意图的命令的对话控制装置和对话控制方法。

背景技术

近年来，对人说出的言语进行语音输入并使用其识别结果来执行操作的方法受到关注。该技术被用作便携电话或汽车导航等的语音接口，基本方法如下：预先将系统假定的语音识别结果和操作对应起来，在语音识别结果是假定的语音识别结果的情况下，执行操作。该方法与现有的手动操作相比，能够通过发出语音而直接进行操作，因此，作为快捷功能而有效发挥作用。另一方面，用户需要发出系统等待的言语以执行操作，当系统处理的功能增加时，必须记忆的言语增加。并且，一般情况下，充分理解操作说明书后再使用的用户较少，其结果是，不清楚为了进行操作应该如何说出什么内容，因此，存在除了实际记忆的功能以外无法利用语音进行操作的问题。

因此，作为对其进行改良后的现有技术，作为即使用户没有记住用于达到目的的命令也能够达到目的的方法，公开有系统通过对话进行引导而达到目的的方法。作为其实现方法之一，存在如下方法：预先将对话脚本构成为树构造，从树构造的根起探寻中间节点(以后将在树构造上进行迁移的情况称作节点激活)，在到达末端节点的时点，用户达到目的。关于探寻对话脚本的树构造的哪里，针对树构造的各节点保持的关键字，根据用户的发话中包含哪个关键字来决定在该时点激活的意图的迁移终点。

进而，例如在专利文献1所记载的技术中，具有多个这种脚本，各脚本保持对该脚本赋予特征的多个关键字，由此，根据最初的用户的发话决定选择哪个脚本来进行对话。并且，公开有如下方法：在用户发话的内容与当前进行中的脚本的树构造的迁移终点均不一致的情况下，根据对多个脚本赋予的多个关键字选择其它脚本并从根起进行对话，由此切换话题。

现有技术文献

专利文献

专利文献1：日本特开2008-170817号公报

发明内容

发明要解决的课题

现有的对话控制装置如上所述构成，因此，在不能迁移的情况下，能够选择新的脚本。但是，例如在根据系统的功能设计而生成的树构造的脚本和表示用户假定的功能的表现不同的情况下，在选择某个脚本并利用树构造的脚本的对话中，在用户发话的内容是脚本假定外的发话的情况下，存在其它脚本的可能性，根据发话内容选择似然脚本。在发话的内容暧昧的情况下，优先选择进行中的脚本，因此，存在即使在其它脚本更加似然的情况下也不进行迁移的课题。并且，现有方法无法动态变更脚本自身，因此，存在如下课题：在根据系统的功能设计而生成的树构造的脚本与用户假定的功能构造不同时或用户误解了功能时，无法定制树构造的脚本。

本发明正是为了解决上述课题而完成的，其目的在于，得到针对假定外的输入也能够进行适当迁移并执行适当命令的对话控制装置。

用于解决课题的手段

本发明的对话控制装置具有：意图估计部，其根据将基于自然语言的输入转换成语素串而得到的数据，估计输入的意图；意图估计权重决定部，其根据将意图设为层次构造后的数据和在对象时点激活的意图，决定由意图估计部估计出的意图的意图估计权重；迁移节点决定部，其根据由意图估计权重决定部决定的意图估计权重对意图估计部的估计结果进行修正后，决定要新迁移而激活的意图；对话话轮生成部，其根据由迁移节点决定部激活后的一个或多个意图生成对话的话轮；以及对话控制部，其在通过由对话话轮生成部生成的对话的话轮被赋予了新的基于自然语言的输入的情况下，控制意图估计部、意图估计权重决定部、迁移节点决定部和对话话轮生成部进行的处理中的至少任意处理，通过反复进行该控制，最终执行所设定的命令。

发明效果

本发明的对话控制装置决定估计出的意图的意图估计权重，根据该意图估计权重对意图的估计结果进行修正后，决定要新迁移而激活的意图，因此，针对假定外的输入，也能够进行适当迁移并执行适当命令。

附图说明

图1是示出本发明的实施方式1的对话控制装置的结构图。

图2是示出本发明的实施方式1的对话控制装置的意图层次数据的一例的说明图。

图3是示出本发明的实施方式1的对话控制装置的对话例的说明图。

图4是示出本发明的实施方式1的对话控制装置的对话中的意图迁移的说明图。

图5是示出本发明的实施方式1的对话控制装置的意图估计结果的说明图。

图6是示出本发明的实施方式1的对话控制装置的对话脚本数据的说明图。

图7是示出本发明的实施方式1的对话控制装置的对话历史数据的说明图。

图8是示出本发明的实施方式1的对话控制装置的对话流程的流程图。

图9是示出本发明的实施方式1的对话控制装置的对话话轮生成处理的流程的流程图。

图10是示出本发明的实施方式2的对话控制装置的结构图。

图11是示出本发明的实施方式2的对话控制装置的对话例的说明图。

图12是示出本发明的实施方式2的对话控制装置的意图估计结果的说明图。

图13是示出本发明的实施方式2的对话控制装置的命令历史数据的说明图。

图14是示出本发明的实施方式2的对话控制装置的针对命令历史数据的追加处理的流程的流程图。

图15是示出本发明的实施方式2的对话控制装置的针对用户判定是否进行确认的处理的流程的流程图。

图16是示出本发明的实施方式3的对话控制装置的结构图。

图17是示出本发明的实施方式3的对话控制装置的对话例的说明图。

图18是示出本发明的实施方式3的对话控制装置的意图估计结果的说明图。

图19是示出本发明的实施方式3的对话控制装置的追加迁移链路数据的说明图。

图20是示出本发明的实施方式3的对话控制装置的追加迁移链路的变更处理的流程的流程图。

图21是示出本发明的实施方式3的对话控制装置的变更后的意图层次数据的说明图。

具体实施方式

下面，为了更加详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是示出本发明的实施方式1的对话控制装置的结构图。

图1所示的对话控制装置具有语音输入部1、对话控制部2、语音输出部3、语音识别部4、语素解析部5、意图估计模型6、意图估计部7、意图层次图数据8、意图估计权重决定部9、迁移节点决定部10、对话脚本数据11、对话历史数据12、对话话轮生成部13、语音合成部14。

语音输入部1是在对话控制装置中受理语音输入的输入部。对话控制部2是控制语音识别部4～语音合成部14进行对话并执行最终对意图分配的命令的控制部。语音输出部3是在对话控制装置中进行语音输出的输出部。语音识别部4是识别从语音输入部1输入的语音并将其转换成文本的处理部。语素解析部5是将由语音识别部4识别出的识别结果分割成语素的处理部。意图估计模型6是用于使用由语素解析部5解析出的语素解析结果来估计意图的意图估计模型的数据。意图估计部7是将由语素解析部5解析出的语素解析结果作为输入并使用意图估计模型6输出意图估计结果的处理部，输出意图和表示该意图的似然性的评分的组的列表。

例如，意图由“<主意图>[<位置名>＝<位置值>、…]”这样的形式来表现。作为例子，能够表现成“目的地设定[设施＝？]”或“目的地设定[设施＝$设施$(＝○○拉面)]”。“目的地设定[设施＝？]”表示希望设定目的地但未决定具体设施名的状态，“目的地设定[设施＝$设施$(＝○○拉面)]”表示希望将“○○拉面”这样的具体设施设定成目的地的状态。

这里，意图估计部7中的意图估计方式例如能够利用最大熵法等方法。具体而言，能够利用如下方法：针对“希望设定目的地”这样的发话，给出从语素解析结果中提取出“目的地、设定”这样的独立词单词(以下称作素性)而得到的部分和正确意图“目的地设定[设施＝？]”的组，根据大量收集到的素性和意图的组，通过统计手法，针对输入素性的列表估计哪个意图以何种程度似然。下面，设为利用最大熵法进行意图估计来进行说明。

意图层次图数据8用于层次地表现意图。例如，关于以“目的地设定[设施＝？]”、“目的地设定[设施＝$设施$(＝○○拉面)]”这种形式表现的2个意图，更加抽象的意图“目的地设定[设施＝？]”存在于层次的上位，嵌入了具体位置的“目的地设定[设施＝$设施$(＝○○拉面)]”位于其下方。并且，还保持着一些由对话控制部2估计出的当前激活中的意图。

意图估计权重决定部9是如下的处理部：根据意图层次图数据8的意图的层次信息和激活后的意图的信息，决定对由意图估计部7估计出的意图的评分赋予的权重。迁移节点决定部10是如下的处理部：通过由意图估计权重决定部9决定的权重再次评价由意图估计部7估计出的意图和意图的评分的列表，由此，选择接下来应该激活的意图(包含多个情况)。

对话脚本数据11是记述有接下来应该执行由迁移节点决定部10选择出的一个或多个意图中的哪一个意图的对话脚本的数据。并且，对话历史数据12是存储对话状态的对话历史数据。对话历史数据12根据之前状态来保持用于在变更动作、或进行确认对话时用户进行否定的情况下返回之前状态的信息。对话话轮生成部13是如下的对话话轮的生成部：将由迁移节点决定部10选择出的一个或多个意图作为输入，利用对话脚本数据11、对话历史数据12等，生成系统应答的生成、要执行的操作的决定、等待来自用户的接下来的输入等脚本。语音合成部14是将由对话话轮生成部13生成的系统应答作为输入而生成合成语音的处理部。

图2是假定汽车导航的意图层次数据的例子。图中，节点21～30、86是表示意图层次的意图的意图节点。意图节点21是意图层次的最上方的根节点，表示导航功能的汇总的意图节点22悬吊在其下方。意图81是设定在迁移链路之间的特殊意图的例子。意图82、83是在对话时请求用户进行确认的情况下的特殊意图。意图84是用于返回一个对话状态的特殊意图，意图85是用于中止对话的特殊意图。

图3是实施方式1中的对话的例子。行头的“U：”表示用户的发话。“S：”表示来自系统的应答。31、33、35、37、39是系统应答，32、34、36、38是用户发话，表示依次进行对话。

图4是示出随着图3的对话的进行而引发什么样的意图节点的迁移的迁移例子。28是由于用户发话32而激活的意图，25是由于用户发话34而重新激活的意图，26是由于用户发话38而激活的意图，41是在意图节点28激活时优先进行意图估计的优先意图估计范围。42表示迁移后的链路。

图5是示出意图估计结果的例子和通过对话状态对意图估计结果进行修正的式子的例子的说明图。式51示出意图估计结果的评分修正式，52～56是意图估计结果。

图6是对话脚本数据11中存储的对话脚本的图。记述有针对激活后的意图节点进行什么样的系统应答，并且在对话控制装置操作的设备中进行什么样的命令执行。61～67是针对意图节点的对话脚本。另一方面，68、69是在多个意图节点激活的情况下，在希望记述用于使其进行选择的系统应答时登记的对话脚本。一般情况下，在多个意图节点已激活的情况下，使用各个意图节点的对话脚本的执行前应答瞬间进行连接。

图7是对话历史数据12，71～77示出针对各意图的原路返回点。

图8是示出实施方式1中的对话流程的流程图。按照步骤ST11～步骤ST17的步骤，执行对话。

图9是示出实施方式1中的对话话轮生成流程的流程图。按照步骤ST21～步骤ST29的步骤，生成仅一个意图节点已激活时的对话话轮。另一方面，在多个意图节点已激活的情况下，在步骤ST30中，在对话话轮中追加激活意图节点选择用的系统应答。

接着，对实施方式1的对话控制装置的动作进行说明。在本实施方式中，设输入(一个或多个关键字或语句的输入)为自然语言的语音来说明以下动作。并且，在本发明中，由于未涉及与语音有关的误识别，因此，以下设为正确识别出用户的发话而没有误识别来进行说明。在实施方式1中，使用未明示的发话开始按钮开始对话。并且，在开始对话之前，图2的意图层次图的意图节点均处于未激活的状态。

最初，当用户按压发话开始按钮后，对话开始，系统输出提示对话开始的系统应答和哔哔声。例如，当按压发话开始按钮后，系统应答31进行“哔声响起后请讲话”这样的系统应答，与哔哔声响起同时地，语音识别部4成为可识别状态。当转移到步骤ST11后，这里，当用户进行发话32“希望变更路线”这样的发话后，从语音输入部1输入语音，由语音识别部4转换成文本。这里，设为被正确识别。当语音识别结束后，处理转移到步骤ST12，“希望变更路线”被转移到语素解析部5。语素解析部5对识别结果进行解析，如“ルート/名词、を/助词、変更/名词(サ変接続)、し/动词、たい/助动词”那样进行语素解析。

接着，处理转移到步骤ST13，语素解析后的结果被转移到意图估计部7，使用意图估计模型6进行意图估计。在意图估计部7中，从语素解析行迹结果中提取意图估计中使用的素性。首先，在步骤ST13中，从发话例32的识别结果的语素解析结果中提取“路线、设定”这样的素性的列表，根据该素性，由意图估计部7进行意图估计。此时，意图估计的结果如意图估计结果52那样，得到意图“路线选择[类型＝？]”的评分0.972(实际上还对除此以外的意图进行评分)。

当得到意图估计结果后，处理转移到步骤ST14，由意图估计部7估计出的意图和评分的组的列表被转移到迁移节点决定部10，进行评分的修正后，处理转移到步骤ST15，决定要激活的迁移节点。评分的修正例如使用评分修正式51这样的形式。式中，i表示意图，s_i表示意图i的评分。函数I(s_i)定义成如下函数：如果意图i在位于已激活的意图的下位层次的优先意图估计范围内则返回1.0，如果在优先意图估计范围外则返回α(0≤α≤1)。另外，在实施方式1中设为α＝0.01。即，在无法从已激活的意图迁移的意图的情况下，降低评分，进行修正以使评分的总和为1。在进行了“希望变更路线”的发话的状况下，在意图层次图中，哪个节点也不处于已激活的状态，因此，全部意图评分取0.01倍并利用总和相除，因此，最终修正后的评分成为原来的评分。

接着，在步骤ST15中，由迁移节点决定部10决定激活意图组。作为迁移节点决定部10的动作，例如存在如下的意图节点的决定方法。

(a)在最大评分为0.6以上的情况下，仅激活一个最大评分的节点

(b)在最大评分小于0.6的情况下，激活多个评分为0.1以上的节点

(c)在最大评分小于0.1的情况下，无法理解意图而不激活

在实施方式1的情况下，在进行了“希望变更路线”的发话的状况下，最大评分为0.972，因此，仅意图“路线选择[类型＝？]”由迁移节点决定部10激活。

在迁移节点决定部10中，当意图节点28激活后，处理转移到步骤ST16，利用对话话轮生成部13，根据对话脚本数据11中写入的内容生成下一个话轮的处理列表。具体而言，成为图9的处理流程。首先，在图9的步骤ST21中，由于激活的意图节点仅为意图节点28，因此，处理转移到步骤ST22。由于在意图节点28的对话脚本61中不存在数据库检索条件，因此，处理转移到步骤ST28。由于对话脚本61中也没有定义命令，因此，处理转移到步骤ST27，生成用于选择意图节点28的下位意图节点29、30等的系统应答。应答选择对话脚本61，将执行前瞬间的“变更路线。选择收费优先、一般优先等。”作为系统应答追加到对话话轮中，图9的流程结束。在步骤ST16中，对话控制部2受理对话话轮，依次处理对话话轮中追加的处理。语音合成部14生成系统应答33的语音，并从语音输出部3输出。当对话话轮的执行结束后，处理转移到步骤ST17。由于对话话轮中不存在命令，因此，处理转移到步骤ST11，成为用户输入等待。

在成为等待语音输入的时点，一个对话话轮完成，由对话控制部2继续进行处理。下面，由于反复进行图8的流程，因此省略详细记述。输入用户发话34“搜索附近的拉面屋”，由语音识别部4正确识别，由语素解析部5进行语素解析，根据其语素解析结果，如意图估计结果53、54那样得到由意图估计部7进行意图估计的结果。接着，在迁移节点决定部10中，在该时点，由于仅意图节点28激活，因此，优先意图估计范围41的意图估计结果54不变，优先意图估计范围外的意图估计结果53取α倍，根据评分修正式51再次计算评分。再次计算的结果如意图估计结果55、56那样，在进行加权后，决定应该将意图估计结果55作为用户发话的意图，将激活节点作为意图节点25。

对话话轮生成部13依据激活意图节点已迁移的情况以及不存在从迁移起点起的链路的情况，生成对话话轮。由于移动到不存在迁移的地方，因此在确认后执行。首先，当选择对话脚本67后，选择执行前瞬间的“检索当前地附近的$种类$。”，根据意图估计结果的“$种类$(＝拉面屋)”的信息，利用“拉面屋”置换“$种类$”，生成系统应答“检索当前地附近的拉面屋。”。进而，追加确认应答，将“检索当前地附近的拉面屋。可以吗？”作为系统应答。然后，由于没有定义命令，因此对话继续，成为用户输入等待。

这里，如果用户如用户发话36“是。”那样发话，则由语音识别部4、语素解析部5、意图估计部7生成确认用的特殊意图“确认[值＝是]”。在迁移节点决定部10的处理中，选择有效的特殊意图82“确认[值＝是]”，确定向意图节点25的迁移(由迁移链路42表示)。另外，这里，在用户如“不”那样进行否定的发话的情况下，意图估计部7估计特殊意图“确认[值＝否]”作为高评分的意图估计结果，在迁移节点决定部10的处理中，由于特殊意图83“确认[值＝否]”有效，因此，根据图7所示的对话历史数据12返回到之前的原路返回点，继续进行提示用户进行新的输入的对话。

接着，当意图节点25的状态确定后，对话话轮生成部13使用对话脚本67，利用“拉面屋”置换执行后瞬间“检索到当前地附近的$种类$”的“$种类$”，生成“检索到当前地附近的拉面屋”这样的系统对话应答。接着，由于对话脚本67中存在数据库检索条件，因此，追加到对话话轮中以执行数据库检索“SearchDB(当前地、拉面屋)”，接受其结果，将“请从列表中选择”作为系统应答追加到对话话轮中，转移到接下来的处理(图9中的步骤ST22→步骤ST23→步骤ST24→步骤ST25)。另外，在数据库检索的结果为检索结果仅1件的情况下，处理转移到步骤ST26，将通知检索结果为1件的系统应答追加到对话话轮中，处理转移到步骤ST27。

对话控制部2根据受理的对话话轮，进行系统应答37“检索到当前地附近的拉面屋。请从列表中选择。”这样的语音输出，显示数据库检索到的拉面店的列表，成为等待用户发话的状态。用户发出用户发话38“前往○○拉面”，当正确进行语音识别、语素解析、意图理解后，对意图“经由地设定[设施＝$设施$]”进行意图估计，由于意图“经由地设定[设施＝$设施$]”是意图节点25的下位，因此，执行向意图节点26的迁移。

其结果是，选择意图节点26“经由地设定[设施＝$设施$]”的对话脚本63，将命令“Add(经由地、○○拉面)”追加到对话话轮中。接着，将系统应答39“已将○○拉面设为经由地”追加到对话话轮中(图9中的步骤ST22→步骤ST28→步骤ST29→步骤ST27)。

最后，对话控制部2依次执行受理的对话话轮。即，执行经由地的追加，进而通过合成音输出“已将○○拉面设定成经由地”。由于在该对话话轮中包含命令执行，因此，结束对话，返回最初的发话开始等待状态。

如以上说明的那样，根据实施方式1的对话控制装置，该对话控制装置具有：意图估计部，其根据将基于自然语言的输入转换成语素串而得到的数据，估计输入的意图；意图估计权重决定部，其根据将意图设为层次构造后的数据和在对象时点激活的意图，决定由意图估计部估计出的意图的意图估计权重；迁移节点决定部，其根据由意图估计权重决定部决定的意图估计权重对意图估计部的估计结果进行修正后，决定要新迁移而激活的意图；对话话轮生成部，其根据由迁移节点决定部激活后的一个或多个意图生成对话的话轮；以及对话控制部，其在通过由对话话轮生成部生成的对话的话轮被赋予了新的基于自然语言的输入的情况下，控制意图估计部、意图估计权重决定部、迁移节点决定部和对话话轮生成部进行的处理中的至少任意处理，通过反复进行该控制，最终执行所设定的命令。因此，针对假定外的输入也能够进行适当的迁移，能够进行与用户的要求一致的处理。

并且，根据实施方式1的对话控制方法，该对话控制方法使用对话控制装置，该对话控制装置估计基于自然语言的输入的意图而进行对话，执行作为对话的结果而设定的命令，该对话控制方法具有以下步骤：意图估计步骤，根据将基于自然语言的输入转换成语素串而得到的数据，估计输入的意图；意图估计权重决定步骤，根据将意图设为层次构造后的数据和在对象时点激活的意图，决定由意图估计步骤估计出的意图的意图估计权重；迁移节点决定步骤，根据由意图估计权重决定步骤决定的意图估计权重对意图估计步骤的估计结果进行修正后，决定要新迁移而激活的意图；对话话轮生成步骤，根据由迁移节点决定步骤激活后的一个或多个意图生成对话的话轮；以及对话控制步骤，在通过由对话话轮生成步骤生成的对话的话轮被赋予了新的基于自然语言的输入的情况下，控制意图估计步骤、意图估计权重决定步骤、迁移节点决定步骤和对话话轮生成步骤中的至少任意步骤，通过反复进行该控制，最终执行所设定的命令。因此，针对假定外的输入也能够进行适当的迁移，能够进行与用户的要求一致的处理。

实施方式2

图10是示出实施方式2的对话控制装置的结构图。图中，语音输入部1～对话历史数据12和语音合成部14与实施方式1相同，因此，对对应的部分标注相同标号并省略其说明。

命令历史数据15是与执行时刻一起预先存储此前执行的命令的数据。并且，历史考虑对话话轮生成部16是如下的处理部：除了使用对话脚本数据11、对话历史数据12的实施方式1的对话话轮生成部13的功能以外，还使用命令历史数据15生成对话话轮。

图11是实施方式2中的对话的例子。与实施方式1中的图3同样，101、103、105、106、108、109、111、113、115是系统应答，102、104、107、110、112、114是用户发话，示出正在依次进行对话。图12是示出意图估计结果的例子的图。121～124是意图估计结果。

图13是命令历史数据15的例子。命令历史数据15由命令执行历史列表15a和命令误解可能性列表15b构成。命令执行历史列表15a中的命令执行历史与时间一起预先记录命令执行后的结果。并且，命令误解可能性列表15b是在一定时间以内执行了命令执行历史中的选择项意图中的不是执行意图的意图的情况下登记的列表。

图14是实施方式2中的由历史考虑对话话轮生成部16生成话轮时的针对命令历史数据15的数据追加处理的流程图。并且，图15是示出在历史考虑对话话轮生成部16决定了命令执行预定意图时是否取得用户确认的处理的流程图。

接着，对实施方式2的对话控制装置的动作进行说明。实施方式2中的基本动作与实施方式1相同，但是，与实施方式1的不同之处在于，对话话轮生成部13的动作成为加上命令历史数据15进行动作的历史考虑对话话轮生成部16的动作。即，与实施方式1的不同之处在于，在利用系统应答而选择了误解可能性意图作为最终具有命令定义的意图的情况下，能够不生成直接执行的脚本而生成取得确认的对话话轮。

实施方式2中的对话示出如下情况：用户没有充分理解应用，打算设定目的地却追加登记地，然后察觉并重新设定成目的地。与实施方式1同样，对话整体的流程基于图8的流程，因此，省略与实施方式1相同的动作的说明。并且，对话话轮的生成也与图9的流程相同。

下面，按照图11的对话内容进行说明。当用户按下发话开始按钮后，对话开始，语音输出系统应答101“哔声响起后请讲话”。因此，作出用户发话102“○×车站”。当发出用户发话102后，通过语音识别部4、语素解析部5、意图估计部7得到意图估计结果121、122、123。在该状态下，由于是不存在激活的意图节点的状态，因此，在迁移节点决定部10中，意图估计结果的修正后的值为意图估计结果121、122、123的值本身。迁移节点决定部10根据意图估计结果来决定要激活的意图节点。这里，当在与实施方式1相同的条件下决定要激活的意图节点时成为(b)，意图节点26、27、86被激活。但是，在根据应用的状态而存在无法选择的意图节点的情况下，该意图节点不激活。例如，如果未设定目的地则无法设定经由地，因此，意图节点26不激活。这里，作为未设定目的地，假定意图节点26不激活的状态。

由于激活的是意图节点27、86，因此，选择对话脚本68，将“将○×车站设为目的地还是设为登记地”作为系统应答追加到脚本中(图9中的步骤ST21→步骤ST30)。最后完成的脚本被转移到对话控制部2，输出系统应答103，成为用户发话等待。这里，当作出用户发话104“登记地”时，同样进行语音识别、意图估计，选择意图节点86作为意图估计结果，选择对话脚本65，将命令“Add(登记地、○×车站)”登记在对话话轮中，将系统应答“在登记地中追加了○×车站”追加到对话话轮中(图9中的步骤ST21→步骤ST22→步骤ST28→步骤ST29→步骤ST27)。接着，历史考虑对话话轮生成部16根据图14的流程，判断是否登记在命令执行历史中。

首先，在步骤ST31中，判定命令执行之前的意图数是0还是1。这里，由于命令执行之前的意图为“登记地设定[设施＝$设施$(＝○×车站)]”和“目的地设定[设施＝$设施$(＝○×车站)]”这两个，因此进入步骤ST34。在步骤ST34中，将选择项意图设为“登记地设定[设施＝$设施$(＝○×车站)]”和“目的地设定[设施＝$设施$(＝○×车站)]”。然后，在步骤ST36中，在命令执行历史列表中追加命令执行历史131。进而，在步骤ST37中，在一定时间内执行了选择项意图中的未执行的选择项意图的情况下，登记在命令误解可能性列表15b中，但是，在登记了命令执行历史131的时点，由于不存在命令执行历史132，因此，什么都不做而结束。

接着，不久，由于未开始针对用户打算设定的“○×车站”的路线引导，因此，用户察觉到没有顺利进行想做的事情。因此，开始新的对话。因此，如果用户如用户发话106那样发出“希望前往○×车站”，则得到意图估计结果124，设定目的地。接着，处理转移到步骤ST31，由于不存在之前意图，因此处理转移到步骤ST32。在步骤ST32中，由于不存在之前意图自身，因此处理转移到步骤ST33，进而，在步骤ST36中登记命令执行历史132。

当登记命令执行历史后，在步骤ST37中，在一定时间内(例如10分钟)选择了具有暧昧性的选择项意图中的未选择的意图的情况下，存在用户误解的可能性，处理转移到步骤ST38，将其登记在命令误解可能性列表15b中。根据命令执行历史131、132，存在将目的地设定误解成登记地设定的可能性，因此，追加命令误解可能性133，分别设确认次数、正确意图执行次数为1。

日后，设用户要设定目的地而犯了相同错误。例如，当作出用户发话110“△△中心”后，与最初的发话同样进行意图理解，生成系统应答111“将△△中心设为目的地还是设为登记地”，等待用户的发话。当用户与之前同样错误地发出用户发话112“登记地”时，意图估计结果成为“登记地设定[设施＝$设施$(＝△△中心)]”。因此，历史考虑对话话轮生成部16将处理转移到步骤ST41，由于命令误解可能性列表15b中存在“登记地设定[设施＝$设施$]”的数据，因此处理转移到步骤ST42。在步骤ST42中，生成提示确认的系统应答113“将△△中心不设为目的地而设为登记地。可以吗？”。接着，处理转移到步骤ST43，确认次数追加1，结束处理。另一方面，在步骤ST41中，在命令误解可能性列表15b中不存在执行预定意图的情况下，处理转移到步骤ST44，对执行预定意图进行执行。

对话控制部2输出系统应答113后，等待用户发话，当作出用户应答114“啊，错了，设为目的地”时，选择“目的地设定[设施＝$设施$(＝△△中心)]”并执行。

然后，当用户理解到“登记地”与“目的地”的错误时，设定目的地而不使用“登记地”这样的言语，正确意图执行次数增加而确认次数不会增加。即，不会在一定时间以内执行命令误解可能性列表15b中存在的误解可能性意图中的不是执行意图的意图。

在正确执行次数/确认次数例如超过2的时点，删除命令误解可能性列表的数据并停止确认，由此，能够顺畅地进行对话。

如以上说明的那样，根据实施方式2的对话控制装置，代替对话话轮生成部而具有历史考虑对话话轮生成部，该历史考虑对话话轮生成部根据由迁移节点决定部激活后的一个或多个意图生成对话的话轮，并记录作为对话的结果而执行的命令，并且，使用在一定时间以内执行了命令执行历史中的选择项意图中的不是执行意图的意图的情况下登记的列表，生成对话的话轮，因此，在存在用户误解命令的可能性的情况下也能够进行适当的迁移，能够执行适当的命令。

并且，根据实施方式2的对话控制装置，在一定时间以内执行了命令执行历史中的选择项意图中的不是执行意图的意图的情况下，历史考虑对话话轮生成部生成进行确认的对话话轮，在生成对话话轮后，在一定时间以内没有执行列表中存在的选择项意图中的不是执行意图的意图且该情况重复了设定次数的情况下，历史考虑对话话轮生成部删除列表，并停止生成进行确认的对话话轮，因此，在用户没有理解适当的命令的情况下能够进行与其对应的适当应对，另一方面，能够防止在用户理解了适当命令的情况下进行无用的确认。

实施方式3

图16是示出实施方式3的对话控制装置的结构图。图示的对话控制装置除了语音输入部1～语音合成部14以外，还具有追加迁移链路数据17和迁移链路控制部18。语音输入部1～语音合成部14的结构与实施方式1相同，因此这里省略说明。追加迁移链路数据17是记录有执行假定外迁移时的迁移链路的数据。并且，迁移链路控制部18是向追加迁移链路数据17追加数据、基于追加迁移链路数据17变更意图层次数据的控制部。

图17是实施方式3中的对话的例子。图17的发话是进行图3的发话并执行命令后，在其它时刻执行的对话例。与图3同样，171、173、175、177、178、180、182、184、186是系统应答，172、174、176、179、181、183、185是用户发话，示出正在依次进行对话。

图18是实施方式3中的意图估计结果的例子。191～195是意图估计结果。

图19是追加迁移链路数据17的例子。201、202、203是追加迁移链路。

图20是示出由迁移链路控制部18进行迁移链路的统合处理的情况下的处理的流程图。

图21是统合后的意图层次数据例子。

接着，对实施方式3的对话控制装置的动作进行说明。

实施方式3中的最初的对话是图3的对话内容，根据系统应答39决定“经由地设定[设施＝$设施$]”并执行命令，但是，在此前的对话中选择图4的链路42的迁移。这里，在由迁移节点决定部10决定迁移终点的时点，经由意图估计权重决定部9和迁移链路控制部18追加意图估计结果191作为追加迁移链路数据17的追加迁移链路的数据。

接着，继续进行图17的对话。根据系统应答171开始对话，与图3的对话同样，用户发出用户发话172“希望变更路线”。其结果是，意图估计部7生成图5的意图估计结果52，选择意图节点28，与图3的对话同样，输出系统应答173，等待用户的发话。这里，当用户发出用户发话174“附近没有烤肉屋”时，得到意图估计结果192、193。

这里，由于存在追加迁移链路201，因此，设为存在迁移链路42，计算迁移意图，得到意图估计结果194、195。在迁移节点决定部10中，作为迁移节点，仅激活意图节点25。对话话轮生成部13设为存在迁移链路42而进行处理，因此，不用取得用户确认，在脚本中追加系统应答175，处理转移到对话控制部2。在对话控制部2中进行对话，输出系统应答175，根据用户发话176向意图节点26“经由地设定[设施＝$设施$(＝×□排骨)]”迁移。其结果是，选择对话脚本63，由于存在命令，因此执行命令并结束，但是，由于在对话的迁移中存在迁移链路42，因此，在追加迁移链路201的迁移次数中加上1。

当追加迁移链路的迁移次数更新后，根据图20的流程，判定是否通过在意图层次的上位意图重新连接链路来完成，如果能够重新连接则进行重新连接。在步骤ST51中，追加迁移链路201的迁移次数增加1，因此，提取追加迁移链路201的迁移起点一致的迁移终点。这里，由于处于还不存在追加迁移链路202的状态，因此仅存在追加迁移链路201。因此，N＝2。这里，当设步骤ST51的N的条件为3时，在步骤ST52中，由于不存在相应的上位层次意图，因此成为“是”，结束处理。

进而，在其它时刻，进行图17的接下来的对话。当发出用户发话181后，“周边检索[基准＝$POI$、种类＝$种类$]”成为意图估计结果。该意图在该时点没有作为追加迁移链路数据17的追加迁移链路的数据登记，因此，与图3的对话内容相同地输出系统应答182并进行确认。最终，根据用户发话185选择目的地设定的意图，执行命令，目的地成为“辣咖喱□□”。此时，对追加迁移链路202进行追加。

当追加了追加迁移链路的数据后，再次根据图20的流程，判定是否通过在意图层次的上位意图重新连接链路来完成，如果能够重新连接则进行重新连接。在步骤ST51中，追加迁移链路201的迁移次数为2，追加迁移链路202的迁移次数为1，因此，N＝3，提取“周边检索[基准＝？、种类＝？]”作为满足条件的上位层次意图。处理转移到步骤ST52，由于是“否”，因此处理转移到步骤ST53。上位层次意图的主意图为“周边检索”是共同的，因此成为“是”。当处理转移到步骤ST54后，如追加迁移链路203那样，利用变更后的数据来置换上位层次的意图迁移终点。

这样，通过置换迁移终点，追加迁移链路203的意图迁移终点被变更成图21所示的意图节点211。因此，在用户随后进行了“路线选择[类型＝？]”的意图的发话后，在进行了符合意图节点213的发话(例如“在目的地附近搜索店”)的情况下，对话控制装置不进行确认而实施向意图节点213的迁移，因此，不进行无用的对话就能够达到命令。

如以上说明的那样，根据实施方式3的对话控制装置，对话控制装置具有迁移控制部，在由迁移节点决定部决定的意图是与按照意图层次定义的链路不同的向假定外意图的迁移的情况下，该迁移控制部追加从迁移起点到迁移终点的链路信息，迁移节点决定部与通常链路同样地处理由迁移控制部追加的链路并决定意图，因此，针对假定外的输入也能够进行适当的迁移，能够执行适当的命令。

并且，根据实施方式3的对话控制装置，在存在多个向假定外意图的迁移且多个假定外意图具有共同的意图作为母节点的情况下，迁移链路控制部将向假定外意图的迁移置换成向母节点的迁移，因此，能够以较少的对话来执行用户期望的命令。

另外，在上述实施方式1～3中，在日语中进行了说明，但是，通过按照各个语言来变更与意图估计有关的素性提取方法，能够应用于英语、德语和汉语等各种语言。

并且，在利用特定符号(空格等)划分单词的语言的情况下，可以采取如下形式：在很难对语言的构造进行解析的情况下，针对输入的自然语言文本，利用图案匹配这样的方法，进行$设施$、$住址$等的提取处理后，直接执行意图估计处理。

进而，在实施方式1～3中，设输入为语音输入进行了说明，但是，不使用语音识别作为输入手段，在基于键盘等输入手段的文本输入的情况下，也能够期待同样的效果。

进而，在实施方式1～3中，通过由语素解析部对语音识别结果的文本进行处理来进行意图估计，但是，在语音识别引擎结果自身包含语素解析结果的情况下，可以直接使用该信息进行意图估计。

进而，在实施方式1～3中，作为意图估计的方法，以假定基于最大熵法的学习模型的例子进行了说明，但是，并不限定意图估计的方法。

另外，本申请能够在其发明范围内进行各实施方式的自由组合、或各实施方式的任意结构要素的变形、或各实施方式中的任意结构要素的省略。

产业上的可利用性

如上所述，本发明的对话控制装置和对话控制方法涉及如下结构：预先准备多个构成为树构造的对话脚本，根据与用户之间的对话而从某个树构造的脚本向其它树构造的脚本迁移，适合用作便携电话或汽车导航的语音接口。

标号说明

1：语音输入部；2：对话控制部；3：语音输出部；4：语音识别部；5：语素解析部；6：意图估计模型；7：意图估计部；8：意图层次图数据；9：意图估计权重决定部；10：迁移节点决定部；11：对话脚本数据；12：对话历史数据；13：对话话轮生成部；14：语音合成部；15：命令历史数据；16：历史考虑对话话轮生成部；17：追加迁移链路数据；18：迁移链路控制部。

Claims

1.一种对话控制装置，其特征在于，该对话控制装置具有：

意图估计部，其根据将基于自然语言的输入转换成语素串而得到的数据，估计该输入的意图；

意图估计权重决定部，其根据将意图设为层次构造后的数据和在对象时点激活的意图，决定由所述意图估计部估计出的意图的意图估计权重；

迁移节点决定部，其根据由所述意图估计权重决定部决定的所述意图估计权重对所述意图估计部的估计结果进行修正后，决定要新迁移而激活的意图；

对话话轮生成部，其根据由所述迁移节点决定部激活后的一个或多个意图生成对话的话轮；以及

对话控制部，其在通过由所述对话话轮生成部生成的对话的话轮被赋予了新的基于自然语言的输入的情况下，控制所述意图估计部、所述意图估计权重决定部、所述迁移节点决定部和所述对话话轮生成部进行的处理中的至少任意处理，通过反复进行该控制，最终执行所设定的命令。

2.根据权利要求1所述的对话控制装置，其特征在于，

所述对话控制装置具有历史考虑对话话轮生成部以代替对话话轮生成部，该历史考虑对话话轮生成部根据由所述迁移节点决定部激活后的一个或多个意图生成对话的话轮，并记录作为所述对话的结果而执行的命令，并且，使用在一定时间以内执行了命令执行历史中的选择项意图中的不是执行意图的意图的情况下登记的列表，生成对话的话轮。

3.根据权利要求2所述的对话控制装置，其特征在于，

在一定时间以内执行了命令执行历史中的选择项意图中的不是执行意图的意图的情况下，历史考虑对话话轮生成部生成进行确认的对话话轮，在生成该对话话轮后，在一定时间以内没有执行所述列表中存在的选择项意图中的所述不是执行意图的意图且该情况重复了设定次数的情况下，所述历史考虑对话话轮生成部删除该列表，并停止生成所述进行确认的对话话轮。

4.根据权利要求1所述的对话控制装置，其特征在于，

所述对话控制装置具有迁移控制部，在由迁移节点决定部决定的意图是与按照意图层次定义的链路不同的向假定外意图的迁移的情况下，该迁移控制部追加从迁移起点到迁移终点的链路信息，

所述迁移节点决定部与通常链路同样地处理由所述迁移控制部追加的链路并决定要迁移的意图。

5.根据权利要求4所述的对话控制装置，其特征在于，

在存在多个向所述假定外意图的迁移且多个该假定外意图具有共同的意图作为母节点的情况下，所述迁移链路控制部将向所述假定外意图的迁移置换成向所述母节点的迁移。

6.一种对话控制方法，其特征在于，

所述对话控制方法使用对话控制装置，该对话控制装置估计基于自然语言的输入的意图而进行对话，执行作为对话的结果而设定的命令，

所述对话控制方法具有以下步骤：

意图估计步骤，根据将所述基于自然语言的输入转换成语素串而得到的数据，估计该输入的意图；

意图估计权重决定步骤，根据将意图设为层次构造后的数据和在对象时点激活的意图，决定由所述意图估计步骤估计出的意图的意图估计权重；

迁移节点决定步骤，根据由所述意图估计权重决定步骤决定的所述意图估计权重对所述意图估计步骤的估计结果进行修正后，决定要新迁移而激活的意图；

对话话轮生成步骤，根据由所述迁移节点决定步骤激活后的一个或多个意图生成对话的话轮；以及

对话控制步骤，在通过由所述对话话轮生成步骤生成的对话的话轮被赋予了新的基于自然语言的输入的情况下，控制所述意图估计步骤、所述意图估计权重决定步骤、所述迁移节点决定步骤和所述对话话轮生成步骤中的至少任意步骤，通过反复进行该控制，最终执行所设定的命令。