CN107077843A

CN107077843A - 对话控制装置和对话控制方法

Info

Publication number: CN107077843A
Application number: CN201480082506.XA
Authority: CN
Inventors: 小路悠介; 藤井洋; 藤井洋一; 石井纯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2017-08-18
Also published as: US20170199867A1; WO2016067418A1; DE112014007123T5; JPWO2016067418A1

Abstract

对话控制装置具有：词素解析部(105)，其解析使用者利用自然语言输入的文本；意图估计处理部(107)，其参照将单词和根据该单词估计的使用者的意图对应起来存储的意图估计模型，根据词素解析部(105)的文本解析结果估计使用者的意图；未知词语提取部(108)，其在意图估计处理部(107)中未能唯一地确定使用者的意图的情况下，根据文本解析结果提取未存储在意图估计模型中的单词作为未知词语；以及应答语句生成部(110)，其生成包含未知词语提取部(108)提取出的未知词语的应答语句。

Description

对话控制装置和对话控制方法

技术领域

本发明涉及对话控制装置和对话控制方法，识别例如使用者的语音输入和通过键盘输入等输入的文本，根据识别出的结果估计使用者的意图，进行用于执行使用者期望的操作的对话。

背景技术

近年来，为了进行设备的操作而使用语音识别装置，该语音识别装置例如以人们说出的语音为输入，使用所输入的语音的识别结果执行操作。在该语音识别装置中，以往是预先由系统将假定的语音识别结果与操作对应起来，在语音识别结果与假定的语音识别结果一致的情况下执行操作。因此，使用者需要记住系统为了执行操作而等待的表现方式。

作为即使使用者未记住用于达到目的的表现方式也能够在自由的讲话中使用语音识别装置的技术，公开有如下的方法：估计使用者的讲话意图，由装置通过对话引导着达到目的。在该方法的情况下，为了应对使用者的多种表现方式，需要在语音识别辞典的学习中使用多种文例，并且在估计讲话意图的意图估计技术中使用的意图估计辞典也需要使用多种文例进行学习。

但是，在语音识别辞典中使用的语言模型能够自动收集，因而虽然增加文例比较容易，但是，意图估计辞典在生成学习数据时需要人工赋予正确，与语音识别辞典相比存在生成花费功夫的问题。另外，使用者有时还会使用新词或俗语，虽然词汇数量随着时间而增加，但是，存在使意图估计辞典与这样的多种词汇对应花费成本的问题。

针对上述的问题，例如在专利文献1中公开有使用用于对一个文例增加能够受理的词汇的同义词辞典的语音输入对应装置。通过使用同义词辞典，只要能够得到正确的语音识别结果，就能够在正确的语音识别结果中将包含于同义词辞典中的词语置换成代表词语，即使在仅以使用代表词语的文例进行学习的情况下，也能够使意图估计辞典与多种词汇对应。

现有技术文献

专利文献

专利文献1：日本特开2014-106523号公报

发明内容

发明要解决的问题

但是，在上述专利文献1的技术中，同义词辞典的更新需要人工的检查，覆盖全部词汇并非易事，在使用者使用了同义词辞典中没有的词语的情况下，存在如下的问题：产生不能正确地估计使用者的意图的情况。另外，在不能正确地估计使用者的意图的情况下，虽然系统的应答与使用者期望的应答不同，却不将与该期望的应答不同的原因反馈给使用者，因而存在如下的问题：使用者不明原因而继续使用同义词辞典中没有的词语，导致对话失败，对话变得冗长。

本发明正是为了解决上述问题而完成的，其目的在于，在使用者使用了对话控制装置不能识别的词汇的情况下，向使用者反馈不能使用该词汇，进行让使用者识别应该如何重新输入的应答。

用于解决问题的手段

本发明的对话控制装置具有：文本解析部，其解析使用者利用自然语言输入的文本；意图估计处理部，其参照将单词和根据该单词估计的使用者的意图对应起来存储的意图估计模型，根据文本解析部的文本解析结果估计使用者的意图；未知词语提取部，其在意图估计处理部中不能唯一地确定使用者的意图的情况下，根据文本解析结果提取未存储在意图估计模型中的单词作为未知词语；以及应答语句生成部，其生成包含未知词语提取部提取出的未知词语的应答语句。

发明效果

根据本发明，使用者能够容易地识别应该重新输入哪个词汇，能够顺畅地推进与对话控制装置的对话。

附图说明

图1是示出实施方式1的对话控制装置的结构的框图。

图2是示出实施方式1的对话控制装置与使用者的对话的一例的图。

图3是示出实施方式1的对话控制装置的动作的流程图。

图4是示出实施方式1的对话控制装置的词素解析部的词素解析结果即词性列表的一例的图。

图5是示出实施方式1的对话控制装置的意图估计处理部的意图估计结果的一例的图。

图6是示出实施方式1的对话控制装置的未知词语提取部的动作的流程图。

图7是示出实施方式1的对话控制装置的未知词语提取部提取的未知词语候选列表的一例的图。

图8是示出实施方式1的对话控制装置的对话脚本数据存储部存储的对话脚本数据的一例的图。

图9是示出实施方式2的对话控制装置的结构的框图。

图10是示出实施方式2的对话控制装置的意图估计模型存储部存储的频出词语列表的一例的图。

图11是示出实施方式2的对话控制装置与使用者的对话的一例的图。

图12是示出实施方式2的对话控制装置的动作的流程图。

图13是示出实施方式2的对话控制装置的未知词语提取部的动作的流程图。

图14是示出实施方式2的对话控制装置的句法解析部的句法解析结果的一例的图。

图15是示出实施方式3的对话控制装置的结构的框图。

图16是示出实施方式3的对话控制装置与使用者的对话的一例的图。

图17是示出实施方式3的对话控制装置的动作的流程图。

图18是示出实施方式3的对话控制装置的意图估计处理部的意图估计结果的一例的图。

图19是示出实施方式3的对话控制装置的已知词语提取处理部的动作的流程图。

图20是示出实施方式3的对话控制装置的对话脚本数据存储部存储的对话脚本数据的一例的图。

具体实施方式

下面，为了更详细地说明本发明，参照附图说明用于实施本发明的方式。

实施方式1

图1是示出实施方式1的对话控制装置100的结构的框图。

实施方式1的对话控制装置100具有语音输入部101、语音识别辞典存储部102、语音识别部103、词素解析辞典存储部104、词素解析部(文本解析部)105、意图估计模型存储部106、意图估计处理部107、未知词语提取部108、对话脚本数据存储部109、应答语句生成部110、语音合成部111以及语音输出部112。

下面，以将对话控制装置100适用于车载导航系统的情况为例进行说明，但是适用对象不限于导航系统，也能够适当变更。并且，以使用者通过语音输入与对话控制装置100对话的情况为例进行说明，但是与对话控制装置100的对话方法不限于语音输入。

语音输入部101受理向对话控制装置100的语音输入。语音识别辞典存储部102是存储用于进行语音识别的语音识别辞典的区域。语音识别部103对输入到语音输入部101的语音数据，参照存储在语音识别辞典存储部102的语音识别辞典进行语音识别而变换成文本。词素解析辞典存储部104是存储用于进行词素解析的词素解析辞典的区域。词素解析部105将通过语音识别而得到的文本分割成词素。意图估计模型存储部106是存储用于根据词素估计使用者的意图(以下称作意图)的意图估计模型的区域。意图估计处理部107以词素解析部105解析出的词素解析结果为输入，参照意图估计模型来估计意图。将估计结果作为示出估计出的意图与表示该意图的似然度的分数的组的列表进行输出。

在此，对意图估计处理部107进行详细说明。

意图估计处理部107估计的意图例如以“<主意图>[{<插槽(slot)名>＝<插槽值>}，…]”的形式表述。作为例子，可以表述成“目的地设定[{设施＝<设施名>}]”、“路径变更[{条件＝一般道路优先}]”。“目的地设定[{设施＝<设施名>}]”是在<设施名>放入具体的设施名称。例如，如果<设施名>＝天空树，则表示想要将天空树设定成目的地这样的意图，如果是“路径变更[{条件＝一般道路优先}]”，则表示想要将路径搜索条件设为一般道路优先这样的意图。

并且，在插槽值为“NULL(空)”的情况下，表示插槽值不明的意图。例如，“路径变更[{条件＝NULL}]”这样的意图表示想要设定路径搜索条件但是条件不明这样的意图。

作为意图估计处理部107的意图估计方式，例如能够适用最大熵法等。具体而言，可采用如下的方法：对于“ルートを一般道優先に変更して(将路径变更成一般道路优先)”这样的讲话，给出根据词素解析结果提取“路径、一般道路、优先、变更”这样的独立词单词(以下称作词性)的结果与正确意图“路径变更[{条件＝一般道路优先}]”的组，对于根据大量收集到的词性与意图的组通过统计方法输入的词性的列表，估计哪个意图以怎样的程度相似。下面，假设进行利用最大熵法的意图估计来进行说明。

未知词语提取部108提取词素解析部105提取出的词性中的、未存储在意图估计模型存储部106的意图估计模型中的词性。下面，将未包含在意图估计模型中的词性称作未知词语。对话脚本数据存储部109是存储对话脚本数据的区域，该对话脚本数据记述有应该与意图估计处理部107估计出的意图对应地接下来执行什么。应答语句生成部110以意图估计处理部107估计出的意图和在未知词语提取部108提取出未知词语时的该未知词语为输入，使用存储在对话脚本数据存储部109中的对话脚本数据生成应答语句。语音合成部111以应答语句生成部110生成的应答语句为输入，生成合成语音。语音输出部112输出语音合成部111生成的合成语音。

下面，对实施方式1的对话控制装置100的动作进行说明。

图2是示出实施方式1的对话控制装置100与使用者的对话的一例的图。

首先，行头的“U：”表示使用者的讲话，“S：”表示来自对话控制装置100的应答。应答201、应答203、应答205是来自对话控制装置100的输出，讲话202、讲话204是使用者的讲话，示出对话按照顺序推进的情况。

根据图2的对话例，参照图3～图8对对话控制装置100的应答语句生成的处理动作进行说明。

图3是示出实施方式1的对话控制装置100的动作的流程图。图4是示出实施方式1的对话控制装置100的词素解析部105的词素解析结果即词性列表的一例的图。在图4的例子中，由词性401～词性404构成。

图5是示出实施方式1的对话控制装置100的意图估计处理部107的意图估计结果的一例的图。意图估计结果501将意图估计分数的顺位为第1位的意图估计结果与意图估计分数一起示出，意图估计结果502将意图估计分数的顺位为第2位的意图估计结果与意图估计分数一起示出。

图6是示出实施方式1的对话控制装置100的未知词语提取部108的动作的流程图。

图7是示出实施方式1的对话控制装置100的未知词语提取部108提取的未知词语候选列表的一例的图。在图7的例子中，由未知词语候选701和未知词语候选702构成。

图8是示出实施方式1的对话控制装置100的对话脚本数据存储部109存储的对话脚本数据的一例的图。在图8的(a)的意图用对话脚本数据记述有对话控制装置100对意图估计结果进行的应答，并且记述有对对话控制装置100控制的设备(未图示)执行的命令。另外，在图8的(b)的未知词语用对话脚本数据记述有对话控制装置100对未知词语进行的应答。

首先，按照图3的流程图进行说明。在使用者按下设于对话控制装置100的讲话开始按钮(未图示)等时，对话控制装置100输出催促对话开始的应答及哔哔声。在图2的例子中，在使用者按下讲话开始按钮时，对话控制装置100对应答201“ピッと鳴ったらお話ください(噼——声响后请讲话)”进行语音输出并输出哔哔声。在这些输出之后，语音识别部103处于可识别状态，转移到图3的流程图的步骤ST301的处理。另外，语音输出后的哔哔声能够适当变更。

语音输入部101受理语音的输入(步骤ST301)。在图2的例子中，考虑使用者想要设检索条件为一般道路优先来检索路径，在说出了讲话202“さくっと、ルートを下道に設定して(那么，将路径设定成辅路)”的情况下，语音输入部101在步骤ST301中受理该讲话的语音输入。语音识别部103参照存储在语音识别辞典存储部102的语音识别辞典，进行在步骤ST301中受理的语音输入的语音识别而变换成文本(步骤ST302)。

词素解析部105参照存储在词素解析辞典存储部104的词素解析辞典，进行在步骤ST302中被变换成文本的语音识别结果的词素解析(步骤ST303)。在图2的例子中，对讲话202的语音识别结果“さくっと、ルートを下道に設定して”，词素解析部105在步骤ST303中如“さくっと/副词、ルート/名词、を/助词、下道/名词、に/助词、設定/名词(サ变连接)、し/动词、て/助词”那样进行词素解析。

然后，意图估计处理部107根据在步骤ST303中得到的词素解析结果提取在意图估计处理中使用的词性(步骤ST304)，使用存储在意图估计模型存储部106的意图估计模型，执行根据在步骤ST304中提取出的词性估计意图的意图估计处理(步骤ST305)。

在图2的例子中，对词素解析结果“さくっと/副词、ルート/名词、を/助词、下道/名词、に/助词、設定/名词(サ变连接)、し/动词、て/助词”，意图估计处理部107在步骤ST304中提取词性而汇总成例如图4所示的词性列表。图4的词性列表由词性401“さくっと/副词”、词性402“ルート/名词”、词性403“下道/名词”以及词性404“設定/名词(サ变连接)”构成。

对于图4所示的词性列表，意图估计处理部107在步骤ST305中进行意图估计处理，例如设在意图估计模型中不存在“さくっと/副词”和“下道/名词”这样的词性时，根据“ルート/名词”和“設定/名词(サ变连接)”这样的词性执行意图估计处理，得到图5所示的意图估计结果列表。意图估计结果列表由顺位、意图估计结果以及意图估计分数构成，示出顺位“1”所示的意图估计结果“路径变更[{条件＝NULL}]”的意图估计分数为0.583。并且，示出顺位“2”所示的意图估计结果“路径变更[{条件＝一般道路优先}]”的意图估计分数为0.177。另外，在图5中省略了图示，但是，也可设定顺位“1”、顺位“2”以后的意图估计结果和意图估计分数。

意图估计处理部107根据在步骤ST305中得到的意图估计结果列表，进行是否能够唯一地确定使用者的意图的判定(步骤ST306)。步骤ST306的判定处理例如在下面的2个条件(a)、(b)都满足的情况下，判定为能够唯一地确定使用者的意图。

条件(a)：顺位第1位的意图估计结果的意图估计分数为0.5以上

条件(b)：顺位第1位的意图估计结果的插槽值不是NULL

在条件(a)和条件(b)都满足即能够唯一地确定使用者的意图的情况下(步骤ST306：是)，进入步骤ST308的处理。在这种情况下，意图估计处理部107将意图估计结果列表输出给应答语句生成部110。

另一方面，在条件(a)和条件(b)中的至少一方不满足即不能唯一地确定使用者的意图的情况下(步骤ST306：否)，进入步骤ST307的处理。在这种情况下，意图估计处理部107将意图估计结果列表和词性列表输出给未知词语提取部108。

在图5所示的意图估计结果的情况下，顺位“1”的意图估计分数为“0.583”而满足条件(a)，但是插槽值为NULL而不满足条件(b)。因此，意图估计处理部107在步骤ST306的判定处理中，判定为不能唯一地确定使用者的意图，进入步骤ST307的处理。

在步骤ST307的处理中，未知词语提取部108进行根据从意图估计处理部107输入的词性列表提取未知词语的处理。关于步骤ST307的未知词语提取处理，参照图6的流程图进行详细说明。

未知词语提取部108从被输入的词性列表中提取在存储于意图估计模型存储部106的意图估计模型中没有记载的词性作为未知词语候选，并追加到未知词语候选列表(步骤ST601)。

在图4所示的词性列表的情况下，提取词性401“さくっと/副词”和词性403“ルート/名词”作为未知词语候选，并追加到图7所示的未知词语候选列表。

然后，未知词语提取部108判定在步骤ST601中是否提取了一个以上的未知词语候选(步骤ST602)。在未提取未知词语候选的情况下(步骤ST602：否)，结束未知词语提取处理，进入步骤ST308的处理。在这种情况下，未知词语提取部108将意图估计结果列表输出给应答语句生成部110。

另一方面，在提取了一个以上的未知词语候选的情况下(步骤ST602：是)，未知词语提取部108将记载在未知词语候选列表的未知词语候选中的词类为动词、名词、形容词以外的未知词语候选从未知词语候选中删除而成为未知词语列表(步骤ST603)，进入步骤ST308的处理。在这种情况下，未知词语提取部108将意图估计结果列表和未知词语列表输出给应答语句生成部110。

在图7所示的未知词语候选列表的情况下，未知词语候选的数量为2，因而在步骤ST602中判定为“是”，进入步骤ST603的处理，在该步骤ST603中，删除词类为副词的未知词语候选701“さくっと/副词”，在未知词语列表中只记载未知词语候选702“ルート/名词”。

返回到图3的流程图，继续动作的说明。

应答语句生成部110判定是否由未知词语提取部108输入了未知词语列表(步骤ST308)。在未输入未知词语列表的情况下(步骤ST308：否)，应答语句生成部110使用存储在对话脚本数据存储部109的对话脚本数据，读出与意图估计结果对应的应答模板而生成应答语句(步骤ST309)。并且，在对对话脚本数据设定了命令的情况下，在步骤ST309中执行对应的命令。

在输入了未知词语列表的情况下(步骤ST308：是)，应答语句生成部110使用存储在对话脚本数据存储部109的对话脚本数据，读出与意图估计结果对应的应答模板，读出与未知词语列表所示的未知词语对应的应答模板而生成应答语句(步骤ST310)。在生成应答语句时，将与未知词语列表对应的应答语句插入到与意图估计结果对应的应答语句之前。并且，在对对话脚本数据设定了命令的情况下，在步骤ST310中执行对应的命令。

在上述的例子中，在步骤ST603中生成记载有未知词语“下道/名词”的未知词语列表，因而应答语句生成部110判定为在步骤ST308中输入了未知词语列表，在步骤ST310中生成与意图估计结果和未知词语对应的应答语句。具体而言，在图5所示的意图估计结果列表的例子中，作为与顺位1的意图估计结果“路径变更[{条件＝NULL}]”对应的应答模板，读出图8的(a)的意图用对话脚本数据的模板801，生成应答语句“ルートを検索します。検索条件をお話ください。(检索路径。请说出检索条件。)”。然后，应答语句生成部110将图8的(b)所示的未知词语用对话脚本数据的模板802的<未知词语>置换成实际的未知词语列表的值而生成应答语句。在上述的例子中输入的未知词语是“下道”，因而生成的应答语句是“‘下道’は知らない単語です。(‘辅路’是未知单词)”。最后，将与未知词语列表对应的应答语句插入到与意图估计结果对应的应答语句之前，生成“‘下道’は知らない単語です。ルートを検索します。検索条件をお話ください。(‘辅路’是未知单词。检索路径。请说出检索条件。)”。

语音合成部111根据在步骤ST309或者步骤ST310中生成的应答语句生成语音数据并输出给语音输出部112(步骤ST311)。语音输出部112将在步骤ST311中输入的语音数据作为语音进行输出(步骤ST312)。以上，生成针对一个使用者的讲话的应答语句的处理结束。然后，流程图返回到步骤ST301的处理，等待进行使用者的语音输入。

在上述的例子中，对图2所示的应答203“‘下道’は知らない単語です。ルートを検索します。検索条件をお話ください。(‘辅路’是未知单词。检索路径。请说出检索条件。)”进行语音输出。

通过对应答203进行语音输出，使用者能够注意到只要以与“下道”不同的表述讲话即可。例如，使用者能够如图2的讲话204“さくっとルートを一般道に設定して”那样重新讲话，能够推进与对话控制装置100的对话。

在使用者进行上述的讲话204时，对话控制装置100对该讲话204再次执行图3和图6的流程图所示的语音识别处理。其结果是，在步骤ST304中得到的词性列表由提取出的4个词性“さくっと/副词”、“ルート/名词”、“一般道/名词”以及“設定/名词(サ变连接)”构成。在该词性列表中，未知词语仅是“さくっと”。然后，在步骤ST305中得到顺位“1”的意图估计结果“[{条件＝一般道路优先}]”的意图估计分数为0.822。

然后，在步骤ST306的判定处理中，顺位“1”的意图估计结果的意图估计分数为“0.822”，满足条件(a)，而且插槽值不是NULL，满足条件(b)，因而判定为能够唯一地确定使用者的意图，进入步骤ST308的处理。在步骤ST308中判定为未输入未知词语列表，在步骤ST309中读出图8的(a)的意图用对话脚本数据的模板803，作为与“路径变更[{条件＝一般道路优先}]”对应的应答模板，生成应答语句“一般道優先でルートを検索します。(以一般道路优先检索路径。)”，执行以一般道路优先检索路径的命令即“Set(路径类型，一般道路优先)”。然后，在步骤ST311中根据应答语句生成语音数据，在步骤ST312中对语音数据进行语音输出。这样，能够通过与对话控制装置100的顺畅对话，执行符合使用者的最初意图“検索条件を一般道優先としてルートを検索したい(想要将检索条件设为一般道路优先来检索路径)”的命令。

如上所述，根据该实施方式1，构成为具有：词素解析部105，其将语音识别结果分割成词素；意图估计处理部107，其根据词素解析结果估计使用者的意图；未知词语提取部108，其在意图估计处理部107中不能唯一地确定使用者的意图的情况下，提取在意图估计模型中不存在的词性作为未知词语；以及应答语句生成部110，其在提取了未知词语的情况下生成包含该未知词语的应答语句，因而能够生成包含作为未知词语而提取出的单词的应答语句，能够将对话控制装置100未能估计出意图的单词提示给使用者。因此，使用者能够理解应该重新表述的单词，能够顺畅地推进对话。

实施方式2

在该实施方式2中示出如下的结构：对词素解析结果还进行句法解析，使用句法解析的结果进行未知词语提取。

图9是示出实施方式2的对话控制装置100a的结构的框图。

在实施方式2中，未知词语提取部108a还具有句法解析部113，意图估计模型存储部106a除意图估计模型外，还存储频出词语列表。另外，下面对与实施方式1的对话控制装置100的构成要素相同或者相当的部分，标注与在实施方式1中使用的标号相同的标号并省略或者简化说明。

句法解析部113对由词素解析部105解析出的词素解析结果还进行句法解析。未知词语提取部108a使用句法解析部113的句法解析结果所示的依赖信息进行未知词语提取。意图估计模型存储部106a是除实施方式1所示的意图估计模型外还存储频出词语列表的存储区域。例如如图10所示，频出词语列表是将相对于某个意图估计结果以较高的频度出现的频出词语作为列表进行存储而成的，将频出词语列表1002“変更、選択、ルート、コース、道順(变更、选择、路径、行程、道路顺序)”与意图估计结果1001“路径变更[{条件＝NULL}]”对应起来。

下面，对实施方式2的对话控制装置100a的动作进行说明。

图11是示出实施方式2的与对话控制装置100a的对话的一例的图。

与实施方式1的图2相同，行头的“U：”表示使用者的讲话，“S：”表示来自对话控制装置100a的应答。应答1101、应答1103、应答1105是来自对话控制装置100a的应答，讲话1102、讲话1104是使用者的讲话，示出对话按照顺序推进的情况。

关于与图11所示的使用者的讲话对应的对话控制装置100a的应答语句生成的处理动作，参照图10、图12～图14进行说明。

图12是示出实施方式2的对话控制装置100a的动作的流程图。图13是示出实施方式2的对话控制装置100a的未知词语提取部108a的动作的流程图。在图12和图13中，对与实施方式1的对话控制装置100相同的步骤，标注与在图3和图6中使用的标号相同的标号并省略或者简化说明。

图14是示出实施方式2的对话控制装置100a的句法解析部113的句法解析结果的一例的图。在图14的例子中，示出短语1401、短语1402、短语1403修饰短语1404的情况。

首先，如图12的流程图所示，实施方式2的对话控制装置100a的基本动作与实施方式1的对话控制装置100相同，不同之处仅在于，在步骤ST1201中，未知词语提取部108a使用句法解析部113的解析结果即依赖信息进行未知词语提取。未知词语提取部108a的未知词语提取处理的详细情况根据图13的流程图进行说明。

首先，根据图11所示的对话控制装置100a与使用者的对话的一例，按照图12的流程图说明对话控制装置100a的基本动作。

在使用者按下讲话开始按钮时，对话控制装置100a对应答1101“ピッと鳴ったらお話ください。(噼——声响后请讲话。)”进行语音输出并输出哔哔声。在这些输出之后，语音识别部103处于可识别状态，转移到图12的流程图的步骤ST301的处理。另外，语音输出后的哔哔声能够适当变更。

考虑使用者想要将检索条件设为一般道路来检索路径，在说出了讲话1102“金欠なので、ルートは、下道を選択して(因欠费，路径应选择辅路)”的情况下，语音输入部101在步骤ST301中受理语音输入。语音识别部103在步骤ST302中进行所受理的语音输入的语音识别而变换成文本。词素解析部105在步骤ST303中对语音识别结果“金欠なので、ルートは、下道を選択して(因欠费，路径应选择辅路)”如“金欠/名词、な/助动词、ので/助词、ルート/名词、は/助词、下道/名词、を/助词、選択/名词(サ变连接)、し/动词、て/助词”那样进行词素解析。意图估计处理部107在步骤ST304中根据在步骤ST303中得到的词素解析结果，提取在意图估计处理中使用的词性“金欠/名词”、“ルート/名词”、“下道/名词”、“選択/名词(サ变连接)”，生成由这4个词性构成的词性列表。

另外，意图估计处理部107在步骤ST305中对在步骤ST304中生成的词性列表进行意图估计处理。在此，例如设在存储于意图估计模型存储部6的意图估计模型中不存在“金欠/名词”、“下道/名词”这样的词性时，根据“ルート/名词”、“選択/名词(サ变连接)”这样的词性执行意图估计处理，与实施方式1相同地得到图5所示的意图估计结果列表。得到顺位“1”所示的意图估计结果“路径变更[{条件＝NULL}]”的意图估计分数为0.583，得到顺位“2”所示的意图估计结果“路径变更[{条件＝一般道路优先}]”的意图估计分数为0.177。

在得到意图估计结果列表时进入步骤ST306的处理。如上所述能够得到与实施方式1相同的图5的意图估计结果列表，因而步骤ST306的判定结果与实施方式1同样为“否”，判定为不能唯一地确定使用者的意图，进入步骤ST1201的处理。在这种情况下，意图估计处理部107将意图估计结果列表和词性列表输出给未知词语提取部108a。

在步骤ST1201的处理中，未知词语提取部108a进行根据从意图估计处理部107输入的词性列表，利用句法解析部113的依赖信息提取未知词语的处理。关于步骤ST1201的利用依赖信息的未知词语提取处理，参照图13的流程图进行详细说明。

未知词语提取部108a从输入的词性列表中提取在存储于意图估计模型存储部106的意图估计模型中没有记载的词性作为未知词语候选，并追加到未知词语候选列表(步骤ST601)。在步骤ST304中生成的词性列表的例子中，提取“金欠/名词”、“ルート/名词”、“下道/名词”、“選択/名词(サ变连接)”这4个词性中的“金欠/名词”和“下道/名词”作为未知词语候选，并追加到未知词语候选列表。

然后，未知词语提取部108a判定在步骤ST601中是否提取了一个以上的未知词语候选(步骤ST602)。在未提取未知词语候选的情况下(步骤ST602：否)，结束未知词语提取处理，进入步骤ST308的处理。

另一方面，在提取了一个以上的未知词语候选的情况下(步骤ST602：是)，句法解析部113将词素解析结果分割成短语单位，对分割出的短语解析依赖关系，得到句法解析结果(步骤ST1301)。

关于上述的词素解析结果“金欠/名词、な/助动词、ので/助词、ルート/名词、は/助词、下道/名词、を/助词、選択/名词(サ变连接)、し/动词、て/助词”，首先在步骤ST1301中分割成如下的短语单位：“金欠/な/ので：动词短语、ルート/は：名词短语、下道/を：名词短语、選択/し/て/动词短语”。另外，解析分割出的各短语的依赖关系，得到图14所示的句法解析结果。

在图14所示的句法解析结果的例子中，短语1401与短语1404关联，短语1402与短语1404关联，短语1403与短语1404关联。在此，将修饰的类型划分成第1修饰类型和第2修饰类型这两种。第1修饰类型是如名词、副词修饰动词、形容词那样的修饰，图14的例子中的“ルート/は：名词短语”和“下道/を：名词短语”修饰“選択/し/て：动词短语”的修饰类型1405相当于第1修饰类型。另一方面，第2修饰类型是如动词、形容词、助动词修饰动词、形容词、助动词那样的修饰，“金欠/な/ので：动词短语”修饰“選択/し/て：动词短语”的修饰类型1406相当于第2修饰类型。

在步骤ST1301的句法解析处理结束时，未知词语提取部108a根据意图估计结果提取频出动词(步骤ST1302)。在步骤ST1302中，例如在得到了图10所示的意图估计结果1001“路径变更[条件＝NULL]”的情况下，选择频出词语列表1002“変更、選択、ルート、コース、道順(变更、选择、路径、行程、道路顺序)”。

然后，未知词语提取部108a参照在步骤ST1301中得到的句法解析结果，提取包含在步骤ST601中提取出的未知词语候选中的、按照第1修饰类型依赖于在步骤ST1302中提取出的频出词语单词的单词的短语，将提取出的短语中包含的单词追加到未知词语列表(步骤ST1303)。

包含选择出的频出词语列表1002中记载的频出词语的短语如图14所示是短语1402“ルートは”和短语1404“選択して”这两个，其中依赖于短语1404的未知词语候选“金欠”和“下道”中的按照第1修饰类型依赖的只有包含未知词语候选“下道”的短语1403“下道を”。由此，在未知词语列表中只记载“下道を”。

未知词语提取部108a将意图估计结果和具有未知词语列表时的该未知词语列表输出给应答语句生成部110。

返回到图12的流程图继续进行动作的说明。

应答语句生成部110判定是否由未知词语提取部108a输入了未知词语列表(步骤ST308)，以后进行与实施方式1所示的步骤ST309～步骤ST312相同的处理。在图10和图14所示的例子中，对图11所示的应答1103即“‘下道’は知らない単語です。別の言い方をしてみてください。(‘辅路’是未知的单词。请尝试换一种说法)”进行语音输出。然后，流程图返回到步骤ST301的处理，等待进行使用者的语音输入。

使用者根据应答1103的输出，能够注意到将“下道”变更成不同的说法即可，例如能够重新说出图11的讲话1104所示的“金欠なので、ルートは一般の道にして(因欠费，将路径设为一般道路)”。由此，作为对讲话1104的意图估计结果，能够得到“路径变更[{条件＝一般道路优先}]”，系统进行语音输出应答1105“ルートを一般道優先に変更します(将路径变更成一般道路优先)”。这样，能够通过与对话控制装置100a的顺畅对话，执行符合使用者的最初意图“一般道をルートとして検索したい(想要检索一般道路作为路径)”的命令。

如上所述，根据该实施方式2，构成为具有：句法解析部113，其对词素解析部105的词素解析结果进行句法解析；以及未知词语提取部108a，其根据得到的短语的依赖关系提取未知词语，因而能够根据对使用者的讲话进行句法解析的结果限定于特定的独立词来提取未知词语，并将其包含在话控制装置100a的应答语句中，能够将对话控制装置100a未能理解的单词中的重要单词提示给使用者。因此，使用者能够理解应该重新说出的单词，能够顺畅地推进对话。

实施方式3

在该实施方式3中示出如下的结构：使用词素解析结果进行与上述的实施方式1和实施方式2的未知词语提取处理相反的已知词语提取。

图15是示出实施方式3的对话控制装置100b的结构的框图。

在实施方式3中构成为，设置已知词语提取部114以替代图1所示的实施方式1的对话控制装置100的未知词语提取部108。另外，下面对与实施方式1的对话控制装置100的构成要素相同或者相当的部分，标注与在实施方式1中使用的标号相同的标号并省略或者简化说明。

已知词语提取部114提取词素解析部105提取出的词性中的、未存储在意图估计模型存储部106的意图估计模型中的词性作为未知词语候选，提取提取出的未知词语候选以外的词性作为已知词语。

下面，对实施方式3的对话控制装置100b的动作进行说明。

图16是示出实施方式3的对话控制装置100b与使用者的对话的一例的图。

与实施方式1的图2相同，行头的“U：”表示使用者的讲话，“S：”表示来自对话控制装置100b的讲话和应答。应答1601、应答1603、应答1605是来自对话控制装置100b的应答，讲话1602、讲话1604是使用者的讲话，示出对话按照顺序推进的情况。

根据图16的对话例，参照图17～图20对对话控制装置100b的应答语句生成的处理动作进行说明。

图17是示出实施方式3的对话控制装置100b的动作的流程图。

图18是示出实施方式3的对话控制装置100b的意图估计处理部107的意图估计结果的一例的图。意图估计结果1801将意图估计分数的顺位为第1位的意图估计结果与意图估计分数一起示出，意图估计结果1802将意图估计分数的顺位为第2位的意图估计结果与意图估计分数一起示出。

图19是示出实施方式3的对话控制装置100b的已知词语提取处理部114的动作的流程图。在图17和图19中，对与实施方式1的对话控制装置相同的步骤，标注与在图3和图6中使用的标号相同的标号并省略或者简化说明。

图20是示出实施方式3的对话控制装置100b的对话脚本数据存储部109存储的对话脚本数据的一例的图。图20的(a)的意图用对话脚本数据记述有对话控制装置100b对意图估计结果进行的应答，并且记述有对对话控制装置100b控制的设备(未图示)执行的命令。另外，图20的(b)的已知词语用对话脚本数据记述有对话控制装置100b对已知词语进行的应答。

如图17的流程图所示，实施方式3的对话控制装置100b的基本动作与实施方式1的对话控制装置100相同，不同之处仅在于，在步骤ST1701中，已知词语提取部114进行已知词语提取。已知词语提取部114的已知词语提取处理的详细情况根据图19的流程图进行说明。

首先，根据图16所示的与对话控制装置100b的对话的一例，按照图17的流程图说明对话控制装置100b的基本动作。

在使用者按下讲话开始按钮时，对话控制装置100b对应答1601“ピッと鳴ったらお話ください(噼——声响后请讲话)”进行语音输出并输出哔哔声。在这些输出之后，语音识别部103处于可识别状态，转移到图17的流程图的步骤ST301的处理。另外，语音输出后的哔哔声能够适当变更。

在此，在使用者说出了讲话1602“○○スタジアムをマイフェイバリット(我最喜欢○○体育馆)”的情况下，语音输入部101在步骤ST301中受理语音输入。语音识别部103在步骤ST302中进行所受理的语音输入的语音识别而变换成文本。词素解析部105在步骤ST303中对语音识别结果“○○スタジアムをマイフェイバリット(我最喜欢○○体育馆)”如“○○スタジアム/名词(设施名)、を/助词、マイフェイバリット/名词”那样进行词素解析。意图估计处理部107在步骤ST304中根据在步骤ST303中得到的词素解析结果，提取在意图估计处理中使用的词性“#设施名(＝○○スタジアム)”、“マイフェイバリット”，生成由这2个词性构成的词性列表。其中，#设施名是表示设施名称的特殊符号。

另外，意图估计处理部107在步骤ST305中对在步骤ST304中生成的词性列表进行意图估计处理。在此，例如设在存储于意图估计模型存储部6的意图估计模型中不存在“マイフェイバリット”这样的词性时，根据「#设施名」这样的词性执行意图估计处理，得到图18所示的意图估计结果列表。得到顺位“1”所示的意图估计结果1801“目的地设定[{设施＝<设施名>}]”的意图估计分数为0.462，得到顺位“2”所示的意图估计结果1802“登记地追加[{设施＝<设施名>}]”的意图估计分数为0.243。另外，在图18中省略了图示，但是，也可设定顺位“1”、顺位“2”以后的意图估计结果和意图估计分数。

在得到意图估计结果列表时进入步骤ST306的处理。意图估计处理部107根据在步骤ST305中得到的意图估计结果列表，判定是否能够唯一地确定使用者的意图(步骤ST306)。步骤ST306的判定处理例如是根据上述实施方式1所示的2个条件(a)、(b)进行的。在条件(a)和条件(b)都满足即能够唯一地确定使用者的意图的情况下(步骤ST306：是)，进入步骤ST308的处理。在这种情况下，意图估计处理部107将意图估计结果列表输出给应答语句生成部110。

另一方面，在条件(a)和条件(b)中的至少一方不满足即不能唯一地确定使用者的意图的情况下(步骤ST306：否)，进入步骤ST307的处理。在这种情况下，意图估计处理部107将意图估计结果列表和词性列表输出给已知词语提取部114。

在图18所示的顺位“1”的意图估计结果的情况下，意图估计分数为“0.462”，不满足条件(a)。因此，判定为不能唯一地确定使用者的意图，进入步骤ST1701的处理。

在步骤ST1701的处理中，已知词语提取部114进行根据从意图估计处理部107输入的词性列表提取已知词语的处理。关于步骤ST1701的已知词语提取处理，参照图19的流程图进行详细说明。

已知词语提取部114从输入的词性列表中提取在存储于意图估计模型存储部106的意图估计模型中没有记载的词性作为未知词语候选，并追加到未知词语候选列表(步骤ST601)。

在步骤ST304中生成的词性列表的例子中，提取词性“マイフェイバリット”作为未知词语候选，并追加到未知词语候选列表。

然后，已知词语提取部114判定在步骤ST601中是否提取了一个以上的未知词语候选(步骤ST602)。在未提取未知词语候选的情况下(步骤ST602：否)，结束未知词语提取处理，进入步骤ST308的处理。

另一方面，在提取了一个以上的未知词语候选的情况下(步骤ST602：是)，已知词语提取部114将记载在未知词语候选列表中的未知词语候选以外的词性汇总成已知词语候选列表(步骤ST1901)。在步骤ST304中生成的词性列表的例子中，“#设施名”成为已知词语候选列表。然后，将在步骤ST1801中汇总而成的已知词语候选列表中的词类为动词、名词、形容词以外的已知词语候选从已知词语候选中删除，成为已知词语列表(步骤ST1902)。

在步骤ST304中生成的词性列表的例子中，“#设施名”成为已知词语候选列表，最终在已知词语列表中只记载“○○スタジアム”。已知词语提取部114将意图估计结果和具有已知词语列表时的该已知词语列表输出给应答语句生成部110。

返回到图17的流程图继续进行动作的说明。

应答语句生成部110判定是否由已知词语提取部114输入了已知词语列表(步骤ST1702)。在未输入已知词语列表的情况下(步骤ST1702：否)，应答语句生成部110使用存储在对话脚本数据存储部109的对话脚本数据，读出与意图估计结果对应的应答模板而生成应答语句(步骤ST1703)。并且，在对对话脚本数据设定了命令的情况下，在步骤ST1703中执行对应的命令。

在输入了已知词语列表的情况下(步骤ST1702：是)，应答语句生成部110使用存储在对话脚本数据存储部109的对话脚本数据，读出与意图估计结果对应的应答模板，读出与已知词语列表所示的已知词语对应的应答模板而生成应答语句(步骤ST1704)。在生成应答语句时，将与已知词语列表对应的应答语句插入到与意图估计结果对应的应答语句之前。并且，在对对话脚本数据设定了命令的情况下，在步骤ST1704中执行对应的命令。

在图18所示的意图估计结果列表的例子中，示出顺位1的意图估计结果“目的地设定[{设施＝<设施名>}]”和顺位2的意图估计结果“登记地追加[{设施＝<设施名>}]”这2个是模糊的，因而读出对应的应答模板2001，生成应答语句“○○スタジアムを目的地にしますか、登録地にしますか？(将○○体育馆设为目的地还是登记地？)”。

然后，应答语句生成部110在输入了已知词语列表的情况下，将图20的(b)所示的已知词语用对话脚本数据的模板2002的<已知词语>置换成实际的已知词语列表的值而生成应答语句。例如，在输入的已知词语是“○○スタジアム”的情况下，生成的应答语句是“○○スタジアム以外は知らない単語です(○○体育馆以外的单词是未知单词)”。最后，将与已知词语列表对应的应答语句插入到与意图估计结果对应的应答语句之前，生成“○○スタジアム以外は知らない単語です。○○スタジアムを目的地にしますか、登録地にしますか？(○○体育馆以外的单词是未知单词。将○○体育馆设为目的地还是登记地？)”。

语音合成部111根据在步骤ST1703或者步骤ST1704中生成的应答语句生成语音数据并输出给语音输出部112(步骤ST311)。语音输出部112将在步骤ST311中输入的语音数据作为语音进行输出(步骤ST312)。以上，生成对一个使用者的讲话的应答语句的处理结束。在图18、图20所示的例子中，对图16所示的应答1603即“○○スタジアム以外は知らない単語です。○○スタジアムを目的地にしますか、登録地にしますか？(○○体育馆以外的单词是未知单词。将○○体育馆设为目的地还是登记地？)”进行语音输出。然后，流程图返回到步骤ST301的处理，等待进行使用者的语音输入。

通过对应答1603进行语音输出，使用者能够明白“○○スタジアム”以外的单词未得到理解，注意到“マイフェイバリット”无法理解，只要以不同的表述讲话即可。例如，使用者能够重新说出图16的讲话1604“登録地に追加して(追加为登记地)”，能够使用对于对话控制装置100b可使用的语言进行对话。

对话控制装置100b对讲话1604再次执行图17和图19的流程图所示的语音识别处理。其结果是，在步骤ST305中得到意图估计结果“登记地追加[{条件＝<设施名>]}”。

另外，在步骤ST1703中，作为与“登记地追加[{条件＝<设施名>]}”对应的应答模板，读出图20的(a)的意图用对话脚本数据的模板2003，生成应答语句“○○スタジアムを登録地に追加します(将○○体育馆追加为登记地)”，执行将设施名称追加为登记地的命令即“Add(登记地、<设施名>)”。然后，在步骤ST311中根据应答语句生成语音数据，在步骤ST312对语音数据进行语音输出。这样，能够通过与对话控制装置100b的顺畅对话，执行符合使用者的意图的命令。

如上所述，根据该实施方式3，构成为具有：词素解析部105，其将语音识别结果分割成词素；意图估计处理部107，其根据词素解析结果估计使用者的意图；已知词语提取部114，其在不能唯一地确定使用者的意图的情况下，根据词素解析结果提取未知词语以外的词性作为已知词语；以及应答语句生成部110，其在提取了已知词语的情况下生成包含该已知词语的应答语句，即生成包含成为未知词语的单词以外的单词的应答语句，因而能够提示对话控制装置100b能够估计出意图的单词，使用者能够理解重新表述的单词，能够顺畅地推进对话。

在上述的实施方式1～3中，以对日语进行语音识别的情况为例进行了说明，但是，通过按照语言变更与意图估计处理部107的意图估计有关的词性提取方法，能够将该对话控制装置100、100a、100b适用于英语、德语以及汉语等各种语言。

并且，在将上述的实施方式1～3所示的对话控制装置100、100a、100b适用于以特定符号(空格等)区分单词的语言的情况下，在解析语言的构造比较困难时，也可以构成为设置例如利用图案匹配的方法对输入的自然语言文本进行<设施名>、<住址>等的提取处理的结构以替代词素解析部105，由意图估计处理部107对提取出的<设施名>、<住址>等执行意图估计处理。

并且，在上述的实施方式1～3中，以对通过作为输入进行语音输入的语音识别而得到的文本进行词素解析处理的情况为例进行了说明，但是，也可以构成为作为输入不使用语音识别，例如对使用键盘等输入单元的文本输入执行词素解析处理。由此，对于语音输入以外的输入文本也能够得到相同的效果。

并且，在上述的实施方式1～3中示出了词素解析部105对语音识别结果的文本进行词素解析处理来进行意图估计的结构，但是，在语音识别引擎结果自身包含词素解析结果的情况下，能够构成为可直接使用该信息实施意图估计。

并且，在上述的实施方式1～3中，作为意图估计的方法，使用假定基于最大熵法的学习模型的例子进行了说明，但是并非限定意图估计的方法。

产业上的可利用性

本发明的对话控制装置能够将对于使用者说出的词汇不能使用哪个词汇反馈给使用者，因而适用于提高与被导入了语音识别系统等的车载导航、移动电话、便携终端、信息设备等的对话的顺畅性。

标号说明

100、100a、100b对话控制装置；101语音输入部；102语音识别辞典存储部；103语音识别部；104词素解析辞典存储部；105词素解析部；106、106a意图估计模型存储部；107意图估计处理部；108、108a未知词语提取部；109对话脚本数据存储部；110应答语句生成部；111语音合成部；112语音输出部；113句法解析部；114已知词语提取部。

Claims

1.一种对话控制装置，其中，该对话控制装置具有：

文本解析部，其解析使用者利用自然语言输入的文本；

意图估计处理部，其参照将单词和根据该单词估计的所述使用者的意图对应起来存储的意图估计模型，根据所述文本解析部的文本解析结果估计所述使用者的意图；

未知词语提取部，其在所述意图估计处理部中不能唯一地确定所述使用者的意图的情况下，根据所述文本解析结果提取未存储在所述意图估计模型中的单词作为未知词语；以及

应答语句生成部，其生成包含所述未知词语提取部提取出的所述未知词语的应答语句。

2.根据权利要求1所述的对话控制装置，其特征在于，

所述文本解析部通过词素解析将所述输入的文本分割成单词，

所述未知词语提取部提取所述文本解析部分割出的单词中的、未存储在所述意图估计模型中的独立词作为所述未知词语。

3.根据权利要求1所述的对话控制装置，其特征在于，

所述应答语句生成部生成表示因所述未知词语提取部提取出的未知词语而未能唯一地确定所述使用者的意图的所述应答语句。

4.根据权利要求2所述的对话控制装置，其特征在于，

所述未知词语提取部仅提取所述独立词中的特定词类作为所述未知词语。

5.根据权利要求2所述的对话控制装置，其特征在于，

所述未知词语提取部将所述文本解析部的词素解析结果分割成短语单位，进行解析所述分割出的多个短语之间的依赖关系的句法解析，参照该句法解析的结果，提取所述独立词中的、与被定义成相对于所述意图估计处理部估计出的所述使用者的意图频繁出现的单词具有依赖关系的独立词，作为所述未知词语。

6.一种对话控制装置，其中，该对话控制装置具有：

文本解析部，其解析使用者利用自然语言输入的文本；

已知词语提取部，其在所述意图估计处理部中不能唯一地确定所述使用者的意图的情况下，根据所述文本解析结果提取未存储在所述意图估计模型中的单词作为未知词语，在提取了一个以上的未知词语的情况下，提取所述文本解析结果中的所述未知词语以外的单词作为已知词语；以及

应答语句生成部，其生成包含所述已知词语提取部提取出的所述已知词语的应答语句。

7.根据权利要求6所述的对话控制装置，其特征在于，

所述已知词语提取部提取所述文本解析部分割出的单词中的所述未知词语以外的独立词作为所述已知词语。

8.根据权利要求6所述的对话控制装置，其特征在于，

所述应答语句生成部生成表示因所述已知词语提取部提取出的已知词语以外的单词而未能唯一地确定所述使用者的意图的所述应答语句。

9.根据权利要求7所述的对话控制装置，其特征在于，

所述已知词语提取部仅提取所述独立词中的特定词类作为所述已知词语。

10.一种对话控制方法，其中，该对话控制方法具有：

文本解析步骤，解析使用者利用自然语言输入的文本；

意图估计步骤，参照将单词和根据该单词估计的所述使用者的意图对应起来存储的意图估计模型，根据所述文本的解析结果估计所述使用者的意图；

未知词语提取步骤，在不能唯一地确定所述使用者的意图的情况下，根据所述文本的解析结果提取未存储在所述意图估计模型中的单词作为未知词语；以及

应答语句生成步骤，生成包含所述提取出的未知词语的应答语句。