CN104756100A

CN104756100A - 意图估计装置以及意图估计方法

Info

Publication number: CN104756100A
Application number: CN201380055883.XA
Authority: CN
Inventors: 藤井洋一; 石井纯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-11-30
Filing date: 2013-10-09
Publication date: 2015-07-01
Anticipated expiration: 2033-10-09
Also published as: US9530405B2; CN104756100B; WO2014083945A1; JPWO2014083945A1; DE112013005742T5; JP5921716B2; US20150255064A1

Abstract

具有：语素分析部(2)，其进行输入语言的语素分析而转换成语素串；以及意图串估计部(3)，该意图串估计部(3)具有：意图估计单位提取部(4)，其将语素串分割成部分语素，并提取估计意图的单位即意图估计单位；意图估计部(6)，其对构成提取出的各意图估计单位的部分语素的意图进行估计；以及意图共现权重计算部(8)，其计算基于意图间的关系的意图共现权重，该意图串估计部(3)使用意图估计部(6)估计出的1个或者多个意图生成与输入语言相当的意图串，使用表示所生成的意图串的似然性的评分和针对构成所生成的意图串的意图由意图共现权重计算部(8)计算出的意图共现权重，生成与输入语言对应的意图估计结果。

Description

意图估计装置以及意图估计方法

技术领域

本发明涉及对用自然语言输入的文本的内容与预先设计的意图的何种意图相符进行估计的意图估计装置以及意图估计方法。

背景技术

近年来，语音输入人说出的言语并使用其识别结果来执行操作的方法备受瞩目。该技术已被用作移动电话或汽车导航等的语音接口，作为基本方法有如下方法：预先将系统假定的语音识别结果与操作对应起来，在语音识别结果为假定的内容的情况下执行操作。该方法与以往的手动操作相比，能够通过语音的发话直接操作，因此作为快捷功能有效地发挥作用。另一方面，用户为了执行操作需要发出系统正在等待的言语，当系统处理的功能不断增加时，应该记忆的言语增加。另外，一般而言，在充分理解操作说明书后再使用的用户较少，其结果是存在如下问题：有时用户不清楚为了进行多种操作需要如何发话，实际上除了有限的功能以外无法通过语音进行操作。

作为其解决方法公开有如下方法：并不直接将语音识别结果与操作建立联系，而是根据用户的发话内容理解用户的意图进行操作。在其一种实现方法中，先将预先收集到的发话例句与操作(以下，称作学习数据)对应起来，再根据用户的言语通过统计学习方法将用户希望的操作(以下，称作意图)模型化，并利用该模型针对用户输入估计意图(以下，称作统计意图估计)。统计意图估计的具体处理是，首先，从学习数据的发话例句提取用于学习的术语(term)；然后，将该术语集合和正确的意图作为输入学习数据，并通过统计学习算法，学习各术语与正确意图的权重并输出模型。

用于学习的术语一般是从对发话例句进行语素分析而得到的数据提取出单词或单词串。例如，从“○○駅に行きたい(○○eki ni ikitai(想去○○站))”这一发话例句，能够得到“○○駅(○○eki)(专有名词：设施)/に(ni)(助词)/行き(iki)(动词：连用形)/たい(tai)(助动词)”这样的语素分析结果。在得到语素分析结果时，提取“＄设施＄、行く(iku)”(专有名词的设施转换成＄设施＄这一特殊符号，动词转换成原形)这样的术语、“＄设施＄__に(ni)、に__行き(ni_iki)、行き__たい(iki_tai)”这样的2个连续的语素术语。

其结果是，针对“＄设施＄、行く(iku)、＄设施＄__に(ni)、に__行き(ni_iki)、行き__たい(iki_tai)”的术语，生成以“目的地设定[目的地＝＄设施＄]”(主意图是目的地设定，设定的目的地是＄设施＄)的方式表现的正确意图，并基于由根据大量的发话数据而生成的术语串和正确意图构成的学习数据生成模型。作为用于生成模型的方式，利用机器学习算法。机器学习算法是针对全部学习数据，以最多地生成正确意图的方式对输入术语与正确意图的权重进行机器学习。因此，对于从与学习数据类似的发话得到的术语组合，能够得到输出正确意图的可能性高的模型。作为该机器学习方式，例如能够使用最大熵法。

通过使用基于这样的机器学习算法而生成的模型对用户输入进行意图估计，即使针对并非预先假定的输入的输入，也能够灵活地估计操作意图，因此，即使是不记得正式措辞的用户的发话，也能够适当地理解意图而执行操作。另一方面，通过接受这样的自由输入，系统的灵活性增加，用户进行更多种发话的可能性增大。

作为假定的多种发话，大致分成以下2类。

(a)针对一个操作使用了更多种单词的输入

(b)将由多个操作组成的要求作为一个块输入

在上述(a)的情况下，能够通过进一步增加学习数据而处理多种发话。另一方面，在(b)的情况下，由于学习数据本来与一个意图对应，因此，在包含多个意图的情况下，无法进行组合适当意图而成的处理。

因此，专利文献1中公开有如下的发话意图识别装置：使用作为一个意图而学习到的模型，针对包含一个或多个意图的输入求出适当的意图串。该发话意图识别装置针对输入语素作为学习数据预先准备成为意图划分的语素串，与上述意图理解同样地估计存在分割可能性的点并使该分割点的分割可能性与各分割要素的意图可能性匹配，从而估计最大似然意图串。

现有技术文献

专利文献

专利文献1：日本特开2000-200273号公报

发明内容

发明要解决的课题

然而，上述专利文献1中公开的技术是针对语素串作为学习数据给予分割点候选，学习其可能性，并针对实际的用户输入进行分割点估计，作为用于学习这些分割点的数据，很难集中多种输入，实际上只是对学习数据中的作为语素串的分割点进行预测，可认为其与基于语言性质判定分割点的可能性的情况并无多大区别。

因此，对于基于分割点估计多个意图，不仅要求分割点的正确性，其关键恰恰在于单独估计针对分割后的各部分输入的正确意图后选择最大似然意图，并返回将其连接而成的意图串，但是，存在无法验证该发话整体中的多个意图的妥当性的课题。

这意味着无法进行关于意图连续性的评价，由于以下所示的(c)～(e)的原因而无法得到妥当的意图串。

(c)在无法大量准备学习数据的情况下，意图估计精度降低，因此，存在整体的意图串的精度降低的可能性。

(d)由于有时输入中接受前方的部分而后方的发话被省略，因此，在该情况下，有时后方的发话的意图与用户的意图串不一致。

(e)在输入为语音的情况下，由于将语音识别结果作为输入，因此，无法将包含误识别时的估计错误根据意图间的匹配性排除。

本发明正是为了解决上述课题而完成的，其目的在于，即使在进行了包含多个意图的输入的情况下，通过预先记述意图间的关系，按照意图间的关系来生成最适合的意图串。

用于解决课题的手段

本发明的意图估计装置具有语素分析部和意图串估计部，所述语素分析部进行输入语言的语素分析而转换成语素串，所述意图串估计部具有：意图估计单位提取部，其将语素分析部转换后的语素串分割成部分语素，并提取估计意图的单位即意图估计单位；意图估计部，其对构成意图估计单位提取部提取出的各意图估计单位的部分语素的意图进行估计；以及意图共现权重计算部，其计算基于意图估计部估计出的意图间的关系的意图共现权重，所述意图串估计部使用意图估计部估计出的1个或者多个意图生成与输入语言相当的意图串，使用表示所生成的意图串的似然性的评分、和针对构成所生成的意图串的意图由意图共现权重计算部计算出的意图共现权重，生成与输入语言对应的意图估计结果。

发明效果

根据本发明，即使在进行了包含多个意图的输入的情况下，也能够按照该多个意图间的关系来生成最适合的意图串。

附图说明

图1是示出实施方式1的意图估计装置的构成的框图。

图2是示出实施方式1的意图估计装置的意图层次图数据蓄积部蓄积的意图层次图数据的一个例子的图。

图3是示出实施方式1的意图估计装置的从输入语音提取意图估计单位的处理的具体例的图。

图4是示出实施方式1的意图估计装置的意图估计部的处理的图。

图5是示出实施方式1的意图估计装置的意图估计部的处理的图。

图6是示出实施方式1的意图估计装置的意图串估计部的处理的图。

图7是示出实施方式1的意图估计装置的意图串估计部的处理的图。

图8是示出实施方式1的意图估计装置的动作的流程图。

图9是示出实施方式2的意图估计装置的构成的框图。

图10是示出实施方式2的意图估计装置的意图串转换表蓄积部蓄积的意图串转换表的一个例子的图。

图11是示出实施方式2的意图估计装置的从输入语音提取意图估计单位的处理的具体例的图。

图12是示出实施方式2的意图估计装置的意图估计部的处理的图。

图13是示出实施方式2的意图估计装置的意图串估计部的处理的图。

图14是示出实施方式2的意图估计装置的动作的流程图。

图15是示出实施方式3的意图估计装置的从输入语音提取意图估计单位的处理的具体例的图。

图16是示出实施方式3的意图估计装置的意图估计部的处理的图。

图17是示出实施方式3的意图估计装置的意图估计部的处理的图。

图18是示出实施方式3的意图估计装置的意图串估计部的处理的图。

图19是示出实施方式3的意图估计装置的意图串估计部的处理的图。

图20是示出实施方式4的意图估计装置的从输入语音提取意图估计单位的处理的具体例的图。

图21是示出实施方式4的意图估计装置的意图估计部的处理的图。

图22是示出实施方式4的意图估计装置的意图串估计部的处理的图。

具体实施方式

以下，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

以下以适用于导航系统的意图估计装置为例进行说明。而且下文中，将与用户发出或输入的语言对应的用户希望的操作称作“意图”。

图1是示出实施方式1的意图估计装置的构成的框图。

意图估计装置10由语音识别部1、语素分析部2以及意图串估计部3构成。另外，意图串估计部3具有意图估计单位提取部4、意图估计模型蓄积部5、意图估计部6、意图层次图数据蓄积部7以及意图共现权重计算部8。

语音识别部1针对输入至意图估计装置10的输入语音进行语音识别处理，并返回语音识别结果。语素分析部2将语音识别结果作为输入进行语素分析，并返回语素分析结果。意图估计单位提取部4根据语素分析结果，估计应该作为意图估计的单位进行分割的位置而分割成部分语素，基于语言的语法制约提取意图估计单位。意图估计模型蓄积部5是蓄积进行意图估计时参照的意图估计模型的数据库。意图估计部6参照意图估计模型蓄积部5中蓄积的意图估计模型，针对意图估计单位提取部4分割出的各个意图估计单位输出部分意图估计结果和部分评分(score)。

意图层次图数据蓄积部7是蓄积计算意图串的妥当性时参照的意图层次图数据的数据库。意图共现权重计算部8参照意图层次图数据蓄积部7中蓄积的意图层次图数据计算意图共现权重，该意图共现权重表示针对意图估计部6估计出的部分意图估计结果的意图串的妥当性。这里，意图共现表示针对输入估计出多个意图的情况，意图共现权重是针对估计出的多个意图表示各自的妥当性的值。意图串估计部3针对从语素分析部2输入的语素分析结果，基于意图估计单位提取部4、意图估计部6以及意图共现权重计算部8的输出结果，取得意图串估计结果和最终评分，输出带有最适合于输入语音的最终评分的意图串估计结果。

图2是示出实施方式1的意图估计装置的意图层次图数据蓄积部7蓄积的意图层次图数据的一个例子的图。

意图层次图数据示出意图节点21～27、各意图节点21～27的层次关系、以及将子节点的意图共现权重数值化而示出的意图共现权重28、29。这里，子节点例如表示在意图节点21的情况下位于该意图节点21的下一层的意图节点22。

意图层次图数据基本上是以假想的意图节点为顶点并将功能层次化而示出的构造，越趋向下层则越表示具体的意图。在图2的例子中，以假想的“根”的意图节点21为顶点，下层的意图节点23是“目的地设定[]”，再下一层的意图节点24是“目的地设定[设施＝？]”，再下一层的意图节点25是“目的地设定[设施＝＄设施＄]”。意图节点23表示进行目的地设定但未确定任何设定条件的状态，意图节点24表示使用设施的名称进行目的地设定但具体的设施名称未确定的状态，意图节点25表示具体的设施名称被指定为“＄设施＄”，用具体的设施名称进行目的地设定的状态。

另一方面，从意图节点26的“设施检索[设施＝＄设施＄]”到意图节点25的“目的地设定[设施＝＄设施＄]”的图的路径26a(以下称作图路径)、以及从意图节点26的“设施检索[设施＝＄设施＄]”到意图节点27“经由地设定[设施＝＄设施＄]”的图路径26b，是基于假定的汽车导航应用的功能而生成的图路径。意图节点26“设施检索[设施＝＄设施＄]”只要求搜索具体的设施“＄设施＄”；到意图节点25“目的地设定[设施＝＄设施＄]”的图路径26a、以及到意图节点27“经由地设定[设施＝＄设施＄]”的图路径26b，表示作为应用最终需要选择目的地设定、经由地设定等的意图。

另外，意图共现权重28示为“1.2”，这表示子节点以下的意图出现多个时的意图共现权重为“1.2”。即，即使多个意图共同出现也没有问题，进而表示多个意图共同出现的频率大的情况。另一方面，意图共现权重29示为“0.0”，这表示子节点以下的意图出现多个时的意图共现权重为“0.0”。即，表示多个意图不会共同出现的情况。

输入语音31作为输入例示出用户发出“○○ドームに立ち寄ってから、××ランドに行きたい(○○doomu ni tachiyottekara,××lando ni ikitai(在○○Dome停，然后去××Land))”的情况。语音识别结果32是语音识别部1对输入语音31进行语音识别而得到的结果。具体而言，语音识别结果32由“○○ドームに立ち寄ってから△△ラジオを聞きたい”以语音识别评分“0.6”被求出的语音识别结果例33、以及“○○ドームに立ち寄ってから、××ランドに行きたい”以语音识别评分“0.4”被求出的语音识别结果例34构成。

语素分析结果35是语素分析部2对语音识别结果32进行语素分析而得到的结果。意图估计单位提取结果36、40是意图估计单位提取部4从语素分析结果35基于语言的语法制约提取意图估计单位的结果。在意图估计单位提取结果36中，示出3个提取模式37、38、39。如图3所示在语言为日语的情况下，依据对独立语附加附属语串的性质，文节是最小的意图估计单位，进而依据前方的体言与后方的用言相关的性质，将复合的文节作为意图估计单位提取。提取模式37、38、39所示的意图估计结果提取单位是仅提取在此说明的依存的构造成立的模式而得到的。

此后，参照意图估计单位提取结果36、40的各提取模式，意图估计部6使用意图估计模型进行各提取模式的部分意图的估计并计算部分评分。该意图估计部6的具体处理结果如图4以及图5所示。

图4以及图5是示出实施方式1的意图估计装置的意图估计部6的处理的图。更详细地说，图4示出基于图3所示的意图估计单位提取结果36的部分意图的估计，图5示出基于图3所示的意图估计单位提取结果40的部分意图的估计。

此外，图4以及图5中对将独立语的原型作为术语提取的情况进行说明。首先，参照图4对部分意图的估计处理进行说明。

术语串41表示从意图估计单位提取结果36生成的部分意图估计中使用的术语串，表示针对“○○ドーム/に(○○doomu/ni)”生成“＄设施＄＿1”，针对“立ち寄っ/て/から(tachiyot/te/kara)”生成“立ち寄る(tachiyoru)”，针对“××ラジオ/を(××rajio/wo)”生成“＄无线电台＄＿1”，针对“聞き/たい(kiki/tai)”生成“聞く(kiku)”的情况。

而且，在图4中，针对术语串41示出分割采用权重以及多个提取模式。作为提取模式，在图4的例子中，示出基于图3所示的提取模式37、38、39的提取模式A、B、C、D以及非提取模式E、F、G。实线箭头42、43、44表示意图估计单位提取部4提取出的意图估计单位的范围。另外，在该实线箭头42、43、44的下方，示出意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。另外，虚线箭头45、46表示意图估计单位提取部4未提取的范围。在该虚线箭头45、46的下方，记载有意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。而且，记载于术语串41的下方的分割点采用权重47，在采用各指定位置作为意图估计单位的分割点的情况下，是与评分相乘的数值，在未采用各指定位置作为意图估计单位的分割点的情况下，是将从1减去该分割点采用权重47而得到的值与评分相乘的数值。

接下来，参照图5对部分意图的估计处理进行说明。

术语串51表示从意图估计单位提取结果40生成的部分意图估计中使用的术语串，表示针对“○○ドーム/に”生成“＄设施＄＿1”，针对“立ち寄っ/て/から”生成“立ち寄る”，针对“××ランド/へ”生成“＄设施＄＿2”，针对“行き/たい”生成“行く”的情况。

而且，在图5中，针对术语串51示出分割采用权重以及多个提取模式。作为提取模式，在图5的例子中，示出基于图3所示的提取模式的提取模式A′、B′、C′、D′以及非提取模式E′、F′、G′。实线箭头52、53、54表示意图估计单位提取部4提取出的意图估计单位的范围。另外，在该箭头52、53、54的下方，示出意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。另外，虚线箭头55、56示出意图估计单位提取部4未提取的范围。在该虚线箭头55、56的下方，记载有意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。而且，记载于术语串51的下方的分割点采用权重57，在采用各指定位置作为意图估计单位的分割点的情况下，是与评分相乘的数值，在未采用各指定位置作为意图估计单位的分割点情况下，是将从1减去该分割点采用权重57而得到的值与评分相乘的数值。

接下来，意图串估计部3利用意图估计部6估计出的部分意图估计结果生成针对语音识别结果例33、34的部分意图估计结果的组合，并计算各组合的最终评分。意图串估计部3的具体处理结果如图6以及图7所示。

图6以及图7是示出实施方式1的意图估计装置的意图串估计部3的处理的图。更详细地说，图6示出基于图4所示的部分意图估计结果的组合的最终评分的计算例，图7示出基于图5所示的部分意图估计结果的组合的最终评分的计算例。

将针对各意图估计单位的全部连续的部分意图串的部分评分相乘，进而将意图估计单位的妥当性、以及意图共现权重计算部8计算出的意图共现权重相乘，由此计算最终评分。

图6示出针对语音识别结果例33的最终评分的计算例，该语音识别结果例33的语音识别评分61示为“0.6”。另外，部分评分62表示使用术语串41的各提取模式下的部分意图估计结果的部分评分。整体评分63是取部分意图估计结果的各部分评分之积而得到的。分割权重64是依据采用分割点或不采用分割点而计算权重的结果。分割权重64的值是表示意图分割的可能性的数字，在取该分割权重64的值的总和时为“1.0”。分割权重评分(表示意图串的似然性的评分)65是整体评分63与分割权重64的积。

意图共现权重66是根据图2所示的意图层次图和部分意图串求出的数值。最终评分67是将分割权重评分65和语音识别评分61和意图共现权重66相乘而得到的值。提取模式A的意图串68记载有作为语音识别结果例33的意图串模式在全部的文节中进行分割时的最终评分。另外，提取模式B+C的意图串69记载有将复句结构的各句作为一个块时的最终评分。

图7示出针对语音识别结果例34的最终评分的计算例，该语音识别结果例34的语音识别评分71示为“0.4”。另外，术语串51、整体评分72、分割权重73、分割权重评分74、意图共现权重75以及最终评分76与图6中说明的构成相同。另外，提取模式B′+C′的意图串77记载有将复句结构的各句作为一个块时的最终评分。

图8是示出实施方式1的意图估计装置的动作的流程图。

语音识别部1进行输入语音的语音识别(步骤ST1)。语素分析部2针对在步骤ST1中得到的语音识别结果进行语素分析(步骤ST2)。意图估计单位提取部4将在步骤ST2中得到的语素分析结果即语素串分割成部分语素，并提取全部估计意图的单位即意图估计单位(步骤ST3)。意图估计部6针对在步骤ST3中提取出的全部意图估计单位进行部分意图估计，得到部分意图估计结果以及部分评分(步骤ST4)。

意图串估计部3基于在步骤ST4中得到的部分意图估计结果，将部分意图连结而生成与语音识别结果的整体一致的意图串，并计算生成的意图串的整体评分(步骤ST5)。另外，意图串估计部3对在步骤ST5中生成的意图串的整体评分乘以意图共现权重计算部8计算出的意图共现权重以及语音识别评分，从而计算针对意图串的最终评分(步骤ST6)。进而，意图串估计部3参照在步骤ST6中计算出的最终评分，输出具有最大的最终评分的意图串，作为最适合输入语音的意图串估计结果(步骤ST7)，结束处理。

接下来，参照图2至图7所示的具体例对图8所示的流程图进行说明。此外，以下假定进行语音输入的情况进行说明。

首先，作为语音输入，输入图3所示的输入语音31“○○ドームに立ち寄ってから××ランドに行きたい”，针对该输入语音31，作为步骤ST1，语音识别部1进行语音识别，得到语音识别结果32。作为语音识别结果32，语音识别结果例33的“○○ドームに立ち寄ってから△△ラジオを聞きたい”得到评分0.6，语音识别结果例34的“○○ドームに立ち寄ってから××ランドに行きたい”得到评分0.4。该语音识别结果例33、34被输出至语素分析部2。

语素分析部2作为步骤ST2，基于已知的语素分析手法进行语音识别结果例33、34的语素分析，生成图3所示的语素分析结果35。图3的例子中，在语素分析结果35中记载有表层的语素和词类以及活用形，但是，也可以输出除此以外的详细的词类分类、语素的原形、语素的语意标签等的信息，最低限度包含语素的原形。

语素分析结果35由2个语素分析结果例36、40构成，分别被输出至意图估计单位提取部4。

意图估计单位提取部4作为步骤ST3，基于语言的语法特征，提取语素分析结果例36、40的全部意图估计单位。例如，在日语的情况下，多个附属语与独立语连接而成为被称作一个文节的块，因此，在语素分析结果例36的情况下，首先，提取“○○ドーム(固有名词)/に(助词)”、“立ち寄っ(动词：连用形)/て(助词)/から(助词)”、“△△ラジオ(固有名词：无线电台)/を(助词)”、“聞き(动词：连用形)/たい(助动词)”这样的4个文节作为意图估计单位。

接下来，作为语法制约，基于体言与用言相关的性质，提取依存关系成立的文节的组作为一个意图估计单位。而且，由于存在用言的连体形与后续的体言相关、用言的连用形与后续的用言相关的性质，基于该性质进行意图估计单位的扩展。通过反复上述过程，生成语法方面有可能具有语意的语素串，作为意图估计单位提取。

图3的意图估计单位提取结果例36所示的提取模式37是以文节为单位的语素串的意图估计单位，提取模式38是由使体言与紧后的用言连接的2个文节构成的意图估计单位，提取模式39是将提取模式38的2个文节进一步汇总而得到的意图估计单位。

在步骤ST3的意图估计单位的提取处理结束时，意图估计部6作为步骤ST4，针对各意图估计单位提取出意图估计中使用的术语后进行意图估计，并保持其评分。图4所示的术语串41表示各意图估计及意图估计中使用的术语。

对于术语而言，可以考虑(1)将语素作为单独的术语使用的方法、(2)将独立语语素作为单独的术语使用的方法、(3)将单独语素以及n个连锁语素作为术语使用的方法、(4)将单独语素以及与之附带的附属的语意符号连锁语素作为术语使用的方法等，但是，在本实施方式1中，出于简单的目的，假定提取独立语语素的原形进行说明。另外，“○○ドーム”、“××ランド”、“△△ラジオ”、住所、设施类型名、品牌名等的术语会出现多种术语，因此，很难直接构建意图估计模型，因此，将基于上位概念的符号共同化，使用“＄设施＄”、“＄住所＄”、“＄无线电台＄”、“＄类型名＄”、“＄品牌名＄”等的术语。

例如，图4的提取模式B的实线箭头42所示的意图估计单位表示如下情况：针对“○○ドームに立ち寄ってから”，作为意图估计术语发送“＄设施＄＿1”、“立ち寄る”这2个术语，作为其部分意图估计结果，“经由地设定[设施＝＄设施＄＿1]”被意图估计成部分评分“0.95”。

图4的实线箭头42、43、44表示针对在步骤ST3中提取出的意图估计单位的部分意图估计结果，虚线箭头45、46表示针对在步骤ST3中未提取的意图估计单位的部分意图估计结果，是与涵盖语音识别结果例33整体的意图估计单位相关的部分意图估计结果。计算由虚线箭头45、46示出的意图估计单位的部分意图估计结果的理由是，存在输入语音未必构成文法方面正确的语法的可能性。特别是在输入语音被语音识别的情况下，用户发话往往以未充分使用助词或助动词的方式进行，当假定语法方面严密的输入时，有可能在意图估计单位中产生遗漏。并且，还有可能在语音识别结果中包含识别错误，优选在评价全部的可能性后再选择认为最适合的意图串。

当求出各意图估计单位的部分意图估计结果时，意图串估计部3作为步骤ST5，使用意图估计单位生成与语音识别结果例33的整体一致的意图串，并计算整体评分。将图5所示的提取模式A、B、C、D以及非提取模式E、F、G组合而生成与语音识别结果例33的整体一致的意图串，图6示出生成的意图串的部分评分62。在部分评分62中，区域O相当于图4中用实线标记的部分意图的部分评分。另外，区域P相当于语法方面正当性低而在图4中由虚线标记的部分意图的部分评分。在该区域P，本实施方式1中，作为意图估计部分罚分对部分意图估计结果的部分评分乘以“0.9”。另外，通过在各提取模式下将部分意图的部分评分全部相乘而计算整体评分63。

另外，基于图4所示的分割采用权重47，以如下方式计算图6所示的各提取模式下的分割权重64。

意图串68的情况：

0.4×0.6×0.4＝0.096

在提取模式A的情况下，由于使用全部的分割点，因此将各点的分割采用权重47相乘。

意图串69的情况：

(1.0-0.4)×0.6×(1.0-0.4)＝0.216

在提取模式B+C的情况下，由于仅使用第2个分割点，因此，除了第2个点以外，将从1.0减去分割采用权重47的结果相乘。

使用如上所述计算出的分割权重64，作为“(整体评分63)×(分割权重64)”而计算分割权重评分65。参照计算出的分割权重评分65，作为语音识别结果例33的意图理解结果，求出提取模式B+C所示的“经由地设定[设施＝＄设施＄＿1”、“无线电再现[对象＝＄无线电台＄＿1]”作为最高的分割权重评分“0.197”。另一方面，语音识别结果例34也相同地，如图7所示，作为意图理解结果，求出提取模式B′+C′所示的“经由地设定[设施＝＄设施＄＿1”、“目的地设定[设施＝＄设施＄＿2]”作为最高的分割权重评分“0.195”。

以往是计算在该提取模式B+C和提取模式B′+C′的意图理解结果即分割权重评分中取更高评分的提取模式B+C所示的“经由地设定[设施＝＄设施＄＿1”、“无线电再现[对象＝＄无线电台＄＿1]”，作为针对输入语音31的意图估计结果。

并且，作为评价方法，还可考虑将对语音识别评分61、71乘以分割权重评分65、74的结果作为最终评分的方法，但是，在对语音识别评分61与语音识别评分71进行比较时，语音识别结果例33的语音识别评分61是更高的值，因此，无论任何情况下都是提取模式B+C所示的“经由地设定[设施＝＄设施＄＿1”、“无线电再现[对象＝＄无线电台＄＿1]”成为最终的意图估计结果。这是由于不存在考虑到意图间关系的条件因而语音识别结果被最优先地评价而导致的。

因此，在该实施方式1的意图估计装置10中，作为步骤ST6，意图串估计部3为了评价意图的妥当性，例如将进行如下所示的计算而得到的结果作为意图共现权重66、75，并乘以分割权重评分65、74。

(1)按顺序提取连续的2个意图，并计算2个意图的关系。

(a)在存在2个意图的上位·下位的关系的情况下，恒定的权重(例如，0.7)

(b)在2个意图具有共同的上位意图的情况下，对其节点付与的权重

(2)将通过(1)求出的权重的积作为最终的权重，即作为最终评分67、76。

在上述(1)的计算中，通过对标准的意图连锁关系赋予1.0，对更紧密连接的意图连锁关系赋予比1.0大的值，对矛盾的意图连锁关系赋予比1.0小的值，从而进行加分、减分。

例如，在提取模式B+C所示的“经由地设定[设施＝＄设施＄＿1]、无线电再现[对象＝＄无线电台＄＿1]”的情况下，共同的上位意图是图2所示的节点21的“根”，因此，对该节点21赋予的意图共现权重是“0.5”。在针对全部的意图串计算该处理时，成为图6以及图7所示的意图共现权重66、75。使用这样计算出的意图共现权重基于如下的式子计算最终评分。

(最终评分)＝(分割权重评分)×(意图共现权重)×(语音识别评分)

参照最终评分67、76的计算结果，具有最高的最终评分的是提取模式B′+C′所示的意图串77，作为步骤ST7，输出该意图串77作为最适合用户的输入语音31的意图串估计结果。

如上所述，根据该实施方式1，构成为具有计算表示意图间的关系的意图共现权重的意图共现权重计算部8和计算分割权重评分并对计算出的分割权重评分乘以意图共现权重以及语音识别评分的意图串估计部3，因此，能够考虑意图间的关系，从而输出最适合输入语音的意图串估计结果。因此，即使在进行了包含多个意图的输入的情况下，也能够基于意图间的关系生成最适合的意图串，并作为意图串估计结果输出。

实施方式2

实施方式2中，示出即使在用户省略了发话的情况下，也能够得到适当的意图串估计结果的结构。

图9是示出实施方式2的意图估计装置的构成的框图。

对图1所示的实施方式1的意图估计装置10追加设置意图串转换表蓄积部11以及意图串转换部12。此外，以下对于与实施方式1的意图估计装置10的构成要素相同或者相当的部分，标注与实施方式1中使用的标号相同的标号并省略或简化说明。

意图串转换表蓄积部11将记载有意图估计结果与置换意图串的关系的数据作为意图串转换表蓄积。意图串转换表用于保持示出对由意图估计结果示出的意图的连续进行置换的置换意图串的规则，在判断是否出现与该规则一致的意图串的情况下以及取得要置换的意图串的情况下，参照该意图串转换表。

意图串转换部12参照意图串转换表蓄积部11中蓄积的意图串转换表，按顺序对是否存在与意图估计部6估计出的部分意图估计结果一致的意图串进行检查，在存在一致的意图串的情况下，依照规则进行该意图串的转换。

图10是示出实施方式2的意图估计装置的意图串转换表蓄积部11蓄积的意图串转换表的一个例子的图。

意图串转换表由多个意图串转换规则构成，在图10的例子中示出3个意图串转换规则81、82、83。意图串转换规则示出在与左边的意图串出现一致的部分意图估计结果的情况下，将该部分意图估计结果置换成右边的意图串。

位置转换表中记载的意图串转换规则基本上是基于发话中的省略或语意的转换能够根据前后的关系而明确时的经验法则的规则。例如示出如下情况：意图串转换规则81的输入例句表达了其典型的发话例，与输入例句的后段的“＄设施＄＿Y”相当的发话根据文脉提示了目的地，因此将转换前的“地点检索(设施检索)”的意图置换成“目的地设定”。

图11示出从作为输入语音输入了“○○ドームに立ち寄ってから××ランド”这样的发话时的语音识别结果到提取意图估计单位的例子。

语音识别结果91是语音识别部1对输入语音31进行语音识别的结果。具体而言，示出以评分“0.7”求出“○○ドームに立ち寄ってから××ランド”的语音识别结果例，示出进行了与发话相符的识别的情况。语素分析结果92是语素分析部2对语音识别结果91进行语素分析的结果。意图估计单位提取结果93是意图估计单位提取部4针对语素分析结果92提取出意图估计单位的结果。在意图估计单位提取结果933中示出3个提取模式93a、93b、93c。

图12是示出实施方式2的意图估计装置的意图估计部6的处理的图。更详细地说，示出基于图11所示的意图估计单位提取结果93的部分意图的估计。

术语串94示出根据意图估计单位提取结果93生成的部分意图估计中使用的术语串。另外，示出基于提取模式93a、93b、93c的提取模式H、I、J以及非提取模式K。实线箭头95以及部分评分96是针对各意图估计单位进行意图估计而得到的结果例。虚线箭头以及分割点采用权重的构成与实施方式1相同。

图13是示出实施方式2的意图估计装置的意图串估计部3的处理的图。更详细地说，示出基于图12所示的部分意图估计结果的组合的最终评分的计算例。

是针对语音识别结果91通过部分意图估计结果的组合而计算最终评分的例子，与实施方式1相同地示出部分评分101、语音识别评分102、整体评分103、分割权重104、分割权重评分105、意图共现权重106以及最终评分107。意图串108示出针对全部的分割模式表示最适合的意图估计结果的意图串。

图14是示出实施方式2的意图估计装置的动作的流程图。此外，以下对于与实施方式1的意图估计装置10相同的步骤标注与图8中使用的标号相同的标号，并省略或简化说明。

在步骤ST5中，当生成与语音识别结果的整体一致的意图串而计算整体评分时，意图串转换部12从生成的意图串的部分意图串中检索与意图串转换表蓄积部11中蓄积的意图串转换规则一致的分割模式，在存在一致的分割模式的情况下，基于意图串转换规则对该意图串进行转换(步骤ST11)。

其后，意图串估计部3对在步骤ST11中转换后的意图串或未转换的意图串的整体评分乘以意图共现权重计算部8计算出的意图共现权重以及语音识别评分，从而计算针对意图串的最终评分(步骤ST6)。进而，意图串估计部3参照在步骤ST16中计算出的最终评分，输出具有最大的最终评分的意图串，作为最适合输入语音的意图串估计结果(步骤ST7)，结束处理。

接下来，参照图11至图13所示的具体例对图14所示的流程图进行说明。另外，假定与实施方式1相同地进行语音输入的情况进行说明。

首先，作为语音输入，输入“○○ドームに立ち寄ってから××ランド”，作为步骤ST1，以评分0.7得到图11所示的语音识别结果91。也可预料到生成语音识别结果91以外的识别结果的情况，但是，不会对实施方式2的发明点造成影响因而省略说明。当生成语音识别结果91时，进行步骤ST2的语素分析以及步骤ST3的意图估计单位的提取，得到图11所示的意图估计单位提取结果93。

接着，意图估计部6作为步骤ST4，提取出图12所示的术语串94后，计算部分意图估计结果以及部分评分。接下来，意图串估计部3作为步骤ST5，使用意图串估计单位生成与语音识别结果91的整体一致的意图串并计算整体评分。由此，得到图13所示的提取模式、与该提取模式对应的部分评分、以及基于部分评分的整体评分。

接下来，意图串转换部12作为步骤ST11，从部分意图串中检索与图10所示的意图串转换规则一致的置换模式，在存在一致的置换模式的情况下，依据意图串转换规则转换相应的意图串。

具体而言，在图13所示的意图串108的情况下，由提取模式I的部分意图串以及提取模式H的部分意图串构成，该意图串108与图10所示的意图串转换规则81一致，因此以如下方式转换。

转换前：经由地设定[设施＝＄设施＄＿1]，设施检索[设施＝＄设施＄＿2]

转换后：经由地设定[设施＝＄设施＄＿1]，目的地设定[设施＝＄设施＄＿2]

接下来，作为步骤ST6，意图串估计部3计算分割权重评分105，对该分割权重评分105乘以意图共现权重计算部8计算出的意图共现权重106以及语音识别评分而计算最终评分107。最后，意图串估计部3作为步骤ST7，将最终评分107最大的意图串108的“经由地设定[设施＝＄设施＄＿1]、目的地设定[设施＝＄设施＄＿2]”，作为最适合用户的输入语音的意图串估计结果输出。

如上所述，根据该实施方式2，构成为具有蓄积有表示意图串的置换模式的意图串转换表的意图串转换表蓄积部11、和参照该意图串转换表蓄积部11中蓄积的意图转换表在出现相应的意图串的情况下依据置换模式置换意图串的意图串转换部12，因此，即使在用户的发话中进行了省略的情况下，也能够得到最适合用户的输入语音的意图串估计结果。

实施方式3

在上述实施方式1中将使用语言设为日语进行了说明，在该实施方式3中将使用语言设为英语进行说明。此外，以下以适用于导航系统的意图估计装置为例进行说明。

另外，在以下的说明中，使用实施方式1所示的意图估计装置(参照图1)进行说明。另外，意图估计装置10的意图层次图数据蓄积部7蓄积图2所示的意图层次图数据。并且，假定基于图8所示的流程图进行意图估计处理的情况进行说明。

对于输入语音111而言，示出作为输入例用户发出“Stop at○○Dome，then drive to××Land(在○○Dome停，然后去××Land)”的情况。语音识别结果112是语音识别部1对输入语音111进行语音识别的结果。具体而言，由以语音识别评分“0.6”求出“Stop at○○Dome，then listen to the△△Radio(在○○Dome停，然后听△△无线电)”的语音识别结果例113、以及以语音识别评分“0.4”求出“Stop at○○Dome，then drive to××Land(在○○Dome停，然后去××Land)”的语音识别结果例114构成。

语素分析结果115是语素分析部2对语音识别结果112进行语素分析的结果。意图估计单位提取结果116、120是意图估计单位提取部4从语素分析结果115基于语言的语法制约而提取出意图估计单位的结果。在意图估计单位提取结果116中示出3个提取模式117、118、119。在如图15所示语言为英语的情况下，提取名词、动词、形容词等的单词作为意图估计单位。提取模式117、118、119所示的意图估计结果提取单位是仅提取在此说明的依存构造成立的模式而得到的。

此后，参照意图估计单位提取结果116、120的各提取模式，意图估计部6使用意图估计模型进行各提取模式的部分意图的估计并计算部分评分。该意图估计部6的具体的处理结果如图16以及图17所示。

图16以及图17是示出实施方式3的意图估计装置的意图估计部6的处理的图。更详细地说，图16示出基于图15所示的意图估计单位提取结果116的部分意图的估计，图17示出基于图15所示的意图估计单位提取结果120的部分意图的估计。

此外，图16以及图17对提取单词的原形作为术语的情况进行说明。首先，参照图16对部分意图的估计处理进行说明。

术语串121示出从意图估计单位提取结果116生成的部分意图估计中使用的术语串，示出针对“○○Dome”生成“＄设施＄＿1”，针对“Stop at”生成“stop”，针对“the△△Radio”生成“＄无线电台＄＿1”，针对“listen to”生成“listen”的情况。

而且，在图16中，针对术语串121示出分割采用权重以及多个提取模式。作为提取模式在图16的例子中，示出基于图15所示的提取模式117、118、119的提取模式a、b、c、d以及非提取模式e、f、g。实线箭头122、123、124表示意图估计单位提取部4提取出的意图估计单位的范围。另外，在该实线箭头122、123、124的下方，示出意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。另外，虚线箭头125、126示出意图估计单位提取部4未提取的范围。在该虚线箭头125、126的下方，记载有意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。记载在术语串121的更下方的分割点采用权重127，在采用各指定位置作为意图估计单位的分割点的情况下是与评分相乘的数值，在未采用各指定位置作为意图估计单位的分割点的情况下，是将从1减去该分割点采用权重127而得到的值与评分相乘的数值。

接下来，参照图17对部分意图的估计处理进行说明。

术语串131示出从意图估计单位提取结果120生成的部分意图估计中使用的术语串，示出针对“○○Dome”生成“＄设施＄＿1”，针对“Stop at”生成“stop”，针对“××Land”生成“＄设施＄＿2”，针对“drive to”生成“drive”的情况。

进而，在图17中，针对术语串131，示出分割采用权重以及多个提取模式。作为提取模式，在图17的例子中，示出基于图15所示的提取模式的提取模式a′、b′、d′、d′以及非提取模式e′、f′、g′。实线箭头132、133、134表示意图估计单位提取部4提取出的意图估计单位的范围。另外，在该箭头132、133、134的下方，示出意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。另外，虚线箭头135、136示出意图估计单位提取部4未提取的范围。在该虚线箭头135、136的下方，记载有意图估计部6估计出的结果的部分意图、以及该估计出的部分意图的部分评分。记载在术语串131的更下方的分割点采用权重137，在采用各指定位置作为意图估计单位的分割点的情况下是与评分相乘的数值，在未采用各指定位置作为意图估计单位的分割点的情况下，是将从1减去该分割点采用权重137而得到的值与评分相乘的数值。

接下来，意图串估计部3使用意图估计部6估计出的部分意图估计结果而生成针对语音识别结果例113、114的部分意图估计结果的组合，并计算各组合的最终评分。意图串估计部3的具体的处理结果如图18以及图19所示。

图18以及图19是表示实施方式3的意图估计装置的意图串估计部3的处理的图。更详细地说，图18表示基于图16所示的部分意图估计结果的组合的最终评分的计算例，图19表示基于图17所示的部分意图估计结果的组合的最终评分的计算例。

将各意图估计单位的针对全部连续的部分意图串的部分评分相乘，进而乘以意图估计单位的妥当性、以及意图共现权重计算部8计算出的意图共现权重，由此计算最终评分。

图18示出针对语音识别结果例113的最终评分的计算例，该语音识别结果例113的语音识别评分141示为“0.6”。另外，部分评分142示出使用术语串121的各提取模式下的部分意图估计结果的部分评分。整体评分143是取部分意图估计结果的各部分评分的积的结果。分割权重144是依据采用分割点或不采用分割点而计算权重的结果。分割权重144的值是表示意图分割的可能性的数字，在取该分割权重144的值的总和时得到“1.0”。分割权重评分(表示意图串的似然性的评分)145是整体评分143与分割权重144的积。

意图共现权重146是根据图2所示的意图层次图和部分意图串求出的数值。最终评分147是将分割权重评分145和语音识别评分141和意图共现权重146相乘而得到的值。提取模式a的意图串148记载有作为语音识别结果例113的意图串模式在全部的文节中进行分割时的最终评分。另外，提取模式b+c的意图串149记载有将复句结构的各句作为一个块时的最终评分。

图19示出针对语音识别结果例114的最终评分的计算例，该语音识别结果例114的语音识别评分151示为“0.4”。另外，术语串131、整体评分152、分割权重153、分割权重评分154、意图共现权重155以及最终评分156与图18中说明的构成相同。另外，提取模式b′+c′的意图串157记载有将复句结构的各句作为一个块时的最终评分。

接下来，对实施方式3的意图估计装置的动作进行说明。此外，示出实施方式3的意图估计装置的动作的流程图与实施方式1的图8所示的流程图相同。因此，参照图2以及图15至图19所示的具体例，对实施方式1的图8所示的流程图进行说明。此外，以下假定进行语音输入的情况进行说明。

首先，作为语音输入，输入图15所示的输入语音111的“Stop at○○Dome，thendrive to××Land”，针对该输入语音111，作为步骤ST1，语音识别部1进行语音识别，得到语音识别结果112。在语音识别结果112中，语音识别结果例113的“Stop at○○Dome，then listen to the△△Radio”得到评分0.6，语音识别结果例114的“Stop at○○Dome，then drive to××Land”得到评分0.4。该语音识别结果例113、114被输出至语素分析部2。

语素分析部2作为步骤ST2，基于已知的语素分析手法进行语音识别结果例113、114的语素分析，并生成图15所示的语素分析结果115。在图15的例子中，在语素分析结果115中记载有表层的语素和词类以及活用形，但是，也可以输出除此以外的详细的词类分类、语素的原形、语素的语意标签等的信息，最低限度包含语素的原形。

语素分析结果115由2个语素分析结果例116、120构成，并分别输出至意图估计单位提取部4。

意图估计单位提取部4作为步骤ST3，基于语言的语法特征，提取语素分析结果例116、120的全部的意图估计单位。例如，在英语的语素分析结果例116的情况下，首先，提取“stop(动词)/at(介词)”、“○○Dome(名词：POI)”、“then(副词)/drive(动词)/to(介词)”、“the(冠词)/△△Radio(名词：无线电台)”这4个文节作为意图估计单位。

接下来，作为语法制约，基于体言与用言相关的性质，提取依存关系成立的文节的组作为一个意图估计单位。进而由于存在用言的连体形与后续的体言相关、用言的连用形与后续的用言相关的性质，因此基于该性质进行意图估计单位的扩展。通过反复上述过程，从而生成有可能在语法方面具有语意的语素串并作为意图估计单位提取。

图15的意图估计单位提取结果例116所示的、提取模式117是以文节为单位的语素串的意图估计单位，提取模式118是由使名词与紧前的动词连接的2个文节构成的意图估计单位，提取模式119是将提取模式118的2个文节进一步汇总而得到的意图估计单位。

在步骤ST3的意图估计单位的提取处理结束时，意图估计部6作为步骤ST4，针对各意图估计单位提取出意图估计中使用的术语后进行意图估计，并保持其评分。图16所示的术语串121示出各意图估计和意图估计中使用的术语。

对于术语而言，可以考虑(1)将语素作为单独的术语使用的方法、(2)将名词、动词、形容词等限定的单词作为单独的术语使用的方法、

(3)将单独语素以及n个连锁语素作为术语使用的方法、(4)将单独语素以及与之附带的附属的语意符号连锁语素作为术语使用的方法等，但是，在本实施方式3中，出于简单的目的，假定提取名词、动词、形容词等限定的单词的原形进行说明。但是，设施、住所等名词为多个单词串而视为一个块。另外，“○○Dome”、“××Land”、“△△Radio”、住所、设施类型名、品牌名等的术语会出现多种术语，因此，很难直接构建意图估计模型，因此，将基于上位概念的符号共同化，使用“＄设施＄”、“＄住所＄”、“＄无线电台＄”、“＄类型名＄”、“＄品牌名＄”等的术语。

例如，图16的提取模式b的实线箭头122所示的意图估计单位，表示针对“stop at○○Dome(在○○Dome停)”，作为意图估计术语发送“stop(停)”、“＄设施＄＿1”这2个术语，表示作为其部分意图估计结果，“经由地设定[设施＝＄设施＄＿1]”被意图估计成部分评分“0.95”。

图16的实线箭头122、123、124表示针对步骤ST3中提取的意图估计单位的部分意图估计结果，虚线箭头125、126表示针对步骤ST3中未提取的意图估计单位的部分意图估计结果，是与涵盖语音识别结果例113整体的意图估计单位相关的部分意图估计结果。这里，对虚线箭头125、126所示的意图估计单位的部分意图估计结果进行计算的理由是由于存在输入语音未必构成文法方面正确的语法的可能性。特别是，在输入语音被语音识别的情况下，用户的发话以未充分使用冠词、介词的形式进行的情况较多，若假定语法方面严密的输入，则有可能在意图估计单位中产生遗漏。并且，还有可能在语音识别结果中包含识别错误，优选在评价全部的可能性后再选择认为最适合的意图串。

在求出各意图估计单位的部分意图估计结果时，意图串估计部3作为步骤ST5，使用意图估计单位生成与语音识别结果例113、114的整体一致的意图串，并计算整体评分。将图16所示的提取模式a、b、c、d以及非提取模式e、f、g组合而生成与语音识别结果例113的整体一致的意图串，图18示出生成的意图串的部分评分142。在部分评分142中，区域O相当于图16中用实线标记的部分意图的部分评分。另外，区域P相当于语法方面正当性低而在图16中用虚线标记的部分意图的部分评分。在该区域P中，本实施方式1中，作为意图估计部分罚分对部分意图估计结果的部分评分乘以“0.9”。另外，通过在各提取模式下将部分意图的部分评分全部相乘而计算整体评分143。

另外，基于图16所示的分割采用权重127，以如下方式计算图18所示的各提取模式的分割权重144。

意图串148的情况下：

0.4×0.6×0.4＝0.096

在提取模式a的情况下，由于使用全部的分割点，因此将各点的分割采用权重127相乘。

意图串149的情况下：

(1.0-0.4)×0.6×(1.0-0.4)＝0.216

在提取模式b+c的情况下，由于仅使用第2个分割点，因此，除了第2个点以外，将从1.0减去分割采用权重127的结果相乘。

使用如上所述计算出的分割权重144，作为“(整体评分143)×(分割权重144)”计算分割权重评分145。参照计算出的分割权重评分145，作为语音识别结果例113的意图理解结果，求出提取模式b+c所示的“经由地设定[设施＝＄设施＄＿1”、“无线电再现[对象＝＄无线电台＄＿1]”作为最高的分割权重评分“0.197”。另一方面，语音识别结果例114也相同地如图19所示，作为意图理解结果，求出提取模式b′+c′所示的“经由地设定[设施＝＄设施＄＿1”、“目的地设定[设施＝＄设施＄＿2]”作为最高的分割权重评分“0.195”。

以往是计算在该提取模式b+c和提取模式b′+c′的意图理解结果即分割权重评分中取更高评分的提取模式b+c所示的“经由地设定[设施＝＄设施＄＿1]、无线电再现[对象＝＄无线电台＄＿1]”，作为针对输入语音111的意图估计结果。

并且，作为评价的方法，也可考虑将对语音识别评分141、151乘以分割权重评分145、154的结果作为最终评分的方法，但是，在对语音识别评分141与语音识别评分151进行比较时，语音识别结果例113的语音识别评分141是更高的值，因此，无论任何情况都是提取模式b+c所示的“经由地设定[设施＝＄设施＄＿1]、无线电再现[对象＝＄无线电台＄＿1]”成为最终的意图估计结果。这是由于不存在考虑到意图间关系的条件因而语音识别结果被最优先地评价而导致的。

因此，在该实施方式3的意图估计装置10中，作为步骤ST6，意图串估计部3为了对意图的妥当性进行评价，例如将进行以下所示的计算而得到的结果作为意图共现权重146、155，并与分割权重评分145、154相乘。

(1)按顺序提取连续的2个意图，计算2个意图的关系。

(a)在存在2个意图的上位·下位的关系的情况下恒定的权重(例如，0.7)

(b)在2个意图具有共同的上位意图的情况下，对其节点赋予的权重

(2)将通过(1)求出的权重的积作为最终的权重，即作为最终评分147、156。

在上述(1)的计算中，通过对标准的意图连锁关系赋予1.0，对更紧密连接的意图连锁关系赋予比1.0大的值，对于矛盾的意图连锁关系赋予比1.0小的值，从而进行加分、减分。

例如，在提取模式b+c所示的“经由地设定[设施＝＄设施＄＿1]、无线电再现[对象＝＄无线电台＄＿1]”的情况下，共同的上位意图是图2所示的节点21的“根”，因此，对该节点21赋予的意图共现权重为“0.5”。在对全部的意图串计算该处理时，成为图18以及图19所示的意图共现权重146、155。使用这样计算出的意图共现权重基于以下的式子计算最终评分。

参照最终评分147、156的计算结果，具有最高的最终评分的是提取模式b′+c′所示的意图串157，作为步骤ST7，输出该意图串157作为最适合用户的输入语音111的意图串估计结果。

如上所述，根据该实施方式3，构成为具有计算表示意图间的关系的意图共现权重的意图共现权重计算部8和计算分割权重评分并对计算出的分割权重评分乘以意图共现权重以及语音识别评分的意图串估计部3，因此能够考虑意图间的关系，输出最适合输入语音的意图串估计结果。因此，即使在进行了包含多个意图的输入的情况下，也能够基于意图间的关系生成最适合的意图串，并作为意图串估计结果输出。

实施方式4

在上述实施方式2中将使用语言设为日语进行了说明，在该实施方式4中将使用语言设为英语进行说明。此外，以下以适用于导航系统的意图估计装置为例进行说明。

另外，在以下的说明中，使用实施方式2所示的意图估计装置(参照图9)进行说明。另外，意图估计装置10的意图层次图数据蓄积部11蓄积图10所示的意图层次图数据。并且，假定基于图14所示的流程图进行意图估计处理的情况进行说明。

图20中示出从作为输入语音输入了“Stop at○○Dome then××Land”这样的发话时的语音识别结果到提取意图估计单位的例子。

语音识别结果161是语音识别部1对输入语音31进行语音识别的结果。具体而言，示出以评分“0.7”求出“Stop at○○Dome then××Land”的语音识别结果例，示出进行了与发话相符的识别的情况。语素分析结果162是语素分析部2对语音识别结果161进行语素分析的结果。意图估计单位提取结果163是意图估计单位提取部4针对语素分析结果162提取出意图估计单位的结果。在意图估计单位提取结果163中示出3个提取模式163a、163b、163c。

图21是示出实施方式4的意图估计装置的意图估计部6的处理的图。更详细地说，示出基于图20所示的意图估计单位提取结果163的部分意图的估计。

术语串164表示从意图估计单位提取结果163生成的部分意图估计中使用的术语串。另外，示出基于提取模式163a、163b、163c的提取模式h、i、j以及非提取模式k。实线箭头165以及部分评分166是针对各意图估计单位进行意图估计的结果例。虚线箭头以及分割点采用权重的构成与实施方式3相同。

图22是示出实施方式4的意图估计装置的意图串估计部3的处理的图。更详细地说，示出基于图21所示的部分意图估计结果的组合的最终评分的计算例。

是针对语音识别结果161通过部分意图估计结果的组合计算最终评分的例子，与实施方式3相同地示出语音识别评分171、部分评分172、整体评分173、分割权重174、分割权重评分175、意图共现权重176以及最终评分177。意图串178示出针对全部的分割模式表示最适合的意图估计结果的意图串。

接下来，对实施方式4的意图估计装置的动作进行说明。此外，示出实施方式4的意图估计装置的动作的流程图与实施方式2的图14所示的流程图相同。因此，参照图2、图10以及图20～图22所示的具体例对实施方式2的图14所示的流程图进行说明。此外，以下假定进行语音输入的情况进行说明。

首先，作为语音输入，输入“Stop at○○Dome then××Land”，作为步骤ST1，语音识别部1进行语音识别，图20所示的语音识别结果161得到评分0.7。也可预料到生成语音识别结果161以外的识别结果的情况，但是，不会对实施方式4的发明点造成影响因而省略说明。当生成语音识别结果161时，进行步骤ST2的语素分析以及步骤ST3的意图估计单位的提取，得到图20所示的意图估计单位提取结果163。

接着，意图估计部6作为步骤ST4，提取出图21所示的术语串164后计算部分意图估计结果以及部分评分。接下来，意图串估计部3作为步骤ST5，使用意图串估计单位生成与语音识别结果161的整体一致的意图串，并计算整体评分。由此，得到图22所示的提取模式、与该提取模式相应的部分评分、以及基于部分评分的整体评分。

具体而言，在图22所示的意图串178的情况下，由提取模式i的部分意图串以及提取模式h的部分意图串构成，该意图串178与图10所示的意图串转换规则81一致，因此以如下方式转换。

接下来，作为步骤ST6，意图串估计部3计算分割权重评分175，对该分割权重评分175乘以意图共现权重计算部8计算出的意图共现权重176以及语音识别评分，计算最终评分177。最后，意图串估计部3作为步骤ST7，输出最终评分177最大的意图串178的“经由地设定[设施＝＄设施＄＿1]、目的地设定[设施＝＄设施＄＿2]”，作为最适合用户的输入语音的意图串估计结果。

如上所述，根据该实施方式4，构成为具有蓄积有表示意图串的置换模式的意图串转换表的意图串转换表蓄积部11、和参照该意图串转换表蓄积部11中蓄积的意图转换表在出现相应的意图串的情况下依据置换模式置换意图串的意图串转换部12，因此，即使在用户的发话中进行了省略的情况下，也能够得到最适合用户的输入语音的意图串估计结果。

此外，在上述的实施方式1～实施方式4中，以日语以及英语为例示出了得到意图串估计结果的结构，但是，通过按照各个语言变更与意图提取单位相关的提取方法，能够适用于德语以及汉语等各种语言。

另外，在上述的实施方式1～实施方式4中，是通过特定的符号(空间等)划分单词的语言的情况，在难以对语言的构造进行分析的情况下，还可以构成为通过模式匹配这样的方法针对输入的自然语言文本进行＄设施＄、＄住所＄等的提取处理后直接执行意图估计处理。

另外，在上述的实施方式1～实施方式4中，以输入为语音输入的情况为例进行了说明，但时，即使在作为输入手段不使用语音识别而是采用基于键盘等输入手段的文本输入的情况下，也能够期待相同的效果。

另外，在上述的实施方式1～实施方式4中，示出将具有高分割权重评分的上位2个候选作为评价处理对象的例子，但是，并不限定评价处理对象数。另外，在语音识别结果不仅为文本、还通过语素单位输出的情况下，还可以构成为省略进行语素分析的手段而直接提取意图估计术语进行处理。

另外，在上述的实施方式1～实施方式4中，以作为意图估计的方法假定基于最大熵法的学习模型的例子进行了说明，但是，并不限定意图估计的方法。

另外，在上述的实施方式1～实施方式4中，作为各部分意图估计对象的组合，使用仅仅第1位意图的组合进行了说明，但是，也可以针对某恒定的评分以上的全部候选生成候选并计算意图串估计结果。

另外，在上述的实施方式1～实施方式4中，以适用于导航系统的情况为例进行了说明，但是，只要是进行意图估计的系统即可，能够适用于各种情况。

此外，本发明能够在其发明的范围内，进行各实施方式的自由组合、或各实施方式的任意构成要素的变形、或在各实施方式中省略任意的构成要素。

工业上的可利用性

如上所述，本发明的意图估计装置以及意图估计方法能够适用于具有语音识别功能的导航装置等，即使在进行了包含多个意图的输入的情况下，也能够按照多个意图间的关系生成最适合的意图串。

标号说明

1：语音识别部；2：语素分析部；3：意图串估计部；4：意图估计单位提取部；5：意图估计模型蓄积部；6：意图估计部；7：意图层次图数据蓄积部；8：意图共现权重计算部；10：意图估计装置；11：意图串转换表蓄积部；12：意图串转换部。

Claims

1.一种意图估计装置，其根据用户的语言输入估计所述用户的意图，其特征在于，该意图估计装置具有语素分析部和意图串估计部，

所述语素分析部进行所述输入的语言的语素分析而转换成语素串，

所述意图串估计部具有：

意图估计单位提取部，其将所述语素分析部转换后的语素串分割成部分语素，并提取估计所述意图的单位即意图估计单位；

意图估计部，其对构成所述意图估计单位提取部提取出的各意图估计单位的部分语素的意图进行估计；以及

意图共现权重计算部，其计算基于所述意图估计部估计出的意图间的关系的意图共现权重，

所述意图串估计部使用所述意图估计部估计出的1个或者多个意图生成与所述输入的语言相当的意图串，使用表示所生成的所述意图串的似然性的评分、和针对构成所生成的所述意图串的所述意图由所述意图共现权重计算部计算出的意图共现权重，生成与所述输入的语言对应的意图估计结果。

2.根据权利要求1所述的意图估计装置，其特征在于，

所述意图共现权重计算部参照根据所述意图间的关系性将该意图层次化而定义的意图层次图数据，使用对构成各层次的所述各意图定义的权重来计算所述意图共现权重。

3.根据权利要求2所述的意图估计装置，其特征在于，

所述意图层次图数据具有下位意图将上位意图进一步具体化的关系性，

所述意图共现权重计算部参照所述意图层次图数据，在构成所述意图串估计部生成的所述意图串的连续的2个意图存在共同的上位意图的情况下，使用对该上位意图定义的权重来计算所述意图共现权重。

4.根据权利要求2所述的意图估计装置，其特征在于，

所述意图共现权重计算部参照所述意图层次图数据，在构成所述意图串估计部生成的所述意图串的连续的2个意图存在上位与下位的关系的情况下，将预先设定的值作为所述意图共现权重。

5.根据权利要求1所述的意图估计装置，其特征在于，

该意图估计装置具有：

意图串转换表，其保持有根据构成所述意图串的连续的所述意图间的关系性对所述意图进行转换的意图串转换规则，

意图串转换部，其根据所述意图串转换规则，对构成所述意图串估计部生成的所述意图串的连续的所述意图中的、具有与所述意图串转换表中记载的意图串转换规则相符合的关系性的所述意图进行转换。

6.一种意图估计方法，根据用户的语言输入估计所述用户的意图，其特征在于，该意图估计方法具有如下步骤：

语素分析部进行所述输入的语言的语素分析而转换成语素串；

意图估计单位提取部将所述转换后的语素串分割成部分语素，并提取估计所述意图的单位即意图估计单位；

意图估计部对构成所述提取出的各意图估计单位的部分语素的意图进行估计；

意图共现权重计算部计算基于所述估计出的意图间的关系的意图共现权重；以及

意图串估计部使用所述估计出的1个或者多个意图生成与所述输入的语言相当的意图串，使用表示所生成的所述意图串的似然性的评分、和针对构成所生成的所述意图串的所述意图由所述意图共现权重计算部计算出的意图共现权重，生成与所述输入的语言对应的意图估计结果。