JP6275354B1

JP6275354B1 - 意図推定装置及び意図推定方法

Info

Publication number: JP6275354B1
Application number: JP2017548072A
Authority: JP
Inventors: ▲イ▼ 景; 石井　純; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2018-02-07
Anticipated expiration: 2036-03-30
Also published as: DE112016006512T5; JPWO2017168637A1; US20190005950A1; WO2017168637A1; CN108885618A

Abstract

補足情報推定部（１０８）は、意図推定部（１０６）における推定対象の単文で意図推定を失敗した単文があった場合、補足情報推定モデル記憶部（１０７）の補足情報推定モデルを用いて、この単文から補足情報を推定する。意図補足部（１０９）は、意図推定部（１０６）における推定対象の単文で不完全意図推定結果の単文があった場合、補足情報推定部（１０８）で推定された補足情報を用いて不完全意図推定結果を補足する。

Description

本発明は、音声やキーボードなどを用いて入力されたテキストを認識してユーザの意図を推定し、ユーザの意図する操作を実行するための意図推定装置及び意図推定方法に関するものである。

近年、人間の自由発話を認識し、その認識結果を用いて機械等の操作を実行する技術が知られている。この技術は、携帯電話やナビゲーション装置などの音声インタフェースとして利用され、入力音声の認識結果の意図を推定するものであり、多様な文例及び対応する意図から統計的手法を用いて学習した意図推定モデルを使用することにより、ユーザの多様な言い回しに対応できる。

このような技術においては、発話内容に含まれる意図が一つである場合には有効である。しかしながら、発話者により、複文のような複数の意図を含む発話が入力された場合に、正しく複数の意図を推定することは困難であった。例えば、「お腹が空いた、近くに何か店ある？」という発話では、「お腹が空く」という意図と、「周辺施設を検索」という二つの意図があり、上記の意図推定モデルの使用では、これら二つの意図を推定することは困難であった。
このような問題に対し、従来、例えば特許文献１では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。

特開２０００−２００２７３号公報

しかしながら、上記特許文献１に記載された技術では、分割点により複数の意図を推定した結果をそのまま出力するだけであって、適切な意図推定ができない場合の対応については示されていなかった。このため、例えば上記の例だと、“目的地設定”、“周辺検索”などカーナビ用の特定コマンド発話から作られた意図推定モデルでは、周辺の施設を検索など意図が推定できるが、「お腹が空いた」のような、コマンドではない自由な発話に対する意図推定は困難であった。従って、最終的にユーザの意図である“周辺のレストランを検索”ではなく、「周辺の店の検索」の意図が推定されてしまい、ユーザの意図を精度良く推定したとは言えないものであった。このため、その後は、店の種類についてまたユーザへの問いを行い、最終的にユーザの意図を推定するは一般的な対話方式となってしまうことになる。一方「お腹が空いた」のような自由な発話にも上記特許文献１に記載された手法で対応させようとした場合は、膨大な学習データを収集しなければならず、すべての自由な発話を対応させることは現実的には困難であった。

この発明は、かかる問題を解決するためになされたもので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することのできる意図推定装置及び意図推定方法を提供することを目的とする。

この発明に係る意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文がある場合、意図推定を失敗した単文から補足情報を推定する補足情報推定部と、意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足部とを備えたものである。

この発明に係る意図推定装置は、推定対象の単文で意図推定を失敗した単文があった場合はこの文から補足情報を推定し、推定対象の単文で不完全意図推定結果の単文があった場合は、推定された補足情報を用いて不完全意図推定結果を補足するようにしたものである。これにより、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。

実施の形態１に係る意図推定装置を示す構成図である。実施の形態１に係る意図推定モデルの一例を示す説明図である。実施の形態１に係る補足情報推定モデルの一例を示す説明図である。実施の形態１に係る意図推定装置のハードウェア構成例を示すブロック図である。実施の形態１に係る補足情報推定モデルの生成処理を説明するための構成例を示すブロック図である。実施の形態１に係る補足情報推定モデル学習用データの一例を示す説明図である。実施の形態１に係る補足情報推定モデルの生成処理を説明するためのフローチャートである。実施の形態１に係る対話例を示す説明図である。実施の形態１に係る意図補足処理を説明するためのフローチャートである。実施の形態１に係る各補足情報に対して各特徴量のスコアを示す説明図である。実施の形態１に係るスコアの積を求める計算式を示す説明図である。実施の形態１に係る各補足情報に対する最終スコアを示す説明図である。実施の形態１に係る意図補足処理の流れを示すフローチャートである。実施の形態２に係る意図推定装置の構成図である。実施の形態２に係る補足意図推定モデルの一例を示す説明図である。実施の形態２に係る補足意図推定モデルの生成処理を説明するための構成例を示すブロック図である。実施の形態２に係る補足意図推定モデル学習用データの例を示す説明図である。実施の形態２に係る補足意図推定モデルの生成処理を説明するためのフローチャートである実施の形態２に係る対話例を示す説明図である。実施の形態２に係る補足意図推定処理を説明するためのフローチャートである。実施の形態２に係る各補足意図に対する最終スコアを示す説明図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、本実施の形態による意図推定装置の構成図である。
図示のように、実施の形態１による意図推定装置は、音声入力部１０１と、音声認識部１０２と、形態素解析部１０３と、構文解析部１０４と、意図推定モデル記憶部１０５と、意図推定部１０６と、補足情報推定モデル記憶部１０７と、補足情報推定部１０８と、意図補足部１０９と、コマンド実行部１１０と、応答生成部１１１と、通知部１１２とを備える。

音声入力部１０１は、音声の入力を受け付けるための意図推定装置の入力部である。音声認識部１０２は、音声入力部１０１に入力された音声入力に対応する音声データを音声認識した上でテキストデータに変換し、形態素解析部１０３に出力する処理部である。以下の説明では、テキストデータは複数の意図が含まれる複文であるとする。複文は、複数の単文から構成され、一つの単文には一つの意図が含まれる。

形態素解析部１０３は、音声認識部１０２により変換されたテキストデータに対して形態素解析を行い、その結果を構文解析部１０４に出力する処理部である。ここで、形態素解析とは、テキストを形態素（言語で意味を持つ最小単位）に区切り、辞書を利用して品詞を付与する自然言語処理技術である。例えば、「東京タワーへ行く」という単文に対しては、「東京タワー/固有名詞、へ/格助詞、行く/動詞」のような形態素に区切られる。

構文解析部１０４は、形態素解析部１０３により形態素解析されたテキストデータに対して、文法規則によって文の構造を句や文節を単位として解析（構文解析）を行う処理部である。構文解析部１０４は、テキストデータに対応するテキストが複数の意図を含む複文である場合、複数の単文に分割して各単文の形態素解析結果を意図推定部１０６に出力する。構文解析手法として、例えば、ＣＹＫ（Ｃｏｃｋｅ−Ｙｏｕｎｇｅｒ−Ｋａｓａｍｉ）法等を用いることができる。

なお、ここでの説明では、テキスト（複文）は二つの単文１及び単文２を含むものとして説明を行うが、これに限るものではなく、三つ以上の単文から構成されていてもよい。なお、構文解析部１０４は、分割した全ての単文に対応するデータを意図推定部１０６に出力する必要はなく、例えば、入力されたテキスト（複文）に単文１、単文２及び単文３が含まれる場合であっても、単文１及び単文２のみを出力の対象としてもよい。

意図推定モデル記憶部１０５は、形態素を特徴として意図推定を行うための意図推定モデルの記憶部である。意図は、「＜主意図＞[＜スロット名＞＝＜スロット値＞、・・・]」のような形で表現することができる。ここで、主意図とは、意図の分類または機能を示すものである。ナビゲーション装置の例では、主意図とは、ユーザが最初に操作する上位層の機械コマンド（目的地設定、音楽を聞く等）に対応する。スロット名及びスロット値は、主意図を実行するために必要な情報を示す。例えば、「近くのレストランを検索する」という単文に含まれる意図は、「周辺検索[施設種類＝レストラン]」のように表すことができ、「近くの店を検索したい」という単文に含まれる意図は、「周辺検索[施設種類＝ＮＵＬＬ]」のように表現できる。この場合、周辺検索されるが、具体的な施設種類は決定されないため、ユーザに対してまた施設種類を尋ねることが必要となる。このようなスロットに具体値がない場合、本実施の形態では意図推定結果が不十分または不完全意図推定結果であるとする。なお、意図推定できない場合または意図推定失敗の場合とは、主意図が推定できない状態であることをいう。

図２は実施の形態１に係る意図推定モデルの一例を示す図である。図２に示すように、意図推定モデルは、「目的地設定[施設＝東京タワー]」や「周辺検索[施設種類＝レストラン]」等の意図に対する各形態素のスコアを表すものである。図２に示すように、形態素「行く」や「目的地」については、目的地設定を意図している可能性が高いので、意図「目的地設定[施設＝東京タワー]」のスコアが高くなる。一方で、形態素「美味」、「食事」については、周辺レストランの検索を意図している可能性が高いので、意図「周辺検索[施設種類＝レストラン]」のスコアが高くなる。なお、意図推定モデルとしては「周辺検索[施設種類＝ＮＵＬＬ]」といった具体的な施設種類が決定されていない意図（図２では図示省略）も含まれている。

意図推定部１０６は、構文解析部１０４から入力された複数の単文の形態素解析結果に基づき、意図推定モデルを使って複数の単文に含まれる意図をそれぞれ推定する処理部であり、その結果を補足情報推定部１０８、意図補足部１０９及びコマンド実行部１１０に出力するよう構成されている。ここで、意図推定の方式としては、例えば最大エントロピ法が利用できる。つまり、意図推定部１０６は、統計的手法を利用して、予め大量に収集した形態素と意図の組から、入力された形態素に対応する意図がどれだけ尤もらしいかを推定する。

補足情報推定モデル記憶部１０７は、単文と補足情報との関係を示す補足情報推定モデルの記憶部である。すなわち、この補足情報推定モデルは、意図推定失敗した単文の形態素から補足情報の推定を行うための補足情報である。補足情報は「＜スロット名＞＝＜スロット値＞」のような形で表現することができる。

図３は実施の形態１に係る補足情報推定モデルの一例を示す図である。図３に示すように、意図推定できなかった単文の形態素を特徴量として、補足情報（スロット内容）の関連性を示すモデルである。図３の例として「ルート種類=渋滞回避」や「施設種類=レストラン」等の補足情報に対する各形態素のスコアを表すものである。図３に示すように、形態素「道」や「混む」については、渋滞回避を意図している可能性が高いので、補足情報「ルート種類=渋滞回避」のスコアが高くなる。一方で、形態素「お腹」、「空く」については、食事したい意図のスロットを推定する可能性が高いので、補足情報「施設種類=レストラン」のスコアが高くなる。

補足情報推定部１０８は、意図推定不十分な単文に対して、意図推定できなかった単文の形態素を用い、補足情報推定モデル記憶部１０７に記憶されている補足情報推定モデルを参照して、補足情報を推定する処理部である。例えば、“お腹が空いた、周辺の店を探す”というテキストが入力されると、単文２は意図推定不十分のため、単文１「お腹が空いた」の形態素「お腹、が、空く、た」から補足情報を推定する。結果、「施設種類=レストラン」の補足情報が推定できる。推定した補足情報は意図補足部１０９に出力される。なお、推定アルゴリズムの詳細については後述する。

なお、ここでの説明では、意図推定失敗した単文のすべての形態素を補足情報推定で使用するが、これに限るものではなく、「助詞以外の形態素を使用」のように明確な規則を決めて特徴量を選択する、あるいは統計的な手法を用いて補足情報推定に効果が高い形態素のみの使用するようにしてもよい。

意図補足部１０９は、補足情報推定部１０８から得た補足情報及び意図推定不十分（スロット値がない状態）の意図を用いて意図を補足する処理部である。例えば、意図「周辺検索［施設種類＝ＮＵＬＬ］」に対して補足情報が［施設種類＝レストラン］を得た場合、スロット名の「施設種類」が一致するため、スロット値の“レストラン”をスロット名“施設種類”に埋め、「周辺検索［施設種類＝レストラン］」の意図を得る。補足した意図をコマンド実行部１１０に渡す。

コマンド実行部１１０は、意図推定部１０６により推定された複数の単文に含まれるそれぞれの意図と、意図補足部１０９により補足した意図に基づき、複数の単文それぞれに含まれる意図に対応する機械コマンド（操作）を実行する処理部である。例えば、“お腹が空いた、店を探して”の発話に対して、「周辺検索「施設種類=[レストラン]」」の意図により、周辺のレストランを検索するという動作を実行する。

応答生成部１１１は、コマンド実行部１１０により実行された機械コマンドに対応する応答を生成する処理部である。応答については、テキストデータの形式で生成してもよいし、音声データとして合成音を生成してもよい。音声データを生成する場合、例えば、「周辺のレストランを検索しました。リストから選択してください」のような合成音であればよい。

通知部１１２は、応答生成部１１１で生成された応答を、車両のドライバ等のユーザに通知するための処理部である。つまり、通知部１１２は、コマンド実行部１１０により複数の機械コマンドが実行されたことをユーザに通知する機能を有している。なお、通知の態様については、表示による通知、音声による通知、または振動による通知等、ユーザが通知を認識できるものであれば何でもよい。

次に、意図推定装置のハードウェア構成について説明する。
図４は実施の形態１に係る意図推定装置のハードウェア構成例を示す図である。意図推定装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の処理装置（Ｐｒｏｃｅｓｓｏｒ）１５０と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やハードディスク装置等の記憶装置（Ｍｅｍｏｒｙ）１６０と、キーボードやマイク等の入力装置１７０と、スピーカやディスプレイ等の出力装置１８０とがバス接続された構成となっている。なお、ＣＰＵは、自身にメモリを備えていてもよい。

図１に示す音声入力部１０１は、入力装置１７０により実現され、通知部１１２は出力装置１８０により実現される。
意図推定モデル記憶部１０５、補足情報推定モデル記憶部１０７、後述する学習用データ記憶部１１３に記憶されるデータ等はそれぞれ記憶装置１６０に記憶される。また、音声認識部１０２、形態素解析部１０３、構文解析部１０４、意図推定部１０６、補足情報推定部１０８、意図補足部１０９、コマンド実行部１１０、応答生成部１１１等の「〜部」についても、プログラムとして記憶装置１６０に記憶される。

処理装置１５０は、記憶装置１６０に記憶されるプログラムを適宜読みだして実行することにより、上記「〜部」における機能を実現する。つまり、処理装置１５０であるハードウェアと上記プログラムであるソフトウェアとを組み合わせることにより、上記「〜部」の機能を実現する。また、図４の例では一つの処理装置１５０により機能を実現する構成となっているが、例えば一部機能を外部のサーバ内にある処理装置で担う等して、複数の処理装置を用いて機能を実現してもよい。そのため、処理装置１５０とは、一つの処理装置で構成されるだけでなく、複数の処理装置をも含む概念である。なお、これら「〜部」の機能は、ハードウェアとソフトウェアとの組み合わせに限らず、処理装置１５０に上記プログラムをインプリメントし、いわゆるシステムＬＳＩのように、ハードウェア単体で実現するようにしてもよい。このようなハードウェアとソフトウェアの組み合わせ、及び、ハードウェア単体の両者を含めた上位の概念として、プロセッサ回路（ＰｒｏｃｅｓｓｉｎｇＣｉｒｃｕｉｔｒｙ）と表現してもよい。

次に、実施の形態１に係る意図推定装置の動作について説明する。まず、補足情報推定モデル記憶部１０７に記憶される補足情報推定モデルの生成処理について説明する。

図５は実施の形態１に係る補足情報推定モデルの生成処理を行うための構成例の説明図である。図５において、学習用データ記憶部１１３は、複数の文例に対して補足情報を対応付けた学習用データを記憶するための記憶部である。

図６は実施の形態１に係る学習用データの一例を示す説明図である。図６に示すように、学習用データは、意図推定失敗した単文の文例に対して補足情報が付与されたデータである。例えば、文例Ｎｏ．１の「お腹が空いた」については、補足情報「施設種類=レストラン」が付与される。この補足情報は予め人手で付与される。

図５に戻って、補足情報推定モデル生成部１１４は、学習用データ記憶部１１３に記憶された補足情報の対応関係を統計的な手法で学習するための処理部である。補足情報推定モデル生成部１１４は、形態素解析部１０３で抽出された形態素を用いて、補足情報推定モデルを生成する。

図７は実施の形態１に係る補足情報推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部１０３が、学習用データ記憶部１１３に記憶される学習用データの各文例に対し、形態素解析を行う（ステップＳＴ１）。例えば、文例Ｎｏ．１について言えば、形態素解析部１０３は「お腹が空いた」に対して形態素解析を行う。形態素解析部１０３は、形態素解析した結果を、補足情報推定モデル生成部１１４に出力する。

補足情報推定モデル生成部１１４は、形態素解析部１０３で解析した形態素を用い、学習用データに含まれる補足情報に基づいて、補足情報推定モデルを生成する（ステップＳＴ２）。補足情報推定モデル生成部１１４は、例えば、形態素「お腹」と「空く」の場合、学習用データに含まれる補足情報は図６に示すように「施設種類＝レストラン」であるので、スコアが高いと判断する。補足情報推定モデル生成部１１４は、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図３に示すような補足情報推定モデルを生成する。

次に、補足情報推定モデルを用いた意図補足処理に関する動作について説明する。
図８は実施の形態１に係る対話例を示す図である。図９は実施の形態１に係る意図補足処理を説明するためのフローチャートである。

まず、図８に示すように、意図推定装置の通知部１１２が「ピッと鳴ったらお話ください」と発話する（Ｓ１）。それに対し、ユーザが「○○へ行きたい。」と発話する（Ｕ１）。なお、ここでは意図推定装置からの発話を「Ｓ」と表し、ユーザからの発話を「Ｕ」と表す。ＵまたはＳに続く番号は、それぞれの発話順序を示している。

図９において、Ｕ１で示すようにユーザが発話すると、音声認識部１０２がユーザ入力に対して音声認識処理を行い（ステップＳＴ１０１）、テキストデータに変換する。形態素解析部１０３は、変換されたテキストデータに対し、形態素解析処理を行う（ステップＳＴ１０２）。構文解析部１０４は、形態素解析されたテキストデータに対し構文解析処理を実施し（ステップＳＴ１０３）、当該テキストデータが複文である場合、当該複文を複数の単文に分割する。テキストデータが複文でない場合は（ステップＳＴ１０４−ＮＯ）、ステップＳＴ１０５以降の処理に移り、テキストデータが複文である場合は（ステップＳＴ１０４−ＹＥＳ）、ステップＳＴ１０６以降の処理に移る。

Ｕ１の入力例は単文であるため、ステップＳＴ１０４の判断結果は「ＮＯ」であり、ステップＳＴ１０５に移る。そのため、構文解析部１０４は、形態素解析された単文のテキストデータを意図推定部１０６に出力する。意図推定部１０６は、意図推定モデルを利用して、入力された単文に対し意図推定処理を実行する（ステップＳＴ１０５）。ここでは、「目的地設定［施設＝○○］」のように意図を推定する。

コマンド実行部１１０は、意図推定部１０６による意図推定結果に対応する機械コマンドを実行する（ステップＳＴ１０８）。例えば、コマンド実行部１１０は、施設○○を目的地に設定するという操作を実行する。同時に、応答生成部１１１は、コマンド実行部１１０により実行された機械コマンドに対応する合成音を生成する。合成音としては、例えば、「○○を目的地に設定しました。」となる。通知部１１２は、応答生成部１１１で生成された合成音を、スピーカ等によりユーザに通知する（ステップＳＴ１０６）。その結果、図８の「Ｓ２」に示すように、「○○を目的地にしました。」のような通知をユーザに行う。

次に、図８において、ユーザが「Ｕ２」に示すように「お腹が空いた、ルート周辺の店を探して」と発話した場合について説明する。
図９において、ユーザが「Ｕ２」に示すように発話すると、音声認識部１０２がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部１０３がテキストデータに対して形態素解析処理を行う（ステップＳＴ１０１、ＳＴ１０２）。次に、構文解析部１０４がテキストデータに対して構文解析処理を行う（ステップＳＴ１０３）。ここで、ユーザ入力に関するテキストデータは、単文１の「お腹が空いた」と、単文２の「ルート周辺の店を探して」のように、複数の単文に分割される。従って、ステップＳＴ１０４の判断結果は「ＹＥＳ」であり、ステップＳＴ１０６以降の処理に移る。

意図推定部１０６は、意図推定モデルを利用し、単文１及び単文２に対して、それぞれ意図推定処理を実施する（ステップＳＴ１０６）。ここでの例では、意図推定部１０６は、単文１に対して意図推定できない、という意図推定結果を、また、単文２に対しては「周辺検索［施設種類＝ＮＵＬＬ］」の意図推定結果を得る。すなわち、単文１は主意図が推定できない状態であり、単文２は「周辺検索[施設種類＝ＮＵＬＬ]」が尤もらしいと判断する。

意図推定部１０６の意図推定結果で、複文の意図推定結果として、意図推定不十分な結果があり且つ意図推定できなかった結果がある場合（ステップＳＴ１０７−ＹＥＳ）はステップＳＴ１０９以降の処理に移り、それ以外の場合（ステップＳＴ１０７−ＮＯ）はステップＳＴ１０８の処理に移る。

意図推定部１０６から、単文１が意図推定失敗、単文２は不完全意図推定結果「周辺検索［施設種類＝ＮＵＬＬ］」を得たため、ここではステップＳＴ１０９に移る。そのため、単文１の形態素解析結果を補足情報推定部１０８に渡し、補足情報推定を行う（ステップＳＴ１０９）。以下、補足情報推定処理について詳細を説明する。

まず、補足情報推定部１０８は、単文１の形態素と補足情報推定モデルを照合し、各補足情報に対する各形態素のスコアを求める。

図１０は実施の形態１に係る各補足情報に対する各形態素のスコアを示す図である。図１０に示すように、補足情報「ルート種類＝渋滞回避」に対しては、特徴量「お腹」のスコアは０．０１となり、特徴量「が」のスコアは０．０１となり、特徴量「空く」のスコアは０．１５となり、特徴量「た」のスコアは０．０１となる。他の補足情報についても、同様に、各特徴量のスコアが求まる。

図１１は実施の形態１に係るスコアの積を求める計算式を示す図である。図１１において、Ｓｉは、推定対象の補足情報に対するｉ番目の形態素のスコアである。Ｓは、推定対象の補足情報に対するＳｉの積を表す最終スコアである。

図１２は実施の形態１に係る各補足情報に対する最終スコアを示す図である。補足情報推定部１０８は、図１１に示す計算式を用いて、図１２に示す最終スコアを算出する。ここでの例では、補足情報「ルート種類＝渋滞回避」に対しては、特徴量「お腹」のスコアは０．０１となり、特徴量「が」のスコアは０．０１となり、特徴量「空く」のスコアは０．１５となり、特徴量「た」のスコアは０．０１となるので、これらの積である最終スコアＳは１．５ｅ−７と算出される。同様に、他の補足情報についても、それぞれ最終スコアが算出される。

補足情報推定部１０８は、算出した推定対象となる各補足情報の最終スコアのうち、最もスコアが高い補足情報「施設種類＝レストラン」を適切な補足情報として推定する。つまり、補足情報推定部１０８は、補足情報推定モデルに含まれる複数の形態素のスコアに基づき、補足情報を推定するものであり、さらに言うと、複数の形態素のスコアの積により得られた最終スコアに基づき補足情報を推定する。推定された補足情報「施設種類＝レストラン」を意図補足部１０９に渡す。なお、補足情報の推定を行う方法としては、複数の形態素のスコアの積を用いる他に、例えば、複数の形態素のスコアの和をとり、その値（最終スコア）が最も高い補足情報を選択するようにしてもよい。

図９に戻って、意図補足部１０９では補足情報推定部１０８で推定された結果を用いて意図の補足処理を行う（ステップＳＴ１１０）。図１３に意図補足処理の流れを示す。すなわち、意図補足部１０９は、補足情報推定部１０８で推定された結果である「施設種類＝レストラン」を用いて、意図推定部１０６で得た意図推定結果「周辺検索［施設種類＝ＮＵＬＬ］」のスロット名と比較する（ステップＳＴ１１０ａ）。スロット名が一致する場合は（ステップＳＴ１１０ａ−ＹＥＳ）、補足情報のスロット値を意図推定結果「ＮＵＬＬ」のところに埋め（ステップＳＴ１１０ｂ）、スロット名が一致しない場合は（ステップＳＴ１１０ａ−ＮＯ）、意図推定部１０６で得た意図推定結果「周辺検索［施設種類＝ＮＵＬＬ］」をそのままコマンド実行部１１０に渡す。ここの例では、補足情報のスロット名「施設種類」と不完全意図のスロット名が一致し、スロット値を埋め、「周辺検索［施設種類＝レストラン］」のような完全な意図を得る。当意図をコマンド実行部１１０に渡す。なお、ステップＳＴ１１０ｂにおいて、スコアが予め設定した閾値以上の場合にのみスロット値を埋めるようにしてもよい。

コマンド実行部１１０は、意図補足部１０９による補足した意図に対応する機械コマンドを実行する（ステップＳＴ１０９）。例えば、コマンド実行部１１０は、周辺のレストランを検索し、周辺レストランの一覧をリストに表示する。そして、応答生成部１１１は、コマンド実行部１１０により実行された機械コマンドに対応する合成音を生成する（ステップＳＴ１０９）。合成音としては、例えば、「ルート周辺のレストランを検索しました、リストから選んでください」となる。通知部１１２は、応答生成部１１１で生成された合成音を、スピーカ等によりユーザに通知する。その結果、図８の「Ｓ３」に示すように、「ルート周辺のレストランを検索しました、リストから選んでください。」のような通知をユーザに行う。

このように、実施の形態１では、構文解析部１０４が入力された複文を複数の単文に分割し、各単文に対して意図推定し、意図推定失敗した単文から補足情報を推定する。そして、補足情報を用いて意図推定結果が不十分の単文の意図を補足する。このように動作することにより、ユーザの意図を正確に推定することができる。

また、コマンド実行部１１０が、意図補足部１０９により補足された意図に基づき、対応する機械コマンドを実行するので、ユーザによる操作負担を軽減することが可能となる。すなわち、従来より対話回数の削減を実現できる。

なお、ここまでの説明では、煩雑さを避けるため、意図のスロットが一つの場合を説明したが、複数のスロットを持つ意図に対しても、スロット名の照合により対応可能である。また、意図推定失敗の単文が複数である場合、補足情報推定時の最終スコアにより一番高いスコアを持つ補足情報を選択及びスロット名の照合により適切な補足情報を選択することも可能である。

以上説明したように、実施の形態１の意図推定装置によれば、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文がある場合、意図推定を失敗した単文から補足情報を推定する補足情報推定部と、意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足部とを備えたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。

また、実施の形態１の意図推定装置によれば、単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、補足情報推定部は補足情報推定モデルを用いて補足情報の推定を行うようにしたので、効率よく補足情報を推定することができる。

また、実施の形態１の意図推定装置によれば、補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、補足情報推定部は、意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、スコアの積により得られた最終スコアに基づき補足情報の推定を行うようにしたので、精度の高い補足情報の推定を行うことができる。

また、実施の形態１の意図推定装置によれば、不完全意図推定結果はスロット名とスロット値の組合せでスロット値が無い状態で表すと共に、補足情報はスロット名とスロット値で表し、意図補足部は、推定された補足情報のスロット名が不完全意図推定結果のスロット名と一致した場合、推定された補足情報のスロット値を不完全意図推定結果のスロット値とするようにしたので、不完全意図推定結果に対して確実に意図の補足を行うことができる。

また、実施の形態１の意図推定装置によれば、複数の意図が含まれる音声の入力を受け付ける音声入力部と、音声入力部に入力された音声に対応する音声データを認識し、複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、形態素解析部は、音声認識部から出力されたテキストデータに対して形態素解析を行うようにしたので、音声入力に対してもユーザの意図を精度良く推定することができる。

また、実施の形態１の意図推定方法によれば、実施の形態１の意図推定装置を用い、複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、形態素解析された複文を構文解析して複数の単文に分割する構文解析ステップと、複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足ステップとを実行するようにしたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。

実施の形態２．
実施の形態２は、装置で記録した状態の履歴、正しく推定された意図及び意図推定失敗した単文の形態素を用いて、意図推定失敗した意図に対する補足意図推定を行う例である。

図１４は、実施の形態２の意図推定装置を示す構成図である。実施の形態２の意図推定装置は、実施の形態１における補足情報推定モデル記憶部１０７、補足情報推定部１０８、意図補足部１０９の代わりに、状態履歴記憶部１１５、補足意図推定モデル記憶部１１６、補足意図推定部１１７を備えたものである。他の構成については、図１に示した実施の形態１と同様であるので、対応する部分に同一符号を付してその説明を省略する。

状態履歴記憶部１１５は、現在までの意図の履歴に基づく意図推定装置の現在の状態を状態履歴として保持する記憶部である。この状態履歴としては、例えば意図推定装置がカーナビ装置に適用されている場合は、ルート設定状態の「目的地設定済」、「経由地あり」などである。

補足意図推定モデル記憶部１１６は、後述する補足意図推定モデルを保持するための記憶部である。補足意図推定部１１７は、意図推定部１０６で意図推定できた単文の意図推定結果と、意図推定失敗した単文の形態素と、状態履歴記憶部１１５に記憶されている状態履歴とを特徴量として、意図推定失敗した単文の補足意図を推定する処理部である。

また、実施の形態２における意図推定装置のハードウェア構成については、実施の形態１の図４で示した構成で実現される。ここで、状態履歴記憶部１１５、補足意図推定モデル記憶部１１６は記憶装置１６０上に実現され、補足意図推定部１１７は、プログラムとして記憶装置１６０に記憶される。

図１５は実施の形態２に係る補足意図推定モデルの一例を示す図である。図示のように、補足意図推定モデルは、各補足意図と、複数の単文形態素、状態履歴情報、推定できた意図それぞれに含まれる特徴量のスコアとが対応づけられたデータである。図１５において、「お腹」「空く」は形態素特徴である。「経由地なし」「経由地あり」は状態履歴情報特徴である。「周辺検索［施設種類＝レストラン］」「目的地設定［施設＝家］」は意図特徴である。図１５に示すように、形態素「お腹」や「空く」、意図特徴「周辺検索［施設種類＝レストラン］」については、レストランを探す可能性が高いので、補足意図「経由地設定［施設種類＝レストラン］」のスコアが高くなる。また、経由地設定するため、状態情報特徴「経由地なし」の方が「経由地あり」よりもスコアが高くなる。一方、「経由地あり」は、補足意図「経由地削除［］」に対して推定する可能性が高いので、「経由地なし」よりもスコアが高くなる。

次に、実施の形態２に係る意図推定装置の動作について説明する。先ず、補足意図推定モデルの生成処理の動作について説明する。

図１６は、実施の形態２に係る意図補足モデルの生成処理を説明するための構成を示す説明図である。図１６において、学習用データ記憶部１１３ａは、複数の文例、意図、状態履歴情報に対して補足意図結果と対応関係で学習用データを記憶するための記憶部である。

図１７は、実施の形態２に係る補足意図推定モデル学習用データの一例を示す説明図である。図１７に示すように、学習用データは、意図推定できない単文の文例、状態履歴情報、意図推定結果に対して補足意図推定結果が付与されたデータである。例えば、文例Ｎｏ．１の「お腹が空いた」「目的地設定［施設＝家］」「経由地あり」については、補足意図「経由地削除［］」が付与される。この補足意図は予め人手で付与される。

図１６に戻って、補足意図推定モデル生成部１１８は、学習用データ記憶部１１３ａに記憶される補足意図情報の対応関係を統計的な手法で学習する処理部である。補足意図推定モデル生成部１１８は、形態素解析部１０３で抽出された形態素と、学習用データに含まれている状態履歴情報と補足意図とを用いて補足意図推定モデルを生成する。

図１８は実施の形態２に係る補足意図推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部１０３が、学習用データ記憶部１１３ａに記憶される学習用データの各文例における形態素解析を行う（ステップＳＴ２０１）。この形態素解析は実施の形態１におけるステップＳＴ１と同様の処理のため、その説明は省略する。

補足意図推定モデル生成部１１８は、形態素解析部１０３で解析した形態素と、学習データとして設定されている状態履歴及び補足意図とを合わせて、補足意図推定モデルを生成する（ステップＳＴ２０２）。補足意図推定モデル生成部１１８は、例えば、形態素「お腹」と「空く」の場合、意図推定できた単文の意図推定結果「目的地設定［施設＝家］」及び状態履歴情報「経由地あり」に対して、学習用データに含まれる補足意図は図１７に示すように「経由地削除［］」であるので、スコアが高いと判断する。補足意図推定モデル生成部１１８は、学習用データに含まれる全ての文例、状態履歴情報、学習用意図に対して上記と同様の処理を行い、最終的に図１５に示すような補足意図推定モデルを生成する。

なお、ここでの説明では、意図推定失敗した単文のすべての形態素と、状態履歴記憶部１１５で記録した状態履歴と、意図推定できた単文の意図推定結果とを特徴量として補足意図推定で使用する例を説明したが、これに限るものではなく、「助詞以外の形態素を使用」あるいは「特定な状態履歴に対して意図特徴は使わない」のように明確な規則を決めて特徴量を選択する、あるいは統計的な手法を用いて補足意図推定に効果が高い形態素のみを使用するようにしてもよい。

次に、補足意図推定モデルを用いた補足意図推定処理について説明する。
図１９は実施の形態２に係る対話例を示す図である。図１９に示すように、状態履歴記憶部１１５では「経由地設定あり」という情報を記録しているものとする。以下、図２０のフローチャートを用いて、補足意図推定処理を説明する。

図１９に示すように、意図推定装置の通知部１１２が「ピッと鳴ったらお話ください」と発話する（Ｓ１１）。それに対し、ユーザが「お腹が空いた、すぐ家に帰って」と発話する（Ｕ１１）。

先ず、音声認識部１０２がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部１０３がテキストデータに対して形態素解析処理を行う（ステップＳＴ２０１、ＳＴ２０２）。次に、構文解析部１０４がテキストデータに対して構文解析処理を行う（ステップＳＴ２０３）。ここで、ユーザ入力に関するテキストデータは、単文１「お腹が空いた」と、単文２「すぐ家に帰って」のように、複数の単文に分割される。構文解析部１０４は形態素解析された各単文のテキストデータを意図推定部１０６へ出力し、ステップＳＴ２０４〜ステップＳＴ２０６の処理がなされることになる。ステップＳＴ２０５以降の処理については、実施の形態１におけるステップＳＴ１０５以降の処理と同様のため、これらの説明は省略する。

意図推定部１０６は、意図推定モデルを利用し、単文１及び単文２に対して、それぞれ意図推定処理を実施する（ステップＳＴ２０６）。ここでの例では、意図推定部１０６は、単文１に対しては意図推定できなかったが、単文２に対して「目的地設定［施設＝家］」の意図を推定する。

意図推定部１０６の結果によると、意図推定失敗した単文と意図推定できた単文が存在するため（ステップＳＴ２０７−ＹＥＳ）、ステップＳＴ２０９以後の処理を行う。
補足意図推定部１１７は、意図推定部１０６により推定された単文の意図「目的地設定［施設＝家］」、形態素解析部１０３から得た意図推定できなかった単文の形態素「お腹」「が」「空く」「た」と、状態履歴記憶部１１５で記憶した状態履歴「経由地あり」とを特徴量として用い、補足意図推定モデルと照らし合わせて、各補足意図に対する特徴量のスコアを求める（ステップＳＴ２０９）。そして、補足意図推定部１１７は、図１１に示す計算式を用いて、各補足意図における特徴量のスコアの積を求める。つまり、補足意図推定部１１７は、複数の特徴量のスコアにより得られた最終スコアに基づき、適切な補足意図を推定する。

図２１は実施の形態２に係る各実行順序に対する最終スコアを示す図である。ここでの例では、補足意図「経由地追加［レストラン］」については、特徴量「お腹」のスコアは０．２で、特徴量「が」のスコアは０．０１で、特徴量「空く」のスコアは０．１５で、特徴量「た」のスコアは０．０１で、状態履歴特徴「経由地設定あり」のスコアは０．０１で、意図特徴「目的地設定［施設＝家］」のスコアは０．０５となるので、これらの積である最終スコアＳは１．５ｅ−９と算出される。同様に、他の補足意図についても、それぞれ最終スコアが算出される。

補足意図推定部１１７は、算出した推定対象となる各補足意図の最終スコアのうち、最もスコアが高い補足意図「経由地削除［］」を適切な意図として推定する。

図２０に戻って、コマンド実行部１１０は、意図推定部１０６により推定された複数の単文に含まれるそれぞれの意図と、補足意図推定部１１７により推定された複数の単文の複数意図に基づき、複数の意図それぞれに対応する機械コマンドを実行する（ステップＳＴ２０８）。

ここでの例では、意図推定部１０６により、単文２に対して「目的地設定［施設＝家］」の意図が推定される。また、補足意図推定部１１７により、単文１に対して「経由地削除［］」の意図が推定される。そのため、コマンド実行部１１０は、経由地を削除すること及び目的地を家に設定することを実行する。

応答生成部１１１は、図１９のＳ１２に示すように、コマンド実行部１１０により実行された機械コマンドに対応する合成音「経由地を削除しました。家を目的地に設定しました」を生成し、通知部１１２によりユーザに当該合成音が通知される（ステップＳＴ２０８）。

以上説明したように、実施の形態２の意図推定装置によれば、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、意図推定部で意図推定できた単文の意図推定結果と、意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。

また、実施の形態２の意図推定装置によれば、状態履歴を記録する状態履歴記憶部を備え、補足意図推定部は、状態履歴記憶部に記憶された状態履歴を用いて補足意図推定を行うようにしたので、状態履歴を反映した意図推定を行うことができる。

また、実施の形態２の意図推定装置によれば、意図推定を失敗した単文の形態素と、意図推定できた単文の意図推定結果と、状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、補足意図推定部は、補足意図推定モデルを用いて補足意図推定を行うようにしたので、精度の高い補足意図の推定を行うことができる。

また、実施の形態２の意図推定装置によれば、補足意図推定部は、意図推定を失敗した単文に対応した特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき意図推定を失敗した単文の補足意図推定を行うようにしたので、意図推定を失敗した単文に対して確実に補足意図推定を行うことができる。

また、実施の形態２の意図推定装置によれば、実施の形態２の意図推定装置を用い、複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、形態素解析された複文を構文解析して複数の単文に分割する構文解析ステップと、複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、意図推定ステップで意図推定できた単文の意図推定結果と、意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行するようにしたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。

なお、実施の形態１及び実施の形態２では、意図推定装置として１台の装置で実現される例を説明したが、これに限定されるものではなく、一部の機能を他の装置で実行されるようにしてもよい。例えば、一部の機能を、外部に設けられたサーバ等により実行するようにしてもよい。

また、実施の形態１及び実施の形態２では意図推定を行う対象言語を日本語としたが、多言語にも対応可能である。

さらに、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

以上のように、この発明に係る意図推定装置は、音声やキーボードなどを用いて入力されたテキストを認識してユーザの意図を推定し、ユーザの意図する操作を実行するための意図推定の構成に関するものであり、携帯電話やナビゲーション装置などの音声インタフェースとして用いるのに適している。

１０１音声入力部、１０２音声認識部、１０３形態素解析部、１０４構文解析部、１０５意図推定モデル記憶部、１０６意図推定部、１０７補足情報推定モデル記憶部、１０８補足情報推定部、１０９意図補足部、１１０コマンド実行部、１１１応答生成部、１１２通知部、１１３学習用データ記憶部、１１４補足情報推定モデル生成部、１１５状態履歴記憶部、１１６補足意図推定モデル記憶部、１１７補足意図推定部。

Claims

複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定部と、
前記意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足部とを備えたことを特徴とする意図推定装置。
単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、
前記補足情報推定部は前記補足情報推定モデルを用いて前記補足情報の推定を行うことを特徴とする請求項１記載の意図推定装置。
前記補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、
前記補足情報推定部は、前記意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、当該スコアの積により得られた最終スコアに基づき前記補足情報の推定を行うことを特徴とする請求項２記載の意図推定装置。
前記不完全意図推定結果はスロット名とスロット値の組合せで前記スロット値が無い状態で表すと共に、前記補足情報はスロット名とスロット値で表し、
前記意図補足部は、前記推定された補足情報のスロット名が前記不完全意図推定結果のスロット名と一致した場合、前記推定された補足情報のスロット値を前記不完全意図推定結果のスロット値とすることを特徴とする請求項２に記載の意図推定装置。
複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定部で意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたことを特徴とする意図推定装置。
前記状態履歴を記録する状態履歴記憶部を備え、
前記補足意図推定部は、前記状態履歴記憶部に記憶された状態履歴を用いて前記補足意図推定を行うことを特徴とする請求項５記載の意図推定装置。
前記意図推定を失敗した単文の形態素と、前記意図推定できた単文の意図推定結果と、前記状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、
前記補足意図推定部は、前記補足意図推定モデルを用いて前記補足意図推定を行うことを特徴とする請求項５記載の意図推定装置。
前記補足意図推定部は、前記意図推定を失敗した単文に対応した前記特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき前記意図推定を失敗した単文の補足意図推定を行うことを特徴とする請求項７記載の意図推定装置。
複数の意図が含まれる音声の入力を受け付ける音声入力部と、
前記音声入力部に入力された前記音声に対応する音声データを認識し、前記複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、
前記形態素解析部は、前記音声認識部から出力されたテキストデータに対して形態素解析を行うことを特徴とする請求項１記載の意図推定装置。
請求項１の意図推定装置を用い、
複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、
前記意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足ステップとを実行することを特徴とする意図推定方法。
請求項５に記載の意図推定装置を用い、
複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定ステップで意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく前記意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行することを特徴とする意図推定方法。