WO2016151700A1

WO2016151700A1 - 意図理解装置、方法およびプログラム

Info

Publication number: WO2016151700A1
Application number: PCT/JP2015/058565
Authority: WO
Inventors: 裕美若木; 憲治岩田; 昌之岡本
Original assignee: 株式会社東芝
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2016-09-29
Also published as: US20170162190A1; JP6310150B2; US10360903B2; JPWO2016151700A1

Abstract

　本実施形態に係る意図理解装置は、第１格納部、第１取得部、第２取得部、第１解析部および理解部を含む。第１格納部は、予め想定される状況に関する第１状況情報と、ユーザからの入力として想定される文の意味を表す第１意味表現と、推定すべき意図を示す意図情報と、該第１意味表現が該第１状況情報および該意図情報に対して該当する度合いを表す第１値とを対応付けて格納する．第１取得部は、自然文を取得する。第２取得部は、前記自然文を取得するときの状況に関する第２状況情報を取得する。第１解析部は、前記自然文を解析し、該自然文の意味を表す第２意味表現を生成する。理解部は、前記第１格納部から、前記第２状況情報と前記第２意味表現とに対応する第１状況情報と第１意味表現とに対応づく前記第１値から推定値を得る。

Description

意図理解装置、方法およびプログラム

　本発明の実施形態は、意図理解装置、方法およびプログラムに関する。

　近年、様々な対話システムが存在する。対話システムの処理としては、ユーザ発話を言語解析して発話理解を行い、発話理解の結果を用いて対話制御するのが一般的である。しかし、ユーザ発話は状況に応じて表現が変わることがあるため、言語解析だけでは発言の意図が分からない可能性がある。よって、発話された状況を考慮して発話の意図を推定する必要がある。

　従来技術としては、ユーザ発話として、特定の発話であるコマンドの認識結果である意図候補に対して、情報端末の周囲の環境情報（位置情報、交通状況、路面の状況など）に基づいて選択する手法がある。コマンド認識結果の認識率が低い場合は、環境情報のみから意図を推定し、コマンド認識結果の認識率が十分である場合は、環境情報およびコマンド認識結果から意図を推定する。

特開２００６－３１７５７３号公報

　しかし、上述した従来技術では、ユーザ発話としてコマンド認識結果のみを想定している。よって、ユーザ発話のバリエーションが限定的となるので、ユーザの意図に関する条件付き確率Ｐ（意図｜発話、状況）の確率表を予め用意することができる。しかし、ユーザ発話として話し言葉である自然文を想定する場合は、自然文のバリエーションが膨大であるため上述の確率表を用意することができず、結果として、推定したいユーザの意図を、システムが想定する意図の範囲に限定できない。よって、ユーザ発話の意図を理解ができないという問題がある。

　本開示は、上述の課題を解決するためになされたものであり、ユーザの自由な発話に対して意図を理解することができる意図理解装置、方法およびプログラムを提供することを目的とする。

第１の実施形態に係る意図理解装置を示すブロック図。自然文解析部の意味解析処理を示すフローチャート。第１知識データベースに格納されるテーブルを示す図。第１知識データベースに格納されるテーブルを示す図。第１知識データベースに格納されるテーブルを示す図。第２知識データベースに格納されるテーブルを示す図。意図理解部の処理を示すフローチャート。意味表現に含まれる発話行為に関するテーブルを示す図。状況情報をベクトル形式で与えられる場合の一例を示す図。第２の実施形態に係る意図理解装置を示すブロック図。第３の実施形態に係る意図理解装置を示すブロック図。

　以下、図面を参照しながら本実施形態に係る意図理解装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

　（第１の実施形態）　
　第１の実施形態に係る意図理解装置について図１のブロック図を参照して説明する。　
　第１の実施形態に係る意図理解装置１００は、自然文取得部１０１（第１取得部ともいう）、自然文解析部１０２（第１解析部ともいう）、状況取得部１０３（第２取得部ともいう）、第１知識データベース１０４（第１格納部ともいう）、第２知識データベース１０５（第２格納部ともいう）、意図理解部１０６および出力部１０７を含む。

　自然文取得部１０１は、自然文を取得する。自然文は、いわゆる話し言葉の文字列であり、ここではユーザの自由な発話から得られる文を想定する。なお、自然文に限らず、どのような文であっても同様に処理できる。

　自然文解析部１０２は、自然文取得部１０１から自然文を受け取り、自然文を解析して意味表現（第２意味表現ともいう）を生成する。意味表現は、自然文の意味を表す一形式である。なお、自然文解析部１０２は、自然文の内容に応じて、複数の意味表現を生成してもよい。

　状況取得部１０３は、自然文を取得するときの状況に関する状況情報（第２状況情報ともいう）を取得する。状況情報としては、例えば、温度センサー、湿度センサーによる計測値や、ユーザとの対話履歴を用いればよい。

　第１知識データベース１０４は、状況情報（第１状況情報ともいう）と、意図情報と、意味表現（第１意味表現ともいう）と、意味表現が状況情報および意図情報に対して該当する度合いを表す値（第１値ともいう）とをそれぞれ対応付けて、予め格納する。第１知識データベース１０４に格納される第１状況情報は、予め想定される状況に関する情報であり、第１意味表現は、ユーザからの入力として想定される文の意味を表す。意図情報は、推定すべき意図を示す情報であり、予めシステムで設定されていればよい。第１知識データベース１０４の詳細は、図３Ａから図３Ｃを参照して後述する。

　第２知識データベース１０５は、第１状況情報と、意図情報と、意図情報が第１状況情報に対して該当する度合いを表す値（第２値ともいう）とをそれぞれ対応付けて、予め格納する。第２知識データベース１０５の詳細は、図４を参照して後述する。

　意図理解部１０６は、自然文解析部１０２から第２意味表現を、状況取得部１０３から第２状況情報をそれぞれ受け取る。意図理解部１０６は、第１知識データベース１０４から、第２状況情報と第２意味表現とに対応する、第１状況情報と第１意味表現とに対応づく第１値から推定値を得る。意図理解部１０６はまた、推定値に対応する意図情報を推定意図情報として得る。
　なお、第２知識データベース１０５から意図情報が第２状況情報に対して該当し得る第２値を取得し、第１値および第２値を用いて推定値を得てもよい。

　出力部１０７は、意図理解部１０６から推定値および推定意図情報を受け取り、推定値および推定意図情報を外部に出力する。

　次に、自然文解析部１０２の意味解析処理について図２のフローチャートを参照して説明する。　
　図２において生成される意味表現は、述語に対して１つ以上の項をとる形式である述語項構造に基づいて生成される場合を想定するが、意味表現が名詞と動詞との対に基づいて生成されてもよい。すなわち、自然文の意味を抽出できる手法であればどのような手法を用いてもよい。

　ステップＳ２０１では、自然文解析部１０２が、自然文取得部１０１から受け取った自然文に対し、形態素解析処理と係り受け解析処理とをそれぞれ行う。自然文解析部１０２は、形態素解析処理の結果として単語分割結果および単語の品詞を得、係り受け解析処理の結果として単語の係り受け関係を得る。

　ステップＳ２０２では、自然文解析部１０２が、単語分割結果、品詞および係り受け関係に基づいて、述語と項との組を生成する。述語は、動詞の他、形容詞、形容動詞などの活用がある語でもよいし、事態性名詞（例えば、サ変名詞）でもよい。また、項は、基本的には名詞であるが、動詞に対する修飾語として必要な要素であれば、名詞以外でもよい。なお、項が省略されているとして述語だけ生成されてもよいし、その逆でもよい。

　ステップＳ２０３では、自然文解析部１０２が、述語と項との組の意味内容に合致した格を推定し、格情報を付与する。格を推定する手法としては、例えば、元の自然文において述語に接続される元の助詞、述語の周辺情報、他の述語と項との組に関する助詞などを考慮しながら、現在の組の意味内容に合致した格を推定すればよく、一般的な推定方法を用いればよい。

　述語と項との組に付与される格は、表層格および深層格のどちらでもよい。　
　表層格は、表層的に決まる格であり、日本語では、格を推定する場合は表層格を推定する場合が多い。表層格として、例えば、ガ格（主格：ｎｏｍｉｎａｔｉｖｅ）、ヲ格（対格：ａｃｃｕｓａｔｉｖｅ）、ニ格（与格：ｄａｔｉｖｅ　ｃａｓｅ）、カラ格、へ格、ト格、ヨリ格、マデ格およびデ格が挙げられ、述語と項との組に対して、これらの格が格情報として付与される。具体的には、「エアコン／を／停止／して」という単語分割結果があれば、述語「停止する」と項「エアコン」との組に対し、格情報として「ヲ格」が付与される。なお、英語の場合では、表層格として、主格、属格（所有格）、対格（目的格）を用いてもよい。

　深層格は、全ての言語に共通した文意を表現する格である。深層格として、動作主格、経験者格、道具格、対象格、厳選格、目標格、場所格、時間格が挙げられる。英語など日本語以外の言語の場合、述語と項との組に対して、深層格を付与する意味役割付与（セマンティックロールラベリング）を行う場合が多い。

　なお、ステップＳ２０３の処理において、格フレーム辞書、大規模コーパス中での出現頻度情報、単語クラスタおよび固有表現辞書などの情報を用いて、述語と項との組の生成、格推定を行ってもよい。

　また、各格に相当する語がない場合は空でもよいし、自然文に含まれない、状況に応じた語を類推して格情報として適用してもよい。

　ステップＳ２０４では、自然文解析部１０２が、ステップＳ２０３の処理結果に対し、重複する情報などがあれば削除するといった整理を行い、意味表現を生成する。なお、項および述語のどちらかが省略されている意味表現の場合は、省略されている情報を、状況情報、格フレーム辞書、大規模コーパス中での出現頻度情報、単語クラスタおよび固有表現辞書などのデータを参照して補完してもよい。以上で、自然文解析部１０２の解析処理を終了する。

　次に、自然文解析部１０２で生成される意味表現の具体例について説明する。　
　述語項構造に基づいて生成される意味表現は、例えば、「述語（格情報：項）」のような形式とすればよい。具体的には、上述の単語分割結果「エアコン／を／停止／して」に対して述語項構造解析すると、述語「停止する」、項「ヲ格：エアコン」を得ることができので、意味表現「停止する（ヲ格：エアコン）」が生成される。

　また、名詞と動詞との対に基づいて生成される意味表現としては、例えば「動詞（名詞）」のような形式とすればよい。具体的には、単語分割結果「エアコン／を／停止／して」に対して、意味表現「停止する（エアコン）」が生成される。なお、意味表現において「停止する」のように動詞を原形化してもよいし、「停止して」のように動詞を元の自然文の文体のまま用いてもよい。さらに、名詞の場合は、動詞に係る複数の名詞がある場合は括弧内に併記してもよい。

　述語項構造に基づいて生成される意味表現の場合は、述語（事態性名詞またはイベント性名詞も含む）の意味を補足する情報として、名詞と動詞との対に基づいて生成される意味表現の場合は、動詞の意味を補足する情報として、テンス、アスペクト、ヴォイス、モダリティ、極性、頻度、程度などを表すタグや語を、意味表現にさらに付加してもよい。　
　テンスとは、時制（過去など）であり、アスペクトとは相（完了や継続など）であり、ヴォイスとは態（能動態、受動態など）であり、モダリティとは推量、断定といった事実の程度や問いかけや依頼といった発話の態度など広く取り扱うものである。極性とは、否定または肯定を表し、頻度とは、時々または頻繁などを表し、程度とは、全てまたは少しなどの量的概念を表すものである。助動詞や副詞や時制表現などの組み合わせに基づいて、意味表現に付加すべき、上述の事項を示すタグが生成される。

　同様に、述語項構造に基づいて生成される意味表現の場合は、項の意味を補足する情報として、名詞と動詞との対に基づいて生成される意味表現の場合は、名詞の意味を補足する情報として、取り立て詞（「だけ」「のみ」といった限定などを示す語）、連体修飾語などに基づいて、タグや語を意味表現にさらに付加してもよい。　
　意味表現として、述語や項の代わりに、概念クラスを利用した意味表現にしてもよい。

　次に、第１知識データベース１０４の詳細について図３Ａから図３Ｃまでを参照して説明する。　
　図３Ａのテーブルには、状況情報３０１と状況情報３０１に対応する状況ＩＤ３０２とが対応付けられて予め格納される。具体的には、状況情報３０１「冷房がついていない」と状況ＩＤ３０２「Ｓ１－Ｙ」とが対応付けられる。なお、状況ＩＤ３０２の付加記号「Ｙ」は、対応する状況情報３０１に該当することを表し、付加記号「Ｎ」は、対応する状況情報３０１に該当しないことを表す。　
　図３Ｂのテーブルには、意図情報３０３と意図情報３０３に対応する意図ＩＤ３０４とが対応付けられて予め格納される。具体的には、意図情報３０３「冷房をつけたい」と意図ＩＤ３０４「Ｉ１」とが対応付けられる。

　図３Ｃのテーブルには、意図ＩＤ３０４、状況ＩＤ３０２、意味表現３０５および値３０６がそれぞれ対応付けられて予め格納される。　
　意味表現３０５は、自然文解析部１０２で生成される意味表現と同一の形式であるとする。ここでは、格情報として、「ガ格」、「ヲ格」および「二格」を想定するが、意味を解釈する上で必要に応じてその他の格を用いてもよい。　
　なお、図３Ｃの意味表現３０５には、入力文を解析する自然文解析部１０２で生成される意味表現に対応する表現形式のものが格納されている。

　値３０６は、ここでは、状況ＩＤ３０２に対応する状況情報３０１と意図ＩＤ３０４に対応する意図情報３０３とに対する意味表現３０５の条件付き確率の値である。値３０６は、予め計算した値を用いればよい。なお、意図情報と状況情報とに対する意味表現に関する値であれば、どのような値を用いてもよい。なお、意味表現の格情報における「φ」は、該当する格情報がないことを表す。

　また、意味表現「停止する（ガ格：φ、ヲ格：エアコン）」のように、見つからなかった項を空を表す記号「φ」として明記してもよいし、文の直接解析した結果では「φ」だった項について、照応解析や文脈解析により補完してガ格に「あなた」や「システム」など補った情報を埋めておいてもよい。

　図３Ｃの例では、意図ＩＤ３０４が「Ｉ１」、「Ｉ２」の２種類と、状況ＩＤ３０２（Ｓ１，Ｓ２，Ｓ３）、（Ｓ１，Ｓ３）の２種類との組み合わせ、これらの組み合わせに対する意味表現３０５および値３０６が対応付けられる。なお、簡略化のため、図３Ｃに示すテーブルでは、状況ＩＤ３０２の付加記号が「Ｙ」の場合について格納する。すなわち、図３Ｃに示すテーブルにおいて、（Ｓ１＆Ｓ２＆Ｓ３）という表記であれば、（Ｓ１－Ｙ＆Ｓ２－Ｙ＆Ｓ３－Ｙ）であることを示す。

　次に、第２知識データベース１０５に格納されるテーブルについて図４を参照して説明する。　
　図４に示すテーブル４００には、意図ＩＤ３０４、状況ＩＤ３０２および値４０１がそれぞれ対応付けられて予め格納される。値４０１は、状況ＩＤ３０２に対応する状況情報３０１が示す状況に対する意図ＩＤ３０４に対応する意図情報３０３の条件付き確率の値である。値４０１は、予め計算した値を用いればよい。なお、状況情報に対する意図情報に関する値であれば、どのような値を用いてもよい。

　例えば、意図ＩＤ３０４「Ｉ１」、状況ＩＤ３０２「（Ｓ１＆Ｓ２＆Ｓ３）」および値４０１「０．６０」が対応付けられて格納される。

　次に、意図理解部１０６の処理について図５のフローチャートを参照して説明する。　
　ステップＳ５０１では、意図理解部１０６が、自然文解析部１０２から意味表現を取得する。ここでは、意味表現Ｍ_ｋとする。なお、ｋは自然数とする。

　ステップＳ５０２では、意図理解部１０６が、状況取得部１０３から状況情報を取得する。ここでは、状況情報Ｓ_ｑとする。なお、ｑは自然数とする。
　ステップＳ５０３では、意図理解部１０６が、第１知識データベース１０４を参照して、意図情報Ｉ＝｛Ｉ_１，Ｉ_２，... ，Ｉ_ｎ｝と状況情報Ｓ_ｑとに対する意味表現Ｍ_ｋの値Ｐ_１（第１値）を取得する。Ｐ_１は、（１）式のように表せる。

　ステップＳ５０４では、意図理解部１０６が、第２知識データベース１０５を参照して、状況情報Ｓ_ｑに対する意図情報Ｉ＝｛Ｉ_１，Ｉ_２，... ，Ｉ_ｎ｝の値Ｐ_２（第２値）を取得する。Ｐ_２は、（２）式のように表せる。

　ステップＳ５０５では、意図理解部１０６が、Ｐ_１とＰ_２との意図モデルを保持する。　
　ステップＳ５０６では、意図理解部１０６が、意図モデルＰ_Ｉｉを計算する。具体的には、ベイズの定理などを用いて、Ｐ_１およびＰ_２から意図モデルＰ_Ｉｉを以下の式（３）および式（４）のように計算する。

　ステップＳ５０７では、ステップＳ５０６の計算結果により、Ｐ_Ｉｉの値（推定値）と意図情報Ｉ_ｉ（推定意図情報）とを出力する。以上で意図理解部１０６の処理を終了する。

　意図理解部１０６の処理により、状況情報Ｓ_ｑのときに入力された自然文の意味表現がＭ_ｋのとき、どのような意図情報Ｉ_ｉが尤もらしいかが求めたい情報であり、（３）式により得られる情報である。但し、直接（３）式を計算することは困難であるため、（４）式を用いてＰ_１×Ｐ_２を計算することにより、尤もらしい意図情報Ｉ_ｉを推定することができる。　
　なお、ステップＳ５０７においては、得られるＰ_Ｉｉの値（推定値）と意図情報Ｉ_ｉ（推定意図情報）との組を出力する場合を想定するが、Ｐ_Ｉｉが最大となるときの意図情報Ｉ_ｉを１つ出力してもよいし、Ｐ_Ｉｉが大きい順に意図情報Ｉ_ｉとＰ_Ｉｉとの組を複数個出力してもよい。

　また、全ての意図がどのような状況でも起こりうると想定される場合、Ｐ_２が常に一定であるとして、（４）式を（５）式のように近似してもよい。

　さらに、Ｐ_１（Ｍ_ｋ｜Ｉ_ｉ，Ｓ_ｑ）の値が状況情報Ｓ_ｑによらず不変であると想定される場合は、第２知識データベース１０５において、各状況情報Ｓ_ｑに対して同一の値を対応付けてもよい。つまり、意図理解部１０６は、Ｐ_１のみの意図モデルを用いて計算し、Ｐ_Ｉｉの値（推定値）と意図情報Ｉ_ｉ（推定意図情報）とを取得してもよい。

　次に、意図理解装置１００の動作について、具体例を用いて説明する。ここでは、意図の尤度が最も高い意図情報を推定意図情報として出力すると想定する。　
　ユーザから「冷房を停止して」という自然文を取得する場合を想定する。また、自然文の取得時において、状況取得部１０３が、状況情報として、「冷房がついている」、「暑い」および「窓が閉まっている」と判定できる情報を取得したと想定する。

　自然文取得部１０１は、「冷房を停止して」という自然文を取得する。　
　自然文解析部１０２は、「冷房を停止して」という自然文に対し、形態素解析処理および係り受け解析処理を行い、結果として、第２意味表現「停止する（ヲ格：冷房）」を生成する。

　意図理解部１０６は、第１知識データベース１０４を参照して、第２状況情報に対応するＩＤとして、「冷房がついている」、「暑い」および「窓が閉まっている」にそれぞれ対応する状況ＩＤ「Ｓ１－Ｙ」、「Ｓ２－Ｙ」および「Ｓ３－Ｙ」を取得する。
意図理解部１０６は、第１知識データベース１０４から、Ｐ_１として、第２状況情報「Ｓ１－Ｙ」、「Ｓ２－Ｙ」および「Ｓ３－Ｙ」と第２意味表現「停止する（ヲ格：冷房）」とに対応する、第１状況情報「（Ｓ１＆Ｓ２＆Ｓ３）」と第１意味表現「停止する（ガ格：φ、ヲ格：冷房、二格：φ）」とに対応づく値（第１値）を取得する。　
　図３Ｃの例では、意図理解部１０６は、意味表現３０５「停止する（ガ格：φ、ヲ格：冷房、二格：φ）」と意図ＩＤ３０４「Ｉ２」と状況ＩＤ３０２「（Ｓ１＆Ｓ２＆Ｓ３）」とに対応する値３０６「０．１３」を取得する。

　続いて、意図理解部１０６は、第２知識データベース１０５から、Ｐ_２として、状況ＩＤ「Ｓ１－Ｙ」、「Ｓ２－Ｙ」および「Ｓ３－Ｙ」に対する意図情報Ｉ_ｎに対応する値（第２値）を取得する。　
　図４の例では、意図理解部１０６は、意図ＩＤ３０４「Ｉ１」について、状況ＩＤ３０２「（Ｓ１＆Ｓ２＆Ｓ３）」に対応する値４０１「０．６０」を取得する。また、意図理解部１０６は、意図ＩＤ３０４「Ｉ２」について、状況ＩＤ３０２「（Ｓ１＆Ｓ２＆Ｓ３）」に対応する値４０１「０．００１」を取得する。

　意図理解部１０６は、意図ＩＤ「Ｉ１」、「Ｉ２」のそれぞれについて、（４）式に基づいて計算する。意図情報Ｉ１についてはＰ_１が０なので「０」が得られ、意図情報Ｉ２については、状況ＩＤ３０２「（Ｓ１＆Ｓ２＆Ｓ３）」について値４０１「０．１３×０．０１＝０．００１３」が得られる。
　よって、意図理解部１０６は、推定値「０．００１」と、意図ＩＤ「Ｉ_２」に対応する推定意図情報「冷房を停止したい」を得ることができる。

　なお、Ｐ_１の値を取得する際に、単純に一致する意味表現があるかだけでなく、第１知識データベース１０４に登録されている表現と読みとが類似する表現の場合は、類似度を考慮してもよい。例えば、Ｐ_１として最初に得られる値に事前に決めた値αを乗算した値を、新たなＰ_１の値としてもよい。

　具体的には、自然文取得部１０１で取得した自然文が「エアコンを止めて」ではなく「アイコンを止めて」であった場合、自然文解析部１０２が「止める（ガ格：φ、ヲ格：アイコン、ニ格：φ）」と解析したとする。意図理解部１０６は、第１知識データベース１０４に登録される「エアコン」と自然文解析部１０２で解析された「アイコン」との読み類似度を計算する。ここでは、「エ」を除いて「イ」が挿入されたという距離計算をして、読み類似度を距離２と判定する。　
　よって、「止める（ガ格：φ、ヲ格：冷房、ニ格：φ）」のＰ_１の値に例えばα＝０．１を掛けて出力するといった処理を行ってもよい。なお、値αは、類似度に応じて変化する値でもよい。

　上述の第１知識データベース１０４の例では、意味表現３０５として、述語および項がそれぞれ１つの場合を想定するが、同義語辞書などに基づき、同じ意味を有する述語および項の表現に対して、複数の語彙をまとめて表現してもよい。

　例えば、「停止する」の同義語として「止める」、「ストップする」が考えられるので、第１知識データベース１０４は、複数の同義語を含む意味表現として「｛停止する、止める、ストップする、停止、ストップ｝（ヲ格：エアコン）」のように複数の同義語を併記したものを格納してもよい。このようにすることで、「エアコンを停止して」、「エアコン停止」、「エアコンの停止」および「エアコンの停止お願い」といった自然文に揺れがある場合でも、一義的に処理することができる。　
　また、自然文が入力される際の解析時に、同義語辞書などに基づき意味表現として複数の語彙を用意しておき、第１知識データベース１０４から完全一致する意味表現を検索できなかった場合に、同義語により意味表現を置き換え、置き換えた意味表現で再度第１知識データベース１０４を検索して、第１知識データベース１０４から意味表現に対応する第１値を取得してもよい。

　さらに、発話が入力された際の解析時に、上位下位概念辞書に基づき意味表現として複数の語彙に展開しておき、意図理解部１０６が、第１知識データベース１０４から完全一致する意味表現を検索できなかった場合に、上位語により意味表現を置き換え、置き換えた意味表現に対応する第１値を第１知識データベース１０４から取得してもよい。例えば意味表現の項が「冷房」の場合に、第１知識データベース１０４に「冷房」を項とする意味表現がない場合、「冷房」の上位語である「エアコン」に置き換えて検索し、項が「エアコン」である意味表現に対応する第１値を取得してもよい。

　なお、第１知識データベース１０４の意味表現として、表記に加え読み仮名も合わせて格納し、表記で検索した場合に該当するデータがないときは、項または述語の読み仮名の類似度が高いも意味表現に対応する値を取得してもよい。

　また、自然文解析部１０２は、同義語辞書および上位下位概念辞書に限らず、概念クラスを用いて意味表現を生成してもよい。　
　意味表現として概念クラスを用いる場合、自然文解析部１０２は、図２に示すステップＳ２０１において、自然文に対し、形態素解析処理および係り受け解析処理と並行して、概念クラス解析処理（例えば、意味クラス解析処理、固有表現抽出処理）により概念クラスを取得する。続くステップＳ２０２では、得られた係り受け解析結果に概念クラスを組み合わせて、述語と項との組を生成してもよい。このとき、必要に応じて、項となる語に対し概念クラスが付加されればよい。　
　なお、ステップＳ２０１の段階ではなく、ステップＳ２０２において、ステップＳ２０２の処理で得られた項に対して、概念クラス解析処理を行うことで概念クラスを取得し、必要に応じて、項となる語に対して概念クラスが付与されてもよい。

　例えば、「メールする（ニ格：ママ）」という意味表現から概念クラスを利用して、「メールする（ニ格：[人名]）」といった表現に置き換えたものを第１知識データベース１０４の意味表現として保持したり、ステップＳ２０１の結果に使ってもよい。

　また、意味表現として、発話行為に関する情報を含んでもよい。意味表現に含まれる発話行為について図６に示す。　
　図６は、発話行為タグと発話行為の内容とを対応付けたテーブルである。発話行為は、発話した意味内容ではなく、ユーザが発話する際の態度を示す。発話行為タグは、発話行為を示すタグである。発話行為タグとしては、例えば、挨拶、謝罪、質問が挙げられる。後段の処理において発話行為タグを参照することで、より高精度に発話の意図を理解することができる。

　また、上述した状況情報は、ある状況が起きているか起きていないかという２択で扱うことを想定している。すなわち、図３Ｃの例ではＳ１、Ｓ２およびＳ３のすべてが起こっているという状況と、Ｓ１とＳ３とが起こり、Ｓ２は起きていないという状況として扱う。　
　しかし、ある状況が起きているか起きていないかを推定する際に、その可能性が確率などの何らかの値で出ることもあり、状況情報を２択で扱うには、出てきた値に対して閾値を設定するのが望ましく、その値をそのまま利用することができればなおよい。

　状況情報がベクトル形式で与えられる場合の一例を図７に示す。図７は、各状況情報Ｓ_ｑを様々な状況として、状況情報が、それらの状況の確からしさを示す確信度（確率）のベクトルで表される場合を示す。このベクトルでは、確率として、値を合計してゼロになるような排他的な要素が含まれていてもよいし、値を合計して１になる必要はないものとする。また、ベクトルの要素として、各要素を組み合わせた要素が加えられてもよい。

　また、状況情報がベクトル形式である場合における意図モデルの計算式は、（６）式のように書き換えることができる。

　以上に示した第１の実施形態によれば、意味表現が意図情報と状況情報とに対して該当する度合いを表す値を用いて、自然文の意図を推定することで、直接用意することが困難な発話と状況とに対する意図を推定できる。よって、ユーザの自由な発話に対しても意図を理解することができ、音声対話などの後段の処理においても、精度よく自然文の意図を推定した対話処理を行うことができる。

　（第２の実施形態）　
　第２の実施形態では、状況情報取得部が取得する状況情報を、複数の観点から収集する構成を有する点が異なる。

　第２の実施形態に係る意図理解装置について図８のブロック図を参照して説明する。　
　第２の実施形態に係る意図理解装置８００は、自然文取得部１０１、自然文解析部１０２、第１知識データベース１０４、第２知識データベース１０５、意図理解部１０６、出力部１０７、対話状況解析部８０１（第２解析部ともいう）、環境情報解析部８０２（第３解析部ともいう）、システム状況解析部８０３（第４解析部ともいう）、状況データベース８０４および状況取得部８０５を含む。

　自然文取得部１０１、自然文解析部１０２、第１知識データベース１０４、第２知識データベース１０５、意図理解部１０６および出力部１０７については同様の処理を行うので、ここでの説明は省略する。

　対話状況解析部８０１は、ユーザから入力される自然文および自然文に対するシステムからの応答などの対話履歴データを解析し、解析結果を得る。解析結果としては、例えば、対話履歴中の文から分かるユーザの状況や起こった事実のほか文脈などを状況情報の形式に変換したものを解析結果とすればよい。対話履歴データは、例えば外部の対話処理サーバから取得すればよい。

　環境情報解析部８０２は、周囲の環境をセンサーで計測した計測結果を解析する。具体的には、センサーにより、温度、湿度、音量、速度、角度、重量などを一定のサンプリング間隔で計測し、解析結果を得る。なお、自然文取得部１０１で得られる解析結果は、自然文取得部１０１が自然文を取得したタイミングで計測した値でもよい。

　システム状況解析部８０３は、ユーザが利用するシステムが表示した情報、システムが制御された現在の状態、システムがどのような処理を実行できるか、またはどのような処理が実行できるとユーザに思われているか、といったシステムに関する情報を解析し、解析結果を得る。システムに関する情報は、外部から適宜取得するようにしてもよいし、予めシステム状況解析部８０３に与えられてもよい。

　状況データベース８０４は、対話状況解析部８０１、環境情報解析部８０２およびシステム状況解析部８０３から解析結果をそれぞれ受け取って格納する。状況データベース８０４は、図３Ａに示す状況ＩＤ、図７のベクトルの数値などを解析結果として格納してもよい。

　状況取得部８０５は、状況データベース８０４から現在の状況として考慮すべき解析結果を取得する。

　なお、対話状況解析部８０１での解析処理に、環境情報解析部８０２の解析結果およびシステム状況解析部８０３の解析結果を用いてもよい。

　以上に示した第２の実施形態によれば、状況データベースに蓄積される情報を参照することにより、より正確な状況情報を取得することができるので、より正確な意図理解を行うことができる。

　（第３の実施形態）　
　第３の実施形態では、ユーザと意図理解装置とが音声対話を行う場合を想定する。

　第３の実施形態に係る意図理解装置について図９のブロック図を参照して説明する。　
　第３の実施形態に係る意図理解装置９００は、第１の実施形態とほぼ同様であるが、自然文取得部１０１が、発話取得部９０１（第３取得部ともいう）および音声認識部９０２を含み、出力部１０７が、対話制御部９０３、応答生成部９０４および音声合成部９０５を含む点が異なる。

　発話取得部９０１は、ユーザの発話を音声信号として取得する。

　音声認識部９０２は、発話取得部９０１から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果となる自然文を生成する。

　対話制御部９０３は、意図理解部１０６から推定値および推定意図情報を受け取り、推定値および推定意図情報に基づいて、次の対話システムの処理および応答内容を決定する。なお、対話制御部９０３の処理は、一般的な対話システムにおける対話制御処理であればよく、ここでの詳細な説明は省略する。

　応答生成部９０４は、対話制御部９０３から対話システムの処理及び応答内容を受け取り、応答内容に基づく自然文である応答文を生成する。

　音声合成部９０５は、応答生成部９０４から応答文を受け取り、応答文について音声合成処理を行い、応答文の合成音声を出力する。

　第３の実施形態に係る意図理解装置９００は、第１の実施形態に係る意図理解装置１００と同様の動作を行うので、ここでの説明は省略する。

　以上に示した第３の実施形態によれば、ユーザは自由な発話を行っても、意図理解部によって正確に意図情報を生成できるので、対話システムと音声により、より円滑な対話処理を行うことができる。

　上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した意図理解装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の意図理解装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。　
　また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。　
　さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。　
　また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

　なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。　
　また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，８００，９００・・・意図理解装置、１０１・・・自然文取得部、１０２・・・自然文解析部、１０３，８０５・・・状況取得部、１０４・・・第１知識データベース、１０５・・・第２知識データベース、１０６・・・意図理解部、１０７・・・出力部、３０１・・・状況情報、３０２・・・状況ＩＤ、３０３・・・意図情報、３０４・・・意図ＩＤ、３０５・・・意味表現、３０６，４０１・・・値、４００・・・テーブル、８０１・・・対話状況解析部、８０２・・・環境情報解析部、８０３・・・システム状況解析部、８０４・・・状況データベース、９０１・・・発話取得部、９０２・・・音声認識部、９０３・・・対話制御部、９０４・・・応答生成部、９０５・・・音声合成部。

Claims

　予め想定される状況に関する第１状況情報と、ユーザからの入力として想定される文の意味を表す第１意味表現と、推定すべき意図を示す意図情報と、該第１意味表現が該第１状況情報および該意図情報に対して該当する度合いを表す第１値とを対応付けて格納する第１格納部と、
　自然文を取得する第１取得部と、
　前記自然文を取得するときの状況に関する第２状況情報を取得する第２取得部と、
　前記自然文を解析し、該自然文の意味を表す第２意味表現を生成する第１解析部と、
　前記第１格納部から、前記第２状況情報と前記第２意味表現とに対応する第１状況情報と第１意味表現とに対応づく前記第１値から推定値を得る理解部と、を具備することを特徴とする意図理解装置。
　前記理解部は、前記第１格納部から、前記推定値に対応付けられる意図情報を推定意図情報として取得することを特徴とする請求項１に記載の意図理解装置。
　前記推定値および前記推定意図情報を用いて、前記ユーザへの応答内容を決定する制御部と、
　前記応答内容に基づいて応答文を生成する生成部と、をさらに具備することを特徴とする請求項２に記載の意図理解装置。
　前記応答文を音声合成し、合成音声を生成する音声合成部をさらに具備することを特徴とする請求項３に記載の意図理解装置。
　前記ユーザからの発話を取得する第３取得部と、
　前記発話を音声認識し、前記自然文を生成する音声認識部と、をさらに具備することを特徴とする請求項１から請求項４のいずれか１項に記載の意図理解装置。
　前記第１状況情報と、前記意図情報と、該意図情報が該第１状況情報に対して該当する度合いを表す第２値とを対応付けて格納する第２格納部をさらに具備することを特徴とする請求項１から請求項５のいずれか１項に記載の意図理解装置。
　前記理解部は、前記第１格納部を参照して、前記意図情報ごとに前記第２状況情報と前記第２意味表現とを用いて第１モデルを生成し、前記第２格納部を参照して、前記意図情報ごとに該第２状況情報を用いて第２モデルを生成し、該第１モデルおよび該第２モデルを用いて前記推定値を計算することを特徴とする請求項６に記載の意図理解装置。
　前記ユーザとの対話履歴を解析する第２解析部と、
　前記ユーザの周囲の状況を計測して解析する第３解析部と、
　前記ユーザが利用するシステムの機能および状態を解析する第４解析部と、をさらに具備し、
　前記第２取得部は、前記第２解析部、前記第３解析部および前記第４解析部の少なくともいずれか１つの解析結果を前記第２状況情報として取得することを特徴とする請求項１から請求項７のいずれか１項に記載の意図理解装置。
　前記第１意味表現および前記第２意味表現は、名詞と動詞との対または述語項構造に基づいて生成されることを特徴とする請求項１から請求項８のいずれか１項に記載の意図理解装置。
　前記第１意味表現および前記第２意味表現は、前記ユーザが発話する際の態度である発話行為に関する情報を含むことを特徴とする請求項１から請求項９のいずれか１項に記載の意図理解装置。
　前記第１意味表現および前記第２意味表現は、語の意味を補足する情報を含むことを特徴とする請求項１から請求項９のいずれか１項に記載の意図理解装置。
　前記第２状況情報は、複数の状況のそれぞれの確からしさを示す確信度のベクトルで表されることを特徴とする請求項１から請求項１１のいずれか１項に記載の意図理解装置。
　前記第１解析部は、複数の第２意味表現を生成することを特徴とする請求項１から請求項１２のいずれか１項に記載の意図理解装置。
　前記第１格納部は、同義語辞書または同一の概念のまとまりである概念クラスを用いた第１意味表現を格納することを特徴とする請求項１から請求項１３のいずれか１項に記載の意図理解装置。
　前記第１解析部は、前記概念クラスを含む第２意味表現を生成することを特徴とする請求項１４に記載の意図理解装置。
　予め想定される状況に関する第１状況情報と、ユーザからの入力として想定される文の意味を表す第１意味表現と、推定すべき意図を示す意図情報と、該第１意味表現が該第１状況情報および該意図情報に対して該当する度合いを表す第１値とを対応付けて第１格納部に格納し、
　自然文を取得し、
　前記自然文を取得するときの状況に関する第２状況情報を取得し、
　前記自然文を解析し、該自然文の意味を表す第２意味表現を生成し、
　前記第１格納部から、前記第２状況情報と前記第２意味表現とに対応する第１状況情報と第１意味表現とに対応づく前記第１値から推定値を得ることを特徴とする意図理解方法。
　コンピュータを、
　予め想定される状況に関する第１状況情報と、ユーザからの入力として想定される文の意味を表す第１意味表現と、推定すべき意図を示す意図情報と、該第１意味表現が該第１状況情報および該意図情報に対して該当する度合いを表す第１値とを対応付けて格納する第１格納手段と、
　自然文を取得する第１取得手段と、
　前記自然文を取得するときの状況に関する第２状況情報を取得する第２取得手段と、
　前記自然文を解析し、該自然文の意味を表す第２意味表現を生成する第１解析手段と、
　前記第１格納手段から、前記第２状況情報と前記第２意味表現とに対応する第１状況情報と第１意味表現とに対応づく前記第１値から推定値を得る理解手段として機能させるための意図理解プログラム。