JP6275354B1 - 意図推定装置及び意図推定方法 - Google Patents

意図推定装置及び意図推定方法 Download PDF

Info

Publication number
JP6275354B1
JP6275354B1 JP2017548072A JP2017548072A JP6275354B1 JP 6275354 B1 JP6275354 B1 JP 6275354B1 JP 2017548072 A JP2017548072 A JP 2017548072A JP 2017548072 A JP2017548072 A JP 2017548072A JP 6275354 B1 JP6275354 B1 JP 6275354B1
Authority
JP
Japan
Prior art keywords
intention
intention estimation
estimation
unit
supplementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017548072A
Other languages
English (en)
Other versions
JPWO2017168637A1 (ja
Inventor
▲イ▼ 景
▲イ▼ 景
石井 純
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6275354B1 publication Critical patent/JP6275354B1/ja
Publication of JPWO2017168637A1 publication Critical patent/JPWO2017168637A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

補足情報推定部(108)は、意図推定部(106)における推定対象の単文で意図推定を失敗した単文があった場合、補足情報推定モデル記憶部(107)の補足情報推定モデルを用いて、この単文から補足情報を推定する。意図補足部(109)は、意図推定部(106)における推定対象の単文で不完全意図推定結果の単文があった場合、補足情報推定部(108)で推定された補足情報を用いて不完全意図推定結果を補足する。

Description

本発明は、音声やキーボードなどを用いて入力されたテキストを認識してユーザの意図を推定し、ユーザの意図する操作を実行するための意図推定装置及び意図推定方法に関するものである。
近年、人間の自由発話を認識し、その認識結果を用いて機械等の操作を実行する技術が知られている。この技術は、携帯電話やナビゲーション装置などの音声インタフェースとして利用され、入力音声の認識結果の意図を推定するものであり、多様な文例及び対応する意図から統計的手法を用いて学習した意図推定モデルを使用することにより、ユーザの多様な言い回しに対応できる。
このような技術においては、発話内容に含まれる意図が一つである場合には有効である。しかしながら、発話者により、複文のような複数の意図を含む発話が入力された場合に、正しく複数の意図を推定することは困難であった。例えば、「お腹が空いた、近くに何か店ある?」という発話では、「お腹が空く」という意図と、「周辺施設を検索」という二つの意図があり、上記の意図推定モデルの使用では、これら二つの意図を推定することは困難であった。
このような問題に対し、従来、例えば特許文献1では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。
特開2000−200273号公報
しかしながら、上記特許文献1に記載された技術では、分割点により複数の意図を推定した結果をそのまま出力するだけであって、適切な意図推定ができない場合の対応については示されていなかった。このため、例えば上記の例だと、“目的地設定”、“周辺検索”などカーナビ用の特定コマンド発話から作られた意図推定モデルでは、周辺の施設を検索など意図が推定できるが、「お腹が空いた」のような、コマンドではない自由な発話に対する意図推定は困難であった。従って、最終的にユーザの意図である“周辺のレストランを検索”ではなく、「周辺の店の検索」の意図が推定されてしまい、ユーザの意図を精度良く推定したとは言えないものであった。このため、その後は、店の種類についてまたユーザへの問いを行い、最終的にユーザの意図を推定するは一般的な対話方式となってしまうことになる。一方「お腹が空いた」のような自由な発話にも上記特許文献1に記載された手法で対応させようとした場合は、膨大な学習データを収集しなければならず、すべての自由な発話を対応させることは現実的には困難であった。
この発明は、かかる問題を解決するためになされたもので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することのできる意図推定装置及び意図推定方法を提供することを目的とする。
この発明に係る意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文がある場合、意図推定を失敗した単文から補足情報を推定する補足情報推定部と、意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足部とを備えたものである。
この発明に係る意図推定装置は、推定対象の単文で意図推定を失敗した単文があった場合はこの文から補足情報を推定し、推定対象の単文で不完全意図推定結果の単文があった場合は、推定された補足情報を用いて不完全意図推定結果を補足するようにしたものである。これにより、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
実施の形態1に係る意図推定装置を示す構成図である。 実施の形態1に係る意図推定モデルの一例を示す説明図である。 実施の形態1に係る補足情報推定モデルの一例を示す説明図である。 実施の形態1に係る意図推定装置のハードウェア構成例を示すブロック図である。 実施の形態1に係る補足情報推定モデルの生成処理を説明するための構成例を示すブロック図である。 実施の形態1に係る補足情報推定モデル学習用データの一例を示す説明図である。 実施の形態1に係る補足情報推定モデルの生成処理を説明するためのフローチャートである。 実施の形態1に係る対話例を示す説明図である。 実施の形態1に係る意図補足処理を説明するためのフローチャートである。 実施の形態1に係る各補足情報に対して各特徴量のスコアを示す説明図である。 実施の形態1に係るスコアの積を求める計算式を示す説明図である。 実施の形態1に係る各補足情報に対する最終スコアを示す説明図である。 実施の形態1に係る意図補足処理の流れを示すフローチャートである。 実施の形態2に係る意図推定装置の構成図である。 実施の形態2に係る補足意図推定モデルの一例を示す説明図である。 実施の形態2に係る補足意図推定モデルの生成処理を説明するための構成例を示すブロック図である。 実施の形態2に係る補足意図推定モデル学習用データの例を示す説明図である。 実施の形態2に係る補足意図推定モデルの生成処理を説明するためのフローチャートである 実施の形態2に係る対話例を示す説明図である。 実施の形態2に係る補足意図推定処理を説明するためのフローチャートである。 実施の形態2に係る各補足意図に対する最終スコアを示す説明図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態による意図推定装置の構成図である。
図示のように、実施の形態1による意図推定装置は、音声入力部101と、音声認識部102と、形態素解析部103と、構文解析部104と、意図推定モデル記憶部105と、意図推定部106と、補足情報推定モデル記憶部107と、補足情報推定部108と、意図補足部109と、コマンド実行部110と、応答生成部111と、通知部112とを備える。
音声入力部101は、音声の入力を受け付けるための意図推定装置の入力部である。音声認識部102は、音声入力部101に入力された音声入力に対応する音声データを音声認識した上でテキストデータに変換し、形態素解析部103に出力する処理部である。以下の説明では、テキストデータは複数の意図が含まれる複文であるとする。複文は、複数の単文から構成され、一つの単文には一つの意図が含まれる。
形態素解析部103は、音声認識部102により変換されたテキストデータに対して形態素解析を行い、その結果を構文解析部104に出力する処理部である。ここで、形態素解析とは、テキストを形態素(言語で意味を持つ最小単位)に区切り、辞書を利用して品詞を付与する自然言語処理技術である。例えば、「東京タワーへ行く」という単文に対しては、「東京タワー/固有名詞、へ/格助詞、行く/動詞」のような形態素に区切られる。
構文解析部104は、形態素解析部103により形態素解析されたテキストデータに対して、文法規則によって文の構造を句や文節を単位として解析(構文解析)を行う処理部である。構文解析部104は、テキストデータに対応するテキストが複数の意図を含む複文である場合、複数の単文に分割して各単文の形態素解析結果を意図推定部106に出力する。構文解析手法として、例えば、CYK(Cocke−Younger−Kasami)法等を用いることができる。
なお、ここでの説明では、テキスト(複文)は二つの単文1及び単文2を含むものとして説明を行うが、これに限るものではなく、三つ以上の単文から構成されていてもよい。なお、構文解析部104は、分割した全ての単文に対応するデータを意図推定部106に出力する必要はなく、例えば、入力されたテキスト(複文)に単文1、単文2及び単文3が含まれる場合であっても、単文1及び単文2のみを出力の対象としてもよい。
意図推定モデル記憶部105は、形態素を特徴として意図推定を行うための意図推定モデルの記憶部である。意図は、「<主意図>[<スロット名>=<スロット値>、・・・]」のような形で表現することができる。ここで、主意図とは、意図の分類または機能を示すものである。ナビゲーション装置の例では、主意図とは、ユーザが最初に操作する上位層の機械コマンド(目的地設定、音楽を聞く等)に対応する。スロット名及びスロット値は、主意図を実行するために必要な情報を示す。例えば、「近くのレストランを検索する」という単文に含まれる意図は、「周辺検索[施設種類=レストラン]」のように表すことができ、「近くの店を検索したい」という単文に含まれる意図は、「周辺検索[施設種類=NULL]」のように表現できる。この場合、周辺検索されるが、具体的な施設種類は決定されないため、ユーザに対してまた施設種類を尋ねることが必要となる。このようなスロットに具体値がない場合、本実施の形態では意図推定結果が不十分または不完全意図推定結果であるとする。なお、意図推定できない場合または意図推定失敗の場合とは、主意図が推定できない状態であることをいう。
図2は実施の形態1に係る意図推定モデルの一例を示す図である。図2に示すように、意図推定モデルは、「目的地設定[施設=東京タワー]」や「周辺検索[施設種類=レストラン]」等の意図に対する各形態素のスコアを表すものである。図2に示すように、形態素「行く」や「目的地」については、目的地設定を意図している可能性が高いので、意図「目的地設定[施設=東京タワー]」のスコアが高くなる。一方で、形態素「美味」、「食事」については、周辺レストランの検索を意図している可能性が高いので、意図「周辺検索[施設種類=レストラン]」のスコアが高くなる。なお、意図推定モデルとしては「周辺検索[施設種類=NULL]」といった具体的な施設種類が決定されていない意図(図2では図示省略)も含まれている。
意図推定部106は、構文解析部104から入力された複数の単文の形態素解析結果に基づき、意図推定モデルを使って複数の単文に含まれる意図をそれぞれ推定する処理部であり、その結果を補足情報推定部108、意図補足部109及びコマンド実行部110に出力するよう構成されている。ここで、意図推定の方式としては、例えば最大エントロピ法が利用できる。つまり、意図推定部106は、統計的手法を利用して、予め大量に収集した形態素と意図の組から、入力された形態素に対応する意図がどれだけ尤もらしいかを推定する。
補足情報推定モデル記憶部107は、単文と補足情報との関係を示す補足情報推定モデルの記憶部である。すなわち、この補足情報推定モデルは、意図推定失敗した単文の形態素から補足情報の推定を行うための補足情報である。補足情報は「<スロット名>=<スロット値>」のような形で表現することができる。
図3は実施の形態1に係る補足情報推定モデルの一例を示す図である。図3に示すように、意図推定できなかった単文の形態素を特徴量として、補足情報(スロット内容)の関連性を示すモデルである。図3の例として「ルート種類=渋滞回避」や「施設種類=レストラン」等の補足情報に対する各形態素のスコアを表すものである。図3に示すように、形態素「道」や「混む」については、渋滞回避を意図している可能性が高いので、補足情報「ルート種類=渋滞回避」のスコアが高くなる。一方で、形態素「お腹」、「空く」については、食事したい意図のスロットを推定する可能性が高いので、補足情報「施設種類=レストラン」のスコアが高くなる。
補足情報推定部108は、意図推定不十分な単文に対して、意図推定できなかった単文の形態素を用い、補足情報推定モデル記憶部107に記憶されている補足情報推定モデルを参照して、補足情報を推定する処理部である。例えば、“お腹が空いた、周辺の店を探す”というテキストが入力されると、単文2は意図推定不十分のため、単文1「お腹が空いた」の形態素「お腹、が、空く、た」から補足情報を推定する。結果、「施設種類=レストラン」の補足情報が推定できる。推定した補足情報は意図補足部109に出力される。なお、推定アルゴリズムの詳細については後述する。
なお、ここでの説明では、意図推定失敗した単文のすべての形態素を補足情報推定で使用するが、これに限るものではなく、「助詞以外の形態素を使用」のように明確な規則を決めて特徴量を選択する、あるいは統計的な手法を用いて補足情報推定に効果が高い形態素のみの使用するようにしてもよい。
意図補足部109は、補足情報推定部108から得た補足情報及び意図推定不十分(スロット値がない状態)の意図を用いて意図を補足する処理部である。例えば、意図「周辺検索[施設種類=NULL]」に対して補足情報が[施設種類=レストラン]を得た場合、スロット名の「施設種類」が一致するため、スロット値の“レストラン”をスロット名“施設種類”に埋め、「周辺検索[施設種類=レストラン]」の意図を得る。補足した意図をコマンド実行部110に渡す。
コマンド実行部110は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、意図補足部109により補足した意図に基づき、複数の単文それぞれに含まれる意図に対応する機械コマンド(操作)を実行する処理部である。例えば、“お腹が空いた、店を探して”の発話に対して、「周辺検索「施設種類=[レストラン]」」の意図により、周辺のレストランを検索するという動作を実行する。
応答生成部111は、コマンド実行部110により実行された機械コマンドに対応する応答を生成する処理部である。応答については、テキストデータの形式で生成してもよいし、音声データとして合成音を生成してもよい。音声データを生成する場合、例えば、「周辺のレストランを検索しました。リストから選択してください」のような合成音であればよい。
通知部112は、応答生成部111で生成された応答を、車両のドライバ等のユーザに通知するための処理部である。つまり、通知部112は、コマンド実行部110により複数の機械コマンドが実行されたことをユーザに通知する機能を有している。なお、通知の態様については、表示による通知、音声による通知、または振動による通知等、ユーザが通知を認識できるものであれば何でもよい。
次に、意図推定装置のハードウェア構成について説明する。
図4は実施の形態1に係る意図推定装置のハードウェア構成例を示す図である。意図推定装置は、CPU(Central Processing Unit)等の処理装置(Processor)150と、ROM(Read Only Memory)やハードディスク装置等の記憶装置(Memory)160と、キーボードやマイク等の入力装置170と、スピーカやディスプレイ等の出力装置180とがバス接続された構成となっている。なお、CPUは、自身にメモリを備えていてもよい。
図1に示す音声入力部101は、入力装置170により実現され、通知部112は出力装置180により実現される。
意図推定モデル記憶部105、補足情報推定モデル記憶部107、後述する学習用データ記憶部113に記憶されるデータ等はそれぞれ記憶装置160に記憶される。また、音声認識部102、形態素解析部103、構文解析部104、意図推定部106、補足情報推定部108、意図補足部109、コマンド実行部110、応答生成部111等の「〜部」についても、プログラムとして記憶装置160に記憶される。
処理装置150は、記憶装置160に記憶されるプログラムを適宜読みだして実行することにより、上記「〜部」における機能を実現する。つまり、処理装置150であるハードウェアと上記プログラムであるソフトウェアとを組み合わせることにより、上記「〜部」の機能を実現する。また、図4の例では一つの処理装置150により機能を実現する構成となっているが、例えば一部機能を外部のサーバ内にある処理装置で担う等して、複数の処理装置を用いて機能を実現してもよい。そのため、処理装置150とは、一つの処理装置で構成されるだけでなく、複数の処理装置をも含む概念である。なお、これら「〜部」の機能は、ハードウェアとソフトウェアとの組み合わせに限らず、処理装置150に上記プログラムをインプリメントし、いわゆるシステムLSIのように、ハードウェア単体で実現するようにしてもよい。このようなハードウェアとソフトウェアの組み合わせ、及び、ハードウェア単体の両者を含めた上位の概念として、プロセッサ回路(Processing Circuitry)と表現してもよい。
次に、実施の形態1に係る意図推定装置の動作について説明する。まず、補足情報推定モデル記憶部107に記憶される補足情報推定モデルの生成処理について説明する。
図5は実施の形態1に係る補足情報推定モデルの生成処理を行うための構成例の説明図である。図5において、学習用データ記憶部113は、複数の文例に対して補足情報を対応付けた学習用データを記憶するための記憶部である。
図6は実施の形態1に係る学習用データの一例を示す説明図である。図6に示すように、学習用データは、意図推定失敗した単文の文例に対して補足情報が付与されたデータである。例えば、文例No.1の「お腹が空いた」については、補足情報「施設種類=レストラン」が付与される。この補足情報は予め人手で付与される。
図5に戻って、補足情報推定モデル生成部114は、学習用データ記憶部113に記憶された補足情報の対応関係を統計的な手法で学習するための処理部である。補足情報推定モデル生成部114は、形態素解析部103で抽出された形態素を用いて、補足情報推定モデルを生成する。
図7は実施の形態1に係る補足情報推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部103が、学習用データ記憶部113に記憶される学習用データの各文例に対し、形態素解析を行う(ステップST1)。例えば、文例No.1について言えば、形態素解析部103は「お腹が空いた」に対して形態素解析を行う。形態素解析部103は、形態素解析した結果を、補足情報推定モデル生成部114に出力する。
補足情報推定モデル生成部114は、形態素解析部103で解析した形態素を用い、学習用データに含まれる補足情報に基づいて、補足情報推定モデルを生成する(ステップST2)。補足情報推定モデル生成部114は、例えば、形態素「お腹」と「空く」の場合、学習用データに含まれる補足情報は図6に示すように「施設種類=レストラン」であるので、スコアが高いと判断する。補足情報推定モデル生成部114は、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図3に示すような補足情報推定モデルを生成する。
次に、補足情報推定モデルを用いた意図補足処理に関する動作について説明する。
図8は実施の形態1に係る対話例を示す図である。図9は実施の形態1に係る意図補足処理を説明するためのフローチャートである。
まず、図8に示すように、意図推定装置の通知部112が「ピッと鳴ったらお話ください」と発話する(S1)。それに対し、ユーザが「○○へ行きたい。」と発話する(U1)。なお、ここでは意図推定装置からの発話を「S」と表し、ユーザからの発話を「U」と表す。UまたはSに続く番号は、それぞれの発話順序を示している。
図9において、U1で示すようにユーザが発話すると、音声認識部102がユーザ入力に対して音声認識処理を行い(ステップST101)、テキストデータに変換する。形態素解析部103は、変換されたテキストデータに対し、形態素解析処理を行う(ステップST102)。構文解析部104は、形態素解析されたテキストデータに対し構文解析処理を実施し(ステップST103)、当該テキストデータが複文である場合、当該複文を複数の単文に分割する。テキストデータが複文でない場合は(ステップST104−NO)、ステップST105以降の処理に移り、テキストデータが複文である場合は(ステップST104−YES)、ステップST106以降の処理に移る。
U1の入力例は単文であるため、ステップST104の判断結果は「NO」であり、ステップST105に移る。そのため、構文解析部104は、形態素解析された単文のテキストデータを意図推定部106に出力する。意図推定部106は、意図推定モデルを利用して、入力された単文に対し意図推定処理を実行する(ステップST105)。ここでは、「目的地設定[施設=○○]」のように意図を推定する。
コマンド実行部110は、意図推定部106による意図推定結果に対応する機械コマンドを実行する(ステップST108)。例えば、コマンド実行部110は、施設○○を目的地に設定するという操作を実行する。同時に、応答生成部111は、コマンド実行部110により実行された機械コマンドに対応する合成音を生成する。合成音としては、例えば、「○○を目的地に設定しました。」となる。通知部112は、応答生成部111で生成された合成音を、スピーカ等によりユーザに通知する(ステップST106)。その結果、図8の「S2」に示すように、「○○を目的地にしました。」のような通知をユーザに行う。
次に、図8において、ユーザが「U2」に示すように「お腹が空いた、ルート周辺の店を探して」と発話した場合について説明する。
図9において、ユーザが「U2」に示すように発話すると、音声認識部102がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST101、ST102)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST103)。ここで、ユーザ入力に関するテキストデータは、単文1の「お腹が空いた」と、単文2の「ルート周辺の店を探して」のように、複数の単文に分割される。従って、ステップST104の判断結果は「YES」であり、ステップST106以降の処理に移る。
意図推定部106は、意図推定モデルを利用し、単文1及び単文2に対して、それぞれ意図推定処理を実施する(ステップST106)。ここでの例では、意図推定部106は、単文1に対して意図推定できない、という意図推定結果を、また、単文2に対しては「周辺検索[施設種類=NULL]」の意図推定結果を得る。すなわち、単文1は主意図が推定できない状態であり、単文2は「周辺検索[施設種類=NULL]」が尤もらしいと判断する。
意図推定部106の意図推定結果で、複文の意図推定結果として、意図推定不十分な結果があり且つ意図推定できなかった結果がある場合(ステップST107−YES)はステップST109以降の処理に移り、それ以外の場合(ステップST107−NO)はステップST108の処理に移る。
意図推定部106から、単文1が意図推定失敗、単文2は不完全意図推定結果「周辺検索[施設種類=NULL]」を得たため、ここではステップST109に移る。そのため、単文1の形態素解析結果を補足情報推定部108に渡し、補足情報推定を行う(ステップST109)。以下、補足情報推定処理について詳細を説明する。
まず、補足情報推定部108は、単文1の形態素と補足情報推定モデルを照合し、各補足情報に対する各形態素のスコアを求める。
図10は実施の形態1に係る各補足情報に対する各形態素のスコアを示す図である。図10に示すように、補足情報「ルート種類=渋滞回避」に対しては、特徴量「お腹」のスコアは0.01となり、特徴量「が」のスコアは0.01となり、特徴量「空く」のスコアは0.15となり、特徴量「た」のスコアは0.01となる。他の補足情報についても、同様に、各特徴量のスコアが求まる。
図11は実施の形態1に係るスコアの積を求める計算式を示す図である。図11において、Siは、推定対象の補足情報に対するi番目の形態素のスコアである。Sは、推定対象の補足情報に対するSiの積を表す最終スコアである。
図12は実施の形態1に係る各補足情報に対する最終スコアを示す図である。補足情報推定部108は、図11に示す計算式を用いて、図12に示す最終スコアを算出する。ここでの例では、補足情報「ルート種類=渋滞回避」に対しては、特徴量「お腹」のスコアは0.01となり、特徴量「が」のスコアは0.01となり、特徴量「空く」のスコアは0.15となり、特徴量「た」のスコアは0.01となるので、これらの積である最終スコアSは1.5e−7と算出される。同様に、他の補足情報についても、それぞれ最終スコアが算出される。
補足情報推定部108は、算出した推定対象となる各補足情報の最終スコアのうち、最もスコアが高い補足情報「施設種類=レストラン」を適切な補足情報として推定する。つまり、補足情報推定部108は、補足情報推定モデルに含まれる複数の形態素のスコアに基づき、補足情報を推定するものであり、さらに言うと、複数の形態素のスコアの積により得られた最終スコアに基づき補足情報を推定する。推定された補足情報「施設種類=レストラン」を意図補足部109に渡す。なお、補足情報の推定を行う方法としては、複数の形態素のスコアの積を用いる他に、例えば、複数の形態素のスコアの和をとり、その値(最終スコア)が最も高い補足情報を選択するようにしてもよい。
図9に戻って、意図補足部109では補足情報推定部108で推定された結果を用いて意図の補足処理を行う(ステップST110)。図13に意図補足処理の流れを示す。すなわち、意図補足部109は、補足情報推定部108で推定された結果である「施設種類=レストラン」を用いて、意図推定部106で得た意図推定結果「周辺検索[施設種類=NULL]」のスロット名と比較する(ステップST110a)。スロット名が一致する場合は(ステップST110a−YES)、補足情報のスロット値を意図推定結果「NULL」のところに埋め(ステップST110b)、スロット名が一致しない場合は(ステップST110a−NO)、意図推定部106で得た意図推定結果「周辺検索[施設種類=NULL]」をそのままコマンド実行部110に渡す。ここの例では、補足情報のスロット名「施設種類」と不完全意図のスロット名が一致し、スロット値を埋め、「周辺検索[施設種類=レストラン]」のような完全な意図を得る。当意図をコマンド実行部110に渡す。なお、ステップST110bにおいて、スコアが予め設定した閾値以上の場合にのみスロット値を埋めるようにしてもよい。
コマンド実行部110は、意図補足部109による補足した意図に対応する機械コマンドを実行する(ステップST109)。例えば、コマンド実行部110は、周辺のレストランを検索し、周辺レストランの一覧をリストに表示する。そして、応答生成部111は、コマンド実行部110により実行された機械コマンドに対応する合成音を生成する(ステップST109)。合成音としては、例えば、「ルート周辺のレストランを検索しました、リストから選んでください」となる。通知部112は、応答生成部111で生成された合成音を、スピーカ等によりユーザに通知する。その結果、図8の「S3」に示すように、「ルート周辺のレストランを検索しました、リストから選んでください。」のような通知をユーザに行う。
このように、実施の形態1では、構文解析部104が入力された複文を複数の単文に分割し、各単文に対して意図推定し、意図推定失敗した単文から補足情報を推定する。そして、補足情報を用いて意図推定結果が不十分の単文の意図を補足する。このように動作することにより、ユーザの意図を正確に推定することができる。
また、コマンド実行部110が、意図補足部109により補足された意図に基づき、対応する機械コマンドを実行するので、ユーザによる操作負担を軽減することが可能となる。すなわち、従来より対話回数の削減を実現できる。
なお、ここまでの説明では、煩雑さを避けるため、意図のスロットが一つの場合を説明したが、複数のスロットを持つ意図に対しても、スロット名の照合により対応可能である。また、意図推定失敗の単文が複数である場合、補足情報推定時の最終スコアにより一番高いスコアを持つ補足情報を選択及びスロット名の照合により適切な補足情報を選択することも可能である。
以上説明したように、実施の形態1の意図推定装置によれば、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文がある場合、意図推定を失敗した単文から補足情報を推定する補足情報推定部と、意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足部とを備えたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
また、実施の形態1の意図推定装置によれば、単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、補足情報推定部は補足情報推定モデルを用いて補足情報の推定を行うようにしたので、効率よく補足情報を推定することができる。
また、実施の形態1の意図推定装置によれば、補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、補足情報推定部は、意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、スコアの積により得られた最終スコアに基づき補足情報の推定を行うようにしたので、精度の高い補足情報の推定を行うことができる。
また、実施の形態1の意図推定装置によれば、不完全意図推定結果はスロット名とスロット値の組合せでスロット値が無い状態で表すと共に、補足情報はスロット名とスロット値で表し、意図補足部は、推定された補足情報のスロット名が不完全意図推定結果のスロット名と一致した場合、推定された補足情報のスロット値を不完全意図推定結果のスロット値とするようにしたので、不完全意図推定結果に対して確実に意図の補足を行うことができる。
また、実施の形態1の意図推定装置によれば、複数の意図が含まれる音声の入力を受け付ける音声入力部と、音声入力部に入力された音声に対応する音声データを認識し、複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、形態素解析部は、音声認識部から出力されたテキストデータに対して形態素解析を行うようにしたので、音声入力に対してもユーザの意図を精度良く推定することができる。
また、実施の形態1の意図推定方法によれば、実施の形態1の意図推定装置を用い、複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、形態素解析された複文を構文解析して複数の単文に分割する構文解析ステップと、複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足ステップとを実行するようにしたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
実施の形態2.
実施の形態2は、装置で記録した状態の履歴、正しく推定された意図及び意図推定失敗した単文の形態素を用いて、意図推定失敗した意図に対する補足意図推定を行う例である。
図14は、実施の形態2の意図推定装置を示す構成図である。実施の形態2の意図推定装置は、実施の形態1における補足情報推定モデル記憶部107、補足情報推定部108、意図補足部109の代わりに、状態履歴記憶部115、補足意図推定モデル記憶部116、補足意図推定部117を備えたものである。他の構成については、図1に示した実施の形態1と同様であるので、対応する部分に同一符号を付してその説明を省略する。
状態履歴記憶部115は、現在までの意図の履歴に基づく意図推定装置の現在の状態を状態履歴として保持する記憶部である。この状態履歴としては、例えば意図推定装置がカーナビ装置に適用されている場合は、ルート設定状態の「目的地設定済」、「経由地あり」などである。
補足意図推定モデル記憶部116は、後述する補足意図推定モデルを保持するための記憶部である。補足意図推定部117は、意図推定部106で意図推定できた単文の意図推定結果と、意図推定失敗した単文の形態素と、状態履歴記憶部115に記憶されている状態履歴とを特徴量として、意図推定失敗した単文の補足意図を推定する処理部である。
また、実施の形態2における意図推定装置のハードウェア構成については、実施の形態1の図4で示した構成で実現される。ここで、状態履歴記憶部115、補足意図推定モデル記憶部116は記憶装置160上に実現され、補足意図推定部117は、プログラムとして記憶装置160に記憶される。
図15は実施の形態2に係る補足意図推定モデルの一例を示す図である。図示のように、補足意図推定モデルは、各補足意図と、複数の単文形態素、状態履歴情報、推定できた意図それぞれに含まれる特徴量のスコアとが対応づけられたデータである。図15において、「お腹」「空く」は形態素特徴である。「経由地なし」「経由地あり」は状態履歴情報特徴である。「周辺検索[施設種類=レストラン]」「目的地設定[施設=家]」は意図特徴である。図15に示すように、形態素「お腹」や「空く」、意図特徴「周辺検索[施設種類=レストラン]」については、レストランを探す可能性が高いので、補足意図「経由地設定[施設種類=レストラン]」のスコアが高くなる。また、経由地設定するため、状態情報特徴「経由地なし」の方が「経由地あり」よりもスコアが高くなる。一方、「経由地あり」は、補足意図「経由地削除[]」に対して推定する可能性が高いので、「経由地なし」よりもスコアが高くなる。
次に、実施の形態2に係る意図推定装置の動作について説明する。先ず、補足意図推定モデルの生成処理の動作について説明する。
図16は、実施の形態2に係る意図補足モデルの生成処理を説明するための構成を示す説明図である。図16において、学習用データ記憶部113aは、複数の文例、意図、状態履歴情報に対して補足意図結果と対応関係で学習用データを記憶するための記憶部である。
図17は、実施の形態2に係る補足意図推定モデル学習用データの一例を示す説明図である。図17に示すように、学習用データは、意図推定できない単文の文例、状態履歴情報、意図推定結果に対して補足意図推定結果が付与されたデータである。例えば、文例No.1の「お腹が空いた」「目的地設定[施設=家]」「経由地あり」については、補足意図「経由地削除[]」が付与される。この補足意図は予め人手で付与される。
図16に戻って、補足意図推定モデル生成部118は、学習用データ記憶部113aに記憶される補足意図情報の対応関係を統計的な手法で学習する処理部である。補足意図推定モデル生成部118は、形態素解析部103で抽出された形態素と、学習用データに含まれている状態履歴情報と補足意図とを用いて補足意図推定モデルを生成する。
図18は実施の形態2に係る補足意図推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部103が、学習用データ記憶部113aに記憶される学習用データの各文例における形態素解析を行う(ステップST201)。この形態素解析は実施の形態1におけるステップST1と同様の処理のため、その説明は省略する。
補足意図推定モデル生成部118は、形態素解析部103で解析した形態素と、学習データとして設定されている状態履歴及び補足意図とを合わせて、補足意図推定モデルを生成する(ステップST202)。補足意図推定モデル生成部118は、例えば、形態素「お腹」と「空く」の場合、意図推定できた単文の意図推定結果「目的地設定[施設=家]」及び状態履歴情報「経由地あり」に対して、学習用データに含まれる補足意図は図17に示すように「経由地削除[]」であるので、スコアが高いと判断する。補足意図推定モデル生成部118は、学習用データに含まれる全ての文例、状態履歴情報、学習用意図に対して上記と同様の処理を行い、最終的に図15に示すような補足意図推定モデルを生成する。
なお、ここでの説明では、意図推定失敗した単文のすべての形態素と、状態履歴記憶部115で記録した状態履歴と、意図推定できた単文の意図推定結果とを特徴量として補足意図推定で使用する例を説明したが、これに限るものではなく、「助詞以外の形態素を使用」あるいは「特定な状態履歴に対して意図特徴は使わない」のように明確な規則を決めて特徴量を選択する、あるいは統計的な手法を用いて補足意図推定に効果が高い形態素のみを使用するようにしてもよい。
次に、補足意図推定モデルを用いた補足意図推定処理について説明する。
図19は実施の形態2に係る対話例を示す図である。図19に示すように、状態履歴記憶部115では「経由地設定あり」という情報を記録しているものとする。以下、図20のフローチャートを用いて、補足意図推定処理を説明する。
図19に示すように、意図推定装置の通知部112が「ピッと鳴ったらお話ください」と発話する(S11)。それに対し、ユーザが「お腹が空いた、すぐ家に帰って」と発話する(U11)。
先ず、音声認識部102がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST201、ST202)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST203)。ここで、ユーザ入力に関するテキストデータは、単文1「お腹が空いた」と、単文2「すぐ家に帰って」のように、複数の単文に分割される。構文解析部104は形態素解析された各単文のテキストデータを意図推定部106へ出力し、ステップST204〜ステップST206の処理がなされることになる。ステップST205以降の処理については、実施の形態1におけるステップST105以降の処理と同様のため、これらの説明は省略する。
意図推定部106は、意図推定モデルを利用し、単文1及び単文2に対して、それぞれ意図推定処理を実施する(ステップST206)。ここでの例では、意図推定部106は、単文1に対しては意図推定できなかったが、単文2に対して「目的地設定[施設=家]」の意図を推定する。
意図推定部106の結果によると、意図推定失敗した単文と意図推定できた単文が存在するため(ステップST207−YES)、ステップST209以後の処理を行う。
補足意図推定部117は、意図推定部106により推定された単文の意図「目的地設定[施設=家]」、形態素解析部103から得た意図推定できなかった単文の形態素「お腹」「が」「空く」「た」と、状態履歴記憶部115で記憶した状態履歴「経由地あり」とを特徴量として用い、補足意図推定モデルと照らし合わせて、各補足意図に対する特徴量のスコアを求める(ステップST209)。そして、補足意図推定部117は、図11に示す計算式を用いて、各補足意図における特徴量のスコアの積を求める。つまり、補足意図推定部117は、複数の特徴量のスコアにより得られた最終スコアに基づき、適切な補足意図を推定する。
図21は実施の形態2に係る各実行順序に対する最終スコアを示す図である。ここでの例では、補足意図「経由地追加[レストラン]」については、特徴量「お腹」のスコアは0.2で、特徴量「が」のスコアは0.01で、特徴量「空く」のスコアは0.15で、特徴量「た」のスコアは0.01で、状態履歴特徴「経由地設定あり」のスコアは0.01で、意図特徴「目的地設定[施設=家]」のスコアは0.05となるので、これらの積である最終スコアSは1.5e−9と算出される。同様に、他の補足意図についても、それぞれ最終スコアが算出される。
補足意図推定部117は、算出した推定対象となる各補足意図の最終スコアのうち、最もスコアが高い補足意図「経由地削除[]」を適切な意図として推定する。
図20に戻って、コマンド実行部110は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、補足意図推定部117により推定された複数の単文の複数意図に基づき、複数の意図それぞれに対応する機械コマンドを実行する(ステップST208)。
ここでの例では、意図推定部106により、単文2に対して「目的地設定[施設=家]」の意図が推定される。また、補足意図推定部117により、単文1に対して「経由地削除[]」の意図が推定される。そのため、コマンド実行部110は、経由地を削除すること及び目的地を家に設定することを実行する。
応答生成部111は、図19のS12に示すように、コマンド実行部110により実行された機械コマンドに対応する合成音「経由地を削除しました。家を目的地に設定しました」を生成し、通知部112によりユーザに当該合成音が通知される(ステップST208)。
以上説明したように、実施の形態2の意図推定装置によれば、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、意図推定部で意図推定できた単文の意図推定結果と、意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
また、実施の形態2の意図推定装置によれば、状態履歴を記録する状態履歴記憶部を備え、補足意図推定部は、状態履歴記憶部に記憶された状態履歴を用いて補足意図推定を行うようにしたので、状態履歴を反映した意図推定を行うことができる。
また、実施の形態2の意図推定装置によれば、意図推定を失敗した単文の形態素と、意図推定できた単文の意図推定結果と、状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、補足意図推定部は、補足意図推定モデルを用いて補足意図推定を行うようにしたので、精度の高い補足意図の推定を行うことができる。
また、実施の形態2の意図推定装置によれば、補足意図推定部は、意図推定を失敗した単文に対応した特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき意図推定を失敗した単文の補足意図推定を行うようにしたので、意図推定を失敗した単文に対して確実に補足意図推定を行うことができる。
また、実施の形態2の意図推定装置によれば、実施の形態2の意図推定装置を用い、複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、形態素解析された複文を構文解析して複数の単文に分割する構文解析ステップと、複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、意図推定ステップで意図推定できた単文の意図推定結果と、意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行するようにしたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
なお、実施の形態1及び実施の形態2では、意図推定装置として1台の装置で実現される例を説明したが、これに限定されるものではなく、一部の機能を他の装置で実行されるようにしてもよい。例えば、一部の機能を、外部に設けられたサーバ等により実行するようにしてもよい。
また、実施の形態1及び実施の形態2では意図推定を行う対象言語を日本語としたが、多言語にも対応可能である。
さらに、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る意図推定装置は、音声やキーボードなどを用いて入力されたテキストを認識してユーザの意図を推定し、ユーザの意図する操作を実行するための意図推定の構成に関するものであり、携帯電話やナビゲーション装置などの音声インタフェースとして用いるのに適している。
101 音声入力部、102 音声認識部、103 形態素解析部、104 構文解析部、105 意図推定モデル記憶部、106 意図推定部、107 補足情報推定モデル記憶部、108 補足情報推定部、109 意図補足部、110 コマンド実行部、111 応答生成部、112 通知部、113 学習用データ記憶部、114 補足情報推定モデル生成部、115 状態履歴記憶部、116 補足意図推定モデル記憶部、117 補足意図推定部。

Claims (11)

  1. 複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
    前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
    前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
    前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定部と、
    前記意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足部とを備えたことを特徴とする意図推定装置。
  2. 単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、
    前記補足情報推定部は前記補足情報推定モデルを用いて前記補足情報の推定を行うことを特徴とする請求項1記載の意図推定装置。
  3. 前記補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、
    前記補足情報推定部は、前記意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、当該スコアの積により得られた最終スコアに基づき前記補足情報の推定を行うことを特徴とする請求項2記載の意図推定装置。
  4. 前記不完全意図推定結果はスロット名とスロット値の組合せで前記スロット値が無い状態で表すと共に、前記補足情報はスロット名とスロット値で表し、
    前記意図補足部は、前記推定された補足情報のスロット名が前記不完全意図推定結果のスロット名と一致した場合、前記推定された補足情報のスロット値を前記不完全意図推定結果のスロット値とすることを特徴とする請求項2に記載の意図推定装置。
  5. 複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
    前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
    前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
    前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定部で意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたことを特徴とする意図推定装置。
  6. 前記状態履歴を記録する状態履歴記憶部を備え、
    前記補足意図推定部は、前記状態履歴記憶部に記憶された状態履歴を用いて前記補足意図推定を行うことを特徴とする請求項5記載の意図推定装置。
  7. 前記意図推定を失敗した単文の形態素と、前記意図推定できた単文の意図推定結果と、前記状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、
    前記補足意図推定部は、前記補足意図推定モデルを用いて前記補足意図推定を行うことを特徴とする請求項5記載の意図推定装置。
  8. 前記補足意図推定部は、前記意図推定を失敗した単文に対応した前記特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき前記意図推定を失敗した単文の補足意図推定を行うことを特徴とする請求項7記載の意図推定装置。
  9. 複数の意図が含まれる音声の入力を受け付ける音声入力部と、
    前記音声入力部に入力された前記音声に対応する音声データを認識し、前記複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、
    前記形態素解析部は、前記音声認識部から出力されたテキストデータに対して形態素解析を行うことを特徴とする請求項1記載の意図推定装置。
  10. 請求項1の意図推定装置を用い、
    複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
    前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
    前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
    前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、
    前記意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足ステップとを実行することを特徴とする意図推定方法。
  11. 請求項5に記載の意図推定装置を用い、
    複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
    前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
    前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
    前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定ステップで意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく前記意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行することを特徴とする意図推定方法。
JP2017548072A 2016-03-30 2016-03-30 意図推定装置及び意図推定方法 Active JP6275354B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/060413 WO2017168637A1 (ja) 2016-03-30 2016-03-30 意図推定装置及び意図推定方法

Publications (2)

Publication Number Publication Date
JP6275354B1 true JP6275354B1 (ja) 2018-02-07
JPWO2017168637A1 JPWO2017168637A1 (ja) 2018-04-05

Family

ID=59962749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017548072A Active JP6275354B1 (ja) 2016-03-30 2016-03-30 意図推定装置及び意図推定方法

Country Status (5)

Country Link
US (1) US20190005950A1 (ja)
JP (1) JP6275354B1 (ja)
CN (1) CN108885618A (ja)
DE (1) DE112016006512T5 (ja)
WO (1) WO2017168637A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881466B (zh) * 2018-07-04 2020-06-26 百度在线网络技术(北京)有限公司 交互方法和装置
JP2020186951A (ja) * 2019-05-10 2020-11-19 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
US11230262B2 (en) * 2019-10-11 2022-01-25 Augmented Radar Imaging, Inc. Preventive action based on estimated intent
US10703336B1 (en) * 2019-10-11 2020-07-07 Augmented Radar Imaging, Inc. Preventive action based on estimated intent
JP2022045835A (ja) * 2020-09-09 2022-03-22 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP7231171B1 (ja) 2022-07-21 2023-03-01 ソプラ株式会社 処理動作支援装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108614A (ja) * 2000-09-26 2002-04-12 Toshiba Corp 入力解釈装置、方法及び対話システム
JP2004240225A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置、音声対話システム、音声対話方法、プログラム及び記録媒体
JP2015148910A (ja) * 2014-02-05 2015-08-20 株式会社東芝 発話文収集装置、方法、及びプログラム
WO2016120904A1 (ja) * 2015-01-28 2016-08-04 三菱電機株式会社 意図推定装置及び意図推定方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200273A (ja) 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2011043716A (ja) * 2009-08-21 2011-03-03 Sharp Corp 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
US9530405B2 (en) * 2012-11-30 2016-12-27 Mitsubishi Electric Corporation Intention estimating device and intention estimating method
US9448992B2 (en) * 2013-06-04 2016-09-20 Google Inc. Natural language search results for intent queries
US9721570B1 (en) * 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
DE112014006542B4 (de) * 2014-03-31 2024-02-08 Mitsubishi Electric Corporation Einrichtung und Verfahren zum Verständnis von einer Benutzerintention

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108614A (ja) * 2000-09-26 2002-04-12 Toshiba Corp 入力解釈装置、方法及び対話システム
JP2004240225A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置、音声対話システム、音声対話方法、プログラム及び記録媒体
JP2015148910A (ja) * 2014-02-05 2015-08-20 株式会社東芝 発話文収集装置、方法、及びプログラム
WO2016120904A1 (ja) * 2015-01-28 2016-08-04 三菱電機株式会社 意図推定装置及び意図推定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
藤本 拓 外2名: "自然な発話により操作可能なカーナビゲーションシステムの開発", 電子情報通信学会論文誌 (J96−D), vol. 第J96-D巻第11号, JPN6017047094, 1 November 2013 (2013-11-01), JP, pages 2815 - 2824, ISSN: 0003698298 *

Also Published As

Publication number Publication date
DE112016006512T5 (de) 2018-11-22
JPWO2017168637A1 (ja) 2018-04-05
US20190005950A1 (en) 2019-01-03
WO2017168637A1 (ja) 2017-10-05
CN108885618A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
JP6275354B1 (ja) 意図推定装置及び意図推定方法
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
EP2862164B1 (en) Multiple pass automatic speech recognition
US10917758B1 (en) Voice-based messaging
US10037758B2 (en) Device and method for understanding user intent
US10365887B1 (en) Generating commands based on location and wakeword
US11823678B2 (en) Proactive command framework
EP2572355B1 (en) Voice stream augmented note taking
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
US10366690B1 (en) Speech recognition entity resolution
JP2011232619A (ja) 音声認識装置および音声認識方法
JP2019185737A (ja) 検索方法及びそれを用いた電子機器
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
US11626107B1 (en) Natural language processing
US10600405B2 (en) Speech signal processing method and speech signal processing apparatus
US11308936B2 (en) Speech signal processing method and speech signal processing apparatus
US11450325B1 (en) Natural language processing
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
JPWO2005076259A1 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180109

R150 Certificate of patent or registration of utility model

Ref document number: 6275354

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250