JP6777002B2 - 対話装置、対話方法及び対話プログラム - Google Patents

対話装置、対話方法及び対話プログラム Download PDF

Info

Publication number
JP6777002B2
JP6777002B2 JP2017088660A JP2017088660A JP6777002B2 JP 6777002 B2 JP6777002 B2 JP 6777002B2 JP 2017088660 A JP2017088660 A JP 2017088660A JP 2017088660 A JP2017088660 A JP 2017088660A JP 6777002 B2 JP6777002 B2 JP 6777002B2
Authority
JP
Japan
Prior art keywords
topic
speech
user
profile information
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017088660A
Other languages
English (en)
Other versions
JP2018185751A (ja
Inventor
美奈 舩造
美奈 舩造
真太郎 吉澤
真太郎 吉澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017088660A priority Critical patent/JP6777002B2/ja
Priority to US15/941,056 priority patent/US10861445B2/en
Priority to CN201810387913.1A priority patent/CN108804518A/zh
Publication of JP2018185751A publication Critical patent/JP2018185751A/ja
Application granted granted Critical
Publication of JP6777002B2 publication Critical patent/JP6777002B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザと対話を行う対話装置、対話方法及び対話プログラムに関する。
ユーザによる所定時間の発話から、出現頻度が高い単語を重要語として抽出する装置が知られている(特許文献1参照)。例えば、ロボットなどが、この装置により抽出された重要語を用いて、発話を行う場合が想定される。
特開2015−099289号公報
ここで、ユーザの話し方によって(例えば、認知症患者、高齢者などは、日によって話す内容及び量にムラがある)、重要語の抽出に偏りが生じることがある。このため、対話装置による発話の話題にも偏りが生じ、ユーザが話し難い話題ばかりが提供される虞がある。
本発明は、このような問題点を解決するためになされたものであり、ユーザが話し易い話題を積極的に提供できる対話装置、対話方法及び対話プログラムを提供することを主たる目的とする。
上記目的を達成するための本発明の一態様は、ユーザの発話における話題と、該発話に含まれる単語の所定品詞の数と、を対応付けたプロファイル情報を取得する取得手段と、前記取得手段により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記所定品詞の数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択する話題選択手段と、前記話題選択手段により選択された話題に基づいて、前記ユーザに対する応答を生成する応答生成手段と、を備える、ことを特徴とする対話装置である。
この一態様において、前記所定品詞は、名詞、形容詞、副詞、及び動詞のうち少なくとも1つの品詞を含んでいてもよい。
この一態様において、前記所定品詞は、2以上の品詞の組合せであり、前記話題選択手段は、品詞の数と品詞の種類の数が多い話題ほど高い確率で選択してもよい。
この一態様において、前記所定品詞は、名詞と形容詞であってもよい。
この一態様において、前記話題選択手段は、前記取得手段により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、名詞及び形容詞の数が最も多い話題を最も高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択してもよい。
この一態様において、前記話題選択手段は、前記所定品詞の数から前記発話に含まれる代名詞の数を減算した品詞数を算出し、前記取得手段により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記算出した品詞数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択してもよい。
この一態様において、前記取得手段により取得されたプロファイル情報を記憶する記憶手段を更に備え、前記話題選択手段は、前記記憶手段のプロファイル情報において、前記ユーザの発話が所定回数以上蓄積されるまで、ランダムに前記話題を選択してもよい。
上記目的を達成するための本発明の一態様は、ユーザの発話における話題と、該発話に含まれる単語の所定品詞の数と、を対応付けたプロファイル情報を取得するステップと、前記取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記所定品詞の数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択するステップと、前記選択された話題に基づいて、前記ユーザに対する応答を生成するステップと、を含む、ことを特徴とする対話方法であってもよい。
上記目的を達成するための本発明の一態様は、ユーザの発話における話題と、該発話に含まれる単語の所定品詞の数と、を対応付けたプロファイル情報を取得する処理と、前記取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記所定品詞の数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択する処理と、前記選択された話題に基づいて、前記ユーザに対する応答を生成する処理と、をコンピュータに実行させる、ことを特徴とする対話プログラムであってもよい。
本発明によれば、ユーザが話し易い話題を積極的に提供できる対話装置、対話方法及び対話プログラムを提供することができる。
本発明の一実施形態に係る対話装置の概略的なシステム構成を示すブロック図である。 プロファイル情報の一例を示す図である。 (a)プロファイル情報の一例を示す図である。(b)2次元象限の一例を示す図である。 対話ロボットの概略的構成を示す概略図である。 外部サーバおよび対話ロボットの概略的な構成を示す図である。 本発明の一実施形態に係る対話方法の処理フローの一例を示すフローチャートである。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る対話装置の概略的なシステム構成を示すブロック図である。本実施形態に係る対話装置1は、例えば、記憶部2と、話題を推定する話題推定部3と、ユーザのプロファイル情報を取得する情報取得部4と、話題提示を判定する話題提示判定部5と、話題を選択する話題選択部6と、応答を生成する応答生成部7と、を有している。本実施形態に係る対話装置1は、ユーザに対し話易い話題を提供し、ユーザとの間で対話を行うものである。
なお、対話装置1は、例えば、演算処理等と行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム等が記憶されたROM(Read Only Memory)やRAM(Random Access Memory)からなるメモリ、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。CPU、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。
記憶部2は、上記メモリなどで構成されている。
話題推定部3は、記憶部2などに記憶されたユーザの発話履歴などに基づいて、現在の話題を推定する。これにより、対話装置1は、推定した話題に応じた応答を行うことができる。また、推定した話題毎にユーザの発話内容の特徴を解析できる。
話題推定部3は、例えば、word embedding法を用いて発話に含まれる単語を意味表現ベクトルに変換し、単語と話題間の階層関係(射影行列)を学習しておくことで、任意の単語から話題を推定する。
なお、本方法の詳細内容は、非特許文献:Ruiji Fu, Jiang Guo, Bing Qin, Wanxiang Che, Haifeng Wang, Ting Liu, "Learning Semantic Hierarchies: A Continuous Vector Space Approach", IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 23, No. 3, 2015年3月, p. 461-471に開示されており、これを援用できるものとする。
話題推定部3は、発話するユーザの属性情報(年齢、性別、趣味など、)などに基づいて、予め定義された話題の中から、話題を絞り込み、その絞り込んだ話題の中から、現在の話題を推定してもよい。例えば、ユーザが高齢者の場合、旅行の話題よりも、健康、家族、テレビの話題の方が多い傾向にある。一方で、ユーザが30代男性の場合、食事、メディア、家族などの話題が比較的多くなる傾向にある。このように、ユーザの属性情報によって、話題の傾向が異なるため、ユーザの属性情報に応じて予め発話の話題を絞り込む。これにより、発話のユーザの属性情報に応じてより高精度に話題を推定でき、後述の如く、より効果的に対話継続を行うことができる。なお、上記話題の推定方法は一例であり、これに限定されず、任意の推定方法が適用可能である。
情報取得部4は、取得手段の一具体例である。情報取得部4は、例えば、話題と、話題推定部3により該話題が推定されるのに用いられたユーザの発話(以下、ユーザ発話)に出現する単語の所定品詞の数と、の対応関係を学習する学習器41を有している。学習器41を用いてユーザの過去の発話を学習し、この学習結果を用いることで、ユーザの各話題への嗜好を推定できる。
所定品詞は、例えば、名詞、形容詞、副詞、及び動詞のうちの少なくとも1つの品詞を含む。所定品詞は、学習器41や記憶部2などに予め設定されており、端末装置などの入力装置を介して適宜変更可能である。
情報取得部4の学習器41は、マイクなどにより取得されたユーザ発話に基づいて、機械学習などを行い、該発話における話題と、該発話に含まれる単語の所定品詞の数と、を複数組、対応付けたプロファイル情報を生成する。学習器41は、ユーザ発話に出現する単語の所定品詞の数をカウントする。学習器41は、発話したユーザと、そのカウントした所定品詞の数と、該ユーザ発話に基づき話題推定部3により推定された話題と、を対応付けたプロファイル情報を生成し、生成したプロファイル情報を記憶部2に記憶させる。
例えば、ユーザ発話が「今日は良い天気だね。」であり、所定品詞が名詞及び形容詞である場合を想定する。この場合、話題推定部3は、そのユーザ発話に基づいて、現在の話題を、「天気」と推定する。情報取得部4の学習器41は、そのユーザ発話に出現する単語の所定品詞の数について、名詞の数を2(今日、天気)、形容詞の数を1(良い)としてカウントする。
情報取得部4の学習器41は、例えば、図2に示す如く、ユーザ(Xさん)と、話題(天気)と、所定品詞(名詞及び形容詞)の数と、を対応付けたプロファイル情報を生成し、生成したプロファイル情報を記憶部2に記憶させる。なお、プロファイル情報は、予め記憶部2に記憶されていてもよい。情報取得部4は、記憶部2に記憶されたプロファイル情報を取得する。また、プロファイル情報は、情報取得部4に対し、入力装置などを介して適宜入力されてもよい。
話題推定部3は、過去1回のユーザ発話に基づいて話題を推定し、情報取得部4の学習器41は、過去1回のユーザ発話に出現する単語の所定品詞の数をカウントしているが、これに限定されない。話題推定部3は、過去2回以上のユーザ発話に基づいて話題を推定し、学習器41は、過去2回以上のユーザ発話に出現する単語の所定品詞の数をカウントしてもよい。これにより、ユーザの嗜好が変化する場合でも、その変化過程での発話を学習し、その学習結果を用いて高精度に話題を推定できる。したがって、より高精度にプロファイル情報を生成できる。
また、N回以上過去のユーザ発話は記憶部2から順次消去させるようにしてもよい。これにより、より新しいユーザ発話に基づき話題を推定できプロファイル情報を生成できる。
話題提示判定部5は、ユーザに対して話題提示を行うか否かを判定する。この話題提示の判定を的確に行い、対話装置1が発話することで、例えば、ユーザが話し中、話しそうな場面での発話衝突を回避できる。また、対話装置1がユーザの話を認識していることをユーザに対して示すことができる。
話題提示判定部5は、例えば、人及び対話装置1の双方が沈黙する場合に、ユーザに対して話題提示を行うと判定する。より具体的には、話題提示判定部5は、対話装置1の発話部がユーザに対し発話してから、ユーザ及び対話装置1の双方が発話しない無音時間が予め定められた待ち時間を超えた場合に、ユーザに対して話題提示を行うと判定する。これにより、無音時間が頻繁に起き、対話が中断するのを抑制できる。
なお、上記話題提示の判定方法は一例であり、これに限定されない。例えば、話題提示判定部5は、発話部が発話してからユーザが応答するまでの応答時間の平均及び分散を算出する。話題提示判定部5は、算出した平均及び分散を用いて応答時間及び発話確率に関するガンマ分布を作成する。話題提示判定部5は、作成したガンマ分布を用いて人が発話する気がないと判断できる待ち時間を推定する。話題提示判定部5は、無音時間が推定した待ち時間を超えた場合に、ユーザに対して話題提示を行うと判定する。これにより、ユーザの個人差に応じた待ち時間を用いて、より適切に、ユーザに対して話題提示を行うか否かを判定できる。
話題選択部6は、話題選択手段の一具体例である。話題選択部6は、話題提示判定部5によりユーザに対して話題提示を行うと判定された場合に、上記ユーザが話し易い話題を積極的に選択する。
話題選択部6は、例えば、ユーザ発話と、情報取得部4により取得されたプロファイル情報と、に基づいて、プロファイル情報に設定された複数の話題の中から、ユーザが話し易い1つの話題を選択する。このように、ユーザ固有のプロファイル情報から、話し易い話題を積極的に選択することで、ユーザ毎の嗜好に応じた話題を提供でき、対話をより継続できる。
なお、情報取得部4の学習器41は、記憶部2に記憶された過去複数回のユーザ発話を用いてプロファイル情報の学習を行う。話題選択部6は、学習器41により学習されたプロファイル情報を用いて、ユーザが話し易い1つの話題を選択する。
ここで、記憶部2に十分なユーザ発話が蓄積されていない場合、情報取得部4の学習器41が十分なプロファイル情報の学習を行えない。この場合、話題選択部6は、この不十分なプロファイル情報を用いて話題を選択するため、適切な話題を提供できない虞がある。したがって、話題選択部6は、ユーザ発話が所定回数以上(例えば、S回(10回程度)以上のユーザ発話)、蓄積されるまで、ランダムに話題を選択するようにしてもよい。これにより、ユーザ発話が所定回数以上蓄積されるまで、ランダムに話題を選択しユーザに提供しつつ、ユーザの反応を見てプロファイル情報の学習を行うことができる。このプロファイル情報を用いて、ユーザの反応に応じたユーザがより話易い適切な話題を選択、提供できる。
ところで、例えば、認知症患者、高齢者などのユーザは、日によって話す内容及び量にムラが生じ、その発話での重要語の抽出に偏りが生じることがある。従来の対話装置において、このように抽出された重要語に基づいて発話を行った場合、その発話の話題にも偏りが生じ、ユーザが話し難い話題ばかりが提供される虞がある。
これに対し、本実施形態に係る対話装置1において、話題選択部6は、情報取得部4により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、所定品詞の数が多い話題ほど、高い確率で選択するように、話題の選択の確率を設定し、該選択の確率に従って話題を選択する。
例えば、ユーザがある話題について発話した場合に、その発話に含まれる名詞数が多いほど、その話題に関しユーザの知識が多いとされる。その発話に含まれる形容詞数が多いほど、その話題がユーザの感情に大きく影響する(気持ちや思い入れが強い)とされる。その発話に含まれる動詞数が多いほど、その話題に関しユーザの体験が多いとされる。その発話に含まれる副詞数が多いほど、その話題がユーザの体験に紐付く感情に大きく影響する(気持ちや思い入れが強い)とされる。
したがって、このようにユーザの興味が高いと思われる名詞、形容詞、副詞、動詞などの所定品詞の数が多い話題ほど、高い確率で選択するように、話題の選択の確率を設定し、該選択の確率に従って話題を選択する。これにより、ユーザが話し易い話題を積極的に選択し、提供できる。
話題選択部6は、ユーザ発話と、情報取得部4により取得されたプロファイル情報と、に基づいて、プロファイル情報に設定された複数の話題の中から、ユーザが話し易い1つの話題を選択する。
例えば、話題選択部6は、情報取得部4により取得されたプロファイル情報に基づいて、各話題をt次元象限(tは2以上の自然数)の各象限にそれぞれ配置する。各象限には、話題選択部6により選択される確率が任意又は自動的に設定されている。話題選択部6は、各象限に設定された確率にしたがって、各象限を選択し、該各象限に含まれる話題を選択する。各象限は、所定品詞の数の多い及び少ないを判断できるロバストな値(中央値、刈込平均値など)を通る境界線で分割されている。各象限の選択の確率は、所定品詞の数が最も多い話題がより積極的に選択されるように設定されている。
例えば、2次元象限において、「ユーザの記憶に残るあるいはユーザが良く口にする品詞」である名詞の数を横軸に、「感情の起伏などの感情指標を表すような品詞」である形容詞の数を縦軸に設定する。なお、名詞の数を縦軸に設定し、形容詞の数を横軸に設定してもよい。名詞数の境界線は、例えば、全話題の名詞数の中央値を通り、形容詞数の境界線は、全話題の形容詞数の中央値を通る。
ユーザが発話する毎に、記憶部2のプロファイル情報は更新される。話題選択部6は、更新されたプロファイル情報に基づいて、上記話題のt次元象限への配置および境界線を更新する。
例えば、図3(a)に示す如く、プロファイル情報に設定された各話題(料理、健康、天気)に対応付けられた各品詞数(名詞数、形容詞数)を、図3(b)に示す如く2次元象限に配置する。
話題「料理」は、(3、3)に配置される。話題「健康」は、(1、2)に配置される。話題「天気」は、(2、1)に配置される。名詞数の境界線は、全話題の名詞数の中央値(2、0)を通り、形容詞数の境界線は、全話題の形容詞数の中央値(0、2)を通る。したがって、話題「料理」は、第1象限内に配置される。話題「健康」は、第2象限及び第4象限の境界線に配置されるが、予め第2象限に配置されるものとする。同様に、話題「天気」は、第3象限及び第4象限の境界線に配置されるが、予め第3象限に配置されるものとする。このように、話題が各象限の境界線に配置された場合、どちらの象限に配置するかは予め設定されていてもよい。
例えば、第1象限には、50%の確率が設定され、第2象限には、30%の確率が設定され、第3象限には、20%の確率が設定されている。ここでは、(形容詞数+名詞数)が最も多い話題「料理」がより積極的に選択されるように、第1象限の選択の確率が最も高く設定されている。上述の如く、所定品詞が、名詞及び形容詞の組合せである場合、上述したこれら品詞の特性から、ユーザの知識及び関心が多い話題をより高い確率で選択できる。これにより、ユーザが話し易い話題を積極的に選択し提供できる。
話題選択部6は、この設定された確率で各象限を選択する。そして、話題選択部6は、選択した各象限に含まれる話題を選択する。話題選択部6は、例えば、第1象限を選択した場合、この第1象限に含まれる話題「料理」を選択する。話題選択部6は、第2象限を選択した場合、この第2象限に含まれる話題「健康」を選択する。話題選択部6は、第3象限を選択した場合、この第3象限に含まれる話題「天気」を選択する。すなわち、話題選択部6は、50%の確率で話題「料理」を選択し、30%の確率で話題「健康」を選択し、20%の確率で話題「天気」を選択することとなる。以上のように第1象限に最も高い確率を設定することで、名詞数及び形容詞数が最も多い第1象限の話題「料理」が積極的に選択される。なお、上記話題の選択方法は一例であり、これに限定されないものとする。
このように、所定品詞の数の2次元象限内で、確率的に話題を選択することで、話易い話題を高い確率で積極的に選択しつつも、他の話題についてもある程度選択する余地を残し、常に同じ話題ばかりになってしまうことを防止できる。
応答生成部7は、応答生成手段の一具体例である。応答生成部7は、話題選択部6により選択された話題に対応付けられた応答を生成する。これにより、ユーザの嗜好に紐付く最適な応答を出力できる。したがって、ユーザが話し易い話題へ誘導でき、対話を継続させることができる。また、応答をランダムに選択し出力する場合と比較して、ユーザの嗜好を反映して応答していることを示すことができる。このため、ユーザは、対話装置1との対話に親近感を感じることができる。
例えば、テーブル情報などにおいてプロファイル情報に設定された話題と、その話題に最適な応答と、が対応付けられていてもよい。テーブル情報は、記憶部2などに記憶されていてもよい。応答生成部7は、話題選択部6により選択された話題に最適な応答をインターネットのWEBなどから自動的に収集してリスト化したテーブル情報を生成し、記憶部2に記憶させてもよい。これにより、テーブル情報を自動的かつ容易に生成でき、このテーブル情報を用いて最適な応答を行うことができる。
例えば、応答生成部7は、話題選択部6により選択された話題「天気」に対応付けられた応答「最近寒くなったけど風邪ひいてない?」、「どんな天気が好き?」等を生成する。応答生成部7は、話題選択部6により選択された話題「料理」に対応付けられた応答「朝ごはん何を食べたの?」、「好きな食べ物は?」等を生成する。応答生成部7は、話題選択部6により選択された話題「健康」に対応付けられた応答「健康の秘訣は何?」、「風邪ひいちゃったんだ?」等を生成する。
応答生成部7は、テーブル情報から、話題に対応する応答をランダムに選択してもよく、他の技術と組み合わせて、前後の発話に適合した応答を選択してもよい。なお、応答生成部7は、一度選択し、出力した応答については、所定時間経過後に、出力するようにしてもよい。これにより、ユーザに対し短時間で同一の応答を繰り返すことなく、より自然な応答が可能となる。
応答生成部7は、生成した応答を、スピーカなどを用いて出力する。
本実施形態に係る対話装置1は、例えば、対話ロボット100などに搭載されている。対話ロボット100は、図4に示す如く、マイク、スピーカ、演算装置などが設けられている。なお、対話装置1の記憶部2、話題推定部3、情報取得部4、話題提示判定部5、および応答生成部7のうちの全部又は一部が、対話ロボット100外の外部(例えば、外部サーバ)101に設けられる構成であってもよい。この場合、対話ロボット100と外部101とは、LTE(Long Term Evolution)などの通信網を介して通信接続され、相互にデータ通信を行ってもよい。
例えば、図5に示す如く、記憶部2、話題推定部3、情報取得部4、及び話題提示判定部5が外部サーバ101内に設けられ、応答生成部7が対話ロボット100内に設けられてもよい。
このように、外部サーバ101と対話ロボット100とで処理を分担することで、対話ロボット100の処理を軽減し、対話ロボット100の小型軽量化を図ることができる。また、外部サーバ101の処理能力を増強することで、容易に対話装置1の処理能力を向上させることができ、より複雑な応答を行うことができる。さらに、対話装置1の保守点検を行う際に、対話ロボット100側に主要な構成要素があると、ユーザが対話ロボット100がある場所まで出向く必要がある。しかし、外部サーバ101側に主要な構成要素を設けることで、その必要がなく、保守点検などのメンテナンスにかかる人的負荷が軽減される。
プロファイル情報を記憶する記憶部2を外部サーバ101側に設けることで、そのデータを大量に持つことができる。一方で、応答生成部7を対話ロボット100側に設けることで、対話の即時性を高め、ユーザに対する発話の応答速度を向上させることができる。外部サーバ101との通信速度に依存しない応答性を発揮できる。
例えば、電波状態の悪い環境下でも対話性能を維持できる。以上のようなメリット、及び対話装置1の使用環境を考慮して、対話装置1の記憶部2、話題推定部3、情報取得部4、話題提示判定部5、および応答生成部7を、外部サーバ101及び対話ロボット100に配置するのが好ましい。
なお、対話装置1は、対話ロボット100に搭載される構成であるが、これに限定されない。対話装置1は、モニタ、キーボードなどを有する入出力装置やスマートフォンなどの携帯端末に搭載されてもよく、任意の装置に搭載可能である。
図6は、本実施形態に係る対話方法の処理フローの一例を示すフローチャートである。なお、図6に示す処理フローは、例えば、所定時間毎に繰返し実行されてもよい。
話題推定部3は、記憶部2になどに記憶されたユーザの発話履歴などに基づいて、word embedding法などを用いて現在の話題を推定する(ステップS101)。
情報取得部4の学習器41は、ユーザ発話に出現する単語の所定品詞の数をカウントする。学習器41は、発話したユーザと、そのカウントした所定品詞の数と、該ユーザ発話に基づき話題推定部3により推定された話題と、を対応付けたプロファイル情報を生成し、生成したプロファイル情報を記憶部2に記憶させる(ステップS102)。
話題提示判定部5は、無音時間などに基づいて、ユーザに対して話題提示を行うか否かを判定する(ステップS103)。
話題提示判定部5は、ユーザに対して話題提示を行うと判定した場合(ステップS103のYES)、話題選択部6は、ユーザ発話と、情報取得部4により取得されたプロファイル情報と、に基づいて、プロファイル情報に設定された複数の話題の中から、設定された選択の確率に従ってユーザが話し易い1つの話題を選択する(ステップS104)。
応答生成部7は、話題選択部6により選択された話題に対応付けられた応答を生成し、生成した応答をスピーカなどを用いて出力する(ステップS105)。
以上、本実施形態に係る対話装置1において、話題選択部6は、情報取得部4により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、所定品詞の数が多い話題ほど、高い確率で選択するように、話題の選択の確率を設定し、該選択の確率に従って話題を選択する。
これにより、ユーザの興味が高い名詞、形容詞、副詞、動詞などの所定品詞の数が多い話題ほど、高い確率で選択するように、話題の選択の確率を設定し、該選択の確率に従って話題を選択する。したがって、ユーザが話し易い話題を積極的に選択し、提供できる。
なお、本発明は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、上記実施形態において、所定品詞は、名詞及び形容詞の組合せであるが、これに限定されない。所定品詞を名詞及び形容詞の組合せとした場合、上述したこれら品詞の特性から、ユーザの知識及び関心が多い話題を積極的に選択し、提供できる。
所定品詞は、名詞及び動詞の組合せであってもよい。所定品詞が名詞及び動詞の組合せである場合、上述したこれら品詞の特性から、ユーザの知識及び体験記憶が多い話題を積極的に選択し、提供できる。
所定品詞は、動詞及び副詞の組合せであってもよい。所定品詞が動詞及び副詞の組合せである場合、上述したこれら品詞の特性から、ユーザの体験記憶及びそれに紐付く気持ちが多く話し易い(所謂話題ネタが多い)話題を積極的に選択し提供できる。
このように、所定品詞の組合せを変えることで、よりユーザの嗜好に適合した話題を積極的に選択し、提供できる。
また、所定品詞は、2つの品詞の組合せであるこれに限定されず、3つ以上の品詞の組合せであってもよい。例えば、所定品詞は、名詞、動詞、及び副詞の組合せであってもよい。この場合、話題選択部6は、例えば、記憶部2のプロファイル情報に基づいて、各話題を3次元象限の各象限にそれぞれ配置する。
さらに、名詞、形容詞、副詞、動詞などの所定名詞に、ユーザの興味の無さを示す品詞(以下、消極的品詞)を組み合わせてもよい。ユーザの興味の無さを示す消極的品詞として、例えば、代名詞が含まれる。
例えば、名詞、代名詞、及び形容詞を組み合わせた場合、話題選択部6は、情報取得部4により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、品詞数(名詞数−代名詞数+形容詞数)が多い話題ほど、高い確率で選択するように、話題の選択の確率を設定し、該選択の確率に従って話題を選択する。
このように、ユーザの興味を示す所定品詞(名詞数及び形容詞数)からユーザの興味の無さを示す代名詞数を減算した品詞数を求める。この品詞数が、その話題に対する最終的なユーザの興味を示すこととなる。これにより、ユーザの興味を示す所定品詞だけでなく、ユーザの興味の無さを示す代名詞数を考慮して、より高精度にユーザが話し易い話題を選択し、提供できる。
本発明は、例えば、図6に示す処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 対話装置、2 記憶部、3 話題推定部、4 情報取得部、5 話題提示判定部、6 話題選択部、7 応答生成部、41 学習器

Claims (9)

  1. ユーザの発話における話題と、該発話に含まれる単語の所定品詞の数と、を対応付けたプロファイル情報を取得する取得手段と、
    前記取得手段により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記所定品詞の数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択する話題選択手段と、
    前記話題選択手段により選択された話題に基づいて、前記ユーザに対する応答を生成する応答生成手段と、
    を備える、ことを特徴とする対話装置。
  2. 請求項1記載の対話装置であって、
    前記所定品詞は、名詞、形容詞、副詞、及び動詞のうち少なくとも1つの品詞を含む、ことを特徴とする対話装置。
  3. 請求項1又は2記載の対話装置であって、
    前記所定品詞は、2以上の品詞の組合せであり、
    前記話題選択手段は、品詞の数と品詞の種類の数が多い話題ほど高い確率で選択することを特徴とする対話装置。
  4. 請求項3記載の対話装置であって、
    前記所定品詞は、名詞と形容詞であることを特徴とする対話装置。
  5. 請求項1乃至4のうちいずれか1項記載の対話装置であって、
    前記話題選択手段は、
    前記取得手段により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、名詞及び形容詞の数が最も多い話題を最も高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択する、
    ことを特徴とする対話装置。
  6. 請求項1乃至5のうちいずれか1項記載の対話装置であって、
    前記話題選択手段は、
    前記所定品詞の数から前記発話に含まれる代名詞の数を減算した品詞数を算出し、
    前記取得手段により取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記算出した品詞数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択する、
    ことを特徴とする対話装置。
  7. 請求項1乃至6のうちのいずれか1項記載の対話装置であって、
    前記取得手段により取得されたプロファイル情報を記憶する記憶手段を更に備え、
    前記話題選択手段は、前記記憶手段のプロファイル情報において、前記ユーザの発話が所定回数以上蓄積されるまで、ランダムに前記話題を選択する、
    ことを特徴とする対話装置。
  8. ユーザの発話における話題と、該発話に含まれる単語の所定品詞の数と、を対応付けたプロファイル情報を取得するステップと、
    前記取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記所定品詞の数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択するステップと、
    前記選択された話題に基づいて、前記ユーザに対する応答を生成するステップと、
    を含む、ことを特徴とする対話方法。
  9. ユーザの発話における話題と、該発話に含まれる単語の所定品詞の数と、を対応付けたプロファイル情報を取得する処理と、
    前記取得されたプロファイル情報に基づいて、該プロファイル情報に設定された話題の中から、前記所定品詞の数が多い話題ほど、高い確率で選択するように、前記話題の選択の確率を設定し、該設定した選択の確率に従って前記話題を選択する処理と、
    前記選択された話題に基づいて、前記ユーザに対する応答を生成する処理と、
    をコンピュータに実行させる、ことを特徴とする対話プログラム。
JP2017088660A 2017-04-27 2017-04-27 対話装置、対話方法及び対話プログラム Active JP6777002B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017088660A JP6777002B2 (ja) 2017-04-27 2017-04-27 対話装置、対話方法及び対話プログラム
US15/941,056 US10861445B2 (en) 2017-04-27 2018-03-30 Interactive apparatus, interactive method, and interactive program
CN201810387913.1A CN108804518A (zh) 2017-04-27 2018-04-26 交互式装置、交互式方法及交互式程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017088660A JP6777002B2 (ja) 2017-04-27 2017-04-27 対話装置、対話方法及び対話プログラム

Publications (2)

Publication Number Publication Date
JP2018185751A JP2018185751A (ja) 2018-11-22
JP6777002B2 true JP6777002B2 (ja) 2020-10-28

Family

ID=63917340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017088660A Active JP6777002B2 (ja) 2017-04-27 2017-04-27 対話装置、対話方法及び対話プログラム

Country Status (3)

Country Link
US (1) US10861445B2 (ja)
JP (1) JP6777002B2 (ja)
CN (1) CN108804518A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6777002B2 (ja) * 2017-04-27 2020-10-28 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム
WO2020066019A1 (ja) * 2018-09-28 2020-04-02 富士通株式会社 対話装置、対話方法及び対話プログラム
CN109872254A (zh) * 2018-11-30 2019-06-11 广州富港万嘉智能科技有限公司 一种用餐方式提示方法、系统及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7177817B1 (en) * 2002-12-12 2007-02-13 Tuvox Incorporated Automatic generation of voice content for a voice response system
JP2010244498A (ja) * 2009-04-07 2010-10-28 Gengo Rikai Kenkyusho:Kk 自動応答文生成システム
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
US9117374B2 (en) * 2012-09-19 2015-08-25 Google Inc. Automatically generating quiz questions based on displayed media content
JP6347938B2 (ja) 2013-11-20 2018-06-27 日本電信電話株式会社 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP5940135B2 (ja) 2014-12-02 2016-06-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 話題提示方法、装置及びコンピュータ・プログラム。
JP6601069B2 (ja) * 2015-09-01 2019-11-06 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
CN105260356B (zh) * 2015-10-10 2018-02-06 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
EP3408766A4 (en) * 2016-01-25 2020-01-22 Wespeke, Inc. SYSTEM FOR PROCESSING NATURAL LANGUAGE WITH DIGITAL MEDIA CONTENT EXTRACTION
JP6777002B2 (ja) * 2017-04-27 2020-10-28 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム

Also Published As

Publication number Publication date
US20180315419A1 (en) 2018-11-01
US10861445B2 (en) 2020-12-08
JP2018185751A (ja) 2018-11-22
CN108804518A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
JP7486540B2 (ja) 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント
Thomas et al. Style and alignment in information-seeking conversation
US20220405423A1 (en) Assembling and evaluating automated assistant responses for privacy concerns
Li et al. A persona-based neural conversation model
EP2157570B1 (en) Automatic conversation system and conversation scenario editing device
US20200066264A1 (en) Intelligent hearing aid
JP6777002B2 (ja) 対話装置、対話方法及び対話プログラム
WO2014043027A2 (en) Improving phonetic pronunciation
CN113314119B (zh) 语音识别智能家居控制方法及装置
US11789695B2 (en) Automatic adjustment of muted response setting
JP7059813B2 (ja) 音声対話システム、その処理方法及びプログラム
CN105390137B (zh) 响应生成方法、响应生成装置和响应生成程序
JP6914094B2 (ja) 発話生成装置、発話生成方法及び発話生成プログラム
Glasser Automatic speech recognition services: Deaf and hard-of-hearing usability
US20140324458A1 (en) Method and Apparatus for Predicting Outcome of Hearing Device Implantation
JP2000207214A (ja) 対話装置
CN113545781A (zh) 虚拟现实促眠的方法及装置
Chiba et al. Estimation of user’s willingness to talk about the topic: Analysis of interviews between humans
CN111161706A (zh) 交互方法、装置、设备和系统
Volkmann et al. Age-appropriate Participatory Design of a Storytelling Voice Input in the Context of Historytelling.
US11397857B2 (en) Methods and systems for managing chatbots with respect to rare entities
US9460716B1 (en) Using social networks to improve acoustic models
JP2021149664A (ja) 出力装置、出力方法及び出力プログラム
JP6798839B2 (ja) 情報提供装置、および情報提供方法
Tobin et al. Automatic speech recognition of conversational speech in individuals with disordered speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200921

R151 Written notification of patent or utility model registration

Ref document number: 6777002

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151