JP2021144633A - ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法 - Google Patents

ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法 Download PDF

Info

Publication number
JP2021144633A
JP2021144633A JP2020044600A JP2020044600A JP2021144633A JP 2021144633 A JP2021144633 A JP 2021144633A JP 2020044600 A JP2020044600 A JP 2020044600A JP 2020044600 A JP2020044600 A JP 2020044600A JP 2021144633 A JP2021144633 A JP 2021144633A
Authority
JP
Japan
Prior art keywords
dialogue
vocabulary
user
marker
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020044600A
Other languages
English (en)
Other versions
JP7221902B2 (ja
Inventor
剣明 呉
Jiangming Wu
剣明 呉
正樹 内藤
Masaki Naito
正樹 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020044600A priority Critical patent/JP7221902B2/ja
Publication of JP2021144633A publication Critical patent/JP2021144633A/ja
Application granted granted Critical
Publication of JP7221902B2 publication Critical patent/JP7221902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザの関心度に応じて雑談のような対話を継続する対話装置、プログラム及び方法を提供する。【解決手段】対話装置において、全ての対話学習エンジンから取得した対話シナリオから複数の語彙を抽出する語彙抽出部と、複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成し、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書作成部と、対話中のユーザに基づくマルチメディアデータを取得するユーザデータ取得部と、該データから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと、シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する対話学習エンジン選択部と、関心度が高い程マーカー語彙と同じクラスタに属する他の語彙へ、関心度が低い程マーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させるマーカー語彙移動制御部と、を有する。【選択図】図2

Description

本発明は、ユーザと自然な対話を実現する対話装置の技術に関する。
対話装置は、一般的に、マイクによってユーザの発話音声を収音し、その発話音声から音声認識によってテキストに変換し、そのテキストに応じた対話文を生成し、その対話文から音声合成によって生成した対話音声をスピーカから発声する。対話型AI(Artificial Intelligence)としては、例えば、「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」のような対話システムや、「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカがある。このような技術は、音楽の再生や、天気予報・ニュースを知らせるなどの特定タスクを実行することに適する。
また、ユーザの対話相手を擬人化した「SOTA(登録商標)」や「ユニボー(登録商標)」のようなロボットの技術もある。この技術によれば、ロボットは、ユーザの周辺状況からキーワードを抽出し、そのキーワードをテンプレートに埋め込んだ対話文を生成し、その対話文をユーザへ発声する。これによって、対話のきっかけをユーザの周辺状況から得ることができる。
従来、ユーザからの要求に返答するだけでなく、対話を継続するための技術がある。例えば複数の対話学習エンジンを備えた上で、ユーザから入力された発話文と過去の対話履歴とを用いて、強く関連する対話学習エンジンを選択し、その対話学習エンジンから返答する技術がある(例えば特許文献1参照)。
また、話題毎にキーワードリストを対応付けた上で、ユーザの発話文の中から形態素解析によって複数のキーワードを抽出し、キーワードリストと所定関係(類似関係及び上下関係)にある話題で対話を継続させる技術もある(例えば特許文献2参照)。この技術によれば、キーワードと関係がない対話に対しては、予め用意された対話シナリオに沿って対話を進行させる。
特開2007−47488号公報 特開2017−49471号公報
NTTコミュニケーション科学基礎研究所、「汎用的な意味解析技術への挑戦」、[online]、[令和2年3月5日]、インターネット<URL:https://www.ntt.co.jp/journal/0806/files/jn200806024.pdf> MathWorks、「顔認識」、[online]、[令和2年3月5日]、インターネット<https://jp.mathworks.com/discovery/face-recognition.html>
前述した特許文献1及び2に記載の技術は、予め用意された対話シナリオに沿って対話を進行するために、話題が少ないという課題があった。特に、特許文献2に記載の技術は、ユーザの発話文と話題との所定関係でしか参照していないために、話題の展開は、キーワードリストに依存することとなっていた。
これに対し、発明者らは、対話を継続させるために、ユーザの関心度の高い話題で、対話内容を展開する「雑談対話型AI」を開発することはできないか、と考えた。
そこで、本発明は、ユーザに飽きられることなく雑談のような対話を継続するために、ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法を提供することを目的とする。
本発明によれば、複数の対話学習エンジンから選択した対話学習エンジンを用いて、ユーザと対話する対話装置において、
全ての対話学習エンジンから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙を抽出する語彙抽出手段と、
抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成すると共に、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書作成手段と、
対話中のユーザに基づくマルチメディアデータを取得するユーザデータ取得手段と、
マルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと、
シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する対話学習エンジン選択手段と、
関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させるマーカー語彙移動制御手段と
を有することを特徴とする。
本発明の対話装置における他の実施形態によれば、
語彙及び対話シナリオは、意味属性的に近いほど距離が近くなるようにベクトル表現されており、
シソーラス辞書作成手段は、語彙同士のベクトルの距離が近いほど同一のクラスタに分類する
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
マーカー語彙移動制御手段は、関心度が低いほどマーカー語彙との距離が遠いクラスタに属する語彙へ、マーカーを移動させる
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
複数の対話学習エンジンは、汎用対話学習エンジンに加えて、時事用対話学習エンジン、テレビ用対話学習エンジン、及び/又は、専門用対話学習エンジンを含む
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
対話装置は、カメラに接続されており、
マルチメディアデータは、カメラによって撮影されたユーザの顔画像の特徴量であり、
関心度推定エンジンは、学習段階として、顔画像の特徴量とユーザの関心度とを対応付けて学習したものであり、推定段階として、マルチメディアデータとしての顔画像の特徴量を入力し、ユーザの関心度を出力する
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
関心度推定エンジンにおける顔画像の特徴量は、顔表情、視線及び/又は仕草に基づくものである
ことも好ましい。
本発明の対話装置における他の実施形態によれば、
対話装置は、マイクに接続されており、
マルチメディアデータは、マイクによって収音されたユーザの発話音声から音声認識された発話文であり、
関心度推定エンジンは、学習段階として、ユーザにおける発話文の特徴量とユーザの関心度とを対応付けて学習したものであり、推定段階として、マルチメディアデータとしての発話文の特徴量を入力し、ユーザの関心度を出力する
ことも好ましい。
本発明によれば、複数の対話学習エンジンから選択した対話学習エンジンを用いて、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
全ての対話学習エンジンから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙を抽出する語彙抽出手段と、
抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成すると共に、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書作成手段と、
対話中のユーザに基づくマルチメディアデータを取得するユーザデータ取得手段と、
マルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと、
シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する対話学習エンジン選択手段と、
関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させるマーカー語彙移動制御手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、複数の対話学習エンジンから選択した対話学習エンジンを用いて、ユーザと対話する装置の対話方法において、
装置は、
全ての対話学習エンジンから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙を抽出し、抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成すると共に、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書と、
対話中のユーザに基づくマルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと
を有し、
対話中のユーザに基づくマルチメディアデータを取得する第1のステップと、
関心度推定エンジンを用いて、取得したマルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する第2のステップと、
関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させる第3のステップと、
シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する第4のステップと、
を繰り返し実行することを特徴とする。
本発明の対話装置、プログラム及び方法によれば、ユーザに飽きられることなく雑談のような対話を継続するために、ユーザの関心度に応じて対話を進行させることができる。
本発明における対話装置の周辺環境を表すシステム構成図である。 本発明における対話装置の機能構成図である。 本発明における語彙抽出部及びシソーラス辞書作成部の説明図である。 本発明における関心度推定エンジンの説明図である。 本発明におけるマーカー語彙移動制御部及び対話学習エンジン選択部の説明図である。 対話装置とユーザとの間の対話を表すシーケンス図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における対話装置の周辺環境を表すシステム構成図である。
図1によれば、対話装置1は、キャラクタとしてのロボットであり、ユーザと雑談のような対話を継続するために、ユーザの関心度に応じて対話を進行させることができる。
対話装置1は、対話用のユーザインタフェースの入出力デバイスとして、マイク及びスピーカを搭載する。マイクによってユーザの発話音声を収音し、スピーカによって対話音声をユーザへ発声する。
また、対話用のユーザインタフェースの入出力デバイスとして、キー及びディスプレイを搭載したものであってもよい。ユーザのキー入力によって発話文を取得し、ディスプレイによって対話文をユーザへ明示するものであってもよい。
対話装置1は、対話中のユーザの関心度を推定するために、ユーザに基づくマルチメディアデータを取得する。ここで、マルチメディアデータの取得用のユーザインタフェースとして、以下の2つの実施形態がある。
<第1の実施形態:ユーザの顔画像を撮影するカメラの場合>
<第2の実施形態:ユーザの声を収音するマイク場合>
(マイクは、対話用のユーザインタフェースと同様)
図2は、本発明における対話装置の機能構成図である。
図2によれば、対話装置1は、複数の異なる対話学習エンジン101〜10nと、語彙抽出部11と、シソーラス辞書作成部12と、ユーザデータ取得部13(顔画像認識部131、音声認識部132)と、関心度推定エンジン14と、マーカー語彙移動制御部15と、対話学習エンジン選択部16と、対話実行部171と、音声変換部172とを有する。これら機能構成部は、対話装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置の対話方法としても理解できる。
[対話学習エンジン101〜10n]
対話装置1は、異なる複数の対話学習エンジン101〜10nを備える。対話学習エンジン10はそれぞれ、特有の「対話シナリオ」を記憶している。対話学習エンジン10は、ユーザからの発話文に応じて、対話シナリオを辿りながら対話を進行する。
対話シナリオとは、対話文を含む対話ノードを、ユーザの発話文に応じてツリー状に辿るように構成したものである。例えば、ユーザの入力に対する応答パターンを記述するFST(Finite State Transducer)のスクリプトファイルで記述されたものであってもよい。
対話学習エンジン10としては、例えば、汎用対話学習エンジンに加えて、時事用対話学習エンジン、テレビ用対話学習エンジン、及び/又は、専門用対話学習エンジンを含むものであってもよい。人間同士の雑談のように、現在進行中の話題と共通性を持ちながら、異なる分野の話題へ展開するために、複数の異なる分野の対話学習エンジンを備える。これによって、話題が豊富で飽きられにくい雑談的な対話を実現することができる。
(汎用対話学習エンジン)
汎用対話学習エンジンは、例えば日常的な対話を進行する対話シナリオを記憶する。例えばクラウドソーシングによって構築された一般的な人間同士の対話を想定したものである。
(時事用対話学習エンジン)
時事用対話学習エンジンは、例えばニュースの話題に基づく対話を進行する対話シナリオを記憶する。例えばSNS(Social Networking Service)上で話題になっているニュースや、そのニュースに対するコメント(ツイート等)に基づく対話を進行する。
(テレビ用対話学習エンジン)
テレビ用対話学習エンジンは、例えばテレビの番組コンテンツに基づく対話を進行する対話シナリオを記憶する。例えば現在放送中の番組コンテンツのメタデータ(例えば電子番組表や、ナレーションの字幕など)に基づく話題を進行する。
(専門用対話学習エンジン)
専門用対話学習エンジンは、例えば科学技術のような特定の専門分野に基づく対話を進行する対話シナリオを記憶する。
その他、様々な性質を持つ対話学習エンジンを備えることが好ましい。
図3は、本発明における語彙抽出部及びシソーラス辞書作成部の説明図である。
[語彙抽出部11]
語彙抽出部11は、全ての対話学習エンジン101〜10nから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙(有効単語の群)を抽出する。対話シナリオは、ユーザの発話文に対する応答文を記述したものであって、テキスト群である。
語彙抽出部11は、これら対話シナリオの大量のテキスト群から、形態素解析によって一般名詞を抽出する(図3参照)。抽出された多数の一般名詞は、シソーラス辞書作成部12へ出力される。
[シソーラス辞書作成部12]
シソーラス辞書作成部12は、抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス(thesaurus)辞書を作成する。
「語彙」は、意味属性的に近いほど距離(ユークリッド距離)が近くなるように、例えばWord2vecに基づくベクトル(分散ベクトル)で表現する。
「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮する技術をいう。2つの語彙について、類似度が高いほどベクトル間距離は短くなり、類似度が低いほどベクトル間距離は長くなる。当然、同一カテゴリに属する語彙同士は、類似度が高くなる(ベクトル間距離は短くなる)。
語彙の類似度は、以下のようにコサイン類似度で表される。
S(a,b)=cosθ=(Va・Vb)/(|Va||Vb|)
Va:第1の語彙の特徴ベクトル
Vb:第2の語彙の特徴ベクトル
S(a,b):0〜1(類似度が高いほど1に近づく)
「シソーラス辞書」は、第1の語彙から第2の語彙までの距離を、第1の話題から第2の話題へ遷移した際の話題展開度合いを意味する。
本発明のシソーラス辞書は、各語彙のベクトルのユークリッド距離が近い(同義語又は関連語)ほど、同一のクラスタに分類するようにする。例えばk-meansのようなクラスタリング手法を用いて、多数の語彙を複数のクラスタに分類する。図3によれば、1つのカテゴリに複数の語彙が含まれている。同じクラスタに属する語彙同士は、ベクトルのユークリッド距離が近いものとなる。
尚、シソーラス辞書は、Wordnetを用いて、各カテゴリ階層の下に複数の語彙を置くサブ・ツリー構造に分類されたものであってもよい。
図3によれば、1つのカテゴリと複数の語彙とが以下のような関係にある。
カテゴリ「国内」=>語彙「政治」「社会」「人」
カテゴリ「国際」=>語彙「中韓露」「米EU」「・・・」
・・・・・・・
例えば、語彙「政治」「社会」「人」のベクトル間距離は、比較的近くなる。また、語彙「中韓露」「米EU」のベクトル間距離も、比較的近くなる。一方で、語彙「社会」と語彙「中韓露」とのベクトル間距離は、比較的遠くなる。
また、カテゴリも、ベクトル表現される。例えばカテゴリ「国内」のベクトルは、語彙「政治」「社会」「人」のベクトルの平均値としてもよい。
また、シソーラス辞書作成部12は、各対話シナリオもベクトル表現する。例えば、「対話シナリオに含まれる全ての語彙」について、全ての語彙のベクトルを平均化して、1つのベクトルで表現するようにする。即ち、1つの語彙又はカテゴリと、1つの対話シナリオとを、ベクトルの距離を類似度で判定することができる。
これによって、語彙、カテゴリ及び対話シナリオは、意味属性的に近いほど距離が近くなるようにベクトル表現される。
更に、シソーラス辞書には、現在の対話内容に対応する語彙にマーカーが付されている。本発明によれば、シソーラス辞書の中で、語彙に付されるマーカーを移動させることによって、そのマーカー語彙又はカテゴリに基づく話題へ切り替わるように展開される。マーカー語彙の移動については、マーカー語彙移動制御部15によって後述する。
尚、任意の語彙について、最も類似度が高いカテゴリに属するものであっても、その語彙とカテゴリとのベクトル間の距離が所定閾値以上である場合、「未知語」と判定するものであってもよい。その場合、全ての未知語に対して、クラスタリングを実行し、新規に複数のカテゴリを構成することもできる。
<第1の実施形態:ユーザの顔画像を撮影するカメラの場合>
[ユーザデータ取得部13]
ユーザデータ取得部13は、対話中のユーザに基づくマルチメディアデータを取得する。第1の実施形態におけるマルチメディアデータは、カメラによって撮影された顔画像となる。
(顔画像認識部131)
顔画像認識部131は、インカメラによって撮影されたユーザの顔画像(映像)を入力し、各画像からユーザ毎の顔領域を検出する。顔領域は、顔の特徴から作成されたテンプレートと一致する画像部分が検索される。例えば、顔のパーツの相対位置や大きさ、目や鼻やほお骨やあごの形を用いる。
そして、顔画像認識部131は、時系列の各画像から、顔パラメータの時系列変化を特徴量として抽出する。顔画像の時系列の特徴量は、顔表情、視線及び/又は仕草に基づくものである。尚、顔認識アルゴリズムとしては、様々な既存の方法がある(例えば非特許文献2参照)。
そして、顔画像の時系列の特徴量は、関心度推定エンジン14へ出力される。
[関心度推定エンジン14]
関心度推定エンジン14は、マルチメディアデータ(顔画像の特徴量)から、現在の対話内容に対するユーザの関心度を推定する。
図4は、本発明における関心度推定エンジンの説明図である。
図4によれば、関心度推定エンジン14は、学習段階として、顔画像の特徴量とユーザの関心度とを対応付けて学習したものである。
学習段階における教師データの顔画像として、例えばIMDb(Internet Movie Database)のデータセット(例えば45,723枚)を用いることができる。各顔画像から時系列の特徴量を抽出し、その特徴量には、ユーザの関心度が付与されている。例えば目を見開いている顔画像の特徴量には、比較的高い関心度が付与されており、伏し目がちな顔画像の特徴量には、比較的低い関心度が付与されている。これら、顔画像の特徴量とユーザの関心度とが対応付けられた教師データを、例えば畳み込みニューラルネットワークに基づいて学習させる。
その後、推定段階として、関心度推定エンジン14は、ユーザの顔画像の特徴量を入力することによって、推定した関心度を出力する。推定した関心度は、マーカー語彙移動制御部15へ出力される。
図5は、本発明におけるマーカー語彙移動制御部及び対話学習エンジン選択部の説明図である。
[対話学習エンジン選択部16]
対話学習エンジン選択部16は、複数の対話学習エンジンの中から、いずれか1つの対話エンジンを選択する。このとき、シソーラス辞書の「マーカー語彙」と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する。
図5によれば、シソーラス辞書には、カテゴリ毎に複数の語彙が含むクラスタが表されている。また、以下のように、カテゴリ毎に、いずれかの対話学習エンジンに紐付けられている。
時事用対話学習エンジン <->カテゴリ「国内」「国際」
経済用対話学習エンジン <->カテゴリ「経済」
テレビ用対話学習エンジン<->カテゴリ「エンタメ」「スポーツ」
技術用対話学習エンジン <->カテゴリ「IT」「科学」
汎用対話学習エンジン <->カテゴリ「ライフ」
地域用対話学習エンジン <->カテゴリ「地域」
シソーラス辞書によれば、複数の「語彙」が属する各カテゴリは、ベクトル表現されている。また、各対話学習エンジン10の対話シナリオ全体についても、ベクトル表現される。この場合、各カテゴリを、ベクトル表現としても最も類似する対話シナリオを持つ対話学習エンジン10に紐付けることができる。
結果的に、「マーカー語彙」に対して、類似度が最も高い対話シナリオを持つ対話学習エンジン10を選択することができる。
[マーカー語彙移動制御部15]
マーカー語彙移動制御部15は、関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙(同義語又は関連語)へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙(反義語又は無関連語)へ、マーカーを移動させる。
図6は、対話装置とユーザとの間の対話を表すシーケンス図である。
図6(a)のシーケンスによれば、図5のマーカー語彙移動制御部15について、「ユーザの関心度が高い」場合について表す。
(S11)対話装置1は、経過時点t0で、シーケンス辞書におけるマーカーを、語彙「ゲーム」に付しているとする。図5によれば、語彙「ゲーム」は、カテゴリ「エンタメ」に属し、テレビ用対話学習エンジンが選択されているとする。
(S12)マーカー語彙「ゲーム」のカテゴリ「エンタメ」に対して、テレビ用対話学習エンジンが選択されている(図5参照)。テレビ用対話学習エンジンは、対話シナリオの中から「ゲーム」に適する対話文「ゲームは、AAAが今、流行ってるね!」を出力している。
(S13)これに対し、対話装置1は、ユーザの顔画像(マルチメディアデータ)を撮影する。その顔画像から、ユーザの関心度0.9が推定されたとする。例えば、閾値0.7以上は、関心度が高いと判定することができる。
(S14)このとき、対話装置1は、経過時点t1で、シーケンス辞書におけるマーカーを、関連度に応じたベクトル距離で、同じカテゴリ(クラスタ)に属する語彙「テレビ」へ移動させる(図5参照)。
(S15)マーカー語彙「テレビ」のカテゴリ「エンタメ」に対して、テレビ用対話学習エンジンが選択されている。テレビ用対話学習エンジンは、ユーザの発話文「僕は、BBBが好きだけど」を取得し、対話シナリオの中から「テレビ」「BBB」に適する対話文「BBBは、芸人Xが得意だって!」を出力している。
図6(b)のシーケンスによれば、図5のマーカー語彙移動制御部15について、「ユーザの関心度が低い」場合について表す。
(S21)図6(a)のS11と同様。
(S22)図6(a)のS12と同様。
(S23)これに対し、対話装置1は、ユーザの顔画像(マルチメディアデータ)を撮影する。その顔画像から、ユーザの関心度0.2が推定されたとする。例えば、閾値0.3以下は、関心度が低いと判定することができる。
(S24)このとき、対話装置1は、経過時点t1で、シーケンス辞書におけるマーカーを、関連度に応じたベクトル距離で、別のカテゴリ(クラスタ)に属する語彙「ヘルス」へ移動させる(図5参照)。
(S25)マーカー語彙「ヘルス」のカテゴリ「ライフ」に対して、汎用対話学習エンジンが選択されている。汎用対話学習エンジンは、ユーザの発話文「・・・」を取得し、対話シナリオの中から「ヘルス」に適する対話文「毎日、運動はしてますか?」を出力している。
このように、マーカー語彙移動制御部15は、関心度が低いほどマーカー語彙とのユークリッド距離が遠いクラスタに属する語彙へ、マーカーを移動させる。即ち、関心度の大きさに応じて、次にマーカーを移動させる距離を制御する。現在指示の距離が遠くなるほど、異なる話題で対話文が生成されることとなる。
[対話実行部171・音声変換部172]
対話実行部171は、対話学習エンジン選択部16によって選択された対話学習エンジンを用いて、ユーザに対する対話文を出力する。
音声変換部172は、対話実行部171から出力された対話文を、音声合成によって音声信号に変換し、その音声信号をスピーカへ出力する。
このようにして、対話装置1は、ユーザとの間で、音声によって対話を進行していく。
<第2の実施形態:ユーザの声を収音するマイク場合>
第1の実施形態によれば、ユーザに基づくマルチメディアデータが、カメラによって撮影されたユーザの顔画像であるとして説明した。
これに対して、第2の実施形態によれば、ユーザに基づくマルチメディアデータが、マイクによって収音されたユーザの声であるとする。この場合、図2によれば、ユーザデータ取得部13は、音声認識部132として機能する。
(音声認識部132)
音声認識部132は、マイクによって収音されたユーザが発話した声から音声認識によって、発話文を出力する。
この場合、関心度推定エンジン14は、学習段階として、発話文の特徴量とユーザの関心度とを対応付けて学習したものとなる。また、関心度推定エンジン14は、推定段階として、マルチメディアデータとしての発話文を入力し、ユーザの関心度を出力する
以上、詳細に説明したように、本発明の対話装置、プログラム及び方法によれば、ユーザに飽きられることなく雑談のような対話を継続するために、ユーザの関心度に応じて対話を進行させることができる。
尚、被験者実験の結果、政治やスポーツなどの幅広い話題に対して、従来技術における対話装置に対して、本発明の対話装置は、雑談のような対話を、2〜3倍の時間の長さで継続することができた。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話装置
10 対話学習エンジン
11 語彙抽出部
12 シソーラス辞書作成部
13 ユーザデータ取得部
131 顔画像認識部
132 音声認識部
14 関心度推定エンジン
15 マーカー語彙移動制御部
16 対話学習エンジン選択部
171 対話実行部
172 音声変換部

Claims (9)

  1. 複数の対話学習エンジンから選択した対話学習エンジンを用いて、ユーザと対話する対話装置において、
    全ての対話学習エンジンから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙を抽出する語彙抽出手段と、
    抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成すると共に、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書作成手段と、
    対話中のユーザに基づくマルチメディアデータを取得するユーザデータ取得手段と、
    マルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと、
    シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する対話学習エンジン選択手段と、
    関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させるマーカー語彙移動制御手段と
    を有することを特徴とする対話装置。
  2. 語彙及び対話シナリオは、意味属性的に近いほど距離が近くなるようにベクトル表現されており、
    シソーラス辞書作成手段は、語彙同士のベクトルの距離が近いほど同一のクラスタに分類する
    ことを特徴とする請求項1に記載の対話装置。
  3. マーカー語彙移動制御手段は、関心度が低いほどマーカー語彙との距離が遠いクラスタに属する語彙へ、マーカーを移動させる
    ことを特徴とする請求項1又は2に記載の対話装置。
  4. 複数の対話学習エンジンは、汎用対話学習エンジンに加えて、時事用対話学習エンジン、テレビ用対話学習エンジン、及び/又は、専門用対話学習エンジンを含む
    ことを特徴とする請求項1から3のいずれか1項に記載の対話装置。
  5. 対話装置は、カメラに接続されており、
    マルチメディアデータは、カメラによって撮影されたユーザの顔画像の特徴量であり、
    関心度推定エンジンは、学習段階として、顔画像の特徴量とユーザの関心度とを対応付けて学習したものであり、推定段階として、マルチメディアデータとしての顔画像の特徴量を入力し、ユーザの関心度を出力する
    ことを特徴とする請求項1から4のいずれか1項に記載の対話装置。
  6. 関心度推定エンジンにおける顔画像の特徴量は、顔表情、視線及び/又は仕草に基づくものである
    ことを特徴とする請求項5に記載の対話装置。
  7. 対話装置は、マイクに接続されており、
    マルチメディアデータは、マイクによって収音されたユーザの発話音声から音声認識された発話文であり、
    関心度推定エンジンは、学習段階として、ユーザにおける発話文の特徴量とユーザの関心度とを対応付けて学習したものであり、推定段階として、マルチメディアデータとしての発話文の特徴量を入力し、ユーザの関心度を出力する
    ことを特徴とする請求項1から6のいずれか1項に記載の対話装置。
  8. 複数の対話学習エンジンから選択した対話学習エンジンを用いて、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
    全ての対話学習エンジンから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙を抽出する語彙抽出手段と、
    抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成すると共に、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書作成手段と、
    対話中のユーザに基づくマルチメディアデータを取得するユーザデータ取得手段と、
    マルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと、
    シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する対話学習エンジン選択手段と、
    関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させるマーカー語彙移動制御手段と
    してコンピュータを機能させることを特徴とするプログラム。
  9. 複数の対話学習エンジンから選択した対話学習エンジンを用いて、ユーザと対話する装置の対話方法において、
    装置は、
    全ての対話学習エンジンから対話シナリオを取得し、全ての対話シナリオから所定条件に基づく複数の語彙を抽出し、抽出された複数の語彙を、意味属性的に類似するクラスタに分類したシソーラス辞書を作成すると共に、現在の対話内容に対応する語彙にマーカーを付すシソーラス辞書と、
    対話中のユーザに基づくマルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する関心度推定エンジンと
    を有し、
    対話中のユーザに基づくマルチメディアデータを取得する第1のステップと、
    関心度推定エンジンを用いて、取得したマルチメディアデータから、現在の対話内容に対するユーザの関心度を推定する第2のステップと、
    関心度が高いほどマーカー語彙と同じクラスタに属する他の語彙へ、関心度が低いほどマーカー語彙と異なるクラスタに属する語彙へ、マーカーを移動させる第3のステップと、
    シソーラス辞書のマーカー語彙と類似度が最も高い対話シナリオを持つ対話学習エンジンを選択する第4のステップと、
    を繰り返し実行することを特徴とする装置の対話方法。
JP2020044600A 2020-03-13 2020-03-13 ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法 Active JP7221902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020044600A JP7221902B2 (ja) 2020-03-13 2020-03-13 ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020044600A JP7221902B2 (ja) 2020-03-13 2020-03-13 ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2021144633A true JP2021144633A (ja) 2021-09-24
JP7221902B2 JP7221902B2 (ja) 2023-02-14

Family

ID=77766874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020044600A Active JP7221902B2 (ja) 2020-03-13 2020-03-13 ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP7221902B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102493600B1 (ko) * 2021-12-21 2023-01-31 (주)웅진씽크빅 아이 트래킹을 이용한 독서 토론 지원 시스템 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047488A (ja) * 2005-08-10 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体
JP2008254122A (ja) * 2007-04-05 2008-10-23 Honda Motor Co Ltd ロボット
JP2010225115A (ja) * 2009-03-25 2010-10-07 Toshiba Corp コンテンツ推薦装置及び方法
US20170060994A1 (en) * 2015-08-24 2017-03-02 International Business Machines Corporation Topic shift detector
JP2017067851A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話方法
JP2020166839A (ja) * 2019-03-29 2020-10-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 関連付け関心点に基づく文推奨方法及び装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047488A (ja) * 2005-08-10 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体
JP2008254122A (ja) * 2007-04-05 2008-10-23 Honda Motor Co Ltd ロボット
JP2010225115A (ja) * 2009-03-25 2010-10-07 Toshiba Corp コンテンツ推薦装置及び方法
US20170060994A1 (en) * 2015-08-24 2017-03-02 International Business Machines Corporation Topic shift detector
JP2017067851A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話方法
JP2020166839A (ja) * 2019-03-29 2020-10-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 関連付け関心点に基づく文推奨方法及び装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
別所 克人 外4名: "雑談対話における話題継続願望判定の検討", 第74回 言語・音声理解と対話処理研究会資料 (SIG−SLUD−B501), JPN6023003411, 15 July 2015 (2015-07-15), JP, pages 1 - 6, ISSN: 0004975825 *
堀内 理沙 外3名: "雑談システムにおける話題転換", 言語処理学会第15回年次大会発表論文集, JPN6023003410, 2 March 2009 (2009-03-02), JP, pages 312 - 315, ISSN: 0004975824 *
栂井 良太 外4名: "非言語音響情報を利用した話題誘導を行う情報収集対話システム", FIT2017 第16回情報科学技術フォーラム 講演論文集 第2分冊 選奨論文・一般論文 データベー, JPN6023003412, 5 September 2017 (2017-09-05), pages 171 - 172, ISSN: 0004975826 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102493600B1 (ko) * 2021-12-21 2023-01-31 (주)웅진씽크빅 아이 트래킹을 이용한 독서 토론 지원 시스템 및 방법

Also Published As

Publication number Publication date
JP7221902B2 (ja) 2023-02-14

Similar Documents

Publication Publication Date Title
Li et al. A persona-based neural conversation model
US20180314689A1 (en) Multi-lingual virtual personal assistant
WO2020082560A1 (zh) 文本关键词提取方法、装置、设备及计算机可读存储介质
CN107451126B (zh) 一种近义词筛选方法及系统
Kamper et al. Visually grounded learning of keyword prediction from untranscribed speech
CN110717017A (zh) 一种处理语料的方法
Tariq et al. A context-driven extractive framework for generating realistic image descriptions
CN114830148A (zh) 可控制有基准的文本生成
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
CN111819625A (zh) 用于语言模型个性化的系统和方法
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
Harwath et al. Zero resource spoken audio corpus analysis
Tiwari et al. Ensemble approach for twitter sentiment analysis
Zhang et al. Research on keyword extraction of Word2vec model in Chinese corpus
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
Gil et al. Combining machine learning techniques and natural language processing to infer emotions using Spanish Twitter corpus
Zhang et al. Transfer hierarchical attention network for generative dialog system
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
JP7169770B2 (ja) 人工知能プログラミングサーバおよびそのプログラム
JP7221902B2 (ja) ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
US20210337274A1 (en) Artificial intelligence apparatus and method for providing visual information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230202

R150 Certificate of patent or registration of utility model

Ref document number: 7221902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150