JP7352491B2

JP7352491B2 - ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法

Info

Publication number: JP7352491B2
Application number: JP2020034460A
Authority: JP
Inventors: 剣明呉; 正樹内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-09-28
Anticipated expiration: 2040-02-28
Also published as: JP2021139921A

Description

本発明は、ユーザと自然な対話を実現する対話装置の技術に関する。

対話装置は、一般的に、マイクによってユーザの発話音声を収音し、その発話音声から音声認識によってテキストに変換し、そのテキストに応じた対話文を生成し、その対話文を音声合成によって生成した対話音声をスピーカから発声する。対話型ＡＩ(Artificial Intelligence)としては、例えば、「Siri（登録商標）」や「しゃべってコンシェル（登録商標）」のような対話システムや、「Google Home（登録商標）」や「Amazon Echo（登録商標）」のようなスマートスピーカがある。このような技術は、音楽の再生や、天気予報・ニュースを知らせるなどの特定タスクを実行することに適する。

従来、ユーザの対話相手を擬人化した「SOTA（登録商標）」や「ユニボー（登録商標）」のようなロボットの技術がある。例えば、ユーザと一緒にテレビを視聴する「テレビ視聴ロボット」について、視聴中のテレビ番組と連動してユーザへ自発的に発話する技術がある（例えば非特許文献１参照）。この技術によれば、ロボットは、テレビ番組からキーワードを抽出し、そのキーワードをテンプレートに埋め込んだ対話文を生成し、その対話文をユーザへ発声する。これによって、ユーザに対して、テレビ番組のような対話のきっかけを作ることができる。

また、テレビ視聴中のユーザに対して、ランダムなタイミングで、話題辞書及び発話文テンプレートを用いて話題を生成する技術もある（例えば非特許文献２参照）。この技術によれば、そのユーザの属性に合わせて対話文を生成することができる。

更に、ユーザの嗜好情報及び人間関係を考慮した雑談対話システムの技術もある（例えば非特許文献３参照）。この技術によれば、話題を提示するテンプレートを大量に用意する必要がなく、ユーザからの発話を起点として対話を開始するものである。

星祐太, 金子豊, 村崎康博, 上原道宏："視聴実験によるロボットとのテレビ視聴に関する基礎調査", 映像情報メディア学会2018年次大会14B-2 (2018) 山本大介, et al. "高齢者対話インタフェース:話し相手となって, お年寄りの生活を豊かに." 電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎109.224: pp.47-51(2009). 小林峻也, and 萩原将文. "ユーザの嗜好や人間関係を考慮する非タスク指向型対話システム." 人工知能学会論文誌 (2016): DSF-502. ＮＴＴコミュニケーション科学基礎研究所、「汎用的な意味解析技術への挑戦」、[online]、［令和２年２月２２日］、インターネット＜URL:https://www.ntt.co.jp/journal/0806/files/jn200806024.pdf＞ MathWorks、「顔認識」、[online]、［令和２年２月２２日］、インターネット＜https://jp.mathworks.com/discovery/face-recognition.html＞

非特許文献１に記載の技術によれば、テレビ番組から抽出したキーワードを単にテンプレートに埋め込んだに過ぎず、テレビ番組の内容と直接的な対話文を生成するものである。また、非特許文献２及び３に記載のいずれの技術も、ユーザの周辺状況に応じて対話を展開させるものではない。
これに対し、本願の発明者らは、対話中のユーザ周辺状況から概念的に広く捉えた雑談のような対話を進行させることができないか、と考えた。

そこで、本発明は、ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法を提供することを目的とする。

本発明によれば、ユーザと対話する対話装置において、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
を有することを特徴とする。

本発明の対話装置における他の実施形態によれば、
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストであることも好ましい。

本発明の対話装置における他の実施形態によれば、
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。

本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザの周辺を撮影する外側カメラに接続されており、
マルチメディアデータは、外側カメラによって撮影された映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。

本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザの周辺状況を収音するマイクに接続されており、
マルチメディアデータは、マイクによって収音された環境音であり、
語彙抽出手段は、環境音から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出することも好ましい。

本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザを撮影する内側カメラに接続されており、
内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
顔画像からユーザ世代を検出するユーザ世代推定エンジンと
を更に有し、
対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び／又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
ことも好ましい。

本発明の対話装置における他の実施形態によれば、
ユーザ世代推定エンジンは、ＩＭＤｂ(Internet Movie Database)のデータセットを用いて、顔画像と年代と性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものであることも好ましい。

本発明によれば、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、ユーザと対話する装置の対話方法において、
装置は、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
を有し、
ユーザの周辺状況から、マルチメディアデータを取得する第１のステップと、
マルチメディアデータから語彙を抽出する第２のステップと、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第３のステップと、
第３のステップによって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する第５のステップと、
第４のステップによって選択された対話シナリオに、第５のステップの検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する第６のステップと
を実行することを特徴とする。

本発明の対話装置、プログラム及び方法によれば、ユーザ周辺データに応じて雑談のような対話を進行させることができる。即ち、対話のきっかけを多く提供することでき、飽きられにくい雑談対話ＡＩを実現することができる。

本発明における対話装置の周辺環境を表すシステム構成図である。本発明における対話装置の機能構成図である。語彙体系データベース及び対話シナリオデータベースの構成図である。対話中のユーザを撮影可能な対話装置の機能構成図である。対話用の語彙をインターネットで検索する説明図である。対話装置とユーザとの間の対話を表すシーケンス図である。ユーザ周辺データを画像、映像又は音声をとした場合における対話装置の構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明における対話装置の周辺環境を表すシステム構成図である。

図１によれば、対話装置１は、キャラクタとしてのロボットであり、ユーザとの自然な雑談対話を実現する。
対話装置１は、ユーザインタフェースの入出力デバイスとして、少なくともマイク及びスピーカを搭載する。マイクによってユーザの発話音声を収音し、スピーカによって対話音声をユーザへ発声する。

＜第１の実施形態：テレビから取得したテキスト＝マルチメディアデータ＞
図１によれば、対話装置１は、テレビ２に接続されており、テレビ２によって取得可能なマルチメディアデータを取得することができる。
この場合のマルチメディアデータとしては、テレビの視聴中番組における電子番組表（ＥＰＧ(Electronic Program Guide)）の記述テキスト、又は、放送内容の字幕テキストであってもよい。
電子番組表とは、放送番組の放送予定を、時間帯及びチャンネル番号によって表形式（ラテ欄）にまとめたものである。一般に、縦軸に時間帯を、横軸にチャネルを構成した格子状のセルとして表される。セルの中に、タイトルや出演者名等のメタデータ（番組内容）が記述されている。
字幕テキストは、字幕放送に基づくものであって、セリフやトーク部分は勿論のこと、 “パトカーのサイレン音”や“ドアをたたく音”なども文字で表現される。字幕テキストは、映像及び音声と同期して取得可能な文字データである。
本発明の対話装置１は、これらテキスト（ユーザにおける周辺状況）に応じた内容で、ユーザと雑談対話を進行させることができる。

尚、図１によれば、対話装置１は、テレビ２からマルチメディアデータを取得する実施形態について記載しているが、他の実施形態については、図５によって後述する。

図２は、本発明における対話装置の機能構成図である。

図２によれば、対話装置１は、語彙体系データベース１０１と、対話シナリオデータベース１０２と、ユーザ周辺データ取得部１１と、語彙抽出部１２と、語彙選択部１３と、対話シナリオ選択部１４と、音声認識部１５１と、対話実行部１５２と、音声変換部１５３とを有する。これら機能構成部は、対話装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置の対話方法としても理解できる。

［語彙体系データベース１０１］
語彙体系データベース１０１は、語彙を、意味属性的に階層化したものである（例えば非特許文献４参照）。これは、シソーラス(thesaurus)と称され、単語の上位下位関係、部分全体関係、同義関係、類義関係などによって語彙を体系的に分類したものである。

図３は、語彙体系データベース及び対話シナリオデータベースの構成図である。

図３（ａ）によれば、語彙体系データベース１０１は、５５個の最上位概念的な語彙（トップノード）から、意味属性的に下位概念へ向けてツリー構造を持つ。
例えば語彙「ブドウ」については、語彙「果物」に属し、以下のように上位概念化され、最上位語彙は「食料」となる。
「食料」<=「嗜好品」<=「果物」（ブドウ）

各語彙は、例えばWord2vecに基づいてベクトルで表現されたものである。
「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮する技術をいう。２つの語彙について、類似度が高いほどベクトル間距離（ユークリッド距離）は短くなり、類似度が低いほどベクトル間距離は長くなる。当然、同一カテゴリに属する語彙同士は、類似度が高くなる（ベクトル間距離は短くなる）。
語彙の類似度は、以下のようにコサイン類似度で表される。
Ｓ(a,b)＝cosθ＝（Ｖa・Ｖb）／(|Ｖa||Ｖb|)
Ｖa：第１の語彙の特徴ベクトル
Ｖb：第２の語彙の特徴ベクトル
Ｓ(a,b)：０～１（類似度が高いほど１に近づく）

［対話シナリオデータベース１０２］
対話シナリオデータベース１０２は、所定階層（例えば最上位階層）における複数の語彙それぞれについて、対話シナリオを記憶したものである。
対話シナリオとは、質問文を含む対話ノードを、ユーザからの回答文に応じてツリー状に辿るように構成したものである。例えば、ユーザの入力に対する応答パターンを記述するＦＳＴ(Finite State Transducer)のスクリプトファイルで記述されたものであってもよい。

ここで、所定階層を、最上位概念層とする。
図３（ｂ）によれば、対話シナリオデータベース１０２は、５５個の最上位概念的な語彙毎に、対話シナリオが対応付けられている。
本発明によれば、例えば語彙「果物」の場合、最上位語彙「食料」の対話シナリオが選択されることとなる。

［ユーザ周辺データ取得部１１］
ユーザ周辺データ取得部１１は、ユーザ周辺から、マルチメディアデータを取得するものである。
図２によれば、対話装置１は、マルチメディアデータとして、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストを取得する。
取得されたマルチメディアデータは、語彙抽出部１２へ出力される。

［語彙抽出部１２］
語彙抽出部１２は、マルチメディアデータから「語彙」を抽出する。
図２によれば、マルチメディアデータがテキストである場合、形態素解析によって一般名詞を抽出する。抽出された一般名詞を表現するベクトルと、語彙体系データベース１０１に登録された各語彙のベクトルとを比較して、最も類似度が高い語彙を抽出する。
このとき、例えば所定時間毎に、その時間内に取得されたマルチメディアデータの中で、出現頻度が最も高い一般名詞を検出するものであってもよい。そして、語彙体系データベース１０１を用いて、その一般名詞と最も類似度が高い語彙を抽出する。
図２によれば、例えばテレビの視聴中番組の中で一般名詞「ブドウ」の出現頻度が最も高い場合、「ブドウ」のベクトルと最も類似度が高い語彙「果物」が抽出される。
そして、抽出された語彙は、語彙選択部１３へ出力される。

［語彙選択部１３］
語彙選択部１３は、語彙体系データベース１０１を用いて、当該語彙の上位概念となる所定階層（例えば最上位）の語彙を選択する。
図２によれば、語彙選択部１３は、例えば語彙抽出部１２から語彙「果物」が入力された場合、その最上位概念となる語彙「食料」（<-「嗜好品等」<-「果物」）を選択する。

［対話シナリオ選択部１４］
対話シナリオ選択部１４は、対話シナリオデータベース１０２を用いて、選択された語彙に基づく対話シナリオを選択するものである。
図２によれば、対話シナリオ選択部１４は、例えば語彙選択部１３から語彙「食料」を入力した場合、その「食料」に対応する対話シナリオを選択する。
選択された対話シナリオは、対話実行部１５２へ出力される。

［音声認識部１５１・対話実行部１５２・音声変換部１５３］
音声認識部１５１、対話実行部１５２及び音声変換部１５３は、一般的な対話装置の機能構成部である。
音声認識部１５１は、マイクからユーザの発話音声を入力し、その発話音声をテキスト語彙に変換し、そのテキストを対話実行部１５２へ出力する。
対話実行部１５２は、音声認識部１５１から入力したテキストに対して、選択された対話シナリオを用いて対話文を辿っていく。
音声変換部１５３は、対話実行部１５２によって決定された対話文を、音声合成によって音声信号に変換し、その音声信号をスピーカへ出力する。
このようにして、対話装置１は、ユーザとの間で、音声によって対話を進行していく。

＜第２の実施形態：対話シナリオの拡充＞
前述した第１の実施形態によれば、例えば語彙体系データベース１０１における最上位語彙（トップノード）毎に、対話シナリオが対応付けられたものとした。
これに対し、第２の実施形態では、同一の語彙であっても、対話中のユーザの属性（世代）に応じて異なる対話シナリオを選択するようにしたものである。

図４は、対話中のユーザを撮影可能な対話装置の機能構成図である。

図４の対話装置は、図２と比較して、対話中のユーザを撮影するインカメラ（内側カメラ）を搭載すると共に、顔画像認識部１６と、ユーザ世代推定エンジン１７とを更に有する。

［顔画像認識部１６］
顔画像認識部１６は、インカメラによって撮影されたユーザの顔画像（映像）を入力し、各画像からユーザ毎の顔領域を検出する。
顔画像認識部１６は、時系列の各画像フレームから、顔パラメータの時系列変化を特徴量として抽出する。例えば、顔のパーツの相対位置や大きさ、目や鼻やほお骨やあごの形を用いる。顔画像の特徴から作成されたテンプレートと一致する画像部分を、顔領域として検索する。尚、顔認識アルゴリズムとしては、様々な既存の方法がある（例えば非特許文献５参照）。
そして、顔画像認識部１６は、顔画像の時系列特徴量を、ユーザ世代推定エンジン１７へ出力する。

［ユーザ世代推定エンジン１７］
ユーザ世代推定エンジン１７は、学習段階として、ＩＭＤｂ(Internet Movie Database)のデータセット（例えば45,723枚）を教師データとして、「顔画像の時系列特徴量」と「年代」と「性別」（男・女）とを対応付けて学習した畳み込みニューラルネットワークに基づくものである。年代は、例えば以下のように３種類に区別したものであってもよい。
「子供」（0～17歳）
「大人」（18～64歳)
「シニア」(65歳以上)

ユーザ世代推定エンジン１７は、推定段階として、顔画像認識部１６から「顔画像の時系列特徴量」を入力する。これに対して、ユーザ世代推定エンジン１７は、「年代」及び「性別」を出力する。

ユーザ世代推定エンジン１７を用いる場合、対話シナリオデータベース１０２は、所定階層（例えば最上位）の語彙毎に、ユーザ世代に応じて及び／又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶する。例えば以下のように、１つの語彙に対して、５種類の対話シナリオを予め記憶しており、複数の年代が一緒に対話していることも考慮する。
「子供」
「大人」
「シニア」
「親子」（子供＋大人、大人＋シニア）
「祖父母と孫」（子供＋シニア）
この場合、対話シナリオ選択部１４は、語彙選択部１３によって選択された語彙と、ユーザ世代推定エンジン１７によって推定されたユーザ世代とに応じて、対話シナリオを選択する。

＜第３の実施形態：語彙のインターネット検索＞
図５は、対話用の語彙をインターネットで検索する説明図である。

図５の対話装置１は、図２と比較して、インターネット検索部１８を更に有する。
［インターネット検索部１８］
インターネット検索部１８は、語彙選択部１３によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する。
これによって、対話実行部１５２は、インターネット検索部１８の検索結果となるテキストに含まれる語彙を更に用いて、ユーザとの対話を更に進行させることができる。

図６は、対話装置とユーザとの間の対話を表すシーケンス図である。

（Ｓ１１）対話装置１は、テレビから、ユーザ周辺データを取得する。ユーザ周辺データは、例えば視聴中の番組内容から抽出されたテキストであるとする。このとき、語彙「ブドウ」が含まれていたとする。
（Ｓ１２）対話装置１は、語彙体系データベース１０１を用いて、語彙「ブドウ」とベクトル表現で最も近い語彙「果物」を抽出したとする。
（Ｓ１３）対話装置１は、語彙体系データベース１０１を用いて、語彙「果物」の最上位概念の語彙「食料」を選択する。
（Ｓ１４）対話装置１は、対話シナリオデータベース１０２を用いて、語彙「食料」に対応する対話シナリオを選択する。
（Ｓ１５）対話装置１は、語彙「食料」に対応する対話シナリオを用いて対話を進行する。
対話装置「好きな食べ物は何ですか？」
ユーザ「ケーキが好きだね」
対話装置「手作りですか？」
ユーザ「山手沿線のケーキ屋を探してるよ」
対話装置（「食料」「山手沿線」「ケーキ屋」をキーとしてインターネット検索）
対話装置（「新宿駅」「○○屋」が検索される）
対話装置「新宿駅近くの○○屋が有名ですよ」

図７は、ユーザ周辺データを画像、映像又は音声をとした場合における対話装置の構成図である。

前述した図１及び図２における対話装置１によれば、ユーザ周辺データとしてのマルチメディアデータは、テレビから取得した視聴中番組のテキストであるとして説明した。これに対して、以下のように４つの他の実施形態も想定される。

＜第４の実施形態：カメラによってテレビを撮影した映像＝マルチメディアデータ＞
対話装置１は、図１と同様にテレビに接続されているが、ユーザ周辺データ取得部１１は、マルチメディアデータとして、テレビの視聴中番組における「映像」を取得する。
この場合、語彙抽出部１２は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。語彙抽出部１２は、例えば、語彙が付与された画像オブジェクトを蓄積するデータベースを有する。画像オブジェクトとは、視聴中番組の映像の中に映り込む画像単位である。
語彙「ブドウ」<->画像オブジェクト「ブドウ」

画像オブジェクトの検出には、例えばＳＳＤ(Single Shot Multibox Detector)のようなものであってもよい。ＳＳＤは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、１つの画像オブジェクトが収まる。

そして、バウンディングボックスで囲まれた物体の画像オブジェクトに対応する語彙を検出する。例えば映像の中に「ブドウ」の画像オブジェクトと一致する部分を検出した際に、語彙「ブドウ」検出する。このとき、語彙抽出部１２は、語彙「ブドウ」と最も類似するベクトル表現の語彙「果物」を抽出することとなる。

＜第５の実施形態：カメラによってユーザ周辺を撮影した映像＝マルチメディアデータ＞
対話装置１は、ユーザの周辺を撮影する外側カメラに接続されている。ユーザ周辺データ取得部１１は、マルチメディアデータとして、外側カメラによって撮影された「映像」を取得する。
この場合、語彙抽出部１２は、第４の実施形態と同様に、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。

＜第６の実施形態：マイクによってユーザ周辺を収音した音声＝マルチメディアデータ＞
対話装置１は、ユーザの周辺を収音するマイクに接続されている。ユーザ周辺データ取得部１１は、マルチメディアデータとして、マイクによって収音された「音声」を取得する。
この場合、語彙抽出部１２は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する。語彙抽出部１２は、例えば、語彙が付与された音響オブジェクトを蓄積するデータベースを有する。音響オブジェクトとは、ユーザ周辺の環境音の中に混在する音声単位である。
語彙「ドア」<->音響オブジェクト「バタン」
環境音の中に「バタン」の音響オブジェクトと一致する部分を検出した際に、語彙「ドア」検出する。このとき、語彙抽出部１２は、語彙「ドア」と最も類似するベクトル表現の語彙「建造物」を抽出することとなる。
尚、音響オブジェクトは、音響信号そのものに限らず、音響から抽出された特徴量のようなものであってもよい。また、音響信号の収音については、例えばITU-R 勧告BS.2051「番組制作における高度音響システム」のような技術を用いることもできる。

以上、詳細に説明したように、本発明の対話装置、プログラム及び方法によれば、ユーザ周辺データに応じて雑談のような対話を進行させることができる。即ち、対話のきっかけを多く提供することでき、飽きられにくい雑談対話ＡＩを実現することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１対話装置
１０１語彙体系データベース
１０２対話シナリオデータベース
１１ユーザ周辺データ取得部
１２語彙抽出部
１３語彙選択部
１４対話シナリオ選択部
１５１音声認識部
１５２対話実行部
１５３音声変換部
１６顔画像認識部
１７ユーザ世代推定エンジン
１８インターネット検索部
２テレビ

Claims

ユーザと対話する対話装置において、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
を有することを特徴とする対話装置。
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストである
ことを特徴とする請求項１に記載の対話装置。
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する
ことを特徴とする請求項１に記載の対話装置。
対話装置は、ユーザの周辺状況を撮影する外側カメラに接続されており、
マルチメディアデータは、外側カメラによって撮影された映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する
ことを特徴とする請求項１に記載の対話装置。
対話装置は、ユーザの周辺状況を収音するマイクに接続されており、
マルチメディアデータは、マイクによって収音された環境音であり、
語彙抽出手段は、環境音から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する
ことを特徴とする請求項１に記載の対話装置。
対話装置は、ユーザを撮影する内側カメラに接続されており、
内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
顔画像からユーザ世代を検出するユーザ世代推定エンジンと
を更に有し、
対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び／又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
ことを特徴とする請求項１から５のいずれか１項に記載の対話装置。
ユーザ世代推定エンジンは、ＩＭＤｂ(Internet Movie Database)のデータセットを用いて、顔画像と年代と性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものである
ことを特徴とする請求項６に記載の対話装置。
ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
してコンピュータを機能させることを特徴とするプログラム。
ユーザと対話する装置の対話方法において、
装置は、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
を有し、
ユーザの周辺状況から、マルチメディアデータを取得する第１のステップと、
マルチメディアデータから語彙を抽出する第２のステップと、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第３のステップと、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する第４のステップと、
第３のステップによって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する第５のステップと、
第４のステップによって選択された対話シナリオに、第５のステップの検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する第６のステップと
を実行することを特徴とする装置の対話方法。