JP7352491B2 - ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 - Google Patents
ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP7352491B2 JP7352491B2 JP2020034460A JP2020034460A JP7352491B2 JP 7352491 B2 JP7352491 B2 JP 7352491B2 JP 2020034460 A JP2020034460 A JP 2020034460A JP 2020034460 A JP2020034460 A JP 2020034460A JP 7352491 B2 JP7352491 B2 JP 7352491B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- dialogue
- user
- dialogue scenario
- multimedia data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
これに対し、本願の発明者らは、対話中のユーザ周辺状況から概念的に広く捉えた雑談のような対話を進行させることができないか、と考えた。
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
を有することを特徴とする。
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストであることも好ましい。
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。
対話装置は、ユーザの周辺を撮影する外側カメラに接続されており、
マルチメディアデータは、外側カメラによって撮影された映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。
対話装置は、ユーザの周辺状況を収音するマイクに接続されており、
マルチメディアデータは、マイクによって収音された環境音であり、
語彙抽出手段は、環境音から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出することも好ましい。
対話装置は、ユーザを撮影する内側カメラに接続されており、
内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
顔画像からユーザ世代を検出するユーザ世代推定エンジンと
を更に有し、
対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
ことも好ましい。
ユーザ世代推定エンジンは、IMDb(Internet Movie Database)のデータセットを用いて、顔画像と年代と性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものであることも好ましい。
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
してコンピュータを機能させることを特徴とする。
装置は、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
を有し、
ユーザの周辺状況から、マルチメディアデータを取得する第1のステップと、
マルチメディアデータから語彙を抽出する第2のステップと、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第3のステップと、
第3のステップによって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する第5のステップと、
第4のステップによって選択された対話シナリオに、第5のステップの検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する第6のステップと
を実行することを特徴とする。
対話装置1は、ユーザインタフェースの入出力デバイスとして、少なくともマイク及びスピーカを搭載する。マイクによってユーザの発話音声を収音し、スピーカによって対話音声をユーザへ発声する。
図1によれば、対話装置1は、テレビ2に接続されており、テレビ2によって取得可能なマルチメディアデータを取得することができる。
この場合のマルチメディアデータとしては、テレビの視聴中番組における電子番組表(EPG(Electronic Program Guide))の記述テキスト、又は、放送内容の字幕テキストであってもよい。
電子番組表とは、放送番組の放送予定を、時間帯及びチャンネル番号によって表形式(ラテ欄)にまとめたものである。一般に、縦軸に時間帯を、横軸にチャネルを構成した格子状のセルとして表される。セルの中に、タイトルや出演者名等のメタデータ(番組内容)が記述されている。
字幕テキストは、字幕放送に基づくものであって、セリフやトーク部分は勿論のこと、 “パトカーのサイレン音”や“ドアをたたく音”なども文字で表現される。字幕テキストは、映像及び音声と同期して取得可能な文字データである。
本発明の対話装置1は、これらテキスト(ユーザにおける周辺状況)に応じた内容で、ユーザと雑談対話を進行させることができる。
語彙体系データベース101は、語彙を、意味属性的に階層化したものである(例えば非特許文献4参照)。これは、シソーラス(thesaurus)と称され、単語の上位下位関係、部分全体関係、同義関係、類義関係などによって語彙を体系的に分類したものである。
例えば語彙「ブドウ」については、語彙「果物」に属し、以下のように上位概念化され、最上位語彙は「食料」となる。
「食料」<=「嗜好品」<=「果物」(ブドウ)
「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮する技術をいう。2つの語彙について、類似度が高いほどベクトル間距離(ユークリッド距離)は短くなり、類似度が低いほどベクトル間距離は長くなる。当然、同一カテゴリに属する語彙同士は、類似度が高くなる(ベクトル間距離は短くなる)。
語彙の類似度は、以下のようにコサイン類似度で表される。
S(a,b)=cosθ=(Va・Vb)/(|Va||Vb|)
Va:第1の語彙の特徴ベクトル
Vb:第2の語彙の特徴ベクトル
S(a,b):0~1(類似度が高いほど1に近づく)
対話シナリオデータベース102は、所定階層(例えば最上位階層)における複数の語彙それぞれについて、対話シナリオを記憶したものである。
対話シナリオとは、質問文を含む対話ノードを、ユーザからの回答文に応じてツリー状に辿るように構成したものである。例えば、ユーザの入力に対する応答パターンを記述するFST(Finite State Transducer)のスクリプトファイルで記述されたものであってもよい。
図3(b)によれば、対話シナリオデータベース102は、55個の最上位概念的な語彙毎に、対話シナリオが対応付けられている。
本発明によれば、例えば語彙「果物」の場合、最上位語彙「食料」の対話シナリオが選択されることとなる。
ユーザ周辺データ取得部11は、ユーザ周辺から、マルチメディアデータを取得するものである。
図2によれば、対話装置1は、マルチメディアデータとして、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストを取得する。
取得されたマルチメディアデータは、語彙抽出部12へ出力される。
語彙抽出部12は、マルチメディアデータから「語彙」を抽出する。
図2によれば、マルチメディアデータがテキストである場合、形態素解析によって一般名詞を抽出する。抽出された一般名詞を表現するベクトルと、語彙体系データベース101に登録された各語彙のベクトルとを比較して、最も類似度が高い語彙を抽出する。
このとき、例えば所定時間毎に、その時間内に取得されたマルチメディアデータの中で、出現頻度が最も高い一般名詞を検出するものであってもよい。そして、語彙体系データベース101を用いて、その一般名詞と最も類似度が高い語彙を抽出する。
図2によれば、例えばテレビの視聴中番組の中で一般名詞「ブドウ」の出現頻度が最も高い場合、「ブドウ」のベクトルと最も類似度が高い語彙「果物」が抽出される。
そして、抽出された語彙は、語彙選択部13へ出力される。
語彙選択部13は、語彙体系データベース101を用いて、当該語彙の上位概念となる所定階層(例えば最上位)の語彙を選択する。
図2によれば、語彙選択部13は、例えば語彙抽出部12から語彙「果物」が入力された場合、その最上位概念となる語彙「食料」(<-「嗜好品等」<-「果物」)を選択する。
対話シナリオ選択部14は、対話シナリオデータベース102を用いて、選択された語彙に基づく対話シナリオを選択するものである。
図2によれば、対話シナリオ選択部14は、例えば語彙選択部13から語彙「食料」を入力した場合、その「食料」に対応する対話シナリオを選択する。
選択された対話シナリオは、対話実行部152へ出力される。
音声認識部151、対話実行部152及び音声変換部153は、一般的な対話装置の機能構成部である。
音声認識部151は、マイクからユーザの発話音声を入力し、その発話音声をテキスト語彙に変換し、そのテキストを対話実行部152へ出力する。
対話実行部152は、音声認識部151から入力したテキストに対して、選択された対話シナリオを用いて対話文を辿っていく。
音声変換部153は、対話実行部152によって決定された対話文を、音声合成によって音声信号に変換し、その音声信号をスピーカへ出力する。
このようにして、対話装置1は、ユーザとの間で、音声によって対話を進行していく。
前述した第1の実施形態によれば、例えば語彙体系データベース101における最上位語彙(トップノード)毎に、対話シナリオが対応付けられたものとした。
これに対し、第2の実施形態では、同一の語彙であっても、対話中のユーザの属性(世代)に応じて異なる対話シナリオを選択するようにしたものである。
顔画像認識部16は、インカメラによって撮影されたユーザの顔画像(映像)を入力し、各画像からユーザ毎の顔領域を検出する。
顔画像認識部16は、時系列の各画像フレームから、顔パラメータの時系列変化を特徴量として抽出する。例えば、顔のパーツの相対位置や大きさ、目や鼻やほお骨やあごの形を用いる。顔画像の特徴から作成されたテンプレートと一致する画像部分を、顔領域として検索する。尚、顔認識アルゴリズムとしては、様々な既存の方法がある(例えば非特許文献5参照)。
そして、顔画像認識部16は、顔画像の時系列特徴量を、ユーザ世代推定エンジン17へ出力する。
ユーザ世代推定エンジン17は、学習段階として、IMDb(Internet Movie Database)のデータセット(例えば45,723枚)を教師データとして、「顔画像の時系列特徴量」と「年代」と「性別」(男・女)とを対応付けて学習した畳み込みニューラルネットワークに基づくものである。年代は、例えば以下のように3種類に区別したものであってもよい。
「子供」(0~17歳)
「大人」(18~64歳)
「シニア」(65歳以上)
「子供」
「大人」
「シニア」
「親子」(子供+大人、大人+シニア)
「祖父母と孫」(子供+シニア)
この場合、対話シナリオ選択部14は、語彙選択部13によって選択された語彙と、ユーザ世代推定エンジン17によって推定されたユーザ世代とに応じて、対話シナリオを選択する。
図5は、対話用の語彙をインターネットで検索する説明図である。
[インターネット検索部18]
インターネット検索部18は、語彙選択部13によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する。
これによって、対話実行部152は、インターネット検索部18の検索結果となるテキストに含まれる語彙を更に用いて、ユーザとの対話を更に進行させることができる。
(S12)対話装置1は、語彙体系データベース101を用いて、語彙「ブドウ」とベクトル表現で最も近い語彙「果物」を抽出したとする。
(S13)対話装置1は、語彙体系データベース101を用いて、語彙「果物」の最上位概念の語彙「食料」を選択する。
(S14)対話装置1は、対話シナリオデータベース102を用いて、語彙「食料」に対応する対話シナリオを選択する。
(S15)対話装置1は、語彙「食料」に対応する対話シナリオを用いて対話を進行する。
対話装置「好きな食べ物は何ですか?」
ユーザ 「ケーキが好きだね」
対話装置「手作りですか?」
ユーザ 「山手沿線のケーキ屋を探してるよ」
対話装置(「食料」「山手沿線」「ケーキ屋」をキーとしてインターネット検索)
対話装置(「新宿駅」「○○屋」が検索される)
対話装置「新宿駅近くの○○屋が有名ですよ」
対話装置1は、図1と同様にテレビに接続されているが、ユーザ周辺データ取得部11は、マルチメディアデータとして、テレビの視聴中番組における「映像」を取得する。
この場合、語彙抽出部12は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。語彙抽出部12は、例えば、語彙が付与された画像オブジェクトを蓄積するデータベースを有する。画像オブジェクトとは、視聴中番組の映像の中に映り込む画像単位である。
語彙「ブドウ」<->画像オブジェクト「ブドウ」
対話装置1は、ユーザの周辺を撮影する外側カメラに接続されている。ユーザ周辺データ取得部11は、マルチメディアデータとして、外側カメラによって撮影された「映像」を取得する。
この場合、語彙抽出部12は、第4の実施形態と同様に、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。
対話装置1は、ユーザの周辺を収音するマイクに接続されている。ユーザ周辺データ取得部11は、マルチメディアデータとして、マイクによって収音された「音声」を取得する。
この場合、語彙抽出部12は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する。語彙抽出部12は、例えば、語彙が付与された音響オブジェクトを蓄積するデータベースを有する。音響オブジェクトとは、ユーザ周辺の環境音の中に混在する音声単位である。
語彙「ドア」<->音響オブジェクト「バタン」
環境音の中に「バタン」の音響オブジェクトと一致する部分を検出した際に、語彙「ドア」検出する。このとき、語彙抽出部12は、語彙「ドア」と最も類似するベクトル表現の語彙「建造物」を抽出することとなる。
尚、音響オブジェクトは、音響信号そのものに限らず、音響から抽出された特徴量のようなものであってもよい。また、音響信号の収音については、例えばITU-R 勧告BS.2051「番組制作における高度音響システム」のような技術を用いることもできる。
101 語彙体系データベース
102 対話シナリオデータベース
11 ユーザ周辺データ取得部
12 語彙抽出部
13 語彙選択部
14 対話シナリオ選択部
151 音声認識部
152 対話実行部
153 音声変換部
16 顔画像認識部
17 ユーザ世代推定エンジン
18 インターネット検索部
2 テレビ
Claims (9)
- ユーザと対話する対話装置において、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
を有することを特徴とする対話装置。 - 対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストである
ことを特徴とする請求項1に記載の対話装置。 - 対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する
ことを特徴とする請求項1に記載の対話装置。 - 対話装置は、ユーザの周辺状況を撮影する外側カメラに接続されており、
マルチメディアデータは、外側カメラによって撮影された映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する
ことを特徴とする請求項1に記載の対話装置。 - 対話装置は、ユーザの周辺状況を収音するマイクに接続されており、
マルチメディアデータは、マイクによって収音された環境音であり、
語彙抽出手段は、環境音から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する
ことを特徴とする請求項1に記載の対話装置。 - 対話装置は、ユーザを撮影する内側カメラに接続されており、
内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
顔画像からユーザ世代を検出するユーザ世代推定エンジンと
を更に有し、
対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
ことを特徴とする請求項1から5のいずれか1項に記載の対話装置。 - ユーザ世代推定エンジンは、IMDb(Internet Movie Database)のデータセットを用いて、顔画像と年代と性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものである
ことを特徴とする請求項6に記載の対話装置。 - ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザの周辺状況から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
語彙選択手段によって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段と、
対話シナリオ選択手段によって選択された対話シナリオに、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する対話実行手段と
してコンピュータを機能させることを特徴とするプログラム。 - ユーザと対話する装置の対話方法において、
装置は、
語彙を、意味属性的に階層化したシソーラスの語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
を有し、
ユーザの周辺状況から、マルチメディアデータを取得する第1のステップと、
マルチメディアデータから語彙を抽出する第2のステップと、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第3のステップと、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する第4のステップと、
第3のステップによって選択された所定階層の語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する第5のステップと、
第4のステップによって選択された対話シナリオに、第5のステップの検索結果となるテキストに含まれる語彙を用いて、ユーザと対話を進行する第6のステップと
を実行することを特徴とする装置の対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020034460A JP7352491B2 (ja) | 2020-02-28 | 2020-02-28 | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020034460A JP7352491B2 (ja) | 2020-02-28 | 2020-02-28 | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021139921A JP2021139921A (ja) | 2021-09-16 |
JP7352491B2 true JP7352491B2 (ja) | 2023-09-28 |
Family
ID=77668400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020034460A Active JP7352491B2 (ja) | 2020-02-28 | 2020-02-28 | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7352491B2 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004310034A (ja) | 2003-03-24 | 2004-11-04 | Matsushita Electric Works Ltd | 対話エージェントシステム |
JP2008058276A (ja) | 2006-09-04 | 2008-03-13 | Xanavi Informatics Corp | 車載装置 |
JP2014106927A (ja) | 2012-11-29 | 2014-06-09 | Toyota Motor Corp | 情報処理システム |
JP2017049427A (ja) | 2015-09-01 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2018013894A (ja) | 2016-07-19 | 2018-01-25 | Gatebox株式会社 | 画像表示装置、話題選択方法、話題選択プログラム |
JP2018032340A (ja) | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 属性推定装置、属性推定方法および属性推定プログラム |
WO2018066258A1 (ja) | 2016-10-06 | 2018-04-12 | シャープ株式会社 | 対話装置、対話装置の制御方法、および制御プログラム |
JP2019053650A (ja) | 2017-09-19 | 2019-04-04 | 富士ゼロックス株式会社 | 自走式装置 |
JP2019175054A (ja) | 2018-03-28 | 2019-10-10 | 株式会社Nttドコモ | 文章マッチングシステム |
-
2020
- 2020-02-28 JP JP2020034460A patent/JP7352491B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004310034A (ja) | 2003-03-24 | 2004-11-04 | Matsushita Electric Works Ltd | 対話エージェントシステム |
JP2008058276A (ja) | 2006-09-04 | 2008-03-13 | Xanavi Informatics Corp | 車載装置 |
JP2014106927A (ja) | 2012-11-29 | 2014-06-09 | Toyota Motor Corp | 情報処理システム |
JP2017049427A (ja) | 2015-09-01 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2018013894A (ja) | 2016-07-19 | 2018-01-25 | Gatebox株式会社 | 画像表示装置、話題選択方法、話題選択プログラム |
JP2018032340A (ja) | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 属性推定装置、属性推定方法および属性推定プログラム |
WO2018066258A1 (ja) | 2016-10-06 | 2018-04-12 | シャープ株式会社 | 対話装置、対話装置の制御方法、および制御プログラム |
JP2019053650A (ja) | 2017-09-19 | 2019-04-04 | 富士ゼロックス株式会社 | 自走式装置 |
JP2019175054A (ja) | 2018-03-28 | 2019-10-10 | 株式会社Nttドコモ | 文章マッチングシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2021139921A (ja) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10056078B1 (en) | Output of content based on speech-based searching and browsing requests | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
US10878808B1 (en) | Speech processing dialog management | |
WO2018021237A1 (ja) | 音声対話装置、音声対話方法、および記録媒体 | |
US6816858B1 (en) | System, method and apparatus providing collateral information for a video/audio stream | |
US11687526B1 (en) | Identifying user content | |
US20110093263A1 (en) | Automated Video Captioning | |
JP2014132464A (ja) | 対話型インターフェース装置及びその制御方法 | |
WO2007043679A1 (ja) | 情報処理装置およびプログラム | |
KR102529262B1 (ko) | 전자 장치 및 제어 방법 | |
Vryzas et al. | Speech emotion recognition adapted to multimodal semantic repositories | |
JP5296598B2 (ja) | 音声情報抽出装置 | |
US11837221B2 (en) | Age-sensitive automatic speech recognition | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
JP2018190077A (ja) | 発話生成装置、発話生成方法及び発話生成プログラム | |
JP4100243B2 (ja) | 映像情報を用いた音声認識装置及び方法 | |
US20210337274A1 (en) | Artificial intelligence apparatus and method for providing visual information | |
CN112541324A (zh) | 一种标点符号添加方法、装置及电子设备 | |
Gasparini et al. | Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset | |
KR20200051173A (ko) | 인공지능 스피커를 이용한 실시간 이야깃거리 제공 시스템 | |
JP7352491B2 (ja) | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 | |
WO2023218268A1 (en) | Generation of closed captions based on various visual and non-visual elements in content | |
JP7221902B2 (ja) | ユーザの関心度に応じて対話内容を切り替える対話装置、プログラム及び方法 | |
Jitaru et al. | Lrro: a lip reading data set for the under-resourced romanian language | |
Nazarov et al. | Algorithms to increase data reliability in video transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230915 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7352491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |