JP2022056638A - ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 - Google Patents
ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP2022056638A JP2022056638A JP2020164490A JP2020164490A JP2022056638A JP 2022056638 A JP2022056638 A JP 2022056638A JP 2020164490 A JP2020164490 A JP 2020164490A JP 2020164490 A JP2020164490 A JP 2020164490A JP 2022056638 A JP2022056638 A JP 2022056638A
- Authority
- JP
- Japan
- Prior art keywords
- video
- sentence
- feature vector
- language
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 13
- 239000013598 vector Substances 0.000 claims abstract description 142
- 230000004044 response Effects 0.000 claims abstract description 74
- 230000006870 function Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 39
- 230000008878 coupling Effects 0.000 claims description 24
- 238000010168 coupling process Methods 0.000 claims description 24
- 238000005859 coupling reaction Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
抽出された対話文履歴における発話文及び応答文の1文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と
して機能させ、
訓練段階で、
映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを入力する映像エンコーダ及び映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力する言語エンコーダ及び言語デコーダと、
映像デコーダから出力された特徴ベクトルと、言語デコーダから出力された特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合ベクトルを入力し、言語エンコーダに入力された発話文の返答となる応答文の特徴ベクトルを出力するように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練する回帰層と
して機能させ、
運用段階で、
マルチモーダル情報抽出手段は、対象データとして、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とを入力し、
結果的に、回帰層が、対象データの発話文に対する応答文の特徴ベクトルを出力する
ように機能させることを特徴とする。
映像エンコーダ及び映像デコーダと、言語エンコーダ及び言語デコーダとは、Transformerに基づくものである
ように機能させることも好ましい。
特徴ベクトルは、分散表現生成アルゴリズムによって生成されたものである
ように機能させることも好ましい。
回帰層は、線形回帰に基づいて、結合層の結合ベクトルからsoftmax関数に基づく応答文の特徴ベクトルと、発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ及び映像デコーダと言語エンコーダ及び言語デコーダとの内部パラメータを訓練する
ように機能させることも好ましい。
教師データにおける映像は、字幕付き映像である
ように機能させることも好ましい。
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
抽出された対話文履歴における発話文及び応答文の1文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と
を有し、
訓練段階で、
映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを入力する映像エンコーダ及び映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力する言語エンコーダ及び言語デコーダと、
映像デコーダから出力された特徴ベクトルと、言語デコーダから出力された特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合ベクトルを入力し、言語エンコーダに入力された発話文の返答となる応答文の特徴ベクトルを出力するように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練する回帰層と
を有し、
運用段階で、
マルチモーダル情報抽出手段は、対象データとして、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とを入力し、
結果的に、回帰層が、対象データの発話文に対する応答文の特徴ベクトルを出力する
ことを特徴とする。
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
装置は、
所定時間帯の映像及び対話文履歴を抽出し、
抽出された対話文履歴における発話文及び応答文の1文毎に、当該映像からサンプリング画像を抽出し、
訓練段階で、
教師データにおける映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを、映像エンコーダへ入力し、
映像エンコーダから出力された映像潜在ベクトルを、映像デコーダへ入力し、
教師データにおける発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを、言語エンコーダへ入力し、
言語エンコーダから出力された言語潜在ベクトルを言語デコーダへ入力し、
映像デコーダから出力された特徴ベクトルと、言語デコーダから出力された特徴ベクトルとを、結合層によって結合した結合ベクトルを出力し、
回帰層が、結合ベクトルを入力し、言語エンコーダに入力された発話文の返答となる応答文の特徴ベクトルを出力するように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階で、
対象データとして、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とを入力し、
結果的に、回帰層が、対象データの発話文に対する応答文の特徴ベクトルを出力する
ように実行することを特徴とする。
対話装置1は、複数の機械学習エンジンを搭載しており、<訓練時>及び<運用時>に分けられる。また、対話装置1は、機械学習エンジンの訓練時に、<教師データ>によって学習モデルを構築する。
図1は、訓練時に用いられる教師データを表す説明図である。
・・・・・・・・・・・・・・・・・・・・
ユーザA:オレンジの頭とお尻をとってるね
ユーザB:そうそう、次は皮ですね
ユーザA:慣れてきたら、一緒に剥いちゃって全然いいですけど、
まずはオレンジの皮を剥いて、白い皮まで
ユーザB:僕は皮を切ることが下手ですね
・・・・・・・・・・・・・・・・・・・・
図2は、本発明の対話装置における訓練時の機能構成図である。
また、図2によれば、対話装置1は、「訓練時の機能部」として、映像特徴ベクトル生成部111と、画像特徴ベクトル生成部121と、言語特徴ベクトル生成部131と、映像エンコーダ141と、映像デコーダ142と、言語エンコーダ151と、言語デコーダ152と、結合層16と、回帰層17とを有する。
これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話装置の訓練方法としても理解できる。
マルチモーダル情報抽出部101は、マルチモーダル情報に対して、以下のように、<映像の抽出機能>と<対話文履歴の抽出機能>とを有する。
図3は、映像に対するマルチモーダル情報抽出部及びサンプリング画像抽出部の処理を表す説明図である。
図3によれば、マルチモーダル情報抽出部101は、教師データの映像に対して、所定時間帯(例えば5秒程度)に区分する。ここで、一連の映像の中で、一部が重畳するように連続的に区分されてもよいし、重畳しないように断片的に区分されるものであってもよい。
抽出された所定時間帯の映像は、映像特徴ベクトル生成部111とサンプリング画像抽出部120との両方へ出力される。
図4は、対話文履歴に対するマルチモーダル情報抽出部の処理を表す説明図である。
図4によれば、マルチモーダル情報抽出部101は、教師データの対話文履歴に対して、前述した映像と同期した所定時間帯(例えば5秒程度)に区分する。図4によれば、具体的に以下の対話文履歴として区分される。
ユーザA:オレンジの頭とお尻をとってるね
ユーザB:そうそう、次は皮ですね
ユーザA:慣れてきたら、一緒に剥いちゃって全然いいですけど、
まずはオレンジの皮を剥いて、白い皮まで
ユーザB:僕は皮を切ることが下手ですね
そして、所定時間帯の対話文履歴は、言語特徴ベクトル生成部131へ出力される。
図4によれば、具体的に以下の発話文及び応答文の組がそれぞれ、言語特徴ベクトル生成部131へ出力される。
発話文 :慣れてきたら、一緒に剥いちゃって全然いいですけど、
まずはオレンジの皮を剥いて、白い皮まで
応答文 :僕は皮を切ることが下手ですね
サンプリング画像抽出部120は、抽出された対話文履歴における発話文及び応答文の1文毎に、所定時間帯の映像からサンプリング画像を抽出する。
図3によれば、ユーザAの発話文「慣れてきたら、一緒に剥いちゃって全然いいですけど、まずはオレンジ皮を剥いて、白い皮まで」の1文に対して、その時点の映像の中の1枚のフレームとなるサンプリング画像が抽出される。
抽出されたサンプリング画像は、画像特徴ベクトル生成部121へ出力される。
映像特徴ベクトル生成部111は、マルチモーダル情報抽出部101から所定時間帯の映像を入力し、その映像特徴ベクトルを映像エンコーダ141へ出力する。
映像特徴ベクトルは、具体的にはVideoBERT(登録商標)やVGD-GPT2(登録商標)のような分散表現生成(embedding)アルゴリズムを適用し、高次元ベクトルに置き換えたものである。
ここで、教師データの「映像」は、「字幕付き映像」であることも好ましい。
画像特徴ベクトル生成部121は、サンプリング画像抽出部120からサンプリング画像を入力し、その画像特徴ベクトルを映像エンコーダ141へ出力する。
画像特徴ベクトルも、具体的にはVisualBERT(登録商標)のような分散表現生成アルゴリズムを適用し、高次元ベクトルに置き換えたものである。
言語特徴ベクトル生成部131は、マルチモーダル情報抽出部101から、「対話文履歴」と「発話文」及び「応答文」の組とを入力し、それぞれの言語特徴ベクトルを言語エンコーダ151へ出力する。
言語特徴ベクトルも、具体的にはBERT(登録商標)やGPT-2(登録商標)のような分散表現生成アルゴリズムを適用し、高次元ベクトルに置き換えたものである。
映像エンコーダ141は、教師データにおける映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力する。
[映像デコーダ142]
映像デコーダ142は、映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力する。
[言語エンコーダ151]
言語エンコーダ151は、教師データにおける発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力する。
[言語デコーダ152]
言語デコーダ152は、言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する。
結合層16は、映像デコーダ142から出力された映像特徴ベクトルと、言語デコーダ152から出力された言語特徴ベクトルとを結合する。具体的には、映像の特徴ベクトルと画像の特徴ベクトルとの全てを、1つのノードに結合する。結合ベクトルは、回帰層17へ出力される。
本発明の結合層16は、映像特徴ベクトルと言語特徴ベクトルとによって、以下の2つのマッチングに基づく結合ベクトルを出力する。
(1)「所定時間帯の映像」と、「対話文履歴」とのマッチング
(2)「サンプリング画像」と、「発話文」とのマッチング
尚、VideoBERTは、映像と字幕(テキスト)とを組み合わせてクロスモーダルに学習することもできる。そのために、教師データの映像として、「字幕付き映像」を用いることもできる。
また、GPT-2は、Open AIに基づくものであり、自然言語に代えてピクセルで学習することによって、前半の映像(又は一部の画像)のシーケンスから、人間が感覚的に考えるように、後半の映像(又は画像全体)を予測することができる。
回帰層17は、線形回帰に基づいて、結合層16の結合ベクトルからsoftmax関数に基づく応答文の特徴ベクトルと、発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ141及び映像デコーダ142と言語エンコーダ151及び言語デコーダ152との内部パラメータを訓練する。
図5は、本発明の対話装置における運用時の機能構成図である。
尚、音声認識機能及び音声合成機能は、端末2に搭載されるものであってもよい。その場合、端末2からテキストベースの「発話文」を受信すると共に、端末2へ「応答文」を送信する。
図6によれば、対象データとして、具体的に以下の対話文履歴が入力されている。
ユーザY:オレンジを切りますね。
ユーザX:皮も剥いてください。
ユーザY:どこまで剥けばいいですかね。
また、ユーザYの最後の発話文も、特定される。
ユーザY:どこまで剥けばいいですかね。
そして、回帰層17は、応答文の特徴ベクトルを出力する。その特徴ベクトルは、言語変換部18によってテキストベースの応答文に変換される。
最終的に、ユーザから見て、その応答文はキャラクタXの応答音声としてスピーカから出される。
ユーザX:白い皮まで剥いてください。
100 教師データ蓄積部
101 マルチモーダル情報抽出部
102 通信インタフェース
111 映像特徴ベクトル生成部
120 サンプリング画像抽出部
121 画像特徴ベクトル生成部
131 言語特徴ベクトル生成部
141 映像エンコーダ
142 映像デコーダ
151 言語エンコーダ
152 言語デコーダ
16 結合層
17 回帰層
18 言語変換部
2 端末
Claims (7)
- ユーザ周辺のマルチモーダル情報に応じてユーザと対話するようにコンピュータを機能させるプログラムにおいて、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
抽出された対話文履歴における発話文及び応答文の1文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と
して機能させ、
訓練段階で、
映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを入力する映像エンコーダ及び映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力する言語エンコーダ及び言語デコーダと、
映像デコーダから出力された特徴ベクトルと、言語デコーダから出力された特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合ベクトルを入力し、言語エンコーダに入力された発話文の返答となる応答文の特徴ベクトルを出力するように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練する回帰層と
して機能させ、
運用段階で、
マルチモーダル情報抽出手段は、対象データとして、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とを入力し、
結果的に、回帰層が、対象データの発話文に対する応答文の特徴ベクトルを出力する
ように機能させることを特徴とするプログラム。 - 映像エンコーダ及び映像デコーダと、言語エンコーダ及び言語デコーダとは、Transformerに基づくものである
ように機能させることを特徴とする請求項1に記載のプログラム。 - 特徴ベクトルは、分散表現生成アルゴリズムによって生成されたものである
ように機能させることを特徴とする請求項1又は2に記載のプログラム。 - 回帰層は、線形回帰に基づいて、結合層の結合ベクトルからsoftmax関数に基づく応答文の特徴ベクトルと、発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ及び映像デコーダと言語エンコーダ及び言語デコーダとの内部パラメータを訓練する
ように機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - 教師データにおける映像は、字幕付き映像である
ように機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 - ユーザ周辺のマルチモーダル情報に応じてユーザと対話する対話装置において、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
抽出された対話文履歴における発話文及び応答文の1文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と
を有し、
訓練段階で、
映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを入力する映像エンコーダ及び映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力する言語エンコーダ及び言語デコーダと、
映像デコーダから出力された特徴ベクトルと、言語デコーダから出力された特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合ベクトルを入力し、言語エンコーダに入力された発話文の返答となる応答文の特徴ベクトルを出力するように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練する回帰層と
を有し、
運用段階で、
マルチモーダル情報抽出手段は、対象データとして、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とを入力し、
結果的に、回帰層が、対象データの発話文に対する応答文の特徴ベクトルを出力する
ことを特徴とする対話装置。 - ユーザ周辺のマルチモーダル情報に応じてユーザと対話する装置の対話方法において、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
装置は、
所定時間帯の映像及び対話文履歴を抽出し、
抽出された対話文履歴における発話文及び応答文の1文毎に、当該映像からサンプリング画像を抽出し、
訓練段階で、
教師データにおける映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを、映像エンコーダへ入力し、
映像エンコーダから出力された映像潜在ベクトルを、映像デコーダへ入力し、
教師データにおける発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを、言語エンコーダへ入力し、
言語エンコーダから出力された言語潜在ベクトルを言語デコーダへ入力し、
映像デコーダから出力された特徴ベクトルと、言語デコーダから出力された特徴ベクトルとを、結合層によって結合した結合ベクトルを出力し、
回帰層が、結合ベクトルを入力し、言語エンコーダに入力された発話文の返答となる応答文の特徴ベクトルを出力するように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階で、
対象データとして、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とを入力し、
結果的に、回帰層が、対象データの発話文に対する応答文の特徴ベクトルを出力する
ように実行することを特徴とする装置の対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164490A JP7426917B2 (ja) | 2020-09-30 | 2020-09-30 | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164490A JP7426917B2 (ja) | 2020-09-30 | 2020-09-30 | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022056638A true JP2022056638A (ja) | 2022-04-11 |
JP7426917B2 JP7426917B2 (ja) | 2024-02-02 |
Family
ID=81110876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020164490A Active JP7426917B2 (ja) | 2020-09-30 | 2020-09-30 | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7426917B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229955A (zh) * | 2023-05-09 | 2023-06-06 | 海尔优家智能科技(北京)有限公司 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017094212A1 (ja) * | 2015-11-30 | 2017-06-08 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2018190077A (ja) * | 2017-04-28 | 2018-11-29 | 日本放送協会 | 発話生成装置、発話生成方法及び発話生成プログラム |
JP2019045978A (ja) * | 2017-08-30 | 2019-03-22 | 国立大学法人 奈良先端科学技術大学院大学 | 対話制御装置、学習装置、対話制御方法、学習方法、制御プログラム、および、記録媒体 |
-
2020
- 2020-09-30 JP JP2020164490A patent/JP7426917B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017094212A1 (ja) * | 2015-11-30 | 2017-06-08 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2018190077A (ja) * | 2017-04-28 | 2018-11-29 | 日本放送協会 | 発話生成装置、発話生成方法及び発話生成プログラム |
JP2019045978A (ja) * | 2017-08-30 | 2019-03-22 | 国立大学法人 奈良先端科学技術大学院大学 | 対話制御装置、学習装置、対話制御方法、学習方法、制御プログラム、および、記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229955A (zh) * | 2023-05-09 | 2023-06-06 | 海尔优家智能科技(北京)有限公司 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
CN116229955B (zh) * | 2023-05-09 | 2023-08-18 | 海尔优家智能科技(北京)有限公司 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7426917B2 (ja) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Multimodal large language models: A survey | |
CN106469212B (zh) | 基于人工智能的人机交互方法和装置 | |
CN112101045B (zh) | 一种多模态语义完整性识别方法、装置及电子设备 | |
KR102276951B1 (ko) | 목소리 및 얼굴 안면 감정값의 산출 방법 및 이를 이용한 인공지능 스피커의 출력 방법 | |
CN106557165B (zh) | 智能设备的动作模拟交互方法和装置及智能设备 | |
Khare et al. | Multi-modal embeddings using multi-task learning for emotion recognition | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN113076770A (zh) | 基于方言识别的人物画像智能终端 | |
CN114882861A (zh) | 语音生成方法、装置、设备、介质及产品 | |
JP7426917B2 (ja) | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 | |
Tanberk et al. | Deep learning for videoconferencing: A brief examination of speech to text and speech synthesis | |
CN111415662A (zh) | 用于生成视频的方法、装置、设备和介质 | |
Tesema et al. | Addressee detection using facial and audio features in mixed human–human and human–robot settings: A deep learning framework | |
CN113674184A (zh) | 虚拟说话人肢体手势生成方法、装置、设备及存储介质 | |
Kumar et al. | Towards robust speech recognition model using Deep Learning | |
KR20220034396A (ko) | 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 | |
Liu et al. | Speech-gesture GAN: gesture generation for robots and embodied agents | |
JP7426919B2 (ja) | 画像から因果関係語を推定するプログラム、装置及び方法 | |
KR102370993B1 (ko) | 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템 | |
US11641448B2 (en) | Information processing apparatus and information processing method | |
JP7244390B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
RU2748779C1 (ru) | Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста | |
JP7352491B2 (ja) | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 | |
Alexander | A Photo-realistic Voice-bot | |
Arunachalam et al. | An automated effective communication system in a VR based environment for hearing impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7426917 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |