JP7486263B2 - マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 - Google Patents
マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP7486263B2 JP7486263B2 JP2021035724A JP2021035724A JP7486263B2 JP 7486263 B2 JP7486263 B2 JP 7486263B2 JP 2021035724 A JP2021035724 A JP 2021035724A JP 2021035724 A JP2021035724 A JP 2021035724A JP 7486263 B2 JP7486263 B2 JP 7486263B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- response
- utterance
- sentence
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 12
- 239000013598 vector Substances 0.000 claims description 173
- 230000004044 response Effects 0.000 claims description 132
- 238000012549 training Methods 0.000 claims description 61
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims 2
- 230000006870 function Effects 0.000 description 16
- 241000406668 Loxodonta cyclotis Species 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000012559 user support system Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、マルチドメインのトピック(映画、音楽、旅行)によって知識グラフを構築する技術もある(例えば非特許文献2参照)。この技術によれば、雑談対話コーパスKdConvを用いて、知識を融合した応答文を生成する。
更に、特定のタスク向けの知識グラフを用いて、対話の応答文を生成する技術もある(例えば非特許文献3参照)。この技術によれば、オンラインモールのサービスセンタが、対話文と商品写真とからなる商品知識グラフを用いて、ユーザとセールスオペレータとの間で、マルチモーダルな対話の応答文を生成する。
更に、ユーザの発話文から主要概念を生成し、タスク知識ベースと一般知識ベースの両方を参照して、応答文を生成する技術もある(例えば特許文献1参照)。
非特許文献2に記載の技術によれば、知識グラフがテキストべースに限定されているために、画像を含むマルチモーダルな雑談対話をすることはできない。
非特許文献3に記載の技術によれば、商品サービス販売のような所定のタスク向けの知識グラフを適用したものであって、豊富な知識に基づくマルチモーダルな雑談対話をすることはできない。
特許文献1に記載の技術によれば、ルールベースの応答生成方式であって、大量の教師データから自動的に応答文を生成するものではない。また、タスク知識ベースと一般知識ベース両方とも、soda, code, tea, hot, soupなどの単語で構成されているに過ぎず、関連トピックまでも記述されていない。
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
してコンピュータを機能させることを特徴とする。
知識グラフ蓄積手段は、知識グラフの実体語及び関係語をキーとして、検索サイトによって画像を検索し、検索された画像を当該実体語に対応付けたものである
ようにコンピュータを機能させることも好ましい。
対話時に、
対象データとなる発話文を入力し、
発話特徴ベクトル生成手段は、対象データの発話文から発話特徴ベクトルを生成し、
知識グラフ検索手段は、対象データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語及び実体対象画像を検索し、
知識特徴ベクトル生成手段は、知識グラフ検索手段によって検索された実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成し、
結合層は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成し、
エンコーダデコーダは、結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力し、
応答特徴ベクトル生成手段は、応答特徴ベクトルを入力し、応答文及び応答対象画像を出力する
ようにコンピュータを機能させることも好ましい。
発話文に、発話対象画像が対応付けられており、
対話履歴は、発話文及び発話対象画像と、応答文及び応答対象画像との組を複数含んでおり、
発話特徴ベクトル生成手段は、教師データの発話文及び発話対象画像から発話特徴ベクトルを生成し、
知識グラフ検索手段は、教師データの発話文及び発話対象画像に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索し、
応答特徴ベクトル生成手段は、教師データの発話文及び発話対象画像に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する
ようにコンピュータを機能させることも好ましい。
知識グラフ検索手段は、知識グラフを用いて、当該発話実体語から1つ以上の所定ホップ数で関係語によってリンクする実体語及び実体対象画像を検索する
ようにコンピュータを機能させることも好ましい。
エンコーダデコーダは、当該エンコーダデコーダから出力された応答特徴ベクトルと、応答文特徴ベクトル生成手段から生成された応答特徴ベクトルとの間の損失が最小となるように訓練する
ようにコンピュータを機能させることも好ましい。
知識特徴ベクトル生成手段は、GNN(Graph Neural Network)である
ようにコンピュータを機能させることも好ましい。
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
を有することを特徴とする。
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
装置は、訓練時に、
教師データの発話文から発話特徴ベクトルを生成する第1のステップと、
教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する第2のステップと、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する第3のステップと、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する第4のステップと、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する第5のステップと、
エンコーダデコーダを、結合発話特徴ベクトルが入力されると、応答特徴ベクトルを出力するように訓練する第6のステップと
を実行することを特徴とする。
図1によれば、対話装置1は、教師データとして、対話履歴蓄積部100と、知識グラフ蓄積部101とを有する。
対話履歴蓄積部100は、教師データとして、少なくとも「発話文」と、「応答文」及び「応答対象画像」との組を複数含む「対話履歴」を蓄積する。ここで、発話文にも、「発話対象画像」が対応付けられていてもよい。即ち、対話履歴は、ユーザ同士で画像も交換されるマルチモーダル情報からなる。
対話履歴は、過去にユーザ同士の間で大量にやりとりされた一連の対話文である。本発明によれば、少なくとも応答文に「応答対象画像」が対応付けられており、発話文に「発話対象画像」が対応付けられていてもよい。
勿論、対話履歴蓄積部100は、対話装置1自らが記憶しておく必要はないが、訓練時に外部から入力する必要がある。
図2によれば、以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
ユーザB:どのようなテレビ番組が好きですか?
ユーザA:犬猫よりも野生動物が好きかな。
ユーザB:ライオンですか?(ライオン画像)
ユーザA:いや、象の親子のようなのがかわいいよね(象の親子の画像)
・・・・・・・・・・・・・・・・・・・・
本発明によれば、ユーザ同士の間で対話された、テキストのみならず、画像も含むマルチモーダル情報のやりとりとなる対話履歴を、教師データとして利用する。
知識グラフ蓄積部101は、実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな「知識グラフ」を蓄積する。また、実体語には、関連トピックとしての文章が対応付けられたものであってもよい。
これに対し、本発明の知識グラフは、実体語に画像を対応付け、マルチモーダル的なものとして構築したものである。
図3によれば、実体語「象」から見て、関係語によってリンクされた複数の実体語が表されている。「象」には、関係語「全長」「特徴」「由来」「創作物」「属性」によって、それぞれの先に実体語(関連トピックを含む)がリンクされている。
図4によれば、実体語「天国に続く道」から見て、関係語によってリンクされた複数の実体語が表されている。「天国に続く道」には、関係語「全長」「特徴」「由来」「近くの観光スポット」「所在地」によって、それぞれの先に実体語(関連トピックを含む)がリンクされている。
図1によれば、対話装置1は、発話特徴ベクトル生成部11と、知識グラフ検索部12と、知識特徴ベクトル生成部13と、結合層14と、応答特徴ベクトル生成部15と、エンコーダデコーダ16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話装置の訓練方法としても理解できる。
発話特徴ベクトル生成部11は、教師データの発話文から発話特徴ベクトルを生成する。発話特徴ベクトル生成部11は、発話文と、それに加えた発話対象画像とを入力し、それぞれから発話特徴ベクトルを生成する。生成した発話特徴ベクトルは、結合層14へ入力される。
知識グラフ検索部12は、教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する。検索された実体語、実体対象画像及び関係語は、知識特徴ベクトル生成部13へ出力される。
ここで、発話実体語から関係語の1ホップ(所定ホップ数)でリンクする実体語のみを、検索してもよい。1ホップ内の他の実体語は、当該発話実体語との関連性が極めて高い知識といえる。
知識特徴ベクトル生成部13は、知識グラフ検索部12によって検索された実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する。知識特徴ベクトルは、結合層14へ入力される。
CNN(Convolutional Neural Network)は、例えば画像の上下左右斜めの8方向からの情報を畳み込んでいくのに対して、GNNは、ノードと、そのノードにリンクする他のノードの情報を畳み込むものである。
結合層14は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する。生成された結合発話特徴ベクトルは、エンコーダデコーダ16のエンコーダ側へ入力される。
応答特徴ベクトル生成部15は、教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する。
応答特徴ベクトル生成部15は、応答文及び応答話対象画像を入力し、それぞれから応答特徴ベクトルを生成する。生成した応答特徴ベクトルは、エンコーダデコーダ16のデコーダ側へ入力される。
応答文に対する応答特徴ベクトルと同様に、具体的にはBERT(登録商標)やGPT-2(登録商標)のような分散表現生成アルゴリズム(embedding)を適用し、高次元ベクトルに置き換えたものである。また、応答対象画像に対する応答特徴ベクトルは、具体的にはVisualBERT(登録商標)を適用したものである。
また、GPT-2(Generative Pre-Training 2)は、Open AIに基づくものであり、自然言語に代えてピクセルで学習することによって、前半の画像(又は一部の画像)のシーケンスから、人間が感覚的に考えるように、後半の画像(又は画像全体)を予測することができる。
エンコーダデコーダ16は、結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練する。
エンコーダデコーダ16について、エンコーダは、発話文(及び発話対象画像)並びに知識グラフに基づく結合発話特徴ベクトルを入力し、潜在ベクトルを出力する。一方で、デコーダは、エンコーダから出力された潜在ベクトルを入力し、応答特徴ベクトルを出力する。
このとき、エンコーダデコーダ16は、当該エンコーダデコーダ16から出力された応答特徴ベクトルと、応答文特徴ベクトル生成部15から生成された応答特徴ベクトルとの間の損失が最小となるように訓練する。
図6は、本発明の対話装置における対話時の機能構成図である。
図6によれば、対話装置1における対話時の機能構成は、図1で前述した訓練時の機能構成と同じである。
通信インタフェース102は、ユーザの発話音声の音声認識機能、及び、ユーザへの応答文の音声合成機能を有する。音声認識機能は、端末2のマイクによって取得されたユーザの発話音声を、テキストベースの発話文に変換する。音声合成機能は、生成された応答文を、音声信号に変換する。これら発話文及び応答文の組の履歴が、対話文履歴となる。
尚、音声認識機能及び音声合成機能は、端末2に搭載されるものであってもよい。その場合、端末2からテキストベースの「発話文」を受信すると共に、端末2へ「応答文」を送信する。
発話特徴ベクトル生成部11は、対象データの発話文から発話特徴ベクトルを生成し、その発話特徴ベクトルを、結合層14へ入力する。
知識グラフ検索部12は、対象データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する。
知識特徴ベクトル生成部13は、知識グラフ検索部12によって検索された実体語及び関係語から知識特徴ベクトルを生成し、その知識特徴ベクトルを、結合層14へ入力する。
結合層14は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成し、当該結合発話特徴ベクトルをエンコーダデコーダ16のエンコーダ側へ出力する。
エンコーダデコーダ16は、結合発話特徴ベクトルを入力し、応答特徴ベクトルを応答特徴ベクトル生成部15へ出力する。
応答特徴ベクトル生成部15は、応答特徴ベクトルを入力し、応答文及び応答対象画像を生成し、それらを通信インタフェース102から端末2へ送信する。
例えば、以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
S: 今、野生動物の番組やってますよ。(野生動物の映像、例えばテレビ)
U: この象、かわいいね。
S: 親子ですね。
U: ところで、「象の由来」は?
S:「古代中国にも生息していたゾウの姿にかたどった象形文字である」とされています。(象形文字の画像)
U:ほう~
例えば、以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
U:この道は、なんで「天国に続く道」と呼ばれているの?(視線先の画像)
S:「地平線まで続くように見える」からです。(道の画像)
また、従来技術としての非特許文献1及び3によれば、「タスク向け対話に限定される」という課題があった。これに対して、本発明によれば、深層学習モデルで応答文及び応答対象画像を生成するために、特定のタスク向けに限定されず、自然な雑談対話を実現することができる。
更に、従来技術としての非特許文献1及び4によれば、「概念知識グラフに限定される」という課題があった。これに対して、本発明によれば、話題・トピックに基づく知識グラフを構築し、話題・トピックに関連性が高いインフォメーションと画像を全部知識グラフに格納する。こうした知識グラフを用いて、話題にめぐってマルチモーダル雑談対話の応答生成が期待できる。これによって、豊富な知識を含む雑談対話を実現することができる。
100 対話履歴蓄積部
101 知識グラフ蓄積部
102 通信インタフェース
11 発話特徴ベクトル生成部
12 知識グラフ検索部
13 知識特徴ベクトル生成部
14 結合層
15 応答特徴ベクトル生成部
16 エンコーダデコーダ
2 端末
Claims (9)
- ユーザと対話するようにコンピュータを機能させるプログラムにおいて、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
してコンピュータを機能させることを特徴とするプログラム。 - 知識グラフ蓄積手段は、知識グラフの実体語及び関係語をキーとして、検索サイトによって画像を検索し、検索された画像を当該実体語に対応付けたものである
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 対話時に、
対象データとなる発話文を入力し、
発話特徴ベクトル生成手段は、対象データの発話文から発話特徴ベクトルを生成し、
知識グラフ検索手段は、対象データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語及び実体対象画像を検索し、
知識特徴ベクトル生成手段は、知識グラフ検索手段によって検索された実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成し、
結合層は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成し、
エンコーダデコーダは、結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力し、
応答特徴ベクトル生成手段は、応答特徴ベクトルを入力し、応答文及び応答対象画像を出力する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 発話文に、発話対象画像が対応付けられており、
対話履歴は、発話文及び発話対象画像と、応答文及び応答対象画像との組を複数含んでおり、
発話特徴ベクトル生成手段は、教師データの発話文及び発話対象画像から発話特徴ベクトルを生成し、
知識グラフ検索手段は、教師データの発話文及び発話対象画像に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索し、
応答特徴ベクトル生成手段は、教師データの発話文及び発話対象画像に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 知識グラフ検索手段は、知識グラフを用いて、当該発話実体語から1つ以上の所定ホップ数で関係語によってリンクする実体語及び実体対象画像を検索する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 - エンコーダデコーダは、当該エンコーダデコーダから出力された応答特徴ベクトルと、応答文特徴ベクトル生成手段から生成された応答特徴ベクトルとの間の損失が最小となるように訓練する
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。 - 知識特徴ベクトル生成手段は、GNN(Graph Neural Network)である
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。 - ユーザと対話する対話装置において、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
を有することを特徴とする対話装置。
- ユーザと対話する装置に搭載されたエンコーダデコーダを訓練する方法において、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
装置は、訓練時に、
教師データの発話文から発話特徴ベクトルを生成する第1のステップと、
教師データの発話文に含まれる1つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する第2のステップと、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する第3のステップと、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する第4のステップと、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する第5のステップと、
エンコーダデコーダを、結合発話特徴ベクトルが入力されると、応答特徴ベクトルを出力するように訓練する第6のステップと
を実行することを特徴とする訓練方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035724A JP7486263B2 (ja) | 2021-03-05 | 2021-03-05 | マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035724A JP7486263B2 (ja) | 2021-03-05 | 2021-03-05 | マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022135734A JP2022135734A (ja) | 2022-09-15 |
JP7486263B2 true JP7486263B2 (ja) | 2024-05-17 |
Family
ID=83232117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021035724A Active JP7486263B2 (ja) | 2021-03-05 | 2021-03-05 | マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7486263B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303962B (zh) * | 2023-03-21 | 2024-05-28 | 北京百度网讯科技有限公司 | 对话生成方法、深度学习模型的训练方法、装置和设备 |
CN116467482B (zh) * | 2023-04-04 | 2024-04-09 | 广东省科学院广州地理研究所 | 多模态植物知识查询方法、系统及计算机设备 |
CN116383365B (zh) * | 2023-06-01 | 2023-09-08 | 广州里工实业有限公司 | 一种基于智能制造的学习资料生成方法、系统及电子设备 |
CN117576710B (zh) * | 2024-01-15 | 2024-05-28 | 西湖大学 | 用于大数据分析的基于图生成自然语言文本的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170076222A1 (en) | 2015-09-14 | 2017-03-16 | International Business Machines Corporation | System and method to cognitively process and answer questions regarding content in images |
JP2017534956A (ja) | 2015-05-21 | 2017-11-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | 多言語画像質問応答 |
US20190251169A1 (en) | 2017-02-12 | 2019-08-15 | Seyed Ali Loghmani | Convolutional state modeling for planning natural language conversations |
JP2019530920A (ja) | 2016-08-16 | 2019-10-24 | イーベイ インク.Ebay Inc. | 次のユーザプロンプトタイプの選択 |
JP2021082308A (ja) | 2020-01-15 | 2021-05-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 |
-
2021
- 2021-03-05 JP JP2021035724A patent/JP7486263B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534956A (ja) | 2015-05-21 | 2017-11-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | 多言語画像質問応答 |
US20170076222A1 (en) | 2015-09-14 | 2017-03-16 | International Business Machines Corporation | System and method to cognitively process and answer questions regarding content in images |
JP2019530920A (ja) | 2016-08-16 | 2019-10-24 | イーベイ インク.Ebay Inc. | 次のユーザプロンプトタイプの選択 |
US20190251169A1 (en) | 2017-02-12 | 2019-08-15 | Seyed Ali Loghmani | Convolutional state modeling for planning natural language conversations |
JP2021082308A (ja) | 2020-01-15 | 2021-05-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 |
Non-Patent Citations (1)
Title |
---|
Yanlin Feng、外5名,"Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering",arXiv [online],Cornell University,2020年09月18日,pp.1-14,[検索日 2024.01.22] インターネット:https://arxiv.org/abs/2005.00646 |
Also Published As
Publication number | Publication date |
---|---|
JP2022135734A (ja) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7486263B2 (ja) | マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 | |
US11769018B2 (en) | System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system | |
Moon et al. | Situated and interactive multimodal conversations | |
US11823061B2 (en) | Systems and methods for continual updating of response generation by an artificial intelligence chatbot | |
US11210836B2 (en) | Applying artificial intelligence to generate motion information | |
CN110188182B (zh) | 模型训练方法、对话生成方法、装置、设备及介质 | |
US11200467B2 (en) | Artificial intelligence apparatus and method for recognizing object included in image data | |
US20230053425A1 (en) | Computer Device and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character in an Augmented Environment | |
US10878805B2 (en) | Expediting interaction with a digital assistant by predicting user responses | |
CN115438176B (zh) | 下游任务模型生成及任务执行的方法和设备 | |
Wahlster | Towards symmetric multimodality: Fusion and fission of speech, gesture, and facial expression | |
Chen et al. | Dynamic time-aware attention to speaker roles and contexts for spoken language understanding | |
CN110209774A (zh) | 处理会话信息的方法、装置及终端设备 | |
Bell et al. | Microblogging as a mechanism for human–robot interaction | |
Wilks et al. | A prototype for a conversational companion for reminiscing about images | |
KR20210026962A (ko) | 보이스 어시스턴트 서비스를 제공하는 장치 및 방법 | |
JP2020027609A (ja) | 応答推論方法及び装置 | |
Feng et al. | A platform for building mobile virtual humans | |
Zaguia et al. | Modeling rules fission and modality selection using ontology | |
CN113779962B (zh) | 数据处理方法、装置、设备和存储介质 | |
US20240242029A1 (en) | Artificial intelligence device for common sense reasoning for visual question answering and control method thereof | |
Singh | Analysis of Currently Open and Closed-source Software for the Creation of an AI Personal Assistant | |
Cingillioglu et al. | Neural logic framework for digital assistants | |
Karekar et al. | Bhagavad Geeta Based ChatBot | |
Virmani et al. | AMIBO: intelligent social conversational agent using artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240502 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7486263 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |