JP7486263B2

JP7486263B2 - マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法

Info

Publication number: JP7486263B2
Application number: JP2021035724A
Authority: JP
Inventors: 博楊; 剣明呉; 元服部
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2024-05-17
Anticipated expiration: 2041-03-05
Also published as: JP2022135734A

Description

本発明は、ユーザと自然な対話を実現する対話エージェントの技術に関する。

ユーザとの対話システムとしては、テキストベースが一般的である。端末は、ユーザインタフェースとして機能し、ユーザの発話音声を対話システムへ送信する。対話システムは、その発話文に対して自然な対話となる応答文を生成し、その応答文を端末へ返信する。そして、端末は、その応答文を音声又はテキストによって、ユーザへ返答する。このような対話システムとしては、例えば「Siri（登録商標）」や「しゃべってコンシェル（登録商標）」がある。

これに対し、マルチモーダルな対話システムが期待されている。この対話システムは、ユーザとの間で、テキスト、音声及び画像など複数のコミュニケーションモードで、対話をやりとりすることができる。特に、ＡＩ(Artificial Intelligence)を用いた雑談対話システムによれば、マルチモーダル情報に応じて自然な応答文を返答することができ、ユーザの対話意欲を高めることが期待される。

また、豊富な知識を含む対話のやりとり実現するために、知識グラフを活用した対話システムの技術もある。「知識グラフ」とは、実体同士の間の関係を記述して作成したグラフである。即ち、実体語を「ノード」として、実体語間の関係語を「リンク」とすることによって作成される。

従来、知識グラフの概念遷移を考慮して、テキストベースの対話における応答文を自動的に生成する技術がある（例えば非特許文献１参照）。
また、マルチドメインのトピック（映画、音楽、旅行）によって知識グラフを構築する技術もある（例えば非特許文献２参照）。この技術によれば、雑談対話コーパスKdConvを用いて、知識を融合した応答文を生成する。
更に、特定のタスク向けの知識グラフを用いて、対話の応答文を生成する技術もある（例えば非特許文献３参照）。この技術によれば、オンラインモールのサービスセンタが、対話文と商品写真とからなる商品知識グラフを用いて、ユーザとセールスオペレータとの間で、マルチモーダルな対話の応答文を生成する。
更に、ユーザの発話文から主要概念を生成し、タスク知識ベースと一般知識ベースの両方を参照して、応答文を生成する技術もある（例えば特許文献１参照）。

特開２０１７－２２４２０４号公報

Houyu Zhang, Zhenghao Liu, Chenyan Xiong, Zhiyuan Liu, "Grounded conversation Generation as Guided Traverses in Commonsense Knowledge Graphs"（2020）、[online]、［令和３年２月２１日検索］、インターネット＜URL: https://arxiv.org/pdf/1911.02707.pdf＞ Hao Zhou, Chujie Zheng, Kaili Huang, Minlie Huang, Xiaoyan Zhu, "KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation"(2020)、[online]、［令和３年２月２１日検索］、インターネット＜URL:https://www.aclweb.org/anthology/2020.acl-main.635.pdf＞ Lizi Liao, Yunshan Ma, Xiangnan He, Richang Hong, Tat-Seng Chua, "Knowledge-aware Multimodal Dialogue Systems"（2020）、[online]、［令和３年２月２１日検索］、インターネット＜URL:https://nextcenter.org/wp-content/uploads/2020/04/Knowledge-Aware.pdf＞

非特許文献１に記載の技術によれば、知識グラフの概念遷移としてbook, bag, hope, based, futureなどの限定された語彙同士と結んだものである。そのために、知識としての関連トピック（関連説明文）は記述されおらず、このような知識グラフを適用しても、知識を含む雑談的に対話をすることはできない。
非特許文献２に記載の技術によれば、知識グラフがテキストべースに限定されているために、画像を含むマルチモーダルな雑談対話をすることはできない。
非特許文献３に記載の技術によれば、商品サービス販売のような所定のタスク向けの知識グラフを適用したものであって、豊富な知識に基づくマルチモーダルな雑談対話をすることはできない。
特許文献１に記載の技術によれば、ルールベースの応答生成方式であって、大量の教師データから自動的に応答文を生成するものではない。また、タスク知識ベースと一般知識ベース両方とも、soda, code, tea, hot, soupなどの単語で構成されているに過ぎず、関連トピックまでも記述されていない。

これに対し、本願の発明者らは、関連トピックや関連画像を含む知識グラフを構築することによって、画像を含むマルチモーダルな雑談対話をすることはできないか、と考えた。

そこで、本発明は、マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法を提供することを目的とする。

本発明によれば、ユーザと対話するようにコンピュータを機能させるプログラムにおいて、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
してコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
知識グラフ蓄積手段は、知識グラフの実体語及び関係語をキーとして、検索サイトによって画像を検索し、検索された画像を当該実体語に対応付けたものである
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
対話時に、
対象データとなる発話文を入力し、
発話特徴ベクトル生成手段は、対象データの発話文から発話特徴ベクトルを生成し、
知識グラフ検索手段は、対象データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語及び実体対象画像を検索し、
知識特徴ベクトル生成手段は、知識グラフ検索手段によって検索された実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成し、
結合層は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成し、
エンコーダデコーダは、結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力し、
応答特徴ベクトル生成手段は、応答特徴ベクトルを入力し、応答文及び応答対象画像を出力する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
発話文に、発話対象画像が対応付けられており、
対話履歴は、発話文及び発話対象画像と、応答文及び応答対象画像との組を複数含んでおり、
発話特徴ベクトル生成手段は、教師データの発話文及び発話対象画像から発話特徴ベクトルを生成し、
知識グラフ検索手段は、教師データの発話文及び発話対象画像に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索し、
応答特徴ベクトル生成手段は、教師データの発話文及び発話対象画像に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
知識グラフ検索手段は、知識グラフを用いて、当該発話実体語から１つ以上の所定ホップ数で関係語によってリンクする実体語及び実体対象画像を検索する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
エンコーダデコーダは、当該エンコーダデコーダから出力された応答特徴ベクトルと、応答文特徴ベクトル生成手段から生成された応答特徴ベクトルとの間の損失が最小となるように訓練する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
知識特徴ベクトル生成手段は、ＧＮＮ(Graph Neural Network)である
ようにコンピュータを機能させることも好ましい。

本発明によれば、ユーザと対話する対話装置において、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
を有することを特徴とする。

本発明によれば、ユーザと対話する装置に搭載されたエンコーダデコーダを訓練する方法において、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
装置は、訓練時に、
教師データの発話文から発話特徴ベクトルを生成する第１のステップと、
教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する第２のステップと、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する第３のステップと、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する第４のステップと、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する第５のステップと、
エンコーダデコーダを、結合発話特徴ベクトルが入力されると、応答特徴ベクトルを出力するように訓練する第６のステップと
を実行することを特徴とする。

本発明のプログラム、装置及び方法によれば、マルチモーダルな知識グラフを用いて雑談的に対話することができる。

本発明の対話装置における訓練時の機能構成図である。訓練時の教師データとしての対話履歴を表す説明図である。訓練時の教師データとしての知識グラフを表す第１の説明図である。訓練時の教師データとしての知識グラフを表す第２の説明図である。本発明の対話装置における特徴ベクトルの訓練を表す説明図である。本発明の対話装置における対話時の機能構成図である。本発明における第１の対話例を表す説明図である。本発明における第２の対話例を表す説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明の対話装置における訓練時の機能構成図である。

図１によれば、対話装置１は、マルチモーダルな知識グラフを用いて、ユーザとの間で雑談のような自然な対話を実現することができる。対話装置１は、複数の機械学習エンジンを搭載しており、＜訓練時＞及び＜対話時＞に分けられる。また、対話装置１は、機械学習エンジンの訓練時に、＜教師データ＞によって学習モデルを構築する。

本発明の対話装置１は、深層学習モデルにおける分散表現生成部(embedder)及びエンコーダデコーダ(encoder-decoder)を用いて、テキストと画像との両方をクロスモーダル的に訓練することにある。これによって、発話文（及び発話対象画像）に対して、マルチモーダルな応答文及び応答対象画像を生成することができる。

＜教師データ＞
図１によれば、対話装置１は、教師データとして、対話履歴蓄積部１００と、知識グラフ蓄積部１０１とを有する。

［対話履歴蓄積部１００］
対話履歴蓄積部１００は、教師データとして、少なくとも「発話文」と、「応答文」及び「応答対象画像」との組を複数含む「対話履歴」を蓄積する。ここで、発話文にも、「発話対象画像」が対応付けられていてもよい。即ち、対話履歴は、ユーザ同士で画像も交換されるマルチモーダル情報からなる。
対話履歴は、過去にユーザ同士の間で大量にやりとりされた一連の対話文である。本発明によれば、少なくとも応答文に「応答対象画像」が対応付けられており、発話文に「発話対象画像」が対応付けられていてもよい。
勿論、対話履歴蓄積部１００は、対話装置１自らが記憶しておく必要はないが、訓練時に外部から入力する必要がある。

図２は、訓練時の教師データとしての対話履歴を表す説明図である。

図２によれば、ユーザＡ及びＢが、画像を用いて対話文がやりとりされている。ここでの画像は、対話中に視聴されている映像から切り取られた画像であってもよいし、カメラによって撮影された画像や、インターネットによって検索された引用画像であってもよい。
図２によれば、以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
ユーザＢ：どのようなテレビ番組が好きですか？
ユーザＡ：犬猫よりも野生動物が好きかな。
ユーザＢ：ライオンですか？（ライオン画像）
ユーザＡ：いや、象の親子のようなのがかわいいよね（象の親子の画像）
・・・・・・・・・・・・・・・・・・・・
本発明によれば、ユーザ同士の間で対話された、テキストのみならず、画像も含むマルチモーダル情報のやりとりとなる対話履歴を、教師データとして利用する。

［知識グラフ蓄積部１０１］
知識グラフ蓄積部１０１は、実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな「知識グラフ」を蓄積する。また、実体語には、関連トピックとしての文章が対応付けられたものであってもよい。

一般的な知識グラフとして、非特許文献２に記載された「KdConv」という雑談対話コーパスがある。しかしながら、KdConvは、実体語に画像を対応付けたものではなく、マルチモーダル的なものではない。
これに対し、本発明の知識グラフは、実体語に画像を対応付け、マルチモーダル的なものとして構築したものである。

知識グラフ蓄積部１０１は、知識グラフの実体語及び関係語をキーとして、検索サイトによって画像を検索し、検索された画像を当該実体語に対応付けたものであってもよい。例えばKdConvのような雑談対話コーパスに、実体語及び関係語をキーとして検索した画像を、その実体語に対応付けることもできる。

他の実施形態における大規模な知識グラフとして、例えばWikipedia（登録商標）を用いることもできる。Wikipediaを検索して、取得された文章の一部又は要約を、ノードとしてリンクさせる。

図３は、訓練時の教師データとしての知識グラフを表す第１の説明図である。
図３によれば、実体語「象」から見て、関係語によってリンクされた複数の実体語が表されている。「象」には、関係語「全長」「特徴」「由来」「創作物」「属性」によって、それぞれの先に実体語（関連トピックを含む）がリンクされている。

図４は、訓練時の教師データとしての知識グラフを表す第２の説明図である。
図４によれば、実体語「天国に続く道」から見て、関係語によってリンクされた複数の実体語が表されている。「天国に続く道」には、関係語「全長」「特徴」「由来」「近くの観光スポット」「所在地」によって、それぞれの先に実体語（関連トピックを含む）がリンクされている。

＜訓練時＞
図１によれば、対話装置１は、発話特徴ベクトル生成部１１と、知識グラフ検索部１２と、知識特徴ベクトル生成部１３と、結合層１４と、応答特徴ベクトル生成部１５と、エンコーダデコーダ１６とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話装置の訓練方法としても理解できる。

図５は、本発明の対話装置における特徴ベクトルの訓練を表す説明図である。

［発話特徴ベクトル生成部１１］
発話特徴ベクトル生成部１１は、教師データの発話文から発話特徴ベクトルを生成する。発話特徴ベクトル生成部１１は、発話文と、それに加えた発話対象画像とを入力し、それぞれから発話特徴ベクトルを生成する。生成した発話特徴ベクトルは、結合層１４へ入力される。

発話文に対する発話特徴ベクトルは、具体的にはBERT（登録商標）やGPT-2（登録商標）のような分散表現生成アルゴリズム(embedding)を適用し、高次元ベクトルに置き換えたものである。また、発話対象画像に対する発話特徴ベクトルは、具体的にはVisualBERT（登録商標）を適用したものである。

前述した図２の対話履歴によれば、発話特徴ベクトル生成部１１は、対話履歴におけるユーザＡの発話文「象の親子のようなのがかわいいよね」と、発話対象画像「象の親子」とを入力し、発話特徴ベクトルを生成する。

［知識グラフ検索部１２］
知識グラフ検索部１２は、教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する。検索された実体語、実体対象画像及び関係語は、知識特徴ベクトル生成部１３へ出力される。
ここで、発話実体語から関係語の１ホップ（所定ホップ数）でリンクする実体語のみを、検索してもよい。１ホップ内の他の実体語は、当該発話実体語との関連性が極めて高い知識といえる。

前述した図２によれば、知識グラフ検索部１２は、対話履歴におけるユーザＡの発話文「象の親子のようなのがかわいいよね」から、発話実体語「象」という単語を生成する。そして、知識グラフ検索部１２は、知識グラフ蓄積部１０１を用いて、発話実体語「象」から関係語によってリンクする他の実体語を検索する。このとき、発話実体語から１ホップで関係語によってリンクする実体語のみが検索されている。

［知識特徴ベクトル生成部１３］
知識特徴ベクトル生成部１３は、知識グラフ検索部１２によって検索された実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する。知識特徴ベクトルは、結合層１４へ入力される。

知識特徴ベクトル生成部１３は、ＧＮＮ(Graph Neural Network)であってもよい。
ＣＮＮ(Convolutional Neural Network)は、例えば画像の上下左右斜めの８方向からの情報を畳み込んでいくのに対して、ＧＮＮは、ノードと、そのノードにリンクする他のノードの情報を畳み込むものである。

［結合層１４］
結合層１４は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する。生成された結合発話特徴ベクトルは、エンコーダデコーダ１６のエンコーダ側へ入力される。

［応答特徴ベクトル生成部１５］
応答特徴ベクトル生成部１５は、教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する。
応答特徴ベクトル生成部１５は、応答文及び応答話対象画像を入力し、それぞれから応答特徴ベクトルを生成する。生成した応答特徴ベクトルは、エンコーダデコーダ１６のデコーダ側へ入力される。
応答文に対する応答特徴ベクトルと同様に、具体的にはBERT（登録商標）やGPT-2（登録商標）のような分散表現生成アルゴリズム(embedding)を適用し、高次元ベクトルに置き換えたものである。また、応答対象画像に対する応答特徴ベクトルは、具体的にはVisualBERT（登録商標）を適用したものである。

BERT(Bidirectional Encoder Representations from Transformers)とは、Transformerアーキテクチャによる双方向学習のエンコード表現であり、Google（登録商標）の自然言語処理モデルである。画像についてはVisualBERTがある。BERTは、Seq2seqベースの事前学習モデルであり、ラベルが付与されていない特徴ベクトル（分散表現）をTransformerで処理して学習する。これは、連続する文章の中で、次に来る単語を単に予測するだけでなく、周りの文脈からからマスクされている単語を双方向で予測する。これによって、単語に対応する文脈情報を学習する。
また、GPT-2(Generative Pre-Training 2)は、Open AIに基づくものであり、自然言語に代えてピクセルで学習することによって、前半の画像（又は一部の画像）のシーケンスから、人間が感覚的に考えるように、後半の画像（又は画像全体）を予測することができる。

ここで、結合発話特徴ベクトル（発話特徴ベクトル及び知識特徴ベクトル）並びに応答特徴ベクトルには、潜在的に「注意機構(Attention)」を含む。注意機構は、自然言語処理によって文として自然であることを過度に優先することのないようにしたものである。これによって、重要視すべき単語や語句が指定され、エンコーダデコーダ１６における適切な自然言語処理が可能となる。

［エンコーダデコーダ１６］
エンコーダデコーダ１６は、結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練する。
エンコーダデコーダ１６について、エンコーダは、発話文（及び発話対象画像）並びに知識グラフに基づく結合発話特徴ベクトルを入力し、潜在ベクトルを出力する。一方で、デコーダは、エンコーダから出力された潜在ベクトルを入力し、応答特徴ベクトルを出力する。
このとき、エンコーダデコーダ１６は、当該エンコーダデコーダ１６から出力された応答特徴ベクトルと、応答文特徴ベクトル生成部１５から生成された応答特徴ベクトルとの間の損失が最小となるように訓練する。

エンコーダデコーダ１６は、Transformerに基づくものであってもよい。前述したように、エンコーダデコーダ１６は、ラベル付けされていない言語に基づく特徴ベクトルと画像に基づく特徴ベクトルとを、クロスモーダル的に訓練する。これは、発話文（及び発話対象画像）と、応答文及び応答対象画像と、知識グラフとを関連付けを訓練したこととなる。

＜対話時＞
図６は、本発明の対話装置における対話時の機能構成図である。
図６によれば、対話装置１における対話時の機能構成は、図１で前述した訓練時の機能構成と同じである。

対話装置１は、通信インタフェース１０２を更に有し、ユーザインタフェースとなる端末２から発話文（及び発話対象画像）を受信し、端末２へ応答文及び応答対象画像を送信する。
通信インタフェース１０２は、ユーザの発話音声の音声認識機能、及び、ユーザへの応答文の音声合成機能を有する。音声認識機能は、端末２のマイクによって取得されたユーザの発話音声を、テキストベースの発話文に変換する。音声合成機能は、生成された応答文を、音声信号に変換する。これら発話文及び応答文の組の履歴が、対話文履歴となる。
尚、音声認識機能及び音声合成機能は、端末２に搭載されるものであってもよい。その場合、端末２からテキストベースの「発話文」を受信すると共に、端末２へ「応答文」を送信する。

前述した図１における訓練時では、教師データについて処理されるのに対し、図６における対話時では、通信インタフェース１０２によってリアルタイムに受信した対象データについて処理される。

端末２は、ユーザからマルチモーダル情報を取得し、ユーザへマルチモーダル情報を表示可能なデバイスを搭載している。少なくとも、ユーザへ画像を表示するディスプレイと、ユーザからの発話音声を収音可能なマイクと、ユーザが視聴中の画像を撮影可能なカメラとを搭載する。このような端末２としては、例えば「SOTA（登録商標）」「ユニボー（登録商標）」のようなロボット（以下「端末」と称す）がある。また、ディスプレイ、マイク及びカメラを備えた「Google Home（登録商標）」や「Amazon Echo（登録商標）」のようなタブレットであってもよい。

図６によれば、発話特徴ベクトル生成部１１は、ユーザの発話文（及び発話対象画像）を入力し、発話特徴ベクトルをエンコーダデコーダ１６へ出力する。
発話特徴ベクトル生成部１１は、対象データの発話文から発話特徴ベクトルを生成し、その発話特徴ベクトルを、結合層１４へ入力する。
知識グラフ検索部１２は、対象データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する。
知識特徴ベクトル生成部１３は、知識グラフ検索部１２によって検索された実体語及び関係語から知識特徴ベクトルを生成し、その知識特徴ベクトルを、結合層１４へ入力する。
結合層１４は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成し、当該結合発話特徴ベクトルをエンコーダデコーダ１６のエンコーダ側へ出力する。
エンコーダデコーダ１６は、結合発話特徴ベクトルを入力し、応答特徴ベクトルを応答特徴ベクトル生成部１５へ出力する。
応答特徴ベクトル生成部１５は、応答特徴ベクトルを入力し、応答文及び応答対象画像を生成し、それらを通信インタフェース１０２から端末２へ送信する。

図７は、本発明における第１の対話例を表す説明図である。

図７によれば、例えばユーザがテレビを見ながら、対話装置１と雑談対話をしているとする。このとき、ユーザが見ているテレビの映像を、対話装置１が認識していてもよい。
例えば、以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
Ｓ: 今、野生動物の番組やってますよ。（野生動物の映像、例えばテレビ）
Ｕ: この象、かわいいね。
Ｓ: 親子ですね。
Ｕ: ところで、「象の由来」は？
Ｓ：「古代中国にも生息していたゾウの姿にかたどった象形文字である」とされています。（象形文字の画像）
Ｕ：ほう～

図７によれば、対話装置１は、ユーザから発話文「象の由来」を受信する。そして、対話装置１は、その発話文から生成された発話特徴ベクトルと、「象」「由来」を含む知識グラフに対する知識特徴ベクトルとから、応答文「古代中国にも生息していたゾウの姿にかたどった象形文字である」と応答対象画像「象形文字」とを出力することができる。象形文字やその画像は、過去のユーザ同士の対話履歴から得られない知識である。このような知識についても、雑談対話をすることができる。

図８は、本発明における第２の対話例を表す説明図である。

図８によれば、例えばユーザが自動車を運転しながら、対話装置１と雑談対話をしているとする。このとき、ユーザの視線先が端末２のカメラによって撮影され、その画像が発話対象画像として、対話装置１へ送信されているとする。
例えば、以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
Ｕ：この道は、なんで「天国に続く道」と呼ばれているの？（視線先の画像）
Ｓ：「地平線まで続くように見える」からです。（道の画像）

図８によれば、対話装置１は、ユーザからの発話文「天国に続く道」と、発話対象画像と受信する。そして、対話装置１は、その発話文及び発話対象画像から生成した発話特徴ベクトルと、「天国に続く道」を含む知識グラフに対する知識特徴ベクトルとから、応答文「地平線まで続くように見える」と応答対象画像（天国に続く道）とを出力することができる。天国に続く道の由来や画像は、過去のユーザ同士の対話履歴から得られない知識である。このような知識についても、雑談対話をすることができる。

以上、詳細に説明したように、本発明の対話プログラム、装置及び方法によれば、マルチモーダルな知識グラフを用いて雑談的に対話することができる。

従来技術としての非特許文献１、２及び４によれば、「画像を含むマルチモーダル雑談対話を展開できない」という課題があった。これに対して、本発明によれば、画像を含む知識グラフを用いることによって、テキストのみならず、マルチモーダルな雑談対話を実現することができる。
また、従来技術としての非特許文献１及び３によれば、「タスク向け対話に限定される」という課題があった。これに対して、本発明によれば、深層学習モデルで応答文及び応答対象画像を生成するために、特定のタスク向けに限定されず、自然な雑談対話を実現することができる。
更に、従来技術としての非特許文献１及び４によれば、「概念知識グラフに限定される」という課題があった。これに対して、本発明によれば、話題・トピックに基づく知識グラフを構築し、話題・トピックに関連性が高いインフォメーションと画像を全部知識グラフに格納する。こうした知識グラフを用いて、話題にめぐってマルチモーダル雑談対話の応答生成が期待できる。これによって、豊富な知識を含む雑談対話を実現することができる。

尚、これにより、例えば「マルチモーダルな知識グラフを用いて雑談的な対話によってユーザサポートやビジネスコンタクトをすることができる」ことから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標８「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することが可能となる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１対話装置
１００対話履歴蓄積部
１０１知識グラフ蓄積部
１０２通信インタフェース
１１発話特徴ベクトル生成部
１２知識グラフ検索部
１３知識特徴ベクトル生成部
１４結合層
１５応答特徴ベクトル生成部
１６エンコーダデコーダ
２端末

Claims

ユーザと対話するようにコンピュータを機能させるプログラムにおいて、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
してコンピュータを機能させることを特徴とするプログラム。
知識グラフ蓄積手段は、知識グラフの実体語及び関係語をキーとして、検索サイトによって画像を検索し、検索された画像を当該実体語に対応付けたものである
ようにコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
対話時に、
対象データとなる発話文を入力し、
発話特徴ベクトル生成手段は、対象データの発話文から発話特徴ベクトルを生成し、
知識グラフ検索手段は、対象データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語及び実体対象画像を検索し、
知識特徴ベクトル生成手段は、知識グラフ検索手段によって検索された実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成し、
結合層は、発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成し、
エンコーダデコーダは、結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力し、
応答特徴ベクトル生成手段は、応答特徴ベクトルを入力し、応答文及び応答対象画像を出力する
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。
発話文に、発話対象画像が対応付けられており、
対話履歴は、発話文及び発話対象画像と、応答文及び応答対象画像との組を複数含んでおり、
発話特徴ベクトル生成手段は、教師データの発話文及び発話対象画像から発話特徴ベクトルを生成し、
知識グラフ検索手段は、教師データの発話文及び発話対象画像に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索し、
応答特徴ベクトル生成手段は、教師データの発話文及び発話対象画像に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。
知識グラフ検索手段は、知識グラフを用いて、当該発話実体語から１つ以上の所定ホップ数で関係語によってリンクする実体語及び実体対象画像を検索する
ようにコンピュータを機能させることを特徴とする請求項１から４のいずれか１項に記載のプログラム。
エンコーダデコーダは、当該エンコーダデコーダから出力された応答特徴ベクトルと、応答文特徴ベクトル生成手段から生成された応答特徴ベクトルとの間の損失が最小となるように訓練する
ようにコンピュータを機能させることを特徴とする請求項１から５のいずれか１項に記載のプログラム。
知識特徴ベクトル生成手段は、ＧＮＮ(Graph Neural Network)である
ようにコンピュータを機能させることを特徴とする請求項１から６のいずれか１項に記載のプログラム。
ユーザと対話する対話装置において、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
訓練時に、
教師データの発話文から発話特徴ベクトルを生成する発話特徴ベクトル生成手段と、
教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する知識グラフ検索手段と、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する知識特徴ベクトル生成手段と、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する結合層と、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する応答特徴ベクトル生成手段と、
結合発話特徴ベクトルを入力し、応答特徴ベクトルを出力するように訓練するエンコーダデコーダと
を有することを特徴とする対話装置。
ユーザと対話する装置に搭載されたエンコーダデコーダを訓練する方法において、
教師データとして、
発話文と、応答文及び応答対象画像との組を複数含む対話履歴と、
実体対象画像が対応付けられた実体語同士の間を、関係語によってリンクしたマルチモーダルな知識グラフと
を用いて、
装置は、訓練時に、
教師データの発話文から発話特徴ベクトルを生成する第１のステップと、
教師データの発話文に含まれる１つ以上の発話実体語を検出し、知識グラフを用いて当該発話実体語から関係語によってリンクする実体語を検索する第２のステップと、
実体語、実体対象画像及び関係語から、知識特徴ベクトルを生成する第３のステップと、
発話特徴ベクトルと知識特徴ベクトルとを結合して、結合発話特徴ベクトルを生成する第４のステップと、
教師データの発話文に対応する教師データの応答文及び応答対象画像から、応答特徴ベクトルを生成する第５のステップと、
エンコーダデコーダを、結合発話特徴ベクトルが入力されると、応答特徴ベクトルを出力するように訓練する第６のステップと
を実行することを特徴とする訓練方法。