JP2021021978A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2021021978A
JP2021021978A JP2019136232A JP2019136232A JP2021021978A JP 2021021978 A JP2021021978 A JP 2021021978A JP 2019136232 A JP2019136232 A JP 2019136232A JP 2019136232 A JP2019136232 A JP 2019136232A JP 2021021978 A JP2021021978 A JP 2021021978A
Authority
JP
Japan
Prior art keywords
information
feature
unit
feature information
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019136232A
Other languages
English (en)
Inventor
佑介 山浦
Yusuke Yamaura
佑介 山浦
幸寛 坪下
Yukihiro Tsuboshita
幸寛 坪下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019136232A priority Critical patent/JP2021021978A/ja
Publication of JP2021021978A publication Critical patent/JP2021021978A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】入力された情報に対して適用する特徴量を抽出する順序が一律に決まっている場合と比べて、高精度の情報を導出する。【解決手段】反映部(4)は、ボトムアップ型注意モデル及びトップダウン型注意モデルの何れかを用いて、画像データの特徴を表す第1特徴情報と、画像データを説明する言語データから特定された第2特徴情報との相互作用を示す情報を、第1特徴情報及び第2特徴情報の一方に反映する。設定部は、第1特徴情報及び第2特徴情報のそれぞれの情報の確からしさに基づいて、反映部が第1特徴情報又は第2特徴情報に、相互作用を示す情報を反映するよう設定する。相互アテンション部(43)は、相互作用を示す情報が反映された反映済み特徴情報を出力する。【選択図】図1

Description

本発明は、情報処理装置及びプログラムに関する。
従来より、入力された情報に含まれる特徴量を抽出して、入力された情報の特徴を示す情報を出力する情報処理装置が各種提案されている。特徴量を抽出するのに際して、入力された情報のうちどの部分に注意(アテンション)を向けるかを決定する「アテンション機構」が知られており、その注意には、顕著な刺激に対して受動的に誘導される注意(以下、ボトムアップ型注意)と、目的指向性に能動的に誘導される注意(以下、トップダウン型注意)との2つの注意がある。例えば、ボトムアップ型注意とトップダウン型注意とに注目した技術として、画像から検出される物体領域をボトムアップ型注意とし、質問文から決定される各領域の重みをトップダウン型注意として、入力された画像及び質問文に対応する回答を導出するメカニズムをモデル化する技術が開示されている(非特許文献1)。また、画像特徴量と言語特徴量とを加算する技術が開示されている(非特許文献2)。さらに、言語と画像の特徴量を統合した特徴量から、言語に対する注意を示す情報と画像に対する注意を示す情報を同時に計算する技術も開示されている(非特許文献3)。
また、その他の例として、画像のウィンドウ内の特徴量からボトムアップ注意による分析結果を基にウィンドウを操作する処理と、ウィンドウ内の特徴量の空間的関係からトップダウン注意による分析結果を基にウィンドウを操作する処理を行うことで、画像のウィンドウ走査によるパターン認識を行う技術が開示されている(特許文献1)。また、ボトムアップ型注意による顕著性マップと、トップダウン型注意による関心領域とを分析して、画像における顕著性を評価する技術が開示されている(特許文献2)。さらに、画像から背側注意により顕著性マップを、腹側注意から予期しない視覚刺激を求め、車の運転者が予期しない事象に対応するための動的注意システムに関する技術が開示されている(特許文献3)。
特表2003−500776号公報 特開2014−167673号公報 特開2011−008772号公報
例えば、画像とその画像に関する文章といった複数の情報から、その画像の中でユーザの注意(アテンション)が向く対象を特定する場合、複数の情報から得られた特徴情報をそのままボトムアップ型注意モデル及びトップダウン型注意モデルの各々に適用する手法が存在するが、得られた複数の情報によっては、得られた情報をそのままボトムアップ型注意モデルに入力するのに適していない情報、又は得られた情報をそのままトップダウン型注意モデルに入力するのに適していない情報があり、適していないモデルを用いてしまった場合、高精度の情報を導出するのには不十分である。
本開示は、入力された情報に対して適用する特徴量を抽出する順序が一律に決まっている場合と比べて、高精度の情報を導出することができる情報処理装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1態様は、
第1の情報を表す第1特徴情報と、前記第1の情報を説明する第2の情報から特定された第2特徴情報との相互作用を示す情報を、設定に基づいて、前記第1特徴情報及び前記第2特徴情報の一方に反映する第1反映部と、
前記第1特徴情報及び前記第2特徴情報のそれぞれの情報の確からしさに基づいて、前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を設定する設定部と、
前記相互作用を示す情報が反映された反映済み特徴情報を出力する出力部と、
を含む情報処理装置である。
第2態様は、第1態様の情報処理装置において、
前記情報の確からしさは、前記第1特徴情報及び前記第2特徴情報のそれぞれに対する予め定めた情報評価尺度を表す物理量である。
第3態様は、第1態様又は第2態様の情報処理装置において、
前記相互作用を示す情報を、設定に基づいて、前記第1特徴情報及び前記第2特徴情報の他方に反映する第2反映部を含み、
前記設定部は、前記情報の確からしさに基づいて、前記第2反映部に対して前記第1特徴情報及び前記第2特徴情報の他方への前記相互作用を示す情報の反映、並びに前記第1反映部及び前記第2反映部が前記相互作用を示す情報を反映する際の反映順序を設定する。
なお、前記設定に基づいて、前記第1反映部で前記相互作用を示す情報が反映された反映済みの第1特徴情報及び第2特徴情報の一方と、前記第1反映部で前記相互作用を示す情報が未反映の第1特徴情報及び第2特徴情報の他方との相互作用を示す情報を、前記未反映の第1特徴情報及び第2特徴情報の他方に反映する第2反映部を含むようにしてもよい。
第4態様は、第3態様の情報処理装置において、
前記第1反映部及び前記第2反映部のセットを複数含み、
前記設定部は、複数のセットの各々において前記相互作用を示す情報を反映する前後の前記第1特徴情報及び前記第2特徴情報の少なくとも一方の変化量が予め定めた変化量を超えるセットを導出し、前記変化量を超えるセットが複数導出された場合、前記変化量を超える複数のセットによる前記相互作用を示す情報の反映を設定する。
第5態様は、第4態様の情報処理装置において、
前記出力部は、前記複数のセットの各々で前記相互作用を示す情報を反映された前記第1特徴情報の総和及び前記第2特徴情報の総和を、前記相互作用を示す情報が反映された反映済み特徴情報とする。
第6態様は、第1態様から第5態様の何れか1態様の情報処理装置において、
前記第1特徴情報は、言語情報及び画像情報の一方から抽出され、かつ前記第2特徴情報は、前記第1特徴情報として抽出された前記言語情報及び画像情報の一方の情報を説明する部分が前記言語情報及び前記画像情報の他方から抽出されるか、又は、前記第1特徴情報及び前記第2特徴情報は、前記言語情報又は前記画像情報において一方の部分が他方の部分を説明する異なる部分から抽出される。
第7態様は、第1態様から第6態様の何れか1態様の情報処理装置において、
前記第1特徴情報及び前記第2特徴情報を抽出する抽出部と、
前記出力部から出力された前記反映済み特徴情報に対応する回答情報を生成する生成部とを含む。
第8態様は、第1態様から第7態様の何れか1態様の情報処理装置において、
前記設定部は、学習情報によって学習された前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を示す情報を記憶した設定値に基づいて、前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を設定する。
第9態様は、
第1態様から第7態様の何れか1項に記載の前記第1反映部、前記設定部、及び前記出力部の各部が学習情報によって学習されたモデルを記憶するモデル記憶部と、
前記モデル記憶部に記憶された前記モデルに基づいて、入力された第1の情報及び第2の情報から、前記第1特徴情報と前記第2特徴情報との相互作用を示す情報が反映された反映済み特徴情報を出力する特徴情報出力部と、
を備えた情報処理装置である。
第10態様は、
コンピュータを、
第1の情報を表す第1特徴情報と、前記第1の情報を説明する第2の情報から特定された第2特徴情報との相互作用を示す情報を、設定に基づいて、前記第1特徴情報及び前記第2特徴情報の一方に反映する第1反映部、
前記第1特徴情報及び前記第2特徴情報のそれぞれの情報の確からしさに基づいて、前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を設定する設定部、及び、
前記相互作用を示す情報が反映された反映済み特徴情報を出力する出力部、
として機能させるためのプログラムである。
第1態様、及び第10態様によれば、入力された情報に対して適用する特徴量を抽出する順序が一律に決まっている場合と比べて、高精度の出力情報を得るための複数の特徴情報を導出することができる、という効果を有する。
第2態様によれば、情報評価尺度を表す物理量を用いない場合と比較して、情報の確からしさを高精度に導出することができる、という効果を有する。
第3態様によれば、第1特徴情報及び第2特徴情報の一方のみに相互作用を示す情報を反映する場合と比べて、第1特徴情報及び第2特徴情報の両方に相互作用を示す情報を反映させることができる、という効果を有する。
第4態様によれば、相互作用を示す情報を単に反映させる場合と比べて、より高精度の出力情報を得るための特徴情報を導出することができる、という効果を有する。
第5態様によれば、相互作用を示す情報を順次反映させた結果を用いる場合と比べて、相互作用を示す情報を反映した結果の各々を含む反映済みの第1特徴情報及び第2特徴情報を得ることができる、という効果を有する。
第6態様によれば、言語情報及び画像情報の少なくとも一方から抽出されて入力される複数の情報を用いる場合に、高精度の出力情報を得るための複数の特徴情報を導出することができる、という効果を有する。
第7態様によれば、回答情報を生成する生成部を具備しない場合と比べて、高精度の出力情報を得ることできる、という効果を有する。
第8態様によれば、反映を示す情報を記憶した設定値を用いない場合と比べて、装置処理負荷を軽減できる、という効果を有する。
第9態様によれば、相互に作用することを考慮せずに複数の特徴情報を導出する場合と比べて、高精度の出力情報を得るための複数の特徴情報を導出することができる、という効果を有する。
第1実施形態に係る情報処理装置の構成の一例を示す図である。 第1実施形態に係る相互アテンション部の構成の一例を示す図であり、(A)はトップダウン型注意モデル及びボトムアップ型注意モデルの順序を示し、(B)はボトムアップ型注意モデル及びトップダウン型注意モデルの順序を示す。 学習処理部の一例を示す図である。 情報処理装置の各種機能を実現する装置をコンピュータを含んで構成した場合の一例を示す図である。 学習処理の流れの一例を示すフローチャートである。 コンピュータで実行される処理の流れの一例を示すフローチャートである。 本開示の変形例に係る相互アテンション部の構成の一例を示す図である。 第2実施形態に係る反映部の構成の一例を示す図である。 比較部の構成の一例を示す図である。 変形例2に係る反映部の構成の一例を示す図である。 反映部に含まれる活性化部の一例を示す図である。 第3実施形態に係る情報処理装置の構成の一例を示す図である。
以下、図面を参照して本開示の技術を実現する実施形態を詳細に説明する。本実施形態では、複数の情報を入力して当該複数の情報に対応する情報を出力する情報処理に本開示の技術を適用した場合を説明する。なお、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。
本実施形態では、入力された情報から第1の情報を表す第1特徴情報と、第1の情報を説明する第2の情報から特定された第2特徴情報を抽出する。抽出された第1特徴情報及び第2特徴情報に、第1特徴情報及び第2特徴情報の相互作用を示す情報を、設定された反映の仕方で反映させる。
反映の仕方には、相互作用を示す情報を、第1特徴情報及び第2特徴情報の一方に反映させる場合における反映箇所、及び相互作用を示す情報を、第1特徴情報及び第2特徴情報の両方に反映させる場合における反映順序が挙げられる。相互作用を示す情報を、第1特徴情報及び第2特徴情報に反映させる場合、ボトムアップ型注意モデル及びトップダウン型注意モデルを用いることができる。ボトムアップ型注意モデル及びトップダウン型注意モデルは、入力された情報のどの部分に注意(アテンション)を向けるかを決定するアテンション機構のメカニズムをモデル化したものである。ボトムアップ型注意モデルは、顕著な刺激に対して受動的に誘導される注意であるボトムアップ型注意のメカニズムをモデル化したものである。また、トップダウン型注意モデルは、目的指向性に能動的に誘導される注意であるトップダウン型注意のメカニズムをモデル化したものである。
(第1実施形態)
図1に、本開示の第1実施形態に係る情報処理装置1の構成の一例を示す。
第1実施形態では、入力される複数の情報として、画像情報を示す画像データ及び言語情報を示す言語データから当該画像データ及び言語データに対応する回答情報を示す回答データを出力する情報処理に本開示の技術を適用した場合を説明する。
第1実施形態に係る情報処理は、回答データをラベルとする画像データ及び言語データを入力としてマルチモーダル深層学習を行い、学習済のモデルを用いて、未知の画像データ及び言語データに対応する回答データを出力する。また、入力された画像データ及び言語データに対して、ボトムアップ型注意モデル及びトップダウン型注意モデルに適用して、入力された画像データ及び言語データの各々に相互作用を示す情報を反映した各々の特徴を示す情報を得る。
すなわち、第1実施形態では、言語データ及び画像データの各々から抽出された各々の特徴情報を用いて、各々の相互作用を示す情報を所定の順序によるボトムアップ型注意モデル及びトップダウン型注意モデルで複数回反映させる。これにより、入力された情報に対して適用するボトムアップ型注意モデル及びトップダウン型注意モデルの順序が一律に決まっている場合と比べて、入力された情報への回答を得るために高精度の情報を導出可能となる。
図1に示すように、情報処理装置1は、言語特徴抽出部2、画像特徴抽出部3、反映部4、特徴統合部5、及び回答生成部6を備えている。また、情報処理装置1は、学習済みの学習モデル12を含んでいる。学習済みの学習モデル12には、言語特徴抽出学習モデル22、画像特徴抽出学習モデル32、反映学習モデル42、特徴統合学習モデル52、及び回答生成学習モデル62が含まれる。具体的には、言語特徴抽出部2は言語特徴抽出学習モデル22を含み、画像特徴抽出部3は、画像特徴抽出学習モデル32を含む。反映部4は、反映学習モデル42を含んでいる。また、反映部4は、順序値メモリ41も含んでいる。特徴統合部5は、特徴統合学習モデル52を含み、回答生成部6は、回答生成学習モデル62を含む。
言語特徴抽出部2は、言語データの入力を受け付けて、言語特徴抽出学習モデル22を用いて、受け付けた言語データから言語データにおける特徴を示す情報として第1特徴情報を抽出し、反映部4へ出力する。具体的には、言語特徴抽出部2は、入力される言語データを、形態素解析などにより単語に分解し、分解された各単語をベクトル表現にしたのち、分散表現に変換し、変換されたデータを用いて特徴抽出を行う。単語をベクトル表現する手法の一例には、或る要素だけ1とし、他の要素を0として行列表現するワンホット(one-hot)ベクトル表現法が挙げられる。また、単語の分散表現する一例には、単語の意味や文法を捉えるようにベクトル空間に写像すること(又は実現モデル)を表現するワードエンベディング(Word-Embedding)法が挙げられる。特徴抽出の一例には、リカレントニューラルネットワーク(RNN:Recurrent Neural Network)を用いる手法が挙げられる。なお、ワンホット(one-hot)ベクトル表現法、ワードエンベディング(Word-Embedding)法、及びリカレントニューラルネットワーク(RNN)自体は公知であるため詳細な説明を省略する。
言語特徴抽出学習モデル22は、学習済みの学習モデルであり、言語データから、言語データに含まれる言語特徴を示す言語特徴情報を生成する学習を済ませたモデルである。言語特徴抽出学習モデル22は、学習済みのニューラルネットワークを規定するモデルであり、例えばリカレントニューラルネットワークを構成するノード(ニューロン)同士の間の結合の重み(強度)の情報の集合として表現される。
言語特徴抽出学習モデル22は、学習処理部7(図3参照)の学習処理により生成される。学習処理部7は、言語データ及び画像データのペアと、その言語データ及び画像データのペアに対応する回答を示す回答データと、のセットを大量に用いて学習処理を行う。学習処理部7が行う学習処理については、後述する。
ここでは言語特徴抽出学習モデル22は、言語特徴情報を生成する学習を済ませたリカレントニューラルネットワークを構成するノード同士の間の結合の重み(強度)の情報の集合として表現される。また、言語特徴抽出学習モデル22は、言語データに含まれる単語をベクトル表現したデータを用いる。この単語をベクトル表現する構成、例えば、入力される言語データを単語に分解したり、分解された各単語をベクトル表現して分散表現に変換したりする構成は、ニューラルネットワークで構成してもよい。この場合、ノード同士の間の結合の重み(強度)の情報の集合として表現して、言語特徴抽出学習モデル22に追加すればよい。
画像特徴抽出部3は、画像データの入力を受け付けて、画像特徴抽出学習モデル32を用いて、画像データから当該画像データにおける特徴を示す情報として第2特徴情報を抽出し、反映部4へ出力する。具体的には、画像特徴抽出部3は、入力される画像データから、当該画像データにより示される画像の特徴を示す情報を抽出する処理を行う。画像の特徴を示す情報を抽出する処理の一例には、画像データに対して、予め定めたフィルタを走査することにより特徴を示す情報に凝縮する畳み込みニューラルネットワークを用いる手法が挙げられる。なお、畳み込みニューラルネットワーク(CNN)自体は公知であるため詳細な説明を省略する。
画像特徴抽出学習モデル32は、学習処理部7(詳細は後述)の学習処理により生成される。画像特徴抽出学習モデル32は、画像データに含まれる画像特徴を示す画像特徴情報を生成する学習を済ませた畳み込みニューラルネットワークを構成するノード同士の間の結合の重み(強度)の情報の集合として表現される。
反映部4は、順序値メモリ41に記憶された順序データ及び反映学習モデル42を用いて、言語特徴抽出部2及び画像特徴抽出部3で抽出された第1特徴情報及び第2特徴情報の各々に、第1特徴情報と第2特徴情報との相互作用を示す情報を反映する。すなわち、反映部4は、入力された言語特徴及び画像特徴に対して、言語特徴及び画像特徴に内在する相互に関係する特徴により示される注意(アテンション)を反映させる。例えば、反映部4は、softmax関数などにより、画像の領域又は言語の単語に対する重みを付与する。また、反映部4は、複数の相互アテンション部43を含み、複数の相互アテンション部43の各々で順次、第1特徴情報及び第2特徴情報の各々に相互作用を示す情報を反映する。反映部4が行う反映処理については、後述する。
反映学習モデル42は、学習処理部7の学習処理により生成される。反映学習モデル42は、例えば、画像の領域又は言語の単語に対するパラメータ(重み又は強度)の情報の集合として表現される。
特徴統合部5は、特徴統合学習モデル52を用いて、反映部4で相互作用を示す情報が反映された第1特徴情報及び第2特徴情報の各々を統合し、統合された統合特徴情報を、回答生成部6へ出力する。具体的には、第1特徴情報及び第2特徴情報の各々を統合する手法の一例には、第1特徴情報及び第2特徴情報の各々の、結合、要素和、要素積、バイリニア(Bilinear)結合、及びテンソル分解法などの統合法が挙げられる。なお、結合、要素和、要素積、バイリニア(Bilinear)結合、及びテンソル分解法自体は公知であるため詳細な説明を省略する。
特徴統合学習モデル52は、学習処理部7の学習処理により生成される。特徴統合学習モデル52は、結合、要素和、要素積、バイリニア(Bilinear)結合、及びテンソル分解法等の統合法におけるパラメータ(重み又は強度)の情報の集合として表現される。
回答生成部6は、特徴統合部5で統合された統合特徴情報を用いて回答データを生成する。具体的には、回答生成部6は、回答生成学習モデル62を用いて、相互作用を示す情報が反映された第1特徴情報及び第2特徴情報に対応する、すなわち入力された言語データ及び画像データに対応する回答データを生成(推定)し、出力する。統合特徴情報から回答データの生成の一例には、多層のニューラルネットワークを用いる手法が挙げられる。なお、多層のニューラルネットワーク(NN)自体は公知であるため詳細な説明を省略する。
回答生成学習モデル62は、学習処理部7の学習処理により生成される。回答生成学習モデル62は、統合特徴情報から回答データを生成する学習を済ませた多層のニューラルネットワークを構成するノード同士の間の結合の重み(強度)の情報の集合として表現される。
次に、反映部4について詳細に説明する。
反映部4は、相互アテンション部43を複数含み、各相互アテンション部43で、入力された言語特徴(第1情報)及び画像特徴(第2情報)の各々に、言語特徴と画像特徴との相互作用を反映して次の相互アテンション部43へ出力する。これにより、言語特徴抽出部2で抽出された言語特徴を示す第1特徴情報及び画像特徴抽出部3で抽出された画像特徴を示す第2特徴情報の各々に、言語特徴と画像特徴との相互作用を示す情報が反映される。言語特徴と画像特徴との相互作用を示す情報の反映は、ボトムアップ型注意モデル及びトップダウン型注意モデルによって行われる。
図2に、本開示の第1実施形態に係る相互アテンション部43の構成の一例を示す。図2(A)はトップダウン型注意モデル、そしてボトムアップ型注意モデルの順序で相互作用を示す情報を反映させる相互アテンション部43を示す。図2(B)はボトムアップ型注意モデル、そしてトップダウン型注意モデルの順序で相互作用を示す情報を反映させる相互アテンション部43を示す。
相互アテンション部43におけるトップダウン型注意モデル431及びボトムアップ型注意モデル435は、言語特徴又は画像特徴に重みを付与するアテンション機構である。図2(A)及び図2(B)に示すように、トップダウン型注意モデル431であるアテンション機構は、統合部432と、トップダウンアテンション部433と、合成部434とを含んでいる。統合部432は、入力された言語特徴と画像特徴との両者の特徴(各々の特徴情報)を統合する。トップダウンアテンション部433は、統合部432で統合した特徴を用いて、注意(アテンション)を向ける度合いを示す情報を導出する。合成部434は、画像特徴に、トップダウンアテンション部433で導出された情報を合成する。従って、トップダウン型注意モデル431では、入力された言語特徴と画像特徴との両者間に生じる、相互作用を示す情報が、画像特徴に反映される。
トップダウン型注意モデル431及びボトムアップ型注意モデル435は、言語特徴と画像特徴の統合特徴から、画像特徴又は言語特徴へのアテンションを決定する。例えば、トップダウン型注意モデル431及びボトムアップ型注意モデル435は、softmax関数などにより、画像データにより示される画像の領域又は言語データにより示される質問文の単語に対する重みを決定する。
より具体的には、統合部432は、公知の統合法(例えば、結合、要素和、要素積、バイリニア(Bilinear)結合、及びテンソル分解法等)によって、入力された言語特徴情報と画像特徴情報とを統合する。トップダウンアテンション部433は、入力された特徴情報を用いて、注意(アテンション)を向ける度合いを示す情報を導出する。すなわち、トップダウンアテンション部433は、特徴情報を表現したh={h、h、・・・、h}をベクトル集合とし、α=[α、α、・・・、αを各ベクトルに対する注意(アテンション)を示す情報の分布(重み:Σiα=1)としたとき、次の(1)式に示すようにベクトルhの重み総和によるコンテキストベクトルcを導出する演算処理部として機能する。

(1)式における、ベクトルhに対する注意(アテンション)を示す重みα(アテンションを向ける度合いを示す情報)は、次に示す(2)式で表すことが可能である。

このように、重みαは、ベクトルhとクエリsを引数とするスコア関数Sの値からの計算によって導出可能である。
同様に、ボトムアップ型注意モデル435であるアテンション機構は、統合部436と、ボトムアップアテンション部437と、合成部438とを含んでいる。統合部436は、入力された言語特徴と画像特徴との両者の特徴(各々の特徴情報)を統合する。ボトムアップアテンション部437は、上記(1)式及び(2)式によって、統合部436で統合した特徴を用いて、注意(アテンション)を向ける度合いを示す情報を導出する。合成部438は、画像特徴に、ボトムアップアテンション部437で導出された情報を合成する。従って、ボトムアップ型注意モデル435では、入力された言語特徴と画像特徴との両者間に生じる、相互作用を示す情報が、言語特徴に反映される。
ところで、言語データと画像データとを入力として、各々の特徴情報を導出する場合、言語データと画像データとの間に相互関係を考慮することで、言語データと画像データとに内在する意図が反映された、より高精度の特徴情報を導出可能である。ところが、言語データ及び画像データに含まれる特徴情報の各々は不確定性を有している。不確定性とは、情報の確からしさを示す指標、すなわち、注意(アテンション)を向けさせることに関する情報評価尺度を表す物理量である。注意(アテンション)を向けさせることに関する情報が少ない場合は、情報の確からしさが小さく、不確定性は大きくなる。一方、注意(アテンション)を向けさせることに関する情報を多く含む場合は、情報の確からしさが大きく、不確定性が小さくなる。従って、言語データの特徴情報と画像データの特徴情報とのどちらに対して先に、相互作用を示す情報を反映するかによって、相互作用を示す情報が反映された特徴情報では、入力された言語データと画像データとに内在する意図の反映度合いが左右される。
そこで、第1実施形態では、相互アテンション部43の各々について、言語特徴抽出部2及び画像特徴抽出部3で抽出された第1特徴情報及び第2特徴情報の不確定性によって、相互作用を示す情報を適用するモデルの順序が決定され、決定されたモデルの順序が順序値メモリ41に記憶される。
不確定性は、次に示す情報の確からしさを示す指標により定義することが可能である。画像データの不確定性は、画像データから検出される物体(Object)の検出数、画像データから検出される物体らしさ(Objectness)の検出数、及び画像エントロピーの何れか1つを指標として用いたり、複数の指標を組み合わせた指標を用いることが可能である。言語データの不確定性は、言語データに含まれる単語の数、尤度、対数尤度、エントロピー、パープレキシティ、及びカバレージの何れか1つを指標として用いたり、複数の指標を組み合わせた指標を用いることが可能である。複数の指標を組み合わせて用いる場合、次の(3)式に一例を示すように定義可能である。

上記(3)式では、Iは画像の不確定性を示し、Tは言語の不確定性を示す。Eはエントロピーを示し、Oは物体らしさを示し、Nは単語数を示す。
また、第1実施形態では、相互アテンション部43におけるモデルの順序(図2(A)又は図2(B))は、入力される言語データと画像データとの各々の特徴情報の不確定性の比較結果によって決定される。すなわち、不確定性が大きい特徴情報に対して優先的に相互作用を示す情報を反映させる。例えば、言語データの特徴情報の不確定性が画像データの特徴情報の不確定性より小さい場合、トップダウン型注意モデル431で相互作用を示す情報を反映させた後、ボトムアップ型注意モデル435で相互作用を示す情報を反映させる順序に決定する(図2(A))。一方、画像データの特徴情報の不確定性が言語データの特徴情報の不確定性より小さい場合、ボトムアップ型注意モデル435で相互作用を示す情報を反映させた後、トップダウン型注意モデル431で相互作用を示す情報を反映させる順序に決定する(図2(B))。そして、決定されたモデルの順序を示す順序値は、順序値メモリ41に記憶される。
順序値メモリ41に記憶される相互アテンション部43の各々のモデルの順序を示す順序値は、学習処理部7(図3)の学習処理時に設定部78によって決定される。このようにして、反映の仕方のうちの反映順序を示す情報として、モデルの順序を示す順序値が順序値メモリ41に記憶される。順序値メモリ41に記憶される順序値は、学習処理時に導出された順序値の平均値や多数決等の演算値、及び支配的な値を記憶することが可能である。また、相互アテンション部43の各々のモデルの順序を示す順序値は、反映の仕方のうちの反映箇所を示す情報を含む。相互アテンション部43における入力側のモデルを第1反映部とした場合、第1反映部で反映させるボトムアップ型注意モデル及びトップダウン型注意モデルは反映箇所に対応する。また、相互アテンション部43における第1反映部に続く第2反映部において情報を反映させるボトムアップ型注意モデル及びトップダウン型注意モデルも反映箇所に対応する。
次に、図3を参照して、学習処理部7について説明する。
図3に示すように、学習処理部7は、推定器71、比較処理部77及び設定部78を含む。学習処理部7では、図1に示す情報処理装置1を推定器71として動作させる。学習処理部7は、推定器71として動作される言語特徴抽出部2、画像特徴抽出部3、反映部4、特徴統合部5、及び回答生成部6の各々を、学習情報としての学習用データを用いて、学習用データに含まれる回答データに一致又は近い推定回答データを出力するように学習させる処理を行う。
また、学習処理部7は、学習用データとして、言語データ701及び画像データ702のセットと、当該言語データ701及び画像データ702のセットにより示される正解となる回答データ703とのペアを多数保持している。入力される言語データ701及び画像データ702は、回答データ703を得るための依存関係を有し、一方のデータにより表される情報を説明する情報が他方のデータとなる。例えば、画像データ702により表される情報を説明する情報が言語データ701となる言語データ701及び画像データ702のセットが挙げられる。すなわち、言語データ701及び画像データ702のセットは、ペアとなる回答データ703に至る特徴を表す特徴情報を内在している。また、言語データ701及び画像データ702のセットは、相互に作用する特徴を表す特徴情報も内在する。推定器71は、言語データ701及び画像データ702に内在される各々の特徴情報に、言語データ701及び画像データ702に内在される相互に作用する特徴を表す特徴情報を反映させることで、回答を示す推定回答データ761を、高精度に推定可能である。
推定器71の一部として機能する言語特徴抽出部2は、言語データ701から、形態素解析などにより分解された各単語をベクトル表現及び分散表現したデータを用いて特徴抽出を行うリカレントニューラルネットワーク(RNN)である。画像特徴抽出部3は、画像データ702から特徴抽出を行う畳み込みニューラルネットワーク(CNN)である。反映部4は、画像の領域又は言語の単語に対する重みを付与する機能部である。特徴統合部5は、第1特徴情報及び第2特徴情報を統合する統合法による機能部である。回答生成部6は、推定回答データ761を推定する多層のニューラルネットワーク(NN)である。
これらの構成により、推定器71は、入力された言語データ701及び画像データ702のセットから推定回答データ761を推定する。すなわち、言語特徴抽出部2、画像特徴抽出部3、反映部4、特徴統合部5、及び回答生成部6を含む推定器71は、入力された言語データ701及び画像データ702のセットから、協働して回答データ703に近い推定回答データ761を生成する。推定器71は、多数の言語データ701及び画像データ702のセットと回答データ703とペアを用いて学習することで、より回答に近い推定回答データ761を生成できるようになる。
比較処理部77は、正解となる回答を示す回答データ、すなわち言語データ701及び画像データ702のセットに対応する回答データ703と、言語データ701及び画像データ702から推定器71が推定した推定回答データ761と、の相違がどの程度であるかを推定するニューラルネットワークである。学習処理部7は、正解となる回答データ703と、推定した推定回答データ761とを比較処理部77に入力する。これに応じて、比較処理部77は、入力された正解となる回答データ703と、推定器71で推定した推定回答データ761と、を比較し、その比較結果を示す誤差信号を出力する。
学習処理部7は、比較処理部77の比較結果に基づく誤差信号を推定器71のパラメータ、すなわち、言語特徴抽出部2、画像特徴抽出部3、反映部4、特徴統合部5、及び回答生成部6にフィードバックする。具体的には、重みを示すパラメータ、及び、ニューラルネットワーク等のノード間の結合の重みパラメータにフィードバックする。推定器71のパラメータへのフィードバックは、誤差逆伝播法(バックプロパゲーション)によって行われる。なお、誤差逆伝播法(バックプロパゲーション)自体は公知であるため詳細な説明を省略する。
推定器71は、教師データ(言語データ701及び画像データ702のセットに対応する正解となる回答を示す回答データ703)に近い回答(推定回答データ761)を生成するべく学習を進める。すなわち、比較処理部77の比較結果の誤差が最小になるように、繰り返し演算を行って、言語特徴抽出部2、画像特徴抽出部3、反映部4、特徴統合部5、及び回答生成部6の各々について学習を進める。
具体的には、推定器71に含まれる言語特徴抽出部2は、言語データ701の特徴を表す言語特徴721を抽出し、画像特徴抽出部3は、画像データ702の特徴を表す画像特徴731を抽出するパラメータをチューニングする。反映部4は、抽出された言語特徴721(第1特徴情報)及び画像特徴731(第2特徴情報)の各々に、言語特徴721及び画像特徴731に内在する相互に関係する特徴により示される注意(アテンション)を反映させるパラメータをチューニングする。
ここで、反映部4は、図1に示す相互アテンション部43を複数含み、各々で、言語特徴と画像特徴との相互作用を反映させるように学習が行われる。すなわち、相互アテンション部43の各々で順次、ボトムアップ型注意モデル及びトップダウン型注意モデルによって言語特徴と画像特徴との相互作用を示す情報が反映される。
具体的には、反映部4では、第1番目の相互アテンション部43−1において、抽出された言語特徴721(第1特徴情報)及び画像特徴731(第2特徴情報)の各々に、相互作用を示す情報を反映した言語特徴721−1及び画像特徴731−1を生成する。この生成処理を順次繰り返し、第N番目の相互アテンション部43−Nにおいて、N回分、相互作用を示す情報を反映した言語特徴721−N及び画像特徴731−nを生成し、出力する。
また、反映部4では、上述したように、入力された言語データと画像データとに内在する意図を反映させるために、設定部78によって、相互作用を示す情報を適用するモデルの順序が設定される。具体的には、反映部4に含まれる相互アテンション部43の各々について、上述したように第1特徴情報及び第2特徴情報の不確定性によって、モデルの順序が設定部78で決定され、決定されたモデルの順序が順序値メモリ41に記憶される。
そして、特徴統合部5は、反映部4からの相互作用を示す情報が反映された言語特徴721(第1特徴情報)及び画像特徴731(第2特徴情報)を統合し、統合された統合特徴751を、回答生成部6へ出力するパラメータをチューニングする。回答生成部6は、特徴統合部5からの統合特徴751を用いて推定回答データ761を生成するパラメータをチューニングする。
このようにして、学習が行われた推定器71は、入力された言語データ701及び画像データ702のセットから、協働して回答データ703に近い推定回答データ761を生成する。推定器71は、多数の言語データ701及び画像データ702のセットと回答データ703とのペアを用いて学習することで、より回答に近い推定回答データ761を生成できるようになる。
そして、図1に示す第1実施形態の情報処理装置1では、上記のように生成した学習済みの推定器71を学習済の学習モデル12として用いる。すなわち、情報処理装置1は、学習済みの言語特徴抽出部2を学習済の言語特徴抽出学習モデル22として用い、学習済みの画像特徴抽出部3を学習済の画像特徴抽出学習モデル32として用いる。また、情報処理装置1は、学習済みの反映部4を学習済の反映学習モデル42として用い、学習済みの特徴統合部5を学習済の特徴統合学習モデル52として用い、学習済みの回答生成部6を学習済の回答生成学習モデル62として用いる。
従って、言語特徴抽出部2は、学習済の言語特徴抽出学習モデル22を用いて、言語データの特徴を表す言語特徴を抽出し、画像特徴抽出部3は、学習済の画像特徴抽出学習モデル32を用いて、画像データの特徴を表す画像特徴を抽出する。反映部4は、学習済の反映学習モデル42を用いて、抽出された言語特徴(第1特徴情報)及び画像特徴(第2特徴情報)の各々に、言語特徴及び画像特徴に内在する相互に関係する特徴により示される注意(アテンション)を反映させる。特徴統合部5は、学習済の特徴統合学習モデル52を用いて、反映部4からの相互作用を示す情報が反映された言語特徴(第1特徴情報)及び画像特徴(第2特徴情報)を統合し、統合された統合特徴を生成する。回答生成部6は、学習済の回答生成学習モデル62を用いて、特徴統合部5からの統合特徴から推定回答データを生成する。
十分に学習した画像特徴抽出学習モデル32を用いれば、未知の言語データ及び未知の画像データから、その回答を示す回答データを推定することも不可能ではない。
以上に例示した情報処理装置1は、例えば、コンピュータに上述の各機能を表すプログラムを実行させることにより実現可能である。
図4に、情報処理装置1の各種機能を実現する処理を実行する実行装置としてコンピュータを含んで構成した場合の一例を示す。
図4に示す情報処理装置1として機能するコンピュータは、コンピュータ本体100を備えている。コンピュータ本体100は、CPU102、揮発性メモリ等のRAM104、ROM106、ハードディスク装置(HDD)等の補助記憶装置108、及び入出力インターフェース(I/O)110を備えている。これらのCPU102、RAM104、ROM106、補助記憶装置108、及び入出力I/O110は、相互にデータ及びコマンドを授受可能にバス112を介して接続された構成である。また、入出力I/O110には、情報入力部120、通信インタフェース(I/F)122、及びディスプレイやキーボード等の操作表示部124が接続されている。
補助記憶装置108には、コンピュータ本体100を本開示の情報処理装置1及び学習処理部7として機能させるための制御プログラム108Pが記憶される。CPU102は、制御プログラム108Pを補助記憶装置108から読み出してRAM104に展開して処理を実行する。これにより、制御プログラム108Pを実行したコンピュータ本体100は、本開示の情報処理装置として動作する。
なお、補助記憶装置108には、相互アテンション部43におけるトップダウン型注意モデル431及びボトムアップ型注意モデル435を含む学習モデル12としての学習モデル108Mが記憶される。具体的には、重みを示すパラメータ、及び、ニューラルネットワーク等のノード間の結合の重みパラメータとして初期値が設定された学習モデル12(言語特徴抽出学習モデル22、画像特徴抽出学習モデル32、反映学習モデル42、特徴統合学習モデル52、及び回答生成学習モデル62)が記憶される。また、補助記憶装置108には、順序値メモリ41に記憶されるモデルの順序を表すデータ、及び、学習用データ(教師データ:言語データ701及び画像データ702のセットと、正解となる回答を示す回答データ703とのペア)を含むデータ108Dが記憶される。制御プログラム108Pは、CD−ROM等の記録媒体により提供するようにしても良い。
また、第1実施形態では、図4に示すコンピュータに、本開示の情報処理装置1及び学習処理部7を機能させる場合を説明するが、本開示の情報処理装置1及び学習処理部7を別々のコンピュータによって、機能させるようにしても良い。この場合、学習処理部7として機能させたコンピュータによる学習結果を、本開示の情報処理装置1として機能するコンピュータに記憶するようにすればよい。
まず、コンピュータにより実現される情報処理装置1に用いる学習済みのモデルを得るための学習処理部7の学習処理について説明する。学習処理部7の学習処理は、コンピュータ本体100において実行される制御プログラム108Pに含まれている。
図5に、コンピュータ本体100において実行される学習処理の流れの一例を示す。
図5に示す学習処理は、コンピュータ本体100に電源投入されると、CPU102により実行される。
まず、CPU102は、ステップS100で、情報入力部120から学習用データ(教師データ:言語データ701及び画像データ702のセットと、正解となる回答を示す回答データ703とのペア)を取得する。次に、ステップS102で、言語データ701及び画像データ702の各々から特徴情報(言語特徴721、画像特徴731)を抽出する。すなわち、言語特徴抽出部2(図3)が、言語データ701から、第1特徴である言語特徴721を中間生成物として抽出する。また、画像特徴抽出部3(図3)が、画像データ702から、第2特徴である画像特徴731を中間生成物として抽出する。
次に、ステップS104では、ステップS102で抽出された言語特徴721と画像特徴731とを用いて、相互アテンション部43の各々において相互作用を示す情報を付与するモデルの順序を設定する。すなわち、上述のように言語特徴721及び画像特徴731の不確定性から相互アテンション部43で最初にトップダウン型注意モデル431による反映を行うか、ボトムアップ型注意モデル435による反映を行うかを設定する(図2(A)又は図2(B))。この設定値は、データ108Dの一部として補助記憶装置108に記憶される。この相互作用を示す情報は、言語特徴又は画像特徴に付与する重みを表す。
次に、ステップS106では、相互作用を示す情報を複数回反映した言語データの特徴情報(741−N)及び画像データの特徴情報(742−N)を導出する。このように、相互作用を示す情報を複数回順次反映させることで、言語データの特徴情報(741−N)及び画像データの特徴情報(742−N)の各々は、相互に作用しながら機能させた結果が反映されたデータとなる。すなわち、反映部4(図3)が、言語データ701から抽出された第1特徴(言語特徴721)、及び画像データ702から抽出された第2特徴(画像特徴731)に、相互作用を示す情報を繰り返し反映させて出力する。
次に、ステップS108では、ステップS106で導出された特徴情報を上記結合等で統合する特徴統合を行う。すなわち、特徴統合部5(図3)が、反映部4からの第1特徴(言語特徴721−N)、及び第2特徴(画像特徴731−N)を統合する。次に、ステップS110では、ステップS108で統合された統合特徴を示す情報を用いて、回答データを推定し、推定結果を推定回答データ761として生成する。すなわち、回答生成部6(図3)が、特徴統合部5からの統合特徴751を用いて、推定回答データ761を生成する。次に、ステップS112では、ステップS100で取得された正解の回答データ703と、推定回答データ761とを比較し、差異を導出する。
次に、ステップS114では、ステップS112の比較結果を用いて、学習処理を実行する。次に、ステップS116では、全ての学習用データについて比較結果が収束、例えば予め定めた閾値未満となるまで否定判断を繰り返す。一方、比較結果が収束し、ステップS116で肯定判断の場合は、次のステップS118で、学習結果をメモリに記憶し、本処理ルーチンを終了する。学習結果は、学習モデル108Mの一部として補助記憶装置108に記憶される。すなわち、学習結果の重みを示すパラメータ、及び、ニューラルネットワーク等のノード間の結合の重みパラメータによる学習モデル12が記憶される。具体的には、言語特徴抽出部2の学習結果である言語特徴抽出学習モデル22、及び画像特徴抽出部3の学習結果である画像特徴抽出学習モデル32の各々について、学習を済ませた重みパラメータ及びノード同士の間の結合の重みの情報の集合が記憶される。また、反映部4の学習結果である反映学習モデル42、特徴統合部5の学習結果である特徴統合学習モデル52、回答生成部6の学習結果である回答生成学習モデル62の各々について、学習を済ませた情報も記憶される。
次に、コンピュータにより実現される情報処理装置1の実行処理について説明する。この情報処理装置1の実行処理は、コンピュータ本体100において実行される制御プログラム108Pに含まれている。
図6に、コンピュータ本体100において実行される処理の流れの一例を示す。
図6に示す情報処理装置1の実行処理は、コンピュータ本体100に電源投入されると、CPU102により実行される。
まず、CPU102は、ステップS200で、メモリ(補助記憶装置108)に記憶された順序値及びパラメタを取得し、取得された順序値及びパラメタを該当機能部に設定する。すなわち、学習済みの言語特徴抽出学習モデル22、画像特徴抽出学習モデル32、反映学習モデル42、特徴統合学習モデル52、及び回答生成学習モデル62を取得し、設定する。次に、ステップS202で、情報処理装置1で回答を推定するための言語データ及び画像データを取得し、次のステップS204で、各々から特徴情報(言語特徴、画像特徴)を抽出する。すなわち、言語特徴抽出部2(図1)が、言語データから、第1特徴である言語特徴を中間生成物として抽出する。また、画像特徴抽出部3(図1)が、画像データから、第2特徴である画像特徴を中間生成物として抽出する。
次に、ステップS206では、ステップS204で抽出された言語特徴と画像特徴とを用いて、予め設定されたモデルの順序による複数の相互アテンション部43の各々で、トップダウン型注意モデル431及びボトムアップ型注意モデル435による反映を行う(図2(A)又は図2(B))。このステップS206では、相互作用を示す情報を複数回反映された言語データの特徴情報及び画像データの特徴情報が導出される。このように、相互作用を示す情報を複数回順次反映させることで、言語データの特徴情報及び画像データの特徴情報の各々は、相互に作用しながら機能させた結果が反映されたデータとなる。
次に、ステップS208では、ステップS206で導出された特徴情報を上記結合等で統合する特徴統合を行う。次に、ステップS210では、ステップS208で統合された統合特徴を示す情報を用いて、回答データを推定し、推定結果を推定回答データとして生成し、出力して本処理ルーチンを終了する。
以上説明したように、第1実施形態では、入力された情報の不確定性に基づいてボトムアップ型注意モデル及びトップダウン型注意モデルの順序を設定し、ボトムアップ型注意モデル及びトップダウン型注意モデルによる情報の反映を複数回行う。これにより、入力された情報に対して適用するボトムアップ型注意モデル及びトップダウン型注意モデルの順序が一律に決まっている場合と比べて、高精度の情報を導出することができる。
(変形例1)
第1実施形態では、入力された言語データと画像データとに内在する意図を反映させるために、設定部78は、言語特徴及び画像特徴の不確定性によって、反映部4に含まれる複数の相互アテンション部43の各々におけるモデルの順序を一律に設定した。しかし、本開示の技術は、複数の相互アテンション部43の各々におけるモデルの順序を一律に設定することに限定するものではない。例えば、複数の相互アテンション部43の各々におけるモデルの順序は、複数の相互アテンション部43の各々で逐次設定してもよい。この複数の相互アテンション部43の各々におけるモデルの順序を逐次設定する場合について変形例として説明する。
図7に、本開示の変形例に係る相互アテンション部43の構成の一例を示す。
図7に示すように、複数(=N)の相互アテンション部43のうちの第K番目の相互アテンション部43−K(N≧K≧1)は、トップダウン型注意モデル431及びボトムアップ型注意モデル435の順序を設定する設定部78−Kを含む。設定部78−Kは、第K番目の相互アテンション部43−Kに入力される言語特徴及び画像特徴の不確定性によりトップダウン型注意モデル431及びボトムアップ型注意モデル435の順序を設定する。この場合、N個の相互アテンション部43の各々について個別に設定部78を設けて、逐次順序を設定してもよい。また、N個の相互アテンション部43の各々のモデルの順序を予め初期値で設定しておき、N個の相互アテンション部43のうち予め指定された相互アテンション部43についてモデルの順序を変更するように設定してもよい。なお、このN個の相互アテンション部43のうち予め指定された相互アテンション部43の設定は上記学習処理によって学習することが可能である。また、第1番目の相互アテンション部43によるモデルの順序設定が支配的であると考えられる。この場合は、少なくとも第1番目の相互アテンション部43−1によるモデルの順序設定を行うようにすることが好ましい。このように、逐次又は指定された位置の相互アテンション部43においてモデルの順序を設定することで、複数の相互アテンション部43において、言語特徴又は画像特徴への相互作用を示す情報の反映を、選択的に実行することが可能となる。
(第2実施形態)
次に、第2実施形態を説明する。第2実施形態は、深層学習を行う場合に、相互アテンション部43により相互作用を示す情報を適用する層数を決定するものである。なお、第2実施形態は第1実施形態と略同様の構成のため、同一部分には同一符号を付して詳細な説明を省略する。
深層学習を行う場合に、層数を増加するに従って勾配が小さい値に収束する現象(勾配消失現象)が発生する。そこで、第2実施形態では、相互アテンション部43においてトップダウン型注意モデル431及びボトムアップ型注意モデル435によって相互作用を示す情報を適用する回数を決定することで、勾配消失現象の発生を抑制する。
具体的には、ボトムアップ型注意モデル435及びトップダウン型注意モデル431の一方を第1反映部とし、他方を第2反映部とした場合、第1反映部及び第2反映部のセットを複数含み、設定部78は、複数のセットの各々において相互作用を示す情報を反映する前後の第1特徴情報及び第2特徴情報の少なくとも一方の変化量が予め定めた変化量を超えるセットを導出し、変化量を超えるセットが複数導出された場合、変化量を超える複数のセットによる相互作用を示す情報の反映を設定する。
図8に、第2実施形態に係る反映部4Aの構成の一例を示す。
図8に示すように、第2実施形態に係る反映部4Aは、比較部44、言語特徴合成部45、及び画像特徴合成部46を備えている。反映部4Aは、複数の相互アテンション部43−1〜43−Nの各々に対応して複数の比較部44−1〜44−Nが設けられている。第2実施形態は、主として、反映部4Aにおける言語特徴及び画像特徴の各々を示す情報を、言語特徴合成部45、及び画像特徴合成部46で合成(例えば、加算)した後に、特徴統合部5へ出力する点が第1実施形態と異なっている。また、後述するように、相互アテンション部43により相互作用を示す情報を適用する層数を決定する。
図9に、比較部44の構成の一例を示す。
図9に示すように、第K番目の相互アテンション部43−Kに対応する比較部44−Kは、第1コンパレータ441、第2コンパレータ443、及びスイッチ445を含む。第1コンパレータ441は、勾配消失現象として予め定めた第1閾値を記憶するメモリ442に制御端が接続されており、言語特徴の比較結果が閾値を超える場合、すなわち言語特徴の変動量が閾値を超える場合に、スイッチ445をオンするように活性化する。第2コンパレータ443は、勾配消失現象として予め定めた第2閾値を記憶するメモリ444に制御端が接続されており、画像特徴の比較結果が閾値を超える場合、すなわち画像特徴の変動量が閾値を超える場合に、スイッチ445をオンするように活性化する。スイッチ445は、第1コンパレータ441、及び第2コンパレータ443の少なくとも一方が活性化した場合にオンするように連動する。これにより、言語特徴及び画像特徴の少なくとも一方について、勾配消失現象が生じる迄、言語特徴及び画像特徴を示す情報が次段へ出力される。言い換えれば、勾配消失現象が生じた相互アテンション部43以降では相互アテンション部43の機能は抑止される。このように、相互アテンション部43により相互作用を示す情報を適用する層数(反映回数)が決定される。
上記のようにして学習され、決定された層数(反映回数)はメモリに記憶される。なお、第2実施形態では、決定された層数(反映回数)を示す情報を、順序値メモリ41に記憶されるものとする。従って、第2実施形態の情報処理装置1では、反映部4Aは、上記のように学習済みの層数(反映回数)を示す反映回数データを用いて、反映回数分だけ相互アテンション部43の各々で順次、第1特徴情報及び第2特徴情報の各々に相互作用を示す情報を反映する。
以上説明したように、第2実施形態では、反映部4Aにおける複数の相互アテンション部43の各々における言語特徴及び画像特徴の各々を示す情報を合成(例えば、加算)するので、勾配消失現象の発生が抑制可能になる。また、特徴の変動量が閾値を超える場合にのみ第1特徴情報及び第2特徴情報の各々に相互作用を示す情報を反映するように反映回数を定めることで、処理負荷が軽減可能になる。
なお、相互アテンション部43により相互作用を示す情報を適用する層数(反映回数)は、言語特徴及び画像特徴の少なくとも一方の特徴の変動量に基づいて決定することに限定されるものではない。例えば、上述の言語データの特徴情報の不確定性及び画像データの特徴情報の不確定性を用いて、反映回数を決定してもよい。この場合、不確定性と反映回数との対応関係を示すテーブルを予め求めておき、導出された不確定性を用いて、反映回数を決定すればよい。また、他の例として、学習用データの総数に応じて、反映回数を決定してもよい。この場合、学習用データの総数と反映回数との対応関係を示すテーブルを予め求めておき、学習時点における学習用データの総数から、反映回数を決定すればよい。また、これらの、特徴の変動量、不確定性、及び学習データの総数は、組み合わせて用いてもよい。
(変形例2)
第2実施形態では、言語特徴及び画像特徴の変動量が閾値を超える場合に相互作用を示す情報を反映するように反映回数を定める場合を説明した。学習済のモデルを用いた情報処理装置1において、未知の言語データ及び未知の画像データから回答データを推定する場合、学習により決定された反映回数を示す情報を用いて反映処理を行えばよい。この情報処理装置1における複数の相互アテンション部43について、学習された反映回数により反映する構成の一例を変形例として説明する。
図10に、本開示の変形例2に係る反映部4Bの構成の一例を示す。また、図11に、反映部4Bに含まれる活性化部48の一例を示す。
図10に示すように、変形例2に係る反映部4Aでは、反映回数設定部47、及び複数の相互アテンション部43−1〜43−Nの各々に対応して複数の活性化部48−1〜48−Nが設けられている。変形例2は、比較部44に代えて活性化部48を備える点が第2実施形態と異なっている。
反映回数設定部47は、上述のように決定された層数(反映回数)を示す情報を記憶し、複数の活性化部48−1〜48−Nの各々を設定する機能部である。複数の活性化部48−1〜48−Nの各々は、図11に示すように、反映回数設定部47からの制御信号によりオンオフするスイッチ445のように簡単な構成とすることが可能である。活性化部48としてスイッチ445を用いる場合、スイッチ445は、言語特徴及び画像特徴の双方の後段への出力が連動するように構成することが好ましい。このように、変形例2では、スイッチによる簡単な構成で、反映回数を設定することが可能となる。
(第3実施形態)
次に、第3実施形態を説明する。第3実施形態は、複数の推定を行うマルチタスク処理を実行する場合に開示の技術を適用したものである。なお、第3実施形態は第1実施形態と略同様の構成のため、同一部分には同一符号を付して詳細な説明を省略する。
第1実施形態では、回答データをラベルとする画像データ及び言語データを入力としてマルチモーダル深層学習を行い、学習済のモデルを用いて、未知の画像データ及び言語データに対応する回答データを出力する。しかし、本開示の技術は、マルチモーダル深層学習による情報処理に限定されるものではない。第3実施形態では、1つの入力情報から複数のタスクを処理するマルチタスク処理に、本開示の技術を適用したものである。
具体的には、第3実施形態では、入力データから入力データに含まれる第1特徴を表す第1特徴情報及び第2特徴を表す第2特徴情報が抽出される。例えば、第1特徴情報及び第2特徴情報の各々は、入力データである言語データ又は画像データの少なくとも一方から抽出される情報である。また、第1特徴情報及び第2特徴情報は、入力データである言語データ又は画像データの異なる部分及び異なる成分から抽出される。
なお、第3実施形態では、入力画像から入力画像に含まれる人物の国籍推定と、性別推定との2つのタスクを処理するマルチタスク処理に、本開示の技術を適用した場合を一例として説明する。
図12に、第3実施形態に係る情報処理装置1Xの構成の一例を示す。
図12に示すように、第3実施形態に係る情報処理装置1Xは、特徴抽出部2X、第1特徴抽出部2A、第2特徴抽出部3A、第1回答生成部6A、及び第2回答生成部6Bを備えている。第3実施形態は、言語データ及び画像データに代えて1つの入力データから複数の特徴を抽出し、特徴統合学習モデル52を省略して、各々に対応する回答データを推定する点が第1実施形態と異なっている。
また、情報処理装置1Xは、学習済みの学習モデル12Xを含んでいる。学習済みの学習モデル12Xには、特徴抽出学習モデル22X、第1特徴抽出学習モデル22A、第2特徴抽出学習モデル32A、反映学習モデル42、第1回答生成学習モデル62A、及び第2回答生成学習モデル62Bが含まれる。具体的には、特徴抽出部2Xは特徴抽出学習モデル22Xを含み、第1特徴抽出部2Aは第1特徴抽出学習モデル22Aを含み、第2特徴抽出部3Aは、第2特徴抽出学習モデル32Aを含む。反映部4は、反映学習モデル42、及び順序値メモリ41を含む。第1回答生成部6Aは、第1回答生成学習モデル62Aを含み、第2回答生成部6Bは、第2回答生成学習モデル62Bを含む。
特徴抽出部2Xは、入力データである画像データの入力を受け付けて、特徴抽出学習モデル22Xを用いて、画像データから当該画像データにおける中間特徴を示す情報として中間特徴情報を抽出し、第1特徴抽出部2A及び第2特徴抽出部3Aへ出力する。具体的には、特徴抽出部2Xは、入力される画像データから、当該画像データにより示される画像における物体の形状、色、濃度等の特徴を示す情報を抽出する処理を行う。
特徴抽出学習モデル22Xは、上記第1実施形態と同様に、学習処理部7の学習処理により生成される。特徴抽出学習モデル22Xは、画像データに含まれる画像特徴を示す中間特徴を示す情報を生成する学習を済ませたモデル(例えば、畳み込みニューラルネットワーク)を構成するノード同士の間の結合の重み(強度)の情報の集合として表現される。
特徴抽出学習モデル22Xは、学習処理部7の学習処理により生成される。学習処理部7は、画像データと、当該画像に含まれる人物の国籍及び性別を示すデータのペアと、のセットを大量に用いて学習処理を行う。
なお、言語データを入力データとした場合、特徴抽出部は、上述のように、形態素解析などにより単語に分解し、分解された各単語をベクトル表現にしたのち、分散表現に変換し、変換されたデータを用いて特徴抽出を行えばよい。
第1特徴抽出部2Aは、画像データから抽出された中間特徴を示す中間特徴情報を受け付けて、第1特徴抽出学習モデル22Aを用いて、中間特徴情報から画像に含まれる人物の国籍に関係する第1特徴情報を抽出し、反映部4へ出力する。第1特徴抽出学習モデル22Aは、学習済みの学習モデルであり、中間特徴情報から、画像に含まれる人物の国籍に関係する第1特徴を示す第1特徴情報を生成する学習を済ませたモデルである。第1特徴抽出学習モデル22Aは、学習済みのニューラルネットワークを規定するモデルであり、例えばニューラルネットワークを構成するノード(ニューロン)同士の間の結合の重み(強度)の情報の集合として表現される。
第2特徴抽出部3Aは、画像データから抽出された中間特徴を示す中間特徴情報を受け付けて、第2特徴抽出学習モデル32Aを用いて、中間特徴情報から画像に含まれる人物の性別に関係する第2特徴情報を抽出し、反映部4へ出力する。第2特徴抽出学習モデル32Aは、学習済みの学習モデルであり、中間特徴情報から、画像に含まれる人物の性別に関係する第2特徴を示す第2特徴情報を生成する学習を済ませたモデルである。第2特徴抽出学習モデル32Aは、学習済みのニューラルネットワークを規定するモデルであり、例えばニューラルネットワークを構成するノード(ニューロン)同士の間の結合の重み(強度)の情報の集合として表現される。
反映部4は、第1実施形態と同様に、順序値メモリ41に記憶された順序データ及び反映学習モデル42を用いて、第1特徴抽出部2A及び第2特徴抽出部3Aで抽出された第1特徴情報及び第2特徴情報の各々に、第1特徴情報と第2特徴情報との相互作用を示す情報を反映する。反映学習モデル42は、学習処理部7の学習処理により生成され、例えば、第1特徴及び第2特徴の要素に対するパラメータ(重み又は強度)の情報の集合として表現される。
第3実施形態では、相互アテンション部43の各々について、特徴抽出部2X抽出された画像特徴を示す中間特徴から、第1特徴抽出部2A及び第2特徴抽出部3Aでさらに抽出された第1特徴情報及び第2特徴情報の抽象度によって、相互作用を示す情報を適用するモデルの順序が決定され、決定されたモデルの順序が順序値メモリ41に記憶される。
抽象度は次の1つの指標、又は組み合わせた指標で定義することが可能である。第1の指標として、分類タスクの場合に、分類クラスの数を指標とすることが挙げられる。第2の指標として、マルチラベル問題、すなわち1つの要素が複数のラベル(又は複数のラベルの集合)に同時に分類される要素の数を指標とすることが挙げられる。第3の指標として、タスク別にモデルを学習させた場合におけるモデルの精度、又は複数のラベルに分類される割合などにより示されるデータを指標とすることが挙げられる。第4の指標として、タスクごとの学習データ数を指標とすることが挙げられる。
具体的には、第3実施形態における抽象度は、画像特徴を示す中間特徴から抽出された第1特徴情報で示される国籍の確からしさ、及び第2特徴情報で示される性別の確からしさを示す指標により定義することが可能である。特徴情報の抽象度は、国籍及び性別の各々の確からしさを、上記何れか1つを指標、又は複数の指標を組み合わせた指標を用いて表現することが可能である。
第1回答生成部6Aは、第1実施形態と同様に、反映部4からの第1特徴情報を用いて第1回答データ、すなわち国籍を示す情報を推定し、第1回答として生成する。具体的には、第1回答生成部6Aは、第1回答生成学習モデル62Aを用いて、相互作用を示す情報が反映された第1特徴情報に対応する、すなわち入力された画像データによる画像に含まれる人物の国籍に対応する第1回答データを生成(推定)し、出力する。第1回答データの生成の一例には、多層のニューラルネットワークを用いる手法が挙げられる。
第1回答生成学習モデル62Aは、学習処理部7の学習処理により生成される。第1回答生成学習モデル62Aは、第1特徴情報から国籍を示す第1回答データを生成する学習を済ませた多層のニューラルネットワークを構成するノード同士の間の結合の重み(強度)の情報の集合として表現される。
また、第2回答生成部6Bも、反映部4からの第2特徴情報を用いて第2回答データ、すなわち性別を示す情報を推定し、第2回答として生成する。具体的には、第2回答生成部6Bは、第2回答生成学習モデル62Bを用いて、相互作用を示す情報が反映された第2特徴情報に対応する、すなわち入力された画像データによる画像に含まれる人物の性別に対応する第2回答データを生成(推定)し、出力する。第2回答データの生成の一例には、多層のニューラルネットワークを用いる手法が挙げられる。
第2回答生成学習モデル62Bは、学習処理部7の学習処理により生成される。第2回答生成学習モデル62Bは、第2特徴情報から性別を示す第2回答データを生成する学習を済ませた多層のニューラルネットワークを構成するノード同士の間の結合の重み(強度)の情報の集合として表現される。
以上説明したように、第3実施形態では、1つの入力から複数のタスクを処理するマルチタスク処理において、タスクごとの中間特徴の間で相互アテンションを適用する。従って、相互アテンション部でタスク間の情報を授受可能であるため、複数のタスクでの性能向上が可能である。すなわち、一方のタスクでもう一方のタスクの特徴量をマスク処理する等の処理により精度向上を行う場合と比べて、複数のタスクの各々における推定制動を向上することが可能となる。具体的には、第3実施形態では、国籍推定と性別推定を行うマルチタスクにおいて、国籍及び性別の双方を考慮した性別及び国籍推定が可能となる。
以上、各実施の形態を用いて説明したが、本開示の技術的範囲は上記実施形態に記載の範囲には限定されない。要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本開示の技術的範囲に含まれる。
また、上記実施形態では、検査処理を、フローチャートを用いた処理によるソフトウエア構成によって実現した場合について説明したが、これに限定されるものではなく、例えば各処理をハードウェア構成により実現する形態としてもよい。
また、情報処理装置の一部、例えば学習モデル等のニューラルネットワークを、ハードウエア回路として構成してもよい。
1、1X 情報処理装置
2 言語特徴抽出部
2X 特徴抽出部
2A 第1特徴抽出部
3 画像特徴抽出部
3A 第2特徴抽出部
4、4A、4B反映部
5 特徴統合部
6 回答生成部
6A 第1回答生成部
6B 第2回答生成部
7 学習処理部
12、12X 学習モデル
22 言語特徴抽出学習モデル
22A 第1特徴抽出学習モデル
22X 特徴抽出学習モデル
32 画像特徴抽出学習モデル
32A 第2特徴抽出学習モデル
41 順序値メモリ
42 反映学習モデル
43 相互アテンション部
44 比較部
45 言語特徴合成部
46 画像特徴合成部
47 反映回数設定部
48 活性化部
52 特徴統合学習モデル
62 回答生成学習モデル
62A 第1回答生成学習モデル
62B 第2回答生成学習モデル
71 推定器
77 比較処理部
78 設定部
100 コンピュータ本体
431 トップダウン型注意モデル
433 トップダウンアテンション部
435 ボトムアップ型注意モデル
437 ボトムアップアテンション部
701 言語データ
702 画像データ
703 回答データ
721 言語特徴
731 画像特徴
751 統合特徴
761 推定回答データ

Claims (10)

  1. 第1の情報を表す第1特徴情報と、前記第1の情報を説明する第2の情報から特定された第2特徴情報との相互作用を示す情報を、設定に基づいて、前記第1特徴情報及び前記第2特徴情報の一方に反映する第1反映部と、
    前記第1特徴情報及び前記第2特徴情報のそれぞれの情報の確からしさに基づいて、前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を設定する設定部と、
    前記相互作用を示す情報が反映された反映済み特徴情報を出力する出力部と、
    を含む情報処理装置。
  2. 前記情報の確からしさは、前記第1特徴情報及び前記第2特徴情報のそれぞれに対する予め定めた情報評価尺度を表す物理量である
    請求項1に記載の情報処理装置。
  3. 前記相互作用を示す情報を、設定に基づいて、前記第1特徴情報及び前記第2特徴情報の他方に反映する第2反映部を含み、
    前記設定部は、前記情報の確からしさに基づいて、前記第2反映部に対して前記第1特徴情報及び前記第2特徴情報の他方への前記相互作用を示す情報の反映、並びに前記第1反映部及び前記第2反映部が前記相互作用を示す情報を反映する際の反映順序を設定する
    請求項1又は請求項2に記載の情報処理装置。
  4. 前記第1反映部及び前記第2反映部のセットを複数含み、
    前記設定部は、複数のセットの各々において前記相互作用を示す情報を反映する前後の前記第1特徴情報及び前記第2特徴情報の少なくとも一方の変化量が予め定めた変化量を超えるセットを導出し、前記変化量を超えるセットが複数導出された場合、前記変化量を超える複数のセットによる前記相互作用を示す情報の反映を設定する
    請求項3に記載の情報処理装置。
  5. 前記出力部は、前記複数のセットの各々で前記相互作用を示す情報が反映された前記第1特徴情報の総和及び前記第2特徴情報の総和を、前記相互作用を示す情報が反映された反映済み特徴情報とする
    請求項4に記載の情報処理装置。
  6. 前記第1特徴情報は、言語情報及び画像情報の一方から抽出され、かつ前記第2特徴情報は、前記第1特徴情報として抽出された前記言語情報及び画像情報の一方の情報を説明する部分が前記言語情報及び前記画像情報の他方から抽出されるか、又は、前記第1特徴情報及び前記第2特徴情報は、前記言語情報又は前記画像情報において一方の部分が他方の部分を説明する異なる部分から抽出される
    請求項1から請求項5の何れか1項に記載の情報処理装置。
  7. 前記第1特徴情報及び前記第2特徴情報を抽出する抽出部と、
    前記出力部から出力された前記反映済み特徴情報に対応する回答情報を生成する生成部と
    を含む請求項1から請求項6の何れか1項に記載の情報処理装置。
  8. 前記設定部は、学習情報によって学習された前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を示す情報を記憶した設定値に基づいて、前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を設定する
    請求項1から請求項7の何れか1項に記載の情報処理装置。
  9. 請求項1から請求項7の何れか1項に記載の前記第1反映部、前記設定部、及び前記出力部の各部が学習情報によって学習されたモデルを記憶するモデル記憶部と、
    前記モデル記憶部に記憶された前記モデルに基づいて、入力された第1の情報及び第2の情報から、前記第1特徴情報と前記第2特徴情報との相互作用を示す情報が反映された反映済み特徴情報を出力する特徴情報出力部と、
    を備えた情報処理装置。
  10. コンピュータを、
    第1の情報を表す第1特徴情報と、前記第1の情報を説明する第2の情報から特定された第2特徴情報との相互作用を示す情報を、設定に基づいて、前記第1特徴情報及び前記第2特徴情報の一方に反映する第1反映部、
    前記第1特徴情報及び前記第2特徴情報のそれぞれの情報の確からしさに基づいて、前記第1反映部に対する前記第1特徴情報及び前記第2特徴情報の一方への前記相互作用を示す情報の反映を設定する設定部、及び、
    前記相互作用を示す情報が反映された反映済み特徴情報を出力する出力部、
    として機能させるためのプログラム。
JP2019136232A 2019-07-24 2019-07-24 情報処理装置及びプログラム Pending JP2021021978A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019136232A JP2021021978A (ja) 2019-07-24 2019-07-24 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019136232A JP2021021978A (ja) 2019-07-24 2019-07-24 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2021021978A true JP2021021978A (ja) 2021-02-18

Family

ID=74574273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019136232A Pending JP2021021978A (ja) 2019-07-24 2019-07-24 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2021021978A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659987A (zh) * 2022-12-28 2023-01-31 华南师范大学 基于双通道的多模态命名实体识别方法、装置以及设备
WO2023073813A1 (ja) * 2021-10-26 2023-05-04 日本電気株式会社 画像処理システム
JP7427717B2 (ja) 2021-08-05 2024-02-05 楽天グループ株式会社 マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7427717B2 (ja) 2021-08-05 2024-02-05 楽天グループ株式会社 マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法
WO2023073813A1 (ja) * 2021-10-26 2023-05-04 日本電気株式会社 画像処理システム
CN115659987A (zh) * 2022-12-28 2023-01-31 华南师范大学 基于双通道的多模态命名实体识别方法、装置以及设备

Similar Documents

Publication Publication Date Title
Weymaere et al. On the initialization and optimization of multilayer perceptrons
KR20040037180A (ko) 학습 모델 부분들을 사용하는 안면 인식 시스템 및 방법
JP2021021978A (ja) 情報処理装置及びプログラム
US20040002838A1 (en) Layered models for context awareness
KR101843074B1 (ko) Vae를 이용한 화자 인식 특징 추출 방법 및 시스템
CN111542841A (zh) 一种内容识别的系统和方法
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
JPWO2007138875A1 (ja) 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US20140343903A1 (en) Factorial hidden markov models estimation device, method, and program
KR20200052446A (ko) 딥러닝 모델 학습 장치 및 방법
Asemi et al. Adaptive neuro-fuzzy inference system for evaluating dysarthric automatic speech recognition (ASR) systems: a case study on MVML-based ASR
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
US9292801B2 (en) Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program
US7454062B2 (en) Apparatus and method of pattern recognition
CN111414732A (zh) 文本风格转换方法、装置、电子设备及存储介质
CN112860907A (zh) 一种情感分类方法及设备
KR102358485B1 (ko) 도메인 자동 분류 대화 시스템
CN113762005A (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
KR100845634B1 (ko) 데이터 대조 방법, 데이터 대조 장치 및 데이터 대조 프로그램을 기록한 기록 매체
Bergner et al. Deformable structural models
JP7386462B2 (ja) 演算装置および学習済みモデル
CN113743259A (zh) 基于ResOHEM-net的心律失常分类方法及系统
Rehman et al. A Real-Time Approach for Finger Spelling Interpretation Based on American Sign Language Using Neural Networks
CN113297540A (zh) 在边缘物联代理服务下的app资源需求预测方法、装置及系统
JP2021144659A (ja) 計算機、計算方法及びプログラム