JP7476600B2 - 情報処理装置、及びコンピュータプログラム - Google Patents

情報処理装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP7476600B2
JP7476600B2 JP2020053273A JP2020053273A JP7476600B2 JP 7476600 B2 JP7476600 B2 JP 7476600B2 JP 2020053273 A JP2020053273 A JP 2020053273A JP 2020053273 A JP2020053273 A JP 2020053273A JP 7476600 B2 JP7476600 B2 JP 7476600B2
Authority
JP
Japan
Prior art keywords
gradient
integrated feature
processing device
information processing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020053273A
Other languages
English (en)
Other versions
JP2021152804A (ja
Inventor
佑介 山浦
幸寛 坪下
拓也 桜井
久美 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2020053273A priority Critical patent/JP7476600B2/ja
Publication of JP2021152804A publication Critical patent/JP2021152804A/ja
Application granted granted Critical
Publication of JP7476600B2 publication Critical patent/JP7476600B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、情報処理装置、及びコンピュータプログラムに関する。
特許文献1には、監視対象に関する複数のデータを収集する収集手段と、前記収集手段によって収集された複数のデータを入力データとして、自己符号化器を用いて、前記監視対象の状態を検出する検出手段と、前記自己符号化器に入力された各入力データと、前記自己符号化器から出力された出力データとを用いて、前記自己符号化器に入力された各入力データの出力データに対する重要度を算出する算出手段とを有することを特徴とする監視装置の技術が開示されている。
特開2019-179400号公報
深層学習のモデルは結果に至るまでのプロセスがブラックボックスであり、入力が出力にどのように寄与しているかを把握することが、モデルの精度向上に役立つ。画像又はテキスト等の、種類の異なる複数の情報(モダリティ)を統合的に処理して判断する学習モデルを構築するマルチモーダル深層学習では、種類の異なる複数の情報をどのように組み合わせるかが精度の改善において重要である。そして、マルチモーダル深層学習においては、モデルの内部でモダリティ同士がどのように関連付いているかを把握することが、学習モデルの精度の改善につながる。
本発明は、上記の点に鑑みてなされたものであり、マルチモーダル深層学習において、モダリティの関わり合いに関する情報を導出できる情報処理装置及びコンピュータプログラムを提供することを目的とする。
本発明の第1態様に係る情報処理装置は、プロセッサを備え、前記プロセッサは、複数のニューラルネットワークモデルのそれぞれへの入力データに応じて出力される特徴量を統合して統合特徴量を生成し、前記統合特徴量の分析により得られる出力データを生成し、前記出力データから前記統合特徴量まで逆伝播させる第1の逆伝播により、前記統合特徴量の各要素について、前記統合特徴量の変化と前記出力データの変化との関係を示す第1の勾配を算出し、前記統合特徴量の各要素についての前記第1の勾配に基づき、前記統合特徴量から前記入力データのそれぞれまで逆伝播させる第2の逆伝播により、前記入力データの変化と前記出力データの変化との関係を示す第2の勾配を算出する処理を実行する。
本発明の第2態様に係る情報処理装置は、第1態様に係る情報処理装置であって、前記プロセッサは、前記統合特徴量の要素の中から前記第1の勾配に基づいて選択された要素の集合のみを用いて前記第2の逆伝播を行う。
本発明の第3態様に係る情報処理装置は、第2態様に係る情報処理装置であって、前記プロセッサは、前記第1の勾配の絶対値が最大の要素の集合のみを用いて前記第2の逆伝播を行う。
本発明の第4態様に係る情報処理装置は、第2態様に係る情報処理装置であって、前記プロセッサは、前記第1の勾配の絶対値の上位の所定の割合に属する要素の集合のみを用いて前記第2の逆伝播を行う。
本発明の第5態様に係る情報処理装置は、第1態様に係る情報処理装置であって、前記プロセッサは、前記統合特徴量の要素の中から指定された要素の集合のみを用いて前記第2の逆伝播を行う。
本発明の第6態様に係る情報処理装置は、第5態様に係る情報処理装置であって、前記プロセッサは、前記指定された要素の前記第1の勾配の合計を、前記複数のニューラルネットワークモデルの、前記出力データに対する寄与の度合いとする。
本発明の第7態様に係る情報処理装置は、第1態様に係る情報処理装置であって、前記プロセッサは、重みマップを適用して所定の重みを付与した前記第1の勾配に基づき前記第2の逆伝播を行う。
本発明の第8態様に係る情報処理装置は、第7態様に係る情報処理装置であって、前記プロセッサは、前記入力データの一部を前記複数のニューラルネットワークモデルのそれぞれに入力することで前記重みマップを生成する。
本発明の第9態様に係る情報処理装置は、第7態様又は第8態様に係る情報処理装置であって、前記プロセッサは、前記重みマップで重み付けされた前記第1の勾配の合計を、前記複数のニューラルネットワークモデルの、前記出力データに対する寄与の度合いとする。
本発明の第10態様に係る情報処理装置は、第1態様~第9態様のいずれかに係る情報処理装置であって、前記プロセッサは、さらに、前記第2の勾配を可視化して、前記複数のニューラルネットワークモデルの、前記出力データに対する寄与の度合いを提示する。
本発明の第11態様に係るコンピュータプログラムは、コンピュータに、複数のニューラルネットワークモデルのそれぞれへの入力データに応じて出力される特徴量を統合して統合特徴量を生成し、前記統合特徴量の分析により得られる出力データを生成し、前記出力データから前記統合特徴量まで逆伝播させる第1の逆伝播により、前記統合特徴量の各要素について、前記統合特徴量の変化と前記出力データの変化との関係を示す第1の勾配を算出し、前記統合特徴量の各要素についての前記第1の勾配に基づき、前記統合特徴量から前記入力データのそれぞれまで逆伝播させる第2の逆伝播により、前記入力データの変化と前記出力データの変化との関係を示す第2の勾配を算出する処理を実行させる。
本発明の第1態様によれば、マルチモーダル深層学習において、それぞれのニューラルネットワークに入力される入力データから得られる特徴量を統合した統合特徴量の各要素の勾配を得ることで、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第2態様によれば、統合特徴量の要素の中から第1の勾配に基づいて選択された要素の集合について、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第3態様によれば、第1の勾配の絶対値が最大の要素の集合について、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第4態様によれば、第1の勾配の絶対値の上位の所定の割合に属する要素の集合について、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第5態様によれば、統合特徴量の要素の中から指定された要素の集合について、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第6態様によれば、指定された要素の第1の勾配の合計を、出力データに対する寄与の度合いとして求めることができる。
本発明の第7態様によれば、重みマップを適用して所定の重みを付与した第1の勾配の要素について、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第8態様によれば、入力データの一部から生成した重みマップを適用し、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明の第9態様によれば、重みマップで重み付けされた第1の勾配の合計を、出力データに対する寄与の度合いとして求めることができる。
本発明の第10態様によれば、出力データに対する寄与の度合いを視覚化して提示することができる。
本発明の第11態様によれば、マルチモーダル深層学習において、それぞれのニューラルネットワークに入力される入力データから得られる特徴量を統合した統合特徴量の各要素の勾配を得ることで、入力データの関わり合いが出力に与える影響に関する情報を導出できる。
本発明によれば、マルチモーダル深層学習において、それぞれのニューラルネットワークに入力される入力データから得られる特徴量を統合した統合特徴量の各要素の勾配を得ることで、入力データの関わり合いが出力に与える影響に関する情報を導出できる情報処理装置及びコンピュータプログラムを提供することができる。
深層学習における勾配情報の例を示す図である。 マルチモーダル深層学習における勾配情報の例を示す図である。 マルチモーダル深層学習において、予測に寄与した入力を可視化する際の処理の一例を示す図である。 勾配の可視化情報の一例を示す図である。 本発明の実施の形態に係る情報処理装置のハードウェア構成を示すブロック図である。 情報処理装置の機能構成の例を示すブロック図である。 順伝播部の機能構成の例を示すブロック図である。 情報処理装置による勾配可視化処理の流れを示す図である。 情報処理装置による勾配可視化処理の第1の実施例の流れを示す図である。 情報処理装置による勾配可視化処理の第2の実施例の流れを示す図である。 情報処理装置による勾配可視化処理の第3の実施例の流れを示す図である。 要素選択部の機能構成例を示す図である。 要素選択部による重みマップ生成処理を説明する図である。
以下、本発明の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一または等価な構成要素および部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
まず、本件発明者が本発明の実施形態に至った経緯について説明する。
深層学習において、予測に寄与した入力を可視化する一般的な方法として、勾配情報を用いる方法がある。予測結果に対する入力の勾配は、値を変化させた際に結果がどれだけ変化するか、という影響度を表すと考えられる。図1は、深層学習における勾配情報の例を示す図である。例えば、xという入力データをある深層学習モデルに入力し、yという出力データが得られたとする。∂y/∂xは、入力データのxの勾配である。勾配が大きい程、入力データxのわずかな変化で出力データyが大きく変化することになる。入力データの勾配に基づいて、予測に寄与した入力を可視化することで、予測にどの程度入力が寄与しているのかを把握できる。勾配に基づく可視化手法は、深層学習モデルに画像データを入力することで、入力された画像がどのような物体なのかを認識させる画像認識処理において用いられることが多い。
上述したように、画像又はテキスト等の、種類の異なる複数のモダリティを統合的に処理して判断する学習モデルを構築するマルチモーダル深層学習では、種類の異なる複数の情報をどのように組み合わせるかが精度の改善において重要である。そして、マルチモーダル深層学習においては、モデルの内部でモダリティ同士がどのように関連付いているかを把握することが、学習モデルの精度の改善につながる。
図2は、マルチモーダル深層学習における勾配情報の例を示す図である。例えば、x、x、xという入力データをあるマルチモーダル深層学習モデルに入力し、yという出力データが得られたとする。∂y/∂xは、入力データのxの勾配である。∂y/∂xは、入力データのxの勾配である。∂y/∂xは、入力データのxの勾配である。勾配が大きい程、入力データx、x、xのわずかな変化で出力データyが大きく変化することになる。このように、マルチモーダル深層学習においても、入力データの勾配に基づいて、予測に寄与した入力を可視化することは可能である。
図3は、マルチモーダル深層学習において、予測に寄与した入力を可視化する際の処理の一例を示す図である。図3では、マルチモーダル深層学習を用いて、MRI(Magnetic Resonance Imaging;磁気共鳴画像法)により撮像された人間の脳のMRI画像901と、生体情報データ902と、を入力とし、出力データ960として病状が悪化しているかどうかの判定結果を出力する処理の流れが示されている。生体情報データ902には、血液検査のデータ、遺伝子情報のデータ、認知能力を示すスコアのデータ等が挙げられる。
図3の例では、MRI画像901は学習モデル911に入力され、生体情報データ902は学習モデル912に入力される。学習モデル911は、例えば畳み込みニューラルネットワーク(Convolution Neural Network;CNN)である。学習モデル912は、例えばワードエンベディング(Word-Embedding)法によって言語データの特徴量を抽出する学習モデルである。
学習モデル911からは、特徴量921が出力され、学習モデル912からは、特徴量922が出力される。特徴量921、922は、例えば特徴ベクトルである。特徴量921、922は、特徴統合部930に入力されて統合され、統合特徴量940が出力される。統合特徴量940は、出力部950に入力される。出力部950は、例えば分類器である。出力部950からは、分類結果が出力データ960として出力される。
MRI画像901及び生体情報データ902と、出力データ960との関係を把握するためには、出力データ960からMRI画像901及び生体情報データ902まで逆伝播させる。出力データ960からMRI画像901及び生体情報データ902まで逆伝播させることで、MRI画像901及び生体情報データ902の勾配を得ることができる。そして、それぞれの勾配を可視化した勾配の可視化情報970を出力することで、MRI画像901及び生体情報データ902のそれぞれのどの部分が出力データ960に寄与しているのかを把握することが可能となる。図4は、勾配の可視化情報の一例を示す図である。図4の例では、勾配の可視化情報970として、MRI画像901の中で出力データ960に影響を与えている領域を可視化し、また生体情報データ902の中で出力データ960に影響を与えている項目を可視化したものが示されている。
マルチモーダル深層学習においても、1つの入力データを深層学習モデルに入力して1つの予測を出力する場合と同様に、入力データの勾配を求めることで、深層学習モデルが最終的な判断に至るまでに重要であった入力データが何であるかを可視化できる。しかし、マルチモーダル深層学習において、入力データの勾配を求めるだけでは、深層学習モデルの中で、どのようなモダリティ間のインタラクションが重要であったかはわからない。つまり、それぞれの入力データの勾配からでは、どの入力データがどのように関わり合ったからこのような予測が得られた、という情報までは得ることができない。すなわち、MRI画像901のどの部分と生体情報データ902のどの部分とが、どのように関わり合ったから出力データ960が得られた、という情報は、入力データの勾配からは得ることができない。
そこで、本件発明者は、上述の点に鑑み、マルチモーダル深層学習において、深層学習モデルの中でのモダリティ間のインタラクションに関する情報を求め、求めた情報を可視化できる技術について鋭意検討を行った。その結果、本件発明者は、以下で説明するように、マルチモーダル深層学習において、深層学習モデルの中でのモダリティ間のインタラクションに関する情報を求め、求めた情報を可視化できる技術を考案するに至った。
続いて、本発明の実施の形態について説明する。図5は、本発明の実施の形態に係る情報処理装置10のハードウェア構成を示すブロック図である。情報処理装置10は、マルチモーダル深層学習において、深層学習モデルの中でのモダリティ間のインタラクションに関する情報を可視化するための装置である。
図5に示すように、情報処理装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12またはストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12またはストレージ14に記録されているプログラムにしたがって、上記各構成の制御および各種の演算処理を行う。本実施形態では、ROM12またはストレージ14には、深層学習モデルの中でのモダリティ間のインタラクションに関する情報を求め、求めた情報を可視化するための情報処理プログラムが格納されている。
ROM12は、各種プログラムおよび各種データを格納する。RAM13は、作業領域として一時的にプログラムまたはデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)、SSD(Solid State Drive)またはフラッシュメモリ等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、および各種データを格納する。
入力部15は、マウス等のポインティングデバイス、およびキーボードを含み、各種の入力を行うために使用される。
表示部16は、たとえば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
通信インタフェース17は、他の機器と通信するためのインタフェースであり、たとえば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
上記の情報処理プログラムを実行する際に、情報処理装置10は、上記のハードウェア資源を用いて、各種の機能を実現する。情報処理装置10が実現する機能構成について説明する。
図6は、情報処理装置10の機能構成の例を示すブロック図である。
図6に示すように、情報処理装置10は、機能構成として、入力データ取得部101、順伝播部102、出力データ取得部103、第1逆伝播部104、統合特徴量勾配取得部105、要素選択部106、第2逆伝播部107、入力データ勾配取得部108、及び勾配可視化部109を有する。各機能構成は、CPU11がROM12またはストレージ14に記憶された情報処理プログラムを読み出し、実行することにより実現される。
入力データ取得部101は、マルチモーダル深層学習モデルを構築したそれぞれのニューラルネットワークに入力される入力データを取得する。ニューラルネットワークに入力される入力データには、例えば画像データ、文字データ、生体情報データ等がある。生体情報データには、血液検査のデータ、遺伝子情報のデータ、認知能力を示すスコアのデータ等が挙げられる。入力データ取得部101は、取得した入力データを順伝播部102に渡す。
順伝播部102は、入力データから出力データまでデータを順に伝播させる。具体的には、順伝播部102は、入力データ取得部101から渡された入力データを各ニューラルネットワークに入力し、各ニューラルネットワークから出力される特徴量を統合して統合特徴量を生成する。そして順伝播部102は、生成した統合特徴量から、マルチモーダル深層学習モデルを構築したそれぞれのニューラルネットワークによる予測(回答)結果を出力データとして出力する。
図7は、順伝播部102の機能構成の例を示すブロック図である。
図7に示すように、順伝播部102は、特徴抽出部111A、111B、・・・、111Nと、特徴統合部112と、出力部113と、を有する。
特徴抽出部111A、111B、・・・、111Nは、それぞれ、マルチモーダル深層学習モデルを構築したそれぞれのニューラルネットワークに相当する。特徴抽出部111A、111B、・・・、111Nは、入力データ取得部101から渡された入力データを入力し、図示しない学習済みモデルに基づいて、入力データから特徴量を抽出する。特徴量は、例えば特徴ベクトルとして抽出される。
例えば、画像データの特徴量を抽出する場合は、画像データに対して、予め定めたフィルタを走査することにより特徴を示す情報に凝縮する畳み込みニューラルネットワーク(CNN)を用いる手法が挙げられる。なお、畳み込みニューラルネットワーク自体は公知であるため詳細な説明を省略する。
また例えば、言語データの特徴量を抽出する場合は、形態素解析などにより言語データを単語に分解し、分解された各単語をベクトル表現にしたのち、分散表現に変換し、変換されたデータを用いて特徴抽出を行う手法が挙げられる。単語の分散表現への変換手法としては、単語の意味又は文法を捉えるようにベクトル空間に写像すること(又は実現モデル)を表現するワードエンベディング(Word-Embedding)法が挙げられる。特徴抽出の一例には、リカレントニューラルネットワーク(RNN:Recurrent Neural Network)を用いる手法が挙げられる。ワードエンベディング法、及びリカレントニューラルネットワーク自体は公知であるため詳細な説明を省略する。
特徴統合部112は、特徴抽出部111A、111B、・・・、111Nが抽出した特徴量を統合して1つの統合特徴量を生成する。特徴統合部112は、複数の特徴量を、例えば要素和、要素積、Bilinear結合等により統合することで統合特徴量を生成する。
出力部113は、特徴統合部112が出力した統合特徴量を入力し、所定の学習済みモデルに基づき、予測(回答)結果を出力する。統合特徴量から予測(回答)結果を出力する際には、例えば、多層のニューラルネットワークが用いられる。なお、多層のニューラルネットワーク(NN)自体は公知であるため、詳細な説明を省略する。
出力データ取得部103は、順伝播部102が出力する出力データを取得する。出力データ取得部103は、取得した出力データを第1逆伝播部104に渡す。
第1逆伝播部104は、出力データ取得部103から渡された出力データを用いて、例えば誤差逆伝播法を用いて、統合特徴量を得るために逆伝播を行う。
統合特徴量勾配取得部105は、第1逆伝播部104による逆伝播で得られる統合特徴量の各要素について、統合特徴量の変化と出力データの変化との関係を示す第1の勾配を算出する。
要素選択部106は、統合特徴量勾配取得部105が算出した第1の勾配に基づいて、統合特徴量の要素を選択する。例えば、要素選択部106は、第1の勾配の絶対値が最大の要素を選択してもよく、第1の勾配の絶対値の上位の所定の割合に属する要素を選択してもよい。また要素選択部106は、ユーザによって指定された要素を選択してもよい。また要素選択部106は、統合特徴量勾配取得部105が算出した第1の勾配に対する演算処理を行ってもよい。例えば、要素選択部106は、統合特徴量勾配取得部105が算出した第1の勾配に対して、予め生成したマスクによるマスキング処理を行ってもよい。
第2逆伝播部107は、統合特徴量を用いて、例えば誤差逆伝播法を用いて、それぞれの入力データを得るために逆伝播を行う。第2逆伝播部107は、要素選択部106が選択した統合特徴量の要素、又は要素選択部106が演算した統合特徴量の要素について逆伝播を行う。第2逆伝播部107は、要素選択部106が選択した統合特徴量の要素、又は要素選択部106が演算した統合特徴量の要素について逆伝播を行うことで、その要素に対応する入力データを得ることができる。
入力データ勾配取得部108は、第2逆伝播部107により得られた、各ニューラルネットワークへの入力データから算出された入力データの勾配を取得する。入力データの勾配は、入力データの変化に対する出力データの変化の関係を示す第2の勾配である。ここで、入力データ勾配取得部108が取得する勾配は、要素選択部106が選択した統合特徴量の要素、又は要素選択部106が演算した統合特徴量の要素に対応する入力データの勾配である。
勾配可視化部109は、入力データ勾配取得部108が取得した入力データの勾配を可視化して出力する。具体的には後述するが、勾配可視化部109は、入力データが画像データであれば、例えば、画像データに色を付ける等で入力データの勾配を可視化し、入力データが生体情報データであれば、例えば、グラフによって入力データの勾配を可視化する。勾配可視化部109は、例えば図4に示したような勾配の可視化情報を生成してもよい。
本発明の実施の形態に係る情報処理装置10は、係る構成を有することで、マルチモーダル深層学習において、深層学習モデルの中でのモダリティ間のインタラクションに関する情報を可視化することができる。
次に、情報処理装置10の動作例について説明する。
図8は、情報処理装置10による勾配可視化処理の流れを示す図である。CPU11がROM12又はストレージ14から情報処理プログラムを読み出して、RAM13に展開して実行することにより、勾配可視化処理が行なわれる。
図8の例では、MRIにより撮像された人間の脳のMRI画像201と、生体情報データ202と、を入力とし、出力データ230として病状が悪化しているかどうかの判定結果を出力する処理の流れが示されている。生体情報データ202には、例えば血液検査のデータ、遺伝子情報のデータ、認知能力を示すスコアのデータ等が挙げられる。
MRI画像201及び生体情報データ202が順伝播部102に入力されると、順伝播部102は出力データ230を出力する。順伝播部102において、MRI画像201は特徴抽出部111Aに入力されて特徴量211を出力し、生体情報データ202は特徴抽出部111Bに入力されて特徴量212を出力する。特徴抽出部111Aは、例えば畳み込みニューラルネットワークによって画像データの特徴量を抽出する学習モデルである。特徴抽出部111Bは、例えばワードエンベディング法によって言語データの特徴量を抽出する学習モデルである。
特徴統合部112は、特徴量211、212を入力として、統合特徴量220を出力する。特徴統合部112は、特徴量211、212を、例えば要素和、要素積、Bilinear結合等により統合することで統合特徴量220を生成する。
出力部113は、統合特徴量220を入力として、所定の学習済みモデルに基づき、予測(回答)結果として出力データ230を出力する。例えば、出力部113は、統合特徴量220から、症状が悪化しているかどうか、又は変化していないかどうかを判定し、出力データ230として出力する。
情報処理装置10は、順伝播部102が出力した出力データ230を、第1逆伝播部104によって、統合特徴量を得るために逆伝播を行う。そして、情報処理装置10は、統合特徴量勾配取得部105によって、統合特徴量の各要素について、統合特徴量の変化と出力データの変化との関係を示す統合特徴量の勾配240を算出する。
情報処理装置10は、統合特徴量の勾配240を算出すると、第2逆伝播部107によって、統合特徴量を用いて、例えば誤差逆伝播法を用いて、順伝播部102に入力される入力データを得るために逆伝播を行う。情報処理装置10は、入力データを得るために逆伝播を行う際に、統合特徴量の勾配240を参照し、統合特徴量の一部の要素について逆伝播を行う。そして、情報処理装置10は、入力データについて、入力データの変化と出力データの変化との関係を示す入力データの勾配250を算出し、入力データの勾配250を算出すると、入力データの勾配の可視化情報260を生成する。
本発明の実施の形態に係る情報処理装置10は、上述のような動作を実行することで、マルチモーダル深層学習において、深層学習モデルの中でのモダリティ間のインタラクションに関する情報を可視化することができる。
続いて、本発明の実施の形態の具体的な実施例について説明する。
図9は、情報処理装置10による勾配可視化処理の第1の実施例の流れを示す図である。
図9に示した第1の実施例においては、特徴抽出部111A、111Bは、2次元の特徴を抽出している。そして、特徴統合部112は、特徴量211、212を、Bilinear結合等により統合することで統合特徴量220を生成している。Bilinear結合は、特徴ベクトル間の全ての要素の組み合わせの積を計算する方法であり、通常のネットワーク構造では現れない2次の項を考慮できるため高精度であることが知られている。
情報処理装置10は、第1逆伝播部104によって、出力データ230から統合特徴量を得て、統合特徴量勾配取得部105によって、統合特徴量の各要素について、統合特徴量の変化と出力データの変化との関係を示す統合特徴量の勾配240を算出する。そして情報処理装置10は、第2逆伝播部107によって、勾配値に基づいて選択した要素の集合242について、順伝播部102に入力される入力データを得るために逆伝播を行う。この第1の実施例では、第2逆伝播部107は、例えば勾配の絶対値が最大の要素、又は勾配の絶対値の上位の所定の割合の要素の集合242について逆伝播を行う。
そして、情報処理装置10は、逆伝播によって得られる入力データの勾配250を算出し、入力データの勾配250を算出すると、入力データの勾配の可視化情報260を生成する。この入力データの勾配250は、選択された要素の集合242に対応する勾配である。そして、勾配の可視化情報260は、選択された要素の集合242に対応する勾配を可視化したものである。
統合特徴量220において勾配が大きい要素は、入力データ同士の組み合わせにおいて、出力データに対する重要度が大きい要素であるといえる。従って、情報処理装置10は、入力データ同士の組み合わせにおいて重要度が大きい要素が、それぞれの入力データのどの要素に対応しているかを可視化することで、組み合わせにより重要度が大きくなる要素を提示することができる。
図10は、情報処理装置10による勾配可視化処理の第2の実施例の流れを示す図である。
図10に示した第2の実施例においては、特徴抽出部111A、111Bは、3次元の特徴を抽出している。特徴抽出部111Aは、所定の領域に区切ったMRI画像201の各領域について特徴量211を抽出する。特徴抽出部111Bは、生体情報データ202の各属性について特徴量212を抽出する。特徴統合部112は、特徴量211、212を統合することで統合特徴量220を生成している。
図10に示した第2の実施例においても、第1の実施例と同様に、情報処理装置10は、統合特徴量の変化と出力データの変化との関係を示す統合特徴量の勾配240を算出する。そしてこの第2の実施例では、情報処理装置10は、ユーザが選択した統合特徴量の要素について第2の逆伝播を行う。情報処理装置10は、ユーザが選択した統合特徴量の要素の第1の勾配の合計を、出力データ230に対する寄与の度合いとして求めてもよい。ユーザが選択した要素について第2の逆伝播を行うことで、情報処理装置10は、ユーザが選択した統合特徴量の要素は、出力データ230にどれだけ影響を与えているかを提示することができる。
図11は、情報処理装置10による勾配可視化処理の第3の実施例の流れを示す図である。
図11に示した第3の実施例においては、第1の実施例と同様に、特徴抽出部111A、111Bは、2次元の特徴を抽出している。そして、特徴統合部112は、特徴量211、212を、Bilinear結合等により統合することで統合特徴量220を生成している。
そして、図11に示した第3の実施例においては、情報処理装置10は、算出した統合特徴量の勾配240に対して、予め用意した重みマップ244によって重み付けを実行する。重みマップ244は、予めマスキングされたMRI画像201及び生体情報データ202から抽出された特徴量が統合されて、0から1の連続値に重みが正規化されたマップである。情報処理装置10は、重みマップ244で重み付けした後の統合特徴量の要素の第1の勾配の合計を、出力データ230に対する寄与の度合いとして求めてもよい。そして、情報処理装置10は、重みマップ244で重み付けした後の統合特徴量の要素について第2の逆伝播を行う。
図12は、情報処理装置10の要素選択部106の機能構成例を示す図である。図12に示すように、要素選択部106は、マスク生成部121、マスク適用部122、入力取得部123、順伝播部124、特徴取得部125、重みマップ作成部126、重みマップ記憶部127、及び重み付き勾配計算部128を含む。また、図13は、要素選択部106による重みマップ生成処理を説明する図である。
マスク生成部121は、入力データ、例えばMRI画像201及び生体情報データ202に対するマスクを、ユーザからの指示に応じて生成する。
マスク適用部122は、入力データ、例えばMRI画像201及び生体情報データ202に対して、マスク生成部121が生成したマスクを適用する。図13の符号251は、MRI画像201に対してマスクが適用された画像データを示す。図13には、MRI画像201の右側の領域以外をマスクした例が示されている。また図13の符号252は、生体情報データ202に対してマスクが適用された生体情報データを示す。図13には、生体情報データ202の血液検査データ以外をマスクした例が示されている。
入力取得部123は、マスク適用部122がマスクを適用した入力データを取得する。入力取得部123は、取得した入力データを順伝播部124に渡す。
順伝播部124は、入力取得部123から渡された入力データを、順伝播部102と同じ各ニューラルネットワークに入力し、各ニューラルネットワークからの特徴量を出力する。
特徴取得部125は、順伝播部124が出力する各ニューラルネットワークからの特徴量を取得する。特徴取得部125が、取得した特徴量を重みマップ作成部126に渡す。
図13には、特徴抽出部111Aから特徴量261が、特徴抽出部111Bからは特徴量262が、それぞれ抽出されている例が示されている。
重みマップ作成部126は、特徴取得部125から渡された、各ニューラルネットワークからの特徴量に基づいて重みマップを作成する。重みマップ作成部126は、重みマップを作成するにあたり、上述したように0から1の連続値に重みを正規化する。
図13には、特徴量261、262から作成された重みマップ244が示されている。
重みマップ記憶部127は、重みマップ作成部126が作成した重みマップを記憶する。重みマップ記憶部127は、順伝播部102で用いられるマルチモーダル深層学習の各ニューラルネットワークに対応するように重みマップを内部で記憶している。
重み付き勾配計算部128は、重みマップ記憶部127に記憶されている重みマップを読み出し、読み出した重みマップを統合特徴量の勾配240に適用する。
情報処理装置10は、図12に示したような構成を有する要素選択部106を備えることで、統合特徴量の勾配240に重みを適用することができる。そして、情報処理装置10は、重みマップ244で重み付けされた統合特徴量について逆伝播を行うことで、予めマスキングしたMRI画像201及び生体情報データ202の部分について、勾配を可視化して提示することができる。
以上説明したように、本発明の実施の形態に係る情報処理装置10によれば、出力データから統合特徴量まで逆伝播させて、統合特徴量の各要素の勾配を求め、さらに統合特徴量から入力データまで逆伝播させて、勾配を算出する。このように、統合特徴量の各要素の勾配を求めてから、入力データの勾配を求めることで、情報処理装置10は、入力データ間のインタラクションに関する情報を可視化することができる。
なお、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した勾配可視化処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、勾配可視化処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記各実施形態では、勾配可視化処理のプログラムがROMまたはストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
10 情報処理装置
201 MRI画像
202 生体情報データ
230 出力データ

Claims (11)

  1. プロセッサを備え、
    前記プロセッサは、
    複数のニューラルネットワークモデルのそれぞれへの入力データに応じて出力される特徴量を統合して統合特徴量を生成し、
    前記統合特徴量の分析により得られる出力データを生成し、
    前記出力データから前記統合特徴量まで逆伝播させる第1の逆伝播により、前記統合特徴量の各要素について、前記統合特徴量の変化と前記出力データの変化との関係を示す第1の勾配を算出し、
    前記統合特徴量の各要素についての前記第1の勾配に基づき、前記統合特徴量から前記入力データのそれぞれまで逆伝播させる第2の逆伝播により、前記入力データの変化と前記出力データの変化との関係を示す第2の勾配を算出する
    処理を実行する、情報処理装置。
  2. 前記プロセッサは、前記統合特徴量の要素の中から前記第1の勾配に基づいて選択された要素の集合のみを用いて前記第2の逆伝播を行う、請求項1に記載の情報処理装置。
  3. 前記プロセッサは、前記第1の勾配の絶対値が最大の要素の集合のみを用いて前記第2の逆伝播を行う、請求項2に記載の情報処理装置。
  4. 前記プロセッサは、前記第1の勾配の絶対値の上位の所定の割合に属する要素の集合のみを用いて前記第2の逆伝播を行う、請求項2に記載の情報処理装置。
  5. 前記プロセッサは、前記統合特徴量の要素の中から指定された要素の集合のみを用いて前記第2の逆伝播を行う、請求項1に記載の情報処理装置。
  6. 前記プロセッサは、前記指定された要素の前記第1の勾配の合計を、前記複数のニューラルネットワークモデルの、前記出力データに対する寄与の度合いとする、請求項5に記載の情報処理装置。
  7. 前記プロセッサは、重みマップを適用して所定の重みを付与した前記第1の勾配に基づき前記第2の逆伝播を行う、請求項1に記載の情報処理装置。
  8. 前記プロセッサは、前記入力データの一部を前記複数のニューラルネットワークモデルのそれぞれに入力することで前記重みマップを生成する、請求項7に記載の情報処理装置。
  9. 前記プロセッサは、前記重みマップで重み付けされた前記第1の勾配の合計を、前記複数のニューラルネットワークモデルの、前記出力データに対する寄与の度合いとする、請求項7又は8に記載の情報処理装置。
  10. 前記プロセッサは、さらに、前記第2の勾配を可視化して、前記複数のニューラルネットワークモデルの、前記出力データに対する寄与の度合いを提示する、請求項1~9のいずれか1項に記載の情報処理装置。
  11. コンピュータに、
    複数のニューラルネットワークモデルのそれぞれへの入力データに応じて出力される特徴量を統合して統合特徴量を生成し、
    前記統合特徴量の分析により得られる出力データを生成し、
    前記出力データから前記統合特徴量まで逆伝播させる第1の逆伝播により、前記統合特徴量の各要素について、前記統合特徴量の変化と前記出力データの変化との関係を示す第1の勾配を算出し、
    前記統合特徴量の各要素についての前記第1の勾配に基づき、前記統合特徴量から前記入力データのそれぞれまで逆伝播させる第2の逆伝播により、前記入力データの変化と前記出力データの変化との関係を示す第2の勾配を算出する
    処理を実行させる、コンピュータプログラム。
JP2020053273A 2020-03-24 2020-03-24 情報処理装置、及びコンピュータプログラム Active JP7476600B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020053273A JP7476600B2 (ja) 2020-03-24 2020-03-24 情報処理装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020053273A JP7476600B2 (ja) 2020-03-24 2020-03-24 情報処理装置、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2021152804A JP2021152804A (ja) 2021-09-30
JP7476600B2 true JP7476600B2 (ja) 2024-05-01

Family

ID=77886583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020053273A Active JP7476600B2 (ja) 2020-03-24 2020-03-24 情報処理装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP7476600B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117022032B (zh) * 2023-10-10 2023-12-29 深圳市瑞凯诺科技有限公司 基于显示屏的新能源汽车取电方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130275A1 (en) 2017-10-26 2019-05-02 Magic Leap, Inc. Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks
CN109978882A (zh) 2019-04-09 2019-07-05 中康龙马(北京)医疗健康科技有限公司 一种基于多模态融合的医疗影像目标检测方法
JP2019125240A (ja) 2018-01-18 2019-07-25 株式会社日立製作所 分析装置および分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130275A1 (en) 2017-10-26 2019-05-02 Magic Leap, Inc. Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks
JP2019125240A (ja) 2018-01-18 2019-07-25 株式会社日立製作所 分析装置および分析方法
CN109978882A (zh) 2019-04-09 2019-07-05 中康龙马(北京)医疗健康科技有限公司 一种基于多模态融合的医疗影像目标检测方法

Also Published As

Publication number Publication date
JP2021152804A (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
Nawaz et al. A deep feature-based real-time system for Alzheimer disease stage detection
Samek et al. Explaining deep neural networks and beyond: A review of methods and applications
Li et al. Improving semantic segmentation via decoupled body and edge supervision
Dhanachandra et al. Image segmentation using K-means clustering algorithm and subtractive clustering algorithm
Ma et al. Hand joints-based gesture recognition for noisy dataset using nested interval unscented Kalman filter with LSTM network
CN110097130A (zh) 分类任务模型的训练方法、装置、设备及存储介质
Geng et al. Gated path selection network for semantic segmentation
JP2018147474A (ja) 学習装置、学習結果利用装置、学習方法及び学習プログラム
Wong et al. Segmentation of additive manufacturing defects using U-net
Liu et al. Automatic detection and segmentation of mitochondria from SEM images using deep neural network
JP7476600B2 (ja) 情報処理装置、及びコンピュータプログラム
Sreela et al. Action recognition in still images using residual neural network features
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
Nielsen et al. EvalAttAI: a holistic approach to evaluating attribution maps in robust and non-robust models
Kuş et al. Evolutionary Architecture Optimization for Retinal Vessel Segmentation
Zourhri et al. Deep learning technique for Classification of breast cancer using ultrasound images
Gurevich et al. Descriptive image analysis: Part II. Descriptive image models
JP4397264B2 (ja) 技術文献の市場性分析システム及び市場性分析プログラム
Miotto et al. Flow imaging as an alternative to non-intrusive measurements and surrogate models through vision transformers and convolutional neural networks
Karakose et al. Image processing-based center calculation method for general and interval type-2 Fuzzy systems
Sharen et al. Efficient diagnosis of Alzheimer’s disease using efficientnet in neuroimaging
Gunes et al. Detecting direction of pepper stem by using CUDA-based accelerated hybrid intuitionistic fuzzy edge detection and ANN
Keçeli et al. A GPU-Based approach for automatic segmentation of white matter lesions
Abaidi et al. GAN-based generation of realistic compressible-flow samples from incomplete data
Marques et al. Detection of covid-19 in computed tomography images using deep learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240401

R150 Certificate of patent or registration of utility model

Ref document number: 7476600

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150