JP2022536087A - ディープニューラルネットワーク可視化 - Google Patents

ディープニューラルネットワーク可視化 Download PDF

Info

Publication number
JP2022536087A
JP2022536087A JP2021571948A JP2021571948A JP2022536087A JP 2022536087 A JP2022536087 A JP 2022536087A JP 2021571948 A JP2021571948 A JP 2021571948A JP 2021571948 A JP2021571948 A JP 2021571948A JP 2022536087 A JP2022536087 A JP 2022536087A
Authority
JP
Japan
Prior art keywords
deep neural
neural network
feature
elements
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021571948A
Other languages
English (en)
Other versions
JP7476239B2 (ja
Inventor
バート ヤコブ バーカー
ディミトリオス マヴロエイディス
ストーヤン トラヤノヴスキー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2022536087A publication Critical patent/JP2022536087A/ja
Application granted granted Critical
Publication of JP7476239B2 publication Critical patent/JP7476239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

態様及び実施形態は、結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供する方法、その方法を実行するように構成されたコンピュータプログラム及び装置に関する。本方法は、ディープニューラルネットワークに、結果に関連する複数のサンプルを提供するステップと、前記ディープニューラルネットワークを使用して、前記結果に関連する前記複数のサンプル内のフィーチャを認識するステップと、前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする、前記入力ライブラリ内の複数のサンプルの各サンプル内の1又は複数の要素を識別することによって、前記入力ライブラリからフィーチャ認識ライブラリを作成するステップと、前記フィーチャ認識ライブラリを使用して、サンプルの1又は複数の要素のうち前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする特性を有する複数の要素を合成するステップと、前記合成された複数の要素を使用して、前記結果に関連する前記複数のサンプル内の前記ディープニューラルネットワークによって識別される前記フィーチャの表現を提供するステップと、を含む。従って、結果に関連するフィーチャをトリガするサンプル内の1又は複数の要素の単一インスタンスを視覚化するのではなく、結果に関連するフィーチャをトリガする要素を含むサンプルのレンジを視覚化することが可能であり、従って、特定のフィーチャに関連するディープニューラルネットワークの動作のより包括的なビューを与えることができる。

Description

本発明は、ニューラルネットワークの分野に関し、より詳細には、ディープニューラルネットワークによって識別されるフィーチャ(特徴、feature)の表現を提供する。
ディープラーニング法は、非常に低いレベルのデータ、例えば、医用画像における単一ピクセルの色値からの有用な高レベルフィーチャの生成又は識別に関連して使用されることができる。ディープラーニング法は、このような有用な高レベルのフィーチャを手作業で提供する必要を軽減することができ、「未知の」フィーチャの自動定義を可能にすることができる。ディープラーニング法によって生成され又は学習されたフィーチャは、ディープニューラルネットワークにおける重みの大きな組を通じて定義される。
一組の入力サンプルに基づいて決定を行う又は結果を特定するように構成されたディープニューラルネットワークは、しばしば良好な性能を発揮するが、ユーザにはブラックボックスとして大きく機能するように見えることがある。すなわち、ディープニューラルネットワークがどのように機能しているのか、なぜそのような判断をするように動作するのかを説明し又は視覚化することは困難でありうる。
生成又は学習されたフィーチャを活性化する(すなわち、画像内のフィーチャの存在を示す)大きなサンプル又は例示の画像内の領域(又はパッチ)を可視化するための技術が存在する。そのような技術の1つは、Grad‐CAM (Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization [Selvaraju et al, arXiv:1610.02391])と呼ばれ、例えば画像分類に寄与する入力画像中のピクセルを強調表示する方法を提供する。一例では、画像が「犬」としてディープニューラルネットワークによって分類される場合、ディープニューラルネットワークが画像を「犬」として分類することに寄与した1又は複数のフィーチャに対応する画像内のピクセルが強調表示される。Grad‐CAM技術は、ディープコンボリューションニューラルネットワークを用いた画像解析に適用されることができる。このような技術により、ユーザは、フィーチャを認識するためにネットワークをトリガする画像の特定の例を検査することができる。
本発明の第1の側面は、結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供する方法であって、ディープニューラルネットワークに、結果に関連する複数のサンプルを含む訓練ライブラリを提供するステップと、ディープニューラルネットワークを使用して、結果に関連する複数のサンプル内のフィーチャを認識するステップと、ディープニューラルネットワークによるフィーチャの認識をトリガする、入力ライブラリ内の複数のサンプルの各サンプル内の1又は複数の要素(elements)を識別することによって、入力ライブラリからフィーチャ認識ライブラリを作成するステップと、前記フィーチャ認識ライブラリを使用して、サンプルの1又は複数の要素のうち、ディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する複数の要素を合成するステップと、1又は複数の要素のうち合成された複数の要素を使用して、結果に関連する複数のサンプル内のディープニューラルネットワークによって識別されるフィーチャの表現を提供するステップと、を有する方法に関連する。
本発明の第2の側面は、コンピュータ上で実行される場合に、第1の側面の方法を実行するように動作可能なコンピュータプログラム製品を提供する。
本発明の第3の側面は、結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供する装置であって、結果に関連する複数のサンプルを含む訓練ライブラリを備え、結果に関連する複数のサンプル内のフィーチャを認識するように構成されたディープニューラルネットワークと、入力ライブラリを形成する複数のサンプルの各サンプルにおいて、ディープニューラルネットワークによるフィーチャの認識をトリガする1又は複数の要素を識別することにより、入力ライブラリからフィーチャ認識ライブラリを作成するように構成されたライブラリ作成ロジックと、フィーチャ認識ライブラリを使用して、サンプルの1又は複数の要素のうちディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する複数の要素を合成するように構成された合成ロジックと、1又は複数の要素のうち合成された複数の要素を使用して、結果に関連する複数のサンプル内のディープニューラルネットワークによって識別されるフィーチャの表現を提供するように構成されたフィーチャ可視化ロジックと、を有する装置を提供する。
他の特定の側面及び好ましい側面は、添付の独立請求項及び従属請求項に記載されている。従属請求項の特徴は、適宜、独立請求項の特徴と組み合わせられることができ、また、請求項に明示的に記載されている以外の組み合わせでもよい。
本発明の一実施形態の技術的利点の1つは、ディープニューラルネットワークによって作成されるモデルを改良する機構を含むことができる。本発明の実施形態の別の利点は、ディープニューラルネットワークに提供される訓練ライブラリから欠落し得る結果に関連するフィーチャに関連するデータを識別する機構を含んでもよい。本発明の実施形態の更に別の利点は、ディープニューラルネットワーク内のそれぞれ異なる層によって識別されるフィーチャを視覚化する機構を含みうる。本発明の実施形態のさらなる利点は、ディープニューラルネットワークによって作成された結果に関連するモデルによって作成されるフィーチャを、ドメインエキスパートに提供する機構を含みうる。本発明の実施形態のさらなる利点は、ディープニューラルネットワークの動作のドメインエキスパートの理解を支援する機構を含みうる。他の技術的利点は、実施形態の説明において更に記載されてもよい。前述の技術的利点は、非限定的な実施例としてのみ意図されている。当業者であれば、明示的に説明されていない他の技術的利点が適用されうること、及び異なる実施形態に異なる利点が適用されうることを認識するであろう。
装置特徴が、機能を提供するように動作可能であると記載されている場合、これは、その機能を提供する又はその機能を提供するよう適応され若しくは構成される装置特徴を含むことが理解されるであろう。
本発明の実施の形態が、添付図面を参照しながら更に説明される。
一実施形態による画像処理装置の構成を示す図。 画像分類に使用されるディープニューラルネットワークの典型的な概要を図式的に示す図。 本発明の一実施形態による説明的な一般例の方法の可能なステップを示す概略図。 説明的な例の方法の考えられるステップを詳細に示す概略図。 ネットワークフィーチャのためのGrad CAM出力の例を示す図。 一部の実施形態による、フィーチャ認識ライブラリの一部を形成し得る画像の一部の例を示す図。 フィーチャ探索グラフィカルユーザインタフェースの考えられる例を示す図。
特定の説明的な例を詳細に説明する前に、一般的な概要が提供される。
一般に、本発明の実施形態は、結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供することができる方法及びシステムに関する。本発明の実施形態の方法は、典型的には、結果に関連する複数のサンプルを含む訓練ライブラリをディープニューラルネットワークに提供するステップと、ディープニューラルネットワークを使用して、結果に関連する複数のサンプル内のフィーチャを認識するステップと、を有する。次いで、ディープニューラルネットワークによるフィーチャの認識をトリガする、入力ライブラリ内の複数のサンプルのそれぞれにおける1又は複数の要素を識別することによって、入力ライブラリからフィーチャ認識ライブラリを作成することが可能である。そのフィーチャ認識ライブラリは、サンプルの1又は複数の要素のうち、ディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する複数の要素を合成するために使用されることができる。その後、合成された複数の1又は複数の要素を使用して、結果に関連する複数のサンプル内のディープニューラルネットワークによって識別されるフィーチャの表現を提供することができる。この可視化はディープニューラルネットワークの動作を改善するために使用されることができる。例えば、結果に関連して関心があることが分かっているがディープニューラルネットワークによって識別されたフィーチャには存在しないようにみえるフィーチャは、訓練ライブラリから欠落していると識別されることができ、訓練ライブラリは、欠落しているフィーチャを含む訓練材料と、改良されたディープニューラルネットワークによって作成されたモデルとを有するように更新されることができる。
結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現をユーザに提供する方法及び装置が有用であることが認識されている。すなわち、「結果」の認識又は識別につながる入力データの1又は複数のフィーチャを、視覚的又はその他の方法で人間が読める又は人間が理解できる形でユーザに提供することは、ディープニューラルネットワークがどのように機能しているか、また、例えば、訓練データに関連してディープニューラルネットワークによってなされた接続又は関連付けが、訓練データについて既に知られていることを実証し又はそれに対応しているように見えるかどうかを理解するための有用な手段となる。つまり、ディープニューラルネットワークによって識別されたフィーチャの表現は、ディープニューラルネットワークによって作成されたモデルの理解を助けることができる。
本発明のいくつかの実施形態は、結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供し、従って、システムの動作が理解されることを可能にする人間の理解可能な情報を提供する1つの可能な方法は、様々な情報ライブラリが使用される多段階プロセスを実行することであり得ることを認識する。
例えば、画像に関連してディープニューラルネットワークを学習する典型的な方法は、結果に関連する複数のサンプル(画像)を含む訓練ライブラリをディープニューラルネットワークに提供し、ディープニューラルネットワークを使用して、結果に関連する複数のサンプルのフィーチャを認識することである。医療画像に関連して、例えば、結果は、疾患、シンドローム又は類似の診断であってもよく、フィーチャは、例えば、器官の特定の形状の認識、又はあるタイプの組織を示す特定の画像パターンを含むことができる。
本発明の図示される例では、標準的なディープニューラルネットワーク訓練プロセスが完了した後、得られた情報の更なる処理が行われることができる。例えば、結果に関連するものとしてディープニューラルネットワークによって認識される各フィーチャに関連して、入力ライブラリからフィーチャ認識ライブラリを作成することが可能である。フィーチャ認識ライブラリは、ディープニューラルネットワークによるフィーチャの認識をトリガする複数のサンプルの各サンプル内の1又は複数の要素を識別することによって生成されることができる。画像の場合、サンプル内の要素は、入力ライブラリ内の画像の特定のピクセル、パッチ、又はピクセル及び/又はパッチの組み合わせでありうる。フィーチャ認識ライブラリ内のエントリを形成するのは、(全体としての入力画像ではなく)入力画像の関連する要素である。
フィーチャ認識ライブラリはそれ自体、ディープニューラルネットワークの動作の理解を強化するツールとして使用されることができる。各フィーチャに関連して、関連フィーチャ認識ライブラリを用いて、サンプルの1又は複数の要素のうちディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する複数の要素を合成することが可能である。これを達成する一つの方法は、フィーチャ認識ライブラリに関連してGANを使用することでありうる。概念レベルでは、適切に訓練されたGAN(又は類似のもの)は、ユーザが、ディープニューラルネットワークがフィーチャを認識することをトリガする、サンプルを特性付けるパラメータの範囲を探索することを可能にする。
最後に、いくつかの例示的な例では、ユーザが、1又は複数の要素の合成された複数の要素を使用して、結果に関連する複数のサンプル内の、ディープニューラルネットワークによって識別されるフィーチャの表現を提供することができることが有用であることが理解されよう。特に、ユーザは、ディープニューラルネットワークによるフィーチャの認識をトリガするサンプルを特性付けるパラメータの範囲を探索することができる。
本発明のいくつかの実施形態は、結果に関連するフィーチャをトリガするサンプル内の1又は複数の要素の単一インスタンスを視覚化するのではなく、結果に関連するフィーチャをトリガする要素を含む様々なサンプルを視覚化することができ、特定のフィーチャに関連するディープニューラルネットワークの動作のより包括的なビューを可能にする。
本発明のいくつかの実施形態は、人工知能(AI)及び/又はアプリケーションドメイン(例えば、医療)の専門家が、ディープニューラルネットワークによって識別されたフィーチャを、結果又は決定に関連するものであると解析することを可能にする可視化ツールが、有用であり得ることを認識する。特に、特定された、又は生成されたフィーチャのいくつかを、例えば、医用画像に関連して、一般的な用語で認識し又は表現することを可能にする可視化ツールは、ディープニューラルネットワークの動作におけるユーザの信頼を育てるのに役立ちうる。更に、可視化ツールは、ディープニューラルネットワークによって識別されるいくつかのフィーチャを、望ましくないフィーチャ、例えば、オーバーフィット又は病院特有のフィーチャとして廃棄することを可能にし、それらのフィーチャを、システム内について修正するか、又はそれらの「望ましくないフィーチャ」を説明するか、さもなければ、それらの「望ましくないフィーチャ」を除去するための訓練データを作成するために適切な修正を行うことを可能にし、その結果、フィーチャを識別するための、より正確で正確なシステムを提供することができる。
本発明のある実施形態による視覚化ツールは、ディープニューラルネットワークによって識別されるフィーチャが、理解を向上させるための新たな洞察を提供し得ることを認識するのを支援することができる。また、ドメインエキスパートは、フィーチャの可視化が有効である場合に、ディープニューラルネットワークがどのように動作しているかをより完全に理解することができ、例えば、可能性のある「欠落した」フィーチャを識別することを可能にすることができることが分かるであろう。次に、ドメインエキスパートからの入力を用いて、ニューラルネットワークに与えられた訓練例を拡張し、従って、ディープニューラルネットワークが改良された一般化を実行できるようにすることができる。
本発明のいくつかの実施形態は、ディープニューラルネットワークによって識別されるフィーチャの表現又は視覚化を、結果に関連するものとして提供し得る。表現は、人間が解釈可能な表現を含み得る。例えば、視覚化は、人間によって成功裏に解釈されることができる1又は複数の要素を含む1又は複数の画像を含み得る。ディープニューラルネットワークは、例えば、画像以外のサンプルの分類に関連して、例えば、トレース信号、音又は類似のものにも使用され得るので、視覚化又は表現は、人間によって解釈可能な、そのようなトレース又は音の1又は複数の要素を含んでもよい。本方法は、結果に関連する複数のサンプルを含む訓練ライブラリを、ディープニューラルネットワークに提供することを含み得る。本方法は、結果に関連する複数のサンプル内のフィーチャを認識するために、ディープニューラルネットワークを使用するステップを含み得る。従って、結果に関連するフィーチャをディープニューラルネットワークにより構築し、それらのフィーチャの解析を行うことができる。本方法は、訓練ライブラリ、訓練ライブラリの一部といくつかのドメインサンプルの組み合わせ、訓練ライブラリのサブセット、又は訓練ライブラリ内のそれらのサンプルと同じドメイン内にあるサンプルの集合を含み得る、入力ライブラリからフィーチャ認識ライブラリを作成するステップを含み得る。フィーチャ認識ライブラリは、ディープニューラルネットワークによるフィーチャの認識をトリガする、入力ライブラリ内の複数のサンプルのそれぞれにおける1又は複数の要素を識別することによって作成されてもよい。本方法は、フィーチャ認識ライブラリを使用して、ディープニューラルネットワークによるフィーチャの認識をトリガする特性を有するサンプルの複数の1又は複数の要素を合成するステップを含み得る。合成プロセスは、ドメイン内の任意の特定のサンプルの1又は複数の要素のレンジが生成されることを可能にすることができ、その各要素は、ディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する。本方法は、合成された複数の1又は複数の要素を使用して、結果に関連する複数のサンプル内のディープニューラルネットワークによって識別されるフィーチャの表現を提供することを可能にしてもよい。
本発明の一実施形態によれば、特性の表現は、ディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する合成例の連続的なライブラリを含む。言い換えると、複数の合成例の作成が可能であり、それらの例は、所与のフィーチャの認識をトリガするために依然としてディープニューラルネットワークをトリガする特定された範囲内で無限に可変であるか、又は滑らかである。このようなフィーチャは、ドメインエキスパートが、例えば、ニューラルネットワークによるそのフィーチャの認識をトリガするであろう画像内の視覚フィーチャの全範囲を理解することを可能にする。連続範囲の画像は、ディープニューラルネットワークによるそのフィーチャの認識の引き金となる、例えば、推測、又は組織異常などのフィーチャのパラメータを理解する場合に、ドメインエキスパートをよりよく支援することができる。
本発明の一実施形態によれば、ディープニューラルネットワークによってフィーチャの認識をトリガする複数のサンプルの各々内の1又は複数の要素を識別することは、勾配に基づく方法を使用して、フィーチャの認識をトリガする複数のサンプルの各々内の1又は複数の要素を識別することを含む。このような勾配に基づく方法は、サンプルの要素に関連するヒートマップ又は重みマップを生成することを可能にし、これらのヒートマップ又は重みマップは、結果に関連する所定のフィーチャを認識するディープニューラルネットワークにとって、サンプルのどの部分が重要であるか、又は「キー」であるかを示す。
本発明の一実施形態によれば、勾配に基づく方法は、Grad-CAM、CAM、デコンボリューション又はガイドされたバックプロパゲーションのうちの1又は複数を含む。上述したように、Grad-CAMは、例えば、画像分類に寄与する入力画像内のピクセルを強調表示する方法を提供する。CAM、デコンボリューション、及びガイドされるバックプロパゲーションは、いずれも、そのサンプル内のフィーチャを識別するディープニューラルネットワークと関連するサンプルの要素を認識するための類似の方法を含む。これらの方法を使用することにより、システムは、結果に関連するフィーチャの認識のトリガに関連する、画像の部分又は要素のみに焦点を合わせることができる。
本発明の一実施形態によれば、フィーチャ認識ライブラリ内のエントリは、入力ライブラリ内のサンプルの1又は複数の要素と、ディープニューラルネットワークによるフィーチャの認識のトリガにおける入力ライブラリ内のサンプルの1又は複数の要素の相対的重要度の勾配に基づく方法から得られる指示との組み合わせを含む。このようなフィーチャがあれば、入力ライブラリのサンプルのうち、トリガされるフィーチャに関連する部分のみからフィーチャ認識ライブラリを形成することができる。従って、あるフィーチャに関連するフィーチャ認識ライブラリは、完全な訓練ライブラリをより簡潔にしたものであると考えられる。このようなより簡潔なライブラリは、効率的なデータ処理を助け、結果に関連する認識されたフィーチャに関連する情報をより効率的に抽出することを可能にする。
本発明の一実施形態によれば、サンプルの1又は複数の要素のうちディープニューラルネットワークによるフィーチャの認識をトリガする特性を有する複数の要素を合成することは、フィーチャ認識ライブラリによって導かれた生成モデリング方法を使用することを含む。このようなアプローチは、フィーチャ認識ライブラリのエントリが、ディープニューラルネットワークによる結果に関連するフィーチャの認識をトリガする入力サンプルを作成又はシミュレートするために、生成モデリング法によってインテリジェントに使用されることを確実にするのに役立つ。システムによるフィーチャの認識をトリガする画像の「フェイク」部分を生成できることで、システムの動作を理解し、システムの改善につなげることができる。例えば、システムがある結果に関連するフィーチャを認識した場合、そのフィーチャの認識をトリガする画像(の一部)の偽バージョンを生成することで、その特徴が、ドメインエキスパートによって評価されたように、結果に真に関連するかどうかを分析することができる。偽の画像又は「生成された」画像は、結果に関連するものとして、これまでドメインエキスパートに知られていなかった画像の側面を特定することができ、そのような情報は、特定の結果を報告又は特定しようとする他のシステムに対しそのフィーチャの認識を追加し又は改善するために使用されることができる。フェイク画像又は「生成された」画像は、訓練ライブラリの画像キャプチャのアーティファクトであり、従って結果に関連していないと評価できる画像の側面をドメインエキスパートに特定することができ、訓練ライブラリは、そのようなアーティファクトを含む画像を削除するように更新することができ、従って、より正確で精密なシステムを提供することができる。
本発明の一実施形態によれば、生成モデリング方法は、敵対的生成ネットワーク(generative adversarial network)又は変分オートエンコーダ(variational autoencoder)の1又は複数を含む。ディープニューラルネットワークによって識別されるフィーチャに関連して使用されることができる技術は、敵対的生成ネットワーク(GAN)の技術である(例えば、Generative Adversarial Networks[Ian J. Goodfellow, Generative Adversarial networks, Jun 2014]を参照)。GANは、典型的には、例えば複数の例示画像に基づいて「生成器(generator)」及び「判別器(discriminator)」を同時に訓練するように動作する。この生成器は、乱数発生器からの入力シードを、例示画像と同じ大きさ及び形状の画像に変換するように動作する。言い換えれば、生成器は、フェイク画像を生成するように動作する。判別器は、「実際(real)」の画像(例)と「シミュレートされた」、「フェイクされた」又は「合成された」画像(生成器によって作成された画像)との差を教示するように最適化される。生成器は、判別器を「騙す(fool)」画像、すなわち実際の画像と間違えられる画像を生成するよう最適化される。訓練されたGANの結果は、乱数の連続的な空間を、複数の例画像の中の画像のように見える画像の連続的な空間に変換する生成器である。このようなアプローチは、生成された「数学的」結果を、ドメインエキスパートによって考慮され得る画像に変換することを可能にし、評価される特定の出力を認識するよう訓練されたシステムの適合性を可能にする。
本発明の一実施形態によれば、本方法は、表現されるべき結果に関連するフィーチャを選択することを含む。フィーチャは、ディープニューラルネットワークの選択された層のノードにリンクされる。あるサンプル入力に対してノードが活性化される(つまり高い値を出力する)と、サンプルは対応するフィーチャを含んでいると言うことができる。典型的には、フィーチャが表現されるであろう選択される層は、ニューラルネットワーク出力の前の最後の層の1つであり、なぜなら、そのような層は、モデル決定又は出力に結合される最も高いレベルのフィーチャを含むからである。しかしながら、より深い層が、視覚化の必要性に応じて選択されてもよいことが理解されるであろう。層の選択は、初期視覚化をビューした後に変更されることができる。例えば、初期の視覚化が、レベルが高すぎる/低すぎるフィーチャを表示する場合、代わりにより深い/より深くない層が選択されることができる。いくつかの例では、層内のすべてのフィーチャ又はノードが表現されることができるが、いくつかの構成では、選択された層内のすべてのフィーチャ又はノードを視覚化する代わりに、ユーザは、ネットワーク内の、異なる層にある可能性のある特定のノードを選択することができる。高いレベルの層を選択することで、システムの適合性を評価するための、より大きな、より複雑な「フィーチャ」を生成することができます。
本発明の一実施形態によれば、本方法は、ディープニューラルネットワークを使用して、結果に関連する複数のサンプル内の代替フィーチャを認識するステップと、ディープニューラルネットワークによる代替フィーチャの認識をトリガする、入力ライブラリ内の複数のサンプルのそれぞれにおける1又は複数の要素を識別することによって、入力ライブラリから代替フィーチャ認識ライブラリを作成するステップと、代替フィーチャ認識ライブラリを使用して、ディープニューラルネットワークによる代替フィーチャの認識をトリガする特性を有するサンプルの複数の1又は複数の要素を合成するステップと、合成された複数の要素を使用して、結果に関連する複数のサンプル内のディープニューラルネットワークによって識別される代替フィーチャの表現を提供するステップと、を更に有する。従って、上述したように、ディープニューラルネットワークによって構築された複数のフィーチャを可視化することができる。いくつかの例では、層内のすべての地物又はノードは、選択された層内のすべての地物又はノードを視覚化する代替手段として、ネットワーク内の異なる層にある可能性がある特定のノードをユーザが選択することができる。このようなアプローチにより、システムが機能して、ユーザに対して透明な入力からの結果を識別する方法を可能にすることができる。
本発明の一実施形態によれば、ディープニューラルネットワークによって認識される代替フィーチャは、ディープニューラルネットワークによるフィーチャ及び代替フィーチャの認識をトリガする複数のサンプルの各サンプル内の1又は複数の要素の間の差が最大となるように選択される。従って、第1の側面の方法によって表現され又は視覚化されるフィーチャは、ディープニューラルネットワークの動作を理解しようとするユーザによって「別個の」ものとして認識される可能性がある。言い換えれば、ネットワークによって認識される別個の「フィーチャ」について、フィーチャ認識ライブラリの動作を維持しようとするステップが取られるかもしれない。いくつかの実施形態では、一連の訓練例に基づいて、結果に関連するフィーチャを認識するためにディープニューラルネットワークを使用することは、認識されるフィーチャが互いに区別されるようなステップをとることを含み得る。
本発明の一実施形態によれば、サンプルは、画像、音又は信号トレースを含む。このような画像は、X線、MRI画像、超音波画像等の医用画像を含むことができ、音は、適切な医用記録を含むことができ、信号トレースは、EEG又はECGトレース等のトレースを含むことができる。各サンプルは、サンプル固有の「フィーチャ」を呈し得る。
ここで、画像に関連してディープニューラルネットワークが使用される、より具体的な例示的な例に移る:
一般的なアーキテクチャ図1aは、一実施形態に係る画像処理装置の構成を示す図である。ユーザディスプレイ20と結合されたデータプロセッサ10が設けられる。画像データ40は、リアルタイムに又は記憶装置50からデータプロセッサ10に提供される。画像データは、様々な異なるソースから、多数の異なるフォーマットのいずれかで提供されることができる。画像データは、個々の2次元画像フレーム、3次元画像データ、オーディオファイル、トレース記録又は同様のものを含むことができる。様々な異なるタイプの画像データの任意のものが使用されうることが分かるであろう。
機械学習アルゴリズムアーキテクチャ図1bは、画像分類に使用されるディープニューラルネットワークの典型的なアウトラインを概略的に示す。本発明の実施形態は、画像データ上でフィーチャ認識を実行するために、データプロセッサ10上で実行するディープニューラルネットワーク(DNN)又はモデルを利用する。図1bは、画像分類に使用されるディープニューラルネットワークの典型的なアウトラインを概略的に示す。図1bに模式的に示されているネットワークは、入力画像が左側に入り、ディープニューラルネットワークによって作成されたモデルは、画像がディープニューラルネットワークを通って進行するにつれて、後続のモデル層がより多くの抽象的フィーチャを生成するようなものである。
図1bに示す例示的なディープニューラルネットワーク100では、入力画像110の訓練ライブラリ、この例では、顔のカラー画像が提供されることができる。ディープニューラルネットワークの入力層120は、局所コントラストのパターンを含むフィーチャ130を識別するように動作することができる。ディープニューラルネットワークの「隠れ」層140は、例えば、鼻、眼又は類似の顔フィーチャを表す局所コントラストのパターンの組み合わせを含むフィーチャ150を識別するように動作することができる。ディープニューラルネットワークの隠れ層160は、顔を表す、顔フィーチャの組み合わせを含むフィーチャ170を識別するように動作することができる。ディープニューラルネットワークの出力層180は、ディープニューラルネットワークが認識するように訓練された結果に依存して、例えば女性の顔又は子供の顔のような特定のタイプの顔の結果を識別するように動作してもよい。
本発明による方法は、ディープニューラルネットワークにおいて所望の抽象化レベルの層がフィーチャ可視化のために選択されることができるように実現されることができることが分かるであろう。言い換えると、所与の例では、本発明は、顔フィーチャ150、又は顔170、又はその両方を視覚化するために使用されることができる。同様に、本発明による方法を実現する際、特定の入力画像に対して層ユニットが活性化されることができる。
画像分類に使用できるディープニューラルネットワークの一例は、標準の畳込みニューラルネットワークである。次元256x256x3(画像ピクセルのRGB色情報を記述する最終次元(3))の入力画像を仮定すると、そのアーキテクチャは次のようになる:
Figure 2022536087000002
このような例示のネットワークでは、畳み込み層は、各ピクセルの周りの3x3ピクセルの領域で畳み込みを行う。畳み込み層に対して与えられる第3の次元は、その層の出力フィーチャの数である。各畳込み層は、整流線形ユニット(ReLU)出力活性化関数を持つ。画像の境界にあるピクセルの周りの畳み込みは、畳み込み出力の計算において画像の周りにゼロ加算を仮定する(畳み込みモードは「同じ」)。maxpool層は、水平方向と垂直方向の両方にストライド2で、2x2のピクセルブロックで最大値を返す。このモデルは、5クラス分類ネットワークを仮定し、ソフトマックス層は、モデル5の出力の合計を1にする(出力正規化)。
例示的な例は、画像フィーチャが、通常のやり方で、すなわちさらなるステップが行われる前に、上述のように特定の画像分析タスクのためにディープネットワークを訓練することによって、ディープニューラルネットワークによって構築されることができるようなものである。図2aは、本発明による例示的な一般的な例の方法の主要なステップを示す概略図である。
本発明の実施形態の方法は、典型的には、以下のステップを含む:
S1:上述したもののようなディープニューラルネットワークには、結果に関連する複数のサンプルを含む訓練ライブラリが提供される。ディープニューラルネットワークは、訓練ライブラリ内の複数のサンプル内の、関心のある結果に関連する1又は複数のフィーチャを認識するために使用される。
S2:ディープニューラルネットワークによって関心のある結果に関連すると識別されるフィーチャが、更なる研究のために選択される。このようなフィーチャは、例えば、上述の例示のネットワークにおいて、層12の出力ノード数7として選択されることができる。この層の出力ノードは、サンプルネットワークの最高レベルのフィーチャの16を表す。
S3:画像は、訓練されたディープニューラルネットワークに供給される。これらの画像は、訓練ライブラリからのものであってもよいし、画像の別個の組であってもよい。ディープニューラルネットワークに供給された画像から、(ステップS2から)選択されたフィーチャの認識を活性化するものが識別される。「活性化する」という語は、様々な態様で定められることができる:最もセンシティブなレベルでは、対応するノードがゼロ以外の値をとる場合に、フィーチャが活性化されると考えられ得る(再活性化は、全ての負の出力をゼロに設定することに留意されたい)。代替として、ノード活性化値の上部パーセンタイルを活性化閾値とみなしてもよく、又は、そのノードの出力値が層内の全てのノードの最大出力値である場合、ノードが活性化されていると定義されることができる。
S4:データプロセッサ(図1a参照)は、ディープニューラルネットワークによって、結果に関連するフィーチャの認識をトリガした、ディープニューラルネットワークに供給された複数のサンプルの各サンプル内の1又は複数の要素を識別するように構成される。特に、結果に関連する選択されたフィーチャを認識するためにディープニューラルネットワークの「活性化」を引き起こすと識別された入力ライブラリの中の画像の要素は、例えば、勾配タイプの方法を使用して、強調表示され、識別される。
勾配タイプの方法とその実現例の明確な説明は、"Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization", R. R. Selvaraju et al, 2017, arXiv:1610.02391v3に示されている。
図2cは、「犬」と相関するように見えるネットワークフィーチャに関するGradCAM出力の例を示す。一般に、GradCAM方法は、ネットワークの最終出力フィーチャを、入力画像の中で強調表示される例とするために使用される。しかしながら、本発明により可視化されるフィーチャは、「より深い」フィーチャを含み得る。例えば、或るネットワークでは、「犬がいる」ことがモデルの出力/結果に寄与するフィーチャの1つであり、かかるモデルの出力/結果は、例えば「住んでいる家」対「捨てられた家」である。
図2a(A)は、入力画像を示し、図2a(B)は、選択されたフィーチャ(犬)の活性化に対する各ピクセルの相対的寄与を示すヒートマップを示し、図2a(C)は、Selvaraju他(2017)の文献に記載されているように、「ガイド付きGradCAM」可視化を示す。
S5:システムは、ステップS4で収集した情報から「フィーチャ認識ライブラリ」を作成するように動作する。そのライブラリは、ディープニューラルネットワークによるフィーチャの認識の活性化を引き起こす画像内の要素の集合である。このような要素は、勾配タイプ方法の出力から、以下の方法でS4から抽出されることができる:
元の画像の次元よりも小さいフィーチャ画像サイズ(幅と高さ)が選択される。移動ウィンドウ方法を用いて、ウィンドウの範囲内にあるピクセル寄与(ヒートマップで示される)の合計が局所最大となる1又は複数の場所を特定する。実際に、ヒートマップ内部の寄与度の高い各ブロブの周囲にボックスが描かれる。選択されたウィンドウ位置の座標は、その後、「フィーチャ認識ライブラリ」を一緒に形成するフィーチャ画像を生成するために、入力画像をクロップするために使用される。
図2dは、CT画像を「癌」対「癌なし」に分類するよう構成されるディープニューラルネットワークによって認識されるフィーチャの視覚化の一部として見つけられ、フィーチャ認識ライブラリの一部を形成し得る画像又は「クロップ」の部分の例を示す。
S6:生成されたフィーチャ認識ライブラリは、例えば、適切な反復計算技術を使用して、サンプルの1又は複数の要素のうちディープニューラルネットワークにより選択されるフィーチャの認識をトリガする特性を有する複数の要素を合成するために、データプロセッサ10によって使用されることができる。
S7:必要に応じて、1又は複数の要素のうち合成された複数の要素が、使用されることができる。例えば、ディープニューラルネットワークによるフィーチャの認識をトリガする画像内の要素を合成することができることは、ディープニューラルネットワークの動作をより理解することを可能にする。ディープニューラルネットワークによって識別される、結果に関連する複数のサンプル内のフィーチャの表現を提供することが可能である。その表現は視覚的であり、視覚化は簡単にドメインエキスパートに提示されることができる。
S8:ステップS7を通じて利用可能な情報は、ディープニューラルネットワークの動作を改善するために使用されることができる。例えば、結果に関連して関心があることが分かっているが、ディープニューラルネットワークによって識別されたフィーチャには存在しないフィーチャは、訓練ライブラリから欠落していると識別されることができる。従って、訓練ライブラリは、訓練ステージS1において更新されてディープニューラルネットワークに供給され、従って、システムが改善されることができる。
言い換えると、本発明によるシステムは、一旦、ディープニューラルネットワークが訓練ライブラリを用いて訓練されると、更に大きい画像セット及び入力ライブラリを使用して、ディープニューラルネットワークに、構築されたフィーチャを活性化させることができる。システムは、構築されたフィーチャの活性化を引き起こす画像領域が、フィーチャベースごとに識別され、記憶され得るように動作する。画像は、それらが関連するドメインである限り注釈される必要がないことが理解されるであろう。
記憶された情報は、構築された各フィーチャに関連する視覚的な例のフィーチャ特有のデータベースを表す。このシステムは、次のステップで作成されたフィーチャ特有データベースを使用し、例えばGANなどの適切な生成技術が、各フィーチャに関連して訓練され、訓練されたディープニューラルネットワークがフィーチャを認識するようにトリガする画像を生成する。ディープニューラルネットワークが画像に関連してフィーチャを活性化させる画像の要素を認識/生成するためにシステムを訓練する任意の適切な機構が使用されることができ、GANである必要はないことが理解されるであろう。
各GANの生成器は、フィーチャ特有ライブラリを形成する生成された視覚的な例の間を補間するように動作することができ、従って、学習されたフィーチャのより包括的な見方を与えることができる。幾つかの構成では、GAN生成器は、例えばスライダのようなGUIツールと結合されることができ、これによりAI及び医療ドメインエキスパートの双方がディープニューラルネットワークによって構築された視覚的フィーチャを解析することができ、適宜、それらを関連用語で表現することができる。
いくつかの例示的な例では、GANに供給されるディープニューラルネットワークによって構築されたフィーチャ間の差を最大化することが有用であり得ることが認識される。言い換えれば、異なるフィーチャに対するGAN間の差を最大化することである。従って、異なるフィーチャと異なるフィーチャの生成された図との間の重複を最小限に抑えることができ、当業者は、(ディープニューラルネットワークによって認識された任意の他の構築されたフィーチャとは別のものとして)各フィーチャをより明確に視覚化することができる。
図2bは、1つの例示的な例に従った方法のステップを示す概略図である。図示されるように、図1aに示されるシステムは、以下に記述されるような多数の連続したステップとして方法を実行するように動作可能でありうる。
ステップ1(S1)
畳み込みディープニューラルネットワークは、通常の方法で画像分類又はセグメント化タスク上で訓練される(例えば、ImageNet Classification with Deep Convolutional Neural Networks [Alex Krizhevsky, Ilya Sutskever and Geoffrey E. Hinton, Advances in Neural Information Processing Systems 25 (NIPS 2012)] などを参照)。
ステップ2(S2)
出力(分類、セグメンテーション)近傍のディープニューラルネットワーク層の1つが、そのフィーチャを可視化させるために選択されることができる。選択された層は、そのすべてのフィーチャが可視化されることができる。フィーチャは、選択した層のノードにリンクされる。ある画像入力に対してノードが活性化される(すなわち、高い値を出力する)と、その画像は、対応するフィーチャを含むと言う。
典型的には、選択される層は、ネットワーク出力の前の最後の層のうちの1つであってもよく、なぜなら、そのような層は、モデル決定又は出力に組み合わされる最も高いレベルのフィーチャを含むからである。しかしながら、より深い層が、視覚化の必要性に応じて選択されうることが理解されるであろう。層の選択は、初期の視覚化を表示した後に変更されることができる。例えば、初期の視覚化でレベルが高すぎる/低すぎるフィーチャが示された場合、代わりにより深い/より浅い層が選択されることができる。一部の例では、選択された層内のすべてのフィーチャ又はノードを視覚化する代わりに、ユーザはネットワーク内の異なる層内の特定のノードを選択することができる。
ステップ3(S3)
多くの例示の画像(例えば、ディープニューラルネットワークによって作成されたモデルがドメインに関連して最適化される該ドメインに関する訓練又は検証(validation)セットからの画像)が、モデルへの入力として使用される。画像に注釈を付けられる必要はない。モデルに入力される各画像は、選択された層内の1又は複数のフィーチャノードの活性化を引き起こすことができる。
ステップ4(S4)
Grad-CAMなどの視覚化方法を使用して、1つの特定の活性化されたフィーチャノード(各画像及び選択された層の各ノード)について、1つの特定の画像の1又は複数の要素を強調表示することができる。画像分類のために、完全な(おそらく大きい)入力画像全体のピクセルが、単一ノードの活性化を説明するために強調表示され得ることが理解されるであろう。セグメント化の場合、活性化されたノードは通常、入力画像のサブセクション(又はパッチ)に対応する。
強調表示される画像は、元の入力画像(に一部)と、例えばピクセルごとに、そのピクセルがモデル出力にどれだけ寄与しているか(すなわちフィーチャ活性化)を示すヒートマップ/重みマップのオーバーレイとを含むことができる。例示的な例に関連して、元の画像の部分とヒートマップ/重みマップとの組み合わせ自体は、例として、元の入力画像と同じサイズ、又は、それより小さいサイズの画像として表現されることができる。
例示の画像が生成される様々な方法があることが分かるだろう:
セグメント化タスクの場合、モデル出力はそれ自体が画像であり、ネットワーク内の各層も画像に対応する(一般に入力画像より、解像度は低く、ピクセルあたりのフィーチャ量は多い)。従って、各活性化フィーチャノードは、特定の出力又は中間画像ピクセルに関連する。畳込みセグメント化ネットワークの性質は、各出力(又は中間)ピクセルが、元の画像のサブセット(又はパッチ)のみによって影響され、その最大サイズ(又は「視野」)がネットワークアーキテクチャによって決定されることである。活性化されたフィーチャノードのサンプル画像は、その視野に関連する入力画像内のパッチでありうる。分類タスクの場合、最終的なモデル出力(及び多くの場合、ペナルティメート(penultimate)層の場合)の視野は、完全な入力イメージである。ここで、より小さなフィーチャノードの活性化例は、例えば、入力画像上の移動ウィンドウアプローチによって生成されることができ、この場合、それらが含有するピクセルが入力画像のヒートマップ/重みマップのオーバレイ内で最小平均重みよりも多く割り当てられている場合、所望の次元のパッチが選択される。従って、ヒートマップで強調表示されない領域は選択されないが、明るくライトアップされる領域(つまり、それらの領域に起因する熱や重みが大きい)は選択される。
他の方法を適用してもよいが、これらは最も簡単である。当然ながら、ウインドウイング方法は、セグメンテーションモデルにも適用されることができる。そのようなモデルにおける前述の視野が入力画像の大部分をカバーする場合、そのようなアプローチが望ましいことがある。
ステップ5(S5)
ステップ4で一般的に説明されている可視化方法によって生成されるすべての強調表示される画像は、フィーチャごとに記憶されることができ、その結果、フィーチャごとに1つの画像データベースをもたらす。
次のステップは、1つのフィーチャに関連して説明されるが、図2bに概略的に示すように、各フィーチャごとに別々に実行されることができる。
ステップ6(S6)
GAN生成器は、フィーチャごとに強調表示された画像に関して訓練される。GAN生成器は、選択されたフィーチャに関連して代表画像を生成するように構成される。
ステップ7(S7)。フィーチャGANの訓練された生成器は、エキスパートユーザがフィーチャ画像例示空間を探索できるグラフィカルユーザインタフェースに埋め込むことを許す。
図2bに関連して記載されたステップ1(S1)~ステップ7(S7)は、図2aに関連する方法の概要において記述された一般的なステップS1~S7に対応していることが理解されるであろう。
図3は、ドメインエキスパートが、フィーチャに関連して訓練されたGANの出力を探索することを可能にし得る、フィーチャ探索グラフィカルユーザインタフェースの可能な例示的な例を示す。すなわち、画像内のフィーチャを認識するためにディープニューラルネットワークをトリガする画像内の要素の数学的理解は、視覚的な形式でユーザに提供されることができる。ユーザは、以下に述べられるフィーチャ画像例示空間を探索することができる。
a.GAN生成器は、N次元乱数空間を代表画像に変換することによって機能する。GUIは、1つの出力例に対応するランダムな入力値(ランダムな選択、中心点など)の1つの特定の選択から始まる
GUIは、ランダムな入力空間をナビゲートする方法を有する。ナビゲーション方法を実現する1つの方法は、N個のスライダを提供することであり、1つのスライダは、ランダム入力空間の各次元に関連付けられ、その最小値から最大許容値までスライドされる。多次元空間を探索するための他の方法が使用されてもよい。
c.ランダム入力空間を移動する際、選択されたランダム入力に対応するGAN生成画像が連続的にユーザに表示され、その結果、例示的フィーチャが一方から他方へモーフィングする。
d.ランダム空間/フィーチャ空間のユーザ主導の探索の代わりに、ランダム入力は、ランダム入力空間をランダムウォークすることでも生成されることができ、その結果、滑らかに連続的に変化するフィーチャ例の動画が、ユーザに表示される。
説明した例示的な例は、ディープニューラルネットワークによって構築され又は識別された視覚的フィーチャの滑らかな/連続的な表現をエキスパートユーザに提供することができる視覚化ツールを提供し得ることが理解されるであろう。視覚化ツールは、特定のタスクに割り当てられたディープニューラルネットワークの開発及び改善フェーズで、AIとドメインエキスパート間のコラボレーションを支援するために使用されることができる。可視化ツールは、例えば、規制承認及び臨床応用フェーズにおいて、医療用途に関連する説明可能なAIのための支援ツールとして使用されることができ、本発明に従ったシステム及び方法の出力は、例えば、訓練ライブラリ内のギャップ、訓練ライブラリ内の異常画像(望ましい結果に関連しない病院/画像キャプチャフィーチャを含む)を強調表示し、結果に関連するが、以前はドメインエキスパートには知られていなかったフィーチャ、及び類似のフィーチャを認識することによって、ディープニューラルネットワークの動作を改善する方法を特定するメカニズムを可能にすることができる。
本発明の例示的実施形態は、本明細書において詳細に開示されているが、添付の図面を参照すると、本発明は正確な実施形態に限定されるものではなく、添付の特許請求の範囲及びその同等物によって規定される本発明の範囲から逸脱することなく、当業者であれば、その中で種々の変更及び修正を行うことができることが理解される。
開示された実施形態に対する他の変形は、図面、開示、及び添付の請求項の検討から、請求項に記載された発明を実施する際に当業者によって理解され、実施されることができる。請求項において、「有する、含む(comprising)」は、他の構成要素又はステップを排除するものではなく、不定冠詞「a」又は「an」は、複数性を排除しない。単一のプロセッサ又は他のユニットは、特許請求の範囲に列挙されるいくつかのアイテムの機能を満たすことができる。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせが有利に使用されることができないことを示すものではない。コンピュータプログラムは、他のハードウェアと一緒に、あるいは他のハードウェアの一部として提供される光学記憶媒体又は固体媒体などの適切な媒体に格納/配布されることができるが、インターネット又はその他の有線/無線通信システムを通じてなど、他の形態で配布されることもできる。請求項におけるいかなる参照符号も、その範囲を限定するものとして解釈されるべきではない。

Claims (13)

  1. 結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供する方法であって、
    結果に関連する複数のサンプルを含む訓練ライブラリを前記ディープニューラルネットワークに提供するステップと、
    前記結果に関連する前記複数のサンプル内のフィーチャを認識するよう前記ディープニューラルネットワークを訓練するステップと、
    前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする入力ライブラリ内の前記複数のサンプルの各サンプル内の1又は複数の要素を識別することによって、前記入力ライブラリからフィーチャ認識ライブラリを生成するステップと、
    前記フィーチャ認識ライブラリを用いて、サンプルの1又は複数の要素のうち前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする特性を有する複数の要素を合成するステップと、
    前記合成された複数の要素を用いて、前記結果に関連する前記複数のサンプル内の前記ディープニューラルネットワークによって識別されるフィーチャの表現を提供するステップと、
    を有する方法。
  2. 前記フィーチャの表現が、前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする特性を有する合成された要素の連続的なライブラリを含む、請求項1に記載の方法。
  3. 前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする、前記入力ライブラリ内の前記複数のサンプルの各サンプル内の1又は複数の要素を識別することは、勾配ベースの方法を使用して、前記フィーチャの認識をトリガする前記複数のサンプルの各サンプル内の1又は複数の要素を識別することを含む、請求項1又は2に記載の方法。
  4. 前記勾配ベースの方法は、Grad-CAM、CAM、デコンボリューション又はガイドされたバックプロパゲーションのうちの1又は複数を含む、請求項3に記載の方法。
  5. 前記フィーチャ認識ライブラリ内のエントリーが、前記入力ライブラリ内の前記サンプルの1又は複数の要素と、前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする際に前記入力ライブラリ内の前記サンプルの1又は複数の要素の相対的重要度の前記勾配ベースの方法から得られる指標と、の組み合わせを含む、請求項3又は4に記載の方法。
  6. サンプルの1又は複数の要素のうち前記ディープニューラルネットワークによる前記フィーチャの前記認識をトリガする特性を有する複数の要素を合成する前記ステップは、前記フィーチャ認識ライブラリによってガイドされる生成モデリング方法を使用することを含む、請求項1乃至5のいずれか1項に記載の方法。
  7. 前記生成モデリング方法が、敵対的生成ネットワーク又は変分オートエンコーダのうちの1又は複数を含む、請求項6に記載の方法。
  8. 前記方法が、表現されるべき結果に関連するフィーチャを選択することを含む、請求項1乃至7のいずれか1項に記載の方法。
  9. 前記ディープニューラルネットワークを使用して、前記結果に関連する前記複数のサンプル内の代替フィーチャを認識するステップと、
    前記ディープニューラルネットワークによる前記代替フィーチャの認識をトリガする前記入力ライブラリ内の前記複数のサンプルの各サンプル内の1又は複数の要素を識別することによって、前記入力ライブラリから代替フィーチャ認識ライブラリを作成するステップと、
    前記代替フィーチャ認識ライブラリを用いて、サンプルの1又は複数の要素のうち前記ディープニューラルネットワークによる前記代替フィーチャの認識をトリガする特性を有する複数の要素を合成するステップと、
    前記合成された複数の要素を用いて、前記結果に関連する前記複数のサンプル内の前記ディープニューラルネットワークによって識別される代替フィーチャの表現を提供するステップと、
    を有する、請求項1乃至8のいずれか1項に記載の方法。
  10. 前記ディープニューラルネットワークによって認識される前記代替フィーチャは、前記複数のサンプルの各サンプル内の1又は複数の要素について、前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする要素と、前記ディープニューラルネットワークによる前記代替フィーチャの認識をトリガする要素との間の差が最大化されるように選択される、請求項9に記載の方法。
  11. 前記サンプルが、画像、音、又は信号トレースを含む、請求項1乃至10のいずれか1項に記載の方法。
  12. コンピュータ上で実行される場合に請求項1乃至11のいずれか1項に記載の方法を実行するように動作可能なコンピュータプログラム。
  13. 結果に関連するものとしてディープニューラルネットワークによって識別されるフィーチャの表現を提供する装置であって、
    結果に関連する複数のサンプルを有する訓練ライブラリにより訓練されるディープニューラルネットワークであって、前記結果に関連する前記複数のサンプル内のフィーチャを認識するように該訓練によって構築されるディープニューラルネットワークと、
    前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする、入力ライブラリを形成する前記複数のサンプルの各サンプル内の1又は複数の要素を識別することによって、入力ライブラリからフィーチャ認識ライブラリを作成するライブラリ作成ロジックと、
    前記フィーチャ認識ライブラリを使用して、サンプルの1又は複数の要素のうち前記ディープニューラルネットワークによる前記フィーチャの認識をトリガする特性を有する複数の要素を合成する合成ロジックと、
    前記合成された複数の要素を使用して、前記結果に関連する前記複数のサンプル内の前記ディープニューラルネットワークによって識別されるフィーチャの表現を提供するフィーチャ可視化ロジックと、
    を有する装置。
JP2021571948A 2019-06-06 2020-05-25 ディープニューラルネットワーク可視化 Active JP7476239B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19178746.4A EP3748540A1 (en) 2019-06-06 2019-06-06 Deep neural network visualisation
EP19178746.4 2019-06-06
PCT/EP2020/064355 WO2020244941A1 (en) 2019-06-06 2020-05-25 Deep neural network visualisation

Publications (2)

Publication Number Publication Date
JP2022536087A true JP2022536087A (ja) 2022-08-12
JP7476239B2 JP7476239B2 (ja) 2024-04-30

Family

ID=66776213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021571948A Active JP7476239B2 (ja) 2019-06-06 2020-05-25 ディープニューラルネットワーク可視化

Country Status (5)

Country Link
US (1) US20220319159A1 (ja)
EP (2) EP3748540A1 (ja)
JP (1) JP7476239B2 (ja)
CN (1) CN113924580A (ja)
WO (1) WO2020244941A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963185A (zh) * 2021-10-25 2022-01-21 上海交通大学 一种对神经网络中层特征表达能力的可视化及定量分析方法和系统

Also Published As

Publication number Publication date
CN113924580A (zh) 2022-01-11
WO2020244941A1 (en) 2020-12-10
EP3748540A1 (en) 2020-12-09
JP7476239B2 (ja) 2024-04-30
US20220319159A1 (en) 2022-10-06
EP3980939A1 (en) 2022-04-13

Similar Documents

Publication Publication Date Title
US10740651B2 (en) Methods of systems of generating virtual multi-dimensional models using image analysis
CN110517253B (zh) 基于3d多目标特征学习的肺结节良恶性分类的方法
CN107155360A (zh) 用于对象检测的多层聚合
JP2021002338A (ja) 画像セグメンテーション及び識別のための方法及びシステム
JP2009527063A (ja) 仮想環境において見本及びデータを使用及び統合するシステム及びその方法
Ogiela et al. Natural user interfaces in medical image analysis
Singh et al. Object classification to analyze medical imaging data using deep learning
JP7476239B2 (ja) ディープニューラルネットワーク可視化
Carloni et al. On the applicability of prototypical part learning in medical images: breast masses classification using ProtoPNet
AL-Marghilani Target Detection Algorithm in Crime Recognition Using Artificial Intelligence.
Gandhi et al. A survey-insights of ML and DL in health domain
Haque et al. NeuroNet19: an explainable deep neural network model for the classification of brain tumors using magnetic resonance imaging data
Gurevich et al. Descriptive image analysis: Part II. Descriptive image models
Singamshetty et al. Brain Tumor Detection Using the Inception Deep Learning Technique
Balachandar et al. Deep learning technique based visually impaired people using YOLO V3 framework mechanism
Hajiyan et al. Multi-scale local explanation approach for image analysis using model-agnostic Explainable Artificial Intelligence (XAI)
AU2019204365B1 (en) Method and System for Image Segmentation and Identification
Priyanka Pramila et al. Automated skin lesion detection and classification using fused deep convolutional neural network on dermoscopic images
Mudduluru et al. Improving medical image segmentation and classification using a novel joint deep learning model
Chandra et al. A Novel Framework For Brain Disease Classification Using Quantum Convolutional Neural Network
Abdullah et al. Assessment and Evaluation of cancer CT images using deep learning Techniques
Bhajaj et al. FIGSI—Facial Image Generation for Suspect Identification
Mudduluru Developing and Applying Hybrid Deep Learning Models for Computer-Aided Diagnosis of Medical Image Data
Veeranki et al. Detection and Classification of Brain Tumors using Convolutional Neural Network
Sharma Medical Image Processing Using AI

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230516

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240325

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7476239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150