JP6725547B2

JP6725547B2 - 人工ニューラルネットワークの関連性スコア割当て

Info

Publication number: JP6725547B2
Application number: JP2017567524A
Authority: JP
Inventors: セバスティアンバッハ; ヴォイチェフサメック; クラウス−ロベルトミュラー; アレクサンダーバインダー; グレゴワールモンタヴォン
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2020-07-22
Anticipated expiration: 2035-03-20
Also published as: BR112017019821B8; RU2017135085A3; WO2016150472A1; CA2979579A1; EP3271863A1; RU2703343C2; CA2979579C; BR112017019821A2; US20180018553A1; JP2018513507A; KR102130162B1; CN107636693A; KR20170134508A; BR112017019821B1; EP3271863B1; RU2017135085A; CN107636693B

Description

本発明は、人工ニューラルネットワークの関連性スコア割当てに関する。この種の関連性スコア割当ては、例えば、関心領域（ＲＯＩ）識別のために使用され得る。

コンピュータプログラムは、画像およびテキストの自動分類などの多くの複雑なタスクを首尾よく解決することができ、または人の信用度を評価することができる。機械学習アルゴリズムは、データから学習する、すなわちプログラムは、大きなラベル付き（または弱くラベル付けされた）トレーニングセットを取得し、いくつかの訓練段階の後に、新たな不可視の例に一般化することができるため、特に成功を収めている。多くの銀行は、クレジットを申請する人の信用度（例えば、年齢、住所、所得などに基づく）を分類するシステムを保有している。この種のシステムの主な欠点は説明力である。すなわち、この種のシステムは、なぜ、どのようにして決定に至ったのか（例えば、なぜある人が信用力がないと分類される理由）に関する情報を通常提供しない。分類の決定を決定する知識と関係はむしろ「暗黙的」である。

分類決定を理解し、解釈することは、システムの推論を検証することを可能にし、人間の専門家、例えば、銀行家、ベンチャーキャピタル投資家、または医師に追加の情報を提供するなど、多くの用途において付加価値が高い。機械学習法は、ほとんどの場合、ブラックボックスとしての役割を果たし、何が特定の決定に到達させたかに関する情報を提供しないという欠点がある。一般に、複雑なアルゴリズムは、（十分な訓練データが利用可能な場合）単純な（線形の）方法よりもはるかに優れた性能を有するが、特に解釈能力を欠いている。近年、分類器の一種であるニューラルネットワークが非常に普及し、優れた結果を生んでいる。この種の方法は、一連の非線形マッピングで構成され、特に解釈するのが難しい。

典型的な画像分類タスクでは、例えば、画像（例えば、「サメの画像」）を与えることができる。図１５を参照されたい。機械学習（ＭＬ）アルゴリズム９００は、画像９０２を特定のクラス９０４（例えば、「サメの画像」）に属するものとして分類する。クラス（例えば、サメ、人、ナイトライフ、アウトドア）のセット９０６は、先験的に定義されることに留意されたい。アルゴリズム９００は、ブラックボックスである。なぜなら、画像が「サメの画像」のクラスに属するという決定になった理由をユーザに教えないからである。ピクセルレベルのこの分類決定の説明は、例えば主にサメのひれのために、画像が「サメの画像」のクラスに属すると分類されていることを見極めることは、興味深い。この種の「関連性マップ」は、９０８に示されている。

画像の分類は、多くのコンピュータビジョンアプリケーション、例えば画像検索[15]（非特許文献１）、ロボティックス[10]（非特許文献２）、医用画像[50]（非特許文献３）、レーダ画像の目標検出[17]（非特許文献４）あるいは顔検出[49]（非特許文献５）において重要な要素となっている。ニューラルネットワーク[6]（非特許文献６）は、これらのタスクに広く使用されており、ImageNet [11]（非特許文献７）などの画像分類およびランキングに関する競技会でのトップ提出物のなかの１つであった。しかしながら、機械学習における多くの方法と同様に、これらのモデルは、しばしば、分類器予測の直接的な解釈が不足している。換言すれば、分類器は、ブラックボックスとして機能し、なぜそれが特定の分類決定に到達したかについての詳細な情報を提供しない。すなわち、図１５の解釈可能性は利用できない。

この解釈可能性の欠如は、ｒａｗ画像ピクセルをその特徴表現に、そしてそれを最終的な分類関数に処理する様々なマッピングの非線形性に起因する。これは、人の専門家が分類の決定を慎重に検証するのを妨げるため、分類アプリケーションにおいてかなりの欠点である。ある種の構造の単なる存在または不存在の二進数または実数値の１次元評価よりも、何かが発生する場所や構造がどのようなものかといった質問がより適切であるアプリケーションでは、単純な「はい」または「いいえ」の回答が、時には価値がある。

ニューラルネットワークを説明するトピックにはいくつかの研究が注力されている。[54]（非特許文献８）は、ピクセルレベルにも適用可能なニューロンでの分類器決定を分析することに注力している。これは、畳込みネットワークのアーキテクチャのために出力層から入力ピクセルに向かう層ごとのインバージョンダウンを実行する[23]（非特許文献９）。この研究は、修正された線形活性化機能を有するニューロンの層を有する畳込みニューラルネットワークのアーキテクチャを特定している。入力画像のピクセルに関する偏微分の近似値として[54]（非特許文献８）の研究の解釈を確立している[42]（非特許文献１０）を参照されたい。高度な意味で、[54]（非特許文献８）の研究は、入力に向かって応答をどのように投影する画像入力を再構成するために最適化の問題を解決する[55]（非特許文献１１）における先任者の研究を使用し、[54]（非特許文献８）は、修正された線形ユニットを使用して、展開されていないマップから入力に向けて情報を投影し、１つの目的で特徴マップが非負であることを保証する。

入力点ｘにおける偏微分と異なる点ｘ₀周りの完全なテイラー級数との間にある別のアプローチが[42]（非特許文献１０）に示されている。この研究では、入力点ｘとは異なる点ｘ₀を使用して導関数を計算し、残りのバイアスはそれ以上指定されないが、テイラー級数の完全な線形重み付け項ｘ−ｘ₀を使用する不特定の理由は避ける。ニューラルネットワークモデルを使用して入力変数の重要性を定量化することは、エコロジカルモデリングなどの特定の分野でも研究されてきた、そこでは、[16,34]（非特許文献１２，非特許文献１３）は、偏微分の計算、摂動分析、重み分析などの可能な分析の大きなアンサンブルを調査し、かつ、トレーニング時に変数を含めたり削除したりする効果を研究している。ニューラルネットワークの決定を理解する別の方法は、ニューラルネットワーク[41]（非特許文献１４）によって学習された関数に、より解釈可能なモデル（例えば、決定木）を適合させ、この新しいモデルによって学習されたルールを抽出することである。

しかしながら、人工ニューラルネットワークの関連性スコア割当てのタスクを実現するための、堅牢で実装が容易でかつ広く適用可能な概念が依然として必要である。

[15] L. Fei-Fei and P. Perona. A bayesian hierarchical model for learning natural scene categories. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 2, pages 524−531 vol. 2, 2005. [10] Hendrik Dahlkamp, Adrian Kaehler, David Stavens, Sebastian Thrun, and Gary R. Bradski. Self-supervised monocular road detection in desert terrain. In Robotics: Science and Systems, 2006. [50] Ross Walker, Paul Jackway, Brian Lovell, and Dennis Longstaff. Classification of cervical cell nuclei using morphological segmentation and textural feature extraction. In Australian New Zealand Conference on Intelligent Information Systems, 1994. [17] Ronny Hansch and Olaf Hellwich. Object recognition from polarimetric SAR images. In Uwe Soergel, editor, Radar Remote Sensing of Urban Areas, volume 15 of Remote Sensing and Digital Image Processing, pages 109−131. Springer Netherlands, 2010. [49] Paul A. Viola and Michael J. Jones. Rapid object detection using a boosted cascade of simple features. In CVPR (1), pages 511−518, 2001. [6] Christopher M Bishop et al. Pattern recognition and machine learning, volume 1. springer New York, 2006. [11] Jia Deng, Alex Berg, Sanjeev Satheesh, Hao Su, Aditya Khosla, and Fei-Fei Li. The ImageNet Large Scale Visual Recognition Challenge 2012 (ILSVRC2012). http://www.image-net.org/challenges/LSVRC/2012/. [54] Matthew D. Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901, 2013. [23] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. In Peter L. Bartlett, Fernando C. N. Pereira, Christopher J. C. Burges, Leon Bottou, and Kilian Q. Weinberger, editors, NIPS, pages 1106−1114, 2012. [42] Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. CoRR, abs/1312.6034, 2013. [55] Matthew D. Zeiler, Graham W. Taylor, and Rob Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In ICCV, pages 2018−2025, 2011. [16] Muriel Gevrey, Ioannis Dimopoulos, and Sovan Lek. Review and comparison of methods to study the contribution of variables in artificial neural network models. Ecological Modelling, 160(3):249−264, 2003. [34] Julian D Olden, Michael K Joy, and Russell G Death. An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data. Ecological Modelling, 178(3−4):389−397, 2004. [41] Rudy Setiono and Huan Liu. Understanding neural networks via rule extraction. In IJCAI, pages 480−487. Morgan Kaufmann, 1995. [31] Gregoire Montavon, Genevieve B. Orr, and Klaus-Robert Muller, editors. Neural Networks: Tricks of the Trade, Reloaded, volume 7700 of Lecture Notes in Computer Science (LNCS). Springer, 2nd edn edition, 2012. [25] Yann LeCun and Corinna Cortes. The MNIST database of handwritten digits. http://yann.lecun.com/exdb/mnist/, 1998. [39] David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning representations by back-propagating errors. Nature, 323:533−536, Oct 1986. [43] Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian J. Goodfellow, and Rob Fergus. Intriguing properties of neural networks. CoRR, abs/1312.6199, 2013. [26] Yann LeCun, Koray Kavukcuoglu, and Clement Farabet. Convolutional networks and applications in vision. In ISCAS, pages 253−256. IEEE, 2010. [36] Nicolas Pinto, David D Cox, and James J DiCarlo. Why is real-world visual object recognition hard? PLoS Comput Biol, 4(1):27, 1 2008. [20] Yangqing Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.

従って、本発明の目的は、人工ニューラルネットワークが適用される項目のセットに関連性スコアを割当てる概念を提供することであり、この概念は、より広範な人工ニューラルネットワークに適用可能であり、および／または計算上の努力を軽減する。

この目的は、係属中の独立請求項の主題によって達成される。

人工ニューラルネットワークが適用される項目のセットへの関連性スコア割当てのタスクは、各項目に関する関連性スコアを得るために人工ニューラルネットワークを介して初期関連性スコアを逆に伝播させることにより項目のセットへ、ネットワーク出力から導出された初期関連性値を再分配することにより得られ得ることが、本出願の基本的な知見である。特に、この逆伝播は、各ニューロンに関し、各ニューロンの下流近隣ニューロンのセットの予備的に再分配された関連性スコアが、分布関数に従って各ニューロンの上流近隣ニューロンのセットに分配されるような方法で、この方法を実行することにより、人工ニューラルネットワークのより広範なセットにおよび／またはより少ない計算努力で適用できる。

様々な実施形態による本発明の好ましい実施態様および適用例は、従属請求項の主題であり、本出願の好ましい実施形態は、図面に関して以下により詳細に記載されている。

図１ａは、本発明の実施形態による逆伝播を用いた関連性スコア割当てが適用され得る人工ニューラルネットワークを使用する予測の一例を示す概略図を示す。図１ｂは、ネットワークおよび関連性割当てが画像のピクセルではなく、特徴マップ上で操作される図１ａの改良を示す図である。図１ｃは、図１ａをカラー画像に適用する可能性を示す図である。図１ｄは、ネットワークおよび関連性割当てが画像ではなくテキスト上で操作される図１ａの改良を示す図である。図２ａは、図１の人工ニューラルネットワークを基礎として例示的に使用する、本出願の実施形態に従って使用される逆伝播プロセスを示す概略図である。図２ｂは、ネットワークおよび関連性割当てが画像のピクセルではなく、特徴マップ上で操作される図２ａの改良を示す図である。図２ｃは、図２ａをカラー画像に適用する可能性を示す図である。図２ｄは、ネットワークおよび関連性割当てが画像ではなくテキスト上で操作される図２ａの改良を示す図である。図３は、人工ニューラルネットワークの中間ニューロンと、上流及び下流の近隣ニューロンへのその接続を概略的に示しており、ここでは例示的に３つの上流近隣ニューロンも示す図である。図４は、一実施形態による、項目のセットに関連性スコアを割当てる装置を示すブロック図である。図５は、予測時間中のニューラルネットワーク形状分類器を示す図である。但し、ｗ_ijは、接続重みであり、ａ_iは、ニューロンｉの活性化である。図６は、層ごとの関連性計算時間が示される間の図５のニューラルネットワーク形状分類器を示す図である。但し、Ｒi^(l)は、計算されるべきニューロンｉの関連性である。Ｒi^(l)の計算を容易にするために、メッセージＲ_i←_j ^(l,l+1)を導入する。Ｒ_i←_j ^(l,l+1)は、式（２）における層ごとの関連性が保存されるように計算する必要があるメッセージである。メッセージは、分類に使用される接続を介して、ニューロンｉからその入力ニューロンｊに送られる。例えば２はニューロン４，５，６の入力ニューロンである。ニューロン３は、５，６の入力ニューロンである。ニューロン４，５，６は、ニューロン７の入力である。図７は、０．６−０．９の領域で緑色のドットから−０．８の領域で青色のドットを分離する決定境界である黒色の破線で分類する例示的な実数値予測関数を示す図である。但し、前者のドットは、負にラベル付けされ、後者のドットは、正にラベル付けされる。左側には、予測点における分類関数の局所勾配が描かれ、右側には、決定境界上のルート点に対するテイラー近似が描かれている。図８は、ニューロンおよび重み付け接続を記述する異なる変数およびインデックスを注釈付けした多層ニューラルネットワークの例を示す。但し、左：前方へ進む。右：後方へ進む。図９は、ImageNetデータセットから１０００のクラスを区別するように訓練されたニューラルネットワークのピクセル単位の分解を示す図である。図１０は、本出願の実施形態の概念が、右手に、これらの数字を「３」と認識し、それぞれを「９」と区別するために、高い関連性を有する数字「３」および「４」の周りの部分を例示的に示すヒートマップを例示的に示す０〜９の数字の画像を含むMNIST（Mixed National Institute of Standards and Technology;混合された、国立標準技術研究所の）データセットに適用した実験を示す図である。図１１は、実施例によるデータ処理のためのシステムのブロックダイアグラムを示す図である。図１２は、処理が、項目のセットが導出されるデータ上で実行される図１１とは異なる実施例によるデータ処理のためのシステムのブロックダイアグラムを示す図である。図１３は、実施例によるＲＯＩハイライトシステムのブロックダイアグラムを示す図である。図１４は、実施例によるニューラルネットワーク最適化システムを示す図である。図１５は、人工ニューラルネットワークに関する関連性スコア割当てのタスク、および人工ニューラルネットワークの通常の予測タスクとの関係を示す概略図である。

ブロック図に関する本出願の様々な実施形態を説明する前に、これらの実施形態の根底にある概念を、人工ニューラルネットワークへの簡単な紹介によってまず第１に説明し、次いで、実施形態の概念の根底にある考え方を説明する。

ニューラルネットワークは、入力データと出力データとの間の複雑なマッピングを近似するように訓練することができる、相互接続された非線形処理ユニットのグラフである。なお、入力データは、例えば、画像（ピクセルのセット）および出力は、例えば、分類決定である。（最も単純な場合＋１／−１は「はい」を意味し、画像にサメが存在し、あるいは、「いいえ」は、画像にサメが存在しない）。各非線形処理ユニット（またはニューロン）は、非線形活性化関数が適用される入力の重み付き線形結合から成る。インデックスｊを用いてニューロンに入力されるニューロンを示すためにインデックスｉを使用すると、非線形活性化関数は以下のように定義される。

ここで、ｇ（・）は非線形単調増加活性化関数であり、ｗ_ijは、ニューロンｉをニューロンｊに接続する重みであり、ｂ_jは、バイアス項である。ニューラルネットワークは、その接続構成、その非線形活性化関数、およびその重みによって定義される。

以下の実施形態は、関連性伝播と呼ばれ得る、そして以下の説明で関連性伝播と呼ばれる概念を使用する。それは、出力ニューロンによってモデル化され、入力ニューロンに戻るようにデータの特定の構造に関する痕跡を再分配する。従って、それは、入力変数（例えば、ピクセル）に関して、それ自身の予測の説明を生成しようとする。この概念は、レイヤの数、活性化関数のタイプなどに関係なく、（ループなしの）ニューラルネットワークのあらゆる種類に対して機能することに注意されたい。多くのアルゴリズムが、ニューラルネットワークに関して記述できるので、それは、多くの周知のモデルに適用され得る。

関連性伝播手順の説明は、畳込み／サブサンプリング層とそれに続く完全に連結された一連の層とからなるネットワークについて以下に与えられる。

特に、図１ａは、簡略化された例示的な方法による人工ニューラルネットワークの例を示す。人工ニューラルネットワーク１０は、図１に円として描かれているニューロン１２で構成されている。ニューロン１２は、互いに相互接続されているか互いに相互作用している。一般に、各ニューロンは、一方では下流近隣（または後継）ニューロンおよび他方では上流（先行）ニューロンに接続される。「上流」、「先行」、「下流」および「後継」という用語は、ニューラルネットワーク１０が、項目のセット１６をネットワーク出力１８に、マップするようにすなわち予測を実行するように項目のセット１６に適用されるときニューラルネットワークが作用する一般的な伝播方向１４を指す。

図１ａに示すように、項目のセット１６は、例えば、各ピクセルを、画像２２のピクセルの配列における各ピクセルの位置に対応する空間位置におけるシーンの色または強度に対応するピクセル値に関連付けることによって画像を形成するピクセル２２のセットであってもよい。この場合、セット１６は、項目の順序付けられたコレクション、すなわちピクセルの配列である。この場合、項目は、個々のピクセル値に対応する、すなわち各項目は、１つのピクセルに対応する。その後、本出願は、画像の分野に限定されないことが明らかになろう。むしろ、項目のセット１６は、項目の間に何の順序も定義されていない項目のセットであってもよい。その間の混合も真実であってもよい。

ニューロン１２の第１のまたは最下位レイヤ２４は、人工ニューラルネットワーク１０の入力の一種を形成する。すなわち、この最下位レイヤ２４の各ニューロン１２は、項目のセット１６の少なくともサブセット、すなわち、ピクセル値の少なくともサブセットの入力値として受信する。最下位レイヤ２４のあるニューロン１２に値が入力されるセット１６の項目のサブセットの結合は、例えばセット１６、すなわち、図１ａの場合には画像２２全体に等しい。換言すれば、セット１６の各項目について、その値が最下位レイヤ２４のニューロン１２のうちの少なくとも１つに入力される。

ニューラルネットワーク１０の反対側、すなわちその下流／出力側には、ネットワーク１０は、前者は下流近隣／後継ニューロンを欠いているという点においてニューロン１２とは異なる１つまたは複数の出力ニューロン１２’を含む。セット１６に適用され、処理が終了した後、各出力ニューロン１２’に記憶された値は、ネットワーク出力１８を形成する。すなわち、ネットワーク出力は、例えば、スカラーであってもよい。その場合、ただ１つの出力ニューロン１２’が存在し、ネットワーク１０の動作後にネットワーク出力を形成する。図１に示すように、そのようなネットワーク出力は、例えば、項目のセット１６、すなわち図１ａの場合には画像２２があるクラスに属するか否かの可能性の尺度とすることができる。しかしながら、ネットワーク出力１８は、代わりにベクトルであってもよい。その場合、２つ以上の出力ニューロン１２’が存在し、ネットワーク１０の動作の終了時に得られるようにこれらの出力ニューロン１２’のそれぞれの値は、ネットワーク出力ベクトルのそれぞれの成分を形成する。図１は、例えば、ネットワーク出力１８の各成分が、セット１６が「ボートを表示する」、「トラックを表示する」、「乗用車を表示する」などのそれぞれの成分に関連するそれぞれのクラスに属する尤度を測定する尺度であることを示している。他の例も考えられ、それを以下に示す。

従って、上記を要約すると、ニューラルネットワークは、前方伝播または通常動作において、項目のセット１６を神経出力にマッピングするように相互接続されたニューロン１２を含む。出力ニューロン１２’と同様のやりかたで、ネットワーク操作の終わりにおいてネットワーク出力１８を形成する値、セットの項目１６、すなわち図１ａの例示的な場合の画像２２のピクセルは、ニューロン１２と共にネットワーク１０の入力ニューロンと見なされ、それによって形成された層は、中間のニューロンまたは中間層であるとそれぞれ見なされ得る。特に、入力ニューロンは、出力ニューロン１２’が、ネットワーク１０の最も高い中間層、または１つまたは複数の出力ニューロン１２’をネットワーク１０の最高層を形成すると解釈する場合、ネットワーク１０の２番目に高い層を形成する中間ニューロン１２の下流近隣／後続ニューロンを形成するのと同様に、中間ニューロン１２の上流近隣／先行ニューロン、すなわち層２４の上流近隣／先行ニューロンとみなすことができる。

図１は、層２６が、すべてがそれぞれのニューロン１２が属する層に対して直下の層のメンバーであり、すべての下流の近隣／後続ニューロンは、直上の層のメンバーである特定のニューロン１２の上流近隣／後続ニューロンとの層のシーケンスを形成するという意味で、ネットワーク１０のニューロン１２が厳密に層２６内に配置されたことにより、ニューラルネットワーク１０の簡略化された例を示す。しかしながら、図１は、以下でさらに概説される本発明の実施形態がこの問題に関して適用できる、ニューラルネットワーク１０の種類に限られるとして、解釈されるべきではない。むしろ、ニューロン１２のこの厳密な層状配置は、例えば上流の近隣／先行ニューロンが２つ以上の先行する層のニューロンのサブセットであり、および／または下流の近隣／後続ニューロンが２つ以上の上位層のニューロンのサブセットである別の実施例に従って変更し得る。

さらに、図１は、各ニューロン１２がネットワーク１０の順方向伝播動作中に１回だけ横切られることを示唆しているが、１つ以上のニューロン１２を２回以上横断することができる。さらなるバリエーションの可能性について以下に説明する。

これまで説明したように、ネットワーク１０をセット１６、すなわち図１ａの例示的な場合の画像２２に適用すると、ネットワーク１０は、順方向伝播動作を実行する。この動作中に、その上流近隣／先行のニューロンからその入力値のすべてを受取った各ニューロン１２は、それぞれのニューロン機能によって、その活性化と呼ばれる出力値を計算する。上記の例示的な式においてｘ_jと呼ばれるこの活性化は、各下流近隣／後続ニューロンの入力値を形成する。この測定によって、セット１６の項目の値は、出力ニューロン１２’に行き着くように、ニューロン１２を伝播する。より正確には、セットの項目１６の値は、ネットワーク１０の最下層のニューロン１２の入力値を形成し、出力ニューロン１２’は、入力値としてそれらの上流近傍／先行ニューロン１２の活性化を受取り、それらの出力値、すなわちネットワーク出力１８を、それぞれのニューロン機能によって計算する。ネットワーク１０のニューロン１２および１２’に関連するニューロン機能は、すべてのニューロン１２および１２’の間で等しくてもよいし、ニューロン機能がパラメータ化可能であり、機能パラメータは、平等を妨げずにニューロン間で異なり得る意味で「等しい」とで異なっていてもよい。様々な／異なるニューロン機能の場合、これらの機能は、ネットワーク１０の同じ層のニューロン間で等しくてもよく、または１つの層内のニューロン間で異なっていてもよい。

従って、ネットワーク１０は、例えば、コンピュータ上で、すなわちソフトウェアで実行されるコンピュータプログラムの形で実装することができるが、電気回路の形態のようなハードワイヤード形態での実装も同様に実現可能である。各ニューロン１２は、上述のように、入力値の線形結合の非線形スカラー関数ｇ(・)として例えば上記の明示的な例で提示されるニューロン関数を使用してその入力値に基づいて活性化を計算する。説明したように、ニューロン１２および１２’に関連するニューロン関数は、パラメータ化された関数であり得る。例えば、以下に概説する特定の例の１つでは、ニューロンｊに関するニューロン関数は、それぞれのニューロンのすべての入力値ｉに対してオフセットｂ_jおよび重みｗ_ijを使用してパラメータ化可能である。これらのパラメータは、破線の箱２８を使用して図１ａに示されている。これらのパラメータ２８は、ネットワーク１０を訓練することによって得られたものであってもよい。この目的のために、ネットワーク１０は、例えば、正しいネットワーク出力が知られている項目のセット１６のトレーニングセット、すなわち図１ａの例の場合のラベル付き画像のトレーニングセットに繰返し適用される。しかしながら、他の可能性も存在し得る。組合わせでさえ可能かも知れない。以下でさらに説明される実施形態は、パラメータ２８のいかなる種類の起源または決定方法に限定されない。図１ａは、例えば、ネットワーク１０の上流部分２１が、セット１６、すなわちネットワークの入力、から中間の隠れ層まで延びる層２６から成り、例えば（下流）後続層の各ニューロンが特徴マップ２０のうちの特徴値を表すように、畳込みフィルタによる画像２２の特徴抽出をエミュレートするために、人工的に生成されまたは学習される。各特徴マップ２０は、例えば、特定の特性または特徴またはインパルス応答などと関連付けられる。従って、各特徴マップ２０は、例えば、関連付けられたフィルタの関連する特徴／特性／インパルス応答が別の特徴マップと異なる特徴マップ２０を有する、入力画像２２の疎にサンプリングされフィルタリングされたバージョンと考えることができる。例えば、セット１６がＸ・Ｙ項目、すなわち画素、すなわちＸ列およびＹ行の画素を有する場合、各ニューロンは、１つの特徴マップ２０の１つの特徴値に対応し、その値は、画像２２のある部分に関連する局所的特徴量スコアに対応する。たとえばＰ・Ｑスコアサンプル、例えばすなわちＰ行およびＱ列の特徴値を有するＮ個の特徴マップの場合、部分２１の下流の後続層におけるニューロンの数は、例えばＮ・Ｐ・Ｑであり、それはＸ・Ｙよりも小さくても大きくてもよい。特徴マップ２０のそれぞれの下層にある特徴記述またはフィルタの変換は、それぞれ部分２１内のニューロンのニューロン関数を設定する、またはニューロン関数をパラメータ化するために使用されている。しかしながら、ネットワークの「学習された」部分２１のような「翻訳された」部分の存在は、本出願およびその実施形態にとって必須ではなく、そのような部分が代わりに存在しないこともあることに再度ご留意されたい。いずれにしても、ニューロン１２のニューロン機能がすべてのニューロン間で等しいか、または１つの層などのニューロン間で等しいことが可能であると述べる場合、神経機能はパラメータ化可能であり、パラメータ化可能な神経機能はこれらのニューロン間で等しくなければならない場合、この神経機能の関数パラメータはこれらのニューロンの間で変化し得る。中間層の数は、同様に自由であり、１に等しいか、または１より大きくてもよい。

上記を要約すると、通常動作モードにおけるネットワーク１０のアプリケーションは、以下の通りである。入力画像２２は、セット１６としての役割において、対象となるか、またはネットワーク１０に結合される。すなわち、画像２２のピクセル値は、第１層２４のニューロン１２の入力値を形成する。より正確には、クラス「乗用車」に対応する出力ニューロンは、高い値に終わるが、ここでは例示的に「トラック」および「ボート」に対応する他の出力ニューロンは、最終的に低い値になる。

しかしながら、本願の明細書の冒頭部分で説明したように、画像２２、すなわちセット１６が乗用車などを示すか否かに関する情報は、十分でない場合がある。むしろ、どのピクセル、すなわちどのセット１６の項目がネットワーク１０の決定に関連していたか否か、例えばどのピクセルが乗用車を表示し、どのピクセルが表示しないかを示す情報を、ピクセルの粒度レベルで有することが好ましい。この課題は、以下に説明する実施形態によって対処される。

具体的には、図２ａは、以下でより詳細に説明する本発明の実施形態が、図２ａの例示的な場合において、画素の領域であるセット１６の項目への関連性スコア割当てのタスクを実行するためにどのように動作するかを示している。具体的には、図２ａは、この関連性スコアの割当てが、関連性値Ｒが例えばネットワーク１０を介してネットワーク入力、すなわち項目のセット１６に向かって逆方向に伝播する逆伝播プロセス（バックプロパゲーションまたは関連性伝播）によって実行されることを示しており、セット１６の項目のうちの１６個を選択し、これにより、画像の各ピクセルについて、セット１６の各項目ｉに対する関連性スコアＲ_iを得る。例えば、Ｘ・Ｙ画素を含む画像の場合、例えば、ｉは、画素位置(ｘ_i,ｙ_i)に対応する各項目／画素ｉを[１...Ｘ・Ｙ]の範囲内にすることができる。図１の順方向伝播方向１４とは逆方向に進行する逆伝播方向３２に沿ってこの逆伝播を実行する際に、以下に説明する実施形態は、より詳細に説明され、関連性保存と関連性再分配と呼ばれる一定の制約に従う。

手短に言えば、関連性スコア割当ては、人工ニューラルネットワーク１０の完成した機器からセット１６までに開始する。上述したように、この機器は、ネットワーク出力１８で終わる。初期関連性値Ｒは、このネットワーク出力１８から得られる。例えば、後述する例では、１つの出力ニューロン１２’の出力値がこの関連性値Ｒとして使用される。しかしながら、ネットワーク出力からの導出は、例えば、ネットワーク出力に適用される単調関数を用いて、異なって実行される。他の例を以下に示す。

いずれにしても、この関連性値は、逆方向（すなわち、３２）でネットワーク１０を伝播して、ネットワークは、ネットワーク出力１８を結果として生じるようにセット１６に適用されるとき、ネットワーク１０が作用する順方向伝播方向１４と比較して反対方向を指す。逆伝播は、関連性が「実質的に保存されている」ように各ニューロン１２に対して、各ニューロンの下流近隣ニューロンのセットの予備的に再分配された関連性値の和が、各ニューロンの上流近隣ニューロンのセットに分布されるように行われる。例えば、分布関数は、初期関連性値Ｒがすなわち正確にはＲ=(Ｒ_iまたは単調関数f()、すなわちＲ= f((Ｒ_i)による逆伝播を完了した後のセット１６の項目ｉの関連性スコアＲ_iの合計に等しいように選択され得る。以下では、分布関数およびどのようにして有利に選択すべきかに関するいくつかの一般的な考え方について論じる。

逆伝播の間に、ニューロン１２のニューロン活性化が、逆伝播を誘導するために使用される。すなわち、ネットワーク出力１８を得るためにネットワーク１０をセット１６に適用する間の人工ニューラルネットワーク１０のニューロン活性化は、逆伝播手順を導くために予め記憶され、再使用される。以下でより詳細に説明するように、逆伝播を近似するためにテイラー近似を使用することができる。従って、図２ａに示すように、逆伝播のプロセスは、出力ニューロンから出発して、逆伝播方向３２に沿ってネットワーク１０の入力側に向けて初期関連性値Ｒを分配するものと考えることができる。この手段により、関連性の高い関連性流路３４が、出力ニューロン３６からネットワーク１０の入力側に向かう、すなわち入力ニューロンが項目自体のセット１６によって形成される。経路は、例示的に図２に示すように、ネットワーク１０を通る間に間欠的に分岐する。経路は、最終的に項目のセット１６内の関連性の高いホットスポットで終わる。図２ａに示すように、入力画像２２を使用する特定の例では、関連性スコアＲ_iは、ピクセルレベルで、画像２２内の関連性の高い領域、すなわちネットワーク１０内で主要な役割を果たす画像２２内の領域が対応するネットワーク出力１８に終わることをを示す。以下では、ネットワーク１０のニューロンのためのニューロン機能として、非線形活性化機能のための上記の例を使用して、直前に言及した関連性保存および関連性再分布特性をより詳細に説明する。

プロパティ１：関連性の保全
関連性伝播モデルの第１の基本的な特性は、証拠を創造したり紛失したりすることができないことを課している。これは、グローバルスケール（すなわちニューラルネットワーク出力からニューラルネットワーク入力に戻る）とローカルスケール（すなわち、個々の非線形処理ユニットのレベル）の両方に適用される。このような制約は、キルヒホッフの回路法則をニューラルネットワークに適用し、「電流」の物理的概念を「意味論的証拠」の概念に置き換えることに相当する。特に、図３を参照されたい。

ここでは、２つの正の量の比が必ず正であることが分かり、関連性も高くなる。これら２つの機能強化は、安定性と正特性の両方を満たすために容易に組合わせることができる。

関連性の再配布にはどのように行うのか（「有意義な」再分配は、活性化に最も寄与するニューロン（大きな加重活性化ｘ_iｗ_ijを有する）が入力される関連性の大部分を占めることを確実にすべきである）が記載されているのに対し、関連性の保存は再伝播の内容（全体の値（合計）を一定に保ちながら出力関連性を入力変数に分配する）を述べていることに注意すべきである。

本出願の実施形態による装置を説明する前に、上記の導入は、可能な代替案をより明確に提示するように拡張されるべきである。

例えば、図１ａおよび２ａに関して説明された実施形態は、画像２２を項目のセット１６として使用し、ネットワーク１０を、その１つのレイヤーのニューロンのニューロン活性化が画像の「局所的特徴」、即ち、特徴マップ２０のサンプルを表すように設計することも可能であるが、図１ｂ及び図２ｂの実施形態は、特徴マップ２０を項目のセット１６として使用する。すなわち、ネットワーク１０は、特徴マップ２０の特徴サンプルが供給される。特徴マップ２０は、入力画像２２から、それを特徴抽出器にかけることによって得られてもよく、各々は、入力画像２２からそれぞれの特徴マップ２０を抽出する。特徴抽出操作が、矢印３０を用いて図１ｂに示されている。特徴抽出器は、例えば、行および列に配置された特徴サンプルを構成する対応する特徴マップ２０を得るために、フィルタカーネルを画像にわたって移動させて、特徴サンプルを器具毎に導出するように画像２２にフィルタカーネルを局所的に適用することができる。フィルタカーネル／テンプレートは、それぞれの特徴抽出器および対応する特徴マップ２０ごとに個別であってもよい。ここで、図１ｂのネットワーク１０は、図１ａのネットワーク１０のリマインダ部分、すなわち部分２１を除去した後のネットワーク１０のリマインダと一致することができる。従って、図１ｂの場合、特徴サンプル値は、ネットワーク１０を介して順方向１４に沿って、いわゆる予測プロセスの一環として、伝播し、ネットワーク出力１８になる。図２ｂは、図１ｂのネットワークに対する関連性逆伝播プロセスを示す。逆伝播プロセスは、関連性値Ｒをネットワーク１０を介してネットワーク入力、すなわち項目のセット１６に逆方向に伝播させ、それによって、それぞれの項目について関連性スコアＲ_iを取得する。従って、図２ｂの場合において、関連性スコアＲ_ijは、特徴サンプルｉごとに得られる。しかしながら、特徴マップ２０は、特徴マップ個別フィルタ抽出機能を介して画像内容に関連するので、各関連性スコアｉは、すなわち、固定された方法でセット１６の項目の個々の関連性スコアを画像２２の個々の画素位置に分配することにより、画素領域に、すなわち画素に翻訳されてもよい。従って、この逆関数３８は、特徴セット領域からピクセルの空間領域へのギャップを閉じるように、逆伝播過程の一種の拡張を形成する。

さらに、図１ａおよび図２ａの場合、画像２２の各ピクセル、すなわち１６の各項目がスカラーを運ぶと仮定されていることに留意されたい。この解釈は、例えばグレースケール画像２２の場合に適用され、各画素値はグレースケール値に対応する。しかし、他の可能性も存在する。例えば、画像２２はカラー画像であってもよい。その場合、セット１６の各項目は、画像２２の１つ以上の色平面または色成分の１つのサンプルまたはピクセル値に対応することができる。図１ａおよび図２ａのカラー画像２２への拡張を示す３つの構成要素が、図１ｃおよび図２ｃに例示的に示されている。従って、図１ｃおよび図２ｃの場合の項目のセット１６は、Ｘ・Ｙピクセル位置のそれぞれに対して、３つの色成分のそれぞれについての色成分値を有する場合に、Ｘ・Ｙ・３となる。しかしながら、色成分の数は、３以外であってもよい。さらに、色成分の空間分解能は、同じである必要はない。図２ｃのバックプロパゲーションは、項目、すなわち色成分サンプル当たりの関連性値となる。各画素の全ての成分の成分値を有する場合、最終的な関連性マップは、各画素の色成分について得られた関連性値を合計することによって得ることができる。これは３７に示されている。

図１ないし図２ｃは、画像及び画素に関連するが、本出願の実施形態は、そのような種類のデータに限定されない。例えば、テキストおよびその単語は、基礎として使用できる。ソーシャルグラフ分析アプリケーションは、以下のように見ることができる。すなわち、グラフがニューラルネットワーク１０への入力として与えられるグラフ内のノードおよび接続に、関連性が割当てられる。ソーシャルグラフ分析のコンテキストでは、ノードはユーザを表すことができ、接続は、これらのユーザ間の関係を表すことができる。そのような接続はまた、組織内のモデル情報フロー（例えば、引用ネットワーク）または責任の連鎖に向けられ得る。ニューラルネットワークは、例えば、与えられたグラフを予測するように訓練することができる。この場合において、関連性伝播およびヒートマッピング方法は、グラフにおいて予測特性を説明する部分構造またはノードを特定しようとする。ニューラルネットワークは、グラフの特定の特性（例えば、特定のソーシャルグラフに関連する生産性）を入力するとき、例えば、与えられたグラフを予測するように訓練することができる。ニューラルネットワークは、後の時点でグラフの状態を予測するように訓練することができる。この場合において、関連性伝播手順は、どのグラフにおける部分構造がグラフの将来の状態を説明するか（例えば、どの部分構造またはノードがグラフにおいて情報を拡散しあるいはその状態を変化するための能力におけるソーシャルグラフにおいて最も影響力が大きいか）を特定しようとする。従って、ニューラルネットワークは、例えば、広告キャンペーン（回帰タスク）の成功（販売された製品の数）を予測するために使用されることができる。関連性スコアは、成功のためのいくつかの影響力ある側面を特定するために使用することができる。企業は、これらの関連する側面にのみ焦点を当てることによって、経費を節約することができる。関連性スコア割当てプロセスは、広告キャンペーンのすべての項目についてスコアを与えることができる。決定プロセッサは、この入力と、広告キャンペーンのすべての項目のコストに関する情報とを獲得し、キャンペーンの最適な戦略を決定することができる。しかしながら、関連性は、上に示したように特徴選択のためにも使用され得る。

関連性スコアの割当ては、初期関連性値Ｒの導出から始まる。上述したように、ニューラルネットワークの出力ニューロンの１つに基づいて同じことを設定して、バックプロパゲーションによりセット１６の項目に関する関連性値を得ることができ、その１つの出力ニューロンの「意味」を参照する。しかしながら、ネットワーク出力１８は、代替的に、ベクトルであってもよく、出力ニューロンは、重複するまたは重複しないサブセットに分割されてもよいという意味のものであってもよい。例えば、意味（カテゴリ）「トラック」および「乗用車」に対応する出力ニューロンを組合わせて、意味「乗用車」の出力ニューロンのサブセットを得ることができる。従って、両方の出力ニューロンの出力値は、逆伝播の開始点として使用され、それによって、サブセットすなわち「乗用車」の意味に関する関連性を示す項目１６、すなわちピクセルの関連性スコアが得られる。

上記の説明は、項目セットが、画像の１つの画素に対応する項目４２のセット１６の項目４２のそれぞれを有する画像であることを示唆したが、これは異なっていてもよい。例えば、各項目は、図２ｃに示されているようなスーパーピクセルなどの画素またはサブ画素のセット（画素は通常ｒｇｂ値を有する。サブ画素は、例えば画素の緑コンポーネントである。）に対応し得る。さらに、項目セット１６は、ビデオの画像の１つまたは複数のピクセル、ビデオのビデオ画像またはビデオの画像シーケンスに対応する項目４２のセット１６の項目４２のそれぞれを有するビデオであってもよい。項目が参照する画素のサブセットは、異なるタイムスタンプの画像の画素を含むことができる。さらに、項目セット１６は、オーディオ信号であってもよく、項目４２のセット１６の各項目４２は、ＰＣＭサンプルのようなオーディオ信号の１つ以上のオーディオサンプルに対応する。セット１６の個々の項目は、サンプルまたはオーディオ録音の任意の他の部分であってもよい。あるいは、項目のセットは、周波数と時間の積空間であり、各項目は、例えば重複ウィンドウのシーケンスのＭＤＣＴスペクトルからなるスペクトログラムなどの１つまたは複数の周波数時間間隔のセットである。さらに、セット１６は、局所的特徴に対応する項目４２のセット１６の項目４２を有する画像、ビデオ、またはオーディオ信号、またはテキストの単語、文章または段落に対応する項目４２のセット１６の項目４２を有するテキストから局所的に抽出された局所的特徴の特徴マップであり得る。

完全性のために、図１ｄおよび図２ｄは、項目のデータセット１６が画像ではなくテキストである変形例を示す。その場合、図１ｄは、実際に（例えばｌ）ワード４３のシーケンス４１であるテキストが、各ワードｗ_i４３を共通の長さの、すなわち、ワードごとの変換４９に従う構成要素ｖ_ij４７の共通数Ｊの、それぞれのベクトルｖ_i４５にマッピングすることによって、「抽象」または「解釈可能」バージョンに転送されることを示す。各構成要素は、意味論的意味と関連していてもよい。使用され得る単語ごとの変換は、例えば、Ｗｏｒｄ２Ｖｅｃまたはワードインジケータベクトルである。ベクトルｖ_i４５の成分ｖ_ij４７は、セット１６の項目を表し、ネットワーク１０の影響を受け、それによりネットワークの出力ノード１２’において予測結果１８が得られる。図２ｄに示す逆伝播は、項目毎、すなわち各ベクトル成分ｖ_ij（０＜ｉ＜Ｉ；０＜ｊ＜Ｊ）の関連性値をもたらす。０＜ｊ＜Ｊのそれぞれの単語ｗ_iに関連付けられたベクトルｖ_iの成分ｖ_ijに関する関連性スコアは、例えば単語ごとの関連性合計値（関連性スコア）を結果として合計５３に集約し、テキスト中の各単語ｗ_iは、関連性スコア合計に従って強調表示されてもよい。強調表示オプションの数は、２つ以上であってもよい。つまり、単語の関連性合計値を量子化して、単語ごとに強調表示オプションを得ることができる。強調表示オプションは、異なる強調表示強度に関連付けられてもよく、関連性合計値から強調表示オプションへのマッピングは、関連性合計値と強調表示強度との間の単調な関連性をもたらし得る。再び、ニューラルネットワークが画像への予測の実行に関係する例と同様に、図１ｄおよび２ｄのネットワーク１０の入力側部分は、何らかの解釈可能な意味を有することができる。画像の場合、これは特徴セットであった。図１ｄおよび図２ｄの場合、ネットワーク１０の入力部分は、ベクトルの最もありそうな低次元ベクトルへのセット１６の構成要素からなるベクトルの別のベクトルごとのマッピングを表すことができ、その構成要素は、セット１６の構成要素からなるベクトルのむしろ単語ファミリ関連性の構成要素と比較してむしろ意味論的意味を有する。

図４は、関連性スコアを項目のセットに割当てる装置の例を示す。この装置は、例えば、ソフトウェアで、すなわちプログラムされたコンピュータとして実装される。しかしながら、他の実現可能性もなお考えられる。いずれにしても、装置５０は、この項目がそれに基づいてそのネットワーク出力１８のネットワーク１０の導出にどのような関連性を有するかを関連性スコアと共に示す項目ごとに関連性スコアを項目のセットに割当てるために、上に概説された逆伝播プロセスを使用するように構成されている。従って、図４は、ニューラルネットワークも示す。ネットワーク１０は、装置５０の一部ではないものとして示されているが、むしろ、ネットワーク１０は、スコアが装置５０によって項目のセット１６に割当てられる「関連性」の意味の源を定義する。しかしながら、代替的に、装置５０は、ネットワーク１０も含むことができる。

図４は、ネットワーク１０を項目の受信セット１６として示しており、項目は小さな円４２として例示的に示されている。図４は、ネットワーク１０を項目の受信セット１６として示しており、項目は小さな円４２として例示的に示されている。図４はまた、ネットワーク１０がニューロンパラメータ４４、例えば、上述したようなニューロンの上流近隣／先行ニューロン、すなわちニューロン機能のパラメータに基づいてニューロン活性化計算を制御する関数重み、によって制御される可能性を示している。これらのパラメータ４４は、例えば、メモリまたはストレージ４６に格納される。図４はまた、パラメータ４４を使用する項目４２のセット１６の処理を完了した後のネットワーク１０の出力を示す。すなわち、ネットワーク出力１８、およびオプションとして、処理セット１６に起因するニューロン１２のニューロン活性化を使用して、ニューロン活性化は、参照符号４８により示される。ニューロン活性化４８、ネットワーク出力１８およびパラメータ４４は、例示的に、メモリ４６に記憶されるように示されているが、別個の記憶装置またはメモリに記憶されてもよく、記憶されなくてもよい。装置５０は、ネットワーク出力１８へのアクセスを有し、ネットワーク出力１８および上記の逆伝播原理を使用して再分配タスク５２を実行し、セット１６の各項目ｉ５２に対する関連性スコアＲ_iを得る。特に、上述したように、装置５０は、ネットワーク出力から初期関連性値Ｒを導出し、逆伝播プロセスを使用してこの関連性Ｒを再分配して、項目ｉに関する個々の関連性スコアＲ_iを完成させる。セット１６の個々の項目は、参照符号４２で示される小さな円によって図４に示されている。上述したように、再分配５２は、パラメータ４４およびニューロン活性化４８によって導かれ得て、従って、装置５０は、これらのデータ項目にもアクセスし得る。さらに、図４に示すように、実際のニューラルネットワーク１０は、装置５０内に実装される必要はない。むしろ、装置５０は、ネットワーク１０の構成、例えばニューロンの数、パラメータ４４が属するニューロン機能、および、図４に示すように、メモリまたはストレージ４６または他の場所に格納できるニューラルネットワーク記述５４という用語を使用して情報が図４に示されているニューロン相互接続、にアクセス、すなわち理解しなければならない。代わりの実施形態では、装置５０は、再配分タスク５２を実行する再配分プロセッサに加えてニューラルネットワーク１０をセット１６に適用するニューラルネットワークプロセッサを備えることができるように、人工ニューラルネットワーク１０も装置５０上に実装される。

従って、上記提示された実施形態は、コンピュータビジョンにおいて人気を享受する多層ニューラルネットワークに関する分類と解釈可能性との間のギャップをとりわけ埋めることができる。ニューラルネットワーク（例えば、[6,31]（非特許文献６，非特許文献１５））に関して、一般化されたp平均に基づく任意の連続ニューロンおよびプーリング機能を用いた一般的な多層ネットワーク構造を考察する。

次節の一般的な概念としてのピクセル単位分解では、分類器のピクセル単位分解の根底にある基本的なアプローチについて説明する。このピクセル単位分解を、図１ａおよび図２ｃに関して説明した。多層ネットワークに関するピクセル単位分解は、一般概念としてのピクセル単位分解で説明されたテイラーベースの関連性伝播アプローチとレイヤー別の関連性伝播アプローチの両方をニューラルネットワークアーキテクチャに適用する。我々のフレームワークの実験的評価は、実験において行われる。

定性的解釈は、Ｒ_d＜０は分類すべき構造の存在に対する証拠に寄与し、Ｒ_d ＞０はその存在に関する証拠に寄与するということである。後続の視覚化の観点から、各入力画素ｘ_(d)に関する結果としての関連性Ｒ_dは、色空間にマッピングされ、従来のヒートマップとしてそのように視覚化され得る。すなわち、１つの基本的な制約は、Ｒ_dの符号が定性的解釈よりも上でなければならない、すなわち、Ｒ_dの正の値は正の寄与を、負の値は負の寄与を意味するという次の取組みにある。

以下では、式（１）のようなピクセル単位の分解を達成するための概念として、層単位の関連性伝播として概念を示す。我々はまた、層単位の関連性伝播の近似をもたらすテイラー分解に基づくアプローチを議論する。広い範囲の非線形分類アーキテクチャでは、テイラー展開による近似を用いる必要なしに、層単位の関連性伝搬を行うことができることを示す。後で提示する方法は、セグメンテーションを伴わない。それらは、トレーニングフェーズに関する学習セットアップまたはピクセル単位のラベリングとしての画素単位のトレーニングを必要としない。ここで使用されている設定は、画像ごとの分類であり、トレーニング中に画像全体に対して１つのラベルが提供されるが、寄与は、分類器の訓練に関するものではない。この方法は、予め訓練された分類器の上に構築される。それらはすでに事前に訓練された画像分類器に適用可能である。

層単位の関連性伝播
その一般的な形での層単位関連性伝播は、分類器がいくつかの計算層に分解され得ると仮定している。そのような層は、画像からの特徴抽出の一部であっても、あるいは計算機構上で実行される分類アルゴリズムの部分であってもよい。後で示すように、これはニューラルネットワークで可能である。

分類器出力ｆ（ｘ）である最後の層から画像画素からなる入力層ｘまで式（２）を反復すると、所望の式（１）が得られる。入力層の関連性は、式（１）の所望の和分解として働く。以下に示すように、このような分解自体は一意でもなく、分類器予測の意味のある解釈をもたらすことも保証されていない。

これは、式（１）および（２）を明らかに満たすが、すべての入力次元の関連性Ｒ⁽¹⁾（ｘ_d）は、予測ｆ（ｘ）として同じ符号を有する。ピクセル単位の分解解釈に関しては、ｆ（ｘ）＞０ならば全ての入力は、構造の存在の方向を指し、ｆ（ｘ）＜０ならば構造の不在の方向を指す。これは、多くの分類問題に対して、現実的な解釈ではない。

レイヤー単位の関連性伝播を定義するより意味のある方法について説明する。この例では、

次に、特徴次元ｘ_dの関連性は、式（５）の項の符号に依存する。これは、多くの分類問題に関して、より説得力のある解釈である。この第２の例は、層単位の関連性伝播が、ある程度特徴空間マッピングφ_dのような非線形性を扱うことができ、式（２）を満たす層単位の関連性伝搬の例が実際にどのように見えるかを示す。特徴空間マッピングφ_dに関する規則性仮定は、ここでは全く必要ではなく、非連続的であっても、ルーベンス法の下では測定不可能であってもよい。基礎となる式（２）は、特徴処理のレイヤー間の関連性Ｒに関する保存則として解釈できる。

上記の例は、さらに、関連性Ｒが何であるか、すなわち予測関数ｆ（ｘ）への局所的寄与についての直感を与える。その意味で、出力層の関連性は、予測自体ｆ（ｘ）として選択されてもよい。この最初の例は、線形の場合の分解として期待できるものを示す。線形の場合は、最初の直感を提供する。

２番目の、よりグラフィック的で非線形の例を示す。図５は、ニューロンとニューロン間の接続に関する重みｗ_ijとを有するニューラルネットワーク形状の分類器を示す。各ニューロンｉは、活性化関数からの出力ａ_iを有する。

一般に、この条件は、次のように表すことができる。

一般に、これは次のように表すことができる。

テイラー型分解
一般的な微分可能な予測子ｆに関して、（１）のように分解を達成するための１つの代替アプローチは、１次テイラー近似である。

テイラー基点ｘ₀の選択は、この設定の自由なパラメータである。上記のように、分類の場合、点ｆ（ｘ₀）＝０のセットによって与えられる予測の最大不確実性の状態に対する各画素の寄与を調べることに興味がある。なぜなら、ｆ（ｘ）＞０は、学習構造の存在を、およびｆ（ｘ）＜０は、不存在を示す。従って、ｘ₀は、予測子ｆの根となるように選択されるべきである。予測のテイラー近似の精度のために、より高次のテイラー近似に従ってテイラー剰余を最小にするために、ｘ₀は、ユークリッドノルムの下でｘに近い値に選ぶべきである。最小数のノルムを持つ複数の既存の根ｘ₀の場合、これら全ての解についてそれらの平均値を得るために平均化または積分することができる。上記の式は、

ピクセル単位の分解は、近似根点ｘ₀を求める必要があるため、テイラー級数を超えて予測点ｘに非線形依存を含む。従って、根点ｘ₀は予測点ｘに依存するので、画素全体の分解は線形ではなく、局所線形アルゴリズムである。

いくつかの研究では、予測点ｘで偏微分を使用することに基づく分類器予測の視覚化のための感度マップ[2,18,38]が使用されている。予測点ｘにおける微分に基づく感度マップと画素単位の分解手法との間には、２つの本質的な相違点がある。まず、予測点ｘにおける関数値ｆ（ｘ）と、同じ点ｘにおける差分Ｄｆ（ｘ）との間には直接の関係はない。第２に、予測関数ｆ（ｘ₀）＝０の根のセットによって与えられるある状態に対する分類器予測を説明することに興味がある。予測点における差分Ｄｆ（ｘ）は、必ずしもユークリッドノルムのもとで近似する根を指しているとは限らない。それは、予測ｆ（ｘ）として同じ符号をまだ有している可能性があり、従って、予測関数の根の点のセットに対する差異を説明するために誤解を招く可能性がある最も近い局所的最適を指している。従って、予測点ｘにおける導関数は、我々の目的を達成するためには有用ではない。図７は、局所勾配（上向き矢印）と予測の次元別分解（下向き矢印）との間の質的差異を示す。特に、この図は、予測点ｘ（ここでは正方形で示される）における勾配が、必ずしも決定境界上の近接点を指しているという直感を示している。その代わりに、局所最適値または決定境界上の遠い点を指すことがある。この例では、予測点ｘでの局所勾配からの説明ベクトルは、無関係な方向への寄与が大きすぎる。他のクラスの最も近い近隣は、非常に異なる角度で見つけることができる。従って、予測点ｘでの局所勾配は、関数値ｆ（ｘ）に対する単一次元の寄与についての良い説明ではないかもしれない。左画像内の予測点における局所勾配および右画像におけるテイラー根点は、黒色の矢印によって示される。最も近い根点ｘ₀は、決定境界上に三角形として示されている。右の画像の下向き矢印は、最も近い根点ｘ₀を中心とするテイラー展開によるｆ（ｘ）の近似を視覚化する。近似は、Ｄｆ（ｘ₀）とｘ−ｘ₀との間の外積の対角に等しいＤｆ（ｘ₀）（右パネルの灰色の矢印）とｘ−ｘ₀（右パネルの破線）との間の次元方向の積を表すベクトルとして与えられる。

技術的な難点の１つは、根点ｘ₀を見つけることである。連続分類器の場合、ラベル付けされていないテストデータを使用するか、またはサンプリングアプローチでトレーニングデータから学習された生成モデルによって生成されたデータによって、予測点ｘと候補点｛ｘ´｝のセットの間の線探索を行い、ｆ（ｘ）ｆ（ｘ´）＜０である。線ｌ（ａ）＝ａｘ+（１−ａ）ｘ´は、区間交差によって見つかるｆの根を含んでいなければならないことは明らかである。従って、各候補点ｘ´は１つの根をもたらし、１つは、テイラー残留物を最小化する根点を選択するか、または低いテイラー剰余を有する根点のサブセットにわたって平均を使用することができる。

テイラー型分解は、１つの層または複数の層のサブセットに適用される場合、関数が非常に非線形である場合の関連性伝搬の近似的な方法と見ることができることに留意されたい。これは、特に、前の層ｆ＝ｆ（ｚ_i-1）の関数として出力関数ｆに適用されるとき、式（１８）が、出力層の関連性が予測関数ｆ（ｘ）の値として初期化されるとき、伝播式(２)を近似的に満たす。テイラー近似とは異なり、レイヤー単位の関連性伝播では、入力点以外の第２の点を使用する必要はない。多層ネットワークのピクセル単位分解における節の式は、テイラー展開によって近似する必要なしに、広範囲のアーキテクチャに対してレイヤー単位の関連性伝播を実装できることを実証する。

多層ネットワークのためのピクセル単位分解
多層ネットワークは、一般に、層ごとに編成された一連の相互接続されたニューロンとして構築される。それらは互いに結合されると数学的関数を定義し、最初の層のニューロン（入力）を最後の層のニューロン（出力）にマッピングする。各ニューロンをｘで表す。ここで、ｉは、ニューロンのインデックスである。慣例により、ネットワークの各層ごとに異なるインデックスを関連付けている。与えられた層のすべてのニューロンの総和を“Σ_i”で表し、他の層のすべてのニューロンの総和を“Σ_j”で表す。ピクセル活性化
に対応する（すなわち、分類決定の分解を取得したいと思う）ニューロンをｘ_(d)で表す。１つの層から次の層への一般的なマッピングは、線形投影に続く非線形関数を含む。

ｚ_ij＝ｘ_iｗ_ij, (50)
ｚ_j＝Σ_iｚ_ij＋ｂ_j, (51)
ｘ_j＝ｇ（ｚ_j）, (52)

ここでｗ_ijは、ニューロンｘ_iをニューロンｘ_jに接続する重みであり、ｂ_jは、バイアス項であり、ｇは、非線形活性化関数である（使用される命名法を明確にするために図８を参照）。多層ネットワークは、多数のニューロンで構成されるこれらの層のそれぞれをスタックする。一般的な非線形関数は、双曲線正接ｇ（ｔ）＝ｔａｎｈ（ｔ）または整流関数ｇ（ｔ）＝ｍａｘ（０，ｔ）である。このニューラルネットワークの定式化は、コンボリューションおよび和プーリングが線形演算であるとき、単純な多層パーセプトロン[39]や畳込みニューラルネットワーク[25]などの広範なアーキテクチャを包含するのに十分一般的である。

テイラーベースの分解の要件は、ｘの分類決定の局所的説明をサポートする根ｘ₀（すなわち、分類境界上の点）を見つけることである。これら複数の根は、ｘの近傍の局所検索によって見つけることができる。しかしながら、[43]に記載されているように、これは、元のサンプルｘと知覚的に等価な入力空間の点につながる可能性があり、その根としての選択が、非有益なピクセル単位の分解を生成する。

あるいは、ｘで定義されたセグメントとその別のクラスの最も近隣のライン検索によって根の点を見つけることができる。この解決策は、自然な画像の場合のように、データ多様性がまばらに配置されている場合には問題がある。そのような場合、ｘとその最も近隣の間の直線をたどることは、データ多様体から強く離れて、同様に劣悪な画素単位の分解を伴う根ｘ₀を生成する可能性が高い。

但し、乗数は、バイアス項によって吸収される（または注入される）関連性を説明する。必要であれば、残留バイアスの関連性を、各ニューロンｘ_iに再分配することができる。

そのとき、保存法則が成立する。

但し、さらなる関連性がスタビライザーにより吸収されていることがわかる。特に、スタビライザーεが非常に大きくなると、関連性は、完全に吸収される。

ここで、α＞０，β＜０，α+β=１である。例えば、α＝２β=−１に関し、保存則は次のようになる。

これは、式（５７）と同様の形をしている。この代替伝播法は、異なる因子αおよびβを選択することによって、正および負の証拠の重要性を手動で制御することも可能にする。

上記の再分配式に加えて、次のような代替式を定義することができる。

ここで、ｎは、それぞれのニューロンの上流側ニューロンの数、Ｒ_ijはそれぞれのニューロンｊから上流近隣ニューロンｉに再分配された関連性値、Ｒ_jはニューロンｉの下流側ニューロンであるニューロンｊの関連性、ｘ_iはニューラルネットワークの適用中の上流近傍ニューロンの活性化である。ｗ_ijは上流近隣ニューロンｉをそれぞれのニューロンに接続する重みであり、ｗ_rjは上流近隣ニューロンｒをそれぞれのニューロンｊに接続する重みでもあり、ｂ_jはそれぞれのニューロンｊのバイアス項であり、ｈ（）はスカラー関数である。典型的には、ｈ（）は数値スタビライザー項であり、小さなε、例えばｈ（ｘ）= ｘ +ε・ｓｉｇｎ（ｘ）を加えることによって、値をゼロから離しておく。
同様に、他の代替手段は：

いったん関連性伝播のルールが選択されると、下位層の各ニューロンの全体的な関連性は、式（８）および（１３）と一致するすべての上位層ニューロンからの関連性を合計することによって決定される。

上記式（５８）および（６０）は、ある構造を満たす層に直接適用可能である。先行層からの活性化ｘ_iからの入力の関数としてモデル化される１つの層からのニューロン活性化ｘ_jを有すると仮定する。次に、以下のように関数ｇ_jと関数ｈ_ijが存在する場合には、層
単位の関連性伝播が直接適用できる。

ｘ_j＝ｇ_j（Σ_iｈ_ij（ｘ_i）） (63)

このような一般的な場合、式（５０）からの重み付け項ｚ_ij＝ｘ_iｗ_ijは、それに応じてｈ_ij（ｘ_i）の関数で置き換えなければならない。最大プーリングさえも一般化された手段の限界としてこの構造に適合することを再度述べる。式（３２）を参照のこと。局所的再正規化[26,36]（非特許文献１９，非特許文献２０）のような、より高い程度の非線形性を有する構造に関し、式（６３）で与えられる構造の近似を達成するために、ニューロン活性化ｘ_jに適用されるテイラー近似を再び使用することができる。

最後に、この節で確立された式から、層単位関連性伝播は、テイラー級数または部分導関数とは異なることが分かる。テイラー級数とは異なり、入力画像以外の第２の点は必要としない。テイラー級数の層単位のアプリケーションは、層単位の関連性伝播の近似バージョンを達成する一般的な方法として解釈できる。同様に、微分に依存する任意の方法とは対照的に、ニューロン活性化の微分可能性または滑らかさの特性は、層単位の関連性伝播を満たす式を定義するために必要な要件ではない。その意味では、より一般的な原則である。

が、層lのすべてのニューロンiに関する関連性を計算するために使用された。

その引数のそれぞれにおいて単調に増加すべきであり、式（８）の和の一般化として見ることができる。上流と下流のニューロンの用語を使用するときは、次のように記すことができる。

この一般化のやや一般的ではあるが、多分頻繁に使用される変数は：

但し、ｍ₂とｍ₃は、１変数の単調増加関数である。

ここで、ｃは、関連性の保存が成立するように選ばれた定数である。この例では、ｎの大きな値に対する大きな項に関して大きな重みを付ける。

これは、式（１３）がまだ成立することを保証する。

層ｌ＋１でのニューロンｋのニューロン関連性スコアは、層ｌ＋２でのニューロンｐのニューロン関連性スコアから以前に計算されているので、上記の式を次のように書き直すこともできる。

従って、我々は、一般化の第１レベルに到達する。

数値的安定性の要件は、関連性の層単位の和が５％の偏差に等しいなど、関連性保存特性がおおよそ満たされるような数値スタビライザー項を含める必要があることに注意されたい。数値スタビライザーの例として、式Ａ５およびＡ６で使用されている関数ｈ（ｚ）= ｚ +ε・ｓｉｇｎ（ｚ）を参照されたい。

一般化２
関連性保存特性の許容範囲までの要件は、次のような条件で表される。

上流と下流の用語に関しては、これは次のようになる。

これは、２つの異なった見解で再公表することもできる。第１の見方では、ニューラルネットワークへの入力として働く入力項目のセットにおける各項目に関する出力からの初期関連性Ｒおよび関連性Ｒ_iのみを考慮する。次に、ニューラルネットワークの中間層における関連性の合計を特定することなく、これらの条件で上記の要件を定式化することができる。

第２の見方では、ニューロンの関連性スコアの代わりに、１つの固定ニューロンに出入りするニューロン間の関連性メッセージを考慮する。

すべての下流のニューロンから特定のニューロンｊに入るメッセージの合計が、ニューロンｊからその上流のニューロンに送信されるメッセージの合計にほぼ等しく、再び典型的には５％の公差であることが必要である。

一般化の終わり２
これらの３つの見解は、入力にのみ依存する単調関数ζ、fまたはξを中期的に考慮すると、さらに一般化することができる。

一般化２Ｂ
視点１：ニューロンの関連性スコアＲ_k

ビュー２：出力ニューロンの関連性スコアＲおよび入力項目のセット内の項目の関連性スコア

ビュー３：ニューロンjの上流および下流ニューロン近傍に関する関連性メッセージＲ_jk

一般化の終わり２Ｂ

さて、一般化の第３レベルについて考察しよう。

式Ａ５からＡ８を調べると、上記一般化のレベルのいくつかの追加要件を特定することができる。まず、式Ａ５〜Ａ８のｑ（ｉ）は、重み付けされた活性化ｚ_ijに依存する。式Ａ５とＡ６およびＡ７とＡ８との差は、単に重み付けされた活性化ｚ_ijの定義にある。

従って、実際には、重み付けされた起動ｚ_ijを定義する２つの異なる方法を有する２つの式Ａ５およびＡ７から導出された２つの基本式のみがある。

この検査は、一般化の第３レベルにつながる：

一般化３
関数ｑ（ｉ）は、重み付け活性化ｚ_ijに依存し、重み付け活性化は、ニューロン活性化ｘ_i、接続重みｗ_ijおよびバイアス項ｂ_jの関数である。
ｚ_ij＝ｓ（ｘ_i,ｗ_ij,ｂ_j）
特例として

式A5*およびA7*を検査することは、これらの式によって満足される順序性のセットを思い付くことができる。順序性を定義する１つの方法は、重み付け活性化ｚ_ijの絶対値とメッセージ重み付け関数（・）の絶対値の一般化を検討することである。
式Ａ５の場合、次の順序性が保持される。

式A7*では、わずかに異なる順序性が保持される。以下を検討する。

上で与えられた関数g（・）のさらなる一般化は、その最小値がゼロであり、区間上で単調に減少し、区間上で単調に増加する関数をもたらす。
従って、我々は以下に到達する。

一般化の終わり４
順序性を定義する別の方法は、Ｒ_j＞０の場合に自分自身を制限することである。それは、負のニューロン関連性を伝播することに興味がない場合に意味がある。これを理解するために、ニューラルネットによって行われた予測が、ニューラルネットワークの出力が入力としての項目のセットに関する非常に肯定的なスコアを有することを意味する構造の存在についてニューラルネットワークによりなされた予測が確かであるときに、項目のセット内の単一項目に関する予測を行うことに通常関心があることを考慮する必要がある。ニューラルネットワークの出力が非常に肯定的なスコアを有する場合、ほとんどのニューロンがニューラルネットの非常に正の予測を支持しているため、ほとんどのニューロン関連性も正であると予想することができ、従って、実際には負の関連性を持つニューロンの小数部分を無視することができる。

別の順序性を推論するには、Σ_iｚ_ij＞０ならば、ｈ（ｔ）＝ｔ＋εｓｉｇｎ（ｔ）に
対してｈ（Σ_iｚ_ij）＞０である場合にも注意されたい。

順序性を定義する他の可能性があることに注意されたい。
例えば、以下の８つの条件は、関連性メッセージの観点から表現される意味のある順序性ももたらす。

さまざまな追加説明
従って、ディープニューラルネットワーク（DNN）などの最先端の分類器は、以下のように動作する。
1) ネットワーク構造（例えば、層数、ユニット数など）は人間によって設計される。
2) ネットワークパラメータ（重み）は、潜在的に何百万もの画像等のラベル付き（およびラベルなし）データサンプルを使用して訓練され／最適化される。事前に訓練されたネットワークの中には、Web上で利用可能なものがある点に注意されたい。
3) ネットワークは、新しい画像に適用することができ、例えば、画像を特定のクラス、例えば「サメを含む画像」、「ニュース記事であるテキスト文書」または「信用力がない人」のクラスに属するものとして分類する。
4) ネットワークは非常に非線形で非常に複雑なので、なぜこの特定の画像が「サメ」として分類されるのかを理解することは難しい。従って、ネットワークはブラックボックスとして機能する（図４参照）。
5) 提示された実施形態は、分類器がその決定に到達する理由、すなわち、重要な情報がどこに位置しているか（例えば画素に関して）を視覚化できる理由を説明することができる。抽象的な言い方をすれば、大規模（例えば、全体画像、全文文書）で計算された分類決定を、小さなスケール（例えば、個々のピクセル、個々の単語）に分解することができる。
6) DNNは画像上で訓練することができるだけでなく、時系列、単語、物理的測定など、事実上すべてのタイプのデータに適用されている。記載された実施形態の原理は、多くの異なるシナリオに適用可能である。

図５ないし１０に関して公開された明細書は、次に、図４の関連性スコア割当装置の説明にいくつかの追加の注釈を提供するために使用されるものとする。装置５０は、単に再分配５２を実行するように構成されていてもよいことは既に上述した。しかしながら、さらに、装置５０は、人工ニューラルネットワーク１０のセット１６への実際の適用を実行するように構成されていてもよい。従って、装置５０は、この代替のために、参照符号１０を再使用することができるニューラルネットワークプロセッサおよび参照記号５２を再使用することができる再分配プロセッサを含むものとして考えられ得る。いずれの場合においても、装置５０は、例えば、記憶装置またはメモリ４６を備えることができる。しかしながら、興味深いことに、一方では例えば分類プロセスのような予測プロセス上のネットワーク１０を含む層と、逆方向伝搬プロセス５２がネットワーク１０を逆に横切るまでの層との間のギャップが存在し得ることに注意すべきである。例えば、図１ａ−ｃおよび図２ａ−ｃの場合、予測プロセスに含まれる順方向伝播１４は、逆方向伝搬プロセス３２として同じネットワーク１０の同じ層１０にわたるかまたは含んでいることが示されている。すなわち、順方向伝播１４およびネットワーク１０は、セット１６に直接適用され、逆伝搬３２は、セット１６の関連性スコアに直接結ばれる。図１ｂおよび図２ｂの場合、例えば、予測プロセス内では、このセット１６は、特徴抽出プロセス３０により予め充填され、かつ、増加した関連性スコアの関連性部分を強調表示するために、例えば、元画像２２の重ね撮りの形で、この特徴抽出の反転、すなわち３８は、後方伝播プロセスを拡張し、空間（画素）領域内の関連性部分の強調表示を実行するために使用される。しかしながら、上述した説明はまた、特徴抽出プロセス３０が、人工ニューラルネットワークの１つ以上の追加の層、すなわち順方向伝播１４、すなわち層または部分２１におけるネットワーク１０の実際の（訓練された）部分に先行するニューロンの層を使用して代わりに変換され得るか、または記述され得ることを公開する。特徴抽出３０のタスクを単にミラーリングするこれらの層は、関連性割当てプロセスにおける逆方向伝播において実際に横切る必要はない。特徴抽出３０のタスクを反映するだけのこれらの層は、関連性割当てプロセスにおける逆方向伝播において実際に横断される必要はない。しかしながら、上位レベル側の部分２１のこれらの追加の（変換された）層は、予測プロセスの間の順方向伝播プロセス、すなわち、ネットワーク１０の実際の（訓練された）部分を横切る前のその終わりの開始時に横切ることができる。これにより、画素ではなく、特徴サンプルに関して関連性スコアＲ_iが得られる。言い換えれば、関連性は、入力変数（テキストの場合は各単語に関連するベクトルの画像または成分の場合、例えば各画素の赤、緑および青の成分）に関してだけでなく、これらの項目（例えば、ネットワークの特定の層のニューロン）の非線形変換に関して分解され得る。従って、特定の中間層で関連性バックプロジェクションを停止させたい場合がある。当然ながら、一方で順方向伝搬の開始点と他方で逆方向伝搬３２の終点との間のこのギャップの例が、他の種類のデータ、すなわちそのような画像以外のデータ例えば、オーディオ信号、テキストなどに適用され得る。

ネットワーク出力１８のソートおよびセット１６の項目４２に関しては、追加の注意に意義があるようである。ネットワーク出力１８に関しては、上で概説したように、スカラーまたはベクトルであってもよく、スカラーまたはベクトルの成分は、例えば実数値である。そこから導出された関連性値Ｒは、スカラーまたはベクトルの成分の１つからそれぞれ導かれた実数値であってもよい。「項目」４２に関して、上記の例は、スカラーまたはベクトルであることが同様に可能であることを十分に明確にすべきであったはずである。一方では図１ａと図２ａ、他方では図１ｃと図２ｃの並置はこれを明らかにする。図１ｃおよび図２ｃに示されているようなカラー画像の画素の場合、画素値は、ベクトル、すなわちここでは例示的にRGB、CMYKなどのような３つ（またはそれ以上）のスカラー色成分に対応する３つまたはそれ以上の成分のベクトルである。セット１６の項目４２は、画素のスカラー成分である。関連性値を項目のセットに再分配することにより、各項目、すなわち各画素の各成分についての関連性値Ｒ_iが得られる。各画素について１つのスカラー関連性値を導出するために、その画素に関するそのような共通の関連性値を得ようとして、各画素のすべての成分の関連性値を合計することができる。これは図２ｃの３７に示されている。テキストの場合にも同様の措置が行われることがある。従って、入力変数に関しての関連性分解は、関連性分解の容易な視覚化および解釈を可能にする方法で再グループ化し得る。例えば、画素領域におけるヒートマップとしての関連性を視覚化するために、図２ｃに関して説明したように、赤、緑及び青成分に関連する関連性を各画素について合計し得る。同様に、テキスト分析の場合、ヒートマッピングされたテキストとしての文書の関連性の分解を視覚化するために、対応するベクトルの各成分に関連する関連性を各単語について合計し得る。

他の例も同様に評価することができる。しかしながら、安定化関数ｈ（・）（式Ａ５^*およびＡ７^*を参照）によって課せられるような状況は、関連性「漏れ」をもたらす可能性があるため、例えば一般化２Ｂからの前述の関数f、ξおよびζによって記述された関連性は、例えば、項目の各セット１６について満たされないかもしれない。例えば、ネットワーク出力が最大ネットワーク出力の少なくとも７５％に達するようなセットまたは項目に対してのみ適合させることができる。例えば、人工ニューラルネットワークによって実行される予測は、ある画像が「猫」を示すかどうかを想像しよう。次に、ネットワーク出力での予測が、画像が猫を示す７５％以上の値をもたらす画像の予測が、逆伝搬の影響を受けたときに、他の画像が確実ではない、または確実ではない可能性があるが、ｆ（それらの全てまたは少なくとも９９％以上）に関する条件を満たす画素に関する関連性スコアをもたらす。

別の観点から、分布関数は、「有意義な」逆伝播関連性スコアにおいて同じ結果が得られるように、有利に選択されるべきである。この目的のために、分布関数は、関連性保存特性に追加的または代替的に、いくつかの「順序」性に従うことができる。換言すれば、上述した関連性保存特性に従わなくても、分布関数は、有意義な逆伝播関連性スコアをもたらす可能性がある。特に、各ニューロンｊについて、どれだけの関連性Ｒ_ijがそれぞれのニューロンｊから上流近隣ニューロンｉに再分配されるかをもたらす分布関数は、以下で与えられる。

ｑ（ｉ）は、各ニューロンｊの上流近隣ニューロンｉの活性化ｘ_iに依存する順序性を満足する関数であり、上流近隣ニューロンｉの数をＩとし、重みｗ_ijは、上流近隣ニューロンｉをそれぞれのニューロンｊに接続し、存在する場合、各ニューロンｊのバイアス項ｂ_jは、存在しなければゼロであると仮定され、順序性は、一般化４および一般化５内およびその周辺で与えられるもののうちの1つである。

また、図４は、関連性スコア割当てプロセスの図を同時に示しており、その中に示されている要素、例えば、１０および５２、は、このような方法／プロセス中に実行されるプロセスステップを表すことにも留意すべきである。例えば、３０および３８等のステップは、プロセス中に追加的に実行されるオプションのステップまたはタスクを表す。あるいは、装置５０は、タスク３０および３８または３０をさらに実行するように構成することができる。例えば、これらのタスクのすべては、プロセスまたは装置５０が実装される基盤上のコンピュータプログラムのコードの異なる部分を表すことができる。

さらに、上記の説明は、以下では、本出願の範囲に関する誤解を避けるために、いくつかの異なる用語を用いて記載される。

特に、上記の説明は、サンプルに対して行われた予測の分析を示し、「サンプル」は項目のセット１６である。予測は、項目のセット１６に基づいてネットワーク出力を導出するプロセスであり、マッピングによって実行され、サンプルが入力として取り込まれる。予測はサンプル全体に対して行われ、ベクトル値または実数値出力、またはベクトル値または実数値出力に変換できる出力、すなわちネットワーク出力１８に変換できる出力が得られる。予測マッピングは、ニューラルネットワークを通る前方伝播１４を含む。それは以下のように分解することができる。入力を取り、入力に関数、すなわちニューロ関数を適用することによって出力を計算する要素１２からなる。少なくとも１つの要素１２は、入力としてサンプル、すなわちセット１６のサンプルの１つの項目を有する。モデルは、各要素が入力としてサンプルの多くとも１つの項目を取るように一般性を失うことなく作成される。少なくとも１つの要素１２は、他の要素の出力を入力として受取る。これらは、上述のように、要素１２およびその入力に依存する値を乗算することによって重み付けされてもよい。少なくとも１つの重みは非ゼロである。少なくとも１つの要素の出力は、サンプルの予測を行うために使用される。サンプルアイテムからモデルの予測への接続が存在する。

別の言い方をすれば、上記の輪郭を描かれた（階層化された）逆伝播は、項目のセットに関する予測が既に実行されているという前提で実行される。このプロセスは、予測によって、すなわちネットワーク出力に基づいて、直接計算されたすべてのそれらの要素の関連性の初期化から開始される。この出力が実数値である場合、関連性Ｒは、そのとき、それぞれの予測ネットワーク出力を計算した出力ニューロンを形成し、モデルの予測値を使用して初期化される。出力がベクトル値である場合、関連性Ｒは、すべての出力ニューロンに対して設定されてもよく、１つの出力ニューロンの場合の実数値出力の場合に関して説明した初期化を使用してかつ残りの出力ニューロンに関して関連性をゼロに設定することにより初期化されてもよい。初期化後、次の２つの式が交互に計算される。

ニューラルネットワークがサイクルを含む場合、すなわち、ニューラルネットワークが反復して時間依存状態を有する場合、その構造は時間的に展開され得、フィードフォワードマッピングをもたらし、上述したのと同じ手順を適用することができる。展開すると、各時間ステップでネットワークの状態をモデル化する１つの層を持つことを意味する。

以下では、層単位の関連性伝播の原理について、より技術的な視点を示す。各層にはインデックスが割当てられる。最初の層はインデックス１を持ち、最後の層は最大のインデックスを持つ。セット１６内の各項目に関するスコアは、以下のように計算することができる。
我々は、すでに、注文した項目のコレクションについて予測していると仮定する。
・まず、以下のように出力層である最後の層の関連性を初期化する。
・出力が実数値の場合は、最後の層の単一要素に関する関連性をモデルの予測値として初期化する。
・出力がベクトル値の場合、出力層の少なくとも１つの要素に関する実数値出力の場合について説明した初期化を使用するか、および残りの要素については、関連性をゼロに設定するかのいずれかによって、最後の層のすべての要素に関する関連性を初期化する。
・次に、１つの層インデックスから上流層までの層の繰返しを実行する。

この方法の結果は、順序付けられた項目のコレクションに対してなされた予測に関する項目の関連性を示すかまたは結果が以下の少なくとも１つと組合せられたスコアである項目ごとに１つのスコアである。
・スコアの各間隔が１つの色にマッピングされるようなこれらのスコアの色へのマッピング
・各項目のスコアによって決定された順序に従う項目のソートされたリスト

サンプルは、順序付けられた項目のセットであってもよい。以下では、順序付けられた項目のコレクションのいくつかの可能な例のリストを示す。

順序付けられた項目のコレクションは、画像であってもよく、各項目は、その１つ以上のピクセルのセットであってもよい。

順序付けられた項目のコレクションは、テキストであってもよく、各項目は、その1つ以上の単語のセットであってもよい。

順序付けられた項目のコレクションは、テキストであってもよく、各項目は、その1つ以上の文のセットであってもよい。

順序付けられた項目のコレクションは、テキストであってもよく、各項目は、その1つ以上の段落のセットであってもよい。

順序付けられた項目のコレクションは、キー値のペアのリストであってもよく、各項目は、その１つ以上のキー値のペアのセットであってもよい。

順序付けられた項目のコレクションは、財務データまたは企業関連性データのキー値ペアのリストであってもよく、各項目は、１つまたは複数のキー値ペアのセットであってもよい。

順序付けられた項目のコレクションは、ビデオであってもよく、各項目は、タイムスタンプを有する１組以上の画素の対であってもよい。

順序付けられた項目のコレクションは、ビデオであってもよく、各項目は、１つ以上のフレームのセットであってもよい。

順序付けられた項目のコレクションは、ビデオであってもよく、各項目は、１つ以上の画素のセットであってもよい。

学習可能なニューラルネットワークの技術仕様
次の段落では、他のタイプの浅い学習アルゴリズムとの違いである訓練段階の間に、その層の大部分が学習されるようなニューラルネットワークについて説明する。それは、以下の特性を有するかもしれない。
- モデルがテスト時に２層である場合、第１層の重みは、訓練データのセットおよび訓練データのサブセットに依存する誤差尺度を使用して最適化される。
- モデルがテスト時に３層または４層積層されている場合、少なくとも第１または第２の層の重みは、訓練データのセットおよび訓練データのサブセットに依存する誤差尺度を用いて最適化される。
- モデルがテスト時に５層以上積層されている場合、訓練データのセットと訓練データのサブセットに依存する誤差尺度を使用して、少なくとも第１の層から第３の最後の層までの１つの層の重みが最適化される（これにより、最後の層も最適化される）。

層内の要素の少なくとも１つは、整流された線形活性化ユニットであってもよい。

層中の要素の少なくとも１つは、ヘヴィサイド活性化ユニットであってもよい。

層中の要素の少なくとも１つは、ｔａｎｈ活性化ユニットであってもよい。

層内の要素の少なくとも１つは、ロジスティック活性化ユニットであってもよい。

層中の要素の少なくとも１つは、シグモイド活性化ユニットであってもよい。

実験

我々は、２つのデータセット、解釈が容易なMNISTの結果の２つのセットと、Caffeオープンソースパッケージ[20]（非特許文献２１）の一部として提供されている１５層の既に訓練されたネットワークに依存する第２の実験セットを示し、これは、ILSVRCチャレンジから１０００のカテゴリを予測する。一方で、MNISTの数字の実験によって、我々は訓練段階に特有の詳細を明らかにすることができることを示すつもりである。他方で、Caffeツールボックスからの事前トレーニングされたネットワークの結果は、この方法が、箱の外でディープニューラルネットワークと一緒に動作し、訓練段階中に可能なトリックに依存していないことを示す。

事前訓練されたネットワークを使用して、他の現実的な画像に基準スコア割当てを適用した。関連性スコアの形での分類決定の説明は、クラスの有意な特徴を強調する。例えば「サメ」のサメひれ、「カップ」の丸い形、「火山」の山の形など。関連性スコアの割当てでは、画像内のすべてのグラデーションが強調表示されるわけではないが、識別機能が強調表示されている点に注意されたい。例えば、図９は、ImageNetデータセットから１０００のクラスを区別するように訓練されたニューラルネットワークへの、上記で概説した関連性スコア割当ての適用を示す。上側の画像は、ネットワーク、すなわちセット１６への入力を示し、下側の画像は、各入力画像に対して1つずつ、上記の実施形態による画素に割当てられた関連性スコアを示すヒートマップを示す。ヒートマップは、上に概説したように、入力画像上にオーバーレイされてもよい。ヘビの場合（左の画像）、シェルを表す画素は、初期関連性スコアの大部分を受取る、すなわち、画像を、蛇を示すものとして分類するネットワークの予測をもたらす主な理由として識別されることがわかる、サメ（右画像から２番目）の場合には、ひれを表す画素は、初期関連性スコアの大部分を受取り、丘（右画像から２番目）の場合には、頂点を表す画素は、初期関連性スコアの大部分を受取り、マッチの場合には、マッチ及び炎を表す画素は、初期関連性スコアの大部分を受ける。

我々はまた、MNISTデータセット上のニューラルネットワークを訓練した。このデータセットには、０から９までの数字の画像が含まれている。トレーニング後、ネットワークは、新しい不可視画像を分類できる。逆伝播の関連性スコア割当てによって、ネットワークが３の画像をクラス「３」、換言すれば３を他の数と異なるものに分類する理由を尋ねることができる。図１０におけるヒートマップにおいて、（他の数字に関して）３の最も重要な特徴は、中央の水平ストロークと、左に垂直接続がないこと（数字８の場合はそこにある）がわかる。例えば、なぜ４の画像が「９」に分類されないのか、言い換えれば４の画像を見るときに９と対話するのかも尋ねることができる。「９」に対する証拠は、４の上の隙間であることが分かる。矢印６２を用いて示された赤色は、あるクラスの証拠を表し、６０で示された青色は、クラスに対する証拠を表すことに留意されたい。要約すると、この方法は分類の決定について意味のある説明を提供することを示した。

アプリケーション
今まで、説明は、関連性スコア割当てプロセスに集中していた。以下では、セット１６の項目に割当てられた関連性スコアがどのように使用され得るかについて、簡単に説明する。

一般的なアプリケーションは、より大きい、より複雑なアルゴリズム（ＣＡ）の一部としてここに提案された関連性スコア割当て（ＲＳ割当て）を使用することである。アルゴリズムＣＡを適用するのが、非常にコストがかかる状況を考えることができるので、ＲＳ割当ては、アルゴリズムＣＡが適用される可能性があるいくつかの関心領域を定義することができる。例えば、
−医師の時間は貴重である。ＲＳ割当ては、癌をスクリーニングする際に、画像中の重要な領域を特定することができる。
−ビデオ符号化において、チャネル帯域幅は貴重である。ＲＳ割当ては、ビデオのどの部分が他の部分よりも重要であるかについてアルゴリズムＣＡに通知し、例えばより良い符号化戦略（例えば、重要な部分についてより多くのビットを使用する）、またはより良い送信スケジュール（例えば、重要な情報を最初に送信する）を決定するために通知することができる。
−ヒートマップは、いくつかの予測タスクの追加機能を計算するために使用できる。例えば、訓練されたネットワークを使用して、それをある画像に適用し、より重要な領域からより多くの特徴を抽出することができる。これは、計算時間または情報の伝送の減少をもたらす可能性がある。あるいは、そこから抽出された領域または追加情報を使用して、訓練されたネットワークを再トレーニングし改善することができる。
−ＲＳ割当ては、ユーザーまたは会社が、特定のタスクにとってどのような領域または機能が重要であるかを知りたい場合に、調査ツールとして使用できる。

さらに、画像応用分野では、
−ＲＳ割当ては、医療用途、例えば、医師が病理像の腫瘍を特定するか、またはMRI画像の観察を特定するための助けとして、使用できる。
より具体的な例としては、以下を含む
−生物学的組織の画像における炎症徴候の検出、
−生物学的組織の画像における癌の徴候の検出、
−生物学的組織の画像における病理学的変化の検出、
−ＲＳ割当ては、一般的な画像に適用することができる。例えば、ソーシャルウェブサイトのプラットフォームや検索エンジンには多くのイメージがあり、何が画像を「面白い」、「珍しい」、「面白い」、とさせるのか、何が人を、住宅のイメージや住宅のインテリアを魅力的または美的にまたは魅力的でなくまたは美学的でないとさせるかに興味があるかもしれない。
−ＲＳ割当てを監視アプリケーションで使用して、画像のどの部分が異常なイベントを検出するためにシステムをトリガするかを検出できる。
−衛星、航空機またはリモートセンシングデータによって撮影された画像における土地利用変化の検出。

ビデオアプリケーション分野において、
−ヒートマップは、例えば、重要な情報を含む領域にはより多くのビットを使用し、他の領域には少ないビットを使用して、符号化の圧縮強度を設定するために使用できる。
−ＲＳ割当ては、ビデオ要約、すなわち、ビデオ内の「関連性」フレームを識別するために使用することができる。これにより、インテリジェントなビデオ閲覧が可能になる。
−アニメーション映画は時にはあまり現実的ではない。映画がより現実的に見えるようにするために何が「欠落している」かははっきりしない。この場合、ヒートマップを使用して、ビデオの非現実的な部分を強調することができる。

テキストアプリケーションの場合、
−テキスト文書のカテゴリへの分類は、ＤＮＮまたはＢｏＷモデルによって実行できる。ＲＳ割当ては、文書が特定のクラスに分類される理由を視覚化することができる。トピックに関するテキストの関連性は、さらなる処理のために強調表示または選択することができる。ＲＳ割当ては重要な単語を強調し、長いテキストの要約を提供することができる。このようなシステムは、例えば、特許弁護士がすぐに多くのテキスト文書を閲覧するのに役立つ。

財務データアプリケーションの場合、
銀行は、（ディープ）ニューラルネットワークなどの分類器を使用して、誰かがクレジットローンを取得しているかどうかを判断する（ドイツのSchufaシステムなど）。これらのアルゴリズムがどのように作動するかは透明ではない。例えば、クレジットを取得していない人は、理由を知らない人もいる。ＲＳ割当ては、なぜ誰かがクレジット取得しないのかを正確に示すことができる。

マーケティング／セールスの分野において
−ＲＳ割当ては、何が、特定の商品説明イメージ／テキストが商品の販売をもたらすのか（例えば、アパートのレンタル、eBay商品の説明）を決定するために使用できる。
−ＲＳ割当ては、何が、オンラインビデオ／ブログ投稿を高評価させるかあるいは好まれるかを決定するために使用することができる。
−企業は、どの「特徴」が彼らのウェブサイトや製品を魅力的とさせるのかに一般的に関心を持つ可能性がある。
−企業は、なぜ一部のユーザーが製品を購入し、他のユーザーがそれを購入しないのかに関心がある。ＲＳ割当ては、ユーザーが製品を購入しない理由を特定し、それに応じて広告戦略を改善するのに使用できる。

言語学／教育分野
−ＲＳ割当ては、テキストのどの部分が、英語、フランス語、スペイン語、ドイツ語などの特定の言語のネイティブではない話者をネイティブと区別できるかを決定するために使用できる。
−ＲＳ割当ては、特定の人によって文書が書かれたか否かをテキスト中の校正要素を見つけるために使用することができる。

上記の説明では、項目のセットに関連性スコアを割当てるための異なる実施形態が提供されている。例えば、写真に関して例が提供されている。後者の例に関連して、関連性スコアの使用に関して、すなわち関連性スコアを用いて画像内の関連性部分を強調するために、すなわち元の画像と重ね合わされ得るヒートマップの使用に関して、実施形態が提供されている。以下では、関連性スコアを使用または利用する実施形態、すなわち上記の関連性スコア割当てを基礎として使用する実施形態を提示する。

図１１は、１組の項目を処理するシステムを示す。システムは、参照符号１００を使用して一般に示される。システムは、装置５０の他に、処理装置１０２を含む。両方ともセット１６で動作する。処理装置１０２は、処理結果１０４を得るために、項目のセット、すなわちセット１６を処理するように構成されている。そうすることで、処理装置１０２は、関連性スコア割当て器５０によってセット項目１６に割当てられた関連性スコアＲ_iに応じてその処理を適合させるように構成される。装置５０および装置１０２は、１つまたは複数のコンピュータ上で走行するソフトウエアを使用して実現できる。それらは、別々のコンピュータプログラムまたは１つの共通のコンピュータプログラム上に実装することができる。セット１６に関しては、上に示したすべての例が有効である。例えば、処理装置１０２がデータ圧縮等の非可逆処理を行うと仮定する。例えば、装置１０２によって実行されるデータ圧縮は、無関係な縮小を含むことができる。セット１６は、例えば、画像またはビデオなどの画像データを表すことができ、装置１０２によって実行される処理は、損失性のある圧縮であってもよく、すなわち、装置はエンコーダであってもよい。
その場合、装置１０２は、例えば、それに割当てられたより低い関連性スコアを有するアイテムと比べて、それに割当てられたより高い関連性スコアを有する項目に対するプロセスの損失性を減少させるように構成することができる。損失は、例えば、量子化ステップサイズを介して、または符号器のレート制御の利用可能なビットレートを可変させることによって、可変させることができる。例えば、関連性スコアが高いサンプルの領域は、より高いビットレートを使用する、より低い量子化ステップサイズを使用するなどのように、損失の少ない符号化を行うことができる。従って、関連性スコア割当ては、例えば、ビデオシーン内の容疑者検出／予測に関して、関連性スコア割当てを実行する。その場合、処理装置１０２は、ビデオを非可逆圧縮する際により多くのデータレートを費やすことができ、この例によれば、興味深い場面、すなわち、容疑者が同じ場所内で「発見」されているため、時空間部分が関心のある興味深いシーンに関してセット１６を表す。または、処理装置１０２は、同じデータレートを使用するが、関連性スコアによって達成される重み付けのために、高い関連性スコアを持つサンプルの項目に関しては圧縮率が低く、低い関連性スコアを持つサンプルの項目に関しては圧縮率が高い。処理結果１０４は、この場合、非可逆圧縮されたデータまたはデータストリーム、すなわちビデオ１６の圧縮バージョンである。しかしながら、前述のように、セット１６は、ビデオデータに限定されない。これは、画像またはオーディオストリームなどであってもよい。

完全を期すために、図１２は、図１１のシステムの変形例を示している。ここでは、セット１６の項目に関する関連性スコアＲ_iを導出するために、関連性スコア割当て５０がセット１６上で動作するが、処理装置１０２は、セット１６と等しくない処理すべきデータ１０６上で動作する。むしろ、セット１６は、データ１０６から導出されている。図１２は、例えば、セット１６が特徴抽出プロセス３０によってデータ１０６から導出されたことによる図１の例示的なケースを示す。従って、セット１６は、データ１０６を「記述する」。関連性値Ｒ_iは、上述した方法で、特徴抽出プロセス３０に関する反転マッピングまたは逆マッピングを表す逆マッピングプロセス３８を介して元のデータ１０６に関連付けることができる。従って、処理装置１０２は、データ１０６上で動作し、関連性スコアＲ_iに依存してその処理を適合させるか、または合理化する。

図１１および図１２の処理装置１０２の処理は、非可逆圧縮などの非可逆処理に限定されない。例えば、セット１６またはデータ１０６に関する上記の例の多くにおいて、セット１６の項目は、１，２またはそれ以上の次元で順序付けされた項目の順序付きコレクションを形成する。例えば、画素は、少なくとも２次元、すなわち、ｘおよびｙは２つの横方向の次元であり、時間軸を含む場合は３次元である。オーディオ信号の場合、時間領域（例えば、ＰＣＭ）サンプルまたはＭＤＣＴ係数などのサンプルは、時間軸に沿って順序付けられている。しかしながら、セット１６の項目は、スペクトル領域で順序付けられてもよい。すなわち、セット１６の項目は、例えば、画像、ビデオまたはオーディオ信号のスペクトル分解の係数を表すことができる。その場合、プロセス３０および逆プロセス３８は、スペクトル分解または順方向変換または逆変換をそれぞれ表すことができる。これらのすべての場合において、関連性スコア割当器５０によって得られるように関連性スコアＲ_iは、同様に順序付けられている、すなわち、それらは関連性スコアの順序付けられたセットを形成する、あるいは、換言すれば、セット１６で覆われた"関連性マップ"または処理３８を介してデータ１０６を形成する。従って、処理装置１０２は、例えば、セット１６の項目間の順序またはデータ１０６のサンプルの順序を使用してデータ１０６のセット１６の視覚化を実行し、視覚化の関連性マップを強調するために関連性マップを使用する。例えば、処理結果１０４は、スクリーン上の画像の提示であり、セット１６またはデータ１０６における関連性がそれぞれ増加した部分を示すために、関連性マップ装置１０２を使用して、例えば、点滅、色反転などを使用して画面上の一部を強調表示する。このようなシステム１００は、例えば、データ１０６またはセット１６によって表されるシーンの特定の部分、例えばビデオまたは画像に警備員の注意を引くためにビデオ監視の目的で使用することができる、

あるいは、装置１０２によって実行される処理は、データ補充を表すことができる。例えば、データ補充は、メモリからの読出しを指してもよい。別の代替として、データ補充は、さらなる測定を含むことができる。例えば、セット１６が再び順序付けられたコレクションである、すなわち画像１０６に属する特徴マップであるということは、ピクチャ自体またはビデオであると仮定する。その場合、処理装置１０２は、ＲＯＩすなわち関心領域の情報内の関連性スコアＲ_iから導出することができ、セット１６が参照される完全なシーンに関するデータ補充を行わないようにするために、このＲＯＩにデータ補充を集中させることができる。例えば、第１の関連性スコアの割当ては、低解像度の顕微鏡画像上で装置５０によって実行することができ、装置１０２は、関連性スコアが高い関連性であることを示す低解像度顕微鏡画像からローカル部分に関して別の顕微鏡測定を行うことができる。従って、処理結果１０４は、データ補充、すなわち、高解像度顕微鏡画像の形でのさらなる測定である。

従って、データレートの支出を制御する目的のために、図１１および図１２のシステム１００を使用する場合において、システム１００は、効率的な圧縮コンセプトをもたらす。視覚化プロセスのためにシステム１００を使用する場合、システム１００は、視聴者が関心のあるいくつかの領域を実現する可能性を高めることができる。データ補充を合理化するためにシステム１００を使用する場合において、システム１００は、無関係な領域に関するデータ補充の実行を回避することによって、データ補充の量を回避することができる。

図１３は、１組の項目の関心領域を強調表示するシステム１１０を示す。すなわち、図１３の場合、項目のセットは、再び、特徴マップ、画像、ビデオ、オーディオ信号などの順序付けられたコレクションであると仮定される。関連性スコア割当て器５０は、関連性スコア割当て器５０によって提供される関連性スコアＲ_iに依存する関連性グラフを生成するグラフ生成器１１２に加えて、システム１１０によって構成される。関連性グラフ１１４は、すでに上述したように、関連性Ｒ_iを「測定」するために色が使用されるヒートマップであってもよい。関連性スコアＲ_iは、上述したように、スカラーであるか、あるいは、画像の１つのカラー画素に属する異なる色成分のサブ画素の関連性スコアのような、一緒に属している合計マッピング関連性スコアによってスカラー化することができる。スカラー関連性スコアＲ_iは、例えば、個々の画素の１次元スカラー関連性スコアをＣＣＴ値として使用して、グレースケールまたはカラーにマッピングすることができる。しかしながら、１次元からＲＧＢのような３次元色空間への任意のマッピングは、有色マップを生成するために使用することができる。たとえば、スコアを色相の間隔にマッピングし、彩度と値のディメンションを固定してから、ＨＳＶ表現をＲＧＢ表現に変換する。

しかしながら、関連性グラフ１１４は、代わりに、ヒストグラムなどの形で表されてもよい。グラフ生成器１１２は、関連性グラフ１１４を表示するためのディスプレイを含むことができる。これを越えて、グラフ生成器１１２は、関連性スコア割当器５０を実装するコンピュータプログラムとは別個のまたはその中に含まれ得るコンピュータプログラムのようなソフトウエアを使用して実装することができる。

具体的な例として、項目のセット１６が画像であると仮定する。割当て器に従って得られた各画素の画素単位の関連性スコアは、値のセットの中に／の上に離散化／量子化されて、離散化／量子化インデックスは色のセットにマッピングされ得る。マッピングは、グラフ生成器１１２において行われてもよい。ピクセルの色への割当ての結果、すなわち色に関するいくつかのＣＣＴ（色温度）測定に従った関連性−色マッピングの場合における例えば「ヒートマップ」は、データベースにおけるまたは記憶媒体上の画像ファイル、または生成器１１２によってビューアに提示される画像ファイルとして保存され得る。

代替的に、画素の色への割当ては、元の画像と重なり合うことができる。この場合、図１１および図１２のプロセッサ１０２は、グラフ生成器として機能することができる。得られたオーバーレイ画像は、媒体上の画像ファイルとして保存するか、または視聴者に提示することができる。「オーバーレイ」は、例えば、元の画像をグレースケール画像に変換し、画素単位の関連性スコアを明度に写像して色相値に写像するのに使用することによって行うことができる。オーバーレイ画像は、色相−彩度−明度表現を使用することによってプロセッサ１０２によって生成することができる。すなわち明度（ただし、ほぼ黒色の画素にははっきりと見える色がないために、非常に小さい値の上限を有し、元の画像から彩度も取られる）は、元画像のグレースケールバージョンの各サンプルのグレースケール値から得られ、色相値はカラーマップから取得される。プロセッサ１０２は、単に輪郭が描かれたように生成された画像、例えば、カラーマップまたはオーバーレイまたは関連性スコアの順序付けられたセット（画像として表現することができるが、これは要件ではない）をセグメンテーションに従わせることができる。非常に高いスコアまたは大きな絶対値を有するスコアを有する領域に対応する、そのようなセグメント化された画像内のセグメントは、抽出され、データベースまたは記憶媒体に記憶され、（後の手検測の有無にかかわらず）分類器訓練手順のための追加の訓練データとして使用される。項目のセット１６がテキストである場合、関連性割当ての結果は、上述したように、単語または文ごとのスコアとの関連性となり得る。次に、関連性スコアは、離散化して値のセットにし、色のセットにマッピングし得る。次いで、プロセッサ１０２によって、単語が色によってマークされ、得られた色で強調表示されたテキストをデータベースまたは記憶媒体に保存するか、または人に提示し得る。あるいは、または単語に強調表示することに加え、プロセッサ１０２は、テキストの単語、文章部分または文のサブセット、すなわちスコアの最高値または最高絶対値を有するもの（例えば、スコアまたはその絶対値の閾値処理により）を選択し、この選択をデータベースまたは記憶媒体に保存するか、またはそれを人に提示する。関連性割当てがデータセット１６に適用されて、サンプルがデータベースのテーブルに格納された企業に関する財務データなどのキー値の組のセットからなるようなデータセット１６に適用される場合、各サンプルの結果は、キー値のペアごとに関連性スコアとなるであろう。所与のサンプルについて、スコアの最高値または最高の絶対値（例えば、スコアまたはその絶対値の閾値処理により）を有するキー値ペアのサブセットを選択でき、この選択をデータベースまたは記憶媒体に記録し、またはそれを人に提示することができる。これは、プロセッサ１０２または生成器１１２によって行うことができる。

さらに、プロセッサ１０２は、セット１６としての画像である場合、以下のように作用し得る。ちょうど輪郭が描かれたセグメンテーションは、すべてのピクセルに対するスコアのセットまたはオーバーレイ画像またはカラーマップに適用され得て、非常に高いスコアを有する領域か、または絶対値が大きいスコアを有する領域に対応するセグメントが抽出され得る。次に、プロセッサは、原画像１６のこれらの同じ位置にあるセグメントを、特徴的なまたは特異なコンテンツの可能性に関するコンテンツをチェックするために、人または別のアルゴリズムに提示することができる。これは、たとえばセキュリティガードアプリケーションで使用できる。同様に、セット１６は、ビデオであってもよい。ビデオ全体は、順番に一連のフレームで構成されている。項目のセット１６内の項目は、既に上述したように、フレームまたはフレームのサブセットまたはフレームのサブセットからの領域のセットであってもよい。時空間ビデオセグメンテーションは、項目の平均スコアが高いか、または項目のスコアの平均絶対値が高い時空間領域を見つけるために、項目の関連性スコア割当てに適用することができる。上述のように、領域内の項目に割当てられた平均スコアは、例えばp平均または区分点推定器を使用して測定し得る。ある閾値を超えるスコアのような最も高いこの種のスコアを有する時空間領域は、プロセッサ１０２によって（例えば、画像またはビデオセグメンテーションによって）抽出でき、特徴的なあるいは特異なコンテンツの可能性に関するコンテンツの検査のために、人または他のアルゴリズムに提示される。チェックのためのアルゴリズムは、プロセッサ１０２に含まれていてもよいし、外部のものであってもよい。これは、（最も）高いスコアの領域のチェッ
クに言及した上記の機会にも当てはまる。

一実施形態によれば、ちょうど言及したこのようなスコアの最も高い時空間的な領域は、ビデオに関してなされた予測のトレーニング改善のために使用される。前述したように、項目のセット１６は、一連のフレームによって表すことができるビデオ全体である。項目のセット内の項目は、フレームまたはフレームのサブセット、またはフレームのサブセットからの領域のセットである。次いで、ビデオセグメンテーションが、項目の平均スコアが高いか、または項目のスコアの平均絶対値が高い時空間領域を見つけるのに適用される。プロセッサ１０２は、領域上の間接接続を介して選択されたニューロンの入力の一部となるように、他のニューロンに接続されたニューラルネットワークのニューロンを選択し得る。プロセッサ１０２は、入力画像および上記のように選択されたニューロン（例えば、関連性スコアが高いか、またはそれらの絶対値の高い領域からの直接的または間接的な入力を有することによって）が与えられた場合、プロセッサ１０２は、選択されたニューロンの入力の重みと、選択されたニューロンの直接的または間接的な上流近傍であるこれらのニューロンの重みを変更することによって、ネットワーク出力またはネットワーク出力の２乗を増加させようとするか、ネットワーク出力を減少させようとする。このような変化は、例えば、変更されるべき重みに関する所与の画像に関するニューロン出力の勾配を計算することによって行うことができる。次に、ステップサイズの定数の勾配倍で重みを更新する。言うまでもなく、時空間領域は、画素ごとのスコアのセグメント化、すなわち画素をセット１６の項目として使用し、次に上で概説した最適化を実行することによっても得ることができる。

図１４は、ニューラルネットワークを最適化するためのシステムを示す。このシステムは、一般に、参照符号１２０を用いて示され、関連性スコア割当て器５０、アプリケーション装置１２２、および検出および最適化装置１２４を含む。アプリケーション装置１２２は、装置５０を項目の複数の異なるセット１６に適用するように構成されている。従って、各アプリケーションに関して、装置５０は、セット１６の項目に関する関連性スコアを決定する。しかしながら、このとき、装置５０は、逆伝搬中にニューラルネットワーク１０の個々の中間ニューロン１２に割当てられた関連性値も出力し、それによって、各アプリケーションに関する前述の関連性パス３４を得る。換言すれば、装置５０の各アプリケーションに関しそれぞれのセット１６に適用することにより、検出および最適化装置１２４は、ニューラルネットワーク１０の関連する伝搬マップ１２６を得る。装置１２４は、装置５０のアプリケーション中にネットワーク１０の中間ニューロン１２に割当てられた関連性を異なるセット１６に蓄積するか重合わせることにより、ニューラルネットワーク１０内の関連性の高い部分１２８を検出する。換言すれば、装置１２４は、セット１６の母集団上で装置５０の逆伝播プロセスにおいて関連性の高いパーセンテージを伝播するニューロンを含むニューラルネットワーク１０の部分１２８を得るために、異なる関連性伝搬マップ１２６を重ね合わせることにより、重畳あるいは蓄積する。この情報は、人工ニューラルネットワーク１０を最適化する（１３２）ように、装置１２４によって使用されてもよい。特に、例えば、人工ニューラルネットワーク１０のニューロン１２の相互接続のいくつかは、その予測能力を損なうことなく人工ニューラルネットワーク１０を小さくするために取除かれてもよい。しかし、他の可能性も存在する。

さらに、関連性スコア割付けプロセスがヒートマップを与えることがあり、ヒートマップは、例えば、滑らかさおよび他の特性に関して分析される。分析に基づいて、何らかのアクションが引起こされる可能性がある。例えば、ニューラルネットワークのトレーニングは、ヒートマップ分析に従って「十分に良い」という概念を捕捉するので、停止することができる。さらに、ヒートマップ分析結果は、ニューラルネットワーク予測結果、すなわち何かを行うための予測と共に使用されてもよいことに留意されたい。特に、ヒートマップと予測結果の両方に頼ることは、例えば、ヒートマップが予測の確実性について何かを伝える可能性があるため、予測結果のみに頼るよりも有利かもしれない。ニューラルネットワークの品質は、ヒートマップの分析によって潜在的に評価することができる。

最後に、提案された関連性伝播が、分類タスクに関して訓練されたネットワークに関して主に上に例示されているが、一般性を失うことなく、上述の実施例は、出力クラスに帰属するスコアを割当てる任意のネットワークに適用できる。これらのスコアは、回帰や順位付けなどの他の手法を使用して学習することができる。

従って、上記の説明では、ニューラルネットワーク予測器を理解することを可能にする層単位関連性伝播と呼ぶことができる方法を具体化する実施形態が提示されている。この新しい原理の様々な応用が実証された。画像については、画素の寄与をヒートマップとして視覚化することができ、直観的に分類判定の妥当性を検証するだけでなく、潜在的な関心領域についてのさらなる解析に焦点を当てることができる人間の専門家に提供することができることが示されている。この原理は、上述のように、画像に限定されない様々なタスク、分類器およびデータのタイプに適用することができる。

いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する、対応する方法の記述も表すことは明らかである。同様に、方法ステップの文脈において説明される態様は、対応するブロックまたは項目の記述または対応する装置の特徴も表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（または、を使用することによって）、実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの１つまたは複数のいくつかを、そのような装置によって実行することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウエアで実施することができる。実装は、電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどを使用して実行でき、それは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。従って、デジタル記憶媒体は、コンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行できるように、プログラム可能なコンピュータシステムと協働できる、電子的に読取り可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の１つを実行するように動作する。プログラムコードは、例えば、機械読取り可能なキャリアに格納することができる。

他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含み、そこに記録されたデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形および／または非移行型である。

従って、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、データ通信接続、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成された、または適合される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。

さらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的にまたは光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実装することができる。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実行することができる。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された配置および詳細の修正および変形は、当業者には明らかであることが理解される。従って、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明によって示される特定の詳細によっては限定されないことが意図される。

参考文献一覧
[6] Christopher M Bishop et al. Pattern recognition and machine learning, volume 1. springer New York, 2006.
[10] Hendrik Dahlkamp, Adrian Kaehler, David Stavens, Sebastian Thrun, and Gary R. Bradski. Self-supervised monocular road detection in desert terrain. In Robotics: Science and Systems, 2006.
[11] Jia Deng, Alex Berg, Sanjeev Satheesh, Hao Su, Aditya Khosla, and Fei-Fei Li. The ImageNet Large Scale Visual Recognition Challenge 2012 (ILSVRC2012). http://www.image-net.org/challenges/LSVRC/2012/.
[12] Dumitru Erhan, Yoshua Bengio, Aaron Courville, and Pascal Vincent. Visualizing higher-layer features of a deep network. Technical Report 1341, University of Montreal, June 2009.
[15] L. Fei-Fei and P. Perona. A bayesian hierarchical model for learning natural scene categories. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 2, pages 524−531 vol. 2, 2005.
[16] Muriel Gevrey, Ioannis Dimopoulos, and Sovan Lek. Review and comparison of methods to study the contribution of variables in artificial neural network models. Ecological Modelling, 160(3):249−264, 2003.
[17] Ronny Hansch and Olaf Hellwich. Object recognition from polarimetric SAR images. In Uwe Soergel, editor, Radar Remote Sensing of Urban Areas, volume 15 of Remote Sensing and Digital Image Processing, pages 109−131. Springer Netherlands, 2010.
[20] Yangqing Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.
[23] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. In Peter L. Bartlett, Fernando C. N. Pereira, Christopher J. C. Burges, Leon Bottou, and Kilian Q. Weinberger, editors, NIPS, pages 1106−1114, 2012.
[25] Yann LeCun and Corinna Cortes. The MNIST database of handwritten digits. http://yann.lecun.com/exdb/mnist/, 1998.
[26] Yann LeCun, Koray Kavukcuoglu, and Clement Farabet. Convolutional networks and applications in vision. In ISCAS, pages 253−256. IEEE, 2010.
[27] Quoc V. Le. Building high-level features using large scale unsupervised learning. In ICASSP, pages 8595−8598, 2013.
[31] Gregoire Montavon, Genevieve B. Orr, and Klaus-Robert Muller, editors. Neural Networks: Tricks of the Trade, Reloaded, volume 7700 of Lecture Notes in Computer Science (LNCS). Springer, 2nd edn edition, 2012.
[34] Julian D Olden, Michael K Joy, and Russell G Death. An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data. Ecological Modelling, 178(3−4):389−397, 2004.
[36] Nicolas Pinto, David D Cox, and James J DiCarlo. Why is real-world visual object recognition hard? PLoS Comput Biol, 4(1):27, 1 2008.
[39] David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning representations by back-propagating errors. Nature, 323:533−536, Oct 1986.
[41] Rudy Setiono and Huan Liu. Understanding neural networks via rule extraction. In IJCAI, pages 480−487. Morgan Kaufmann, 1995.
[42] Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. CoRR, abs/1312.6034, 2013.
[43] Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian J. Goodfellow, and Rob Fergus. Intriguing properties of neural networks. CoRR, abs/1312.6199, 2013.
[49] Paul A. Viola and Michael J. Jones. Rapid object detection using a boosted cascade of simple features. In CVPR (1), pages 511−518, 2001.
[50] Ross Walker, Paul Jackway, Brian Lovell, and Dennis Longstaff. Classification of cervical cell nuclei using morphological segmentation and textural feature extraction. In Australian New Zealand Conference on Intelligent Information Systems, 1994.
[54] Matthew D. Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901, 2013.
[55] Matthew D. Zeiler, Graham W. Taylor, and Rob Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In ICCV, pages 2018−2025, 2011.

Claims

関連性スコアを項目のセットに割り当てるための装置であって、前記関連性スコアはニューロン（１２）で構成された人工ニューラルネットワーク（１０）の適用に対する関連性を項目（４２）の前記セット（１６）上に示して、前記項目（４２）のセット（１６）をネットワーク出力（１８）上にマッピングし、前記装置は、
前記人工ニューラルネットワーク（１０）を介して初期関連性スコアを逆伝播させることによって、前記ネットワーク出力（１８）から導き出された前記初期関連性スコア（Ｒ）を項目のセット（１６）に再分配して、各項目について関連性スコアを得るように構成され、
前記装置は、各ニューロンについて、前記各ニューロンの下流近隣ニューロンのセットの予備的に再分配された関連性スコアが、分布関数を使用して前記各ニューロンの上流近隣ニューロンのセットに分配されるように逆伝播を実行するように構成され、
前記装置は、前記分布関数が、
前記各ニューロンの上流近隣ニューロンのセットによって前記各ニューロンの影響の程度を決定する、前記人工ニューラルネットワークの重みと、
項目（４２）のセット（１６）に前記人工ニューラルネットワーク（１０）を適用した際に現れる、前記上流近隣ニューロンのセットのニューロン活性化と、
前記各ニューロンの前記下流近隣ニューロンのセットの予備的に再分配された関連性スコアの合計と、
の関数であるように構成されている、
装置。
前記装置は、前記分布関数が関連性保存特性を有するように構成される、請求項１に記載の装置。
前記装置は、前記人工ニューラルネットワークのすべてのニューロンに対して１つの分布関数を等しく使用して前記逆伝播を実行するように構成されている、請求項１または２に記載の装置。
ｍ（[Ｒ_jk，ｋは、ｊの下流ニューロンである]）=Σ_kＲ_jkである、請求項４に記載の装置。
前記装置は、前記関数ｑ（ｉ）が、ｑ（ｉ）= ｐ（｛ｚ_ij｜ｉはｊの上流近隣ニューロンである｝）となるように関数ｓによって計算される重み付き活性化ｚ_ij＝ｓ（ｘ_i，ｗ_ij，ｂ_j）の関数ｐであるように構成されている、請求項４または５に記載の装置。
前記装置は、前記関数g（・）が
ｇ（ｚ）＝αｍａｘ（０，ｚ）？βｍｉｎ（０，ｚ）
で与えられ、ここでα> ０，β≧０であるように構成されている、請求項９に記載の装置。
前記装置は、前記関数ｑ（ｉ）が前記ニューロンのニューラルネットワーク関数のテイラー型分解を継承する、または前記ニューロンの人工ニューラルネットワーク関数のテイラー型分解に比例するように構成されている、請求項４ないし１０のいずれかに記載の装置。
前記関連性メッセージＲ_ijが、データから学習され、ニューロンｊの上流近隣ｉの活性化ｘ_iを近似誤差まで値ｍ（[Ｒ_jk，ｋはｊの下流ニューロン]）にマッピングする関数のテイラー近似に比例するように構成されている、請求項４ないし１０のいずれかに記載の装置。
ｍ（[Ｒ_jk，ｋはｊの下流ニューロンである]）= Σ_kＲ_jk
である、請求項１３または１４に記載の装置。
h()は安定化関数
h(t)=t+ε・sign(t)
であって、ここで、εは０以上の値を有し、分数関数として表現される前記分布関数の分母に記述される前記安定化関数の値がゼロになることを阻止する、請求項１３から１５までのいずれかに記載の装置。
前記装置は、各項目ｉについて、それぞれの項目を上流近隣ニューロンとして有するニューロンの、それぞれの項目に再分配された関連性メッセージを合計することによって、各項目ｉの関連性スコアＲ_iを計算するように構成された、請求項１ないし１６のいずれかに記載の装置。
前記人工ニューラルネットワークは項目のセットに直接適用されて、前記項目（４２）のセット（１６）の前記項目が人工ニューラルネットワークの人工ニューロンのサブセットにとっての上流近隣を形成し、前記ネットワーク出力は、前記人工ニューラルネットワークの下流端におけるニューロンのニューロン活性化に対応する請求項１ないし１７のいずれかに記載の装置。
前記ネットワーク出力（１８）はスカラーであり、そこから導出された初期関連性スコアは前記スカラーの値に等しいか、単調増加関数を前記スカラーの値に適用することによって導出される、または、前記ネットワーク出力はベクトルであり、初期関連性スコアはベクトルの１つまたは複数の成分の値に等しいか、または単調増加関数を前記ベクトルの１つまたは複数の成分の値に適用することによって導出される、請求項１ないし１８のいずれかに記載の装置。
前記装置は、０．９５・R≦f（ΣRi）≦１．０５・Rとなるように逆伝播を実行するように構成され、ΣRiは、前記項目（４２）のセット（１６）のすべての項目iの関連性スコアを合計したものを表し、fはΣRiにのみ依存する単調関数である、請求項１ないし１９のいずれかに記載の装置。
前記装置は、fが恒等関数であるように構成されている、請求項２０に記載の装置。
前記装置は、各ニューロンについて、前記分布関数によって各ニューロンの上流近隣ニューロンの前記セットに分配された関連性メッセージの合計がξ（S_N）に等しいか、５%以下しか逸脱しないように構成され、但し、S_Nは前記各ニューロンの下流隣接ニューロンのセットから前記各ニューロンへの関連性メッセージの合計を表し、ξはS_Nにのみ依存する単調関数を表す、請求項１ないし２１のいずれかに記載の装置。
前記装置は、ξが恒等関数であるように構成される、請求項２２に記載の装置。
前記人工ニューラルネットワークは、各ニューロン（１２）が層のシーケンスのうちの１つに属するように層化され、前記装置は、前記人工ニューラルネットワークのすべてのニューロンについて１つの分布関数を等しく使用して前記逆伝播を実行するように構成される、請求項１ないし２３のいずれかに記載の装置。
前記人工ニューラルネットワークは、各ニューロン（１２）が層のシーケンスのうちの１つに属するように層化されており、前記装置は、各層について、各層のニューロンに分配された関連性メッセージの合計がζ（S_L）に等しいか、または５％以下しか逸脱しないように逆伝播を実行するように構成され、
但し、S_Lは各層の下流の層のニューロンの予備的に再分配された関連性スコアの合計を表し、ζはS_Lにのみ依存する単調関数を表す、請求項１ないし２３のいずれかに記載の装置。
前記項目のセット（１６）は、
前記項目（４２）のセット（１６）のうちの各項目（４２）がピクチャの１つ以上のピクセルまたはサブピクセルに相当する、ピクチャ、および／または
前記項目（４２）のセット（１６）のうちの各項目（４２）がビデオのピクチャの１つ以上のピクセルまたはサブピクセル、ビデオのピクチャ、またはビデオのピクチャシーケンスに相当する、ビデオ、および／または
前記項目（４２）のセット（１６）のうちの各項目（４２）がオーディオ信号の１つ以上のオーディオサンプルに相当する、オーディオ信号、および／または
前記項目（４２）のセット（１６）の内の前記項目（４２）が局所的特徴に相当する、ピクチャ、ビデオまたは音声信号から局所的にまたは大域的に抽出された局所的特徴の特徴マップまたは変換、および／または
前記項目（４２）のセット（１６）の各項目（４２）がテキストの単語、文章または段落に相当する、テキスト、および／または
前記項目（４２）のセット（１６）の前記項目（４２）がノードまたはエッジまたはノードのセットまたはエッジのセットまたはサブグラフに相当する、ソーシャルネットワーク関係グラフ等のグラフ、
である、または上記の組合せである、請求項１ないし２５のいずれかに記載の装置。
データ処理のためのシステム（１００）であって、
項目のセットに関連性スコアを割当てるための装置（５０）であって、前記装置は、請求項１ないし２６のいずれかに記載の装置と、
前記項目のセットまたは前記項目のセットから導出された処理すべきデータ（１０６）を、前記関連性スコアに応じて前記処理を適応させて、処理するための装置（１０２）と、を備えるシステム。
前記処理は非可逆処理であり、前記処理するための装置は、割当てられた関連性スコアが低い項目と比較するとより高い関連性スコアを有する項目の前記非可逆処理の非可逆性を低減するように構成される、請求項２７に記載のシステム。
前記処理は視覚化であって、前記処理するための装置は前記関連性スコアに応じて前記視覚化においてハイライトを実行するように構成される、請求項２７に記載のシステム。
前記処理は、メモリからの読出しまたはさらなる測定の実行によるデータ補充であって、前記処理するための装置（１０２）は前記関連性スコアに応じて前記データ補充に集中するように構成される、請求項２７に記載のシステム。
関心領域をハイライトするためのシステム（１１０）であって、
項目のセットに関連性スコアを割当てるための装置（５０）であって、請求項１ないし２６のいずれかに記載の装置と、
前記関連性スコアに応じて関連性グラフ（１１４）を生成するための装置（１１２）とを備える、システム。
人工ニューラルネットワークを最適化するためのシステム（１２０）であって、
項目のセットに関連性スコアを割当てるための装置（５０）であって、前記装置は請求項１ないし２６のいずれかに記載の装置と、
複数の異なる項目のセットに前記割当てるための装置を適用するための装置（１２２）と、
前記割り当てるための装置を前記複数の異なる項目のセットに適用している最中に前記人工ニューラルネットワークの前記ニューロンに割当てられた関連性を蓄積することによって前記人工ニューラルネットワーク内の関連性の高い部分（１２８）を検出し、関連性の高い部分に応じて前記人工ニューラルネットワークを最適化するための装置（１２４）とを備えた、
システム（１２０）。
項目のセットに関連性スコアを割り当てるための方法であって、前記関連性スコアは、ニューロン（１２）で構成される人工ニューラルネットワーク（１０）の前記項目（４２）のセット（１６）への適用に関しての関連性を示して前記項目（４２）のセット（１６）をネットワーク出力にマッピングし、前記方法は、
関連性スコア取得装置により前記人工ニューラルネットワーク（１０）を介して初期関連性スコアを逆伝播させることによって、前記ネットワーク出力（１８）から導出された前記初期関連性スコア（R）を前記項目（４２）のセット（１６）に再分配して各項目について関連性スコアを得るステップを含み、
前記逆伝播は、各ニューロンについて、各ニューロンの下流近隣ニューロンのセットの予備的に再分配された関連性スコアが、分布関数を使用して各ニューロンの上流近隣ニューロンのセットに分配されるように実行され、
前記分布関数は、
前記各ニューロンの上流近隣ニューロンのセットによって前記各ニューロンの影響の程度を決定する前記人工ニューラルネットワークの重みと、
項目（４２）のセット（１６）に前記人工ニューラルネットワーク（１０）を適用した際に現れる、上流近隣ニューロンのセットのニューロン活性化と、
前記各ニューロンの下流近隣ニューロンのセットの予備的に再分配された関連性スコアの合計と、
の関数である、
方法。
コンピュータ上で実行された時に、請求項３３に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。