JP7270058B2

JP7270058B2 - 予測的組織パターン特定のためのマルチプルインスタンスラーナ

Info

Publication number: JP7270058B2
Application number: JP2021552185A
Authority: JP
Inventors: エルダドクライマン，; ヤコブギルデンブラト，
Original assignee: エフ・ホフマン－ラ・ロシュ・アクチェンゲゼルシャフト
Priority date: 2019-03-12
Filing date: 2020-03-09
Publication date: 2023-05-09
Anticipated expiration: 2040-03-09
Also published as: EP3938948A1; CN113454733A; US11901077B2; WO2020182710A1; CN113454733B; US20210350176A1; JP2022527145A

Description

本発明は、デジタル病理学の分野、特に、画像分析の分野に関する。

組織サンプル画像の分析に基づく、診断プロセスと、好適な治療の特定と、を補助するために使用できる、様々な画像分析方法が知られている。

いくつかの画像分析技術は、特定の疾患の存在、及び／又は、特定の薬を用いての、その疾患の良好な治療の可能性のインジケータとしての用に供されることが知られている、画像における構造をサーチするための異なる手順を使用することに基づく。例えば、がん患者における免疫療法の過程で使用されるいくつかの薬は、特定の免疫細胞が、がん細胞から特定の距離にて見つかる場合にのみ効果がある。この場合では、疾患の存在、及び／又は、その推奨する治療についてのステートメントを行うことができるようにするために、組織画像における、それらの対象、すなわち、特定の細胞タイプ、又は、特定の下位及び上位細胞構造を自動的に認識するための試みが行われる。この方法の不都合な点は、画像分析アルゴリズムが、進行したそれらの構造のみを認識することである。このタイプの画像分析はしたがって、特定の細胞及び組織構造と、特定の疾患又はそれらの治療オプションと、の間の関係についての既存の医学知識に基づく。したがって、この画像分析のアプローチは、特定の疾患及び／又はその治療に関しての、未知の予測的特徴を検出することには適しておらず、一定期間に利用可能な医学知識に限定される。医学関係の知識を拡張すること、すなわち、疾患の特定の形態が存在するかどうか、及び／又は、特定の薬が、この疾患において効果があるかどうかについて、予測を行うことを可能にする、これまでに未知の性質及び組織構造を特定することには適していない。

他の画像分析方法、特に、教師なし機械学習方法は、その予測パワーがプロフェッショナルの世界に未知である、及び／又は、画像の分析において病理学者が容易に気付くことができない組織パターン及び性質をも考慮することができるようにする。なぜなら、それらの性質は、例えば、いくつかの他の性質の存在の有無、及び／又は、それらの発現力に起因する、導き出された性質となり得るからである。これらの方法の不都合な点は、それらは通常、ブラックボックスのように働くことである。換言すると、これらの技術を使用する病理学者は、予測に対して、どの組織形質が最終的に決定的であったかを正確に特定することができないまま、それらのアルゴリズムの予測パワーに依存しなけらばならない。これは、例えば、薬の承認において、かなりの不都合な点となり得る。なぜなら、この目的に、特定の治療から恩恵を被る患者のグループが、明示的に特定されなければならないからである。これは、この「ブラックボックス」に完全に、又は、部分的に依存しなければならないような医師及び患者にとって、潜在的に効果があるものの、副作用の多い薬の、特定の患者への投与が、内在する「決定ロジック」を言語化できないまま、理にかなうものであるかを決める際に、不満足なものともなる。

本発明の目的は、独立請求項において指定されるような、患者関連属性値を示す組織パターンを特定する、改善された方法と、これに対応する画像分析システムと、を提供することである。本発明の実施形態は、従属請求項に与えられている。本発明の実施形態は、それらが互いに排他的でなければ、互いに自由に組み合わされ得る。

１つの態様では、本発明は、患者関連属性値を示す組織パターンを特定する方法に関する。本方法は、
画像分析システムにより、患者のグループにおける各患者に対して、患者の組織サンプルの少なくとも１つのデジタル画像を受信することであって、少なくとも１つの画像には、少なくとも２つの異なる、予め定められたラベルの内の１つが割り当てられており、各ラベルは、その組織が、ラベル付けされた画像に描かれている患者の患者関連属性値を示す、患者のグループにおける各患者に対して、患者の組織サンプルの少なくとも１つのデジタル画像を受信することと、
画像分析システムにより、各受信した画像を、画像タイルのセットに分割することであって、各タイルには、そのタイルを生成することに使用された画像に割り当てられたラベルが割り当てられている、各受信した画像を、画像タイルのセットに分割することと、
タイルのそれぞれに対して、画像分析システムにより、そのタイルに描かれている組織パターンから選択的に抽出された画像特徴を含む特徴ベクトルを計算することと、
マルチプルインスタンスラーニング（Ｍｕｌｔｉｐｌｅ－Ｉｎｓｔａｎｃｅ－Ｌｅａｒｎｉｎｇ、ＭＩＬ）プログラムに、グループにおけるすべての患者に対して受信したすべての画像のすべてのタイル及びそれぞれの特徴ベクトルをトレーニングさせることであって、タイルの各セットは、ＭＩＬプログラムにより、同じラベルを有するタイルのバッグとして扱われており、トレーニングさせることは、タイルのそれぞれに対して、タイルが導き出された画像に割り当てられたラベルに関して、タイルに関連付けられた特徴ベクトルの予測パワーを示す数値を計算するために、特徴ベクトルを分析することを含む、マルチプルインスタンスラーニング（Ｍｕｌｔｉｐｌｅ－Ｉｎｓｔａｎｃｅ－Ｌｅａｒｎｉｎｇ、ＭＩＬ）プログラムに、グループにおけるすべての患者に対して受信したすべての画像のすべてのタイル及びそれぞれの特徴ベクトルをトレーニングさせることと、
画像分析システムのグラフィカルユーザインタフェース（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ又はＧＵＩ）を介して、画像タイルのレポートギャラリを出力することであって、レポートギャラリは、タイルのサブセットを含み、タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされている、及び／又は、それらのそれぞれの数値の図形表現を含む、画像タイルのレポートギャラリを出力することと、
を含む。

この方法は、生物医学のエキスパートの明確な知識に基づく画像分析方法の利点を、機械学習方法の利点と組み合わせ得るため、好適となり得る。機械学習において、マルチプルインスタンスラーニング（ｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅ－ｌｅａｒｎｉｎｇ又はＭＩＬ）は、１つのタイプの教師あり学習である。個別にラベル付けされたインスタンスのセットを受信する代わりに、ラーナは、それぞれが多くのインスタンスを含む、ラベル付けされたバッグのセットを受信する。マルチプルインスタンスの二項分類のシンプルな場合では、バッグにおけるすべてのインスタンスが負であれば、そのバッグは負にラベル付けされ得る。一方、バッグにおける少なくとも１つのインスタンスが正であれば、そのバッグは正にラベル付けされる。ラベル付けされたバッグを集めたものから、ラーナは、（ｉ）個別のインスタンスに正しくラベル付けするコンセプトを導入する、又は、（ｉｉ）そのコンセプトを導入することなく、バッグにラベル付けする方法を学習する、のどちらかを試す。ＭＩＬについての便利でシンプルな例が、Ｂａｂｅｎｋｏ，Ｂｏｒｉｓ．による、「マルチプルインスタンスラーニング：アルゴリズム及びアプリケーション（Ｍｕｌｔｉｐｌｅｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ：ａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ）」（２００８）に与えられている。しかし、いくつかの実施形態に係るＭＩＬプログラムもまた、２つを超える異なるラベル（エンドポイント）に基づくトレーニングをカバーする。

本発明の実施形態によると、ＭＩＬプログラムは、バッグ（好ましくは、特定のラベル値を持つ特定の患者の組織セクションの１つ又はそれ以上の画像のすべてのタイル）の各インスタンス（タイル）に対して、したがって、また、タイルにそれぞれ描かれている組織パターンに対して、予測値を計算することに使用される。このステップでは、新たな生物医学的知識が、ＭＩＬプログラムにより特定され得る。なぜなら、トレーニングデータでは、画像のラベル及びそれぞれのタイルが、トレーニングに対するエンドポイントとして与えられているからであり、これは、ラベルと強く（正に、又は、負に）相関する、したがって、このラベルに対して予測的であるタイルから導き出された特徴ベクトルの個別の特徴ではないからである。加えて、個別のタイルに対して計算された予測値はまた、ギャラリにおいて関連付けられたタイルの図形表現と共に出力される。例えば、ギャラリにおけるタイルは、数値に従ってソートされ得る。この場合では、ギャラリにおけるタイルの位置は、病理学者又は他の人であるユーザが、特定のラベルに対して高く予測的であることがわかったタイルのいくつかに描かれている組織パターンを特定することを可能にする。加えて、又は代替的に、数値は、そのそれぞれのタイルに空間的に近接して表示され得る。これにより、ユーザは、特定のラベルに関して、類似する数値を有する１つ又はそれ以上のタイルに描かれている組織の組織パターンを調べ、理解することができる。

したがって、トレーニングフェーズの出力として生成された画像タイルギャラリは、患者の特定の患者関連属性値に関して、予測的である組織シグニチャを明らかにし得る。画像タイルと組み合わせて数値を提示することは、少なくとも多くの場合において、予測的組織パターン（これは、「組織シグニチャ」とも呼ばれ得る）が、病理学者により、類似する数値を有する、ギャラリにおけるいくつかのタイルを、より高い、又は、より低い数値を有する他のタイルと比較することにより、及び、レポートギャラリにおけるそれらのタイルのサブセットに描かれている組織シグニチャを比較することにより、特定され、言語化され得る、という恩恵を有し得る。

さらに有益な態様では、画像タイルをインスタンスとして扱うＭＩＬプログラムと、特定のラベル（例えば、「薬Ｄに対する反応＝真（ｔｒｕｅ）」、「マイクロサテライトステータス＝ＭＳＸ」、「ヒト上皮成長因子受容体（ｈｕｍａｎｅｐｉｄｅｒｍａｌｇｒｏｗｔｈｆａｃｔｏｒｒｅｃｅｐｔｏｒ又はＨＥＲ）２発現ステータス＝＋」）が割り当てられている同じ患者のすべての画像のすべてのタイルの合計と、を使用することは、全体スライド組織サンプル画像のコンテキストにおける患者関連特徴を予測することに特に適している。これは、全体スライド組織サンプルはしばしば、そのいくらかのみが、いずれの予測値を有し得る、多くの異なる組織領域をカバーするからである。例えば、微小転移巣は、数ミリメートルのみの直径であり得るが、スライド及びそれぞれの全体スライド画像は、数センチメートルの長さであり得る。全体画像は、「薬Ｄに対する反応＝真（ｔｒｕｅ）」などの特定のラベルを持って、サンプルが導き出された患者に対する経験的観察にしたがって、ラベル付けされているが、多くの免疫細胞を含み、正の反応に対して予測的である、微小転移巣の周りの組織領域はまた、数ミリメートルのみをカバーし得る。したがって、タイルの大多数は、画像毎の、典型的には、患者毎のラベルに関して、予測的であるいずれの組織領域を含まない。ＭＩＬプログラムは、インスタンスの大部分が、いずれの予測値のそれではないと推定される、データインスタンスのバッグに基づく予測的特徴を特定することに特に適している。

実施形態によると、受信したデジタル画像は、それらのピクセル強度値が、非バイオマーカ特異的染料、特に、ヘマトキシリン及びエオシン（Ｈｅｍａｔｏｘｙｌｉｎ＆Ｅｏｓｉｎ又はＨ＆Ｅ）染色剤の量と相関する、組織サンプルのデジタル画像を含む。

例えば、各タイルのバッグは、特定の薬に対するその反応が既知であるそれぞれの患者を表すことができる。この患者特有バッグに含まれるインスタンスは、この特定の患者のそれぞれの組織サンプルの１つ又はそれ以上の画像から導き出されたタイルである。組織サンプルは、Ｈ＆Ｅなどの、非バイオマーカ特異的染料を用いて染色されている。この患者のすべての組織画像、したがって、それらから導き出されたすべてのタイルには、ラベル「薬Ｄに対する反応＝真（ｔｒｕｅ）の患者」が割り当てられる。

これは、好適となり得る。なぜなら、Ｈ＆Ｅにて染色された組織画像は、染色された組織画像の最も共通する形態を表し、このタイプの染色はそれ単体で、特定の腫瘍のサブタイプ又はステージなどの患者関連属性値を予測することに使用され得る、たくさんのデータをすでに明らかにするからである。さらに、多くの病院は、過去に長年にわたって治療してきた患者から導き出された、Ｈ＆Ｅにて染色された組織画像の大規模データベースを含む。典型的には、病院はまた、特定の患者が特定の治療に反応したか否か、及び／又は、疾患の進行がどれほど早いか、又は、どれほど深刻であるか、に関してのデータを有する。したがって、それぞれの結果がラベル付けされ得る、トレーニング画像の多くのコーパスが利用可能である（例えば、特定の薬による治療の有効性（イエス／ノー）、１年を超えて進行のない生存期間、２年を超えて進行のない生存期間など）。

実施形態によると、受信したデジタル画像は、それらのピクセル強度値が、バイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像を含む。バイオマーカ特異的染料は、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合された染色剤である。例えば、バイオマーカは、ＨＥＲ－２、ｐ５３、ＣＤ３、ＣＤ８などの特定のプロテインであり得る。バイオマーカ特異的染料は、上記のバイオマーカに選択的に結合する抗体に結合される明視野顕微鏡又は蛍光顕微鏡用の染色剤であり得る。

例えば、各タイルのバッグは、特定の薬に対するその反応が既知であるそれぞれの患者を表すことができる。この患者特有バッグに含まれるインスタンスは、この特定の患者のそれぞれの組織サンプルの１つ又はそれ以上の画像から導き出されたタイルである。１つ又はそれ以上の組織サンプルが、１つ又はそれ以上のバイオマーカ特異的染料を用いて染色される。例えば、タイルは、ＨＥＲ２特異的染料を用いて染色された、同じ患者の隣接する組織スライドをすべてが描く１つ、２つ、又は３つの組織画像から導き出され得る。別の例によると、タイルは、ＨＥＲ２特異的染料を用いて染色された第１の組織サンプルを描く第１の組織画像と、ｐ５３特異的染料を用いて染色された第２の組織サンプルを描く第２の組織画像と、線維芽細胞活性化タンパク質（ｆｉｂｒｏｂｌａｓｔａｃｔｉｖａｔｉｏｎｐｒｏｔｅｉｎ又はＦＡＰ）特異的染料を用いて染色された第３の組織サンプルを描く第３の組織画像と、から導き出され得る。第１、第２、及び第３の組織サンプルは、同じ患者から導き出される。例えば、それらは、隣接する組織サンプルスライスであり得る。これら３つの組織画像は、３つの異なるバイオマーカを描くが、すべての組織画像は、同じ患者から導き出される。したがって、それらから導き出されたすべてのタイルには、ラベル「薬Ｄに対する反応＝真（ｔｒｕｅ）の患者」が割り当てられる。

ＭＩＬプログラムに、それらのピクセル強度値が、バイオマーカ特異的染料の量と相関するデジタル画像の画像タイルについてトレーニングさせることは、組織における１つ又はそれ以上の特定のバイオマーカの存在及び位置を特定することが、特定の疾患及び疾患のサブ形態に関して、特異な予測的情報を高度に明らかにし得る、という利点を有し得る。予測的情報は、２つ又はそれ以上のバイオマーカの存在との、観察される、正及び負の相関を含み得る。例えば、肺がん又は結腸がんなどのいくつかの疾患の推奨治療スキーム及び予測は、そのがんの変異性シグニチャ及び発現プロファイルに強く依存して観察される。時として、単一のマーカの発現は、それ単体では予測パワーを有しないが、複数のバイオマーカの組み合わされた発現、及び／又は、特定のさらなるバイオマーカが存在しないことは、特定の患者関連属性値に関して、高い予測パワーを有し得る。

実施形態によると、受信したデジタル画像は、それらのピクセル強度値が、第１のバイオマーカ特異的染料の量と相関する組織サンプルのデジタル画像と、それらのピクセル強度値が、非バイオマーカ特異的染料の量と相関する組織サンプルのデジタル画像と、の組み合わせを含む。バイオマーカ特異的染料は、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合された染色剤である。同じ患者から、同じ組織サンプルを描く、及び／又は、隣接する組織サンプルを描くすべてのデジタル画像には、同じラベルが割り当てられる。ＭＩＬは、それらのデジタル画像から導き出されるすべてのタイルを、同じタイルのバッグのメンバーとして扱うよう構成されている。

このアプローチは、組織における１つ又はそれ以上の特定のバイオマーカの存在及び位置を、Ｈ＆Ｅ染色により明らかにされる、情報の多い組織シグニチャと組み合わせて特定することが、特定の疾患及び疾患のサブ形態に関して、特異な予測的情報を提供し得る、という利点を有し得る。予測的情報は、２つ又はそれ以上のバイオマーカの存在との、及び／又は、Ｈ＆Ｅ染色により視覚的に明らかにされる組織シグニチャとの、観察される、正及び負の相関を含み得る。

実施形態によると、画像タイルのレポートギャラリに示す画像タイルは、受信した画像の１つ又はそれ以上の異なるものから導き出される。本方法は、レポートタイルギャラリに描かれている１つ又はそれ以上の画像のそれぞれに対して、
その画像から導き出されており、その画像から導き出されたすべてのタイルに、最も高いスコアが割り当てられている、レポートギャラリにおけるタイルの１つを特定することであって、１つの実施形態によると、このスコアは、ＭＩＬにより、各タイルに対して計算された数値であり、代替的な実施形態によると、このスコアは、本発明の実施形態についてここに説明するような、アテンションＭＬＬにより、各タイルに対して計算された加重であり、さらに別の実施形態によると、このスコアは、そのタイルに対して、ＭＩＬにより計算された数値と、アテンションＭＬＬにより計算された加重と、の組み合わせであり、これにより、この組み合わせは、例えば、数値と加重との乗算であり得る、レポートギャラリにおけるタイルの１つを特定することと、
画像の他のタイルのそれぞれに対して、他のタイルのスコアを、最も高いスコアを有するタイルのスコアと比較することにより、関連性インジケータを計算することであって、関連性インジケータは、他のタイルのスコアの、最も高いスコアを有するタイルのスコアとの差異と負に相関する数値である、関連性インジケータを計算することと、
関連性インジケータの関数として、画像に対する関連性ヒートマップを計算することであって、これにより、関連性ヒートマップのピクセルカラー及び／又はピクセル強度は、その画像におけるタイルに対して計算された関連性インジケータを示す、画像に対する関連性ヒートマップを計算することと、
関連性ヒートマップを表示することと、
を含む。例えば、関連性ヒートマップは、レポートタイルギャラリにおいて、関連性ヒートマップが計算された、全体スライド画像に空間的に近接して表示され得る。

例えば、画像の、最も高くスコア付けされたタイルのスコアに高く類似するスコアを有する画像領域及びそれぞれのタイルは、第１の色（例えば、「赤」）又は高強度値を有して、関連性ヒートマップに表され得る。または、それらのスコアが、この画像のタイルの最も高いスコアに類似しない画像領域及びそれぞれのタイルは、第１の色とは異なる第２の色（例えば、「青」）又は低強度値を有して、関連性ヒートマップに表され得る。

これは、好適となり得る。なぜなら、ＧＵＩが、高い予測パワー（又は、「予測的値」）を有する組織領域及びそれぞれの画像タイルの位置及び範囲を示す関連性ヒートマップを、自動的に計算して提示するからである。関連性ヒートマップは、高関連性インジケータを有する組織領域をハイライトしてよい。タイルは典型的には、全体スライド画像の小さなサブ領域のみであり、レポートタイルギャラリは、そのようなものとして、全体組織サンプル上に概要を提供しなくともよい。高い予測的関連性を持つ組織パターンの位置及び範囲に関する概要情報は、全体スライド組織画像の元の画像と、高度に直感的でスマートな様式にて好適に組み合わされた関連性ヒートマップにより提供されてよい。

ＭＩＬの数値に基づいて関連性ヒートマップを計算することは、アテンションＭＬＬを実装して、これにトレーニングさせる必要がない、という利点を有し得る。したがって、システムアーキテクチャが、容易に実装され得る。

アテンションＭＬＬにより計算された加重に基づいて関連性ヒートマップを計算することは、タイルの予測的関連性についての第２の測定数値が、ＭＩＬの数値に加えて評価され、関連性ヒートマップに表される、という利点を有し得る。

特定のタイルに対して、ＭＩＬにより計算された数値と、アテンションＭＬＬにより計算された加重と、から導き出された、組み合わされた関連性スコアに基づいて、関連性ヒートマップを計算することは、タイルの予測的関連性について、２つの独立して計算された測定数値が統合され、組み合わされた値と、組み合わされた値に基づく関連性ヒートマップと、により表される、という利点を有し得る。これは、関連する組織セクションの特定を、さらに正確なものとし得る。

実施形態によると、ＧＵＩは、関連性ヒートマップが、ＭＩＬの数値に基づいて、又は、アテンションＭＬＬの加重に基づいて、又は、組み合わされたスコアに基づいて計算されるかについて、ユーザが選択することを可能にする。これは、タイルの予測パワーに関して、ＭＩＬ及びアテンションＭＬＬの出力がかなり異なるものなのかについて、ユーザが特定することを可能にし得る。

関連性ヒートマップを計算して表示することは、好適となり得る。なぜなら、このヒートマップは、ＭＩＬ及び／又はアテンションＭＬＬをトレーニングさせることに使用されるエンドポイントに関して、タイルの予測パワーを示すからである。したがって、関連性ヒートマップをユーザに表示することは、ユーザが、全体スライド画像内の特定のラベルに対して予測的である組織パターンを有するタイルの位置及び範囲を迅速に特定することを可能にする。

実施形態によると、レポートギャラリに示す画像タイルは選択可能である。ＧＵＩは、類似性サーチタイルギャラリを計算して表示するよう構成されている。この計算は、
レポートギャラリの画像タイルの特定の１つの、ユーザの選択を受信することと、
選択されたタイルに類似する組織パターンを描くすべての受信した画像から取得されたすべてのタイルを、選択されたタイルの特徴ベクトルへのその類似性が閾値を超える特徴ベクトルが割り当てられている、すべての受信した画像から取得されたすべてのタイルを特定することにより、特定することと、
類似性サーチギャラリであって、その特定されたタイルを選択的に含む類似性サーチギャラリを表示することと、
を含む。

実施形態によると、類似性サーチタイルギャラリを計算して表示することは、
選択されたタイルと同じラベルが割り当てられている選択されたタイルに類似する組織パターンを描くそれらのタイル内のタイルの数及び／又は割合を決定することと、
決定された数及び／又は割合を類似性サーチギャラリに表示することと、
をさらに含む。

これらの特徴は好適となり得る。なぜなら、人であるユーザが、検査された患者グループの間で、及び、特定のラベルを有する患者のサブセットにおいて、特定の組織パターンがどれほど共通しているかを迅速に決定できるからである。したがって、人であるユーザは、特定のタイルと、そこに描かれた組織パターンと、が、高い予測パワーを真に有するか否かについて、迅速かつ直感的に検証することができる。

例えば、ユーザは、画像のラベルに関して、最も高い数値が割り当てられており、したがって、最も高い予測パワーを有する、レポートギャラリのタイルの１つを選択してよい。タイルを選択した後に、ユーザは、タイルに基づく類似性サーチを、現在選択されているタイルとは異なるラベルが割り当てられ得る多くの異なる患者のタイル及び画像にわたって開始してよい。類似性サーチは、類似する特徴ベクトルに基づいて、類似するタイル及び類似する組織パターンを決定するための、特徴ベクトル及びタイルの比較に基づく。これらは、選択されたタイル（及び、その組織パターン）に類似するものの、選択されたタイルのラベルとは異なるラベル（例えば、「薬Ｄに対する反応＝真（ｔｒｕｅ）の患者」ではなく、「薬Ｄに対する反応＝偽（ｆａｌｓｅ）の患者」）を有するタイル（及び、それぞれの組織パターン）の数及び／又は割合を評価して表示することによる。

したがって、病理学者は、「高く予測的」としてＭＩＬプログラムにより返されたタイルを選択することにより、ＭＩＬプログラムにより特定された組織パターンの予測パワー、特に、過敏性及び特異性を容易にチェックし、類似する特徴ベクトルを有するデータセットにおいて、どれほど多くのタイルに、選択されたタイルと同じラベルが割り当てられているかを明らかにする類似性サーチを行うことができる。これは、組織画像の予測的特徴のインジケーションをも提供し得るが、ユーザは、これらの特徴を特定することも検証することも可能ではない、最新の機械学習アプリケーションを超える、大きな利点である。レポートギャラリ及び類似性サーチギャラリに基づき、人であるユーザは、提案された高い予測的組織パターンを検証でき、高い予測パワーを有し、類似する特徴ベクトルに関連付けられているすべてのタイルに示される、共通する特徴及び構造を言語化することもできる。

レポートギャラリにおけるタイルが選択可能であり、その選択が、ユーザにより選択されたタイルに類似する特徴ベクトル／組織パターンを有する他のタイルを特定して表示するための類似性サーチを行うことをトリガする特徴は、ユーザが興味を持つ、レポートタイルギャラリにおけるいずれの画像タイルを、そのユーザが自由に選択することを可能にし得る。例えば、病理学者は、上述するように、最も高い予測パワー（ＭＩＬにより計算された、最も高い数値）を有する組織パターン及びそれぞれのタイルに興味を持ち得る。代替的に、病理学者は、典型的には、特定の低い予測パワー（特定の低い数値）を有するアーチファクトに興味を持ち得る。さらに代替的に、病理学者は、例えば、それが、薬のいくらかの副次的影響、又は、関連するいずれの他の生物医学的情報を明らかにするからといった、いずれの他の理由により、特定の組織パターンに興味を持ち得る。病理学者は、それぞれのレポートタイルギャラリにおけるタイルのいずれの１つを自由に選択する。これにより、病理学者は、類似性サーチと、その結果を、類似性タイルギャラリの形態にて計算して表示することと、をトリガする。この表示と、ＧＵＩと、は、類似性サーチの完了後に自動的にリフレッシュされ得る。

いくつかの実施形態によると、類似性サーチギャラリの計算と表示とは、類似性ヒートマップの計算と表示とを含む。ヒートマップは、類似するタイル及びそれぞれの特徴ベクトルを、色及び／又はピクセル強度においてエンコードする。類似する特徴ベクトルを有する画像領域及びタイルは、ヒートマップにて、類似する色、及び／又は、高又は低ピクセル強度と共に表される。したがって、ユーザは、全体スライド画像における特定の組織パターンシグニチャの分布の概要を迅速に取得できる。ヒートマップは、異なるタイルをシンプルに選択することにより、容易にリフレッシュされ得る。なぜなら、この選択が、新たに選択されたタイルの特徴ベクトルに基づく、特徴ベクトルの類似性の再計算を自動的に誘起するからである。

実施形態によると、類似性サーチギャラリは、類似性ヒートマップを含む。本方法は、従属的方法により、類似性ヒートマップを生成することを含む。本従属的方法は、
レポートタイルギャラリにおけるタイルの１つを選択することと、
受信した画像のいくつか又はすべての他のタイルのそれぞれに対して、選択されたタイルに関して、類似性スコアを、同じ画像と、選択されたタイルの特徴ベクトルを有する他の画像と、から導き出された、他のタイルの特徴ベクトルを比較することにより計算することと、
それらのタイルが、それぞれの類似性スコアを計算するために使用された画像のそれぞれに対して、それぞれの類似性ヒートマップを、選択されたタイルに対する、その画像におけるタイルの類似性を示す類似性ヒートマップの類似性スコア、ピクセルカラー、及び／又はピクセル強度の関数として計算すること、
類似性ヒートマップを表示することと、
を含む。

実施形態によると、類似性サーチギャラリに示す画像タイルもまた、選択可能である。

類似性ヒートマップは、人であるユーザが、特定の組織において、又は、特定のラベルを有する患者のサブグループの組織サンプルにおいて、対象の特定の組織パターンがどれほど広がっているかについて容易に認識できる、有益な概要情報を提供し得る。ユーザは、サーチギャラリにおけるタイルのいずれを自由に選択できる。これにより、現在選択されているタイルに割り当てられた特徴ベクトルに基づく類似性ヒートマップの再計算と、類似性ヒートマップを含むＧＵＩの自動リフレッシュと、が、それぞれ誘起される。

実施形態によると、レポートギャラリにおける、及び／又は、類似性サーチタイルギャラリにおける画像タイルは、それらの組織サンプル画像からタイルが導き出されている患者に基づいてグループ化される。代替的な実施形態によると、レポートギャラリにおける、及び／又は、類似性サーチタイルギャラリにおける画像タイルは、タイルが導き出されている画像に割り当てられたラベルに基づいてグループ化される。

典型的には、同じ患者から導き出されたすべての画像は同じラベルを有することとなり、特定の患者のそれらの画像から導き出されたすべてのタイルは、ＭＩＬにより、同じ「バッグ」のメンバーとして扱われることとなる。しかし、いくつかの例外的な場合では、同じ患者の異なる画像に異なるラベルが割り当てられる場合がある。例えば、第１の画像が、患者の第１の転移巣を描き、第２の画像が、同じ患者の第２の転移巣を描き、薬Ｄを用いた治療に応えて、第１の転移巣が消失する一方、第２の転移巣が成長し続けることが観察される場合、患者関連属性値は、患者毎の代わりに、画像毎に割り当てられ得る。この場合では、患者毎に、複数のタイルのバッグがあり得る。

別の例によると、患者の組織サンプルの画像は、特定の薬を用いた治療の前後に取得され、ＭＩＬをトレーニングさせることに、及び／又は、トレーニング済みＭＩＬを適用することに使用されるエンドポイント（ラベル）は、属性値「組織の状態＝薬Ｄを用いた治療後」、又は、属性値「組織の状態＝薬Ｄを用いた治療前」である。ＭＩＬに、その患者関連属性値についてトレーニングさせることは、腫瘍における薬の活性及び形態学的効果を示す組織パターンを特定する、という利点を有し得る。そのような特定された薬の効果に関する組織パターンは、薬の作用のモード、同様に、潜在的な薬の悪影響を検証して診査することを可能にし得る。

実施形態によると、本方法は、追加的なタイルのセットを生成することにより、タイルのバッグの数を計算的に増やすことをさらに含み、各追加的なタイルのセットは、ＭＩＬプログラムにより、ソースタイルが生成された組織画像と同じラベルが割り当てられている、追加的なタイルのバッグとして扱われる。追加的なタイルのセットの生成は、特に、１つ又はそれ以上のアーチファクト生成アルゴリズムを、アーチファクトを含む新たなタイルを生成するために、タイルの少なくとも１つのサブセットに適用することを含む。加えて、又は代替的に、追加的なタイルのバッグの生成は、それらのそれぞれのソースタイルよりきめが細かい、又は、これよりきめが粗い、新たなタイルを生成するために、タイルの少なくとも１つのサブセットの解像度を増やすこと、又は、これを減らすことを含むことができる。

例えば、サブセットは、患者のそれぞれに対して、その患者から取得された１つ又はそれ以上の組織画像のいくつか又はすべてのタイルをランダムに選択することにより取得され得る。アーチファクト生成アルゴリズムは、画像のアーチファクトをシミュレーションする。画像のアーチファクトは、例えば、組織の用意、染色、及び／又は画像の取得中に生成されるタイプのアーチファクトであり得る（例えば、エッジアーチファクト、過染色、染色不足、ダスト、スペックル（ｓｐｅｃｋｌｅ）アーチファクト、（ガウシアンブラー（Ｇａｕｓｓｉａｎｂｌｕｒ）などによりシミュレーションされる））。加えて、又は代替的に、アーチファクトは、包括的なノイズタイプであり得る（例えば、閉塞、色のジッタリング、ガウシアンノイズ（Ｇａｕｓｓｉａｎｎｏｉｓｅ）、ソルト＆ペッパー、回転、フリップ、スキュー歪などによりシミュレーションされる）。

追加的なタイルのバッグの生成は、追加的なトレーニングデータが、利用可能なトレーニングデータの限定されたセットから生成される、という利点を有し得る。追加的なトレーニングデータは、サンプルの用意及び画像の取得のコンテキストにおいてしばしば起こる一般的な歪、アーチファクト、及びノイズによりその品質が下がる場合がある画像データを表す。したがって、トレーニング中にＭＩＬプログラムに内在する、モデルの過学習が回避されることを、拡大されたトレーニングデータセットが確実にし得る。

実施形態によると、本方法は、１つ又はそれ以上の受信したデジタル画像から取得されたタイルのクラスタを計算することをさらに含む。ここで、タイルは、それらの特徴ベクトルの類似性に基づいて、クラスタにグループ化される。好ましくは、クラスタは、患者のそれぞれに対して計算される。これは、タイルの特徴ベクトルが十分に類似していれば、同じ患者の異なる組織スライドを描く異なる画像からのタイルが、同じクラスタにグループ化され得る、ということを意味する。

他の実施形態によると、クラスタは、すべての患者からのすべてのタイルに対して共に計算される。

（異なる患者のすべてのタイルを共に、又は、患者毎に）クラスタ化する方法の双方では、互いに類似して見えるタイル（すなわち、類似する特徴ベクトルを有する）が、同じクラスタにクラスタ化される。

例えば、「異なる患者のすべてのタイルをクラスタ化する」場合では、クラスタ化の結果は、すべての患者に対するすべてのタイルに対するタイルの６４のグループ（クラスタ）の生成となり得る。６４のクラスタのそれぞれは、異なる患者から導き出された類似するタイルを含む。反対に、患者毎にクラスタ化する場合では、各患者が、その患者自身の６４のクラスタを有することとなる。

患者毎にクラスタが生成される場合、患者の画像には、脂肪を含むタイルが無いか、又は、脂肪を含むタイルが非常に少量の場合があり得る。この場合では、「脂肪クラスタ」は生成されない場合がある。なぜなら、その「脂肪」を特徴とする特徴ベクトルの周りのクラスタを学習させるためのデータが十分でないからである。しかし、すべての患者のすべてのタイルを共にクラスタ化する方法を行うことは、多数のクラスタ／組織タイプが、最大量の利用可能なデータを用いて特定され得る、という利点を有し得る。「全患者タイル」のクラスタ化では、「脂肪」組織パターンに対するクラスタが特定される可能性が高い。なぜなら、少なくとも数人の患者が、彼らの生体検査において、いくらかの脂肪細胞を有するであろうからである。したがって、データセットにおいて、脂肪細胞を描くタイルの数が十分である可能性がある場合、脂肪細胞に対するクラスタが生成されるであろう（脂肪細胞含有量が非常に少ない患者に対しても）。クラスタが、すべての患者のすべてのタイルに対して共に生成され、１つのクラスタが、脂肪細胞を表す場合は、患者のすべてからの、脂肪細胞を持つすべてのタイルが、そのクラスタにグループ化される。これは、特定の患者／バッグについて、脂肪細胞を持つすべてのタイルが共に、そのクラスタにグループ化され、クラスタのサンプリングがそのバッグに対して使用される場合、そのクラスタに属する（現在の患者／バッグからの）タイルのいくつかが選択される、ということを意味する。

タイルをクラスタ化することは好適となり得る。なぜなら、この演算は、特定の患者において観察可能な組織パターンの数及び／又はタイプを明らかにし得るからである。いくつかの実施形態によると、ＧＵＩは、ユーザが、タイルのクラスタ化と、タイルクラスタの、クラスタ化されたギャラリビューでの提示と、をトリガすることを可能にする、ユーザによる選択が可能な要素を含む。これは、患者の特定の組織サンプルにおいて観察される、重要なタイプの組織パターンを、ユーザが直感的かつ迅速に理解することをアシストし得る。

実施形態によると、ＭＩＬプログラムのトレーニングは、タイルのセットを繰り返しサンプリングし、タイルのセットから、タイルのサブセットを取り出すことと、ＭＩＬプログラムに、タイルのサブセットについてトレーニングさせることと、を含む。

「サンプリング」という言葉は、ここで使用されるように、データセット（患者の１つ又はそれ以上の画像から取得されるタイルの合計）における多数のＮデータアイテム（インスタンス、タイル）から、具体的に選ばれた数のＬサンプル（ここでは、インスタンス、すなわち、タイル）を取り出すことを含む、データ分析、又は、機械学習アルゴリズムにトレーニングさせることのコンテキストにおいて使用される技術である。実施形態によると、「サンプリング」は、トレーニングデータセットにおけるＮタイルの合計を統計的に表すよう推定される確率分布にしたがって、多数のＮデータアイテム内からデータアイテムのサブセットを選択することを含む。これは、母集団全体の性質をより正確に学習させることを可能にし得る。確率分布は、機械学習プロセスをガイドし、「データからの学習」を実現可能にする統計的仮定を表す。

いくつかの実施形態によると、サンプリングは、サンプルしたタイルのバッグを提供するために、タイルのサブセットをランダムに選択することにより行われる。

実施形態によると、クラスタ化と、サンプリングと、は、次のように組み合わせられる：サンプリングは、患者に対して取得されたタイルクラスタのそれぞれから、サンプリングにおいて生成された各タイルのサブセットにおけるタイルの数が、そのタイルが取り出されるクラスタのサイズに対応するように、タイルを選択することを含む。

例えば、特定の患者のデジタル組織画像から、１０００のタイルが生成されてよい。クラスタ化は、３００のタイルを含む、背景組織スライド領域を示す第１のクラスタと、４００のタイルを含む、ストローマ組織領域を示す第２のクラスタと、２００のタイルを含む、転移腫瘍組織を示す第３のクラスタと、４０のタイルを含む、特定の染色アーチファクトを示す第４のクラスタと、６０のタイルを含む、微小血管を持つ組織を示す第５のクラスタと、を生成する。

１つの実施形態によると、サンプリングは、クラスタのそれぞれから、５０％などの、タイルの特定の割合を選択することを含む。これは、クラスタ１からは１５０のタイル、クラスタ２からは２００のタイル、クラスタ３からは１００のタイル、クラスタ４からは２０のタイル、クラスタ５からは３０のタイル、を意味することとなる。

好適な実施形態によると、サンプリングは、各クラスタから、等しい数のタイルを選択することを含む。このサンプリングのアプローチは、異なるタイプのクラスタから、同じ数のタイル／組織パターン例が取り出され、これにより、トレーニングデータセットをよりバランスの取れたものとすることができる、という利点を有し得る。これは、トレーニングデータセットにおいて、所望する予測的特徴がまれである場合に、トレーニング済みＭＩＬ、及び／又は、トレーニング済みアテンションＭＬＬをさらに正確なものとし得る。

クラスタ化とサンプリングとの組み合わせは、特に好適となり得る。なぜなら、実際に高い予測パワーのものであるいくつかのタイルを意図せずに「失う」ことなく、トレーニング用のデータの根拠を増やすことができるからである。デジタル病理学のコンテキストにおいてはしばしば、組織サンプルの圧倒的大多数のエリアは、特定の疾患又は他の患者関連属性により変性し、その予測的である、組織領域を含まない。例えば、組織サンプルの小さいサブ領域のみが、腫瘍細胞を実際に含まれ得、残りは、正常な組織を示し得る。タイルのクラスタ化をまず行い、続いて、クラスタのそれぞれからタイルを選択することは、腫瘍細胞又は微小血管などの予測的組織パターンを示す、少量のタイルの少なくともいくつかが、常に確実に、サンプルの一部となることを確実にし得る。
特徴抽出アプローチ

実施形態によると、タイルのそれぞれに対して特徴ベクトルを計算することは、その組織サンプルがタイルに描かれている患者の患者関連データを受信することと、患者関連データを、特徴ベクトルにおける１つ又はそれ以上の特徴の形態にて表すことと、を含む。患者関連データは、特に、ゲノムデータ、リボ核酸（ｒｉｂｏｎｕｃｌｅｉｃａｃｉｄ又はＲＮＡ）配列データ、患者の既知の疾患、年齢、性別、体液における代謝物濃度、健康パラメータ、及び現在の投薬、を含むグループから選択される。

実施形態によると、特徴ベクトルを計算することは、トレーニング済み機械学習ロジック、特に、少なくとも１つのボトルネックレイヤを含むトレーニング済み全畳み込みニューラルネットワークにより行われる。

実施形態によると、特徴抽出に使用されるトレーニング済み機械学習ロジック（「特徴抽出ＭＬＬ」）は、ユニバーサルネットワーク（ｕｎｉｖｅｒｓａｌｎｅｔｗｏｒｋ又はＵＮＥＴ）などの、ボトルネックを含む、全畳み込みネットワークのタイプのＭＬＬを採択する教師ありの方法においてトレーニングされる。「Ｕｎｅｔ」アーキテクチャは、ＯｌａｆＲｏｎｎｅｂｅｒｇｅｒ、ＰｈｉｌｉｐｐＦｉｓｃｈｅｒ、及びＴｈｏｍａｓＢｒｏｘによる、「Ｕネット：生物医学的画像のセグメンテーションのための畳み込みネットワーク（Ｕ－Ｎｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ）」、ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＤｅｐａｒｔｍｅｎｔａｎｄＢＩＯＳＳＣｅｎｔｒｅｆｏｒＢｉｏｌｏｇｉｃａｌＳｉｇｎａｌｌｉｎｇＳｔｕｄｉｅｓ、ＵｎｉｖｅｒｓｉｔｙｏｆＦｒｅｉｂｕｒｇ、ドイツ（ａｒＸｉｖ：１５０５．０４５９７ｖ１、２０１５年５月１８日）、にて説明されている。本文書は、ＣｏｒｎｅｌｌＵｎｉｖｅｒｓｉｔｙＬｉｂｒａｒｙの、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０５．０４５９７からダウンロードできる。

例えば、特徴抽出ＭＬＬは、組織画像セグメンテーションタスクを行うようトレーニングされ得る。これにより、特定されるセグメントは、２つ又はそれ以上の次の組織画像セグメントタイプ：腫瘍組織、健康な組織、壊死した組織、腫瘍細胞、血管、ストローマ、リンパ球などの特定の対象を含む組織などと、背景エリアと、を含む。いくつかの実施形態によると、特徴抽出ＭＬＬは、教師ありの様式にて、Ｒｅｓｎｅｔ、ＩｍａｇｅＮｅｔ、又はＳｅｇＮｅｔなどの分類ネットワークを使用して、それを、特定の所定のクラス又はオブジェクトを持つ画像のタイルに分類するようトレーニングさせることによりトレーニングされる。

特徴抽出ＭＬＬにトレーニングさせた後に、ＭＬＬは、（入力レイヤと、１つ又はそれ以上の中間レイヤと、ボトルネックレイヤと、を含む）「エンコーダ」部と、「デコーダ」、すなわち、出力生成部と、に分割される。トレーニング済みＭＬＬの、ボトルネックレイヤまでの「エンコーダ」部は、本発明の実施形態にしたがって、各入力タイルに対する特徴ベクトルを抽出して計算するために使用される。ボトルネックレイヤは、入力レイヤよりもかなり少ないニューロンを含む、ニューラルネットワークのレイヤである。例えば、ボトルネックレイヤは、入力レイヤの、６０％未満、又は、さらに、２０％未満の「ニューロン」を含むレイヤであり得る。異なるレイヤにおけるニューロンの数及び比率は、異なるネットワークアーキテクチャに大きく依存して異なる場合がある。ボトルネックレイヤは隠れレイヤである。

１つの例によると、特徴抽出ＭＬＬのネットワークは、ＵＮＥＴに基づくネットワークアーキテクチャを有する。これは、５１２＊５１２＊３（５１２×５１２の赤緑青（ｒｅｄ，ｇｒｅｅｎ，ａｎｄｂｌｕｅ又はＲＧＢ））のニューロンを持つ入力レイヤと、９＊９＊１２８のニューロンを持つボトルネックレイヤと、を有する。したがって、ボトルネックレイヤにおけるニューロンの数は、入力レイヤのニューロンの数の約１．５％である。

１つの例によると、特徴抽出ＭＬＬのネットワークは、教師あり又は教師なし学習アルゴリズムを実装するＲｅｓｎｅｔアーキテクチャを有する。入力レイヤは、５１２×５１２×３のニューロンを含む。ボトルネックレイヤと、ボトルネックレイヤにより出力される、対応する特徴ベクトルと、は、典型的には、１０２４又は２０４８の要素（ニューロン／数）を含む。

実施形態によると、特徴抽出は、ＩｍａｇｅＮｅｔ自然画像データセットについてトレーニングされたＲｅｓＮｅｔ－５０（Ｈｅら、２０１６）アーキテクチャに基づく特徴抽出プログラムモジュールにより行われる。このアーキテクチャに基づく、画像からの特徴抽出についてのいくつかの詳細例は、ＰｉｅｒｒｅＣｏｕｒｔｉｏｌ、ＥｒｉｃＷ．、Ｔｒａｍｅｌ、ＭａｒｃＳａｎｓｅｌｍｅ、及びＧｉｌｌｅｓＷａｉｎｒｉｂによる、「グローバルラベルのみを使用する、組織病理学における分類及び疾患位置特定：弱教師ありアプローチ（ＣＬＡＳＳＩＦＩＣＡＴＩＯＮＡＮＤＤＩＳＥＡＳＥＬＯＣＡＬＩＺＡＴＩＯＮＩＮＨＩＳＴＯＰＡＴＨＯＬＯＧＹＵＳＩＮＧＯＮＬＹＧＬＯＢＡＬＬＡＢＥＬＳ：ＡＷＥＡＫＬＹ－ＳＵＰＥＲＶＩＳＥＤＡＰＰＲＯＡＣＨ）」、ａｒＸｉｖ：１８０２．０２２１２、提出日：２０１８年２月１日、これは、ＣｏｒｎｅｌｌＵｎｉｖｅｒｓｉｔｙＬｉｂｒａｒｙの、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１８０２．０２２１２．ｐｄｆからオンラインにて利用可能、に説明されている。

実施形態によると、特定のタイルに対する、トレーニング済み特徴抽出ＭＬＬのレイヤの１つにより生成される出力は、ＭＩＬプログラムによりタイルから抽出された特徴ベクトルとして使用される。この１つのレイヤは、特に、ボトルネックレイヤであり得る。実施形態によると、特徴抽出ＭＬＬは、教師なし又は自己教師ありの様式にてトレーニングされている。これは、ＭａｔｈｉｌｄｅＣａｒｏｎ、ＰｉｏｔｒＢｏｊａｎｏｗｓｋｉ、ＡｒｍａｎｄＪｏｕｌｉｎ、及びＭａｔｔｈｉｊｓＤｏｕｚｅによる、「視覚的特徴の教師なし学習のためのディープクラスタ化（ＤｅｅｐＣｌｕｓｔｅｒｉｎｇｆｏｒＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｏｆＶｉｓｕａｌＦｅａｔｕｒｅｓ）」、ＣｏＲＲ、１８０７．０５５２０、２０１８年、これは、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０７．０５５２０から電子的に利用可能、に説明されている。

代替的に、特徴抽出ＭＬＬは、ＳｐｙｒｏｓＧｉｄａｒｉｓ、ＰｒａｖｅｅｒＳｉｎｇｈ、及びＮｉｋｏｓＫｏｍｏｄａｋｉｓによる、「画像の回転を予測することによる教師なし表現学習（ＵｎｓｕｐｅｒｖｉｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇｂｙＰｒｅｄｉｃｔｉｎｇＩｍａｇｅＲｏｔａｔｉｏｎｓ）」、２０１８年２月１５日、ＩＣＬＲ２０１８Ｃｏｎｆｅｒｅｎｃｅ、これは、ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｆｏｒｕｍ？ｉｄ＝Ｓ１ｖ４Ｎ２ｌ０－から電子的に利用可能、にしたがってトレーニングされ得る。

さらに代替的に、特徴抽出ＭＬＬは、ＥｌａｄＨｏｆｆｅｒ及びＮｉｒＡｉｌｏｎ．による、「メトリックエンベッディングによる半教師ありディープラーニング（Ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｄｅｅｐｌｅａｒｎｉｎｇｂｙｍｅｔｒｉｃｅｍｂｅｄｄｉｎｇ）」、２０１６年１１月４日、ＩＣＬＲ２０１７、これは、ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｆｏｒｕｍ？ｉｄ＝ｒ１Ｒ５Ｚ１９ｌｅから電子的に利用可能、にしたがってトレーニングされ得る。

特徴抽出ＭＬＬをトレーニングさせるためのデータセットは、ＭＩＬプログラムをトレーニングさせることに後に使用される、別の組織画像データセット、及び／又は、組織画像のセットであり得る。トレーニング画像に関連付けられたいずれのラベルは、評価されない、又は、さもなければ、トレーニングフェーズにおいて、特徴抽出ＭＬＬにより使用される。なぜなら、特徴抽出ＭＬＬは、ＭＩＬプログラムの学習フェーズのエンドポイントとして使用される、患者の患者関連属性値ではなく、組織タイプ及びそれぞれの画像セグメントを特定するようトレーニングされるためである。
近接に基づく類似性ラベルの使用を可能にする特徴抽出アプローチ

実施形態によると、特徴ベクトルは、ラベル付けされたタイルペアを含むトレーニングデータセットについてトレーニングされた特徴抽出機械学習ロジック（「特徴抽出ＭＬＬ」）により計算される。これにより、各ラベルは、タイルペアにより描かれた２つの組織パターンの類似性を表し、タイルペアの２つのタイルの空間的距離の関数として計算される。

好適な実施形態によると、各ラベルは、タイルペアにより描かれた２つの組織パターンの類似性を表す。これは、タイルペアの２つのタイルの空間距離の関数として計算される。これにより、空間距離が、２つのタイルの類似性のみの尺度として使用される。

好適な実施形態によると、ラベルは、トレーニングデータセットにおけるタイルペアに完全に自動的に割り当てられる。

このアプローチは、次の複数の理由について有益となり得る：２つの画像領域の空間的近接は、組織サンプルのすべてのデジタル画像において常に、そして本質的に利用可能な特徴である。問題は、画像及びそれぞれの組織領域そのものの空間的近接は、典型的には、組織タイプの分類、疾患分類、特定の疾患の持続性の予測、又は画像セグメンテーションタスクなどの、生物医学的問題に関するいずれの関連情報を明らかにしない、ということである。出願人は、少なくとも、多数のタイル及びそれらのそれぞれの距離が、ＭＬＬのトレーニングフェーズ中に分析される場合、２つの画像領域（「タイル」）の空間的近接においてもたらされる情報が、２つの画像領域の類似性の正確なインジケータであることを、驚くほど観察した。したがって、組織パターン類似性ラベルを、２つの比較されたタイルに自動的に割り当てるために、２つのタイルの本質的に利用可能な情報である「空間的近接」を使用可能にすることにより、ＭＬＬをトレーニングさせることに使用され得る、大規模な注釈付きデータセットが、自動的に提供され得る。トレーニング済みＭＬＬは、入力として受信された、２つの画像又は画像タイルが、類似する組織パターン、又は、類似しない組織パターンを描くかについて、自動的に決定することに使用され得る。しかし、データセットは、これに加えて、画像類似性サーチ、画像セグメンテーション、組織タイプの検出、及び組織パターンのクラスタ化などの、他のより複雑なタスクに使用され得る。したがって、出願人は、タイルの空間的近接においてもたらされる情報が、画像の類似性を確実に決定するＭＬＬにトレーニングさせることを可能にし、これに加えて、デジタル病理学における複数の複雑な画像分析タスクのための追加的なデータ処理ユニットにより使用され得る特徴ベクトルを出力するＭＬＬにトレーニングさせることを可能にし得る注釈付きトレーニングデータを自動的に生成することに使用され得る、ということを、驚くほど観察した。これらのアプローチはどれも、トレーニングデータに手動で注釈を付けるドメインエキスパートを必要としない。

多くの異なる組織パターン（例えば、「非腫瘍」及び「腫瘍」）を含むトレーニング画像が、多くの異なるタイルに分割される場合、２つのタイル間の距離が短いほど、比較されたタイルの双方が、「非腫瘍」などの、同じ組織パターンを描く確率は高い。しかし、異なる組織パターン（例えば、最初のタイルが「腫瘍」であり、他のタイルが「非腫瘍」）を描く２つの異なるパターンの境界のそばには、いくつかのタイルペアがある。これらのタイルペアは、ノイズを生成する。なぜなら、これらは、空間的に密接して近接しているものの、異なる組織パターンを描くからである。出願人は、空間的近接が、描かれた組織パターンの類似性を示す、という簡略化する仮定と組み合わせて、異なる組織パターン間の境界に広がるタイルペアにより生成されたこのノイズが、トレーニング済みＭＬＬの正確さを大きく落とすことはない、ということを、驚くほど観察した。事実、出願人は、本発明の実施形態にしたがってトレーニングされたＭＬＬの正確さは、既存のベンチマーク方法のそれらをしのぐことができる、ということを観察した。

さらに有益な態様では、多くの異なる画像のセットに対して、トレーニングデータをいまでは、迅速に、完全に、自動的に生成できる。現在、自然で実際的な変動性を組織病理学の画像に撮像する、利用可能な注釈付きデータセットが足りていない。例えば、Ｃａｍｅｌｙｏｎのような、既存の大規模なデータセットでさえ、１つのタイプの染色（ヘマトキシリン（Ｈｅｍａｔｏｘｙｌｉｎ）及びエオシン（Ｅｏｓｉｎ））と、１つのタイプのがん（乳がん）と、のみからなる。組織病理学の画像のテクスチャ及び物体形状は、異なるがんタイプ、異なる組織染色タイプ、及び異なる組織タイプからの画像において大きく異なる場合がある。追加的に、組織病理学の画像は、ドメインに特有の異なる意味（例えば、ストローマ、腫瘍浸潤リンパ球、血管、脂肪、健康な組織、壊死など）を持つ、多くの異なるテクスチャ及びオブジェクトタイプを含む。したがって、本発明の実施形態は、複数の異なるがんタイプ、がんサブタイプ、染色方法、及び患者グループ（例えば、治療済み／未治療、男性／女性、閾値年齢より高年齢／若年齢、バイオマーカに正／バイオマーカに負など）のそれぞれに対して、注釈付きデータセットを自動的に生成することを可能にし得る。したがって、本発明の実施形態は、注釈付きトレーニングデータを生成することと、それぞれのＭＬＬに、トレーニングデータについてトレーニングさせることと、を自動的に可能にし、結果としてのトレーニング済みＭＬＬが、複数の異なる患者のグループのそれぞれに対して、特異的な様式にて、生物医学的問題に正確に対処するよう適合されるようにし得る。手動で注釈が付けられた乳がんデータセットについてトレーニングされたＭＬＬが、結腸がん患者に対して次善の結果を提供する、最新のアプローチとは反対に、本発明の実施形態は、ＭＬＬを、異なる患者グループのそれぞれに対して個別に生成することを可能にし得る。

実施形態によると、２つの組織パターンの類似性の程度を示すラベルは、バイナリデータ値、すなわち、２つの可能なオプションの内の１つを有し得る値、である。例えば、ラベルは、「１」又は「類似する」であり得、これは、２つのタイルが、同様の組織パターンを描くことを示す。代替的に、ラベルは、「０」又は「類似しない」であり得、これは、２つのタイルが、類似しない組織パターンを描くことを示す。他の実施形態によると、ラベルは、よりきめを細かくでき、例えば、「類似しない」、「類似する」、及び「高く類似する」などの、３つ又はそれ以上のデータ値の限定されたセットから選択されたデータ値であり得る。さらなる他の実施形態によると、ラベルは、もっときめを細かくでき、数値の大きさが、類似性の程度と正に相関する数値であり得る。例えば、数値は、ペアにおける２つのタイル間の空間距離を、組織パターン類似性を表す数値に線形に変換する、及び、逆に変換する関数として計算され得る。空間距離が長いほど、組織パターン類似性を示す数値は小さい。非常に多種のＭＬＬアーキテクチャが存在し、これらは、トレーニングデータセット（例えば、序数、又は、数値）において、異なるタイプのラベルを処理し、使用できる。ＭＬＬのタイプは、それが、トレーニングデータセットの自動的に生成されたラベルを処理できるよう選ばれる。

実施形態によると、自動的に注釈が付けられたトレーニングデータセットについてトレーニングされており、特徴抽出に使用されるＭＬＬは、教師あり学習アルゴリズムにしたがって学習するよう適合されている。教師あり学習は、入力特徴のセットを、１つ又はそれ以上の出力データ値に変換するマッピングを見つけようとするものである。出力データ値は、トレーニング中に、ラベルとして、例えば、バイナリオプションラベル「類似する」若しくは「類似しない」として、又は、類似性に対する定量的尺度である数値として提供される。換言すると、トレーニング中、予測されなければならないデータ値が、ＭＬＬのモデルに、トレーニングデータのラベルの形態にて明示的に提供される。教師あり学習には、各サンプルに対する出力スペースを画定するために、トレーニングデータがラベル付けされる必要があるという問題がつきまとう。

実施形態によると、タイルペアの少なくともいくつか又はすべてはそれぞれ、同じ組織スライスに含まれる２つの組織領域を描く。組織スライスのそれぞれは、受信したデジタル画像のそれぞれの１つに描かれる。タイル間の距離は、ペアにおけるタイルが導き出された、受信したデジタル画像のｘ次元及びｙ次元により画定される、二次元（２－ｄｉｍｅｎｓｉｏｎａｌ又は２Ｄ）座標系内にて計算される。

実施形態によると、タイルペアは、複数の異なる画像のそれぞれ内のタイルペアをランダムに選択することにより生成される。ランダムに基づく選択は、各ペアにおけるタイル間の空間距離が異なることを確実にする。例えば、２つのタイル間の距離と逆に相関する数値の形態での類似性ラベルが計算され、各ペアに割り当てられる。

他の実施形態によると、タイルペアは、各受信した画像のタイルの少なくともいくつか又はすべてを、開始タイルとして選択することと、各開始タイルに対して、すべて、又は、予め定められた数の「近くのタイル」を選択することであって、「近くのタイル」は、開始タイルを中心とする第１の円内のタイルであり、これにより、この円の半径が、第１の空間的近接閾値と同一となる、「近くのタイル」を選択することと、各開始タイルに対して、すべて、又は、予め定められた数の「遠くのタイル」を選択することであって、「遠くのタイル」は、開始タイルを中心とする第２の円の外側にあるタイルであり、これにより、その円の半径が、第２の空間的近接閾値と同一となる、「遠くのタイル」を選択することと、により生成され、予め定められた数の選択が、それぞれの画像エリア内のこの数のタイルをランダムに選ぶことにより行われ得る。第１及び第２の近接閾値は同一であってよいが、第２の近接閾値が、第１の近接閾値より大きいことが好ましい。例えば、第１の近接閾値は１ｍｍであり得、第２の近接閾値は１０ｍｍであり得る。続いて、第１のタイルペアのセットが選択される。これにより、各タイルペアは、開始タイルと、第１の円内に位置する近くのタイルと、を含む。第１のセットにおける各タイルペアには、ラベルが「類似する」の組織パターンが割り当てられる。加えて、第２のタイルペアのセットが選択される。これにより、そのセットにおける各ペアは、開始タイルと、「遠くのタイル」の１つと、を含む。第２のセットにおける各タイルペアには、ラベルが「類似しない」の組織パターンが割り当てられる。例えば、この実施形態は、「類似する」又は「類似しない」の「バイナリ」ラベルを生成することに使用され得る。

実施形態によると、タイル間の距離は、タイルが導き出されるデジタル画像のｘ軸及びｙ軸により画定される２Ｄ座標系内にて測定される。これらの実施形態は、異なる患者の組織サンプル、及び／又は、同じ患者内の異なる領域を描く複数の組織サンプル画像が利用可能なシチュエーションにおいて使用され得る。これにより、それらの異なる領域は、互いに離れている、又は、これにより、これら２つの領域の、互いに関する正確な位置は未知である。この場合では、タイル間の空間的近接は、デジタル画像により画定される、ピクセルの２Ｄ面内のみにて測定される。画像取得デバイス（例えば、顕微鏡のカメラ、又は、スライドスキャナ）の既知の分解能係数に基づいて、２つのタイルにより描かれた組織サンプルにおける組織領域間の距離を計算するために、元の画像のタイル間の距離が使用され得る。

実施形態によると、タイルペアの少なくともいくつか又はすべては、隣接する組織スライスのスタックの２つの異なる組織スライスに含まれる２つの組織領域を描く。組織スライスのそれぞれは、受信したデジタル画像のそれぞれの１つに描かれる。隣接する組織スライスのスタックの組織スライスを描く受信した画像は、三次元（３－ｄｉｍｅｎｓｉｏｎａｌ又は３Ｄ）座標系において互いに整列される。タイル間の距離は、３Ｄ座標系内にて計算される。

例えば、いくつか又はすべての受信したデジタル画像は、隣接する組織スライスの組織ブロック内のスライスである組織サンプルを描き得る。この場合では、デジタル画像は、共通の３Ｄ座標系において互いに整列され得、３Ｄ座標系におけるデジタル画像の位置が、組織ブロック内の、それぞれが描かれた組織スライスの位置を再現するようになっている。これは、３Ｄ座標系におけるタイルの距離を決定することを可能にし得る。「近くの」及び「遠くの」タイルの選択は、２Ｄ座標系の場合について上述するように行われ得るが、唯一の違いは、少なくともいくつかのタイルペアにおけるタイルが、受信した画像の異なるいくつかから導き出される、ということである。

いくつかの実施形態によると、注釈付きトレーニングデータは、同じデジタル画像から導き出されたタイルペアと、同様に、共通の３Ｄ座標系において互いに整列された異なる画像から導き出されたタイルペアと、の双方を含む。これは、有益となり得る。なぜなら、３つ目の次元（異なる組織サンプルにおける組織領域を表すタイルの空間的近接）の考慮は、それぞれの組織サンプルの、少数の画像のみが利用可能である場合に、トレーニングデータにおけるタイルの数を大いに増やし得、これにより、組織サンプルが、３Ｄ生体検査細胞ブロックなどの、同じ細胞ブロックに属するからである。

実施形態によると、各タイルは、０．５ｍｍ未満、好ましくは、０．３ｍｍ未満の最長エッジ長さを有する組織又は背景領域を描く。

タイルサイズが小さいということは、異なる組織パターンを混ぜたものを描くタイルの数及びエリアの割合が減る、という利点を有し得る。これは、２つ又はそれ以上の異なる組織パターンを描くタイルにより、及び、２つの異なる組織パターンを描く「組織パターン境界」のそばのタイルペアにより生成されるノイズを減らすことを助け得る。加えて、タイルサイズが小さいということは、多数のタイルペアを生成して、これらにラベル付けすることを可能にし得、これにより、ラベル付けされたトレーニングデータの量が増える。

実施形態によると、タイルペアの自動生成は、第１のタイルペアのセットを、第１の空間的近接閾値を使用して生成することであって、第１のセットにおける各タイルペアの２つのタイルにより描かれた２つの組織領域は、第１の空間的近接閾値より小さい距離だけ、互いに離れている、第１のセットのタイルペアを、第１の空間的近接閾値を使用して生成することと、第２のセットのタイルペアを、第２の空間的近接閾値を使用して生成することであって、第２のセットにおける各タイルペアの２つのタイルにより描かれた２つの組織領域は、第２の空間的近接閾値より大きい距離だけ、互いに離れている、第２のセットのタイルペアを、第２の空間的近接閾値を使用して生成することと、を含む。例えば、これは、本発明の実施形態についてすでに上述するように、複数の開始タイルを選択することと、各開始タイルの周りに、第１及び第２の空間的近接閾値に基づいて、第１及び第２の円を計算することと、開始タイルと、「近くのタイル」（第１のセット）又は「遠くのタイル」（第２のセット）と、を含むタイルペアを選択することと、により実施され得る。

実施形態によると、第１及び第２の空間的近接閾値は同一であり、例えば、１ｍｍである。

好適な実施形態によると、第２の空間的近接閾値は、第１の空間的近接閾値より少なくとも２ｍｍ大きい。これは、好適となり得る。なぜなら、組織パターンが、あるパターンから別のパターンへと段階的に変わる場合では、「遠くのタイル」に描かれている組織パターンの、「近くの」タイルに描かれている組織パターンと比較しての、これらの間の差異が明確となり得、学習効果が改善され得るからである。

実施形態によると、第１の空間的近接閾値は、２ｍｍより短く、好ましくは、１．５ｍｍより短く、特に、１．０ｍｍの距離である。

加えて、又は代替的に、第２の空間的近接閾値は、４ｍｍより長く、好ましくは、８ｍｍより長く、特に、１０．０ｍｍの距離である。

これらの距離閾値は、デジタル画像及びそれぞれのタイルに描かれている組織領域（又は、スライス背景領域）の距離を指す。画像取得デバイスの既知の倍率と、デジタル画像の解像度と、に基づき、この距離は、デジタル画像の２Ｄ又は３Ｄ座標系内の距離に変換され得る。

例えば、タイル（及び、それらに描かれた組織領域）間の距離は、２ｄ又は３Ｄ座標系における２つのタイルの中心間にて測定され得る。代替的な実施変異形によると、距離は、２Ｄ又は３Ｄ座標系において互いに最も近い２つのタイルエッジ（画像領域エッジ）間にて測定される。

上記の閾値は、乳がん患者に対して類似する及び類似しない組織パターンを正確に特定することができるトレーニング済みＭＬＬを自動的に生成することを可能にする、ラベル付けされたトレーニングデータを提供するために観察されている。いくつかの他の実施例では、第１及び第２の空間的近接閾値は、他の値を有し得る。特に、異なる組織タイプ又はがんタイプを示す、受信したデジタル画像の異なるセットが使用される場合では、第１及び第２の空間的近接閾値は、上記に提供される距離閾値とは異なる他の値を有し得る。

実施形態によると、本方法は、特徴抽出ＭＬＬにトレーニングさせるためのトレーニングデータセットを生成することをさらに含む。本方法は、それぞれが組織サンプルを描く複数のデジタルトレーニング画像を受信することと、受信したトレーニング画像のそれぞれを複数のタイル（「特徴抽出トレーニングタイル」）に分割することと、タイルペアを自動的に生成することであって、各タイルペアには、ペアの２つのタイルに描かれている２つの組織パターンの類似性の程度を示すラベルが割り当てられており、類似性の程度は、ペアにおける２つのタイルの空間的近接の関数として計算され、距離は、非類似性と正に相関する、タイルペアを自動的に生成することと、機械学習ロジック（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｌｏｇｉｃ又はＭＬＬ）に、ラベル付けされたタイルペアを、トレーニングデータとして使用してトレーニングさせて、トレーニング済みＭＬＬを生成することであって、トレーニング済みＭＬＬは、類似する画像は類似する特徴ベクトルを有し、類似しない画像は類似しない特徴ベクトルを有するようになる画像を表すデジタル組織画像から特徴ベクトルを抽出するよう学習されている、機械学習ロジック（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｌｏｇｉｃ又はＭＬＬ）に、ラベル付けされたタイルペアを、トレーニングデータとして使用してトレーニングさせて、トレーニング済みＭＬＬを生成することと、そのトレーニング済みＭＬＬ又はそのコンポーネントを、タイルの特徴ベクトルを計算するために使用される特徴抽出ＭＬＬとして使用することと、を含む。

このアプローチは有益となり得る。なぜなら、トレーニングデータセットのラベルが、すべてのデジタル病理学の画像に本質的に含まれる情報に基づいて自動的に生成され得るからである。したがって、トレーニング画像をしたがってシンプルに選ぶことにより、現在対処している生物医学的問題に具体的に適合された特徴抽出ＭＬＬをトレーニングさせるための注釈付きデータセットを生成することができる。分割することと、ラベル付けすることと、機械学習させることと、のステップなどのすべてのさらなるステップは、完全に自動的に、又は、半自動的に行われ得る。

実施形態によると、トレーニング済みＭＬＬは、それらの出力レイヤにより結合されている２つのニューラルサブネットワークを含むサイアミーズネットワークである。トレーニング済みサイアミーズネットワークのサブネットワークの１つは、記憶媒体上に個別に記憶されており、これは、タイルの特徴ベクトルを計算するために使用される、トレーニング済みＭＬＬのコンポーネントとして使用される。
ＭＩＬプログラムにより処理されるラベル

実施形態によると、ラベルは、患者が、特定の薬に反応したことのインジケーション、患者が、転移又は特定の形態の転移（例えば、微小転移）を発症したことのインジケーション、がん患者が、特定の治療に応えて、病理学的完全奏効（ｐａｔｈｏｌｏｇｉｃｃｏｍｐｌｅｔｅｒｅｓｐｏｎｓｅ又はｐＣＲ）を示すことのインジケーション、患者が、特定の形態学的状態又はマイクロサテライトステータスを伴うがんを有することのインジケーション、患者が、特定の薬に拒絶反応を発症することのインジケーション、遺伝子属性、特に、遺伝子シグネチャー、及び／又はＲＮＡ発現プロファイル、を含む群から選択される。

これらのラベルは、診断において、同様に、疾患の治療に適した薬を見つけることにおいて役立ち得る。しかし、上記のラベルは単なる例である。他の患者関連属性もまた、上述するように、ラベル（すなわち、ＭＩＬプログラムをトレーニングさせるためのエンドポイント）として使用され得る。「患者関連」という言葉はまた、治療関連という言葉を含み得る。なぜなら、疾患の特定の治療の有効性はまた、治療する患者にも関するからである。
ＭＩＬプログラムとアテンションＭＬＬとの組み合わせ

本発明の実施形態によると、ＭＩＬプログラムは、タイルが導き出された画像に割り当てられたラベルに関して、特定のタイルの予測パワーを示す数値を計算するための、アテンションに基づくＭＬＬと組み合わされる。例えば、この組み合わせは、図６に描かれている、本方法と、対応するシステムと、の実施形態について説明されるように、ＭＩＬプログラムをトレーニングさせる際に行われ得る。別の例によると、この組み合わせは、図７に描かれている、本方法と、対応するシステムと、の実施形態について説明されるように、ＭＩＬプログラムをトレーニングさせる際に行われ得る。

実施形態によると、アテンションＭＬＬは、そこからタイルが導き出された画像に割り当てられたラベルに関して、タイルの特徴ベクトルの予測パワーを示す加重を計算するよう適合されている機械学習ロジックである。加重は続いて、ＭＩＬへの入力として提供され得る、又は、ＭＩＬにより出力された数値と組み合わされ得る。

実施形態によると、ＭＩＬプログラムとアテンションＭＬＬプログラムとの双方は、患者関連属性値に関しての予測パワーを有する特徴ベクトル及びそれぞれのタイル（及び、したがって、そこに描かれた組織パターン）を特定するよう学習する。アテンションＭＬＬプログラムは、ＭＩＬプログラムの一部、例えば、サブモジュール、として実装され得る。

いくつかの実施形態によると、アテンションＭＬＬプログラムは、１つのバッグのタイルのすべての特徴ベクトルにおいてエンコードされたバッグのラベルに関しての予測パワーを集めるために、ＭＩＬプログラムにより使用される順列不変変換演算（ｐｅｒｍｕｔａｔｉｏｎｉｎｖａｒｉａｎｔｔｒａｎｓｆｏｒｍｏｐｅｒａｔｉｏｎ）を実施する。この順列不変変換は、すべてのタイルに基づくバッグに対する、単一の合計数値を生成する。実施形態によると、バッグに実際に割り当てられたラベルからの、集められた数値の差異はまた、誤差逆伝播法の間に最小化される、ＭＩＬプログラムの「損失」の１つの形態ともみなされる。順列不変変換演算は、ＭＩＬにより、トレーニングフェーズにおいて使用されるが、また、トレーニング済みＭＩＬプログラムにより、テストフェーズにおいても使用される。

順列不変変換演算は、バッグのすべてのタイルにおいてエンコードされた情報が、トレーニングフェーズ中にどのように考慮されるかについて指定することを可能にし得る。

実施形態によると、順列不変変換演算は最大演算（ｍａｘｉｍｕｍｏｐｅｒａｔｉｏｎ）である。これは、有益となり得る。なぜなら、ＭＩＬにトレーニングさせる際に生成される予測モデルは、バッグのラベルに関して、最も高い予測パワーを持つ特徴ベクトルを有するタイルに描かれている組織パターンを強く反映するからである。このモデルは、ラベルに対して無関係な組織領域／タイルによる悪影響を受けない。しかし、最大演算は、最も高くスコア付けされたタイルを除き、すべてのタイルに含まれるすべての情報を無視する。したがって、関連性があり得るタイル／組織パターンの予測パワーが見逃される場合がある。

実施形態によると、順列不変変換演算は、特定のラベルに関して、各個別の特徴ベクトルの予測パワーを表す数値の算術平均又は中央値などの、平均演算（ａｖｅｒａｇｅｏｐｅｒａｔｉｏｎ）である。これは、有益となり得る。なぜなら、ＭＩＬにトレーニングさせる際に生成される予測モデルが、すべてのタイルに描かれている組織パターンを考慮するからである。しかし、特定のラベルの発生に実際に無関係な組織パターン及びそれぞれのタイルの考慮は、トレーニング済みＭＩＬの予測的正確さの劣化及び低下をもたらす場合がある。

実施形態によると、ＭＩＬプログラムの順列不変変換演算は、ＡＶＥＲＡＧＥ（平均）又はＭＥＤＩＡＮ（メジアン）演算である。

１つの実施形態によると、順列不変変換演算は、特定のラベルに関して、各個別の特徴ベクトルの予測パワーを表す数値の算術平均又は中央値などの、平均演算（ａｖｅｒａｇｅｏｐｅｒａｔｉｏｎ）である。アテンションＭＬＬは、タイルのそれぞれに対する加重を計算するために使用される。特定のタイル及びそれぞれの特徴ベクトルに対して計算された加重は、トレーニングフェーズ中にこのタイルに対してＭＩＬが注目する「アテンション（ａｔｔｅｎｔｉｏｎ）」を表す。

「平均（ａｖｅｒａｇｅ）」順列不変変換演算の、タイルに特有の加重を計算するよう構成されているアテンションＭＬＬと組み合わせての組み合わせは、ＡＶＥＲＡＧＥ演算（すべてのタイルにおいてもたらされる情報が考慮される）により提供される恩恵が、この演算の否定的側面（ＭＩＬプログラムの予測モデルのトレーニングに無関係な組織パターンの影響）を受け付けることもなく使用され得る、という利点を有し得る。これは、トレーニング済みＭＩＬプログラムの予測モデルの正確さを改善することを可能にし得る。すなわち、より高い加重が割り当てられているタイルからの選択的に／これを主として学習することによる学習プロセスにおいて、それほど重要でないタイルが釣り合っている。

本発明の実施形態についてここに説明するような、アテンションＭＬＬプログラムとＭＩＬプログラムとを組み合わせることは、（特に、ＡＶＥＲＡＧＥ又はＭＥＤＩＡＮ演算などのＭＡＸ演算の代わりに、順列不変変換演算を実施する際に）アテンションＭＬＬプログラムは、ＭＩＬプログラムが、繰り返し毎に、１つを超えるインスタンス（タイル）から学習することを可能にする、という利点を有し得る。これは、例えば、各繰り返しにおいて、そこから学習するすべてのバッグのインスタンスを１つのみ選択するスパース法であるＭＡＸ演算などとは対照的である。典型的には、ＡＶＥＲＡＧＥ又はＭＥＤＩＡＮ演算の使用は好ましくない。なぜなら、この演算は、予測パワーのないタイルの特徴ベクトルにより引き起こされた、ＭＩＬプログラムにより学習されたモデルの劣化を引き起こす場合があるからである。しかし、それらのタイルの特徴ベクトルに、アテンションＭＬＬの独立した推定に基づく低加重が割り当てられている場合は、ＭＩＬプログラムのトレーニングプロセスは、順列不変変換として、ＭＡＸＩＭＵＭ演算の代わりに、ＡＶＥＲＡＧＥ又はＭＥＤＩＡＮを使用することからの恩恵を被り得る。

例えば、ＭＩＬプログラムにトレーニングさせる際のアテンションＭＬＬの使用は、ＭａｘｉｍｉｌｉａｎＩｌｓｅ、ＪａｋｕｂＭ．Ｔｏｍｃｚａｋ、及びＭａｘＷｅｌｌｉｎｇによる、「アテンションに基づくディープマルチプルインスタンスラーニング（Ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄＤｅｅｐＭｕｌｔｉｐｌｅＩｎｓｔａｎｃｅＬｅａｒｎｉｎｇ）」、２０１８年２月、これは、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０２．０４７１２から電子的に利用可能、に説明されるように行われ得る。

実施形態によると、ＧＵＩは、特定のデジタル画像から導き出されたすべてのタイルに対して、アテンションＭＬＬプログラムにより計算された加重に対するヒートマップを生成して提示するよう構成されている。加重は、例えば、０から１の範囲に正規化される。続いて、タイルの正規化された加重が色分けされる。タイルの加重が類似すればするほど、アテンションＭＬＬに基づくヒートマップの色が類似する。
加重された数値を提供するアテンションＭＬＬプログラム

実施形態によると（例えば、図６を参照されたい）、本方法は、タイルのそれぞれに対して、タイルに関連付けられた特徴ベクトルの予測パワーを示す数値を、加重された数値の形態にて計算することを含む。タイルの加重された各数値は、そのタイルに対して、アテンションＭＬＬにより計算された加重と、そのタイルに対して、ＭＩＬにより計算された数値の関数として計算される。特に、加重された数値は、タイルに対して、アテンションＭＬＬにより計算された加重を、それぞれのタイルの数値と乗算することにより計算され得る。
加重された特徴ベクトルを提供するアテンションＭＬＬプログラム

実施形態によると、本方法は、タイルのそれぞれに対して、特徴ベクトルを、加重された特徴ベクトルの形態にて計算することを含む。加重された特徴ベクトルは、そのタイルに対して、アテンションＭＬＬにより計算された加重と、特徴抽出プログラムにより、そのタイルに対して計算された特徴ベクトルとの関数として計算される。特に、特定のタイルに対して、アテンションＭＬＬにより提供される加重は、このタイルの特徴ベクトルと乗算され得る。

別の実施形態によると、ＭＩＬのトレーニングは、特定のラベルに関して、特定のタイルに対して、ＭＩＬにより出力され、バッグの（画像の）ラベルに関して、タイルの予測パワーを示す数値が、このタイルに対してアテンションＭＬＬにより計算された加重により乗算されるように実施される。誤差逆伝播法の間に、加重は、ＭＩＬの予測モデルの適応における影響を有する。トレーニング中に学習したＭＩＬの予測モデルにおける特定の特徴ベクトルの影響は、アテンションＭＬＬより、特定のタイルに対して計算された加重と正に相関する。

１つの実施形態によると、ＭＩＬのトレーニングは、アテンションＭＬＬにより提供された加重が、特徴ベクトルと共に、ＭＩＬプログラムの入力として提供されるよう実施される。ＭＩＬのトレーニングは、ＭＩＬが、その特徴ベクトルがより低い加重を有するタイルよりも、その特徴ベクトルがより高い加重を有するタイルから、より多く学習するよう実施される。換言すると、トレーニング中に学習したＭＩＬの予測モデルにおける、タイル及びそれらの特徴ベクトルの影響は、アテンションＭＬＬにより、特定のタイルに対して計算された加重と正に相関する。

各特徴ベクトルに対する加重を計算するためにアテンションＭＬＬを使用することは、好適となり得る。なぜなら、ＭＩＬは、高い予測的潜在性を有するいくらかのタイルからより多く学習し、無関係な組織セクションを示すタイルの大多数からはあまり多くを学習しないからである。その結果として、トレーニング済みＭＩＬプログラムを、さらに正確なものとする。
さらなる実施形態

実施形態によると、本方法は、
画像分析システムにより、患者のさらなるグループにおける各患者に対して、患者の組織サンプルの少なくとも１つのさらなるデジタル画像を受信することであって、各さらなる画像には、予め定められたラベルの１つが割り当てられている、患者のさらなるグループにおける各患者に対して、患者の組織サンプルの少なくとも１つのさらなるデジタル画像を受信することと、
画像分析システムにより、各受信したさらなる画像を、さらなる画像タイルのセットに分割することであって、各タイルには、さらなるタイルを生成することに使用された画像に割り当てられたラベルが割り当てられている、各受信したさらなる画像を、さらなる画像タイルのセットに分割することと、
さらなるタイルのそれぞれに対して、画像分析システムにより、そのさらなるタイルから、及び、そこに描かれた組織パターンから、選択的に抽出された画像特徴を含むさらなる特徴ベクトルを計算することと、
トレーニング済みマルチプルインスタンスラーニング（ｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅ－ｌｅａｒｎｉｎｇ又はＭＩＬ）プログラムに、さらなるグループにおけるすべての患者に対して受信したすべてのさらなる画像のさらなるタイル及びそれぞれのさらなる特徴ベクトルを、さらなるタイルのそれぞれに対して、さらなるタイルが導き出された画像に特定のラベルが割り当てられる確率を示す数値であって、そのさらなるタイルの特徴ベクトルの学習済み非線形変換関数として計算される数値を計算するために、適用することと、
画像分析システムのＧＵＩを介して、さらなる画像タイルのレポートギャラリを出力することであって、さらなるレポートギャラリは、複数のさらなるタイルを含み、タイルは、それらの、それぞれ計算された数値に従ってソートされている、及び／又は、それらのそれぞれの数値の図形表現を含む、さらなる画像タイルのレポートギャラリを出力することと、
をさらに含む。

これは、好適となり得る。なぜなら、例えば、トレーニング済みＭＩＬプログラムにより、この患者関連属性に関して、高い予測パワーを有するものとして特定された、新たな画像のタイルのいくつかを選択的に提示するレポートギャラリを自動的に提示することにより、トレーニング済みＭＩＬプログラムは、新たな画像データに容易に適用され得るからである。これにより、対象の患者関連属性に関しての新たな画像の分析及び解釈を容易にする。

実施形態によると、ＭＩＬプログラムは、トレーニングフェーズにおいて、特徴ベクトルを、特定のラベルに対する確率を表すことができる値に置き換えるよう学習する。ラベルは、クラス（例えば、特定の薬Ｄを用いた治療に反応する患者）、又は、数的エンドポイント値（例えば、反応の度合いを示す数値又はパーセンテージ値）を表すことができる。この学習は、特徴値を、トレーニング中に提供されるラベルの１つに変換する非線形変換関数の学習として数学的に記述され得る。いくつかの実施形態によると、テスト時間にて、いくらかのマイナーな構造上の変更（例えば、ドロップアウト（Ｄｒｏｐｏｕｔ）レイヤを無効にする）が、トレーニング済みＭＩＬプログラムに適用され、テストデータのサンプリングは行われない。テスト時間にてトレーニング済みＭＩＬプログラムを適用する際の主な変更は、テストデータのバッグにおけるすべてのインスタンス（タイル）が、ＭＩＬプログラムにより分析され、タイルのそれぞれに対して、及び、トレーニングフェーズにおいて提供された複数のラベルのそれぞれに対して、予測パワーを示す最終数値を計算することである。最後に、最終数値が、全体画像に対して、又は、特定の患者に対して、複数のラベルに対する画像のタイルに対して計算された数値を集めることにより、計算される。トレーニング済みＭＩＬプログラムに、患者の１つ又はそれ以上の画像を適用することの最終結果は、最も高い確率を有するラベルの１つである（例えば、「薬Ｄを用いた治療に患者に反応する！」）。加えて、このラベルに関して、最も高い予測パワーを有するタイルの１つが、トレーニングフェーズについて上述するレポート画像タイルギャラリと構造的に同等のレポート画像タイルギャラリに提示され得る。

実施形態によると、本方法は、１つ又はそれ以上の「高予測パワータイル」を自動的に選択すること、又は、これをユーザが選択できるようにすることをさらに含む。高予測パワータイルは、ラベルの特定の１つに関して、その特徴ベクトルの予測パワーを示すその数値が、高予測パワー閾値を超えるタイルである。

加えて、又は代替的に、本方法は、１つ又はそれ以上の「アーチファクトタイル」を自動的に選択すること、又は、これをユーザが選択できるようにすることをさらに含む。アーチファクトタイルは、ラベルの特定の１つに関して、その特徴ベクトルの予測パワーを示すその数値が、最小予測パワー閾値未満である、又は、１つ又はそれ以上のアーチファクトを描くタイルである。

１つ又はそれ以上の高予測パワータイル及び／又はアーチファクトタイルの選択に応えて、ＭＩＬプログラムに自動的に再トレーニングさせ、これにより、トレーニングセットから、高予測パワータイル及びアーチファクトタイルを除外する。

これらの特徴は、再トレーニング済みＭＩＬプログラムが、より正確なものとなり得る、という利点を有し得る。なぜなら、除外されたアーチファクトタイルは、再トレーニング中にはもはや考慮されないからである。したがって、アーチファクトを描くトレーニングデータセットにおけるタイルにより引き起こされた、学習済み変換におけるいずれのバイアスが、ＭＩＬプログラムの、アーチファクトタイルを含まないトレーニングデータセットの減少バージョンについての再トレーニングにより回避され、これが取り除かれる。

ユーザが、高い予測的タイルをトレーニングデータセットから取り除くことをできるようにすることは、直感的なものではない場合があるが、それでもなお、重要な恩恵を提供する。すなわち、時として、いくつかのラベルに関して、いくつかの組織パターンの予測パワーが自明である。

例えば、肺がんに特有のバイオマーカを発現する多くの腫瘍細胞を含む組織セクションはもちろん、肺がん疾患の存在に対する、重要な予測的マーカである。しかし、病理学者は、例えば、線維芽細胞活性化タンパク質ポジティブ（ｆｉｂｒｏｂｌａｓｔａｃｔｉｖａｔｉｏｎｐｒｏｔｅｉｎｐｏｓｉｔｉｖｅ又はＦＡＰ＋）細胞などの非腫瘍細胞の存在及び／又は場所などの、いくつかの、あまり明らかなものではない組織パターンにより興味を持つ場合がある。

別の例によると、ＭＩＬは、ラベル「特定の薬Ｄを用いる治療に低い反応を示す患者」に関して、予測的潜在性を有し得る、肺がんにおける、喫煙により誘起された組織パターンを特定することについてトレーニングされている。ＭＩＬは、喫煙により誘起された残留物を含む肺組織に対応する第１の組織パターンに対する最も高い数値／予測パワーを計算し得る。喫煙により誘起された残留物のある組織領域を示すタイルの除去は、中程度の予測パワーを有する別の組織パターンを明らかにする場合がある。特徴ベクトルが、患者の遺伝的及び／又は生理的属性値を含む場合では、最も高い数値を持つタイルが「ブラックリスト化」された後には、それらの追加的な特徴の予測パワーの影響がまた、より関連するものとなり得る。これらの遺伝的に関連する又は生理的に関連する予測的特徴はまた、特定の組織パターンにおいて反映され得、したがって、病理学者が、ＭＩＬの、ブラックリスト化されたタイルを含まないトレーニングタイルセットについての再トレーニング後に生成された、結果としてのタイルギャラリにおいて対応するタイルを調べることにより、遺伝的に関連する又は生理的に関連する属性を特定して理解することを可能にし得る。

したがって、腫瘍細胞を、最も重要な予測的要因として示すすべてのタイルが取り除かれ、ＭＩＬプログラムが、残りのトレーニングデータセットについて再トレーニングされていれば、再トレーニング済みＭＩＬは、それほど目立たないものの、重要な予測的要因及び組織パターンを、より確実に特定することができる。

さらなる態様では、本発明は、患者関連属性値を示す組織パターンを特定する画像分析システムに関する。画像分析システムは、
少なくとも１つのプロセッサと、
患者のグループの組織のデジタル組織画像を含む揮発性又は不揮発性記憶媒体であって、患者のグループにおける各患者に対して、患者の組織サンプルの少なくとも１つのデジタル画像が、記憶媒体に記憶されており、少なくとも１つの画像には、少なくとも２つの異なる、予め定められたラベルの内の１つが割り当てられており、各ラベルは、その組織が、ラベル付けされた画像に描かれている患者の患者関連属性値を示す、揮発性又は不揮発性記憶媒体と、
少なくとも１つのプロセッサにより実行可能であり、画像のそれぞれを、画像タイルのセットに分割するよう構成されている画像分割モジュールであって、各タイルには、そのタイルを生成することに使用された画像に割り当てられたラベルが割り当てられている、画像分割モジュールと、
少なくとも１つのプロセッサにより実行可能であり、タイルのそれぞれに対して、そのタイルに描かれている組織パターンから選択的に抽出された画像特徴を含む特徴ベクトルを計算するよう構成されている特徴抽出モジュールと、
少なくとも１つのプロセッサにより実行可能なマルチプルインスタンスラーニング（ｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅ－ｌｅａｒｎｉｎｇ又はＭＩＬ）プログラムであって、ＭＩＬプログラムのトレーニングフェーズにおいて、グループにおけるすべての患者のすべての画像のすべてのタイル及びそれぞれの特徴ベクトルを受信するよう構成されているマルチプルインスタンスラーニング（ｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅ－ｌｅａｒｎｉｎｇ又はＭＩＬ）プログラムであって、ＭＩＬプログラムは、各タイルのセットを、トレーニングフェーズ中に、同じラベルを有するタイルのバッグとして扱うよう構成されており、トレーニングは、タイルのそれぞれに対して、タイルが導き出された画像に割り当てられたラベルに関して、タイルに関連付けられた特徴ベクトルの予測パワーを示す数値を計算するために、特徴ベクトルを分析することを含む、マルチプルインスタンスラーニング（ｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅ－ｌｅａｒｎｉｎｇ又はＭＩＬ）プログラムと、
少なくとも１つのプロセッサにより実行可能であり、画像タイルのレポートギャラリを含むＧＵＩを生成して出力するよう構成されているＧＵＩ生成モジュールであって、レポートギャラリは、タイルのサブセットを含み、タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされている、及び／又は、それらのそれぞれの数値の図形表現を含む、ＧＵＩ生成モジュールと、
画像タイルのレポートギャラリによりＧＵＩを表示するよう適合されているディスプレイと、
を含む。

「組織サンプル」は、ここで使用されるように、本発明の方法により分析され得る細胞の３Ｄアセンブリである。３Ｄアセンブリは、体外の細胞ブロックのアセンブリのスライスであり得る。例えば、サンプルは、患者から集められた組織、例えば、がん患者からの、肝臓、肺、腎臓、又は結腸の組織サンプルから用意され得る。サンプルは、顕微鏡スライドにおける、全体組織、又は、組織マイクロアレイ（ｔｉｓｓｕｅｍｉｃｒｏａｒｒａｙ又はＴＭＡ）セクションであってよい。スライド上に置かれた組織サンプルを用意する方法は、当業者によく知られている、本発明での使用に好適なものである。

組織サンプルは、染料若しくは染色剤、又は、特定のバイオマーカ若しくは様々なタイプの細胞又は細胞内コンパートメントに直接反応する組織化学品若しくは免疫組織化学品などの、いずれの試薬又はバイオマーカラベルを使用して染色され得る。染色剤／試薬のすべてに相溶性があるわけではない。したがって、採用された染色剤のタイプ、及び、それらの一連の適用は、よく考慮されるべきであるが、これは、当業者の一人によりすぐに決定され得る。そのような組織化学品は、透過型顕微鏡検査法により検出可能な発色団、又は、蛍光顕微鏡検査法により検出可能な発蛍光団であってよい。一般的に、細胞を含むサンプルは、対象の化学グループに直接反応する、又はそれらと結合する、少なくとも１つの組織化学品を含む溶液を用いて培養され得る。いくつかの組織化学品は、典型的には、染色を可能にする色止め料又は金属を用いて共に培養される。細胞を含むサンプルは、対象のコンポーネントを染色する少なくとも１つの組織化学品と、対比染色剤として作用し、対象のコンポーネントの外側の領域に結合する別の組織化学品と、の混合物を用いて培養され得る。代替的に、複数のプローブの混合物が、染色において使用され得、これが、特定のプローブの位置を特定する方法を提供する。細胞を含むサンプルを染色する手順は、当業者によく知られている。

「画像分析システム」は、ここで使用されるように、画像を評価すること又は解釈することにおいて、ユーザをアシストするために、及び／又は、画像に暗示的に又は明示的に含まれる生物医学的情報を抽出するために、デジタル画像、特に、組織サンプルの画像を評価して処理することに適合された、コンピュータシステムなどのシステムである。例えば、コンピュータシステムは、標準的なデスクトップコンピュータシステム、又は、クラウドシステムなどの、分散コンピュータシステムであり得る。一般的に、コンピュータ化された組織病理学の画像分析は、その入力として、カメラにより撮像された、シングル又はマルチチャネル画像を取得し、診断又は治療における補助のための追加的な定量的情報を提供するよう試みる。

本発明の実施形態は、より大きな患者のグループにおける患者のサブグループに、特定の薬の効果がある可能性を決定することに使用され得る。個人化医療（ｐｅｒｓｏｎａｌｉｚｅｄｍｅｄｉｃｉｎｅ又はＰＭ）は、新たな医療分野である。その狙いは、個人のゲノム、エピゲノム、及びプロテオームのプロファイルに基づく、効果の高い、目的に合わせた治療方針を提供することである。ＰＭは、患者を治療しようと試みるだけでなく、効果の低い治療による副次的影響から患者を保護する。腫瘍の進行と共にしばしば生じるいくらかの変異は、特定の治療に対する耐性を引き起こす。したがって、バイオマーカ特有に染色された組織サンプルの組織画像により、少なくとも部分的に明らかになり得る患者の変異性のプロファイルは、特定の治療が、個別の患者に効果があるかについて、トレーニング済みＭＩＬプログラムが明確に決めることを可能にする。現在、試行錯誤のアプローチにおいて、処方された薬剤が、患者に効果があるかどうかについて決定する必要がある。この試行錯誤のプロセスは、所望しない、複雑な薬の相互作用、処方する薬の頻繁な変更、薬に効果があるかについて特定するまでの長い遅延、疾患の進行など、多くの副次的影響を有し得る。ＰＭは、個人を、彼らの特定の疾患に対する治療薬への彼らの反応において異なる部分母集団に階層化することに基づく。例えば、数種の未分化リンパ腫キナーゼ（ａｎａｐｌａｓｔｉｃｌｙｍｐｈｏｍａｋｉｎａｓｅ又はＡＬＫ）阻害剤は、ＡＬＫ遺伝子において発現が認められた、非小細胞肺がん（ｎｏｎ－ｓｍａｌｌｃｅｌｌｌｕｎｇｃａｎｃｅｒ又はＮＳＣＬＣ）の肺がん患者の約５％を治療することに便利な薬である。しかし、いくらかの時間の経過後、キナーゼ阻害剤は、ＡＬＫ遺伝子、又は、ＡＬＫのシグナル伝達カスケードの下流の他の遺伝子の変異により、効果がなくなる。したがって、肺がん患者のインテリジェントな分子キャラクタリゼーションが、患者の階層化を通して、いくつかの変異に特有の薬の最適な使用を可能にする。したがって、トレーニング画像又はテスト画像が取得される「患者のグループ」は、「１００人の乳がん患者」、「１００人のＨＥＲ＋乳がん患者」、「２００人の結腸がん患者」などのグループであり得る。

「デジタル画像」は、ここで使用されるように、二次元画像の、通常はバイナリの、数的な表現である。典型的には、組織画像は、ラスタータイプの画像であり、これは、画像が、少なくとも１つの強度値がそれぞれに割り当てられているピクセルのラスター（「マトリクス」）であることを意味する。いくつかのマルチチャネル画像は、色チャネル毎に１つの強度値を持つピクセルを有し得る。デジタル画像は、固定数の行及び列のピクセルを含む。ピクセルは、画像における最小の個別要素であり、いずれの特定のポイントにて与えられた色の輝度を表す、旧来の値を保持する。典型的には、ピクセルは、コンピュータメモリに、ラスター画像、又は、小さい整数の二次元アレイであるラスターマップとして記憶される。これらの値はしばしば、圧縮形態にて送信又は記憶される。デジタル画像は、デジタルカメラ、スキャナ、座標測定機器、顕微鏡、スライドスキャニングデバイスなどにより取得され得る。

「ラベル」は、ここで使用されるように、患者関連属性値を表して特定するストリング又は数値などのデータ値である。ラベルの例としては、「薬Ｄに対する患者の反応＝真（ｔｒｕｅ）」、「薬Ｄに対する患者の反応＝偽（ｆａｌｓｅ）」、「進行のない生存期間＝６ヶ月」、などを挙げることができる。

「画像タイル」は、ここで使用されるように、デジタル画像のサブ領域である。一般的に、デジタル画像から生成されるタイルは、円形、楕円形、多角形、矩形、正方形などのいずれの形状を有し得、及び、重なるもの、又は、重ならないもの、があり得る。好適な実施形態によると、画像から生成されるタイルは矩形であり、好ましくは、重なっているタイルである。重なっているタイルを使用することはまた、タイル生成プロセスによりさもなければ断片化されるであろう組織パターンが、バッグにて表される、という利点をも有し得る。例えば、２つの重なり合うタイルの重なりは、単一のタイルの面積の２０から３０％、例えば、２５％、であり得る。

実施形態によると、画像タイルギャラリ、例えば、画像タイルのレポートギャラリ、及び／又は、画像類似性サーチタイルギャラリ、は、ＧＵＩ上のタイルのグリッドスタイルに組織化したものである。ここでは、タイルは、それらのタイルが導き出された画像内のそれらの空間的配置から独立して、画像タイルギャラリにおいて空間的に整理されている。

「特徴ベクトル」は、ここで使用されるように、対象の重要な性質を記述する情報を含むデータ構造である。データ構造は、単次元又は多次元データ構造であり得、ここでは、特定のタイプのデータ値が、そのデータ構造内の位置のそれぞれに記憶されている。例えば、データ構造は、ベクトル、アレイ、マトリクスなどであり得る。特徴ベクトルは、いくつかの対象を表す数的特徴のｎ次元ベクトルとみなされ得る。画像分析では、特徴は多くの形態をとり得る。画像のシンプルな特徴表現は、各ピクセルの生の強度値である。しかし、より複雑な特徴表現も可能である。例えば、画像又は画像タイルから抽出された特徴はまた、スケール不変特徴変換（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ又はＳＩＦＴ）ディスクリプタの特徴でもあり得る。これらの特徴は、異なる線方位の有病率を取り込む。他の特徴は、画像又は画像タイルのコントラスト、勾配の方位、色組成、及び他の態様を示し得る。

「ヒートマップ」は、ここで使用されるように、データの図形表現であり、ここでは、マトリクスに含まれる個別値が、色及び／又は強度値として表される。いくつかの実施形態によると、ヒートマップは不透明であり、それに基づいてヒートマップが生成される、組織スライド画像の少なくともいくつかの構造を含む。他の実施形態によると、ヒートマップは半透明であり、ヒートマップを生成することに使用された組織画像の上部にオーバレイとして表示される。いくつかの実施形態によると、ヒートマップは、それぞれの色又はピクセル強度を介して、複数の類似性スコア、又は、複数の類似性スコア範囲のそれぞれを示す。

「バイオマーカ特異的染料」は、ここで使用されるように、特定のバイオマーカを選択的に染色する染色剤であり、例えば、ＨＥＲなどの特定のプロテインであるが、一般的には、他のバイオマーカ又は組織コンポーネントではない。

「非バイオマーカ特異的染料」は、ここで使用されるように、より包括的な結合挙動を有する染色剤である。非バイオマーカ特異的染料は、個別のプロテイン又はデオキシリボ核酸（ｄｅｏｘｙｒｉｂｏｎｕｃｌｅｉｃａｃｉｄ又はＤＮＡ）配列を選択的に染色しないが、むしろ、特定の物理的又は化学的性状を有する、より大きなグループの物質、及び、下位細胞構造、同様に、上位細胞構造を染色する。例えば、ヘマトキシリン及びエオシンはそれぞれ、非バイオマーカ特異的染料である。ヘマトキシリンは、濃い青色又は紫色の染色剤であり、これは、塩基／正である。これは、好塩基性物質に結合する（例えば、ＤＮＡ及びＲＮＡ、これらは酸性であり、負に帯電している）。核内のＤＮＡ／ＲＮＡ、及び、粗面小胞体におけるリボソーム内のＲＮＡは、双方とも酸性である。なぜなら、核酸のリン酸骨格が、負に帯電しているからである。これらの骨格は、正電荷を含む塩基性染料を持つ塩を形成する。したがって、ヘマトキシリンなどの染料はＤＮＡ及びＲＮＡに結合し、それらを紫色に染色する。エオシンは、赤色又はピンク色の染色剤であり、これは、酸性であり、負である。これは、正に帯電したアミノ酸側鎖（例えば、リジン、アルギニン）などの好酸性物質に結合する。いくつかの細胞の細胞質における多くのプロテインは、塩基である。なぜなら、それらは、アルギニン及びリジンアミノ酸残基により、正に帯電しているからである。これらは、エオシンなどの、負の電荷を含む酸性染料と共に塩を形成する。したがって、エオシンは、これらのアミノ酸／プロテインに結合し、それらをピンク色に染色する。これは、筋細胞、細胞内膜、及び細胞外線維において、細胞質フィラメントを含む。

「アテンション機械学習ロジックプログラム」は、ここで使用されるように、特定のパラメータに加重を割り当てるようトレーニングされたＭＬＬである。これにより、加重が重要度を示し、他のプログラムのアテンションが、それらのパラメータを分析することに向き得る。アテンションＭＬＬの背後にあるアイデアとは、現在のコンテキストにおける特定の関連性のものである利用可能なデータのサブセットに選択的に注目する人の脳の能力をシミュレーションすることである。アテンションＭＬＬは、例えば、テキストマイニングの分野において、加重及び計算リソースを、特定の重要度のそれらである特定の言葉に選択的に割り当てて、センテンスから意味を導き出すことに使用される。言葉のすべてが等しく重要であるわけではない。それらのいくつかは、センテンスを、他のものよりも特徴付ける。アテンションＭＬＬに、トレーニングデータセットについてトレーニングさせることにより生成されたアテンションモデルは、センテンスベクトルが、「重要」な言葉により注意を向け得る、ということを指定し得る。１つの実施形態によると、トレーニング済みアテンションＭＬＬは、検査された各特徴ベクトルにおける各特徴値に対して加重を計算し、各特徴ベクトルにおけるすべての特徴値の加重された合計を計算するよう適合されている。この加重された合計は、タイルの全体特徴ベクトルを具現化する。

実施形態によると、アテンションＭＬＬは、特定の入力を選択するその入力（又は特徴）のサブセットに注目する能力を持つニューラルネットワークを備えるよう適合されているニューラルアテンションメカニズムを含むＭＬＬである。ここで、ｘ∈Ｒｄを入力ベクトル、ｚ∈Ｒｋを特徴ベクトル、ａ∈［０，１］ｋをアテンションベクトル、ｇ∈Ｒｋをアテンショングリムプス、及びｆφ（ｘ）を、パラメータφを用いるアテンションネットワークとする。

典型的には、アテンションは、

、のように実施され、
ここで、

は、要素毎の乗算であり、ｚは、パラメータθを用いる別のニューラルネットワークｆθ（ｘ）の出力である。特徴を、ゼロと１との間の（ソフト）マスクの値と乗算するソフトアテンション、又は、それらの値が、正確にゼロ又は１、すなわち、ａ∈｛０，１｝ｋ、となるよう制約される際のハードアテンションについて説明することができる。後者の場合では、ハードアテンションマスクを使用して、次のように、特徴ベクトルを直接指数化することができる：ｇ～＝ｚ［ａ］（Ｍａｔｌａｂ表記法にて）、これは、その次元を変え、ｍ≦ｋにて、ｇ～∈Ｒｍとなる。

「強度情報」又は「ピクセル強度」という言葉は、ここで使用されるように、デジタル画像のピクセル上にてとらえられた、又は、これにより表される電磁放射（「光」）の量の尺度である。「強度情報」という言葉は、ここで使用されるように、例えば、特定の色チャネルの強度などの、追加的な関連情報を含み得る。ＭＬＬは、この情報を、デジタル画像に含まれる勾配又はテクスチャなどの派生情報を計算的に抽出することに使用し得る。派生情報は、トレーニング中、及び／又は、トレーニング済みＭＬＬによる特徴の抽出中に、デジタル画像から暗示的に又は明示的に抽出され得る。例えば、「デジタル画像のピクセル強度値は、１つ又はそれ以上の特定の染色剤の強さと相関する」という表現は、色情報を含む強度情報が、ＭＬＬと、また、ユーザと、が、それら１つ又はそれ以上の染色剤の特定の１つを用いて染色された、組織サンプルにおける領域を特定できるようにするということを暗示し得る。例えば、ヘマトキシリンを用いて染色されたサンプルの領域を描くピクセルは、青色のチャネルにおいて高いピクセル強度を有し得、ｆａｓｔＲｅｄを用いて染色されたサンプルの領域を描くピクセルは、赤色のチャネルにおいて高いピクセル強度を有し得る。

「全畳み込みニューラルネットワーク」は、ここで使用されるように、いずれの完全に接続されたレイヤ、又は、ネットワークの端部にて通常みつかるマルチレイヤパーセプトロンズ（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎｓ又はＭＬＰｓ）のない、畳み込みレイヤからなるニューラルネットワークである。全畳み込みネットは、すべてのレイヤにおける学習フィルタである。ネットワークの端部にある意思決定レイヤでさえも、フィルタを学習する。全畳み込みネットは、表現を学習しようと試み、局部的な空間的入力に基づいて意思決定する。

実施形態によると、全畳み込みネットワークは、その活性化機能が、次のプロパティを満たす特定のレイヤにおける場所（Ｉ，ｊ）にて、出力データベクトルｙ_ｉｊを生成する形態のレイヤのみを持つ畳み込みネットワークである：

ここで、ｘ_ｉｊは、特定のレイヤにおける場所（ｉ，ｊ）でのデータベクトルであり、ｙ_ｉｊは、これに続くレイヤにおけるその場所でのデータベクトルであり、ここで、ｙ_ｉｊは、ネットワークの活性化機能により生成される出力であり、ここで、ｋは、カーネルサイズと呼ばれ、ｓは、ストライド又はサブサンプリングファクターであり、ｆ_ｋｓは、次のレイヤタイプを決定する：畳み込み又は平均プーリングのための行列の乗算、ｍａｘプーリングのための空間的ｍａｘ、又は、活性化機能のための要素毎の非直線性、他のタイプのレイヤに対するものなど。この関数形態は、次の変換ルールにしたがうカーネルサイズ及びストライドをもってして、組成の下で維持される。

一般的なディープネットが、一般的な非線形関数を計算する一方で、この形態のレイヤのみを持つネットは、非線形フィルタを計算する。これはまた、ディープフィルタ又は全畳み込みネットワーク（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ又はＦＣＮ）とも呼ばれる。ＦＣＮは、いずれのサイズの入力を自然に処理し、（おそらくは再サンプルされた）空間次元に対応する出力を生成する。様々な全畳み込みネットワークの性質のより詳細な説明については、ＪｏｎａｔｈａｎＬｏｎｇ、ＥｖａｎＳｈｅｌｈａｍｅｒ、及びＴｒｅｖｏｒＤａｒｒｅｌｌによる、「意味論的セグメンテーションのための全畳み込みネットワーク（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）」、ＣＶＰＲ２０１５、を参照されたい。

「機械学習ロジック（ＭＬＬ）」は、ここで使用されるように、例えば、トレーニングプロセスにおいてトレーニングされた、又は、トレーニングされ得、及び、学習フェーズの結果として、提供されたトレーニングデータに基づいて、いくつかの予測的及び／又はデータ処理タスクを行うよう学習している、トレーニング済みニューラルネットワーク、又は、サポートベクトルマシンなどの、１ピースのソフトウェアなどの、プログラムロジックである。したがって、ＭＬＬは、プログラマにより、少なくとも部分的に、明示的に指定されていないものの、サンプルの入力から、１つ又はそれ以上の暗黙の又は明確なモデルを構築する、データドリブンの学習プロセスにおいて暗示的に学習しており、変更されている、プログラムコードであり得る。機械学習は、教師あり又は教師なし学習を採用し得る。効果的な機械学習はときに難しい。なぜなら、パターンを見つけることが難しく、十分なトレーニングデータがときに利用可能でないからである。

「バイオマーカ」という言葉は、ここで使用されるように、生物学的サンプルにおいて、組織タイプ、通常の若しくは病原性のプロセス、又は、治療的介入に対する反応のインジケータとして測定され得る分子である。特定の実施形態では、バイオマーカは、プロテイン、ペプチド、核酸、脂質、及び炭水化物からなるグループから選択される。特に、バイオマーカは、上皮増殖因子受容体（ｅｐｉｄｅｒｍａｌｇｒｏｗｔｈｆａｃｔｏｒｒｅｃｅｐｔｏｒ又はＥＧＲＦ）、ＨＥＲ２、ｐ５３、ＣＤ３、ＣＤ８、Ｋｉ６７などの特定のプロテインであってよい。特定のマーカは、特定の細胞の性質である一方、他のマーカは、特定の疾患又は状態に関連付けられたものとして特定される。

組織サンプル画像の画像分析に基づいて、特定の腫瘍のステージを決定するために、複数のバイオマーカ特異的染料を用いてサンプルを染色する必要がある場合がある。組織サンプルの、バイオマーカに特有の染色は、典型的には、対象のバイオマーカに選択的に結合する一次抗体の使用を含む。特に、これらの一次抗体は、染色プロトコルの他のコンポーネントも含め、高価である場合があり、したがって、多くのアプリケーションシナリオ、特に、高スループットでのスクリーニングにおいて、コストを理由に、利用可能な画像分析技術の使用を不可能にする場合がある。

一般的に、組織サンプルは、大規模な組織形態と、細胞と核との境界と、を明らかにするために、例えば、ヘマトキシリン染色剤、又は、ヘマトキシリンとエオシン染色剤との組み合わせ（「Ｈ＆Ｅ」染色剤）などの背景染色剤（「対比染色剤」）を用いて染色される。背景染色剤に加えて、複数のバイオマーカ特異的染料が、例えば、腫瘍の分類及び病期、組織における特定の細胞タイプの量及び相対分布の検出などの、回答が必要な生物医学的問題に依存して適用され得る。

本発明の実施形態を、例示のみを目的として、添付の図面を参照して以下により詳細に説明する。

図１は、本発明の実施形態に係る方法のフローチャートを描く。図２は、本発明の実施形態に係る画像分析システムのブロック図を描く。図３は、本発明の実施形態に係る、レポート画像タイルギャラリを伴うＧＵＩを描く。図４は、本発明の実施形態に係る、類似性サーチ画像タイルギャラリを伴うＧＵＩを描く。図５は、本発明の実施形態に係る特徴抽出ＭＬＬプログラムのネットワークアーキテクチャを描く。図６は、ＭＩＬプログラムとアテンションＭＬＬとを組み合わせるための、１つの可能なシステムアーキテクチャを描く。図７は、ＭＩＬプログラムとアテンションＭＬＬとを組み合わせるための、別の可能なシステムアーキテクチャを描く。図８は、２Ｄ及び３Ｄ座標系におけるタイルの空間距離を示す。図９は、本発明の実施形態に係るサイアミーズネットワークのアーキテクチャを描く。図１０は、切り捨てられたサイアミーズネットワークとして実装される特徴抽出ＭＬＬを描く。図１１は、画像データベースにおいて、特徴ベクトルに基づく類似性サーチを使用するコンピュータシステムを描く。図１２は、それらの空間的近接に基づいてラベル付けされた「類似する」及び「類似しない」タイルペアを示す。図１３は、近接に基づく類似性ラベルについてトレーニングされた特徴抽出ＭＬＬにより抽出された、類似性サーチ結果に基づく特徴ベクトルを示す。

図１は、本発明の実施形態に係る方法のフローチャートを描く。本方法は、例えば、バイオマーカステータス、診断、治療の結果、大腸がん又は乳がんなどの特定のがんのマイクロサテライトステータス（ｍｉｃｒｏｓａｔｅｌｌｉｔｅｓｔａｔｕｓ又はＭＳＳ）、リンパ節における微小転移巣、及び、診断生体検査における病理学的完全奏効（ｐａｔｈｏｌｏｇｉｃｃｏｍｐｌｅｔｅｒｅｓｐｏｎｓｅ又はｐＣＲ）などの、患者の患者関連属性値の予測に使用され得る。この予測は、好ましくは、仮説ではない特徴抽出に基づくディープラーニングを使用する、組織構造スライドのデジタル画像に基づく。

方法１００は、これまでにまだわかっていない、予測的な組織学的シグニチャを特定して抽出するよう設計された、弱教師ありディープラーニングコンピュータアルゴリズムにトレーニングさせることに使用され得る。本方法は、患者関連属性値を示す組織パターンを特定することを可能にする。

患者からの組織の試料は、例えば、ホルマリン固定パラフィン包埋組織（ｆｏｒｍａｌｉｎ－ｆｉｘｅｄｐａｒａｆｆｉｎ－ｅｍｂｅｄｄｅｄｔｉｓｓｕｅ又はＦＦＰＥＴ）組織ブロックの形態にて提供されてよい。組織ブロックは、ラベルとして使用される、所定の、予め既知のエンドポイント（例えば、生存期間、反応、遺伝子シグニチャなど）を伴って、患者から採取される必要がある。

組織ブロックはスライスされ、それらのスライスは、顕微鏡検査法でのスライド上にセットされる。続いて、スライスは、Ｈ＆Ｅ、及び／又は、各種のバイオマーカ特異的染料などの、１つ又はそれ以上の組織学的に関連する染色剤を用いて染色される。画像は、染色された組織スライスから、スライドスキャナ顕微鏡などを使用して撮像されている。

第１のステップ１０２では、画像分析システム（例えば、図２を参照して上述するようなもの）は、患者のグループにおける各患者に対して、その患者の組織サンプルの少なくとも１つのデジタル画像２１２を受信する。

読み取ることは、データベースから画像を読み取ることを含むことができる。例えば、画像は、何年も前の古い組織サンプル画像であり得る。古い画像データセットは、治療の成功、疾患の進行、副次的影響などの、多くの関連するイベントの結果が同時に既知となり、その既知のイベントがラベルとして割り当てられている組織画像を含むトレーニングデータセットを生成することに使用され得る、という利点を有し得る。加えて、又は代替的に、画像は、顕微鏡又はスライドスキャナなどの画像取得システムから直接受信され得る。ラベルは、受信した画像に、手動で、又は、自動的に割り当てられ得る。例えば、ユーザは、スライドスキャナのソフトウェアを、取得する画像に、それらの取得中に、特定のラベルが自動的にラベル付けされるように構成してよい。これは、例えば、特定の薬Ｄに反応を示すことがわかっている、第１のグループの１００人の乳がん患者の１００の組織画像、及び、この反応を示さないことがわかっている、第２のグループの１２０人の乳がん患者の１２０の組織画像など、同じ患者関連属性値／エンドポイントを有する大きなグループの患者の組織サンプル画像が順次取得されるシナリオにおいて、助けとなり得る。ユーザは、第１のグループの画像が取得される前に一度だけ、そして続いて、第２のグループの画像が取得される前に再度、撮像された画像に割り当てられるラベルをセットしなければならない場合がある。

各患者に対して、１つ又はそれ以上の画像が回収される。例えば、同じ組織サンプルが、異なる染色プロトコルにしたがって複数回染色され得、これにより、各染色プロトコルに対して、１つの画像が取得される。代替的に、いくつかの隣接する組織サンプルスライスはそれぞれ、同じ又は異なる染色プロトコルを用いて染色され得、組織サンプルスライドのそれぞれに対して、１つの画像が取得される。受信した画像のそれぞれには、少なくとも２つの異なる、予め定められたラベルの内の１つが割り当てられる。各ラベルは、その組織が、ラベル付けされた画像に描かれている、患者の患者関連属性値を示す。属性値は、例えば、ブール、数、ストリング、序数パラメータ値などのいずれのタイプであり得る。

次に、ステップ１０４において、画像分析システムは、各受信した画像を、画像タイルのセット２１６に分割する。これにより、各タイルには、タイルを生成することに使用された画像にすでに割り当てられたラベルが割り当てられる。

例えば、「ＣＡＭＥＬＹＯＮ１６」チャレンジ２０１６の根拠として公開された画像データセットが、トレーニングデータセットとして使用され得る。乳がん患者の、Ｈ＆Ｅにて染色されたリンパ節組織セクションの２７０の全体スライド画像からなるＣＡＭＥＬＹＯＮ１６データセットは、トレーニング画像データセット（正常な組織の１６０の画像、腫瘍転移のある１１０の画像）として提供される。このデータセットは、ｈｔｔｐｓ：／／ｃａｍｅｌｙｏｎ１６．ｇｒａｎｄ－ｃｈａｌｌｅｎｇｅ．ｏｒｇ／ｄａｔａ／から利用可能である。１０倍の倍率にて、このデータセットの画像は、それぞれが重ならない、サイズが２５６ｘ２５６ピクセルの非背景エリアから、１，１１３，４０３のＲＧＢタイルを生成することに使用され得る。

１つの実施形態によると、受信した画像、同様に、生成されたタイルは、マルチチャネル画像である。タイルの数は、トレーニングデータセットを強化するために、異なるサイズ及び倍率レベルを有する、及び／又は、いくらかのシミュレーションされたアーチファクト及びノイズを含む、既存のタイルの変更されたコピーを生成することにより、増やされ得る。いくつかの場合では、複数のバッグが、本発明の実施形態についてここに説明するように、バッグにおけるインスタンスを繰り返しサンプリングし、選択されたインスタンスを追加的なバッグに置くことにより生成され得る。この「サンプリング」はまた、トレーニングデータセットを強化する正の効果を有し得る。

いくつかの場合では、特徴ベクトルは、Ｎクラスタにクラスタ化され得、Ｍインスタンス（タイル）が、各クラスタから疑似バッグにランダムに選択され、バッグにおけるインスタンスの、クラスタと同等の母集団を生成し得る。

次に、ステップ１０６において、画像分析システムは、タイルのそれぞれに対して、特徴ベクトル２２０を計算する。特徴ベクトルは、そのタイルに描かれている組織パターンから選択的に抽出された画像特徴を含む。任意に、特徴ベクトルは、これに加えて、遺伝子的特徴、又は、他の患者、若しくは、画像及びそれぞれのタイルが導き出される、その患者に対して利用可能な患者関連データを含み得る。いくつかの実施形態によると、特徴抽出は、トレーニング済み特徴抽出ＭＬＬにより行われる。特徴抽出ＭＬＬは、トレーニングデータセットにおける各タイルに対する特徴ベクトルを、特徴と、ベクトルと、ラベルと、の関係を保ちつつ、生成できる。しかし、他の実施形態は、特徴ベクトルが計算されるタイルに描かれている組織エリアを記述する、非常に多種の特徴を提供するための、明示的にプログラムされた特徴抽出アルゴリズムを使用してよい。

次に、ステップ１０８において、マルチプルインスタンスラーニング（ｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅ－ｌｅａｒｎｉｎｇ又はＭＩＬ）プログラム２２６が、グループにおけるすべての患者に対して受信したすべての画像のすべてのタイル及びそれぞれの特徴ベクトルについてトレーニングされる。これにより、ＭＩＬプログラムは、タイルの各セットを、同じラベルを有するタイルのバッグとしてを扱う。トレーニングは、タイルのそれぞれに対して、数値２２８を計算するために、トレーニングデータセットにおけるタイルの特徴ベクトル２２０を分析することを含む。この数値は、タイルが導き出された画像に割り当てられたラベルに関して、タイルに関連付けられた特徴ベクトルの予測パワーを示す。換言すると、この数値は、タイルに割り当てられたラベルの発生／観察に対する、特定の特徴ベクトルの予測パワー、すなわち、「予測的値／能力」を表す。特徴ベクトルの特徴は、それぞれのタイルに含まれる画像情報から、完全に、又は、少なくとも部分的に抽出されるため、特徴ベクトルは、このタイルに描かれている組織エリアの光学特性を表す。したがって、特徴ベクトルは、電子的組織シグニチャとみなされ得る。

例えば、ＭＩＬプログラムは、特定の組織領域の、可能性のある１つのラベル又は複数のラベルを予測するようトレーニングされ得、及び／又は、浮動小数点ラベル予測（ｆｌｏａｔｉｎｇｐｏｉｎｔｌａｂｅｌｐｒｅｄｉｃｔｉｏｎｓ）が所望される場合は、ラベルを逆行するようトレーニングされ得る。いくつかの場合では、追加的なアテンションＭＬＬが、どの特徴ベクトルが、ラベルを予測することに対して最も関連するかについて学習するようトレーニングされる。いくつかの場合では、アテンションＭＬＬにより計算された加重が、各スライドの特徴ベクトル値と乗算される。この乗算の結果として、加重された特徴値を持つ特徴ベクトルが、各タイル及びその特徴ベクトルに対して取得され、トレーニング時に、ＭＩＬプログラムへの入力として使用される。他の実施形態では、アテンションＭＬＬにより計算された加重は、各タイルの特徴ベクトルに対して、ＭＩＬにより計算された数値と乗算される。これは、ラベルに関して、特定のタイル及びその特徴値の予測パワーのインジケータとして使用される、加重された数値を生成する。この加重された数値は、トレーニング済みＭＩＬプログラムの正確さを査定するために、トレーニング時に、グラウンドトゥルースと比較され得る。いくつかの場合では、平均（ａｖｅｒａｇｅ）、最小（ｍｉｎ）、最大（ｍａｘ）、最小最大プーリング（ｍｉｎ－ｍａｘｐｏｏｌｉｎｇ）（又は、それらの組み合わせ）が、その順列不変変換演算において、トレーニング中に、ＭＩＬプログラムにより、タイルに特有の結果として取得される特徴ベクトルに適用され得る。

次に、ステップ１１０において、画像分析システムは、画像タイルのレポートギャラリ２０６を、画像分析ソフトウェアにより生成されたＧＵＩ２３２を介して出力する。レポート画像タイルギャラリを含むＧＵＩの一例が、図３に描かれている。レポートギャラリは、タイルのサブセットを含む。これにより、このサブセットが、それらの、それぞれ計算された数値に従ってソートされる。加えて、又は代替的に、レポート画像タイルギャラリは、それぞれのタイルに関連付けられた数値の図形表現を含む。

最後に、トレーニング済みＭＩＬプログラムが、トレーニングフェーズの結果として取得される。トレーニング済みＭＩＬプログラムは、他の患者の群（ｃｏｈｏｒｔ）から導き出された画像タイルに適用され得る。

テストの目的のために、利用可能なデータセットを、トレーニングデータセットとして使用される（例えば、画像の約７５％を含む）サブセットと、テストデータセットとして使用される（例えば、画像の約２５％を含む）さらなるサブセットと、に分割することもまた可能である。トレーニング済みＭＩＬプログラムが、関連する使用分野（ｆｉｅｌｄｓｏｆｕｓｅ又はＦＯＶｓ）についての高い予測値に到達したことが観察された。これらは、ｐＣＲの予測に影響があるものといままでみなされていない組織パターンを含んでいた。

したがって、本発明の実施形態は、組織構造及び臨床での撮像から、ゲノミクス及びシーケンシングから、現実世界のデータから、並びに、診断方法から、薬の開発プロセスにおいて利用可能な膨大な量のデータの使用を可能にし得る。本方法は、新たな洞察を抽出することと、新たな技術の開発と、を可能にし得る。

病理学及び組織構造分析のコンテキストにおいて、予測的に内在する組織テクスチャ、又は、組織に関するシグニチャを手動で特定するタスクは、それぞれが数十億のピクセルを持つ、マルチチャネルの、マルチステインマルチモダリティ（ｍｕｌｔｉｓｔａｉｎｍｕｌｔｉ－ｍｏｄａｌｉｔｙ）の高倍率画像画像において利用可能な情報のシア（ｓｈｅａｒ）量により、困難であり得る。この診査はしたがって、典型的には、人から生成された仮定の診査に基づき、したがって、腫瘍と、生物学的メカニズムと、についての、前から存在する知識の境界に、同様に、多数の高倍率組織構造画像を手動で吟味する複雑さと所要労働力とにより、限定される。本発明の実施形態は、微小病理学による組織学的組織画像における隠れた情報を、機械学習ロジックと、人と、の双方が、高い予測パワーを有すると特定された特徴を解釈できるように明らかにすることを可能にし得る。

実施形態によると、トレーニング済みＭＩＬは、患者グループを階層化することに使用され得る。これは、所与の治療ではなく、要因により患者を分けることを意味する。階層化は、ＭＩＬ又はアテンションＭＬＬにトレーニングさせる際にラベルとして使用されない患者関連属性に基づいて行われ得る。例えば、そのような患者関連属性は、年齢、性別、他の人口統計学的要因、又は、特定の遺伝子的若しくは生理的形質であり得る。ＧＵＩは、ユーザが、ラベルとして使用されなかった、それらの患者関連属性いずれの１つに基づいて、それらの組織画像が、ＭＩＬにトレーニングさせることに使用された患者のサブグループを選択し、そのサブグループにおける、トレーニング済みＭＬＬの予測の正確さを選択的に計算することを可能にする。例えば、サブグループは、女性患者、又は６０歳を超える患者からなることができる。女性／男性、又は、６０歳を超える／未満の患者などのそれぞれのサブグループに対して選択的に取得された正確さは、いくつかのサブグループにおける、トレーニング済みＭＩＬの特定の高い又は低い正確さを明らかにし得る。これは、変数（リサーチャが検討しているもの以外の変数）を混ぜ合わせることを可能にし得、これにより、リサーチャが、変数間の関係を検出して解釈し、特定の薬から最も恩恵を被る患者グループを特定することを容易にする。

図２は、本発明の実施形態に係る画像分析システム２００のブロック図を描く。

画像分析システム２００は、１つ又はそれ以上のプロセッサ２０２と、揮発性又は不揮発性記憶媒体２１０と、を含む。例えば、記憶媒体は、電磁ドライブ又はフラッシュドライブなどのハードディスクドライブであり得る。これは、磁気ストレージ、半導体ベースのストレージ、又は光学データストレージであり得る。記憶媒体は、一時的にのみデータを含む、メインメモリなどの揮発性媒体であり得る。

記憶媒体は、エンドポイントが既知の、患者からの組織サンプルの、複数のラベル付けされたデジタル画像２１２を含む。

画像分析システムは、画像２１２のそれぞれを複数のタイルに分割するよう構成されている分割モジュール２１４を含む。タイルは、バッグ２１６にグループ化されており、これにより、典型的には、同じバッグにおけるすべてのタイルは、同じ患者から導き出される。バッグのラベルは、患者の既知のエンドポイントであり、バッグのすべてのタイルには、バッグのラベルが割り当てられている。

特徴抽出モジュール２１８は、タイル２１６のそれぞれから、複数の画像特徴を抽出するよう構成されている。いくつかの実施形態では、特徴抽出モジュール２１８は、トレーニング済みＭＬＬ又はトレーニング済みＭＬＬのエンコーディング部であり得る。抽出された特徴は、それらが導き出されたタイルと関連する特徴ベクトル２２０として、記憶媒体２１０において記憶される。任意に、特徴ベクトルは、マイクロアレイデータなどのゲノムデータなどの、他のソースから導き出された患者の特徴を用いて強化され得る。

任意に、画像分析システムは、トレーニング済みＭＩＬに、画像タイルの残りについてトレーニングさせてテストするために、画像のサンプル（サブセット）を選択するよう適合されているサンプリングモジュール２１５を含むことができる。サンプリングモジュールは、まず、サンプリングを行う前に、それらの特徴ベクトルに基づいて、タイルをクラスタ化することを行い得る。

任意に、画像分析システムは、特徴ベクトルのそれぞれ及びそれぞれのタイルに対して加重を計算するよう構成されているアテンションＭＬＬプログラム２２２を含むことができる。加重は、ＭＩＬプログラム２２６にトレーニングさせる際に、又は、ＭＩＬプログラムのトレーニングの結果として、ＭＩＬにより、タイルのそれぞれに対して返された数値に加重するために、特徴ベクトルと共に、入力として使用され得る。

画像分析システムは、マルチプルインスタンスラーニングプログラム（ＭＩＬプログラム２２６）を含む。トレーニング中、ＭＬＬプログラム２２６は、特徴ベクトル２２０（又は、アテンションＭＬＬ２２２により生成された、加重された特徴ベクトル２２４）、同様に、それぞれのタイルに割り当てられたラベル、を受信する。トレーニングの結果として、トレーニング済みＭＩＬプログラム２２６が提供される。加えて、タイルのそれぞれに対して、数値２２８が計算される。これは、タイルと、タイルに割り当てられたラベルに対して、そこに描かれた組織パターンと、の予測パワーを示す。これらの数値はまた、「数的タイル関連性スコア」とも呼ばれ得る。

画像分析システムは、画像分析システムのスクリーン２０４上に表示されるＧＵＩ２３２を生成するよう構成されているモジュール２３０をさらに含む。

ＧＵＩは、タイルの少なくともいくつかと、これらのタイルに対して計算された数値２２８と、を含むレポートタイルギャラリ２０６を含む。数値２２８は、例えば、それぞれのタイル上のオーバレイとして明示的に、及び／又は、例えば、それらのそれぞれの数値２２８に従ってソートされたタイルのソート順の形態にて暗示的に、表示され得る。ユーザがタイルの１つを選択すると、そこからタイルが元々導き出された画像の全体スライドヒートマップが表示される。他の実施形態では、レポートタイルギャラリ２０６に加えて、ヒートマップがデフォルト毎に表示されてよい。

プログラムモジュール２１４、２１５、２１８、２２２、２２６、２３０のそれぞれは、大型ＭＩＬトレーニングフレームワークソフトウェアアプリケーションのサブモジュールとして実装され得る。代替的に、１つ又はそれ以上のモジュールはそれぞれ、画像分析システムの他のプログラム及びモジュールと相互運用可能な、スタンドアローンソフトウェアアプリケーションプログラムを表してよい。各モジュール及びプログラムは、例えば、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ、Ｃ＃、又はいずれの他の好適なプログラミング言語にて記述された１ピースのソフトウェアであり得る。

図３は、本発明の実施形態に係る、レポート画像タイルギャラリを伴うＧＵＩ３００を描く。レポートギャラリ（行ラベル３０２、３０４、３０６、及び３０８下のタイルのマトリクス）は、ユーザが、特定のラベルに関して、高い予測パワーを持つものとなると、ＭＩＬプログラムにより特定された組織パターンを診査することを可能にする。ギャラリは、例えば、ＭＩＬにより計算された、「薬Ｄを用いた治療に対する反応＝真（ｔｒｕｅ）」など、対象の特定のラベルに関して、最も高い数値を有するタイルのいくつかを含む。タイルは、それらが導き出された組織スライド画像に基づいてグループ化されており、ＭＩＬにトレーニングさせることに使用された画像に割り当てられた特定のラベルに関して、タイルの予測パワーを示すそれらのそれぞれの数値にしたがって、それらのグループ内にてソートされる。加えて、ギャラリは、ギャラリにおけるタイルのそれぞれに対して、トレーニング後に自動的に決定され得る全体的な予測的正確さを含み得る。加えて、又は代替的に、レポートギャラリは、それぞれの画像に割り当てられたラベルと、このラベルに対して取得された、バッグ毎の予測的正確さと、を含むことができる。例えば、「グラウンドトゥルース＝０」は、ラベル「薬Ｄに反応する患者」を表し得る。「グラウンドトゥルース＝１」は、ラベル「薬Ｄに反応しない患者」を表し得る。加重を計算するためにアテンションＭＬＬが使用された場合、ソーティングはまた、本発明の実施形態についてここに説明するように、アテンションＭＬＬにより生成されたタイルの加重と、ＭＩＬにより計算された数値と、の組み合わせ（例えば、乗算の結果）から、各タイルに対して計算された、組み合わされたスコア値に基づくことができる。ＭＩＬにより計算された特定の画像のすべてのタイルの最も高い数値が、その画像から導き出されたタイルのグループの上部に、「予測値」として表示される。

描かれたギャラリでは、タイル行３０２が、第１の患者の６つのタイルを示す。そのタイルの最初の１つには、ラベルに関して、特定の組織スライド／全体スライド画像の予測パワーを示す最も高い数値（予測的値）が割り当てられる。スライドグループ毎の最初のタイルには、これに加えて、又は、代替的に、特定の組織スライド画像から導き出されたすべてのタイルの、（ＭＩＬにより提供された数値から、及び、アテンションＭＬＬにより計算された加重から生成された）最も高い、組み合わされた値が割り当てられる。

最も高い数値は、図３に示すＧＵＩに描かれるように、患者毎の最も高くスコア付けされたタイルの上部に表示され得る。

最も高い予測パワーを有するタイルのサブセットのみを含むレポートタイルギャラリは、病理学者が、全体スライドを調べる必要がないため、好適となり得る。むしろ、病理学者の注意は、対象のラベルに関して、最も高い予測パワーを有するよう、その組織パターンが特定されている各全体スライド画像の、少数のサブ領域（タイル）に自動的に向けられる。

図３に描かれている実施形態によると、レポート画像タイルギャラリは、Ｈ＆Ｅにて染色された画像から導き出された画像タイルを示す。レポート画像タイルギャラリは、次のように整理される。

行３０２は、第１の患者の特定の全体スライド画像３１２から導き出されたすべてのタイル内に、ＭＩＬプログラムにより計算された、（予測パワー、すなわち、予測的値を示す）最も高い数値が割り当てられている６つのタイルを含む。他の実施形態によると、ソーティングは、ＭＩＬにより計算された数値と同一のスコア値、又は、ＭＩＬにより計算された数値の微分値に基づいて行われる。例えば、微分値は、ＭＩＬにより、タイルに対して計算された数値と、アテンションＭＬＬにより、そのタイルに対して計算された加重と、の組み合わせとして計算された、組み合わされたスコアであり得る。この組み合わせは、例えば、その数値と、その加重と、の乗算であり得る。さらなる他の実施形態によると、タイルは、アテンションＭＬＬにより計算された加重のみに従ってソートされ、ＭＩＬにより計算された数値は、ユーザに、異なる様式にて、例えば、それぞれのタイルの上にある数字、又は、それぞれのタイルに空間的に近接して提示された数字、などの形態にて、表示される。

それらのいくつかが、行３１２に提示されている、タイルを生成することに使用された、第１の患者の組織サンプルの、それぞれの全体スライド画像３１２は、より高く関連するタイルの、この選択されたセット３１２に空間的に近接して示されている。

加えて、ＭＩＬにより計算されたその数値が、予測パワーを示す最も高い数値が計算された、画像３１２のタイルの１つの数値に類似する、すべての全体スライド画像領域をハイライトする、オプションの関連性ヒートマップ３２２が示される。この場合では、最も高い数値が計算されたタイルの１つが自動的に特定されて選択され（例えば、行３１２における最初の位置にあるタイル）、関連性ヒートマップ３２２を計算するための根拠として使用される。代替的な実施によると、関連性ヒートマップ３２２は、画像のすべてのタイルに対して計算された最も高い数値に対する、タイルの数値の類似性を表さないが、これはむしろ、画像のすべてのタイルに対して計算された最も高い、組み合わされたスコアに対する、タイルの類似性を表す。組み合わされたスコアは、例えば、タイルに対して、アテンションＭＬＬにより計算された加重と、ＭＩＬにより計算された、画像のラベルに関しての、タイルの予測パワーを示す数値と、の乗算などの組み合わせであり得る。依然としてさらなる実施形態によると、関連性ヒートマップ３２２は、アテンションＭＬＬにより計算されたタイルの加重の、アテンションＭＬＬにより、画像のすべてのタイルに対して計算された最も高い加重に対する類似性を表す。

列３０４は、第２の患者の特定の全体スライド画像３１４から導き出されたすべてのタイル内に、ＭＩＬプログラムにより計算された、最も高い数値が割り当てられている６つのタイルを含む。それぞれの全体スライド画像３１４は、より高く関連するタイルの、この選択されたセットに空間的に近接して示される。加えて、ＭＩＬにより計算されたそのそれぞれの数値が、最も高い数値がＭＩＬにより計算された全体スライド画像３１４のタイルの１つに高く類似する、すべての全体スライド画像領域をハイライトする関連性ヒートマップ３２４が示される。

列３０６は、第３の患者の特定の全体スライド画像３１６から導き出されたすべてのタイル内に、ＭＩＬプログラムにより計算された、最も高い数値が割り当てられている６つのタイルを含む。それぞれの全体スライド画像３１６は、より高く関連するタイルの、この選択されたセットに空間的に近接して示される。加えて、ＭＩＬにより計算されたそのそれぞれの数値が、最も高い数値がＭＩＬにより計算された全体スライド画像３１６のタイルの１つに高く類似する、すべての全体スライド画像領域をハイライトする関連性ヒートマップ３２６が示される。

列３０８は、患者の特定の全体スライド画像３１８から導き出されたすべてのタイル内に、ＭＩＬプログラムにより計算された、最も高い数値が割り当てられている６つのタイルを含む。それぞれの全体スライド画像３１８は、より高く関連するタイルの、この選択されたセットに空間的に近接して示される。加えて、ＭＩＬにより計算されたそのそれぞれの数値が、最も高い数値がＭＩＬにより計算された全体スライド画像３１８のタイルの１つに高く類似する、すべての全体スライド画像領域をハイライトする関連性ヒートマップ３２８が示される。

実施形態によると、レポートタイルギャラリに提示される関連性ヒートマップは、予測パワー、又は、アテンションに基づく加重、又は、それらの組み合わせを示す。描かれた例では、ヒートマップにおける明るいピクセルは、タイルが、高い予測値、アテンションに基づく高い加重、又はそれらの組み合わせを有する、画像におけるエリアを描く。実施形態によると、関連性ヒートマップを計算することは、タイルのスコア（例えば、数値、加重、又は組み合わされた値）が、画像の最も高くスコア付けされたタイルのスコアの最小パーセンテージ値を超えているかについて決定することを含む。これが超えている場合は、関連性ヒートマップにおけるそれぞれのタイルが、第１の色又は「明るい」強度値、例えば、「２５５」、により表される。これが超えていない場合は、関連性ヒートマップにおけるタイルのそれぞれが、第２の色又は「暗い」強度値、例えば、「０」、により表される。

レポートタイルギャラリにおける各タイルは、（例えば、タイル上をダブルクリックすることにより、又は、タイルをシングルクリックで選択してから、ＧＵＩ要素「サーチ」を選択することにより）類似性サーチを開始するために、ユーザにより選択され得る。続いて、例えば、図４に示すような類似性サーチタイルギャラリが表示される。

選択可能なＧＵＩ要素３１０のセットにおける「ブラックリスト」及び「再トレーニング」要素は、ユーザが、タイルのブラックリストを画定し、ブラックリストにおけるタイルと、ブラックリストにおけるタイルに高く類似するタイルと、を除く、すべてのタイルに基づいて、ＭＩＬプログラムに再トレーニングさせることを可能にする。例えば、ブラックリストは、それらがアーチファクトを含むことにより、特に低い数値（予測的値）を有する、又は、特に高い数値を有する、手動で選択されたタイルのセットを含むことができる（非常に高い予測パワーを持つタイルの除外は、対象のラベルに関しての予測パワーをも有する、追加的な、これまでにまだわかっていない組織パターンを特定する、ＭＩＬの能力を上げ得る）。画像分析システムは、特定のタイルをブラックリストに加えるユーザに応えて、ブラックリストに加えられたタイルの特徴ベクトルに対する、それらの、特徴ベクトルに基づく類似性が、最小類似性閾値を超えるすべてのタイルを、自動的に特定するよう構成され得る。特定されたタイルは、同様に、ブラックリストに自動的に加えられる。ユーザが、再トレーニングＧＵＩ要素を選択すると、ＭＩＬは、ブラックリストにおけるタイルを除く、トレーニングデータセットのすべてのタイルについて再トレーニングされる。

図４は、本発明の実施形態に係る、類似性サーチ画像タイルギャラリを伴うＧＵＩ４００を描く。類似性サーチは、レポートギャラリにおけるタイルの１つ４３０の、ユーザに基づく選択によりトリガされる。

このサーチは、全体スライド画像４１２から４１８のそれぞれから生成されたタイル内にて、比較された特徴ベクトルの類似性に基づく、例えば、６つの最も類似するタイルのサブセットを特定する。類似性サーチにおいて特定されたタイルは、全体スライド画像毎に、又は、患者毎にグループ化され、その選択が類似性サーチをトリガした、タイル４３０（「クエリタイル」）に対するそれらの類似性にしたがう降順にてソートされる。

全体スライド画像４１２から４１８と、類似性ヒートマップ４２２から４２８と、は、それらの特徴ベクトル（及び、したがって、描かれた組織パターン）が、選択されたタイルの特徴ベクトルに最も類似するタイルの場所を示す。

任意に、類似性サーチタイルギャラリは、これに加えて、１つ又はそれ以上の次のデータを含む：
描かれたタイルがそこから導き出された画像に割り当てられたラベル、図４に描かれている１つのラベルは、「グラウンドトゥルース：０」、
バッグのラベルに関して、バッグ（画像）毎にＭＩＬプログラムにより計算された予測的正確さ、
全体スライド画像において類似するタイルの数、及び／又は、（例えば、閾値による）類似しないものと比較しての、類似するタイルのパーセンテージ（割合）、及び、
全体スライド画像におけるすべてのタイルの類似性値の平均、中央値、又はヒストグラム。

図５は、特徴ベクトル生成用の教師あり学習アプローチをサポートする、本発明の実施形態に係る特徴抽出ＭＬＬプログラムのネットワークアーキテクチャ６００を描く。一連のオートエンコーダ６０４からなるディープニューラルネットワークは、画像タイルから抽出された複数の特徴について、レイヤ毎の様式にてトレーニングされている。トレーニング済みネットワークは、例えば、タイルに描かれている組織を、画像タイルから抽出された光学的特徴に基づいて、クラス「ストローマ組織」、「背景スライド領域」、「腫瘍細胞」、及び「転移組織」の１つに分類する分類タスクを後に行うことができる。ネットワークアーキテクチャは、入力レイヤ６０３よりも大幅に少ないニューロンを有し、さらなる隠れレイヤ及び分類レイヤが続き得る、ボトルネックレイヤ６０６を含む。１つの例によると、ボトルネックレイヤは、入力レイヤのニューロンの数の約１．５％のニューロンを含む。潜在的に、数百又は数千の隠れレイヤが、入力レイヤとボトルネックレイヤとの間にある。ボトルネックレイヤにより抽出された特徴は、「ディープボトルネック特徴（ｄｅｅｐｂｏｔｔｌｅｎｅｃｋｆｅａｔｕｒｅｓ又はＤＢＮＦ）」と呼ばれる場合がある。

図６は、ＭＩＬプログラムとアテンションＭＬＬとを組み合わせるための、１つの可能なシステムアーキテクチャを描く。描かれた実施形態によると、ＭＩＬプログラムのトレーニングは、タイルのそれぞれに対して加重を計算するために、アテンション機械学習ロジックプログラム２２２に、すべての受信した画像のすべてのタイルの、特徴ベクトル２２０、７０８から７１４と、ラベル２１６、７０２から７０６と、についてトレーニングさせることを含む。アテンションＭＬＬにより計算された加重は、タイルのラベルにより表される患者関連属性値に関しての、特徴ベクトル及びそれぞれのタイルの予測パワーを示す。続いて、図６に描かれている機械学習システムは、受信したトレーニング画像から取得されたタイルのそれぞれに対して、組み合わされた予測値を計算する。組み合わされた予測値は、タイルに対してＭＩＬにより計算された数値、及び、タイルに対してアテンションＭＬＬにより計算された加重の関数である。組み合わされた数値は、例えば、ＭＩＬの数値と、アテンションＭＬＬの加重と、の乗算の結果、又は、平均であり得る。組み合わされた数値は、タイルのラベルにより表される患者関連属性値に関しての、特徴ベクトル及びそれぞれのタイルの予測パワーを示す。続いて、損失値が計算される。これは、特定のラベルに対して取得された、組み合わされた予測値と、タイルに割り当てられた実際のラベルと、の差異を示す。続いて、ＭＩＬプログラムのモデルが、計算された損失値に基づく誤差逆伝播法を使用して、繰り返し適応される。

図７は、ＭＩＬプログラムとアテンションＭＬＬとを組み合わせるための、別の可能なシステムアーキテクチャを描く。ＭＩＬプログラムのトレーニングは、タイルのそれぞれに対して加重を計算するために、アテンション機械学習ロジックプログラム２２２、つまり、アテンションＭＬＬプログラム、に、すべての受信した画像のすべてのタイルの、特徴ベクトル２２０と、ラベル２１６と、についてトレーニングさせることを含む。加重は、タイルのラベルにより表される患者関連属性値に関しての、特徴ベクトル及びそれぞれのタイルの予測パワーを示す。続いて、図７に描かれている機械学習システムは、タイルのそれぞれに対して、タイルに対してアテンションＭＬＬにより計算された加重と、タイルから抽出された特徴ベクトルの関数として加重された特徴ベクトルを計算する。加重された特徴ベクトルは、ＭＩＬに、ＭＩＬが、それぞれのタイルから元々抽出された特徴ベクトルの代わりに、加重された特徴ベクトル、及び、任意に、さらなるデータソース、を使用して、タイルのそれぞれに対して、数値を計算できるように入力される。続いて、ＭＩＬプログラムは、特定のラベルに対して取得された数値と、タイルに割り当てられた実際のラベルと、の差異を示す損失値を計算する。トレーニング中、ＭＩＬは、そのモデルを、計算された損失値に基づく誤差逆伝播法を使用して繰り返し適応させる。

図８は、２Ｄ及び３Ｄ座標系におけるタイルの空間距離を示す。これは、類似性ラベルを、タイルの空間的近接から自動的に導き出された類似性ラベルに基づいて、タイルのペアに自動的に割り当てるために使用される。これにより、ドメインエキスパートによる、画像又はタイルの手動での注釈付けを必要としない、特徴抽出ＭＬＬにトレーニングさせるためのトレーニングデータセットが提供される。

図８Ａは、デジタル組織サンプルトレーニング画像８００のｘ軸及びｙ軸により画定される２Ｄ座標系におけるタイルの空間距離を示す。トレーニング画像８００は、患者の組織サンプルを描く。組織サンプルが患者から取得された後に、サンプルが、顕微鏡検査法のスライド上にセットされ、１つ又はそれ以上の組織学的に関連する染色剤、例えば、Ｈ＆Ｅ、及び／又は、各種のバイオマーカ特異的染料を用いて染色された。トレーニング画像８００は、染色された組織サンプルから、スライドスキャナ顕微鏡などを使用して撮像されている。いくつかの実施変異形によると、受信したトレーニング画像の少なくともいくつかは、異なる患者から導き出される、及び／又は、同じ患者の異なる組織領域（生体検査）から導き出される。これらはしたがって、３Ｄ座標系において互いに整列され得ない。この場合では、タイル距離は、以下に説明するように、画像のｘ座標及びｙ座標により画定される２Ｄ空間内にて計算され得る。

トレーニング画像８００は、複数のタイルに分割される。説明を目的として、図８Ａにおけるタイルのサイズは、典型的なタイルサイズより大きい。

トレーニングデータセットは、次のアプローチにより自動的にラベル付けされ得る：最初に、開始タイル８０２が選択される。続いて、この開始タイルの周りの第１の円エリアが決定される。第１の円の半径はまた、第１の空間的近接閾値８０８とも呼ばれる。この第１の円内のすべてのタイル、例えば、タイル８０６、が、開始タイル８０２の「近くの」タイルとみなされる。加えて、この開始タイルの周りの第２の円エリアが決定される。第２の円の半径はまた、第２の空間的近接閾値８１０とも呼ばれる。この第２の円の外側のすべてのタイル、例えば、タイル８０４、は、開始タイル８０２に関して、「遠くの」タイルである。

続いて、第１のセットのタイルペアが生成される。ここでは、第１のセットの各タイルペアは、開始タイルと、開始タイルの「近くの」タイルと、を含む。例えば、このステップは、第１の円に含まれる近くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な近くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された近くのタイルに加えることにより、選択された近くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。

第２のセットのタイルペアが生成される。第２のセットの各タイルペアは、開始タイルと、開始タイルに関して、「遠くの」タイルと、を含む。例えば、このステップは、第２の円の外側の、画像８００に含まれる遠くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な遠くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された遠くのタイルに加えることにより、選択された遠くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。

続いて、画像８００内の別のタイルが、開始タイルとして使用され得、上記のステップが類似的に行われ得る。これは、第１及び第２の円が、新たな開始タイルを中心として使用して再び描かれる、ということを意味する。これにより、新たな開始タイルに関して、近くのタイルと、遠くのタイルと、が特定される。第１のセットのタイルには、新たな開始タイルに基づいて特定された、近くのタイルのペアが追加され、第２のセットのタイルには、新たな開始タイルに基づいて特定された、遠くのタイルのペアが追加される。

続いて、画像８００内のさらに別のタイルが、開始タイルとして選択され得、上記のステップが、繰り返され得る。これにより、第１及び第２のタイルペアセットに、さらなるタイルペアがさらに追加される。新たな開始タイルの選択は、画像におけるすべてのタイルが開始タイルとして一度選択されるまで、又は、予め定められた数のタイルが、開始タイルとして選択されるまで行われ得る。

第１のセットにおけるタイルペアのそれぞれ、例えば、ペア８１２、に対して、ラベル「類似する」が割り当てられる。第２のセットにおけるタイルペアのそれぞれ、例えば、ペア８１４、に対して、ラベル「類似しない」が割り当てられる。

図８Ｂは、デジタル組織サンプル画像８００のｘ軸及びｙ軸と、トレーニング画像８００、８３２、８３４により描かれた組織ブロックの組織スライスのそれぞれの相対位置にしたがって互いに整列された、画像８００、８３２、８３４のスタックの高さに対応するｚ軸と、により画定される３Ｄ座標系におけるタイルの空間距離を示す。トレーニング画像はそれぞれ、特定の患者の単一の組織ブロックから導き出された組織サンプルを描く。描かれた組織サンプルは、複数の隣接する組織スライスのスタックに属する。例えば、組織スライスのこのスタックは、ＦＦＰＥＴ組織ブロックから体外にて用意され得る。組織ブロックはスライスされ、それらのスライスは、顕微鏡検査法でのスライド上にセットされる。続いて、図８Ａを参照する画像８００について説明されるように、スライスが染色される。

このスタック内の組織サンプルは、単一の組織ブロックから導き出されるため、デジタル画像８００、８３２、８３４は、共通の３Ｄ座標系内に整列させることができる。これにより、ｚ軸は、組織スライスに直交する。ｚ軸は、組織スライスに直交する軸である。ｚ方向における画像の距離は、その画像により描かれた組織スライスの距離に対応する。１つのペアの２つのタイルが同じ画像から導き出される場合、タイルペアのタイル距離は、２Ｄ空間内において計算される。加えて、タイルペアが生成され得る。それらのタイルは、共通の３Ｄ座標系において互いに整列された異なる画像から導き出される。この場合では、ペアにおける２つのタイルの距離は、３Ｄ座標系を使用して計算される。

整列されたデジタル画像のそれぞれは、複数のタイルに分割される。説明を目的として、図８Ｂにおけるタイルのサイズは、典型的なタイルサイズより大きい。

トレーニングデータセットは、次のアプローチにより自動的にラベル付けされ得る：最初に、開始タイル８０２が選択される。続いて、開始タイルと近くのタイルとを含むタイルペアと、開始タイルと遠くのタイルとを含むタイルペアと、が、以下に説明するように特定されてラベル付けされる。

この開始タイルの周りの第１の３Ｄ球が決定される。説明を目的として、第１の球の断面のみを示す。第１の球の半径はまた、第１の空間的近接閾値８３６とも呼ばれる。この第１の球内のすべてのタイル、例えば、画像８００におけるタイル８０６だけでなく、画像８３４におけるタイル８４０もまた、開始タイル８０２の「近くの」タイルとみなされる。加えて、この開始タイルの周りの第２の球が決定される。第２の球の半径はまた、第２の空間的近接閾値８３８とも呼ばれる。この第２の球の外側のすべてのタイル、例えば、画像８００のタイル８０４だけでなく、画像８３４のタイル８４２もまた、開始タイル８０２に関して、「遠くの」タイルである。

第１のセットのタイルペアが生成される。ここでは、第１のセットの各タイルペアは、開始タイルと、開始タイルの「近くの」タイルと、を含む。例えば、このステップは、第１の球に含まれる近くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な近くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された近くのタイルに加えることにより、選択された近くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。

第２のセットのタイルペアが生成される。第２のセットの各タイルペアは、開始タイルと、開始タイルに関して、「遠くの」タイルと、を含む。例えば、このステップは、第２の球の外側の、画像８００、８３２、８３４に含まれる遠くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な遠くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された遠くのタイルに加えることにより、選択された遠くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。

続いて、画像８００内の、又は、画像８３２、８３４内の別のタイルが、開始タイルとして使用され得、上記のステップが類似的に行われ得る。これは、第１及び第２の球が、新たな開始タイルを中心として使用して再び描かれる、ということを意味する。これにより、新たな開始タイルに関して、近くのタイルと、遠くのタイルと、が特定される。第１のセットのタイルには、新たな開始タイルに基づいて特定された、近くのタイルのペアが追加され、第２のセットのタイルには、新たな開始タイルに基づいて特定された、遠くのタイルのペアが追加される。

上記のステップは、受信した画像８００、８３２、８３４のそれぞれにおけるすべてのタイルが開始タイルとして選択されるまで（又は、別の終了基準が満たされるまで）繰り返され得る。これにより、第１及び第２のタイルペアセットには、さらなるタイルペアがさらに追加される。

第１のセットにおけるタイルペアのそれぞれ、例えば、ペア８１２及び８１３に対して、ラベル「類似する」が割り当てられる。第２のセットにおけるタイルペアのそれぞれ、例えば、ペア８１４及び８１５に対して、ラベル「類似しない」が割り当てられる。

図８Ａ及び図８Ｂに示す、円及び球に基づく距離計算は、距離に基づく類似性ラベルを計算するための単なる例である。この場合では、「類似する」又は「類似しない」のいずれかのバイナリラベルである。例えば、２Ｄ又は３Ｄ座標系における２つのタイル間のユークリッド（Ｅｕｃｌｉｄｅａｎ）距離を計算すること、及び、２つのタイルのユークリッド距離と負に相関する数的類似性値を計算すること、などの、他のアプローチが使用され得ることもある。

１ｍｍの組織に対応するピクセルの数は、画像撮像デバイスの倍率、及び、デジタル画像の解像度などの各種の要因に依存するため、ここでは、すべての距離閾値は、描かれた実際の物理的対象、すなわち、組織サンプル、又は、組織サンプルにより覆われたスライド、に関して指定される。

図９は、特徴ベクトルに基づく類似性サーチ、及び／又は、タイルの、特徴ベクトルに基づくクラスタ化、を行うことに適している、画像タイルから、生物医学的に意味のある特徴ベクトルを抽出することができるサブネットワークを提供するために、本発明の実施形態にしたがってトレーニングされたサイアミーズネットワークのアーキテクチャを描く。サイアミーズネットワーク９００は、例えば、図８Ａ及び／又は図８Ｂを参照して説明されるように、自動的に生成された、近接に基づく類似性ラベルを持つタイルペアを含む、したがって、自動的にラベル付けされたトレーニングデータセットについてトレーニングされている。

サイアミーズネットワーク９００は、それらの出力レイヤ９２４にて結合されている２つの同一のサブネットワーク９０２、９０３からなる。各ネットワークは、単一のデジタル画像（例えば、タイル）９５４、９１４を入力として受信するよう適合されている入力レイヤ９０５、９１５を含む。サブネットワークのそれぞれは、複数の隠れレイヤ９０６、９１６、９０８、９１８を含む。１次元の特徴ベクトル９１０、９２０は、２つの入力画像の１つから、２つのサブネットワークのそれぞれの１つにより抽出される。これにより、各ネットワークの最後の隠れレイヤ９０８、９１８が、特徴ベクトルを計算し、その特徴ベクトルを出力レイヤ９２４に提供するよう適合されている。入力画像の処理は、厳密に分けられている。これは、サブネットワークが入力画像９５４のみを処理し、サブネットワークが入力画像９１４のみを処理することを意味する。出力レイヤが、ベクトル類似性、したがって、２つの入力画像に描かれている組織パターンの類似性を決定するために、２つのベクトルを比較する際に、２つの入力画像においてもたらされる情報が組み合わされる唯一のポイントは、出力レイヤの中にある。

実施形態によると、各サブネットワーク９０２、９０３は、モディファイドレジデュアルネットワーク（ｍｏｄｉｆｉｅｄｒｅｓｎｅｔ）－５０アーキテクチャ（Ｈｅらによる、画像認識のためのディープレジデュアルラーニング（ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ）、２０１５、ＣＶＰＲ’１５）に基づく。実施形態によると、ｒｅｓｎｅｔ－５０により予めトレーニングされたサブネットワーク９０２、９０３は、ＩｍａｇｅＮｅｔについて予めトレーニングされている。最後のレイヤ（これは通常、１，０００の特徴を出力する）は、特徴ベクトルの所望するサイズ、例えば、サイズ１２８、を有するサイズの、完全に接続されたレイヤ４０８、４１８と置き換えられる。例えば、各サブネットワークの最後のレイヤ９０８、９１８は、最後から二番目のレイヤから特徴を抽出するよう構成され得、これにより、最後から二番目のレイヤは、最後のレイヤ９０８、４１８よりも多数の特徴（例えば、２０４８）を提供し得る。実施形態によると、例えば、ＰｙＴｏｒｃｈ（０．００１の学習率、及び、０．９、０．９９９のベータ）におけるデフォルトパラメータを持つアダムオプティマイザ（Ａｄａｍｏｐｔｉｍｉｚｅｒ）などのオプティマイザと、２５６のバッチサイズと、が、トレーニング中に使用された。データ拡大について、ランダムの水平及び垂直フリップ、及び／又は、最大で２０度までのランダムな回転、及び／又は、輝度に対して０．０７５の値を用いた色ジッタ拡大、コントラスト飽和、及び／又は、色相が、トレーニングデータセットを増やすために、タイルに適用され得る。

サイアミーズネットワークが、自動的にラベル付けされた画像のペアについてトレーニングされている場合、学習プロセスの目的は、類似する画像が、互いに類似する出力（特徴ベクトル）を有するべきであり、及び、類似しない画像が、互いに類似しない出力を有するべきである、ということである。これは、２つのサブネットワークにより抽出された特徴ベクトル間の差異を測定する関数などの損失関数を最小化することにより達成され得る。

実施形態によると、サイアミーズニューラルネットワークは、ペアの２つのタイルのそれぞれに対して、２つのサブネットワークにより抽出された特徴ベクトルの類似性が、ペアの２つのタイルに描かれている組織パターンの類似性と相関するよう、タイルのペアについて、損失関数を使用してトレーニングされている。

サイアミーズネットワークは、例えば、Ｂｒｏｍｌｅｙらによる、「‘サイアミーズ’タイムディレイニューラルネットワークを使用するシグニチャ検証（ＳｉｇｎａｔｕｒｅＶｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａ ‘Ｓｉａｍｅｓｅ’ ＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ）」、１９９４年、ＮＩＰＳ’１９９４、に説明されるようなサイアミーズネットワークであり得る。サイアミーズネットワークの各サブネットワークは、多次元特徴ベクトルを、入力として提供された２つの画像タイルのそれぞれ１つから抽出するよう適合されている。ネットワークは、同様の組織パターンを描くタイルペアが、互いに近い（類似する）出力（特徴ベクトル）を有するべきであり、類似しない組織パターンを描くタイルペアが、互いに遠い出力を有するべきである、ということを目的として、近接に基づく組織パターン類似性ラベルの注釈が自動的に付けられた複数のタイルペアについてトレーニングされている。１つの実施形態によると、これは、例えば、Ｈａｄｓｅｌｌらによる、不変マッピングを学習することによる次元縮退（ＤｉｍｅｎｓｉｏｎａｌｉｔｙＲｅｄｕｃｔｉｏｎｂｙＬｅａｒｎｉｎｇａｎＩｎｖａｒｉａｎｔＭａｐｐｉｎｇ）、２００６年、ＣＶＰＲ’０６、に説明されるような、対照損失を行うことにより達成される。対照損失は、トレーニング中に最小化される。対照損失ＣＬは、例えば、次にしたがって計算され得る：
ＣＬ＝（１－ｙ）２（ｆ１－ｆ２）＋ｙ＊ｍａｘ（０，ｍ－Ｌ２（ｆ１－ｆ２））、
ここで、ｆ１、ｆ２は、２つの同じサブネットワークの出力であり、ｙは、タイルペアに対するグラウンドトゥルースラベルである：０は、それらが、「類似する」とラベル付けされている場合（第１のセットのタイルペア）であり、１は、それらが、「類似しない」とラベル付けされている場合（第２のセットのタイルペア）である。

サイアミーズネットワーク９００のトレーニングは、ネットワーク９００に、複数の自動的にラベル付けされた、類似するタイルペア８１２、８１３と、類似しないタイルペア８１４、８１５と、をフィードすることを含む。各入力トレーニングデータレコード９２８は、タイルペアの２つのタイルと、その自動的に割り当てられた、空間的近接に基づくラベル９０７と、を含む。近接に基づくラベル４０３は、「グラウンドトゥルース」として提供される。出力レイヤ９２４は、２つの比較された特徴ベクトル９０８、９１８の類似性に応じて、２つの入力画像９０４、９１４に対する、予測された類似性ラベルを計算するよう適合されている。サイアミーズネットワークのトレーニングは、誤差逆伝播法プロセスを含む。予測されたラベル９２６の、入力ラベル９０７からのいずれの偏差は、損失関数の形態にて測定される「エラー」又は「損失」とみなされる。サイアミーズネットワークのトレーニングは、誤差逆伝播法を繰り返し使用することにより、損失関数により計算されるエラーを最小化することを含む。サイアミーズネットワーク９００は、例えば、Ｂｒｏｍｌｅｙらによる、「「サイアミーズ」タイムディレイニューラルネットワークを使用するシグニチャ検証（ＳｉｇｎａｔｕｒｅＶｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａ “Ｓｉａｍｅｓｅ” ＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ）、１９９４、ＮＩＰＳ’１９９４、により説明されるように実施され得る。

図１０は、例えば、図９を参照して説明するように、切り捨てられたサイアミーズネットワークとして実装される特徴抽出ＭＬＬ９５０を描く。

特徴抽出ＭＬＬ９５０は、例えば、トレーニング済みサイアミーズネットワーク９００のサブネットワーク９０２、９０３の１つを個別に記憶することにより取得され得る。トレーニング済みサイアミーズネットワークとは対照的に、特徴抽出ＭＬＬとして使用されるサブネットワーク９０、９０３は、単一の画像９５２のみを入力として必要とし、類似性ラベルを出力しないが、むしろ、サイアミーズネットワーク９００のトレーニング中に、特に、特定の組織パターンに対する性質として特定され、特徴のこの特定のセットを、２つの画像から抽出して比較することにより、２つの画像に描かれている組織パターンの類似性を決定することに特に適していると特定された、限定された特徴のセットの値を選択的に含む特徴ベクトル９１０を出力する。

図１１は、画像データベースにおいて、特徴ベクトルに基づく類似性サーチを使用するコンピュータシステム９８０を描く。例えば、類似性サーチは、サーチタイルギャラリを計算することに使用され得る。その一例が、図４に描かれている。コンピュータシステム９８０は、１つ又はそれ以上のプロセッサ９８２と、トレーニング済みサイアミーズネットワーク（「切り捨てられたサイアミーズネットワーク」）のサブネットワークであり得る、トレーニング済み特徴抽出ＭＬＬ９５０と、を含む。システム９８０は、特徴ベクトルを、サーチ画像から、及び、サーチした画像（タイル）のそれぞれから、それぞれ抽出するために、特徴抽出ＭＬＬを使用して画像類似性サーチを行うよう適合されている。

コンピュータシステムは、例えば、データベース９９２を含む、又は、これに操作可能に結合された、スタンダードなコンピュータシステム又はサーバーであり得る。例えば、データベースは、複数の患者の組織サンプルを描く、数百又は数千もの全体スライド画像を含む関係バッシュデータベース構造化照会言語マネージャ（ｂａｓｈｄａｔａｂａｓｅｓｔｒｕｃｔｕｒｅｄｑｕｅｒｙｌａｎｇｕａｇｅｍａｎａｇｅｒ又はＢＤＳＭ）であり得る。好ましくは、データベースは、データベースにおける画像のそれぞれに対して、特徴出力ＭＬＬ９５０により、データベースにおけるその画像から抽出されたそれぞれの特徴ベクトルを含む。好ましくは、データベースにおける各画像の特徴ベクトルの計算は、いずれのそのようなリクエストが受信される前に、単一の予備処理ステップにおいて行われる。しかし、サーチリクエストに応えて、データベースにおける画像に対する特徴ベクトルを動的に計算して抽出することも可能である。サーチは、例えば、サーチ画像９８６に描かれている組織パターンに類似する組織パターンを描く単一の全体スライド画像内のタイルを特定するために、特定のデジタル画像から導き出されたタイルに限定され得る。サーチ画像９８６は、例えば、ユーザにより選択されたレポートタイルギャラリに含まれるタイルであり得る。

コンピュータシステムは、ユーザ９８４が、サーチ画像９８６として使用される特定の画像又は画像タイルを選択又は提供することを可能にするユーザインターフェースを含む。トレーニング済み特徴抽出ＭＬＬ９５０は、特徴ベクトル９８８（「サーチ特徴ベクトル」）を、入力画像から抽出するよう適合されている。サーチエンジン９９０は、サーチ特徴ベクトル９８８を特徴出力ＭＬＬ９５０から受信し、画像データベースにおいて、ベクトルに基づく類似性サーチを行う。類似性サーチは、類似性スコアを、２つの比較された特徴ベクトルに応じて計算するために、サーチ特徴ベクトルを、データベースにおける画像の特徴ベクトルのそれぞれと比較することを含む。類似性スコアは、サーチ特徴ベクトルの、データベースにおける画像の特徴ベクトルとの類似性の程度を示し、したがって、２つの比較された画像に描かれている組織パターンの類似性を示す。サーチエンジン９９０は、サーチ結果９９４を、ユーザに返して出力するよう適合されている。サーチ結果は、例えば、最も高い類似性スコアが計算された、データベースの１つ又はそれ以上の画像であり得る。

例えば、サーチ画像９８６が、乳がん組織を描くことが既知の画像タイルである場合、システム９８０は、類似する乳がん組織パターンを描く複数の他のタイル（又は、そのようなタイルを含む全体スライド画像）を特定することに使用され得る。

図１２は、各マトリクスが３つの列からなり、各列が６つのタイルペアを含む、２つのタイルマトリクスを示す。第１の（上の）マトリクスは、互いに近く、ラベル「類似する」タイルペアが自動的に割り当てられたタイルからなる第１のセットのタイルペア（Ａ）を示す。第２の（下の）マトリクスは、互いに遠く、ラベル「類似しない」タイルペアが自動的に割り当てられた第２のセットのタイルペア（Ｂ）を示す。いくつかの場合では、「類似する」とラベル付けされたタイルが類似して見えず、「類似しない」とラベル付けされたタイルが類似して見える。このノイズは、２つの異なる組織パターンが出会う境界にて、２つの近くのタイルが異なる組織パターンを描き得るという事実により、及び、遠くの組織領域であっても、同じ組織パターンを描き得るという事実により、引き起こされる。これは、データセット生成プロセスにおいて予期される、固有のノイズである。

出願人は、このノイズにも関わらず、自動的にラベル付けされたデータセットについてトレーニングされた特徴抽出ＭＬＬが、類似するタイルペア及び類似しないタイルペアの明確な区別を可能にする特徴を正確に特定して抽出することができることを観察した。出願人は、このノイズに対する、トレーニング済みＭＬＬの観察されたロバスト性は、領域境界が、典型的には、領域非境界エリアよりも狭いエリアを有する、という事実に基づくということを想定する。

実施形態によると、自動的に生成されるトレーニングデータセットの品質は、第１のステップにおいて、以前にトレーニングされた類似性ネットワーク、又は、ＩｍａｇｅＮｅｔの予めトレーニングされたネットワークを使用して、タイルペアの類似性を査定し、続いて、第２のステップにおいて、本発明の実施形態についてここに説明するような、タイルの空間的近接に基づいて類似性ラベルを生成し、続いて、一方が、第１のステップにおいて、もう一方が、第２のステップにおいて決定された２つのタイルの類似性の強い偏差が観察されたペアラベルを修正をする、というものである。

図１３は、近接に基づく類似性ラベルについてトレーニングされた特徴抽出ＭＬＬにより抽出された、類似性サーチ結果に基づく特徴ベクトルを示す。５つの腫瘍クエリタイルが、Ａ、Ｂ、Ｃ、Ｄ、及びＥとして示されている。クエリタイルは、クエリスライド（Ａ１からＡ５、Ｂ１からＢ５、Ｃ１からＣ５、Ｄ１からＤ５、Ｅ１からＥ５）以外の、低から高への距離によりランク付けされた５つのタイルをそれぞれ、近接に基づくラベルを用いて自動的にラベル付けされたデータについてトレーニングされた特徴抽出ＭＬＬにより抽出された特徴ベクトルを用いて特定して回収するための画像回収タスクにおいて使用された。対象クラス（例えば、腫瘍）は、サーチされたタイルの３％のみを含む。回収されたいくつかのタイルは、クエリタイル（例えば、Ｃ３及びＣ）とは大きく異なって見えるものの、Ａ４以外の、回収されたタイルのすべては、腫瘍細胞を含むこと（すなわち、正しいクラス回収）が、エキスパート病理学者により検証されている。
符号の説明

１００方法
１０２から１１０ステップ
２００画像分析システム
２０２プロセッサ（単一又は複数）
２０４ディスプレイ
２０６画像タイルギャラリ
２０８全体スライドヒートマップ
２１０記憶媒体
２１２デジタル画像
２１４分割モジュール
２１６ラベル付けされたタイルのバッグ
２１８特徴抽出モジュール
２２０特徴ベクトル
２２２アテンション機械学習ロジックプログラム
２２４特徴ベクトルの加重
２２６マルチプルインスタンスラーニングプログラム
２２８タイルの数的関連性スコア
２３０ＧＵＩ生成モジュール
２３２ＧＵＩ
３００レポートタイルギャラリを含むＧＵＩ
３０２第１の組織パターンを表す、類似するタイルの第１のサブセット
３０４第２の組織パターンを表す、類似するタイルの第２のサブセット
３０６第３の組織パターンを表す、類似するタイルの第３のサブセット
３０８第４の組織パターンを表す、類似するタイルの第４のサブセット
３１０選択可能なＧＵＩ要素のセット
３１２全体スライド画像
３１４全体スライド画像
３１６全体スライド画像
３１８全体スライド画像
３２２関連性ヒートマップ
３２４関連性ヒートマップ
３２６関連性ヒートマップ
３２８関連性ヒートマップ
４００類似性サーチタイルギャラリを含むＧＵＩ
４０２第１の組織パターンを表す、類似するタイルの第１のサブセット
４０４第２の組織パターンを表す、類似するタイルの第２のサブセット
４０６第３の組織パターンを表す、類似するタイルの第３のサブセット
４０８第４の組織パターンを表す、類似するタイルの第４のサブセット
４１０選択可能なＧＵＩ要素のセット
４１２全体スライド画像
４１４全体スライド画像
４１６全体スライド画像
４１８全体スライド画像
４２２類似性ヒートマップ
４２４類似性ヒートマップ
４２６類似性ヒートマップ
４２８類似性ヒートマップ
４３０クエリタイル
９５０特徴抽出ＭＬＬのネットワークアーキテクチャ
６０２入力として使用された画像タイル
６０３入力レイヤ
６０４複数のレイヤ
６０６ボトルネックレイヤ
８００複数のタイルにスライスされたデジタル組織画像
８０２タイルＴ１
８０４タイルＴ２
８０６タイルＴ３
８０８第１の空間的近接閾値（２Ｄ）
８１０第２の空間的近接閾値（２Ｄ）
８１２「類似する」とラベル付けされたタイルのペア
８１３「類似する」とラベル付けされたタイルのペア
８１４「類似しない」とラベル付けされたタイルのペア
８１５「類似しない」とラベル付けされたタイルのペア
８１６トレーニングデータ
８３２画像３００に整列されたデジタル組織画像
８３４画像３３２に整列されたデジタル組織画像
８３６第１の空間的近接閾値（３Ｄ）
８３８第２の空間的近接閾値（３Ｄ）
８４０タイルＴ４
８４２タイルＴ５
９００サイアミーズネットワーク
９０２サブネットワーク
９０３サブネットワーク
９０４第１の入力タイル
９０５第１のネットワークＮ１の入力レイヤ
９０６隠れレイヤ
９０７近接に基づく（「測定された」）類似性ラベル
９０８第１の入力タイルに対する特徴ベクトルを計算するよう適合されている隠れレイヤ
９１０第１の入力タイル９０４から抽出された特徴ベクトル
９１４第２の入力タイル
９１５第２のネットワークＮ２の入力レイヤ
９１６隠れレイヤ
９１８第２の入力タイルに対する特徴ベクトルを計算するよう適合されている隠れレイヤ
９２０第２の入力タイル９１４から抽出された特徴ベクトル
９２２入力タイルのペア
９２４ネットワークＮ１、Ｎ２を繋ぐ出力レイヤ
９２６予測された類似性ラベル
９２８トレーニングデータセットの個別データレコード
９５０特徴抽出ＭＬＬ
９５２個別の入力画像／タイル
９５４特徴ベクトル
９８０コンピュータシステム
９８２プロセッサ
９８４ユーザ
９８６個別の入力画像／タイル
９８８サーチ特徴ベクトル
９９０特徴ベクトルに基づくサーチエンジン
９９２複数の画像又はタイルを含むデータベース
９９４返された類似性サーチ結果

Claims

患者関連属性値を示す組織パターンを特定する方法（１００）であって、
画像分析システム（２００）により、患者のグループにおける各患者に対して、その患者の組織サンプルの少なくとも１つのデジタル画像（２１２）を受信すること（１０２）であって、前記少なくとも１つのデジタル画像には、少なくとも２つの異なる予め定められたラベルの内の、１つが割り当てられており、各ラベルは、ラベル付けされた前記デジタル画像に組織サンプルが描かれている患者の患者関連属性値を示す、患者の組織サンプルの少なくとも１つのデジタル画像（２１２）を受信すること（１０２）と、
前記画像分析システムにより、各受信したデジタル画像を、画像タイルのセット（２１６）に分割すること（１０４）であって、各画像タイルには、その画像タイルを生成することに使用されたデジタル画像に割り当てられたラベルが割り当てられている、画像タイルのセット（２１６）に分割すること（１０４）と、
前記画像タイルのそれぞれに対して、前記画像分析システムにより、その画像タイルに描かれている組織パターンから抽出された画像特徴を含む特徴ベクトル（２２０）を計算すること（１０６）と、
マルチプルインスタンスラーニング（Ｍｕｌｔｉｐｌｅ－Ｉｎｓｔａｎｃｅ－Ｌｅａｒｎｉｎｇ、ＭＩＬ）プログラム（２２６）に、前記グループにおけるすべての患者に対して受信したデジタル画像の画像タイル及びそれぞれの特徴ベクトルをトレーニングさせること（１０８）であって、各画像タイルのセットは、前記ＭＩＬプログラムにより、同じラベルを有する画像タイルのバッグとして扱われ、前記トレーニングさせることは、画像タイルのそれぞれに対して、その画像タイルが導き出されたデジタル画像に割り当てられたラベルに関して、その画像タイルに関連付けられた特徴ベクトルの予測パワーを示す数値（２２８）を計算するために、前記特徴ベクトル（２２０）を分析することを含む、トレーニングさせること（１０８）と、
前記画像分析システムのＧＵＩ（２３２）を介して、画像タイルのレポートギャラリ（２０６）を出力すること（１１０）であって、前記レポートギャラリは、画像タイルのサブセットを含み、前記画像タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされる、画像タイルのレポートギャラリ（２０６）を出力すること（１１０）と、
を含み、
前記画像タイルのそれぞれに対して前記特徴ベクトルを計算することは、患者であって、その組織サンプルがその画像タイルに描かれている該患者の患者関連データを受信することと、前記患者関連データを、前記特徴ベクトルにおける１つ又はそれ以上の特徴の形態に表すことと、を含み、前記患者関連データは、ゲノムデータ、ＲＮＡ配列データ、該患者の既知の疾患、年齢、性別、体液における代謝物濃度、健康パラメータ、及び現在の投薬を含む群から選択される、方法。
受信した前記デジタル画像が、
組織サンプルのデジタル画像であって、それらのピクセル強度値が、非バイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像、又は
組織サンプルのデジタル画像であって、それらのピクセル強度値が、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合されたバイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像、又は
組織サンプルのデジタル画像であって、それらのピクセル強度値が、第１のバイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像と、
組織サンプルのデジタル画像であって、それらのピクセル強度値が、非バイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像と、
の組み合わせであって、前記第１のバイオマーカ特異的染料は、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合されている、組み合わせ、
を含み、
同じ患者からの、同じ組織サンプルを描く、及び／又は、隣接する組織サンプルを描くすべてのデジタル画像には、同じラベルが割り当てられており、前記ＭＩＬプログラムは、前記デジタル画像から導き出されたすべての画像タイルを、画像タイルの同じバッグのメンバーとして扱うよう構成されている、
請求項１に記載の方法。
画像タイルの前記レポートギャラリ（３００）に示す画像タイルが、受信したデジタル画像の１つ又はそれ以上のデジタル画像（３１２、３１４、３１６、３１８）から導き出されており、前記方法は、前記レポートギャラリにおける前記１つ又はそれ以上のデジタル画像のそれぞれに対して、
－そのデジタル画像から導き出された画像タイルの１つであって、そのデジタル画像から導き出されたすべての画像タイルのうち最も高いスコアが割り当てられている、該画像タイルの１つを特定することであって、前記スコアは、前記ＭＩＬプログラムにより各画像タイルに対して計算された前記数値、又は、アテンションＭＬＬにより各画像タイルに対して計算された加重、又は、前記ＭＩＬプログラムにより各画像タイルに対して計算された前記数値と前記アテンションＭＬＬにより各画像タイルに対して計算された前記加重との組み合わせである、特定することと、
－前記デジタル画像の、前記最も高いスコアを有する画像タイル以外の他の画像タイルのそれぞれに対して、該他の画像タイルのスコアを、前記最も高いスコアと比較することにより、関連性インジケータを計算することであって、前記関連性インジケータは、前記他の画像タイルのスコアの、前記最も高いスコアとの差異と負に相関する数値である、関連性インジケータを計算することと、
－前記関連性インジケータの関数として、前記デジタル画像（３１２、３１４、３１６、３１８）に対する関連性ヒートマップ（３２２、３２４、３２６、３２８）を計算すること（２０８）であって、前記関連性ヒートマップのピクセルカラー及び／又はピクセル強度は、前記デジタル画像における画像タイルに対して計算された関連性インジケータを示す、関連性ヒートマップ（３２２、３２４、３２６、３２８）を計算すること（２０８）と、
－前記関連性ヒートマップを表示することと、
を含む、請求項１又は請求項２に記載の方法。
前記レポートギャラリに示す画像タイルが選択可能であり、前記ＧＵＩが、類似性サーチタイルギャラリを計算して表示するよう構成されており、前記計算は、
－前記レポートギャラリの画像タイルの特定の１つの画像タイルの、ユーザの選択を受信することと、
－選択された前記特定の１つの画像タイルと類似する組織パターンを描くすべての受信したデジタル画像から取得されたすべての画像タイルを、前記特定の１つの画像タイルの特徴ベクトルへのその類似性が閾値を超える特徴ベクトルが割り当てられている、すべての受信したデジタル画像から取得されたすべての画像タイルを特定することにより、特定することと、
－前記特定された画像タイルのみを含む類似性サーチタイルギャラリを表示することと、
を含む、請求項１から３のいずれか一項に記載の方法。
前記レポートギャラリにおける画像タイルが、患者であって、それらの組織サンプル画像から前記画像タイルが導き出された該患者に基づいてグループ化されている、及び／又は、前記レポートギャラリにおける画像タイルが、該画像タイルが導き出されたデジタル画像に割り当てられたラベルに基づいてグループ化されている、請求項１から４のいずれか一項に記載の方法。
実際に受信したデジタル画像から生成された画像タイルをソースタイルとした計算によって、追加的な画像タイルのセットを生成することにより、画像タイルのバッグの数を計算的に増やすことをさらに含み、各追加的な画像タイルのセットは、前記ＭＩＬプログラムにより、前記ソースタイルが生成される基となったデジタル画像と同じラベルが割り当てられている、追加的な画像タイルのバッグとして扱われる、請求項１から５のいずれか一項に記載の方法。
前記追加的な画像タイルのセットを生成することは、
１つ又はそれ以上のアーチファクト生成アルゴリズムを、アーチファクトを含む新たな画像タイルを生成するために、実際に受信したデジタル画像から生成された画像タイルの少なくとも１つのサブセットに適用すること、及び／又は
それらのそれぞれのソースタイルよりきめが細かい、又は、これよりきめが粗い、新たな画像タイルを生成するために、実際に受信したデジタル画像から生成された画像タイルの少なくとも１つのサブセットの解像度を増やすこと、又は、これを減らすこと、
を含む、請求項６に記載の方法。
１つ又はそれ以上の受信したデジタル画像から取得された画像タイルを、それらの画像タイルの特徴ベクトルの類似性に基づいて、クラスタにグループ化することをさらに含む、請求項１から７のいずれか一項に記載の方法。
前記ＭＩＬプログラムのトレーニングが、画像タイルの前記セットから、画像タイルのサブセットを取り出すために、画像タイルの前記セットを繰り返しサンプリングすることと、前記ＭＩＬプログラムに、画像タイルの前記サブセットについてトレーニングさせることと、を含む、請求項１から８のいずれか一項に記載の方法。
前記ＭＩＬプログラムのトレーニングが、画像タイルの前記セットから、画像タイルのサブセットを取り出すために、画像タイルの前記セットを繰り返しサンプリングすることと、前記ＭＩＬプログラムに、画像タイルの前記サブセットについてトレーニングさせることと、を含み、
前記サンプリングすることは、患者に対して取得された画像タイルのクラスタのそれぞれから、サンプリングすることにおいて生成される画像タイルの各サブセットにおける画像タイルの数が、前記画像タイルが取り出される前記クラスタのサイズに対応するように、画像タイルを選択することを含む、請求項８に記載の方法。
前記特徴ベクトルを計算することが、トレーニング済み機械学習ロジック（９５０）により行われる、請求項１から１０のいずれか一項に記載の方法。
前記特徴ベクトルが、ラベル付けされた画像タイルペアを含むトレーニングデータセットについてトレーニングされた特徴抽出機械学習ロジックにより計算され、各ラベルは、画像タイルペアにより描かれた２つの組織パターンの類似性を表し、画像タイルペアの２つの画像タイルの空間的距離の関数として計算される、請求項１から１１のいずれか一項に記載の方法。
－それぞれが組織サンプルを描く、複数のデジタルトレーニング画像（８００、８３２、８３４）を受信することと、
－受信した前記デジタルトレーニング画像のそれぞれを複数のトレーニング画像タイルに分割することと、
－トレーニング画像タイルペア（８１２、８１３、８１４、８１５、９２２）を自動的に生成することであって、各トレーニング画像タイルペアには、該トレーニング画像タイルペアの２つのトレーニング画像タイルに描かれている２つの組織パターンの類似性の程度を示すラベル（９０７）が割り当てられており、前記類似性の程度は、該トレーニング画像タイルペアにおける２つのトレーニング画像タイルの空間的距離（ｄ１、ｄ２、ｄ３、ｄ４）の関数として計算され、前記空間的距離は、非類似性と正に相関する、トレーニング画像タイルペア（８１２、８１３、８１４、８１５、９２２）を自動的に生成することと、
－機械学習ロジック（ＭＬＬ）（９００、９０２、９０３、９５０）に、トレーニングデータとして、ラベル付けされた前記トレーニング画像タイルペアを使用して、トレーニング済みＭＬＬ（９００）を生成するようトレーニングさせることであって、前記トレーニング済みＭＬＬは、類似するデジタル組織画像は類似する特徴ベクトルを有し、類似しないデジタル組織画像は類似しない特徴ベクトルを有するような方法でデジタル組織画像を表す特徴ベクトルを、デジタル組織画像から抽出するように学習しているものである、トレーニングさせることと、
－前記画像タイルの特徴ベクトルを計算するために、前記トレーニング済みＭＬＬ又はそのコンポーネントを使用することと、
をさらに含む、請求項１２に記載の方法。
前記トレーニング済みＭＬＬが、２つのニューラルサブネットワーク（９０２、９０３）であって、それらの出力レイヤ（９２４）により結合されている、２つのニューラルサブネットワーク（９０２、９０３）を含むサイアミーズネットワーク（９００）であり、
－トレーニング済みサイアミーズネットワーク（９００）の前記ニューラルサブネットワークの１つ（９０２）を記憶媒体上に個別に記憶させることと、
－記憶させた前記ニューラルサブネットワークを、前記画像タイルの特徴ベクトルを計算するために使用される前記トレーニング済みＭＬＬ（９００）の前記コンポーネントとして使用することと、
をさらに含む、請求項１３に記載の方法。
前記デジタル画像に割り当てられた前記ラベルが、
－患者が、特定の薬に反応したことのインジケーション、
－患者が、転移又は特定の形態の転移（例えば、微小転移）を発症したことのインジケーション、
－がん患者が、特定の治療に応答して、病理学的完全奏効（ｐＣＲ）を示したことのインジケーション、
－患者が、特定の形態学的状態又はマイクロサテライトステータスを伴うがんを有することのインジケーション、
－患者が、特定の薬に対する拒絶反応を発症したことのインジケーション、
－遺伝子属性、及び
－ＲＮＡ発現プロファイル
を含む群から選択される、請求項１から１４のいずれか一項に記載の方法。
－前記画像分析システムにより、患者のさらなるグループにおける各患者に対して、その患者の組織サンプルの少なくとも１つのさらなるデジタル画像を受信することであって、各さらなるデジタル画像には、前記予め定められたラベルの内の１つが割り当てられている、少なくとも１つのさらなるデジタル画像を受信することと、
－前記画像分析システムにより、各受信したさらなるデジタル画像を、さらなる画像タイルのセットに分割することであって、各さらなる画像タイルには、そのさらなる画像タイルを生成することに使用されたさらなるデジタル画像に割り当てられたラベルが割り当てられている、各受信したさらなるデジタル画像を、さらなる画像タイルのセットに分割することと、
－さらなる画像タイルのそれぞれに対して、前記画像分析システムにより、そのさらなる画像タイルから、及び、そこに描かれた組織パターンから、抽出された画像特徴を含むさらなる特徴ベクトルを計算することと、
－さらなる画像タイルのそれぞれに対して、そのさらなる画像タイルが導き出されたさらなるデジタル画像に特定のラベルが割り当てられている確率を示す数値であって、そのさらなる画像タイルのさらなる特徴ベクトルの学習済み非線形変換関数として計算される数値を計算するために、トレーニング済みマルチプルインスタンスラーニング（Ｍｕｌｔｉｐｌｅ－Ｉｎｓｔａｎｃｅ－Ｌｅａｒｎｉｎｇ、ＭＩＬ）プログラムを、前記さらなるグループにおけるすべての患者に対して受信したすべてのさらなるデジタル画像のさらなる画像タイル及びそれぞれのさらなる特徴ベクトルに、適用することと、
－前記画像分析システムの前記ＧＵＩを介して、さらなる画像タイルのレポートギャラリを出力することであって、前記さらなる画像タイルのレポートギャラリは、複数のさらなる画像タイルを含み、それら複数のさらなる画像タイルは、それらの、それぞれ計算された前記数値に従ってソートされている、及び／又は、それらのそれぞれの前記数値の図形表現を含む、さらなる画像タイルのレポートギャラリを出力することと、
をさらに含む、請求項１から１５のいずれか一項に記載の方法。
－１つ又はそれ以上の「高予測パワータイル」であって、前記デジタル画像に割り当てられた前記ラベルの特定の１つに関して、その特徴ベクトルの前記予測パワーを示す数値（２２８）が、高予測パワー閾値を超える画像タイルである高予測パワータイルを、自動的に選択すること、又は、ユーザが選択できるようにすること、及び／又は、
－１つ又はそれ以上の「アーチファクトタイル」であって、前記デジタル画像に割り当てられた前記ラベルの特定の１つに関して、その特徴ベクトルの前記予測パワーを示す数値（２２８）が、最小予測パワー閾値未満である、又は、１つ又はそれ以上のアーチファクトを描く画像タイルであるアーチファクトタイルを、自動的に選択すること、又は、ユーザが選択できるようにすること、
をさらに含み、
－１つ又はそれ以上の高予測パワータイル及び／又はアーチファクトタイルの選択に応答して、前記ＭＩＬプログラムに自動的に再トレーニングさせ、これにより、トレーニングセットから、前記１つ又はそれ以上の高予測パワータイル及び／又はアーチファクトタイルを除外する、
請求項１から１６のいずれか一項に記載の方法。
患者関連属性値を示す組織パターンを特定するための画像分析システム（２００）であって、
－少なくとも１つのプロセッサ（２０２）と、
－患者のグループの組織サンプルのデジタル画像（２１２）を含む揮発性又は不揮発性記憶媒体（２１０）であって、前記患者のグループにおける各患者に対して、その患者の組織サンプルの少なくとも１つのデジタル画像が、前記記憶媒体に記憶されており、前記少なくとも１つのデジタル画像には、少なくとも２つの異なる予め定められたラベルの内の、１つが割り当てられており、各ラベルは、ラベル付けされた前記デジタル画像に組織サンプルが描かれている患者の患者関連属性値を示す、揮発性又は不揮発性記憶媒体（２１０）と、
－前記少なくとも１つのプロセッサにより実行可能であり、前記デジタル画像のそれぞれを、画像タイルのセット（２１６）に分割するよう構成されている画像分割モジュール（２１４）であって、各画像タイルには、その画像タイルを生成することに使用されたデジタル画像に割り当てられたラベルが割り当てられている、画像分割モジュール（２１４）と、
－前記少なくとも１つのプロセッサにより実行可能であり、前記画像タイルのそれぞれに対して、その画像タイルに描かれている組織パターンから抽出された画像特徴を含む特徴ベクトル（２２０）を計算するよう構成されている特徴抽出モジュール（２１８）と、
－前記少なくとも１つのプロセッサにより実行可能なマルチプルインスタンスラーニング（Ｍｕｌｔｉｐｌｅ－Ｉｎｓｔａｎｃｅ－Ｌｅａｒｎｉｎｇ、ＭＩＬ）プログラム（２２６）であって、該ＭＩＬプログラムのトレーニングフェーズにおいて、前記グループにおけるすべての患者のすべてのデジタル画像のすべての画像タイル及びそれぞれの特徴ベクトル（２２０）を受信するよう構成されており、画像タイルの各セットを、前記トレーニングフェーズ中に、同じラベルを有する画像タイルのバッグとして扱うよう構成されており、トレーニングは、画像タイルのそれぞれに対して、その画像タイルが導き出されたデジタル画像に割り当てられたラベルに関して、その画像タイルに関連付けられた特徴ベクトルの予測パワーを示す数値（２２８）を計算するように、前記特徴ベクトルを分析することを含む、マルチプルインスタンスラーニング（ＭＩＬ）プログラム（２２６）と、
－前記少なくとも１つのプロセッサにより実行可能であり、画像タイルのレポートギャラリ（２０６）を含むＧＵＩ（２３２）を生成して出力するよう構成されているＧＵＩ生成モジュール（２３０）であって、前記レポートギャラリは、画像タイルのサブセットを含み、前記画像タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされているＧＵＩ生成モジュール（２３０）と、
－画像タイルの前記レポートギャラリを含む前記ＧＵＩを表示するよう適合されているディスプレイ（２０４）と、
を含み、
前記特徴抽出モジュールはさらに、患者であって、その組織サンプルがその画像タイルに描かれている該患者の患者関連データを受信し、前記患者関連データを、前記特徴ベクトルにおける１つ又はそれ以上の特徴の形態に表すように構成されており、前記患者関連データは、ゲノムデータ、ＲＮＡ配列データ、該患者の既知の疾患、年齢、性別、体液における代謝物濃度、健康パラメータ、及び現在の投薬を含む群から選択される、画像分析システム。