JP2022525288A

JP2022525288A - 距離ベース類似性ラベルを使用する機械学習

Info

Publication number: JP2022525288A
Application number: JP2021552551A
Authority: JP
Inventors: エルダドクライマン，; ヤコブギルデンブラト，
Original assignee: エフ・ホフマン－ラ・ロシュ・アクチェンゲゼルシャフト
Priority date: 2019-03-28
Filing date: 2020-03-26
Publication date: 2022-05-12
Anticipated expiration: 2040-03-26
Also published as: US20220139072A1; US12026875B2; WO2020193708A1; JP7504116B2; EP3948651A1; CN113574534A

Abstract

本発明は、デジタル病理のためのコンピュータ実装式自己教師あり学習方法に関する。方法は、それぞれが組織試料を描写する複数のデジタル画像を受信する（１０２）こと、受信された画像のそれぞれを複数のタイルに分割する（１０４）こと、タイル対（３１２、３１３、３１４、３１５、４２２）を自動的に生成する（１０６）ことであって、各タイル対は、対の２つのタイルにおいて描写される２つの組織パターンの類似性の程度を示すラベル（４０３）を割り当てられており、類似性の程度は、対内の２つのタイルの空間的近接性（ｄ１、ｄ２、ｄ３、ｄ４）の関数として計算され、距離は不同性とプラスに相関する、生成する（１０６）こと、機械学習モジュール－ＭＬＭ－（４００、４０２、４０３、６００）を、訓練データとしてラベル付きタイル対を使用して訓練することであって、それにより、訓練済みＭＬＭを生成する、訓練することを含み、訓練済みＭＬＭは、デジタル組織病理画像の画像解析を実施するために適合される。【選択図】図３Ｂ

Description

本発明は、デジタル病理の分野に関し、より詳細には、画像解析の分野に関する。

デジタル病理の分野におけるデジタル組織画像の計算解析は、広い範囲の重要な生物医学的応用、例えば、組織検出、セグメント化、形態計測（ｍｏｒｐｈｏｍｅｔｒｙ）、疾病、例えば、がんを識別し分類すること、および考えられる処置オプションを有する。現在、機械学習手法は、画像解析問題の複雑さおよび多様性に対処するために使用されている。

典型的には、教師あり機械学習手法は、画像解析問題に対処するために使用されている。それにより、機械学習モジュール（ＭＬＭ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｕｌｅ）は、領域専門家（特に、病理医および臨床医）によって真値（ｇｒｏｕｎｄｔｒｕｔｈ）としてラベル付けされた訓練用画像のセットに対して訓練される。訓練フェーズ中に、ＭＬＭの統計モデルは、画像解析アルゴリズムによって計算された関連する画像特徴量を、訓練用データセットに含まれるラベルにマッピングすることを学習する。

「アノテーション（ａｎｎｏｔａｔｉｏｎ）」とも呼ばれるこれらのラベルは、描写される組織および／または組織がそこから導出される患者のメタデータを含むことができる。例えば、ラベルは、画像において描写される組織試料が腫瘍組織を示すか、健康組織を示すか、または、描写される試料がそこから採取された患者が、特定の薬物に応答したか否かを示すことができる。例えば、腫瘍組織が、原発腫瘍（ｐｒｉｍａｒｙｔｕｍｏｒ）からあるいはマイクロまたはマクロ転移から、間質組織、筋肉組織、脂肪組織、スライドのバックグラウンド切片、または同様なものから導出される場合、ラベルは、特定の組織タイプまたはサブタイプを示すことができる。アノテーション付き訓練用データセットは、新しい未知のデジタル組織画像において描写される組織パターンに基づいてラベルを自動的に識別／予測することを機械学習モジュール（ＭＬＭ）が学習するように、ＭＬＭを訓練するために使用することができる。

デジタル病理において、教師あり学習のための基礎として適するアノテーション付き訓練用データは十分でない。なぜならば、アノテーション付き訓練用データは、収集しアノテーションするのが高価でかつ難しいからである。典型的には、訓練用データは、多数のデジタル組織画像を検査しアノテーションする１人または複数人の領域専門家によって手作業で作成される。これには、多大の時間がかかる。その問題は、デジタル病理の分野で特に重要である。なぜならば、組織の形態が、多くの因子に強く依存する場合があるからである。例えば、肺がん組織、乳がん組織、および肝臓がん組織の形態は、互いに異なる場合がある。したがって、特定のラベルを予測することができるＭＬＭを生成するために、異なるがんタイプのそれぞれについて訓練用データセットを作成する必要がある場合がある。実際には、上記で述べたがんタイプのそれぞれの多くの異なるサブタイプが存在する。種々の異なるがんサブタイプおよび他のタイプの疾病に正しく対処するために、上記疾病および疾病サブフォームのそれぞれについて、ラベル付き訓練用データセットを提供することが望ましいことになる。しかしながら、そのような訓練用データセットのアノテーションは、時間がかかりかつ高価であるため、多くの生物医学的疑問は、アノテーション付き訓練用データが欠如しているため、現在利用可能なデジタル病理方法によって対処することができない。

デジタル病理問題を解決するためにＭＬＭを訓練する状況において、予測的特徴量の識別が、重要であるが難しいタスクであることによって、問題はさらに悪化する。人の手で設計される伝統的な特徴量（ｈａｎｄｃｒａｆｔｅｄｆｅａｔｕｒｅ）は、領域専門家の知識に強く依存する。しばしば、領域専門家でさえも、明確に識別することができる特徴量であって、画像データセットにアノテーションするために使用することができかつ対象ラベルについてさらに予測的である、特徴量を明示的に規定することは難しいかまたは不可能である。

さらなる問題は、特定の組織タイプ等のラベルの割り当てが、時として主観的であることに関連する。訓練用データセットが多くの異なる病理医によってアノテーションされると、ラベルは、或る程度まで不整合である場合がある。結果として、この不整合訓練用データセットに対して訓練されたＭＬＭの予測精度は、「アノテーション不整合／アノテーションノイズ（ａｎｎｏｔａｔｉｏｎｉｎｃｏｎｓｉｓｔｅｎｃｙ／ａｎｎｏｔａｔｉｏｎｎｏｉｓｅ）」の部分が有意であるため、下がる場合がある。

上述した理由で、十分なサイズおよび品質のアノテーション付き訓練用データセットの不足は、現在のところ、公開されている多くの生物医学的疑問を、今日既に利用可能な機械学習が対処できず解決できない主要な理由である。

独立請求項で指定される、デジタル病理のための改良型コンピュータ実装学習方法および対応する記憶媒体および画像解析システムを提供することが本発明の目的である。本発明の実施形態は従属請求項で与えられる。本発明の実施形態は、互いに排他的でない場合、互いに自由に組み合わすことができる。

１つの態様において、本発明は、デジタル病理のためのコンピュータ実装自己教師あり学習方法に関する。方法は、複数のデジタル画像を受信することであって、受信された各画像が組織試料を描写する、受信すること；受信画像のそれぞれを複数のタイルに分割すること；タイル対を自動的に生成することであって、各タイル対は、対の２つのタイルにおいて描写される２つの組織パターンの類似性の程度を示すラベルを割り当てられており、類似性の程度は、対内の２つのタイルの空間的近接性の関数として計算され、距離は非類似性と正相関する、生成すること；機械学習モジュール（ＭＬＭ）を、ラベル付きタイル対を訓練用データとして使用して訓練することであって、それにより、訓練済みＭＬＭを生成する、訓練することを含む。訓練済みＭＬＭは、デジタル組織病理画像の画像解析を実施するために適合される。

この手法は、複数の理由で有益であろう：２つの画像領域の空間的近接性は、組織試料の全てのデジタル画像において常にかつ本質的に利用可能である特徴量である。問題は、画像の空間的近接性およびそれぞれの組織領域それ自体が、典型的には、組織タイプ分類、疾病分類、特定の疾病の継続時間の予測、または画像セグメント化タスク等の生物医学的問題に対して関連情報を明らかにしないことである。少なくとも、多数のタイルおよびそれらのそれぞれの距離がＭＬＭの訓練フェーズ中に解析される場合、２つの画像領域（「タイル（ｔｉｌｅ）」）の空間的近接性において伝達される情報が２つの画像領域の類似性の正確な指標であることを出願人は意外にも観測した。したがって、２つの比較されるタイルに組織パターン類似性ラベルを自動的に割り当てるために、２つのタイルの本質的に利用可能な情報「空間的近接性（ｓｐａｔｉａｌｐｒｏｘｉｍｉｔｙ）」を利用することによって、ＭＬＭを訓練するために使用することができる大きいアノテーション付き（ａｎｎｏｔａｔｅｄ）データセットを提供することができる。訓練済みＭＬＭは、入力として受信される２つの画像または画像タイルが、類似組織パターンを描写するか、非類似組織パターンを描写するかを自動的に判定するために使用することができる。しかしながら、データセットは、画像類似性検索、画像セグメント化、組織タイプ検出、および組織パターンクラスタリング等の、他のおよびより複雑なタスクのためにさらに使用することができる。したがって、画像の類似性を確実に決定するＭＬＭの訓練を可能にし、またさらに、デジタル病理における複数の複雑な画像解析タスクのためにさらなるデータ処理ユニットが使用可能な特徴ベクトルを出力するＭＬＭの訓練を可能にするアノテーション付き訓練用データを自動的に作成するために、タイルの空間的近接性において伝達される情報を使用できることを出願人は意外にも観測した。これらの手法はいずれも、訓練用データに手作業でアノテーションする領域専門家を必要としない。

多くの異なる組織パターン（例えば、「非腫瘍（ｎｏｎ－ｔｕｍｏｒ）」および「腫瘍（ｔｕｍｏｒ）」）を含む組織試料の画像が多くの異なるタイルに分割されると、２つのタイル間の距離が小さければ小さいほど、比較される両方のタイルが同じ組織パターン、例えば、「非腫瘍」を描写する確率が高い。しかしながら、異なる組織パターンを描写する２つの異なるパターン（例えば、第１のタイル「腫瘍」、他のタイル「非腫瘍」）の境界に隣接して幾つかのタイル対が存在するであろう。これらのタイル対はノイズを生成する。なぜならば、これらのタイル対は、異なる組織パターンを描写するが、互いに空間的に非常に近接して存在するからである。異なる組織パターン間の境界に及ぶタイル対によって作成されるこのノイズが、描写される組織パターンの類似性を空間近接性が示すという単純化する仮定と組み合わせて、訓練済みＭＬＭの精度を大幅に下げないことを出願人は意外にも観測した。実際には、本発明の実施形態に従って訓練されたＭＬＭの精度が既存のベンチマーク法を凌ぐことができることを出願人は観測した。

さらなる有益な態様において、多くの異なる画像のセットについて訓練用データを迅速にかつ完全自動で作成することがここで可能である。現在、組織病理画像における自然でかつ実際の変動を捕捉する（ｃａｐｔｕｒｅ）利用可能なアノテーション付きデータセットが欠如している。例えば、Ｃａｍｅｌｙｏｎのような既存の大きいデータセットでさえも、１つのタイプの染色（ヘマトキシリン・エオジン（ＨｅｍａｔｏｘｙｌｉｎａｎｄＥｏｓｉｎ））と１つのタイプのがん（乳がん）のみからなる。組織病理画像のテキスチャおよびオブジェクト形状は、異なるがんタイプ、異なる組織染色タイプ、および異なる組織タイプからの画像において大きく変動する場合がある。さらに、組織病理画像は、異なる領域特有の意味（例えば、間質、腫瘍湿潤リンパ球、血管、脂肪、健康組織、壊死等）を有する多くの異なるテキスチャおよびオブジェクトタイプを含む。したがって、本発明の実施形態は、複数の異なるがんタイプ、がんサブタイプ、染色方法、および患者群（例えば、処置済み／未処置、男性／女性、閾値年齢より老いた人／若い人、バイオマーカーポジティブ／バイオマーカーネガティブ等）のそれぞれについて、アノテーション付きデータセットを自動的に作成することを可能にすることができる。したがって、本発明の実施形態は、アノテーション付き訓練用データを自動的に作成し、訓練用データに対してそれぞれのＭＬＭを訓練することを可能にすることができ、それにより、結果得られる訓練済みＭＬＭは、患者の複数の異なる群のそれぞれについての生物医学的問題に特異性の高い方法で正確に対処するように適合される。手作業によるアノテーション付き乳がんデータセットに対して訓練されたＭＬＭが結腸がん患者について準最適な結果を提供した現在の技術水準の手法と対照的に、本発明の実施形態は、異なる患者群のそれぞれについてＭＬＭを別個に作成することを可能にすることができる。

実施形態によれば、２つの組織パターンの類似性の程度を示すラベルは、バイナリーデータ値、すなわち、考えられる２つのオプションからの１つを有することができる値であり。例えば、ラベルは、「１」または「類似（ｓｉｍｉｌａｒ）」であり、２つのタイルが類似組織パターンを描写することを示すことができる。代替的に、ラベルは、「０」または「非類似（ｄｉｓｓｉｍｉｌａｒ）」であり、２つのタイルが非類似組織パターンを描写することを示すことができる。

他の実施形態によれば、ラベルは、細分化することができ、例えば、３つ以上のデータ値、例えば、「非類似」、「類似」、および「非常に類似（ｈｉｇｈｌｙｓｉｍｉｌａｒ）」の制限されたセットから選択されるデータ値であってもよい。

さらに他の実施形態によれば、ラベルは、さらに細分化することができ、数値であって、数値の大きさが類似性の程度に正相関する、数値であってもよい。例えば、数値は、対内の２つのタイル間の空間的距離を、組織パターン類似性を示す数値に線形にかつ逆に変換する関数として計算することができる。空間的距離が大きければ大きいほど、組織パターン類似性を示す数値は小さい。

訓練用データセット（例えば、順序値または数値）において異なるタイプのラベルを処理し使用することができる幅広い種類のＭＬＭアーキテクチャが存在する。ＭＬＭのタイプは、訓練用データセットの自動作成されたラベルを処理することが可能であるように選択される。

実施形態によれば、ＭＬＭは、教師あり学習アルゴリズムに従って学習するように適合される。教師あり学習は、入力特徴量のセットを、１つまたは複数の出力データ値に変換するマッピングを見出すことである。出力データ値は、訓練中に、ラベルとして、例えば、バイナリーオプションラベル「類似」または「非類似」として、または、類似性についての定量的尺度である数値として提供される。換言すれば、訓練中に、予測されるであろうデータ値は、訓練用データのラベルの形態でＭＬＭのモデルに明示的に提供される。教師あり学習は、各試料について出力空間を規定するために訓練用データがラベル付けされる必要があるという問題を伴う。

実施形態によれば、タイル対の少なくとも一部または全ては、同じ組織スライスに含まれる２つの組織領域をそれぞれ描写する。組織スライスのそれぞれは、受信デジタル画像のそれぞれの画像において描写される。タイル間の距離は、対内のタイルがそこから導出された受信デジタル画像のｘ次元およびｙ次元によって規定される２Ｄ座標系内で計算される。

実施形態によれば、タイル対は、複数の異なる画像のそれぞれの画像内でタイル対をランダムに選択することによって生成される。ランダムベースの選択は、各対内のタイル間の空間的距離が変動することになることを保証する。例えば、２つのタイル間の距離に逆相関する数値の形態の類似性ラベルは、各対に対して計算され割り当てられる。

他の実施形態によれば、タイル対は、各受信画像のタイルの少なくとも一部または全てを開始タイルとして選択すること；各開始タイルについて、全てのまたは予め規定された数の「近傍タイル（ｎｅａｒｂｙｔｉｌｅ）」を選択することであって、「近傍タイル」は、開始タイルを中心とする第１の円内のタイルであり、ただし、この円の半径は第１の空間的近接性閾値と同一である、選択すること；各開始タイルについて、全てのまたは予め規定された数の「遠方タイル（ｄｉｓｔａｎｔｔｉｌｅ）」を選択することであって、「遠方タイル」は、開始タイルを中心とする第２の円の外のタイルであり、ただし、上記円の半径は第２の空間的近接性閾値と同一である、選択すること；によって生成され、予め規定された数の選択は、それぞれの画像エリア内でこのタイルの数をランダムに選択することによって実施することができる。第１および第２の近接性閾値は同一であってもよいが、好ましくは、第２の近接性閾値は第１の近接性閾値より大きい。例えば、第１の近接性閾値は１ｍｍであってよく、第２の近接性閾値は１０ｍｍであってもよい。その後、タイル対の第１のセットが選択され、ただし、各タイル対は、開始タイルおよび第１の円内に位置する近傍タイルを含む。第１のセット内の各タイル対は、ラベル「類似」組織パターンを割り当てられる。さらに、タイル対の第２のセットが選択され、ただし、上記セット内の各対は、開始タイルおよび「遠方タイル」のうちの１つの「遠方タイル」を含む。第２のセット内の各タイル対は、ラベル「非類似」組織パターンを割り当てられる。例えば、この実施形態は、「バイナリー」ラベル「類似」または「非類似」を作成するために使用することができる。

実施形態によれば、組織試料は１つまたは複数の組織スライスを含む。例えば、組織試料は、スライド、例えばガラススライドの表面に固定された組織スライスであってもよい。他の例によれば、組織試料は、スライドの表面に固定された組織スライスであってもよく、ただし、組織試料の厚さ（高さ、ｚ次元）は、ｚ次元において複数の層のそれぞれについて複数の画像を得ることを可能にし、各画像は組織スライドに対応しそれを描写する。

実施形態によれば、複数のタイルのうちのタイルは非オーバーラップタイルである。

実施形態によれば、タイル対は、近傍タイルのタイル対および遠方タイルのタイル対を含む。

実施形態によれば、組織試料は、ＩＨＣ組織試料、すなわち、１つまたは複数の免疫組織化学（ＩＨＣ：Ｉｍｍｕｎｏｈｉｓｔｏｃｈｅｍｉｓｔｒｙ）染色法を用いて染色された組織試料である。ＩＨＣは、典型的には、抗体が生物組織内の抗原に特異的に結合する原理を利用することによって、組織切片の細胞内の抗原（タンパク質）を選択的に識別するプロセスを含む。免疫組織化学染色は、がん性腫瘍において見出される異常細胞等の異常細胞の診断において使用される。特異的な分子マーカーは、増殖または細胞死（アポトーシス）等の特定の細胞事象に特徴的である。免疫組織化学染色（Ｉｍｍｕｎｏｈｉｓｔｏｃｈｅｍｉｓｔｒｙ）はまた、生物組織の異なる部分におけるバイオマーカーおよび差示的に発現した（ｄｉｆｆｅｒｅｎｔｉａｌｌｙｅｘｐｒｅｓｓｅｄ）タンパク質の分布および局在化を理解する基礎研究において使用される。

例えば、画像のそれぞれにおいて描写される組織試料は、組織スライド、例えば、ガラススライド上の組織スライスであってもよい。

実施形態によれば、タイル間の距離は、タイルがそこから導出されるデジタル画像のｘ軸およびｙ軸によって規定される２Ｄ座標系内で測定される。これらの実施形態は、異なる患者の組織試料、および／または、同じ患者内の異なる領域であって、上記異なる領域が互いから離れて存在するかまたは上記２つの領域の互いに対する正確な位置がわかっていない、異なる領域の組織試料を描写する複数の組織試料画像が利用可能である状況で使用することができる。この場合、タイル間の空間的近接性は、デジタル画像によって規定されるピクセルの２Ｄ平面内でのみ測定される。画像取得（ｉｍａｇｅａｃｑｕｉｓｉｔｉｏｎ）デバイス（例えば、顕微鏡またはスライドスキャナーのカメラ）の既知の解像度因子に基づいて、オリジナル画像のタイル間の距離は、２つのタイルによって描写される組織試料内の組織領域間の距離を計算するために使用することができる。

実施形態によれば、タイル対の少なくとも一部または全ては、隣接する組織スライスのスタックの２つの異なる組織スライスに含まれる２つの組織領域を描写する。組織スライスのそれぞれは、受信デジタル画像のそれぞれのデジタル画像において描写される。隣接する組織スライスのスタックの組織スライスを描写する受信画像は、３Ｄ座標系において互いに整列する。タイル間の距離は３Ｄ座標系内で計算される。

例えば、受信デジタル画像のサブセットまたは全ての受信デジタル画像は、隣接する組織スライスの組織ブロック内のスライスである組織試料を描写することができる。この場合、デジタル画像は、共通３Ｄ座標系内で互いに整列することができ、それにより、３Ｄ座標系内のデジタル画像の位置は、組織ブロック内のそれぞれ描写される組織スライスの位置を再生する。これは、３Ｄ座標系においてタイル距離を決定することを可能にすることができる。「近傍」および「遠方」タイルの選択は、２Ｄ座標系の場合について上述したように実施することができ、唯一の差は、タイル対の少なくとも一部内のタイルが、受信画像のうちの異なる受信画像から導出されることである。

幾つかの実施形態によれば、アノテーション付き訓練用データは、同じデジタル画像から導出されるタイル対ならびに共通３Ｄ座標系内で互いに整列した異なる画像から導出されるタイル対を共に含む。これは有利である場合がある。なぜならば、それぞれの組織試料であって、組織試料が同じセルブロック、例えば、３Ｄ生検セルブロックに属する、それぞれの組織試料の少数の画像のみが利用可能である場合に、３次元（異なる組織試料内の組織領域を示すタイルの空間的近接性）の考察が訓練用データ内のタイルの数を途方もなく増加させる場合があるからである。

実施形態によれば、タイル対の少なくともさらなるサブセットは、同じ組織スライスの２つの組織領域を描写するタイル対を含み、さらなるサブセットのタイル対のタイル間の距離（ｄ１、ｄ２）は、異なる組織スライスを描写すると導出されるタイル対のサブセットのタイル対間の距離として、空間的近接性の関数に基づいて計算される。換言すれば、空間的近接性を計算するための関数を、２つ以上の隣接する組織スライスに及ぶ３Ｄ座標系における２つのタイルの場合と同じ距離閾値を、同じ単一組織試料の２Ｄ座標系における２つのタイルについて使用することができる。

実施形態によれば、各タイルは、０．５ｍｍ未満、好ましくは０．３ｍｍ未満の最大エッジ長を有する組織またはバックグラウンド領域を描写する。

小さいタイルサイズは、異なる組織パターンの混合物を描写するタイルの数および面積率が減少するという利点を有することができる。これは、２つ以上の異なる組織パターンを描写するタイルによって、また、２つの異なる組織パターンを描写する「組織パターン境界（ｔｉｓｓｕｅｐａｔｔｅｒｎｂｏｒｄｅｒ）」に隣接するタイル対によって生成されるノイズを低減するのに役立つ場合がある。さらに、小さいタイルサイズは、多数のタイル対を生成し、ラベル付けすることを可能にすることができ、それにより、ラベル付き訓練用データの量を増加させる。

実施形態によれば、タイル対の自動生成は、
第１の空間的近接性閾値を使用してタイル対の第１のセットを生成することであって、第１のセット内の各タイル対の２つのタイルによって描写される２つの組織領域は、第１の空間的近接性閾値より小さい距離だけ互いから分離される、生成すること；
第２の空間的近接性閾値を使用してタイル対の第２のセットを生成することであって、第２のセット内の各タイル対の２つのタイルによって描写される２つの組織領域は、第２の空間的近接性閾値より大きい距離だけ互いから分離される、生成すること
を含む。例えば、これは、本発明の実施形態について既に述べたように、複数の開始タイルを選択すること、各開始タイルの周りで第１および第２の空間的近接性閾値に基づいて第１および第２の円を計算すること、および、開始タイルおよび「近傍タイル」（第１のセット）または「遠方タイル」（第２のセット）を含むタイル対を選択することによって、実装することができる。

実施形態によれば、方法は、複数のタイルから開始タイルを選択すること；第１の空間的近接性閾値を使用してタイル対の第１のセットを生成することであって、第１のセット内の各タイル対の２つのタイルによって描写される２つの組織領域は、第１の空間的近接性閾値より小さい距離だけ互いから分離され、第１のセット内の各タイル対は開始タイルを含む、生成すること；第２の空間的近接性閾値を使用してタイル対の第２のセットを生成することであって、第２のセット内の各タイル対の２つのタイルによって描写される２つの組織領域は、第２の空間的近接性閾値より大きい距離だけ互いから分離され、第２のセット内の各タイル対は開始タイルを含む、生成すること；複数のタイルから異なる開始タイルを選択すること；ならびに、タイル対の第１のセットを生成すること、タイル対の第２のセットを生成すること、および、複数のタイルの各タイルが開始タイルとして選択されてしまうまで異なる開始タイルを選択することを反復することを含む。

実施形態によれば、第１および第２の空間的近接性閾値は、同一、例えば、１ｍｍである。

好ましい実施形態によれば、第２の空間的近接性閾値は、第１の空間的近接性閾値より少なくとも２ｍｍより大きい。これは有利である場合がある。なぜならば、組織パターンが１つのパターンから別のパターンに徐々に変化する場合、「遠方タイル」において描写される組織パターンと「近傍タイル」において描写される組織パターンとの差がより明確である場合があり、学習効果を改善する場合があるからである。

実施形態によれば、第１の空間的近接性閾値は、２ｍｍより小さい、好ましくは１．５ｍｍより小さい、特に１．０ｍｍの距離である。さらに、または、代替的に、第２の空間的近接性閾値は、４ｍｍより大きい、好ましくは８ｍｍより大きい、特に１０．０ｍｍの距離である。

これらの距離閾値は、デジタル画像およびそれぞれのタイルにおいて描写される組織領域（またはスライスバックグラウンド領域）の距離を指す。画像取得デバイスの既知の倍率およびデジタル画像の解像度に基づいて、この距離は、デジタル画像の２Ｄまたは３Ｄ座標系内の距離に変換することができる。

例えば、タイル（およびタイルにおいて描写される組織領域）間の距離は、例えば、２Ｄまたは３Ｄ座標系内の２つのタイルの中心間で測定することができる。代替の実装態様の変形によれば、距離は、２Ｄまたは３Ｄ座標系内で互いの最も近くに存在する２つのタイルエッジ（画像領域エッジ）間で測定することができる。

上記で述べた閾値は、乳がん患者について、類似のおよび非類似の組織パターンを正確に識別することが可能である訓練済みＭＬＭを自動的に生成することが可能であるラベル付き訓練用データを提供することが観察された。一部の他の実装態様の例において、第１および第２の空間的近接性閾値は他の値を有することができる。特に、異なる組織タイプまたはがんタイプを示す受信デジタル画像の異なるセットが使用される場合、第１および第２の空間的近接性閾値は、上記で提供した距離閾値以外の値を有することができる。

実施形態によれば、ＭＬＭは、シャムニューラルネットワーク（または「シャムネットワーク（Ｓｉａｍｅｓｅｎｅｔｗｏｒｋ）」）である。シャムネットワークは、共通出力層によって接合される２つの同一のニューラルサブネットワークを備える。２つのニューラルサブネットワークのそれぞれは、ＭＬＭへの入力として提供されるタイル対の２つのタイルのそれぞれのタイルから特徴ベクトルを抽出するように適合される。訓練済みシャムニューラルネットワークの出力層は、入力として提供される各タイル対についてのラベルを、２つの特徴ベクトルの関数として計算するように適合される。ラベルは、入力として提供されるタイル対において描写される２つの組織パターンの予測類似性を示す。

実施形態によれば、シャムニューラルネットワークは、損失関数を使用してタイルの対に対して訓練され、それにより、対の２つのタイルについて２つのサブネットワークによって抽出される特徴ベクトルの類似性は、対の２つのタイルにおいて描写される組織パターンの類似性にそれぞれ相関する。

シャムネットワークは、例えば、Ｂｒｏｍｌｅｙ等「ＳｉｇｎａｔｕｒｅＶｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａ ‘Ｓｉａｍｅｓｅ’ ＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ」１９９４，ＮＩＰＳ’１９９４に記載されるシャムネットワークであってもよい。シャムネットワークの各サブネットワークは、入力として提供される２つの画像タイルのそれぞれの画像タイルから多次元特徴ベクトルを抽出するように適合される。ネットワークは、近接性ベースの組織パターン類似性ラベルによって自動的にアノテーションされた複数のタイル対に対して訓練され、その目的は、類似組織パターンを描写するタイル対が互いに近い（類似する）出力（特徴ベクトル）を有するべきであり、非類似組織パターンを描写するタイル対が互いから離れている出力を有するべきであるということである。１つの実施形態において、これは、例えば、Ｈａｄｓｅｌｌ等「ＤｉｍｅｎｓｉｏｎａｌｉｔｙＲｅｄｕｃｔｉｏｎｂｙＬｅａｒｎｉｎｇａｎＩｎｖａｒｉａｎｔＭａｐｐｉｎｇ」２００６，ＣＶＰＲ’０６において記載される対比損失を実施することによって達成される。対比損失は訓練中に最小にされる。対比損失ＣＬ（：ＣｏｎｔｒａｓｔｉｖｅＬｏｓｓ）は、例えば、
ＣＬ＝（１－ｙ）２（ｆ１－ｆ２）＋ｙ＊ｍａｘ（０，ｍ－Ｌ２（ｆ１－ｆ２))
に従って計算することができる。
ここで、ｆ１、ｆ２は２つの同一のサブネットワークの出力であり、ｙはタイル対についての真値ラベルである：「類似」とラベル付けされる場合（タイル対の第１のセット）０であり、「非類似」とラベル付けされる場合（タイル対の第２のセット）１である。

上記で説明したように、デジタル病理の分野において類似画像と非類似画像の対を生成する簡単な方法は、意味のある異なる組織病理カテゴリーのアノテーションをそれぞれのデジタル画像またはタイルに手作業で割り当てることである可能性がある。例えば、異なるカテゴリーについての領域のアノテーションが存在する場合、カテゴリーの内部の画像の対および異なるカテゴリー間の画像の対をサンプリングすることが可能である。しかしながら、異なるタイプのカテゴリーを捕捉するのに十分に多様性のあるこの種類のデータセットを生成することは高価でかつ時間がかかる。したがって、関連する組織タイプおよび患者群のほとんどについて、適切な訓練用データは利用可能でない、しかしながら、デジタルタイル対の自動化アノテーションのおかげで、シャムネットワークは、ここで、多くの異なる生物医学的疑問および問題に対処するために、多数の異なる訓練用データセットに適用することができる。

実施形態によれば、ＭＬＭは、ベクトル－出力－ＭＬＭである。「ベクトル－出力－ＭＬＭ（ｖｅｃｔｏｒ－ｏｕｔｐｕｔ－ＭＬＭ）」は、単一デジタル画像または単一タイルを受信するように適合され、かつ、上記タイルから抽出される特徴ベクトルを出力するように適合されるＭＬＭであり、ただし、特徴ベクトルは、この組織パターンについて非常に特徴的であり、かつ、比較される２つの画像またはタイルが類似であるか否かを判定することを、別の画像またはタイルから同様に抽出される特徴ベクトルとの特徴ベクトル比較に基づいて可能にする特徴量を含む。異なる２つの画像またはタイルから抽出される２つの特徴ベクトルのそれぞれに含まれる特徴量は、上記２つの画像またはタイルにおいて描写される特定の組織パターンが類似であるか、非類似であるかという疑問に関して予測関連性が高い（ｏｆｈｉｇｈｐｒｅｄｉｃｔｉｖｅｒｅｌｅｖａｎｃｅ）。

自動生成される訓練用データに対してベクトル－出力－ＭＬＭを生成することは有利である場合がある。なぜならば、訓練済みベクトル－出力－ＭＬＭによって生成される出力（特徴ベクトル）が、画像セグメント化、クラスタリング、画像類似性検索、および同様なもの等のデジタル病理における多数の異なる問題および疑問に対処することを可能にするからである。自動化アノテーション付き（ａｕｔｏｍａｔｉｃａｌｌｙａｎｎｏｔａｔｅｄ）訓練用データに対して訓練される、訓練されるシャムネットワークは、画像またはタイルの対を受信することを予想し、異なる２つのタイルまたは画像において描写される組織パターンの類似性を自動的に計算（予測）するように適合される。しかしながら、デジタル病理の分野における一部の疑問および問題は、２つの画像の類似性ではなく、むしろ多数の画像の類似性に関係する、および／または、タイルの類似性自体に関係しない。特徴ベクトルＭＬＭを設けることが、自動化ラベル付き（ａｕｔｏｍａｔｉｃａｌｌｙｌａｂｅｌｅｄ）訓練用データに対してこのＭＬＭを訓練することによって、シャムネットワークアーキテクチャによって要求される／課される入力および出力データ構造に直接対応しない場合がある、画像セグメント化および他のもののようなデジタル病理問題に対処することができることを出願人は観測した。

機械学習においておよび画像処理において、特徴抽出は、測定データの初期セットから始め、情報量が多くかつ非冗長性であることを意図される被導出値（特徴量）を構築し、その後の学習および一般化ステップを容易にする。ＭＬＭの訓練中に、ＭＬＭは、次元削減（ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎ）プロセスを実施し、未処理特徴量の初期セットは、オリジナルのデータセットを依然として正確にかつ完全に記述しながら、処理するための特徴量のより小さくかつより扱いやすいセットに削減される。好ましくは、多数の特徴量、例えば、強度（ｉｎｔｅｎｓｉｔｙ）勾配特徴量、コントラスト特徴量、カラーチャネルから導出される特徴量、色相（ｈｕｅ）、および／または彩度（ｓａｔｕｒａｔｉｏｎ）ならびに他のものは、各タイルから導出される。既存の画像解析ツールおよびライブラリーは、タイルから特徴抽出を実施するために使用することができる。ＭＬＭの訓練中に、本発明の実施形態によるＭＬＭは、最初に抽出された特徴量のセットを、特徴量の削減されたセット（特徴ベクトルとも命名される）に変換する。初期特徴量のサブセットを決定することは、特徴選択と呼ばれる。選択済み特徴量は、入力データ、すなわち、単一タイルからの関連情報を含むと予想されるため、最初に抽出された特徴量の完全なセットの代わりに、出力された特徴ベクトルに示されるこの特徴量の削減済みセットを使用することによって、所望のタスク（他のタイルにおいて描写される組織パターンに対するこのタイルにおいて描写される組織パターンの類似性の決定）を実施することができる。

実施形態によれば、ＭＬＭは、カラー、形状、明度（ｂｒｉｇｈｔｎｅｓｓ）、コントラスト、テキスチャに関する記述を与える低レベル記述子である複数の特徴量および領域専門家の知識なしで画像から直接抽出することができる他の特徴量を抽出するためのルーチンを含む。さらに、または、代替的に、被抽出特徴量は、それぞれの生物医学的領域におけるオブジェクトおよび事象に関する情報を与える領域情報記述子を含むことができる。具体的な例は、特定の細胞成分例えば、核、細胞膜、あるいは、細胞内または細胞外構造、ならびに／または、特定のタイプの細胞、例えば、「腫瘍細胞（ｔｕｍｏｒｃｅｌｌ）」、「間質細胞（ｓｔｒｏｍａ－ｃｅｌｌ）」、または特定の対象バイオマーカーを発現する細胞であると自動的に識別されたオブジェクトであることになる。好ましくは、これらの領域情報記述子は、受信デジタル画像において完全自動で識別されるため、デジタル画像の手作業による検査またはアノテーションは必要でない。

実施形態によれば、ＭＬＭは、ベクトル－出力－ＭＬＭであるまたはベクトル－出力－ＭＬＭを含む。ベクトル－出力－ＭＬＭは、入力として単一デジタル画像（またはタイル、すなわち、小さい画像）を受信するように適合されかつ上記画像から抽出される特徴ベクトルを出力するように適合されるＭＬＭである。ラベル付きタイル対に対するＭＬＭの訓練は、バックプロパゲーション操作を含む。バックプロパゲーション中に、ＭＬＭの予測モデルは、特定の組織パターンについて特徴的でありかつ類似のおよび非類似の画像対のベクトル比較ベース識別を可能にする特徴量を、ＭＬＭによって抽出されるベクトル内の特徴量が含むように変更される。換言すれば、バックプロパゲーション中に、ＭＬＭのパラメータは、類似である画像が類似特徴ベクトルを有し、非類似である画像が非類似特徴ベクトルを有するように画像を正しく表すことができる、各入力画像についての特徴ベクトルを作成するために変更される。例えば、バックプロパゲーションは、２つの特徴ベクトル間での実際の正規化距離（例えば、ゼロ距離は、ラベルゼロ、すなわち、類似であり、長い距離は、ラベル１，すなわち、非類似である）の形態の損失を計算する損失関数に基づくとすることができる。

ベクトル－出力－ＭＬＭを、自動化ラベル付きデータセットに対して訓練することによって作成することは、有利である場合がある。なぜならば、ベクトル－出力－ＭＬＭの入力／出力構造が、デジタル病理の分野における広い範囲の応用、特に、ベクトルベース画像類似性検索、ベクトルベースクラスタリング、および画像セグメント化をサポートすることができるからである。

実施形態によれば、ベクトル－出力－ＭＬＭの訓練は、訓練用データ内のラベル付きタイル対内のタイルのそれぞれから初期特徴ベクトルを、ＭＬＭによって抽出することを含む。最初に抽出される特徴量は、明度、コントラスト、カラー、勾配、および他の特徴量等の光学的特徴量であってもよい。例えば、汎用画像データベースＩｍａｇｅＮｅｔに対して事前訓練されたニューラルネットワークは、各入力画像から初期特徴量のセットを抽出するために使用することができる。バックプロパゲーション中に、対のタイルの類似性ラベルおよび特徴ベクトルは、ＭＬＭの予測モデルに適合するために使用され、それにより、出力特徴ベクトル内の特徴量（最初に抽出される特徴量のサブセットに過ぎないことがある）は、類似である画像が類似特徴ベクトルを有し、非類似である画像が非類似特徴ベクトルを有するように画像を正しく表す。

実施形態によれば、ベクトル－出力－ＭＬＭは、少なくとも１つのボトルネック層を含む完全畳み込み（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌ）ニューラルネットワークである。

１つの例によれば、ベクトル－出力－ＭＬＭは、ＵＮＥＴベースネットワークアーキテクチャを有する。ベクトル－出力－ＭＬＭは、５１２^＊５１２^＊３（５１２×５１２ＲＧＢ）ニューロンを有する入力層および９^＊９^＊１２８ニューロンを有するボトルネック層を有する。したがって、ボトルネック層内のニューロンの数は、入力層のニューロンの数の約１．５％である。

別の例によれば、ベクトル－出力－ＭＬＭのネットワークは、教師ありまたは教師なし学習アルゴリズムを実装するＲｅｓｎｅｔアーキテクチャを有する。入力層は５１２×５１２×３ニューロンを含み、ボトルネック層およびボトルネック層によって出力される対応する特徴ベクトルは、典型的には、１０２４または２０４８要素（ニューロン／数）を含む。

実施形態によれば、ＭＬＭは、ベクトル－出力－ＭＬＭを、そのサブネットワークのうちの１つのサブネットワークの形態で含むシャムネットワークである。方法は、訓練済みシャムネットワークのサブネットワークのうちの１つのサブネットワークを、別個に記憶媒体上に記憶すること、および、記憶されたサブネットワークをベクトル－出力－ＭＬＭとして使用することによってベクトル－出力－ＭＬＭを提供することを含む。

この手法は有利である場合がある。なぜならば、さらなるＭＬＭのさらなる訓練を実施することが必要でない場合があるからである。さらに、シャムネットワークに加えて、ベクトル－出力－ＭＬＭを実装し訓練するために必要とされるライブラリーおよびプログラムフレームワークに情通することが必要でない場合があるからである。むしろ、訓練済みシャムネットワークを結果として返す単一訓練フェーズで十分である。シャムネットワークは、画像の対または画像タイルの対において描写される組織パターンの類似性が自動的に決定される必要がある全てのデジタル病理問題のために使用することができる。なぜならば、シャムネットワークが、画像またはタイルの対を受信すると予想し、描写される２つの組織パターンの類似性を示す計算済みラベルを返すからである。ラベルは、定性的なバイナリーラベル（「類似」／「非類似」）または定量的な類似性の程度を示す数値であってもよい。その後、訓練済みシャムネットワークのサブネットワークのうちの１つのサブネットワークを別々に記憶し、このサブネットワークをベクトル－出力－ＭＬＭとして使用することによって、ベクトル－出力－ＭＬＭは、さらに多数のデジタル病理問題、例えば、単一の検索画像または検索タイルのみが入力として提供される画像類似性検索問題または画像セグメント化のような他のタスクまたはタイルベースクラスタリング問題に対処するために使用することができる。したがって、単一訓練フェーズを用いかつ単一ＭＬＭアーキテクチャに基づいて、２つの異なるタイプの訓練済みＭＬＭが提供され、その訓練済みＭＬＭは、異なるデータ構造を受信するように適合され、デジタル病理の分野における異なる問題に対処するように適合される。

実施形態によれば、コンピュータ実装方法は、ベクトル－出力－ＭＬＭの入力としてデジタル検索画像を提供することであって、検索画像は組織試料または組織試料のサブ領域を描写する、提供すること；ベクトル－出力－ＭＬＭによって、検索画像から検索特徴ベクトルを抽出すること；デジタル組織試料画像の画像データベースにおいて類似性検索を、類似性検索エンジンによって実施することであって、類似性検索エンジンは、画像データベース内の画像のそれぞれについてベクトル－出力－ＭＬＭによって抽出された特徴ベクトルを用いて、検索特徴ベクトルの類似性を決定する、実施すること；および、データベース内の画像のうちの画像であって、画像の特徴ベクトルが、類似性検索の結果として、検索特徴ベクトルに最も類似する、画像を返すことをさらに含む。

実施形態によれば、類似性検索エンジンは、類似性検索中に、データベース内の画像のそれぞれから特徴ベクトルを動的に抽出する。好ましい実施形態によれば、データベース内の画像の特徴ベクトルは、事前計算され、特徴ベクトルがそこから抽出された画像に関連するデータベースに記憶される。これは、特徴ベクトルが一回のみ計算され、その後、多くの類似性検索について再使用することができるという利点を有する場合がある。これは、ＣＰＵおよびメモリ容量を節約することができる。

幾つかの実施形態によれば、データベース内の画像は全スライド画像であり、検索画像はまた、全スライド画像またはタイル画像である。他の実施形態によれば、データベース内の画像は画像タイルであり、検索画像はまた画像タイルである。

これは有利である場合がある。なぜならば、訓練用データセットを提供するために使用される画像の領域特有の光学的詳細を包含し、訓練用データセットを作成するために人間の介入を必要としない機械学習ベース画像類似性検索が提供されるからである。

実施形態によれば、コンピュータ実装方法は、ベクトル－出力－ＭＬＭの入力としてデジタル画像を提供することであって、デジタル画像は、全スライド組織試料または全スライド組織試料のサブ領域を描写する、提供すること；提供されたデジタル画像を複数のタイルに分割すること；タイルのそれぞれから特徴ベクトルを、ベクトル－出力－ＭＬＭによって抽出すること；複数のタイルから抽出される特徴ベクトルを、クラスタリングエンジンによってクラスター化することであって、それにより、類似の特徴ベクトルのクラスターを作成する、クラスター化すること；タイルの特徴ベクトルについて計算されたクラスターに従って、複数のタイルをタイルのクラスターにグループ分けすること；および、タイルのクラスターを、グラフィカルユーザーインタフェースによって出力することをさらに含む。

タイルの特徴ベクトルについて計算されたクラスターに従って、複数のタイルをタイルのクラスターにグループ分けすることは、その特徴ベクトルが類似するタイルが同じクラスターにグループ分けされることを意味する。

これは有利である場合がある。なぜならば、画像領域を、類似組織パターンを描写するクラスターにクラスター化するための方法が提供され、方法は、訓練用データセットを提供するために使用される画像の領域特有の光学的詳細を包含するが、それでも、それぞれの組織セグメントに対して、「腫瘍組織（ｔｕｍｏｒｔｉｓｓｕｅ）」、「スライドバックグラウンド（ｓｌｉｄｅｂａｃｋｇｒｏｕｎｄ）」、「間質組織（ｓｔｒｏｍａｔｉｓｓｕｅ）」等のラベルを割り当てるために人間の領域専門家を必要としないからである。どれだけ多くのまたどのタイプの異なる組織パターンが、デジタル画像に含まれると予想されるかを前もって指定することも必要でない。むしろ、クラスタリングエンジンは、既知のクラスタリングアルゴリズムおよび自己教師あり訓練済みＭＬＭによって計算される特徴ベクトルに基づいて、類似組織パターンおよびそれぞれのタイルを完全自動で識別することができる。

例えば、クラスタリングエンジンは、ベクトルベースクラスタリングを実施するためにｋ平均法（ｋ－ｍｅａｎｓ）アルゴリズムまたは階層的クラスタリングアルゴリズムを使用することができる。

実施形態によれば、コンピュータ実装方法は、提供されたデジタル画像内でセグメントを識別することであって、各セグメントは隣接するタイルの群であり、各セグメント内の全てのタイルは、識別されたタイルのクラスターの同じクラスターに属する、識別すること；および、提供されたデジタル画像内の識別されたセグメントの光学的指示を、グラフィカルユーザーインタフェースを介して出力することをさらに含む。

例えば、識別されたセグメントを、提供されるデジタル画像内で異なるカラーまたはハッチングを用いて強調することができる。識別された画像セグメントを、例えば、オリジナルデジタルデータの左または右に示すことができる、または、デジタル画像の上部に半透明オーバーレイ層として提示することができる。したがって、本発明の実施形態は、対象組織セグメントタイプを手作業で識別しラベル付けするために領域専門家を必要としない、デジタル病理画像のための画像セグメント化方法を提供する。したがって、デジタル病理領域における画像セグメント化のための完全自動またはほぼ自動のデータ駆動型手法が提供され、その手法は、組織画像のセットがそれについて利用可能である任意のタイプの患者群または疾病群に容易に適合可能である。

さらなる態様において、本発明は、コンピュータ解釈可能命令を含む不揮発性記憶媒体に関し、コンピュータ解釈可能命令は、プロセッサによって実行されると、本明細書で述べる実施形態および例のうちの任意の１つによるコンピュータ実装方法によって生成される、訓練済み機械学習モジュール－ＭＬＭをインスタンス化および／または実行する。

さらなる態様において、本発明は、少なくとも１つのプロセッサと揮発性または不揮発性記憶媒体とを備える画像解析システムに関する。記憶媒体は、本明細書で述べる実施形態および例のうちの任意の１つによるコンピュータ実装方法によって生成される訓練済み機械学習モジュール－ＭＬＭを備える。

本明細書で使用される用語「自己教師あり学習（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）」は、訓練用データセットのラベルが自動的に生成される機械学習手法を指す。アーキテクチャ自身および学習プロセスは、完全教師あり（ｅｎｔｉｒｅｌｙｓｕｐｅｒｖｉｓｅｄ）であるが、ラベル付き訓練用データを作成するための手作業によるアノテーションは必要でない。

用語「デジタル病理（ｄｉｇｉｔａｌｐａｔｈｏｌｏｇｙ）」は、デジタルスライドから生成される情報を、管理し、抽出し、処理するために、コンピュータ技術が使用される画像ベース情報技術環境である。デジタル病理は、コンピュータモニター上で、観察し、管理し、共有し、分析することができるデジタルスライドにガラススライドを変換する実践法であるバーチャル顕微鏡法（ｖｉｒｔｕａｌｍｉｃｒｏｓｃｏｐｙ）によって部分的に使用可能にされる。

本明細書で使用される「組織試料（ｔｉｓｓｕｅｓａｍｐｌｅ）」は、本発明の方法によって分析することができる細胞の集成体（ａｓｓｅｍｂｌｙｏｆｃｅｌｌｓ）である。集成体は、生体内または生体外細胞ブロックのスライスであってもよい。例えば、組織試料は、患者から収集される組織、例えば、がん患者からの肝臓、肺、腎臓、または結腸組織試料から調製することができる。試料は、顕微鏡スライド上の全組織またはＴＭＡ切片であってもよい。スライド搭載組織試料を調製するための方法は、当技術分野でよく知られており、本発明において使用するのに適する。

組織試料は、染料または染色液、組織化学物質、免疫組織化学物質等の任意の試薬またはバイオマーカーを使用して染色することができ、組織化学物質、免疫組織化学物質は、特異的バイオマーカーまたは種々のタイプの細胞または細胞コンパートメントと直接反応する。全ての染色液／試薬が、互換性があるわけではない。したがって、使用される染色液のタイプおよびそれらの適用シーケンスは、十分に考慮されるべきであるが、当業者が容易に決定することができる。そのような組織化学物質は、透過顕微鏡法によって検出可能な発色団（ｃｈｒｏｍｏｐｈｏｒｅ）または蛍光顕微鏡法によって検出可能な蛍光体（ｆｌｕｏｒｏｐｈｏｒｅ）であってもよい。概して、試料を含む細胞は、ターゲットの化学群に直接反応するかまたはそれと結合することになる少なくとも１つの組織化学物質を含む溶液を用いて培養することができる。一部の組織化学物質は、典型的には、染色を可能にするために、媒染剤（ｍｏｒｄａｎｔ）または金属と同時培養される。試料を含む細胞は、対象成分を染色する少なくとも１つの組織化学物質、および、対比染色液として作用し、対象成分の外の領域に結合する別の組織化学物質の混合物と共に培養することができる。代替的に、複数のプローブの混合物は、染色において使用され、特異的プローブの位置を識別する方法を提供することができる。試料を含む細胞を染色するための手順は当技術分野でよく知られている。

本明細書で使用される「組織パターン（ｔｉｓｓｕｅｐａｔｔｅｒｎ）」は、組織試料の規則性、したがって、この組織パターンを含む組織試料の領域を描写するデジタル画像またはタイルの規則性でもある。したがって、パターンの要素は、予測可能な方法で反復する、または、何らかの他の特徴的な視覚特徴、例えば、別のパターンを示す別の組織領域から、このパターンを含む特定の組織領域を区別することを可能にする別個のカラーおよび／または明度を有する。一部の組織パターンは、人間領域専門家によって直接観測可能でかつ解釈可能であろう。他の組織パターンは、非常に複雑であるため、機械学習モジュールのみが、画像内のパターンを識別することができる。画像パターンは、特定のカラー、明度、ドット、ライン、曲線、螺旋、蛇行、波、フォーム、タイリング、割れ等の反復的構造、ならびに、回転対称および反射によって作成されるものによって特徴付けることができる。

本明細書で使用される「画像解析システム（ｉｍａｇｅａｎａｌｙｓｉｓｓｙｓｔｅｍ）」は、ユーザーが画像を評価または解釈するのを支援するためにおよび／または画像内に暗黙的にまたは明示的に含まれる生物医学的情報を抽出するために、デジタル画像、特に、組織試料の画像を評価し処理するように適合されたシステム、例えば、コンピュータシステムである。例えば、コンピュータシステムは、標準的なデスクトップコンピュータシステムまたは分散型コンピュータシステム、例えば、クラウドシステムであってもよい。概して、コンピュータ化組織病理画像解析は、カメラによって取得される単一または複数チャネル画像をその入力として採取し、診断または処置を支援するために、さらなる定量的情報を提供しようと試みる。

本明細書で使用される「デジタル画像（ｄｉｇｉｔａｌｉｍａｇｅ）」は、２次元画像の、通常はバイナリーの数値表現である。典型的には、組織画像は、ラスタータイプ画像であり、画像が、少なくとも１つの強度値をそれぞれ割り当てられているピクセルのラスター（「マトリクス（ｍａｔｒｉｘ）」）であることを意味する。一部のマルチチャネル画像は、１カラーチャネルについて１つの強度値を有するピクセルを有することができる。デジタル画像は、ピクセルの固定数の行および列を含む。ピクセルは、画像内の最小の個々の要素であり、任意の特定のポイントにおいて所与のカラーの明度を示す古い（ａｎｔｉ－ｑｕａｔｅｄ）値を保持する。典型的には、ピクセルは、コンピュータメモリ内に、ラスター画像またはラスターマップ、小さい整数の２次元アレイとして記憶される。これらの値は、しばしば、圧縮形態で送信または記憶される。デジタル画像は、例えば、デジタルカメラ、スキャナー、座標測定機、顕微鏡、スライドスキャンデバイス、および他のものによって取得することができる。

本明細書で使用される「ラベル（ｌａｂｅｌ）」は、データレコード、例えば、タイルの対に割り当てられ、このタイル対に関連する特性を示す、データ値、例えば、ストリングまたは数値である。特に、ラベルは、ラベルが割り当てられているタイル対内の２つのタイルの類似性または非類似性を示すことができる。

本明細書で使用される「画像タイル（ｉｍａｇｅｔｉｌｅ）」はデジタル画像のサブ領域である。概して、デジタル画像から作成されるタイルは、任意の形状、例えば、円形、楕円形、多角形、長方形、正方形、または同様なものを有することができ、オーバーラップ型または非オーバーラップ型であってもよい。好ましい実施形態によれば、画像から生成されるタイルは、長方形の、好ましくは、非オーバーラップ型タイルである。

本明細書で使用される「特徴ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）」は、オブジェクトの重要な特徴を記述する情報を含むデータ構造である。データ構造は、単一次元または多次元データ構造であってよく、特定のタイプのデータ値はデータ構造内のそれぞれの位置に記憶される。例えば、データ構造は、ベクトル、アレイ、マトリクス、または同様なものであってもよい。特徴ベクトルは、何らかのオブジュエクトを示す数値特徴量のｎ次元ベクトルとして考えることができる。画像解析において、特徴量は多くの形態をとることができる。画像の単純な特徴量表現は、各ピクセルの未処理強度値である。しかしながら、より複雑な特徴量表現も可能である。例えば、画像または画像タイルから抽出される特徴量は、ＳＩＦＴ記述子特徴量（スケール不変特徴量変換（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ））であるとすることもできる。これらの特徴量は、異なるライン配向の広がりを捕捉する。他の特徴量は、コントラスト、勾配配向（ｇｒａｄｉｅｎｔｏｒｉｅｎｔａｔｉｏｎ）、カラー構成、および画像または画像タイルの他の局面を示すことができる、または、核、膜、および／または１つまたは複数の対象バイオマーカー等のより複雑な領域特有のオブジェクトの存在および／または分布を記述することができる。

本明細書で使用される「バイオマーカー特有の染色液（ｂｉｏｍａｒｋｅｒｓｐｅｃｉｆｉｃｓｔａｉｎ）」は、概して、他のバイオマーカーまたは組織成分ではなく、特定のバイオマーカー、例えば、ＨＥＲのような特定のタンパク質を選択的に染色する染色液である。

本明細書で使用される「バイオマーカーに特有でない染色液（ｎｏｎ－ｂｉｏｍａｒｋｅｒｓｐｅｃｉｆｉｃｓｔａｉｎ）」は、より一般的な結合挙動を有する染色液である。バイオマーカーに特有でない染色液は、個々のタンパク質またはＤＮＡシーケンスを選択的に染色するのではなく、むしろ、物質のより大きい群、および、特定の物理的または化学的特性を有する細胞レベル下のならびに細胞レベル以上の構造に対して染色する。例えば、ヘマトキシリンおよびエオジンはそれぞれ、バイオマーカーに特有でない染色液である。ヘマトキシリンは、塩基性／ポジティブであるダークブルーまたはバイオレット染色液である。ヘマトキシリンは、好塩基性物質（酸性でかつ負電荷を持つＤＮＡおよびＲＮＡ等）に結合する。核内のＤＮＡ／ＲＮＡおよび粗面小胞体（ｒｏｕｇｈｅｎｄｏｐｌａｓｍｉｃｒｅｔｉｃｕｌｕｍ）内のリボゾーム内のＲＮＡは、核酸のリン酸骨格が負電荷を持つため、共に酸性である。これらの骨格は、正電荷を含む塩基性染料を有する塩を形成する。したがって、ヘマトキシリンのような染料は、ＤＮＡおよびＲＮＡに結合し、それらをバイオレットに染色する。エオジンは、酸性でかつネガティブであるレッドまたはピンク染色液である。エオジンは、正電荷を持つアミノ酸側鎖（例えば、リシン、アルギニン）等の好酸性物質に結合する。一部の細胞の細胞質内のほとんどのタンパク質は、アルギニンおよびリシンアミノ酸残基のせいで正電荷を持つため、塩基性である。これらは、エオジンのような、負電荷を含む酸性染料を有する塩を形成する。したがって、エオジンは、これらのアミノ酸／タンパク質に結合し、それらをピンクに染色する。これは、筋肉細胞内の細胞質フィラメント、細胞内膜、および細胞外線維を含む。

本明細書で使用される用語「強度情報（ｉｎｔｅｎｓｉｔｙｉｎｆｏｒｍａｔｉｏｎ）」または「ピクセル強度（ｐｉｘｅｌｉｎｔｅｎｓｉｔｙ）」は、デジタル画像のピクセル上で取り込まれる（ｃａｐｔｕｒｅ）かまたはそれによって示される電磁放射（「光（ｌｉｇｈｔ）」）の量の尺度である。本明細書で使用される用語「強度情報」は、さらなる関連する情報、例えば特定のカラーチャネルの強度を含むことができる。ＭＬＭは、デジタル画像に含まれる勾配またはテキスチャ等の派生情報を計算的に抽出するためにこの情報を使用することができ、派生情報は、訓練中におよび／または訓練済みＭＬＭによる特徴抽出中に、デジタル画像から暗黙的にまたは明示的に抽出することができる。例えば、「デジタル画像のピクセル強度値は１つまたは複数の特定の染色液の強さに相関する」という表現は、カラー情報を含む強度情報が、ＭＬＭを可能にし、また、上記１つまたは複数の染色液のうちの特定の染色液によって染色された組織試料内の領域を、ユーザーが識別することを可能にすることもできることを示唆することができる。例えば、ヘマトキシリンによって染色された試料の領域を描写するピクセルは、ブルーチャネルにおいて高いピクセル強度を有することができ、ｆａｓｔＲｅｄによって染色された試料の領域を描写するピクセルは、レッドチャネルにおいて高いピクセル強度を有することができる。

本明細書で使用される用語「機械学習モジュール（ＭＬＭ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｕｌｅ）」は、プログラム論理、例えば、ニューラルネットワークまたはサポートベクトルマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）または同様なもののようなソフトウェアのピースであり、そのプログラム論理は、訓練プロセスにおいて訓練されているかまたは訓練することができ、かつ、学習フェーズの結果として、提供される訓練用データに基づいて一部の予測的および／またはデータ処理タスクを実施することを学習する。そのため、ＭＬＭは、少なくとも部分的に、プログラマーによって明示的に指定されないが、試料入力から１つまたは複数の暗黙的または明示的モデルを構築するデータ駆動型学習プロセスにおいて暗黙的に学習され修正されるプログラムコードであってもよい。機械学習は、教師ありまたは教師なし学習を使用することができる。パターンを見出すことが難しく、また、しばしば十分な訓練用データが利用可能でないため、効果的な機械学習は、しばしば難しい。ＭＬＭは、例えば、独立型アプリケーションプログラムまたはアプリケーションプログラムのサブモジュールであってもよい。ＭＬＭは、ローカルにインストールされたプログラムであってよく、および／またはネットワークを介して複数のクライアントに提供されるサービスとして実装することができる。

本明細書で使用される用語「バイオマーカー（ｂｉｏｍａｒｋｅｒ）」は、組織タイプ、正常または病理プロセス、あるいは、治療介入に対する応答の指標として生物試料において測定することができる分子である。特定の実施形態において、バイオマーカーは、タンパク質、ペプチド、核酸、脂質、および炭化水素からなる群から選択される。より詳細には、バイオマーカーは、特定のタンパク質、例えば、ＥＧＲＦ、ＨＥＲ２、ｐ５３、ＣＤ３、ＣＤ８、Ｋｉ６７、および同様なものであってもよい。或るバイオマーカーは、特定の細胞に特異的であり、一方、他のマーカーは、特定の疾病または状態に関連するものとして識別されている。

組織試料画像の画像解析に基づいて特定の腫瘍の病期を決定するために、試料を複数のバイオマーカー特有の染色液で染色することが必要である場合がある。組織試料のバイオマーカー特有の染色は、典型的には、対象バイオマーカーに選択的に結合する１次抗体の使用を含む。特に、これらの１次抗体、しかし同様に、染色プロトコルの他の成分は、高価である場合があり、したがって、多くの応用シナリオ、特に、高スループットスクリーニングにおいて、コストの理由で、利用可能な画像解析技法の使用を排除する場合がある。

一般に、組織試料は、バックグラウンド染色液（「対比染色液（ｃｏｕｎｔｅｒｓｔａｉｎ）」）、例えば、ヘマトキシリン染色液またはヘマトキシリン染色液とエオジン染色液の組み合わせ（「Ｈ＆Ｅ」染色液）によって染色されて、大規模組織形態ならびに細胞および核の境界を明らかにする。バックグラウンド染色液に加えて、複数のバイオマーカー特有の染色液を、回答される生物医学的疑問、例えば、腫瘍の分類および病期分類（ｓｔａｇｉｎｇ）、組織内の特定の細胞タイプの量および相対分布の検出に応じて、適用することができる。

本発明の以下の実施形態は、図面を参照して、例としてのみ、より詳細に説明される。

本発明の或る実施形態による方法のフローチャートである。それぞれの組織試料を描写するデジタル画像である。２Ｄおよび３Ｄ座標系におけるタイルの空間的距離を示す図である。本発明の或る実施形態によるシャムネットワークのアーキテクチャを示す図である。本発明の或る実施形態による訓練済みシャムネットワークの使用を示す図である。切り詰めシャムネットワークの形態のベクトル－出力－ＭＬＭを示す図である。画像データベースにおける類似性検索のためにベクトル－出力－ＭＬＭを使用するコンピュータシステムを示す図である。画像セグメント化および／またはクラスター解析のためにベクトル－出力－ＭＬＭを使用するコンピュータシステムを示す図である。２つの画像の組織パターンの類似性を決定するために訓練済みシャムネットワークを使用するコンピュータシステムを示す図である。タイル対の空間的近接性に基づいてラベル付けされた「類似」および「非類似」タイル対を示す図である。自動化ラベル付きデータセットに対して訓練されたＭＬＭによって生成される類似性検索結果を示す図である。

図１は、本発明の或る実施形態による方法１００のフローチャートを示す。方法は、例えば、２つの入力画像において描写される組織パターンの類似性を自動的に決定するように適合される訓練済みＭＬＭを提供するために使用することができる。さらに、または、代替的に、訓練済みＭＬＭが提供され、訓練済みＭＬＭは、この画像において描写される組織パターンについて非常に特徴的である入力画像から特徴ベクトルを抽出するように適合され、また、類似性画像検索、画像領域の類似性ベースクラスタリング、および画像セグメント化等のデジタル病理の領域における多くの応用のための基礎として使用することができる。

方法１００は、上記で述べたＭＬＭを作成するための基礎として使用することができるアノテーション付き訓練用データセットを、対象生物医学的領域において自動的に作成することを可能にする。

第１のステップ１０２にて、画像解析システムは、患者の組織試料をそれぞれ描写する複数のデジタル画像を受信する。例えば、画像は、画像取り込みデバイスから、例えば、明視野顕微鏡、蛍光顕微鏡、またはスライドスキャンデバイスのカメラから直接受信することができる。さらに、または、代替的に、画像を、ローカルまたはリモートデータ記憶デバイスから読み取ることができる。読み取りは、データベースから画像を読み取ることを含むことができる。例えば、画像は、何年も経っている組織試料画像であってもよい。古い画像データセットは、多くの関連する事象、例えば、処置の成功、疾病進行、副作用の結果が、その間にわかっており、その結果を、さらなるラベルとして、わかっている事象を割り当てられている組織画像を含む訓練用データセットを作成するために使用することができるという利点を有することができる。

各患者について、１つまたは複数の画像を、画像解析システムによって受信することができる。例えば、同じ組織試料を、異なる染色プロトコルに従って複数回染色することができ、ただし、各染色プロトコルについて、画像が取得される。さらに、または、代替的に、幾つかの隣接する組織試料スライスは、同じまたは異なる染色プロトコルを用いてそれぞれ染色することができ、組織試料スライドのそれぞれについて、画像が取得される。好ましくは、全ての受信画像は、同じ染色プロトコルに従って染色され、かつ、関連する生物医学的属性を共有する患者、例えば、「乳がん患者（ｂｒｅａｓｔｃａｎｃｅｒｐａｔｉｅｎｔ）」または「結腸がん患者（ｃｏｌｏｎｃａｎｃｅｒｐａｔｉｅｎｔ）」のコホートから導出された組織試料を描写する。

１つの例の実装態様によれば、「ＣＡＭＥＬＹＯＮ１６」チャレンジ２０１６のための基礎として公表されたデジタル組織試料画像は、自動化ラベル付き訓練用データセットを作成するための基礎として使用することができる。乳がん患者のＨ＆Ｅ染色済みリンパ節組織切片の２７０の全スライド画像からなるＣＡＭＥＬＹＯＮ１６データセットが、訓練用データセットとして提供される（正常組織の１６０の画像、腫瘍転移を有する１１０の画像）。データセットは、https://camelyon16.grand-challenge.org/data/の下で入手可能である。

次にステップ１０４にて、画像解析システムは、各受信画像を画像タイルのセットに分割する。例えば、ＣＡＭＥＬＹＯＮ１６データセットの場合、１０×倍率で、このデータセットの画像は、それぞれオーバーラップなしのサイズ２５６ピクセル×２５６ピクセルの非バックグラウンドエリアから、１，１１３，４０３のＲＧＢタイルを生成するために使用することができる。

次にステップ１０６にて、画像解析システムは、アノテーション付き訓練用データセットを自動的に作成する。アノテーション付き訓練用データセットの作成は、複数のタイル対を選択することおよび各対にラベルを自動的に割り当てることを含む。ラベルは、対の２つのタイルによって描写される２つの組織パターンの類似性の程度の指標である。ラベルは、対の２つのタイルの空間的距離の関数として（したがって、対の２つのタイルによって描写される２つの組織領域の距離の関数として）自動的に計算される。ラベルは、定性的値として、例えば、「類似」または「非類似」である値として計算することができる。もちろん、これらの２つのオプションは、同様に、他のストリングによって、または、「０」および「１」等の数値の対によって示すことができる。このステップは、組織スライドの任意のデジタル画像に本質的に含まれる空間的近接性情報が、訓練用データセットにおいてアノテーションを自動的に作成するために使用することができ、その空間的近接性情報が、機械学習アルゴリズムが対処することができる多くの問題およびデジタル病理についての有意の予測値であるという観測に基づく。

次にステップ１０８にて、機械学習モジュールは、訓練用データセットとして、自動化ラベル付きタイル対を使用して訓練される。例えば、また、図４、図５、および図９を参照して、機械学習モジュールは、ニューラルネットワーク、特に、シャムネットワークであってもよい。訓練済みシャムネットワークは、入力として画像の対（または、タイルを小さい画像であると考えることができるタイルの対）を受信し、受信された画像の対において描写される組織パターンの類似性の程度を示すラベルを、訓練済み予測モデルに基づいて自動的に計算するように適合される。

さらに、または、代替的に、機械学習モジュール（本明細書でベクトル－出力－ＭＬＭと呼ばれる）は、個々の画像（またはタイル）から特徴ベクトルを計算するように適合される訓練用データセットとして、自動化ラベル付きタイル対を使用して訓練され、ただし、特徴ベクトルは、タイルにおいて描写される組織パターンについて特徴的であり、また、訓練済みベクトル－出力－ＭＬＭによって、それぞれの画像によって抽出される２つの特徴ベクトルの比較の関数として、画像の類似性／非類似性を計算することを可能にする。好ましくは、ベクトル－出力－ＭＬＭは、訓練済みシャムネットワークの切り詰めバージョンとして作成され、種々の異なる使用事例シナリオのために使用することができる（図６、図７、および図８の図の説明を参照）。

図２Ａは、３人の異なる患者Ｐ１、Ｐ２、Ｐ３の組織試料２０２、２０４、２０６をそれぞれ描写する３つのデジタル画像２２０、２２２、２２４を示す。組織試料は、患者から得られた後、顕微鏡スライド上にセットされ、１つまたは複数の組織学的に関連する染色液、例えば、Ｈ＆Ｅおよび／または種々のバイオマーカー特有の染色液によって染色される。画像は、例えば、スライドスキャナー顕微鏡を使用して、染色済み組織試料から採取される。組織試料は異なる患者から導出されるため、３Ｄ座標系内にデジタル画像を整列させることは可能でない。この場合、タイル距離は、画像のｘ座標およびｙ座標によって規定される２Ｄ空間内で計算される。以下において、タイル距離の決定は、デジタル画像およびタイルについて述べられる。

図２Ｂは、特定の患者Ｐ４の単一組織ブロックから導出された組織試料２０８、２１０、２１２をそれぞれ描写する３つのデジタル画像２２６、２２８、２３０を示す。描写される組織試料は、複数の隣接する組織スライスのスタックに属する。例えば、この組織スライスのスタックは、ＦＦＰＥＴ組織ブロックから生体外で（ｅｘ－ｖｉｖｏ）調製することができる。組織ブロックはスライスされ、スライスは顕微鏡スライド上にセットされる。その後、スライスは、図２Ａを参照して述べたように染色される。

このスタック内の組織試料は単一組織ブロックから導出されるため、組織スライス２０８、２１０、２１２を描写するデジタル画像２２６、２２８、２３０を、ｚ軸が組織スライスに直交する共通３Ｄ座標系内で整列させることが可能である。同様に、３つのデジタル画像２３２、２３４、および２３６は、別の患者Ｐ５の別の単一組織ブロックから導出された３つのそれぞれの組織試料２１４、２１６、２１８を描写する。デジタル画像２３２、２３４、および２３６を、ｚ軸が組織スライスに直交する共通３Ｄ座標系内で整列させることが可能である。

この場合、タイル距離は、対の２つのタイルが同じ画像から導出される場合に、２Ｄ空間内で計算される。さらに、タイル対であって、そのタイルが、共通３Ｄ座標系内で互いに整列した異なる画像から導出される、タイル対を作成することができる。この場合、対内の２つのタイルの距離は３Ｄ座標系を使用して計算される。

図３Ａは、デジタル組織試料画像３００のｘ軸およびｙ軸によって規定される２Ｄ座標系内のタイルの空間的距離を示す。デジタル画像３００は複数のタイルに分割されている。例証のために、図３Ａ内のタイルのサイズは典型的なタイルサイズより大きい。

訓練用データセットは、以下の手法によって自動的にラベル付けすることができる：最初に、開始タイル３０２が選択される。その後、この開始タイルの周りの第１の円形エリアが決定される。第１の円の半径は、第１の空間的近接性閾値３０８とも呼ばれる。この第１の円内の全てのタイル、例えば、タイル３０６は、開始タイル３０２の「近傍（ｎｅａｒｂｙ）」タイルであると考えられる。さらに、この開始タイルの周りの第２の円形エリアが決定される。第２の円の半径は、第２の空間的近接性閾値３１０とも呼ばれる。この第２の円の外の全てのタイル、例えば、タイル３０４は、開始タイル３０２に対して「遠方（ｄｉｓｔａｎｔ）」タイルである。

その後、タイル対の第１のセットが作成され、第１のセットの各タイル対は、開始タイルおよび開始タイルの「近傍」タイルを含む。例えば、このステップは、第１の円内に含まれる近傍タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な近傍タイルのサブセットをランダムに選択すること、および、選択された近傍タイルに開始タイルを付加することによって、選択された近傍タイルのそれぞれについてタイル対を作成することを含むことができる。

タイル対の第２のセットが作成される。第２のセットの各タイル対は、開始タイルおよび開始タイルに対する「遠方」タイルを含む。例えば、このステップは、第２の円の外の画像３００内に含まれる遠方タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な遠方タイルのサブセットをランダムに選択すること、および、選択された遠方タイルに開始タイルを付加することによって、選択された遠方タイルのそれぞれについてタイル対を作成することを含むことができる。

その後、画像３００内の別のタイルを、開始タイルとして使用することができ、上記で述べたステップを同様に実施することができる。これは、新しい開始タイルを中心として使用して、第１および第２の円が再び描かれることを意味する。それにより、新しい開始タイルに対する近傍タイルおよび遠方タイルが識別される。タイルの第１のセットは、新しい開始タイルに基づいて識別された近傍タイルの対で補完され、タイルの第２のセットは、新しい開始タイルに基づいて識別された遠方タイルの対で補完される。

その後、画像３００内のさらに別のタイルを、開始タイルとして使用することができ、上記で述べたステップを反復することができ、それにより、第１および第２のタイル対のセットをさらなるタイル対でさらに補完する。新しい開始タイルの選択は、画像内の全てのタイルが開始タイルとして一回選択されるまで、または、予め規定された数のタイルが開始タイルとして選択されるまで実施することができる。

第１のセット内のタイル対、例えば、対３１２のそれぞれに対して、ラベル「類似」が割り当てられる。第２のセット内のタイル対、例えば、対３１４のそれぞれに対して、ラベル「非類似」が割り当てられる。

図３Ｂは、デジタル組織試料画像３００のｘ軸およびｙ軸、並びに、画像３００、３３２、３３４によってそれぞれ描写される組織ブロックの組織スライスの相対位置に従って互いに整列した画像３００、３３２、３３４のスタックの高さに対応するｚ軸によって規定される３Ｄ座標系内のタイルの空間的距離を示す。ｚ方向の画像の距離は、上記画像によって描写される組織スライスの距離に対応する。整列したデジタル画像のそれぞれは、複数のタイルに分割されている。例証のために、図３Ｂ内のタイルのサイズは典型的なタイルサイズより大きい。

訓練用データセットは、以下の手法によって自動的にラベル付けすることができる：最初に、開始タイル３０２が選択される。その後、開始タイルおよび近傍タイルを含むタイル対、ならびに、開始タイルおよび遠方タイルを含むタイル対が、以下で述べるように、識別され、ラベル付けされる。

この開始タイルの周りの第１の３Ｄ球が決定される。例証のために、第１の球の断面のみが示される。第１の球の半径は、第１の空間的近接性閾値３３６とも呼ばれる。この第１の球内の全てのタイル、画像３００内のタイル３０６、しかし同様に、画像３３４内のタイル３４０は、開始タイル３０２の「近傍」タイルであると考えられる。さらに、この開始タイルの周りの第２の３Ｄ球が決定される。第２の球の半径は、第２の空間的近接性閾値３３８とも呼ばれる。この第２の球の外の全てのタイル、例えば、画像３００内のタイル３０４、しかし同様に、画像３３４内のタイル３４２は、開始タイル３０２に対して「遠方」タイルである。

タイル対の第１のセットが作成され、第１のセットの各タイル対は、開始タイルおよび開始タイルの「近傍」タイルを含む。例えば、このステップは、第１の球内に含まれる近傍タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な近傍タイルのサブセットをランダムに選択すること、および、選択された近傍タイルに開始タイルを付加することによって、選択された近傍タイルのそれぞれについてタイル対を作成することを含むことができる。

タイル対の第２のセットが作成される。第２のセットの各タイル対は、開始タイルおよび開始タイルに対する「遠方」タイルを含む。例えば、このステップは、第２の球の外の画像３００、３３２、３４内に含まれる遠方タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な遠方タイルのサブセットをランダムに選択すること、および、選択された遠方タイルに開始タイルを付加することによって、選択された遠方タイルのそれぞれについてタイル対を作成することを含むことができる。

その後、画像３００内または画像３３２、３３４内の別のタイルを、開始タイルとして使用することができ、上記で述べたステップを同様に実施することができる。これは、新しい開始タイルを中心として使用して、第１および第２の球が再び描かれることを意味する。それにより、新しい開始タイルに対する近傍タイルおよび遠方タイルが識別される。タイルの第１のセットは、新しい開始タイルに基づいて識別された近傍タイルの対で補完され、タイルの第２のセットは、新しい開始タイルに基づいて識別された遠方タイルの対で補完される。

上記で述べたステップを、受信画像３００、３３２、３３４のそれぞれの受信画像内の全てのタイルが開始タイルとして選択されるまで（または、別の終了基準が満たされるまで）、反復することができ、それにより、第１および第２のタイル対のセットをさらなるタイル対でさらに補完する。

第１のセット内のタイル対、例えば、対３１２および３１３のそれぞれに対して、ラベル「類似」が割り当てられる。第２のセット内のタイル対、例えば、対３１４および３１５のそれぞれに対して、ラベル「非類似」が割り当てられる。

図３Ａおよび図３Ｂに示す円および球ベース距離計算は、距離ベース類似性ラベルを計算するための例に過ぎず、この場合、バイナリーラベルは、「類似」または「非類似」である。他の手法、例えば、２Ｄまたは３Ｄ座標系において２つのタイル間のユークリッド距離（Ｅｕｃｌｉｄｉａｎｄｉｓｔａｎｃｅ）を計算すること、および、２つのタイルのユークリッド距離に負相関する類似性数値を計算することを、同様に使用することができる。

１ｍｍ組織に対応するピクセルの数は、画像取り込みデバイスの倍率およびデジタル画像の解像度等の種々の因子に依存するため、全ての距離閾値は、描写される実際の物理的オブジェクト、すなわち、組織試料または組織試料によってカバーされるスライドに対して本明細書で指定されることになる。

図４は、本発明の或る実施形態による、自動化ラベル付き訓練用データに対して訓練されるＭＬＭとして使用されるシャムネットワーク４００のアーキテクチャを示す。

シャムネットワーク４００は、それらの出力層４２４で接合した２つの同一のサブネットワーク４０２、４０３からなる。各ネットワークは、入力として単一デジタル画像（例えば、タイル）４０４、４１４を受信するように適合される入力層４０５、４１５を備える。各サブネットワークは複数の隠れ層４０６、４１６、４０８、４１８を備える。１次元特徴ベクトル４１０、４２０は、２つのサブネットワークのそれぞれのサブネットワークによって２つの入力画像の一方から抽出される。それにより、各ネットワークの最後の隠れ層４０８、４１８は、特徴ベクトルを計算し、特徴ベクトルを出力層４２４に提供するように適合される。入力画像の処理は完全に分離される。これは、サブネットワークが入力画像４０４を処理するだけでありかつサブネットワークが入力画像４１４を処理するだけであることを意味する。２つの入力画像において伝達される情報が結合される唯一の地点は、出力層が、ベクトル類似性、したがって、２つの入力画像において描写される組織パターンの類似性を決定するために２つのベクトルを比較するときの出力層においてである。

実施形態によれば、各サブネットワーク４０２、４０３は、修正型ｒｅｓ－ｎｅｔ－５０アーキテクチャ（Ｈｅ等「ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ」２０１５，ＣＶＰＲ’１５）に基づく。実施形態によれば、ｒｅｓｎｅｔ－５０事前訓練サブネットワーク４０２、４０３は、ＩｍａｇｅＮｅｔに対して事前訓練された。最後の層（通常、１，０００の特徴量を出力する）は、所望のサイズの特徴ベクトルを有するサイズ、例えば、サイズ１２８の全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）４０８、４１８と置換される。例えば、各サブネットワークの最後の層４０８、４１８は、第２の最後の層から特徴量を抽出するように構成することができ、ただし、第２の最後の層は、最後の層４０８、４１８よりずっと多い数（例えば、２０４８）の特徴量を提供することができる。実施形態によれば、オプティマイザ、例えば、ＰｙＴｏｒｃｈにおけるデフォルトパラメータ（０．００１の学習率および０．９、０．９９９のベータ）および２５６のバッチサイズを有するＡｄａｍオプティマイザが、訓練中に使用された。データ拡張（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）のために、ランダム水平および垂直フリップならびに／または２０度までのランダム回転ならびに／または明度、コントラスト、彩度、および／または色相について０．０７５の値を有するカラージッター拡張を、訓練用データセットを増加させるためにタイルに対して適用することができる。

シャムネットワークが、自動化ラベル付き画像の対に対して訓練されると、類似の画像が、互いに類似である出力（特徴ベクトル）を出力すべきであり、非類似の画像が、互いに非類似である出力を出力すべきであることが、学習プロセスの目的である。これは、損失関数、例えば、対比（ｃｏｎｔｒａｓｔｉｖｅ）を測定する関数を最小にすることによって達成することができる。

シャムネットワーク４００の訓練は、ネットワーク４００に複数の自動化ラベル付き類似タイル対３１２、３１３および複数の自動化ラベル付き非類似タイル対３１４、３１５を給送することを含む。各入力訓練用データレコード４２８は、タイル対の２つのタイル４０４、４１４、および、その自動割り当て済み空間近接性ベースラベル４０７を含む。近接性ベースラベル４０７は、「真値」として提供される。出力層４２４は、２つの入力画像４０４、４１４についての予測類似性ラベルを、比較される２つの特徴ベクトル４０８、４１８の類似性の関数として計算するように適合される。シャムネットワークの訓練はバックプロパゲーションプロセスを含む。予測ラベル４２６の入力ラベル４０７からのいずれの偏差も、損失関数の形態で測定される「エラー（ｅｒｒｏｒ）」または「損失（ｌｏｓｓ）」であると考えられる。シャムネットワークの訓練は、バックプロパゲーションを反復的に使用することによって、損失関数によって計算されたエラーを最小にすることを含む。シャムネットワーク４００は、例えば、Ｂｒｏｍｌｅｙ等によって、「ＳｉｇｎａｔｕｒｅＶｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａ ”Ｓｉａｍｅｓｅ“ ＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ」１９９４，ＮＩＰＳ’１９９４において記載されるように実装することができる。

ＭＬＭ予測精度の評価
１つの例の実施形態によれば、自動化ラベル付き訓練用データセットは、×１０解像度のＣａｍｅｌｙｏｎ１６データセットから抽出された。Ｃａｍｅｌｙｏｎ１６訓練用データセットは、２７０の乳房リンパ節ヘマトキシリン・エオジン（Ｈ＆Ｅ）染色済み組織全スライド画像を含む。最初に、Ｃａｍｅｌｙｏｎ１６データセット内の画像は、サイズ２２４×２２４の非オーバーラップタイルに分割された。２つのタイル間の１７９２ピクセルの最大距離は、第１の空間的近接性閾値として使用され、１７９２ピクセルより短い距離を有するタイル対が「類似」タイル対として自動的にラベル付けされたことを意味する。９０４８ピクセルの距離は、第２の空間的近接性閾値として使用され、９０４８ピクセルより長い距離を有するタイル対が「非類似」タイル対としてラベル付けされたことを意味する。近傍タイルの３２の対および遠方タイルの３２の対をサンプリングすることは、７千万対のデータセットを生じ、その中で、３千５百万が「類似」とラベル付けされ、３千５百万が「非類似」とラベル付けされる。これらの自動化ラベル付きタイル対は、シャムネットワーク４００を訓練するために使用された。画像対に関する訓練用損失として、対比損失が使用された。シャムネットワーク４００は、２４時間、訓練され、それまでに、シャムネットワーク４００は、訓練用セット内の画像対の４０％にほぼ匹敵する３千万画像対にわたる反復をかろうじて達成した。訓練は、ＰｙＴｏｒｃｈＤａｔａＰａｒａｌｌｅｌ実装を使用するＲｏｃｈｅＰｈａｒｍａＨＰＣ上で８Ｖ１００ＧＰＵを使用して行われた。

その後、訓練済みシャムネットワークの精度は、乳がん組織の１３０の全スライド画像を含むＣａｍｅｌｙｏｎ１６試験セットに関して妥当性確認された。訓練済みシャムネットワークの精度は、遠方タイルに比べて近傍タイルが類似しているように見えるという仮定の下で、近傍タイルと遠方タイルを分離する学習済みネットワークの能力である。Ｃａｍｅｌｙｏｎ１６試験セット内の全てのタイルについて、データ拡張用のサンプリングのための基礎として、８の近傍タイルおよび８の遠方タイルが使用された。データ拡張は、ランダム水平および垂直フリップ、２０度までのランダム回転、明度、コントラスト、彩度、および／または色相について０．０７５の値を有するカラージッター拡張を使用して実施された。これは、近傍タイルの１，３８５，２８８の対および１，３８５，２８８の遠方タイルをもたらした。

その後、大域的平均記述子距離比（ＡＤＤＲ：ＡｖｅｒａｇｅＤｅｓｃｒｉｐｔｏｒＤｉｓｔａｎｃｅＲａｔｉｏ）が、試験タイル対について計算される。ＡＤＤＲは、拡張された試験データセットにおいて、全ての遠方タイル対（「非類似（ｎｏｎ－ｓｉｍｉｌａｒ）」対）の記述子間の平均Ｌ２距離と、全ての近傍タイル対（「類似」対）の記述子間の平均Ｌ２距離との比からなる。さらに、タイル当たりのＡＤＤＲの中央値が計算される。タイル当たりのＡＤＤＲの中央値は、このタイルがそのメンバーである全ての遠方対の記述子間の平均Ｌ２距離と、このタイルがそのメンバーである全ての近傍対の記述子間の平均Ｌ２距離との比についてのタイル当たりの計算からなる。結果は以下の表に示される。

この実験からの結果に基づいて、特許請求される本発明の実施形態に従って訓練されたＭＬＭが、他の検査されたベンチマーク方法に比べて、試験セット上の記述子空間において、近傍および遠方（または「類似」および「非類似」）タイルを分離するタスクにおけるベンチマーク方法において優れるように見える。

ＭＬＭベース腫瘍タイル取り出しの評価
さらに、本発明の実施形態に従ってＭＬＭを訓練する方法が、良好な画像取り出し性能をさらにもたらすことができることが観測された。さらなる実験において、病理画像取り出しタスクを実施する学習済みベクトル－出力－ＭＬＭ４０２の能力が評価された。ベクトル－出力－ＭＬＭ４０２は、データ記憶ユニット上に、訓練済みシャムネットワーク４００のサブネットワークのうちの１つのサブネットワークを別個に記憶し、画像類似性検索において使用される訓練済みＭＬＭとしてサブネットワーク（「切り詰めシャムネットワーク（ｔｒｕｎｃａｔｅｄＳｉａｍｅｓｅｎｅｔｗｏｒｋ）」）を使用することによって得られた。

Ｃａｍｅｌｙｏｎ１６試験セットから抽出される全てのタイルについて、タイルが腫瘍領域に属するか否かをマーク付けするために、供給済み腫瘍メタスターゼアノテーションが使用された。タイルが完全に腫瘍領域内にある場合、タイルは「腫瘍」タイルとラベル付けされた。タイルの総量の３％からなる、３８０９のタイルが腫瘍タイルとしてマーク付けされた。その後、全ての腫瘍タイルについて、ベクトル－出力－ＭＬＭ４０２、４０３によって出力される特徴ベクトルに基づく最近傍探索（ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈ）が、異なる画像にわたる記述子一般化をより頑健に評価するために、探索を他のスライドからのタイルに制限しながら実施された。取り出しタスクからの結果についての例は図１１に提示される。

視覚的に意味のある画像記述子を生成するためにＭＬＭを訓練するための新規な自己教師あり手法が提供され、その手法が、Ｃａｍｅｌｙｏｎ１６データセットに関して他のベンチマーク方法と比べて実質的に良好な画像取り出し結果をもたらすことを、２つの試験が明らかにする。空間的距離導出類似性ラベルは、組織パターン類似性について非常に意味がありかつ正確な記述子および画像取り出しを提供することを立証した。さらに、デジタル病理データセットのための改良型特徴抽出アルゴリズムが提供され、そのアルゴリズムを、教師あり訓練のためのラベルが、得ることが難しいかまたは不可能であるデジタル病理問題に対して適用することもできる。空間的近接性ベース類似性ラベルが、実際の組織類似性（例えば、腫瘍／非腫瘍）の意味のある記述子を提供することを２つの試験が明らかにした。

図５は、図４に示すシャムネットワーク４００の訓練済みバージョン４００’を示す。訓練済みシャムネットワーク４００’は、入力として画像（例えば、タイル）５０４、５０６の対５０２を受信することを予想する。訓練済みネットワーク４００’の訓練済みサブネットワーク４０２、４０３は、入力画像のそれぞれから特徴ベクトルを抽出するように適合され、ただし、特徴ベクトルの抽出される特徴は、２つの比較されるデジタル組織画像が類似であるか否かの疑問に関して特定の予測関連性がある特徴量である。訓練済みシャムネットワークの出力層４２４は、２つの特徴ベクトルを比較し、入力画像５０４、５０６から抽出された２つの特徴ベクトルの関数として類似性ラベル５０８を予測し出力する。したがって、訓練済みシャムネットワーク４００’は、画像の入力対５０２について予測類似性ラベル５０８を計算することによって、データレコード５１０を終了するように適合される。

図６は、切り詰めシャムネットワークの形態のベクトル－出力－ＭＬＭ６００を示す。ベクトル－出力－ＭＬＭ６００は、例えば、訓練済みシャムネットワーク４００’のサブネットワーク４０２、４０３のうちの１つのサブネットワークを別個に記憶することによって得ることができる。訓練済みシャムネットワークと対照的に、ベクトル－出力－ＭＬＭは、入力として単一画像６０２のみを必要とし、また、類似性ラベルを出力するのではなく、むしろ、シャムネットワーク４００’の訓練中に識別された特徴量の制限されたセットの値を選択的に含む特徴ベクトル６０４を出力し、特徴ベクトル６０４は、特定の組織パターンについて特に特徴的であり、２つの画像から特徴量のこの特定のセットを抽出し比較することによって、２つの画像において描写される組織パターンの類似性を決定するのに特に適する。

図７は、１つまたは複数のプロセッサ７１４および例えば図６に示す訓練済みベクトル－出力－ＭＬＭ６００を備えるコンピュータシステム７００を示す。システム７００は、ベクトル－出力－ＭＬＭを使用して画像類似性検索を実施するように適合される。

コンピュータシステムは、例えば、データベース７１０を備えるかまたはそれに動作可能に結合される標準的コンピュータシステムまたはサーバーであってもよい。例えば、データベースは、複数の患者の組織試料を描写する数百またはさらに数千の全スライド画像を含むリレーショナルＢＤＳＭであってもよい。好ましくは、データベースは、データベース内の画像のそれぞれについて、データベース内の上記画像から特徴出力ＭＬＭ６００によって抽出されたそれぞれの特徴ベクトルを含む。好ましくは、データベース内の各画像の特徴ベクトルの計算は、任意のそのような要求が受信される前に、単一の前処理ステップにおいて実施される。しかしながら、検索要求に応答して、データベース内の画像について特徴ベクトルを動的に計算し抽出することも可能である。

コンピュータシステムは、検索画像７０４として使用される特定の画像または画像タイルをユーザー７０２が選択または提供することを可能にするユーザーインタフェースを備える。訓練済みベクトル－出力－ＭＬＭ６００は、入力画像から特徴ベクトル７０６（「検索特徴ベクトル（ｓｅａｒｃｈｆｅａｔｕｒｅｖｅｃｔｏｒ）」）を抽出するように適合される。検索エンジン７０８は、検索特徴ベクトル７０６を特徴出力ＭＬＭ６００から受信し、画像データベースにおいてベクトルベース類似性検索を実施する。類似性検索は、２つの比較される特徴ベクトルの関数として類似性スコアを計算するために、検索特徴ベクトルをデータベース内の画像の特徴ベクトルのそれぞれと比較することを含む。類似性スコアは、検索特徴ベクトルとデータベース内の画像の特徴ベクトルとの類似性の程度を示し、したがって、２つの比較される画像において描写される組織パターンの類似性を示す。検索エンジン７０８は、検索結果７１２をユーザーに返し出力するように適合される。検索結果は、例えば、最も高い類似性スコアがそれについて計算されたデータベースの１つまたは複数の画像であってもよい。

例えば、検索画像７０４が、乳がん組織を描写することが知られている画像タイルである場合、図７に示すシステムは、類似の乳がん組織パターンを描写する複数の他のタイル（または、そのようなタイルを含む全スライド画像）を識別するために使用することができる。

システム７００は、ベクトル－出力－ＭＬＭの入力／出力構造がシャムネットワークの入力／出力構造より適切である応用シナリオについての例である。

図８は、１つまたは複数のプロセッサ８２４および訓練済みベクトル－出力－ＭＬＭ６００を備えるコンピュータシステム８００を示す。システム８００は、画像セグメント化および／またはクラスター解析等のデジタル病理タスクを実施するために適合される。

システムは、入力画像、例えば、全スライド画像８０４を受信し、入力画像から複数の画像タイル８０８を生成するように適合される画像分割エンジン８０６を備える。示す例において、タイルインデックスは１から１００に及ぶ。実際には、全スライド画像から生成されるタイルの数は、典型的には、ずっと多い、例えば、数千または１０，０００のタイルの範囲内にある。

訓練済みベクトル－出力－ＭＬＭ６００は、生成されたタイルを受信し、タイルのそれぞれから、それぞれの特徴ベクトルを抽出する。訓練済みＭＬＭ６００によって計算される複数のダイレクター（ｄｉｒｅｃｔｏｒ）８１０は、クラスタリングエンジン８１２に給送される。クラスタリングエンジンは、受信特徴ベクトルのクラスタリング、例えば、Ｋ平均法クラスタリングを実施するように適合される。クラスタリングの結果として、類似特徴ベクトルの複数のクラスター（群）８１４が自動的に識別される。図８に示す例において、特徴ベクトルの３つの類似クラスター（Ａ、Ｂ、およびＣ）が識別され、さらなる処理ステップのための基礎として使用することができる。例えば、画像セグメント化エンジン８１８は、特徴ベクトルの同じクラスターに属する受信画像８０４内のタイルを識別するためにクラスター８１４を使用することができる。同じクラスターに属する全てのタイルは、セグメント化結果画像８２２において描写される画像セグメントとして識別することができ、異なる画像セグメントは、異なるカラーおよび／またはハッチングを使用して示される。さらに、または、代替的に、特徴ベクトルの識別済みクラスター８１４は、入力画像内で異なるタイプの組織パターンを識別するための基礎として使用することができる。例えば、類似性検索は、「腫瘍組織」、「スライドバックグラウンド」、「健康間質組織」等の、既知の組織タイプを示す類似画像を識別するために各クラスターＡ、Ｂ、またはＣの１つまたは複数の特徴ベクトルについて実施することができる。類似性検索において識別される最も類似するデータベース画像に割り当てられる組織タイプは、それぞれのクラスターによって示される組織パターンと考えられる。それにより、入力画像において異なるタイプの組織パターンを自動的に識別するためのシステムおよび方法が提供され、そのシステムおよび方法は、多数の手作業によるアノテーション付き訓練用データの作成を必要としない。

分割エンジン、クラスタリングエンジン、および画像セグメント化エンジンは、例えば、独立型ソフトウェアアプリケーションとしてそれぞれ実装することができる。代替的に、エンジン８０６、８１４、および／または８１８の１つまたは複数は、単一の統合ソフトウェアアプリケーションのサブモジュールまたはプログラムルーチンとして実装することができる。

システム８００は、ベクトル－出力－ＭＬＭの入力／出力構造がシャムネットワークの入力／出力構造より適切である応用シナリオについてのさらなる例である。

図９は、２つの画像の組織パターンの類似性を決定するために、１つまたは複数のプロセッサ９０２および訓練済みシャムネットワーク４００’を備えるコンピュータシステム９００を示す。例えば、シャムネットワークは、２つの画像またはタイルが入力として提供され、そこに描写される組織パターンの類似性が迅速に決定されるであろう全ての応用シナリオにおいて使用することができる。

図１０は、２つのタイルマトリクスを示し、各マトリクスは３つの列からなり、各列が６つのタイル対を含む。第１のマトリクスは、互いの近くに存在しかつラベル「類似」タイル対を自動的に割り当てられるタイルからなるタイル対の第１のセット（Ａ）を示す。第２のマトリクスは、互いから遠くに存在しかつラベル「非類似」タイル対を自動的に割り当てられるタイル対の第２のセット（Ｂ）を示す。場合によっては、「類似」ラベル付きタイルは非類似に見え、「非類似」ラベル付きタイルは類似に見える。このノイズは、２つの異なる組織パターンが接する境界において、２つの近傍タイルが異なる組織パターンを描写することができることによって、また、遠方組織領域でさえも、同じ組織パターンを描写することができることによって引き起こされる。これは、データセット生成プロセスにおける予想される固有ノイズである。

このノイズがあるにもかかわらず、自動化ラベル付きデータセットに対して訓練されたＭＬＭの予測が非常に正確であることを出願人は観測した。このノイズに対する訓練済みＭＬＭの観測される頑健性が、領域非境界エリアより少ない面積を領域境界が典型的には有することに基づくことを出願人は仮定する。

実施形態によれば、自動生成訓練用データセットの品質は、第１のステップにて、タイル対の類似性を評価するために事前訓練類似性ネットワークまたはＩｍａｇｅＮｅｔ事前訓練ネットワークを使用すること、その後、第２のステップにて、本発明の実施形態について本明細書で述べたタイルの空間的近接性に基づいて類似性ラベルを生成すること、および、その後、一方で第１のステップにて、また、他方で第２のステップにて判定される２つのタイルの類似性の大きい偏差が観測される場合に、対ラベルを補正することである。

図１１は、本発明の実施形態について本明細書で述べた自動化ラベル付きデータセットに対して訓練された特徴出力ＭＬＭによって抽出された特徴ベクトル使用した、画像取り出しタスクにおける５つの腫瘍クエリータイル（Ａ、Ｂ、Ｃ、Ｄ、Ｅ）、および、短～長までの距離によってランク付けされた、クエリースライド以外のスライドからの５つの最接近取り出し済みタイルについての類似性検索結果を示す。ターゲットクラス（例えば、腫瘍）は、検索されたタイルの３％のみを含む。一部の取り出し済みタイルがクエリータイル（例えば、Ｃ３およびＣ）と非常に異なるように見えても、Ａ４を除く取り出し済みタイルの全てが、専門病理医によって、腫瘍細胞を含むと検証された（すなわち、正しいクラス取り出し）。

１００方法
１０２～１０８ステップ
２０２～２０３異なる患者の組織試料
２０８～２１２隣接する組織試料のスタック内の組織試料
２１４～２１８隣接する組織試料のさらなるスタック内の組織試料
２２０～２３６組織試料をそれぞれ描写するデジタル画像
３００複数のタイルにスライスされたデジタル組織画像
３０２タイルＴ１
３０４タイルＴ２
３０６タイルＴ３
３０８第１の空間的近接性閾値（２Ｄ）
３１０第２の空間的近接性閾値（２Ｄ）
３１２「類似」とラベル付けされたタイルの対
３１３「類似」とラベル付けされたタイルの対
３１４「非類似」とラベル付けされたタイルの対
３１５「非類似」とラベル付けされたタイルの対
３１６訓練用データ
３３２画像３００に整列したデジタル組織画像
３３４画像３３２に整列したデジタル組織画像
３３６第１の空間的近接性閾値（３Ｄ）
３３８第２の空間的近接性閾値（３Ｄ）
３４０タイルＴ４
３４２タイルＴ５
４００（未訓練）シャムネットワーク
４００’ （訓練済み）シャムネットワーク
４０２サブネットワーク
４０３サブネットワーク
４０４第１の入力タイル
４０５第１のネットワークＮ１の入力層
４０６隠れ層
４０７近接性ベース（「測定済み」）類似性ラベル
４０８第１の入力タイルについての特徴ベクトルを計算するように適合される隠れ層
４１０第１の入力タイル４０４から抽出された特徴ベクトル
４１４第２の入力タイル
４１５第２のネットワークＮ２の入力層
４１６隠れ層
４１８第２の入力タイルについての特徴ベクトルを計算するように適合される隠れ層
４２０第２の入力タイル４１４から抽出された特徴ベクトル
４２２入力タイルの対
４２４ネットワークＮ１、Ｎ２を接合する出力層
４２６予測類似性ラベル
４２８訓練用データセットの個々のデータレコード
５０２入力タイル
５０４第１の入力タイル
５０６第２の入力タイル
５０８予測類似性ラベル
５１０入力タイル対５０２および予測類似性ラベル５０８を含む完全データレコード
６００ベクトル－出力－ＭＬＭ
６０２個々の入力画像／タイル
６０４特徴ベクトル
７００コンピュータシステム
７０２ユーザー
７０４個々の入力画像／タイル
７０６検索特徴ベクトル
７０８特徴ベクトルベース検索エンジン
７１０複数の画像またはタイルを含むデータベース
７１２返された類似性検索結果
７１４プロセッサ
８００コンピュータシステム
８０２ユーザー
８０４個々の入力画像／タイル
８０６画像分割エンジン
８０８複数のタイル
８１０複数の特徴ベクトル
８１２クラスタリングエンジン
８１４類似性特徴ベクトルの識別されたクラスター
８１６クラスター分析結果：識別された組織タイプ
８１８画像セグメント化エンジン
８２０ユーザーインタフェース
８２２セグメント化画像
８２４プロセッサ
９００コンピュータシステム
９０２プロセッサ

Claims

デジタル病理のためのコンピュータ実装自己教師あり学習方法であって、
－それぞれが組織試料を描写する複数のデジタル画像を受信する（１０２）こと、
－前記受信された画像のそれぞれを複数のタイルに分割する（１０４）こと、
－タイル対（３１２、３１３、３１４、３１５、４２２）を自動的に生成する（１０６）ことであって、各タイル対は、前記対の２つのタイルにおいて描写される２つの組織パターンの類似性の程度を示すラベル（４０３）を割り当てられており、前記類似性の程度は、前記対内の前記２つのタイルの空間的近接性（ｄ１、ｄ２、ｄ３、ｄ４）の関数として計算され、距離が非類似性と正相関し、前記タイル対（３１３、３１５）の少なくともサブセットは、隣接する組織スライスのスタックの２つの異なる組織スライス内に含まれる２つの組織領域を描写し、前記組織スライスのそれぞれは、前記受信デジタル画像（３００、３３２、３３４）のそれぞれの１つのデジタル画像において描写される前記組織試料であり、隣接する組織スライスのスタックの組織スライスを描写する受信画像は、３Ｄ座標系において互いに整列し、前記サブセットの前記タイル対の前記タイル間の距離（ｄ３、ｄ４）は前記３Ｄ座標系内で計算される、タイル対（３１２、３１３、３１４、３１５、４２２）を自動的に生成する（１０６）こと、および、
－ラベル付けされたタイル対を訓練用データとして使用して、機械学習モジュール－ＭＬＭ－（４００、４０２、４０３、６００）を訓練し、デジタル組織病理画像の画像解析を実施するために適合される訓練済みＭＬＭを生成すること、
を含む、コンピュータ実装自己教師あり学習方法。
－前記タイル対（３１２、３１４）の少なくとも一部は、同じ組織スライスに含まれる２つの組織領域を描写し、前記組織スライスのそれぞれは、前記受信デジタル画像のそれぞれ１つの画像において描写され、タイル間の距離は、前記対内の前記タイルがそこから導出された前記受信されたデジタル画像（３００）のｘ次元およびｙ次元によって規定される２Ｄ座標系内で計算される、請求項１に記載のコンピュータ実装方法。
前記タイル対（３１３、３１５）の少なくともさらなるサブセットは、同じ組織スライスの２つの組織領域を描写するタイル対を含み、前記さらなるサブセットの前記タイル対の前記タイル間の距離（ｄ１、ｄ２）は、異なる組織スライスを描写すると導出されるタイル対の前記サブセットの前記タイル対の間の距離として、前記空間的近接性の関数に基づいて計算される、請求項１または２に記載のコンピュータ実装方法。
各タイルは、０．５ｍｍ未満、好ましくは０．３ｍｍ未満の最大エッジ長を有する組織またはバックグラウンド領域を描写する、請求項１から３のいずれか一項に記載のコンピュータ実装方法。
前記タイル対の自動生成は、
－第１の空間的近接性閾値（３０８、３３６）を使用してタイル対（３１２、３１３）の第１のセットを生成することであって、前記第１のセット内の各タイル対の前記２つのタイルによって描写される前記２つの組織領域は、前記第１の空間的近接性閾値より小さい距離互いから分離される、タイル対（３１２、３１３）の第１のセットを生成すること、
－第２の空間的近接性閾値（３１０、３３８）を使用してタイル対（３１４、３１５）の第２のセットを生成することであって、前記第２のセット内の各タイル対の前記２つのタイルによって描写される前記２つの組織領域は、前記第２の空間的近接性閾値より大きい距離互いから分離される、タイル対（３１４、３１５）の第２のセットを生成すること
を含む、請求項１から４のいずれか一項に記載のコンピュータ実装方法。
前記第２の空間的近接性閾値は、前記第１の空間的近接性閾値より少なくとも２ｍｍ大きい、請求項５に記載のコンピュータ実装方法。
前記第１の空間的近接性閾値は、２ｍｍより小さい、好ましくは１．５ｍｍより小さい、特に１．０ｍｍの距離である、および／または、
前記第２の空間的近接性閾値は、４ｍｍより大きい、好ましくは８ｍｍより大きい、特に１０．０ｍｍの距離である、請求項５または６に記載のコンピュータ実装方法。
前記ＭＬＭは、共通出力層（４２４）によって接合される２つの同一のニューラルサブネットワーク（４０２、４０３）を備えるシャムニューラルネットワーク（４００）であり、前記２つのニューラルサブネットワークのそれぞれは、前記ＭＬＭへの入力として提供されるタイル対（４２２）の２つのタイル（４０４、４１４）のそれぞれの１つのタイルから特徴ベクトル（４１０、４２０）を抽出するように適合され、
訓練済みシャムニューラルネットワーク（４００’）の出力層は、入力として提供される各タイル対（５０２）についてのラベル（５０８）を、２つの特徴ベクトル（４１０、４２０）の関数として計算するように適合され、前記ラベルは、入力として提供される前記タイル対（５０２）において描写される前記２つの組織パターンの予測類似性を示す、請求項１から７のいずれか一項に記載のコンピュータ実装方法。
前記ＭＬＭは、ベクトル－出力－ＭＬＭ（６００）であるかまたは前記ベクトル－出力－ＭＬＭ（６００）を含み、前記ベクトル－出力－ＭＬＭは、入力として単一デジタル画像またはタイルを受信するように適合されかつ前記画像またはタイルから抽出される特徴ベクトルを出力するように適合されるＭＬＭであり、
それにより、前記ラベル付けされたタイル対に対する前記ＭＬＭの訓練は、バックプロパゲーション操作を含み、バックプロパゲーション中に、前記ＭＬＭの予測モデルは、特定の組織パターンについて特徴的でありかつ類似のおよび非類似の画像対のベクトル比較ベース識別を可能にする特徴量を、前記ＭＬＭによって抽出される前記ベクトル内の特徴量が含むように変更される、請求項１から８のいずれか一項に記載のコンピュータ実装方法。
前記ＭＬＭはシャムネットワークであり、方法は、前記ベクトル－出力－ＭＬＭ（６００）を提供することをさらに含み、前記ベクトル－出力－ＭＬＭを前記提供することは、
－前記訓練済みシャムネットワーク（４００’）の前記サブネットワークのうちの１つのサブネットワーク（４０２）を、別個に記憶媒体上に記憶すること、および、
－前記ベクトル－出力－ＭＬＭ（６００）として前記記憶されたサブネットワークを使用すること
を含む、請求項８および９に記載のコンピュータ実装方法。
－前記ベクトル－出力－ＭＬＭの入力としてデジタル検索画像を提供することであって、前記検索画像は組織試料または前記組織試料のサブ領域を描写する、デジタル検索画像を提供すること、
－前記ベクトル－出力－ＭＬＭによって、前記検索画像から検索特徴ベクトルを抽出すること、
－デジタル組織試料画像の画像データベース（７１０）において類似性検索を、類似性検索エンジン（７０８）によって実施することであって、前記類似性検索エンジンは、前記画像データベース内の前記画像のそれぞれについて前記ベクトル－出力－ＭＬＭによって抽出された特徴ベクトルを用いて、前記検索特徴ベクトルの類似性を決定する、類似性検索を実施すること、および、
－前記データベース内の前記画像のうちの画像であって、画像の特徴ベクトルは、前記類似性検索の結果として、前記検索特徴ベクトルに最も類似する、画像を返すこと
をさらに含む、請求項９または１０に記載のコンピュータ実装方法。
－前記ベクトル－出力－ＭＬＭの入力としてデジタル画像（８０４）を提供することであって、前記デジタル画像は、全スライド組織試料または前記全スライド組織試料のサブ領域を描写する、デジタル画像（８０４）を提供すること
－前記提供されたデジタル画像（８０４）を複数のタイル（８０８）に分割すること、
－前記タイル（８０８）のそれぞれから特徴ベクトルを、前記ベクトル－出力－ＭＬＭによって抽出すること、
－前記複数のタイルから抽出される前記特徴ベクトルを、クラスタリングエンジン（８１２）によってクラスター化することであって、それにより、類似の特徴ベクトルのクラスターを作成する、前記特徴ベクトルをクラスター化すること、
－前記タイルの特徴ベクトルについて計算された前記クラスターに従って、前記複数のタイルをタイルのクラスターにグループ分けすること、および、
－タイルの前記クラスターを、グラフィカルユーザーインタフェースによって出力すること
をさらに含む、請求項９から１１のいずれか一項に記載のコンピュータ実装方法。
－前記提供されたデジタル画像（８０４）内でセグメントを識別することであって、各セグメントは隣接するタイルの群であり、各セグメント内の全てのタイルは、タイルの前記識別されたクラスターの同じクラスターに属する、セグメントを識別すること、および、
－前記提供されたデジタル画像（８０４）内の前記識別されたセグメントの光学的指示を、前記グラフィカルユーザーインタフェースを介して出力すること
を含む、請求項１２に記載のコンピュータ実装方法。
コンピュータ解釈可能命令を含む不揮発性記憶媒体であって、前記コンピュータ解釈可能命令は、実行されると、請求項１から１３のいずれか一項に記載のコンピュータ実装方法によって生成される訓練済み機械学習モジュール―ＭＬＭ―（４００、４０２、４０３、６００）をインスタンス化および／または実行する、不揮発性記憶媒体。
画像解析システム（７００、８００、９００）であって、
－少なくとも１つのプロセッサ（７１４、８２４、９０２）と、
－揮発性または不揮発性記憶媒体とを備え、前記記憶媒体は、請求項１から１３のいずれか一項に記載のコンピュータ実装方法によって生成される訓練済み機械学習モジュール―ＭＬＭ―（４００、４０２、４０３、６００）を備える、画像解析システム（７００、８００、９００）。