JP2023543044A

JP2023543044A - 組織の画像を処理する方法および組織の画像を処理するためのシステム

Info

Publication number: JP2023543044A
Application number: JP2023519331A
Authority: JP
Inventors: ラハルジャ、ムハンマド・パンドゥ; アルスラーン、サリム・セダト; ド・モプー・ダブレージュ、シクスト・ガブリエル・マリー・ジル; ダヤン、ベンジャミン・リー
Original assignee: パナケイア・テクノロジーズ・リミテッド
Priority date: 2020-09-25
Filing date: 2021-09-24
Publication date: 2023-10-12
Also published as: KR20230125169A; CN117015796A; WO2022064222A1; EP3975110A1; US20230377155A1; IL301650A

Abstract

組織の画像を処理するコンピュータ実装方法であって、組織の入力画像から画像部分の第１のセットを取得することと、画像部分の第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、選択することは、第１の畳み込みニューラルネットワークを備える第１のトレーニング済みモデルに前記第１のセットからの画像部分の画像データを入力することを備え、第１のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、１つまたは複数の画像部分の前記第２のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することとを備える、コンピュータ実装方法。

Description

関連出願の相互参照
本出願は、その内容全体が参照により本明細書に組み込まれる、２０２０年９月２５日に出願された前の欧州出願番号第ＥＰ２０１９８５５１号に基づき、それの優先権の利益を主張する。

本発明は、組織の画像を処理するコンピュータ実装方法および組織の画像を処理するためのシステムに関する。

バイオマーカは、特定の病理学的または生理的プロセス、疾患、診断、療法または予後が識別され得る自然発生分子、遺伝子、または特性である。たとえば、現代の癌診断および治療は、癌、および、概して、患者の特定の分子プロファイルを理解することに依拠し得る。分子プロファイルは、１つまたは複数の分子バイオマーカを含む。分子プロファイルは、ホルモン療法と、免疫治療と、標的薬治療とを含む様々な処置を通知するために使用され得る。

様々な医学関連バイオマーカ、たとえば、突然変異の状態、受容体の状態、コピー数多型などの診断、治療および／または予後マーカは、患者がいくつかの療法にどのくらい応答することになるのかを決定するために遺伝的な、トランスクリプトーム的な、および免疫学的な分析の手段を通してテストされる。そのようなテストは、液体または固体の形態にあり得る生検と呼ばれるヒト試料に対して行われる。そのようなテストは、テストおよび試料のタイプに応じて、１日から３０日のいずれかの期間かかることがあり、処置上の誤りを受けやすい。そのような処置の結果は、次いで、組織生検のための病理学者、液体生検のための血液学者、細胞学試料のための細胞病理学者、遺伝的な／トランスクリプトーム的な分析のための遺伝学者などの専門家によって分析される。これは、同じく、非常に時間がかかり、人的エラーに対して非常に弱い。そのようなバイオマーカの検出の信頼性、経済性および速度を改善する継続的な必要がある。

次に、非限定的な実施形態によるシステムおよび方法について、添付の図を参照しながら説明する。

一実施形態による、システムの概略図。一実施形態による、組織の画像を処理する方法の概略図。ヘマトキシリンとエオシンとを用いて染色された組織切片の画像の一例の図。ヘマトキシリンとエオシンとを用いて染色された組織切片の画像である入力画像と画像部分の第１のセットである出力との概略図。一実施形態による、方法において使用される画像前処理ステップの概略図。画像前処理ステップにおいて使用されるＣＮＮに基づく例示的なセグメンテーションモデルの概略図。膨張畳み込みを実施するフィルタの概略図。細胞セグメンテーションモデルをトレーニングする例示的な方法の概略図。プーリング演算子が使用される、一実施形態による、組織の画像を処理する方法の概略図。一実施形態による、組織の画像を処理する方法の概略図。図５（ａ）に関して説明された方法において使用され得る長短期記憶構造に基づく例示的な再帰型ニューラルネットワークの概略図。図５（ａ）に関して説明された方法において使用され得る例示的な第１の畳み込みニューラルネットワークの概略図。代替実施形態による、方法の概略図。図６（ａ）の方法において使用され得る例示的な注意モジュール構造の概略図。代替実施形態による、方法の概略図。例示的な癌診断パイプラインの概略図。一実施形態による、方法とともに１つまたは複数のバイオマーカの自動プロファイリングを使用する例示的な診断パイプラインを示す図。代替実施形態による、方法の概略図。一実施形態による、トレーニングの方法の概略図。

一実施形態によれば、組織の画像を処理するコンピュータ実装方法であって、
組織の入力画像から画像部分の第１のセットを取得することと、
画像部分の第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、選択することは、第１の畳み込みニューラルネットワークを備える第１のトレーニング済みモデルに第１のセットからの画像部分の画像データを入力することを備え、第１のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
１つまたは複数の画像部分の第２のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することと
を備える、コンピュータ実装方法が提供される。

一実施形態では、第２のセットは、２つ以上の画像部分を備え、ここにおいて、決定することは、第２のトレーニング済みモデルに１つまたは複数の画像部分の第２のセットに対応する第１のデータを入力することを備える。第２のトレーニング済みモデルは、ニューラルネットワークを備え得る。第２のトレーニング済みモデルは、再帰型ニューラルネットワークを備え得る。第２のトレーニング済みモデルは、追加または代替として、注意機構を備え得る。

一実施形態では、第２のトレーニング済みモデルは、再帰型ニューラルネットワークと注意機構とを備え得、ここにおいて、画像部分の第２のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することは、注意機構に第２のセット中の各画像部分のための第１のデータを入力することと、ここにおいて、注意機構は、各画像部分の重要度の指示を出力するように構成される、各画像部分の重要度の指示に基づいて画像部分の第３のセットを選択することと、第３のセット中で各画像部分について、再帰型ニューラルネットワークに第１のデータを入力することと、再帰型ニューラルネットワークは、入力画像がバイオマーカに関連付けられるのかどうかの指示を生成する、を備える。

一実施形態では、画像部分がバイオマーカに関連付けられるのかどうかの指示は、画像部分がバイオマーカに関連付けられることの確率であり、ここにおいて、第２のセットを選択することは、最も高い確率を有するｋ個の画像部分を選択することを備え、ここにおいて、ｋは、１よりも大きいあらかじめ定義された整数である。

一実施形態では、第１の畳み込みニューラルネットワークは、少なくとも１つの畳み込みレイヤを備える第１の部分と第２の部分とを備え、ここにおいて、第２の部分は、１次元ベクトルを入力として取り出し、ここにおいて、画像部分の第２のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することは、画像部分の第２のセットの各々のための第１のデータを生成すること、画像部分のための第１のデータを生成することは、第１の畳み込みニューラルネットワークの第１の部分に画像部分の画像データを入力することを備える、をさらに備える。

一実施形態では、本方法は、画像部分の第１のセットから１つまたは複数の画像部分の第４のセットを選択すること、選択することは、第２の畳み込みニューラルネットワークを備える第３のトレーニング済みモデルに第１のセットからの画像部分の画像データを入力することを備え、第３のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられないのかどうかの指示を生成し、ここにおいて、入力画像がバイオマーカに関連付けられるのかどうかの指示は、１つまたは複数の画像部分の第４のセットと１つまたは複数の画像部分の第２のセットとから決定される、をさらに備える。

一実施形態では、バイオマーカは、癌バイオマーカであり、ここにおいて、組織の入力画像から画像部分の第１のセットを取得することは、
画像部分に組織の入力画像を分割することと、
第５のトレーニング済みモデルに画像部分の画像データを入力することと、第５のトレーニング済みモデルは、画像部分が癌組織に関連付けられるのかどうかの指示を生成する、
画像部分が癌組織に関連付けられるのかどうかの指示に基づいて画像部分の記第１のセットを選択することと
を備える。

一実施形態では、バイオマーカは、分子バイオマーカである。

第２の態様によれば、組織の画像を処理するためのシステムであって、
組織の入力画像を受信するように構成された入力と、
入力画像がバイオマーカに関連付けられるのかどうかの指示を出力するように構成された出力と、
１つまたは複数のプロセッサと
を備え、１つまたは複数のプロセッサが、
入力として受信された組織の入力画像から画像部分の第１のセットを取得することと、
画像部分の第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、選択することは、第１の畳み込みニューラルネットワークを備える第１のトレーニング済みモデルに第１のセットからの画像部分の画像データを入力することを備え、第１のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
１つまたは複数の画像部分の第２のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することと、
出力として指示を出力することと
を行うように構成された、システムが提供される。

第３の態様によれば、トレーニングのコンピュータ実装方法であって、
組織の入力画像から画像部分の第１のセットを取得することと、
第１の畳み込みニューラルネットワークを備える第１のモデルに第１のセットからの画像部分の画像データを入力することと、第１のモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
入力画像がバイオマーカに関連付けられるのかどうかを示す組織の入力画像に関連する標示に基づいて第１のモデルを適応させることと
を備える、コンピュータ実装方法が提供される。

一実施形態では、本方法は、
画像部分がバイオマーカに関連付けられるのかどうかの指示に基づいて画像部分の第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、
第２のモデルに画像部分の第２のセットに対応する第１のデータを入力することによって１つまたは複数の画像部分の第２のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することと、ここにおいて、方法は、入力画像がバイオマーカに関連付けられるのかどうかを示す組織の入力画像に関連する標示に基づいて第２のモデルを適応させることをさらに備える、
をさらに備える。

一実施形態では、本方法は、入力画像がバイオマーカに関連付けられるのかどうかを示す組織の入力画像に関連する標示に基づいて再び第１のモデルを適応させることをさらに備える。

一実施形態では、本方法は、
入力画像がバイオマーカに関連付けられることを示す標示に関連する組織の第１の入力画像から画像部分の第１のセットを取得することと、
画像部分がバイオマーカに関連付けられるのかどうかの指示に基づいて画像部分の第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、
入力画像がバイオマーカに関連付けられないことを示す標示に関連する組織の第２の入力画像から画像部分のさらなるセットを取得することと、
画像部分がバイオマーカに関連付けられるのかどうかの指示に基づいて画像部分のさらなるセットから１つまたは複数の画像部分の第４のセットを選択することと、
画像部分の第２のセットのための第１のデータを生成することと、画像部分のための第１のデータを生成することは、第１の畳み込みニューラルネットワークの第１の部分に画像部分の画像データを入力することを備える、
画像部分の第４のセットのための第１のデータを生成することと、画像部分のための第１のデータを生成することは、第１の畳み込みニューラルネットワークの第１の部分に画像部分の画像データを入力することを備える、
画像部分の第２のセットのための第１のデータと画像部分の第４のセットのための第１のデータとの間の距離測度を決定することと、
異なる測度に基づいて第１のモデルを適応させることと
を備える。

第４の態様によれば、上記の方法に従ってトレーニングされる第１のモデルと第２のモデルとを備えるシステムが提供される。

第５の態様によれば、コンピュータに上記の方法を実施させるように構成されたコンピュータ可読コードを備える担体媒体が提供される。本方法は、コンピュータ実装方法である。実施形態によるいくつかの方法がソフトウェアによって実装され得るので、いくつかの実施形態は、任意の好適な担体媒体上の汎用コンピュータに与えられたコンピュータコードを包含する。担体媒体は、フロッピー（登録商標）ディスク、ＣＤＲＯＭ、磁気デバイスもしくはプログラマブルメモリデバイスなどの任意の記憶媒体または任意の信号、たとえば、電気信号、光信号もしくはマイクロ波信号などの任意の一時媒体を備えることができる。担体媒体は、非一時的コンピュータ可読記憶媒体を備え得る。

図１は、一実施形態による、システム１の概略図を示す。システム１は、入力１１と、プロセッサ３と、作業メモリ９と、出力１３と、記憶装置７とを備える。システム１は、入力画像データを取り出し、出力を生成する。出力は、診断情報を備え得る。特に、出力は、入力画像がバイオマーカに関連付けられるのかどうかの指示であり得る。

システム１は、コンピューティングシステム、たとえば、エンドユーザシステムまたはサーバであり得る。一実施形態では、システムは、グラフィカル処理ユニット（ＧＰＵ）と一般的な中央処理ユニット（ＣＰＵ）とを備える。以下の方法に関して説明される様々な動作がＧＰＵによって実装され、一方、他の動作が、ＣＰＵによって実装される。たとえば、行列演算がＧＰＵによって実施され得る。

プロセッサ３は、記憶装置７に結合され、作業メモリ９にアクセスする。プロセッサ３は、作業メモリ９中に記憶されたコード中の命令に応答し、それを処理する論理回路を備え得る。

コンピュータプログラム５は、不揮発性メモリに記憶される。不揮発性メモリ９は、プロセッサ３によってアクセスされ、記憶されたコード５は、プロセッサ３によって取り出され、実行される。特に、実行されるとき、以下で説明される方法を実施するコンピュータプログラムコード５は、作業メモリ９中に記憶されたソフトウェア製品として表される。プロセッサ３によるコード５の実行は、本明細書で説明される実施形態を実装させることになる。

プロセッサ３はまた、入力モジュール１１と出力モジュール１３とにアクセスする。入力および出力モジュールまたはインターフェース１１、１３は、単一の構成要素であり得るか、または別個の入力インターフェース１１と別個の出力インターフェース１３とに分割され得る。

入力モジュール１１は、画像データを受信するための入力１５に接続される。入力１５は、外部記憶媒体からまたは通信ネットワークを通してデータを受信するための受信機であり得る。代替として、入力１５は、画像キャプチャ装置などのハードウェアを備え得る。代替として、入力１５は、保存された画像ファイルからデータを読み取り得、これは、システム上にまたはフロッピーディスク、ＣＤＲＯＭ、磁気デバイスもしくはプログラマブルメモリデバイスなどの別個の記憶媒体上に記憶され得る。

出力モジュール１３に接続されるのは、出力１７である。出力１７は、画像表示などのハードウェアを備え得る。代替として、出力は、外部記憶媒体にまたは通信ネットワークを通してデータを送信するための送信機であり得る。代替として、出力１７は、保存された画像ファイル中にデータを書込み得、これは、システム上にまたはフロッピーディスク、ＣＤＲＯＭ、磁気デバイスもしくはプログラマブルメモリデバイスなどの別個の記憶媒体上に記憶され得る。

記憶装置７は、プロセッサ３に通信可能に結合される。記憶装置７は、プロセッサ３によって実行されたときにコード５によって使用されるデータを含み得る。図示されているように、記憶装置７は、デバイス中に含まれているローカルメモリである。しかしながら、代替として、記憶装置７は、たとえば、（インターネットなどの）通信ネットワークを介してリモートでアクセスされ得るクラウドベースのメモリを使用して完全にまたは部分的にリモートに位置し得る。コード５はまた、記憶装置７中に記憶される。コード５は、実行されるとき、作業メモリ９中に配置される。

システム１は、データを入出力するためのハードウェアをもつ共通システム中に位置し得る。代替として、システム１は、別個のユニット（たとえば、画像キャプチャデバイス）から送信された画像データを受信し、別の別個のユニット（たとえば、画面を備えるユーザコンピュータ）に出力データを送信するリモートシステム１であり得る。たとえば、システムは、データを受信および送信するクラウドコンピューティングシステム上に実装され得る。説明されるシステムでは、デバイス中に位置する単一のプロセッサ３が使用されるが、システムは、同じシステム中に位置することもリモートに位置することもある２つ以上のプロセッサを備え得、これらは、処理の異なる部分を実施し、それらの間でデータを送信するように構成される。

メモリへのソフトウェアのロードおよび記憶装置ユニット７中へのデータの記憶のための通常のプロシージャが適用される。コード５は、元の機器中に埋め込まれ得るか、または製造後に全体としてまたは部分的に与えられ得る。たとえば、コードは、全体として、ダウンロードの形態であり得るコンピュータプログラム製品として導入され得るか、または光ディスクなどのコンピュータプログラム記憶媒体を介して導入され得る。代替として、既存のダイアログマネージャソフトウェアへの修正は、説明される実施形態の特徴を与えるために更新またはプラグインによって行われ得る。

説明される実施形態が任意のコンピューティングシステムに適用可能であるが、図１に示されている例示的なコンピューティングシステムは、本明細書で説明される実施形態を実施することが可能な手段を与えることを諒解されよう。

使用中に、システム１は、データ入力１１を通して画像データを受信する。プロセッサ３上で実行されるプログラム５は、以下の図を参照しながら説明されることになる方式で出力１３を通してデータを出力する。プロセッサ３は、プログラム命令に応答し、それを処理する論理回路を備え得る。

システム１が病院またはヘルスケアシステムに統合される場合、システム１はまた、患者情報または患者治療履歴などの病院またはヘルスケアシステム上に記憶された情報にアクセスし得る。システム１が、ウェブサービスとして実装される（すなわち、病院／ヘルスケアシステム中に統合されない）場合、画像がアップロードされ、分析される。患者情報などの他のデータは、画像とともにアップロードされ得る。分析出力は、データベース中に記憶され、および／またはユーザシステムに送信され得る。組織病理学者が画像のセットをアップロードし、これらが病院またはヘルスケア統合システム内で分析されるハイブリッド手法が実装され得る。

一実装形態では、入力画像データは、ユーザインターフェースを通した入力である。表現状態遷移（ＲＥＳＴ：Representational State Transfer）ウェブサービスは、システム上で動作する。ＲＥＳＴサービスは、ユーザから受信された送信されたデータからピクセルデータを再構成するように動作し、たとえば、分析記録との間でのデータの転送も管理する。これらの動作は、ＣＰＵ上で実施される。ユーザインターフェースとＲＥＳＴサービスとは、システムを実装するためのユーザ入力選択オプション、たとえば、どのモデルを使用すべきか、どの情報を出力すべきかを受信するようにも動作し得る。出力データおよびデータ入力は、クラウドベースの記憶装置中に記憶され、分析記録と呼ばれる。システムは、クラウドコンピューティングシステム上に実装され、これは、画像データを受信し、クラウド記憶装置に出力データを与える。

図２（ａ）は、一実施形態による、組織の画像を処理する方法の概略図である。本方法は、図１に関して説明されたシステムなどのシステム上に実装され得る。

本方法は、複数のピクセルを備える画像データＩを入力として取り出す。入力画像データＩは、ピクセルデータを備える。以下の説明では、ピクセルデータは、（高さ×幅×３の寸法の）赤緑青であるが、ピクセルデータは、代替として、たとえば（高さ×幅×１の寸法の）グレイスケールであり得る。入力画像データは、第１の数のピクセルを備え、ここで、第１の数は、高さ×幅に等しくなる。画像データは、最初に、（組織切片とも呼ばれる）組織の画像をキャプチャする顕微鏡に取り付けられたデジタルカメラを使用して取得され得る。

本明細書で説明される特定の例では、入力Ｉは、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像を備える。ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像の一例が図２（ｂ）に示されている。グリッドがこの図の画像の上に重ねられている。全スライド画像（ＷＳＩ）スキャナは、組織スライス全体を走査し得、たとえば、約６００００ピクセルの高さ×６００００ピクセルの幅を備えるヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像を生じる。

しかしながら、様々な方法を使用して取得された様々なタイプの組織画像が説明された方法を使用して処理され得る。たとえば、代替として、免疫組織化学（ＩＨＣ）染色を受けた組織切片の画像が入力として取り出され得る。ＩＨＣ染色は、組織切片の細胞中の抗原を選択的に識別することに関与する。抗体は、生物組織中の抗原に特異的に結合する。染色により、抗体と抗原の相互作用の視覚化が可能になる。たとえば、色素生産性免疫組織化学（ＣＩＨ）を使用して、抗体は、発色反応を触媒することができる酵素に活用される。

本方法は、入力画像が特定のバイオマーカに関連付けられるのかどうかの指示を決定する。バイオマーカは、特定の病理学的または生理的プロセス、疾患、診断、療法または予後が識別され得る自然発生分子、遺伝子、または特性である。本明細書で説明される特定の例では、バイオマーカは、癌バイオマーカ、すなわち、特定のタイプの癌または特に有効な癌治療が識別され得る自然発生分子、遺伝子、または特性である。さらに、本明細書で説明される例では、バイオマーカは、分子バイオマーカである。バイオマーカは、分子であるか、または、たとえば、特定の分子の量など、１つまたは複数の分子のうちの１つに関連する特性であり得る。場合によっては、バイオマーカは、特定の癌治療に関連する分子である。バイオマーカは、臨床的に実行可能な遺伝子変異であり得る。画像データからバイオマーカの存在を決定することは、たとえば、通常の細胞と癌細胞との間の形態的な差が予期される画像データからの腫瘍検出よりもさらに困難である。

概して癌および／または患者の特定の分子プロファイルを理解することによって、ホルモン療法、免疫治療または標的薬治療を含む癌に対して行われる様々な処置が通知され得る。中でも、突然変異の状態、受容体の状態、またはコピー数多型を含む診断、治療または予後マーカのいずれかを含む様々な医学関連のバイオマーカは、患者がいくつかの療法にどのくらい応答することになるのかを決定するために識別され得る。突然変異の状態、受容体の状態、またはコピー数多型は、分子バイオマーカの例である。たとえば、場合によっては、分子バイオマーカは、タンパク質発現レベルであり得る。

たとえば、特定のバイオマーカは、エストロゲン受容体（ＥＲ）、プロゲステロン受容体（ＰＲ）またはヒト上皮成長因子受容体（ＨＥＲ２）であり得る。これらのピラーバイオマーカは、乳癌に特異的である。それらは、乳癌の予後のための最も重要なバイオマーカであり、標的治療に基づいてある。ＥＲおよびＨＥＲ２は、それぞれ癌治療のタモキシフェンおよびハーセプチンに一般に関連付けられる。患者は、これらの治療のための適合性を決定するためにこれらの２つのバイオマーカについてテストされ得る。本明細書で説明される方法は、入力画像がＥＲバイオマーカに関連付けられるのかどうかの指示を決定するために使用され得る。この指示は、たとえば、確率であり得る。本明細書で説明される方法は、代替として、入力画像がＨＥＲ２バイオマーカに関連付けられるのかどうかの指示を決定するために使用され得る。本明細書で説明される方法は、代替として、入力画像がＰＲバイオマーカに関連付けられるのかどうかの指示を決定するために使用され得る。特定のバイオマーカは、代替として、ＥＧＦＲであり得、これは肺腺癌に関連付けられる。特定のバイオマーカは、代替として、ＭＳＩであり得、これは結腸腺癌に関連付けられる。

様々な分子バイオマーカは、胸部または結腸直腸などのカテゴリにいくつかの癌を分類するために使用され得る。たとえば乳癌は、それぞれＥＲ、ＰＲおよびＨＥＲ２のステータスに基づいて決定される５つの異なる分子「サブタイプ」を有する。たとえば、ＥＲ、ＰＲおよびＨＥＲ２がすべて陰性である場合、分子サブタイプは、「基底細胞様（basal-like）」である。したがって、複数の分子バイオマーカの存在または不在を決定することによって分子サブタイプが予測され得る。「分子サブタイプ」は、存在または不在に基づいて、または、場合によっては、１つのバイオマーカまたはバイオマーカのセットのレベルに基づいて特定のタイプの癌をカテゴリ分類する方法である。

本方法は、様々な他のバイオマーカを検出するために使用され得る。たとえば、抗原Ｋｉ－６７も、癌の攻撃性を示す細胞増殖のためのマーカとしてテストされることが増えている。したがって、特定のバイオマーカは、代替として、Ｋｉ－６７であり得る。たとえば、ＨＥＲ２－およびＥＲ＋乳癌の腫瘍増殖を評価するときの等級方式における核分裂像数の代替としてＫｉ６７核抗原のＩＨＣ染色に基づくラベリングインデックスが他のＩＨＣマーカとともに使用され得る。アジュバント化学療法のための任意の要件などの治療的な決定のための追加情報を与え得る。様々な研究では、生存の強力な予測子であることが示された。たとえば、ＰＲＥＤＩＣＴは、初期浸潤乳癌のための異なる治療が手術後の生存率をどのように改善する可能性があるのかを示すオンラインツールである。ＰＲＥＤＩＣＴモデルのパフォーマンスは、予後マーカとしてのＫｉ６７の関与とともに改善された。ＩＨＣ染色されたＫｉ６７スライドを解釈するマニュアル採点方法は、腫瘍の外周においてなどランダム選択された関心領域中の浸潤細胞をカウントすることと、すべての浸潤腫瘍細胞に関するＫｉ６７染色の割合を決定することとを含む。上記で説明された従来の分子プロファイリング技法と同様に、このプロセスは、労働集約型であり、人的エラーを受けやすく、観測者間／観測者内にオープンである。たとえば、Ｈ＆Ｅ画像からＫｉ６７インデックスを予測することによって、そのようなプロセスは、より短縮され、精度が潜在的に改善され得る。

本明細書で説明される例示的な方法は、癌の診断、治療および／または予後に関係する特定のバイオマーカの自動プロファイリングを提供する。特定のバイオマーカは、他の例の中でも、突然変異の状態、受容体の状態またはコピー数多型であり得る。プロファイリングは、他の画像が使用され得るが、この例では、全スライドＨ＆Ｅ画像から実施される。例示的な方法は、癌画像とバイオマーカとの間の相関を識別するために一連のニューラルネットワークを適用することを備える。本明細書で説明される例では、バイオマーカは、分子バイオマーカである。

本方法は、画像前処理ステップＳ２０１を備える。画像前処理ステップＳ２０１は、組織の入力画像から画像部分の第１のセットを取得することを備える。

例示的なシナリオでは、全スライド画像（ＷＳＩ）スキャナは、組織スライス全体を走査する。約６００００ピクセルの高さ×６００００ピクセルの幅を備えるスライド画像全体は、次いで、最初の処理ステップＳ２０１において連続部分またはタイルに分割される。画像部分は、固定入力された高さと幅とを有する。部分は、画像内で連続することも重複することもある。たとえば、画像部分のサイズは、５１２×５１２ピクセルであり得る。入力画像は、この寸法の部分への第１の分割である。他の部分サイズももちろん使用され得る。たとえば、２の累乗に対応する部分サイズ、たとえば、１２８×１２８、２５６×２５６、５１２×５１２、または１０２４×１０２４ピクセルが使用され得る。各入力画像は異なるサイズのものであり得、したがって、入力画像のサイズに応じて異なる数の部分が入力画像から抽出され得る。

これらの画像部分は、第１のセットを形成し得る。代替として、タイルを除去するために画像前処理段階Ｓ２０１においてさらなるステップが実施され得、したがって、残りのタイルが、以下の図３（ａ）に関してさらに後述されるように第１のセットのみを形成する。たとえば、画像部分は、いかなる癌細胞も含んでいないあらゆる画像部分を除去するために処理され得る。したがって、元の画像からの画像部分のすべてが必ずしも第１のセット中に含まれるとは限らない。

Ｓ２０２において、Ｓ２０１において取得された画像部分の第１のセットから１つまたは複数の画像部分の第２のセットを選択するステップが実施される。この段階では、第１のセット中で各画像部分の画像データが、第１の畳み込みニューラルネットワークを備える第１のトレーニング済みモデルに入力される。第１のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する。この段階について、以下の図５に関してより詳細に説明される。１つまたは複数の画像部分の低減されたセット、第１のセットが有するより少数の画像部分を有する第２のセットがＳ２０２において取得される。第２のセットは、第１のトレーニング済みモデルの出力から決定された１つまたは複数の代表的な画像部分を備える。

Ｓ２０３において、入力画像がバイオマーカに関連付けられるのかどうかの指示が１つまたは複数の画像部分の第２のセットから決定される。いくつかの実施形態では、指示は、トレーニングが不可能な関数、たとえば、図４に関して説明される最大値プーリング演算子を使用して生成される。他の実施形態では、複数の画像部分の第２のセットに対応する第１のデータは、第２のトレーニング済みモデルへの入力である。第２のトレーニング済みモデルの様々な例について、図５から図７に関して以下で説明される。

上記で説明されたように、現代の癌診断および治療は、癌、および、概して、患者の特定の分子プロファイルを理解することに依拠し得る。そのために、様々な医学関連バイオマーカは、患者がいくつかの療法にどのくらい応答することになるのかを決定するために遺伝的な、トランスクリプトーム的な、および免疫学的な分析の手段を通してテストされ得る。これらのテストは、ヒト生検試料に対して行われる。テストは、テストおよび試料のタイプに応じて、１日から３０日のいずれかの期間がかかり、処置上の誤りを受けやすい。結果は、次いで、専門家によって分析され、これは、やはり、非常に時間がかかり、人的エラーに対して非常に弱い。図８は、そのような癌診断パイプラインの概略図を示す。

癌組織の画像から特定のバイオマーカの指示を自動的に決定することは、そのようなプロセスの時間を短縮し得る。さらに、人的エラーの除去を通して信頼性が改善され得る。そのような自動化されたシステムは、病理学者および他のものがそれらの決定を行うのに役立ち、たとえば、プロセスの感度を改善し得る。

そのような決定を行うために、機械学習モデルは、トレーニングデータセットを使用してトレーニングされ得る。たとえば、トレーニングデータセットは、多くの全スライド画像を備え得、各画像は、特定のバイオマーカが患者中に存在するのか否かに関して標示される。

入力画像は、部分（タイル）中で処理され得る。たとえば、前処理ステップ中に癌組織に対応しないタイルを除去することによって、処理されることになるデータの量が低減され、信頼性が改善され得る。バイオマーカに対応する画像の特定の領域は識別され得るので、これはまた、結果の解釈可能性を改善する。しかしながら、組織の入力画像の部分が特定のバイオマーカに関連付けられるのかどうかの指示を決定するためにモデルをトレーニングすることは、困難であり得る。そのような問題は、標示が各個のインスタンス（タイル）ではなく全スライド画像（ＷＳＩ）に関連付けられるマルチインスタンス学習（ＭＩＬ）問題の一例である。これは、１対１のマッピングがインスタンスとクラスとの間に成り立つとみなされる分類問題とは異なる。ＭＩＬ設定では、データは、弱く標示され、すなわち、多くのインスタンスのためにただ１つのクラス標示が与えられ、問題を本質的により困難にする。画像は、正として標示されるために、正のクラスの少なくとも１つのタイルを含んでいなければならないが、負のスライド中ですべてのタイルは、負として分類されなければならない。この公式化により、個々のインスタンスの標示がトレーニング中に存在することが可能になる。しかしながら、それらの真値は、未知のままである。したがって、画像レベルの確率を取得するためにタイルをアグリゲートする手段が使用される。

アグリゲーションは、トレーニングが不可能な関数を使用して実施され得る。最大値演算子などのプーリング演算子は、分類器がタイルごとに確率を戻し、最大値演算子を通して個々のスコアをアグリゲートすることに関与するインスタンスレベルの分類設定において使用され得る。そのような方法の一例が、図４に示されている。この方法では、１つの画像部分の第２のセットが、分類器を使用して画像部分の第１のセットから選択され、第２のセットからの入力画像がバイオマーカに関連付けられるのかどうかの指示がこの画像部分から決定される。

そのようなアグリゲーション方法は、しかしながら、タイルの個々の標示がトレーニング中に未知であるので、場合によっては、信頼できない画像レベルの予測を与え得る。さらに、単一のタイルにのみ依拠することは、すべての事例において画像を適切に表し得ない。特に、ＷＳＩは、同様の特性をもつ何百ものタイルを含み得る。いくつかの実施形態では、分類器の出力は、複数の画像部分の第２のセットを選択するために使用され、それらは、次いで、画像を表すために使用される。画像中のタイルの数にかかわらず、第２のセットのみ、たとえば、入力画像がバイオマーカに関連付けられるのかどうかの指示を決定するために上位ｋ個のタイルが使用されるので、これにより、本方法は、任意のサイズの画像に適用可能になる。タイルの代表的なセットを取得するために「最大値プーリング」ベースのタイル選択が使用され得る。入力画像がバイオマーカに関連付けられるのかどうかの指示は、次いで、アグリゲーションを実施する第２のトレーニング済みモデルにタイルの代表的なセットからのデータを入力することによって決定される。アグリゲーション演算子は、ニューラルネットワークを備える。最大値プーリングなどのあらかじめ定義されたトレーニングが不可能なアグリゲーション演算ではなく完全にトレーニング可能なアグリゲーション演算子により改善された信頼性が可能になる。アグリゲーションのパラメータ化は信頼性を増加させる。本方法は、学習可能なアグリゲーション関数とモデルに統合されるタイル選択プロシージャとを使用する。

さらに、アグリゲーションステップを含む完全モデルが、エンドツーエンド方式でトレーニングされ、信頼性をさらに改善し得る。

画像データからバイオマーカの存在を決定することは、たとえば、腫瘍検出よりも困難である。しかしながら、画像部分選択およびアグリゲーションの組合せを使用することによって、信頼できる分類が取得され得る。

異なるアグリゲーション演算子が使用される様々な例示的な方法について図４から図７に関して説明される。図４は、トレーニング済みでない関数がアグリゲーション演算として使用される例示的な方法を示し、一方、図５～図７は、アグリゲーション演算子がトレーニング済みモデルを含む例を示す。図４～図７に示されている方法では、１つまたは複数のタイルの第２のセットが、第１のＣＮＮ４０分類器の出力に基づいてＳ２０２において選択される。タイルのこの第２のセットは、次いで、画像レベルの指示を生成するためにＳ２０３において処理される。しかしながら、画像前処理ステップＳ２０１について、最初に、図３（ｂ）に関してより詳細に説明される。

図３（ｂ）は、一実施形態による、方法において使用される画像前処理ステップＳ２０１の概略図を示す。図３（ａ）は、ヘマトキシリンとエオシンとを用いて染色された組織切片の画像である入力画像Ｉと画像部分の第１のセットである出力との概略図を示す。

Ｓ３０１において、入力画像、たとえば、ＷＳＩが固定サイズの部分またはタイルに再分割される。この例では、各部分は、１：１のアスペクト比を有し、すなわち、各部分は、正方形の画像である。タイルの生成が、異なる倍率レベルで、隣接するタイルの間で変動する量の重複で実施され得るが、単純なタイリング戦略は、タイルの間の重複なしで第１のスライドレベルから５１２×５１２ピクセルのパッチを取得することを備え得る。

背景検出ステップが、次いで、大部分は背景であるあらゆるタイルを除去するために実施される。背景エリアは、図でわかるように「白い」エリアである。ガウスフィルタ処理と、ヒストグラム均一化と、カラー正規化と、画像ノイズ除去とを含む様々な画像前処理技法も前処理ステップＳ２０１において利用され、画像がアーティファクトまたは不十分なコントラストを受けるときに前景オブジェクトのより良い検出を可能にすることができる。

Ｓ３０２において、背景検出アルゴリズムが適用される。背景検出は、画像の「サムネイル」、すなわち画像全体のより低解像度のコピーに対して実施される。サムネイルは、画像のより低解像度のスナップショット、たとえば、ＷＳＩである。たとえば、元の画像は、６００００×６００００ピクセルであり得るが、サムネイルは、たとえば、１０２４×１０２４ピクセルである。このステップは背景から組織をセグメント化するために使用され、対応する出力マスクは、以下で説明される方式で元の画像の解像度に一致するようにサイズ変更される。

このステップでは、画像は、最初に、グレイスケールに変換される。

背景のセグメンテーション（または組織の抽出）は、高い空間周波数をもつピクセルの位置を特定するために入力画像に対してエッジ検出畳み込みカーネルを適用することで開始する。エッジ検出カーネルと画像との間の畳み込みが実施される。カーネルは、たとえば、以下のようなあらかじめ定義された値の小さい行列である。

複数のエッジ検出カーネルがこのステップでは適用され得、たとえば、［＋１，０；０－１］および［０，＋１；１，０］の形態の２×２のカーネルのペアが使用され得る。

このステップは、遷移が存在する領域を強調する。エッジ検出ステップは、画像の勾配を出力する。高い勾配は、エッジまたは遷移に対応する。組織領域は、概して、背景領域よりもはるかに多くの遷移を含んでいる。したがって、組織領域がこのステップにおいて強調されることになる。

勾配は、ガウスカーネルを用いてさらに平滑化される。ガウスぼかしカーネルと画像との間の畳み込みが実施される。このステップの目的は、ピクセルをぼかすことにあるので、したがって、以下のステップで実施される２値化は、より少数のアーティファクトを有することになる。これは、本質的に、強調された領域を平滑化する。平滑化された勾配は、前景ピクセルを強調する。

ぼけた画像は、ヒストグラムベースのしきい値処理方法を用いて２値化される。このステップは、ピクセル値が何らかのしきい値Ｔよりも大きい場合は値１と、ピクセル値がしきい値よりも小さい場合は値０と各ピクセル値を置き換える。しきい値は、クラス内強度分散を最小化することによってまたは等価的にクラス間分散（「背景」と「前景」とであるクラス）を最大化することによってしきい値が決定される大津の方法などのヒストグラムベースの方法を使用して各タイルのために決定される。パフォーマンスを維持しながらこのステップに必要な計算を低減するために、解像度（すなわち、ヒストグラムビンの数）が、エントロピーの測度に基づいて選択され得、ここで、より高いエントロピーをもつ画像は、より高い解像度で処理される。三角しきい値処理などの代替のヒストグラムベースの方法が使用され得る。

中央値フィルタが、顕著でない構成要素を除去するためにバイナリマスクを介して畳み込まれる。

最後に、前景中の穴が、組織内の偽陰性を取得する可能性を最小限に抑えるために充填される。Ａ＊アルゴリズムおよび連結成分分析アルゴリズムを含む様々な知られているアルゴリズムがこのステップにおいて使用され得る。

部分的に背景上にある、たとえば、ピクセルの８０％が背景である（ピクセル値が０である）ものとして示されるタイルが、次いで、さらなる分析から除去される。

Ｓ３０３では、前のステップを生き残ったあらゆる「すべて白色の」タイルを除去するために標準偏差演算が使用される。標準偏差演算は、前のステップから出力された各画像部分（タイル）に適用される。このステップでは、前のステップから出力されたピクセル値の標準偏差が取り出される。タイル内のすべてのピクセル値の標準偏差である単一値が戻される。ピクセルの大部分が「白色」である場合、この値は低くなる。しきい値よりも小さい値を出力するタイルがこのステップにおいて除去される。良好なパフォーマンスを与えるしきい値が決定され得る。

Ｓ３０３の後に、大部分が前景であるタイル（すなわち組織）が残され、以下のステップにおいて処理される。

Ｓ３０４において、癌細胞のセグメンテーションのステップが実施される。細胞のセグメンテーションステップの結果は、いかなる癌細胞も含んでいないタイルを除去するために使用され、したがって、当面のタスクに関係する画像部分のみが後続のステップに入力される。非癌組織しか含んでいないタイルは破棄される。

トレーニング済みモデルが細胞のセグメンテーションを実施するために使用され得る。モデルは、ピクセルをクラス標示、たとえば、癌細胞および背景に変換するように構成される。細胞レベルで癌組織を識別するようにトレーニングされたセグメンテーションモデルＭは、いかなる癌細胞も含んでいないタイルを除去するために使用される。例示的なモデルＭについて以下で説明される。しかしながら、タイル画像をセグメント化する様々な方法が使用され得る。元のタイル画像は、（Ｓ３０２およびＳ３０３においてすでに除去されたものを除き）モデルＭに入力される。

モデルＭは、ピクセルが癌細胞に対応するのかどうかを表す複数のピクセルの各々に対応する値を生成する。分類は、画像を癌組織の領域と癌組織を含んでいない領域との２つのクラスにセグメント化するために入力画像部分の各ピクセルに対して実施される。モデルＭは、セマンティック画像セグメンテーションを実施し、これは、入力画像中の各ピクセルが分類されることを意味する。この事例における分類は、２つのカテゴリへと実施され、モデルの出力は、ピクセルが癌組織に対応するのかまたは非癌組織に対応するのかを示す２つの値を備える。出力は、入力部分と同じ高さと幅とを有する。たとえば、入力データが、５１２ピクセルの高さと５１２ピクセルの幅とを有する場合、出力は、高さ５１２と幅５１２とを有する値のアレイである。値はカテゴリを示す。

次に、例示的なモデルＭについて、図３（ｃ）に関して説明され、これは、ＣＮＮに基づく例示的なセグメンテーションモデルＭの概略図を示す。出力では、出力画像の異なる影つき領域は、癌組織の領域と癌組織でない領域とに対応する。

実際には、はるかに多いレイヤが含まれる可能性があるが、図は、空間寸法がレイヤ全体にわたっていかに変更され得るのかを示すものである。モデルＭは、たとえば、１００を超えるレイヤを備え得る。概して、異なるタイプのレイヤと異なる数および組合せのレイヤとが、様々な使用事例のためにモデルＭを実装するために可能である。

モデルＭは、畳み込みニューラルネットワーク（ＣＮＮ）を備える。ＣＮＮは、少なくとも１つの畳み込みレイヤを備えるニューラルネットワークである。モデルＭは、複数の畳み込みレイヤを備え、様々なフィルタおよびいくつかのフィルタは、様々なサイズの出力ボリュームを生成する。フィルタ重みは、図３（ｅ）に関して以下で説明されるトレーニング段階中に更新されるトレーニング可能パラメータである。

ピクセルデータは、ＣＮＮに直接入力され得る。ＣＮＮ中の第１のレイヤは、畳み込みレイヤである。第１のレイヤ中の各フィルタは、入力データの深度に一致する深度を有する。たとえば、入力データがＲＧＢである場合、第１のレイヤ中のフィルタ深度は３である。

第１のレイヤの出力ボリュームは、いくつかのファクタによって決定される。レイヤの出力ボリュームの深度は、フィルタの数に対応する。一実施形態では、３２個のフィルタが第１のレイヤにあり、したがって、第１のレイヤの出力は３２の深度を有する。したがって、後続のレイヤ中のフィルタは、３２の深度を有することになる。出力ボリュームの高さおよび幅は、入力の高さおよび幅と、フィルタの受容フィールドサイズ（高さと幅との両方）と、フィルタストライドとによって決定される。ストライドが１であるとき、フィルタは、一度に１つのピクセルをスライドする。ストライドが２であるとき、フィルタは、一度に２つのピクセルをスライドし、より小さい出力ボリュームを生成する。境界で使用されるあらゆるゼロパディングも出力サイズに影響を及ぼすことになる。

各フィルタは、入力の幅と高さとに沿って移動され、各位置においてドット積を取り出す。１つのフィルタのための出力値は、２Ｄアレイを形成する。レイヤ中のすべてのフィルタからの出力アレイは、深度次元に沿って積み重ねられ、得られたボリュームが次のレイヤに入力される。

モデルＭは、出力が入力よりも小さい寸法を有する複数のレイヤを備える。たとえば、高さおよび／または幅が入力よりも小さくなり得る。このようにして、深度が増加する間に、出力の高さと幅とがいくつかのレイヤを通して減少し得る。たとえば、出力が入力よりも小さい高さおよび／または幅を有する第１のレイヤがあり、その後に、出力が入力と同じ寸法を有する１つまたは複数のレイヤが続き、その後に、出力が入力よりも小さい高さおよび／または幅を有するさらなるレイヤが続き得る。たとえば、第１のレイヤは、画像データ（５１３×５１３×３）を入力として取り出し、ボリューム（２５７×２５７×３２）を出力し得る。このレイヤは、３２個のフィルタを使用して畳み込みを適用し、その各々は、ボリュームのアレイ２５７×２５７を出力する。高さおよび幅は低減されるが、深度は増加する。高さおよび幅は、たとえば、フィルタハイパーパラメータ（たとえば、ストライド）の調整によって低減され得る。モデルＭの出力が入力と同じ高さおよび幅を有するので、モデルＭはまた、出力が入力よりも大きい寸法を有する少なくとも１つのレイヤを含む。モデルＭは、「エンコーダ／デコーダ」構造を有し得、それにより、レイヤは、最初に、（たとえば、ストライドサイズなどのフィルタハイパーパラメータを介して）深度を増加させる間に高さと幅とを減少させ、次いで、（たとえば、プーリングレイヤおよび／またはバイリニアアップサンプリングレイヤを介して）深度を減少させる間に高さおよび幅を増加させる。

モデルはまた、１つまたは複数の活性化レイヤを備える。たとえば、モデルは、要素ごとの活性化関数を適用する１つまたは複数のＲＥＬＵ（正規化線形ユニット）レイヤを備え得る。バッチ正規化レイヤは、各畳み込みレイヤの後に実装され得る。活性化レイヤは、バッチ正規化レイヤの後に実装され得る。モデルは、畳み込みレイヤと、バッチ正規化レイヤと、活性化レイヤとを備えるかまたは第１の畳み込みレイヤと、第１のバッチ正規化レイヤと、第２の畳み込みレイヤと、第２のバッチ正規化レイヤと、活性化レイヤとを備える１つまたは複数のユニットを備え得る。

１つまたは複数の標準畳み込みレイヤと同様に、畳み込みニューラルネットワークは、膨張畳み込みを備える隠れレイヤをさらに備える。このレイヤは、アトラス畳み込みレイヤと呼ばれることがある。アトラス畳み込みは、膨張畳み込みと呼ばれることもある。膨張畳み込みを実施するフィルタの概略図が図３（ｄ）に示されている。図３（ｄ）に示されている膨張畳み込みは２の膨張ファクタを有して、フィルタは、３×３の受容フィールドサイズを有する。ｌの膨張ファクタをもつ入力Ｉとフィルタｆとの間の一般的な非有界事例のための（＊ｌとして表される）膨張畳み込み動作は、以下の通りである。

畳み込みニューラルネットワークレイヤにおいて使用される膨張畳み込みは入力サイズによって制限される。膨張ファクタが１である場合、演算は上記で説明された標準畳み込み演算である。図３（ｄ）に示されるように膨張ファクタが２である場合、各位置において、入力値が１離れて離間された状態でのフィルタ値のドット積が取り出される。フィルタは、前と同じ方法でストライドに従って入力の幅と高さとに沿って移動される。しかしながら、入力からのエントリは、膨張ファクタによって決定される距離だけ離間される。したがって、膨張ファクタを増加させることは、フィルタサイズを増加させることなしに、すなわち、パラメータの数を増加させることなしにフィルタのための有効な受容フィールドを広げる。１より大きい膨張ファクタを有することは、パラメータの数を増加させることなしに非ローカル特徴が学習され得ることを意味する。膨張畳み込み演算を含むことは、パラメータの数、したがって、計算コストの増加なしにより広い視野を与える。受容フィールドは、解像度の損失なしに効果的に拡張され得る。アトラス畳み込みはまた、ギャップ付きサンプリングの畳み込みとして定義され得る。異なる膨張ファクタをもつ畳み込みを含むことによって、ローカル特徴と非ローカル特徴との両方が学習され得る。

図示の例では、膨張畳み込みを備える単一のレイヤｎがある。膨張畳み込みを備えるレイヤは、プーリングレイヤおよびアップサンプリングレイヤより前に位置する。膨張畳み込みを備えるレイヤのロケーションは、使用事例に応じてネットワークの様々な段階にあるように選択され得る。たとえば、さらにネットワークを通して膨張畳み込みを備えるレイヤの位置を特定することによって、より高レベルの特徴がこのレイヤ中で学習され得る。

モデルＭのｎ番目のレイヤ中で、複数の別個の畳み込み演算がレイヤへの入力として取り出されたデータに対して並行して実施される。各畳み込み演算は、別個のフィルタとして実施される。畳み込み演算のうちの少なくとも１つは、膨張畳み込みである。フィルタのうちの１つまたは複数は、異なる膨張ファクタを有し得る。示されるレイヤｎ中で、示される畳み込み演算のうちの２つは、異なる膨張ファクタを有する膨張畳み込みである。第１の畳み込みは、１に等しい第１の膨張ファクタを有する標準畳み込みであり、第２の畳み込みは、２に等しい第２の膨張ファクタを有する膨張畳み込みであり、第３の畳み込みは、３に等しい第３の膨張ファクタを有する膨張畳み込みである。しかしながら、様々な組合せが実装され得、様々な数のフィルタが含まれ得る。

各フィルタは、（すなわち、前のｎ－１のレイヤからの出力データである）同じ入力を取り出す。したがって、各フィルタは、ｎ－１のレイヤからの出力と同じ深度を有する。各フィルタは、異なる膨張ファクタを有する。レイヤは、様々な膨張ファクタをもつとともにアトラス畳み込みの組合せを備え得る。フィルタは、標準畳み込みレイヤ中のフィルタと同じ方式で並行してそれらの演算を実施する。各フィルタは、値のアレイを出力する。アレイは、異なるサイズのものであり得る。出力アレイからの値は、ベクトルに連結され、これは、次いで、２Ｄアレイを形成するために再整形される。このアレイは、ｎ＋１のレイヤへの入力として取り出される。フィルタの出力は、したがって、組み合わされ、後続のレイヤに入力される。

異なる膨張ファクタを有する異なる畳み込み演算が単一のレイヤ中に実装される。これを行うことによって、レイヤは、同時にローカル情報と非ローカル情報との両方の相関を学習することが可能になり、したがって、高次の空間コンテキストの学習が可能になる。ローカル特徴と非ローカル特徴との両方に関する情報がネットワークを通して伝搬される。これは、たとえば、組織形態を学習するのに役立つ。

レイヤｎは、膨張ファクタ１、４、８および１２を有する４つのフィルタを備え得る。しかしながら、フィルタの様々な組合せが可能である。図では、各フィルタの出力が同じ寸法を有するものとして示されているが、実際には、各フィルタは異なる出力寸法を有し得る。膨張フィルタは、１のストライドを有し得る。膨張フィルタは、同じ受容フィールドサイズを有し得る。受容フィールドサイズは、前のレイヤと同じであり得る。

モデルは、スキップ接続をさらに備える。実際には、モデルは複数のスキップ接続を備え得るが、簡単のために、少数のレイヤと単一のスキップ接続とが示されている。第１のレイヤｍは、前のレイヤの出力よりも小さい次元を有する出力ｍと呼ばれる出力を生成する。この場合、出力ｍは、出力ｌよりも小さく、同じく、出力ｋよりも小さい。したがって、出力ｍは、直前のレイヤｌの出力よりも小さく、同じく、前のレイヤｋの出力よりも小さい。

第２のレイヤｑは、第１のレイヤｍの後にある。第２のレイヤｑへの入力は、（出力ｌとも呼ばれる）第１のレイヤｍの入力ならびに第２のレイヤｑの直前のレイヤの出力（すなわち、レイヤｐの出力）から生成される。以前のレイヤから後のレイヤに直接出力を入力することは、「スキップ接続」と呼ばれることがある。第１のレイヤｍの入力は、レイヤｐの出力とのピクセル単位の加算によって組み合わされる。結果は、次いで、第２のレイヤｑに入力される。スキップ接続は、入力を組み合わせるピクセル単位の加算レイヤを含むことによって実装され得る。スキップ接続がピクセル単位の加算によって実装される場合、入力は同じ寸法を有しなければならない。この場合、スキップ接続は、同じ寸法を有するレイヤの間で実装される。たとえば、第１のレイヤと第２のレイヤとは、第１のレイヤｍの入力が（第２のレイヤの直前の）レイヤｐの出力と同じ寸法になるように選択される。

１つまたは複数のスキップ接続を使用して、ダウンストリームからの情報がアップストリームに直接供給される。これは、ネットワーク全体にわたってハイレベルのグローバルな視覚特徴と地域の視覚特徴とを維持する。これらは、大きいパッチセグメンテーションに有用である。スキップ接続を含むことは、「ラダー」手法と呼ばれることがある。レイヤのうちの１つまたは複数では、出力は入力よりも小さい。以前のレイヤから直接後のレイヤに特徴を入力し、１つまたは複数の介在レイヤをスキップすることは、コンテキストを与える。

畳み込みレイヤに加えて、モデルは、１つまたは複数のプーリングレイヤを備える。たとえば、プーリングレイヤは、空間サイズを変化させるために含まれ得る。プーリングレイヤは、たとえば、幅および／または高さを増加させ、出力の深度を減少させるために使用され得る。プーリングレイヤは、「平均プーリング」レイヤであり得る。平均プーリングレイヤは、空間範囲およびストライドを有するフィルタを備え、これは、入力にわたって移動され、各位置において平均値を取り出す。しかしながら、平均以外の関数、たとえば、最大値プーリングが使用され得る。アップサンプリングレイヤ、たとえば、１つまたは複数のバイリニアアップサンプリングレイヤが、追加または代替として、出力レイヤの高さおよび／または幅を増加させるために含まれ得る。

モデルは、１つまたは複数のピクセル単位の加算レイヤおよび／または連結レイヤをさらに備え得る。これらのレイヤは、２つ以上の前のレイヤからの出力を組み合わせるように働く。

１つまたは複数の全結合レイヤが畳み込みレイヤの後に含まれ得る。ドロップアウトレイヤはまた、過学習を軽減するために含まれ得る。

ピクセルごとに各カテゴリのための単一の出力がある。さらなる活性化関数は、ピクセル単位の様式、たとえば、バイナリソフトマックス関数で出力に適用される。活性化関数は、ピクセルの値を入力として取り出し、確率値を出力する。したがって、最後の活性化関数は、単一のピクセルのために、各カテゴリのための１と０との間の確率値を出力する。最後のレイヤは、入力と同じ高さと幅とを有する出力を生成する。出力の深度は、カテゴリの数、この場合は、２（ピクセルが癌組織に対応するのかまたは非癌組織に対応するのか）に等しくなる。出力深度は、所望の出力深度に対応するフィルタの数（すなわち、カテゴリの所望の数）を有する畳み込みレイヤによって設定され得る。この畳み込みレイヤは、最後のレイヤの前に位置し得、ここで、最後のレイヤは、たとえば、同じ出力深度を有する（たとえば、転置畳み込みを使用する）アップサンプリングレイヤである。出力アレイ中の値は、ピクセルがそのカテゴリに対応するのかどうか、この場合、ピクセルが１つのカテゴリのための癌細胞に対応するのかどうか、およびピクセルが他のカテゴリのための背景に対応するのかどうかを示す。

癌組織カテゴリのための０．５以上の値は、次いで、（癌組織を示す）１に丸められる。このしきい値は、ハイパーパラメータとして変更され得る。各ピクセルのための値１（癌組織）または０（非癌組織）をもつ値の単一の行列は、たとえば、カテゴリを組み合わせることによって最後の出力として生成される。図に示されている出力は、ピクセルについて癌組織が存在するのかどうかを示す。

いかなる癌細胞も含んでいない、たとえば、８０％を超える出力ピクセル値がカテゴリ癌組織について０である出力に対応する画像部分（タイル）は、次いで、除去される。７５％と８０％との間のしきい値は、選択され得る。しきい値は、ハイパーパラメータとして変更され得、良好なパフォーマンスを与える値が決定される。残りのタイルに対応する元のタイルは、画像部分の第１のセットを形成し、後続のステップＳ２０２およびＳ２０３において使用される。各画像は、異なるサイズのものであり、変動する量の癌組織を含んでいるので、各入力画像は、入力画像ごとに数十から数千までの範囲で、第１のセット中に異なる数の出力タイルを生じ得る。

任意選択で、カラー正規化プロセスは、後続のステップＳ２０２およびＳ２０３に画像データを入力するより前にタイル画像に適用される。自動組織病理撮像システムにおける課題は、それらの色分布に関して全スライド画像にわたる分散である。この変化は、染色およびスライド準備プロシージャならびにスキャナのタイプおよび他のハードウェア関連パラメータの差に起因し得る。色の多様性は、特に、汎癌研究のための障害として存在し、これは、様々な現場で取得された複数のデータセットをカバーし得る。さらに、それは、最初にモデルを構築するために使用されるデータセットとはまったく異なる可能性がある他のデータセットへの計算モデルの一般化可能性に深刻な影響を有し得る。概して、モデルが、色特徴に焦点を当て、それらを当面のタスクに関連付けるとき、それは、異なる色スペクトルでデータセットから取得された初見の画像に対して失敗し得る。色の変化に対処する１つのオプションは、ＲＧＢ画像をグレイスケールに変換することである。しかしながら、これは、普通なら色チャネルから取得されたであろう情報の損失につながり得る。

グレイスケール変換に対する代替は、ＲｕｉｆｒｏｋＡＣおよびＪｏｈｎｓｔｏｎＤＡ、「Ｑｕａｎｔｉｆｉｃａｔｉｏｎｏｆｈｉｓｔｏｃｈｅｍｉｃａｌｓｔａｉｎｉｎｇｂｙｃｏｌｏｒｄｅｃｏｎｖｏｌｕｔｉｏｎ」、Ａｎａｌｙｔｉｃａｌａｎｄｑｕａｎｔｉｔａｔｉｖｅｃｙｔｏｌｏｇｙａｎｄｈｉｓｔｏｌｏｇｙ２３：２９１～２９９、２００１年９月において説明されている方法に基づく。本方法では、ターゲット画像と同じ「色プロファイル」を有するようにソースタイルを色正規化するためのプロセスが実施される。本明細書で説明される例では、組織学画像は、ヘマトキシリンおよびエオジン（Ｈ＆Ｅ）染色で染色される。これらの２つの化学物質は、一般に、細胞核を濃い紫色（ヘマトキシリン）に染色し、細胞質を明るいピンク色（エオシン）に染色する。したがって、理想的な組織画像中のすべてのピクセルは、主に、２つの色から構成される。これらの染色色は、画像ごとに変化し、染色行列に要約され得る。ソース全スライド画像とターゲット全スライド画像との両方の染色行列Ｍが決定される。染色行列Ｍは、「Ａｍｅｔｈｏｄｆｏｒｎｏｒｍａｌｉｚｉｎｇｈｉｓｔｏｌｏｇｙｓｌｉｄｅｓｆｏｒｑｕａｎｔｉｔａｔｉｖｅａｎａｌｙｓｉｓ」、Ｍａｃｅｎｋｏら、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＢｉｏｍｅｄｉｃａｌＩｍａｇｉｎｇ：ＦｒｏｍＮａｎｏｔｏＭａｃｒｏ、１０．１１０９／ＩＳＢＩ．２００９．５１９３２５０において説明された方法を使用して推定され得る。染色行列は、２つの単位ベクトルから構成される行列Ｍ＝（ｈ｜ｅ）であり、ここで、ｈおよびｅは、ｈ染色およびｅ染色の色の３Ｄベクトルである。

ターゲットとソースとの染色行列を推定すると、ソースのための色正規化ＲＧＢピクセル値が、次いで、決定され得る。所与のピクセル染色密度ベクトル

は、

のピクセルＲＧＢ光学濃度を有する。すなわち、ｃ＝Ｍ^-1ｘである。

ソース画像の染色行列Ｍ₁とターゲット画像のＭ₂とを推定すると、ターゲット画像の色プロファイルにソース画像中のピクセルｘ₁を色正規化するために、ｃ１＝Ｍ₁ ^-1ｘ₁が最初に決定される。逆行列Ｍ^-1は、それの列空間上への投影を使用して決定され、したがって、ｃ₁は、ｃ₁＝（Ｍ₁ ^TＭ₁）^-1Ｍ₁ ^Tｘ₁として同等に決定される。色正規化ピクセルは、次いで、

として計算される。

輝度正規化は、ソース画像中の各ピクセルのための密度（各ピクセルのためのｃベクトル）を取り出し、ターゲット画像中のピクセルにわたって各染色密度について９９パーセンタイル上限に一致するように値をシフトまたは再スケールすることによって適用され得る。再スケーリングされたピクセル染色密度ベクトルｃは、次いで、

を決定するために使用される。

図５（ａ）は、一実施形態による、組織の画像を処理する方法の概略図を示す。

本方法は、上記で図３に関して説明されているように、組織の入力画像から画像部分の第１のセットを取得するステップＳ２０１を備える。Ｓ２０１において識別された各画像部分は、次に、Ｓ２０２への入力として取り出される。画像部分の元の画像データは、入力、すなわち元のピクセル値として取り出され得る。代替として、上記で説明したように、たとえば、色正規化のために、何らかの前処理が元のピクセル値に対して実施され得る。

第１のセットからの画像部分のための画像データは、Ｓ２０２において第１の畳み込みニューラルネットワーク（ＣＮＮ）４０に入力される。このステップは、図では「ステップ１：タイルの選択」と標示されている。第１の畳み込みニューラルネットワーク４０は、少なくとも１つの畳み込みレイヤを備える第１の部分４６と１次元ベクトルを入力として取り出す第２の部分４７、分類部分とを備える。第２の部分４７は、たとえば、少なくとも１つの全結合レイヤを備え得る。第１のＣＮＮ４０は、深度および視野の様々なレイヤで画像に適用される畳み込みフィルタを備える第１の部分４６、その後に、データの低減のために全結合密レイヤおよび／またはプーリングレイヤを備える第２の部分４７を備えるニューラルネットワークのマルチレイヤアーキテクチャである。フィルタ重みは、トレーニング段階中に学習されるトレーニング可能パラメータである。下位レベルのフィルタは、エッジおよびブロブなどの粗い構造を検出するが、より深いレベルは、形状およびテクスチャのようなより複雑なプロパティをキャプチャし、最後に、最上位レイヤは、バイオマーカの識別情報に関する関心オブジェクトに対して一般化するために学習する。

第１のＣＮＮ４０は、バイナリ分類を使用する。言い換えれば、ＣＮＮは、タイルが特定の分子バイオマーカに関連付けられるのかどうか、すなわち単一のクラスを決定するために使用される。画像が多くの可能なバイオマーカのうちの１つに関連付けられるのかどうかを決定することが望まれる場合、各バイオマーカのために別個のモデルが使用され得る。

タイルは、第１のＣＮＮ４０に提出される。ピクセルごとのデータが第１のＣＮＮ４０に直接入力され得る。タイルごとに、ＣＮＮは、タイルが正のクラスに割り当てられる（すなわち、タイルが分子バイオマーカに関連付けられる）確率を出力する。

ＣＮＮは、残差ネットワークアーキテクチャに基づき得る。残差ニューラルネットワークは、１つまたは複数のスキップ接続を備える。しかしながら、代替アーキテクチャは、入力画像から顕著な形態的特徴をキャプチャし、ターゲットバイオマーカとそれらを相関させるのに十分な容量を有する。容量は、ネットワークサイズと、レイヤの数、畳み込みのタイプなどのような他のアーキテクチャのファクタとによって決定され得る。次に、残差ネットワークアーキテクチャに基づく例示的なＣＮＮアーキテクチャについて、図５（ｃ）に関して説明され、これは、例示的な第１のＣＮＮ４０の概略図を示す。図は、簡単のために、少数のレイヤを示すが、第１のＣＮＮ４０は、たとえば、１００個以上のレイヤを備え得る。

ＣＮＮ中の第１のレイヤは、図では「畳み込みレイヤ１」と標示される畳み込みレイヤである。第１のレイヤ中の各フィルタは、入力データの深度に一致する深度を有する。たとえば、入力データがＲＧＢである場合、第１のレイヤ中のフィルタ深度は３である。簡単のために、図４（ｃ）に示されているＣＮＮは、１（すなわち、グレイスケール入力データ）の入力データ深度を有する。

第１のレイヤの出力ボリュームは、いくつかのファクタによって決定される。第１のレイヤの出力ボリュームの深度は、フィルタの数に対応する。たとえば、３２個のフィルタが第１のレイヤにあり得、したがって、第１のレイヤの出力は３２の深度を有する。したがって、後続のレイヤ中のフィルタは、３２の深度を有することになる。出力ボリュームの高さおよび幅は、入力の高さおよび幅と、フィルタの受容フィールドサイズ（高さと幅との両方）と、フィルタストライドとによって決定される。ストライドが１であるとき、フィルタは、一度に１つのピクセルをスライドする。ストライドが２であるとき、フィルタは、一度に２つのピクセルをスライドし、より小さい出力ボリュームを生成する。境界で使用されるあらゆるゼロパディングも出力サイズに影響を及ぼすことになる。各フィルタは、入力の幅と高さとに沿って移動され、各位置においてドット積を取り出す。１つのフィルタのための出力値は、２Ｄアレイを形成する。レイヤ中のすべてのフィルタからの出力アレイは、深度次元に沿って積み重ねられ、得られたボリュームが次のレイヤに入力される。

各畳み込みレイヤの後に活性化レイヤが続き得る。活性化レイヤは、要素ごとの活性化関数を適用し、サイズを変更せずに残す。活性化レイヤは、簡単のために図に示されていない。たとえば、モデルは、要素ごとの活性化関数を適用する１つまたは複数のＲｅＬＵ（正規化線形ユニット）レイヤを備え得る。バッチ正規化レイヤは、各畳み込みレイヤの後に実装され得る。活性化レイヤは、バッチ正規化レイヤの後に実装され得る。モデルは、畳み込みレイヤと、バッチ正規化レイヤと、活性化レイヤとを備えるかまたは第１の畳み込みレイヤと、第１のバッチ正規化レイヤと、第２の畳み込みレイヤと、第２のバッチ正規化レイヤと、活性化レイヤとを備えるユニットを備え得る。

第１のＣＮＮ４０は、出力が入力よりも小さい寸法を有する複数のレイヤを備える。たとえば、高さおよび／または幅がレイヤへの入力よりも小さくなり得る。このようにして、深度が増加する間に、高さと幅とがいくつかのレイヤを通して減少し得る。第１のＣＮＮ４０は、「エンコーダ／デコーダ」構造を有し得、それにより、レイヤは、最初に、（たとえば、ストライドサイズなどのフィルタハイパーパラメータを介して）深度を増加させる間に高さと幅とを減少させ、次いで、（たとえば、プーリングレイヤおよび／またはバイリニアアップサンプリングレイヤを介して）深度を減少させる間に高さおよび幅を増加させる。これは、レイヤの出力サイズを示す図５（ｃ）に示されている。

モデルは、１つまたは複数のプーリングレイヤをさらに備え得る。たとえば、プーリングレイヤは、空間サイズを変化させるために含まれ得る。プーリングレイヤは、たとえば、幅および／または高さを増加させ、出力の深度を減少させるために使用され得る。プーリングレイヤは、「平均プーリング」レイヤであり得る。平均プーリングレイヤは、空間範囲およびストライドを有するフィルタを備え、これは、入力にわたって移動され、各位置において平均値を取り出す。しかしながら、平均以外の関数、たとえば、最大値プーリングが使用され得る。アップサンプリングレイヤ、たとえば、１つまたは複数のバイリニアアップサンプリングレイヤが、追加または代替として、高さおよび／または幅を増加させるために含まれ得る。

モデルは、少なくとも１つのスキップ接続をさらに備える。実際には、モデルは複数のスキップ接続を備え得るが、簡単のために、少数のレイヤと単一のスキップ接続とが図５（ｃ）に示されている。第２のレイヤ「畳み込みレイヤ２」は、出力ｍと呼ばれる出力を生成する。第４のレイヤ「畳み込みレイヤ４」は、出力ｍと同じ寸法を有する出力ｏを生成する。「畳み込みレイヤ５」への入力は、第１のレイヤｍの出力ならびに第４のレイヤｏの出力から生成される。以前のレイヤから後のレイヤに直接出力を入力することは、「スキップ接続」である。この例における出力は、ピクセル単位の加算によって組み合わされる。連結が、代替として、使用される可能性があり、ここで、出力は、たとえば、異なるサイズである。１つまたは複数のスキップ接続を使用して、ダウンストリームからの情報がアップストリームに直接供給される。これは、ネットワーク全体にわたってハイレベルのグローバルな視覚特徴と地域の視覚特徴とを維持する。以前のレイヤから直接後のレイヤに特徴を入力し、１つまたは複数の介在レイヤをスキップすることは、コンテキストを与える。

平坦化レイヤは、最後の畳み込みレイヤの後に含まれる。平坦化レイヤは、最後の畳み込みレイヤからの出力データを次のレイヤに入力するための１次元ベクトルｘに変換する。この例における平坦化レイヤより前のレイヤは、ＣＮＮ４６の第１の部分を形成する。

１つまたは複数の全結合レイヤが平坦化レイヤの後に含まれる。最後の全結合レイヤは、正のクラスに対応する１つの値を出力する。活性化関数は、確率値を与えるために出力、たとえば、シグモイドにおいて適用される。活性化関数は、最後の全結合レイヤから出力された値を入力として取り出し、確率に正規化する。したがって、活性化関数は、１から０の間の値を出力する。全結合レイヤと活性化関数とは、第１のＣＮＮ４０の第２の部分４７を形成する。

タイルごとに、ＣＮＮは、タイルが正のクラスに割り当てられる（すなわち、タイルが分子バイオマーカに関連付けられる）確率を出力する。タイルは、次いで、正のクラスに割り当てられるそれらの確率に従ってランク付けされる。２つ以上の画像部分（タイル）の第２のセットが、次いで、選択される。これは、たとえば、上位ｋ個の確率に対応するタイルを選択することを備え得、ここで、ｋは、２以上の整数である。タイルの第２のセットは、上位ｋ個のタイル、すなわち、最も高い確率を有するｋ個のタイルに対応する。これらのタイルは、残りのステップにおける画像を表すように選択される。一例では、ｋ＝１００である。しかしながら、ｋは、ハイパーパラメータとして決定され得る。値は、たとえば、より低くまたはより高くなり得る。

Ｓ２０３において、入力画像がバイオマーカに関連付けられるのかどうかの指示が画像部分の第２のセットから決定される。Ｓ２０３は、２つの段階を備える。第１の段階は、「ステップ２：特徴抽出」である。このステップでは、第２のセット中の各タイルに対応する第１のデータが生成される。第２の段階は、「ステップ３：タイルのアグリゲーション」である。このステップでは、画像部分の第２のセットに対応する第１のデータは、アグリゲーションモジュールに入力される。この例では、アグリゲーションモジュールは、トレーニング済み再帰型ニューラルネットワーク（ＲＮＮ）５０を備える。

第１のデータは、分類器レイヤを省略する、すなわち、第２の部分４７を省略する第１の畳み込みニューラルネットワーク４０を使用して抽出される。第２のセット中でタイルは、各画像部分（タイル）に対応する特徴のセットを抽出するために処理される。特に、上位ｋ個のタイル（第２のセットのタイル）の各々に対応するｄ次元特徴ベクトルｘが生成される。たとえば、ｄ次元特徴ベクトルｘは、図５（ｃ）に示されているように、平坦化レイヤの出力であり得る。特徴ベクトルｘは、第１のＣＮＮ４０の最後の分類器レイヤを省略する第１のＣＮＮ４０に再び第２のセットの各画像部分（タイル）のための画像データを入力することによって生成される。ＣＮＮは、高レベルの視覚特徴を低次元埋め込みに効果的に符号化する深度の様々なレイヤにおいて画像に適用される畳み込みフィルタのセット全体にわたってタイル内の組織プロパティをキャプチャすることができるので、特徴抽出器として使用され得る。線形分類器レイヤが除去されると、事前トレーニング済みの第１のＣＮＮ４０は、ｄ次元特徴ベクトルの埋め込みに代表的なタイルを変換するために使用され、ここで、ｄはＣＮＮのアーキテクチャに依存する。これらのベクトルは、代表的なタイルの「フィンガープリント」として見られ得る。

上位ｋ個のタイルが、Ｓ２０２において選択され、Ｓ２０３において処理される。上位ｋ個のタイル、すなわち、最も高い確率を有するｋ個のタイルが、残りのステップにおいて画像を表すために選択される。Ｓ２０３では、上位ｋ個のタイル画像が、最初に、各画像部分（タイル）に対応する特徴のセットを抽出するために処理される。特に、上位ｋ個のタイル（第２のセットのタイル）の各々に対応するｄ次元特徴ベクトルｘが生成される。ｄの値は、平坦化されたレイヤの出力サイズに依存し、したがって、アーキテクチャに応じて変化する。たとえば、ｄは、５１２であり得る。したがって、Ｓ２０３への入力は、第１のＣＮＮ４０の出力に基づいて選択されたｋ個の画像部分（タイル）のセットを備える。ｋ個の画像部分は、次いで、ｋ個のタイルの各々に対応するｄ次元特徴ベクトルｘを生成するために分類レイヤを省略する第１のＣＮＮ４０を再び通して供給される。これは、ｋ個のｄ次元特徴ベクトルのシーケンスを生じる。各ｄ次元特徴ベクトルは、画像部分（タイル）に対応する。ｋ個の特徴ベクトルは、タイル選択ステップＳ２０２においてＣＮＮ４０から出力されたｋ個のタイルに対応する。特徴ベクトルのシーケンスは、ステップＳ２０２において第１のＣＮＮ４０から出力された確率に関して順序付けられる。

特徴ベクトルのこのシーケンスは、次いで、画像がバイオマーカに関連付けられるのかどうかに関する最後の画像レベルの決定を達成するために再帰型ニューラルネットワーク（ＲＮＮ）５０に提出される。このステップでは、入力画像がバイオマーカに関連付けられるのかどうかの指示は、ＲＮＮ５０を使用して１つまたは複数の画像部分の第２のセットに対応するデータ、この場合は、特徴ベクトルを組み合わせるかまたはアグリゲートすることによって決定される。再帰型ニューラルネットワーク５０は、ニューラルネットワークに基づいて完全にトレーニング可能なアグリゲーション演算子である。

ＲＮＮを使用することにより、隠れレイヤのセットを通してタイルにわたる系列依存性をモデル化することによってスライドレベルのクラス確率への表現レベルでの情報の統合が可能になる。さらに、それは、最大値プーリングの場合、最後のモデル出力に組み込まれ、パフォーマンスに潜在的に影響を及ぼす可能性があるＲＮＮモジュール５０より前のステップにおけるタイル選択中になされたエラーを修正する可能性がある。たとえば、特定のバイオマーカに関連付けられない画像の場合、１つのタイルが、誤って高い確率を生じ得る。画像全体のための結果がこのタイルのみから取られた場合、誤った結果が戻されることになる。しかしながら、ＲＮＮは、他のｋ－１個のタイルを考慮に入れることになる。

ＲｅＬＵおよびｔａｎｈ活性化関数ならびにゲート付き再帰型ユニット（ＧＲＵ）と長短期記憶（ＬＳＴＭ）とを含むより洗練されたモジュールを用いるものなどの異なる再帰型ニューラルネットワークが使用され得る。タイルの数ｋが比較的高く設定される（たとえば、ｋが５０から１００のオーダーのものである）場合、ＬＳＴＭは、より良く実施するように見られ得る。ＲｅＬＵまたはｔａｎｈを使用するネットワークは、より少数のタイルを用いてより良く実施し得る。

ＬＳＴＭ構造に基づく例示的なＲＮＮ５０についてここで説明される。ＬＳＴＭ構造は、シーケンス中の初期のインスタンスを「忘れる」ことに対する抵抗を与える。図５（ｂ）は、図５（ａ）に関して説明された方法において使用され得るＬＳＴＭ構造に基づく例示的なＲＮＮ５０を示す。以下で説明されるように、ＬＳＴＭは、複数のニューラルネットワークレイヤを備える。

特徴抽出ステップにおいて第１のＣＮＮ４０から出力されたｄ次元特徴ベクトルは、ｘ_tとこの図において標示される。上記で説明されたように、ｋ個の特徴ベクトルがあり、したがって、ｔは、１からｋまで続く。したがって、最も可能性の低いタイルに対応する特徴ベクトルは、ｘ_tであり、ｋ個のタイルの最も可能性の高いものに対応する特徴ベクトルは、ｘ₁である。タイルは、確率の高いものから順に提出され、ＲＮＮに入力される第１のタイルは、最も高い確率をもつものである。長さｄの各特徴ベクトルが順々にＬＳＴＭ５０に入力され、ｘ₁が最初に入力され、ｘ_kが最後に入力される。シーケンス中の各ステップにおいて、ＬＳＴＭ５０は、各入力ベクトルｘ_tに対応するベクトルｈ_tを出力する。ｈ_tのサイズは、ハイパーパラメータであり、たとえば、１２８または２５６であり得る。シーケンス中の最後のステップの出力ｈ_kは、入力画像がバイオマーカに関連付けられるのかどうかの指示を生成するために使用される。ステップの数は、選択されたタイルの数ｋに等しくなる。

ボックス中のσとｔａｎｈとはそれぞれ、示されたそれぞれの非線形活性化関数（シグモイドおよびｔａｎｈ）を用いる学習されたニューラルネットワークレイヤを表す。レイヤの寸法は、ハイパーパラメータであり、たとえば、１２８または２５６が使用され得る。円中のｔａｎｈ、加算および他の演算が点ごとの演算を表す。入力特徴ベクトルｘ_tのための出力ｈ_tは、次の時間ステップに移され、ｈ_t-1によって示される点に入力される。さらに、出力セル状態ｃ_tが次の時間ステップに移され、ｃ_t-1によって示される点に入力される。

入力特徴ベクトルｘ_tと前の時間ステップｈ_t-1からの出力とは、第１の組み合わされたベクトルと本明細書では呼ばれる単一の組み合わされたベクトルを形成するために連結される。ＬＳＴＭは、次いで、４つのニューラルネットワークレイヤ５１、５２、５３および５４を備え、３つは、シグモイド活性化関数を有し、１つは、ｔａｎｈ活性化関数を有する。

第１のシグモイドレイヤ５１は、入力として第１の組み合わされたベクトルを取り出し、０から１の間の値を備える第２のベクトルを出力する。第２のベクトルは、セル状態Ｃと同じ長さを有し、したがって、各値は、セル状態中でエントリに対応する。前のステップＣ_t-1からのセル状態は、やはり、セル状態と同じ長さを有する第３のベクトルを与えるために点ごとの乗算（アダマール積）において第２のベクトルで乗算される。第２のベクトルは、本質的に、前のセル状態Ｃ_t-1からどんな情報が保たれるのかについて決定する。セル状態Ｃは、長さが隠されたサイズＨ、たとえば、１２８または２５６のベクトルである。セル状態Ｃおよびｈ_tなどのすべての変数は、長さＨのベクトルである。

第２のシグモイドレイヤ５２は、やはり、入力として第１の組み合わされたベクトルを取り出し、０から１の間の値を備える第４のベクトルを出力する。第４のベクトルは、やはり、セル状態Ｃと同じ長さを有し、したがって、各値は、セル状態中でエントリに対応する。

ｔａｎｈレイヤ５３は、やはり、入力として第１の組み合わされたベクトルを取り出し、－１から１の間の値を備える第５のベクトルを出力する。第５のベクトルは、やはり、セル状態Ｃと同じ長さを有し、したがって、各値は、セル状態中でエントリに対応する。

第４のベクトルは、やはり、セル状態と同じ長さを有する第６のベクトルを与えるために点ごとの乗算（アダマール積）において第５のベクトルで乗算される。第３のベクトルと第６のベクトルとは、次いで、現在の時間ステップＣ_tのためのセル状態を与えるために点ごとのベクトル加法で加算される。

第３のシグモイドレイヤ５４は、やはり、入力として第１の組み合わされたベクトルを取り出し、０から１の間の値を備える第７のベクトルを出力する。第７のベクトルは、やはり、セル状態Ｃと同じ長さを有する。セル状態値はそれぞれ、ｔａｎｈ関数に入力され、したがって、値は－１から１の間に設定される。この関数の出力は、次いで、出力を与えるために第７のベクトルと点ごとの乗算で乗算される。

各ステップの出力は、次のステップへの入力として供給される。４つのニューラルネットワークレイヤ５１、５２、５３および５４の各々の重みとバイアスとはトレーニング段階中の演算の前に学習され、これらについては後で説明する。これらは、ＬＳＴＭのトレーニング可能パラメータである。シーケンス中の最後のステップの出力ｈ_kは、入力画像がバイオマーカに関連付けられるのかどうかの指示を生成するために使用される。シーケンス中の最後のステップの出力ｈ_kは最後の全結合レイヤに入力され、２つの出力値を生じる。ソフトマックス関数が、次いで、適用される。この最後のステップが分類を実施する。密レイヤの入力は隠れサイズＨであり、出力サイズは２である。この最後のレイヤは、入来データに線形変換を適用する。バイナリソフトマックスが、次いで、適用される。正のクラスのために出力される値は、入力画像がバイオマーカに関連付けられる確率に対応する。

任意選択で、特徴ベクトルまたは埋め込みは、バッチで、たとえば、一度に１０個ＬＳＴＭを通して処理される。この場合、バッチ中の特徴ベクトルは行列を形成するために組み合わされ、各時間ステップにおいて、行列が入力される。ニューラルネットワークレイヤは、行列ニューラルネットワークレイヤであり、セル状態Ｃは行列であり得る。バッチサイズがＢ＞１である場合、セル状態は、サイズＢ×Ｈの行列であり、出力ｈ_tはＢ×Ｈの行列になる。この事例における最後の分類レイヤも、行列ニューラルネットワークレイヤであることになる。

図６（ａ）は、代替実施形態による、方法の概略図を示す。本方法では、Ｓ２０１およびＳ２０２が、前に説明されたように実施される。第１のＣＣＮ４０「ステップ１：タイルの選択」は、タイルごとにタイルが特定のバイオマーカに関連付けられる確率を出力する。最も高い確率を有するｋ個のタイルが、選択され、Ｓ２０３に入力される。これらのタイルは、次いで、「ステップ２：特徴抽出」において分類器レイヤが省略された状態で再び第１のＣＮＮ４０に入力される。得られたｄ次元特徴ベクトルｘまたは埋め込みが、ｋｘｄ行列に組み合わされ、これは、注意モジュール６０に入力される。

注意モジュール６０は、入力としてｋｘｄ行列を取り出す全結合フィードフォワード行列ニューラルネットワークである。注意モジュール６０ニューラルネットワークの出力は、ｋ次元のベクトルである。したがって、注意モジュール６０は、重みベクトルを戻し、各重み値は、最後のモデル確率に対するタイルの寄与に対応する。重みベクトルは、分子バイオマーカの予測のために最も重要なタイルを強調する。注意モジュール６０の構造の一例が、図６（ｂ）に示されている。第１のレイヤは、重みの行列を備える。入力ｋｘｄ行列が、第１のレイヤを通して供給され、活性化関数が適用される（ｔａｎｈまたはＲｅＬＵ）。出力は、ｋｘｇ行列であり、ここで、寸法ｇは、第１のレイヤの出力寸法である。ｇの値は、ハイパーパラメータであり、たとえば、１２８または２５６であり得る。ｋｘｇ行列は、第２のレイヤに供給され、これも全結合レイヤである。活性化関数が適用される。出力は、長さｋのベクトルであり、ここで、各値は、重みに対応する。ここで一例について説明するが、様々な他の注意機構が代替として使用される可能性がある。たとえば、追加のニューラルネットワークレイヤが含まれ得る。たとえば、ゲート注意モジュールが使用され得る。

注意モジュール６０は、ｋ次元の重みベクトルを出力する。

特徴抽出ステップにおいて第１のＣＮＮ４０から出力された各ｄ次元特徴ベクトルは、対応する注意重みによって乗算され、すなわち、特徴ベクトル中の各値が重みによって乗算される。加重特徴ベクトルは、次いで、行列に組み合わされ、分類器レイヤにパスされる。これは、さらなる全結合フィードフォワード行列ニューラルネットワークレイヤである。シグモイド関数活性化関数が適用される。分類器レイヤの出力は、０から１の間の確率の単一の値である。これは、入力画像がバイオマーカに関連付けられるのかどうかの指示である。注意機構６０は、ニューラルネットワークに基づいて完全にトレーニング可能なアグリゲーション演算子である。注意機構は、再帰型ニューラルネットワークに代替アグリゲーション方法を与える。注意機構６０により、最も重要なタイルを決定することが可能になる。

特徴ベクトルをそれらの重要度に関して重み付けすることによって、すべてのタイルがアグリゲーションのために等しく考慮に入れられるとは限らない。さらに、分類をトリガする主要なタイルが知られているので、注意機構は、説明可能性の点で利益を与える。

図７は、代替実施形態による、入力画像が本方法において使用されるバイオマーカに関連付けられるのかどうかの指示を決定する方法の概略図を示す。本方法は、アグリゲーション演算子の部分としてＲＮＮ５０とともに注意機構６０を使用する。

本方法では、ステップＳ２０１およびＳ２０２は、図５（ａ）の方法の場合と同じ方式で実施される。上位ｋ個のタイルが、Ｓ２０２において選択され、Ｓ２０３において処理される。上位ｋ個のタイル、すなわち、最も高い確率を有するｋ個のタイルが、残りのステップにおいて画像を表すために選択される。Ｓ２０３では、上位ｋ個のタイル画像が、最初に、各画像部分（タイル）に対応する特徴のセットを抽出するために処理される。これは、図５（ａ）に関して上記で説明されたのと同じ方式で行われる。これは、ｋ個のｄ次元特徴ベクトルｘのシーケンスを生じる。各ｄ次元特徴ベクトルｘは、画像部分（タイル）に対応する。ｋ個の特徴ベクトルは、タイル選択ステップＳ２０２においてＣＮＮ４０から出力されたｋ個のタイルに対応する。ｋ個の特徴ベクトルは、ｋｘｄ行列に組み合わされ、これは、上記の図６に関して説明されたのと同じ方式で注意モジュール６０に入力される。注意モジュール６０について、上記の図６に関して説明した。

上記で説明したように、特徴ベクトルをそれらの重要度に関して重み付けすることによって、すべてのタイルがアグリゲーションのために等しく考慮に入れられるとは限らない。さらに、分類をトリガする主要なタイルが知られているので、注意機構は、説明可能性の点で利益を与える。

注意モジュール６０は、上記で説明されたように長さｋのベクトルを出力する。これは、様々な方法でＲＮＮ５０への入力と組み合わされ得る。

第１の例では、特徴抽出ステップにおいて第１のＣＮＮ４０から出力された各ｄ次元特徴ベクトルは、対応する注意重みによって乗算され、すなわち、特徴ベクトル中の各値が重みによって乗算される。加重特徴ベクトルのシーケンスは、次いで、第１のＣＮＮ４０から出力された確率に関して順序付けられる。したがって、トレーニング可能加重平均が与えられる。このステップでは、第２のパスにおいて第１のＣＮＮ４０から出力された各特徴ベクトルが、それの対応する重み値によって乗算される。これらの加重特徴ベクトルは、第１のパスにおいて第１のＣＮＮ４０から出力された確率に関して順序付けられる。加重特徴ベクトルのこのシーケンスは、次いで、最も可能性が高いタイルに対応するベクトルが最初に入力された状態で、上記で説明されたのと同じ方式で再帰型ニューラルネットワーク（ＲＮＮ）５０に提出される。

第２の例では、追加または代替として、ｄ次元特徴ベクトルは、注意モジュール６０から出力された重み値に関して順序付けられる。ｄ次元特徴ベクトルは、次いで、最も重要なタイルに対応するベクトルが最初に入力された状態で、上記で説明されたのと同じ方式で再帰型ニューラルネットワーク（ＲＮＮ）５０に入力される。

第３の例では、追加または代替として、図６に示されているように、分析からタイルをさらに除去するステップが実施され得る。注意モジュール６０は、注意重みによって特徴ベクトルを順序付け、最後のＲＮＮモジュール５０に上位ｎ個のタイルだけをパスすることを介してタイルの数をさらに減少するために使用され得る。この場合、ステップＳ２０３は、上記で説明されたように、「ステップ２：特徴抽出」を備える。ｄ次元特徴ベクトルｘは、次いで、前に説明されたように注意モジュール６０に入力される。さらなるステップ「ステップ４：注意ベースのタイルの選択」が、次いで、実施される。特徴ベクトルは、重みに関して順序付けられる。上位ｎ個の特徴ベクトルに対応する画像部分の第３のセットが、次いで、選択され、ここで、ｎは、１よりも大きい整数である。画像部分の第３のセットに対応する特徴ベクトルが、次いで、再帰型ニューラルネットワーク（ＲＮＮ）５０に提出される。注意機構は、最も代表的なタイルをランク付けするために使用され、ＲＮＮは、それらをアグリゲートして画像レベルの予測を達成するために使用される。注意モデル６０の出力に基づいてタイルを除去することによって、信頼性を維持しながらより少数のタイルが処理されるので、計算集約的なＲＮＮステップがより効率的にされ得る。

第１のおよび第３の例では、特徴ベクトルは、重要度または確率の順にＲＮＮ５０に入力され得る。第２のおよび第３の例では、元の特徴ベクトルまたは加重特徴ベクトルは、ＲＮＮ５０に提出され得る。

説明された３つの方法はすべて、画像レベルの予測にタイルレベルの情報を組み合わせるための注意ベースのアグリゲーションモジュールを使用する。注意モジュール６０は、マルチインスタンス学習のためのアグリゲーションの順列不変の手段を与える。注意モジュールのためのタイルの代表的なセットを取得するために最大値プーリングベースのタイル選択ステップがＳ２０２において使用される。したがって、本方法は、任意のサイズの画像に適用可能である。注意モジュール６０と再帰型ニューラルネットワーク５０とは、アグリゲーションモジュール中でこの例では組み合わされる。この例では、注意モジュール６０は、単一の注意ブランチを有する。

上記の図では、ＲＮＮ、注意モジュール、またはその２つの組合せを備えるアグリゲーションモジュールについて説明される。しかしながら、他のトレーニング可能アグリゲーション演算子が、追加または代替として、アグリゲーションモジュール中に含まれ得る。

代替として、トレーニングが不可能なアグリゲーションモジュールが使用され得る。図４は、プーリング演算子が使用される、一実施形態による、組織の画像を処理する代替方法の概略図を示す。本方法は、上記で説明されているように、組織の入力画像から画像部分の第１のセットを取得するステップＳ２０１を備える。Ｓ２０１において取得された各画像部分は、次いで、前に説明された方式で、一度に一つずつ、第１の畳み込みニューラルネットワーク４０に入力として取り出される。畳み込みニューラルネットワーク４０は、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する。したがって第１のＣＮＮ４０は、たとえば、前に説明されたようにタイルが特定の分子バイオマーカに関連付けられるのか否かを分類するために使用される。タイルごとに、ＣＮＮ４０は、タイルが正のクラスに割り当てられる（すなわち、タイルが分子バイオマーカに関連付けられる）確率を出力する。タイルは、次いで、正のクラスに割り当てられるそれらの確率に従ってランク付けされる。

本方法では、画像のためのトップランクのタイルが、分子バイオマーカが存在するのかどうかについて決定するために使用される。したがって、１つの画像部分の第２のセットは、第１のＣＮＮ４０に各画像部分の画像データを入力することによってＳ２０１から出力された画像部分の第１のセットから選択される。たとえば、トップランクのタイルのための確率がしきい値よりも大きいのかどうかが決定され得る。しきい値は、たとえば、０．５であり得る。しきい値は、パフォーマンスを増加させるために最適化されたハイパーパラメータであり得る。これは、最大値プーリングと等価である。この場合、最大値演算子などのプーリング演算子が使用される。第１のＣＮＮ分類器４０は、タイルごとに確率を戻し、これらの個々のスコアは、最大値演算子を通してアグリゲートされる。最大値演算子などのプーリング演算子は、分類器がタイルごとに確率を戻し、最大値演算子を通して個々のスコアをアグリゲートすることに関与し得るインスタンスレベルの分類設定に好適であり得る。平均化などの他のトレーニングが不可能なアグリゲーション関数が使用され得る。

図１０は、代替実施形態による、方法の概略図を示す。本方法では、前に説明されていたように、ステップＳ２０１が実施される。画像部分（タイル）が、次いで、Ｓ２０２において処理され、特徴ベクトルが、前に説明されていたようにＳ２０３において抽出される。これは、正のブランチ１１０と呼ばれる。

Ｓ２０２およびＳ２０３と並行して実施される第２の一連のステップはまた、Ｓ２０１の出力に対して実施される。これらのステップは、負のブランチ１２０と呼ばれる。Ｓ４０２において、Ｓ２０１において取得された画像部分の第１のセットから１つまたは複数の画像部分の第４のセットを選択するステップが実施される。この段階では、第１のセット中の各画像部分の画像データが、第２の畳み込みニューラルネットワーク１００に入力される。第２のＣＮＮ１００は、第１のＣＮＮ４０と同じ構造を有し得る。第２のＣＮＮ１００は、画像部分がバイオマーカに関連付けられないのかどうかの指示を生成する。言い換えれば、第２のＣＮＮ１００は、画像部分が特定のバイオマーカに関連付けられない確立を生成する。１つまたは複数の画像部分の低減されたセット、第１のセットが有するより少数の画像部分を有する第４のセットが、第２のＣＮＮ１００の出力に基づいてＳ４０２において取得される。

Ｋ個の画像部分の第４のセットは、次いで、各画像部分に対応するｄ次元特徴ベクトルを抽出するために第２の部分、すなわち、分類レイヤを省略する第２のＣＮＮ１００に再提出される。

特徴ベクトルは、アグリゲーションモジュールに入力され、これは、上記で図５から図７に関して説明されたように、たとえば、ＲＮＮ、注意モジュール、またはその２つの組合せなどのトレーニング済みアグリゲーション演算子を備え得る。アグリゲーションモジュールは、やはり上記で説明されたように、画像が特定のバイオマーカに対応する確率を出力する。

図５から図７に関して説明された方法は、推論中に正のクラスの確率のみを考慮し、モデルが本質的に負のクラスを区別することを学習することになると仮定する。これは、負よりも頻繁に正のクラスを予測することへのモデルの傾向を増加し得る。ネットワークの予測容量に負のクラスからの情報を直接組み込むために、図１０に関して説明されたように、デュアルブランチアーキテクチャが使用され得る。各ブランチは、特定のクラスを担当し、すなわち、正のブランチ１１０は、正のクラスの確率を考慮するが、負のブランチ１２０は、負のクラスに焦点を当てる。各ブランチは、前のセクションにおいて説明されたニューラルネットワークモデルのうちの１つを用いて実現され得る。

上記で説明された方法では、様々なトレーニング済みモデルが使用された。次に、様々なモデルをトレーニングする例示的な方法について説明する。

上記で説明された第１の畳み込みニューラルネットワーク４０をトレーニングする様々な方法、および関係する場合、（たとえば、ＲＮＮ５０および／または注意モジュール６０を備える）アグリゲーションモジュールについて、最初に説明される。複数の画像を備えるトレーニングデータセットが使用される。画像は、モデルのための入力画像の意図されたタイプに対応し得る。上記で説明される例では、入力画像は、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像である。したがって、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像のトレーニングデータセットが、モデルをトレーニングするために使用され得る。

各画像は、モデルが検出することになる特定のバイオマーカにそれが対応するのか否かに応じて標示される。上記で説明されたように、特定のバイオマーカは、たとえば、ＥＲバイオマーカ、ＨＥＲ２バイオマーカ、ＰＲバイオマーカ、ＥＧＦＲバイオマーカまたはＭＳＩバイオマーカであり得る。本方法は、様々な他のバイオマーカを検出するために使用され得る。モデルが、たとえば、入力画像がＥＲバイオマーカに関連付けられるのかどうかの指示を決定するために使用されることになる場合、トレーニングデータセット中の各画像は、それがＥＲバイオマーカに対応する場合ば１と標示され、それが対応しない場合は０と標示される。標示を生成するために、たとえば、ＩＨＣ染色プロセスからの情報が使用され得る。いくつかのデータセットについて、専門家は、ＩＨＣ染色された画像を検討し、たとえば、ターゲット画像のＥＲ／ＰＲステータスがメタデータとしてすでに利用可能でない場合はそれらを決定し得る。これらは、次いで、モデルをトレーニングするためにＨ＆Ｅ画像のためのグラウンドトゥルースな標示として使用される。遺伝的な、トランスクリプトーム的な、および／または免疫学的な分析の手段を通した患者からのヒト試料の様々なテストが使用され得る。これらのテストは、液体および／または固体の形態で生検と呼ばれるヒト試料に対して行われ、これは、次いで、試料の分子ステータスを通知するための処置を経る。結果は、次いで、組織生検のための病理学者、液体生検のための血液学者、細胞学試料のための細胞病理学者、遺伝的な／トランスクリプトーム的な分析のための遺伝学者などの専門家によって分析されて、標示１または０を生成する。注釈は、トレーニングされた病理学者によって実施され得る。

次に、トレーニングデータセットを使用する２つの段階を備えるトレーニングプロセスについて説明する。

第１の段階では、トレーニングプロセス中に、トレーニングデータセット中の画像ごとに、図３（ａ）に関して説明されたのと同じ画像前処理ステップＳ２０１が実施される。したがって、画像ごとに、推論に関して上記で説明されたのと同じ方式で複数の画像部分が取得される。上記で説明されたように、トレーニングデータセットから非癌組織しか含んでいないタイルを破棄するために細胞のセグメンテーションが使用され得る。この場合、モデルをトレーニングするために使用されるデータセットの品質は、セグメンテーション手法の精度に直接依拠する。事前トレーニング済みモデルが、細胞のセグメンテーションのために使用され得る。

タイルは、次いで、それらの対応するスライドの標示とペアリングされ、第１のＣＮＮ４０をトレーニングするために使用される。タイルは、推論中と同じ方式で正のクラスに割り当てられる確率を生成する第１のＣＮＮ４０に提出される。

第１のＣＮＮ４０は、関連するパラメータベクトルθ１を有する。パラメータは、第１のＣＮＮ４０の第１の部分中の畳み込みレイヤのすべてのためのフィルタ重みならびに第１のＣＮＮ４０の第２の部分のための重みを含む。トレーニングプロセスの目的は、注釈と出力との間の差が最小化されるようなパラメータベクトルθ１’を見出すことである。

最適なパラメータは、θ１としてランダム値を割り当て、次いで、損失

の勾配を計算し、計算された勾配を使用してθ１を更新することによってθ１を連続的に更新することによって計算される。Ｄ１は、損失関数を表し、これは、このステップでは、「タイルごとの」損失である。バイナリクロスエントロピー損失が使用され得る。モデルのトレーニング可能パラメータの各々に関する損失の勾配が逆伝播を通して決定される。勾配は、次いで、オプティマイザ関数を使用して更新されたパラメータを決定するために使用される。更新方法のこのファミリは、概して以下のように反復的に定義される勾配降下（ＧＤ）として知られ、

ここで、μ１は、パラメータがどのくらい迅速に更新されるのかを定義する学習レートである。更新は、バッチ平均に基づいて実施され得る。たとえば、８つのタイルまたは１６個のタイルのバッチサイズが使用される。

アダム最適化アルゴリズムが使用され得る。しかしながら、選択される最適化戦略は、使用事例に対する各戦略のパフォーマンスに依存し得る。たとえば、以下の最適化方法のうちの１つが選択され得る。

確率的勾配降下法（ＳＧＤ）
ＡｄａＤｅｌｔａ
Ａｄａｍ
ＡｄａＭａｘ
ＮｅｓｔｅｒｏｖＡｄａｍオプティマイザ
ＲＭＳＰｒｏｐ
アグリゲーション演算が、トレーニング済みでない関数、たとえば、図４に関して説明された最大値プーリングステップである場合、さらなるトレーニングは実施されない。しかしながら、アグリゲーション演算がトレーニング可能モデルである場合、第２のトレーニング段階が実施される。

第２のトレーニング段階では、残りのタイルが、次いで、第１のＣＮＮ４０の第１の部分に入力され、特徴ベクトルが、推論中と同じ方式でタイルごとに抽出される。特徴ベクトルは、たとえば、ＲＮＮおよび／または注意機構を備えるアグリゲーションモジュールに入力され、画像全体に対応する最後の出力値が出力される。

（ＲＮＮおよび／または注意機構を備える）アグリゲーションモジュールとともに第１のＣＮＮ４０の第１の部分は、関連するパラメータベクトルθ２を有する。パラメータは、たとえば、ＲＮＮおよび／または注意機構ネットワークの重みとともに第１のＣＮＮ４０の第１の部分中に畳み込みレイヤのすべてのためのフィルタ重みを含む。トレーニングプロセスは、次いで、標示と出力との間の差が最小化されるようなパラメータベクトルθ２’を見出す。ここで、スライド全体に対応する標示が使用される。

最適なパラメータは、θ２としてランダム値を割り当て、次いで、損失

の勾配を計算し、計算された勾配を使用してθ２を更新することによってθ２を連続的に更新することによって計算される。Ｄ２は、損失関数を表し、これは、このステップでは、「画像ごとの」損失である。バイナリクロスエントロピー損失が使用され得る。モデルのトレーニング可能パラメータの各々に関する損失の勾配が逆伝播を通して決定される。勾配は、次いで、オプティマイザ関数を使用して更新されたパラメータを決定するために使用される。更新方法のこのファミリは、概して以下のように反復的に定義される勾配降下（ＧＤ）として知られ、

ここで、μ２は、パラメータがどのくらい迅速に更新されるのかを定義する学習レートである。更新は、バッチ平均に基づいて実施され得る。たとえば、８つの画像または１６個の画像のバッチサイズが使用される。

この場合も、アダム最適化アルゴリズムが使用され得る。しかしながら、選択される最適化戦略は、使用事例に対する各戦略のパフォーマンスに依存し得る。たとえば、以下の最適化方法のうちの１つが選択され得る。

確率的勾配降下法（ＳＧＤ）
ＡｄａＤｅｌｔａ
Ａｄａｍ
ＡｄａＭａｘ
ＮｅｓｔｅｒｏｖＡｄａｍオプティマイザ
ＲＭＳＰｒｏｐ
第１のトレーニング段階は、トレーニングデータセット中の画像のすべてを使用して実施され、次いで、第２のトレーニング段階が実施され得る。代替として、画像のバッチは、第１のトレーニング段階において使用され、次いで、第２のトレーニング段階が実施され得る。第１のトレーニング段階は、次いで、入力画像の第２のバッチで繰り返され、以下同様であり得る。

このようにして、モデルは、弱教師つき設定でトレーニングされる。トレーニングは、複数のインスタンス学習（ＭＩＬ）を使用する。ＭＩＬは、教師つき学習のタイプである。ＭＩＬでは、個々に標示されたインスタンス（この場合は、画像部分）を備えるトレーニングデータの代わりに、トレーニングデータは、各々が多くのインスタンスを含んでいる標示されたバッグ（この場合は、画像）のセットを備える。画像が特定のバイオマーカに対応しない、すなわち、それが０と標示される場合、画像中の画像部分のいずれも、特定のバイオマーカに対応しない。しかしながら、１つの画像部分が特定のバイオマーカに対応する場合、画像は、バイオマーカに対応することになる。したがって、正と標示された画像は、正である少なくとも１つの画像部分を有する。しかしながら、それはまた、負である多くの画像部分を備え得る。

各タイルは、特定の分子バイオマーカが存在するのかどうかを示す正（１）の標示または負（０）の標示に関連付けられる。しかしながら、標示は、親画像から継承される。したがって、親画像が特定の分子バイオマーカに関連付けられるとき、タイルは、正として標示されるが、（たとえば、タイル内の組織の領域が分子バイオマーカを含んでいないので）タイル自体は、分子バイオマーカに関連付けられないことがある。

したがって、マルチインスタンス学習（ＭＩＬ）手法が使用される。（たとえば）全スライド画像に関連する標示は、複数のインスタンス、すなわち、ＷＳＩを形成するタイルのセットに割り当てられる。これは、１対１のマッピングが入力インスタンスとクラスとの間に成り立つとみなされる分類問題とは異なる。ＭＩＬ設定では、データは、弱く標示されるので、ただ１つのクラス標示が、同じカテゴリの多くのインスタンスのために与えられる。これは、個々のインスタンス（タイル）がクラスに対応するのかどうかを識別するためのモデルのトレーニングを本質的により困難にする。画像は、正として標示されるために、正のクラスの少なくとも１つのタイルを含んでいなければならないが、負のスライド中ですべてのタイルは、負として分類されなければならない。この公式化は、個々のインスタンスの標示がトレーニング中に存在することを保証する。しかしながら、それらの真値は、依然として未知のままである。

画像レベルの出力、たとえば、確率を取得するためにタイルをアグリゲートする手段がＳ２０３に含まれる。２つの段階を備えるトレーニングプロセスが使用され得、ここで、タイルごとのトレーニングが、第１の段階において実施され、画像ごとのエンドツーエンドトレーニング方法が、第２の段階において実施される。タイルが第１の段階において選択されると、フォワードパスが、選択されたタイルを用いて再び実施されるので、本方法は、エンドツーエンド方式でトレーニングされ得る。損失は、次いで、第１のＣＮＮ４０とアグリゲーション演算子とを含むネットワーク全体に逆伝播される。

上記で説明されたトレーニング方法では、画像は、モデルのための意図された入力画像（たとえば、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片）に対応し、各画像は、モデルが検出することになっている特定のバイオマーカにそれが対応するのか否かに応じて標示される。しかしながら、トレーニング方法は、関連するドメインからの転移学習を含むように修正され得る。大きい注釈付きデータセットを取得することが可能でない場合には、モデルは、タスクＡ（ソース）に対して事前にトレーニングされ、次いで、それの処理において限定された注釈付きデータしか有しないタスクＢ（ターゲット）に対してさらにトレーニングされ得る。そのようなトレーニング方法は、計算病理学などの分野において特に有用であり得、ここで、注釈は、時間と金との大きいコストを伴い得、依然として、主観と経験とに関係する誤りを受けやすいことがある。さらに、特に、組織病理データセットは、多くて、数千個の画像を含み得る。したがって、数１００万個の画像を含んでいる可能性がある（たとえば、医療以外の分野からの）他のコンピュータビジョンデータセット上のモデルを事前にトレーニングすることは、改善されたパフォーマンスを与え得る。

別のデータセットに事前トレーニング済みモデルを適応させるか、または異なるソースから来た情報を用いたトレーニングを制約することによってより高い一般化可能性を達成するために、異なる転移学習戦略が使用され得る。

すなわち、ターゲット画像を使用して事前トレーニング済みの重みを更新するためにモデルを微調整することが可能である。ランダムな重みからトレーニングを開始する代わりに、（コンピュータビジョンなどの）異なるドメインから、または異なる癌データセットから取得されたいくつかの事前トレーニング済みの重みが使用される。次いで重みが据え置かれたレイヤのうちのいくつかはさらに更新されない。他のレイヤは、次いで、特定のバイオマーカで標示された画像に基づいてさらに更新される。モデル全体を微調整することが可能であるが、浅いレイヤは、それらが車を含んでいようが癌細胞を含んでいようがすべての画像で共通であるエッジおよび隅のような低レベルの特徴を学習する傾向があるので、この例では更新されない。一方、より深いレイヤは、細胞形態のようなタスク固有の特徴に対応し、したがって、ターゲットデータセットを使用して更新される可能性が高い。

異なるタイプの癌などソースとして異なるが関連するデータセットによって転移学習を使用することも可能である。たとえば、乳癌と結腸直腸癌とはともに腺癌であり、細胞レベルで同様の視覚特性を有し、互いを転移学習設定において使用される完璧な候補にしている。

ソースデータセットとターゲットデータセットとが異なるが、関連する分布のものであると仮定すると、転移学習もドメイン適応のコンテキスト内にあると見なされ得る。ドメイン適応は、事前トレーニング済みモデルが標示なしで新しいデータセットをターゲットにするシナリオに対処し得、その場合、標示されたソースデータセットは、ターゲットドメイン中で新しいタスクを解くために使用されなければならない。そのような設定は、たとえば、異なるバイオバンクから取得された乳癌画像を有する複数のデータセットを扱うタスクのために使用され得る。単一のソースだけからのモデル学習を回避し、いかなる標示されたデータをも潜在的に有しないことがある他のデータセットに対するそれの一般化可能性を改善することを前提としている。

たとえば、１つのシナリオは、データセットＡ中の分子マーカを予測するためのモデルをトレーニングし、次いで、データセットＢから来た画像に対してそれを適用することになる。両方のデータセットが、同じタイプの癌、たとえば、乳癌を表す場合でも、ＷＳＩ中の組織組成は、本質的に多様であり、画像を収集する間に異なるスキャナおよびスライド準備プロシージャを使用することによりデータの差が存在し得るので、モデルは、データセットＢに対して同様に実施しない可能性がある。ドメイン適応は、別のドメインに１つのドメイン中で学習される表現を転送することによって共有空間内のターゲットデータセットとソースデータセットとの分布を一致させることを目的とする。

一例では、発散ベースのドメイン適応技法は、ドメイン不変特徴空間を学習するためにソースデータ分布とターゲットデータ分布との間の発散基準を最小限に抑えるために使用される。たとえば、２ストリームアーキテクチャ（ソースのための１つとターゲットのための１つ）は、正則化を使用することによって重みがそれぞれから発散するのを回避しながら一緒にトレーニングされ得る。代替ドメイン適応技法は、生成器／識別器モデルを用いた敵対的トレーニングを利用する。一例では、異なるデータセットから画像をどのように識別するのかをモデルに教示すること、したがって、より良い一般化可能性のためにデータセット不変特徴を学習することを行うためにドメイン混乱損失を導入することによって生成器が完全に除去される。

ドメイン適応問題はまた、標示されたソースデータを分類するために同時に学習しながらドメインの各々のための共有符号化表現を作成することと、標示されていないターゲットデータを再構成することとを行うための再構成タスクと位置付けられ得る。代替として、ドメイン適応は、２つのそれぞれのドメイン中に画像を生成する２つの敵対的生成ネットワークを同時にトレーニングすることによって達成され得る。それはまた、ソースデータセットからターゲットデータセットへのスタイル変換によってトレーニングするために使用される画像の数を増加させるためにオフライン設定において使用され得る。もちろん、これは、形態を保持しながら組織画像の染色色およびスタイルを正規化する。

パフォーマンスを改善するために、データ拡張が、追加または代替として、トレーニングデータセットに適用され得る。これは、モデルの一般化容量を増加させる。これは、デジタル病理学などデータがスパースであり得るドメインで特に役立ち得る。

広範囲の空間および色変換が、新しい画像を収集する必要性なしにデータの変動を増加させるために新しいトレーニング例示画像を作成するためにトレーニングデータセット中の画像に適用され得る。例示的な拡張方法は、回転または反転などの線形変換と、明るさおよびコントラストの調節を含む色スペクトル拡張との２つのサブカテゴリにグループ化され得る。

組織病理画像が回転不変であるので、９０度の回転および水平／垂直反転が、いかなる悪影響も導入することなしにデータセットをポピュレートするために使用される。一方、色ベースの拡張は、モデルを画像の明るさおよびコントラストの元のスペクトルを越えて学習させ、したがって、それは、異なる照明の下で撮られた画像に対してより良く一般化することができる。弾性ネットなどの非線形変換も使用され得るが、組織の形態的構成を変更し得る。異なる拡張方法が、組み合わされ、画像に連続的に適用され得る。

モデルが画像特徴だけでなく、拡張によって導入されたものをも学習することを強制されるので、拡張の使用は、比較的小さいデータセットに積極的に適用された場合にいくつかの副作用を有することができる。これを軽減するために、１）拡張パラメータの値および２）異なるパラメータ技法の組合せにわたってハイパーパラメータの最適化を行い、拡張が使用されない事例に関してモデルのパフォーマンスを改善するパラメータおよび方法のサブセットを見出す間に拡張が適用され得る。モデルが、トレーニング中に元の画像と拡張画像との両方を見ることを保証するためにいくつかの確率的制約が適用され得る。

図５および図６において説明された例では、タイルにわたって系列依存性をモデル化することによってタイルレベルからスライドレベルのクラス確率への情報を統合することができる再帰型ニューラルネットワーク（ＲＮＮ）が使用される。エンドツーエンドの学習が、さらに、ＣＮＮモジュールとＲＮＮモジュールとを同時にトレーニングすることによって与えられ得る。

図６および図７において説明された例では、重みが注意ベースのニューラルネットワーク６０によって与えられる加重平均の形成が使用される。注意機構６０を使用することはまた、本質的に、最後の画像予測に対する各タイルの寄与に対する洞察を与え、潜在的に、画像中の領域のアプリオリな注釈なしに、計算病理学適用例のために重要である可能性がある関心領域を強調するために使用され得る。本方法は、スライド画像全体の正確な分類の高い診断値を用いて領域を識別するために注意ベースの学習を使用するディープ学習ベースの弱教師つき方法である。再び、注意モジュール６０は、ＣＮＮモジュールと、存在する場合、ＲＮＮモジュールと同時にトレーニングしていることがある。

どちらの事例も、アグリゲーションの全微分可能で順列不変の手段を与える。順列不変によって、タイルに順序または依存性が仮定されないことを意味する。図６に関して説明された例は、ＲＮＮと注意機構との利点を組み合わせる。この場合、注意モデルが最も代表的なタイルをランク付けするために使用され、それらをアグリゲートするためのＲＮＮが画像レベルの予測を達成するために使用されるカスケードモデル。

上記の図１０は、デュアルブランチアーキテクチャを使用してネットワークの予測容量に負のクラスからの情報を直接組み込む方法について説明し、ここで、各ブランチは、特定のクラスを担当し、すなわち、正のブランチ１１０は、正のクラスの確率を考慮するが、負のブランチ１２０は、負のクラスに焦点を当てる。このモデルは、様々な方法でトレーニングされ得る。一例では、正のブランチ１１０と負のブランチ１２０とは、上記で説明された方式で別個にトレーニングされる。負のブランチ１２０の場合、画像の標示は、画像がバイオマーカに対応しない場合は１になり、画像がバイオマーカに対応する場合は０になる。結果は、線形または非線形関数によって組み合わされ得る。代替として、ネットワーク全体は、両方のブランチにクラスレベルの損失を逆伝播することによって同時にトレーニングされ得る。

図１１は、代替実施形態による、トレーニングの方法の概略図を示す。本方法はまた、図１０に関して説明されたクラスバイアス問題を軽減することを目的とする。本方法は、シャムニューラルネットワーク構造を使用する。シャムネットワークは、共有アーキテクチャおよび重みをもつ同じモデルの複数のインスタンスを表す。

モデルをトレーニングするために、対照的な損失関数が使用され、したがって、モデルは、正の画像と負の画像とをどのように識別するのかと一緒にそれらの間の距離を学習する。これは、モデルにタイルおよび標示だけでなく、同じクラス標示をもつタイルのペアおよび異なるクラスのペアをも示すことによって達成される。損失関数は、次いで、大きい距離が同じクラスの画像のために計算されるときおよび小さい距離が異なるクラスからの画像ために計算されるときはいつでもモデルにペナルティを課す。タイルのペアが、第１のＣＮＮ４０モデルの第１の部分に供給され、各タイルは、別個のパス中に入力される。第１のＣＮＮ５０は、２つの連続するフォワードパスを介して各タイルのための（埋め込みとも呼ばれる）ｄ次元特徴ベクトルを出力する。出力ベクトル（埋め込み）の間の距離が、次いで、計算され、これは、損失関数のベースを形成する。トレーニング中に、それは、大きい距離が同じクラスのタイルのために計算されるときはいつでも、または反対側のクラスのタイルが同様のものであるとモデルが思うときにモデルにペナルティを課す。Ｔ_i、Ｔ_jの画像部分ペアおよび標示ｙについて、ｙが、２つの画像が同じクラスからのものであること（ｙ＝１）または異なるクラスからのものであること（ｙ＝０）を示す場合、損失は以下の通りである。

ここで、Ｌ_s項は、同様の画像のために計算された損失であり、Ｌ_d項は、画像が似ていないときに計算される損失である。Ｄ_wは、２つのベクトルの間の距離であり、ユークリッド距離またはコサイン類似度などの任意の距離（または類似性）関数であり得る。項が拡張されるとき、最後の損失は、次式によって与えられ得る。

ここで、ｍは、マージンである。

代替として、対照的な損失は、別の正則化項としてプロファイラモデルによって使用されるクロスエントロピー損失に加算され得る。このようにして、モデルは、正の画像をどのように識別するのかを学習するだけでなく、正のクラスと負のクラスとを区別することを可能にするドメインのクラス依存特性を学習することを強制されもする。この場合、距離が別の項として組み込まれる正規化されたクロスエントロピー損失が使用される。この場合、Ｔ_iのための１つとＴ_jのための１つの２つのクロスエントロピー（ＣＥ）損失が（２つのフォワードパスを通して）計算される。それらの特徴ベクトルにわたる距離が、次いで、上述の距離関数を使用してそれらの距離（または類似性）を導き出すために計算される。合計の損失は、次いで、以下の通りになる。

ここで、ｗは、随意の重み付けパラメータであり、Ｌ_CEは、上記で説明されたクロスエントロピー損失である。

上記で説明されたように、パイプライン全体は、入力として画像、たとえば、ＷＳＩを取り出し、それをタイルのセットに再分割し、一連のニューラルネットワークを通してこれらのタイルを合理化する前処理モジュールＳ２０１備え、一連のニューラルネットワークは、１）最初にスライドを表すタイルを選択するために使用され、後で特徴抽出のために使用されるディープ畳み込みニューラルネットワーク、２）分子バイオマーカの予測のために重要なタイルを識別するための注意ベースのニューラルネットワーク、および／または３）最後の画像レベルの確率への選択されたタイルのアグリゲーションのための再帰型ニューラルネットワーク（ＲＮＮ）を備える。

上記で説明された例では、入力画像は、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像であり、特定のバイオマーカは、たとえば、ＥＲバイオマーカ、ＨＥＲ２バイオマーカ、ＰＲバイオマーカ、ＥＧＦＲバイオマーカ、またはＭＳＩバイオマーカなどの分子バイオマーカである癌バイオマーカである。しかしながら、前述のように、抗原Ｋｉ－６７も、癌の攻撃性を示す細胞増殖のためのマーカとしてテストされることが増えている。したがって、代替として、特定のバイオマーカはＫｉ－６７であり得る。

Ｋｉ－６７の報告は、バイナリカテゴリカル（すなわち、組織上に突然変異が存在するのか／濃縮が存在するのか／発現が存在するのか）ではなく本質的に離散化される。Ｋｉ６７の正値性は、最適なカットオフしきい値は依然として疑問の余地があるが、たとえば、１０％を超える腫瘍細胞が正に染色することとして定義され得る。結果が離散カテゴリではなく連続的な値（すなわち割合）であるので、ＫＩ６７インデックスの識別情報は、ＨＲ、ＥＲ、またはＨＥＲ２プロファイルを予測するのとは本質的に異なる問題である。したがって、正または負のバッグの定義が無効であるので、問題は、ＭＩＬ問題として素直に位置付けられないことがある。しかしながら、トレーニングデータを標示するためにあらかじめ定義されたカットオフポイントを使用して（たとえば、１０％よりも大きいものに対応するスライドは、１と標示され、１０％未満は０と標示される）、問題は、バイナリ分類と位置付けられ得、図４から図７に関して上記で説明されたものなどのモデルが、使用され、上記で説明された方式でトレーニングされ得る。モデルへの入力は、上記で説明されたように、Ｈ＆Ｅ染色されたスライドであり得る。追加または代替として、ＩＨＣ画像データが入力として使用され得る。

Ｋｉ－６７染色を用いたＩＨＣ画像中の核の検出のための方法が考案され得、したがって、細胞数測定が、グラウンドトゥルースなＫｉ－６７スコアを取得するための必要条件として実施され得る。これは、Ｈ＆Ｅスライドのための標示を生成するために実施される手動ステップである。上記で説明された例では、モデルは、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像を使用してトレーニングされ、各々は、Ｋｉ－６７バイオマーカが存在するのかどうかに関して標示される。標示は、たとえば、対応するＩＨＣスライドから決定される。

図３（ｃ）に関して上記で説明されたように、トレーニング済みモデルＭは、細胞のセグメンテーションを実施するために画像処理ステップＳ２０１において使用され得る。そのようなモデルＭは、グラウンドトゥルースな注釈を使用してトレーニングされる。乳癌に熟練した病理学者などの専門注釈者は、細胞のサブセットを明確に定めることができ、これは、次に、背景から細胞を隔離することならびに互いからそれらを分離することを行うようにモデルＭをトレーニングするために使用され得る。モデルＭは、ディープラーニングベースのエンコーダデコーダネットワークを使用することによってエンドツーエンドの様式でトレーニングされ得、ここで、画像は、最初に、低次元の特徴空間に符号化され、次いで、それらの注釈に一致するように再構成され、その間に、モデルは、ピクセルを、クラス標示、たとえば、細胞および背景にどのように変換するのかを学習する。モデルＭは、いくつかのネットワークレイヤを追加して／ドロップすることによって、ならびに当面のタスクに応じて残差接続／ブロックを組み込むことによってさらに修正され得る。

いくつかの例では、注釈者は、トレーニング中にモデル出力に直接干渉し、アンダーセグメンテーションおよび／またはオーバーセグメンテーションを修正する。専門家に修正された出力は、次に、それのパフォーマンスを改善するために外部フィードバックによってモデルに提出されて戻される。

図３（ｅ）は、モデルＭをトレーニングする例示的な方法の概略図である。本方法は、複数のピクセルを備える入力画像データを取り出しって、複数のピクセルの各々に対応する値を生成するためにモデルをトレーニングし、値は、ピクセルが癌組織に対応するのかどうかを表す。このモデルは、別個のトレーニングプロセスでトレーニングされる。

図では、入力画像は、Ｉと標示され、モデルＭからの出力は、Ｏと標示され、人間の専門家によって与えられた注釈は、Ａと標示され、差の測度または損失は、Ｄとして示される。モデルＭは、関連するパラメータベクトルθを有する。パラメータは、畳み込みレイヤのすべてのためのフィルタ重みを含む。モデルＭは、Ｍ（Ｉ，θ）に対応する推測された注釈Ｏを作成するために入力画像を取り出す。トレーニングプロセスの目的は、注釈と推測された注釈との間の差が最小化されるようなパラメータベクトルθ’を見出すことであり、すなわち、

であり、Ｍは、ネットワークのアーキテクチャであり、一方、θは、ネットワークの重みを備える。Ｄは、損失関数を表す。ピクセル単位のクロスエントロピー損失が使用され得る。カテゴリカルクロスエントロピー損失が使用され得る。ピクセル単位の損失は、すべての可能なカテゴリＣにわたって加算されたログ損失として計算される。この場合、癌組織と非癌組織との２つのカテゴリがある。これは、すべてのピクセルにわたって繰り返され、損失を与えるために平均化される。ピクセル単位の損失は、次のように座標（ｘ，ｙ）の各ピクセルのために定義される。

ここで、ｔ_iは、カテゴリのために注釈Ａから取られたピクセルの正しい注釈であり、ｆ_iは、（合計Ｃ個のカテゴリの中の）ｉ番目のカテゴリのためのソフトマックス関数である。値ｔは、各ピクセルについて、正しいカテゴリの場合は１に等しくなり、他のカテゴリの場合は０に等しくなる。各ピクセルのｔ_i値のベクトルは、注釈付き画像から自動的に生成され得る。ｉ番目のカテゴリについて、ｔ_iは、ピクセルがｉ番目のカテゴリとして注釈を付けられるのかどうかを示し、ここで、ピクセルが、カテゴリとして注釈を付けられる場合はｔ_i＝１であり、そうでない場合は、０である。ソフトマックス関数ｆ_i（ｓ）は、次式によって与えられる

ここで、Ｓ_jは、ピクセルのための各カテゴリのための最後のモデルレイヤによって出力されたスコアである。損失は、次いで、画像中であらゆる座標にわたって加算されることになる。

最適なパラメータは、θとしてランダム値を割り当て、次いで、差

の勾配を計算し、計算された勾配を用いてθを更新することによってθを連続的に更新することによって計算される。モデルのトレーニング可能パラメータの各々に関する損失の勾配が逆伝播を通して決定される。勾配は、次いで、オプティマイザ関数を使用して更新されたパラメータを決定するために使用される。更新方法のこのファミリは、概して以下のように反復的に定義される勾配降下（ＧＧＤ）として知られ、

ここで、μは、パラメータがどのくらい迅速に更新されるのかを定義する学習レートである。更新は、バッチ平均に基づいて実施され得る。たとえば、８つのタイルまたは１６個のタイルのバッチサイズが使用される。

確率的勾配降下法（ＳＧＤ）
ＡｄａＤｅｌｔａ
Ａｄａｍ
ＡｄａＭａｘ
ＮｅｓｔｅｒｏｖＡｄａｍオプティマイザ
ＲＭＳＰｒｏｐ
モデルは、ピクセルレベルの注釈に敏感である。言い換えれば、トレーニングデータがただ１つのピクセルによって修正される場合、パラメータは、モデル全体にわたって、別様に更新され得る。モデル中の単一のレイヤ中に異なるサイズのアトラス畳み込みフィルタを含めることは、出力中のあらゆるピクセルが入力画像の周りのすべてから伝搬されることを意味する。これは、１つのピクセル差分がニューラルネットワークの大部分の部分に影響を及ぼし得ることを意味する。これにより、ただ１つのピクセル差分の場合でもモデルを更新することが可能になる。アトラス畳み込みを使用せずに、大部分の変更が局所的にしか伝搬されないことがある。

モデルは、人間の専門家によって注釈を付けられた画像から抽出されたデータを使用してトレーニングされる。たとえば、代替損失関数を使用するなど、トレーニングの様々な他の方法も使用され得る。トレーニングされると、モデルは、次いで、トレーニング中に見られなかった画像を処理するために使用される。

ＥＲ、ＰＲ、ＨＥＲ２およびＫｉ－６７について上記で説明された手法は、癌患者のケアに関係する一般的に使用される癌治療薬およびバイオマーカによって調整されたバイオマーカの予測を含め、様々な癌のタイプおよび器官にわたって適用され得る。

様々なバイオマーカに対するパフォーマンスが以下の表１に示されている。使用されるモデルは、１０００個の異なるカテゴリを含む分類タスクのために１２０万個の画像を備えるデータセットに対して事前にトレーニングされている。モデルは次いで、癌画像のデータセット、たとえば、数千の癌画像を使用してさらにトレーニングされ、次いで、特定のバイオマーカで標示されたデータセット、たとえば、数百の画像を使用してさらにトレーニングされ得る。図示のように、方法は、臨床等級のパフォーマンス、すなわち、８５％以上を示す。表１は、受信者操作特性（ＲＯＣ）曲線の曲線下面積（ＡＵＣ）中でのバイオマーカに対する予測のパフォーマンスメトリックを示す。正規化単位を使用するとき、ＲＯＣ曲線の曲線下面積は、分類器がランダムに選定された負のインスタンスよりも高くランダムに選定された正のインスタンスをランク付けすることになる確率、この場合、モデルが、バイオマーカに関連付けられていないランダムに選定された画像よりもバイオマーカに関連付けられるランダムに選定された画像のためにより高い確率を出力することになる確率に等しくなる。

図３に関して説明された癌細胞セグメンテーション段階の包含は、デフォルトのデータセットと癌専用のデータセットとの両方について、ＲＮＮアグリゲーション演算子とともに使用されたとき、様々な受容体について約３～７％より良好なＡＵＣを与えた。注意機構の包含、特に、図６に関して示された方法は、図３に関して示された方法と比較して約７％のＨＥＲ２についての改善を与えた。ＲＮＮベースのアグリゲーション演算子の包含、特に、図５に関して示された方法は、デフォルトのデータセットを使用することによって図３に関して示された方法と比較して様々な受容体についてＡＵＣの５～９％の改善を与えた。

本明細書で説明される方法は、組織病理組織サンプルに対する臨床等級の器具を使用しない多癌多マーカプロファイル予測を与え得る。突然変異の状態、受容体の状態、コピー数多型などを含む癌の診断、治療および／または予後に関係するバイオマーカの自動プロファイリングは、癌画像とバイオマーカとの間の相関を識別するために一連のニューラルネットワークを使用して全スライドＨ＆Ｅ画像から与えられ得る。本方法は、医療グレードレベルのパフォーマンスでバイオマーカテストの結果を予測することが可能である。したがって、本方法は、複数のテストの必要を置き換え得る。これは、たとえば、図９に示されているように、診断パイプラインを著しく合理化し得る。

図９は、バイオマーカの自動プロファイリングを用いる例示的な診断パイプラインを示す。ステップ９０１において、生検が実施され、試料が９０２において準備される。試料は、Ｈ＆Ｅを用いて染色された組織サンプルであり得る。試料の画像が、次いで、９０３において病理学者によって分析される。画像はまた、９０４において上記で説明された例などの機械学習ベースのシステムによって分析される。９０３および９０４の出力は、９０５において完全な診断情報を与えるために組み合わされ、これは、次いで、９０６においてキャンサーボードまたは集学的チームに与えられる。治療が、次いで、決定される。本明細書で説明される方法を使用することによって、バイオマーカのためのテストに関連する運用コストと資本コストとが低減され得る。診断タイムラインはまた、たとえば、最長３０日から１日未満まで最高９７％だけ短縮され得る。本方法はまた、事例後テストを再訪すること、テストの依頼、テスト結果を分析することなどの必要を除去することによって病理学者のワークフローを簡略化し得る。最後に、本方法は、過剰および過小診断を低減し、ならびに再現性を改善し得る。

第１および第２のモデルは、エンドツーエンドのＭＩＬベースの分類によって正のバイオマーカステータスと負のバイオマーカステータスとを識別するために直接学習する。異なるアグリゲーション方法が説明された。本方法は、たとえば、乳癌の臨床サブタイプを予測するためにディープラーニングベースのフレームワークを与え得る。本方法は、学習可能なアグリゲーション関数とモデルに統合されるタイル選択プロシージャとを用いるエンドツーエンドのトレーニングを使用し得る。

例示的なバイオマーカのリストが以下の表２に示されている。

いくつかの実施形態について説明したが、これらの実施形態は、単に例として提示されており、本発明の範囲を限定するものではない。実際、本明細書で説明される新規の方法および装置は、様々な他の形態で具体化され得、さらに、本明細書で説明される方法および装置の形態の様々な省略、置換および変更が行われ得る。

Claims

組織の画像を処理するコンピュータ実装方法であって、
組織の入力画像から画像部分の第１のセットを取得することと、
画像部分の前記第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、前記選択することは、第１の畳み込みニューラルネットワークを備える第１のトレーニング済みモデルに前記第１のセットからの画像部分の画像データを入力することを備え、前記第１のトレーニング済みモデルは、前記画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
１つまたは複数の画像部分の前記第２のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することと
を備える、コンピュータ実装方法。
前記第２のセットは、２つ以上の画像部分を備える、ここにおいて、前記決定することは、第２のトレーニング済みモデルに１つまたは複数の画像部分の前記第２のセットに対応する第１のデータを入力することを備える、請求項１に記載の方法。
前記第２のトレーニング済みモデルは、再帰型ニューラルネットワークを備える、請求項２に記載の方法。
前記第２のトレーニング済みモデルは、注意機構を備える、請求項２または３に記載の方法。
前記第２のトレーニング済みモデルは、注意機構をさらに備える、ここにおいて、画像部分の前記第２のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することは、
前記注意機構に前記第２のセット中の各画像部分のための前記第１のデータを入力することと、ここにおいて、前記注意機構は、各画像部分の前記重要度の指示を出力するように構成される、
各画像部分の前記重要度の前記指示に基づいて画像部分の第３のセットを選択することと、
前記第３のセット中で各画像部分について、前記再帰型ニューラルネットワークに前記第１のデータを入力することと、前記再帰型ニューラルネットワークは、前記入力画像が前記バイオマーカに関連付けられるのかどうかの前記指示を生成する、
を備える、請求項３に記載の方法。
前記画像部分が前記バイオマーカに関連付けられるのかどうかの前記指示は、前記画像部分が前記バイオマーカに関連付けられることの確率である、ここにおいて、前記第２のセットを選択することは、最も高い確率を有するｋ個の画像部分を選択することを備える、ここにおいて、ｋは、１よりも大きいあらかじめ定義された整数である、請求項２から５のいずれか１項に記載の方法。
前記第１の畳み込みニューラルネットワークは、少なくとも１つの畳み込みレイヤを備える第１の部分と第２の部分とを備える、ここにおいて、前記第２の部分は、１次元ベクトルを入力として取り出す、
ここにおいて、画像部分の前記第２のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの前記指示を決定することは、
画像部分の前記第２のセットの各々のための前記第１のデータを生成すること、画像部分のための前記第１のデータを生成することは、前記第１の畳み込みニューラルネットワークの前記第１の部分に前記画像部分の前記画像データを入力することを備える、
をさらに備える、請求項２から５のいずれか一項に記載の方法。
画像部分の前記第１のセットから１つまたは複数の画像部分の第４のセットを選択すること、前記選択することは、第２の畳み込みニューラルネットワークを備える第３のトレーニング済みモデルに前記第１のセットからの画像部分の画像データを入力することを備える、
ここにおいて、前記入力画像が前記バイオマーカに関連付けられるのかどうかの前記指示は、１つまたは複数の画像部分の前記第４のセットと１つまたは複数の画像部分の前記第２のセットとから決定される、
をさらに備える、請求項１から７のいずれか一項に記載の方法。
前記バイオマーカは、癌バイオマーカである、ここにおいて、組織の入力画像から画像部分の前記第１のセットを取得することは、
画像部分に組織の前記入力画像を分割することと、
第５のトレーニング済みモデルに画像部分の画像データを入力することと、前記第５のトレーニング済みモデルは、前記画像部分が癌組織に関連付けられるのかどうかの指示を生成する、
前記画像部分が癌組織に関連付けられるのかどうかの前記指示に基づいて画像部分の前記第１のセットを選択することと
を備える、請求項１から８のいずれか一項に記載の方法。
前記バイオマーカは、分子バイオマーカである、請求項１から９のいずれか一項に記載の方法。
組織の画像を処理するためのシステムであって、
組織の入力画像を受信するように構成された入力と、
前記入力画像がバイオマーカに関連付けられるのかどうかの指示を出力するように構成された出力と、
１つまたは複数のプロセッサと
を備え、前記１つまたは複数のプロセッサが、
前記入力として受信された組織の入力画像から画像部分の第１のセットを取得することと、
画像部分の前記第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、前記選択することは、第１の畳み込みニューラルネットワークを備える第１のトレーニング済みモデルに前記第１のセットからの画像部分の画像データを入力することを備え、前記第１のトレーニング済みモデルは、前記画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
１つまたは複数の画像部分の前記第２のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することと、
前記出力として前記指示を出力することと
を行うように構成された、システム。
トレーニングのコンピュータ実装方法であって、
組織の入力画像から画像部分の第１のセットを取得することと、
第１の畳み込みニューラルネットワークを備える第１のモデルに前記第１のセットからの画像部分の画像データを入力することと、前記第１のモデルは、前記画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
前記入力画像が前記バイオマーカに関連付けられるのかどうかを示す組織の前記入力画像に関連する標示に基づいて前記第１のモデルを適応させることと
を備える、コンピュータ実装方法。
前記画像部分がバイオマーカに関連付けられるのかどうかの前記指示に基づいて画像部分の前記第１のセットから１つまたは複数の画像部分の第２のセットを選択することと、
第２のモデルに画像部分の前記第２のセットに対応する第１のデータを入力することによって１つまたは複数の画像部分の前記第２のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することと、ここにおいて、前記方法は、前記入力画像が前記バイオマーカに関連付けられるのかどうかを示す組織の前記入力画像に関連する前記標示に基づいて前記第２のモデルを適応させることをさらに備える、
をさらに備える、請求項１２に記載の方法。
請求項１２または１３の前記方法に従ってトレーニングされる第１のモデルと第２のモデルとを備えるシステム。
請求項１から１０または１２から１３のいずれか一項に記載の前記方法をコンピュータに実行させるように構成されたコンピュータ可読コードを備える担体媒体。