JP2023543044A - 組織の画像を処理する方法および組織の画像を処理するためのシステム - Google Patents

組織の画像を処理する方法および組織の画像を処理するためのシステム Download PDF

Info

Publication number
JP2023543044A
JP2023543044A JP2023519331A JP2023519331A JP2023543044A JP 2023543044 A JP2023543044 A JP 2023543044A JP 2023519331 A JP2023519331 A JP 2023519331A JP 2023519331 A JP2023519331 A JP 2023519331A JP 2023543044 A JP2023543044 A JP 2023543044A
Authority
JP
Japan
Prior art keywords
image
biomarker
input
image portions
indication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023519331A
Other languages
English (en)
Inventor
ラハルジャ、ムハンマド・パンドゥ
アルスラーン、サリム・セダト
ド・モプー・ダブレージュ、シクスト・ガブリエル・マリー・ジル
ダヤン、ベンジャミン・リー
Original Assignee
パナケイア・テクノロジーズ・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナケイア・テクノロジーズ・リミテッド filed Critical パナケイア・テクノロジーズ・リミテッド
Publication of JP2023543044A publication Critical patent/JP2023543044A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

組織の画像を処理するコンピュータ実装方法であって、組織の入力画像から画像部分の第1のセットを取得することと、画像部分の第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、選択することは、第1の畳み込みニューラルネットワークを備える第1のトレーニング済みモデルに前記第1のセットからの画像部分の画像データを入力することを備え、第1のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、1つまたは複数の画像部分の前記第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することとを備える、コンピュータ実装方法。

Description

関連出願の相互参照
本出願は、その内容全体が参照により本明細書に組み込まれる、2020年9月25日に出願された前の欧州出願番号第EP20198551号に基づき、それの優先権の利益を主張する。
本発明は、組織の画像を処理するコンピュータ実装方法および組織の画像を処理するためのシステムに関する。
バイオマーカは、特定の病理学的または生理的プロセス、疾患、診断、療法または予後が識別され得る自然発生分子、遺伝子、または特性である。たとえば、現代の癌診断および治療は、癌、および、概して、患者の特定の分子プロファイルを理解することに依拠し得る。分子プロファイルは、1つまたは複数の分子バイオマーカを含む。分子プロファイルは、ホルモン療法と、免疫治療と、標的薬治療とを含む様々な処置を通知するために使用され得る。
様々な医学関連バイオマーカ、たとえば、突然変異の状態、受容体の状態、コピー数多型などの診断、治療および/または予後マーカは、患者がいくつかの療法にどのくらい応答することになるのかを決定するために遺伝的な、トランスクリプトーム的な、および免疫学的な分析の手段を通してテストされる。そのようなテストは、液体または固体の形態にあり得る生検と呼ばれるヒト試料に対して行われる。そのようなテストは、テストおよび試料のタイプに応じて、1日から30日のいずれかの期間かかることがあり、処置上の誤りを受けやすい。そのような処置の結果は、次いで、組織生検のための病理学者、液体生検のための血液学者、細胞学試料のための細胞病理学者、遺伝的な/トランスクリプトーム的な分析のための遺伝学者などの専門家によって分析される。これは、同じく、非常に時間がかかり、人的エラーに対して非常に弱い。そのようなバイオマーカの検出の信頼性、経済性および速度を改善する継続的な必要がある。
次に、非限定的な実施形態によるシステムおよび方法について、添付の図を参照しながら説明する。
一実施形態による、システムの概略図。 一実施形態による、組織の画像を処理する方法の概略図。 ヘマトキシリンとエオシンとを用いて染色された組織切片の画像の一例の図。 ヘマトキシリンとエオシンとを用いて染色された組織切片の画像である入力画像と画像部分の第1のセットである出力との概略図。 一実施形態による、方法において使用される画像前処理ステップの概略図。 画像前処理ステップにおいて使用されるCNNに基づく例示的なセグメンテーションモデルの概略図。 膨張畳み込みを実施するフィルタの概略図。 細胞セグメンテーションモデルをトレーニングする例示的な方法の概略図。 プーリング演算子が使用される、一実施形態による、組織の画像を処理する方法の概略図。 一実施形態による、組織の画像を処理する方法の概略図。 図5(a)に関して説明された方法において使用され得る長短期記憶構造に基づく例示的な再帰型ニューラルネットワークの概略図。 図5(a)に関して説明された方法において使用され得る例示的な第1の畳み込みニューラルネットワークの概略図。 代替実施形態による、方法の概略図。 図6(a)の方法において使用され得る例示的な注意モジュール構造の概略図。 代替実施形態による、方法の概略図。 例示的な癌診断パイプラインの概略図。 一実施形態による、方法とともに1つまたは複数のバイオマーカの自動プロファイリングを使用する例示的な診断パイプラインを示す図。 代替実施形態による、方法の概略図。 一実施形態による、トレーニングの方法の概略図。
一実施形態によれば、組織の画像を処理するコンピュータ実装方法であって、
組織の入力画像から画像部分の第1のセットを取得することと、
画像部分の第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、選択することは、第1の畳み込みニューラルネットワークを備える第1のトレーニング済みモデルに第1のセットからの画像部分の画像データを入力することを備え、第1のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
1つまたは複数の画像部分の第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することと
を備える、コンピュータ実装方法が提供される。
一実施形態では、第2のセットは、2つ以上の画像部分を備え、ここにおいて、決定することは、第2のトレーニング済みモデルに1つまたは複数の画像部分の第2のセットに対応する第1のデータを入力することを備える。第2のトレーニング済みモデルは、ニューラルネットワークを備え得る。第2のトレーニング済みモデルは、再帰型ニューラルネットワークを備え得る。第2のトレーニング済みモデルは、追加または代替として、注意機構を備え得る。
一実施形態では、第2のトレーニング済みモデルは、再帰型ニューラルネットワークと注意機構とを備え得、ここにおいて、画像部分の第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することは、注意機構に第2のセット中の各画像部分のための第1のデータを入力することと、ここにおいて、注意機構は、各画像部分の重要度の指示を出力するように構成される、各画像部分の重要度の指示に基づいて画像部分の第3のセットを選択することと、第3のセット中で各画像部分について、再帰型ニューラルネットワークに第1のデータを入力することと、再帰型ニューラルネットワークは、入力画像がバイオマーカに関連付けられるのかどうかの指示を生成する、を備える。
一実施形態では、画像部分がバイオマーカに関連付けられるのかどうかの指示は、画像部分がバイオマーカに関連付けられることの確率であり、ここにおいて、第2のセットを選択することは、最も高い確率を有するk個の画像部分を選択することを備え、ここにおいて、kは、1よりも大きいあらかじめ定義された整数である。
一実施形態では、第1の畳み込みニューラルネットワークは、少なくとも1つの畳み込みレイヤを備える第1の部分と第2の部分とを備え、ここにおいて、第2の部分は、1次元ベクトルを入力として取り出し、ここにおいて、画像部分の第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することは、画像部分の第2のセットの各々のための第1のデータを生成すること、画像部分のための第1のデータを生成することは、第1の畳み込みニューラルネットワークの第1の部分に画像部分の画像データを入力することを備える、をさらに備える。
一実施形態では、本方法は、画像部分の第1のセットから1つまたは複数の画像部分の第4のセットを選択すること、選択することは、第2の畳み込みニューラルネットワークを備える第3のトレーニング済みモデルに第1のセットからの画像部分の画像データを入力することを備え、第3のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられないのかどうかの指示を生成し、ここにおいて、入力画像がバイオマーカに関連付けられるのかどうかの指示は、1つまたは複数の画像部分の第4のセットと1つまたは複数の画像部分の第2のセットとから決定される、をさらに備える。
一実施形態では、バイオマーカは、癌バイオマーカであり、ここにおいて、組織の入力画像から画像部分の第1のセットを取得することは、
画像部分に組織の入力画像を分割することと、
第5のトレーニング済みモデルに画像部分の画像データを入力することと、第5のトレーニング済みモデルは、画像部分が癌組織に関連付けられるのかどうかの指示を生成する、
画像部分が癌組織に関連付けられるのかどうかの指示に基づいて画像部分の記第1のセットを選択することと
を備える。
一実施形態では、バイオマーカは、分子バイオマーカである。
第2の態様によれば、組織の画像を処理するためのシステムであって、
組織の入力画像を受信するように構成された入力と、
入力画像がバイオマーカに関連付けられるのかどうかの指示を出力するように構成された出力と、
1つまたは複数のプロセッサと
を備え、1つまたは複数のプロセッサが、
入力として受信された組織の入力画像から画像部分の第1のセットを取得することと、
画像部分の第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、選択することは、第1の畳み込みニューラルネットワークを備える第1のトレーニング済みモデルに第1のセットからの画像部分の画像データを入力することを備え、第1のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
1つまたは複数の画像部分の第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することと、
出力として指示を出力することと
を行うように構成された、システムが提供される。
第3の態様によれば、トレーニングのコンピュータ実装方法であって、
組織の入力画像から画像部分の第1のセットを取得することと、
第1の畳み込みニューラルネットワークを備える第1のモデルに第1のセットからの画像部分の画像データを入力することと、第1のモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
入力画像がバイオマーカに関連付けられるのかどうかを示す組織の入力画像に関連する標示に基づいて第1のモデルを適応させることと
を備える、コンピュータ実装方法が提供される。
一実施形態では、本方法は、
画像部分がバイオマーカに関連付けられるのかどうかの指示に基づいて画像部分の第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、
第2のモデルに画像部分の第2のセットに対応する第1のデータを入力することによって1つまたは複数の画像部分の第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することと、ここにおいて、方法は、入力画像がバイオマーカに関連付けられるのかどうかを示す組織の入力画像に関連する標示に基づいて第2のモデルを適応させることをさらに備える、
をさらに備える。
一実施形態では、本方法は、入力画像がバイオマーカに関連付けられるのかどうかを示す組織の入力画像に関連する標示に基づいて再び第1のモデルを適応させることをさらに備える。
一実施形態では、第1の畳み込みニューラルネットワークは、少なくとも1つの畳み込みレイヤを備える第1の部分と第2の部分とを備え、ここにおいて、第2の部分は、1次元ベクトルを入力として取り出し、ここにおいて、画像部分の第2のセットから入力画像がバイオマーカに関連付けられるのかどうかの指示を決定することは、画像部分の第2のセットの各々のための第1のデータを生成すること、画像部分のための第1のデータを生成することは、第1の畳み込みニューラルネットワークの第1の部分に画像部分の画像データを入力することを備える、をさらに備える。
一実施形態では、本方法は、
入力画像がバイオマーカに関連付けられることを示す標示に関連する組織の第1の入力画像から画像部分の第1のセットを取得することと、
画像部分がバイオマーカに関連付けられるのかどうかの指示に基づいて画像部分の第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、
入力画像がバイオマーカに関連付けられないことを示す標示に関連する組織の第2の入力画像から画像部分のさらなるセットを取得することと、
画像部分がバイオマーカに関連付けられるのかどうかの指示に基づいて画像部分のさらなるセットから1つまたは複数の画像部分の第4のセットを選択することと、
画像部分の第2のセットのための第1のデータを生成することと、画像部分のための第1のデータを生成することは、第1の畳み込みニューラルネットワークの第1の部分に画像部分の画像データを入力することを備える、
画像部分の第4のセットのための第1のデータを生成することと、画像部分のための第1のデータを生成することは、第1の畳み込みニューラルネットワークの第1の部分に画像部分の画像データを入力することを備える、
画像部分の第2のセットのための第1のデータと画像部分の第4のセットのための第1のデータとの間の距離測度を決定することと、
異なる測度に基づいて第1のモデルを適応させることと
を備える。
第4の態様によれば、上記の方法に従ってトレーニングされる第1のモデルと第2のモデルとを備えるシステムが提供される。
第5の態様によれば、コンピュータに上記の方法を実施させるように構成されたコンピュータ可読コードを備える担体媒体が提供される。本方法は、コンピュータ実装方法である。実施形態によるいくつかの方法がソフトウェアによって実装され得るので、いくつかの実施形態は、任意の好適な担体媒体上の汎用コンピュータに与えられたコンピュータコードを包含する。担体媒体は、フロッピー(登録商標)ディスク、CD ROM、磁気デバイスもしくはプログラマブルメモリデバイスなどの任意の記憶媒体または任意の信号、たとえば、電気信号、光信号もしくはマイクロ波信号などの任意の一時媒体を備えることができる。担体媒体は、非一時的コンピュータ可読記憶媒体を備え得る。
図1は、一実施形態による、システム1の概略図を示す。システム1は、入力11と、プロセッサ3と、作業メモリ9と、出力13と、記憶装置7とを備える。システム1は、入力画像データを取り出し、出力を生成する。出力は、診断情報を備え得る。特に、出力は、入力画像がバイオマーカに関連付けられるのかどうかの指示であり得る。
システム1は、コンピューティングシステム、たとえば、エンドユーザシステムまたはサーバであり得る。一実施形態では、システムは、グラフィカル処理ユニット(GPU)と一般的な中央処理ユニット(CPU)とを備える。以下の方法に関して説明される様々な動作がGPUによって実装され、一方、他の動作が、CPUによって実装される。たとえば、行列演算がGPUによって実施され得る。
プロセッサ3は、記憶装置7に結合され、作業メモリ9にアクセスする。プロセッサ3は、作業メモリ9中に記憶されたコード中の命令に応答し、それを処理する論理回路を備え得る。
コンピュータプログラム5は、不揮発性メモリに記憶される。不揮発性メモリ9は、プロセッサ3によってアクセスされ、記憶されたコード5は、プロセッサ3によって取り出され、実行される。特に、実行されるとき、以下で説明される方法を実施するコンピュータプログラムコード5は、作業メモリ9中に記憶されたソフトウェア製品として表される。プロセッサ3によるコード5の実行は、本明細書で説明される実施形態を実装させることになる。
プロセッサ3はまた、入力モジュール11と出力モジュール13とにアクセスする。入力および出力モジュールまたはインターフェース11、13は、単一の構成要素であり得るか、または別個の入力インターフェース11と別個の出力インターフェース13とに分割され得る。
入力モジュール11は、画像データを受信するための入力15に接続される。入力15は、外部記憶媒体からまたは通信ネットワークを通してデータを受信するための受信機であり得る。代替として、入力15は、画像キャプチャ装置などのハードウェアを備え得る。代替として、入力15は、保存された画像ファイルからデータを読み取り得、これは、システム上にまたはフロッピーディスク、CD ROM、磁気デバイスもしくはプログラマブルメモリデバイスなどの別個の記憶媒体上に記憶され得る。
出力モジュール13に接続されるのは、出力17である。出力17は、画像表示などのハードウェアを備え得る。代替として、出力は、外部記憶媒体にまたは通信ネットワークを通してデータを送信するための送信機であり得る。代替として、出力17は、保存された画像ファイル中にデータを書込み得、これは、システム上にまたはフロッピーディスク、CD ROM、磁気デバイスもしくはプログラマブルメモリデバイスなどの別個の記憶媒体上に記憶され得る。
記憶装置7は、プロセッサ3に通信可能に結合される。記憶装置7は、プロセッサ3によって実行されたときにコード5によって使用されるデータを含み得る。図示されているように、記憶装置7は、デバイス中に含まれているローカルメモリである。しかしながら、代替として、記憶装置7は、たとえば、(インターネットなどの)通信ネットワークを介してリモートでアクセスされ得るクラウドベースのメモリを使用して完全にまたは部分的にリモートに位置し得る。コード5はまた、記憶装置7中に記憶される。コード5は、実行されるとき、作業メモリ9中に配置される。
システム1は、データを入出力するためのハードウェアをもつ共通システム中に位置し得る。代替として、システム1は、別個のユニット(たとえば、画像キャプチャデバイス)から送信された画像データを受信し、別の別個のユニット(たとえば、画面を備えるユーザコンピュータ)に出力データを送信するリモートシステム1であり得る。たとえば、システムは、データを受信および送信するクラウドコンピューティングシステム上に実装され得る。説明されるシステムでは、デバイス中に位置する単一のプロセッサ3が使用されるが、システムは、同じシステム中に位置することもリモートに位置することもある2つ以上のプロセッサを備え得、これらは、処理の異なる部分を実施し、それらの間でデータを送信するように構成される。
メモリへのソフトウェアのロードおよび記憶装置ユニット7中へのデータの記憶のための通常のプロシージャが適用される。コード5は、元の機器中に埋め込まれ得るか、または製造後に全体としてまたは部分的に与えられ得る。たとえば、コードは、全体として、ダウンロードの形態であり得るコンピュータプログラム製品として導入され得るか、または光ディスクなどのコンピュータプログラム記憶媒体を介して導入され得る。代替として、既存のダイアログマネージャソフトウェアへの修正は、説明される実施形態の特徴を与えるために更新またはプラグインによって行われ得る。
説明される実施形態が任意のコンピューティングシステムに適用可能であるが、図1に示されている例示的なコンピューティングシステムは、本明細書で説明される実施形態を実施することが可能な手段を与えることを諒解されよう。
使用中に、システム1は、データ入力11を通して画像データを受信する。プロセッサ3上で実行されるプログラム5は、以下の図を参照しながら説明されることになる方式で出力13を通してデータを出力する。プロセッサ3は、プログラム命令に応答し、それを処理する論理回路を備え得る。
システム1が病院またはヘルスケアシステムに統合される場合、システム1はまた、患者情報または患者治療履歴などの病院またはヘルスケアシステム上に記憶された情報にアクセスし得る。システム1が、ウェブサービスとして実装される(すなわち、病院/ヘルスケアシステム中に統合されない)場合、画像がアップロードされ、分析される。患者情報などの他のデータは、画像とともにアップロードされ得る。分析出力は、データベース中に記憶され、および/またはユーザシステムに送信され得る。組織病理学者が画像のセットをアップロードし、これらが病院またはヘルスケア統合システム内で分析されるハイブリッド手法が実装され得る。
一実装形態では、入力画像データは、ユーザインターフェースを通した入力である。表現状態遷移(REST:Representational State Transfer)ウェブサービスは、システム上で動作する。RESTサービスは、ユーザから受信された送信されたデータからピクセルデータを再構成するように動作し、たとえば、分析記録との間でのデータの転送も管理する。これらの動作は、CPU上で実施される。ユーザインターフェースとRESTサービスとは、システムを実装するためのユーザ入力選択オプション、たとえば、どのモデルを使用すべきか、どの情報を出力すべきかを受信するようにも動作し得る。出力データおよびデータ入力は、クラウドベースの記憶装置中に記憶され、分析記録と呼ばれる。システムは、クラウドコンピューティングシステム上に実装され、これは、画像データを受信し、クラウド記憶装置に出力データを与える。
図2(a)は、一実施形態による、組織の画像を処理する方法の概略図である。本方法は、図1に関して説明されたシステムなどのシステム上に実装され得る。
本方法は、複数のピクセルを備える画像データIを入力として取り出す。入力画像データIは、ピクセルデータを備える。以下の説明では、ピクセルデータは、(高さ×幅×3の寸法の)赤緑青であるが、ピクセルデータは、代替として、たとえば(高さ×幅×1の寸法の)グレイスケールであり得る。入力画像データは、第1の数のピクセルを備え、ここで、第1の数は、高さ×幅に等しくなる。画像データは、最初に、(組織切片とも呼ばれる)組織の画像をキャプチャする顕微鏡に取り付けられたデジタルカメラを使用して取得され得る。
本明細書で説明される特定の例では、入力Iは、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像を備える。ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像の一例が図2(b)に示されている。グリッドがこの図の画像の上に重ねられている。全スライド画像(WSI)スキャナは、組織スライス全体を走査し得、たとえば、約60000ピクセルの高さ×60000ピクセルの幅を備えるヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像を生じる。
しかしながら、様々な方法を使用して取得された様々なタイプの組織画像が説明された方法を使用して処理され得る。たとえば、代替として、免疫組織化学(IHC)染色を受けた組織切片の画像が入力として取り出され得る。IHC染色は、組織切片の細胞中の抗原を選択的に識別することに関与する。抗体は、生物組織中の抗原に特異的に結合する。染色により、抗体と抗原の相互作用の視覚化が可能になる。たとえば、色素生産性免疫組織化学(CIH)を使用して、抗体は、発色反応を触媒することができる酵素に活用される。
本方法は、入力画像が特定のバイオマーカに関連付けられるのかどうかの指示を決定する。バイオマーカは、特定の病理学的または生理的プロセス、疾患、診断、療法または予後が識別され得る自然発生分子、遺伝子、または特性である。本明細書で説明される特定の例では、バイオマーカは、癌バイオマーカ、すなわち、特定のタイプの癌または特に有効な癌治療が識別され得る自然発生分子、遺伝子、または特性である。さらに、本明細書で説明される例では、バイオマーカは、分子バイオマーカである。バイオマーカは、分子であるか、または、たとえば、特定の分子の量など、1つまたは複数の分子のうちの1つに関連する特性であり得る。場合によっては、バイオマーカは、特定の癌治療に関連する分子である。バイオマーカは、臨床的に実行可能な遺伝子変異であり得る。画像データからバイオマーカの存在を決定することは、たとえば、通常の細胞と癌細胞との間の形態的な差が予期される画像データからの腫瘍検出よりもさらに困難である。
概して癌および/または患者の特定の分子プロファイルを理解することによって、ホルモン療法、免疫治療または標的薬治療を含む癌に対して行われる様々な処置が通知され得る。中でも、突然変異の状態、受容体の状態、またはコピー数多型を含む診断、治療または予後マーカのいずれかを含む様々な医学関連のバイオマーカは、患者がいくつかの療法にどのくらい応答することになるのかを決定するために識別され得る。突然変異の状態、受容体の状態、またはコピー数多型は、分子バイオマーカの例である。たとえば、場合によっては、分子バイオマーカは、タンパク質発現レベルであり得る。
たとえば、特定のバイオマーカは、エストロゲン受容体(ER)、プロゲステロン受容体(PR)またはヒト上皮成長因子受容体(HER2)であり得る。これらのピラーバイオマーカは、乳癌に特異的である。それらは、乳癌の予後のための最も重要なバイオマーカであり、標的治療に基づいてある。ERおよびHER2は、それぞれ癌治療のタモキシフェンおよびハーセプチンに一般に関連付けられる。患者は、これらの治療のための適合性を決定するためにこれらの2つのバイオマーカについてテストされ得る。本明細書で説明される方法は、入力画像がERバイオマーカに関連付けられるのかどうかの指示を決定するために使用され得る。この指示は、たとえば、確率であり得る。本明細書で説明される方法は、代替として、入力画像がHER2バイオマーカに関連付けられるのかどうかの指示を決定するために使用され得る。本明細書で説明される方法は、代替として、入力画像がPRバイオマーカに関連付けられるのかどうかの指示を決定するために使用され得る。特定のバイオマーカは、代替として、EGFRであり得、これは肺腺癌に関連付けられる。特定のバイオマーカは、代替として、MSIであり得、これは結腸腺癌に関連付けられる。
様々な分子バイオマーカは、胸部または結腸直腸などのカテゴリにいくつかの癌を分類するために使用され得る。たとえば乳癌は、それぞれER、PRおよびHER2のステータスに基づいて決定される5つの異なる分子「サブタイプ」を有する。たとえば、ER、PRおよびHER2がすべて陰性である場合、分子サブタイプは、「基底細胞様(basal-like)」である。したがって、複数の分子バイオマーカの存在または不在を決定することによって分子サブタイプが予測され得る。「分子サブタイプ」は、存在または不在に基づいて、または、場合によっては、1つのバイオマーカまたはバイオマーカのセットのレベルに基づいて特定のタイプの癌をカテゴリ分類する方法である。
本方法は、様々な他のバイオマーカを検出するために使用され得る。たとえば、抗原Ki-67も、癌の攻撃性を示す細胞増殖のためのマーカとしてテストされることが増えている。したがって、特定のバイオマーカは、代替として、Ki-67であり得る。たとえば、HER2-およびER+乳癌の腫瘍増殖を評価するときの等級方式における核分裂像数の代替としてKi67核抗原のIHC染色に基づくラベリングインデックスが他のIHCマーカとともに使用され得る。アジュバント化学療法のための任意の要件などの治療的な決定のための追加情報を与え得る。様々な研究では、生存の強力な予測子であることが示された。たとえば、PREDICTは、初期浸潤乳癌のための異なる治療が手術後の生存率をどのように改善する可能性があるのかを示すオンラインツールである。PREDICTモデルのパフォーマンスは、予後マーカとしてのKi67の関与とともに改善された。IHC染色されたKi67スライドを解釈するマニュアル採点方法は、腫瘍の外周においてなどランダム選択された関心領域中の浸潤細胞をカウントすることと、すべての浸潤腫瘍細胞に関するKi67染色の割合を決定することとを含む。上記で説明された従来の分子プロファイリング技法と同様に、このプロセスは、労働集約型であり、人的エラーを受けやすく、観測者間/観測者内にオープンである。たとえば、H&E画像からKi67インデックスを予測することによって、そのようなプロセスは、より短縮され、精度が潜在的に改善され得る。
本明細書で説明される例示的な方法は、癌の診断、治療および/または予後に関係する特定のバイオマーカの自動プロファイリングを提供する。特定のバイオマーカは、他の例の中でも、突然変異の状態、受容体の状態またはコピー数多型であり得る。プロファイリングは、他の画像が使用され得るが、この例では、全スライドH&E画像から実施される。例示的な方法は、癌画像とバイオマーカとの間の相関を識別するために一連のニューラルネットワークを適用することを備える。本明細書で説明される例では、バイオマーカは、分子バイオマーカである。
本方法は、画像前処理ステップS201を備える。画像前処理ステップS201は、組織の入力画像から画像部分の第1のセットを取得することを備える。
例示的なシナリオでは、全スライド画像(WSI)スキャナは、組織スライス全体を走査する。約60000ピクセルの高さ×60000ピクセルの幅を備えるスライド画像全体は、次いで、最初の処理ステップS201において連続部分またはタイルに分割される。画像部分は、固定入力された高さと幅とを有する。部分は、画像内で連続することも重複することもある。たとえば、画像部分のサイズは、512×512ピクセルであり得る。入力画像は、この寸法の部分への第1の分割である。他の部分サイズももちろん使用され得る。たとえば、2の累乗に対応する部分サイズ、たとえば、128×128、256×256、512×512、または1024×1024ピクセルが使用され得る。各入力画像は異なるサイズのものであり得、したがって、入力画像のサイズに応じて異なる数の部分が入力画像から抽出され得る。
これらの画像部分は、第1のセットを形成し得る。代替として、タイルを除去するために画像前処理段階S201においてさらなるステップが実施され得、したがって、残りのタイルが、以下の図3(a)に関してさらに後述されるように第1のセットのみを形成する。たとえば、画像部分は、いかなる癌細胞も含んでいないあらゆる画像部分を除去するために処理され得る。したがって、元の画像からの画像部分のすべてが必ずしも第1のセット中に含まれるとは限らない。
S202において、S201において取得された画像部分の第1のセットから1つまたは複数の画像部分の第2のセットを選択するステップが実施される。この段階では、第1のセット中で各画像部分の画像データが、第1の畳み込みニューラルネットワークを備える第1のトレーニング済みモデルに入力される。第1のトレーニング済みモデルは、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する。この段階について、以下の図5に関してより詳細に説明される。1つまたは複数の画像部分の低減されたセット、第1のセットが有するより少数の画像部分を有する第2のセットがS202において取得される。第2のセットは、第1のトレーニング済みモデルの出力から決定された1つまたは複数の代表的な画像部分を備える。
S203において、入力画像がバイオマーカに関連付けられるのかどうかの指示が1つまたは複数の画像部分の第2のセットから決定される。いくつかの実施形態では、指示は、トレーニングが不可能な関数、たとえば、図4に関して説明される最大値プーリング演算子を使用して生成される。他の実施形態では、複数の画像部分の第2のセットに対応する第1のデータは、第2のトレーニング済みモデルへの入力である。第2のトレーニング済みモデルの様々な例について、図5から図7に関して以下で説明される。
上記で説明されたように、現代の癌診断および治療は、癌、および、概して、患者の特定の分子プロファイルを理解することに依拠し得る。そのために、様々な医学関連バイオマーカは、患者がいくつかの療法にどのくらい応答することになるのかを決定するために遺伝的な、トランスクリプトーム的な、および免疫学的な分析の手段を通してテストされ得る。これらのテストは、ヒト生検試料に対して行われる。テストは、テストおよび試料のタイプに応じて、1日から30日のいずれかの期間がかかり、処置上の誤りを受けやすい。結果は、次いで、専門家によって分析され、これは、やはり、非常に時間がかかり、人的エラーに対して非常に弱い。図8は、そのような癌診断パイプラインの概略図を示す。
癌組織の画像から特定のバイオマーカの指示を自動的に決定することは、そのようなプロセスの時間を短縮し得る。さらに、人的エラーの除去を通して信頼性が改善され得る。そのような自動化されたシステムは、病理学者および他のものがそれらの決定を行うのに役立ち、たとえば、プロセスの感度を改善し得る。
そのような決定を行うために、機械学習モデルは、トレーニングデータセットを使用してトレーニングされ得る。たとえば、トレーニングデータセットは、多くの全スライド画像を備え得、各画像は、特定のバイオマーカが患者中に存在するのか否かに関して標示される。
入力画像は、部分(タイル)中で処理され得る。たとえば、前処理ステップ中に癌組織に対応しないタイルを除去することによって、処理されることになるデータの量が低減され、信頼性が改善され得る。バイオマーカに対応する画像の特定の領域は識別され得るので、これはまた、結果の解釈可能性を改善する。しかしながら、組織の入力画像の部分が特定のバイオマーカに関連付けられるのかどうかの指示を決定するためにモデルをトレーニングすることは、困難であり得る。そのような問題は、標示が各個のインスタンス(タイル)ではなく全スライド画像(WSI)に関連付けられるマルチインスタンス学習(MIL)問題の一例である。これは、1対1のマッピングがインスタンスとクラスとの間に成り立つとみなされる分類問題とは異なる。MIL設定では、データは、弱く標示され、すなわち、多くのインスタンスのためにただ1つのクラス標示が与えられ、問題を本質的により困難にする。画像は、正として標示されるために、正のクラスの少なくとも1つのタイルを含んでいなければならないが、負のスライド中ですべてのタイルは、負として分類されなければならない。この公式化により、個々のインスタンスの標示がトレーニング中に存在することが可能になる。しかしながら、それらの真値は、未知のままである。したがって、画像レベルの確率を取得するためにタイルをアグリゲートする手段が使用される。
アグリゲーションは、トレーニングが不可能な関数を使用して実施され得る。最大値演算子などのプーリング演算子は、分類器がタイルごとに確率を戻し、最大値演算子を通して個々のスコアをアグリゲートすることに関与するインスタンスレベルの分類設定において使用され得る。そのような方法の一例が、図4に示されている。この方法では、1つの画像部分の第2のセットが、分類器を使用して画像部分の第1のセットから選択され、第2のセットからの入力画像がバイオマーカに関連付けられるのかどうかの指示がこの画像部分から決定される。
そのようなアグリゲーション方法は、しかしながら、タイルの個々の標示がトレーニング中に未知であるので、場合によっては、信頼できない画像レベルの予測を与え得る。さらに、単一のタイルにのみ依拠することは、すべての事例において画像を適切に表し得ない。特に、WSIは、同様の特性をもつ何百ものタイルを含み得る。いくつかの実施形態では、分類器の出力は、複数の画像部分の第2のセットを選択するために使用され、それらは、次いで、画像を表すために使用される。画像中のタイルの数にかかわらず、第2のセットのみ、たとえば、入力画像がバイオマーカに関連付けられるのかどうかの指示を決定するために上位k個のタイルが使用されるので、これにより、本方法は、任意のサイズの画像に適用可能になる。タイルの代表的なセットを取得するために「最大値プーリング」ベースのタイル選択が使用され得る。入力画像がバイオマーカに関連付けられるのかどうかの指示は、次いで、アグリゲーションを実施する第2のトレーニング済みモデルにタイルの代表的なセットからのデータを入力することによって決定される。アグリゲーション演算子は、ニューラルネットワークを備える。最大値プーリングなどのあらかじめ定義されたトレーニングが不可能なアグリゲーション演算ではなく完全にトレーニング可能なアグリゲーション演算子により改善された信頼性が可能になる。アグリゲーションのパラメータ化は信頼性を増加させる。本方法は、学習可能なアグリゲーション関数とモデルに統合されるタイル選択プロシージャとを使用する。
さらに、アグリゲーションステップを含む完全モデルが、エンドツーエンド方式でトレーニングされ、信頼性をさらに改善し得る。
画像データからバイオマーカの存在を決定することは、たとえば、腫瘍検出よりも困難である。しかしながら、画像部分選択およびアグリゲーションの組合せを使用することによって、信頼できる分類が取得され得る。
異なるアグリゲーション演算子が使用される様々な例示的な方法について図4から図7に関して説明される。図4は、トレーニング済みでない関数がアグリゲーション演算として使用される例示的な方法を示し、一方、図5~図7は、アグリゲーション演算子がトレーニング済みモデルを含む例を示す。図4~図7に示されている方法では、1つまたは複数のタイルの第2のセットが、第1のCNN40分類器の出力に基づいてS202において選択される。タイルのこの第2のセットは、次いで、画像レベルの指示を生成するためにS203において処理される。しかしながら、画像前処理ステップS201について、最初に、図3(b)に関してより詳細に説明される。
図3(b)は、一実施形態による、方法において使用される画像前処理ステップS201の概略図を示す。図3(a)は、ヘマトキシリンとエオシンとを用いて染色された組織切片の画像である入力画像Iと画像部分の第1のセットである出力との概略図を示す。
S301において、入力画像、たとえば、WSIが固定サイズの部分またはタイルに再分割される。この例では、各部分は、1:1のアスペクト比を有し、すなわち、各部分は、正方形の画像である。タイルの生成が、異なる倍率レベルで、隣接するタイルの間で変動する量の重複で実施され得るが、単純なタイリング戦略は、タイルの間の重複なしで第1のスライドレベルから512×512ピクセルのパッチを取得することを備え得る。
背景検出ステップが、次いで、大部分は背景であるあらゆるタイルを除去するために実施される。背景エリアは、図でわかるように「白い」エリアである。ガウスフィルタ処理と、ヒストグラム均一化と、カラー正規化と、画像ノイズ除去とを含む様々な画像前処理技法も前処理ステップS201において利用され、画像がアーティファクトまたは不十分なコントラストを受けるときに前景オブジェクトのより良い検出を可能にすることができる。
S302において、背景検出アルゴリズムが適用される。背景検出は、画像の「サムネイル」、すなわち画像全体のより低解像度のコピーに対して実施される。サムネイルは、画像のより低解像度のスナップショット、たとえば、WSIである。たとえば、元の画像は、60000×60000ピクセルであり得るが、サムネイルは、たとえば、1024×1024ピクセルである。このステップは背景から組織をセグメント化するために使用され、対応する出力マスクは、以下で説明される方式で元の画像の解像度に一致するようにサイズ変更される。
このステップでは、画像は、最初に、グレイスケールに変換される。
背景のセグメンテーション(または組織の抽出)は、高い空間周波数をもつピクセルの位置を特定するために入力画像に対してエッジ検出畳み込みカーネルを適用することで開始する。エッジ検出カーネルと画像との間の畳み込みが実施される。カーネルは、たとえば、以下のようなあらかじめ定義された値の小さい行列である。
Figure 2023543044000002
複数のエッジ検出カーネルがこのステップでは適用され得、たとえば、[+1,0;0-1]および[0,+1;1,0]の形態の2×2のカーネルのペアが使用され得る。
このステップは、遷移が存在する領域を強調する。エッジ検出ステップは、画像の勾配を出力する。高い勾配は、エッジまたは遷移に対応する。組織領域は、概して、背景領域よりもはるかに多くの遷移を含んでいる。したがって、組織領域がこのステップにおいて強調されることになる。
勾配は、ガウスカーネルを用いてさらに平滑化される。ガウスぼかしカーネルと画像との間の畳み込みが実施される。このステップの目的は、ピクセルをぼかすことにあるので、したがって、以下のステップで実施される2値化は、より少数のアーティファクトを有することになる。これは、本質的に、強調された領域を平滑化する。平滑化された勾配は、前景ピクセルを強調する。
ぼけた画像は、ヒストグラムベースのしきい値処理方法を用いて2値化される。このステップは、ピクセル値が何らかのしきい値Tよりも大きい場合は値1と、ピクセル値がしきい値よりも小さい場合は値0と各ピクセル値を置き換える。しきい値は、クラス内強度分散を最小化することによってまたは等価的にクラス間分散(「背景」と「前景」とであるクラス)を最大化することによってしきい値が決定される大津の方法などのヒストグラムベースの方法を使用して各タイルのために決定される。パフォーマンスを維持しながらこのステップに必要な計算を低減するために、解像度(すなわち、ヒストグラムビンの数)が、エントロピーの測度に基づいて選択され得、ここで、より高いエントロピーをもつ画像は、より高い解像度で処理される。三角しきい値処理などの代替のヒストグラムベースの方法が使用され得る。
中央値フィルタが、顕著でない構成要素を除去するためにバイナリマスクを介して畳み込まれる。
最後に、前景中の穴が、組織内の偽陰性を取得する可能性を最小限に抑えるために充填される。A*アルゴリズムおよび連結成分分析アルゴリズムを含む様々な知られているアルゴリズムがこのステップにおいて使用され得る。
部分的に背景上にある、たとえば、ピクセルの80%が背景である(ピクセル値が0である)ものとして示されるタイルが、次いで、さらなる分析から除去される。
S303では、前のステップを生き残ったあらゆる「すべて白色の」タイルを除去するために標準偏差演算が使用される。標準偏差演算は、前のステップから出力された各画像部分(タイル)に適用される。このステップでは、前のステップから出力されたピクセル値の標準偏差が取り出される。タイル内のすべてのピクセル値の標準偏差である単一値が戻される。ピクセルの大部分が「白色」である場合、この値は低くなる。しきい値よりも小さい値を出力するタイルがこのステップにおいて除去される。良好なパフォーマンスを与えるしきい値が決定され得る。
S303の後に、大部分が前景であるタイル(すなわち組織)が残され、以下のステップにおいて処理される。
S304において、癌細胞のセグメンテーションのステップが実施される。細胞のセグメンテーションステップの結果は、いかなる癌細胞も含んでいないタイルを除去するために使用され、したがって、当面のタスクに関係する画像部分のみが後続のステップに入力される。非癌組織しか含んでいないタイルは破棄される。
トレーニング済みモデルが細胞のセグメンテーションを実施するために使用され得る。モデルは、ピクセルをクラス標示、たとえば、癌細胞および背景に変換するように構成される。細胞レベルで癌組織を識別するようにトレーニングされたセグメンテーションモデルMは、いかなる癌細胞も含んでいないタイルを除去するために使用される。例示的なモデルMについて以下で説明される。しかしながら、タイル画像をセグメント化する様々な方法が使用され得る。元のタイル画像は、(S302およびS303においてすでに除去されたものを除き)モデルMに入力される。
モデルMは、ピクセルが癌細胞に対応するのかどうかを表す複数のピクセルの各々に対応する値を生成する。分類は、画像を癌組織の領域と癌組織を含んでいない領域との2つのクラスにセグメント化するために入力画像部分の各ピクセルに対して実施される。モデルMは、セマンティック画像セグメンテーションを実施し、これは、入力画像中の各ピクセルが分類されることを意味する。この事例における分類は、2つのカテゴリへと実施され、モデルの出力は、ピクセルが癌組織に対応するのかまたは非癌組織に対応するのかを示す2つの値を備える。出力は、入力部分と同じ高さと幅とを有する。たとえば、入力データが、512ピクセルの高さと512ピクセルの幅とを有する場合、出力は、高さ512と幅512とを有する値のアレイである。値はカテゴリを示す。
次に、例示的なモデルMについて、図3(c)に関して説明され、これは、CNNに基づく例示的なセグメンテーションモデルMの概略図を示す。出力では、出力画像の異なる影つき領域は、癌組織の領域と癌組織でない領域とに対応する。
実際には、はるかに多いレイヤが含まれる可能性があるが、図は、空間寸法がレイヤ全体にわたっていかに変更され得るのかを示すものである。モデルMは、たとえば、100を超えるレイヤを備え得る。概して、異なるタイプのレイヤと異なる数および組合せのレイヤとが、様々な使用事例のためにモデルMを実装するために可能である。
モデルMは、畳み込みニューラルネットワーク(CNN)を備える。CNNは、少なくとも1つの畳み込みレイヤを備えるニューラルネットワークである。モデルMは、複数の畳み込みレイヤを備え、様々なフィルタおよびいくつかのフィルタは、様々なサイズの出力ボリュームを生成する。フィルタ重みは、図3(e)に関して以下で説明されるトレーニング段階中に更新されるトレーニング可能パラメータである。
ピクセルデータは、CNNに直接入力され得る。CNN中の第1のレイヤは、畳み込みレイヤである。第1のレイヤ中の各フィルタは、入力データの深度に一致する深度を有する。たとえば、入力データがRGBである場合、第1のレイヤ中のフィルタ深度は3である。
第1のレイヤの出力ボリュームは、いくつかのファクタによって決定される。レイヤの出力ボリュームの深度は、フィルタの数に対応する。一実施形態では、32個のフィルタが第1のレイヤにあり、したがって、第1のレイヤの出力は32の深度を有する。したがって、後続のレイヤ中のフィルタは、32の深度を有することになる。出力ボリュームの高さおよび幅は、入力の高さおよび幅と、フィルタの受容フィールドサイズ(高さと幅との両方)と、フィルタストライドとによって決定される。ストライドが1であるとき、フィルタは、一度に1つのピクセルをスライドする。ストライドが2であるとき、フィルタは、一度に2つのピクセルをスライドし、より小さい出力ボリュームを生成する。境界で使用されるあらゆるゼロパディングも出力サイズに影響を及ぼすことになる。
各フィルタは、入力の幅と高さとに沿って移動され、各位置においてドット積を取り出す。1つのフィルタのための出力値は、2Dアレイを形成する。レイヤ中のすべてのフィルタからの出力アレイは、深度次元に沿って積み重ねられ、得られたボリュームが次のレイヤに入力される。
モデルMは、出力が入力よりも小さい寸法を有する複数のレイヤを備える。たとえば、高さおよび/または幅が入力よりも小さくなり得る。このようにして、深度が増加する間に、出力の高さと幅とがいくつかのレイヤを通して減少し得る。たとえば、出力が入力よりも小さい高さおよび/または幅を有する第1のレイヤがあり、その後に、出力が入力と同じ寸法を有する1つまたは複数のレイヤが続き、その後に、出力が入力よりも小さい高さおよび/または幅を有するさらなるレイヤが続き得る。たとえば、第1のレイヤは、画像データ(513×513×3)を入力として取り出し、ボリューム(257×257×32)を出力し得る。このレイヤは、32個のフィルタを使用して畳み込みを適用し、その各々は、ボリュームのアレイ257×257を出力する。高さおよび幅は低減されるが、深度は増加する。高さおよび幅は、たとえば、フィルタハイパーパラメータ(たとえば、ストライド)の調整によって低減され得る。モデルMの出力が入力と同じ高さおよび幅を有するので、モデルMはまた、出力が入力よりも大きい寸法を有する少なくとも1つのレイヤを含む。モデルMは、「エンコーダ/デコーダ」構造を有し得、それにより、レイヤは、最初に、(たとえば、ストライドサイズなどのフィルタハイパーパラメータを介して)深度を増加させる間に高さと幅とを減少させ、次いで、(たとえば、プーリングレイヤおよび/またはバイリニアアップサンプリングレイヤを介して)深度を減少させる間に高さおよび幅を増加させる。
モデルはまた、1つまたは複数の活性化レイヤを備える。たとえば、モデルは、要素ごとの活性化関数を適用する1つまたは複数のRELU(正規化線形ユニット)レイヤを備え得る。バッチ正規化レイヤは、各畳み込みレイヤの後に実装され得る。活性化レイヤは、バッチ正規化レイヤの後に実装され得る。モデルは、畳み込みレイヤと、バッチ正規化レイヤと、活性化レイヤとを備えるかまたは第1の畳み込みレイヤと、第1のバッチ正規化レイヤと、第2の畳み込みレイヤと、第2のバッチ正規化レイヤと、活性化レイヤとを備える1つまたは複数のユニットを備え得る。
1つまたは複数の標準畳み込みレイヤと同様に、畳み込みニューラルネットワークは、膨張畳み込みを備える隠れレイヤをさらに備える。このレイヤは、アトラス畳み込みレイヤと呼ばれることがある。アトラス畳み込みは、膨張畳み込みと呼ばれることもある。膨張畳み込みを実施するフィルタの概略図が図3(d)に示されている。図3(d)に示されている膨張畳み込みは2の膨張ファクタを有して、フィルタは、3×3の受容フィールドサイズを有する。lの膨張ファクタをもつ入力Iとフィルタfとの間の一般的な非有界事例のための(*lとして表される)膨張畳み込み動作は、以下の通りである。
Figure 2023543044000003
畳み込みニューラルネットワークレイヤにおいて使用される膨張畳み込みは入力サイズによって制限される。膨張ファクタが1である場合、演算は上記で説明された標準畳み込み演算である。図3(d)に示されるように膨張ファクタが2である場合、各位置において、入力値が1離れて離間された状態でのフィルタ値のドット積が取り出される。フィルタは、前と同じ方法でストライドに従って入力の幅と高さとに沿って移動される。しかしながら、入力からのエントリは、膨張ファクタによって決定される距離だけ離間される。したがって、膨張ファクタを増加させることは、フィルタサイズを増加させることなしに、すなわち、パラメータの数を増加させることなしにフィルタのための有効な受容フィールドを広げる。1より大きい膨張ファクタを有することは、パラメータの数を増加させることなしに非ローカル特徴が学習され得ることを意味する。膨張畳み込み演算を含むことは、パラメータの数、したがって、計算コストの増加なしにより広い視野を与える。受容フィールドは、解像度の損失なしに効果的に拡張され得る。アトラス畳み込みはまた、ギャップ付きサンプリングの畳み込みとして定義され得る。異なる膨張ファクタをもつ畳み込みを含むことによって、ローカル特徴と非ローカル特徴との両方が学習され得る。
図示の例では、膨張畳み込みを備える単一のレイヤnがある。膨張畳み込みを備えるレイヤは、プーリングレイヤおよびアップサンプリングレイヤより前に位置する。膨張畳み込みを備えるレイヤのロケーションは、使用事例に応じてネットワークの様々な段階にあるように選択され得る。たとえば、さらにネットワークを通して膨張畳み込みを備えるレイヤの位置を特定することによって、より高レベルの特徴がこのレイヤ中で学習され得る。
モデルMのn番目のレイヤ中で、複数の別個の畳み込み演算がレイヤへの入力として取り出されたデータに対して並行して実施される。各畳み込み演算は、別個のフィルタとして実施される。畳み込み演算のうちの少なくとも1つは、膨張畳み込みである。フィルタのうちの1つまたは複数は、異なる膨張ファクタを有し得る。示されるレイヤn中で、示される畳み込み演算のうちの2つは、異なる膨張ファクタを有する膨張畳み込みである。第1の畳み込みは、1に等しい第1の膨張ファクタを有する標準畳み込みであり、第2の畳み込みは、2に等しい第2の膨張ファクタを有する膨張畳み込みであり、第3の畳み込みは、3に等しい第3の膨張ファクタを有する膨張畳み込みである。しかしながら、様々な組合せが実装され得、様々な数のフィルタが含まれ得る。
各フィルタは、(すなわち、前のn-1のレイヤからの出力データである)同じ入力を取り出す。したがって、各フィルタは、n-1のレイヤからの出力と同じ深度を有する。各フィルタは、異なる膨張ファクタを有する。レイヤは、様々な膨張ファクタをもつとともにアトラス畳み込みの組合せを備え得る。フィルタは、標準畳み込みレイヤ中のフィルタと同じ方式で並行してそれらの演算を実施する。各フィルタは、値のアレイを出力する。アレイは、異なるサイズのものであり得る。出力アレイからの値は、ベクトルに連結され、これは、次いで、2Dアレイを形成するために再整形される。このアレイは、n+1のレイヤへの入力として取り出される。フィルタの出力は、したがって、組み合わされ、後続のレイヤに入力される。
異なる膨張ファクタを有する異なる畳み込み演算が単一のレイヤ中に実装される。これを行うことによって、レイヤは、同時にローカル情報と非ローカル情報との両方の相関を学習することが可能になり、したがって、高次の空間コンテキストの学習が可能になる。ローカル特徴と非ローカル特徴との両方に関する情報がネットワークを通して伝搬される。これは、たとえば、組織形態を学習するのに役立つ。
レイヤnは、膨張ファクタ1、4、8および12を有する4つのフィルタを備え得る。しかしながら、フィルタの様々な組合せが可能である。図では、各フィルタの出力が同じ寸法を有するものとして示されているが、実際には、各フィルタは異なる出力寸法を有し得る。膨張フィルタは、1のストライドを有し得る。膨張フィルタは、同じ受容フィールドサイズを有し得る。受容フィールドサイズは、前のレイヤと同じであり得る。
モデルは、スキップ接続をさらに備える。実際には、モデルは複数のスキップ接続を備え得るが、簡単のために、少数のレイヤと単一のスキップ接続とが示されている。第1のレイヤmは、前のレイヤの出力よりも小さい次元を有する出力mと呼ばれる出力を生成する。この場合、出力mは、出力lよりも小さく、同じく、出力kよりも小さい。したがって、出力mは、直前のレイヤlの出力よりも小さく、同じく、前のレイヤkの出力よりも小さい。
第2のレイヤqは、第1のレイヤmの後にある。第2のレイヤqへの入力は、(出力lとも呼ばれる)第1のレイヤmの入力ならびに第2のレイヤqの直前のレイヤの出力(すなわち、レイヤpの出力)から生成される。以前のレイヤから後のレイヤに直接出力を入力することは、「スキップ接続」と呼ばれることがある。第1のレイヤmの入力は、レイヤpの出力とのピクセル単位の加算によって組み合わされる。結果は、次いで、第2のレイヤqに入力される。スキップ接続は、入力を組み合わせるピクセル単位の加算レイヤを含むことによって実装され得る。スキップ接続がピクセル単位の加算によって実装される場合、入力は同じ寸法を有しなければならない。この場合、スキップ接続は、同じ寸法を有するレイヤの間で実装される。たとえば、第1のレイヤと第2のレイヤとは、第1のレイヤmの入力が(第2のレイヤの直前の)レイヤpの出力と同じ寸法になるように選択される。
1つまたは複数のスキップ接続を使用して、ダウンストリームからの情報がアップストリームに直接供給される。これは、ネットワーク全体にわたってハイレベルのグローバルな視覚特徴と地域の視覚特徴とを維持する。これらは、大きいパッチセグメンテーションに有用である。スキップ接続を含むことは、「ラダー」手法と呼ばれることがある。レイヤのうちの1つまたは複数では、出力は入力よりも小さい。以前のレイヤから直接後のレイヤに特徴を入力し、1つまたは複数の介在レイヤをスキップすることは、コンテキストを与える。
畳み込みレイヤに加えて、モデルは、1つまたは複数のプーリングレイヤを備える。たとえば、プーリングレイヤは、空間サイズを変化させるために含まれ得る。プーリングレイヤは、たとえば、幅および/または高さを増加させ、出力の深度を減少させるために使用され得る。プーリングレイヤは、「平均プーリング」レイヤであり得る。平均プーリングレイヤは、空間範囲およびストライドを有するフィルタを備え、これは、入力にわたって移動され、各位置において平均値を取り出す。しかしながら、平均以外の関数、たとえば、最大値プーリングが使用され得る。アップサンプリングレイヤ、たとえば、1つまたは複数のバイリニアアップサンプリングレイヤが、追加または代替として、出力レイヤの高さおよび/または幅を増加させるために含まれ得る。
モデルは、1つまたは複数のピクセル単位の加算レイヤおよび/または連結レイヤをさらに備え得る。これらのレイヤは、2つ以上の前のレイヤからの出力を組み合わせるように働く。
1つまたは複数の全結合レイヤが畳み込みレイヤの後に含まれ得る。ドロップアウトレイヤはまた、過学習を軽減するために含まれ得る。
ピクセルごとに各カテゴリのための単一の出力がある。さらなる活性化関数は、ピクセル単位の様式、たとえば、バイナリソフトマックス関数で出力に適用される。活性化関数は、ピクセルの値を入力として取り出し、確率値を出力する。したがって、最後の活性化関数は、単一のピクセルのために、各カテゴリのための1と0との間の確率値を出力する。最後のレイヤは、入力と同じ高さと幅とを有する出力を生成する。出力の深度は、カテゴリの数、この場合は、2(ピクセルが癌組織に対応するのかまたは非癌組織に対応するのか)に等しくなる。出力深度は、所望の出力深度に対応するフィルタの数(すなわち、カテゴリの所望の数)を有する畳み込みレイヤによって設定され得る。この畳み込みレイヤは、最後のレイヤの前に位置し得、ここで、最後のレイヤは、たとえば、同じ出力深度を有する(たとえば、転置畳み込みを使用する)アップサンプリングレイヤである。出力アレイ中の値は、ピクセルがそのカテゴリに対応するのかどうか、この場合、ピクセルが1つのカテゴリのための癌細胞に対応するのかどうか、およびピクセルが他のカテゴリのための背景に対応するのかどうかを示す。
癌組織カテゴリのための0.5以上の値は、次いで、(癌組織を示す)1に丸められる。このしきい値は、ハイパーパラメータとして変更され得る。各ピクセルのための値1(癌組織)または0(非癌組織)をもつ値の単一の行列は、たとえば、カテゴリを組み合わせることによって最後の出力として生成される。図に示されている出力は、ピクセルについて癌組織が存在するのかどうかを示す。
いかなる癌細胞も含んでいない、たとえば、80%を超える出力ピクセル値がカテゴリ癌組織について0である出力に対応する画像部分(タイル)は、次いで、除去される。75%と80%との間のしきい値は、選択され得る。しきい値は、ハイパーパラメータとして変更され得、良好なパフォーマンスを与える値が決定される。残りのタイルに対応する元のタイルは、画像部分の第1のセットを形成し、後続のステップS202およびS203において使用される。各画像は、異なるサイズのものであり、変動する量の癌組織を含んでいるので、各入力画像は、入力画像ごとに数十から数千までの範囲で、第1のセット中に異なる数の出力タイルを生じ得る。
任意選択で、カラー正規化プロセスは、後続のステップS202およびS203に画像データを入力するより前にタイル画像に適用される。自動組織病理撮像システムにおける課題は、それらの色分布に関して全スライド画像にわたる分散である。この変化は、染色およびスライド準備プロシージャならびにスキャナのタイプおよび他のハードウェア関連パラメータの差に起因し得る。色の多様性は、特に、汎癌研究のための障害として存在し、これは、様々な現場で取得された複数のデータセットをカバーし得る。さらに、それは、最初にモデルを構築するために使用されるデータセットとはまったく異なる可能性がある他のデータセットへの計算モデルの一般化可能性に深刻な影響を有し得る。概して、モデルが、色特徴に焦点を当て、それらを当面のタスクに関連付けるとき、それは、異なる色スペクトルでデータセットから取得された初見の画像に対して失敗し得る。色の変化に対処する1つのオプションは、RGB画像をグレイスケールに変換することである。しかしながら、これは、普通なら色チャネルから取得されたであろう情報の損失につながり得る。
グレイスケール変換に対する代替は、Ruifrok ACおよびJohnston DA、「Quantification of histochemical staining by color deconvolution」、Analytical and quantitative cytology and histology 23:291~299、2001年9月において説明されている方法に基づく。本方法では、ターゲット画像と同じ「色プロファイル」を有するようにソースタイルを色正規化するためのプロセスが実施される。本明細書で説明される例では、組織学画像は、ヘマトキシリンおよびエオジン(H&E)染色で染色される。これらの2つの化学物質は、一般に、細胞核を濃い紫色(ヘマトキシリン)に染色し、細胞質を明るいピンク色(エオシン)に染色する。したがって、理想的な組織画像中のすべてのピクセルは、主に、2つの色から構成される。これらの染色色は、画像ごとに変化し、染色行列に要約され得る。ソース全スライド画像とターゲット全スライド画像との両方の染色行列Mが決定される。染色行列Mは、「A method for normalizing histology slides for quantitative analysis」、Macenkoら、IEEE International Symposium on Biomedical Imaging: From Nano to Macro、10.1109/ISBI.2009.5193250において説明された方法を使用して推定され得る。染色行列は、2つの単位ベクトルから構成される行列M=(h|e)であり、ここで、hおよびeは、h染色およびe染色の色の3Dベクトルである。
Figure 2023543044000004
ターゲットとソースとの染色行列を推定すると、ソースのための色正規化RGBピクセル値が、次いで、決定され得る。所与のピクセル染色密度ベクトル
Figure 2023543044000005
は、
Figure 2023543044000006
のピクセルRGB光学濃度を有する。すなわち、c=M-1xである。
ソース画像の染色行列M1とターゲット画像のM2とを推定すると、ターゲット画像の色プロファイルにソース画像中のピクセルx1を色正規化するために、c1=M1 -11が最初に決定される。逆行列M-1は、それの列空間上への投影を使用して決定され、したがって、c1は、c1=(M1 T1-11 T1として同等に決定される。色正規化ピクセルは、次いで、
Figure 2023543044000007
として計算される。
輝度正規化は、ソース画像中の各ピクセルのための密度(各ピクセルのためのcベクトル)を取り出し、ターゲット画像中のピクセルにわたって各染色密度について99パーセンタイル上限に一致するように値をシフトまたは再スケールすることによって適用され得る。再スケーリングされたピクセル染色密度ベクトルcは、次いで、
Figure 2023543044000008
を決定するために使用される。
図5(a)は、一実施形態による、組織の画像を処理する方法の概略図を示す。
本方法は、上記で図3に関して説明されているように、組織の入力画像から画像部分の第1のセットを取得するステップS201を備える。S201において識別された各画像部分は、次に、S202への入力として取り出される。画像部分の元の画像データは、入力、すなわち元のピクセル値として取り出され得る。代替として、上記で説明したように、たとえば、色正規化のために、何らかの前処理が元のピクセル値に対して実施され得る。
第1のセットからの画像部分のための画像データは、S202において第1の畳み込みニューラルネットワーク(CNN)40に入力される。このステップは、図では「ステップ1:タイルの選択」と標示されている。第1の畳み込みニューラルネットワーク40は、少なくとも1つの畳み込みレイヤを備える第1の部分46と1次元ベクトルを入力として取り出す第2の部分47、分類部分とを備える。第2の部分47は、たとえば、少なくとも1つの全結合レイヤを備え得る。第1のCNN40は、深度および視野の様々なレイヤで画像に適用される畳み込みフィルタを備える第1の部分46、その後に、データの低減のために全結合密レイヤおよび/またはプーリングレイヤを備える第2の部分47を備えるニューラルネットワークのマルチレイヤアーキテクチャである。フィルタ重みは、トレーニング段階中に学習されるトレーニング可能パラメータである。下位レベルのフィルタは、エッジおよびブロブなどの粗い構造を検出するが、より深いレベルは、形状およびテクスチャのようなより複雑なプロパティをキャプチャし、最後に、最上位レイヤは、バイオマーカの識別情報に関する関心オブジェクトに対して一般化するために学習する。
第1のCNN40は、バイナリ分類を使用する。言い換えれば、CNNは、タイルが特定の分子バイオマーカに関連付けられるのかどうか、すなわち単一のクラスを決定するために使用される。画像が多くの可能なバイオマーカのうちの1つに関連付けられるのかどうかを決定することが望まれる場合、各バイオマーカのために別個のモデルが使用され得る。
タイルは、第1のCNN40に提出される。ピクセルごとのデータが第1のCNN40に直接入力され得る。タイルごとに、CNNは、タイルが正のクラスに割り当てられる(すなわち、タイルが分子バイオマーカに関連付けられる)確率を出力する。
CNNは、残差ネットワークアーキテクチャに基づき得る。残差ニューラルネットワークは、1つまたは複数のスキップ接続を備える。しかしながら、代替アーキテクチャは、入力画像から顕著な形態的特徴をキャプチャし、ターゲットバイオマーカとそれらを相関させるのに十分な容量を有する。容量は、ネットワークサイズと、レイヤの数、畳み込みのタイプなどのような他のアーキテクチャのファクタとによって決定され得る。次に、残差ネットワークアーキテクチャに基づく例示的なCNNアーキテクチャについて、図5(c)に関して説明され、これは、例示的な第1のCNN40の概略図を示す。図は、簡単のために、少数のレイヤを示すが、第1のCNN40は、たとえば、100個以上のレイヤを備え得る。
CNN中の第1のレイヤは、図では「畳み込みレイヤ1」と標示される畳み込みレイヤである。第1のレイヤ中の各フィルタは、入力データの深度に一致する深度を有する。たとえば、入力データがRGBである場合、第1のレイヤ中のフィルタ深度は3である。簡単のために、図4(c)に示されているCNNは、1(すなわち、グレイスケール入力データ)の入力データ深度を有する。
第1のレイヤの出力ボリュームは、いくつかのファクタによって決定される。第1のレイヤの出力ボリュームの深度は、フィルタの数に対応する。たとえば、32個のフィルタが第1のレイヤにあり得、したがって、第1のレイヤの出力は32の深度を有する。したがって、後続のレイヤ中のフィルタは、32の深度を有することになる。出力ボリュームの高さおよび幅は、入力の高さおよび幅と、フィルタの受容フィールドサイズ(高さと幅との両方)と、フィルタストライドとによって決定される。ストライドが1であるとき、フィルタは、一度に1つのピクセルをスライドする。ストライドが2であるとき、フィルタは、一度に2つのピクセルをスライドし、より小さい出力ボリュームを生成する。境界で使用されるあらゆるゼロパディングも出力サイズに影響を及ぼすことになる。各フィルタは、入力の幅と高さとに沿って移動され、各位置においてドット積を取り出す。1つのフィルタのための出力値は、2Dアレイを形成する。レイヤ中のすべてのフィルタからの出力アレイは、深度次元に沿って積み重ねられ、得られたボリュームが次のレイヤに入力される。
各畳み込みレイヤの後に活性化レイヤが続き得る。活性化レイヤは、要素ごとの活性化関数を適用し、サイズを変更せずに残す。活性化レイヤは、簡単のために図に示されていない。たとえば、モデルは、要素ごとの活性化関数を適用する1つまたは複数のReLU(正規化線形ユニット)レイヤを備え得る。バッチ正規化レイヤは、各畳み込みレイヤの後に実装され得る。活性化レイヤは、バッチ正規化レイヤの後に実装され得る。モデルは、畳み込みレイヤと、バッチ正規化レイヤと、活性化レイヤとを備えるかまたは第1の畳み込みレイヤと、第1のバッチ正規化レイヤと、第2の畳み込みレイヤと、第2のバッチ正規化レイヤと、活性化レイヤとを備えるユニットを備え得る。
第1のCNN40は、出力が入力よりも小さい寸法を有する複数のレイヤを備える。たとえば、高さおよび/または幅がレイヤへの入力よりも小さくなり得る。このようにして、深度が増加する間に、高さと幅とがいくつかのレイヤを通して減少し得る。第1のCNN40は、「エンコーダ/デコーダ」構造を有し得、それにより、レイヤは、最初に、(たとえば、ストライドサイズなどのフィルタハイパーパラメータを介して)深度を増加させる間に高さと幅とを減少させ、次いで、(たとえば、プーリングレイヤおよび/またはバイリニアアップサンプリングレイヤを介して)深度を減少させる間に高さおよび幅を増加させる。これは、レイヤの出力サイズを示す図5(c)に示されている。
モデルは、1つまたは複数のプーリングレイヤをさらに備え得る。たとえば、プーリングレイヤは、空間サイズを変化させるために含まれ得る。プーリングレイヤは、たとえば、幅および/または高さを増加させ、出力の深度を減少させるために使用され得る。プーリングレイヤは、「平均プーリング」レイヤであり得る。平均プーリングレイヤは、空間範囲およびストライドを有するフィルタを備え、これは、入力にわたって移動され、各位置において平均値を取り出す。しかしながら、平均以外の関数、たとえば、最大値プーリングが使用され得る。アップサンプリングレイヤ、たとえば、1つまたは複数のバイリニアアップサンプリングレイヤが、追加または代替として、高さおよび/または幅を増加させるために含まれ得る。
モデルは、少なくとも1つのスキップ接続をさらに備える。実際には、モデルは複数のスキップ接続を備え得るが、簡単のために、少数のレイヤと単一のスキップ接続とが図5(c)に示されている。第2のレイヤ「畳み込みレイヤ2」は、出力mと呼ばれる出力を生成する。第4のレイヤ「畳み込みレイヤ4」は、出力mと同じ寸法を有する出力oを生成する。「畳み込みレイヤ5」への入力は、第1のレイヤmの出力ならびに第4のレイヤoの出力から生成される。以前のレイヤから後のレイヤに直接出力を入力することは、「スキップ接続」である。この例における出力は、ピクセル単位の加算によって組み合わされる。連結が、代替として、使用される可能性があり、ここで、出力は、たとえば、異なるサイズである。1つまたは複数のスキップ接続を使用して、ダウンストリームからの情報がアップストリームに直接供給される。これは、ネットワーク全体にわたってハイレベルのグローバルな視覚特徴と地域の視覚特徴とを維持する。以前のレイヤから直接後のレイヤに特徴を入力し、1つまたは複数の介在レイヤをスキップすることは、コンテキストを与える。
平坦化レイヤは、最後の畳み込みレイヤの後に含まれる。平坦化レイヤは、最後の畳み込みレイヤからの出力データを次のレイヤに入力するための1次元ベクトルxに変換する。この例における平坦化レイヤより前のレイヤは、CNN46の第1の部分を形成する。
1つまたは複数の全結合レイヤが平坦化レイヤの後に含まれる。最後の全結合レイヤは、正のクラスに対応する1つの値を出力する。活性化関数は、確率値を与えるために出力、たとえば、シグモイドにおいて適用される。活性化関数は、最後の全結合レイヤから出力された値を入力として取り出し、確率に正規化する。したがって、活性化関数は、1から0の間の値を出力する。全結合レイヤと活性化関数とは、第1のCNN40の第2の部分47を形成する。
タイルごとに、CNNは、タイルが正のクラスに割り当てられる(すなわち、タイルが分子バイオマーカに関連付けられる)確率を出力する。タイルは、次いで、正のクラスに割り当てられるそれらの確率に従ってランク付けされる。2つ以上の画像部分(タイル)の第2のセットが、次いで、選択される。これは、たとえば、上位k個の確率に対応するタイルを選択することを備え得、ここで、kは、2以上の整数である。タイルの第2のセットは、上位k個のタイル、すなわち、最も高い確率を有するk個のタイルに対応する。これらのタイルは、残りのステップにおける画像を表すように選択される。一例では、k=100である。しかしながら、kは、ハイパーパラメータとして決定され得る。値は、たとえば、より低くまたはより高くなり得る。
S203において、入力画像がバイオマーカに関連付けられるのかどうかの指示が画像部分の第2のセットから決定される。S203は、2つの段階を備える。第1の段階は、「ステップ2:特徴抽出」である。このステップでは、第2のセット中の各タイルに対応する第1のデータが生成される。第2の段階は、「ステップ3:タイルのアグリゲーション」である。このステップでは、画像部分の第2のセットに対応する第1のデータは、アグリゲーションモジュールに入力される。この例では、アグリゲーションモジュールは、トレーニング済み再帰型ニューラルネットワーク(RNN)50を備える。
第1のデータは、分類器レイヤを省略する、すなわち、第2の部分47を省略する第1の畳み込みニューラルネットワーク40を使用して抽出される。第2のセット中でタイルは、各画像部分(タイル)に対応する特徴のセットを抽出するために処理される。特に、上位k個のタイル(第2のセットのタイル)の各々に対応するd次元特徴ベクトルxが生成される。たとえば、d次元特徴ベクトルxは、図5(c)に示されているように、平坦化レイヤの出力であり得る。特徴ベクトルxは、第1のCNN40の最後の分類器レイヤを省略する第1のCNN40に再び第2のセットの各画像部分(タイル)のための画像データを入力することによって生成される。CNNは、高レベルの視覚特徴を低次元埋め込みに効果的に符号化する深度の様々なレイヤにおいて画像に適用される畳み込みフィルタのセット全体にわたってタイル内の組織プロパティをキャプチャすることができるので、特徴抽出器として使用され得る。線形分類器レイヤが除去されると、事前トレーニング済みの第1のCNN40は、d次元特徴ベクトルの埋め込みに代表的なタイルを変換するために使用され、ここで、dはCNNのアーキテクチャに依存する。これらのベクトルは、代表的なタイルの「フィンガープリント」として見られ得る。
上位k個のタイルが、S202において選択され、S203において処理される。上位k個のタイル、すなわち、最も高い確率を有するk個のタイルが、残りのステップにおいて画像を表すために選択される。S203では、上位k個のタイル画像が、最初に、各画像部分(タイル)に対応する特徴のセットを抽出するために処理される。特に、上位k個のタイル(第2のセットのタイル)の各々に対応するd次元特徴ベクトルxが生成される。dの値は、平坦化されたレイヤの出力サイズに依存し、したがって、アーキテクチャに応じて変化する。たとえば、dは、512であり得る。したがって、S203への入力は、第1のCNN40の出力に基づいて選択されたk個の画像部分(タイル)のセットを備える。k個の画像部分は、次いで、k個のタイルの各々に対応するd次元特徴ベクトルxを生成するために分類レイヤを省略する第1のCNN40を再び通して供給される。これは、k個のd次元特徴ベクトルのシーケンスを生じる。各d次元特徴ベクトルは、画像部分(タイル)に対応する。k個の特徴ベクトルは、タイル選択ステップS202においてCNN40から出力されたk個のタイルに対応する。特徴ベクトルのシーケンスは、ステップS202において第1のCNN40から出力された確率に関して順序付けられる。
特徴ベクトルのこのシーケンスは、次いで、画像がバイオマーカに関連付けられるのかどうかに関する最後の画像レベルの決定を達成するために再帰型ニューラルネットワーク(RNN)50に提出される。このステップでは、入力画像がバイオマーカに関連付けられるのかどうかの指示は、RNN50を使用して1つまたは複数の画像部分の第2のセットに対応するデータ、この場合は、特徴ベクトルを組み合わせるかまたはアグリゲートすることによって決定される。再帰型ニューラルネットワーク50は、ニューラルネットワークに基づいて完全にトレーニング可能なアグリゲーション演算子である。
RNNを使用することにより、隠れレイヤのセットを通してタイルにわたる系列依存性をモデル化することによってスライドレベルのクラス確率への表現レベルでの情報の統合が可能になる。さらに、それは、最大値プーリングの場合、最後のモデル出力に組み込まれ、パフォーマンスに潜在的に影響を及ぼす可能性があるRNNモジュール50より前のステップにおけるタイル選択中になされたエラーを修正する可能性がある。たとえば、特定のバイオマーカに関連付けられない画像の場合、1つのタイルが、誤って高い確率を生じ得る。画像全体のための結果がこのタイルのみから取られた場合、誤った結果が戻されることになる。しかしながら、RNNは、他のk-1個のタイルを考慮に入れることになる。
ReLUおよびtanh活性化関数ならびにゲート付き再帰型ユニット(GRU)と長短期記憶(LSTM)とを含むより洗練されたモジュールを用いるものなどの異なる再帰型ニューラルネットワークが使用され得る。タイルの数kが比較的高く設定される(たとえば、kが50から100のオーダーのものである)場合、LSTMは、より良く実施するように見られ得る。ReLUまたはtanhを使用するネットワークは、より少数のタイルを用いてより良く実施し得る。
LSTM構造に基づく例示的なRNN50についてここで説明される。LSTM構造は、シーケンス中の初期のインスタンスを「忘れる」ことに対する抵抗を与える。図5(b)は、図5(a)に関して説明された方法において使用され得るLSTM構造に基づく例示的なRNN50を示す。以下で説明されるように、LSTMは、複数のニューラルネットワークレイヤを備える。
特徴抽出ステップにおいて第1のCNN40から出力されたd次元特徴ベクトルは、xtとこの図において標示される。上記で説明されたように、k個の特徴ベクトルがあり、したがって、tは、1からkまで続く。したがって、最も可能性の低いタイルに対応する特徴ベクトルは、xtであり、k個のタイルの最も可能性の高いものに対応する特徴ベクトルは、x1である。タイルは、確率の高いものから順に提出され、RNNに入力される第1のタイルは、最も高い確率をもつものである。長さdの各特徴ベクトルが順々にLSTM50に入力され、x1が最初に入力され、xkが最後に入力される。シーケンス中の各ステップにおいて、LSTM50は、各入力ベクトルxtに対応するベクトルhtを出力する。htのサイズは、ハイパーパラメータであり、たとえば、128または256であり得る。シーケンス中の最後のステップの出力hkは、入力画像がバイオマーカに関連付けられるのかどうかの指示を生成するために使用される。ステップの数は、選択されたタイルの数kに等しくなる。
ボックス中のσとtanhとはそれぞれ、示されたそれぞれの非線形活性化関数(シグモイドおよびtanh)を用いる学習されたニューラルネットワークレイヤを表す。レイヤの寸法は、ハイパーパラメータであり、たとえば、128または256が使用され得る。円中のtanh、加算および他の演算が点ごとの演算を表す。入力特徴ベクトルxtのための出力htは、次の時間ステップに移され、ht-1によって示される点に入力される。さらに、出力セル状態ctが次の時間ステップに移され、ct-1によって示される点に入力される。
入力特徴ベクトルxtと前の時間ステップht-1からの出力とは、第1の組み合わされたベクトルと本明細書では呼ばれる単一の組み合わされたベクトルを形成するために連結される。LSTMは、次いで、4つのニューラルネットワークレイヤ51、52、53および54を備え、3つは、シグモイド活性化関数を有し、1つは、tanh活性化関数を有する。
第1のシグモイドレイヤ51は、入力として第1の組み合わされたベクトルを取り出し、0から1の間の値を備える第2のベクトルを出力する。第2のベクトルは、セル状態Cと同じ長さを有し、したがって、各値は、セル状態中でエントリに対応する。前のステップCt-1からのセル状態は、やはり、セル状態と同じ長さを有する第3のベクトルを与えるために点ごとの乗算(アダマール積)において第2のベクトルで乗算される。第2のベクトルは、本質的に、前のセル状態Ct-1からどんな情報が保たれるのかについて決定する。セル状態Cは、長さが隠されたサイズH、たとえば、128または256のベクトルである。セル状態Cおよびhtなどのすべての変数は、長さHのベクトルである。
第2のシグモイドレイヤ52は、やはり、入力として第1の組み合わされたベクトルを取り出し、0から1の間の値を備える第4のベクトルを出力する。第4のベクトルは、やはり、セル状態Cと同じ長さを有し、したがって、各値は、セル状態中でエントリに対応する。
tanhレイヤ53は、やはり、入力として第1の組み合わされたベクトルを取り出し、-1から1の間の値を備える第5のベクトルを出力する。第5のベクトルは、やはり、セル状態Cと同じ長さを有し、したがって、各値は、セル状態中でエントリに対応する。
第4のベクトルは、やはり、セル状態と同じ長さを有する第6のベクトルを与えるために点ごとの乗算(アダマール積)において第5のベクトルで乗算される。第3のベクトルと第6のベクトルとは、次いで、現在の時間ステップCtのためのセル状態を与えるために点ごとのベクトル加法で加算される。
第3のシグモイドレイヤ54は、やはり、入力として第1の組み合わされたベクトルを取り出し、0から1の間の値を備える第7のベクトルを出力する。第7のベクトルは、やはり、セル状態Cと同じ長さを有する。セル状態値はそれぞれ、tanh関数に入力され、したがって、値は-1から1の間に設定される。この関数の出力は、次いで、出力を与えるために第7のベクトルと点ごとの乗算で乗算される。
各ステップの出力は、次のステップへの入力として供給される。4つのニューラルネットワークレイヤ51、52、53および54の各々の重みとバイアスとはトレーニング段階中の演算の前に学習され、これらについては後で説明する。これらは、LSTMのトレーニング可能パラメータである。シーケンス中の最後のステップの出力hkは、入力画像がバイオマーカに関連付けられるのかどうかの指示を生成するために使用される。シーケンス中の最後のステップの出力hkは最後の全結合レイヤに入力され、2つの出力値を生じる。ソフトマックス関数が、次いで、適用される。この最後のステップが分類を実施する。密レイヤの入力は隠れサイズHであり、出力サイズは2である。この最後のレイヤは、入来データに線形変換を適用する。バイナリソフトマックスが、次いで、適用される。正のクラスのために出力される値は、入力画像がバイオマーカに関連付けられる確率に対応する。
任意選択で、特徴ベクトルまたは埋め込みは、バッチで、たとえば、一度に10個LSTMを通して処理される。この場合、バッチ中の特徴ベクトルは行列を形成するために組み合わされ、各時間ステップにおいて、行列が入力される。ニューラルネットワークレイヤは、行列ニューラルネットワークレイヤであり、セル状態Cは行列であり得る。バッチサイズがB>1である場合、セル状態は、サイズB×Hの行列であり、出力htはB×Hの行列になる。この事例における最後の分類レイヤも、行列ニューラルネットワークレイヤであることになる。
図6(a)は、代替実施形態による、方法の概略図を示す。本方法では、S201およびS202が、前に説明されたように実施される。第1のCCN40「ステップ1:タイルの選択」は、タイルごとにタイルが特定のバイオマーカに関連付けられる確率を出力する。最も高い確率を有するk個のタイルが、選択され、S203に入力される。これらのタイルは、次いで、「ステップ2:特徴抽出」において分類器レイヤが省略された状態で再び第1のCNN40に入力される。得られたd次元特徴ベクトルxまたは埋め込みが、kxd行列に組み合わされ、これは、注意モジュール60に入力される。
注意モジュール60は、入力としてkxd行列を取り出す全結合フィードフォワード行列ニューラルネットワークである。注意モジュール60ニューラルネットワークの出力は、k次元のベクトルである。したがって、注意モジュール60は、重みベクトルを戻し、各重み値は、最後のモデル確率に対するタイルの寄与に対応する。重みベクトルは、分子バイオマーカの予測のために最も重要なタイルを強調する。注意モジュール60の構造の一例が、図6(b)に示されている。第1のレイヤは、重みの行列を備える。入力kxd行列が、第1のレイヤを通して供給され、活性化関数が適用される(tanhまたはReLU)。出力は、kxg行列であり、ここで、寸法gは、第1のレイヤの出力寸法である。gの値は、ハイパーパラメータであり、たとえば、128または256であり得る。kxg行列は、第2のレイヤに供給され、これも全結合レイヤである。活性化関数が適用される。出力は、長さkのベクトルであり、ここで、各値は、重みに対応する。ここで一例について説明するが、様々な他の注意機構が代替として使用される可能性がある。たとえば、追加のニューラルネットワークレイヤが含まれ得る。たとえば、ゲート注意モジュールが使用され得る。
注意モジュール60は、k次元の重みベクトルを出力する。
特徴抽出ステップにおいて第1のCNN40から出力された各d次元特徴ベクトルは、対応する注意重みによって乗算され、すなわち、特徴ベクトル中の各値が重みによって乗算される。加重特徴ベクトルは、次いで、行列に組み合わされ、分類器レイヤにパスされる。これは、さらなる全結合フィードフォワード行列ニューラルネットワークレイヤである。シグモイド関数活性化関数が適用される。分類器レイヤの出力は、0から1の間の確率の単一の値である。これは、入力画像がバイオマーカに関連付けられるのかどうかの指示である。注意機構60は、ニューラルネットワークに基づいて完全にトレーニング可能なアグリゲーション演算子である。注意機構は、再帰型ニューラルネットワークに代替アグリゲーション方法を与える。注意機構60により、最も重要なタイルを決定することが可能になる。
特徴ベクトルをそれらの重要度に関して重み付けすることによって、すべてのタイルがアグリゲーションのために等しく考慮に入れられるとは限らない。さらに、分類をトリガする主要なタイルが知られているので、注意機構は、説明可能性の点で利益を与える。
図7は、代替実施形態による、入力画像が本方法において使用されるバイオマーカに関連付けられるのかどうかの指示を決定する方法の概略図を示す。本方法は、アグリゲーション演算子の部分としてRNN50とともに注意機構60を使用する。
本方法では、ステップS201およびS202は、図5(a)の方法の場合と同じ方式で実施される。上位k個のタイルが、S202において選択され、S203において処理される。上位k個のタイル、すなわち、最も高い確率を有するk個のタイルが、残りのステップにおいて画像を表すために選択される。S203では、上位k個のタイル画像が、最初に、各画像部分(タイル)に対応する特徴のセットを抽出するために処理される。これは、図5(a)に関して上記で説明されたのと同じ方式で行われる。これは、k個のd次元特徴ベクトルxのシーケンスを生じる。各d次元特徴ベクトルxは、画像部分(タイル)に対応する。k個の特徴ベクトルは、タイル選択ステップS202においてCNN40から出力されたk個のタイルに対応する。k個の特徴ベクトルは、kxd行列に組み合わされ、これは、上記の図6に関して説明されたのと同じ方式で注意モジュール60に入力される。注意モジュール60について、上記の図6に関して説明した。
上記で説明したように、特徴ベクトルをそれらの重要度に関して重み付けすることによって、すべてのタイルがアグリゲーションのために等しく考慮に入れられるとは限らない。さらに、分類をトリガする主要なタイルが知られているので、注意機構は、説明可能性の点で利益を与える。
注意モジュール60は、上記で説明されたように長さkのベクトルを出力する。これは、様々な方法でRNN50への入力と組み合わされ得る。
第1の例では、特徴抽出ステップにおいて第1のCNN40から出力された各d次元特徴ベクトルは、対応する注意重みによって乗算され、すなわち、特徴ベクトル中の各値が重みによって乗算される。加重特徴ベクトルのシーケンスは、次いで、第1のCNN40から出力された確率に関して順序付けられる。したがって、トレーニング可能加重平均が与えられる。このステップでは、第2のパスにおいて第1のCNN40から出力された各特徴ベクトルが、それの対応する重み値によって乗算される。これらの加重特徴ベクトルは、第1のパスにおいて第1のCNN40から出力された確率に関して順序付けられる。加重特徴ベクトルのこのシーケンスは、次いで、最も可能性が高いタイルに対応するベクトルが最初に入力された状態で、上記で説明されたのと同じ方式で再帰型ニューラルネットワーク(RNN)50に提出される。
第2の例では、追加または代替として、d次元特徴ベクトルは、注意モジュール60から出力された重み値に関して順序付けられる。d次元特徴ベクトルは、次いで、最も重要なタイルに対応するベクトルが最初に入力された状態で、上記で説明されたのと同じ方式で再帰型ニューラルネットワーク(RNN)50に入力される。
第3の例では、追加または代替として、図6に示されているように、分析からタイルをさらに除去するステップが実施され得る。注意モジュール60は、注意重みによって特徴ベクトルを順序付け、最後のRNNモジュール50に上位n個のタイルだけをパスすることを介してタイルの数をさらに減少するために使用され得る。この場合、ステップS203は、上記で説明されたように、「ステップ2:特徴抽出」を備える。d次元特徴ベクトルxは、次いで、前に説明されたように注意モジュール60に入力される。さらなるステップ「ステップ4:注意ベースのタイルの選択」が、次いで、実施される。特徴ベクトルは、重みに関して順序付けられる。上位n個の特徴ベクトルに対応する画像部分の第3のセットが、次いで、選択され、ここで、nは、1よりも大きい整数である。画像部分の第3のセットに対応する特徴ベクトルが、次いで、再帰型ニューラルネットワーク(RNN)50に提出される。注意機構は、最も代表的なタイルをランク付けするために使用され、RNNは、それらをアグリゲートして画像レベルの予測を達成するために使用される。注意モデル60の出力に基づいてタイルを除去することによって、信頼性を維持しながらより少数のタイルが処理されるので、計算集約的なRNNステップがより効率的にされ得る。
第1のおよび第3の例では、特徴ベクトルは、重要度または確率の順にRNN50に入力され得る。第2のおよび第3の例では、元の特徴ベクトルまたは加重特徴ベクトルは、RNN50に提出され得る。
説明された3つの方法はすべて、画像レベルの予測にタイルレベルの情報を組み合わせるための注意ベースのアグリゲーションモジュールを使用する。注意モジュール60は、マルチインスタンス学習のためのアグリゲーションの順列不変の手段を与える。注意モジュールのためのタイルの代表的なセットを取得するために最大値プーリングベースのタイル選択ステップがS202において使用される。したがって、本方法は、任意のサイズの画像に適用可能である。注意モジュール60と再帰型ニューラルネットワーク50とは、アグリゲーションモジュール中でこの例では組み合わされる。この例では、注意モジュール60は、単一の注意ブランチを有する。
上記の図では、RNN、注意モジュール、またはその2つの組合せを備えるアグリゲーションモジュールについて説明される。しかしながら、他のトレーニング可能アグリゲーション演算子が、追加または代替として、アグリゲーションモジュール中に含まれ得る。
代替として、トレーニングが不可能なアグリゲーションモジュールが使用され得る。図4は、プーリング演算子が使用される、一実施形態による、組織の画像を処理する代替方法の概略図を示す。本方法は、上記で説明されているように、組織の入力画像から画像部分の第1のセットを取得するステップS201を備える。S201において取得された各画像部分は、次いで、前に説明された方式で、一度に一つずつ、第1の畳み込みニューラルネットワーク40に入力として取り出される。畳み込みニューラルネットワーク40は、画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する。したがって第1のCNN40は、たとえば、前に説明されたようにタイルが特定の分子バイオマーカに関連付けられるのか否かを分類するために使用される。タイルごとに、CNN40は、タイルが正のクラスに割り当てられる(すなわち、タイルが分子バイオマーカに関連付けられる)確率を出力する。タイルは、次いで、正のクラスに割り当てられるそれらの確率に従ってランク付けされる。
本方法では、画像のためのトップランクのタイルが、分子バイオマーカが存在するのかどうかについて決定するために使用される。したがって、1つの画像部分の第2のセットは、第1のCNN40に各画像部分の画像データを入力することによってS201から出力された画像部分の第1のセットから選択される。たとえば、トップランクのタイルのための確率がしきい値よりも大きいのかどうかが決定され得る。しきい値は、たとえば、0.5であり得る。しきい値は、パフォーマンスを増加させるために最適化されたハイパーパラメータであり得る。これは、最大値プーリングと等価である。この場合、最大値演算子などのプーリング演算子が使用される。第1のCNN分類器40は、タイルごとに確率を戻し、これらの個々のスコアは、最大値演算子を通してアグリゲートされる。最大値演算子などのプーリング演算子は、分類器がタイルごとに確率を戻し、最大値演算子を通して個々のスコアをアグリゲートすることに関与し得るインスタンスレベルの分類設定に好適であり得る。平均化などの他のトレーニングが不可能なアグリゲーション関数が使用され得る。
図10は、代替実施形態による、方法の概略図を示す。本方法では、前に説明されていたように、ステップS201が実施される。画像部分(タイル)が、次いで、S202において処理され、特徴ベクトルが、前に説明されていたようにS203において抽出される。これは、正のブランチ110と呼ばれる。
S202およびS203と並行して実施される第2の一連のステップはまた、S201の出力に対して実施される。これらのステップは、負のブランチ120と呼ばれる。S402において、S201において取得された画像部分の第1のセットから1つまたは複数の画像部分の第4のセットを選択するステップが実施される。この段階では、第1のセット中の各画像部分の画像データが、第2の畳み込みニューラルネットワーク100に入力される。第2のCNN100は、第1のCNN40と同じ構造を有し得る。第2のCNN100は、画像部分がバイオマーカに関連付けられないのかどうかの指示を生成する。言い換えれば、第2のCNN100は、画像部分が特定のバイオマーカに関連付けられない確立を生成する。1つまたは複数の画像部分の低減されたセット、第1のセットが有するより少数の画像部分を有する第4のセットが、第2のCNN100の出力に基づいてS402において取得される。
K個の画像部分の第4のセットは、次いで、各画像部分に対応するd次元特徴ベクトルを抽出するために第2の部分、すなわち、分類レイヤを省略する第2のCNN100に再提出される。
特徴ベクトルは、アグリゲーションモジュールに入力され、これは、上記で図5から図7に関して説明されたように、たとえば、RNN、注意モジュール、またはその2つの組合せなどのトレーニング済みアグリゲーション演算子を備え得る。アグリゲーションモジュールは、やはり上記で説明されたように、画像が特定のバイオマーカに対応する確率を出力する。
図5から図7に関して説明された方法は、推論中に正のクラスの確率のみを考慮し、モデルが本質的に負のクラスを区別することを学習することになると仮定する。これは、負よりも頻繁に正のクラスを予測することへのモデルの傾向を増加し得る。ネットワークの予測容量に負のクラスからの情報を直接組み込むために、図10に関して説明されたように、デュアルブランチアーキテクチャが使用され得る。各ブランチは、特定のクラスを担当し、すなわち、正のブランチ110は、正のクラスの確率を考慮するが、負のブランチ120は、負のクラスに焦点を当てる。各ブランチは、前のセクションにおいて説明されたニューラルネットワークモデルのうちの1つを用いて実現され得る。
上記で説明された方法では、様々なトレーニング済みモデルが使用された。次に、様々なモデルをトレーニングする例示的な方法について説明する。
上記で説明された第1の畳み込みニューラルネットワーク40をトレーニングする様々な方法、および関係する場合、(たとえば、RNN50および/または注意モジュール60を備える)アグリゲーションモジュールについて、最初に説明される。複数の画像を備えるトレーニングデータセットが使用される。画像は、モデルのための入力画像の意図されたタイプに対応し得る。上記で説明される例では、入力画像は、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像である。したがって、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像のトレーニングデータセットが、モデルをトレーニングするために使用され得る。
各画像は、モデルが検出することになる特定のバイオマーカにそれが対応するのか否かに応じて標示される。上記で説明されたように、特定のバイオマーカは、たとえば、ERバイオマーカ、HER2バイオマーカ、PRバイオマーカ、EGFRバイオマーカまたはMSIバイオマーカであり得る。本方法は、様々な他のバイオマーカを検出するために使用され得る。モデルが、たとえば、入力画像がERバイオマーカに関連付けられるのかどうかの指示を決定するために使用されることになる場合、トレーニングデータセット中の各画像は、それがERバイオマーカに対応する場合ば1と標示され、それが対応しない場合は0と標示される。標示を生成するために、たとえば、IHC染色プロセスからの情報が使用され得る。いくつかのデータセットについて、専門家は、IHC染色された画像を検討し、たとえば、ターゲット画像のER/PRステータスがメタデータとしてすでに利用可能でない場合はそれらを決定し得る。これらは、次いで、モデルをトレーニングするためにH&E画像のためのグラウンドトゥルースな標示として使用される。遺伝的な、トランスクリプトーム的な、および/または免疫学的な分析の手段を通した患者からのヒト試料の様々なテストが使用され得る。これらのテストは、液体および/または固体の形態で生検と呼ばれるヒト試料に対して行われ、これは、次いで、試料の分子ステータスを通知するための処置を経る。結果は、次いで、組織生検のための病理学者、液体生検のための血液学者、細胞学試料のための細胞病理学者、遺伝的な/トランスクリプトーム的な分析のための遺伝学者などの専門家によって分析されて、標示1または0を生成する。注釈は、トレーニングされた病理学者によって実施され得る。
次に、トレーニングデータセットを使用する2つの段階を備えるトレーニングプロセスについて説明する。
第1の段階では、トレーニングプロセス中に、トレーニングデータセット中の画像ごとに、図3(a)に関して説明されたのと同じ画像前処理ステップS201が実施される。したがって、画像ごとに、推論に関して上記で説明されたのと同じ方式で複数の画像部分が取得される。上記で説明されたように、トレーニングデータセットから非癌組織しか含んでいないタイルを破棄するために細胞のセグメンテーションが使用され得る。この場合、モデルをトレーニングするために使用されるデータセットの品質は、セグメンテーション手法の精度に直接依拠する。事前トレーニング済みモデルが、細胞のセグメンテーションのために使用され得る。
タイルは、次いで、それらの対応するスライドの標示とペアリングされ、第1のCNN40をトレーニングするために使用される。タイルは、推論中と同じ方式で正のクラスに割り当てられる確率を生成する第1のCNN40に提出される。
第1のCNN40は、関連するパラメータベクトルθ1を有する。パラメータは、第1のCNN40の第1の部分中の畳み込みレイヤのすべてのためのフィルタ重みならびに第1のCNN40の第2の部分のための重みを含む。トレーニングプロセスの目的は、注釈と出力との間の差が最小化されるようなパラメータベクトルθ1’を見出すことである。
最適なパラメータは、θ1としてランダム値を割り当て、次いで、損失
Figure 2023543044000009
の勾配を計算し、計算された勾配を使用してθ1を更新することによってθ1を連続的に更新することによって計算される。D1は、損失関数を表し、これは、このステップでは、「タイルごとの」損失である。バイナリクロスエントロピー損失が使用され得る。モデルのトレーニング可能パラメータの各々に関する損失の勾配が逆伝播を通して決定される。勾配は、次いで、オプティマイザ関数を使用して更新されたパラメータを決定するために使用される。更新方法のこのファミリは、概して以下のように反復的に定義される勾配降下(GD)として知られ、
Figure 2023543044000010
ここで、μ1は、パラメータがどのくらい迅速に更新されるのかを定義する学習レートである。更新は、バッチ平均に基づいて実施され得る。たとえば、8つのタイルまたは16個のタイルのバッチサイズが使用される。
アダム最適化アルゴリズムが使用され得る。しかしながら、選択される最適化戦略は、使用事例に対する各戦略のパフォーマンスに依存し得る。たとえば、以下の最適化方法のうちの1つが選択され得る。
確率的勾配降下法(SGD)
AdaDelta
Adam
AdaMax
Nesterov Adamオプティマイザ
RMSProp
アグリゲーション演算が、トレーニング済みでない関数、たとえば、図4に関して説明された最大値プーリングステップである場合、さらなるトレーニングは実施されない。しかしながら、アグリゲーション演算がトレーニング可能モデルである場合、第2のトレーニング段階が実施される。
第2のトレーニング段階では、残りのタイルが、次いで、第1のCNN40の第1の部分に入力され、特徴ベクトルが、推論中と同じ方式でタイルごとに抽出される。特徴ベクトルは、たとえば、RNNおよび/または注意機構を備えるアグリゲーションモジュールに入力され、画像全体に対応する最後の出力値が出力される。
(RNNおよび/または注意機構を備える)アグリゲーションモジュールとともに第1のCNN40の第1の部分は、関連するパラメータベクトルθ2を有する。パラメータは、たとえば、RNNおよび/または注意機構ネットワークの重みとともに第1のCNN40の第1の部分中に畳み込みレイヤのすべてのためのフィルタ重みを含む。トレーニングプロセスは、次いで、標示と出力との間の差が最小化されるようなパラメータベクトルθ2’を見出す。ここで、スライド全体に対応する標示が使用される。
最適なパラメータは、θ2としてランダム値を割り当て、次いで、損失
Figure 2023543044000011
の勾配を計算し、計算された勾配を使用してθ2を更新することによってθ2を連続的に更新することによって計算される。D2は、損失関数を表し、これは、このステップでは、「画像ごとの」損失である。バイナリクロスエントロピー損失が使用され得る。モデルのトレーニング可能パラメータの各々に関する損失の勾配が逆伝播を通して決定される。勾配は、次いで、オプティマイザ関数を使用して更新されたパラメータを決定するために使用される。更新方法のこのファミリは、概して以下のように反復的に定義される勾配降下(GD)として知られ、
Figure 2023543044000012
ここで、μ2は、パラメータがどのくらい迅速に更新されるのかを定義する学習レートである。更新は、バッチ平均に基づいて実施され得る。たとえば、8つの画像または16個の画像のバッチサイズが使用される。
この場合も、アダム最適化アルゴリズムが使用され得る。しかしながら、選択される最適化戦略は、使用事例に対する各戦略のパフォーマンスに依存し得る。たとえば、以下の最適化方法のうちの1つが選択され得る。
確率的勾配降下法(SGD)
AdaDelta
Adam
AdaMax
Nesterov Adamオプティマイザ
RMSProp
第1のトレーニング段階は、トレーニングデータセット中の画像のすべてを使用して実施され、次いで、第2のトレーニング段階が実施され得る。代替として、画像のバッチは、第1のトレーニング段階において使用され、次いで、第2のトレーニング段階が実施され得る。第1のトレーニング段階は、次いで、入力画像の第2のバッチで繰り返され、以下同様であり得る。
このようにして、モデルは、弱教師つき設定でトレーニングされる。トレーニングは、複数のインスタンス学習(MIL)を使用する。MILは、教師つき学習のタイプである。MILでは、個々に標示されたインスタンス(この場合は、画像部分)を備えるトレーニングデータの代わりに、トレーニングデータは、各々が多くのインスタンスを含んでいる標示されたバッグ(この場合は、画像)のセットを備える。画像が特定のバイオマーカに対応しない、すなわち、それが0と標示される場合、画像中の画像部分のいずれも、特定のバイオマーカに対応しない。しかしながら、1つの画像部分が特定のバイオマーカに対応する場合、画像は、バイオマーカに対応することになる。したがって、正と標示された画像は、正である少なくとも1つの画像部分を有する。しかしながら、それはまた、負である多くの画像部分を備え得る。
各タイルは、特定の分子バイオマーカが存在するのかどうかを示す正(1)の標示または負(0)の標示に関連付けられる。しかしながら、標示は、親画像から継承される。したがって、親画像が特定の分子バイオマーカに関連付けられるとき、タイルは、正として標示されるが、(たとえば、タイル内の組織の領域が分子バイオマーカを含んでいないので)タイル自体は、分子バイオマーカに関連付けられないことがある。
したがって、マルチインスタンス学習(MIL)手法が使用される。(たとえば)全スライド画像に関連する標示は、複数のインスタンス、すなわち、WSIを形成するタイルのセットに割り当てられる。これは、1対1のマッピングが入力インスタンスとクラスとの間に成り立つとみなされる分類問題とは異なる。MIL設定では、データは、弱く標示されるので、ただ1つのクラス標示が、同じカテゴリの多くのインスタンスのために与えられる。これは、個々のインスタンス(タイル)がクラスに対応するのかどうかを識別するためのモデルのトレーニングを本質的により困難にする。画像は、正として標示されるために、正のクラスの少なくとも1つのタイルを含んでいなければならないが、負のスライド中ですべてのタイルは、負として分類されなければならない。この公式化は、個々のインスタンスの標示がトレーニング中に存在することを保証する。しかしながら、それらの真値は、依然として未知のままである。
画像レベルの出力、たとえば、確率を取得するためにタイルをアグリゲートする手段がS203に含まれる。2つの段階を備えるトレーニングプロセスが使用され得、ここで、タイルごとのトレーニングが、第1の段階において実施され、画像ごとのエンドツーエンドトレーニング方法が、第2の段階において実施される。タイルが第1の段階において選択されると、フォワードパスが、選択されたタイルを用いて再び実施されるので、本方法は、エンドツーエンド方式でトレーニングされ得る。損失は、次いで、第1のCNN40とアグリゲーション演算子とを含むネットワーク全体に逆伝播される。
上記で説明されたトレーニング方法では、画像は、モデルのための意図された入力画像(たとえば、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片)に対応し、各画像は、モデルが検出することになっている特定のバイオマーカにそれが対応するのか否かに応じて標示される。しかしながら、トレーニング方法は、関連するドメインからの転移学習を含むように修正され得る。大きい注釈付きデータセットを取得することが可能でない場合には、モデルは、タスクA(ソース)に対して事前にトレーニングされ、次いで、それの処理において限定された注釈付きデータしか有しないタスクB(ターゲット)に対してさらにトレーニングされ得る。そのようなトレーニング方法は、計算病理学などの分野において特に有用であり得、ここで、注釈は、時間と金との大きいコストを伴い得、依然として、主観と経験とに関係する誤りを受けやすいことがある。さらに、特に、組織病理データセットは、多くて、数千個の画像を含み得る。したがって、数100万個の画像を含んでいる可能性がある(たとえば、医療以外の分野からの)他のコンピュータビジョンデータセット上のモデルを事前にトレーニングすることは、改善されたパフォーマンスを与え得る。
別のデータセットに事前トレーニング済みモデルを適応させるか、または異なるソースから来た情報を用いたトレーニングを制約することによってより高い一般化可能性を達成するために、異なる転移学習戦略が使用され得る。
すなわち、ターゲット画像を使用して事前トレーニング済みの重みを更新するためにモデルを微調整することが可能である。ランダムな重みからトレーニングを開始する代わりに、(コンピュータビジョンなどの)異なるドメインから、または異なる癌データセットから取得されたいくつかの事前トレーニング済みの重みが使用される。次いで重みが据え置かれたレイヤのうちのいくつかはさらに更新されない。他のレイヤは、次いで、特定のバイオマーカで標示された画像に基づいてさらに更新される。モデル全体を微調整することが可能であるが、浅いレイヤは、それらが車を含んでいようが癌細胞を含んでいようがすべての画像で共通であるエッジおよび隅のような低レベルの特徴を学習する傾向があるので、この例では更新されない。一方、より深いレイヤは、細胞形態のようなタスク固有の特徴に対応し、したがって、ターゲットデータセットを使用して更新される可能性が高い。
異なるタイプの癌などソースとして異なるが関連するデータセットによって転移学習を使用することも可能である。たとえば、乳癌と結腸直腸癌とはともに腺癌であり、細胞レベルで同様の視覚特性を有し、互いを転移学習設定において使用される完璧な候補にしている。
ソースデータセットとターゲットデータセットとが異なるが、関連する分布のものであると仮定すると、転移学習もドメイン適応のコンテキスト内にあると見なされ得る。ドメイン適応は、事前トレーニング済みモデルが標示なしで新しいデータセットをターゲットにするシナリオに対処し得、その場合、標示されたソースデータセットは、ターゲットドメイン中で新しいタスクを解くために使用されなければならない。そのような設定は、たとえば、異なるバイオバンクから取得された乳癌画像を有する複数のデータセットを扱うタスクのために使用され得る。単一のソースだけからのモデル学習を回避し、いかなる標示されたデータをも潜在的に有しないことがある他のデータセットに対するそれの一般化可能性を改善することを前提としている。
たとえば、1つのシナリオは、データセットA中の分子マーカを予測するためのモデルをトレーニングし、次いで、データセットBから来た画像に対してそれを適用することになる。両方のデータセットが、同じタイプの癌、たとえば、乳癌を表す場合でも、WSI中の組織組成は、本質的に多様であり、画像を収集する間に異なるスキャナおよびスライド準備プロシージャを使用することによりデータの差が存在し得るので、モデルは、データセットBに対して同様に実施しない可能性がある。ドメイン適応は、別のドメインに1つのドメイン中で学習される表現を転送することによって共有空間内のターゲットデータセットとソースデータセットとの分布を一致させることを目的とする。
一例では、発散ベースのドメイン適応技法は、ドメイン不変特徴空間を学習するためにソースデータ分布とターゲットデータ分布との間の発散基準を最小限に抑えるために使用される。たとえば、2ストリームアーキテクチャ(ソースのための1つとターゲットのための1つ)は、正則化を使用することによって重みがそれぞれから発散するのを回避しながら一緒にトレーニングされ得る。代替ドメイン適応技法は、生成器/識別器モデルを用いた敵対的トレーニングを利用する。一例では、異なるデータセットから画像をどのように識別するのかをモデルに教示すること、したがって、より良い一般化可能性のためにデータセット不変特徴を学習することを行うためにドメイン混乱損失を導入することによって生成器が完全に除去される。
ドメイン適応問題はまた、標示されたソースデータを分類するために同時に学習しながらドメインの各々のための共有符号化表現を作成することと、標示されていないターゲットデータを再構成することとを行うための再構成タスクと位置付けられ得る。代替として、ドメイン適応は、2つのそれぞれのドメイン中に画像を生成する2つの敵対的生成ネットワークを同時にトレーニングすることによって達成され得る。それはまた、ソースデータセットからターゲットデータセットへのスタイル変換によってトレーニングするために使用される画像の数を増加させるためにオフライン設定において使用され得る。もちろん、これは、形態を保持しながら組織画像の染色色およびスタイルを正規化する。
パフォーマンスを改善するために、データ拡張が、追加または代替として、トレーニングデータセットに適用され得る。これは、モデルの一般化容量を増加させる。これは、デジタル病理学などデータがスパースであり得るドメインで特に役立ち得る。
広範囲の空間および色変換が、新しい画像を収集する必要性なしにデータの変動を増加させるために新しいトレーニング例示画像を作成するためにトレーニングデータセット中の画像に適用され得る。例示的な拡張方法は、回転または反転などの線形変換と、明るさおよびコントラストの調節を含む色スペクトル拡張との2つのサブカテゴリにグループ化され得る。
組織病理画像が回転不変であるので、90度の回転および水平/垂直反転が、いかなる悪影響も導入することなしにデータセットをポピュレートするために使用される。一方、色ベースの拡張は、モデルを画像の明るさおよびコントラストの元のスペクトルを越えて学習させ、したがって、それは、異なる照明の下で撮られた画像に対してより良く一般化することができる。弾性ネットなどの非線形変換も使用され得るが、組織の形態的構成を変更し得る。異なる拡張方法が、組み合わされ、画像に連続的に適用され得る。
モデルが画像特徴だけでなく、拡張によって導入されたものをも学習することを強制されるので、拡張の使用は、比較的小さいデータセットに積極的に適用された場合にいくつかの副作用を有することができる。これを軽減するために、1)拡張パラメータの値および2)異なるパラメータ技法の組合せにわたってハイパーパラメータの最適化を行い、拡張が使用されない事例に関してモデルのパフォーマンスを改善するパラメータおよび方法のサブセットを見出す間に拡張が適用され得る。モデルが、トレーニング中に元の画像と拡張画像との両方を見ることを保証するためにいくつかの確率的制約が適用され得る。
図5および図6において説明された例では、タイルにわたって系列依存性をモデル化することによってタイルレベルからスライドレベルのクラス確率への情報を統合することができる再帰型ニューラルネットワーク(RNN)が使用される。エンドツーエンドの学習が、さらに、CNNモジュールとRNNモジュールとを同時にトレーニングすることによって与えられ得る。
図6および図7において説明された例では、重みが注意ベースのニューラルネットワーク60によって与えられる加重平均の形成が使用される。注意機構60を使用することはまた、本質的に、最後の画像予測に対する各タイルの寄与に対する洞察を与え、潜在的に、画像中の領域のアプリオリな注釈なしに、計算病理学適用例のために重要である可能性がある関心領域を強調するために使用され得る。本方法は、スライド画像全体の正確な分類の高い診断値を用いて領域を識別するために注意ベースの学習を使用するディープ学習ベースの弱教師つき方法である。再び、注意モジュール60は、CNNモジュールと、存在する場合、RNNモジュールと同時にトレーニングしていることがある。
どちらの事例も、アグリゲーションの全微分可能で順列不変の手段を与える。順列不変によって、タイルに順序または依存性が仮定されないことを意味する。図6に関して説明された例は、RNNと注意機構との利点を組み合わせる。この場合、注意モデルが最も代表的なタイルをランク付けするために使用され、それらをアグリゲートするためのRNNが画像レベルの予測を達成するために使用されるカスケードモデル。
上記の図10は、デュアルブランチアーキテクチャを使用してネットワークの予測容量に負のクラスからの情報を直接組み込む方法について説明し、ここで、各ブランチは、特定のクラスを担当し、すなわち、正のブランチ110は、正のクラスの確率を考慮するが、負のブランチ120は、負のクラスに焦点を当てる。このモデルは、様々な方法でトレーニングされ得る。一例では、正のブランチ110と負のブランチ120とは、上記で説明された方式で別個にトレーニングされる。負のブランチ120の場合、画像の標示は、画像がバイオマーカに対応しない場合は1になり、画像がバイオマーカに対応する場合は0になる。結果は、線形または非線形関数によって組み合わされ得る。代替として、ネットワーク全体は、両方のブランチにクラスレベルの損失を逆伝播することによって同時にトレーニングされ得る。
図11は、代替実施形態による、トレーニングの方法の概略図を示す。本方法はまた、図10に関して説明されたクラスバイアス問題を軽減することを目的とする。本方法は、シャムニューラルネットワーク構造を使用する。シャムネットワークは、共有アーキテクチャおよび重みをもつ同じモデルの複数のインスタンスを表す。
モデルをトレーニングするために、対照的な損失関数が使用され、したがって、モデルは、正の画像と負の画像とをどのように識別するのかと一緒にそれらの間の距離を学習する。これは、モデルにタイルおよび標示だけでなく、同じクラス標示をもつタイルのペアおよび異なるクラスのペアをも示すことによって達成される。損失関数は、次いで、大きい距離が同じクラスの画像のために計算されるときおよび小さい距離が異なるクラスからの画像ために計算されるときはいつでもモデルにペナルティを課す。タイルのペアが、第1のCNN40モデルの第1の部分に供給され、各タイルは、別個のパス中に入力される。第1のCNN50は、2つの連続するフォワードパスを介して各タイルのための(埋め込みとも呼ばれる)d次元特徴ベクトルを出力する。出力ベクトル(埋め込み)の間の距離が、次いで、計算され、これは、損失関数のベースを形成する。トレーニング中に、それは、大きい距離が同じクラスのタイルのために計算されるときはいつでも、または反対側のクラスのタイルが同様のものであるとモデルが思うときにモデルにペナルティを課す。Ti、Tjの画像部分ペアおよび標示yについて、yが、2つの画像が同じクラスからのものであること(y=1)または異なるクラスからのものであること(y=0)を示す場合、損失は以下の通りである。
Figure 2023543044000013
ここで、Ls項は、同様の画像のために計算された損失であり、Ld項は、画像が似ていないときに計算される損失である。Dwは、2つのベクトルの間の距離であり、ユークリッド距離またはコサイン類似度などの任意の距離(または類似性)関数であり得る。項が拡張されるとき、最後の損失は、次式によって与えられ得る。
Figure 2023543044000014
ここで、mは、マージンである。
代替として、対照的な損失は、別の正則化項としてプロファイラモデルによって使用されるクロスエントロピー損失に加算され得る。このようにして、モデルは、正の画像をどのように識別するのかを学習するだけでなく、正のクラスと負のクラスとを区別することを可能にするドメインのクラス依存特性を学習することを強制されもする。この場合、距離が別の項として組み込まれる正規化されたクロスエントロピー損失が使用される。この場合、Tiのための1つとTjのための1つの2つのクロスエントロピー(CE)損失が(2つのフォワードパスを通して)計算される。それらの特徴ベクトルにわたる距離が、次いで、上述の距離関数を使用してそれらの距離(または類似性)を導き出すために計算される。合計の損失は、次いで、以下の通りになる。
Figure 2023543044000015
ここで、wは、随意の重み付けパラメータであり、LCEは、上記で説明されたクロスエントロピー損失である。
上記で説明されたように、パイプライン全体は、入力として画像、たとえば、WSIを取り出し、それをタイルのセットに再分割し、一連のニューラルネットワークを通してこれらのタイルを合理化する前処理モジュールS201備え、一連のニューラルネットワークは、1)最初にスライドを表すタイルを選択するために使用され、後で特徴抽出のために使用されるディープ畳み込みニューラルネットワーク、2)分子バイオマーカの予測のために重要なタイルを識別するための注意ベースのニューラルネットワーク、および/または3)最後の画像レベルの確率への選択されたタイルのアグリゲーションのための再帰型ニューラルネットワーク(RNN)を備える。
上記で説明された例では、入力画像は、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像であり、特定のバイオマーカは、たとえば、ERバイオマーカ、HER2バイオマーカ、PRバイオマーカ、EGFRバイオマーカ、またはMSIバイオマーカなどの分子バイオマーカである癌バイオマーカである。しかしながら、前述のように、抗原Ki-67も、癌の攻撃性を示す細胞増殖のためのマーカとしてテストされることが増えている。したがって、代替として、特定のバイオマーカはKi-67であり得る。
Ki-67の報告は、バイナリカテゴリカル(すなわち、組織上に突然変異が存在するのか/濃縮が存在するのか/発現が存在するのか)ではなく本質的に離散化される。Ki67の正値性は、最適なカットオフしきい値は依然として疑問の余地があるが、たとえば、10%を超える腫瘍細胞が正に染色することとして定義され得る。結果が離散カテゴリではなく連続的な値(すなわち割合)であるので、KI67インデックスの識別情報は、HR、ER、またはHER2プロファイルを予測するのとは本質的に異なる問題である。したがって、正または負のバッグの定義が無効であるので、問題は、MIL問題として素直に位置付けられないことがある。しかしながら、トレーニングデータを標示するためにあらかじめ定義されたカットオフポイントを使用して(たとえば、10%よりも大きいものに対応するスライドは、1と標示され、10%未満は0と標示される)、問題は、バイナリ分類と位置付けられ得、図4から図7に関して上記で説明されたものなどのモデルが、使用され、上記で説明された方式でトレーニングされ得る。モデルへの入力は、上記で説明されたように、H&E染色されたスライドであり得る。追加または代替として、IHC画像データが入力として使用され得る。
Ki-67染色を用いたIHC画像中の核の検出のための方法が考案され得、したがって、細胞数測定が、グラウンドトゥルースなKi-67スコアを取得するための必要条件として実施され得る。これは、H&Eスライドのための標示を生成するために実施される手動ステップである。上記で説明された例では、モデルは、ヘマトキシリンおよびエオシン染色を用いて染色された組織切片の画像を使用してトレーニングされ、各々は、Ki-67バイオマーカが存在するのかどうかに関して標示される。標示は、たとえば、対応するIHCスライドから決定される。
図3(c)に関して上記で説明されたように、トレーニング済みモデルMは、細胞のセグメンテーションを実施するために画像処理ステップS201において使用され得る。そのようなモデルMは、グラウンドトゥルースな注釈を使用してトレーニングされる。乳癌に熟練した病理学者などの専門注釈者は、細胞のサブセットを明確に定めることができ、これは、次に、背景から細胞を隔離することならびに互いからそれらを分離することを行うようにモデルMをトレーニングするために使用され得る。モデルMは、ディープラーニングベースのエンコーダデコーダネットワークを使用することによってエンドツーエンドの様式でトレーニングされ得、ここで、画像は、最初に、低次元の特徴空間に符号化され、次いで、それらの注釈に一致するように再構成され、その間に、モデルは、ピクセルを、クラス標示、たとえば、細胞および背景にどのように変換するのかを学習する。モデルMは、いくつかのネットワークレイヤを追加して/ドロップすることによって、ならびに当面のタスクに応じて残差接続/ブロックを組み込むことによってさらに修正され得る。
いくつかの例では、注釈者は、トレーニング中にモデル出力に直接干渉し、アンダーセグメンテーションおよび/またはオーバーセグメンテーションを修正する。専門家に修正された出力は、次に、それのパフォーマンスを改善するために外部フィードバックによってモデルに提出されて戻される。
図3(e)は、モデルMをトレーニングする例示的な方法の概略図である。本方法は、複数のピクセルを備える入力画像データを取り出しって、複数のピクセルの各々に対応する値を生成するためにモデルをトレーニングし、値は、ピクセルが癌組織に対応するのかどうかを表す。このモデルは、別個のトレーニングプロセスでトレーニングされる。
図では、入力画像は、Iと標示され、モデルMからの出力は、Oと標示され、人間の専門家によって与えられた注釈は、Aと標示され、差の測度または損失は、Dとして示される。モデルMは、関連するパラメータベクトルθを有する。パラメータは、畳み込みレイヤのすべてのためのフィルタ重みを含む。モデルMは、M(I,θ)に対応する推測された注釈Oを作成するために入力画像を取り出す。トレーニングプロセスの目的は、注釈と推測された注釈との間の差が最小化されるようなパラメータベクトルθ’を見出すことであり、すなわち、
Figure 2023543044000016
であり、Mは、ネットワークのアーキテクチャであり、一方、θは、ネットワークの重みを備える。Dは、損失関数を表す。ピクセル単位のクロスエントロピー損失が使用され得る。カテゴリカルクロスエントロピー損失が使用され得る。ピクセル単位の損失は、すべての可能なカテゴリCにわたって加算されたログ損失として計算される。この場合、癌組織と非癌組織との2つのカテゴリがある。これは、すべてのピクセルにわたって繰り返され、損失を与えるために平均化される。ピクセル単位の損失は、次のように座標(x,y)の各ピクセルのために定義される。
Figure 2023543044000017
ここで、tiは、カテゴリのために注釈Aから取られたピクセルの正しい注釈であり、fiは、(合計C個のカテゴリの中の)i番目のカテゴリのためのソフトマックス関数である。値tは、各ピクセルについて、正しいカテゴリの場合は1に等しくなり、他のカテゴリの場合は0に等しくなる。各ピクセルのti値のベクトルは、注釈付き画像から自動的に生成され得る。i番目のカテゴリについて、tiは、ピクセルがi番目のカテゴリとして注釈を付けられるのかどうかを示し、ここで、ピクセルが、カテゴリとして注釈を付けられる場合はti=1であり、そうでない場合は、0である。ソフトマックス関数fi(s)は、次式によって与えられる
Figure 2023543044000018
ここで、Sjは、ピクセルのための各カテゴリのための最後のモデルレイヤによって出力されたスコアである。損失は、次いで、画像中であらゆる座標にわたって加算されることになる。
最適なパラメータは、θとしてランダム値を割り当て、次いで、差
Figure 2023543044000019
の勾配を計算し、計算された勾配を用いてθを更新することによってθを連続的に更新することによって計算される。モデルのトレーニング可能パラメータの各々に関する損失の勾配が逆伝播を通して決定される。勾配は、次いで、オプティマイザ関数を使用して更新されたパラメータを決定するために使用される。更新方法のこのファミリは、概して以下のように反復的に定義される勾配降下(GGD)として知られ、
Figure 2023543044000020
ここで、μは、パラメータがどのくらい迅速に更新されるのかを定義する学習レートである。更新は、バッチ平均に基づいて実施され得る。たとえば、8つのタイルまたは16個のタイルのバッチサイズが使用される。
アダム最適化アルゴリズムが使用され得る。しかしながら、選択される最適化戦略は、使用事例に対する各戦略のパフォーマンスに依存し得る。たとえば、以下の最適化方法のうちの1つが選択され得る。
確率的勾配降下法(SGD)
AdaDelta
Adam
AdaMax
Nesterov Adamオプティマイザ
RMSProp
モデルは、ピクセルレベルの注釈に敏感である。言い換えれば、トレーニングデータがただ1つのピクセルによって修正される場合、パラメータは、モデル全体にわたって、別様に更新され得る。モデル中の単一のレイヤ中に異なるサイズのアトラス畳み込みフィルタを含めることは、出力中のあらゆるピクセルが入力画像の周りのすべてから伝搬されることを意味する。これは、1つのピクセル差分がニューラルネットワークの大部分の部分に影響を及ぼし得ることを意味する。これにより、ただ1つのピクセル差分の場合でもモデルを更新することが可能になる。アトラス畳み込みを使用せずに、大部分の変更が局所的にしか伝搬されないことがある。
モデルは、人間の専門家によって注釈を付けられた画像から抽出されたデータを使用してトレーニングされる。たとえば、代替損失関数を使用するなど、トレーニングの様々な他の方法も使用され得る。トレーニングされると、モデルは、次いで、トレーニング中に見られなかった画像を処理するために使用される。
ER、PR、HER2およびKi-67について上記で説明された手法は、癌患者のケアに関係する一般的に使用される癌治療薬およびバイオマーカによって調整されたバイオマーカの予測を含め、様々な癌のタイプおよび器官にわたって適用され得る。
様々なバイオマーカに対するパフォーマンスが以下の表1に示されている。使用されるモデルは、1000個の異なるカテゴリを含む分類タスクのために120万個の画像を備えるデータセットに対して事前にトレーニングされている。モデルは次いで、癌画像のデータセット、たとえば、数千の癌画像を使用してさらにトレーニングされ、次いで、特定のバイオマーカで標示されたデータセット、たとえば、数百の画像を使用してさらにトレーニングされ得る。図示のように、方法は、臨床等級のパフォーマンス、すなわち、85%以上を示す。表1は、受信者操作特性(ROC)曲線の曲線下面積(AUC)中でのバイオマーカに対する予測のパフォーマンスメトリックを示す。正規化単位を使用するとき、ROC曲線の曲線下面積は、分類器がランダムに選定された負のインスタンスよりも高くランダムに選定された正のインスタンスをランク付けすることになる確率、この場合、モデルが、バイオマーカに関連付けられていないランダムに選定された画像よりもバイオマーカに関連付けられるランダムに選定された画像のためにより高い確率を出力することになる確率に等しくなる。
Figure 2023543044000021
図3に関して説明された癌細胞セグメンテーション段階の包含は、デフォルトのデータセットと癌専用のデータセットとの両方について、RNNアグリゲーション演算子とともに使用されたとき、様々な受容体について約3~7%より良好なAUCを与えた。注意機構の包含、特に、図6に関して示された方法は、図3に関して示された方法と比較して約7%のHER2についての改善を与えた。RNNベースのアグリゲーション演算子の包含、特に、図5に関して示された方法は、デフォルトのデータセットを使用することによって図3に関して示された方法と比較して様々な受容体についてAUCの5~9%の改善を与えた。
本明細書で説明される方法は、組織病理組織サンプルに対する臨床等級の器具を使用しない多癌多マーカプロファイル予測を与え得る。突然変異の状態、受容体の状態、コピー数多型などを含む癌の診断、治療および/または予後に関係するバイオマーカの自動プロファイリングは、癌画像とバイオマーカとの間の相関を識別するために一連のニューラルネットワークを使用して全スライドH&E画像から与えられ得る。本方法は、医療グレードレベルのパフォーマンスでバイオマーカテストの結果を予測することが可能である。したがって、本方法は、複数のテストの必要を置き換え得る。これは、たとえば、図9に示されているように、診断パイプラインを著しく合理化し得る。
図9は、バイオマーカの自動プロファイリングを用いる例示的な診断パイプラインを示す。ステップ901において、生検が実施され、試料が902において準備される。試料は、H&Eを用いて染色された組織サンプルであり得る。試料の画像が、次いで、903において病理学者によって分析される。画像はまた、904において上記で説明された例などの機械学習ベースのシステムによって分析される。903および904の出力は、905において完全な診断情報を与えるために組み合わされ、これは、次いで、906においてキャンサーボードまたは集学的チームに与えられる。治療が、次いで、決定される。本明細書で説明される方法を使用することによって、バイオマーカのためのテストに関連する運用コストと資本コストとが低減され得る。診断タイムラインはまた、たとえば、最長30日から1日未満まで最高97%だけ短縮され得る。本方法はまた、事例後テストを再訪すること、テストの依頼、テスト結果を分析することなどの必要を除去することによって病理学者のワークフローを簡略化し得る。最後に、本方法は、過剰および過小診断を低減し、ならびに再現性を改善し得る。
第1および第2のモデルは、エンドツーエンドのMILベースの分類によって正のバイオマーカステータスと負のバイオマーカステータスとを識別するために直接学習する。異なるアグリゲーション方法が説明された。本方法は、たとえば、乳癌の臨床サブタイプを予測するためにディープラーニングベースのフレームワークを与え得る。本方法は、学習可能なアグリゲーション関数とモデルに統合されるタイル選択プロシージャとを用いるエンドツーエンドのトレーニングを使用し得る。
例示的なバイオマーカのリストが以下の表2に示されている。
Figure 2023543044000022
Figure 2023543044000023
Figure 2023543044000024
Figure 2023543044000025
Figure 2023543044000026
いくつかの実施形態について説明したが、これらの実施形態は、単に例として提示されており、本発明の範囲を限定するものではない。実際、本明細書で説明される新規の方法および装置は、様々な他の形態で具体化され得、さらに、本明細書で説明される方法および装置の形態の様々な省略、置換および変更が行われ得る。

Claims (15)

  1. 組織の画像を処理するコンピュータ実装方法であって、
    組織の入力画像から画像部分の第1のセットを取得することと、
    画像部分の前記第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、前記選択することは、第1の畳み込みニューラルネットワークを備える第1のトレーニング済みモデルに前記第1のセットからの画像部分の画像データを入力することを備え、前記第1のトレーニング済みモデルは、前記画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
    1つまたは複数の画像部分の前記第2のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することと
    を備える、コンピュータ実装方法。
  2. 前記第2のセットは、2つ以上の画像部分を備える、ここにおいて、前記決定することは、第2のトレーニング済みモデルに1つまたは複数の画像部分の前記第2のセットに対応する第1のデータを入力することを備える、請求項1に記載の方法。
  3. 前記第2のトレーニング済みモデルは、再帰型ニューラルネットワークを備える、請求項2に記載の方法。
  4. 前記第2のトレーニング済みモデルは、注意機構を備える、請求項2または3に記載の方法。
  5. 前記第2のトレーニング済みモデルは、注意機構をさらに備える、ここにおいて、画像部分の前記第2のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することは、
    前記注意機構に前記第2のセット中の各画像部分のための前記第1のデータを入力することと、ここにおいて、前記注意機構は、各画像部分の前記重要度の指示を出力するように構成される、
    各画像部分の前記重要度の前記指示に基づいて画像部分の第3のセットを選択することと、
    前記第3のセット中で各画像部分について、前記再帰型ニューラルネットワークに前記第1のデータを入力することと、前記再帰型ニューラルネットワークは、前記入力画像が前記バイオマーカに関連付けられるのかどうかの前記指示を生成する、
    を備える、請求項3に記載の方法。
  6. 前記画像部分が前記バイオマーカに関連付けられるのかどうかの前記指示は、前記画像部分が前記バイオマーカに関連付けられることの確率である、ここにおいて、前記第2のセットを選択することは、最も高い確率を有するk個の画像部分を選択することを備える、ここにおいて、kは、1よりも大きいあらかじめ定義された整数である、請求項2から5のいずれか1項に記載の方法。
  7. 前記第1の畳み込みニューラルネットワークは、少なくとも1つの畳み込みレイヤを備える第1の部分と第2の部分とを備える、ここにおいて、前記第2の部分は、1次元ベクトルを入力として取り出す、
    ここにおいて、画像部分の前記第2のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの前記指示を決定することは、
    画像部分の前記第2のセットの各々のための前記第1のデータを生成すること、画像部分のための前記第1のデータを生成することは、前記第1の畳み込みニューラルネットワークの前記第1の部分に前記画像部分の前記画像データを入力することを備える、
    をさらに備える、請求項2から5のいずれか一項に記載の方法。
  8. 画像部分の前記第1のセットから1つまたは複数の画像部分の第4のセットを選択すること、前記選択することは、第2の畳み込みニューラルネットワークを備える第3のトレーニング済みモデルに前記第1のセットからの画像部分の画像データを入力することを備える、
    ここにおいて、前記入力画像が前記バイオマーカに関連付けられるのかどうかの前記指示は、1つまたは複数の画像部分の前記第4のセットと1つまたは複数の画像部分の前記第2のセットとから決定される、
    をさらに備える、請求項1から7のいずれか一項に記載の方法。
  9. 前記バイオマーカは、癌バイオマーカである、ここにおいて、組織の入力画像から画像部分の前記第1のセットを取得することは、
    画像部分に組織の前記入力画像を分割することと、
    第5のトレーニング済みモデルに画像部分の画像データを入力することと、前記第5のトレーニング済みモデルは、前記画像部分が癌組織に関連付けられるのかどうかの指示を生成する、
    前記画像部分が癌組織に関連付けられるのかどうかの前記指示に基づいて画像部分の前記第1のセットを選択することと
    を備える、請求項1から8のいずれか一項に記載の方法。
  10. 前記バイオマーカは、分子バイオマーカである、請求項1から9のいずれか一項に記載の方法。
  11. 組織の画像を処理するためのシステムであって、
    組織の入力画像を受信するように構成された入力と、
    前記入力画像がバイオマーカに関連付けられるのかどうかの指示を出力するように構成された出力と、
    1つまたは複数のプロセッサと
    を備え、前記1つまたは複数のプロセッサが、
    前記入力として受信された組織の入力画像から画像部分の第1のセットを取得することと、
    画像部分の前記第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、前記選択することは、第1の畳み込みニューラルネットワークを備える第1のトレーニング済みモデルに前記第1のセットからの画像部分の画像データを入力することを備え、前記第1のトレーニング済みモデルは、前記画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
    1つまたは複数の画像部分の前記第2のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することと、
    前記出力として前記指示を出力することと
    を行うように構成された、システム。
  12. トレーニングのコンピュータ実装方法であって、
    組織の入力画像から画像部分の第1のセットを取得することと、
    第1の畳み込みニューラルネットワークを備える第1のモデルに前記第1のセットからの画像部分の画像データを入力することと、前記第1のモデルは、前記画像部分がバイオマーカに関連付けられるのかどうかの指示を生成する、
    前記入力画像が前記バイオマーカに関連付けられるのかどうかを示す組織の前記入力画像に関連する標示に基づいて前記第1のモデルを適応させることと
    を備える、コンピュータ実装方法。
  13. 前記画像部分がバイオマーカに関連付けられるのかどうかの前記指示に基づいて画像部分の前記第1のセットから1つまたは複数の画像部分の第2のセットを選択することと、
    第2のモデルに画像部分の前記第2のセットに対応する第1のデータを入力することによって1つまたは複数の画像部分の前記第2のセットから前記入力画像が前記バイオマーカに関連付けられるのかどうかの指示を決定することと、ここにおいて、前記方法は、前記入力画像が前記バイオマーカに関連付けられるのかどうかを示す組織の前記入力画像に関連する前記標示に基づいて前記第2のモデルを適応させることをさらに備える、
    をさらに備える、請求項12に記載の方法。
  14. 請求項12または13の前記方法に従ってトレーニングされる第1のモデルと第2のモデルとを備えるシステム。
  15. 請求項1から10または12から13のいずれか一項に記載の前記方法をコンピュータに実行させるように構成されたコンピュータ可読コードを備える担体媒体。
JP2023519331A 2020-09-25 2021-09-24 組織の画像を処理する方法および組織の画像を処理するためのシステム Pending JP2023543044A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20198551.2 2020-09-25
EP20198551.2A EP3975110A1 (en) 2020-09-25 2020-09-25 A method of processing an image of tissue and a system for processing an image of tissue
PCT/GB2021/052503 WO2022064222A1 (en) 2020-09-25 2021-09-24 A method of processing an image of tissue and a system for processing an image of tissue

Publications (1)

Publication Number Publication Date
JP2023543044A true JP2023543044A (ja) 2023-10-12

Family

ID=72659723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023519331A Pending JP2023543044A (ja) 2020-09-25 2021-09-24 組織の画像を処理する方法および組織の画像を処理するためのシステム

Country Status (7)

Country Link
US (1) US20230377155A1 (ja)
EP (1) EP3975110A1 (ja)
JP (1) JP2023543044A (ja)
KR (1) KR20230125169A (ja)
CN (1) CN117015796A (ja)
IL (1) IL301650A (ja)
WO (1) WO2022064222A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220212011A1 (en) * 2017-12-22 2022-07-07 Iridium Medical Technology Co., Ltd. Artificial retinal prosthesis
US11663838B2 (en) * 2020-10-29 2023-05-30 PAIGE.AI, Inc. Systems and methods for processing images to determine image-based computational biomarkers from liquid specimens
US20210225002A1 (en) * 2021-01-28 2021-07-22 Intel Corporation Techniques for Interactive Image Segmentation Networks
US20220262513A1 (en) * 2021-02-18 2022-08-18 Lunit Inc. Method and system for training machine learning model for detecting abnormal region in pathological slide image
JP2022145001A (ja) * 2021-03-19 2022-10-03 キヤノン株式会社 画像処理装置、画像処理方法
CN116523985B (zh) * 2023-05-06 2024-01-02 兰州交通大学 一种结构和纹理特征引导的双编码器图像修复方法
CN116579616B (zh) * 2023-07-10 2023-09-29 武汉纺织大学 一种基于深度学习的风险识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3625765B1 (en) * 2017-12-29 2024-03-20 Leica Biosystems Imaging, Inc. Processing of histology images with a convolutional neural network to identify tumors
US10445879B1 (en) * 2018-03-23 2019-10-15 Memorial Sloan Kettering Cancer Center Systems and methods for multiple instance learning for classification and localization in biomedical imaging
WO2020081463A1 (en) * 2018-10-18 2020-04-23 Verily Life Sciences Llc Systems and methods for using image processing to generate inferences of biomarker for immunotherapy
US20200250398A1 (en) * 2019-02-01 2020-08-06 Owkin Inc. Systems and methods for image classification

Also Published As

Publication number Publication date
KR20230125169A (ko) 2023-08-29
CN117015796A (zh) 2023-11-07
WO2022064222A1 (en) 2022-03-31
EP3975110A1 (en) 2022-03-30
US20230377155A1 (en) 2023-11-23
IL301650A (en) 2023-05-01

Similar Documents

Publication Publication Date Title
Mohanakurup et al. Breast cancer detection on histopathological images using a composite dilated Backbone Network
Silva-Rodríguez et al. Going deeper through the Gleason scoring scale: An automatic end-to-end system for histology prostate grading and cribriform pattern detection
US11288795B2 (en) Assessing risk of breast cancer recurrence
US10235755B2 (en) High-throughput adaptive sampling for whole-slide histopathology image analysis
US20220237788A1 (en) Multiple instance learner for tissue image classification
JP2023543044A (ja) 組織の画像を処理する方法および組織の画像を処理するためのシステム
Swiderska-Chadaj et al. Impact of rescanning and normalization on convolutional neural network performance in multi-center, whole-slide classification of prostate cancer
US20220058839A1 (en) Translation of images of stained biological material
Fenstermaker et al. Development and validation of a deep-learning model to assist with renal cell carcinoma histopathologic interpretation
JP7427080B2 (ja) 細胞検出およびセグメンテーションのための弱教師ありマルチタスク学習
Razavi et al. MiNuGAN: Dual segmentation of mitoses and nuclei using conditional GANs on multi-center breast H&E images
CN116884597A (zh) 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统
Kosaraju et al. Deep learning-based framework for slide-based histopathological image analysis
Prezja et al. Improving performance in colorectal cancer histology decomposition using deep and ensemble machine learning
Salvi et al. cyto‐Knet: An instance segmentation approach for multiple myeloma plasma cells using conditional kernels
Saranyaraj et al. Early prediction of breast cancer based on the classification of HER‐2 and ER biomarkers using deep neural network
Elazab et al. A multi-class brain tumor grading system based on histopathological images using a hybrid YOLO and RESNET networks
Pan et al. A review of machine learning approaches, challenges and prospects for computational tumor pathology
Johny et al. Optimization of CNN model with hyper parameter tuning for enhancing sturdiness in classification of histopathological images
Raza et al. Mimicking a pathologist: dual attention model for scoring of gigapixel histology images
RS CoC-ResNet-classification of colorectal cancer on histopathologic images using residual networks
Thorat Classification of sub-type of lymphoma using deep learning
Man et al. Automatic breast cancer grading of histological images using dilated residual network
Selcuk et al. Automated HER2 Scoring in Breast Cancer Images Using Deep Learning and Pyramid Sampling
Putzu Computer aided diagnosis algorithms for digital microscopy

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240815