JP2022504870A - 細胞の分類のためのシステムおよび方法 - Google Patents

細胞の分類のためのシステムおよび方法 Download PDF

Info

Publication number
JP2022504870A
JP2022504870A JP2021520355A JP2021520355A JP2022504870A JP 2022504870 A JP2022504870 A JP 2022504870A JP 2021520355 A JP2021520355 A JP 2021520355A JP 2021520355 A JP2021520355 A JP 2021520355A JP 2022504870 A JP2022504870 A JP 2022504870A
Authority
JP
Japan
Prior art keywords
cells
image
neural network
cell
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021520355A
Other languages
English (en)
Other versions
JP7228031B2 (ja
Inventor
ニエ,ヤオ
ユーセフィ,サフォーラ
Original Assignee
ベンタナ メディカル システムズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベンタナ メディカル システムズ, インコーポレイテッド filed Critical ベンタナ メディカル システムズ, インコーポレイテッド
Publication of JP2022504870A publication Critical patent/JP2022504870A/ja
Priority to JP2023019053A priority Critical patent/JP2023065441A/ja
Application granted granted Critical
Publication of JP7228031B2 publication Critical patent/JP7228031B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)

Abstract

Figure 2022504870000001
本開示は、細胞および/または核を検出するために、および/または分類するためにニューラルネットワークを迅速かつ正確に訓練するように適合された自動化されたシステムおよび方法に関する。さらに、本開示は、ニューラルネットワークを含むものなどの訓練された細胞検出および分類エンジンを使用して、ラベル付けされていない画像内の細胞を分類するための自動化されたシステムおよび方法にも関する。

Description

関連出願の相互参照
本出願は、2019年4月8日に出願された米国出願第62/830,823号の出願日の利益を主張し、2018年10月15日に出願された米国出願第62/745,953号の出願日の利益も主張し、これらの開示の各々は、参照によりその全体が本明細書に組み込まれる。
デジタル病理学は、組織病理学または細胞病理学のスライドガラスの全体を、コンピュータ画面上で解釈することができるデジタル画像へとスキャンすることを含む。次いで、これらの画像は、その後、画像化アルゴリズムを使用して処理され、あるいは病理医によって解釈される。組織切片(実質的に透明である)を調べるために、細胞成分に選択的に結合する有色の組織化学的染色を使用して、組織切片が調製される。色で強調され、あるいは染色された細胞構造は、疾患の形態学的マーカーを識別し、それに応じて治療を進めるために、臨床医またはコンピュータ支援診断(CAD)アルゴリズムによって使用される。アッセイを観察することで、疾患の診断、治療への反応の評価、および疾患と戦うための新薬の開発を含むさまざまなプロセスが可能になる。
免疫組織化学的(IHC)スライド染色は、組織切片の細胞内のタンパク質を特定するために利用可能であるため、生体組織内のがん性細胞または免疫細胞など、さまざまな種類の細胞の研究に広く使用されている。したがって、IHC染色を、免疫反応を検討するために、がん組織における免疫細胞(T細胞またはB細胞など)の示差的に発現するバイオマーカーの分布および局在を理解するための研究に使用することができる。例えば、腫瘍は、多くの場合、腫瘍の進行を防止でき、あるいは腫瘍の成長を促進できる免疫細胞の浸潤物を含む。
インサイチュハイブリダイゼーション(ISH)を使用して、遺伝的異常、または顕微鏡で観察したときに形態学的に悪性であるように見える細胞内に特異的に遺伝子を生じさせるがんの増幅などの状態の存在を探すことができる。インサイチュハイブリダイゼ-ション(ISH)は、標的遺伝子配列または転写物に対してアンチセンスである標識DNAまたはRNAプローブ分子を使用して、細胞または組織サンプル内の標的核酸標的遺伝子を検出し、あるいはそれらの位置を特定する。ISHは、スライドガラス上に固定された細胞または組織サンプルを、細胞または組織サンプル内の所与の標的遺伝子に特異的にハイブリッド形成することができる標識核酸プローブに曝露することによって実行される。複数の異なる核酸タグによって標識された複数の核酸プローブに細胞または組織サンプルを曝露することにより、いくつかの標的遺伝子を同時に分析することができる。異なる発光波長を有する標識を利用することにより、単一の標的細胞または組織サンプルに対して単一のステップで同時多色分析を実行することができる。例えば、Ventana Medical Systems,Inc.のINFORM HER2 Dual ISH DNA Probe Cocktail Assayは、HER2遺伝子の17番染色体に対する比率を数えることによってHER2遺伝子状態を判定することを目的としている。HER2および17番染色体プローブは、ホルマリン固定パラフィン包埋ヒト乳がん組織標本において2色の発色ISHを使用して検出される。
細胞および/または核の検出は、デジタル病理学における重要な仕事であり、一般に、染色されたがん組織の画像において個々の細胞を識別し、位置を特定することを指す。がんの組織学的画像は、さまざまなサイズ、解像度、および染色の種類にて提供され、視覚的に不均一な重なり合う細胞で混み合っている。これらの画像からの細胞および/または核の検出において一般的に直面される課題は、とりわけ、グランドトゥルース注釈を取得すること、および異なる解像度および異なる染色を有するデータセットに対して特定の解像度または染色に合わせて調整されたモデルを適用することが、困難かつ場合によっては不可能であることである。実際に、グランドトゥルースラベリングのプロセスは、多くの場合に面倒であり、長時間の献身を要する。したがって、細胞および/または核の分類のためのグランドトゥルースラベリングを容易にするシステムおよび方法を開発することが、望ましいと考えられる。
以上に鑑み、本出願の出願人は、迅速かつロバストなやり方でのグランドトゥルースデータの生成を容易にするシステムおよび方法を開発することで、面倒なグランドトゥルース注釈の作業の問題を解決した。これを達成するために、本明細書において詳述されるように、本システムおよび方法は、サンプル画像内の細胞および/または核の均質なクラスタの生成を容易にし、(個々の細胞および/または核ではなく)生成された均質なクラスタ自体に注釈を付けることができる。これにより、グランドトゥルースラベリングの負担が、おおむねデータセット内の細胞の数から、データセット内の識別されたクラスタの数へと軽減される。細胞および/または核の均質なクラスタの生成は、従来になくしたがってシステム入力を迅速かつ正確なグランドトゥルースの生成を可能にする出力へと変換する。したがって、グランドトゥルース注釈の技術的問題は、組織学的画像および/または細胞学的画像とは無関係の画像データセットにて事前に訓練されたシステム、ならびに/あるいは組織学的および/または細胞学的画像を使用して最小限の調整が行われたシステムなど、均質なクラスタを迅速かつ正確に生成するように適合されたシステムを使用することによって解決される。本明細書に記載のシステムおよび方法は、細胞検出および分類エンジンを使用してテスト画像内の細胞および/または核を迅速かつ正確に検出することも可能することで、がんなどの疾患の正確な診断を容易にし、したがって人間の患者などの苦しむ対象のための治療の改善を容易にする。本明細書に記載のシステムおよび方法は、有形のデータソース、すなわち治療を必要とする患者に由来する生物学的標本などの生物学的標本に対応する画像データに結び付けられる。
本開示の一態様は、1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するためのシステムであり、このシステムは、(i)1つ以上のプロセッサ、および(ii)1つ以上のプロセッサに結合した1つ以上のメモリを備え、1つ以上のメモリはコンピュータ実行可能命令を格納し、1つ以上のプロセッサによって実行されたときに(a)サンプル画像内の細胞特徴を検出するように適合された畳み込みニューラルネットワークを備える訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、(b)畳み込みニューラルネットワークの1つ以上の層から細胞特徴を抽出することと、(c)抽出された細胞特徴に基づいてサンプル画像内の検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することとを含む動作をシステムに実行させる。
いくつかの実施形態において、訓練されたオブジェクト検出エンジンは、領域ベースの畳み込みニューラルネットワークを備える。いくつかの実施形態において、領域ベースの畳み込みニューラルネットワークは、Fast-RCNNから構成される。いくつかの実施形態において、訓練されたオブジェクト検出エンジンは、Faster-RCNNから構成される。いくつかの実施形態において、訓練されたオブジェクト検出エンジンは、領域提案ネットワークをさらに備える。
いくつかの実施形態において、訓練されたオブジェクト検出エンジンの畳み込みニューラルネットワークは、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、およびDenseNetのうちの1つ、またはこれらの任意の変種から構成される。いくつかの実施形態において、訓練されたオブジェクト検出エンジンの畳み込みニューラルネットワークは、深層残差ネットワークである。いくつかの実施形態において、深層残差ネットワークは、ResNetから構成される。いくつかの実施形態において、ニューラルネットワークは、オートエンコーダニューラルネットワークである。
いくつかの実施形態において、畳み込みニューラルネットワークは、少なくとも1つのスケーリング層を備える。いくつかの実施形態において、少なくとも1つのスケーリング層は、一定の係数でサンプル画像をスケーリングする。いくつかの実施形態において、検出された細胞をクラスタリングすることは、凝集型階層クラスタリングを実行することを含む。
いくつかの実施形態において、畳み込みニューラルネットワークは、複数の訓練用画像を含むデータセットを使用して訓練され、複数の訓練用画像のうちの各々の訓練用画像は、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する(例えば、HER2の存在について染色された複数の訓練用画像)。いくつかの実施形態において、複数の訓練用画像のうちの各々の訓練用画像は、少なくとも1つのクラスラベルを含む。いくつかの実施形態において、複数の訓練用画像のうちの各々の訓練用画像は、クラスラベルを含まない。いくつかの実施形態において、複数の訓練用画像のうちの各々の訓練用画像が、いかなる病理医による注釈も含まない。オブジェクト検出エンジンが少なくとも1つのクラスラベルを含む訓練用画像を使用して訓練される実施形態において、システムは、検出された細胞を分類するための命令をさらに含むことができる。いくつかの実施形態において、サンプル画像は、オブジェクト検出エンジンの訓練に使用された複数の訓練用画像のいずれにおける染色とも異なる染色を含む。
いくつかの実施形態において、システムは、サンプル画像内の細胞の1つ以上の提供された均質なクラスタのうちの少なくとも1つに対応する注釈を受け取るように適合される。いくつかの実施形態において、注釈は病理医によって提供される。
いくつかの実施形態において、システムは、受け取った注釈を使用して細胞検出および分類エンジンを訓練するための命令をさらに含む。いくつかの実施形態において、システムは、訓練された細胞検出および分類エンジンを使用してテスト画像内の細胞を検出するための命令をさらに含む。いくつかの実施形態において、システムは、訓練された細胞検出および分類エンジンを使用してテスト画像内の細胞を分類するための命令をさらに含む。いくつかの実施形態において、テスト画像は少なくとも1つの染色を含む。いくつかの実施形態において、テスト画像の少なくとも1つの染色は、細胞染色である。いくつかの実施形態において、テスト画像の少なくとも1つの染色は、膜染色である。いくつかの実施形態において、テスト画像内の少なくとも1つの染色は、細胞検出および分類エンジンの訓練に使用された染色とは異なる。
いくつかの実施形態において、細胞検出および分類エンジンは、ニューラルネットワークを備える。いくつかの実施形態において、ニューラルネットワークは、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、DenseNet、またはResNetから構成される。いくつかの実施形態において、ニューラルネットワークは、オートエンコーダニューラルネットワークである。他の実施形態において、細胞検出および分類エンジンは、分類器を含む。いくつかの実施形態において、分類器は、サポートベクターマシンまたはアンサンブル学習方法であり、例えばランダムフォレスト教師あり学習アルゴリズムである。いくつかの実施形態において、細胞検出および分類モジュールは、ニューラルネットワークおよび分類器を備える。いくつかの実施形態において、細胞検出および分類モジュールのニューラルネットワークは、入力されたテスト画像から特徴を抽出するように適合される。
いくつかの実施形態において、システムは、訓練されたオブジェクト検出エンジンを受け取った注釈を使用して微調整して、微調整されたオブジェクト検出エンジンを提供するための命令をさらに含む。いくつかの実施形態において、システムは、微調整されたオブジェクト検出エンジンを使用して、テスト画像内の細胞を検出するための命令をさらに含む。いくつかの実施形態において、システムは、微調整されたオブジェクト検出エンジンを使用して、テスト画像内の細胞を分類するための命令をさらに含む。
本開示の別の態様は、1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するための命令を格納する非一時的なコンピュータ可読媒体であり、(a)第1の部分および第2の部分を備え、第1の部分はサンプル画像内の細胞特徴を識別するように構成され、第2の部分は識別された細胞特徴に基づいて細胞を検出するように構成されている訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、(b)訓練されたオブジェクト検出エンジンの1つ以上の層から識別された細胞特徴の少なくとも一部を抽出することと、(c)抽出された細胞特徴に基づいてサンプル画像内の検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することとを含む。
いくつかの実施形態において、第1の部分は、ニューラルネットワークを備える。いくつかの実施形態において、ニューラルネットワークは、畳み込みニューラルネットワークである。いくつかの実施形態において、畳み込みニューラルネットワークは、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、およびDenseNetから構成される。いくつかの実施形態において、畳み込みニューラルネットワークは、深層残差ネットワークである。いくつかの実施形態において、深層残差ネットワークは、ResNetから構成される。いくつかの実施形態において、第2の部分は、領域提案ネットワークを備える。いくつかの実施形態において、オブジェクト検出エンジンは、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する複数の訓練用画像を含むデータセットを使用して訓練される。いくつかの実施形態において、オブジェクト検出エンジンは、複数の訓練用画像を含むデータセットを使用して訓練され、複数の訓練用画像のうちの各々の訓練用画像は、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色され、複数の訓練用画像のうちの各々の訓練用画像は、クラスラベルまたは病理医による注釈を含まない。
本開示の別の態様は、1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するための命令を格納する非一時的なコンピュータ可読媒体であり、(a)サンプル画像内の細胞特徴を検出するように適合された畳み込みニューラルネットワークを備える訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、(b)畳み込みニューラルネットワークの1つ以上の層から細胞特徴を抽出することと、(c)抽出された細胞特徴に基づいてサンプル画像内の検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、を含む。
いくつかの実施形態において、オブジェクト検出エンジンは、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する複数の訓練用画像を含むデータセットを使用して訓練される。いくつかの実施形態において、オブジェクト検出エンジンは、複数の訓練用画像を含むデータセットを使用して訓練され、複数の訓練用画像のうちの各々の訓練用画像は、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色され、複数の訓練用画像のうちの各々の訓練用画像は、クラスラベルまたは病理医による注釈を含まない。
いくつかの実施形態において、畳み込みニューラルネットワークは、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、およびDenseNetから構成される。いくつかの実施形態において、畳み込みニューラルネットワークは、深層残差ネットワークである。いくつかの実施形態において、深層残差ネットワークは、ResNetから構成される。いくつかの実施形態において、訓練されたオブジェクト検出エンジンは、Faster-RCNNから構成されたネットワークアーキテクチャを備える。いくつかの実施形態において、ニューラルネットワークは、オートエンコーダニューラルネットワークである。
いくつかの実施形態において、非一時的なコンピュータ可読媒体は、サンプル画像内の細胞の1つ以上の均質なクラスタのうちの少なくとも1つに対応する病理医による注釈を使用して細胞検出および分類エンジンを訓練するための命令をさらに含む。いくつかの実施形態において、非一時的なコンピュータ可読媒体は、訓練された細胞検出および分類エンジンを使用してテスト画像内の細胞を検出するための命令をさらに含む。いくつかの実施形態において、非一時的なコンピュータ可読媒体は、訓練された細胞検出および分類エンジンを使用してテスト画像内の検出された細胞を分類するための命令をさらに含む。いくつかの実施形態において、細胞検出および分類エンジンは、ニューラルネットワークを備える。いくつかの実施形態において、細胞検出および分類エンジンは、サポートベクターマシンを備える。
いくつかの実施形態において、非一時的なコンピュータ可読媒体は、訓練されたオブジェクト検出エンジンをサンプル画像内の細胞の1つ以上の均質なクラスタのうちの少なくとも1つについて受け取った注釈を使用して微調整して、微調整されたオブジェクト検出エンジンを提供するための命令をさらに含む。いくつかの実施形態において、非一時的なコンピュータ可読媒体は、微調整されたオブジェクト検出エンジンを使用してテスト画像内の細胞を検出するための命令をさらに含む。
本開示の別の態様は、1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別する方法であり、この方法は、畳み込みニューラルネットワークおよび領域提案ネットワークを備え、畳み込みニューラルネットワークは細胞特徴を識別するように構成され、領域提案ネットワークは識別された細胞特徴に基づいて細胞を検出するように構成されている訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、畳み込みニューラルネットワークの1つ以上の層から識別された細胞特徴を抽出することと、抽出された細胞特徴に基づいてサンプル画像内の検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、を含む。
いくつかの実施形態において、訓練されたオブジェクト検出エンジンは、領域ベースの畳み込みニューラルネットワークを備える。いくつかの実施形態において、領域ベースの畳み込みニューラルネットワークは、Fast-RCNNから構成される。いくつかの実施形態において、訓練されたオブジェクト検出エンジンは、Faster-RCNNから構成される。いくつかの実施形態において、畳み込みニューラルネットワークは、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、およびDenseNetから構成される。いくつかの実施形態において、畳み込みニューラルネットワークは、深層残差ネットワークである。いくつかの実施形態において、深層残差ネットワークは、ResNetから構成される。いくつかの実施形態において、畳み込みニューラルネットワークは、オートエンコーダニューラルネットワークである。
いくつかの実施形態において、オブジェクト検出エンジンは、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する複数の訓練用画像を含むデータセットを使用して訓練される。いくつかの実施形態において、オブジェクト検出エンジンは、複数の訓練用画像を含むデータセットを使用して訓練され、複数の訓練用画像のうちの各々の訓練用画像は、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色され、複数の訓練用画像のうちの各々の訓練用画像は、クラスラベルまたは病理医による注釈を含まない。
本開示の別の態様は、1つ以上のバイオマーカーの存在について染色された生物学的標本のテスト画像内の細胞を検出する方法であり、この方法は、訓練された細胞検出および分類エンジンのうちの細胞特徴を検出するように構成された畳み込みニューラルネットワークを備えている第1の部分にテスト画像を入力することにより、生物学的標本のテスト画像内の細胞特徴を決定することと、訓練された細胞検出および分類エンジンのうちの領域提案ネットワークを少なくとも備えている第2の部分にテスト画像の決定された特徴を入力することにより、決定された細胞特徴に基づいてテスト画像内の細胞を検出することと、を含む。いくつかの実施形態において、畳み込みニューラルネットワークは、深層残差ネットワークである。いくつかの実施形態において、深層残差ネットワークは、ResNetから構成される。
いくつかの実施形態において、この方法は、テスト画像内の検出された細胞を分類することをさらに含む。いくつかの実施形態において、細胞検出および分類エンジンは、グランドトゥルースデータを使用して訓練され、グランドトゥルースデータは、1つ以上のサンプル画像に由来する細胞の1つ以上の識別された均質なクラスタに対応する病理医による注釈を含む。いくつかの実施形態において、1つ以上のサンプル画像に由来する細胞の均質なクラスタは、(i)訓練されたオブジェクト検出エンジンにサンプル画像を提供し、(ii)訓練されたオブジェクト検出エンジンを使用してサンプル画像内の細胞を検出し、(iii)訓練されたオブジェクト検出エンジン内の畳み込み層のうちの少なくとも1つから複数の細胞特徴を抽出し、(iv)抽出された細胞特徴に基づいてテスト画像内の検出された細胞をクラスタリングすることによって識別される。いくつかの実施形態において、オブジェクト検出エンジンは、複数の訓練用画像を含むデータセットで訓練され、複数の訓練用画像のうちの各々の訓練用画像は、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する。
本開示の別の態様は、1つ以上のバイオマーカーの存在について染色された生物学的標本のテスト画像内の細胞を検出する方法であり、この方法は、訓練された細胞検出および分類エンジンのうちの細胞特徴を検出するように構成されたニューラルネットワークを備えている第1の部分にテスト画像を入力することにより、生物学的標本のテスト画像内の細胞特徴を決定することと、訓練された細胞検出および分類エンジンのうちの訓練された分類器を備えている第2の部分にテスト画像の決定された特徴を入力することにより、決定された細胞特徴に基づいてテスト画像内の細胞を検出することと、を含む。いくつかの実施形態において、訓練された分類器は、サポートベクターマシンまたはランダムフォレストアンサンブル学習方法を含む。
本開示の特徴の全体的な理解のために、図面が参照される。図面においては、同一の要素を特定するために、全体を通して同様の参照番号が使用されている。
本開示の一実施形態による画像取得装置およびコンピュータシステムを含む代表的なデジタル病理学システムを示している。 本開示の一実施形態に従ってサンプル画像内の細胞を検出するためにデジタル病理学システムまたはデジタル病理学ワークフローにおいて利用することができるさまざまなモジュールを示している。 本開示の一実施形態に従ってサンプル画像内の細胞を検出するためにデジタル病理学システムまたはデジタル病理学ワークフローにおいて利用することができるさまざまなモジュールを示している。 本開示の一実施形態に従ってテスト画像内の細胞を検出するために、および/または分類するためにデジタル病理学システムまたはデジタル病理学ワークフローにおいて利用することができるさまざまなモジュールを示している。 本開示の一実施形態に従って細胞のクラスタを生成するステップを説明するフローチャートを示している。 本開示の一実施形態に従って細胞のクラスタを生成するステップを説明するフローチャートを示している。 本開示の一実施形態に従って事前に訓練されたニューラルネットワークを調整するステップを説明するフローチャートを示している。 本開示の一実施形態に従ってテスト画像内の細胞を検出するステップ、および/または分類するステップを説明するフローチャートを示している。 本開示の一実施形態による領域ベースの畳み込みニューラルネットワーク(RCNN)の方法論の概要を示している。 本開示の一実施形態によるFast-RCNNの方法論の概要を示している。 本開示の一実施形態によるFaster-RCNNの方法論の概要を示している。 サンプル画像における細胞の検出およびその後の検出された細胞の均質なクラスタの識別の結果を示している。いくつかの実施形態においては、ニューラルネットワークが、最小限の注釈付きのデータセットを使用して訓練される。次いで、いくつかの実施形態において、訓練されたニューラルネットワークは、大きな画像内の細胞を検出し、それらに関連する特徴を抽出するために使用される。次いで、いくつかの実施形態において、細胞をそれらの特徴に基づいてクラスタリングすることで、1つずつではなくバッチごとにラベリングすることができる細胞の均質なクラスタが病理医に提供され、したがってグランドトゥルースラベリングの苦労が大幅に軽減される。いくつかの実施形態において、識別された均質なクラスタに病理医が注釈を付けることができ、注釈が付けられたクラスタをグランドトゥルースデータとして使用することができる。Faster-RCNNを採用することで、病理医は、異なる色によって区別できるクラスタ内の細胞候補の検出された境界ボックスにラベルを付けるだけでよいと考えられる。 Her2 Dual ISH画像にモデルAを使用した細胞検出結果の例を示している(上)。この図は、対応する画像パッチのグランドトゥルース注釈も比較として示している(下)。 訓練されたオブジェクト検出エンジンを使用したクラスタリングの結果を示しており、オブジェクト検出エンジンはFaster-RCNNアーキテクチャに基づいている。 検出された細胞のRGB値を使用したセルのクラスタリングを示している。境界ボックスをMatlab Image Labeler APPによって生成することができる。クラスタは、K-meansなどの方法を使用して計算される。いくつかの実施形態においては、凝集型クラスタリングが、本明細書でさらに説明されるように、scikit-learnで実装される。 BBデータ(すなわち、ヘマトキシリンおよびDAB染色細胞の1822の2クラス注釈)のモデルA表現に基づくクラスタリングの評価を示すグラフを示している。 BBYPデータ(すなわち、メンバーの数が10~1828の範囲である5つの不均衡なクラスに分類される1340の注釈を含むIHCデュプレックス染色画像)のモデルB表現に基づくクラスタリングの評価を示すグラフを示している。 BBYPデータセットにおけるT細胞(右)および腫瘍細胞(左)の例を示している。Ki67+およびKi67-腫瘍細胞は、それぞれKi68+およびKi67-T細胞と同じ色を有する。これらの細胞を、細胞のサイズ、形状、およびコンテキストに基づいて区別することができる。
特に明確に示されない限り、複数のステップまたは行為を含む本明細書で請求される方法において、方法のステップまたは行為の順序は、必ずしも方法のステップまたは行為が記載されている順序に限定されないことも理解されたい。
本明細書において使用されるとき、単数形「a」、「an」、および「the」は、文脈からそのようでないことが明らかでない限り、言及対象が複数の場合を含む。同様に、「または」という単語は、文脈からそのようでないことが明らかでない限り、「および」を含むように意図される。「・・・を含む」という用語は、「AまたはBを含む」がAを含むこと、Bを含むこと、またはAとBとを含むことを意味するように、包括的に定義される。
本明細書および特許請求の範囲で使用される場合、「または」は、上記の定義のように「および/または」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を区切る場合に、「または」または「および/または」は、包括的であると解釈されるべきであり、すなわち、いくつかの要素または要素のリストのうちの少なくとも1つを含むが、2つ以上を含んでもよく、リストにない追加のアイテムを随意により含んでもよいと解釈されるべきである。そのようでないことを明確に示す「・・・のうちのただ1つ」または「・・・のうちの正確に1つ」あるいは特許請求の範囲で使用される場合の「・・・からなる」などの用語のみが、いくつかの要素または要素のリストのうちの正確に1つの要素を含むことを意味する。一般に、本明細書において使用される「または」という用語は、「いずれか」、「・・・のうちの1つ」、「・・・のうちのただ1つ」、または「・・・のうちの正確に1つ」などの排他性の用語を伴う場合に限り、排他的な選択肢(すなわち、「両方ではなく、一方または他方」)を示すものとして解釈されるべきである。「・・・から本質的になる」は、特許請求の範囲において使用される場合、特許法の分野において使用される通常の意味を有する。
本明細書において使用されるとき、「・・・を備えている」、「・・・を含んでいる」、「・・・を有している」、などの用語は、交換可能に使用され、同じ意味を有する。同様に、「・・・を備える」、「・・・を含む」、「・・・を有する」、などは、交換可能に使用され、同じ意味を有する。具体的には、これらの用語の各々は、「・・・を含む」の一般的な米国特許法の定義に一致して定義され、したがって「少なくとも以下のもの」を意味するオープンな用語として解釈され、追加の特徴、限定、態様、などを排除することがないようにも解釈される。したがって、例えば、「構成要素a、b、およびcを有するデバイス」は、そのデバイスが少なくとも構成要素a、b、およびcを含むことを意味する。同様に、「ステップa、b、およびcを含む方法」という表現は、その方法が少なくともステップa、b、およびcを含むことを意味する。さらに、ステップおよびプロセスが、本明細書において特定の順序で概説されるかもしれないが、ステップおよびプロセスの順序がさまざまであってよいことを、当業者であれば理解できるであろう。
本明細書および特許請求の範囲において使用されるとき、1つ以上の要素からなるリストに関する「少なくとも1つ」という表現は、要素のリストに含まれる要素のうちの任意の1つ以上の要素から選択される少なくとも1つの要素を意味するが、必ずしも要素のリストに具体的に挙げられたすべての要素を少なくとも1つずつ含む必要はなく、要素のリストに含まれる要素の任意の組み合わせを除外するものではないと理解されるべきである。この定義は、「少なくとも1つ」という表現によって言及された要素のリストにおいて具体的に特定された要素以外の要素が、具体的に特定された要素に関連があるかどうかにかかわらず、随意により存在してもよいことを許容する。したがって、これに限られるわけではない一例として、「AおよびBのうちの少なくとも1つ」(あるいは、「AまたはBのうちの少なくとも1つ」または「Aおよび/またはBのうちの少なくとも1つ」も同等)は、一実施形態において、Aが少なくとも1つ、随意により2つ以上であり、Bは存在しない(さらに、随意によりB以外の要素を含む)ことを指すことができ、別の実施形態において、Bが少なくとも1つ、随意により2つ以上であり、Aは存在しない(さらに、随意によりA以外の要素を含む)ことを指すことができ、さらに別の実施形態において、Aが少なくとも1つ、随意により2つ以上であり、かつBが少なくとも1つ、随意により2つ以上である(さらに、随意により他の要素を含む)ことを指すことができる、などである。
本明細書において使用されるとき、「生物学的標本」、「サンプル」、または「組織サンプル」という用語は、ウイルスを含む任意の生物から得られる生体分子(タンパク質、ペプチド、細胞酸、脂質、炭水化物、またはこれらの組み合わせ、など)を含む任意のサンプルを指す。生物の他の例として、哺乳類(例えば、人間、猫、犬、馬、牛、および豚などの獣医動物、ならびにマウス、ラット、および霊長類などの実験動物)、昆虫、環形動物、クモ形類動物、有袋類、爬虫類、両生類、細菌、および菌類が挙げられる。生物学的標本として、組織サンプル(組織切片および組織の針生検など)、細胞サンプル(Pap塗抹標本または血液塗抹標本などの細胞学的塗抹標本、あるいは顕微解剖によって得られた細胞のサンプルなど)、あるいは細胞分画、断片、または細胞器官(例えば、細胞を溶解させ、遠心分離などによって成分を分離することによって得られる)が挙げられる。生物学的標本の他の例として、血液、血清、尿、精液、糞便、脳脊髄液、間質液、粘膜、涙、汗、膿、生検組織(例えば、外科的生検または針生検によって得られる)、乳頭吸引物、耳垢、乳、膣液、唾液、ぬぐい液(頬スワブなど)、または最初の生物学的標本に由来する生体分子を含む任意の物質が挙げられる。特定の実施形態において、本明細書で使用される「生物学的標本」という用語は、対象から得られた腫瘍またはその一部から調製されたサンプル(均質化または液化されたサンプルなど)を指す。
本明細書において使用されるとき、「バイオマーカー」または「マーカー」という用語は、いくつかの生物学的状態または状況の測定可能なインジケータを指す。特に、バイオマーカーは、特異的に染色することができ、例えば細胞の種類または細胞の生理学的状態などの細胞の生物学的特徴を表すタンパク質またはペプチド、例えば表面タンパク質であってよい。免疫細胞マーカーは、哺乳類の免疫応答に関連する特徴を選択的に表すバイオマーカーである。バイオマーカーを、疾患または状態の治療に身体がどれだけよく反応するか、あるいは対象が疾患または状態にかかりやすいかどうかを判断するために使用することができる。がんの文脈において、バイオマーカーは、体内のがんの存在を表す生物学的物質を指す。バイオマーカーは、腫瘍が分泌する分子、またはがんの存在に対する身体の特定の反応であってよい。ジェネティック、エピジェネティック、プロテオミック、グリコミック、およびイメージングのバイオマーカーを、がんの診断、予後、および疫学に使用することができる。このようなバイオマーカーを、血液または血清などの非侵襲的に収集される生体液において分析することができる。これらに限られるわけではないが、AFP(肝がん)、BCR-ABL(慢性骨髄性白血病)、BRCA1/BRCA2(乳がん/卵巣がん)、BRAF V600E(メラノーマ/結腸直腸がん)、CA-125(卵巣がん)、CA19.9(膵臓がん)、CEA(結腸直腸がん)、EGFR(非小細胞肺がん)、HER-2(乳がん)、KIT(消化管間質腫瘍)、PSA(前立腺特異抗原)、S100(メラノーマ)、および多数の他のバイオマーカーを含む、いくつかの遺伝子およびタンパク質ベースのバイオマーカーが、患者のケアにすでに使用されている。バイオマーカーは、診断(初期段階のがんを特定する)および/または予後(がんがどれくらい侵攻性か予測し、さらには/あるいは対象が特定の治療にどのように反応するか、および/またはがんが再発する可能性はどうかを予測する)として有用となり得る。
本明細書において使用されるとき、「画像」、「画像スキャン」、または「スキャンされた画像」という用語は、光学センサまたはセンサアレイなどによって生物学的組織サンプルから取得された生の画像データ、または前処理された画像データを包含する。とくに、画像データは、ピクセル行列を含むことができる。
本明細書において使用されるとき、「画像データ」という用語は、光学センサまたはセンサアレイなどによって生物学的組織サンプルから取得された生の画像データ、または前処理された画像データを包含する。特に、画像データは、ピクセル行列を含むことができる。
本明細書において使用されるとき、「免疫組織化学」という用語は、サンプルにおける抗原の存在または分布を、抗体などの特異性結合剤との抗原の相互作用を検出することによって判断する方法を指す。サンプルに、抗体を、抗体-抗原の結合を可能にする条件下で接触させる。抗体-抗原の結合を、抗体に接合した検出可能な標識によって検出することができ(直接検出)、あるいは一次抗体に特異的に結合する二次抗体に接合した検出可能な標識によって検出することができる(間接検出)。
本明細書において使用されるとき、「マルチチャネル画像」または「マルチプレクス画像」という用語は、生物学的組織サンプルから得られるデジタル画像であって、核、細胞、および組織構造などの異なる生物学的構造が、特定の蛍光染料、量子ドット、色原体、などで同時に染色され、その各々が蛍光を発し、あるいは異なるスペクトル帯で他のかたちで検出可能であることで、マルチチャネル画像のチャネルのうちの1つを構成するデジタル画像を包含する。
本明細書において使用されるとき、「スライド」という用語は、生物学的標本が分析のために配置される任意の適切な寸法の任意の基材(例えば、全体または一部分がガラス、石英、プラスチック、シリコン、などで作られた基材)を指し、より具体的には、標準的な3インチ×1インチの顕微鏡スライドまたは標準的な75mm×25mmの顕微鏡スライドなどの「顕微鏡スライド」を指す。スライド上に配置することができる生物学的標本の例として、これらに限られるわけではないが、細胞学的塗抹標本、薄い組織切片(例えば、生検からのもの)、および生物学的標本の配列、例えば、組織配列、細胞配列、DNA配列、RNA配列、タンパク質配列、またはこれらの任意の組み合わせが挙げられる。したがって、一実施形態においては、組織切片、DNAサンプル、RNAサンプル、および/またはタンパク質が、スライド上の特定の位置に配置される。いくつかの実施形態において、スライドという用語は、SELDIおよびMALDIチップ、ならびにシリコンウェーハを指すことができる。
概要
近年の成功にもかかわらず、畳み込みニューラルネットワーク(CNN)などの最新のコンピュータビジョン技術は、細胞レベルの教師を提供することが難しいため、がん組織学画像における細胞レベルの予測問題に適用するには費用がかかる。本開示は、いくつかの実施形態において、深層学習を使用して生物学的標本の大きな画像において細胞を検出し、検出された細胞の学習された表現を使用して、それらを均質なサブセットへとクラスタリングすることにより、グランドトゥルース(ground truth)ラベリングの負担をデータセット内の細胞数のレベルからデータセット内の識別されたクラスタの数へと削減することで、細胞の分類のためのグランドトゥルースラベリングを容易にするシステムおよび方法を提供する。いくつかの実施形態において、本開示は、小さな注釈付きパッチで訓練されたモデルを使用して、生物学的標本の画像(例えば、組織学的画像、細胞学的画像)において細胞を検出するためのシステムおよび方法を提供し、これらのシステムおよび方法は、検出された細胞のニューラルネットワーク表現をさらに利用して、検出された細胞をクラスタリングおよび/または分類する。本出願の出願人は、予想外なことに、小さな訓練用画像セットであっても、提案されるシステムおよび方法が、優れた細胞検出および分類性能を達成でき、初見の染色タイプへの一般化さえ可能であることを発見した。実際に、本出願の出願人は、作成されたモデルでさまざまなサイズおよび解像度のデータセットにおいて細胞を検出できることを実証し、作成されたモデルを訓練時に見られなかった種類の染色タイプに一般化できることを実証する。
したがって、本明細書で説明される統合された深層学習による分類および検出の枠組みの実施形態は、これまでに使用された手法と比べて多数の利点を有する。例えば、本明細書に記載の実施形態は、いくつかの「使いやすさ」およびコストの利点を有する。1つのそのような例において、本明細書に記載の実施形態は、検出ネットワークの学習のためにピクセルレベルで細胞に注釈付けをするユーザの負担を、大幅に軽減する。換言すると、本明細書に記載の実施形態は、検出のための境界ボックスラベリングを可能にし、これは、ユーザの注釈付けの負担を大幅に軽減する。このようにして、いくつかの実施形態は、注釈付け、訓練、およびテストに関する「使いやすさ」を提供する。
いくつかの実施形態において、本開示は、例えば畳み込みニューラルネットワークなどの事前に訓練されたニューラルネットワークを複数の訓練用画像で調整して、調整された畳み込みニューラルネットワークを提供するシステムおよび方法を説明する。いくつかの実施形態において、事前に訓練されたネットワークを調整するために使用される訓練用画像は、1つ以上のバイオマーカーの存在について染色された生物学的標本の画像である。いくつかの実施形態において、訓練用画像は、1つ以上のクラスラベルを含む。他の実施形態において、訓練用画像はクラスラベルを含まない。さらに、本開示は、調整されたニューラルネットワークおよび領域提案ネットワークを含む訓練されたオブジェクト検出エンジンを提供する。本明細書に記載されるように、訓練されたオブジェクト検出エンジンを、細胞を検出するために使用することができる。
いくつかの実施形態において、本開示は、訓練されたオブジェクト検出エンジンを使用してサンプル画像内の細胞を検出する(さらには、随意により分類する)ためのシステムおよび方法に関する。いくつかの実施形態において、本明細書に記載のシステムおよび方法は、各々のサンプル画像において検出された細胞の1つ以上の均質なクラスタを提供するために、サンプル画像内の検出された細胞のクラスタリングを容易にする。さらに、各々のサンプル画像における検出された細胞の識別された均質なクラスタに、病理医などが注釈を付けることができ、そのような注釈を、いくつかの実施形態においては、分類器またはニューラルネットワークの訓練に使用することができる。換言すると、注釈が付けられた均質なクラスタを、グランドトゥルースデータとして使用することができる。
いくつかの実施形態において、本開示は、細胞検出および分類エンジンを使用して、テスト画像(例えば、ヒト患者などの対象に由来する生物学的標本のラベリングされていない画像)内の細胞を検出するための、および/または分類するための自動化されたシステムおよび方法を提供し、ここで、細胞検出および分類エンジンは、グランドトゥルースデータを使用して訓練される。いくつかの実施形態において、グランドトゥルースデータは、1つ以上のサンプル画像における検出された細胞の均質なクラスタの病理医による注釈付けから得られる。いくつかの実施形態において、細胞検出および分類エンジンは、ニューラルネットワークを含み、例えば上述のオブジェクト検出エンジンに包含されるニューラルネットワークとは異なるニューラルネットワークを含む。
本開示の少なくともいくつかの実施形態は、1つ以上の一次染色(例えば、ヘマトキシリンおよびエオシン(H&E))および1つ以上の検出プローブ(例えば、サンプル内のターゲットのラベリングを容易にする特定の結合エンティティを含むプローブ)によって染色された組織サンプルを含む生物学的標本から取得されたデジタル画像を分析するためのコンピュータシステムおよび方法に関する。本明細書における例は、特定の組織、ならびに/あるいは特定のマーカーの検出のための特定の染色または検出プローブの適用に言及するかもしれないが、当業者であれば、さまざまな組織およびさまざまな染色/検出プローブがさまざまなマーカーを検出するために適用されてよいことを、理解できるであろう。
標本の画像化および分析のためのデジタル病理学システム200が、図1および図2A~図2Cに示されている。デジタル病理学システム200は、画像化装置12(例えば、標本を載せた顕微鏡スライドをスキャンするための手段を有する装置)およびコンピュータ14を備えることができ、これにより、画像化装置12およびコンピュータを互いに通信可能に(例えば、直接的に、あるいはネットワーク20を介して間接的に)結合させることができる。コンピュータシステム14は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットなど、デジタル電子回路、ファームウェア、ハードウェア、メモリ201、コンピュータ記憶媒体(240)、コンピュータプログラムまたは一連の命令(例えば、プログラムがメモリまたは記憶媒体に格納される)、1つ以上のプロセッサ(209)(プログラムされたプロセッサを含む)、ならびに任意の他のハードウェア、ソフトウェア、またはファームウェアモジュール、あるいはこれらの組み合わせ(本明細書においてさらに説明されるものなど)を含むことができる。例えば、図1に示されるコンピューティングシステム14は、ディスプレイ装置16および筐体18を有するコンピュータを備えることができる。コンピュータシステムは、デジタル画像をバイナリ形式で(メモリなどにローカルに、サーバに、あるいは別のネットワーク接続された装置に)格納することができる。デジタル画像を、ピクセルの行列に分けることも可能である。ピクセルは、ビット深度によって定義される1ビット以上のデジタル値を含むことができる。当業者であれば、他のコンピュータデバイスまたはシステムが利用可能であり、本明細書に記載のコンピュータシステムを、例えば標本分析器、顕微鏡、他の画像化システム、自動化されたスライド準備装置、などの追加の構成要素に通信可能に結合させることができることを、理解できるであろう。これらの追加の構成要素のいくつか、および利用可能なさまざまなコンピュータ、ネットワーク、などは、本明細書においてさらに説明される。
一般に、画像化装置12(または、メモリに格納された事前にスキャンされた画像を含む他の画像ソース)は、これに限られるわけではないが、1つ以上の画像取得装置を含むことができる。画像取得装置として、これらに限られるわけではないが、カメラ(例えば、アナログカメラ、デジタルカメラ、など)、光学系(例えば、1つ以上のレンズ、センサフォーカスレンズ群、顕微鏡対物レンズ、など)、画像化センサ(例えば、電荷結合素子(CCD)、相補型金属酸化膜半導体(CMOS)イメージセンサ、など)、写真フィルム、などを挙げることができる。デジタルの実施形態において、画像取得装置は、高速フォーカシングを証明するために協働する複数のレンズを含むことができる。例えばCCDセンサなどのイメージセンサが、標本のデジタル画像を取得することができる。いくつかの実施形態において、画像化装置12は、明視野画像化システム、マルチスペクトル画像化(MSI)システム、または蛍光顕微鏡システムである。デジタル化された組織データを、例えば、VENTANA MEDICAL SYSTEMS,Inc.(アリゾナ州Tucson)によるVENTANA DP200スキャナまたは他の適切な画像化装置などの画像スキャンシステムによって生成することができる。さらなる画像化装置およびシステムは、本明細書においてさらに説明される。当業者であれば、画像化装置12によって取得されたデジタルカラー画像が、基本的なカラーピクセルで従来どおりに構成されることを、理解できるであろう。各々のカラーピクセルを、3つのデジタル成分で符号化することができ、各成分は、同じ数のビットを含み、各成分は、通常は赤色、緑色、または青色であり、「RGB」成分という用語で呼ばれることもある原色に対応する。
図2A~図2Cが、本開示のシステム200および250ならびに各システムにおいて利用されるさまざまなモジュールの概要を提示する。いくつかの実施形態において、2つのデジタル病理学システム200および250は、1つ以上のプロセッサ209および1つ以上のメモリ201を有するコンピュータ装置またはコンピュータによって実行される方法を採用し、1つ以上のメモリ201は、1つ以上のプロセッサによって実行され、本明細書に記載のように特定の命令を1つ以上のプロセッサに実行させるための非一時的なコンピュータ可読命令を格納する。
図2Aおよび図2Bに示されるシステム200の各々は、サンプル画像内の細胞を検出する(さらに、随意により分類する)ように訓練されてよいオブジェクト検出エンジン210を含む。さらに、システム200は、検出された細胞の均質なクラスタを識別できるような構成要素を含む。いくつかの実施形態において、オブジェクト検出エンジンは、ニューラルネットワーク212を備える。いくつかの実施形態において、オブジェクト検出エンジン210は、ニューラルネットワーク212を備える第1の部分と、領域提案ネットワーク214を備える第2の部分とを含む(図2Bを参照)。いくつかの実施形態において、オブジェクト検出エンジン210は、領域ベースの畳み込みニューラルネットワークから導出されたアーキテクチャを備える。いくつかの実施形態において、ニューラルネットワーク212は、領域提案ネットワーク214とは独立して動作することができる。例えば、ニューラルネットワーク212を、本明細書に記載のとおりに訓練させることができるさ(図4も参照)。ひとたびニューラルネットワーク212が訓練されると、訓練されたニューラルネットワーク212を、入力画像内の細胞を検出するために、および/または分類するために領域提案ネットワーク214と併せて使用することができる。
いくつかの実施形態において、システムは、サンプル画像内の細胞を検出し、随意により分類するように構成される。図2A、図2B、図3A、および図3Bを参照すると、いくつかの実施形態において、1つ以上のサンプル画像が、画像化装置12または記憶モジュール240のいずれかから受信される。いくつかの実施形態において、サンプル画像は、一次染色で染色された、またはヘマトキシリン、DAPI、DAB、などの1つ以上のバイオマーカーの存在に関して染色される。いくつかの実施形態においては、オブジェクト検出エンジン210が、受信したサンプル画像内の細胞を検出し、随意により分類するために使用される(ステップ310)。いくつかの実施形態において、オブジェクト検出エンジンは、例えば畳み込みニューラルネットワークなどのニューラルネットワーク212と、領域提案ネットワーク214とを備える。いくつかの実施形態において、ニューラルネットワーク212は、受信したサンプル画像内の細胞の特徴を識別するために使用される(ステップ340)。いくつかの実施形態において、領域提案ネットワーク214は、ニューラルネットワーク212によって識別された細胞の特徴に基づいて、受信したサンプル画像内の細胞を検出するために使用される(ステップ341)。細胞が検出された後に、特徴抽出モジュール202が、ネットワーク212の層のうちの少なくとも1つから、識別された細胞の特徴の少なくとも一部を抽出するために使用される(ステップ311または341)。次いで、抽出された細胞の特徴に基づいて、クラスタリングモジュール204を、細胞の均質なクラスタを生成するために使用することができる(ステップ312または342)。次に、生成された均質なクラスタに、例えば病理医が、注釈モジュール206を使用して注釈を付けることができる。いくつかの実施形態において、病理医の注釈をグランドトゥルースデータとして使用することができ、ここで、グランドトゥルースデータを、分類器(例えば、サポートベクターマシン)または他の別個のニューラルネットワーク(この別個のニューラルネットワークは、オブジェクト検出エンジン212におけるニューラルネットワークと同じ種類であっても、違ってもよい)を訓練するために使用することができ、あるいはオブジェクト検出エンジン210の訓練されたニューラルネットワーク212を微調整するために使用することができる。
図2Cが、テスト画像内の細胞を検出するために、および/または分類するためにシステム250において使用されるモジュールの概要を提示する。いくつかの実施形態において、システム250は、細胞検出および分類モジュール255を含む。いくつかの実施形態において、細胞検出および分類モジュールは、ニューラルネットワークを備える。いくつかの実施形態において、細胞検出および分類モジュールは、例えばサポートベクターマシンなどの分類器を備える。細胞検出および分類モジュールがニューラルネットワークを備える実施形態において、ニューラルネットワークは、オブジェクト検出エンジン210のニューラルネットワーク212と同じであっても、違ってもよい。いくつかの実施形態において、システム250は、検出された細胞および/または分類された細胞をスコアリングし、例えばHスコアまたは陽性率を決定するためのスコアリングモジュールをさらに含む。
当業者であれば、さらなるモジュールがワークフローあるいはシステム200および250に組み込まれてよいことを、理解できるであろう。いくつかの実施形態においては、画像処理または前処理モジュールを動作させ、取得された画像に特定のフィルタを適用し、あるいは組織サンプル内の特定の組織学的および/または形態学的構造または特徴を識別することができる。さらに、関心領域選択モジュールを利用して、分析のためにサンプル画像またはテストの特定の部分を選択することができる。加えて、さらなる処理に先立ってマルチプレックス画像を混合解除するために、混合解除モジュールを動作させることができる。
画像取得モジュール
図2A~図2Cを参照すると、いくつかの実施形態において、デジタル病理学システム200および250は、画像取得モジュール202を動作させ、例えば一次染色またはバイオマーカーの存在を表す染色などの1つ以上の染色を有している生物学的標本などの生物学的標本の画像を(例えば、画像化装置12を使用して)取得する。いくつかの実施形態において、画像はシンプレクス画像である。他の実施形態において、画像はマルチプレクス画像である。いくつかの実施形態において、受信または取得された画像は、RGB画像またはマルチスペクトル画像である。いくつかの実施形態において、取得された画像は、メモリ201(または、ストレージモジュール240内)に格納される。
いくつかの実施形態において、取得された画像またはストレージモジュール240に格納された画像は、「訓練用画像」である。いくつかの実施形態において、訓練用画像は、生物学的標本の画像であり、組織学的標本または細胞学的標本あるいはこれらの任意の組み合わせであってよい。いくつかの実施形態において、訓練用画像は、事前に訓練されたニューラルネットワークを調整するために使用される。この点で、訓練用画像は、訓練目的で使用される。いくつかの実施形態において、訓練用画像は、少なくとも1つの染色を含む。いくつかの実施形態において、訓練用画像は、複数の染色を含む。いくつかの実施形態において、訓練用画像は、1つ以上のクラス注釈を含む。いくつかの実施形態においては、複数の訓練用画像が、事前に訓練されたニューラルネットワークを調整するために使用される。いくつかの実施形態において、訓練用画像は、複数の訓練用画像を含むデータセットの一部であってよく、複数の訓練用画像のうちの各々の訓練用画像は、同じ染色または異なる染色を含むことができ、複数の訓練用画像のうちの各々の訓練用画像は、分類ラベルを含むことができる。
いくつかの実施形態において、取得された画像またはストレージモジュール240に格納された画像は、「サンプル画像」である。いくつかの実施形態において、サンプル画像は、生物学的標本の画像であり、組織学的標本または細胞学的標本であってよい。いくつかの実施形態では、サンプル画像は、細胞を検出(さらに、随意により分類)することができ、検出された細胞をクラスタリング(例えば、図7を参照)できるように、訓練されたニューラルネットワークに供給される。サンプル画像から、グランドトゥルースデータを最終的に導出することができ、すなわちグランドトゥルースデータは、サンプル画像において検出された細胞の生成された均質なクラスタの病理医による注釈を含む。生成されたグランドトゥルースデータを、分類器またはニューラルネットワークの訓練に使用することができる。
いくつかの実施形態において、取得された画像またはストレージモジュール240に格納された画像は、「テスト画像」である。いくつかの実施形態において、テスト画像は、生物学的標本の画像であり、組織学的標本または細胞学的標本であってよい。テスト画像は、上述のように、病理医による注釈を含む生成されたグランドトゥルースデータを使用して訓練された分類器またはニューラルネットワークなど、訓練された分類器またはニューラルネットワークに提供される。このようにして、テスト画像内の細胞を、検出する、および/または分類することができる。テスト画像を、例えばヒト患者などの対象に由来するサンプルの画像と考えることができ、テスト画像内の細胞(または、他の細胞の特徴)の検出および/または分類に基づいて、病理学的印象または診断に到達することができる。
訓練用画像、サンプル画像、またはテスト画像(本明細書において、「入力画像」と総称される)のいずれも、スライド画像の全体または任意の一部分(例えば、所定の視野)の画像であってよい。さらに、画像が訓練用画像、サンプル画像、またはテスト画像のいずれであるかに関係なく、入力画像は、任意の画像化装置を使用して取得されてよい。入力画像を、例えばリアルタイムで、画像化装置12を使用して取得することができる。いくつかの実施形態において、入力画像は、本明細書に記載されているように、標本を載せた顕微鏡スライドの画像データを取得することができる顕微鏡または他の機器から取得される。いくつかの実施形態において、入力画像は、VENTANA DP 200スキャナなど、画像タイルをスキャンすることができるスキャナなどの2Dスキャナまたは画像を一行ずつスキャンすることができるラインスキャナを使用して取得される。
さらに、カメラプラットフォームは、一例はVentana Medical Systems,Inc.のVENTANA iScan HTという製品である明視野顕微鏡、あるいは1つ以上の対物レンズおよびデジタルイメージャならびに一連のスペクトルフィルタを有する任意の顕微鏡を含むことができる。異なる波長で画像を取得するための他の技術を使用することもできる。染色された生物学的標本の画像化に適したさらなるカメラプラットフォームが、技術的に知られており、Zeiss、Canon、Applied Spectral Imaging、などの企業から市販されており、そのようなプラットフォームは、本主題の開示のシステム、方法、および装置における使用に容易に適合させることが可能である。
一般に、入力画像の各々は、染色(色原体、蛍光色素分子、量子ドット、など)に対応する信号を含む。いくつかの実施形態において、入力画像は、少なくとも1つの一次染色(ヘマトキシリンまたはエオシン)で染色されている。他の実施形態において、少なくとも1つの画像は、特定のバイオマーカーを識別するためのIHCアッセイまたはISHアッセイの少なくとも一方で染色されている(本明細書において、「バイオマーカー」画像と呼ばれる)。いくつかの実施形態においては、複数のシンプレクス画像が入力として使用され、それらの画像は、連続組織切片、すなわち、同じ異種移植組織ブロックに由来する連続切片に由来し得る。いくつかの実施形態において、入力画像は、マルチプレクス画像であってよく、すなわち当業者に知られた方法に従って、多重アッセイにおいて複数の異なるマーカーについて染色されてよい。
典型的な生物学的標本は、サンプルに染色を適用する染色/アッセイプラットフォームで処理される。いくつかの実施形態において、標本処理装置は、Ventana Medical Systems,Inc.が販売するBENCHMARK XT装置、SYMPHONY装置、またはBENCHMARK ULTRA装置などの自動化された装置である。Ventana Medical Systems,Inc.は、米国特許第5,650,327号、第5,654,200号、第6,296,809号、第6,352,861号、第6,827,901号、および第6,943,029号、ならびに米国特許出願公開第20030211630号および第20040052685号など、自動化されたアッセイを実行するためのシステムおよび方法を開示するいくつかの米国特許の譲受人であり、これらの米国特許および米国特許出願公開の各々は、参照によりその全体が本明細書に組み込まれる。あるいは、標本を手動で処理することも可能である。
市販のH&E染色機の例として、RocheのVENTANA SYMPHONY(個別スライド染色機)およびVENTANA HE 600(個別スライド染色機)シリーズのH&E染色機、Agilent TechnologiesのDako CoverStainer(バッチ染色機)、ならびにLeica Biosystems Nussloch GmbHのLeica ST4020 Small Linear Stainer(バッチ染色機)、Leica ST5020 Multistainer(バッチ染色機)、およびLeica ST5010 Autostainer XLシリーズ(バッチ染色機)のH&E染色機が挙げられる。染色/アッセイプラットフォームとしての使用に適した他の市販の製品が市場に存在し、一例はVentana Medical Systems,Inc.(アリゾナ州Tucson)のDiscovery(商標)という製品である。
当業者であれば理解できるとおり、生物学的標本を、異なる種類および/または細胞膜バイオマーカーについて染色することができる。組織構造を染色する方法、およびさまざまな目的に適した染色の選択における案内が、例えば“Sambrook et al.,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press(1989)”および“Ausubel et al.,Current Protocols in Molecular Biology,Greene Publishing Associates and Wiley-Intersciences(1987)”で論じられており、これらの開示は参照によって本明細書に組み込まれる。
一例として、これに限られるわけではないが、乳がんの検出の状況で、いくつかの実施形態においては、組織サンプルが、エストロゲン受容体マーカー、プロゲステロン受容体マーカー、Ki-67マーカー、またはHER2マーカーを含む1つまたはバイオマーカーの存在についてIHCアッセイで染色される。したがって、いくつかの実施形態において、入力として使用されるバイオマーカー画像は、エストロゲン受容体(ER)マーカー、プロゲステロン受容体(PR)マーカー、Ki-67マーカー、またはHER2マーカーのうちの少なくとも1つの存在に対応する信号(例えば発色または蛍光であってよい染色に対応する信号)を含むIHC画像である。いくつかの実施形態においては、例えば定性的または定量的測定など、サンプルを分析して、サンプル中のER、HER2、Ki-67、およびPRタンパク質の存在を検出または測定することができる。別の例として、これに限られるわけではないが、非小細胞肺がんの検出の状況で、いくつかの実施形態においては、組織サンプルが、PD-L1バイオマーカーを含む1つまたはバイオマーカーの存在についてIHCアッセイで染色される。したがって、いくつかの実施形態において、入力として使用されるバイオマーカー画像は、PD-L1マーカー、CD3マーカー、およびCD8マーカーの存在に対応する信号を含むIHC画像である。
取得された画像が訓練用画像として使用されるか、グランドトゥルースを定めるためのサンプル画像として使用されるか、あるいは細胞の検出のための、および/または分類のためのテスト画像として使用されるかに係わらず、入力画像は、マスクされる必要がある情報を含む可能性がある。いくつかの実施形態において、入力画像は、本明細書に記載されるように、随意により組織マスキングモジュールでマスクされる。いくつかの実施形態において、入力画像は、組織領域のみが画像内に存在するようにマスクされる。いくつかの実施形態において、組織領域マスクは、組織領域から非組織領域をマスクするために生成される。いくつかの実施形態においては、組織領域マスクを、組織領域を特定し、背景領域(例えば、画像化ソースからの白色光のみが存在する領域など、スライド画像の全体のうちのサンプルが存在しないガラスに対応する領域)を自動的または半自動的に(すなわち、最小限のユーザ入力で)除外することによって、作製することができる。
当業者であれば、組織領域からの非組織領域のマスクに加えて、組織マスキングモジュールが、必要に応じて、特定の組織の種類に属し、あるいは疑わしい腫瘍領域に属すると特定される組織の一部など、他の関心領域もマスクできることを理解できるであろう。いくつかの実施形態においては、入力画像内の非組織領域から組織領域をマスクすることによって組織領域マスク画像を生成するために、セグメンテーション技術が使用される。適切なセグメンテーション技術は、それ自体は先行技術から知られている(デジタル画像処理、第3版、Rafael C.Gonzalez,Richard E.Woods、第10章、689ページ、および医療画像化、処理、および分析のハンドブック、Isaac N.Bankman、Academic Press、2000年、第2章を参照)。組織領域マスクの生成に関するさらなる情報および例は、「An Image Processing Method and System for Analyzing a Multi-Channel Image Obtained from a Biological Tissue Sample Being Stained by Multiple Stains」という名称の国際特許出願PCT/ EP/2015/062015に開示されており、その開示は、参照によりその全体が本明細書に組み込まれる。
オブジェクト検出エンジン
本開示のシステム200は、少なくともニューラルネットワーク212を含むオブジェクト検出エンジン210を含む。いくつかの実施形態において、オブジェクト検出エンジン210は、ニューラルネットワーク212(以下で説明されるニューラルネットワークのいずれかを含む)を備える第1の部分と、領域提案ネットワーク214とを備える。いくつかの実施形態においては、訓練されたオブジェクト検出エンジン210、すなわち訓練されたニューラルネットワーク212を含むオブジェクト検出エンジンが、サンプル画像内の細胞の均質なクラスタを識別できるように、サンプル画像内の細胞を検出するために、および/または分類するために使用される。いくつかの実施形態において、ニューラルネットワーク212は、特徴を決定し、サンプル画像の特徴マップを生成するように構成される。いくつかの実施形態において、オブジェクト検出エンジン210は、後述されるように、領域ベースの畳み込みニューラルネットワークから導出されたアーキテクチャを備える。
オブジェクト検出は、画像内のオブジェクトを発見および分類するプロセスである。1つの深層学習のアプローチ、すなわち領域ベースの畳み込みニューラルネットワーク(RCNN)は、長方形領域の提案を畳み込みニューラルネットワークの機能(本明細書において説明される)と組み合わせる。RCNNは、2段階の検出アルゴリズムである。第1の段階は、オブジェクトを含む可能性がある画像内の領域のサブセットを識別する。第2段階は、各領域のオブジェクトを分類する。CNNによる領域を使用したオブジェクト検出のモデルは、次の3つのプロセスに基づく。(a)オブジェクトを含む可能性がある画像内の領域を見つける。これらの領域は、領域提案と呼ばれる。(b)領域提案からCNN特徴を抽出する。(c)抽出された特徴を使用してオブジェクトを分類する。
RCNNについて、いくつかの変種が存在する。各々の変種は、これらのプロセスのうちの1つ以上について、結果の最適化、高速化、または強化を試みる。RCNN検出器(Girshick,R.,J.Donahue,T.Darrell,and J.Malik.“Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation.” CVPR ’14 Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Pages 580-587,2014)は、最初にEdge Boxes(Zitnick,C.Lawrence,and P.Dollar.“Edge boxes:Locating object proposals from edges.” Computer Vision-ECCV.Springer International Publishing.Pages 391-4050.2014)などのアルゴリズムを使用して領域提案を生成する。提案領域は画像から切り抜かれ、サイズが変更される。次に、CNNは、切り抜かれてサイズが変更された領域を分類する。最後に、領域提案境界ボックスが、CNN特徴を使用して訓練されたサポートベクターマシン(SVM)によって改良される。図6Aが、領域検出、CNN特徴の計算、および領域の分類のプロセスを示している。
RCNN検出器と同様に、Fast RCNN検出器(Girshick,Ross.“Fast RCNN.” Proceedings of the IEEE International Conference on Computer Vision.2015)も、Edge Boxesなどのアルゴリズムを使用して領域提案を生成する。領域の提案を切り抜いてサイズを変更するRCNN検出器とは異なり、Fast RCNN検出器は、画像全体を処理する。RCNN検出器が各領域を分類しなければならない一方で、Fast RCNNは、各々の領域提案に対応するCNN特徴をプールする。Fast RCNNは、RCNNよりも効率的であり、なぜならば、Fast RCNN検出器においては、重複する領域の計算が共有されるからである。図6Bが、畳み込み特徴マップおよび関心領域(ROI)特徴ベクトルを使用した検出を示している。
Faster RCNN検出器が、Ren,Shaoqing,Kaiming He,Ross Girshick,and Jian Sun.“Faster RCNN:Towards Real-Time Object Detection with Region Proposal Networks.” Advances in Neural Information Processing Systems,Vol.28,2015によって説明されている。Edge Boxesなどの外部アルゴリズムを使用する代わりに、Faster RCNNは、領域提案ネットワーク214を追加して、ネットワーク内で直接的に領域提案を生成する。領域提案ネットワークは、Anchor Boxes for Object Detectionを使用する。ネットワークにおいて領域提案を生成することにより、とりわけオブジェクト検出エンジン210へと提供される入力画像の大きなサイズに鑑みて、サンプル画像内の細胞のより迅速かつより効率的な検出が可能になると考えられる。いくつかの実施形態において、領域提案ネットワークおよび分類ネットワークは、同じ特徴抽出層を共有する。図6Cが、Faster-RCNNアーキテクチャに基づくオブジェクト検出エンジン210を示しており、オブジェクト検出エンジン210は、複数の畳み込み層および領域提案ネットワークを含んでいる。
Mask-RCNNは、境界ボックス認識用の既存のブランチに並列にオブジェクトマスクを予測するためのブランチを追加することにより、Faster R-CNNを拡張する。Mask-RCNNは、ROIプーリングのステップを改善する。ROIにおいて、ワーピングがデジタル化され、ターゲット特徴マップのセル境界が、入力特徴マップの境界に再び整列させられる。Mask-RCNNは、セルの境界をデジタル化せず、すべてのターゲットセルのサイズを同じにするROI Alignを使用する。また、補間を適用して特徴マップ値を計算する。
Fast-RCNNおよびFaster-RCNNを含むRCNNの特定の実装は、米国特許出願公開第2018/0268292号、第2018/0018535号、および第2016/034288号に記載されており、これらの開示はそれぞれ、参照によりその全体が本明細書に組み込まれる。Fast-RCNNおよびFaster-RCNNを含むRCNNのさらに他の特定の実装が、米国特許第9,971,953号に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。これらの実装のいずれも、細胞の検出に、および/または分類に適合させることが可能である。
領域提案ネットワーク214を、一般に、画像内のオブジェクトを検出し、それらの検出されたオブジェクトに対応する領域を提案する完全畳み込みネットワークとして定義することができる。提案ネットワークは、比較的高速であり、異なるサイズのオブジェクトを検出することができるため、本明細書に記載の実施形態における使用において魅力的である。提案ネットワークは、k個のアンカーボックスを生成する1つ以上の畳み込み層によって生成された特徴マップにスライディングウィンドウをオーバーレイすることができる。スライディングウィンドウを特徴マップにオーバーレイした結果を、提案ネットワークの中間層に入力することができ、中間層は、cls層によって2kのスコアを生成し、reg層によって4kの座標を生成する(Ren,Shaoqing,Kaiming He,Ross Girshick,and Jian Sun.“Faster RCNN:Towards Real-Time Object Detection with Region Proposal Networks.” Advances in Neural Information Processing Systems,Vol.28,2015を参照)。
いくつかの実施形態において、領域提案ネットワーク214は、細胞検出のために構成される。換言すると、領域提案ネットワーク214は、生成された特徴マップからの特徴を使用して、決定された特徴に基づいてサンプル画像内の細胞を検出する。いくつかの実施形態において、領域提案ネットワーク214は、境界ボックス検出結果を生成するように構成される。
ニューラルネットワーク
いくつかの実施形態において、本開示は、畳み込みニューラルネットワークなどのニューラルネットワーク212の訓練、およびその後のその訓練されたニューラルネットワークを利用した入力画像内の細胞の検出および/または分類に関する。細胞の検出において、および/または分類において訓練および/または使用が可能な適切なニューラルネットワークを、以下で説明する。
いくつかの実施形態において、ニューラルネットワーク212は、深層学習ネットワークとして構成される。一般に、「深層学習」は、データ内の高レベルの抽象をモデル化しようと試みる一連のアルゴリズムに基づく機械学習の一部門である。深層学習は、データの表現の学習に基づく機械学習手法の幅広いファミリーの一部である。観測(例えば、入力画像)を、ピクセルごとの強度値のベクトルなど、さまざまな方法で表すことができ、あるいはエッジのセット、特定の形状の領域など、より抽象的なやり方で表すこともできる。一部の表現は、学習タスクの単純化において他の表現よりも優れている。深層学習の約束の1つは、手作りの特徴を、教師なしまたは半教師ありの特徴学習および階層的特徴抽出のための効率的なアルゴリズムで置き換えることである。
いくつかの実施形態において、ニューラルネットワーク212は、機械学習ネットワークである。機械学習を、一般に、明示的にプログラムされる必要がない学習能力を有するコンピュータを提供する人工知能(AI)の一種として定義することができる。機械学習は、新たなデータに触れたときに成長および変化するように自身で学習することができるコンピュータプログラムの開発に集中する。換言すると、機械学習を、明示的にプログラムされることなく学習する能力をコンピュータに与えるコンピュータサイエンスの一分野と定義することができる。機械学習では、データから学習し、データについて予測を行うことができるアルゴリズムの検討および構築を探求し、そのようなアルゴリズムは、サンプル入力からモデルを構築することによってデータ駆動型の予測または決定を行うことにより、厳密に静的なプログラム命令に従うことを克服する。本明細書に記載の機械学習を、“Introduction to Statistical Machine Learning,” by Sugiyama,Morgan Kaufmann,2016,534 pages、“Discriminative,Generative,and Imitative Learning,” Jebara,MIT Thesis,2002,212 pages、および“Principles of Data Mining(Adaptive Computation and Machine Learning),” Hand et al.,MIT Press,2001,578 pagesにおいて説明されているようにさらに実行することができ、これらは、参照により、あたかも本明細書に完全に記載されているかのように組み込まれる。本明細書に記載の実施形態を、これらの参考文献において説明されているようにさらに構成することができる。
いくつかの実施形態において、ニューラルネットワーク212は、生成ネットワークである。「生成」ネットワークを、一般に、本質的に確率論的なモデルとして定義することができる。換言すると、「生成」ネットワークは、フォワードシミュレーションまたはルールベースの手法を実行するネットワークではない。代わりに、生成ネットワークは、適切な訓練用データセット(例えば、1つ以上のバイオマーカーの存在について染色された生物学的標本の訓練用画像などの複数の訓練用画像から)に基づいて(そのパラメータを学習できるという点で)学習することができる。いくつかの実施形態において、ニューラルネットワークは、深層生成ネットワークとして構成される。例えば、ネットワークを、ネットワークがいくつかのアルゴリズムまたは変換を実行する複数の層を含むことができるという点で、深層学習アーキテクチャを有するように構成することができる。
いくつかの実施形態において、ニューラルネットワーク212は、本明細書において説明されるように、訓練用に供給されたデータに従って世界をモデル化する一式の重みを有する深層ニューラルネットワークであってよい。ニューラルネットワークは、典型的には、複数の層で構成され、信号経路は、層間を前方から後方へと移動する。この目的のために、任意のニューラルネットワークを実装することができる。適切なニューラルネットワークとして、Yann LeCunによって提案されたLeNet、Alex Krizhevskyらによって提案されたAlexNet、Matthew Zeilerらによって提案されたZFネット、Szegedyらによって提案されたGoogLeNet、Karen Simonyanらによって提案されたVGGNet、およびKaiming Heらによって提案されたResNetが挙げられる。いくつかの実施形態において、ニューラルネットワークは、VGG16(Simonyan,2014)である。他の実施形態において、多層ニューラルネットワークは、DenseNet(Huang et al.,“Densely Connected Convolutional Networks,” arXiv:1608.06993を参照)である。いくつかの実施形態においては、その開示が参照により本明細書に組み込まれるLong et al.,“Fully Convolutional Networks for Semantic Segmentation,” Computer Vision and Pattern Recognition(CVPR),2015 IEEE Conference,June 2015(INSPEC Accession Number:15524435)に記載のニューラルネットワークなどの完全畳み込みニューラルネットワークが利用される。
いくつかの実施形態において、ニューラルネットワーク212は、AlexNetとして構成される。例えば、分類ネットワーク構造がAlexNetであってよい。「分類ネットワーク」という用語は、本明細書において、1つ以上の完全に接続された層を含むCNNを指して使用される。一般に、AlexNet は、組み合わせにて画像を分類するように構成および訓練された、いくつかの畳み込み層(例えば、5つ)およびいくつかの完全に接続された層(例えば、3つ)を含む。AlexNetとして構成されたニューラルネットワークの例は、あたかも本明細書に完全に記載されているかのように参照によって組み込まれる“ImageNet Classification with Deep Convolutional Neural Networks” by Krizhevsky et al.,NIPS 2012に記載されている。本明細書で説明されるニューラルネットワークを、この参考文献で説明されているようにさらに構成することができる。
他の実施形態において、ニューラルネットワーク212は、GoogleNetとして構成される。例えば、分類ネットワーク構造が、GoogleNetであってよい。GoogleNetは、画像を分類するように構成および訓練された本明細書においてさらに説明される層など、畳み込み層、プーリング層、完全に接続された層を含むことができる。GoogleNetアーキテクチャは、比較的多数の層(とりわけ、本明細書において説明される他のいくつかのニューラルネットワークと比較して)を含むことができるが、いくつかの層は並列に動作していてよく、互いに並列に機能する層のグループは、一般に、インセプションモジュールと呼ばれる。他の層は、順次に動作することができる。したがって、GoogleNetは、必ずしもすべての層が順次構造に配置されているわけではないという点で、本明細書で説明される他のニューラルネットワークとは異なる。GoogleNetとして構成されたニューラルネットワークの例は、あたかも本明細書に完全に記載されているかのように参照によって組み込まれる“Going Deeper with Convolutions,” by Szegedy et al.,CVPR 2015に記載されている。本明細書で説明されるニューラルネットワークを、この参考文献で説明されているようにさらに構成することができる。
他の実施形態において、ニューラルネットワーク212は、VGGネットワークとして構成される。例えば、分類ネットワーク構造がVGGであってよい。VGGネットワークは、アーキテクチャの他のパラメータを固定しつつ、畳み込み層の数を増やすことによって生成された。深さを増やすために畳み込み層を追加することは、すべての層に実質的に小さな畳み込みフィルタを使用することによって可能にされる。本明細書で説明される他のニューラルネットワークと同様に、VGGネットワークは、画像を分類するために作成および訓練された。VGGネットワークは、畳み込み層と、それに続く完全に接続された層とをさらに含む。VGGとして構成されたニューラルネットワークの例は、あたかも本明細書に完全に記載されているかのように参照によって組み込まれる “Very Deep Convolutional Networks for Large-Scale Image Recognition,” by Simonyan et al.,ICLR 2015に記載されている。本明細書で説明されるニューラルネットワークを、この参考文献で説明されているようにさらに構成することができる。
いくつかの実施形態において、ニューラルネットワーク212は、オートエンコーダを備える。オートエンコーダニューラルネットワークは、ターゲット値を入力に等しくなるように設定する逆伝搬を適用する教師なし学習アルゴリズムである。オートエンコーダの目的は、信号「ノイズ」を無視するようにネットワークを訓練することにより、典型的には次元の縮小のために、データセットの表現(エンコーディング)を学習することである。縮小側とともに再構成側が学習され、オートエンコーダは、縮小されたエンコーディングから、元の入力に可能な限り近い表現を生成しようと試みる。オートエンコーダに関するさらなる情報を、http://ufldl.stanford.edu/tutorial/unsupervised/Autoencoders/において見つけることができ、その開示は、参照によりその全体が本明細書に組み込まれる。
他の実施形態において、ニューラルネットワーク212は、深層残差ネットワークとして構成される。例えば、分類ネットワーク構造は、Deep Residual NetまたはResNetであってよい。本明細書で説明される他のいくつかのネットワークと同様に、深層残差ネットワークは、組み合わせにおいて画像を分類するように構成および訓練された畳み込み層および後続の完全に接続された層を含むことができる。深層残差ネットワークにおいて、層は、参照されていない関数を学習するのではなく、層入力に関して残差関数を学習するように構成される。特に、いくつかの積み重ねられた層の各々が所望の基礎となるマッピングに直接適合することを期待する代わりに、これらの層を、ショートカット接続を有するフィードフォワードニューラルネットワークによって実現される残差マッピングに明示的に適合させることができる。ショートカット接続は、1つ以上の層をスキップする接続である。深層残差ネットを、畳み込み層を含む単純なニューラルネットワーク構造を取得し、単純なニューラルネットワークを取得して残差学習の対応物に変化させるショートカット接続を挿入することによって生成することができる。深層残差ネットの例は、あたかも本明細書に完全に記載されているかのように参照により組み込まれる“Deep Residual Learning for Image Recognition” by He et al.,NIPS 2015に記載されている。本明細書で説明されるニューラルネットワークを、この参考文献で説明されているようにさらに構成することができる。
事前に訓練されたニューラルネットワークの調整
いくつかの実施形態において、オブジェクト検出エンジン210のニューラルネットワーク212は、最初に、例えば複数の訓練画像または複数の訓練画像を含む1つ以上のデータセットを用いて訓練される。ニューラルネットワークは、典型的には、自然画像の大規模な公開されている画像データアーカイブ(ImageNet,Russakovsky et al,2015,ImageNet Large Scale Visual Recognition Challenge.IJCV,2015など)で訓練される。腫瘍サンプルなどの生物学的標本についての訓練用画像が典型的には少ないことに鑑み、転移学習法が採用される。
いくつかの実施形態において、「転移学習」法を使用することができ、「転移学習」法においては、上述のような事前に訓練されたネットワークが、それらの訓練された重みとともに、新たな一式の訓練用画像における訓練プロセスを初期化するために使用され、重みを目前の特定の用途に適応させるように訓練される(その開示の全体が参照によって本明細書に組み込まれるPan,S.J.,&Yang,Q.(2010).A Survey on Transfer Learning.IEEE Transactions on Knowledge and Data Engineering,22(10),1345-1359.doi:10.1109/tkde.2009.191を参照)。いくつかの実施形態において、事前に訓練されたネットワークは、関心の用途に直接関係していても、関係していなくてもよく、本質的に生物学的であっても、生物学的でなくてもよい既存の公開または非公開のデータセットで訓練される。いくつかの実施形態において、最終層の重みは、次善の極小値に陥ることを回避するためにランダムに初期化されるが、他の実施形態において、最終層の重みは変更されずにインポートされる。
いくつかの実施形態において、事前に訓練されたニューラルネットワークが取得される(ステップ410)。いくつかの実施形態において、事前に訓練されたニューラルネットワークは、例えば100,000枚を超える画像、200,000枚を超える画像、または300,000枚を超える画像などの多数の画像を含むデータセットを含むデータベースを使用して訓練されたニューラルネットワークである。いくつかの実施形態において、事前に訓練されたニューラルネットワークは、Microsoft Cocoデータセット(Tsung-Yi Lin,et.al.,“Microsoft coco:Common objects in context,” in European conference on computer vision,Springer,2014,pp.740-755)を使用して事前に訓練されたニューラルネットワークである。他の実施形態において、事前に訓練されたニューラルネットワークは、ImageNetデータセット(J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,and L.Fei-Fei,“ImageNet:A Large-Scale Hierarchical Image Database,” in CVPR,2009)、PASCAL VOC(M.Everingham,L.Van Gool,C.K.I.Williams,J.Winn,and A.Zisserman,“The PASCAL visual object classes(VOC)challenge,” IJCV,vol.88,no.2,pp.303-338,Jun.2010)、またはSUNデータセット(J.Xiao,J.Hays,K.A.Ehinger,A.Oliva,and A.Torralba,“SUN database:Large-scale scene recognition from abbey to zoo,” in CVPR,2010を使用して事前に訓練されたニューラルネットワークである。
Microsoft Common Objects in Context(MS COCO)データセットは、91個の共通オブジェクトカテゴリを含み、そのうちの82個は、5,000個を超えるラベル付きインスタンスを有する。合計すると、データセットは、328,000枚の画像に2,500,000個のラベル付きインスタンスを有する。ImageNetデータセットとは対照的に、COCOのカテゴリ数は少ないが、カテゴリごとのインスタンスはより多い。これは、正確な2D位置特定が可能な詳細なオブジェクトモデルの学習に役立つことができると考えられる。また、データセットは、PASCAL VOCおよびSUNデータセットと比べても、カテゴリごとのインスタンス数が大幅に多い。MS COCOにおいては、ImageNet(3.0)およびPASCAL(2.3)と比較して、イメージあたりにオブジェクトインスタンスを著しく多く含んでいる(7.7)と考えられる。対照的に、かなりのコンテキスト情報を含むSUNデータセットは、画像ごとに17個を超えるオブジェクトおよび「物」を有するが、全体としてオブジェクトインスタンスはかなり少ない。ニューラルネットワークの訓練の方法は、米国特許出願公開第2019/0073568号にさらに説明されており、その開示は、参照によりその全体が本明細書に組み込まれる。
事前に訓練されたニューラルネットワークが取得された後に、複数の訓練用画像が取得され(ステップ411)、これらを使用して、事前に訓練されたニューラルネットワークを調整することができる(ステップ412)。事前に訓練されたモデルを、生物学的標本の画像の独特の特徴を備えた独特のニューラルネットワークに慣れさせるために、いくつかの実施形態において、事前に訓練されたニューラルネットワークは、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本の訓練用画像を使用して調整される。あくまでも例として、5つの異なる訓練用画像データセットを、表1に示す。いくつかの実施形態においては、生物学的標本の訓練用画像に注釈が付けられている。他の実施形態においては、生物学的標本の訓練用画像に注釈が付けられておらず、すなわち、それらはクラスラベルを含んでいない。いくつかの実施形態において、訓練用画像の各々は、同じ解像度を有しても、異なる解像度を有してもよい。いくつかの実施形態において、訓練用画像の各々は、同じ倍率または異なる倍率(例えば、10倍の訓練用画像、20倍の訓練用画像、40倍の訓練用画像、など)を有することができる。いくつかの実施形態において、訓練用画像は、各々の次元において数千のピクセルである。いくつかの実施形態においては、注釈を可能にするために、例えば64x64ピクセルまたは128x128ピクセルのサイズを有するパッチなど、パッチがランダムに抽出される。
Figure 2022504870000002
表1に記載の各々のデータセットに関する追加の情報を、以下に示す。
Her2:Her2膜染色細胞の560の注釈
Dual ISH:デュアルin situハイブリダイゼーション染色細胞の1269の注釈。
組み合わせ:Her2およびデュアルISHデータセットの組み合わせ
BB:ヘマトキシリンおよびDAB染色細胞の1822の2クラス注釈
BBYP:メンバー数が10~1828の範囲である5つの不均衡なクラスに分類される1340個の注釈を含むIHCデュプレックス染色画像
「Her2」、「Dual ISH」、および「組み合わせ」のデータセットの場合、注釈はクラス不可知細胞の境界ボックスであり、BBデータセットの場合、注釈は「青色」または「茶色」細胞のラベルを有する境界ボックスであり、BBYPデータセットの場合、注釈は「ki67-腫瘍」、「ki67+腫瘍」、「cd8+T細胞」、「ki67+T細胞」、および「cd8+ki67+T細胞」に対応する「青色腫瘍細胞」、「紫色腫瘍細胞」、「黄色T細胞」、「紫色T細胞」、および「黄色および紫色のT細胞」のラベルを有する境界ボックスであり、これらのクラスは相互に排他的である。
表1に示したデータセットを使用して事前に訓練されたニューラルネットワークを調整し(ステップ412)、以下の訓練されたニュートラルネットワークが得られた。これらの異なる訓練済みのニューラルネットワークを、本明細書の実施例の箇所で詳述されるように、特定の実験に使用した。
モデルZero:COCOデータセットで事前に訓練されたResnet-50特徴抽出器を備えるFaster RCNNモデル
HER2:Her2データにおける細胞検出で調整されたモデルZero
DUALISH:デュアルISHデータにおける細胞検出で調整されたモデルZero
モデルA:組み合わせデータにおける細胞検出で調整されたモデルZero
モデルB:BBデータにおける検出および分類で調整されたモデルZero
モデルC:BBデータにおける検出および分類で調整されたモデルA
訓練されたオブジェクト検出エンジンを使用した検出された細胞の均質なクラスタの生成
例えば1つ以上のバイオマーカーの存在について染色された生物学的標本の複数の訓練用画像による事前に訓練されたニューラルネットワークの調整など、事前に訓練されたニューラルネットワークの調整に続いて、調整されたニューラルネットワーク212は、検出された細胞の均質なクラスタをサンプル画像において識別できるように、サンプル画像内の細胞を検出するために、および/または分類するために(他のモジュールとともに)使用される(図3Aを参照)。他の実施形態において、調整されたニューラルネットワーク212は、領域提案ネットワーク214(訓練されたオブジェクト検出エンジン210を協働して提供する)と共に、検出された細胞の均質なクラスタをサンプル画像において識別できるように、サンプル画像内の細胞を検出するために、および/または分類するために使用される(図3Bを参照)。次いで、これらのサンプル画像に、病理医などが注釈を付けることができる。オブジェクト検出エンジン210が1つ以上のクラスラベルを含む訓練用画像で訓練されたオブジェクト検出エンジンである限りにおいて、訓練されたオブジェクト検出エンジン210を検出された細胞の分類に適合させることが可能であることを、当業者であれば理解できるであろう。
図3Aを参照すると、いくつかの実施形態において、1つ以上のサンプル画像が取得され、細胞を検出できるように、訓練されたオブジェクト検出エンジン210に提供される(ステップ310)。いくつかの実施形態において、訓練されたオブジェクト検出エンジン210は、領域ベースの畳み込みニューラルネットワークから導出される。いくつかの実施形態において、RCNNアーキテクチャは、Fast-RCNNアーキテクチャに基づく。
他の実施形態においては、図3Bを参照して、ニューラルネットワーク212が1つ以上のサンプル画像内の細胞特徴を識別するために使用され(ステップ340)、次いで、領域提案ネットワーク214が、識別された細胞特徴に基づいて1つ以上のサンプル画像内の細胞を検出するために使用される(ステップ341)。他の実施形態において、訓練されたオブジェクト検出エンジン210は、Faster-RCNNから導出される。さらに他の実施形態において、訓練されたオブジェクト検出エンジン210は、Faster-RCNNアーキテクチャに基づき、ニューラルネットワーク212は、例えばResNetなどの深層残差ネットワークを備える。
いくつかの実施形態において、オブジェクト検出エンジン210は、スケーリング層を含む。訓練されたオブジェクト検出エンジンは、人間が注釈を付けることができる小さな画像(64 x 64ピクセル、128 x 128ピクセル、など)で訓練されているが、サンプル画像はサイズがより大きく、例えばサイズが100倍大きい。いくつかの実施形態において、領域ベースの畳み込みニューラルネットワークアーキテクチャの1つで典型的に使用される画像リサイザの代わりに、サイズに関係なく一定の係数で画像をスケーリングするスケーリング層が、訓練されたオブジェクト検出エンジン210に導入される。
いくつかの実施形態において、オブジェクト検出エンジンは、Tensorflow Object Detection APIで提案されたハイパーパラメータを使用して、固定数(例えば、約30000)のステップにわたって訓練される。いくつかの実施形態において、より大きな画像に対応するために、推論プロセスにおいて提案の最大数が増やされる。検出性能を、しきい値0.50での平均的な平均精度指標(mAP @ 50)によって測定した。
検出(および、訓練用画像にクラスラベルが存在する場合の分類)性能の概要を、表2に示す。mAP @ 50は、さまざまなリコール値における最大精度の平均である平均的な平均精度を指す。mAP @ 50の測定において、検出は、50%を超えるIoUでグランドトゥルース注釈に一致する場合に、正しいと見なされる。ここで、精度は、真陽性/全陽性の検出を指す。IoUは、2つの領域間の重なり合いを測定する。Her2およびデュアルISHM画像についてモデルAを使用した細胞検出結果を、対応するパッチのグランドトゥルース注釈と比較して、図8に示す。表2に記載されているモデルは、本明細書において後述される実施例で使用されている。
Figure 2022504870000003
表2は、(上記の実施形態で説明したように)さまざまな染色種類で微調整されたFaster-RCNNが、各々の染色種類について良好に機能し、膜染色であるHer2であっても、DNA染色であるデュアルISHであっても、細胞染色であるBBであっても良好に機能することを示している。性能の違いは、訓練およびテストのためのグランドトゥルース注釈の品質に依存すると考えられる。
本明細書に記載されているように、ニューラルネットワーク212は、例えば畳み込み層などの複数の層を備えることができる。いくつかの実施形態において、ニューラルネットワークは、1つ以上のサンプル画像内の特定の特徴を決定するように設計される。ニューラルネットワークによって決定される特徴は、入力から推測でき、本明細書でさらに説明される出力を生成するために使用することができる本明細書でさらに説明され、あるいは技術的に知られている任意の適切な特徴を含むことができる。例えば、特徴は、ピクセルごとの強度値のベクトルを含むことができる。特徴は、例えばスカラ値のベクトル、独立分布のベクトル、接合分布、または技術的に知られている任意の他の適切な特徴種類など、本明細書で説明される任意の他の種類の特徴も含むことができる。
生物学的標本の文脈において、ニューラルネットワークは、1つ以上のバイオマーカーの存在について染色された生物学的標本の提供された1つ以上のサンプル画像内の特定の細胞または細胞特徴を決定することができる。細胞特徴の識別(ステップ340)および/または識別された細胞特徴に基づく細胞の検出(ステップ341)に続いて、細胞特徴の少なくとも一部を、特徴抽出モジュール202を使用してニューラルネットワーク212の1つ以上の層から抽出することができる(ステップ311または342)。いくつかの実施形態において、例えばResNetまたはResNet-50などの深層残差ネットワークが、領域ベースの畳み込みニューラルネットワークの第1段階の特徴抽出器として使用される。これに限られるわけではないが、一例として、ResNet-50アーキテクチャのブロック1、ブロック2、ブロック3、およびブロック1の前の畳み込み層(ブロック0と呼ばれる)からの特徴を抽出して、下流のクラスタリング作業に使用することができる。
ニューラルネットワークの1つ以上の層から細胞特徴の少なくとも一部を抽出した後に、均質な検出された細胞のクラスタが生成される(ステップ312または343)。このタスクに、任意のクラスタリング方法を使用することができる。例えば、クラスタリングを、凝集型クラスタリング技術を使用して実行することができる。いくつかの実施形態においては、凝集型階層クラスタリングが利用される。凝集型階層クラスタリングは、クラスタがサブクラスタを有し、サブクラスタがサブクラスタを有する、などのボトムアップ型クラスタリング方法である。凝集型階層クラスタリングは、単一クラスタ内のすべての単一オブジェクトから始まる。次いで、連続する各々の反復において、すべてのデータが1つのクラスタに含まれるまで、いくつかの類似性基準を満たすことにより、クラスタの最も近いペアを凝集(結合)させる。
いくつかの実施形態において、細胞特徴が訓練された領域ベースの畳み込みニューラルネットワークの異なる中間層から抽出され、凝集型クラスタリングが、サイキットラーン(scikit-learn)において実装されるように実行される(F.Pedregosa,et.al.,“Scikit-learn:Machine learning in Python,” Journal of Machine Learning Research,vol.12,pp.2825-2830,2011を参照)。
他の実施形態においては、凝集型クラスタリングを、米国特許第10,162,878号、第9,411,632号、および第6,625,585号に記載されている方法のいずれかに従い、あるいは米国特許出願公開第2016/0342677号、第2018/0329989号、または第2014/0359626号のいずれかのように実行することができ、これらの開示は、参照によりその全体が本明細書に組み込まれる。
次いで、注釈モジュール206が、各々のサンプル画像における検出された細胞の均質なクラスタのうちの1つ以上にラベルを付けることができるように、病理医によって使用され得る。適切な注釈モジュールの一例が、米国特許第9,818,190号に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。
次いで、サンプル画像の各々における1つ以上の均質なクラスタの注釈を、細胞検出および分類エンジンの訓練などのために、グランドトゥルースデータとして使用することができる(図7を参照)。
テスト画像内の細胞を検出および/または分類するためのシステム
いくつかの実施形態において、本開示は、テスト画像内の細胞を検出するための、および/または分類するためのシステム250を提供する。図2Cおよび図5が、テスト画像内の細胞を検出および/または分類するシステムおよび方法の概要を提示する。いくつかの実施形態において、システム250は、本明細書において導出されたグランドトゥルースデータ、すなわちサンプル画像内の細胞の識別された均質なクラスタの病理医による注釈を使用して訓練された細胞検出および分類エンジン255を含む。いくつかの実施形態において、細胞検出および分類エンジン255は、例えばサポートベクターマシンなどの分類器、または他の同様の集合学習方法を含む。適切な分類器の例は、本明細書でさらに説明される。細胞検出および分類エンジン255が分類器を含む実施形態において、細胞検出および分類エンジン255は、自動化された細胞検出モジュールおよび/またはニューラルネットワーク(特徴抽出に適合させたニューラルネットワークなど)を含むことができる。
いくつかの実施形態において、細胞検出および分類エンジン255は、本明細書で説明される任意の種類のニューラルネットワークなどのニューラルネットワークを含む。いくつかの実施形態において、細胞検出および分類エンジン255は、領域ベースの畳み込みニューラルネットワークを含む。それらの実施形態において、細胞検出および分類エンジン255は、生成されたグランドトゥルースデータを使用してさらに微調整されたオブジェクト検出エンジン210を含むことができる。
図5が、テスト画像内の細胞を検出および/または分類するさまざまなステップを説明するフローチャートを示している。いくつかの実施形態において、訓練された細胞検出および分類エンジン5が最初に取得される(ステップ510)。さらに、1つ以上のテスト画像も取得される(ステップ511)。次いで、細胞検出および分類エンジン255を使用して、1つ以上の取得されたテスト画像内の細胞を検出および/または分類する(ステップ512)。1つ以上の取得されたテスト画像内の細胞の検出および/または分類に続いて、テスト画像をスコアリングすることができる(ステップ513)。
自動化された細胞検出モジュール
本明細書に記載の手順および自動化されたアルゴリズムを、腫瘍細胞、非腫瘍細胞、間質細胞、およびリンパ細胞の特定および分類など、入力画像内の特徴に基づいてさまざまな種類の細胞または細胞核を識別および分類するように適合させることができる。細胞の核、細胞質、および膜が異なる特徴を有し、異なる染色による組織サンプルが異なる生物学的特徴を明らかにできることを、当業者であれば理解できるであろう。実際に、特定の細胞表面受容体が、膜に局在化し、あるいは細胞質に局在化する染色パターンを有することができることを、当業者であれば理解できるであろう。したがって、「膜」染色パターンを「細胞質」染色パターンから分析を用いて区別することができる。同様に、「細胞質」染色パターンと「核」染色パターンとを、分析を用いて区別することができる。これらの別個の染色パターンの各々を、細胞および/または核を識別するための特徴として使用することができる。
1つ以上の染色を有する生物学的サンプルの画像内の核、細胞膜、および細胞質を特定、分類、および/またはスコアリングする方法は、米国特許第7,760,927号(「’927号特許」)に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。例えば、米国特許第7,760,927号は、バイオマーカーで染色された生体組織の入力画像内の複数のピクセルを同時に識別するための自動化された方法であって、細胞質ピクセルおよび細胞膜ピクセルを同時に識別するために、入力画像の背景部分および入力画像の対比染色された成分を取り除くように処理された入力画像について、入力画像の前景にある複数のピクセルの第1の色平面を考慮することと、デジタル画像の前景にある細胞質ピクセルと細胞膜ピクセルとの間のしきい値レベルを決定することと、決定されたしきい値レベルを使用して、前景からの選択されたピクセルおよびその8つの隣接ピクセルによって、選択されたピクセルがデジタル画像内の細胞質ピクセルであるか、細胞膜ピクセルであるか、あるいは遷移ピクセルであるかどうかを同時に決定することと、を含む自動化された方法を記載している。
さらに、生物学的サンプルの画像内のバイオマーカー陽性細胞を自動的に特定するための適切なシステムおよび方法は、米国特許出願公開第2017/0103521号に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。例えば、米国特許出願公開第2017/0103521号は、(i)第1の染色および第2の染色で染色された複数の腫瘍細胞を含んでいる第1のスライドの同じ領域を描写する第1のデジタル画像および第2のデジタル画像を1つ以上のメモリに読み込むこと、(ii)第1のデジタル画像において光強度を分析することにより、複数の核および核の位置情報を識別すること、(iii)第2のデジタル画像において光強度を分析し、識別された核の位置情報を分析することにより、バイオマーカーを含む細胞膜を識別すること、および(iv)1つの識別された核と、この識別された核を取り囲む1つの識別された細胞膜との組み合わせであるバイオマーカー陽性腫瘍細胞を、一領域において識別することを記載している。HER2タンパク質バイオマーカーまたはEGFRタンパク質バイオマーカーによる染色を検出する方法が、米国特許出願公開第2017/0103521号に開示されている。
いくつかの実施形態においては、腫瘍核が、最初に候補核を識別し、次いで腫瘍核と非腫瘍核とを自動的に区別することによって、自動的に識別される。組織の画像内の候補核を識別する多くの方法が、技術的に知られている。例えば、自動的な候補核検出を、混合解除後のヘマトキシリン画像チャネルまたはバイオマーカー画像チャネルなどに、放射状対称性に基づく方法を適用することによって実行することができる(その開示の全体が参照によって本明細書に組み込まれるParvin,Bahram,et al.“Iterative voting for inference of structural saliency and characterization of subcellular events.” Image Processing,IEEE Transactions on 16.3(2007):615-623を参照)。
より具体的には、いくつかの実施形態において、入力として受信された画像は、核の中心(シード)の検出および/または核のセグメント化などのために処理される。例えば、Parvin(上記)の技術を使用した放射状対称性投票に基づいて核中心を検出するための命令を提供することができる。いくつかの実施形態において、核は、核の中心を検出するために放射状対称性を使用して検出され、次いで、核は、細胞中心の周りの染色の強度に基づいて分類される。いくつかの実施形態において、放射状対称性に基づく核検出動作は、本出願と譲受人が同じであり、本出願と同時に係属中である特許出願、すなわち国際公開第2014/140085号に記載されているように使用され、この国際公開の全体が参照により本明細書に組み込まれる。例えば、画像の大きさを、画像内で計算することができ、各ピクセルにおける1つ以上の投票が、選択された領域内の大きさの合計を加算することによって累積される。平均シフトクラスタリングを使用して、領域内の局所中心を見つけることができ、局所中心は、実際の核の場所を表す。放射状対称性投票に基づく核検出は、カラー画像強度データに対して実行され、核がさまざまなサイズおよび偏心を有する楕円形のブロブであるという先験的なドメイン知識を明示的に利用する。これを実現するために、入力画像の色の強度とともに、画像勾配情報が、放射状対称性投票で使用され、細胞核の正確な検出および位置特定のために適応セグメンテーションプロセスと組み合わせられる。本明細書で使用される「勾配」は、例えば、特定のピクセルを取り囲む一式のピクセル強度値勾配を考慮に入れることによって特定のピクセルについて計算されたピクセルの強度勾配である。各勾配は、そのx軸およびy軸がデジタル画像の2つの直交するエッジによって定義される座標系に対して特定の「方向」を有することができる。例えば、核シード検出は、細胞核の内側にあると想定され、細胞核の位置を特定するための開始点として機能する点としてシードを定義することを含む。第1のステップは、放射状対称性に基づくきわめてロバストな手法を使用して各細胞核に関連するシード点を検出し、細胞核に似た構造である楕円形のブロブを検出することである。放射状対称性の手法は、カーネルベースの投票手順を使用して勾配画像に対して動作する。投票応答行列が、投票カーネルを介して投票を蓄積する各ピクセルを処理することによって作成される。カーネルは、その特定のピクセルで計算された勾配方向と、最小および最大の核サイズの予想範囲、および投票カーネル角度(典型的には[π/4、π/8]の範囲内)に基づく。結果としての投票空間において、事前定義されたしきい値よりも高い投票値を有する極大の場所が、シード点として保存される。無関係なシードを、後に、後続のセグメンテーションまたは分類のプロセスにおいて破棄することができる。他の方法が、米国特許出願公開第2017/0140246号で論じられており、その開示は、参照により本明細書に組み込まれる。
核を、当業者に知られている他の技術を使用して識別することができる。例えば、画像の大きさを、H&EまたはIHC画像のうちの1つの画像の特定の画像チャネルから計算することができ、指定された大きさの辺りの各ピクセルに、ピクセルの周りの領域内の大きさの合計に基づく投票数を割り当てることができる。あるいは、平均シフトクラスタリング動作を実行して、核の実際の位置を表す投票画像内の局所中心を見つけることができる。他の実施形態においては、核セグメンテーションを使用して、形態学的動作および局所しきい値化を介して、現在知られている核の中心に基づいて核全体をセグメント化することができる。さらに他の実施形態においては、モデルベースのセグメンテーションを利用して、核を検出することができる(すなわち、訓練用データセットから核の形状モデルを学習し、それをテスト画像内の核をセグメント化するための事前知識として使用する)。
次いで、いくつかの実施形態において、核は、その後に各核について個別に計算されたしきい値を使用してセグメント化される。例えば、核領域のピクセル強度が変化すると考えられるため、Otsuの方法を、識別された核の周りの領域におけるセグメンテーションに使用することができる。当業者であれば理解できるとおり、Otsuの方法は、クラス内分散を最小化することによって最適なしきい値を判定するために使用され、当業者に知られている。より具体的には、Otsuの方法は、クラスタリングベースの画像しきい値処理、またはグレーレベル画像のバイナリ画像への縮小を自動的に実行するために使用される。このアルゴリズムは、画像がバイモーダルヒストグラムに従う2つのクラスのピクセル(前景ピクセルおよび背景ピクセル)を含むことを前提としている。したがって、クラス間分散が最大になるように、それらの結合された広がり(クラス内分散)が最小になるか、あるいは同等になるように(ペアごとの二乗距離の合計が一定であるため)、2つのクラスを分離する最適なしきい値を計算する。
いくつかの実施形態において、システムおよび方法は、非腫瘍細胞の核を識別するために、画像内の識別された核のスペクトルおよび/または形状の特徴を自動的に分析することをさらに含む。例えば、ブロブを、第1のステップの第1のデジタル画像において識別することができる。本明細書で使用される「ブロブ」は、例えば、強度またはグレー値などのいくつかの特性が一定であり、あるいは所定の値の範囲内でしか変化しないデジタル画像の一領域であってよい。ブロブ内のすべてのピクセルを、或る意味で、互いに類似していると見なすことができる。例えば、ブロブを、デジタル画像上の位置の関数の導関数に基づく微分法、および局所極値に基づく方法を使用して識別することができる。核ブロブは、そのピクセルおよび/またはその輪郭形状が、ブロブがおそらくは第1の染色によって染色された核によって生成されたことを示しているブロブである。例えば、ブロブの放射状対称性を評価して、ブロブを核ブロブとして識別すべきか、あるいは染色アーチファクトなどの任意の他の構造として識別すべきかを決定することができる。例えば、ブロブが長い形状を有し、放射状対称性でない場合、このブロブを、核ブロブとしてではなく、むしろ染色アーチファクトとして識別することができる。実施形態に応じて、「核ブロブ」として特定されるブロブは、候補核として識別され、この核ブロブが核を表すかどうかを判定するためにさらに分析されることができる一連のピクセルを表すことができる。いくつかの実施形態においては、あらゆる種類の核ブロブが、「識別された核」として直接使用される。いくつかの実施形態においては、フィルタにかける動作が、バイオマーカー陽性腫瘍細胞に属さない核を識別し、これらの識別された非腫瘍核をすでに識別された核のリストから除去し、もしくはこれらの核を初めから識別された核のリストに加えないために、識別された核または核ブロブに適用される。例えば、識別された核ブロブの追加のスペクトルおよび/または形状の特徴を分析して、核または核ブロブが腫瘍細胞の核であるかどうかを判定することができる。例えば、リンパ細胞の核は、例えば肺細胞などの他の組織細胞の核よりも大きい。腫瘍細胞が肺組織に由来する場合、リンパ細胞の核は、通常の肺細胞の核の平均サイズまたは直径よりも有意に大きい最小サイズまたは直径のすべての核ブロブを識別することによって識別される。リンパ細胞の核に関連する識別された核ブロブを、一連のすでに識別された核から除去する(すなわち、「フィルタにかける」)ことができる。非腫瘍細胞の核をフィルタにかけることにより、本方法の精度を高めることができる。バイオマーカーに応じて、非腫瘍細胞も、或る程度までバイオマーカーを発現する可能性があり、したがって第1のデジタル画像において腫瘍細胞に由来しない強度信号を生じる可能性がある。すでに識別された核の全体から腫瘍細胞に属さない核を識別してフィルタにかけることにより、バイオマーカー陽性腫瘍細胞の識別の精度を高めることができる。これらの方法および他の方法は、米国特許出願公開第2017/0103521号に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態においては、ひとたびシードが検出されると、局所適応型しきい値法を使用することができ、検出された中心の周りのブロブが生成される。いくつかの実施形態においては、他の方法を取り入れることもでき、例えばマーカーベースの分水界アルゴリズムを使用して、検出された核中心の周りの核ブロブを識別することもできる。これらの方法および他の方法は、PCT国際公開第2016/120442号に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。
核の検出に続いて、特徴(または、メトリック)が入力画像内から導出される。核の特徴からのメトリックの導出は、技術的に周知であり、既知の任意の核の特徴を、本開示の文脈において使用することができる。これらに限られるわけではないが、計算できるメトリックの例として以下が挙げられる:
(A)形態学的特徴から導出されるメトリック
本明細書で使用される「形態学的特徴」は、例えば、核の形状または寸法を表している特徴である。特定の理論に拘束されることを望むものではないが、形態学的特徴は、細胞またはその核のサイズおよび形状に関するいくつかの重要な情報を提供すると考えられる。例えば、形態学的特徴を、核ブロブまたはシードに含まれ、あるいは核ブロブまたはシードを取り囲む周囲のピクセルに、さまざまな画像分析アルゴリズムを適用することによって計算することができる。いくつかの実施形態において、形態学的特徴は、面積、短軸、および長軸の長さ、周囲長、半径、体積、などを含む。細胞レベルにおいて、このような特徴が、核を健康な細胞または病気の細胞に属すると分類するために使用される。組織レベルにおいて、組織全体のこれらの特徴の統計が、組織が罹患しているかどうかの分類に利用される。
(B)色から導出されるメトリック。
いくつかの実施形態において、色から導出されるメトリックは、色比R/(R+G+B)または色主成分を含む。他の実施形態において、色から導出されるメトリックは、各色の局所統計(平均/中央値/分散/標準偏差)および/または局所画像ウィンドウにおける色強度相関を含む。
(C)強度特徴から導出されるメトリック
或る特定の特性値を有する隣接する細胞のグループが、組織病理学的スライド画像に表される灰色の細胞の暗い色合いと白い色合いとの間に設定される。色特徴の相関関係が、サイズクラスのインスタンスを定義し、したがって、このようにして、これらの着色された細胞の強度が、影響を受けた細胞を周囲の暗い細胞のクラスタから判定する。
(D)空間的特徴から導出されるメトリック
いくつかの実施形態において、空間的特徴は、細胞の局所密度、隣接する2つの検出された細胞の間の平均距離、および/または細胞からセグメント化された領域までの距離を含む。
当然ながら、当業者に知られているように、他の特徴も、特徴の計算の基礎として考慮および使用することができる。
分類モジュール
細胞検出および分類エンジン255が分類器を含む実施形態において、分類器は、当業者に知られている任意の分類器であってよい。例えば、いくつかの実施形態において、学習した教師あり分類器は、サポートベクターマシン(「SVM」)である。一般に、SVMは、非線形入力データセットが非線形の場合のためのカーネルを介して高次元の線形特徴空間に変換される統計学習理論に基づく分類技術である。サポートベクターマシンは、カーネル関数Kを使用して、2つの異なるクラスを表す一式の訓練用データEを高次元空間に投影する。この変換されたデータ空間において、非線形データが、クラス分離を最大化するようにクラスを分離するためのフラットライン(識別超平面)を生成できるように変換される。次いで、テストデータがKを介して高次元空間に投影され、テストデータ(以下に列挙される特徴またはメトリックなど)が、超平面に対する位置に基づいて分類される。カーネル関数Kは、データが高次元空間に投影される方法を定義する。
他の実施形態において、学習した教師あり分類器は、ランダムフォレスト分類器である。-例えば、ランダムフォレスト分類器を、以下の方法によって訓練することができる。(i)腫瘍細胞および非腫瘍細胞の訓練用セットを生成し、(ii)各細胞の特徴を抽出し、(iii)抽出された特徴(細胞検出および分類エンジン255のニューラルネットワーク部分から抽出された特徴など)に基づいて腫瘍細胞と非腫瘍細胞との間の区別を行うようにランダムフォレスト分類器を訓練する。次いで、訓練されたランダムフォレスト分類器を適用して、テスト画像内の細胞を腫瘍細胞および非腫瘍細胞に分類することができる。随意により、ランダムフォレスト分類器を、リンパ球核および間質核などの異なるクラスの非腫瘍核の間の区別を(さらには、異なる種類のリンパ球の間の区別でさえも)行うようにさらに訓練することができる。
スコアリングモジュール
いくつかの実施形態においては、導出された染色強度値、特定の細胞の数、または他の分類結果を、スコアリングモジュール260を使用して陽性率、Allredスコア、またはHスコアなどのさまざまなマーカー発現スコアを決定するために使用することができる。スコアリングの方法は、本出願と譲受人が同じであり、本出願と同時に係属中である2013年12月19日に出願された国際公開第2014/102130号“Image analysis for breast cancer prognosis”および2014年3月12日に出願された国際公開第2014/140085号“Tissue object-based machine learning system for automated scoring of digital whole slides”にさらに詳しく記載されており、それぞれの内容は、参照によりその全体が本明細書に組み込まれる。例えば、バイオマーカー陽性腫瘍細胞/バイオマーカー陽性非腫瘍細胞の数に少なくとも部分的に基づいて、スコア(例えば、全スライドスコア、あるいは病理医または組織学者によって注釈が付けられた領域などの画像の注釈付き領域のスコア)を決定することができる。いくつかの実施形態において、検出された細胞ブロブごとに、平均ブロブ強度、色、ならびに検出された細胞ブロブの面積および形状などの幾何学的特徴を計算することができ、細胞ブロブは、腫瘍細胞および非腫瘍細胞の細胞に分類される。識別された細胞の出力数は、カウントされた腫瘍細胞の数から明らかなように、或る領域で検出されたバイオマーカー陽性腫瘍細胞の総数に対応する。サンプルをスコアリングする他の方法が、PCT国際公開第2017/093524号、ならびに米国特許出願公開第2017/0103521号および第2017/0270666号に記載されており、それらの開示は、参照によりその全体が本明細書に組み込まれる。
いくつかの実施形態において、発現スコアは、Hスコアである。Hスコアは、例えば、細胞の免疫反応性の程度を評価する方法である。バイオマーカーに応じて、Hスコアの計算のためのさまざまな手法を使用することができる。例示の例を提示するために、ステロイド受容体細胞のHスコアを、0~300の範囲を与える以下の式によって得ることができる:3×(強く染色された細胞のパーセンテージ)+2×(中程度に染色された細胞のパーセンテージ)+(弱く染色された細胞のパーセンテージ)。
いくつかの実施形態において、「H」スコアは、「弱い」、「中程度」、または「強い」として等級付けされた細胞膜染色を伴う腫瘍細胞のパーセンテージを評価するために使用される。等級は合計され、300という全体の最大スコアおよび「陽性」と「陰性」との間を区別する100というカットオフポイントを与える。例えば、膜染色強度(0、1+、2+、または3+)が、固定された視野内の各細胞(または、ここでは腫瘍または細胞クラスタ内の各細胞)について判定される。Hスコアは、単に支配的な染色強度に基づくことができ、あるいはより複雑には、見られた各強度レベルの個々のHスコアの合計を含むこともできる。1つの方法によって、各々の染色強度レベルの細胞のパーセンテージが計算され、最終的に、以下の式を使用してHスコアが割り当てられる:[1×(1+の細胞のパーセンテージ)+2×(2+の細胞のパーセンテージ)+3×(3+の細胞のパーセンテージ)]。0~300の範囲である最終スコアは、所与の腫瘍サンプルにおけるより高い強度の膜染色に対して、より大きな相対的重さを与える。したがって、サンプルを、特定の区別しきい値に基づいて陽性または陰性と考えることができる。Hスコアを計算するさらなる方法が、米国特許出願公開第2015/0347702号に記載されており、その開示は、参照によりその全体が本明細書に組み込まれる。
あくまでも例として、サンプルがリンパ球バイオマーカーの存在およびまたPD-L1の存在について染色される実施形態において、PD-L1発現を以下によってスコアリングすることができる:(a)腫瘍サンプル中の腫瘍細胞およびリンパ球を識別し、(b)PD-L1を発現する腫瘍細胞およびリンパ球の数および/またはこれらの細胞におけるPD-L1発現の相対強度を決定し、(c)(b)において決定されたPD-L1発現に従って腫瘍を分類する。いくつかの実施形態において、PD-L1の発現は、腫瘍におけるPD-L1タンパク質および/またはPD-L1 mRNAを特異的に検出することによって決定される。いくつかの実施形態において、細胞は、細胞がIHCによって検出されるPD-L1タンパク質の少なくとも部分的な膜染色を有する場合に、PD-L1を発現すると見なされる。いくつかの実施形態において、腫瘍は、どちらもステップ(b)から計算される修正Hスコア(MHS)または修正比率スコア(MPS)の一方または両方に従って分類される(さらなる情報については、その開示の全体が参照によって本明細書に組み込まれる米国特許出願公開第2017/0372117号を参照)。
いくつかの実施形態において、MHSを割り当てることは、(i)検査された腫瘍巣のすべてにおける生存可能な腫瘍細胞および染色された単核炎症細胞のすべてにわたって、染色なしの細胞、弱い染色(+1)の細胞、中程度の染色(+2)の細胞、および強い染色(+3)の細胞の4つのそれぞれのパーセンテージを見積もること(細胞は、弱い染色のパーセンテージ、中程度の染色のパーセンテージ、および強い染色のパーセンテージに含まれるべき少なくとも部分的な膜染色を有さなければならず、4つのパーセンテージすべての合計は100に等しい)、および(ii)見積もられたパーセンテージを「1×(弱い染色の細胞のパーセント)+2×(中程度の染色の細胞のパーセント)+3×(強い染色の細胞のパーセント)」という式に入力し、この式の結果を組織切片にMHSとして割り当てることを含み、MPSを割り当てることは、検査された腫瘍巣のすべてにおける生存可能な腫瘍細胞および単核炎症細胞のすべてにわたって、任意の強度の少なくとも部分的な膜染色を有する細胞のパーセンテージを見積もり、得られたパーセンテージを組織切片にMPSとして割り当てることを含み、MHSおよびMPSの両方が割り当てられる場合、割り当てをいずれの順序で行っても同時に行ってもよい、ことを含む。例えば、「なし」、「弱い」、「中程度」、および「強い」の4つの分類を、例えば重なり合いのない強度しきい値範囲として定義することができ、例えば細胞ピクセル領域を、平均強度値が5%未満の場合に「染色なし」の細胞と見なし、平均強度値が5%よりも大きく25%よりも小さい場合に「弱い染色」の細胞と見なし、平均強度値が25%以上75%未満の場合に「中程度の染色」の細胞と見なし、平均強度値が75%以上の場合に「強い染色」の細胞と見なすことができる。
いくつかの実施形態において、発現スコアは、Allredスコアである。Allredスコアは、テストにおいてホルモン受容体について陽性となる細胞のパーセンテージ、および染色後に受容体がどの程度良好に現れるか(これは、「強度」と呼ばれる)を調べるスコアリングシステムである。次いで、この情報を組み合わせて、サンプルを0から8までの目盛りでスコアリングする。スコアが高いほど、より多くの受容体が発見され、サンプルにおいて見つけることがより容易である。
セルのクラスタリング
細胞の検出および位置特定のための学習のプロセスにおいて、モデルAが、細胞のクラスタリングを容易にできる特徴を学習する。モデルAにはクラスラベルが提供されていないが、これらの特徴は、細胞の元のRGB値(図9Bを参照)と比較して、より良好なクラスタリング結果をもたらす(図9Aを参照)。定性的な細胞クラスタリング性能が、図9Aおよび図9Bに示されている。図9Aにおいて、青色ボックスが主にHer2陽性細胞に配置される一方で、緑色のボックスがHer2陰性細胞に配置されており、これは、Faster-RCNNから導出された特徴を使用したクラスタリングによって2種類の細胞が良好に分離されたことを意味している。Faster-RCNNを微調整するための細胞クラスラベルが提供されていなくても、事前に訓練されたFaster-RCNNは、微調整されたFaster-RCNNに「転送」されたより豊富な特徴表現をすでに提供した。これにより、クラスタリングの性能が向上することが明らかになった。モデルAのブロック1から抽出された特徴は、細胞の有意義なクラスタリングを可能にする(図9Aを参照)。
図9Bにおいて、青色のボックスがいくつかのHer2陽性細胞に配置される一方で、緑色のボックスがHer2陽性および陰性の両方の細胞に配置されており、RGBを使用したクラスタリングでは2種類の細胞の分離が不充分であることを示している。元のRGBピクセル値に基づく細胞のクラスタリングは意味がないように思われる(図9Bを参照)。HER2画像において有意義なクラスタパターンを定性的に観察した後に、データセットBBに2つのクラスによって注釈を付け、クラスタリングにFaster-RCNN機能を使用する利点の定量的な評価を可能にした。図10Aが、モデルAのさまざまな畳み込み層からの表現および検出されたセルの元のRGB表現を使用したクラスタリングの性能を要約している。クラスタの数を2つに制限すると、Faster-RCNNの特徴は、RGB表現よりも明らかに8%の優位を有する。換言すると、Faster-RCNNの特徴を使用してセルを2つのクラスタにクラスタリングして、各クラスタ内のすべてのセルにクラスタラベルを割り当てた場合に、98%の分類精度が達成される一方で、RGB表現を使用した場合、同じ手順で90%の精度となる。加えて、block0、block1、およびblock2から抽出された特徴は、BBデータセットについて同様の性能を有し、block0の特徴は、さまざまな数のクラスタについてきわめて一貫した性能を有した。
次に、後でクラスタ化される同じ種類のセルを分類するようにオブジェクト検出エンジンを訓練すると、単にセルを検出するように訓練されたオブジェクト検出エンジンと比較して、クラスタリングのタスクに関する学習した特徴の有用性が高まるかどうかを判断した。この質問に答えるために、モデルA、モデルB、モデルC、およびモデルZeroから抽出された特徴を使用してクラスタリングの性能を測定した。これらのモデルのいずれによって学習した表現を使用しても、セルの元のRGB表現と比べて少なくとも7%の向上がもたらされるが、これらのモデルからの結果の間に、有意差は見られなかった。これは、COCOデータセットにおいてのみ訓練されたモデルZeroから抽出された特徴でさえも、セルを有意義にクラスタリングするために使用することができ、結果としてグランドトゥルースラベリングをさらに改善できることを示している。
見えないクラスのクラスタリング
BBYT画像が、5つのクラスの細胞を含む。これらのクラスのうちのいくつかが、RGB値で容易に区別可能である一方で、他のいくつかは、RGBならびに形態またはコンテキストの両方によって定義される。腫瘍細胞の或るクラスは、通常の細胞のクラスと同様に青色で表され、腫瘍細胞の別のクラスは、T細胞のクラスと紫色の表現を共有する。これらのクラスを、細胞の密度、形状、およびコンテキストに基づいて区別することができる。このセクションでは、BBYP細胞の均質なクラスタへのクラスタリングについて、モデルBで学習した表現の有用性を、元のRGB表現と比較して調査する。CNN特徴は、元の画像ピクセルと比較してマルチレベルの抽象化ゆえにオブジェクトのよりグローバルなビューを提供するため、個々の外観は似ているがコンテキスト情報によって区別することができるセルクラスの間のより良好な区別を提供できると仮定される(図10Bを参照)。この場合に、2つのクラスラベル(BBデータセットから)を使用して微調整されたFaster-RCNNから導出された特徴は、クラスタの数がきわめて少ない場合(例えば、5)でも、クラスタリングを通じて5種類の細胞を充分に良好に区別でき、元のRGB値と比較して性能の向上が15%であった。Block0特徴が、すべての数のクラスタについて最高の性能を有すると考えられる。
さらなる転送
BBYP画像は、関心対象の5つのクラスの細胞、すなわちki67+/-腫瘍細胞、Ki67+/-T細胞、およびCD8+T細胞を識別するために、Discovery YellowおよびDiscovery Purple色原体によって染色される。これらのクラスのうちのいくつかが、色によって容易に区別可能である一方で、他のいくつかは、色ならびに形態またはコンテキストの両方によって定義される(図11を参照)。CNN特徴は、元の画像ピクセルと比較してマルチレベルの抽象化ゆえにオブジェクトのよりグローバルなビューを提供するため、個々の外観は似ているがコンテキスト情報によって区別することができるセルクラスの間のより良好な区別を提供できると仮定される。図10Bに示されるように、モデルBの特徴を使用してBBYT細胞をクラスタリングすると、これらのセルの元のRGB表現の使用と比べて15%の優位が得られ、クラスタの数を増やしても優位は続き、最初の仮定を裏付けている。他のモデルからの特徴を使用しても同様の結果がもたらされた。
結論
公開されている大規模なオブジェクト検出データセットでの事前の訓練により、教師の必要性が減少することが示された。本出願の出願人の研究に最も近い先行技術(Rene Bidart,et.al.,“Localization and classification of cell nuclei in post-neoadjuvant breast cancer surgical specimen using fully convolutional networks,” in Medical Imaging 2018:Digital Pathology.International Society for Optics and Photonics,2018,vol.10581)が、病理医による27Kのドット注釈を使用している一方で、モデルAの訓練には1800個の境界ボックス注釈が使用されるにすぎない。
また、異なる解像度の組織学的画像を同時に処理し、訓練用パッチの100倍のサイズのテスト画像について推論を実行するためのFaster R-CNNの有用性も示された。ここでの制限は、アルゴリズムではなく、メモリに関連する。
必要に応じて病理医が微調整できる注釈ボックスを提案し、検出されたセルをいくつかの均質なサブセットにクラスタリングすることで、グランドトゥルースラベリングを容易にすることが提案され、グランドトゥルースラベリングの負担をおおむねデータセット内の細胞の数からクラスタの数へと軽減した。
図8に示されるように、モデルは、注釈者が見逃した細胞の検出に関して不利になることがある。組織学的画像に存在するオブジェクトの性質のあいまいさゆえに、同じデータセットに注釈を付けるために複数の注釈人を雇用する必要があり、検出および分類モデルの性能を、注釈人の一致率と比較すべきである。
本開示の実施形態を実施するための他の構成要素
本開示のシステムおよび方法と組み合わせて使用することができる他の構成要素(例えば、システムまたはモジュール)を以下で説明する。
混合解除モジュール
いくつかの実施形態において、入力として受け取られる画像は、マルチプレクス画像であってよく、すなわち受け取られる画像は、複数の染色で染色された生物学的標本の画像である。これらの実施形態では、さらなる処理の前に、複数の画像は、最初に、その構成チャネルに混合解除され、混合解除された各チャネルは、特定の染色または信号に対応する。いくつかの実施形態において、混合解除された画像(「チャネル画像」または「画像チャネル画像」と呼ばれることが多い)を、本明細書で説明される各モジュールの入力として使用することができる。例えば、マーカー間の異種性を、第1のH&E画像、分化マーカー(CD3、CD8、など)の複数のクラスタについて染色された第2のマルチプレクス画像、およびそれぞれが特定のバイオマーカー(例えば、ER、PR、Ki67、など)について染色された複数のシンプレックス画像によって決定することができる。この例において、マルチプレクス画像は、最初にその構成チャネル画像へと混合解除され、それらのチャネル画像を、H&E画像および複数のシンプレックス画像とともに使用して、マーカー間の異種性を決定することができる。
いくつかの実施形態では、1つ以上の染色およびヘマトキシリンを含むサンプルにおいて、1つ以上の染色およびヘマトキシリンの各チャネルについて個々の画像を生成することができる。特定の理論に拘束されることを望まないが、これらのチャネルは、組織画像内の異なる組織構造を強調すると考えられ、したがって、それらを構造画像チャネルと呼ぶことができる。いくつかの実施形態において、混合解除は、少なくともヘマトキシリン画像チャネル画像を提供する。いくつかの実施形態において、取得された画像は、ヘマトキシリンの局所量を表し、画像内の細胞領域を強調する別個のチャネルへと混合解除される。これらのチャネルから抽出された特徴が、組織の任意の画像内に存在する異なる生物学的構造を記述するうえで有用であることを,当業者であれば理解できるであろう。
画像化システム202によって提供されるマルチスペクトル画像は、個々のバイオマーカーおよびノイズ成分に関連する基礎となるスペクトル信号の加重混合である。任意の特定のピクセルにおいて、混合における重みは、組織内のその特定の場所における基礎となる共局在バイオマーカーのバイオマーカー発現およびその場所における背景ノイズに比例する。したがって、混合における重みは、ピクセルごとに異なる。本明細書に開示されるスペクトル混合解除方法は、すべてのピクセルにおけるマルチチャネルピクセル値ベクトルを構成バイオマーカーのエンドメンバーまたは成分の集合に分解し、各バイオマーカーの個々の構成染色の比率を推定する。
混合解除は、混合ピクセルの測定されたスペクトルを、構成スペクトルまたはエンドメンバーの集合、ならびにピクセルに存在する各エンドメンバーの割合を表す一式の対応する画分または存在量へと分解する手順である。具体的には、混合解除プロセスは、染色ごとのチャネルを抽出して、標準的な種類の組織および染色の組み合わせについてよく知られている参照スペクトルを使用して、個々の染色の局所濃度を判定することができる。混合解除は、対照画像から取り出され、あるいは観察中の画像から推定される参照スペクトルを使用することができる。各入力ピクセルの成分信号の混合解除は、H&E画像におけるヘマトキシリンチャネルおよびエオシンチャネル、あるいはIHC画像におけるジアミノベンジジン(DAB)チャネルおよび対比染色(例えば、ヘマトキシリン)チャネルなど、染色ごとのチャネルの取り出しおよび分析を可能にする。「混合解除」および「カラーデコンボリューション」(または、「デコンボリューション」)などの用語(例えば、「デコンボリューションする」、「混合解除された」)は、当該技術分野において交換可能に使用される。
いくつかの実施形態において、マルチプレクス画像は、線形混合解除を使用する混合解除モジュール205によって混合解除される。線形混合解除は、例えば、「Zimmermann “Spectral Imaging and Linear Unmixing in Light Microscopy” Adv Biochem Engin/Biotechnol(2005)95:245-265」および「C.L.Lawson and R.J.Hanson,“Solving least squares Problems”,PrenticeHall,1974,Chapter 23,p.161」に記載されており、これらの開示は、参照によりその全体が本明細書に組み込まれる。線形染色混合解除において、任意のピクセルにおいて測定されたスペクトル(S(λ))は、染色スペクトル成分の線形混合と見なされ、そのピクセルにおいて発現している各々の個々の染色のカラーリファレンス(R(λ))の比率または重み(A)の合計に等しい。
S(λ)=A・R(λ)+A・R(λ)+A・R(λ)、・・・、A・R(λ)
これは、より一般的に、以下のように行列形式で表すことができる。
S(λ)=ΣA・R(λ)またはS=R・A
取得されたM個のチャネル画像およびN個の個別の染色が存在する場合、M×Nの行列Rの列は、本明細書で導出された最適表色系であり、N×1のベクトルAは、個々の染色の比率が不明であり、M×1のベクトルSは、ピクセルにおける測定されたマルチチャネルスペクトルベクトルである。これらの方程式において、各ピクセルの信号(S)は、マルチプレクス画像の取得時に測定され、参照スペクトル、すなわち、最適表色系は、本明細書に記載のように導出される。さまざまな染色の寄与(A)を、測定されたスペクトルの各点へのそれらの寄与を計算することによって決定することができる。いくつかの実施形態において、解は、以下の一連の方程式を解くことによって、測定されたスペクトルと計算されたスペクトルとの間の二乗差を最小化にする逆最小二乗フィッティング手法を使用して得られる。
[∂Σ{S(λ)-Σ・R(λ)}2]/∂A=0
この式において、jは検出チャネルの数を表し、iは染色の数に等しい。線形方程式の解法では、多くの場合に、制約付きの混合解除を可能にして、重み(A)の合計を1にする必要がある。
他の実施形態において、混合解除は、その開示の全体が参照によって本明細書に組み込まれる2014年5月28日に出願された「Image Adaptive Physiologically Plausible Color Separation」という名称の国際公開第2014/195193号に記載の方法を使用して達成される。一般に、国際公開第2014/195193号は、反復的に最適化される参照ベクトルを使用して入力画像の成分信号を分離することによる混合解除の方法を記載している。いくつかの実施形態において、アッセイからの画像データは、品質メトリックを決定するために、アッセイの特性に特有の期待される結果または理想的な結果に相関付けられる。画像の品質が低く、あるいは理想的な結果に対する相関が乏しい場合、行列Rの1つ以上の参照列ベクトルが調整され、相関が生理学的および解剖学的要件に一致する高品質の画像を示すまで、調整された参照ベクトルを使用して混合解除が反復的に繰り返される。解剖学的、生理学的、およびアッセイ情報を使用して、品質メトリックを決定するために測定された画像データに適用される規則を定義することができる。この情報は、組織がどのように染色されたか、組織内のどの構造が染色されるように意図され、あるいは意図されなかったか、および処理されるアッセイに固有の構造、染色、およびマーカー間の関係を含む。反復プロセスは、目的の構造および生物学的に関連する情報を正確に特定し、ノイズまたは望ましくないスペクトルを含まず、したがって分析に適した画像を生成することができる染色ごとのベクトルを提供する。参照ベクトルは、探索空間内に調整される。探索空間は、参照ベクトルが染色を表すために取ることができる値の範囲を定義する。探索空間を、既知の問題または一般的に発生する問題を含むさまざまな代表的な訓練用アッセイをスキャンし、訓練用アッセイのための参照ベクトルの高品質の組を決定することによって、決定することができる。
他の実施形態において、混合解除は、その開示の全体が参照によって本明細書に組み込まれる2015年2月23日に出願された「Group Sparsity Model for Image Unmixing」という名称の国際公開第2015/124772号に記載の方法を使用して達成される。一般に、国際公開第2015/124772号は、グループスパース性フレームワークを使用した混合解除を記載しており、このフレームワークでは、複数のコロケーションマーカーからの染色寄与の割合が「同じグループ」内でモデル化され、複数の非コロケーションマーカーからの染色寄与の割合が異なるグループにモデル化され、複数のコロケーションマーカーの共局在情報をモデル化されたグループスパース性フレームワークへと提供し、モデル化されたフレームワークをグループラッソを使用して解いて、コロケーションマーカーの混合解除に対応する各グループ内の最小二乗解を生成し、非コロケーションマーカーの混合解除に対応するグループ間のスパース解を生成する。さらに、国際公開第2015/124772号は、生物学的組織サンプルから得られた画像データを入力し、複数の染色の各染色の染色色を表す参照データを電子メモリから読み取り、染色のグループを表すコロケーションデータであって、各グループは生理学的組織サンプルにおいて同じ場所に位置しうる染色を含み、各グループはグループラッソ基準に関するグループを形成しており、グループのうちの少なくとも1つは2以上のサイズを有しているコロケーションデータを、電子メモリから読み取り、参照データを参照行列として使用して、混合解除された画像を取得するためのグループラッソ基準の解を計算することによる混合解除の方法を記載している。いくつかの実施形態において、画像を混合解除するための方法は、同じ場所に位置したマーカーからの染色寄与の割合が単一のグループ内に割り当てられ、同じ場所に位置しないマーカーからの染色寄与の割合が別個のグループ内に割り当てられるグループスパース性モデルを生成することと、混合解除アルゴリズムを使用してグループスパース性モデルを解き、各グループ内の最小二乗解を生成することとを含むことができる。
その他のシステム構成要素
本開示のシステム200を、組織標本について1つ以上の調製プロセスを実行することができる標本処理装置に結び付けることができる。調製プロセスは、限定されるものではないが、標本の脱パラフィン、標本のコンディショニング(例えば、細胞コンディショニング)、標本の染色、抗原賦活化の実行、免疫組織化学染色(ラベリングを含む)または他の反応の実行、および/またはインサイチュハイブリダイゼーション(例えば、SISH、FISH、など)染色(ラベリングを含む)または他の反応の実行、ならびに顕微鏡検査、微量分析、質量分析法、または他の分析方法に向けて標本を調製するための他のプロセスを含むことができる。
処理装置は、標本に固定剤を適用することができる。固定剤は、架橋剤(例えば、ホルムアルデヒド、パラホルムアルデヒド、およびグルタルアルデヒドなどのアルデヒド、ならびに非アルデヒド架橋剤)、酸化剤(例えば、四酸化オスミウムおよびクロム酸などの金属イオンおよび錯体)、タンパク質変性剤(例えば、酢酸、メタノール、およびエタノール)、未知の機構の固定剤(例えば、塩化水銀、アセトン、およびピクリン酸)、配合試薬(例えば、Carnoyの固定剤、メタカーン、Bouinの流体、B5固定剤、Rossman液、およびGendre液)、マイクロ波、およびその他の固定剤(例えば、排除体積固定および蒸気固定)を含むことができる。
標本がパラフィンに埋め込まれたサンプルである場合、サンプルの脱パラフィン化を、適切な脱パラフィン流体を使用して行うことができる。パラフィンを除去した後に、任意の数の物質を標本に順次に適用することができる。物質は、前処理(例えば、タンパク質架橋を逆転させる、細胞酸を露出させる、など)、変性、ハイブリダイゼ-ション、洗浄(例えば、厳密洗浄)、検出(例えば、視覚またはマーカー分子をプローブにリンクさせる)、増幅(例えば、タンパク質、遺伝子、などの増幅)、対比染色、カバースリップ、などのためのものであってよい。
標本処理装置は、標本に幅広い物質を適用することができる。物質は、これらに限定されるものではないが、染色剤、プローブ、試薬、すすぎ液、および/またはコンディショナを含む。物質は、流体(例えば、気体、液体、または気体/液体混合物)などであってよい。流体は、溶媒(例えば、極性溶媒、非極性溶媒、など)、溶液(例えば、水溶液または他の種類の溶液)、などであってよい。試薬として、これらに限られるわけではないが、染色剤、湿潤剤、抗体(例えば、モノクローナル抗体、ポリクロー抗原賦活化溶液、抗原回復緩衝液、など)、などを挙げることができる。プローブは、検出可能な標識またはレポータ分子に付着した単離された細胞酸または単離された合成オリゴヌクレオチドであってよい。標識として、放射性同位元素、酵素基質、補因子、リガンド、化学発光または蛍光剤、ハプテン、および酵素を挙げることができる。
標本が処理された後に、ユーザは、標本を載せたスライドを画像化装置へと運ぶことができる。いくつかの実施形態において、画像化装置は、明視野イメージャスライドスキャナである。明視野イメージャの1つは、Ventana Medical Systems,Inc.が販売しているiScan Coreoという明視野スキャナである。自動化された実施形態において、画像化装置は、「IMAGING SYSTEM AND TECHNIQUES」という名称の国際特許出願PCT/US2010/002772号(国際公開第2011/049608号)に開示され、あるいは米国特許出願公開第2014/0377753号または国際特許出願PCT/US2010/002772号に開示されているようなデジタル病理学デバイスであり、これらの開示は、参照によりその全体が本明細書に組み込まれる。
画像化システムまたは装置は、マルチスペクトル画像化(MSI)システムまたは蛍光顕微鏡システムであってよい。ここで使用されている画像化システムは、MSIである。MSIは、一般に、ピクセルレベルでの画像のスペクトル分布へのアクセスを提供することにより、コンピュータ化された顕微鏡ベースの画像化システムによる病理学的標本の分析を備える。さまざまなマルチスペクトル画像化システムが存在するが、これらのシステムのすべてに共通する動作の態様は、マルチスペクトル画像を形成する能力である。マルチスペクトル画像は、電磁スペクトルの全体のうちの特定の波長または特定のスペクトル帯域幅での画像データを取得する画像である。これらの波長を、光学フィルタによって選び出すことができ、あるいは赤外線(IR)などの可視光範囲の範囲を超える波長の電磁放射を含む所定のスペクトル成分を選択することができる他の機器の使用によって選び出すことができる。
MSIシステムは、光学画像化システムを含むことができ、その一部は、所定の数Nの離散光学帯域を定めるように調整することができるスペクトル選択システムを含む。光学システムを、光検出器へと広帯域光源によって透過にて照射される組織サンプルを画像化するように適合することができる。一実施形態においては例えば顕微鏡などの拡大システムを含むことができる光学画像化システムは、光学システムの単一の光出力におおむね空間的に整列した単一の光軸を有する。システムは、例えば画像が異なる離散スペクトル帯域で取得されることを保証するようにスペクトル選択システムが(例えば、コンピュータプロセッサで)調節または調整されているときに組織の一連の画像を形成する。装置は、取得された一連の画像からの組織の少なくとも1つの視覚的に知覚可能な画像が現れるディスプレイをさらに含むことができる。スペクトル選択システムは、回折格子などの光学分散要素、薄膜干渉フィルタなどの光学フィルタの集合、またはユーザ入力または事前にプログラムされたプロセッサのコマンドのいずれかに応答して、光源からサンプルを介して検出器へと透過する光のスペクトルからの特定の通過帯域を選択するように適合された任意の他のシステムを含むことができる。
代案の実装であるスペクトル選択システムは、N個の離散スペクトル帯域に対応するいくつかの光出力を定める。この形式のシステムは、光学システムからの透過光出力を取り込み、この光出力の少なくとも一部をN個の空間的に異なる光路に沿って空間的に向け直すことで、識別されたスペクトル帯域においてサンプルを、この識別されたスペクトル帯域に対応する光路に沿って検出器システムへと画像化する。
本明細書に記載の主題および動作の実施形態を、デジタル電子回路、あるいは本明細書に開示される構造およびそれらの構造的同等物を含むコンピュータソフトウェア、ファームウェア、またはハードウェア、あるいはこれらのうちの1つ以上からなる組み合わせにて実装することができる。本明細書に記載の主題の実施形態を、1つ以上のコンピュータプログラム、すなわちデータ処理装置による実行またはデータ処理装置の動作の制御のためにコンピュータ記憶媒体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実装することができる。本明細書で説明されるいずれのモジュールも、プロセッサによって実行されるロジックを含むことができる。「ロジック」は、本明細書で使用されるとき、プロセッサの動作に影響を与えるために適用され得る命令信号および/またはデータの形態を有する任意の情報を指す。ソフトウェアがロジックの一例である。
コンピュータ記憶媒体は、コンピュータ可読記憶装置、コンピュータ可読記憶基板、ランダムまたはシリアルアクセスメモリアレイまたは素子、あるいはこれらのうちの1つ以上からなる組み合わせであってよく、あるいはこれらに含まれてよい。さらに、コンピュータ記憶媒体は、伝搬信号ではないが、コンピュータ記憶媒体は、人工的に生成される伝搬信号に符号化されるコンピュータプログラム命令のソースまたは宛先であってよい。さらに、コンピュータ記憶媒体は、1つ以上の別個の物理的構成要素または媒体(例えば、複数のCD、ディスク、または他の記憶装置)であってよく、あるいはこれらに含まれてよい。本明細書に記載の動作を、1つ以上のコンピュータ可読記憶装置に記憶され、あるいは他のソースから受信されるデータについてデータ処理装置によって実行される動作として実施することができる。
「プログラムされたプロセッサ」という用語は、例えばプログラム可能なマイクロプロセッサ、コンピュータ、システムオンチップ、または複数のこれら、あるいはこれらの組み合わせなど、データを処理するためのあらゆる種類の装置、デバイス、およびマシンを包含する。装置は、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの特別な目的の論理回路を含むことができる。装置は、ハードウェアに加えて、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはこれらのうちの1つ以上からなる組み合わせを構成するコードなど、該当のコンピュータプログラムの実行環境を生成するコードをさらに含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティング、およびグリッドコンピューティングインフラストラクチャなど、さまざまな異なるコンピューティングモデルインフラストラクチャを実現することができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)を、コンパイラ型言語またはインタープリタ型言語、宣言型言語または手続き型言語、などのあらゆる形式のプログラミング言語で記述でき、例えばスタンドアロンのプログラム、あるいはモジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境での使用に適した他のユニットとして、あらゆる形式で展開することができる。コンピュータプログラムは、必ずしもではないが、ファイルシステム内のファイルに対応することができる。プログラムを、他のプログラムまたはデータを保持するファイルの一部に格納でき(例えば、マークアップ言語ドキュメントに保存された1つ以上のスクリプト)、該当のプログラムに専用の単一ファイルに格納でき、あるいは複数の協調されたファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部分を格納するファイル)に格納することができる。コンピュータプログラムを、1台のコンピュータ上、あるいは1つの場所に配置され、もしくは複数の場所に分散し、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。
本明細書に記載のプロセスおよび論理フローを、入力データを操作して出力を生成することによってアクションを実行するために、1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサによって実行することができる。プロセスおよび論理フローを、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの特別な目的の論理回路によって実行することもでき、装置をそのような論理回路として実装することもできる。
コンピュータプログラムの実行に適したプロセッサとして、例えば、汎用のマイクロプロセッサおよび特別な目的のためのマイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサが挙げられる。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリあるいは両方から、命令およびデータを受信する。コンピュータの本質的な要素は、命令に従ってアクションを実行するためのプロセッサ、ならびに命令およびデータを格納するための1つ以上のメモリ装置である。一般に、コンピュータは、例えば磁気ディスク、光磁気ディスク、または光ディスクなどのデータを格納するための1つ以上の大容量記憶装置をさらに含み、あるいはそのような大容量記憶装置にデータの受信またはデータの転送あるいはその両方のために動作可能に結合する。しかしながら、コンピュータは、そのような装置を有する必要はない。さらに、コンピュータを、例えば、ほんの数例を挙げると、携帯電話機、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信機、またはポータブル記憶装置(例えば、ユニバーサルシリアルバス(USB)フラッシュドライブ)など、別の装置に組み込むことができる。コンピュータプログラム命令およびデータの格納に適した装置は、例を挙げると、例えばEPROM、EEPROM、およびフラッシュメモリ素子などの半導体メモリ素子、例えば内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクなど、あらゆる形態の不揮発性メモリ、媒体、およびメモリ装置を含む。プロセッサおよびメモリを、特別な目的の論理回路によって補完することができ、あるいは特別な目的の論理回路に組み込むことができる。
ユーザとのやり取りを提供するために、本明細書に記載の主題の実施形態を、例えばLCD(液晶ディスプレイ)、LED(発光ダイオード)ディスプレイ、またはOLED(有機発光ダイオード)ディスプレイなどのユーザへと情報を表示するためのディスプレイ装置と、ユーザがコンピュータへと入力を提供することができるキーボードならびにマウスまたはトラックボールなどのポインティングデバイスとを有するコンピュータ上に実装することができる。いくつかの実装においては、情報を表示し、ユーザからの入力を受け取るために、タッチスクリーンを使用することができる。他の種類の装置を使用してユーザとの対話を提供することも可能であり、例えば、ユーザへと提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形態の感覚的フィードバックであってよく、ユーザからの入力は、音響、音声、または触覚入力などの任意の形態で受け取ることが可能である。さらに、コンピュータは、ユーザが使用する装置とドキュメントを送受信することによってユーザと対話することができ、例えば、ウェブブラウザから受信した要求に応答してユーザのクライアント装置上のWebブラウザにWebページを送信することによってユーザと対話することができる。
本明細書に記載される主題の実施形態を、例えばデータサーバとしてのバックエンドコンポーネントを含み、あるいはアプリケーションサーバなどのミドルウェアコンポーネントを含み、あるいは本明細書に記載の主題の実装とのやり取りをユーザにとって可能にするグラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータなどのフロントエンドコンポーネントを含み、あるいは1つ以上のこのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実装することができる。システムのコンポーネントを、例えば通信ネットワークなどのデジタルデータ通信の任意の形式または媒体によって相互接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(例えば、インターネット)、およびピアツーピアネットワーク(例えば、アドホックピア-ピアツーピアネットワーク)が挙げられる。例えば、図1のネットワーク20は、1つ以上のローカルエリアネットワークを含むことができる。
コンピューティングシステムは、任意の数のクライアントおよびサーバを含むことができる。クライアントとサーバとは、通常は互いに離れており、典型的には通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバの関係を有しているコンピュータプログラムによって生じる。いくつかの実施形態において、サーバは、データ(例えば、HTMLページ)をクライアント装置へと送信する(例えば、クライアント装置と対話するユーザへとデータを表示する目的およびそのようなユーザからユーザ入力を受け取る目的で)。クライアント装置において生成されたデータ(例えば、ユーザの操作の結果)を、サーバにおいてクライアント装置から受信することができる。
追加の実施形態
追加の実施形態 1.一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するためのシステムであって、(i)1つ以上のプロセッサ、および(ii)1つ以上のプロセッサに結合した1つ以上のメモリを備え、1つ以上のメモリが、1つ以上のプロセッサによって実行されたときに
a.サンプル画像内の細胞特徴を検出するように適合された畳み込みニューラルネットワークを備える訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、
b.畳み込みニューラルネットワークの1つ以上の層から細胞特徴を抽出することと、
c.抽出された細胞特徴に基づいてサンプル画像内の検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、
を含む動作をシステムに実行させるコンピュータ実行可能命令を格納する、システム。
追加の実施形態 2.訓練されたオブジェクト検出エンジンが、領域ベースの畳み込みニューラルネットワークを備える、追加の実施形態1のシステム。
追加の実施形態 3.領域ベースの畳み込みニューラルネットワークが、Fast-RCNNを含む、追加の実施形態2のシステム。
追加の実施形態 4.訓練されたオブジェクト検出エンジンが、領域提案ネットワークをさらに備える、追加の実施形態2のシステム。
追加の実施形態 5.訓練されたオブジェクト検出エンジンが、Faster-RCNNを備える、追加の実施形態4のシステム。
追加の実施形態 6.畳み込みニューラルネットワークが、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、またはDenseNetを含む、追加の実施形態1のシステム。
追加の実施形態 7.畳み込みニューラルネットワークが、深層残差ネットワークである、追加の実施形態1のシステム。
追加の実施形態 8.深層残差ネットワークが、ResNetを含む、追加の実施形態7のシステム。
追加の実施形態 9.訓練されたオブジェクト検出エンジンが、複数の訓練用画像を含むデータセットを使用して訓練された畳み込みニューラルネットワークを備え、複数の訓練用画像のうちの各々の訓練用画像が、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する、追加の実施形態1のシステム。
追加の実施形態 10.複数の訓練用画像のうちの各々の訓練用画像が、クラスラベルを備えない、追加の実施形態9のシステム。
追加の実施形態 11.複数の訓練用画像のうちの各々の訓練用画像が、いかなる病理医による注釈も含まない、追加の実施形態9のシステム。
追加の実施形態 12.複数の訓練用画像のうちの各々の訓練用画像が、少なくとも1つのクラスラベルを含む、追加の実施形態9のシステム。
追加の実施形態 13.動作が、検出された細胞を分類することをさらに含む、追加の実施形態12のシステム。
追加の実施形態 14.畳み込みニューラルネットワークが、少なくとも1つのスケーリング層を備える、追加の実施形態1のシステム。
追加の実施形態 15.少なくとも1つのスケーリング層が、サンプル画像を一定の係数でスケーリングする、追加の実施形態14のシステム。
追加の実施形態 16.検出された細胞をクラスタリングすることが、凝集型階層クラスタリングを実行することを含む、追加の実施形態1の方法。
追加の実施形態 17.サンプル画像内の細胞の1つ以上の均質なクラスタのうちの少なくとも1つに対応する1つ以上の注釈を受け取るように構成されている、追加の実施形態1のシステム。
追加の実施形態 18.動作が、受け取った注釈を使用して細胞検出および分類エンジンを訓練することをさらに含む、追加の実施形態17のシステム。
追加の実施形態 19.細胞検出および分類エンジンが、ニューラルネットワークを備える、追加の実施形態18のシステム。
追加の実施形態 20.細胞検出および分類エンジンのニューラルネットワークが、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、DenseNet、またはResNetから構成される、追加の実施形態19のシステム。
追加の実施形態 21.動作が、訓練された細胞検出および分類エンジンを使用してテスト画像内の細胞を検出することをさらに含む、追加の実施形態18のシステム。
追加の実施形態 22.動作が、スト画像内の細胞を分類することをさらに含む、追加の実施形態21のシステム。
追加の実施形態 23.テスト画像が、少なくとも1つの染色を含む、追加の実施形態21のシステム。
追加の実施形態 24.テスト画像の少なくとも1つの染色が、細胞染色である、追加の実施形態23のシステム。
追加の実施形態 25.テスト画像の少なくとも1つの染色が、膜染色である、追加の実施形態23のシステム。
追加の実施形態 26.動作が、訓練されたオブジェクト検出エンジンを受け取った注釈を使用して微調整して、微調整されたオブジェクト検出エンジンを提供することをさらに含む、追加の実施形態17のシステム。
追加の実施形態 27.動作が、微調整されたオブジェクト検出エンジンを使用して、テスト画像内の細胞を検出および/または分類することをさらに含む、追加の実施形態26のシステム。
追加の実施形態 28.1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するための命令を格納する非一時的なコンピュータ可読媒体であって、
(a)サンプル画像内の細胞特徴を検出するように適合された畳み込みニューラルネットワークを備える訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、
(b)畳み込みニューラルネットワークの1つ以上の層から細胞特徴を抽出することと、
(c)抽出された細胞特徴に基づいてサンプル画像内の前記検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと
を含む、非一時的なコンピュータ可読媒体。
追加の実施形態 29.畳み込みニューラルネットワークが、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、およびDenseNetから構成される、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 30.畳み込みニューラルネットワークが、深層残差ネットワークである、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 31.深層残差ネットワークが、ResNetから構成される、追加の実施形態30の非一時的なコンピュータ可読媒体。
追加の実施形態 32.サンプル画像内の細胞の1つ以上の均質なクラスタのうちの少なくとも1つに対応する病理医による注釈を使用して細胞検出および分類エンジンを訓練するための命令をさらに含む、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 33.訓練された細胞検出および分類エンジンを使用してテスト画像内の細胞を検出するための命令をさらに含む、追加の実施形態32の非一時的なコンピュータ可読媒体。
追加の実施形態 34.訓練されたオブジェクト検出エンジンをサンプル画像内の細胞の1つ以上の均質なクラスタのうちの少なくとも1つについて受け取った注釈を使用して微調整して、微調整されたオブジェクト検出エンジンを提供するための命令をさらに含む、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 35.微調整されたオブジェクト検出エンジンを使用してテスト画像内の細胞を検出するための命令をさらに含む、追加の実施形態34の非一時的なコンピュータ可読媒体。
追加の実施形態 36.オブジェクト検出エンジンが、1つ以上のバイオマーカーの存在について染色された生物学的標本からの複数の訓練用画像を含むデータセットを使用して訓練される、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 37.オブジェクト検出エンジンが、複数の訓練用画像を含むデータセットを使用して訓練され、複数の訓練用画像のうちの各々の訓練用画像は、クラスラベルを含まない、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 38.畳み込みニューラルネットワークが、少なくとも1つのスケーリング層を含む、追加の実施形態28の非一時的なコンピュータ可読媒体。
追加の実施形態 39.1つ以上のバイオマーカーの存在について染色された生物学的標本のテスト画像において細胞を検出する方法であって、
(a)訓練された細胞検出および分類エンジンのうちの細胞特徴を検出するように構成された畳み込みニューラルネットワークを備えている第1の部分にテスト画像を入力することによって、生物学的標本のテスト画像内の細胞特徴を決定することと、
(b)訓練された細胞検出および分類エンジンのうちの領域提案ネットワークを少なくとも備えている第2の部分にテスト画像の決定された特徴を入力することによって、決定された細胞特徴に基づいてテスト画像内の細胞を検出することと、
を含む方法。
追加の実施形態 40.テスト画像内の検出された細胞を分類することをさらに含む、追加の実施形態39の方法。
追加の実施形態 41.細胞検出および分類エンジンが、グランドトゥルースデータを使用して訓練され、グランドトゥルースデータは、サンプル画像内の細胞の1つ以上の識別された均質なクラスタに対応する病理医による注釈を含む、追加の実施形態39の方法。
追加の実施形態 42.細胞の均質なクラスタは、(i)訓練されたオブジェクト検出エンジンにサンプル画像を提供し、(ii)訓練されたオブジェクト検出エンジンを使用してサンプル画像内の細胞を検出し、(iii)訓練されたオブジェクト検出エンジン内の畳み込み層のうちの少なくとも1つから複数の細胞特徴を抽出し、(iv)抽出された細胞特徴に基づいてテスト画像内の検出された細胞をクラスタリングすることによって識別される、追加の実施形態41の方法。
追加の実施形態 43.畳み込みニューラルネットワークが、深層残差ネットワークである、追加の実施形態39の方法。
追加の実施形態 44.深層残差ネットワークが、ResNetから構成される、追加の実施形態39の方法。
追加の実施形態 45.1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別する方法であって、
a.畳み込みニューラルネットワークおよび領域提案ネットワークを備え、畳み込みニューラルネットワークは細胞特徴を識別するように構成され、領域提案ネットワークは識別された細胞特徴に基づいて細胞を検出するように構成されている訓練されたオブジェクト検出エンジンを使用して、サンプル画像内の細胞を検出することと、
b.畳み込みニューラルネットワークの1つ以上の層から識別された細胞特徴を抽出することと、
c.抽出された細胞特徴に基づいてサンプル画像内の検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、
を含む方法。
追加の実施形態 46.訓練されたオブジェクト検出エンジンが、領域ベースの畳み込みニューラルネットワークを備える、追加の実施形態45の方法。
追加の実施形態 47.領域ベースの畳み込みニューラルネットワークが、Fast-RCNNから構成される、追加の実施形態46の方法。
追加の実施形態 48.訓練されたオブジェクト検出エンジンが、領域提案ネットワークをさらに備える、追加の実施形態46の方法。
追加の実施形態 49.訓練されたオブジェクト検出エンジンが、Faster-RCNNから構成される、追加の実施形態48の方法。
追加の実施形態 50.畳み込みニューラルネットワークが、LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、およびDenseNetから構成される、追加の実施形態45の方法。
追加の実施形態 51.畳み込みニューラルネットワークが、オートエンコーダニューラルネットワークである、追加の実施形態45の方法。
追加の実施形態 52.畳み込みニューラルネットワークが、深層残差ネットワークである、追加の実施形態45の方法。
追加の実施形態 53.深層残差ネットワークが、ResNetから構成される、追加の実施形態52の方法。
追加の実施形態 54.畳み込みニューラルネットワークが、1つ以上のバイオマーカーの存在について染色された生物学的標本の複数の訓練用画像を含むデータセットを使用して訓練される、追加の実施形態45の方法。
追加の実施形態 55.複数の訓練用画像のうちの各々の訓練用画像が、クラスラベルを備えない、追加の実施形態54の方法。
追加の実施形態 56.複数の訓練用画像のうちの各々の訓練用画像が、いかなる病理医による注釈も含まない、追加の実施形態54の方法。
追加の実施形態 57.複数の訓練用画像のうちの各々の訓練用画像は、少なくとも1つのクラスラベルを含む、追加の実施形態54の方法。
追加の実施形態 58.1つ以上のバイオマーカーの存在について染色された生物学的標本のテスト画像において細胞を検出および分類する方法であって、
(a)訓練された細胞検出および分類エンジンのうちの細胞特徴を検出するように構成されたニューラルネットワークを備えている第1の部分に前記テスト画像を入力することによって、生物学的標本のテスト画像内の細胞特徴を決定することと、
(b)訓練された細胞検出および分類エンジンのうちの訓練された分類器を備えている第2の部分にテスト画像の決定された特徴を入力することによって、決定された細胞特徴に基づいてテスト画像内の細胞を検出することと、
を含む方法。
追加の実施形態 59.訓練された分類器が、サポートベクターマシンまたはランダムフォレストアンサンブル学習方法を含む、追加の実施形態58の方法。
本明細書中で言及され、さらには/あるいは出願データシートに列挙されるすべての米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許刊行物は、その全体が参照によって本明細書に組み込まれる。実施形態の態様を、必要に応じて、さまざまな特許、出願、および刊行物の考え方を採用して変更して、またさらなる実施形態を提供することができる。
本開示を、いくつかの例示的な実施形態を参照して説明してきたが、本開示の原理の精神および範囲に包含される多数の他の変更および実施形態を考え出すことが当業者にとって可能であることを、理解すべきである。より具体的には、本開示の精神から逸脱することなく、以上の開示、図面、および添付の特許請求の範囲の範囲内で、本主題の組み合わせ配置の構成部品および/または配置において、合理的な変形および変更が可能である。構成部品および/または配置の変形および変更に加えて、代替の使用法も当業者にとって明らかであろう。

Claims (27)

  1. 一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するためのシステムであって、(i)1つ以上のプロセッサ、および(ii)前記1つ以上のプロセッサに結合した1つ以上のメモリを備え、前記1つ以上のメモリが、前記1つ以上のプロセッサによって実行されたときに
    a.前記サンプル画像内の細胞特徴を検出するように適合された畳み込みニューラルネットワークを備える訓練されたオブジェクト検出エンジンを使用して、前記サンプル画像内の細胞を検出することと、
    b.前記畳み込みニューラルネットワークの1つ以上の層から細胞特徴を抽出することと、
    c.前記抽出された細胞特徴に基づいて前記サンプル画像内の前記検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、
    を含む動作を前記システムに実行させるコンピュータ実行可能命令を格納する、システム。
  2. 前記訓練されたオブジェクト検出エンジンが、Fast-RCNNまたはFaster-RCNNの一方を備える、請求項1に記載のシステム。
  3. 前記訓練されたオブジェクト検出エンジンが、領域提案ネットワークをさらに備える、請求項1に記載のシステム。
  4. 前記畳み込みニューラルネットワークが、深層残差ネットワークである、請求項1に記載のシステム。
  5. 前記訓練されたオブジェクト検出エンジンの訓練が、複数の訓練用画像を含むデータセットを使用して達成され、前記複数の訓練用画像のうちの各々の訓練用画像が、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する、請求項1~4のいずれか一項に記載のシステム。
  6. 前記複数の訓練用画像のうちの各々の訓練用画像が、いかなる病理医による注釈も含まない、請求項5に記載のシステム。
  7. 前記複数の訓練用画像のうちの各々の訓練用画像が、少なくとも1つのクラスラベルを含む、請求項5に記載のシステム。
  8. 前記畳み込みニューラルネットワークが、少なくとも1つのスケーリング層を備える、請求項1~7のいずれか一項に記載のシステム。
  9. 前記検出された細胞を前記クラスタリングすることが、凝集型階層クラスタリングを実行することを含む、請求項1~8のいずれか一項に記載のシステム。
  10. 前記動作が、前記サンプル画像内の細胞の前記1つ以上の均質なクラスタに関連付けられた1つ以上のクラスラベルを使用して細胞検出および分類エンジンを訓練することをさらに含む、請求項1~9のいずれか一項に記載のシステム。
  11. 前記細胞検出および分類エンジンが、ニューラルネットワークを備える、請求項10に記載のシステム。
  12. 前記動作が、前記訓練された細胞検出および分類エンジンを使用して少なくとも1つの染色を含んでいるテスト画像内の細胞を検出すること、および/または分類することをさらに含む、請求項10に記載のシステム。
  13. 1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別するための命令を格納する非一時的なコンピュータ可読媒体であって、
    a.第1の部分および第2の部分を備え、前記第1の部分が、前記サンプル画像内の細胞特徴を識別するように構成され、かつ前記第2の部分が、前記識別された細胞特徴に基づいて前記細胞を検出するように構成されている、訓練されたオブジェクト検出エンジンを使用して、前記サンプル画像内の細胞を検出することと、
    b.前記訓練されたオブジェクト検出エンジンの前記第1の部分の1つ以上の層から前記識別された細胞特徴の少なくとも一部を抽出することと、
    c.前記抽出された細胞特徴に基づいて前記サンプル画像内の前記検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、
    を含む、非一時的なコンピュータ可読媒体。
  14. 前記第1の部分が、畳み込みニューラルネットワークを備える、請求項13に記載の非一時的なコンピュータ可読媒体。
  15. 前記第1の部分が、深層残差ネットワークを備える、請求項13に記載の非一時的なコンピュータ可読媒体。
  16. 前記第2の部分が、領域提案ネットワークを備える、請求項13~15のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  17. 前記オブジェクト検出エンジンが、複数の訓練用画像を含むデータセットを使用して訓練され、前記複数の訓練用画像のうちの各々の訓練用画像が、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する、請求項13~16のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  18. 1つ以上のバイオマーカーの存在について染色された生物学的標本のサンプル画像内の細胞のクラスタを識別する方法であって、
    a.畳み込みニューラルネットワークおよび領域提案ネットワークを備え、前記畳み込みニューラルネットワークは細胞特徴を識別するように構成され、かつ前記領域提案ネットワークは前記識別された細胞特徴に基づいて細胞を検出するように構成されている、訓練されたオブジェクト検出エンジンを使用して、前記サンプル画像内の細胞を検出することと、
    b.前記畳み込みニューラルネットワークの1つ以上の層から前記識別された細胞特徴を抽出することと、
    c.前記抽出された細胞特徴に基づいて前記サンプル画像内の前記検出された細胞をクラスタリングして、検出された細胞の1つ以上の均質なクラスタを提供することと、
    を含む方法。
  19. 前記畳み込みニューラルネットワークが、深層残差ネットワークを備える、請求項18に記載の方法。
  20. 前記オブジェクト検出エンジンが、複数の訓練用画像を含むデータセットを使用して訓練され、前記複数の訓練用画像のうちの各々の訓練用画像は、一次染色で染色された、または1つ以上のバイオマーカーの存在について染色された生物学的標本に由来する、請求項18または19に記載の方法。
  21. 前記複数の訓練用画像のうちの各々の訓練用画像が、いかなる病理医による注釈も含まない、請求項20に記載の方法。
  22. 前記複数の訓練用画像のうちの各々の訓練用画像が、少なくとも1つのクラスラベルを含む、請求項20に記載の方法。
  23. 前記畳み込みニューラルネットワークが、少なくとも1つのスケーリング層を備える、請求項18~22のいずれか一項に記載の方法。
  24. 前記検出された細胞の前記クラスタリングが、凝集型階層クラスタリングを実行することを含む、請求項18~23のいずれか一項に記載の方法。
  25. 前記サンプル画像内の細胞の前記1つ以上の均質なクラスタに関連付けられた1つ以上のクラスラベルを使用して細胞検出および分類エンジンを訓練することをさらに含む、請求項18~24のいずれか一項に記載の方法。
  26. 前記細胞検出および分類エンジンが、ニューラルネットワークを備える、請求項25に記載の方法。
  27. 前記訓練された細胞検出および分類エンジンを使用して少なくとも1つの染色を含んでいるテスト画像内の細胞を検出すること、および/または分類することをさらに含む、請求項25に記載の方法。
JP2021520355A 2018-10-15 2019-10-10 細胞の分類のためのシステムおよび方法 Active JP7228031B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023019053A JP2023065441A (ja) 2018-10-15 2023-02-10 細胞の分類のためのシステムおよび方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862745953P 2018-10-15 2018-10-15
US62/745,953 2018-10-15
US201962830823P 2019-04-08 2019-04-08
US62/830,823 2019-04-08
PCT/US2019/055558 WO2020081343A1 (en) 2018-10-15 2019-10-10 Systems and methods for cell classification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023019053A Division JP2023065441A (ja) 2018-10-15 2023-02-10 細胞の分類のためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2022504870A true JP2022504870A (ja) 2022-01-13
JP7228031B2 JP7228031B2 (ja) 2023-02-22

Family

ID=68345080

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021520355A Active JP7228031B2 (ja) 2018-10-15 2019-10-10 細胞の分類のためのシステムおよび方法
JP2023019053A Pending JP2023065441A (ja) 2018-10-15 2023-02-10 細胞の分類のためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023019053A Pending JP2023065441A (ja) 2018-10-15 2023-02-10 細胞の分類のためのシステムおよび方法

Country Status (5)

Country Link
US (2) US11922681B2 (ja)
EP (1) EP3867803A1 (ja)
JP (2) JP7228031B2 (ja)
CN (1) CN112868024A (ja)
WO (1) WO2020081343A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112868024A (zh) * 2018-10-15 2021-05-28 文塔纳医疗系统公司 用于细胞分类的系统和方法
EP3663979A1 (en) * 2018-12-06 2020-06-10 Definiens GmbH A deep learning method for predicting patient response to a therapy
US11315251B2 (en) * 2019-04-19 2022-04-26 OptraSCAN, Inc Method of operation of an artificial intelligence-equipped specimen scanning and analysis unit to digitally scan and analyze pathological specimen slides
US20210247602A1 (en) * 2020-02-07 2021-08-12 H2Ok Innovations, Inc. Magnification scope and analysis tools
US11508481B2 (en) 2020-03-06 2022-11-22 Salesforce, Inc. Machine-learned hormone status prediction from image analysis
US20210390250A1 (en) * 2020-06-15 2021-12-16 Canon Kabushiki Kaisha Information processing apparatus
CN111652329B (zh) * 2020-08-05 2020-11-10 腾讯科技(深圳)有限公司 一种图像分类方法、装置、存储介质和电子设备
MX2023002328A (es) * 2020-08-31 2023-03-21 Bristol Myers Squibb Co Cuantificacion y evaluacion de la topologia de biomarcadores para multiples tipos de tejidos.
AU2021342349A1 (en) * 2020-09-12 2023-05-25 Medimmune Limited A scoring method for an anti-b7h4 antibody-drug conjugate therapy
US20220108442A1 (en) * 2020-10-02 2022-04-07 Leif E. Honda Identifying Morphologic, Histopathologic, and Pathologic Features with a Neural Network
US20220108097A1 (en) * 2020-10-05 2022-04-07 Rakuten, Inc. Dual encoder attention u-net
FR3115386A1 (fr) * 2020-10-20 2022-04-22 Biomerieux Procédé de classification d’une image d’entrée représentant une particule dans un échantillon
JP2023550929A (ja) * 2020-11-19 2023-12-06 ソニーグループ株式会社 フレキシブルな画像ベースの粒子ソーティングのための分類ワークフロー
WO2022115100A1 (en) * 2020-11-25 2022-06-02 Hewlett-Packard Development Company, L.P. Identifying anomaly location
WO2022132917A1 (en) * 2020-12-15 2022-06-23 Carnegie Mellon University System, method, and computer program product for classification of diseases based on expansion microscopic images
CN114723652A (zh) * 2021-01-04 2022-07-08 富泰华工业(深圳)有限公司 细胞密度确定方法、装置、电子设备及存储介质
EP4120119A1 (en) * 2021-07-12 2023-01-18 Leibniz-Institut für Virologie Quantifying and analyzing organoids from digital images
WO2023105547A1 (ja) * 2021-12-06 2023-06-15 日本電気株式会社 分類装置、分類方法、及びプログラム
US20240062514A1 (en) * 2022-08-19 2024-02-22 X Development Llc Diversity quantification
WO2024081150A1 (en) * 2022-10-10 2024-04-18 Ventana Medical Systems, Inc. Expression-level prediction for biomarkers in digital pathology images
WO2024100670A1 (en) * 2022-11-10 2024-05-16 Nucleai Ltd. System and method for multiplex imaging cell typing and phenotypic marker quantification
CN115908943A (zh) * 2022-12-16 2023-04-04 合肥本源量子计算科技有限责任公司 图像分类方法、装置、电子设备及计算机可读存储介质
CN116189179B (zh) * 2023-04-28 2023-08-15 北京航空航天大学杭州创新研究院 循环肿瘤细胞扫描分析设备
CN116758072B (zh) * 2023-08-17 2023-12-22 苏州熠品质量技术服务有限公司 一种基于Faster-RCNN的细胞识别计数方法、装置及计算机存储介质
CN117497064A (zh) * 2023-12-04 2024-02-02 电子科技大学 基于半监督学习的单细胞三维基因组数据分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180286040A1 (en) * 2017-04-04 2018-10-04 Konica Minolta, Inc. Image processing apparatus, image processing method, and computer-readable non-transitory recording medium storing image processing program

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5595707A (en) 1990-03-02 1997-01-21 Ventana Medical Systems, Inc. Automated biological reaction apparatus
EP2284543A3 (en) 1998-02-27 2015-05-27 Ventana Medical Systems, Inc. System and method of aspirating and dispensing reagent
US6582962B1 (en) 1998-02-27 2003-06-24 Ventana Medical Systems, Inc. Automated molecular pathology apparatus having independent slide heaters
US20030211630A1 (en) 1998-02-27 2003-11-13 Ventana Medical Systems, Inc. Automated molecular pathology apparatus having independent slide heaters
US6625585B1 (en) 2000-02-18 2003-09-23 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery though multi-domain agglomerative clustering
US7760927B2 (en) 2003-09-10 2010-07-20 Bioimagene, Inc. Method and system for digital image based tissue independent simultaneous nucleus cytoplasm and membrane quantitation
CN102687061B (zh) 2009-10-19 2014-12-10 文塔纳医疗系统公司 成像系统和技术
WO2013113707A1 (en) 2012-02-01 2013-08-08 Ventana Medical Systems, Inc. System for detecting genes in tissue samples
US11211167B2 (en) 2012-12-28 2021-12-28 Ventana Medical Systems, Inc. Image analysis for breast cancer prognosis
AU2014230809B2 (en) 2013-03-14 2019-05-02 Ventana Medical Systems, Inc. Whole slide image registration and cross-image annotation devices, systems and methods
AU2014230824B2 (en) 2013-03-15 2019-04-18 Ventana Medical Systems, Inc. Tissue object-based machine learning system for automated scoring of digital whole slides
US9411632B2 (en) 2013-05-30 2016-08-09 Qualcomm Incorporated Parallel method for agglomerative clustering of non-stationary data
CA2909913C (en) 2013-06-03 2019-04-16 Ventana Medical Systems, Inc. Image adaptive physiologically plausible color separation
EP3550514B1 (en) 2014-02-21 2020-11-25 Ventana Medical Systems, Inc. Group sparsity model for image unmixing
EP3108446B1 (en) 2014-02-21 2019-03-20 Ventana Medical Systems, Inc. Medical image analysis for identifying biomarker-positive tumor cells
EP3175389B1 (en) 2014-07-28 2024-05-15 Ventana Medical Systems, Inc. Automatic glandular and tubule detection in histological grading of breast cancer
US9678779B2 (en) 2014-07-31 2017-06-13 Cavium, Inc. Method and an apparatus for co-processor data plane virtualization
JP6800152B2 (ja) 2014-11-10 2020-12-16 ベンタナ メディカル システムズ, インコーポレイテッド 組織学画像中の核の分類
EP3227833A1 (en) 2014-12-03 2017-10-11 Ventana Medical Systems, Inc. Systems and methods for early-stage cancer prognosis
WO2016120442A1 (en) 2015-01-30 2016-08-04 Ventana Medical Systems, Inc. Foreground segmentation and nucleus ranking for scoring dual ish images
US10162878B2 (en) 2015-05-21 2018-12-25 Tibco Software Inc. System and method for agglomerative clustering
WO2017093524A1 (en) 2015-12-04 2017-06-08 Ventana Medical Systems, Inc. Devices, systems and methods for automated quantitative scoring of digitized tissue images
CN108292369A (zh) 2015-12-10 2018-07-17 英特尔公司 使用深度学习属性来进行视觉识别
US20180268292A1 (en) 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
US11074285B2 (en) 2017-05-10 2021-07-27 Yva.Ai, Inc. Recursive agglomerative clustering of time-structured communications
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
US10607119B2 (en) 2017-09-06 2020-03-31 Kla-Tencor Corp. Unified neural network for defect detection and classification
CN112868024A (zh) * 2018-10-15 2021-05-28 文塔纳医疗系统公司 用于细胞分类的系统和方法
US10769198B1 (en) * 2020-02-06 2020-09-08 Caastle, Inc. Systems and methods for product identification using image analysis from image mask and trained neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180286040A1 (en) * 2017-04-04 2018-10-04 Konica Minolta, Inc. Image processing apparatus, image processing method, and computer-readable non-transitory recording medium storing image processing program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WAHAB NOORUL ET AL.: "Two-phase deep convolutional neural network for reducing class skewness in histopathological images", COMPUTERS IN BIOLOGY AND MEDICINE, vol. 85, JPN6022029991, 18 April 2017 (2017-04-18), ISSN: 0004829267 *
ZHAOWEI CAI ET AL.: "A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection", COMPUTER VISION, ECCV 2016, JPN6022029992, 31 December 2016 (2016-12-31), ISSN: 0004829268 *

Also Published As

Publication number Publication date
US20240161485A1 (en) 2024-05-16
US11922681B2 (en) 2024-03-05
WO2020081343A1 (en) 2020-04-23
US20210216746A1 (en) 2021-07-15
JP7228031B2 (ja) 2023-02-22
JP2023065441A (ja) 2023-05-12
EP3867803A1 (en) 2021-08-25
CN112868024A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
JP7228031B2 (ja) 細胞の分類のためのシステムおよび方法
US11682192B2 (en) Deep-learning systems and methods for joint cell and region classification in biological images
JP7231631B2 (ja) 腫瘍空間異質性およびインターマーカ異質性の計算方法
US11842483B2 (en) Systems for cell shape estimation
CN111448569B (zh) 存储和检索数字病理学分析结果的方法
JP2020530613A (ja) 画像処理のための自動アッセイ評価および正規化
US11972859B2 (en) Computational pathology approach for retrospective analysis of tissue-based companion diagnostic driven clinical trial studies
EP3218843A1 (en) Classifying nuclei in histology images
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
US11959848B2 (en) Method of storing and retrieving digital pathology analysis results

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230210

R150 Certificate of patent or registration of utility model

Ref document number: 7228031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150