JP2022538866A - 画像前処理のためのシステム及び方法 - Google Patents

画像前処理のためのシステム及び方法 Download PDF

Info

Publication number
JP2022538866A
JP2022538866A JP2021577279A JP2021577279A JP2022538866A JP 2022538866 A JP2022538866 A JP 2022538866A JP 2021577279 A JP2021577279 A JP 2021577279A JP 2021577279 A JP2021577279 A JP 2021577279A JP 2022538866 A JP2022538866 A JP 2022538866A
Authority
JP
Japan
Prior art keywords
tile
image
tiles
neural network
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021577279A
Other languages
English (en)
Inventor
ジル ワンリブ
ピエール クールシオル
オリヴィエ モワンドロ
シャルリエ サイヤール
シャルル モーシオン
ブノワ シュモーシュ
Original Assignee
オウキン インコーポレイテッド
オウキン フランス ソシエテ パル アクシオン サンプリフィエ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オウキン インコーポレイテッド, オウキン フランス ソシエテ パル アクシオン サンプリフィエ filed Critical オウキン インコーポレイテッド
Publication of JP2022538866A publication Critical patent/JP2022538866A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

画像を分類するデバイスの方法及び装置について説明する。例示的な実施形態では、デバイスが、第1の畳み込みニューラルネットワークを適用することにより、分類に役立つ情報を含む関心領域と背景領域とに画像をセグメント化する。また、デバイスは、関心領域をタイルセットにタイル化する。デバイスは、各タイルについて、第2の畳み込みニューラルネットワークを適用することによってそのタイルの特徴ベクトルを抽出し、特徴ベクトルの特徴はタイルの局所記述子を表す。さらに、デバイスは、タイルセットの抽出された特徴ベクトルを処理して画像を分類する。【選択図】図5

Description

〔関連出願〕
本出願は、2019年6月25日に出願された欧州特許出願第19305840.1号に対する優先権を主張するものである。上記優先出願は、その内容全体が引用により本明細書に組み入れられる。
病理組織学的画像解析(histopathological image analysis)(HIA)は、多くの医学領域において、特に現在この種の画像解析が絶対的基準指標(gold standard metric)を定める腫瘍学において重要な診断要素である。最近の研究では、最新の機械学習(ML)の発展を利用して病理学者らの疾患検出作業を支援しようと模索されているが、これらの技術の大半は、訓練データとして局所的アノテーションマスクを必要とする。病理学者らは、病変組織のピクセル単位のセグメンテーションマップを超解像度で構築するために時間を費やさなければならないため、これらの局所的アノテーションの取得には本来の診断よりもコストがかかる。従って、アノテーションを含むHIAデータセットはサイズが非常に限られている。また、このような局所的アノテーションは、新たな疾患サブタイプ分類、予後推定、薬剤反応予測などの新たなHIAの問題に直面した時には利用できない場合がある。HIAにとっての重要な問題は、局所的アノテーションを使用せずに正確な分類(classification)を行う学習アーキテクチャを設計できるのか、という点である。優れた技術であれば、解析中に病理学者らを支援するアルゴリズムを訓練できるはずであり、これまで知られていなかった構造及び関心領域を識別するために使用することもできる。
実際に、病理組織学は、腫瘍及びその他の疾患における絶対的診断である一方で非常にコストがかかり、1つの診断を下すために病理学者らが何時間にもわたって集中する必要がある。また、疾患によっては、病理学者らが正しい診断のために数百万個もの細胞の中から数個の細胞を識別する必要があるため、これらの作業は「干し草の中から針を探し出す」ようなものである。病理組織学における誤診率は、病理学者らによる誤診の自己申告に加えて対象の疾患及び組織にも依存するため、明確な数字を得ることが困難である。しかしながら、癌診断における偽陰性は、患者に破滅的結末をもたらすだけでなく、病理学者にとっても大きな財務リスクとなる。病理学者らが最も疑わしい部位に注意と労力を集中する支援を行うことができるツールがあれば、より正確な診断を通じて偽陰性を減少させて患者転帰を改善するのに役立つことができる。医学研究者らは何十年にもわたってコンピュータ支援診断に目を向けてきたが、計算リソース及びデータの不足がこのようなツールの幅広い実装及び使用を妨げてきた。1990年代に自動デジタル全スライド画像(automated digital whole slide image)(WSI)撮影法が登場して以来、研究者らは、画像処理アルゴリズムを通じて病理学者らの作業負荷を緩和するとともに患者予後を改善する手法を模索してきた。これらの手順の多くは、最終診断を予測するのではなく、細胞数カウント又はWSI内の疑わしい領域の検出のためのセグメンテーションに焦点を当てたものであった。過去の方法は、k近傍法又はサポートベクターマシンを介した分類の前に、手作りのテクスチャ又は形態学的特徴をk平均クラスタリング法又はその他の次元縮小法などの教師なし技術と共に使用することに重点を置いていた。
過去10年の間、深層学習の実りある発展によって画像処理タスクの自動化に関する研究が爆発的に増加した。このような高度な機械学習(ML)技術を画像タスクに適用することは、多くの消費者向けアプリケーションでは成功しているが、医用画像の分野におけるこのような手法の採用はより緩やかである。しかしながら、これらの技術は、HIAの分野では大きな望みを示している。具体的に言えば、WSIを用いたデジタル病理学では、高度な訓練を受けた熟練の病理学者らが、調製されて染色された組織試料からデジタル的に取り込まれた顕微鏡画像を確認した上で診断を行う。デジタルWSIは、複数のズームレベルで取り込まれた画像から成る膨大なデータセットである。WSIは、最も高い倍率では両次元で10万ピクセルを超えるデジタル解像度を有することができる。しかしながら、局所的アノテーションの取得が非常に困難であるため、データセットはWSIレベルの診断ラベルしか含まないことがあり、弱教師付き学習のカテゴリに該当する。
画像を分類するデバイスの方法及び装置について説明する。例示的な実施形態では、デバイスが、第1の畳み込みニューラルネットワークを適用することによって、画像を、分類に役立つ情報を含む関心領域(region of interest)と、背景領域とにセグメント化(segment)する。また、デバイスは、関心領域をタイルセット(set of tiles)にタイル化する(tile)。各タイルについて、第2の畳み込みニューラルネットワークを適用することによってそのタイルの特徴ベクトルを抽出する。さらに、デバイスは、タイルセットの抽出された特徴ベクトルを処理して画像を分類する。
さらなる実施形態では、デバイスが、画像の分類と相関する画像の対象領域を抽出する。この実施形態では、デバイスが、前記画像の関心領域を第1のタイルセットにタイル化する。さらに、デバイスは、各タイルについて、畳み込みニューラルネットワークを適用することによってそのタイルの特徴ベクトルを抽出し、特徴ベクトルの特徴はタイルの局所記述子(local descriptors)を表し、抽出された特徴ベクトルから、画像の分類に対するタイルの寄与を表すタイルのスコアを計算する。また、デバイスは、各タイルについて、所与の特性を検証するスコアを有する少なくとも1つの他のタイルを選択し、第1のタイルセットにおけるタイルスコアの高スコアと低スコアとの間のスコアを有する第2のタイルセットであるとともに、距離メトリック(distance metric)に従って少なくとも1つの他のタイルに視覚的に近接している比較対象領域(comparison target region)を抽出する。
さらに別の実施形態では、デバイスが分類モデルを生成する。この実施形態では、デバイスが、それぞれが関連する既知の分類を有する訓練画像セット(training set of images)を受け取る。さらに、デバイスは、訓練画像セット内の各訓練画像について、第1の畳み込みニューラルネットワークを適用することによって、訓練画像の複数の特徴ベクトルを抽出し、複数の特徴ベクトルの各特徴はその画像の局所記述子を表す。また、デバイスは、少なくとも抽出された特徴ベクトル及び関連する既知の分類を使用して分類モデルを訓練する。
その他の方法及び装置についても説明する。
同様の参照記号が同様の要素を示す添付図面の図に、限定ではなく一例として本発明を示す。
分類モデルを使用して画像を前処理することによって画像を分類するシステムの一実施形態のブロック図である。 訓練画像セットを使用して分類モデルを訓練するシステムの一実施形態のブロック図である。 画像を前処理して分類するプロセスの一実施形態のフロー図である。 タイルセットにタイル化された画像を分類するプロセスの一実施形態のフロー図である。 病理組織学的画像を分類する分類システムの図である。 分類モデルを訓練して検証するプロセスの一実施形態のフロー図である。 分類モデルを検証するプロセスの一実施形態のフロー図である。 画像から比較対象領域を抽出するプロセスの一実施形態のフロー図である。 分類モデル及びローカルアノテーションを使用して画像を分類するシステムの一実施形態のブロック図である。 分類モデル及びローカルアノテーションを使用して画像を分類するプロセスの一実施形態のフロー図である。 本明細書で説明する実施形態と共に使用できる典型的なコンピュータシステムの一例を示す図である。
画像を分類するデバイスの方法及び装置について説明する。以下の説明では、本発明の実施形態を完全に説明できるように数多くの具体的な詳細を示す。しかしながら、当業者には、これらの具体的な詳細を伴わずに本発明の実施形態を実施できることが明らかであろう。場合によっては、本説明の理解が曖昧にならないように、周知のコンポーネント、構造及び技術については詳細に示していない。
本明細書における「1つの実施形態」又は「ある実施形態」についての言及は、実施形態に関連して説明する特定の特徴、構造又は特性を本発明の少なくとも1つの実施形態に含めることができることを意味する。本明細書の様々な箇所で見られる「1つの実施形態では」という表現は、必ずしも全てが同じ実施形態を示すものではない。
以下の説明及び特許請求の範囲では、「結合された(coupled)」及び「接続された(connected)」という用語をその派生語と共に使用していることがある。これらの用語は、互いに同義語として意図するものではないと理解されたい。「結合された」は、互いに直接物理的又は電気的に接触していることも又はそうでないこともある2又は3以上の要素が互いに協働又は相互作用することを示すために使用するものである。「接続された」は、互いに結合している2又は3以上の要素間における通信の確立を示すために使用するものである。
以下の図に示すプロセスは、ハードウェア(例えば、回路、専用ロジックなど)、(汎用コンピュータシステム又は専用機械上で実行されるような)ソフトウェア、又はこれらの両方の組み合わせを含む処理ロジックによって実行される。以下では、いくつかの連続動作の観点からプロセスを説明しているが、説明する動作の一部は異なる順序で実行することもできると理解されたい。さらに、一部の動作は順にではなく並行して実行することもできる。
「サーバ」、「クライアント」及び「デバイス」という用語は、サーバ、クライアント及び/又はデバイスの特定のフォームファクタを具体的に示すものではなく、データ処理システムを一般的に示すように意図するものである。
上述したように、病理組織学的画像解析は、画像を解析できる前に専門家による局所的アノテーションに依拠することができ、これには時間及び手間がかかる。この問題を解決するために、ローカルアノテーションを使用することなく、画像処理パイプラインを使用して画像を解析することができる。1つの実施形態では、ローカルアノテーションが、画像の一部に適用されて画像全体には適用されないメタデータ(例えば、テキスト、マーキング、番号、及び/又は別のタイプのメタデータ)である。例えば、1つの実施形態では、ローカルアノテーションを、組織画像などの画像内の関心領域のマーキングとすることができる。例示的なローカルアノテーションは、例えば画像の腫瘍領域、画像の間質領域、画像内の細胞タイプの識別、画像内の複数の細胞で構成された生物学的構造の識別などの、画像の一部を概説又は別様に識別するマーキングを含む。対照的に、本明細書で言及する「グローバルアノテーション」は、画像全体に適用されるメタデータを意味する。例示的なグローバルアノテーションは、画像全体を識別するラベル、画像がどのように取得されたかに関するデータ、例えば画像の取得元である被験者の年齢、性別、診断結果などを示すラベルなどの、画像の取得元である被験者の特徴を識別するラベル、及び/又は画像全体に適用されるその他のデータを含む。いくつかの実施形態では、グローバルアノテーションが、画像の取得元である被験者に存在すると分かっている又は理解されている腫瘍の存在、タイプ、悪性度又はステージを示すことができる。他の実施形態では、グローバルアノテーションが、画像の取得元である被験者の生存期間(例えば、画像内に表される試料取得後の生存期間)又は所定の治療に対する反応などの既知の特性を示すことができる。本明細書で説明するいくつかの実施形態では、ローカルアノテーションが存在しない場合、グローバルアノテーションを含む画像を使用することができる。
パイプラインは、最初に大型画像(例えば、WSI)を224×224ピクセル画像などの小型画像に細分化し、この画像の関心領域を検出し、大津の手法(Otsu’s method)を使用して分類を実行することに基づく。従って、この分類は、計算コストが大幅に低い小型画像に対して作用する。これらの小型画像をResNet畳み込みニューラルネットワークに供給して、各小型画像から、この小型画像の局所記述子である特徴ベクトルを抽出する。抽出された特徴ベクトルから、ローカルなタイルレベル(インスタンス)記述子として各小型画像のスコアを計算する。最上位及び最下位のインスタンスを多層パーセプトロン(Multi-Layer Perceptron)(MLP)への入力として使用して、これらに対する分類を行う。この解決策は良好な結果をもたらすが、その全体的な効率性にはまだ改善の余地がある。
上記パイプラインを改善して画像を分類するデバイスの方法及び装置について説明する。1つの実施形態では、デバイスが、1又は2以上のニューラルネットワークモデルを使用して画像を分類し、この画像のラベルを決定する。この実施形態では、画像を、ニューラルネットワークモデルを単独で使用して画像全体を処理することが計算上非現実的である大型画像とすることができる。とりわけ、デバイスは、これらの大型画像に対して画像分類タスクを実行するのに必要な計算リソースの量(例えば、時間及び/又はメモリ要件)を低減する。このようなリソースの低減は、画像分類タスクを実行する際のデバイスの性能をさらに向上させる。また、デバイスは、機械学習モデルを訓練するために一般に使用されるグラフィックスプロセッシングユニットのメモリに収まりきらないほど大きな画像であっても全スライド画像を分類することができる。
さらなる実施形態では、デバイスがデータの次元性(dimensionality)を低減し、従ってより良好な一般化誤差をもたらし、モデル精度の面で効率性が高い。
1つの実施形態によれば、デバイスは、第1の畳み込みニューラルネットワークを適用することによって、分類に役立つ情報を含む少なくとも1つの関心領域と、分類に役立つ情報を含まない少なくとも1つの背景領域との間で画像をセグメント化することによって少なくとも1つの入力画像を分類する。さらに、デバイスは、画像の少なくとも1つの関心領域をタイルセットにタイル化する。また、デバイスは、第2の畳み込みニューラルネットワークを適用することによって各タイルの特徴ベクトルを抽出し、これらの特徴はタイルの局所記述子である。さらに、デバイスは、抽出されたタイルの特徴ベクトルを処理して画像を分類する。1つの実施形態では、デバイスが、入力画像をセグメント化することによって少ない数のタイルを処理し、画像全体の処理を回避することができる。
1つの実施形態では、第1の畳み込みネットワークが、入力画像のピクセルを(a)関心領域及び(b)背景領域という2つのカテゴリの一方に分類するセマンティックセグメンテーションニューラルネットワークである。さらに、タイル化は、固定タイル化グリッド(fixed tiling grid)を画像に適用することによって、前記タイルが所定のサイズを有するように実行することができる。また、取得されたタイルには、少なくとも1つのズームレベル(level of zoom)を適用することができる。例えば、1つの実施形態では、タイルに複数のズームレベルを適用して、異なるズームレベルのタイルを組み合わせることができる。また、デバイスは、タイルセットが一定数のタイルを含むように、タイルを任意にランダムにサンプリングし、及び/又はタイルセットにブランクタイルをパディングすることができる。
さらなる実施形態では、第2の畳み込みニューラルネットワークを、ResNet50残差ニューラルネットワーク、又は前の層を出力として使用して最後の層を除去したResNet101残差ニューラルネットワークなどの、残差ニューラルネットワーク(residual neural network)、又はVGGニューラルネットワークとすることができる。この第2の畳み込みニューラルネットワークは、このニューラルネットワークを訓練するために大規模画像データベース及び計算リソースを有する必要なく最先端の高度なニューラルネットワークの使用を可能にする事前訓練されたニューラルネットワークとすることができる。
1つの実施形態では、デバイスが、抽出された特徴ベクトルからタイルの少なくとも1つのスコアを計算することができ、各タイルのスコアは、画像の分類に対するタイルの寄与を表す。デバイスは、これらのタイルスコアを使用してタイルスコアのセットをソートし、ソートされたセット内の値及び/又はランクに基づいてタイルスコアのサブセットを選択し、保持されたタイルスコアに分類器を適用して画像を分類することができる。デバイスは、この分類を複数の入力画像にさらに適用することができ、この場合、デバイスは、異なる入力画像から対応するタイルのグループを集約することができる。
別の実施形態では、デバイスが、隣接するタイルのクラスタを集約することもできる。この実施形態では、タイルのクラスタを集約することが、クラスタのタイルを連結し、所与の基準に従ってクラスタから単一のタイルを選択し、クラスタを多次元オブジェクトとして使用し、或いは平均又は最大プーリング演算などによって値を集約することを含むことができる。また、デバイスは、抽出された特徴ベクトルにオートエンコーダを適用して特徴の次元性を低減することができる。1つの実施形態では、画像を病理組織学的スライドとし、関心領域を組織領域とし、画像の分類を診断分類とすることができる。
別の実施形態では、スライドの領域における腫瘍の存在などのローカルアノテーションが利用可能である場合、ハイブリッド技術を使用してこれらのアノテーションを考慮することができる。これを行うために、デバイスは、(1)各タイル上の巨視的特性の存在(例えば、腫瘍又は他のタイプの巨視的特性の存在)のローカル予測、及びグローバルラベルセットの予測という2つの同時タスクのために機械学習モデルを訓練することができる。デバイス(又は複数のデバイス)は、一方では上述した分類システムを含む複雑なアーキテクチャを使用して128個の特徴セットを処理することができる。デバイスは、他方では畳み込みニューラルネットワークを適用して、N個のタイルの特徴をN*128個の特徴ベクトルに変換する。デバイスは、このベクトルに基づいて、各タイルについて腫瘍(又は他の巨視的特性)の有無を予測するように畳み込みニューラルネットワークを訓練する。デバイスは、予測の出力及びN*128個の特徴ベクトルの両方を採用し、これらの2つのベクトルの連結に重み付きプーリング演算を適用して、入力画像の128個の特徴ベクトルを取得することができる。デバイスは、分類モデルの出力と取得された128個の特徴とを連結し、このベクトルに基づいて、その画像のグローバルラベルセット(例えば、生存率、腫瘍サイズ、壊死及び/又は他のタイプの予測)を予測しようと試みる。モデルの損失は、グローバル予測及びローカル予測の両方を含む。この実施形態では、ローカルアノテーションに由来する情報を計算フローに追加することによって、全体的なモデルの性能を高めることができる。
図1は、前処理モデル及び分類モデルを使用して画像を前処理して分類することによって画像を分類するシステムの一実施形態のブロック図である。図1では、システム100が、分類デバイス108に結合された前処理デバイス(preprocessing device)102に結合されたクライアント118を含む。1つの実施形態では、前処理デバイス102及び分類デバイス108が入力画像を受け取り、(1又は複数の)前処理モデル106及び(1又は複数の)分類モデル(classifying model)112を使用して画像分類を出力する。この実施形態では、画像分類を、異なるラベル、ある数字範囲から選択された数字、及び/又は他のタイプの分類、のうちの1つとすることができる。
1つの実施形態では、クライアント118、前処理デバイス102及び分類デバイス108の各々を、パーソナルコンピュータ、ラップトップ、サーバ、モバイルデバイス(例えば、スマートフォン、ラップトップ、携帯情報端末、音楽再生デバイス、ゲームデバイスなど)、及び/又は画像を処理できるいずれかのデバイスとすることができる。1つの実施形態では、クライアント118、前処理デバイス102及び/又は分類デバイス108の各々を、個別に物理デバイス又は仮想デバイスとすることができる。1つの実施形態では、クライアント118を、画像から患者の予後を決定したいと望む医療従事者などのユーザが画像の分類を決定するために使用する装置とすることができる。1つの実施形態では、画像を、ギガバイト又はそれを上回るオーダーの大型画像とすることができる。例えば、1つの実施形態では、画像を、数ギガバイト又はそれを上回るオーダーとすることができる病理組織学的スライド(例えば、WSI)のデジタル画像とすることができる。1つの実施形態では、画像が病理組織学的スライドであるが、別の実施形態では、画像を別のタイプの画像(例えば、衛星画像、天文画像、風力タービン画像、別のタイプの医用画像、及び/又は他のいずれかのタイプの大型画像)とすることもできる。
さらなる実施形態では、前処理デバイス102が、画像を関心領域及び背景領域にセグメント化する。この実施形態では、入力画像から関心領域を抽出することによって、入力画像を分類するために必要な計算量を低減することができる。例えば、1つの実施形態では、病理組織学的スライド(又は他のタイプの画像)が、組織をほとんど又は全く含まない画像の(1又は複数の)空き領域を含むことができるので、スライドの領域がいずれかの組織を含むかどうかを評価するためにいわゆる「組織検出」法又は「異物検出」法を導入することが有用である。より一般的には、大型画像を分類することが目的である場合、このことは、画像内の関心領域を識別してこれらを背景領域と区別することに関連する。これらの関心領域は、分類プロセスのための貴重な情報を含む画像の領域である。また、背景領域は、貴重な情報をほとんど又は全く含まない画像の領域であり、目下のタスクのためのノイズとみなすことができる。画像セグメンテーションについては、以下の図3でさらに説明する。
1つの実施形態では、前処理デバイス102が、セグメント画像を使用して画像をタイル化することができる。この実施形態では、タイル化が、画像を画像サブセットのグループに分割するプロセスである。画像サブセットは、固定サイズとすることも、又は可変サイズとすることもできる。また、タイル化は、上述した画像セグメンテーションから生成される関心領域に基づくことができる。タイル化については、以下の図3でさらに説明する。
さらなる実施形態では、前処理デバイス102が、畳み込みニューラルネットワークを使用して画像の特徴を決定する。この実施形態では、前処理デバイス102が、タイルセット内の各タイルの特徴ベクトルを計算する。これらの特徴ベクトルを使用して分類器によって画像を分類することができる。特徴の決定については、以下の図3でさらに説明する。1つの実施形態では、前処理デバイス102が、1又は2以上の前処理モデル106を使用して前処理デバイス102の機能を実行する前処理モジュール104を含む。
1つの実施形態では、前処理デバイス102が、タイルセット及び特徴ベクトルを分類デバイス108に送信することができ、分類デバイス108は、タイルセット、特徴ベクトル及び分類モデル112を使用して入力画像114を分類する。この実施形態では、分類デバイス108が、タイルセット内の各タイルのタイルスコアを計算し、タイルセットをソートし、タイルセットからタイルのサブセットを選択する。分類デバイス112は、タイルのサブセットを使用してタイルのサブセットから画像を分類し、画像分類114を出力する。1つの実施形態では、画像分類がクライアント118に送信される。別の実施形態では、画像分類114を(場合によっては入力画像と共に)リポジトリに保存することができ、クライアントは入力画像116及び/又は画像分類114を取り出すことができる。タイルを使用した画像の分類については、以下の図3でさらに説明する。1つの実施形態では、前処理デバイス102又は分類デバイス108のいずれかの機能を他の装置が実行することができ、或いは1つの装置が前処理デバイス102及び分類デバイス108の機能を実行することもできる。1つの実施形態では、分類デバイス108が、1又は2以上の分類モデル112を使用して分類デバイス108の機能を実行する分類モジュール110を含む。
図1で説明したように、クライアントは、前処理デバイス102及び/又は分類デバイス108を使用して画像を前処理して分類する。1つの実施形態では、既知の特性を有する入力画像セットを使用して前処理モデル106及び/又は分類モデル112の各々を訓練することができる。例えば、1つの実施形態では、入力画像セットと各入力画像の既知のラベルセットとを使用して分類モデル112を訓練することができる。さらに、入力画像セットは、画像セグメンテーションモデルを訓練するために使用できる情報を含むこともできる。
図2は、訓練画像セット216を使用して分類モデルを訓練するシステム200の一実施形態のブロック図である。図2では、システム200が、訓練デバイス206に結合された前処理デバイス202を含む。1つの実施形態では、前処理デバイス202が画像訓練セット216を受け取って、画像訓練セット216内の各画像の特徴ベクトルセットを生成する。訓練デバイス208は、この特徴ベクトルセットを受け取り、画像訓練セット216に関連する入力ラベル212を使用して分類モデル214を訓練することができる。この訓練については、以下の図6でさらに説明する。
上述したように、前処理モデル102及び分類デバイス108は、画像を前処理して分類することができる。図3は、画像を前処理して分類するプロセス300の一実施形態のフロー図である。1つの実施形態では、前処理デバイス102及び/又は分類デバイスのいずれかがプロセス300の機能を実行する。図3では、プロセス300が、ブロック302において画像、(1又は複数の)モデル及びその他の入力を受け取ることによって開始する。1つの実施形態では、入力画像を、病理組織学的画像、衛星画像、天文画像、風力タービン画像、別のタイプの医用画像、及び/又は他のいずれかのタイプの大型画像とすることができる。この実施形態では、モデルが、画像の前処理及び/又は分類に使用できる1又は2以上のモデルである。例えば、1つの実施形態では、モデルが、画像をセグメント化するために使用される画像セグメンテーションモデルと、画像を分類するために使用される分類モデルとを含むことができる。さらに、他の入力は、プロセス300によって使用される重み及びその他の入力パラメータを含むことができる。
プロセス300は、ブロック304においてこの入力画像をセグメント化する。1つの実施形態では、プロセス300が、入力画像を関心領域及び背景領域にセグメント化する。この実施形態では、プロセス300が、画像をセグメント化することによって入力画像の関心領域を抽出することができる。この実施形態では、入力画像から関心領域を抽出することで、入力画像を分類するのに必要な計算量を低減することができる。例えば、1つの実施形態では、病理組織学的スライド(又は他のタイプの画像)が、組織をほとんど又は全く含まない画像の(1又は複数の)空き領域を含むことができ、従ってスライドの領域がいずれかの組織を含むかどうかを評価するためにいわゆる「組織検出」法又は「異物検出」法を導入することが有用である。より一般的には、大型画像を分類することが目的である場合、このことは、画像内の関心領域を識別してこれらを背景領域と区別することに関連する。これらの関心領域は、分類プロセスのための貴重な情報を含む画像の領域であり、背景領域は、貴重な情報をほとんど又は全く含まない画像の領域であり、目下のタスクのためのノイズとみなすことができる。このタスクを実現するために、様々な異なるタイプの画像セグメンテーションスキームを使用することができる。例えば、1つの実施形態では、画像の強度ヒストグラムに基づく単純な閾値法である大津の手法を使用して画像をセグメント化することができる。この実施形態では、画像が、例えば前景ピクセル及び背景ピクセル、或いはより具体的には組織及び非組織などの二峰性分布に従う2つのクラスのピクセルを含む場合に、大津の手法を使用して画像をセグメント化することによってかなり良好な結果が示された。しかしながら、この方法は、強度レベルのヒストグラムが二峰性分布を有すると仮定できない場合、複雑な画像に対しては上手く実行されないことが分かっている。このため、方法の全体的効率性を高めるために、よりロバストな手法を使用することが必要とされる。
別の実施形態では、画像セグメンテーションのロバスト性を高めて複雑な画像に対処できるようにするために、U-NETセマンティックセグメンテーションニューラルネットワーク、SegNet、DeepLab又は別のタイプのセマンティックセグメンテーションニューラルネットワークなどのセマンティックセグメンテーションニューラルネットワークを使用して画像をセグメント化することができる。この実施形態では、強度ヒストグラムの特定の分布に依存しないセマンティックセグメンテーションニューラルネットワークを使用することができる。さらに、このようなニューラルネットワークを使用すると、RGB画像などのマルチチャンネル画像を考慮した画像セグメンテーションが可能になる。従って、セグメンテーションは、ピクセル強度のヒストグラムのみに依存するのではなく、画像のセマンティクスを活用することもできる。1つの実施形態では、セマンティックセグメンテーションニューラルネットワークが、組織を背景からセグメント化して、例えば染色組織又は未染色組織を背景から区別するように訓練される。別の実施形態では、セマンティックセグメンテーションニューラルネットワークを、異なるタイプの画像についてそのタイプの画像の前景を背景から区別するように訓練することができる。
さらなる実施形態では、画像セグメンテーションステップの計算コストを下げるために、オリジナル画像をダウンサンプリングすることができる。以下でさらに説明するように、1つの実施形態では、画像解析の一部が(画像のサブセクションである)タイルレベルで実行され、画像のダウンサンプリングバージョンに対してセマンティックセグメンテーションを使用してもセグメンテーションの品質が低下しない。これにより、セグメンテーションの品質を実際に低下させることなくダウンサンプリング画像を使用することができる。この結果、オリジナルの最大解像度画像でのセグメンテーションマスクを取得するには、ニューラルネットワークによって生成されたセグメンテーションマスクを単純にアップスケーリングすればよい。
別の実施形態では、U-NETセグメンテーションニューラルネットワークを使用する別の利点として、このネットワークタイプが生物医学的画像セグメンテーションのために開発されたものであり、従って非常に高い次元性の小規模データセットを有することという生物医学的データの通常の制約に適合する点が挙げられる。実際に、U-NETセグメンテーションニューラルネットワークは訓練すべきパラメータが少ないモデルであり、少ない訓練例で訓練することができる。さらに、別の実施形態では、訓練データに対してデータ補強技術を使用すると、このアーキテクチャでは同じ訓練セットからより多くの訓練例を得られることを可能にする非常に良好な結果を得ることができる。
プロセス300は、ブロック306において画像を画像タイルセットにタイル化する。1つの実施形態では、プロセス300が、タイル化を使用して画像を前処理する能力を高める。例えば、1つの実施形態では、病理組織学的解析では全スライド画像のサイズが大きいため、タイル化法を使用することが有用である。さらに広く見れば、病理組織学的スライド画像又は衛星画像などの特殊な画像、或いはその他のタイプの大型画像を取り扱う際には、これらの分野で使用されるイメージセンサの解像度が、センサに関連するランダムアクセスメモリの容量と同じぐらいに素早く成長することがある。この大きな画像サイズでは、コンピュータのランダムアクセスメモリ内に画像群を保存することが困難であり、場合によっては1つの画像を保存することさえも困難である。これらの大型画像をグラフィックプロセッシングユニット(GPU)の専用メモリに保存しようと試みる場合には、この困難性がさらに悪化する。この状況では、画像スライド又は他のいずれかの同様のサイズの画像を全体的に処理することが計算的に解決困難になる。
1つの実施形態では、プロセス300が画像(又は関心領域)をタイル化するにより、オリジナル画像(又は関心領域)をタイルと呼ばれる管理が容易な小型画像に分割することによってこの課題に対処する。1つの実施形態では、全スライド画像に固定グリッドを適用し、セグメンテーション法によって生成されたセグメンテーションマスクを使用し、後の分類プロセスのために組織又は他のいずれかの種類の関心領域を含むタイルを選択することによってタイル化動作が実行される。さらには、処理すべきタイルの数を減少させるために、一定数のスライドのみを保持するランダムサブサンプリングなどのさらなる選択法を使用することができる。
例えば、1つの実施形態では、プロセス300が、関心領域を(例えば、各タイルが224×224ピクセルのサイズを有する)固定サイズのタイルに分割する。或いは、タイルサイズはこれより小さく又は大きくすることもできる。この例では、生成されるタイルの数が検出された異物のサイズに依存し、数百個のタイルから50,000個又はそれを上回る数のタイルまで変動することができる。1つの実施形態では、タイルの数が、少なくとも計算時間及びメモリ要件に基づいて設定できる固定数(例えば、10、000タイル)に制限される。
また、プロセス300は、グリッドによって生成されたタイルにズームレベルを適用することができ、ここでは全てのタイルが同じ寸法を有するようにズーム動作が適合される。ズームの選択は、詳細とコンテキストとの間のトレードオフであり、ズームレベルを高くすれば、プロセス300がタイル内のより詳細な情報を抽出できるのに対し、ズームレベルを低くすれば、選択領域のコンテキストが保持される。プロセス300は、複数のズームレベルから恩恵を受けるために複数のズームレベルでタイルを抽出して、モデルが所与のスライドからより多くの情報を抽出できるようにする。これらの複数のズームレベルは、同じ中心位置を有する異なるズームレベルの複数のタイルを連結することによって組み合わせることができる。
プロセス300は、ブロック308においてタイルセットから特徴ベクトルを抽出する。1つの実施形態では、特徴抽出が、入力画像から形成されたタイルから情報的かつ非冗長であるように意図された派生値を構築して後続の学習及び一般化ステップを容易にすることを目的とする。1つの実施形態では、抽出される特徴が、局所記述子とも呼ばれる数値ベクトルの形態である。
1つの実施形態では、プロセス300が、ResNetベースのアーキテクチャ(ResNet-50、ResNet-101、ResNetXなど)、Visual Geometry Group(VGG)ニューラルネットワーク、Inceptionニューラルネットワーク、教師なしの特徴抽出のためのオートエンコーダ、タスクのために特別に設計されたカスタムメイドニューラルネットワーク、或いはSIFT又はCellProfilerなどの非ニューラルネットワーク特徴抽出器などのいずれかの特徴抽出ニューラルネットワークを使用することができる。さらに、使用される特徴抽出ニューラルネットワークは、大規模データセットについて訓練されたものであるため最適な一般化精度を有するという理由で、事前学習済みのものとすることができる。
1つの実施形態では、プロセス300が、過度に多くの計算リソースを必要とすることなく画像解析に十分に適した特徴を提供できるという理由でResNet-50ニューラルネットワークを使用する。例えば、1つの実施形態では、ResNet-50を病理組織学的画像解析に使用することができる。この例では、層の数が多くなりすぎると単純な畳み込みニューラルネットワークのアーキテクチャの精度が最悪になってしまうため、ResNet-50ニューラルネットワークが、ニューラルネットワークをより深くしてさらに精度を高めることができる残差ブロックに依拠する。1つの実施形態では、データセットImageNetが真に汎用の画像データセットであるという理由で、ResNet-50ニューラルネットワークの重みを、データセットImageNetについての事前訓練からの特徴抽出に使用される重みとすることができる。1つの実施形態では、大規模な独立した画像データセットについて事前訓練されたニューラルネットワークを使用すると、たとえ病理組織学的画像(又は他のタイプの画像)のように入力画像が特殊なものである場合でも、画像の種類とは関係なく良好な特徴が得られる。この実施形態では、プロセス300が、ResNet-50畳み込みニューラルネットワークを使用してタイル当たり2,048個の特徴を抽出する。プロセス300は、例えば10,000個のタイルを抽出した場合、2,048×10,000のマトリクスを生成する。さらに、プロセス300は、入力としての多くの画像と共に実行されている場合、画像数×特徴/タイル数×タイル数の次元を有するテンソルを生成する。
1つの実施形態では、プロセス300が、所与のスライドの特徴を抽出するために、選択されたタイルの各々を、そのタイルの特徴ベクトルを出力するResNet-50ニューラルネットワークを通過するように処理する。この実施形態では、特徴ベクトルを次元2048のベクトルとすることができる。また、プロセス300は、特徴ベクトルにオートエンコーダを適用してさらに次元低減を行い、例えば特徴ベクトルの次元を256(又は別の次元)に低減することができる。1つの実施形態では、機械学習モデルが過剰適合の影響を受けやすい場合にオートエンコーダを使用することができる。例えば、1つの実施形態では、プロセス300が、2,048の長さの特徴ベクトルを512の長さの特徴ベクトルに低減することができる。この例では、プロセス300が、(512ニューロンの)単一の隠れ層アーキテクチャを含むオートエンコーダを任意に使用することができる。これにより、モデルが訓練データセット内の複数の特異な特徴を発見することによって過剰適合することが防がれるとともに、計算時間及び必要なメモリも削減される。1つの実施形態では、分類モデルが画像タイルの小サブセットについて訓練され、例えば(合計411,400個のタイルのうちの)各スライドからランダムに選択された200個のタイルについて訓練される。
プロセス300は、最小数の特徴を導出するために、任意に特徴ベクトルに対してゼロパディング動作(zero-padding operation)を実行することができる。この実施形態では、プロセス300が、特徴ベクトルの数が特徴ベクトルの最小数を下回っている場合にゼロパディングを実行して、画像の特徴ベクトルセットに特徴ベクトルを追加することができる。この実施形態では、各ゼロパディングされた特徴ベクトルがヌル値を有する。
プロセス300は、ブロック310において各タイルにスコア付けする。1つの実施形態では、プロセス300が、接続されたニューラルネットワークのいずれかを使用して、各特徴ベクトルを1又は2以上のスコアに変換する。1つの実施形態では、プロセス300が、全結合ニューラルネットワーク(fully connected neural network)を使用して特徴ベクトルを単一のスコアに変換し、或いは様々なスコアを出力する1つの全結合ニューラルネットワーク又はそれぞれが異なるスコアを出力する複数の全結合ニューラルネットワークを使用して、タイルの様々な特性を表す複数のスコアに変換することができる。1つのタイルに関連するこれらのスコアはソートされ、タイルのサブセットが画像分類のために選択される。1つの実施形態では、このタイルのサブセットを、上位R個のスコア及び下位R個のスコアを有するタイル、上位R個のスコアを有するタイル、下位R個のスコアを有するタイル、及び/又はこれらのスコアのいずれかの重み付けされた組み合わせとすることができる。最後に、これらのスコアは、画像分類のための入力とみなすことができる画像スコアベクトルに連結される。
例えば、1つの実施形態では、プロセス300が、畳み込み1D層を使用して各タイルのスコアを作成することができる。上述した2,048の長さの特徴ベクトルを有する例では、この畳み込み層が、このスコアを取得するためにタイルの全ての2,048個の特徴間の加重和を実行し、この和の重みがモデルによって学習される。さらに、プロセス300は、ゼロのバイアスを有する畳み込み1D層を使用するので、ゼロパディングタイルはゼロのスコアを有し、従ってゼロパディングタイルは、それぞれ全く情報をもたらさないタイルの参照である。プロセス300は、最高及び最低のRスコアを選別し、これらを後述する分類のための入力として使用する。このアーキテクチャは、予測を行うためにどのタイルが使用されるか、従ってプロセス300がどのように結果を予測するかを確実にする。タイルスコアリングについては、以下の図4でさらに説明する。
プロセス300は、ブロック312において、タイルスコアを使用して画像を分類して画像の1又は2以上のグローバルラベルを予測する。1つの実施形態では、プロセス300が、所望の分類を提供する高密度多層ニューラルネットワーク(dense multilayer neural network)への入力として画像スコアベクトルを使用する。この分類は、分類器への入力として与えられたデータにラベルを関連付けるいずれかのタスクとすることができる。1つの実施形態では、病理組織学的スライド画像入力のために訓練された分類器を使用すると、前記入力データがパイプライン全体によって導出されるため、分類器は、法外な計算コストになる恐れがある全画像を処理する必要なく、入力として与えられた病理組織学的スライド又は他のいずれかの種類の画像にラベル付けすることができる。例えば、1つの実施形態では、これらのラベルを、所与の病状の予後を表す二値、生存率予測又は対治療反応予測などのスコア、確率又は物理量の予測を表す数値ラベル、及び/又は上述したようなスカラーラベル、又は構造化された情報を表すこのようなラベルのベクトル、マトリックス又はテンソルなどのいずれかの種類のラベルとすることができる。例えば、1つの実施形態では、プロセス300が、中皮腫の病理組織学的入力画像の分類として連続リスクスコアを出力し、これを使用して被験者の推定生存期間を決定することができる。この例では、個々の被験者の推定生存期間を決定するために、既知の生存期間の複数の中皮腫被験者から導出された同様のリスクスコアに対して異なる被験者の異なる連続出力スコアをプロットすることができる。1つの実施形態では、プロセス300が、シグモイド活性化を含む200ニューロン及び100ニューロンの2つの全結合層を有する多層パーセプトロン(MLP)を使用する。この実施形態では、MLPが、タイルスコアを(1又は複数の)ラベルに変換する予測アルゴリズムのコアとして使用される。1つの実施形態では、プロセス300が画像の単一のラベル(例えば、リスクスコア)を予測し、別の実施形態では、プロセス300が画像の複数のグローバルラベルを予測することができる。1つの実施形態では、プロセス300が、マルチタスク学習を実行して複数のグローバルラベルを予測することができる。例えば、1つの実施形態では、分類モデル(例えば、MLP及び/又は他の箇所で説明する他のモデル)を、マルチタスク学習設定において同時に複数のラベル(例えば、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死、及び/又は他のタイプの予測)を予測するように訓練することができる。
図3から分かるように、画像は、ニューラルネットワークから生成された画像タイル特徴ベクトルから導出される少なくともタイルスコアセットに基づいて分類することができる。図4は、タイルセットにタイル化された画像にスコア付けするプロセス400の一実施形態のフロー図である。1つの実施形態では、プロセス300のブロック310などにおけるプロセスが、画像にスコア付けするプロセス400を実行する。図4では、プロセス400が、ブロック402においてタイルセットを受け取ることによって開始する。1つの実施形態では、このタイルセットが、図3のブロック306で生成されたタイルセットである。また、タイルセットは、タイルセット内の各タイルの特徴ベクトルを含む。プロセス400は、ブロック404において、各タイルの関連する特徴ベクトルを使用して各タイルのタイルスコアを計算する。例えば、1つの実施形態では、プロセス400が、畳み込み1D層を使用して各タイルのスコアを作成することができる。上述した2,048の長さの特徴ベクトルを有する例では、この畳み込み層が、このスコアを取得するためにタイルの全ての2,048個の特徴間の加重和を実行し、この和の重みがモデルによって学習される。さらに、畳み込み1D層は不偏的であるため、ゼロパディングタイルはゼロのスコアを有し、従って全く情報をもたらさないタイルの参照である。
プロセス400は、ブロック406においてタイルセットをソートする。1つの実施形態では、プロセス400が、以下のブロック408の上位R個及び/又は下位R個のスコアを決定するためにタイルセットをソートする。プロセス400は、ブロック408においてタイルのサブセットを選択し、このタイルのサブセットは後の分類ステップに使用される。1つの実施形態では、このタイルのサブセットを、上位Rtop個の最高スコア及び下位Rbottom個の最低スコア、上位Rtop個の最高スコア、下位Rbottom個の最低スコア、及び/又はこれらのスコアのいずれかの重み付き結合(weighted combination)を含むタイルとすることができる。1つの実施形態では、Rtop及び/又はRbottomの値の範囲が同じであることも、又は異なることもできる。また、Rtop及び/又はRbottomの範囲は、静的数値範囲(例えば、10、20、100、又は他の何らかの数値)、範囲に適合したもの、パーセンテージ、ラベル(例えば、小さい、大きい、又は他の何らかのラベル)、ユーザインターフェイスコンポーネント(スライダ、ユーザ入力、及び/又は別のタイプのユーザインターフェイスコンポーネント)を介して設定されたもの、及び/又は他の何らかの値であることができる。また、1つの実施形態では、プロセス400が、これらのスコアを、画像分類のための入力とみなすことができる画像スコアベクトルに連結する。
1つの実施形態では、病理組織学のホールスライド画像(又はスライド)を検討する際に、様々な染色で、同じ試料の様々な場所で、複数の臓器から、又は様々な時点で撮影された複数のスライドに患者(又は被験者)を関連付けることができる。この実施形態では、1人の患者からのスライドを複数の方法で集約することができる。1つの実施形態では、プロセス300が、通常のスライドと同一又は同様の方法(セグメンテーション、タイル化、特徴抽出及び分類)で処理されるより大きなスライドを形成するためにスライドを連結することができる。
さらなる実施形態では、プロセス300が、複数のスライドを3次元画像として取り扱うことができる。このことは、スライドが同じ組織の複数の連続スライスである場合にとりわけ有用である。この場合、所与のスライドセットから最大限の情報を得るために、特徴抽出ステップに3D畳み込みニューラルネットワーク(CNN)を使用することができる。さらに、セグメンテーション、タイル化及び特徴抽出ステップを複数のスライドに適用し、分類器使用の入力次元と一致するように一定数の特徴のみを保持することにより、選択される特徴を、例えば各タイルのN個の最大特徴及びM個の最小特徴とすることができる。この手法は、組み立てられる複数のスライドが同じスライドのバッチではあるが様々な染色を使用している場合に特に適している。
別の実施形態では、プロセス300が、画像上又は特徴上で計算された距離メトリックに従って近くのタイルをクラスタリングし、これらの関連する特徴ベクトルの平均、最大値又は加重和を計算することによって特徴ベクトルを集約することができる。これにより、プロセス300は、多数のタイル(例えば10,000タイル)から開始してこれらを少数のクラスタ(例えば200)に集約することによって問題の次元性を大幅に低減することができ、これによって計算時間が減少するだけでなく過剰適合も減少して、モデルに与えられる一般化誤差が良好になる。具体的に言えば、集約すべきタイルを選択するための良好な距離メトリックは、例えばスライド上の1mm2のパッチに含まれる全てのタイルを集約する全スライド画像におけるユークリッド距離である。
別の実施形態では、スライドが、特徴抽出ステップを適用すべき、従って分類器に特徴を供給すべきタイルを抽出するのに十分な有用な組織を含んでいないこともある。この場合、分類器の入力はゼロパディングされ、すなわち欠けているタイル毎に、特徴抽出器によって計算された実際の特徴にゼロのみから成る特徴が追加される。
上述したように、1つの画像分類例は、病理組織学的画像を分類するためのものである。この例では、計算されるラベルが、入力された病理組織学的スライド画像に基づく患者の予測値である。図5は、病理組織学的画像分類のための分類システム500の説明図である。図5では、分類システム500が、タイル化機能502と、タイルサンプリング機能504と、特徴抽出機能506と、タイルスコアリング機能508と、タイルソート機能510と、分類(ここでは生存率予測)機能512とを含む。1つの実施形態では、タイル化機能502が全スライド画像514を受け取って前処理済みタイルセット516を出力する。この実施形態では、画像のタイル数を10,000タイルのオーダーとすることができる。さらなる実施形態では、画像のタイル数をこれより多く又は少なくすることもできる。1つの実施形態では、計算の複雑性を抑えるために、分類システム500が、ニューラルネットワーク計算において使用されるタイル518の数を減少させるようにタイル504をサンプリングする。1つの実施形態では、分類システム500が、タイル504をランダムに又は他の何らかのタイプのサンプリング機構でサンプリングする。例えば、1つの実施形態では、分類システム500が、タイル504をランダムにサンプリングして、タイルの数を10、000タイルのオーダーから数千タイル(例えば、3000タイル)のオーダーまで減少させる。
1つの実施形態では、分類システム500が、サンプリングされたタイルに対して特徴抽出機能506を実行する。この実施形態では、分類システム500が、局所記述子の行列520をもたらす畳み込みニューラルネットワークを使用して(例えば、ResNet-50、又は上述した別のタイプの特徴抽出機構を使用して)、サンプリングされたタイル上の特徴を抽出する。さらに、1つの実施形態では、分類システム500が、少なくともタイル特徴ベクトル508に基づいてタイルにスコア付け(522)する。この実施形態では、分類システム500が、1D畳み込みニューラルネットワークを使用して各画像タイルのスコアを生成する。分類システム500は、タイルスコア510をさらにソートし、ソートされたタイルは、予測生存率512を生成するためにMLPリグレッサによって使用される。1つの実施形態では、分類システム500によって実行されるこれらの機能の各々が、図3で上述した機能と同一又は同様のものである。
1つの実施形態では、調査員がタイルの選択を使用して、画像内のパターンと、画像に関連する、又は画像に関連するエンティティ(例えば、患者、衛星画像又は風力タービン画像の被写体など)に関連する、関連するグローバルラベルとの間の相関関係を決定することができる。この実施形態では、調査員が、特定のタイプの画像について、既知の(又は未知の)ラベルを有する画像から選択されたタイルを再検討して相関関係を決定することができる。例えば、1つの実施形態では、調査者が、プロセス300によって処理された病理組織学的画像から選択されたタイルを再検討し、選択されたタイルと生存期間を示す対応する画像ラベル又はその他の対応するデータとを比較して、生存期間と選択されたタイルによって示される病理組織学的画像特徴との間の傾向を発見し又は相関させることができる。
上述したように、1つの実施形態では、この方法を病理組織学的画像解析において使用されるように示しており、このタスクは病理学者の疾患検出タスクを支援することができる。一方で、プロセス300及び/又は400は、画像全体に対して分類器を実行することが計算的に解決困難ないずれかのタイプの画像処理問題に適合することもできる。このような使用事例の1つは、例えば衛星画像からの高解像度を分類するためのものである。この例では、セマンティックセグメンテーションニューラルネットワーク及び分類器(例えば、MLPリグレッサ及び/又は(1又は複数の)他のモデル)が高解像度衛星画像を分類するように訓練される。
上述したように、プロセス300は、(1又は複数の)訓練モデルを使用して各入力画像の(1又は複数の)ラベルを決定する。1つの実施形態では、プロセス300が、画像セグメンテーション、畳み込みニューラルネットワークのスコアリング、及び分類のために訓練モデルを使用する。この実施形態では、これらの訓練モデルの各々が、特定のカテゴリの画像(例えば、病理組織学的画像スライド、衛星画像、及び/又は他のタイプの画像カテゴリ)のために訓練される。さらなる実施形態では、図3で使用されるモデルの一部がエンドツーエンドで訓練され、これらのモデルが共に訓練される。この実施形態では、画像を分類するために使用されるMLP、及びタイルにスコア付けするために使用される1次元畳み込みニューラルネットワークなどの、図3で使用されるモデルの一部を共に訓練することができる。また、図3で使用される他のモデルは、異なる訓練セット(例えば、ResNetモデル、U-NET、及び/又は他のタイプのモデル)について別個に訓練することもできる。図6は、分類モデルを訓練して検証するプロセス600の一実施形態のフロー図である。1つの実施形態では、分類モデルが、図3で説明した分類プロセスに使用される1又は2以上の個別モデル(例えば、MLP及び/又は1次元畳み込みニューラルネットワーク)を含むことができる。図6では、プロセス600が、ブロック602において訓練画像セットを受け取ることによって開始する。1つの実施形態では、訓練画像セットが、特定のカテゴリの画像の分類モデル(及び/又はプロセス300において使用される他のモデル)を訓練するために使用される。例えば、1つの実施形態では、画像セットを、癌などの特定のタイプの疾患に関連してラベル付けされた病理組織学的スライド画像とすることができる。プロセス600は、ブロック604においてモデルを受け取る。1つの実施形態では、このモデルが、MLPモデル及び上述した(1又は複数の)他のモデルなどの分類モデルである。
プロセス600は、処理ループ(ブロック606~610)を実行して、訓練画像セットの特徴ベクトルセットを生成する。プロセス600は、ブロック608において訓練セット内の画像の特徴ベクトルを抽出する。1つの実施形態では、プロセス600が、図3で上述したように特徴ベクトルを抽出する。例えば、1つの実施形態では、プロセス600が、図3で上述したように、ResNet-50畳み込みニューラルネットワークを使用して、タイル化されたセグメント画像の各タイルの特徴ベクトルを決定する。1つの実施形態では、プロセス600が、訓練画像の特徴ベクトルセットを生成する。また、プロセス600は、方法の訓練中にデータ拡張(data augmentation)を実行して一般化誤差を改善することができる。このデータ拡張は、回転、並進、クロッピング、画像へのノイズ追加、特定の色の強度変更、コントラスト変更などの様々な変換をタイルに適用することによって行うことができる。プロセスループは610において終了する。
プロセス600は、ブロック612において、訓練画像セットの抽出された特徴ベクトル及び訓練画像セットの入力ラベルを使用して(1又は複数の)モデルを訓練する。1つの実施形態では、プロセス600が、訓練画像セットのラベルを使用して1次元畳み込みニューラルネットワーク及びMLP分類モデルを共に訓練する。この実施形態では、プロセス600が、訓練画像のスコアセットを計算し、ラベルを予測し、予測されたラベルと入力ラベルとの間の差分を決定し、差分に基づいて(1又は複数の)モデルを最適化する(例えば、(1又は複数の)モデルの新たな重みを計算する)ことによって、差分が閾値内になるまで(1又は複数の)モデルを反復的に訓練する。1つの実施形態では、プロセス600が、画像の単一のラベル(例えば、リスクスコア)を予測するようにモデルを訓練するが、別の実施形態では、プロセス600を、画像の複数のグローバルラベルを予測するように訓練することもできる。1つの実施形態では、プロセス600を、マルチタスク学習を実行して複数のグローバルラベルを予測するように訓練することができる。例えば、1つの実施形態では、分類モデル(例えば、MLP及び/又は他の箇所で説明した他の(1又は複数の)モデル)を、マルチタスク学習設定において同時に複数のラベル(例えば、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死、及び/又は他のタイプの予測)を予測するように訓練することができる。プロセス600は、訓練の妥当性を判定するために、ブロック614において分類モデルを検証する。検証については図7でさらに説明する。
図6では、プロセス600が、画像を分類するために使用される分類モデルを訓練した。分類モデルがどれほど良好であるかについては、訓練画像セットを入力として使用して分類モデルを検証し、1又は2以上のラベルを計算することによってチェックすることができる。図7は、分類モデルを検証するプロセスの一実施形態のフロー図である。図7では、プロセス700が、ブロック702において検証画像セット(validation image set)を受け取ることによって開始する。1つの実施形態では、検証画像セットが訓練セットと同じものである。別の実施形態では、検証セットが訓練画像セットと異なることができる。例えば、実施形態では、特定のタイプの画像(例えば、特定の疾患の病理組織)のラベル付けされた画像セットが、モデルの訓練において使用できるように選択されたいくつかの画像、及び訓練モデルの検証に使用できるこのセットの他の画像を有することができる。プロセス700は、ブロック704において、検証画像セットを分類するために使用されるモデルを受け取る。1つの実施形態では、このモデルが、MLPモデル及び/又は他の箇所で説明した他の(1又は複数の)モデルなどの分類モデルである。
プロセス700は、処理ループ(ブロック706~714)を実行して検証画像セットの画像ラベルセットを生成する。プロセス700は、ブロック708において、検証画像セット内の画像の特徴ベクトルを抽出する。1つの実施形態では、プロセス700が、図3で上述したように特徴ベクトルを抽出する。例えば、1つの実施形態では、プロセス700が、図3で上述したように、ResNet-50畳み込みニューラルネットワークを使用して、タイル化されたセグメント画像の各タイルの特徴ベクトルを決定する。1つの実施形態では、プロセスが、検証画像セットの特徴ベクトルセットを生成する。プロセス700は、ブロック710において、特徴ベクトルセットを使用して検証画像セットのスコアセットを生成する。1つの実施形態では、プロセス700が、図4で上述したように畳み込み1D層を使用して画像のスコアセットを生成して各タイルのスコアを作成する。この実施形態では、プロセス700が画像のタイルのサブセットを選択し、このタイルのサブセットがタイルスコアを生成するために使用される。さらに、プロセス700は、ブロック712において、訓練された分類モデルを使用して各画像を分類する。1つの実施形態では、プロセス700が、シグモイド活性化を含む200ニューロン及び100ニューロンの2つの全結合層を有する多層パーセプトロン(MLP)を使用して検証画像セットの画像を分類する。プロセスループは716において終了する。
プロセス700は、検証画像セットの分類を使用して、生成された分類と検証画像セット内の画像の既知の分類とを比較して、この種の画像セットに使用される(1又は複数の)モデルの精度を決定することができる。1つの実施形態では、ラベル間の差分又は距離を比較するいずれかのタイプのメトリックを使用することができる。例えば、1つの実施形態では、予測タスクがバイナリタスクである場合、プロセス700が、受信者操作特性曲線(receiver operating characteristic curve)(ROC-AUC)下面積を使用して、生成された分類と検証画像セット内の画像の既知の分類との間の比較を決定することができる。別の実施形態では、バイナリラベルが不均衡である場合、プロセス700が、精度リコール曲線(precision recall curve)(PR-AUC)下面積を使用して、生成された分類と検証画像セット内の画像の既知の分類との間の比較を決定することができる。別の実施形態では、生存率を予測する場合、プロセス700が、コンコーダンスインデックス(concordance index)(c-index)を使用して、データ点の予測されるリスク順と既知の順序との間の比較を決定することができる。
前処理デバイス102及び/又は分類デバイス108は、図1で上述したように画像のラベルを予測することに加えて、その画像のタイルスコアに基づいて画像の比較対象領域をさらに抽出することができる。この実施形態では、最小又は最大スコアを有する1又は2以上のタイルと同様の(例えば、視覚的に同様の)タイルが存在することができるので、この比較対象領域は、図3で説明したような関心領域とは異なる。例えば、1つの実施形態では、比較対象領域のタイルを、平均スコア(例えば、その画像の計算されたタイルスコアの最小又は最大スコアではないスコア)を有していて最大又は最小スコアのタイルからのタイルに類似するタイルとすることができる。図8は、画像から比較対象領域を抽出するプロセス800の一実施形態のフロー図である。図8では、プロセス800が、ブロック802において画像及び(1又は複数の)モデルを受け取ることによって開始する。1つの実施形態では、画像が、(1又は複数の)モデルによって分類できる画像(例えば、病理組織学的画像、衛星画像など)であり、(1又は複数の)モデルは比較対象領域を選択するために使用される。この実施形態では、モデルが、図3で上述したように画像をセグメント化し、特徴ベクトルを抽出し、及び/又は特徴ベクトルにスコア付けするために使用されるモデルを含むことができる。プロセス800は、ブロック804において画像をセグメント化する。1つの実施形態では、プロセス800が、図3のブロック304で説明したように画像をセグメント化する。プロセス800は、ブロック806において画像をタイル化する。1つの実施形態では、プロセス800が、図3のブロック306で説明したように画像をタイル化する。プロセス800は、ブロック808において画像の特徴ベクトルを抽出する。1つの実施形態では、プロセス800が、図3のブロック308で説明したように各画像タイルの特徴ベクトルを抽出する。プロセス800は、ブロック810において、抽出された特徴ベクトルを使用して画像タイルにスコア付けする。1つの実施形態では、プロセス800が、図3のブロック310で説明したように画像タイルにスコア付けする。処理ループはブロック812において終了する。
プロセス800は、ブロック814において、少なくともタイルスコアを使用して画像タイルを選択する。1つの実施形態では、このタイルが比較対象領域を決定するために使用される。1つの実施形態では、プロセス800が、少なくともタイルスコアとタイルスコアのランクとに基づいてタイルを選択する。この実施形態では、プロセス800が、スコアの上位数(Rtop)及び/又は下位数(Rbottom)を選択することができる。1つの実施形態では、Rtop及びRbottomが最高及び最低のタイルスコアを表す。1つの実施形態では、Rtop及び/又はRbottomの値の範囲が同じであることも又は異なることもできる。また、Rtop及び/又はRbottomの範囲は、静的数値範囲(例えば、10、20、100、又は他の何らかの数値)、範囲に適合したもの、パーセンテージ、ラベル(例えば、小さい、大きい、又は他の何らかのラベル)、ユーザインターフェイスコンポーネント(スライダ、ユーザ入力、及び/又は別のタイプのユーザインターフェイスコンポーネント)を介して設定されたもの、及び/又は他の何らかの値であることができる。或いは、プロセス800は、タイルスコアの第1の閾値を上回る又は第2の閾値タイルスコアを下回る1又は2以上のタイルのセットを選択することができ、第1の閾値は同じであることも又は異なることもできる。さらなる実施形態では、プロセス800が、少なくとも対応するタイルスコアから導出された確率に基づいて1又は2以上のタイルをランダムに選択する。この実施形態では、少なくとも対応するタイルスコアから導出された確率に基づくランダム選択を使用することで外れタイルスコアを有するタイルの選択が可能になるということが、上位N個又は下位N個のタイルスコアを有するタイルを厳密に選択するのではなく、より高いスコア又は低いスコアを有するタイルを選択する確率が高くなることを意味する。
プロセス800は、ブロック816において比較対象領域を抽出する。1つの実施形態では、プロセス800が、上記ブロック814からの選択された(1又は複数の)タイルを使用して、平均スコアを有する選択された(1又は複数の)タイルに関連する、距離メトリックに従って選択されたタイルのうちの少なくとも1つに視覚的に近い比較対象領域を抽出する。例えば、1つの実施形態では、2つのタイル間の視覚的近接性(visual proximity)を評価するためにプロセス800が使用する距離メトリックを、2つのタイルの抽出された特徴上で計算されるL2ノルム、及び/又はこれら2つのタイル上で計算されるL2ノルムとすることができる。
上述したように、分類及びタイル選択に使用されるモデルは、専門家(例えば、病理学者)によって行われる画像のローカルアノテーションを必要とせず又は使用しない。別の実施形態では、画像内にローカルアノテーションが存在する場合、これらのローカルアノテーションを使用して(1又は複数の)モデルの予測的使用を改善することができる。従って、1つの実施形態では、スライドの領域における腫瘍の存在などのローカルアノテーションが利用可能である場合、ハイブリッド技術を使用してこれらのアノテーションを考慮することができる。これを行うために、デバイスは、(1)各タイル上の巨視的特性の存在(例えば、腫瘍又は他のタイプの巨視的特性の存在)のローカル予測、及びグローバルラベルセットの予測という2つの同時タスクのために機械学習モデルを訓練することができる。デバイス(又は複数のデバイス)は、一方では図3で上述した分類システムを含む複雑なアーキテクチャを使用して128個の特徴セットを処理することができる。デバイスは、他方では畳み込みニューラルネットワークを適用して、N個のタイルの特徴をN*128個の特徴ベクトルに変換する。デバイスは、このベクトルに基づいて、各タイルについて腫瘍の有無などのローカルアノテーション情報を予測するように畳み込みニューラルネットワークを訓練する。デバイスは、予測の出力及びN*128個の特徴ベクトルの両方を採用し、これらの2つのベクトルの連結に重み付きプーリング演算を適用して、入力画像の128個の特徴ベクトルを取得することができる。デバイスは、分類モデルの出力と取得された128個の特徴とを連結し、このベクトルに基づいて、その画像のグローバルラベルセット(例えば、生存率、腫瘍サイズ、壊死及び/又は他のタイプの予測)を予測しようと試みる。モデルの損失は、グローバル予測及びローカル予測の両方を含む。この実施形態では、ローカルアノテーションに由来する情報を計算フローに追加することによって、全体的なモデルの性能を高めることができる。
図9は、分類モデル及びローカルアノテーションを使用して画像を分類するシステム900の一実施形態のブロック図である。図9では、システム900が、スライドレベル処理932及びタイルレベル処理930の両方を使用することができる。1つの実施形態では、タイルレベル処理932が、システム900全体のグローバルラベル予測を改善するためにローカルアノテーションを使用してタイルを処理する。1つの実施形態では、タイルレベル処理932が、図3で上述したようにタイル及び特徴ベクトルを処理する。さらに、スライドレベル処理930及びタイルレベル処理932の各々の結果を組み合わせてさらに処理して、後述する様々な予測を決定することができる。
1つの実施形態では、システム900が、タイル化動作及び特徴ベクトル生成動作を使用して入力画像から導出されたN個のタイル及び対応する特徴ベクトルセットを有する画像を受け取る。例えば、1つの実施形態では、システム900が、図3で上述したように生成されたタイル化画像及び対応する特徴ベクトルセットを受け取る。1つの実施形態では、システム900が、各特徴ベクトルにつき256個の特徴の特徴ベクトルセットを有するN個のタイルを受け取り、別の実施形態では、特徴ベクトルセットがこれより少ない又は多い数の特徴を有する特徴ベクトルを含むことができる。さらに、システム900は、特徴ベクトルセットをスライドレベル処理930及びタイルレベル処理932に送信する。この実施形態では、タイルレベル処理932のための各特徴ベクトルが、256個の特徴から128個の特徴に低減される。1つの実施形態では、1次元畳み込みニューラルネットワーク916を使用することによって特徴ベクトルが低減される。この実施形態では、この1次元畳み込みニューラルネットワーク916を使用して各タイルの興味深い特徴を抽出する。1次元畳み込みニューラルネットワーク916は、1回適用することも、複数回適用することも、又は全く適用しないこともできる。1つの実施形態では、特徴ベクトル当たりの特徴数が半分に低減され、別の実施形態では、特徴ベクトルの数が変化せず、異なる量だけ減少し、及び/又は増加することができる。さらなる実施形態では、システム900が、1次元畳み込みニューラルネットワーク928を適用して各タイルの興味深い特徴を抽出した後に、特徴ベクトルセットをスライドレベル処理930に送信する。
1つの実施形態では、タイルレベル処理932が、上述した1次元畳み込みニューラルネットワーク916によって生成された特徴ベクトルセット908を受け取ることによって開始する。さらに、タイルレベル処理932は、ローカルアノテーションを使用して、第2の1次元畳み込みニューラルネットワークを特徴ベクトルセット908に訓練する。この実施形態では、次に第2の1次元畳み込みニューラルネットワークを使用して、ローカルアノテーション(例えば、各タイルにおける腫瘍の有無、他の巨視的な医学的特徴(例えば、炎症など)の存在、及び/又は他のタイプの特徴の存在)を含まない入力画像について、各タイルにおける巨視的特徴910の存在を予測することができる。タイルの一部又は全部にローカルアノテーションが存在する場合、利用可能なローカルアノテーションから得られる予測でN個の予測を補完又は置換することができる。例えば、1つの実施形態では、病理学者が画像上の腫瘍の部分的な又は完全な輪郭又は識別を決定した場合、各画像タイルの腫瘍の指示又は不在から対応するN個のタイルのN個の予測を導出することができる。ローカルアノテーションが存在しない場合には、この訓練された1次元畳み込みニューラルネットワークを使用してN個の予測を作成することができる。これらのN個の予測910は、N個の予測及び畳み込み特徴ベクトルセット908の加重ポーリングによって畳み込み特徴ベクトルセット908と組み合わせて新たな特徴ベクトル912を作成することができる。1つの実施形態では、新たな特徴ベクトル912が128個の特徴である。この実施形態では、重み付けプーリングを使用して、特徴ベクトルセット908をN個の予測910で重み付けする。別の実施形態では、新たな特徴ベクトル912が、これよりも多くの又は少ない数の特徴を有することができる。
同時に、スライドレベル処理930は、元々の特徴ベクトルセット902を受け取り、緻密層922を使用して図3で上述したような特徴ベクトル処理を実行して特徴セット906を生成する。1つの実施形態では、特徴ベクトルセット906が128個の特徴であり、別の実施形態では、特徴ベクトルセット906がこれよりも多くの又は少ない数の特徴を含むことができる。
1つの実施形態では、システムが、タイルレベル処理930によって生成された特徴ベクトル912、及びスライドレベル処理930によって生成された特徴ベクトル906という2つの異なる特徴ベクトルを有する。また、システムは、これらの2つの特徴ベクトルを結果として得られる特徴ベクトル914に連結することによってこれらの特徴ベクトルを組み合わせることができ、この結果として得られた特徴ベクトル914を使用して1又は2以上のグローバルラベル928を予測することができる。例えば、1つの実施形態では、医用画像スライドについて、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死、及び/又は他のタイプの予測などの1又は2以上のグローバルラベルを予測することができる。1つの実施形態では、スライドレベル処理930及びタイルレベル処理932の両方からの特徴ベクトルを使用することによって、結果として得られた特徴ベクトル914がローカルアノテーションからの影響を有することができ、これを予測に使用することができる。
上述したように、システム900は、利用可能な場合にはローカルアノテーションを使用して(1又は複数の)分類モデルの予測能力をさらに改善することができる。図10は、分類モデル及びローカルアノテーションを使用して画像を分類するプロセス1000の一実施形態のフロー図である。図10では、プロセス1000が、ブロック1002において、画像、ローカルアノテーション及びグローバルラベルを受け取ることによって開始する。1つの実施形態では、ローカルアノテーションを、入力画像における巨視的特徴の有無を記述し及び/又は示すことができるデータ及び/又はメタデータとすることができる。例えば、1つの実施形態では、ローカルアノテーションが、画像の特定の領域に腫瘍又は腫瘍様組織が存在することを示すことができる。プロセス1000は、ブロック1004において、画像をタイル化して特徴ベクトルセットを生成する。1つの実施形態では、プロセス1000が、画像内の各タイルの特徴ベクトルを生成する。この実施形態では、特徴ベクトルの各々が256個の特徴を含むことができる。例えば、1つの実施形態では、プロセス1000が、図3で上述したようにタイル及び特徴ベクトルを生成する。
この時点で、プロセス1000は、スライドレベル処理及びタイルレベル処理のための2つの経路を取ることができる。スライドレベル処理では、プロセス1000が、ブロック1006において、(1又は複数の)分類モデルを適用して128個の特徴の特徴ベクトルを生成する。1つの実施形態では、プロセス1000が、図3のブロック308で説明したように(1又は複数の)分類モデルを特徴ベクトルセットに適用する。実行は、以下のブロック1012に進む。
プロセス1000は、ブロック1008から開始してタイルレベル処理を実行する。プロセス1000は、ブロック1008において、各画像タイルのローカルラベルを予測する。1つの実施形態では、プロセス1000が、1次元畳み込みニューラルネットワークを適用して256個の特徴ベクトルセットの興味深い特徴を抽出する。また、プロセス1000は、ローカルアノテーションを使用して、各タイルの予測セットを生成するように第2の畳み込みニューラルネットワークを訓練することができる。プロセス1000は、ブロック1010において、ローカル予測をモデルの特徴として使用する。この時点で、プロセス1000は、ブロック1008及び1010のタイルレベル処理から128個の特徴の特徴ベクトルを生成している。実行は、以下のブロック1012に進む。
プロセス1000は、ブロック1012において、ブロック1006及び1010からの特徴を組み合わせて256個の特徴の合成特徴ベクトルを作成する。1つの実施形態では、プロセス1000が、ブロック1006及び1010からの2つの特徴ベクトルを連結することによって合成特徴ベクトルを作成する。或いは、別の手段を使用して合成特徴ベクトルを作成することもできる。また、プロセス1000は、ブロック1012において、合成特徴ベクトルを使用してグローバルラベルを予測する。1つの実施形態では、プロセス1000が異なるグローバルラベル(例えば、医用画像スライドについて、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死及び/又はその他のタイプの予測)を予測することができる。1つの実施形態では、プロセス1000が、図3のブロック310及び312で上述したようにタイルにスコア付けして予測を作成することによってグローバルラベルを予測する。
図11に、本発明の一実施形態と共に使用できるデータ処理システム1100の一例を示す。例えば、システム1100は、上記の図1に示すように、前処理デバイス102及び/又は分類デバイス108を含んで実装することができる。なお、図11にはコンピュータシステムの様々なコンポーネントを示しているが、コンポーネントを相互接続するいずれかの特定のアーキテクチャ又は方法は本発明に密接に関係するものではないため、このような詳細を表すことは意図していない。また、これよりも少ない又は多くのコンポーネントを有するネットワークコンピュータ及びその他のデータ処理システム又はその他の消費者向け電子機器も本発明と共に使用することができると理解されるであろう。
図11に示すように、データ処理システムの形態のコンピュータシステム1100は、(1又は複数の)マイクロプロセッサ1105、ROM(リードオンリメモリ)1107、揮発性RAM1109及び不揮発性メモリ1111に結合されたバス1103を含む。マイクロプロセッサ1105は、1又は2以上のCPU、GPU、専用プロセッサ、及び/又はこれらの組み合わせを含むことができる。マイクロプロセッサ1105は、メモリ1107、1109、1111から命令を読み出し、これらの命令を実行して上述した動作を実行することができる。バス1103は、これらの様々なコンポーネントを相互接続するとともに、これらのコンポーネント1105、1107、1109、1111を、ディスプレイコントローラ及びディスプレイデバイス9111、並びにマウス、キーボード、モデム、ネットワークインターフェイス、プリンタ及び当業で周知の他のデバイスとすることができる入力/出力(I/O)デバイスなどの周辺デバイスにも相互接続する。通常、入力/出力デバイス915は、入力/出力コントローラ1113を通じてシステムに結合される。通常、揮発性RAM(ランダムアクセスメモリ)1109は、メモリ内のデータをリフレッシュ又は維持するために継続的に電力を必要とするダイナミックRAM(DRAM)として実装される。
通常、大容量ストレージ1111は、システムから電力が除去された後でもデータ(例えば、大量のデータ)を維持する磁気ハードドライブ、磁気光学ドライブ、光学ドライブ、DVD RAM、フラッシュメモリ又はその他のタイプのメモリシステムである。通常は、大容量ストレージ1111もランダムアクセスメモリであるが、これは必須ではない。図11には、大容量ストレージ1111がデータ処理システムの残りのコンポーネントに直接結合されたローカルデバイスであることを示しているが、本発明は、モデム、イーサネットインターフェイス又は無線ネットワークなどのネットワークインターフェイスを通じてデータ処理システムに結合されたネットワークストレージデバイスなどの、システムから離れた不揮発性メモリを利用することもできると理解されるであろう。バス1103は、当業で周知のような様々なブリッジ、コントローラ及び/又はアダプタを通じて互いに接続された1又は2以上のバスを含むことができる。
上述した内容の一部は、専用論理回路などの論理回路、マイクロコントローラ、又はプログラムコード命令を実行する他の形態のプロセッシングコアを使用して実装することもできる。従って、上記の説明によって教示されるプロセスは、命令を実行する機械に特定の機能を実行させる機械実行可能命令などのプログラムコードを使用して実行することもできる。この文脈における「機械」は、中間形態の(又は「抽象的な」)命令をプロセッサ固有命令(例えば、「仮想機械」(例えば、Java仮想機械)、インタプリタ、共通言語ランタイム(Common Language Runtime)、高水準言語仮想機械などの抽象的実行環境)に変換する機械、及び/又は命令を実行するように設計された汎用プロセッサ及び/又は専用プロセッサなどの半導体チップ上に配置された電子回路(例えば、トランジスタと共に実装された「論理回路」)とすることができる。上記の説明によって教示されるプロセスは、(機械の代わりに又は機械と組み合わせて)プログラムコードの実行を伴わずにプロセス(又はその一部)を実行するように設計された電子回路によって実行することもできる。
本発明は、本明細書で説明した動作を実行する装置にも関する。この装置は、必要な目的のために特別に構築することも、コンピュータに記憶されたコンピュータプログラムによって選択的に起動又は再構成される汎用コンピュータを含むこともできる。このようなコンピュータプログラムは、以下に限定するわけではないが、それぞれがコンピュータシステムバスに結合された、フロッピーディスク、光ディスク、CD-ROM及び光磁気ディスクを含むいずれかのタイプのディスク、リードオンリメモリ(ROM)、RAM、EPROM、EEPROM、磁気又は光カード、又は電子命令を記憶するのに適したいずれかのタイプの媒体などのコンピュータ可読記憶媒体に記憶することができる。
機械可読媒体は、機械(例えば、コンピュータ)によって読み取ることができる形態で情報を記憶又は送信するいずれかの機構を含む。例えば、機械可読媒体は、リードオンリメモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイスなどを含む。
プログラムコードを記憶するには製造の物品を使用することができる。プログラムコードを記憶する製造の物品は、以下に限定するわけではないが、1又は2以上のメモリ(例えば、1又は2以上のフラッシュメモリ、ランダムアクセスメモリ(静的、動的又はその他))、光ディスク、CD-ROM、DVD ROM、EPROM、EEPROM、磁気又は光カード、或いは電子命令を記憶するのに適した他のタイプの機械可読媒体として具体化することができる。プログラムコードは、伝搬媒体の形で具体化されたデータ信号を介して(例えば、通信リンク(例えば、ネットワーク接続)を介して)、リモートコンピュータ(例えば、サーバ)から要求側コンピュータ(例えば、クライアント)にダウンロードすることもできる。
上述した詳細な説明は、コンピュータメモリ内のデータビットに対する演算のアルゴリズム及び記号的表現の観点から示したものである。これらのアルゴリズム的記述及び表現は、データ処理技術における当業者が自らの研究内容を他の当業者に最も効果的に伝えるために使用する手段である。ここでは、また一般的に、アルゴリズムとは、望ましい結果をもたらす首尾一貫した一連の演算であると考えられる。これらの演算は、物理量の物理的操作を必要とするものである。これらの量は、必ずというわけではないが、通常は、記憶、転送、合成、比較及び他の形の操作が可能な電気又は磁気信号の形を取る。主に共通使用という理由で、時にはこれらの信号を、ビット、値、要素、記号、文字、用語、番号などと呼ぶことが便利であると分かっている。
しかしながら、これらの及び同様の用語は、全て適切な物理量に関連付けられるべきものであり、またこれらの量に与えられた便利な表記に過ぎないことに留意されたい。上記の説明から明らかなように、特に別途述べていない限り、説明全体を通じて「セグメント化する(segmenting)」、「タイル化する(tiling)」、「受け取る(receiving)」、「計算する(computing)」、「抽出する(extracting)」、「処理する(processing)」、「適用する(applying)」、「拡張する(augmenting)」、「正規化する(normalizing)」、「事前訓練する(pre-training)」、「ソートする(sorting)」、「選択する(selecting)」、「集約する(aggregating)」、「ソートする(sorting)」などの用語を利用した説明は、コンピュータシステムのレジスタ及びメモリ内の物理(例えば、電子)量として表されるデータを操作し、コンピュータシステムのメモリ、レジスタ、又はその他のこのような情報記憶装置、送信又は表示装置内の物理量として同様に表される他のデータに変形させるコンピュータシステム又は同様の電子コンピュータ装置の動作及び処理を意味すると理解されたい。
本明細書で提示したプロセス及び表示は、本質的にいずれかの特定のコンピュータ又はその他の装置に関連するものではない。本明細書の教示に従うプログラムと共に様々な汎用システムを使用することもでき、或いは説明した動作を実行するために、より特殊化した装置を構成することが便利であると証明することもできる。以下の説明からは、これらの様々なシステムに必要な構造が明らかになるであろう。また、本発明は、いずれかの特定のプログラミング言語を参照して説明したものではない。本明細書で説明した本発明の教示を実施するために、様々なプログラミング言語を使用することができると理解されるであろう。
上述した説明は、本発明のいくつかの例示的な実施形態を説明したものにすぎない。当業者であれば、このような説明、添付図面及び特許請求の範囲から、本発明の趣旨及び範囲から逸脱することなく様々な修正を行うことができると容易に認識するであろう。
500 分類システム
502 タイル化
504 タイルサンプリング
506 特徴抽出
508 タイルスコアリング
510 タイルソーティング
512 予測生存率
514 全スライド画像及び真の生存率
516 事前処理済みタイル(スライド当たり合計~10,000のタイル)
518 サンプリング済みタイル(スライド当たり~3,000のサンプリング済みタイル)
520 局所記述子の行列(3,000×2048のスカラー)
522 タイルスコア(3,000のスカラースコア)

Claims (78)

  1. 入力画像を分類する方法であって、
    第1の畳み込みニューラルネットワークを適用することによって、前記入力画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することと、
    前記関心領域をタイルセットにタイル化することと、
    各タイルについて、第2の畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
    前記タイルセットの前記抽出された特徴ベクトルを処理して前記入力画像を分類することと、
    を含む、方法。
  2. 前記第1の畳み込みネットワークは、前記入力画像の各ピクセルを関心領域及び背景領域の一方として分類するセマンティックセグメンテーションニューラルネットワークである、請求項1に記載の方法。
  3. 前記セマンティックセグメンテーションニューラルネットワークは、U-NET、セマンティックセグメンテーションのための完全畳み込みネットワーク、SegNet、及びDeepLabから成るグループから選択される、請求項2に記載の方法。
  4. 前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの各々は所定のサイズを有する、請求項1に記載の方法。
  5. 前記タイルセットにズームレベルが適用される、請求項1に記載の方法。
  6. 前記タイルセットに複数のズームレベルが適用され、異なるズームレベルの前記タイルセットが組み合わされる、請求項1に記載の方法。
  7. 前記タイル化は、前記タイルセットに対して動作を実行することによって前記タイルセットを拡張することをさらに含み、前記動作は、回転、並進、クロッピング、前記入力画像へのノイズの追加、1又は2以上の色の強度の修正、又は前記入力画像のコントラストの変更のうちの少なくとも1つである、請求項1に記載の方法。
  8. 前記タイル化は、前記タイルセットが前記入力画像毎に一定数のタイルを含むように、前記タイルセットのランダムサンプリング及びブランクタイルを用いた前記タイルセットのパディングの少なくとも一方を実行することによって、前記タイルセット内の複数のタイルを前記入力画像毎に正規化することをさらに含む、請求項1に記載の方法。
  9. 前記第2の畳み込みニューラルネットワークは、ResNetタイプの残差ニューラルネットワーク、VGGニューラルネットワーク、教師なし特徴抽出のためのオートエンコーダ、及びInceptionニューラルネットワークから成るグループから選択された残差ニューラルネットワークである、請求項1に記載の方法。
  10. 前記第2の畳み込みニューラルネットワークの重みを別のデータセット及びタスクの少なくとも一方について事前学習することをさらに含み、前記第2の畳み込みニューラルネットワークから少なくとも1つの出力層が除去される、請求項1に記載の方法。
  11. 前記処理は、
    各タイルについて、
    前記抽出された特徴ベクトルから、前記入力画像の前記分類に対する前記タイルの寄与を表す、前記タイルに関連するスコアを計算することと、
    前記タイルスコアのセットをソートすることと、
    前記ソートされたタイルスコアのセット内のタイルの値及びランクの少なくとも一方に基づいて、前記タイルスコアのサブセットを選択することと、
    前記画像を分類するために前記タイルスコアのサブセットに分類器を適用することと、
    を含む、請求項1に記載の方法。
  12. 前記タイル化は、複数の画像のうちの異なる画像から対応するタイルのグループを集約することをさらに含み、前記複数の画像は前記入力画像を含む、請求項1に記載の方法。
  13. 前記タイル化は、前記入力画像又は特徴マップの少なくとも一方において計算された距離メトリックに従って、一定距離内の前記タイルセットからのタイルのクラスタを集約することをさらに含む、請求項1に記載の方法。
  14. タイルのクラスタを集約することは、
    前記タイルのクラスタ内のタイルを連結することと、
    前記タイルのクラスタを前記特徴ベクトル抽出のための多次元オブジェクトとして使用して、少なくとも所与の基準に基づいて前記タイルのクラスタから単一のタイルを選択することと、
    前記タイルのクラスタ内のタイルの前記特徴ベクトルの平均値を計算することと、
    前記タイルのクラスタ内のタイルの前記特徴ベクトルの少なくとも最大値又は最小値を計算することと、
    のうちの少なくとも1つを含む、請求項13に記載の方法。
  15. 前記特徴ベクトル抽出は、前記特徴の前記次元性を低減するために前記抽出された特徴ベクトルに対してオートエンコーダを適用することをさらに含む、請求項1に記載の方法。
  16. 前記入力画像は病理組織学的スライドであり、前記関心領域は組織領域である、請求項1に記載の方法。
  17. 前記画像分類は、診断分類、生存率予測、及び治療に対する反応予測のうちの少なくとも1つを実行するために使用される、請求項1に記載の方法。
  18. 前記入力画像の前記分類は、少なくとも1種類のグローバルラベル及びローカルラベルを予測することを含む、請求項1に記載の方法。
  19. 前記抽出された特徴ベクトルの前記処理は、前記入力画像の前記分類のための追加情報を提供する抽出された特徴ベクトルから導出された特徴ベクトルの重み付き結合における重みとして組み込まれた、前記入力画像に関連する1又は2以上のローカルアノテーションを使用することを含む、請求項1に記載の方法。
  20. 前記入力画像の分類は、マルチタスク環境において複数のグローバルラベルを予測することを含む、請求項1に記載の方法。
  21. 入力画像を分類するための方法を1又は2以上の処理ユニットに実行させる実行可能命令を有する非一時的機械可読媒体であって、前記方法は、
    第1の畳み込みニューラルネットワークを適用することによって、前記入力画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することと、
    前記関心領域をタイルセットにタイル化することと、
    各タイルについて、第2の畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
    前記タイルセットの前記抽出された特徴ベクトルを処理して前記入力画像を分類することと、
    を含む、、機械可読媒体。
  22. 前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの前記各々は所定のサイズを有する、請求項21に記載の機械可読媒体。
  23. 前記タイル化は、前記タイルセットが入力画像毎に一定数のタイルを含むように、前記タイルセットのランダムサンプリング及びブランクタイルを用いた前記タイルセットのパディングの少なくとも一方を実行することによって、前記タイルセット内の複数のタイルを入力画像毎に正規化することをさらに含む、請求項21に記載の機械可読媒体。
  24. 前記第2の畳み込みニューラルネットワークは、ResNetタイプの残差ニューラルネットワーク、VGGニューラルネットワーク、教師なし特徴抽出のためのオートエンコーダ、及びInceptionニューラルネットワークから成るグループから選択された残差ニューラルネットワークである、請求項21に記載の機械可読媒体。
  25. 前記第2の畳み込みニューラルネットワークの重みを別のデータセット及びタスクの少なくとも一方について事前学習することをさらに含み、前記第2の畳み込みニューラルネットワークから少なくとも1つの出力層が除去される、請求項21に記載の機械可読媒体。
  26. 前記処理は、
    各タイルについて、
    前記抽出された特徴ベクトルから、前記入力画像の前記分類に対する前記タイルの寄与を表す、前記タイルに関連するスコアを計算することと、
    前記タイルスコアのセットをソートすることと、
    前記ソートされたタイルスコアのセット内のタイルの値及びランクの少なくとも一方に基づいて、前記タイルスコアのサブセットを選択することと、
    前記入力画像を分類するために前記タイルスコアのサブセットに分類器を適用することと、
    を含む、請求項21に記載の機械可読媒体。
  27. 前記タイル化は、複数の画像のうちの異なる画像からの対応するタイルのグループを集約することをさらに含み、前記複数の画像は前記入力画像を含む、請求項21に記載の機械可読媒体。
  28. 前記タイル化は、前記入力画像又は特徴マップの少なくとも一方において計算された距離メトリックに従って、一定距離内の前記タイルセットからのタイルのクラスタを集約することをさらに含む、請求項21に記載の機械可読媒体。
  29. 前記特徴ベクトル抽出は、前記特徴の前記次元性を低減するために前記抽出された特徴ベクトルに対してオートエンコーダを適用することをさらに含む、請求項21に記載の機械可読媒体。
  30. 前記入力画像は病理組織学的スライドであり、前記関心領域は組織領域である、請求項21に記載の機械可読媒体。
  31. 前記画像分類は、診断分類、生存率予測、及び治療に対する反応予測のうちの少なくとも1つを実行するために使用される、請求項21に記載の機械可読媒体。
  32. 前記入力画像の前記分類は、少なくとも1つのグローバルラベル及びローカルラベルを予測することを含む、請求項21に記載の機械可読媒体。
  33. 前記抽出された特徴ベクトルの前記処理は、前記入力画像の前記分類のための追加情報を提供する抽出された特徴ベクトルから導出された特徴ベクトルとの重み付き結合における重みとして組み込まれた、前記入力画像に関連する1又は2以上のローカルアノテーションを使用することを含む、請求項21に記載の機械可読媒体。
  34. 前記入力画像の分類は、マルチタスク環境において複数のグローバルラベルを予測することを含む、請求項21に記載の機械可読媒体。
  35. 画像の分類と相関する前記画像の比較対象領域を抽出するための方法であって、
    前記画像の関心領域をタイルセットにタイル化することと、
    各タイルについて、
    畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
    前記抽出された特徴ベクトルから、前記画像の前記分類に対する前記タイルの寄与を表す前記タイルのスコアを計算することと、
    所与の特性を検証するスコアを有する少なくとも1つのタイルを選択することと、
    平均タイルスコアを有するタイルのセットであり、かつ前記少なくとも1つの選択されたタイルに距離メトリックに従って視覚的に近接している前記比較対象領域を抽出することと、
    を含む、方法。
  36. 前記選択することは、
    前記タイルセット内の前記タイルの前記タイルスコアに従って前記タイルセットをソートすることと、
    前記タイルスコア及び前記ソートされたタイルセット内のタイルのランクの少なくとも一方に基づいて、前記少なくとも1つのタイルを選択することと、
    を含む、請求項35に記載の方法。
  37. 前記選択することは、前記タイルスコアのうちの最も高いタイルスコアの第1の所与の数であるR_top、及び前記タイルスコアのうちの最も低いタイルスコアの第2の所与の数であるR_bottomの少なくとも一方を選択することを含む、請求項36に記載の方法。
  38. 平均タイルスコアは、前記R_topのタイルスコアと前記R_bottomのタイルスコアとの間のスコアである、請求項35に記載の方法。
  39. 前記選択することは、所与の閾値よりも大きいもの及び所与の閾値よりも小さいものの少なくとも一方であるスコアを有する前記タイルを選択することを含む、請求項38に記載の方法。
  40. 前記選択することは、前記対応するタイルの少なくともスコアから導出される確率で前記タイルをランダムに選択することを含む、請求項39に記載の方法。
  41. 2つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、前記2つのタイルの前記抽出された特徴に基づいて計算されるL2ノルムである、請求項35に記載の方法。
  42. 2つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、オリジナルタイル上で計算されるL2ノルムである、請求項35に記載の方法。
  43. 画像の分類と相関する前記画像の比較対象領域を抽出するための方法を1又は2以上の処理ユニットに実行させる実行可能命令を有する非一時的機械可読媒体であって、前記方法は、
    前記画像の関心領域をタイルセットにタイル化することと、
    各タイルについて、
    畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
    前記抽出された特徴ベクトルから、前記画像の前記分類に対する前記タイルの寄与を表す前記タイルのスコアを計算することと、
    所与の特性を検証するスコアを有する少なくとも1つのタイルを選択することと、
    平均スコアを有するタイルのセットであり、かつ前記少なくとも1つの選択されたタイルに距離メトリックに従って視覚的に近接している前記対象領域を抽出することと、
    を含む、機械可読媒体。
  44. 前記選択することは、
    前記タイルセット内の前記タイルのタイルスコアに従って前記タイルセットをソートすることと、
    前記タイルスコア及び前記ソートされたタイルセット内のタイルのランクの少なくとも一方に基づいて、前記少なくとも1つのタイルを選択することと、
    を含む、請求項43に記載の機械可読媒体。
  45. 前記選択することは、前記タイルスコアのうちの最も高いタイルスコアの第1の所与の数であるR_top、及び前記タイルスコアのうちの最も小さいタイルスコアの第2の所与の数であるR_bottomの少なくとも一方を選択することを含む、請求項44に記載の機械可読媒体。
  46. 平均タイルスコアは、前記R_topのタイルスコアと前記R_bottomのタイルスコアとの間のスコアである、請求項45に記載の機械可読媒体。
  47. 前記選択することは、所与の閾値よりも大きいもの及び所与の閾値よりも小さいものの少なくとも一方であるスコアを有する前記タイルを選択することを含む、請求項44に記載の機械可読媒体。
  48. 前記選択することは、前記対応するタイルの少なくともスコアから導出される計算された確率で前記タイルをランダムに選択することを含む、請求項44に記載の機械可読媒体。
  49. 2つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、前記2つのタイルの前記抽出された特徴に基づいて計算されるL2ノルムである、請求項44に記載の機械可読媒体。
  50. 2つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、オリジナルタイル上で計算されるL2ノルムである、請求項44に記載の機械可読媒体。
  51. 分類モデルを生成するための方法であって、
    訓練画像セットを受け取ることであって、前記訓練画像セットの各々は関連する既知の分類を有する、受け取ることと、
    前記訓練画像セット内の各訓練画像について、
    第1の畳み込みニューラルネットワークを適用することによって前記訓練画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記画像の局所記述子を表す、抽出することと、
    少なくとも前記抽出された特徴ベクトル及び前記関連する既知の分類を使用して前記分類モデルを訓練することと、
    を含む、方法。
  52. 少なくとも検証画像セットを使用して前記分類モデルを検証することをさらに含む、請求項49に記載の方法。
  53. 前記検証は、
    前記検証画像セットを受け取ることであって、前記検証画像セットの各検証画像は関連する既知の分類を有する、受け取ることと、
    前記検証画像セット内の各検証画像について、
    第1の畳み込みニューラルネットワークを適用することによって前記検証画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記検証画像の局所記述子を表す、抽出することと、
    少なくとも前記複数の特徴ベクトルを使用して前記検証画像の検証スコアセットを生成することと、
    少なくとも前記検証スコアセット及び前記分類モデルを使用して前記検証画像の分類を生成することと、
    前記複数の生成された分類を前記関連する既知の分類と比較することと、
    を含む、請求項52に記載の方法。
  54. 前記複数の生成された分類の前記比較は、受信者操作特性曲線(ROC-AUC)下の面積の比較、精度リコール曲線(PR-AUC)下の面積の比較、又はコンコーダンスインデックス(c-index)比較のうちの少なくとも1つを使用して実行される、請求項53に記載の方法。
  55. 前記分類モデルは、2つの全結合層を有する多層パーセプトロンである、請求項51に記載の方法。
  56. 検証セットの前記訓練セットの画像は、デジタル全スライド画像(WSI)のうちの1つである、請求項51に記載の方法。
  57. 前記第1の畳み込みニューラルネットワークは、ResNet50ニューラルネットワークである、請求項51に記載の方法。
  58. 前記複数の特徴ベクトルの前記抽出は、前記訓練画像の関心領域をタイルセットにタイル化することを含み、前記複数の特徴ベクトルの各々は、前記タイルセットからのタイルに対応する、請求項51に記載の方法。
  59. 前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの各々は所定のサイズを有する、請求項58に記載の方法。
  60. 前記分類モデルの前記訓練は、少なくとも畳み込み1D層及び前記タイルの対応する特徴ベクトルを使用して前記タイルセットの各タイルのスコアを計算することを含む、請求項58に記載の方法。
  61. 前記方法は、訓練画像の前記訓練セット内の前記訓練画像の各々について、第2の畳み込みニューラルネットワークを適用することによって、前記訓練画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することをさらに含む、請求項51に記載の方法。
  62. 前記第2の畳み込みニューラルネットワークはU-NETニューラルネットワークである、請求項61に記載の方法。
  63. 前記分類モデルは1又は2以上の別個のモデルを含む、請求項51に記載の方法。
  64. 前記分類モデルは、多層パーセプトロンモデル及び1次元畳み込みニューラルネットワークモデルの少なくとも一方を含む、請求項51に記載の方法。
  65. 分類モデルを生成するための方法を1又は2以上の処理ユニットに実行させる実行可能命令を有する機械可読媒体であって、前記方法は、
    訓練画像セットを受け取ることであって、前記訓練画像セットの各々は関連する既知の分類を有する、受け取ることと、
    前記訓練画像セット内の各訓練画像について、
    第1の畳み込みニューラルネットワークを適用することによって前記訓練画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記画像の局所記述子を表す、抽出することと、
    少なくとも前記抽出された特徴ベクトル及び前記関連する既知の分類を使用して前記分類モデルを訓練することと、
    を含む、機械可読媒体。
  66. 少なくとも検証画像セットを使用して前記分類モデルを検証することをさらに含む、請求項65に記載の機械可読媒体。
  67. 前記検証は、
    前記検証画像セットを受け取ることであって、前記検証画像セットにおける各画像は関連する既知の分類を有する、受け取ることと、
    前記検証画像セット内の各検証画像について、
    第1の畳み込みニューラルネットワークを適用することによって前記検証画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記検証画像の局所記述子を表す、抽出することと、
    少なくとも前記複数の特徴ベクトルを使用して前記検証画像の検証スコアセットを生成することと、
    少なくとも前記検証スコアセット及び前記分類モデルを使用して前記検証画像の分類を生成することと、
    前記複数の生成された分類を前記関連する既知の分類と比較することと、
    を含む、請求項66に記載の機械可読媒体。
  68. 前記複数の生成された分類の前記比較は、受信者操作特性曲線(ROC-AUC)下の面積の比較、精度リコール曲線(PR-AUC)下の面積の比較、又はコンコーダンスインデックス(c-index)比較のうちの少なくとも1つを使用して実行される、請求項67に記載の機械可読媒体。
  69. 前記分類モデルは、2つの結合層を有する多層パーセプトロンである、請求項65に記載の機械可読媒体。
  70. 前記訓練セット又は前記検証セットの訓練画像は、デジタル全スライド画像(WSI)のうちの1つである、請求項65に記載の機械可読媒体。
  71. 前記第1の畳み込みニューラルネットワークは、ResNet50ニューラルネットワークである、請求項65に記載の機械可読媒体。
  72. 前記複数の特徴ベクトルの前記抽出は、前記訓練画像の関心領域をタイルセットにタイル化することを含み、前記複数の特徴ベクトルの各々は、前記タイルセットからのタイルに対応する、請求項65に記載の機械可読媒体。
  73. 前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの各々は所定のサイズを有する、請求項72に記載の機械可読媒体。
  74. 前記分類モデルの前記訓練は、少なくとも畳み込み1D層及び前記タイルの対応する特徴ベクトルを使用して前記タイルセットの各タイルのスコアを計算することを含む、請求項72に記載の機械可読媒体。
  75. 前記方法は、訓練画像の前記訓練セット内の前記訓練画像の各々について、第2の畳み込みニューラルネットワークを適用することによって、前記訓練画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することをさらに含む、請求項65に記載の機械可読媒体。
  76. 前記第2の畳み込みニューラルネットワークはU-NETニューラルネットワークである、請求項75に記載の機械可読媒体。
  77. 前記分類モデルは1又は2以上の別個のモデルを含む、請求項65に記載の機械可読媒体。
  78. 前記分類モデルは、多層パーセプトロンモデル及び1次元畳み込みニューラルネットワークモデルの少なくとも一方を含む、請求項65に記載の機械可読媒体。
JP2021577279A 2019-06-25 2020-06-25 画像前処理のためのシステム及び方法 Pending JP2022538866A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19305840 2019-06-25
EP19305840.1 2019-06-25
PCT/IB2020/056037 WO2020261183A1 (en) 2019-06-25 2020-06-25 Systems and methods for image preprocessing

Publications (1)

Publication Number Publication Date
JP2022538866A true JP2022538866A (ja) 2022-09-06

Family

ID=67988947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021577279A Pending JP2022538866A (ja) 2019-06-25 2020-06-25 画像前処理のためのシステム及び方法

Country Status (6)

Country Link
US (2) US11562585B2 (ja)
EP (1) EP3864577B1 (ja)
JP (1) JP2022538866A (ja)
CN (1) CN114787876A (ja)
CA (1) CA3145371A1 (ja)
WO (1) WO2020261183A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11672464B2 (en) 2015-10-27 2023-06-13 Cardiologs Technologies Sas Electrocardiogram processing system for delineation and classification
CN111433860B (zh) 2017-08-25 2024-03-12 皇家飞利浦有限公司 用于分析心电图的用户界面
US12016694B2 (en) 2019-02-04 2024-06-25 Cardiologs Technologies Sas Electrocardiogram processing system for delineation and classification
US20220292681A1 (en) * 2019-08-23 2022-09-15 Memorial Sloan Kettering Cancer Center Fast whole slide tissue tiling method
US11676703B2 (en) * 2019-10-11 2023-06-13 Case Western Reserve University Combination of radiomic and pathomic features in the prediction of prognoses for tumors
CN110991619A (zh) * 2019-12-09 2020-04-10 Oppo广东移动通信有限公司 神经网络处理器、芯片和电子设备
CN111222561B (zh) * 2019-12-31 2023-06-09 深圳云天励飞技术股份有限公司 图像识别神经网络处理方法、装置与系统
AU2021213737B2 (en) * 2020-01-28 2023-09-28 PAIGE.AI, Inc. Systems and methods for processing electronic images for computational detection methods
US12094571B2 (en) * 2020-02-11 2024-09-17 Pathomiq Inc. Systems and methods for predictive molecular biomarker identification and quantification from morphology changes in histopathology tissue
FR3107359B1 (fr) * 2020-02-18 2022-02-25 Thales Sa Procede et dispositif de determination d'obstacles d'altitude
GB2596864A (en) * 2020-07-10 2022-01-12 Graphcore Ltd Machine learning computer
JP2023544242A (ja) * 2020-08-10 2023-10-23 コーニンクレッカ フィリップス エヌ ヴェ 心イベントを検出及び/又は予測するための、心電図処理システム
JP7143906B2 (ja) * 2021-01-15 2022-09-29 沖電気工業株式会社 情報処理装置、情報処理方法およびプログラム
KR102580419B1 (ko) * 2021-02-18 2023-09-19 주식회사 루닛 병리 슬라이드 이미지 내의 관심 영역을 검출하기 위한 방법 및 시스템
JP2024522266A (ja) * 2021-04-19 2024-06-12 エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト 病理スライド画像からの遺伝子改変予測のための方法及びシステム
US11688156B2 (en) * 2021-06-23 2023-06-27 Black Sesame Technologies Inc. Scene recognition based on labeled feature vectors of an image
CN113392793A (zh) * 2021-06-28 2021-09-14 北京百度网讯科技有限公司 用于识别车道线的方法、装置、设备、存储介质以及无人车
IL310877A (en) 2021-08-16 2024-04-01 Insitro Inc Discovery platform
CN113610085B (zh) * 2021-10-10 2021-12-07 成都千嘉科技有限公司 基于注意力机制的字轮图像识别方法
WO2023107908A1 (en) * 2021-12-06 2023-06-15 The Regents Of The University Of California System and methods for low-complexity deep learning networks with augmented residual features
CN114399510B (zh) * 2021-12-25 2024-06-25 西安交通大学医学院第二附属医院 结合图像和临床元数据的皮肤病灶分割和分类方法及系统
CN114419375B (zh) * 2022-01-20 2023-08-15 北京百度网讯科技有限公司 图像分类方法、训练方法、装置、电子设备以及存储介质
CN114549896B (zh) * 2022-01-24 2024-08-16 清华大学 用于生存预测的全视野图像的异构高阶表示方法及装置
KR20230126264A (ko) * 2022-02-21 2023-08-30 가톨릭대학교 산학협력단 오가노이드 선별 장치 및 방법
KR20230140160A (ko) * 2022-03-29 2023-10-06 가톨릭대학교 산학협력단 조직 슬라이드 이미지 분석 시스템 및 방법
US20230316694A1 (en) * 2022-04-04 2023-10-05 Arm Limited Data processing systems
US11908185B2 (en) * 2022-06-30 2024-02-20 Metrostudy, Inc. Roads and grading detection using satellite or aerial imagery
WO2024025134A1 (en) * 2022-07-27 2024-02-01 Samsung Electronics Co., Ltd. A system and method for real time optical illusion photography
WO2024030978A1 (en) * 2022-08-03 2024-02-08 Genentech, Inc. Diagnostic tool for review of digital pathology images
WO2024118842A1 (en) * 2022-11-30 2024-06-06 Owkin Inc. Systems and methods for detecting tertiary lymphoid structures

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3570753B1 (en) * 2017-02-23 2024-08-07 Google LLC Method and system for assisting pathologist identification of tumor cells in magnified tissue images
US10748040B2 (en) * 2017-11-20 2020-08-18 Kavya Venkata Kota Sai KOPPARAPU System and method for automatic assessment of cancer
US11164312B2 (en) * 2017-11-30 2021-11-02 The Research Foundation tor the State University of New York System and method to quantify tumor-infiltrating lymphocytes (TILs) for clinical pathology analysis based on prediction, spatial analysis, molecular correlation, and reconstruction of TIL information identified in digitized tissue images
CA3138959C (en) * 2019-05-03 2023-09-26 Huron Technologies International Inc. Image diagnostic system, and methods of operating thereof

Also Published As

Publication number Publication date
EP3864577A1 (en) 2021-08-18
US20230386024A1 (en) 2023-11-30
CA3145371A1 (en) 2020-12-30
CN114787876A (zh) 2022-07-22
WO2020261183A1 (en) 2020-12-30
US11562585B2 (en) 2023-01-24
EP3864577B1 (en) 2023-12-13
US20210271847A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
JP2022538866A (ja) 画像前処理のためのシステム及び方法
US11482022B2 (en) Systems and methods for image classification
Nanni et al. Ensemble of convolutional neural networks for bioimage classification
Qayyum et al. Medical image retrieval using deep convolutional neural network
Nahid et al. Involvement of machine learning for breast cancer image classification: a survey
Wang et al. Adaptive pruning of transfer learned deep convolutional neural network for classification of cervical pap smear images
Adu et al. DHS‐CapsNet: Dual horizontal squash capsule networks for lung and colon cancer classification from whole slide histopathological images
US11544851B2 (en) Systems and methods for mesothelioma feature detection and enhanced prognosis or response to treatment
Win et al. Computer aided diagnosis system for detection of cancer cells on cytological pleural effusion images
Yaqoob et al. Applications and techniques of machine learning in cancer classification: A systematic review
Tsivgoulis et al. An improved SqueezeNet model for the diagnosis of lung cancer in CT scans
Zhang et al. Classification of canker on small datasets using improved deep convolutional generative adversarial networks
Rai et al. Real-time data augmentation based transfer learning model for breast cancer diagnosis using histopathological images
Gargouri et al. A new GLLD operator for mass detection in digital mammograms
Arif et al. Application of Genetic Algorithm and U‐Net in Brain Tumor Segmentation and Classification: A Deep Learning Approach
Maurya et al. Computer-aided diagnosis of auto-immune disease using capsule neural network
Rajput et al. A transfer learning-based brain tumor classification using magnetic resonance images
CN117036894B (zh) 基于深度学习的多模态数据分类方法、装置及计算机设备
Karacı et al. YoDenBi-NET: YOLO+ DenseNet+ Bi-LSTM-based hybrid deep learning model for brain tumor classification
WO2021041342A1 (en) Semantic image retrieval for whole slide images
Thapa et al. Deep learning for breast cancer classification: Enhanced tangent function
Boumaraf et al. Conventional Machine Learning versus Deep Learning for Magnification Dependent Histopathological Breast Cancer Image Classification: A Comparative Study with Visual Explanation. Diagnostics, 2021; 11 (3): 528
Hossain et al. Streamlining Brain Tumor Classification with Custom Transfer Learning in MRI Images
Ferdousi et al. A deep learning approach for white blood cells image generation and classification using SRGAN and VGG19
Lindroos Transformers for breast cancer classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240422

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240722