JP7270058B2 - 予測的組織パターン特定のためのマルチプルインスタンスラーナ - Google Patents

予測的組織パターン特定のためのマルチプルインスタンスラーナ Download PDF

Info

Publication number
JP7270058B2
JP7270058B2 JP2021552185A JP2021552185A JP7270058B2 JP 7270058 B2 JP7270058 B2 JP 7270058B2 JP 2021552185 A JP2021552185 A JP 2021552185A JP 2021552185 A JP2021552185 A JP 2021552185A JP 7270058 B2 JP7270058 B2 JP 7270058B2
Authority
JP
Japan
Prior art keywords
image
tiles
tile
patient
tissue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021552185A
Other languages
English (en)
Other versions
JP2022527145A (ja
Inventor
エルダド クライマン,
ヤコブ ギルデンブラト,
Original Assignee
エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト filed Critical エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト
Publication of JP2022527145A publication Critical patent/JP2022527145A/ja
Application granted granted Critical
Publication of JP7270058B2 publication Critical patent/JP7270058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10064Fluorescence image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biotechnology (AREA)
  • Mathematical Physics (AREA)

Description

本発明は、デジタル病理学の分野、特に、画像分析の分野に関する。
組織サンプル画像の分析に基づく、診断プロセスと、好適な治療の特定と、を補助するために使用できる、様々な画像分析方法が知られている。
いくつかの画像分析技術は、特定の疾患の存在、及び/又は、特定の薬を用いての、その疾患の良好な治療の可能性のインジケータとしての用に供されることが知られている、画像における構造をサーチするための異なる手順を使用することに基づく。例えば、がん患者における免疫療法の過程で使用されるいくつかの薬は、特定の免疫細胞が、がん細胞から特定の距離にて見つかる場合にのみ効果がある。この場合では、疾患の存在、及び/又は、その推奨する治療についてのステートメントを行うことができるようにするために、組織画像における、それらの対象、すなわち、特定の細胞タイプ、又は、特定の下位及び上位細胞構造を自動的に認識するための試みが行われる。この方法の不都合な点は、画像分析アルゴリズムが、進行したそれらの構造のみを認識することである。このタイプの画像分析はしたがって、特定の細胞及び組織構造と、特定の疾患又はそれらの治療オプションと、の間の関係についての既存の医学知識に基づく。したがって、この画像分析のアプローチは、特定の疾患及び/又はその治療に関しての、未知の予測的特徴を検出することには適しておらず、一定期間に利用可能な医学知識に限定される。医学関係の知識を拡張すること、すなわち、疾患の特定の形態が存在するかどうか、及び/又は、特定の薬が、この疾患において効果があるかどうかについて、予測を行うことを可能にする、これまでに未知の性質及び組織構造を特定することには適していない。
他の画像分析方法、特に、教師なし機械学習方法は、その予測パワーがプロフェッショナルの世界に未知である、及び/又は、画像の分析において病理学者が容易に気付くことができない組織パターン及び性質をも考慮することができるようにする。なぜなら、それらの性質は、例えば、いくつかの他の性質の存在の有無、及び/又は、それらの発現力に起因する、導き出された性質となり得るからである。これらの方法の不都合な点は、それらは通常、ブラックボックスのように働くことである。換言すると、これらの技術を使用する病理学者は、予測に対して、どの組織形質が最終的に決定的であったかを正確に特定することができないまま、それらのアルゴリズムの予測パワーに依存しなけらばならない。これは、例えば、薬の承認において、かなりの不都合な点となり得る。なぜなら、この目的に、特定の治療から恩恵を被る患者のグループが、明示的に特定されなければならないからである。これは、この「ブラックボックス」に完全に、又は、部分的に依存しなければならないような医師及び患者にとって、潜在的に効果があるものの、副作用の多い薬の、特定の患者への投与が、内在する「決定ロジック」を言語化できないまま、理にかなうものであるかを決める際に、不満足なものともなる。
本発明の目的は、独立請求項において指定されるような、患者関連属性値を示す組織パターンを特定する、改善された方法と、これに対応する画像分析システムと、を提供することである。本発明の実施形態は、従属請求項に与えられている。本発明の実施形態は、それらが互いに排他的でなければ、互いに自由に組み合わされ得る。
1つの態様では、本発明は、患者関連属性値を示す組織パターンを特定する方法に関する。本方法は、
画像分析システムにより、患者のグループにおける各患者に対して、患者の組織サンプルの少なくとも1つのデジタル画像を受信することであって、少なくとも1つの画像には、少なくとも2つの異なる、予め定められたラベルの内の1つが割り当てられており、各ラベルは、その組織が、ラベル付けされた画像に描かれている患者の患者関連属性値を示す、患者のグループにおける各患者に対して、患者の組織サンプルの少なくとも1つのデジタル画像を受信することと、
画像分析システムにより、各受信した画像を、画像タイルのセットに分割することであって、各タイルには、そのタイルを生成することに使用された画像に割り当てられたラベルが割り当てられている、各受信した画像を、画像タイルのセットに分割することと、
タイルのそれぞれに対して、画像分析システムにより、そのタイルに描かれている組織パターンから選択的に抽出された画像特徴を含む特徴ベクトルを計算することと、
マルチプルインスタンスラーニング(Multiple-Instance-Learning、MIL)プログラムに、グループにおけるすべての患者に対して受信したすべての画像のすべてのタイル及びそれぞれの特徴ベクトルをトレーニングさせることであって、タイルの各セットは、MILプログラムにより、同じラベルを有するタイルのバッグとして扱われており、トレーニングさせることは、タイルのそれぞれに対して、タイルが導き出された画像に割り当てられたラベルに関して、タイルに関連付けられた特徴ベクトルの予測パワーを示す数値を計算するために、特徴ベクトルを分析することを含む、マルチプルインスタンスラーニング(Multiple-Instance-Learning、MIL)プログラムに、グループにおけるすべての患者に対して受信したすべての画像のすべてのタイル及びそれぞれの特徴ベクトルをトレーニングさせることと、
画像分析システムのグラフィカルユーザインタフェース(graphical user interface又はGUI)を介して、画像タイルのレポートギャラリを出力することであって、レポートギャラリは、タイルのサブセットを含み、タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされている、及び/又は、それらのそれぞれの数値の図形表現を含む、画像タイルのレポートギャラリを出力することと、
を含む。
この方法は、生物医学のエキスパートの明確な知識に基づく画像分析方法の利点を、機械学習方法の利点と組み合わせ得るため、好適となり得る。機械学習において、マルチプルインスタンスラーニング(multiple-instance-learning又はMIL)は、1つのタイプの教師あり学習である。個別にラベル付けされたインスタンスのセットを受信する代わりに、ラーナは、それぞれが多くのインスタンスを含む、ラベル付けされたバッグのセットを受信する。マルチプルインスタンスの二項分類のシンプルな場合では、バッグにおけるすべてのインスタンスが負であれば、そのバッグは負にラベル付けされ得る。一方、バッグにおける少なくとも1つのインスタンスが正であれば、そのバッグは正にラベル付けされる。ラベル付けされたバッグを集めたものから、ラーナは、(i)個別のインスタンスに正しくラベル付けするコンセプトを導入する、又は、(ii)そのコンセプトを導入することなく、バッグにラベル付けする方法を学習する、のどちらかを試す。MILについての便利でシンプルな例が、Babenko,Boris.による、「マルチプルインスタンスラーニング:アルゴリズム及びアプリケーション(Multiple instance learning: algorithms and applications)」(2008)に与えられている。しかし、いくつかの実施形態に係るMILプログラムもまた、2つを超える異なるラベル(エンドポイント)に基づくトレーニングをカバーする。
本発明の実施形態によると、MILプログラムは、バッグ(好ましくは、特定のラベル値を持つ特定の患者の組織セクションの1つ又はそれ以上の画像のすべてのタイル)の各インスタンス(タイル)に対して、したがって、また、タイルにそれぞれ描かれている組織パターンに対して、予測値を計算することに使用される。このステップでは、新たな生物医学的知識が、MILプログラムにより特定され得る。なぜなら、トレーニングデータでは、画像のラベル及びそれぞれのタイルが、トレーニングに対するエンドポイントとして与えられているからであり、これは、ラベルと強く(正に、又は、負に)相関する、したがって、このラベルに対して予測的であるタイルから導き出された特徴ベクトルの個別の特徴ではないからである。加えて、個別のタイルに対して計算された予測値はまた、ギャラリにおいて関連付けられたタイルの図形表現と共に出力される。例えば、ギャラリにおけるタイルは、数値に従ってソートされ得る。この場合では、ギャラリにおけるタイルの位置は、病理学者又は他の人であるユーザが、特定のラベルに対して高く予測的であることがわかったタイルのいくつかに描かれている組織パターンを特定することを可能にする。加えて、又は代替的に、数値は、そのそれぞれのタイルに空間的に近接して表示され得る。これにより、ユーザは、特定のラベルに関して、類似する数値を有する1つ又はそれ以上のタイルに描かれている組織の組織パターンを調べ、理解することができる。
したがって、トレーニングフェーズの出力として生成された画像タイルギャラリは、患者の特定の患者関連属性値に関して、予測的である組織シグニチャを明らかにし得る。画像タイルと組み合わせて数値を提示することは、少なくとも多くの場合において、予測的組織パターン(これは、「組織シグニチャ」とも呼ばれ得る)が、病理学者により、類似する数値を有する、ギャラリにおけるいくつかのタイルを、より高い、又は、より低い数値を有する他のタイルと比較することにより、及び、レポートギャラリにおけるそれらのタイルのサブセットに描かれている組織シグニチャを比較することにより、特定され、言語化され得る、という恩恵を有し得る。
さらに有益な態様では、画像タイルをインスタンスとして扱うMILプログラムと、特定のラベル(例えば、「薬Dに対する反応=真(true)」、「マイクロサテライトステータス=MSX」、「ヒト上皮成長因子受容体(human epidermal growth factor receptor又はHER)2発現ステータス=+」)が割り当てられている同じ患者のすべての画像のすべてのタイルの合計と、を使用することは、全体スライド組織サンプル画像のコンテキストにおける患者関連特徴を予測することに特に適している。これは、全体スライド組織サンプルはしばしば、そのいくらかのみが、いずれの予測値を有し得る、多くの異なる組織領域をカバーするからである。例えば、微小転移巣は、数ミリメートルのみの直径であり得るが、スライド及びそれぞれの全体スライド画像は、数センチメートルの長さであり得る。全体画像は、「薬Dに対する反応=真(true)」などの特定のラベルを持って、サンプルが導き出された患者に対する経験的観察にしたがって、ラベル付けされているが、多くの免疫細胞を含み、正の反応に対して予測的である、微小転移巣の周りの組織領域はまた、数ミリメートルのみをカバーし得る。したがって、タイルの大多数は、画像毎の、典型的には、患者毎のラベルに関して、予測的であるいずれの組織領域を含まない。MILプログラムは、インスタンスの大部分が、いずれの予測値のそれではないと推定される、データインスタンスのバッグに基づく予測的特徴を特定することに特に適している。
実施形態によると、受信したデジタル画像は、それらのピクセル強度値が、非バイオマーカ特異的染料、特に、ヘマトキシリン及びエオシン(Hematoxylin&Eosin又はH&E)染色剤の量と相関する、組織サンプルのデジタル画像を含む。
例えば、各タイルのバッグは、特定の薬に対するその反応が既知であるそれぞれの患者を表すことができる。この患者特有バッグに含まれるインスタンスは、この特定の患者のそれぞれの組織サンプルの1つ又はそれ以上の画像から導き出されたタイルである。組織サンプルは、H&Eなどの、非バイオマーカ特異的染料を用いて染色されている。この患者のすべての組織画像、したがって、それらから導き出されたすべてのタイルには、ラベル「薬Dに対する反応=真(true)の患者」が割り当てられる。
これは、好適となり得る。なぜなら、H&Eにて染色された組織画像は、染色された組織画像の最も共通する形態を表し、このタイプの染色はそれ単体で、特定の腫瘍のサブタイプ又はステージなどの患者関連属性値を予測することに使用され得る、たくさんのデータをすでに明らかにするからである。さらに、多くの病院は、過去に長年にわたって治療してきた患者から導き出された、H&Eにて染色された組織画像の大規模データベースを含む。典型的には、病院はまた、特定の患者が特定の治療に反応したか否か、及び/又は、疾患の進行がどれほど早いか、又は、どれほど深刻であるか、に関してのデータを有する。したがって、それぞれの結果がラベル付けされ得る、トレーニング画像の多くのコーパスが利用可能である(例えば、特定の薬による治療の有効性(イエス/ノー)、1年を超えて進行のない生存期間、2年を超えて進行のない生存期間など)。
実施形態によると、受信したデジタル画像は、それらのピクセル強度値が、バイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像を含む。バイオマーカ特異的染料は、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合された染色剤である。例えば、バイオマーカは、HER-2、p53、CD3、CD8などの特定のプロテインであり得る。バイオマーカ特異的染料は、上記のバイオマーカに選択的に結合する抗体に結合される明視野顕微鏡又は蛍光顕微鏡用の染色剤であり得る。
例えば、各タイルのバッグは、特定の薬に対するその反応が既知であるそれぞれの患者を表すことができる。この患者特有バッグに含まれるインスタンスは、この特定の患者のそれぞれの組織サンプルの1つ又はそれ以上の画像から導き出されたタイルである。1つ又はそれ以上の組織サンプルが、1つ又はそれ以上のバイオマーカ特異的染料を用いて染色される。例えば、タイルは、HER2特異的染料を用いて染色された、同じ患者の隣接する組織スライドをすべてが描く1つ、2つ、又は3つの組織画像から導き出され得る。別の例によると、タイルは、HER2特異的染料を用いて染色された第1の組織サンプルを描く第1の組織画像と、p53特異的染料を用いて染色された第2の組織サンプルを描く第2の組織画像と、線維芽細胞活性化タンパク質(fibroblast activation protein又はFAP)特異的染料を用いて染色された第3の組織サンプルを描く第3の組織画像と、から導き出され得る。第1、第2、及び第3の組織サンプルは、同じ患者から導き出される。例えば、それらは、隣接する組織サンプルスライスであり得る。これら3つの組織画像は、3つの異なるバイオマーカを描くが、すべての組織画像は、同じ患者から導き出される。したがって、それらから導き出されたすべてのタイルには、ラベル「薬Dに対する反応=真(true)の患者」が割り当てられる。
MILプログラムに、それらのピクセル強度値が、バイオマーカ特異的染料の量と相関するデジタル画像の画像タイルについてトレーニングさせることは、組織における1つ又はそれ以上の特定のバイオマーカの存在及び位置を特定することが、特定の疾患及び疾患のサブ形態に関して、特異な予測的情報を高度に明らかにし得る、という利点を有し得る。予測的情報は、2つ又はそれ以上のバイオマーカの存在との、観察される、正及び負の相関を含み得る。例えば、肺がん又は結腸がんなどのいくつかの疾患の推奨治療スキーム及び予測は、そのがんの変異性シグニチャ及び発現プロファイルに強く依存して観察される。時として、単一のマーカの発現は、それ単体では予測パワーを有しないが、複数のバイオマーカの組み合わされた発現、及び/又は、特定のさらなるバイオマーカが存在しないことは、特定の患者関連属性値に関して、高い予測パワーを有し得る。
実施形態によると、受信したデジタル画像は、それらのピクセル強度値が、第1のバイオマーカ特異的染料の量と相関する組織サンプルのデジタル画像と、それらのピクセル強度値が、非バイオマーカ特異的染料の量と相関する組織サンプルのデジタル画像と、の組み合わせを含む。バイオマーカ特異的染料は、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合された染色剤である。同じ患者から、同じ組織サンプルを描く、及び/又は、隣接する組織サンプルを描くすべてのデジタル画像には、同じラベルが割り当てられる。MILは、それらのデジタル画像から導き出されるすべてのタイルを、同じタイルのバッグのメンバーとして扱うよう構成されている。
このアプローチは、組織における1つ又はそれ以上の特定のバイオマーカの存在及び位置を、H&E染色により明らかにされる、情報の多い組織シグニチャと組み合わせて特定することが、特定の疾患及び疾患のサブ形態に関して、特異な予測的情報を提供し得る、という利点を有し得る。予測的情報は、2つ又はそれ以上のバイオマーカの存在との、及び/又は、H&E染色により視覚的に明らかにされる組織シグニチャとの、観察される、正及び負の相関を含み得る。
実施形態によると、画像タイルのレポートギャラリに示す画像タイルは、受信した画像の1つ又はそれ以上の異なるものから導き出される。本方法は、レポートタイルギャラリに描かれている1つ又はそれ以上の画像のそれぞれに対して、
その画像から導き出されており、その画像から導き出されたすべてのタイルに、最も高いスコアが割り当てられている、レポートギャラリにおけるタイルの1つを特定することであって、1つの実施形態によると、このスコアは、MILにより、各タイルに対して計算された数値であり、代替的な実施形態によると、このスコアは、本発明の実施形態についてここに説明するような、アテンションMLLにより、各タイルに対して計算された加重であり、さらに別の実施形態によると、このスコアは、そのタイルに対して、MILにより計算された数値と、アテンションMLLにより計算された加重と、の組み合わせであり、これにより、この組み合わせは、例えば、数値と加重との乗算であり得る、レポートギャラリにおけるタイルの1つを特定することと、
画像の他のタイルのそれぞれに対して、他のタイルのスコアを、最も高いスコアを有するタイルのスコアと比較することにより、関連性インジケータを計算することであって、関連性インジケータは、他のタイルのスコアの、最も高いスコアを有するタイルのスコアとの差異と負に相関する数値である、関連性インジケータを計算することと、
関連性インジケータの関数として、画像に対する関連性ヒートマップを計算することであって、これにより、関連性ヒートマップのピクセルカラー及び/又はピクセル強度は、その画像におけるタイルに対して計算された関連性インジケータを示す、画像に対する関連性ヒートマップを計算することと、
関連性ヒートマップを表示することと、
を含む。例えば、関連性ヒートマップは、レポートタイルギャラリにおいて、関連性ヒートマップが計算された、全体スライド画像に空間的に近接して表示され得る。
例えば、画像の、最も高くスコア付けされたタイルのスコアに高く類似するスコアを有する画像領域及びそれぞれのタイルは、第1の色(例えば、「赤」)又は高強度値を有して、関連性ヒートマップに表され得る。または、それらのスコアが、この画像のタイルの最も高いスコアに類似しない画像領域及びそれぞれのタイルは、第1の色とは異なる第2の色(例えば、「青」)又は低強度値を有して、関連性ヒートマップに表され得る。
これは、好適となり得る。なぜなら、GUIが、高い予測パワー(又は、「予測的値」)を有する組織領域及びそれぞれの画像タイルの位置及び範囲を示す関連性ヒートマップを、自動的に計算して提示するからである。関連性ヒートマップは、高関連性インジケータを有する組織領域をハイライトしてよい。タイルは典型的には、全体スライド画像の小さなサブ領域のみであり、レポートタイルギャラリは、そのようなものとして、全体組織サンプル上に概要を提供しなくともよい。高い予測的関連性を持つ組織パターンの位置及び範囲に関する概要情報は、全体スライド組織画像の元の画像と、高度に直感的でスマートな様式にて好適に組み合わされた関連性ヒートマップにより提供されてよい。
MILの数値に基づいて関連性ヒートマップを計算することは、アテンションMLLを実装して、これにトレーニングさせる必要がない、という利点を有し得る。したがって、システムアーキテクチャが、容易に実装され得る。
アテンションMLLにより計算された加重に基づいて関連性ヒートマップを計算することは、タイルの予測的関連性についての第2の測定数値が、MILの数値に加えて評価され、関連性ヒートマップに表される、という利点を有し得る。
特定のタイルに対して、MILにより計算された数値と、アテンションMLLにより計算された加重と、から導き出された、組み合わされた関連性スコアに基づいて、関連性ヒートマップを計算することは、タイルの予測的関連性について、2つの独立して計算された測定数値が統合され、組み合わされた値と、組み合わされた値に基づく関連性ヒートマップと、により表される、という利点を有し得る。これは、関連する組織セクションの特定を、さらに正確なものとし得る。
実施形態によると、GUIは、関連性ヒートマップが、MILの数値に基づいて、又は、アテンションMLLの加重に基づいて、又は、組み合わされたスコアに基づいて計算されるかについて、ユーザが選択することを可能にする。これは、タイルの予測パワーに関して、MIL及びアテンションMLLの出力がかなり異なるものなのかについて、ユーザが特定することを可能にし得る。
関連性ヒートマップを計算して表示することは、好適となり得る。なぜなら、このヒートマップは、MIL及び/又はアテンションMLLをトレーニングさせることに使用されるエンドポイントに関して、タイルの予測パワーを示すからである。したがって、関連性ヒートマップをユーザに表示することは、ユーザが、全体スライド画像内の特定のラベルに対して予測的である組織パターンを有するタイルの位置及び範囲を迅速に特定することを可能にする。
実施形態によると、レポートギャラリに示す画像タイルは選択可能である。GUIは、類似性サーチタイルギャラリを計算して表示するよう構成されている。この計算は、
レポートギャラリの画像タイルの特定の1つの、ユーザの選択を受信することと、
選択されたタイルに類似する組織パターンを描くすべての受信した画像から取得されたすべてのタイルを、選択されたタイルの特徴ベクトルへのその類似性が閾値を超える特徴ベクトルが割り当てられている、すべての受信した画像から取得されたすべてのタイルを特定することにより、特定することと、
類似性サーチギャラリであって、その特定されたタイルを選択的に含む類似性サーチギャラリを表示することと、
を含む。
実施形態によると、類似性サーチタイルギャラリを計算して表示することは、
選択されたタイルと同じラベルが割り当てられている選択されたタイルに類似する組織パターンを描くそれらのタイル内のタイルの数及び/又は割合を決定することと、
決定された数及び/又は割合を類似性サーチギャラリに表示することと、
をさらに含む。
これらの特徴は好適となり得る。なぜなら、人であるユーザが、検査された患者グループの間で、及び、特定のラベルを有する患者のサブセットにおいて、特定の組織パターンがどれほど共通しているかを迅速に決定できるからである。したがって、人であるユーザは、特定のタイルと、そこに描かれた組織パターンと、が、高い予測パワーを真に有するか否かについて、迅速かつ直感的に検証することができる。
例えば、ユーザは、画像のラベルに関して、最も高い数値が割り当てられており、したがって、最も高い予測パワーを有する、レポートギャラリのタイルの1つを選択してよい。タイルを選択した後に、ユーザは、タイルに基づく類似性サーチを、現在選択されているタイルとは異なるラベルが割り当てられ得る多くの異なる患者のタイル及び画像にわたって開始してよい。類似性サーチは、類似する特徴ベクトルに基づいて、類似するタイル及び類似する組織パターンを決定するための、特徴ベクトル及びタイルの比較に基づく。これらは、選択されたタイル(及び、その組織パターン)に類似するものの、選択されたタイルのラベルとは異なるラベル(例えば、「薬Dに対する反応=真(true)の患者」ではなく、「薬Dに対する反応=偽(false)の患者」)を有するタイル(及び、それぞれの組織パターン)の数及び/又は割合を評価して表示することによる。
したがって、病理学者は、「高く予測的」としてMILプログラムにより返されたタイルを選択することにより、MILプログラムにより特定された組織パターンの予測パワー、特に、過敏性及び特異性を容易にチェックし、類似する特徴ベクトルを有するデータセットにおいて、どれほど多くのタイルに、選択されたタイルと同じラベルが割り当てられているかを明らかにする類似性サーチを行うことができる。これは、組織画像の予測的特徴のインジケーションをも提供し得るが、ユーザは、これらの特徴を特定することも検証することも可能ではない、最新の機械学習アプリケーションを超える、大きな利点である。レポートギャラリ及び類似性サーチギャラリに基づき、人であるユーザは、提案された高い予測的組織パターンを検証でき、高い予測パワーを有し、類似する特徴ベクトルに関連付けられているすべてのタイルに示される、共通する特徴及び構造を言語化することもできる。
レポートギャラリにおけるタイルが選択可能であり、その選択が、ユーザにより選択されたタイルに類似する特徴ベクトル/組織パターンを有する他のタイルを特定して表示するための類似性サーチを行うことをトリガする特徴は、ユーザが興味を持つ、レポートタイルギャラリにおけるいずれの画像タイルを、そのユーザが自由に選択することを可能にし得る。例えば、病理学者は、上述するように、最も高い予測パワー(MILにより計算された、最も高い数値)を有する組織パターン及びそれぞれのタイルに興味を持ち得る。代替的に、病理学者は、典型的には、特定の低い予測パワー(特定の低い数値)を有するアーチファクトに興味を持ち得る。さらに代替的に、病理学者は、例えば、それが、薬のいくらかの副次的影響、又は、関連するいずれの他の生物医学的情報を明らかにするからといった、いずれの他の理由により、特定の組織パターンに興味を持ち得る。病理学者は、それぞれのレポートタイルギャラリにおけるタイルのいずれの1つを自由に選択する。これにより、病理学者は、類似性サーチと、その結果を、類似性タイルギャラリの形態にて計算して表示することと、をトリガする。この表示と、GUIと、は、類似性サーチの完了後に自動的にリフレッシュされ得る。
いくつかの実施形態によると、類似性サーチギャラリの計算と表示とは、類似性ヒートマップの計算と表示とを含む。ヒートマップは、類似するタイル及びそれぞれの特徴ベクトルを、色及び/又はピクセル強度においてエンコードする。類似する特徴ベクトルを有する画像領域及びタイルは、ヒートマップにて、類似する色、及び/又は、高又は低ピクセル強度と共に表される。したがって、ユーザは、全体スライド画像における特定の組織パターンシグニチャの分布の概要を迅速に取得できる。ヒートマップは、異なるタイルをシンプルに選択することにより、容易にリフレッシュされ得る。なぜなら、この選択が、新たに選択されたタイルの特徴ベクトルに基づく、特徴ベクトルの類似性の再計算を自動的に誘起するからである。
実施形態によると、類似性サーチギャラリは、類似性ヒートマップを含む。本方法は、従属的方法により、類似性ヒートマップを生成することを含む。本従属的方法は、
レポートタイルギャラリにおけるタイルの1つを選択することと、
受信した画像のいくつか又はすべての他のタイルのそれぞれに対して、選択されたタイルに関して、類似性スコアを、同じ画像と、選択されたタイルの特徴ベクトルを有する他の画像と、から導き出された、他のタイルの特徴ベクトルを比較することにより計算することと、
それらのタイルが、それぞれの類似性スコアを計算するために使用された画像のそれぞれに対して、それぞれの類似性ヒートマップを、選択されたタイルに対する、その画像におけるタイルの類似性を示す類似性ヒートマップの類似性スコア、ピクセルカラー、及び/又はピクセル強度の関数として計算すること、
類似性ヒートマップを表示することと、
を含む。
実施形態によると、類似性サーチギャラリに示す画像タイルもまた、選択可能である。
類似性ヒートマップは、人であるユーザが、特定の組織において、又は、特定のラベルを有する患者のサブグループの組織サンプルにおいて、対象の特定の組織パターンがどれほど広がっているかについて容易に認識できる、有益な概要情報を提供し得る。ユーザは、サーチギャラリにおけるタイルのいずれを自由に選択できる。これにより、現在選択されているタイルに割り当てられた特徴ベクトルに基づく類似性ヒートマップの再計算と、類似性ヒートマップを含むGUIの自動リフレッシュと、が、それぞれ誘起される。
実施形態によると、レポートギャラリにおける、及び/又は、類似性サーチタイルギャラリにおける画像タイルは、それらの組織サンプル画像からタイルが導き出されている患者に基づいてグループ化される。代替的な実施形態によると、レポートギャラリにおける、及び/又は、類似性サーチタイルギャラリにおける画像タイルは、タイルが導き出されている画像に割り当てられたラベルに基づいてグループ化される。
典型的には、同じ患者から導き出されたすべての画像は同じラベルを有することとなり、特定の患者のそれらの画像から導き出されたすべてのタイルは、MILにより、同じ「バッグ」のメンバーとして扱われることとなる。しかし、いくつかの例外的な場合では、同じ患者の異なる画像に異なるラベルが割り当てられる場合がある。例えば、第1の画像が、患者の第1の転移巣を描き、第2の画像が、同じ患者の第2の転移巣を描き、薬Dを用いた治療に応えて、第1の転移巣が消失する一方、第2の転移巣が成長し続けることが観察される場合、患者関連属性値は、患者毎の代わりに、画像毎に割り当てられ得る。この場合では、患者毎に、複数のタイルのバッグがあり得る。
別の例によると、患者の組織サンプルの画像は、特定の薬を用いた治療の前後に取得され、MILをトレーニングさせることに、及び/又は、トレーニング済みMILを適用することに使用されるエンドポイント(ラベル)は、属性値「組織の状態=薬Dを用いた治療後」、又は、属性値「組織の状態=薬Dを用いた治療前」である。MILに、その患者関連属性値についてトレーニングさせることは、腫瘍における薬の活性及び形態学的効果を示す組織パターンを特定する、という利点を有し得る。そのような特定された薬の効果に関する組織パターンは、薬の作用のモード、同様に、潜在的な薬の悪影響を検証して診査することを可能にし得る。
実施形態によると、本方法は、追加的なタイルのセットを生成することにより、タイルのバッグの数を計算的に増やすことをさらに含み、各追加的なタイルのセットは、MILプログラムにより、ソースタイルが生成された組織画像と同じラベルが割り当てられている、追加的なタイルのバッグとして扱われる。追加的なタイルのセットの生成は、特に、1つ又はそれ以上のアーチファクト生成アルゴリズムを、アーチファクトを含む新たなタイルを生成するために、タイルの少なくとも1つのサブセットに適用することを含む。加えて、又は代替的に、追加的なタイルのバッグの生成は、それらのそれぞれのソースタイルよりきめが細かい、又は、これよりきめが粗い、新たなタイルを生成するために、タイルの少なくとも1つのサブセットの解像度を増やすこと、又は、これを減らすことを含むことができる。
例えば、サブセットは、患者のそれぞれに対して、その患者から取得された1つ又はそれ以上の組織画像のいくつか又はすべてのタイルをランダムに選択することにより取得され得る。アーチファクト生成アルゴリズムは、画像のアーチファクトをシミュレーションする。画像のアーチファクトは、例えば、組織の用意、染色、及び/又は画像の取得中に生成されるタイプのアーチファクトであり得る(例えば、エッジアーチファクト、過染色、染色不足、ダスト、スペックル(speckle)アーチファクト、(ガウシアンブラー(Gaussian blur)などによりシミュレーションされる))。加えて、又は代替的に、アーチファクトは、包括的なノイズタイプであり得る(例えば、閉塞、色のジッタリング、ガウシアンノイズ(Gaussian noise)、ソルト&ペッパー、回転、フリップ、スキュー歪などによりシミュレーションされる)。
追加的なタイルのバッグの生成は、追加的なトレーニングデータが、利用可能なトレーニングデータの限定されたセットから生成される、という利点を有し得る。追加的なトレーニングデータは、サンプルの用意及び画像の取得のコンテキストにおいてしばしば起こる一般的な歪、アーチファクト、及びノイズによりその品質が下がる場合がある画像データを表す。したがって、トレーニング中にMILプログラムに内在する、モデルの過学習が回避されることを、拡大されたトレーニングデータセットが確実にし得る。
実施形態によると、本方法は、1つ又はそれ以上の受信したデジタル画像から取得されたタイルのクラスタを計算することをさらに含む。ここで、タイルは、それらの特徴ベクトルの類似性に基づいて、クラスタにグループ化される。好ましくは、クラスタは、患者のそれぞれに対して計算される。これは、タイルの特徴ベクトルが十分に類似していれば、同じ患者の異なる組織スライドを描く異なる画像からのタイルが、同じクラスタにグループ化され得る、ということを意味する。
他の実施形態によると、クラスタは、すべての患者からのすべてのタイルに対して共に計算される。
(異なる患者のすべてのタイルを共に、又は、患者毎に)クラスタ化する方法の双方では、互いに類似して見えるタイル(すなわち、類似する特徴ベクトルを有する)が、同じクラスタにクラスタ化される。
例えば、「異なる患者のすべてのタイルをクラスタ化する」場合では、クラスタ化の結果は、すべての患者に対するすべてのタイルに対するタイルの64のグループ(クラスタ)の生成となり得る。64のクラスタのそれぞれは、異なる患者から導き出された類似するタイルを含む。反対に、患者毎にクラスタ化する場合では、各患者が、その患者自身の64のクラスタを有することとなる。
患者毎にクラスタが生成される場合、患者の画像には、脂肪を含むタイルが無いか、又は、脂肪を含むタイルが非常に少量の場合があり得る。この場合では、「脂肪クラスタ」は生成されない場合がある。なぜなら、その「脂肪」を特徴とする特徴ベクトルの周りのクラスタを学習させるためのデータが十分でないからである。しかし、すべての患者のすべてのタイルを共にクラスタ化する方法を行うことは、多数のクラスタ/組織タイプが、最大量の利用可能なデータを用いて特定され得る、という利点を有し得る。「全患者タイル」のクラスタ化では、「脂肪」組織パターンに対するクラスタが特定される可能性が高い。なぜなら、少なくとも数人の患者が、彼らの生体検査において、いくらかの脂肪細胞を有するであろうからである。したがって、データセットにおいて、脂肪細胞を描くタイルの数が十分である可能性がある場合、脂肪細胞に対するクラスタが生成されるであろう(脂肪細胞含有量が非常に少ない患者に対しても)。クラスタが、すべての患者のすべてのタイルに対して共に生成され、1つのクラスタが、脂肪細胞を表す場合は、患者のすべてからの、脂肪細胞を持つすべてのタイルが、そのクラスタにグループ化される。これは、特定の患者/バッグについて、脂肪細胞を持つすべてのタイルが共に、そのクラスタにグループ化され、クラスタのサンプリングがそのバッグに対して使用される場合、そのクラスタに属する(現在の患者/バッグからの)タイルのいくつかが選択される、ということを意味する。
タイルをクラスタ化することは好適となり得る。なぜなら、この演算は、特定の患者において観察可能な組織パターンの数及び/又はタイプを明らかにし得るからである。いくつかの実施形態によると、GUIは、ユーザが、タイルのクラスタ化と、タイルクラスタの、クラスタ化されたギャラリビューでの提示と、をトリガすることを可能にする、ユーザによる選択が可能な要素を含む。これは、患者の特定の組織サンプルにおいて観察される、重要なタイプの組織パターンを、ユーザが直感的かつ迅速に理解することをアシストし得る。
実施形態によると、MILプログラムのトレーニングは、タイルのセットを繰り返しサンプリングし、タイルのセットから、タイルのサブセットを取り出すことと、MILプログラムに、タイルのサブセットについてトレーニングさせることと、を含む。
「サンプリング」という言葉は、ここで使用されるように、データセット(患者の1つ又はそれ以上の画像から取得されるタイルの合計)における多数のNデータアイテム(インスタンス、タイル)から、具体的に選ばれた数のLサンプル(ここでは、インスタンス、すなわち、タイル)を取り出すことを含む、データ分析、又は、機械学習アルゴリズムにトレーニングさせることのコンテキストにおいて使用される技術である。実施形態によると、「サンプリング」は、トレーニングデータセットにおけるNタイルの合計を統計的に表すよう推定される確率分布にしたがって、多数のNデータアイテム内からデータアイテムのサブセットを選択することを含む。これは、母集団全体の性質をより正確に学習させることを可能にし得る。確率分布は、機械学習プロセスをガイドし、「データからの学習」を実現可能にする統計的仮定を表す。
いくつかの実施形態によると、サンプリングは、サンプルしたタイルのバッグを提供するために、タイルのサブセットをランダムに選択することにより行われる。
実施形態によると、クラスタ化と、サンプリングと、は、次のように組み合わせられる:サンプリングは、患者に対して取得されたタイルクラスタのそれぞれから、サンプリングにおいて生成された各タイルのサブセットにおけるタイルの数が、そのタイルが取り出されるクラスタのサイズに対応するように、タイルを選択することを含む。
例えば、特定の患者のデジタル組織画像から、1000のタイルが生成されてよい。クラスタ化は、300のタイルを含む、背景組織スライド領域を示す第1のクラスタと、400のタイルを含む、ストローマ組織領域を示す第2のクラスタと、200のタイルを含む、転移腫瘍組織を示す第3のクラスタと、40のタイルを含む、特定の染色アーチファクトを示す第4のクラスタと、60のタイルを含む、微小血管を持つ組織を示す第5のクラスタと、を生成する。
1つの実施形態によると、サンプリングは、クラスタのそれぞれから、50%などの、タイルの特定の割合を選択することを含む。これは、クラスタ1からは150のタイル、クラスタ2からは200のタイル、クラスタ3からは100のタイル、クラスタ4からは20のタイル、クラスタ5からは30のタイル、を意味することとなる。
好適な実施形態によると、サンプリングは、各クラスタから、等しい数のタイルを選択することを含む。このサンプリングのアプローチは、異なるタイプのクラスタから、同じ数のタイル/組織パターン例が取り出され、これにより、トレーニングデータセットをよりバランスの取れたものとすることができる、という利点を有し得る。これは、トレーニングデータセットにおいて、所望する予測的特徴がまれである場合に、トレーニング済みMIL、及び/又は、トレーニング済みアテンションMLLをさらに正確なものとし得る。
クラスタ化とサンプリングとの組み合わせは、特に好適となり得る。なぜなら、実際に高い予測パワーのものであるいくつかのタイルを意図せずに「失う」ことなく、トレーニング用のデータの根拠を増やすことができるからである。デジタル病理学のコンテキストにおいてはしばしば、組織サンプルの圧倒的大多数のエリアは、特定の疾患又は他の患者関連属性により変性し、その予測的である、組織領域を含まない。例えば、組織サンプルの小さいサブ領域のみが、腫瘍細胞を実際に含まれ得、残りは、正常な組織を示し得る。タイルのクラスタ化をまず行い、続いて、クラスタのそれぞれからタイルを選択することは、腫瘍細胞又は微小血管などの予測的組織パターンを示す、少量のタイルの少なくともいくつかが、常に確実に、サンプルの一部となることを確実にし得る。
特徴抽出アプローチ
実施形態によると、タイルのそれぞれに対して特徴ベクトルを計算することは、その組織サンプルがタイルに描かれている患者の患者関連データを受信することと、患者関連データを、特徴ベクトルにおける1つ又はそれ以上の特徴の形態にて表すことと、を含む。患者関連データは、特に、ゲノムデータ、リボ核酸(ribonucleic acid又はRNA)配列データ、患者の既知の疾患、年齢、性別、体液における代謝物濃度、健康パラメータ、及び現在の投薬、を含むグループから選択される。
実施形態によると、特徴ベクトルを計算することは、トレーニング済み機械学習ロジック、特に、少なくとも1つのボトルネックレイヤを含むトレーニング済み全畳み込みニューラルネットワークにより行われる。
実施形態によると、特徴抽出に使用されるトレーニング済み機械学習ロジック(「特徴抽出MLL」)は、ユニバーサルネットワーク(universal network又はUNET)などの、ボトルネックを含む、全畳み込みネットワークのタイプのMLLを採択する教師ありの方法においてトレーニングされる。「Unet」アーキテクチャは、Olaf Ronneberger、Philipp Fischer、及びThomas Broxによる、「Uネット:生物医学的画像のセグメンテーションのための畳み込みネットワーク(U-Net: Convolutional Networks for Biomedical Image Segmentation)」、Computer Science Department and BIOSS Centre for Biological Signalling Studies、University of Freiburg、ドイツ(arXiv:1505.04597v1、2015年5月18日)、にて説明されている。本文書は、Cornell University Libraryの、https://arxiv.org/abs/1505.04597からダウンロードできる。
例えば、特徴抽出MLLは、組織画像セグメンテーションタスクを行うようトレーニングされ得る。これにより、特定されるセグメントは、2つ又はそれ以上の次の組織画像セグメントタイプ:腫瘍組織、健康な組織、壊死した組織、腫瘍細胞、血管、ストローマ、リンパ球などの特定の対象を含む組織などと、背景エリアと、を含む。いくつかの実施形態によると、特徴抽出MLLは、教師ありの様式にて、Resnet、ImageNet、又はSegNetなどの分類ネットワークを使用して、それを、特定の所定のクラス又はオブジェクトを持つ画像のタイルに分類するようトレーニングさせることによりトレーニングされる。
特徴抽出MLLにトレーニングさせた後に、MLLは、(入力レイヤと、1つ又はそれ以上の中間レイヤと、ボトルネックレイヤと、を含む)「エンコーダ」部と、「デコーダ」、すなわち、出力生成部と、に分割される。トレーニング済みMLLの、ボトルネックレイヤまでの「エンコーダ」部は、本発明の実施形態にしたがって、各入力タイルに対する特徴ベクトルを抽出して計算するために使用される。ボトルネックレイヤは、入力レイヤよりもかなり少ないニューロンを含む、ニューラルネットワークのレイヤである。例えば、ボトルネックレイヤは、入力レイヤの、60%未満、又は、さらに、20%未満の「ニューロン」を含むレイヤであり得る。異なるレイヤにおけるニューロンの数及び比率は、異なるネットワークアーキテクチャに大きく依存して異なる場合がある。ボトルネックレイヤは隠れレイヤである。
1つの例によると、特徴抽出MLLのネットワークは、UNETに基づくネットワークアーキテクチャを有する。これは、512*512*3(512×512の赤緑青(red, green, and blue又はRGB))のニューロンを持つ入力レイヤと、9*9*128のニューロンを持つボトルネックレイヤと、を有する。したがって、ボトルネックレイヤにおけるニューロンの数は、入力レイヤのニューロンの数の約1.5%である。
1つの例によると、特徴抽出MLLのネットワークは、教師あり又は教師なし学習アルゴリズムを実装するResnetアーキテクチャを有する。入力レイヤは、512×512×3のニューロンを含む。ボトルネックレイヤと、ボトルネックレイヤにより出力される、対応する特徴ベクトルと、は、典型的には、1024又は2048の要素(ニューロン/数)を含む。
実施形態によると、特徴抽出は、ImageNet自然画像データセットについてトレーニングされたResNet-50(Heら、2016)アーキテクチャに基づく特徴抽出プログラムモジュールにより行われる。このアーキテクチャに基づく、画像からの特徴抽出についてのいくつかの詳細例は、Pierre Courtiol、EricW.、Tramel、Marc Sanselme、及びGilles Wainribによる、「グローバルラベルのみを使用する、組織病理学における分類及び疾患位置特定:弱教師ありアプローチ(CLASSIFICATION AND DISEASE LOCALIZATION IN HISTOPATHOLOGY USING ONLY GLOBAL LABELS: A WEAKLY-SUPERVISED APPROACH)」、arXiv:1802.02212、提出日:2018年2月1日、これは、Cornell University Libraryの、https://arxiv.org/pdf/1802.02212.pdfからオンラインにて利用可能、に説明されている。
実施形態によると、特定のタイルに対する、トレーニング済み特徴抽出MLLのレイヤの1つにより生成される出力は、MILプログラムによりタイルから抽出された特徴ベクトルとして使用される。この1つのレイヤは、特に、ボトルネックレイヤであり得る。実施形態によると、特徴抽出MLLは、教師なし又は自己教師ありの様式にてトレーニングされている。これは、Mathilde Caron、Piotr Bojanowski、Armand Joulin、及びMatthijs Douzeによる、「視覚的特徴の教師なし学習のためのディープクラスタ化(Deep Clustering for Unsupervised Learning of Visual Features)」、CoRR、1807.05520、2018年、これは、https://arxiv.org/abs/1807.05520から電子的に利用可能、に説明されている。
代替的に、特徴抽出MLLは、Spyros Gidaris、Praveer Singh、及びNikos Komodakisによる、「画像の回転を予測することによる教師なし表現学習(Unsupervised Representation Learning by Predicting Image Rotations)」、2018年2月15日、ICLR 2018 Conference、これは、https://openreview.net/forum?id=S1v4N2l0-から電子的に利用可能、にしたがってトレーニングされ得る。
さらに代替的に、特徴抽出MLLは、Elad Hoffer及びNir Ailon.による、「メトリックエンベッディングによる半教師ありディープラーニング(Semi-supervised deep learning by metric embedding)」、2016年11月4日、ICLR2017、これは、https://openreview.net/forum?id=r1R5Z19leから電子的に利用可能、にしたがってトレーニングされ得る。
特徴抽出MLLをトレーニングさせるためのデータセットは、MILプログラムをトレーニングさせることに後に使用される、別の組織画像データセット、及び/又は、組織画像のセットであり得る。トレーニング画像に関連付けられたいずれのラベルは、評価されない、又は、さもなければ、トレーニングフェーズにおいて、特徴抽出MLLにより使用される。なぜなら、特徴抽出MLLは、MILプログラムの学習フェーズのエンドポイントとして使用される、患者の患者関連属性値ではなく、組織タイプ及びそれぞれの画像セグメントを特定するようトレーニングされるためである。
近接に基づく類似性ラベルの使用を可能にする特徴抽出アプローチ
実施形態によると、特徴ベクトルは、ラベル付けされたタイルペアを含むトレーニングデータセットについてトレーニングされた特徴抽出機械学習ロジック(「特徴抽出MLL」)により計算される。これにより、各ラベルは、タイルペアにより描かれた2つの組織パターンの類似性を表し、タイルペアの2つのタイルの空間的距離の関数として計算される。
好適な実施形態によると、各ラベルは、タイルペアにより描かれた2つの組織パターンの類似性を表す。これは、タイルペアの2つのタイルの空間距離の関数として計算される。これにより、空間距離が、2つのタイルの類似性のみの尺度として使用される。
好適な実施形態によると、ラベルは、トレーニングデータセットにおけるタイルペアに完全に自動的に割り当てられる。
このアプローチは、次の複数の理由について有益となり得る:2つの画像領域の空間的近接は、組織サンプルのすべてのデジタル画像において常に、そして本質的に利用可能な特徴である。問題は、画像及びそれぞれの組織領域そのものの空間的近接は、典型的には、組織タイプの分類、疾患分類、特定の疾患の持続性の予測、又は画像セグメンテーションタスクなどの、生物医学的問題に関するいずれの関連情報を明らかにしない、ということである。出願人は、少なくとも、多数のタイル及びそれらのそれぞれの距離が、MLLのトレーニングフェーズ中に分析される場合、2つの画像領域(「タイル」)の空間的近接においてもたらされる情報が、2つの画像領域の類似性の正確なインジケータであることを、驚くほど観察した。したがって、組織パターン類似性ラベルを、2つの比較されたタイルに自動的に割り当てるために、2つのタイルの本質的に利用可能な情報である「空間的近接」を使用可能にすることにより、MLLをトレーニングさせることに使用され得る、大規模な注釈付きデータセットが、自動的に提供され得る。トレーニング済みMLLは、入力として受信された、2つの画像又は画像タイルが、類似する組織パターン、又は、類似しない組織パターンを描くかについて、自動的に決定することに使用され得る。しかし、データセットは、これに加えて、画像類似性サーチ、画像セグメンテーション、組織タイプの検出、及び組織パターンのクラスタ化などの、他のより複雑なタスクに使用され得る。したがって、出願人は、タイルの空間的近接においてもたらされる情報が、画像の類似性を確実に決定するMLLにトレーニングさせることを可能にし、これに加えて、デジタル病理学における複数の複雑な画像分析タスクのための追加的なデータ処理ユニットにより使用され得る特徴ベクトルを出力するMLLにトレーニングさせることを可能にし得る注釈付きトレーニングデータを自動的に生成することに使用され得る、ということを、驚くほど観察した。これらのアプローチはどれも、トレーニングデータに手動で注釈を付けるドメインエキスパートを必要としない。
多くの異なる組織パターン(例えば、「非腫瘍」及び「腫瘍」)を含むトレーニング画像が、多くの異なるタイルに分割される場合、2つのタイル間の距離が短いほど、比較されたタイルの双方が、「非腫瘍」などの、同じ組織パターンを描く確率は高い。しかし、異なる組織パターン(例えば、最初のタイルが「腫瘍」であり、他のタイルが「非腫瘍」)を描く2つの異なるパターンの境界のそばには、いくつかのタイルペアがある。これらのタイルペアは、ノイズを生成する。なぜなら、これらは、空間的に密接して近接しているものの、異なる組織パターンを描くからである。出願人は、空間的近接が、描かれた組織パターンの類似性を示す、という簡略化する仮定と組み合わせて、異なる組織パターン間の境界に広がるタイルペアにより生成されたこのノイズが、トレーニング済みMLLの正確さを大きく落とすことはない、ということを、驚くほど観察した。事実、出願人は、本発明の実施形態にしたがってトレーニングされたMLLの正確さは、既存のベンチマーク方法のそれらをしのぐことができる、ということを観察した。
さらに有益な態様では、多くの異なる画像のセットに対して、トレーニングデータをいまでは、迅速に、完全に、自動的に生成できる。現在、自然で実際的な変動性を組織病理学の画像に撮像する、利用可能な注釈付きデータセットが足りていない。例えば、Camelyonのような、既存の大規模なデータセットでさえ、1つのタイプの染色(ヘマトキシリン(Hematoxylin)及びエオシン(Eosin))と、1つのタイプのがん(乳がん)と、のみからなる。組織病理学の画像のテクスチャ及び物体形状は、異なるがんタイプ、異なる組織染色タイプ、及び異なる組織タイプからの画像において大きく異なる場合がある。追加的に、組織病理学の画像は、ドメインに特有の異なる意味(例えば、ストローマ、腫瘍浸潤リンパ球、血管、脂肪、健康な組織、壊死など)を持つ、多くの異なるテクスチャ及びオブジェクトタイプを含む。したがって、本発明の実施形態は、複数の異なるがんタイプ、がんサブタイプ、染色方法、及び患者グループ(例えば、治療済み/未治療、男性/女性、閾値年齢より高年齢/若年齢、バイオマーカに正/バイオマーカに負など)のそれぞれに対して、注釈付きデータセットを自動的に生成することを可能にし得る。したがって、本発明の実施形態は、注釈付きトレーニングデータを生成することと、それぞれのMLLに、トレーニングデータについてトレーニングさせることと、を自動的に可能にし、結果としてのトレーニング済みMLLが、複数の異なる患者のグループのそれぞれに対して、特異的な様式にて、生物医学的問題に正確に対処するよう適合されるようにし得る。手動で注釈が付けられた乳がんデータセットについてトレーニングされたMLLが、結腸がん患者に対して次善の結果を提供する、最新のアプローチとは反対に、本発明の実施形態は、MLLを、異なる患者グループのそれぞれに対して個別に生成することを可能にし得る。
実施形態によると、2つの組織パターンの類似性の程度を示すラベルは、バイナリデータ値、すなわち、2つの可能なオプションの内の1つを有し得る値、である。例えば、ラベルは、「1」又は「類似する」であり得、これは、2つのタイルが、同様の組織パターンを描くことを示す。代替的に、ラベルは、「0」又は「類似しない」であり得、これは、2つのタイルが、類似しない組織パターンを描くことを示す。他の実施形態によると、ラベルは、よりきめを細かくでき、例えば、「類似しない」、「類似する」、及び「高く類似する」などの、3つ又はそれ以上のデータ値の限定されたセットから選択されたデータ値であり得る。さらなる他の実施形態によると、ラベルは、もっときめを細かくでき、数値の大きさが、類似性の程度と正に相関する数値であり得る。例えば、数値は、ペアにおける2つのタイル間の空間距離を、組織パターン類似性を表す数値に線形に変換する、及び、逆に変換する関数として計算され得る。空間距離が長いほど、組織パターン類似性を示す数値は小さい。非常に多種のMLLアーキテクチャが存在し、これらは、トレーニングデータセット(例えば、序数、又は、数値)において、異なるタイプのラベルを処理し、使用できる。MLLのタイプは、それが、トレーニングデータセットの自動的に生成されたラベルを処理できるよう選ばれる。
実施形態によると、自動的に注釈が付けられたトレーニングデータセットについてトレーニングされており、特徴抽出に使用されるMLLは、教師あり学習アルゴリズムにしたがって学習するよう適合されている。教師あり学習は、入力特徴のセットを、1つ又はそれ以上の出力データ値に変換するマッピングを見つけようとするものである。出力データ値は、トレーニング中に、ラベルとして、例えば、バイナリオプションラベル「類似する」若しくは「類似しない」として、又は、類似性に対する定量的尺度である数値として提供される。換言すると、トレーニング中、予測されなければならないデータ値が、MLLのモデルに、トレーニングデータのラベルの形態にて明示的に提供される。教師あり学習には、各サンプルに対する出力スペースを画定するために、トレーニングデータがラベル付けされる必要があるという問題がつきまとう。
実施形態によると、タイルペアの少なくともいくつか又はすべてはそれぞれ、同じ組織スライスに含まれる2つの組織領域を描く。組織スライスのそれぞれは、受信したデジタル画像のそれぞれの1つに描かれる。タイル間の距離は、ペアにおけるタイルが導き出された、受信したデジタル画像のx次元及びy次元により画定される、二次元(2-dimensional又は2D)座標系内にて計算される。
実施形態によると、タイルペアは、複数の異なる画像のそれぞれ内のタイルペアをランダムに選択することにより生成される。ランダムに基づく選択は、各ペアにおけるタイル間の空間距離が異なることを確実にする。例えば、2つのタイル間の距離と逆に相関する数値の形態での類似性ラベルが計算され、各ペアに割り当てられる。
他の実施形態によると、タイルペアは、各受信した画像のタイルの少なくともいくつか又はすべてを、開始タイルとして選択することと、各開始タイルに対して、すべて、又は、予め定められた数の「近くのタイル」を選択することであって、「近くのタイル」は、開始タイルを中心とする第1の円内のタイルであり、これにより、この円の半径が、第1の空間的近接閾値と同一となる、「近くのタイル」を選択することと、各開始タイルに対して、すべて、又は、予め定められた数の「遠くのタイル」を選択することであって、「遠くのタイル」は、開始タイルを中心とする第2の円の外側にあるタイルであり、これにより、その円の半径が、第2の空間的近接閾値と同一となる、「遠くのタイル」を選択することと、により生成され、予め定められた数の選択が、それぞれの画像エリア内のこの数のタイルをランダムに選ぶことにより行われ得る。第1及び第2の近接閾値は同一であってよいが、第2の近接閾値が、第1の近接閾値より大きいことが好ましい。例えば、第1の近接閾値は1mmであり得、第2の近接閾値は10mmであり得る。続いて、第1のタイルペアのセットが選択される。これにより、各タイルペアは、開始タイルと、第1の円内に位置する近くのタイルと、を含む。第1のセットにおける各タイルペアには、ラベルが「類似する」の組織パターンが割り当てられる。加えて、第2のタイルペアのセットが選択される。これにより、そのセットにおける各ペアは、開始タイルと、「遠くのタイル」の1つと、を含む。第2のセットにおける各タイルペアには、ラベルが「類似しない」の組織パターンが割り当てられる。例えば、この実施形態は、「類似する」又は「類似しない」の「バイナリ」ラベルを生成することに使用され得る。
実施形態によると、タイル間の距離は、タイルが導き出されるデジタル画像のx軸及びy軸により画定される2D座標系内にて測定される。これらの実施形態は、異なる患者の組織サンプル、及び/又は、同じ患者内の異なる領域を描く複数の組織サンプル画像が利用可能なシチュエーションにおいて使用され得る。これにより、それらの異なる領域は、互いに離れている、又は、これにより、これら2つの領域の、互いに関する正確な位置は未知である。この場合では、タイル間の空間的近接は、デジタル画像により画定される、ピクセルの2D面内のみにて測定される。画像取得デバイス(例えば、顕微鏡のカメラ、又は、スライドスキャナ)の既知の分解能係数に基づいて、2つのタイルにより描かれた組織サンプルにおける組織領域間の距離を計算するために、元の画像のタイル間の距離が使用され得る。
実施形態によると、タイルペアの少なくともいくつか又はすべては、隣接する組織スライスのスタックの2つの異なる組織スライスに含まれる2つの組織領域を描く。組織スライスのそれぞれは、受信したデジタル画像のそれぞれの1つに描かれる。隣接する組織スライスのスタックの組織スライスを描く受信した画像は、三次元(3-dimensional又は3D)座標系において互いに整列される。タイル間の距離は、3D座標系内にて計算される。
例えば、いくつか又はすべての受信したデジタル画像は、隣接する組織スライスの組織ブロック内のスライスである組織サンプルを描き得る。この場合では、デジタル画像は、共通の3D座標系において互いに整列され得、3D座標系におけるデジタル画像の位置が、組織ブロック内の、それぞれが描かれた組織スライスの位置を再現するようになっている。これは、3D座標系におけるタイルの距離を決定することを可能にし得る。「近くの」及び「遠くの」タイルの選択は、2D座標系の場合について上述するように行われ得るが、唯一の違いは、少なくともいくつかのタイルペアにおけるタイルが、受信した画像の異なるいくつかから導き出される、ということである。
いくつかの実施形態によると、注釈付きトレーニングデータは、同じデジタル画像から導き出されたタイルペアと、同様に、共通の3D座標系において互いに整列された異なる画像から導き出されたタイルペアと、の双方を含む。これは、有益となり得る。なぜなら、3つ目の次元(異なる組織サンプルにおける組織領域を表すタイルの空間的近接)の考慮は、それぞれの組織サンプルの、少数の画像のみが利用可能である場合に、トレーニングデータにおけるタイルの数を大いに増やし得、これにより、組織サンプルが、3D生体検査細胞ブロックなどの、同じ細胞ブロックに属するからである。
実施形態によると、各タイルは、0.5mm未満、好ましくは、0.3mm未満の最長エッジ長さを有する組織又は背景領域を描く。
タイルサイズが小さいということは、異なる組織パターンを混ぜたものを描くタイルの数及びエリアの割合が減る、という利点を有し得る。これは、2つ又はそれ以上の異なる組織パターンを描くタイルにより、及び、2つの異なる組織パターンを描く「組織パターン境界」のそばのタイルペアにより生成されるノイズを減らすことを助け得る。加えて、タイルサイズが小さいということは、多数のタイルペアを生成して、これらにラベル付けすることを可能にし得、これにより、ラベル付けされたトレーニングデータの量が増える。
実施形態によると、タイルペアの自動生成は、第1のタイルペアのセットを、第1の空間的近接閾値を使用して生成することであって、第1のセットにおける各タイルペアの2つのタイルにより描かれた2つの組織領域は、第1の空間的近接閾値より小さい距離だけ、互いに離れている、第1のセットのタイルペアを、第1の空間的近接閾値を使用して生成することと、第2のセットのタイルペアを、第2の空間的近接閾値を使用して生成することであって、第2のセットにおける各タイルペアの2つのタイルにより描かれた2つの組織領域は、第2の空間的近接閾値より大きい距離だけ、互いに離れている、第2のセットのタイルペアを、第2の空間的近接閾値を使用して生成することと、を含む。例えば、これは、本発明の実施形態についてすでに上述するように、複数の開始タイルを選択することと、各開始タイルの周りに、第1及び第2の空間的近接閾値に基づいて、第1及び第2の円を計算することと、開始タイルと、「近くのタイル」(第1のセット)又は「遠くのタイル」(第2のセット)と、を含むタイルペアを選択することと、により実施され得る。
実施形態によると、第1及び第2の空間的近接閾値は同一であり、例えば、1mmである。
好適な実施形態によると、第2の空間的近接閾値は、第1の空間的近接閾値より少なくとも2mm大きい。これは、好適となり得る。なぜなら、組織パターンが、あるパターンから別のパターンへと段階的に変わる場合では、「遠くのタイル」に描かれている組織パターンの、「近くの」タイルに描かれている組織パターンと比較しての、これらの間の差異が明確となり得、学習効果が改善され得るからである。
実施形態によると、第1の空間的近接閾値は、2mmより短く、好ましくは、1.5mmより短く、特に、1.0mmの距離である。
加えて、又は代替的に、第2の空間的近接閾値は、4mmより長く、好ましくは、8mmより長く、特に、10.0mmの距離である。
これらの距離閾値は、デジタル画像及びそれぞれのタイルに描かれている組織領域(又は、スライス背景領域)の距離を指す。画像取得デバイスの既知の倍率と、デジタル画像の解像度と、に基づき、この距離は、デジタル画像の2D又は3D座標系内の距離に変換され得る。
例えば、タイル(及び、それらに描かれた組織領域)間の距離は、2d又は3D座標系における2つのタイルの中心間にて測定され得る。代替的な実施変異形によると、距離は、2D又は3D座標系において互いに最も近い2つのタイルエッジ(画像領域エッジ)間にて測定される。
上記の閾値は、乳がん患者に対して類似する及び類似しない組織パターンを正確に特定することができるトレーニング済みMLLを自動的に生成することを可能にする、ラベル付けされたトレーニングデータを提供するために観察されている。いくつかの他の実施例では、第1及び第2の空間的近接閾値は、他の値を有し得る。特に、異なる組織タイプ又はがんタイプを示す、受信したデジタル画像の異なるセットが使用される場合では、第1及び第2の空間的近接閾値は、上記に提供される距離閾値とは異なる他の値を有し得る。
実施形態によると、本方法は、特徴抽出MLLにトレーニングさせるためのトレーニングデータセットを生成することをさらに含む。本方法は、それぞれが組織サンプルを描く複数のデジタルトレーニング画像を受信することと、受信したトレーニング画像のそれぞれを複数のタイル(「特徴抽出トレーニングタイル」)に分割することと、タイルペアを自動的に生成することであって、各タイルペアには、ペアの2つのタイルに描かれている2つの組織パターンの類似性の程度を示すラベルが割り当てられており、類似性の程度は、ペアにおける2つのタイルの空間的近接の関数として計算され、距離は、非類似性と正に相関する、タイルペアを自動的に生成することと、機械学習ロジック(machine learning logic又はMLL)に、ラベル付けされたタイルペアを、トレーニングデータとして使用してトレーニングさせて、トレーニング済みMLLを生成することであって、トレーニング済みMLLは、類似する画像は類似する特徴ベクトルを有し、類似しない画像は類似しない特徴ベクトルを有するようになる画像を表すデジタル組織画像から特徴ベクトルを抽出するよう学習されている、機械学習ロジック(machine learning logic又はMLL)に、ラベル付けされたタイルペアを、トレーニングデータとして使用してトレーニングさせて、トレーニング済みMLLを生成することと、そのトレーニング済みMLL又はそのコンポーネントを、タイルの特徴ベクトルを計算するために使用される特徴抽出MLLとして使用することと、を含む。
このアプローチは有益となり得る。なぜなら、トレーニングデータセットのラベルが、すべてのデジタル病理学の画像に本質的に含まれる情報に基づいて自動的に生成され得るからである。したがって、トレーニング画像をしたがってシンプルに選ぶことにより、現在対処している生物医学的問題に具体的に適合された特徴抽出MLLをトレーニングさせるための注釈付きデータセットを生成することができる。分割することと、ラベル付けすることと、機械学習させることと、のステップなどのすべてのさらなるステップは、完全に自動的に、又は、半自動的に行われ得る。
実施形態によると、トレーニング済みMLLは、それらの出力レイヤにより結合されている2つのニューラルサブネットワークを含むサイアミーズネットワークである。トレーニング済みサイアミーズネットワークのサブネットワークの1つは、記憶媒体上に個別に記憶されており、これは、タイルの特徴ベクトルを計算するために使用される、トレーニング済みMLLのコンポーネントとして使用される。
MILプログラムにより処理されるラベル
実施形態によると、ラベルは、患者が、特定の薬に反応したことのインジケーション、患者が、転移又は特定の形態の転移(例えば、微小転移)を発症したことのインジケーション、がん患者が、特定の治療に応えて、病理学的完全奏効(pathologic complete response又はpCR)を示すことのインジケーション、患者が、特定の形態学的状態又はマイクロサテライトステータスを伴うがんを有することのインジケーション、患者が、特定の薬に拒絶反応を発症することのインジケーション、遺伝子属性、特に、遺伝子シグネチャー、及び/又はRNA発現プロファイル、を含む群から選択される。
これらのラベルは、診断において、同様に、疾患の治療に適した薬を見つけることにおいて役立ち得る。しかし、上記のラベルは単なる例である。他の患者関連属性もまた、上述するように、ラベル(すなわち、MILプログラムをトレーニングさせるためのエンドポイント)として使用され得る。「患者関連」という言葉はまた、治療関連という言葉を含み得る。なぜなら、疾患の特定の治療の有効性はまた、治療する患者にも関するからである。
MILプログラムとアテンションMLLとの組み合わせ
本発明の実施形態によると、MILプログラムは、タイルが導き出された画像に割り当てられたラベルに関して、特定のタイルの予測パワーを示す数値を計算するための、アテンションに基づくMLLと組み合わされる。例えば、この組み合わせは、図6に描かれている、本方法と、対応するシステムと、の実施形態について説明されるように、MILプログラムをトレーニングさせる際に行われ得る。別の例によると、この組み合わせは、図7に描かれている、本方法と、対応するシステムと、の実施形態について説明されるように、MILプログラムをトレーニングさせる際に行われ得る。
実施形態によると、アテンションMLLは、そこからタイルが導き出された画像に割り当てられたラベルに関して、タイルの特徴ベクトルの予測パワーを示す加重を計算するよう適合されている機械学習ロジックである。加重は続いて、MILへの入力として提供され得る、又は、MILにより出力された数値と組み合わされ得る。
実施形態によると、MILプログラムとアテンションMLLプログラムとの双方は、患者関連属性値に関しての予測パワーを有する特徴ベクトル及びそれぞれのタイル(及び、したがって、そこに描かれた組織パターン)を特定するよう学習する。アテンションMLLプログラムは、MILプログラムの一部、例えば、サブモジュール、として実装され得る。
いくつかの実施形態によると、アテンションMLLプログラムは、1つのバッグのタイルのすべての特徴ベクトルにおいてエンコードされたバッグのラベルに関しての予測パワーを集めるために、MILプログラムにより使用される順列不変変換演算(permutation invariant transform operation)を実施する。この順列不変変換は、すべてのタイルに基づくバッグに対する、単一の合計数値を生成する。実施形態によると、バッグに実際に割り当てられたラベルからの、集められた数値の差異はまた、誤差逆伝播法の間に最小化される、MILプログラムの「損失」の1つの形態ともみなされる。順列不変変換演算は、MILにより、トレーニングフェーズにおいて使用されるが、また、トレーニング済みMILプログラムにより、テストフェーズにおいても使用される。
順列不変変換演算は、バッグのすべてのタイルにおいてエンコードされた情報が、トレーニングフェーズ中にどのように考慮されるかについて指定することを可能にし得る。
実施形態によると、順列不変変換演算は最大演算(maximum operation)である。これは、有益となり得る。なぜなら、MILにトレーニングさせる際に生成される予測モデルは、バッグのラベルに関して、最も高い予測パワーを持つ特徴ベクトルを有するタイルに描かれている組織パターンを強く反映するからである。このモデルは、ラベルに対して無関係な組織領域/タイルによる悪影響を受けない。しかし、最大演算は、最も高くスコア付けされたタイルを除き、すべてのタイルに含まれるすべての情報を無視する。したがって、関連性があり得るタイル/組織パターンの予測パワーが見逃される場合がある。
実施形態によると、順列不変変換演算は、特定のラベルに関して、各個別の特徴ベクトルの予測パワーを表す数値の算術平均又は中央値などの、平均演算(average operation)である。これは、有益となり得る。なぜなら、MILにトレーニングさせる際に生成される予測モデルが、すべてのタイルに描かれている組織パターンを考慮するからである。しかし、特定のラベルの発生に実際に無関係な組織パターン及びそれぞれのタイルの考慮は、トレーニング済みMILの予測的正確さの劣化及び低下をもたらす場合がある。
実施形態によると、MILプログラムの順列不変変換演算は、AVERAGE(平均)又はMEDIAN(メジアン)演算である。
1つの実施形態によると、順列不変変換演算は、特定のラベルに関して、各個別の特徴ベクトルの予測パワーを表す数値の算術平均又は中央値などの、平均演算(average operation)である。アテンションMLLは、タイルのそれぞれに対する加重を計算するために使用される。特定のタイル及びそれぞれの特徴ベクトルに対して計算された加重は、トレーニングフェーズ中にこのタイルに対してMILが注目する「アテンション(attention)」を表す。
「平均(average)」順列不変変換演算の、タイルに特有の加重を計算するよう構成されているアテンションMLLと組み合わせての組み合わせは、AVERAGE演算(すべてのタイルにおいてもたらされる情報が考慮される)により提供される恩恵が、この演算の否定的側面(MILプログラムの予測モデルのトレーニングに無関係な組織パターンの影響)を受け付けることもなく使用され得る、という利点を有し得る。これは、トレーニング済みMILプログラムの予測モデルの正確さを改善することを可能にし得る。すなわち、より高い加重が割り当てられているタイルからの選択的に/これを主として学習することによる学習プロセスにおいて、それほど重要でないタイルが釣り合っている。
本発明の実施形態についてここに説明するような、アテンションMLLプログラムとMILプログラムとを組み合わせることは、(特に、AVERAGE又はMEDIAN演算などのMAX演算の代わりに、順列不変変換演算を実施する際に)アテンションMLLプログラムは、MILプログラムが、繰り返し毎に、1つを超えるインスタンス(タイル)から学習することを可能にする、という利点を有し得る。これは、例えば、各繰り返しにおいて、そこから学習するすべてのバッグのインスタンスを1つのみ選択するスパース法であるMAX演算などとは対照的である。典型的には、AVERAGE又はMEDIAN演算の使用は好ましくない。なぜなら、この演算は、予測パワーのないタイルの特徴ベクトルにより引き起こされた、MILプログラムにより学習されたモデルの劣化を引き起こす場合があるからである。しかし、それらのタイルの特徴ベクトルに、アテンションMLLの独立した推定に基づく低加重が割り当てられている場合は、MILプログラムのトレーニングプロセスは、順列不変変換として、MAXIMUM演算の代わりに、AVERAGE又はMEDIANを使用することからの恩恵を被り得る。
例えば、MILプログラムにトレーニングさせる際のアテンションMLLの使用は、Maximilian Ilse、Jakub M.Tomczak、及びMax Wellingによる、「アテンションに基づくディープマルチプルインスタンスラーニング(Attention-based Deep Multiple Instance Learning)」、2018年2月、これは、https://arxiv.org/abs/1802.04712から電子的に利用可能、に説明されるように行われ得る。
実施形態によると、GUIは、特定のデジタル画像から導き出されたすべてのタイルに対して、アテンションMLLプログラムにより計算された加重に対するヒートマップを生成して提示するよう構成されている。加重は、例えば、0から1の範囲に正規化される。続いて、タイルの正規化された加重が色分けされる。タイルの加重が類似すればするほど、アテンションMLLに基づくヒートマップの色が類似する。
加重された数値を提供するアテンションMLLプログラム
実施形態によると(例えば、図6を参照されたい)、本方法は、タイルのそれぞれに対して、タイルに関連付けられた特徴ベクトルの予測パワーを示す数値を、加重された数値の形態にて計算することを含む。タイルの加重された各数値は、そのタイルに対して、アテンションMLLにより計算された加重と、そのタイルに対して、MILにより計算された数値の関数として計算される。特に、加重された数値は、タイルに対して、アテンションMLLにより計算された加重を、それぞれのタイルの数値と乗算することにより計算され得る。
加重された特徴ベクトルを提供するアテンションMLLプログラム
実施形態によると、本方法は、タイルのそれぞれに対して、特徴ベクトルを、加重された特徴ベクトルの形態にて計算することを含む。加重された特徴ベクトルは、そのタイルに対して、アテンションMLLにより計算された加重と、特徴抽出プログラムにより、そのタイルに対して計算された特徴ベクトルとの関数として計算される。特に、特定のタイルに対して、アテンションMLLにより提供される加重は、このタイルの特徴ベクトルと乗算され得る。
別の実施形態によると、MILのトレーニングは、特定のラベルに関して、特定のタイルに対して、MILにより出力され、バッグの(画像の)ラベルに関して、タイルの予測パワーを示す数値が、このタイルに対してアテンションMLLにより計算された加重により乗算されるように実施される。誤差逆伝播法の間に、加重は、MILの予測モデルの適応における影響を有する。トレーニング中に学習したMILの予測モデルにおける特定の特徴ベクトルの影響は、アテンションMLLより、特定のタイルに対して計算された加重と正に相関する。
1つの実施形態によると、MILのトレーニングは、アテンションMLLにより提供された加重が、特徴ベクトルと共に、MILプログラムの入力として提供されるよう実施される。MILのトレーニングは、MILが、その特徴ベクトルがより低い加重を有するタイルよりも、その特徴ベクトルがより高い加重を有するタイルから、より多く学習するよう実施される。換言すると、トレーニング中に学習したMILの予測モデルにおける、タイル及びそれらの特徴ベクトルの影響は、アテンションMLLにより、特定のタイルに対して計算された加重と正に相関する。
各特徴ベクトルに対する加重を計算するためにアテンションMLLを使用することは、好適となり得る。なぜなら、MILは、高い予測的潜在性を有するいくらかのタイルからより多く学習し、無関係な組織セクションを示すタイルの大多数からはあまり多くを学習しないからである。その結果として、トレーニング済みMILプログラムを、さらに正確なものとする。
さらなる実施形態
実施形態によると、本方法は、
画像分析システムにより、患者のさらなるグループにおける各患者に対して、患者の組織サンプルの少なくとも1つのさらなるデジタル画像を受信することであって、各さらなる画像には、予め定められたラベルの1つが割り当てられている、患者のさらなるグループにおける各患者に対して、患者の組織サンプルの少なくとも1つのさらなるデジタル画像を受信することと、
画像分析システムにより、各受信したさらなる画像を、さらなる画像タイルのセットに分割することであって、各タイルには、さらなるタイルを生成することに使用された画像に割り当てられたラベルが割り当てられている、各受信したさらなる画像を、さらなる画像タイルのセットに分割することと、
さらなるタイルのそれぞれに対して、画像分析システムにより、そのさらなるタイルから、及び、そこに描かれた組織パターンから、選択的に抽出された画像特徴を含むさらなる特徴ベクトルを計算することと、
トレーニング済みマルチプルインスタンスラーニング(multiple-instance-learning又はMIL)プログラムに、さらなるグループにおけるすべての患者に対して受信したすべてのさらなる画像のさらなるタイル及びそれぞれのさらなる特徴ベクトルを、さらなるタイルのそれぞれに対して、さらなるタイルが導き出された画像に特定のラベルが割り当てられる確率を示す数値であって、そのさらなるタイルの特徴ベクトルの学習済み非線形変換関数として計算される数値を計算するために、適用することと、
画像分析システムのGUIを介して、さらなる画像タイルのレポートギャラリを出力することであって、さらなるレポートギャラリは、複数のさらなるタイルを含み、タイルは、それらの、それぞれ計算された数値に従ってソートされている、及び/又は、それらのそれぞれの数値の図形表現を含む、さらなる画像タイルのレポートギャラリを出力することと、
をさらに含む。
これは、好適となり得る。なぜなら、例えば、トレーニング済みMILプログラムにより、この患者関連属性に関して、高い予測パワーを有するものとして特定された、新たな画像のタイルのいくつかを選択的に提示するレポートギャラリを自動的に提示することにより、トレーニング済みMILプログラムは、新たな画像データに容易に適用され得るからである。これにより、対象の患者関連属性に関しての新たな画像の分析及び解釈を容易にする。
実施形態によると、MILプログラムは、トレーニングフェーズにおいて、特徴ベクトルを、特定のラベルに対する確率を表すことができる値に置き換えるよう学習する。ラベルは、クラス(例えば、特定の薬Dを用いた治療に反応する患者)、又は、数的エンドポイント値(例えば、反応の度合いを示す数値又はパーセンテージ値)を表すことができる。この学習は、特徴値を、トレーニング中に提供されるラベルの1つに変換する非線形変換関数の学習として数学的に記述され得る。いくつかの実施形態によると、テスト時間にて、いくらかのマイナーな構造上の変更(例えば、ドロップアウト(Dropout)レイヤを無効にする)が、トレーニング済みMILプログラムに適用され、テストデータのサンプリングは行われない。テスト時間にてトレーニング済みMILプログラムを適用する際の主な変更は、テストデータのバッグにおけるすべてのインスタンス(タイル)が、MILプログラムにより分析され、タイルのそれぞれに対して、及び、トレーニングフェーズにおいて提供された複数のラベルのそれぞれに対して、予測パワーを示す最終数値を計算することである。最後に、最終数値が、全体画像に対して、又は、特定の患者に対して、複数のラベルに対する画像のタイルに対して計算された数値を集めることにより、計算される。トレーニング済みMILプログラムに、患者の1つ又はそれ以上の画像を適用することの最終結果は、最も高い確率を有するラベルの1つである(例えば、「薬Dを用いた治療に患者に反応する!」)。加えて、このラベルに関して、最も高い予測パワーを有するタイルの1つが、トレーニングフェーズについて上述するレポート画像タイルギャラリと構造的に同等のレポート画像タイルギャラリに提示され得る。
実施形態によると、本方法は、1つ又はそれ以上の「高予測パワータイル」を自動的に選択すること、又は、これをユーザが選択できるようにすることをさらに含む。高予測パワータイルは、ラベルの特定の1つに関して、その特徴ベクトルの予測パワーを示すその数値が、高予測パワー閾値を超えるタイルである。
加えて、又は代替的に、本方法は、1つ又はそれ以上の「アーチファクトタイル」を自動的に選択すること、又は、これをユーザが選択できるようにすることをさらに含む。アーチファクトタイルは、ラベルの特定の1つに関して、その特徴ベクトルの予測パワーを示すその数値が、最小予測パワー閾値未満である、又は、1つ又はそれ以上のアーチファクトを描くタイルである。
1つ又はそれ以上の高予測パワータイル及び/又はアーチファクトタイルの選択に応えて、MILプログラムに自動的に再トレーニングさせ、これにより、トレーニングセットから、高予測パワータイル及びアーチファクトタイルを除外する。
これらの特徴は、再トレーニング済みMILプログラムが、より正確なものとなり得る、という利点を有し得る。なぜなら、除外されたアーチファクトタイルは、再トレーニング中にはもはや考慮されないからである。したがって、アーチファクトを描くトレーニングデータセットにおけるタイルにより引き起こされた、学習済み変換におけるいずれのバイアスが、MILプログラムの、アーチファクトタイルを含まないトレーニングデータセットの減少バージョンについての再トレーニングにより回避され、これが取り除かれる。
ユーザが、高い予測的タイルをトレーニングデータセットから取り除くことをできるようにすることは、直感的なものではない場合があるが、それでもなお、重要な恩恵を提供する。すなわち、時として、いくつかのラベルに関して、いくつかの組織パターンの予測パワーが自明である。
例えば、肺がんに特有のバイオマーカを発現する多くの腫瘍細胞を含む組織セクションはもちろん、肺がん疾患の存在に対する、重要な予測的マーカである。しかし、病理学者は、例えば、線維芽細胞活性化タンパク質ポジティブ(fibroblast activation protein positive又はFAP+)細胞などの非腫瘍細胞の存在及び/又は場所などの、いくつかの、あまり明らかなものではない組織パターンにより興味を持つ場合がある。
別の例によると、MILは、ラベル「特定の薬Dを用いる治療に低い反応を示す患者」に関して、予測的潜在性を有し得る、肺がんにおける、喫煙により誘起された組織パターンを特定することについてトレーニングされている。MILは、喫煙により誘起された残留物を含む肺組織に対応する第1の組織パターンに対する最も高い数値/予測パワーを計算し得る。喫煙により誘起された残留物のある組織領域を示すタイルの除去は、中程度の予測パワーを有する別の組織パターンを明らかにする場合がある。特徴ベクトルが、患者の遺伝的及び/又は生理的属性値を含む場合では、最も高い数値を持つタイルが「ブラックリスト化」された後には、それらの追加的な特徴の予測パワーの影響がまた、より関連するものとなり得る。これらの遺伝的に関連する又は生理的に関連する予測的特徴はまた、特定の組織パターンにおいて反映され得、したがって、病理学者が、MILの、ブラックリスト化されたタイルを含まないトレーニングタイルセットについての再トレーニング後に生成された、結果としてのタイルギャラリにおいて対応するタイルを調べることにより、遺伝的に関連する又は生理的に関連する属性を特定して理解することを可能にし得る。
したがって、腫瘍細胞を、最も重要な予測的要因として示すすべてのタイルが取り除かれ、MILプログラムが、残りのトレーニングデータセットについて再トレーニングされていれば、再トレーニング済みMILは、それほど目立たないものの、重要な予測的要因及び組織パターンを、より確実に特定することができる。
さらなる態様では、本発明は、患者関連属性値を示す組織パターンを特定する画像分析システムに関する。画像分析システムは、
少なくとも1つのプロセッサと、
患者のグループの組織のデジタル組織画像を含む揮発性又は不揮発性記憶媒体であって、患者のグループにおける各患者に対して、患者の組織サンプルの少なくとも1つのデジタル画像が、記憶媒体に記憶されており、少なくとも1つの画像には、少なくとも2つの異なる、予め定められたラベルの内の1つが割り当てられており、各ラベルは、その組織が、ラベル付けされた画像に描かれている患者の患者関連属性値を示す、揮発性又は不揮発性記憶媒体と、
少なくとも1つのプロセッサにより実行可能であり、画像のそれぞれを、画像タイルのセットに分割するよう構成されている画像分割モジュールであって、各タイルには、そのタイルを生成することに使用された画像に割り当てられたラベルが割り当てられている、画像分割モジュールと、
少なくとも1つのプロセッサにより実行可能であり、タイルのそれぞれに対して、そのタイルに描かれている組織パターンから選択的に抽出された画像特徴を含む特徴ベクトルを計算するよう構成されている特徴抽出モジュールと、
少なくとも1つのプロセッサにより実行可能なマルチプルインスタンスラーニング(multiple-instance-learning又はMIL)プログラムであって、MILプログラムのトレーニングフェーズにおいて、グループにおけるすべての患者のすべての画像のすべてのタイル及びそれぞれの特徴ベクトルを受信するよう構成されているマルチプルインスタンスラーニング(multiple-instance-learning又はMIL)プログラムであって、MILプログラムは、各タイルのセットを、トレーニングフェーズ中に、同じラベルを有するタイルのバッグとして扱うよう構成されており、トレーニングは、タイルのそれぞれに対して、タイルが導き出された画像に割り当てられたラベルに関して、タイルに関連付けられた特徴ベクトルの予測パワーを示す数値を計算するために、特徴ベクトルを分析することを含む、マルチプルインスタンスラーニング(multiple-instance-learning又はMIL)プログラムと、
少なくとも1つのプロセッサにより実行可能であり、画像タイルのレポートギャラリを含むGUIを生成して出力するよう構成されているGUI生成モジュールであって、レポートギャラリは、タイルのサブセットを含み、タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされている、及び/又は、それらのそれぞれの数値の図形表現を含む、GUI生成モジュールと、
画像タイルのレポートギャラリによりGUIを表示するよう適合されているディスプレイと、
を含む。
「組織サンプル」は、ここで使用されるように、本発明の方法により分析され得る細胞の3Dアセンブリである。3Dアセンブリは、体外の細胞ブロックのアセンブリのスライスであり得る。例えば、サンプルは、患者から集められた組織、例えば、がん患者からの、肝臓、肺、腎臓、又は結腸の組織サンプルから用意され得る。サンプルは、顕微鏡スライドにおける、全体組織、又は、組織マイクロアレイ(tissue microarray又はTMA)セクションであってよい。スライド上に置かれた組織サンプルを用意する方法は、当業者によく知られている、本発明での使用に好適なものである。
組織サンプルは、染料若しくは染色剤、又は、特定のバイオマーカ若しくは様々なタイプの細胞又は細胞内コンパートメントに直接反応する組織化学品若しくは免疫組織化学品などの、いずれの試薬又はバイオマーカラベルを使用して染色され得る。染色剤/試薬のすべてに相溶性があるわけではない。したがって、採用された染色剤のタイプ、及び、それらの一連の適用は、よく考慮されるべきであるが、これは、当業者の一人によりすぐに決定され得る。そのような組織化学品は、透過型顕微鏡検査法により検出可能な発色団、又は、蛍光顕微鏡検査法により検出可能な発蛍光団であってよい。一般的に、細胞を含むサンプルは、対象の化学グループに直接反応する、又はそれらと結合する、少なくとも1つの組織化学品を含む溶液を用いて培養され得る。いくつかの組織化学品は、典型的には、染色を可能にする色止め料又は金属を用いて共に培養される。細胞を含むサンプルは、対象のコンポーネントを染色する少なくとも1つの組織化学品と、対比染色剤として作用し、対象のコンポーネントの外側の領域に結合する別の組織化学品と、の混合物を用いて培養され得る。代替的に、複数のプローブの混合物が、染色において使用され得、これが、特定のプローブの位置を特定する方法を提供する。細胞を含むサンプルを染色する手順は、当業者によく知られている。
「画像分析システム」は、ここで使用されるように、画像を評価すること又は解釈することにおいて、ユーザをアシストするために、及び/又は、画像に暗示的に又は明示的に含まれる生物医学的情報を抽出するために、デジタル画像、特に、組織サンプルの画像を評価して処理することに適合された、コンピュータシステムなどのシステムである。例えば、コンピュータシステムは、標準的なデスクトップコンピュータシステム、又は、クラウドシステムなどの、分散コンピュータシステムであり得る。一般的に、コンピュータ化された組織病理学の画像分析は、その入力として、カメラにより撮像された、シングル又はマルチチャネル画像を取得し、診断又は治療における補助のための追加的な定量的情報を提供するよう試みる。
本発明の実施形態は、より大きな患者のグループにおける患者のサブグループに、特定の薬の効果がある可能性を決定することに使用され得る。個人化医療(personalized medicine又はPM)は、新たな医療分野である。その狙いは、個人のゲノム、エピゲノム、及びプロテオームのプロファイルに基づく、効果の高い、目的に合わせた治療方針を提供することである。PMは、患者を治療しようと試みるだけでなく、効果の低い治療による副次的影響から患者を保護する。腫瘍の進行と共にしばしば生じるいくらかの変異は、特定の治療に対する耐性を引き起こす。したがって、バイオマーカ特有に染色された組織サンプルの組織画像により、少なくとも部分的に明らかになり得る患者の変異性のプロファイルは、特定の治療が、個別の患者に効果があるかについて、トレーニング済みMILプログラムが明確に決めることを可能にする。現在、試行錯誤のアプローチにおいて、処方された薬剤が、患者に効果があるかどうかについて決定する必要がある。この試行錯誤のプロセスは、所望しない、複雑な薬の相互作用、処方する薬の頻繁な変更、薬に効果があるかについて特定するまでの長い遅延、疾患の進行など、多くの副次的影響を有し得る。PMは、個人を、彼らの特定の疾患に対する治療薬への彼らの反応において異なる部分母集団に階層化することに基づく。例えば、数種の未分化リンパ腫キナーゼ(anaplastic lymphoma kinase又はALK)阻害剤は、ALK遺伝子において発現が認められた、非小細胞肺がん(non-small cell lung cancer又はNSCLC)の肺がん患者の約5%を治療することに便利な薬である。しかし、いくらかの時間の経過後、キナーゼ阻害剤は、ALK遺伝子、又は、ALKのシグナル伝達カスケードの下流の他の遺伝子の変異により、効果がなくなる。したがって、肺がん患者のインテリジェントな分子キャラクタリゼーションが、患者の階層化を通して、いくつかの変異に特有の薬の最適な使用を可能にする。したがって、トレーニング画像又はテスト画像が取得される「患者のグループ」は、「100人の乳がん患者」、「100人のHER+乳がん患者」、「200人の結腸がん患者」などのグループであり得る。
「デジタル画像」は、ここで使用されるように、二次元画像の、通常はバイナリの、数的な表現である。典型的には、組織画像は、ラスタータイプの画像であり、これは、画像が、少なくとも1つの強度値がそれぞれに割り当てられているピクセルのラスター(「マトリクス」)であることを意味する。いくつかのマルチチャネル画像は、色チャネル毎に1つの強度値を持つピクセルを有し得る。デジタル画像は、固定数の行及び列のピクセルを含む。ピクセルは、画像における最小の個別要素であり、いずれの特定のポイントにて与えられた色の輝度を表す、旧来の値を保持する。典型的には、ピクセルは、コンピュータメモリに、ラスター画像、又は、小さい整数の二次元アレイであるラスターマップとして記憶される。これらの値はしばしば、圧縮形態にて送信又は記憶される。デジタル画像は、デジタルカメラ、スキャナ、座標測定機器、顕微鏡、スライドスキャニングデバイスなどにより取得され得る。
「ラベル」は、ここで使用されるように、患者関連属性値を表して特定するストリング又は数値などのデータ値である。ラベルの例としては、「薬Dに対する患者の反応=真(true)」、「薬Dに対する患者の反応=偽(false)」、「進行のない生存期間=6ヶ月」、などを挙げることができる。
「画像タイル」は、ここで使用されるように、デジタル画像のサブ領域である。一般的に、デジタル画像から生成されるタイルは、円形、楕円形、多角形、矩形、正方形などのいずれの形状を有し得、及び、重なるもの、又は、重ならないもの、があり得る。好適な実施形態によると、画像から生成されるタイルは矩形であり、好ましくは、重なっているタイルである。重なっているタイルを使用することはまた、タイル生成プロセスによりさもなければ断片化されるであろう組織パターンが、バッグにて表される、という利点をも有し得る。例えば、2つの重なり合うタイルの重なりは、単一のタイルの面積の20から30%、例えば、25%、であり得る。
実施形態によると、画像タイルギャラリ、例えば、画像タイルのレポートギャラリ、及び/又は、画像類似性サーチタイルギャラリ、は、GUI上のタイルのグリッドスタイルに組織化したものである。ここでは、タイルは、それらのタイルが導き出された画像内のそれらの空間的配置から独立して、画像タイルギャラリにおいて空間的に整理されている。
「特徴ベクトル」は、ここで使用されるように、対象の重要な性質を記述する情報を含むデータ構造である。データ構造は、単次元又は多次元データ構造であり得、ここでは、特定のタイプのデータ値が、そのデータ構造内の位置のそれぞれに記憶されている。例えば、データ構造は、ベクトル、アレイ、マトリクスなどであり得る。特徴ベクトルは、いくつかの対象を表す数的特徴のn次元ベクトルとみなされ得る。画像分析では、特徴は多くの形態をとり得る。画像のシンプルな特徴表現は、各ピクセルの生の強度値である。しかし、より複雑な特徴表現も可能である。例えば、画像又は画像タイルから抽出された特徴はまた、スケール不変特徴変換(scale invariant feature transform又はSIFT)ディスクリプタの特徴でもあり得る。これらの特徴は、異なる線方位の有病率を取り込む。他の特徴は、画像又は画像タイルのコントラスト、勾配の方位、色組成、及び他の態様を示し得る。
「ヒートマップ」は、ここで使用されるように、データの図形表現であり、ここでは、マトリクスに含まれる個別値が、色及び/又は強度値として表される。いくつかの実施形態によると、ヒートマップは不透明であり、それに基づいてヒートマップが生成される、組織スライド画像の少なくともいくつかの構造を含む。他の実施形態によると、ヒートマップは半透明であり、ヒートマップを生成することに使用された組織画像の上部にオーバレイとして表示される。いくつかの実施形態によると、ヒートマップは、それぞれの色又はピクセル強度を介して、複数の類似性スコア、又は、複数の類似性スコア範囲のそれぞれを示す。
「バイオマーカ特異的染料」は、ここで使用されるように、特定のバイオマーカを選択的に染色する染色剤であり、例えば、HERなどの特定のプロテインであるが、一般的には、他のバイオマーカ又は組織コンポーネントではない。
「非バイオマーカ特異的染料」は、ここで使用されるように、より包括的な結合挙動を有する染色剤である。非バイオマーカ特異的染料は、個別のプロテイン又はデオキシリボ核酸(deoxyribonucleic acid又はDNA)配列を選択的に染色しないが、むしろ、特定の物理的又は化学的性状を有する、より大きなグループの物質、及び、下位細胞構造、同様に、上位細胞構造を染色する。例えば、ヘマトキシリン及びエオシンはそれぞれ、非バイオマーカ特異的染料である。ヘマトキシリンは、濃い青色又は紫色の染色剤であり、これは、塩基/正である。これは、好塩基性物質に結合する(例えば、DNA及びRNA、これらは酸性であり、負に帯電している)。核内のDNA/RNA、及び、粗面小胞体におけるリボソーム内のRNAは、双方とも酸性である。なぜなら、核酸のリン酸骨格が、負に帯電しているからである。これらの骨格は、正電荷を含む塩基性染料を持つ塩を形成する。したがって、ヘマトキシリンなどの染料はDNA及びRNAに結合し、それらを紫色に染色する。エオシンは、赤色又はピンク色の染色剤であり、これは、酸性であり、負である。これは、正に帯電したアミノ酸側鎖(例えば、リジン、アルギニン)などの好酸性物質に結合する。いくつかの細胞の細胞質における多くのプロテインは、塩基である。なぜなら、それらは、アルギニン及びリジンアミノ酸残基により、正に帯電しているからである。これらは、エオシンなどの、負の電荷を含む酸性染料と共に塩を形成する。したがって、エオシンは、これらのアミノ酸/プロテインに結合し、それらをピンク色に染色する。これは、筋細胞、細胞内膜、及び細胞外線維において、細胞質フィラメントを含む。
「アテンション機械学習ロジックプログラム」は、ここで使用されるように、特定のパラメータに加重を割り当てるようトレーニングされたMLLである。これにより、加重が重要度を示し、他のプログラムのアテンションが、それらのパラメータを分析することに向き得る。アテンションMLLの背後にあるアイデアとは、現在のコンテキストにおける特定の関連性のものである利用可能なデータのサブセットに選択的に注目する人の脳の能力をシミュレーションすることである。アテンションMLLは、例えば、テキストマイニングの分野において、加重及び計算リソースを、特定の重要度のそれらである特定の言葉に選択的に割り当てて、センテンスから意味を導き出すことに使用される。言葉のすべてが等しく重要であるわけではない。それらのいくつかは、センテンスを、他のものよりも特徴付ける。アテンションMLLに、トレーニングデータセットについてトレーニングさせることにより生成されたアテンションモデルは、センテンスベクトルが、「重要」な言葉により注意を向け得る、ということを指定し得る。1つの実施形態によると、トレーニング済みアテンションMLLは、検査された各特徴ベクトルにおける各特徴値に対して加重を計算し、各特徴ベクトルにおけるすべての特徴値の加重された合計を計算するよう適合されている。この加重された合計は、タイルの全体特徴ベクトルを具現化する。
実施形態によると、アテンションMLLは、特定の入力を選択するその入力(又は特徴)のサブセットに注目する能力を持つニューラルネットワークを備えるよう適合されているニューラルアテンションメカニズムを含むMLLである。ここで、x∈Rdを入力ベクトル、z∈Rkを特徴ベクトル、a∈[0,1]kをアテンションベクトル、g∈Rkをアテンショングリムプス、及びfφ(x)を、パラメータφを用いるアテンションネットワークとする。
典型的には、アテンションは、
Figure 0007270058000001
、のように実施され、
ここで、
Figure 0007270058000002
は、要素毎の乗算であり、zは、パラメータθを用いる別のニューラルネットワークfθ(x)の出力である。特徴を、ゼロと1との間の(ソフト)マスクの値と乗算するソフトアテンション、又は、それらの値が、正確にゼロ又は1、すなわち、a∈{0,1}k、となるよう制約される際のハードアテンションについて説明することができる。後者の場合では、ハードアテンションマスクを使用して、次のように、特徴ベクトルを直接指数化することができる:g~=z[a](Matlab表記法にて)、これは、その次元を変え、m≦kにて、g~∈Rmとなる。
「強度情報」又は「ピクセル強度」という言葉は、ここで使用されるように、デジタル画像のピクセル上にてとらえられた、又は、これにより表される電磁放射(「光」)の量の尺度である。「強度情報」という言葉は、ここで使用されるように、例えば、特定の色チャネルの強度などの、追加的な関連情報を含み得る。MLLは、この情報を、デジタル画像に含まれる勾配又はテクスチャなどの派生情報を計算的に抽出することに使用し得る。派生情報は、トレーニング中、及び/又は、トレーニング済みMLLによる特徴の抽出中に、デジタル画像から暗示的に又は明示的に抽出され得る。例えば、「デジタル画像のピクセル強度値は、1つ又はそれ以上の特定の染色剤の強さと相関する」という表現は、色情報を含む強度情報が、MLLと、また、ユーザと、が、それら1つ又はそれ以上の染色剤の特定の1つを用いて染色された、組織サンプルにおける領域を特定できるようにするということを暗示し得る。例えば、ヘマトキシリンを用いて染色されたサンプルの領域を描くピクセルは、青色のチャネルにおいて高いピクセル強度を有し得、fastRedを用いて染色されたサンプルの領域を描くピクセルは、赤色のチャネルにおいて高いピクセル強度を有し得る。
「全畳み込みニューラルネットワーク」は、ここで使用されるように、いずれの完全に接続されたレイヤ、又は、ネットワークの端部にて通常みつかるマルチレイヤパーセプトロンズ(multilayer perceptrons又はMLPs)のない、畳み込みレイヤからなるニューラルネットワークである。全畳み込みネットは、すべてのレイヤにおける学習フィルタである。ネットワークの端部にある意思決定レイヤでさえも、フィルタを学習する。全畳み込みネットは、表現を学習しようと試み、局部的な空間的入力に基づいて意思決定する。
実施形態によると、全畳み込みネットワークは、その活性化機能が、次のプロパティを満たす特定のレイヤにおける場所(I,j)にて、出力データベクトルyijを生成する形態のレイヤのみを持つ畳み込みネットワークである:
Figure 0007270058000003
ここで、xijは、特定のレイヤにおける場所(i,j)でのデータベクトルであり、yijは、これに続くレイヤにおけるその場所でのデータベクトルであり、ここで、yijは、ネットワークの活性化機能により生成される出力であり、ここで、kは、カーネルサイズと呼ばれ、sは、ストライド又はサブサンプリングファクターであり、fksは、次のレイヤタイプを決定する:畳み込み又は平均プーリングのための行列の乗算、maxプーリングのための空間的max、又は、活性化機能のための要素毎の非直線性、他のタイプのレイヤに対するものなど。この関数形態は、次の変換ルールにしたがうカーネルサイズ及びストライドをもってして、組成の下で維持される。
Figure 0007270058000004
一般的なディープネットが、一般的な非線形関数を計算する一方で、この形態のレイヤのみを持つネットは、非線形フィルタを計算する。これはまた、ディープフィルタ又は全畳み込みネットワーク(fully convolutional network又はFCN)とも呼ばれる。FCNは、いずれのサイズの入力を自然に処理し、(おそらくは再サンプルされた)空間次元に対応する出力を生成する。様々な全畳み込みネットワークの性質のより詳細な説明については、Jonathan Long、Evan Shelhamer、及びTrevor Darrellによる、「意味論的セグメンテーションのための全畳み込みネットワーク(Fully Convolutional Networks for Semantic Segmentation)」、CVPR2015、を参照されたい。
「機械学習ロジック(MLL)」は、ここで使用されるように、例えば、トレーニングプロセスにおいてトレーニングされた、又は、トレーニングされ得、及び、学習フェーズの結果として、提供されたトレーニングデータに基づいて、いくつかの予測的及び/又はデータ処理タスクを行うよう学習している、トレーニング済みニューラルネットワーク、又は、サポートベクトルマシンなどの、1ピースのソフトウェアなどの、プログラムロジックである。したがって、MLLは、プログラマにより、少なくとも部分的に、明示的に指定されていないものの、サンプルの入力から、1つ又はそれ以上の暗黙の又は明確なモデルを構築する、データドリブンの学習プロセスにおいて暗示的に学習しており、変更されている、プログラムコードであり得る。機械学習は、教師あり又は教師なし学習を採用し得る。効果的な機械学習はときに難しい。なぜなら、パターンを見つけることが難しく、十分なトレーニングデータがときに利用可能でないからである。
「バイオマーカ」という言葉は、ここで使用されるように、生物学的サンプルにおいて、組織タイプ、通常の若しくは病原性のプロセス、又は、治療的介入に対する反応のインジケータとして測定され得る分子である。特定の実施形態では、バイオマーカは、プロテイン、ペプチド、核酸、脂質、及び炭水化物からなるグループから選択される。特に、バイオマーカは、上皮増殖因子受容体(epidermal growth factor receptor又はEGRF)、HER2、p53、CD3、CD8、Ki67などの特定のプロテインであってよい。特定のマーカは、特定の細胞の性質である一方、他のマーカは、特定の疾患又は状態に関連付けられたものとして特定される。
組織サンプル画像の画像分析に基づいて、特定の腫瘍のステージを決定するために、複数のバイオマーカ特異的染料を用いてサンプルを染色する必要がある場合がある。組織サンプルの、バイオマーカに特有の染色は、典型的には、対象のバイオマーカに選択的に結合する一次抗体の使用を含む。特に、これらの一次抗体は、染色プロトコルの他のコンポーネントも含め、高価である場合があり、したがって、多くのアプリケーションシナリオ、特に、高スループットでのスクリーニングにおいて、コストを理由に、利用可能な画像分析技術の使用を不可能にする場合がある。
一般的に、組織サンプルは、大規模な組織形態と、細胞と核との境界と、を明らかにするために、例えば、ヘマトキシリン染色剤、又は、ヘマトキシリンとエオシン染色剤との組み合わせ(「H&E」染色剤)などの背景染色剤(「対比染色剤」)を用いて染色される。背景染色剤に加えて、複数のバイオマーカ特異的染料が、例えば、腫瘍の分類及び病期、組織における特定の細胞タイプの量及び相対分布の検出などの、回答が必要な生物医学的問題に依存して適用され得る。
本発明の実施形態を、例示のみを目的として、添付の図面を参照して以下により詳細に説明する。
図1は、本発明の実施形態に係る方法のフローチャートを描く。 図2は、本発明の実施形態に係る画像分析システムのブロック図を描く。 図3は、本発明の実施形態に係る、レポート画像タイルギャラリを伴うGUIを描く。 図4は、本発明の実施形態に係る、類似性サーチ画像タイルギャラリを伴うGUIを描く。 図5は、本発明の実施形態に係る特徴抽出MLLプログラムのネットワークアーキテクチャを描く。 図6は、MILプログラムとアテンションMLLとを組み合わせるための、1つの可能なシステムアーキテクチャを描く。 図7は、MILプログラムとアテンションMLLとを組み合わせるための、別の可能なシステムアーキテクチャを描く。 図8は、2D及び3D座標系におけるタイルの空間距離を示す。 図9は、本発明の実施形態に係るサイアミーズネットワークのアーキテクチャを描く。 図10は、切り捨てられたサイアミーズネットワークとして実装される特徴抽出MLLを描く。 図11は、画像データベースにおいて、特徴ベクトルに基づく類似性サーチを使用するコンピュータシステムを描く。 図12は、それらの空間的近接に基づいてラベル付けされた「類似する」及び「類似しない」タイルペアを示す。 図13は、近接に基づく類似性ラベルについてトレーニングされた特徴抽出MLLにより抽出された、類似性サーチ結果に基づく特徴ベクトルを示す。
図1は、本発明の実施形態に係る方法のフローチャートを描く。本方法は、例えば、バイオマーカステータス、診断、治療の結果、大腸がん又は乳がんなどの特定のがんのマイクロサテライトステータス(microsatellite status又はMSS)、リンパ節における微小転移巣、及び、診断生体検査における病理学的完全奏効(pathologic complete response又はpCR)などの、患者の患者関連属性値の予測に使用され得る。この予測は、好ましくは、仮説ではない特徴抽出に基づくディープラーニングを使用する、組織構造スライドのデジタル画像に基づく。
方法100は、これまでにまだわかっていない、予測的な組織学的シグニチャを特定して抽出するよう設計された、弱教師ありディープラーニングコンピュータアルゴリズムにトレーニングさせることに使用され得る。本方法は、患者関連属性値を示す組織パターンを特定することを可能にする。
患者からの組織の試料は、例えば、ホルマリン固定パラフィン包埋組織(formalin-fixed paraffin-embedded tissue又はFFPET)組織ブロックの形態にて提供されてよい。組織ブロックは、ラベルとして使用される、所定の、予め既知のエンドポイント(例えば、生存期間、反応、遺伝子シグニチャなど)を伴って、患者から採取される必要がある。
組織ブロックはスライスされ、それらのスライスは、顕微鏡検査法でのスライド上にセットされる。続いて、スライスは、H&E、及び/又は、各種のバイオマーカ特異的染料などの、1つ又はそれ以上の組織学的に関連する染色剤を用いて染色される。画像は、染色された組織スライスから、スライドスキャナ顕微鏡などを使用して撮像されている。
第1のステップ102では、画像分析システム(例えば、図2を参照して上述するようなもの)は、患者のグループにおける各患者に対して、その患者の組織サンプルの少なくとも1つのデジタル画像212を受信する。
読み取ることは、データベースから画像を読み取ることを含むことができる。例えば、画像は、何年も前の古い組織サンプル画像であり得る。古い画像データセットは、治療の成功、疾患の進行、副次的影響などの、多くの関連するイベントの結果が同時に既知となり、その既知のイベントがラベルとして割り当てられている組織画像を含むトレーニングデータセットを生成することに使用され得る、という利点を有し得る。加えて、又は代替的に、画像は、顕微鏡又はスライドスキャナなどの画像取得システムから直接受信され得る。ラベルは、受信した画像に、手動で、又は、自動的に割り当てられ得る。例えば、ユーザは、スライドスキャナのソフトウェアを、取得する画像に、それらの取得中に、特定のラベルが自動的にラベル付けされるように構成してよい。これは、例えば、特定の薬Dに反応を示すことがわかっている、第1のグループの100人の乳がん患者の100の組織画像、及び、この反応を示さないことがわかっている、第2のグループの120人の乳がん患者の120の組織画像など、同じ患者関連属性値/エンドポイントを有する大きなグループの患者の組織サンプル画像が順次取得されるシナリオにおいて、助けとなり得る。ユーザは、第1のグループの画像が取得される前に一度だけ、そして続いて、第2のグループの画像が取得される前に再度、撮像された画像に割り当てられるラベルをセットしなければならない場合がある。
各患者に対して、1つ又はそれ以上の画像が回収される。例えば、同じ組織サンプルが、異なる染色プロトコルにしたがって複数回染色され得、これにより、各染色プロトコルに対して、1つの画像が取得される。代替的に、いくつかの隣接する組織サンプルスライスはそれぞれ、同じ又は異なる染色プロトコルを用いて染色され得、組織サンプルスライドのそれぞれに対して、1つの画像が取得される。受信した画像のそれぞれには、少なくとも2つの異なる、予め定められたラベルの内の1つが割り当てられる。各ラベルは、その組織が、ラベル付けされた画像に描かれている、患者の患者関連属性値を示す。属性値は、例えば、ブール、数、ストリング、序数パラメータ値などのいずれのタイプであり得る。
次に、ステップ104において、画像分析システムは、各受信した画像を、画像タイルのセット216に分割する。これにより、各タイルには、タイルを生成することに使用された画像にすでに割り当てられたラベルが割り当てられる。
例えば、「CAMELYON16」チャレンジ2016の根拠として公開された画像データセットが、トレーニングデータセットとして使用され得る。乳がん患者の、H&Eにて染色されたリンパ節組織セクションの270の全体スライド画像からなるCAMELYON16データセットは、トレーニング画像データセット(正常な組織の160の画像、腫瘍転移のある110の画像)として提供される。このデータセットは、https://camelyon16.grand-challenge.org/data/から利用可能である。10倍の倍率にて、このデータセットの画像は、それぞれが重ならない、サイズが256x256ピクセルの非背景エリアから、1,113,403のRGBタイルを生成することに使用され得る。
1つの実施形態によると、受信した画像、同様に、生成されたタイルは、マルチチャネル画像である。タイルの数は、トレーニングデータセットを強化するために、異なるサイズ及び倍率レベルを有する、及び/又は、いくらかのシミュレーションされたアーチファクト及びノイズを含む、既存のタイルの変更されたコピーを生成することにより、増やされ得る。いくつかの場合では、複数のバッグが、本発明の実施形態についてここに説明するように、バッグにおけるインスタンスを繰り返しサンプリングし、選択されたインスタンスを追加的なバッグに置くことにより生成され得る。この「サンプリング」はまた、トレーニングデータセットを強化する正の効果を有し得る。
いくつかの場合では、特徴ベクトルは、Nクラスタにクラスタ化され得、Mインスタンス(タイル)が、各クラスタから疑似バッグにランダムに選択され、バッグにおけるインスタンスの、クラスタと同等の母集団を生成し得る。
次に、ステップ106において、画像分析システムは、タイルのそれぞれに対して、特徴ベクトル220を計算する。特徴ベクトルは、そのタイルに描かれている組織パターンから選択的に抽出された画像特徴を含む。任意に、特徴ベクトルは、これに加えて、遺伝子的特徴、又は、他の患者、若しくは、画像及びそれぞれのタイルが導き出される、その患者に対して利用可能な患者関連データを含み得る。いくつかの実施形態によると、特徴抽出は、トレーニング済み特徴抽出MLLにより行われる。特徴抽出MLLは、トレーニングデータセットにおける各タイルに対する特徴ベクトルを、特徴と、ベクトルと、ラベルと、の関係を保ちつつ、生成できる。しかし、他の実施形態は、特徴ベクトルが計算されるタイルに描かれている組織エリアを記述する、非常に多種の特徴を提供するための、明示的にプログラムされた特徴抽出アルゴリズムを使用してよい。
次に、ステップ108において、マルチプルインスタンスラーニング(multiple-instance-learning又はMIL)プログラム226が、グループにおけるすべての患者に対して受信したすべての画像のすべてのタイル及びそれぞれの特徴ベクトルについてトレーニングされる。これにより、MILプログラムは、タイルの各セットを、同じラベルを有するタイルのバッグとしてを扱う。トレーニングは、タイルのそれぞれに対して、数値228を計算するために、トレーニングデータセットにおけるタイルの特徴ベクトル220を分析することを含む。この数値は、タイルが導き出された画像に割り当てられたラベルに関して、タイルに関連付けられた特徴ベクトルの予測パワーを示す。換言すると、この数値は、タイルに割り当てられたラベルの発生/観察に対する、特定の特徴ベクトルの予測パワー、すなわち、「予測的値/能力」を表す。特徴ベクトルの特徴は、それぞれのタイルに含まれる画像情報から、完全に、又は、少なくとも部分的に抽出されるため、特徴ベクトルは、このタイルに描かれている組織エリアの光学特性を表す。したがって、特徴ベクトルは、電子的組織シグニチャとみなされ得る。
例えば、MILプログラムは、特定の組織領域の、可能性のある1つのラベル又は複数のラベルを予測するようトレーニングされ得、及び/又は、浮動小数点ラベル予測(floating point label predictions)が所望される場合は、ラベルを逆行するようトレーニングされ得る。いくつかの場合では、追加的なアテンションMLLが、どの特徴ベクトルが、ラベルを予測することに対して最も関連するかについて学習するようトレーニングされる。いくつかの場合では、アテンションMLLにより計算された加重が、各スライドの特徴ベクトル値と乗算される。この乗算の結果として、加重された特徴値を持つ特徴ベクトルが、各タイル及びその特徴ベクトルに対して取得され、トレーニング時に、MILプログラムへの入力として使用される。他の実施形態では、アテンションMLLにより計算された加重は、各タイルの特徴ベクトルに対して、MILにより計算された数値と乗算される。これは、ラベルに関して、特定のタイル及びその特徴値の予測パワーのインジケータとして使用される、加重された数値を生成する。この加重された数値は、トレーニング済みMILプログラムの正確さを査定するために、トレーニング時に、グラウンドトゥルースと比較され得る。いくつかの場合では、平均(average)、最小(min)、最大(max)、最小最大プーリング(min-max pooling)(又は、それらの組み合わせ)が、その順列不変変換演算において、トレーニング中に、MILプログラムにより、タイルに特有の結果として取得される特徴ベクトルに適用され得る。
次に、ステップ110において、画像分析システムは、画像タイルのレポートギャラリ206を、画像分析ソフトウェアにより生成されたGUI232を介して出力する。レポート画像タイルギャラリを含むGUIの一例が、図3に描かれている。レポートギャラリは、タイルのサブセットを含む。これにより、このサブセットが、それらの、それぞれ計算された数値に従ってソートされる。加えて、又は代替的に、レポート画像タイルギャラリは、それぞれのタイルに関連付けられた数値の図形表現を含む。
最後に、トレーニング済みMILプログラムが、トレーニングフェーズの結果として取得される。トレーニング済みMILプログラムは、他の患者の群(cohort)から導き出された画像タイルに適用され得る。
テストの目的のために、利用可能なデータセットを、トレーニングデータセットとして使用される(例えば、画像の約75%を含む)サブセットと、テストデータセットとして使用される(例えば、画像の約25%を含む)さらなるサブセットと、に分割することもまた可能である。トレーニング済みMILプログラムが、関連する使用分野(fields of use又はFOVs)についての高い予測値に到達したことが観察された。これらは、pCRの予測に影響があるものといままでみなされていない組織パターンを含んでいた。
したがって、本発明の実施形態は、組織構造及び臨床での撮像から、ゲノミクス及びシーケンシングから、現実世界のデータから、並びに、診断方法から、薬の開発プロセスにおいて利用可能な膨大な量のデータの使用を可能にし得る。本方法は、新たな洞察を抽出することと、新たな技術の開発と、を可能にし得る。
病理学及び組織構造分析のコンテキストにおいて、予測的に内在する組織テクスチャ、又は、組織に関するシグニチャを手動で特定するタスクは、それぞれが数十億のピクセルを持つ、マルチチャネルの、マルチステインマルチモダリティ(multi stain multi-modality)の高倍率画像画像において利用可能な情報のシア(shear)量により、困難であり得る。この診査はしたがって、典型的には、人から生成された仮定の診査に基づき、したがって、腫瘍と、生物学的メカニズムと、についての、前から存在する知識の境界に、同様に、多数の高倍率組織構造画像を手動で吟味する複雑さと所要労働力とにより、限定される。本発明の実施形態は、微小病理学による組織学的組織画像における隠れた情報を、機械学習ロジックと、人と、の双方が、高い予測パワーを有すると特定された特徴を解釈できるように明らかにすることを可能にし得る。
実施形態によると、トレーニング済みMILは、患者グループを階層化することに使用され得る。これは、所与の治療ではなく、要因により患者を分けることを意味する。階層化は、MIL又はアテンションMLLにトレーニングさせる際にラベルとして使用されない患者関連属性に基づいて行われ得る。例えば、そのような患者関連属性は、年齢、性別、他の人口統計学的要因、又は、特定の遺伝子的若しくは生理的形質であり得る。GUIは、ユーザが、ラベルとして使用されなかった、それらの患者関連属性いずれの1つに基づいて、それらの組織画像が、MILにトレーニングさせることに使用された患者のサブグループを選択し、そのサブグループにおける、トレーニング済みMLLの予測の正確さを選択的に計算することを可能にする。例えば、サブグループは、女性患者、又は60歳を超える患者からなることができる。女性/男性、又は、60歳を超える/未満の患者などのそれぞれのサブグループに対して選択的に取得された正確さは、いくつかのサブグループにおける、トレーニング済みMILの特定の高い又は低い正確さを明らかにし得る。これは、変数(リサーチャが検討しているもの以外の変数)を混ぜ合わせることを可能にし得、これにより、リサーチャが、変数間の関係を検出して解釈し、特定の薬から最も恩恵を被る患者グループを特定することを容易にする。
図2は、本発明の実施形態に係る画像分析システム200のブロック図を描く。
画像分析システム200は、1つ又はそれ以上のプロセッサ202と、揮発性又は不揮発性記憶媒体210と、を含む。例えば、記憶媒体は、電磁ドライブ又はフラッシュドライブなどのハードディスクドライブであり得る。これは、磁気ストレージ、半導体ベースのストレージ、又は光学データストレージであり得る。記憶媒体は、一時的にのみデータを含む、メインメモリなどの揮発性媒体であり得る。
記憶媒体は、エンドポイントが既知の、患者からの組織サンプルの、複数のラベル付けされたデジタル画像212を含む。
画像分析システムは、画像212のそれぞれを複数のタイルに分割するよう構成されている分割モジュール214を含む。タイルは、バッグ216にグループ化されており、これにより、典型的には、同じバッグにおけるすべてのタイルは、同じ患者から導き出される。バッグのラベルは、患者の既知のエンドポイントであり、バッグのすべてのタイルには、バッグのラベルが割り当てられている。
特徴抽出モジュール218は、タイル216のそれぞれから、複数の画像特徴を抽出するよう構成されている。いくつかの実施形態では、特徴抽出モジュール218は、トレーニング済みMLL又はトレーニング済みMLLのエンコーディング部であり得る。抽出された特徴は、それらが導き出されたタイルと関連する特徴ベクトル220として、記憶媒体210において記憶される。任意に、特徴ベクトルは、マイクロアレイデータなどのゲノムデータなどの、他のソースから導き出された患者の特徴を用いて強化され得る。
任意に、画像分析システムは、トレーニング済みMILに、画像タイルの残りについてトレーニングさせてテストするために、画像のサンプル(サブセット)を選択するよう適合されているサンプリングモジュール215を含むことができる。サンプリングモジュールは、まず、サンプリングを行う前に、それらの特徴ベクトルに基づいて、タイルをクラスタ化することを行い得る。
任意に、画像分析システムは、特徴ベクトルのそれぞれ及びそれぞれのタイルに対して加重を計算するよう構成されているアテンションMLLプログラム222を含むことができる。加重は、MILプログラム226にトレーニングさせる際に、又は、MILプログラムのトレーニングの結果として、MILにより、タイルのそれぞれに対して返された数値に加重するために、特徴ベクトルと共に、入力として使用され得る。
画像分析システムは、マルチプルインスタンスラーニングプログラム(MILプログラム226)を含む。トレーニング中、MLLプログラム226は、特徴ベクトル220(又は、アテンションMLL222により生成された、加重された特徴ベクトル224)、同様に、それぞれのタイルに割り当てられたラベル、を受信する。トレーニングの結果として、トレーニング済みMILプログラム226が提供される。加えて、タイルのそれぞれに対して、数値228が計算される。これは、タイルと、タイルに割り当てられたラベルに対して、そこに描かれた組織パターンと、の予測パワーを示す。これらの数値はまた、「数的タイル関連性スコア」とも呼ばれ得る。
画像分析システムは、画像分析システムのスクリーン204上に表示されるGUI232を生成するよう構成されているモジュール230をさらに含む。
GUIは、タイルの少なくともいくつかと、これらのタイルに対して計算された数値228と、を含むレポートタイルギャラリ206を含む。数値228は、例えば、それぞれのタイル上のオーバレイとして明示的に、及び/又は、例えば、それらのそれぞれの数値228に従ってソートされたタイルのソート順の形態にて暗示的に、表示され得る。ユーザがタイルの1つを選択すると、そこからタイルが元々導き出された画像の全体スライドヒートマップが表示される。他の実施形態では、レポートタイルギャラリ206に加えて、ヒートマップがデフォルト毎に表示されてよい。
プログラムモジュール214、215、218、222、226、230のそれぞれは、大型MILトレーニングフレームワークソフトウェアアプリケーションのサブモジュールとして実装され得る。代替的に、1つ又はそれ以上のモジュールはそれぞれ、画像分析システムの他のプログラム及びモジュールと相互運用可能な、スタンドアローンソフトウェアアプリケーションプログラムを表してよい。各モジュール及びプログラムは、例えば、Java(登録商標)、Python、C#、又はいずれの他の好適なプログラミング言語にて記述された1ピースのソフトウェアであり得る。
図3は、本発明の実施形態に係る、レポート画像タイルギャラリを伴うGUI300を描く。レポートギャラリ(行ラベル302、304、306、及び308下のタイルのマトリクス)は、ユーザが、特定のラベルに関して、高い予測パワーを持つものとなると、MILプログラムにより特定された組織パターンを診査することを可能にする。ギャラリは、例えば、MILにより計算された、「薬Dを用いた治療に対する反応=真(true)」など、対象の特定のラベルに関して、最も高い数値を有するタイルのいくつかを含む。タイルは、それらが導き出された組織スライド画像に基づいてグループ化されており、MILにトレーニングさせることに使用された画像に割り当てられた特定のラベルに関して、タイルの予測パワーを示すそれらのそれぞれの数値にしたがって、それらのグループ内にてソートされる。加えて、ギャラリは、ギャラリにおけるタイルのそれぞれに対して、トレーニング後に自動的に決定され得る全体的な予測的正確さを含み得る。加えて、又は代替的に、レポートギャラリは、それぞれの画像に割り当てられたラベルと、このラベルに対して取得された、バッグ毎の予測的正確さと、を含むことができる。例えば、「グラウンドトゥルース=0」は、ラベル「薬Dに反応する患者」を表し得る。「グラウンドトゥルース=1」は、ラベル「薬Dに反応しない患者」を表し得る。加重を計算するためにアテンションMLLが使用された場合、ソーティングはまた、本発明の実施形態についてここに説明するように、アテンションMLLにより生成されたタイルの加重と、MILにより計算された数値と、の組み合わせ(例えば、乗算の結果)から、各タイルに対して計算された、組み合わされたスコア値に基づくことができる。MILにより計算された特定の画像のすべてのタイルの最も高い数値が、その画像から導き出されたタイルのグループの上部に、「予測値」として表示される。
描かれたギャラリでは、タイル行302が、第1の患者の6つのタイルを示す。そのタイルの最初の1つには、ラベルに関して、特定の組織スライド/全体スライド画像の予測パワーを示す最も高い数値(予測的値)が割り当てられる。スライドグループ毎の最初のタイルには、これに加えて、又は、代替的に、特定の組織スライド画像から導き出されたすべてのタイルの、(MILにより提供された数値から、及び、アテンションMLLにより計算された加重から生成された)最も高い、組み合わされた値が割り当てられる。
最も高い数値は、図3に示すGUIに描かれるように、患者毎の最も高くスコア付けされたタイルの上部に表示され得る。
最も高い予測パワーを有するタイルのサブセットのみを含むレポートタイルギャラリは、病理学者が、全体スライドを調べる必要がないため、好適となり得る。むしろ、病理学者の注意は、対象のラベルに関して、最も高い予測パワーを有するよう、その組織パターンが特定されている各全体スライド画像の、少数のサブ領域(タイル)に自動的に向けられる。
図3に描かれている実施形態によると、レポート画像タイルギャラリは、H&Eにて染色された画像から導き出された画像タイルを示す。レポート画像タイルギャラリは、次のように整理される。
行302は、第1の患者の特定の全体スライド画像312から導き出されたすべてのタイル内に、MILプログラムにより計算された、(予測パワー、すなわち、予測的値を示す)最も高い数値が割り当てられている6つのタイルを含む。他の実施形態によると、ソーティングは、MILにより計算された数値と同一のスコア値、又は、MILにより計算された数値の微分値に基づいて行われる。例えば、微分値は、MILにより、タイルに対して計算された数値と、アテンションMLLにより、そのタイルに対して計算された加重と、の組み合わせとして計算された、組み合わされたスコアであり得る。この組み合わせは、例えば、その数値と、その加重と、の乗算であり得る。さらなる他の実施形態によると、タイルは、アテンションMLLにより計算された加重のみに従ってソートされ、MILにより計算された数値は、ユーザに、異なる様式にて、例えば、それぞれのタイルの上にある数字、又は、それぞれのタイルに空間的に近接して提示された数字、などの形態にて、表示される。
それらのいくつかが、行312に提示されている、タイルを生成することに使用された、第1の患者の組織サンプルの、それぞれの全体スライド画像312は、より高く関連するタイルの、この選択されたセット312に空間的に近接して示されている。
加えて、MILにより計算されたその数値が、予測パワーを示す最も高い数値が計算された、画像312のタイルの1つの数値に類似する、すべての全体スライド画像領域をハイライトする、オプションの関連性ヒートマップ322が示される。この場合では、最も高い数値が計算されたタイルの1つが自動的に特定されて選択され(例えば、行312における最初の位置にあるタイル)、関連性ヒートマップ322を計算するための根拠として使用される。代替的な実施によると、関連性ヒートマップ322は、画像のすべてのタイルに対して計算された最も高い数値に対する、タイルの数値の類似性を表さないが、これはむしろ、画像のすべてのタイルに対して計算された最も高い、組み合わされたスコアに対する、タイルの類似性を表す。組み合わされたスコアは、例えば、タイルに対して、アテンションMLLにより計算された加重と、MILにより計算された、画像のラベルに関しての、タイルの予測パワーを示す数値と、の乗算などの組み合わせであり得る。依然としてさらなる実施形態によると、関連性ヒートマップ322は、アテンションMLLにより計算されたタイルの加重の、アテンションMLLにより、画像のすべてのタイルに対して計算された最も高い加重に対する類似性を表す。
列304は、第2の患者の特定の全体スライド画像314から導き出されたすべてのタイル内に、MILプログラムにより計算された、最も高い数値が割り当てられている6つのタイルを含む。それぞれの全体スライド画像314は、より高く関連するタイルの、この選択されたセットに空間的に近接して示される。加えて、MILにより計算されたそのそれぞれの数値が、最も高い数値がMILにより計算された全体スライド画像314のタイルの1つに高く類似する、すべての全体スライド画像領域をハイライトする関連性ヒートマップ324が示される。
列306は、第3の患者の特定の全体スライド画像316から導き出されたすべてのタイル内に、MILプログラムにより計算された、最も高い数値が割り当てられている6つのタイルを含む。それぞれの全体スライド画像316は、より高く関連するタイルの、この選択されたセットに空間的に近接して示される。加えて、MILにより計算されたそのそれぞれの数値が、最も高い数値がMILにより計算された全体スライド画像316のタイルの1つに高く類似する、すべての全体スライド画像領域をハイライトする関連性ヒートマップ326が示される。
列308は、患者の特定の全体スライド画像318から導き出されたすべてのタイル内に、MILプログラムにより計算された、最も高い数値が割り当てられている6つのタイルを含む。それぞれの全体スライド画像318は、より高く関連するタイルの、この選択されたセットに空間的に近接して示される。加えて、MILにより計算されたそのそれぞれの数値が、最も高い数値がMILにより計算された全体スライド画像318のタイルの1つに高く類似する、すべての全体スライド画像領域をハイライトする関連性ヒートマップ328が示される。
実施形態によると、レポートタイルギャラリに提示される関連性ヒートマップは、予測パワー、又は、アテンションに基づく加重、又は、それらの組み合わせを示す。描かれた例では、ヒートマップにおける明るいピクセルは、タイルが、高い予測値、アテンションに基づく高い加重、又はそれらの組み合わせを有する、画像におけるエリアを描く。実施形態によると、関連性ヒートマップを計算することは、タイルのスコア(例えば、数値、加重、又は組み合わされた値)が、画像の最も高くスコア付けされたタイルのスコアの最小パーセンテージ値を超えているかについて決定することを含む。これが超えている場合は、関連性ヒートマップにおけるそれぞれのタイルが、第1の色又は「明るい」強度値、例えば、「255」、により表される。これが超えていない場合は、関連性ヒートマップにおけるタイルのそれぞれが、第2の色又は「暗い」強度値、例えば、「0」、により表される。
レポートタイルギャラリにおける各タイルは、(例えば、タイル上をダブルクリックすることにより、又は、タイルをシングルクリックで選択してから、GUI要素「サーチ」を選択することにより)類似性サーチを開始するために、ユーザにより選択され得る。続いて、例えば、図4に示すような類似性サーチタイルギャラリが表示される。
選択可能なGUI要素310のセットにおける「ブラックリスト」及び「再トレーニング」要素は、ユーザが、タイルのブラックリストを画定し、ブラックリストにおけるタイルと、ブラックリストにおけるタイルに高く類似するタイルと、を除く、すべてのタイルに基づいて、MILプログラムに再トレーニングさせることを可能にする。例えば、ブラックリストは、それらがアーチファクトを含むことにより、特に低い数値(予測的値)を有する、又は、特に高い数値を有する、手動で選択されたタイルのセットを含むことができる(非常に高い予測パワーを持つタイルの除外は、対象のラベルに関しての予測パワーをも有する、追加的な、これまでにまだわかっていない組織パターンを特定する、MILの能力を上げ得る)。画像分析システムは、特定のタイルをブラックリストに加えるユーザに応えて、ブラックリストに加えられたタイルの特徴ベクトルに対する、それらの、特徴ベクトルに基づく類似性が、最小類似性閾値を超えるすべてのタイルを、自動的に特定するよう構成され得る。特定されたタイルは、同様に、ブラックリストに自動的に加えられる。ユーザが、再トレーニングGUI要素を選択すると、MILは、ブラックリストにおけるタイルを除く、トレーニングデータセットのすべてのタイルについて再トレーニングされる。
図4は、本発明の実施形態に係る、類似性サーチ画像タイルギャラリを伴うGUI400を描く。類似性サーチは、レポートギャラリにおけるタイルの1つ430の、ユーザに基づく選択によりトリガされる。
このサーチは、全体スライド画像412から418のそれぞれから生成されたタイル内にて、比較された特徴ベクトルの類似性に基づく、例えば、6つの最も類似するタイルのサブセットを特定する。類似性サーチにおいて特定されたタイルは、全体スライド画像毎に、又は、患者毎にグループ化され、その選択が類似性サーチをトリガした、タイル430(「クエリタイル」)に対するそれらの類似性にしたがう降順にてソートされる。
全体スライド画像412から418と、類似性ヒートマップ422から428と、は、それらの特徴ベクトル(及び、したがって、描かれた組織パターン)が、選択されたタイルの特徴ベクトルに最も類似するタイルの場所を示す。
任意に、類似性サーチタイルギャラリは、これに加えて、1つ又はそれ以上の次のデータを含む:
描かれたタイルがそこから導き出された画像に割り当てられたラベル、図4に描かれている1つのラベルは、「グラウンドトゥルース:0」、
バッグのラベルに関して、バッグ(画像)毎にMILプログラムにより計算された予測的正確さ、
全体スライド画像において類似するタイルの数、及び/又は、(例えば、閾値による)類似しないものと比較しての、類似するタイルのパーセンテージ(割合)、及び、
全体スライド画像におけるすべてのタイルの類似性値の平均、中央値、又はヒストグラム。
図5は、特徴ベクトル生成用の教師あり学習アプローチをサポートする、本発明の実施形態に係る特徴抽出MLLプログラムのネットワークアーキテクチャ600を描く。一連のオートエンコーダ604からなるディープニューラルネットワークは、画像タイルから抽出された複数の特徴について、レイヤ毎の様式にてトレーニングされている。トレーニング済みネットワークは、例えば、タイルに描かれている組織を、画像タイルから抽出された光学的特徴に基づいて、クラス「ストローマ組織」、「背景スライド領域」、「腫瘍細胞」、及び「転移組織」の1つに分類する分類タスクを後に行うことができる。ネットワークアーキテクチャは、入力レイヤ603よりも大幅に少ないニューロンを有し、さらなる隠れレイヤ及び分類レイヤが続き得る、ボトルネックレイヤ606を含む。1つの例によると、ボトルネックレイヤは、入力レイヤのニューロンの数の約1.5%のニューロンを含む。潜在的に、数百又は数千の隠れレイヤが、入力レイヤとボトルネックレイヤとの間にある。ボトルネックレイヤにより抽出された特徴は、「ディープボトルネック特徴(deep bottleneck features又はDBNF)」と呼ばれる場合がある。
図6は、MILプログラムとアテンションMLLとを組み合わせるための、1つの可能なシステムアーキテクチャを描く。描かれた実施形態によると、MILプログラムのトレーニングは、タイルのそれぞれに対して加重を計算するために、アテンション機械学習ロジックプログラム222に、すべての受信した画像のすべてのタイルの、特徴ベクトル220、708から714と、ラベル216、702から706と、についてトレーニングさせることを含む。アテンションMLLにより計算された加重は、タイルのラベルにより表される患者関連属性値に関しての、特徴ベクトル及びそれぞれのタイルの予測パワーを示す。続いて、図6に描かれている機械学習システムは、受信したトレーニング画像から取得されたタイルのそれぞれに対して、組み合わされた予測値を計算する。組み合わされた予測値は、タイルに対してMILにより計算された数値、及び、タイルに対してアテンションMLLにより計算された加重の関数である。組み合わされた数値は、例えば、MILの数値と、アテンションMLLの加重と、の乗算の結果、又は、平均であり得る。組み合わされた数値は、タイルのラベルにより表される患者関連属性値に関しての、特徴ベクトル及びそれぞれのタイルの予測パワーを示す。続いて、損失値が計算される。これは、特定のラベルに対して取得された、組み合わされた予測値と、タイルに割り当てられた実際のラベルと、の差異を示す。続いて、MILプログラムのモデルが、計算された損失値に基づく誤差逆伝播法を使用して、繰り返し適応される。
図7は、MILプログラムとアテンションMLLとを組み合わせるための、別の可能なシステムアーキテクチャを描く。MILプログラムのトレーニングは、タイルのそれぞれに対して加重を計算するために、アテンション機械学習ロジックプログラム222、つまり、アテンションMLLプログラム、に、すべての受信した画像のすべてのタイルの、特徴ベクトル220と、ラベル216と、についてトレーニングさせることを含む。加重は、タイルのラベルにより表される患者関連属性値に関しての、特徴ベクトル及びそれぞれのタイルの予測パワーを示す。続いて、図7に描かれている機械学習システムは、タイルのそれぞれに対して、タイルに対してアテンションMLLにより計算された加重と、タイルから抽出された特徴ベクトルの関数として加重された特徴ベクトルを計算する。加重された特徴ベクトルは、MILに、MILが、それぞれのタイルから元々抽出された特徴ベクトルの代わりに、加重された特徴ベクトル、及び、任意に、さらなるデータソース、を使用して、タイルのそれぞれに対して、数値を計算できるように入力される。続いて、MILプログラムは、特定のラベルに対して取得された数値と、タイルに割り当てられた実際のラベルと、の差異を示す損失値を計算する。トレーニング中、MILは、そのモデルを、計算された損失値に基づく誤差逆伝播法を使用して繰り返し適応させる。
図8は、2D及び3D座標系におけるタイルの空間距離を示す。これは、類似性ラベルを、タイルの空間的近接から自動的に導き出された類似性ラベルに基づいて、タイルのペアに自動的に割り当てるために使用される。これにより、ドメインエキスパートによる、画像又はタイルの手動での注釈付けを必要としない、特徴抽出MLLにトレーニングさせるためのトレーニングデータセットが提供される。
図8Aは、デジタル組織サンプルトレーニング画像800のx軸及びy軸により画定される2D座標系におけるタイルの空間距離を示す。トレーニング画像800は、患者の組織サンプルを描く。組織サンプルが患者から取得された後に、サンプルが、顕微鏡検査法のスライド上にセットされ、1つ又はそれ以上の組織学的に関連する染色剤、例えば、H&E、及び/又は、各種のバイオマーカ特異的染料を用いて染色された。トレーニング画像800は、染色された組織サンプルから、スライドスキャナ顕微鏡などを使用して撮像されている。いくつかの実施変異形によると、受信したトレーニング画像の少なくともいくつかは、異なる患者から導き出される、及び/又は、同じ患者の異なる組織領域(生体検査)から導き出される。これらはしたがって、3D座標系において互いに整列され得ない。この場合では、タイル距離は、以下に説明するように、画像のx座標及びy座標により画定される2D空間内にて計算され得る。
トレーニング画像800は、複数のタイルに分割される。説明を目的として、図8Aにおけるタイルのサイズは、典型的なタイルサイズより大きい。
トレーニングデータセットは、次のアプローチにより自動的にラベル付けされ得る:最初に、開始タイル802が選択される。続いて、この開始タイルの周りの第1の円エリアが決定される。第1の円の半径はまた、第1の空間的近接閾値808とも呼ばれる。この第1の円内のすべてのタイル、例えば、タイル806、が、開始タイル802の「近くの」タイルとみなされる。加えて、この開始タイルの周りの第2の円エリアが決定される。第2の円の半径はまた、第2の空間的近接閾値810とも呼ばれる。この第2の円の外側のすべてのタイル、例えば、タイル804、は、開始タイル802に関して、「遠くの」タイルである。
続いて、第1のセットのタイルペアが生成される。ここでは、第1のセットの各タイルペアは、開始タイルと、開始タイルの「近くの」タイルと、を含む。例えば、このステップは、第1の円に含まれる近くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な近くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された近くのタイルに加えることにより、選択された近くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。
第2のセットのタイルペアが生成される。第2のセットの各タイルペアは、開始タイルと、開始タイルに関して、「遠くの」タイルと、を含む。例えば、このステップは、第2の円の外側の、画像800に含まれる遠くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な遠くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された遠くのタイルに加えることにより、選択された遠くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。
続いて、画像800内の別のタイルが、開始タイルとして使用され得、上記のステップが類似的に行われ得る。これは、第1及び第2の円が、新たな開始タイルを中心として使用して再び描かれる、ということを意味する。これにより、新たな開始タイルに関して、近くのタイルと、遠くのタイルと、が特定される。第1のセットのタイルには、新たな開始タイルに基づいて特定された、近くのタイルのペアが追加され、第2のセットのタイルには、新たな開始タイルに基づいて特定された、遠くのタイルのペアが追加される。
続いて、画像800内のさらに別のタイルが、開始タイルとして選択され得、上記のステップが、繰り返され得る。これにより、第1及び第2のタイルペアセットに、さらなるタイルペアがさらに追加される。新たな開始タイルの選択は、画像におけるすべてのタイルが開始タイルとして一度選択されるまで、又は、予め定められた数のタイルが、開始タイルとして選択されるまで行われ得る。
第1のセットにおけるタイルペアのそれぞれ、例えば、ペア812、に対して、ラベル「類似する」が割り当てられる。第2のセットにおけるタイルペアのそれぞれ、例えば、ペア814、に対して、ラベル「類似しない」が割り当てられる。
図8Bは、デジタル組織サンプル画像800のx軸及びy軸と、トレーニング画像800、832、834により描かれた組織ブロックの組織スライスのそれぞれの相対位置にしたがって互いに整列された、画像800、832、834のスタックの高さに対応するz軸と、により画定される3D座標系におけるタイルの空間距離を示す。トレーニング画像はそれぞれ、特定の患者の単一の組織ブロックから導き出された組織サンプルを描く。描かれた組織サンプルは、複数の隣接する組織スライスのスタックに属する。例えば、組織スライスのこのスタックは、FFPET組織ブロックから体外にて用意され得る。組織ブロックはスライスされ、それらのスライスは、顕微鏡検査法でのスライド上にセットされる。続いて、図8Aを参照する画像800について説明されるように、スライスが染色される。
このスタック内の組織サンプルは、単一の組織ブロックから導き出されるため、デジタル画像800、832、834は、共通の3D座標系内に整列させることができる。これにより、z軸は、組織スライスに直交する。z軸は、組織スライスに直交する軸である。z方向における画像の距離は、その画像により描かれた組織スライスの距離に対応する。1つのペアの2つのタイルが同じ画像から導き出される場合、タイルペアのタイル距離は、2D空間内において計算される。加えて、タイルペアが生成され得る。それらのタイルは、共通の3D座標系において互いに整列された異なる画像から導き出される。この場合では、ペアにおける2つのタイルの距離は、3D座標系を使用して計算される。
整列されたデジタル画像のそれぞれは、複数のタイルに分割される。説明を目的として、図8Bにおけるタイルのサイズは、典型的なタイルサイズより大きい。
トレーニングデータセットは、次のアプローチにより自動的にラベル付けされ得る:最初に、開始タイル802が選択される。続いて、開始タイルと近くのタイルとを含むタイルペアと、開始タイルと遠くのタイルとを含むタイルペアと、が、以下に説明するように特定されてラベル付けされる。
この開始タイルの周りの第1の3D球が決定される。説明を目的として、第1の球の断面のみを示す。第1の球の半径はまた、第1の空間的近接閾値836とも呼ばれる。この第1の球内のすべてのタイル、例えば、画像800におけるタイル806だけでなく、画像834におけるタイル840もまた、開始タイル802の「近くの」タイルとみなされる。加えて、この開始タイルの周りの第2の球が決定される。第2の球の半径はまた、第2の空間的近接閾値838とも呼ばれる。この第2の球の外側のすべてのタイル、例えば、画像800のタイル804だけでなく、画像834のタイル842もまた、開始タイル802に関して、「遠くの」タイルである。
第1のセットのタイルペアが生成される。ここでは、第1のセットの各タイルペアは、開始タイルと、開始タイルの「近くの」タイルと、を含む。例えば、このステップは、第1の球に含まれる近くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な近くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された近くのタイルに加えることにより、選択された近くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。
第2のセットのタイルペアが生成される。第2のセットの各タイルペアは、開始タイルと、開始タイルに関して、「遠くの」タイルと、を含む。例えば、このステップは、第2の球の外側の、画像800、832、834に含まれる遠くのタイルと同数のタイルペアを生成することを含むことができる。代替的に、このステップは、利用可能な遠くのタイルのサブセットをランダムに選択することと、開始タイルを、選択された遠くのタイルに加えることにより、選択された遠くのタイルのそれぞれに対してタイルペアを生成することと、を含むことができる。
続いて、画像800内の、又は、画像832、834内の別のタイルが、開始タイルとして使用され得、上記のステップが類似的に行われ得る。これは、第1及び第2の球が、新たな開始タイルを中心として使用して再び描かれる、ということを意味する。これにより、新たな開始タイルに関して、近くのタイルと、遠くのタイルと、が特定される。第1のセットのタイルには、新たな開始タイルに基づいて特定された、近くのタイルのペアが追加され、第2のセットのタイルには、新たな開始タイルに基づいて特定された、遠くのタイルのペアが追加される。
上記のステップは、受信した画像800、832、834のそれぞれにおけるすべてのタイルが開始タイルとして選択されるまで(又は、別の終了基準が満たされるまで)繰り返され得る。これにより、第1及び第2のタイルペアセットには、さらなるタイルペアがさらに追加される。
第1のセットにおけるタイルペアのそれぞれ、例えば、ペア812及び813に対して、ラベル「類似する」が割り当てられる。第2のセットにおけるタイルペアのそれぞれ、例えば、ペア814及び815に対して、ラベル「類似しない」が割り当てられる。
図8A及び図8Bに示す、円及び球に基づく距離計算は、距離に基づく類似性ラベルを計算するための単なる例である。この場合では、「類似する」又は「類似しない」のいずれかのバイナリラベルである。例えば、2D又は3D座標系における2つのタイル間のユークリッド(Euclidean)距離を計算すること、及び、2つのタイルのユークリッド距離と負に相関する数的類似性値を計算すること、などの、他のアプローチが使用され得ることもある。
1mmの組織に対応するピクセルの数は、画像撮像デバイスの倍率、及び、デジタル画像の解像度などの各種の要因に依存するため、ここでは、すべての距離閾値は、描かれた実際の物理的対象、すなわち、組織サンプル、又は、組織サンプルにより覆われたスライド、に関して指定される。
図9は、特徴ベクトルに基づく類似性サーチ、及び/又は、タイルの、特徴ベクトルに基づくクラスタ化、を行うことに適している、画像タイルから、生物医学的に意味のある特徴ベクトルを抽出することができるサブネットワークを提供するために、本発明の実施形態にしたがってトレーニングされたサイアミーズネットワークのアーキテクチャを描く。サイアミーズネットワーク900は、例えば、図8A及び/又は図8Bを参照して説明されるように、自動的に生成された、近接に基づく類似性ラベルを持つタイルペアを含む、したがって、自動的にラベル付けされたトレーニングデータセットについてトレーニングされている。
サイアミーズネットワーク900は、それらの出力レイヤ924にて結合されている2つの同一のサブネットワーク902、903からなる。各ネットワークは、単一のデジタル画像(例えば、タイル)954、914を入力として受信するよう適合されている入力レイヤ905、915を含む。サブネットワークのそれぞれは、複数の隠れレイヤ906、916、908、918を含む。1次元の特徴ベクトル910、920は、2つの入力画像の1つから、2つのサブネットワークのそれぞれの1つにより抽出される。これにより、各ネットワークの最後の隠れレイヤ908、918が、特徴ベクトルを計算し、その特徴ベクトルを出力レイヤ924に提供するよう適合されている。入力画像の処理は、厳密に分けられている。これは、サブネットワークが入力画像954のみを処理し、サブネットワークが入力画像914のみを処理することを意味する。出力レイヤが、ベクトル類似性、したがって、2つの入力画像に描かれている組織パターンの類似性を決定するために、2つのベクトルを比較する際に、2つの入力画像においてもたらされる情報が組み合わされる唯一のポイントは、出力レイヤの中にある。
実施形態によると、各サブネットワーク902、903は、モディファイドレジデュアルネットワーク(modified resnet)-50アーキテクチャ(Heらによる、画像認識のためのディープレジデュアルラーニング(Deep Residual Learning for Image Recognition)、2015、CVPR’15)に基づく。実施形態によると、resnet-50により予めトレーニングされたサブネットワーク902、903は、ImageNetについて予めトレーニングされている。最後のレイヤ(これは通常、1,000の特徴を出力する)は、特徴ベクトルの所望するサイズ、例えば、サイズ128、を有するサイズの、完全に接続されたレイヤ408、418と置き換えられる。例えば、各サブネットワークの最後のレイヤ908、918は、最後から二番目のレイヤから特徴を抽出するよう構成され得、これにより、最後から二番目のレイヤは、最後のレイヤ908、418よりも多数の特徴(例えば、2048)を提供し得る。実施形態によると、例えば、PyTorch(0.001の学習率、及び、0.9、0.999のベータ)におけるデフォルトパラメータを持つアダムオプティマイザ(Adam optimizer)などのオプティマイザと、256のバッチサイズと、が、トレーニング中に使用された。データ拡大について、ランダムの水平及び垂直フリップ、及び/又は、最大で20度までのランダムな回転、及び/又は、輝度に対して0.075の値を用いた色ジッタ拡大、コントラスト飽和、及び/又は、色相が、トレーニングデータセットを増やすために、タイルに適用され得る。
サイアミーズネットワークが、自動的にラベル付けされた画像のペアについてトレーニングされている場合、学習プロセスの目的は、類似する画像が、互いに類似する出力(特徴ベクトル)を有するべきであり、及び、類似しない画像が、互いに類似しない出力を有するべきである、ということである。これは、2つのサブネットワークにより抽出された特徴ベクトル間の差異を測定する関数などの損失関数を最小化することにより達成され得る。
実施形態によると、サイアミーズニューラルネットワークは、ペアの2つのタイルのそれぞれに対して、2つのサブネットワークにより抽出された特徴ベクトルの類似性が、ペアの2つのタイルに描かれている組織パターンの類似性と相関するよう、タイルのペアについて、損失関数を使用してトレーニングされている。
サイアミーズネットワークは、例えば、Bromleyらによる、「‘サイアミーズ’タイムディレイニューラルネットワークを使用するシグニチャ検証(Signature Verification using a ‘Siamese’ Time Delay Neural Network)」、1994年、NIPS’1994、に説明されるようなサイアミーズネットワークであり得る。サイアミーズネットワークの各サブネットワークは、多次元特徴ベクトルを、入力として提供された2つの画像タイルのそれぞれ1つから抽出するよう適合されている。ネットワークは、同様の組織パターンを描くタイルペアが、互いに近い(類似する)出力(特徴ベクトル)を有するべきであり、類似しない組織パターンを描くタイルペアが、互いに遠い出力を有するべきである、ということを目的として、近接に基づく組織パターン類似性ラベルの注釈が自動的に付けられた複数のタイルペアについてトレーニングされている。1つの実施形態によると、これは、例えば、Hadsellらによる、不変マッピングを学習することによる次元縮退(Dimensionality Reduction by Learning an Invariant Mapping)、2006年、CVPR’06、に説明されるような、対照損失を行うことにより達成される。対照損失は、トレーニング中に最小化される。対照損失CLは、例えば、次にしたがって計算され得る:
CL=(1-y)2(f1-f2)+y*max(0,m-L2(f1-f2))、
ここで、f1、f2は、2つの同じサブネットワークの出力であり、yは、タイルペアに対するグラウンドトゥルースラベルである:0は、それらが、「類似する」とラベル付けされている場合(第1のセットのタイルペア)であり、1は、それらが、「類似しない」とラベル付けされている場合(第2のセットのタイルペア)である。
サイアミーズネットワーク900のトレーニングは、ネットワーク900に、複数の自動的にラベル付けされた、類似するタイルペア812、813と、類似しないタイルペア814、815と、をフィードすることを含む。各入力トレーニングデータレコード928は、タイルペアの2つのタイルと、その自動的に割り当てられた、空間的近接に基づくラベル907と、を含む。近接に基づくラベル403は、「グラウンドトゥルース」として提供される。出力レイヤ924は、2つの比較された特徴ベクトル908、918の類似性に応じて、2つの入力画像904、914に対する、予測された類似性ラベルを計算するよう適合されている。サイアミーズネットワークのトレーニングは、誤差逆伝播法プロセスを含む。予測されたラベル926の、入力ラベル907からのいずれの偏差は、損失関数の形態にて測定される「エラー」又は「損失」とみなされる。サイアミーズネットワークのトレーニングは、誤差逆伝播法を繰り返し使用することにより、損失関数により計算されるエラーを最小化することを含む。サイアミーズネットワーク900は、例えば、Bromleyらによる、「「サイアミーズ」タイムディレイニューラルネットワークを使用するシグニチャ検証(Signature Verification using a “Siamese” Time Delay Neural Network)、1994、NIPS’1994、により説明されるように実施され得る。
図10は、例えば、図9を参照して説明するように、切り捨てられたサイアミーズネットワークとして実装される特徴抽出MLL950を描く。
特徴抽出MLL950は、例えば、トレーニング済みサイアミーズネットワーク900のサブネットワーク902、903の1つを個別に記憶することにより取得され得る。トレーニング済みサイアミーズネットワークとは対照的に、特徴抽出MLLとして使用されるサブネットワーク90、903は、単一の画像952のみを入力として必要とし、類似性ラベルを出力しないが、むしろ、サイアミーズネットワーク900のトレーニング中に、特に、特定の組織パターンに対する性質として特定され、特徴のこの特定のセットを、2つの画像から抽出して比較することにより、2つの画像に描かれている組織パターンの類似性を決定することに特に適していると特定された、限定された特徴のセットの値を選択的に含む特徴ベクトル910を出力する。
図11は、画像データベースにおいて、特徴ベクトルに基づく類似性サーチを使用するコンピュータシステム980を描く。例えば、類似性サーチは、サーチタイルギャラリを計算することに使用され得る。その一例が、図4に描かれている。コンピュータシステム980は、1つ又はそれ以上のプロセッサ982と、トレーニング済みサイアミーズネットワーク(「切り捨てられたサイアミーズネットワーク」)のサブネットワークであり得る、トレーニング済み特徴抽出MLL950と、を含む。システム980は、特徴ベクトルを、サーチ画像から、及び、サーチした画像(タイル)のそれぞれから、それぞれ抽出するために、特徴抽出MLLを使用して画像類似性サーチを行うよう適合されている。
コンピュータシステムは、例えば、データベース992を含む、又は、これに操作可能に結合された、スタンダードなコンピュータシステム又はサーバーであり得る。例えば、データベースは、複数の患者の組織サンプルを描く、数百又は数千もの全体スライド画像を含む関係バッシュデータベース構造化照会言語マネージャ(bash database structured query language manager又はBDSM)であり得る。好ましくは、データベースは、データベースにおける画像のそれぞれに対して、特徴出力MLL950により、データベースにおけるその画像から抽出されたそれぞれの特徴ベクトルを含む。好ましくは、データベースにおける各画像の特徴ベクトルの計算は、いずれのそのようなリクエストが受信される前に、単一の予備処理ステップにおいて行われる。しかし、サーチリクエストに応えて、データベースにおける画像に対する特徴ベクトルを動的に計算して抽出することも可能である。サーチは、例えば、サーチ画像986に描かれている組織パターンに類似する組織パターンを描く単一の全体スライド画像内のタイルを特定するために、特定のデジタル画像から導き出されたタイルに限定され得る。サーチ画像986は、例えば、ユーザにより選択されたレポートタイルギャラリに含まれるタイルであり得る。
コンピュータシステムは、ユーザ984が、サーチ画像986として使用される特定の画像又は画像タイルを選択又は提供することを可能にするユーザインターフェースを含む。トレーニング済み特徴抽出MLL950は、特徴ベクトル988(「サーチ特徴ベクトル」)を、入力画像から抽出するよう適合されている。サーチエンジン990は、サーチ特徴ベクトル988を特徴出力MLL950から受信し、画像データベースにおいて、ベクトルに基づく類似性サーチを行う。類似性サーチは、類似性スコアを、2つの比較された特徴ベクトルに応じて計算するために、サーチ特徴ベクトルを、データベースにおける画像の特徴ベクトルのそれぞれと比較することを含む。類似性スコアは、サーチ特徴ベクトルの、データベースにおける画像の特徴ベクトルとの類似性の程度を示し、したがって、2つの比較された画像に描かれている組織パターンの類似性を示す。サーチエンジン990は、サーチ結果994を、ユーザに返して出力するよう適合されている。サーチ結果は、例えば、最も高い類似性スコアが計算された、データベースの1つ又はそれ以上の画像であり得る。
例えば、サーチ画像986が、乳がん組織を描くことが既知の画像タイルである場合、システム980は、類似する乳がん組織パターンを描く複数の他のタイル(又は、そのようなタイルを含む全体スライド画像)を特定することに使用され得る。
図12は、各マトリクスが3つの列からなり、各列が6つのタイルペアを含む、2つのタイルマトリクスを示す。第1の(上の)マトリクスは、互いに近く、ラベル「類似する」タイルペアが自動的に割り当てられたタイルからなる第1のセットのタイルペア(A)を示す。第2の(下の)マトリクスは、互いに遠く、ラベル「類似しない」タイルペアが自動的に割り当てられた第2のセットのタイルペア(B)を示す。いくつかの場合では、「類似する」とラベル付けされたタイルが類似して見えず、「類似しない」とラベル付けされたタイルが類似して見える。このノイズは、2つの異なる組織パターンが出会う境界にて、2つの近くのタイルが異なる組織パターンを描き得るという事実により、及び、遠くの組織領域であっても、同じ組織パターンを描き得るという事実により、引き起こされる。これは、データセット生成プロセスにおいて予期される、固有のノイズである。
出願人は、このノイズにも関わらず、自動的にラベル付けされたデータセットについてトレーニングされた特徴抽出MLLが、類似するタイルペア及び類似しないタイルペアの明確な区別を可能にする特徴を正確に特定して抽出することができることを観察した。出願人は、このノイズに対する、トレーニング済みMLLの観察されたロバスト性は、領域境界が、典型的には、領域非境界エリアよりも狭いエリアを有する、という事実に基づくということを想定する。
実施形態によると、自動的に生成されるトレーニングデータセットの品質は、第1のステップにおいて、以前にトレーニングされた類似性ネットワーク、又は、ImageNetの予めトレーニングされたネットワークを使用して、タイルペアの類似性を査定し、続いて、第2のステップにおいて、本発明の実施形態についてここに説明するような、タイルの空間的近接に基づいて類似性ラベルを生成し、続いて、一方が、第1のステップにおいて、もう一方が、第2のステップにおいて決定された2つのタイルの類似性の強い偏差が観察されたペアラベルを修正をする、というものである。
図13は、近接に基づく類似性ラベルについてトレーニングされた特徴抽出MLLにより抽出された、類似性サーチ結果に基づく特徴ベクトルを示す。5つの腫瘍クエリタイルが、A、B、C、D、及びEとして示されている。クエリタイルは、クエリスライド(A1からA5、B1からB5、C1からC5、D1からD5、E1からE5)以外の、低から高への距離によりランク付けされた5つのタイルをそれぞれ、近接に基づくラベルを用いて自動的にラベル付けされたデータについてトレーニングされた特徴抽出MLLにより抽出された特徴ベクトルを用いて特定して回収するための画像回収タスクにおいて使用された。対象クラス(例えば、腫瘍)は、サーチされたタイルの3%のみを含む。回収されたいくつかのタイルは、クエリタイル(例えば、C3及びC)とは大きく異なって見えるものの、A4以外の、回収されたタイルのすべては、腫瘍細胞を含むこと(すなわち、正しいクラス回収)が、エキスパート病理学者により検証されている。
符号の説明
100 方法
102 から110 ステップ
200 画像分析システム
202 プロセッサ(単一又は複数)
204 ディスプレイ
206 画像タイルギャラリ
208 全体スライドヒートマップ
210 記憶媒体
212 デジタル画像
214 分割モジュール
216 ラベル付けされたタイルのバッグ
218 特徴抽出モジュール
220 特徴ベクトル
222 アテンション機械学習ロジックプログラム
224 特徴ベクトルの加重
226 マルチプルインスタンスラーニングプログラム
228 タイルの数的関連性スコア
230 GUI生成モジュール
232 GUI
300 レポートタイルギャラリを含むGUI
302 第1の組織パターンを表す、類似するタイルの第1のサブセット
304 第2の組織パターンを表す、類似するタイルの第2のサブセット
306 第3の組織パターンを表す、類似するタイルの第3のサブセット
308 第4の組織パターンを表す、類似するタイルの第4のサブセット
310 選択可能なGUI要素のセット
312 全体スライド画像
314 全体スライド画像
316 全体スライド画像
318 全体スライド画像
322 関連性ヒートマップ
324 関連性ヒートマップ
326 関連性ヒートマップ
328 関連性ヒートマップ
400 類似性サーチタイルギャラリを含むGUI
402 第1の組織パターンを表す、類似するタイルの第1のサブセット
404 第2の組織パターンを表す、類似するタイルの第2のサブセット
406 第3の組織パターンを表す、類似するタイルの第3のサブセット
408 第4の組織パターンを表す、類似するタイルの第4のサブセット
410 選択可能なGUI要素のセット
412 全体スライド画像
414 全体スライド画像
416 全体スライド画像
418 全体スライド画像
422 類似性ヒートマップ
424 類似性ヒートマップ
426 類似性ヒートマップ
428 類似性ヒートマップ
430 クエリタイル
950 特徴抽出MLLのネットワークアーキテクチャ
602 入力として使用された画像タイル
603 入力レイヤ
604 複数のレイヤ
606 ボトルネックレイヤ
800 複数のタイルにスライスされたデジタル組織画像
802 タイルT1
804 タイルT2
806 タイルT3
808 第1の空間的近接閾値(2D)
810 第2の空間的近接閾値(2D)
812 「類似する」とラベル付けされたタイルのペア
813 「類似する」とラベル付けされたタイルのペア
814 「類似しない」とラベル付けされたタイルのペア
815 「類似しない」とラベル付けされたタイルのペア
816 トレーニングデータ
832 画像300に整列されたデジタル組織画像
834 画像332に整列されたデジタル組織画像
836 第1の空間的近接閾値(3D)
838 第2の空間的近接閾値(3D)
840 タイルT4
842 タイルT5
900 サイアミーズネットワーク
902 サブネットワーク
903 サブネットワーク
904 第1の入力タイル
905 第1のネットワークN1の入力レイヤ
906 隠れレイヤ
907 近接に基づく(「測定された」)類似性ラベル
908 第1の入力タイルに対する特徴ベクトルを計算するよう適合されている隠れレイヤ
910 第1の入力タイル904から抽出された特徴ベクトル
914 第2の入力タイル
915 第2のネットワークN2の入力レイヤ
916 隠れレイヤ
918 第2の入力タイルに対する特徴ベクトルを計算するよう適合されている隠れレイヤ
920 第2の入力タイル914から抽出された特徴ベクトル
922 入力タイルのペア
924 ネットワークN1、N2を繋ぐ出力レイヤ
926 予測された類似性ラベル
928 トレーニングデータセットの個別データレコード
950 特徴抽出MLL
952 個別の入力画像/タイル
954 特徴ベクトル
980 コンピュータシステム
982 プロセッサ
984 ユーザ
986 個別の入力画像/タイル
988 サーチ特徴ベクトル
990 特徴ベクトルに基づくサーチエンジン
992 複数の画像又はタイルを含むデータベース
994 返された類似性サーチ結果

Claims (18)

  1. 患者関連属性値を示す組織パターンを特定する方法(100)であって、
    画像分析システム(200)により、患者のグループにおける各患者に対して、その患者の組織サンプルの少なくとも1つのデジタル画像(212)を受信すること(102)であって、前記少なくとも1つのデジタル画像には、少なくとも2つの異なる予め定められたラベルの内の1つが割り当てられており、各ラベルは、ラベル付けされた前記デジタル画像に組織サンプルが描かれている患者の患者関連属性値を示す、患者の組織サンプルの少なくとも1つのデジタル画像(212)を受信すること(102)と、
    前記画像分析システムにより、各受信したデジタル画像を、画像タイルのセット(216)に分割すること(104)であって、各画像タイルには、その画像タイルを生成することに使用されたデジタル画像に割り当てられたラベルが割り当てられている、画像タイルのセット(216)に分割すること(104)と、
    前記画像タイルのそれぞれに対して、前記画像分析システムにより、その画像タイルに描かれている組織パターンから抽出された画像特徴を含む特徴ベクトル(220)を計算すること(106)と、
    マルチプルインスタンスラーニング(Multiple-Instance-Learning、MIL)プログラム(226)に、前記グループにおけるすべての患者に対して受信したデジタル画像の画像タイル及びそれぞれの特徴ベクトルをトレーニングさせること(108)であって、各画像タイルのセットは、前記MILプログラムにより、同じラベルを有する画像タイルのバッグとして扱われ、前記トレーニングさせることは、画像タイルのそれぞれに対して、その画像タイルが導き出されたデジタル画像に割り当てられたラベルに関して、その画像タイルに関連付けられた特徴ベクトルの予測パワーを示す数値(228)を計算するために、前記特徴ベクトル(220)を分析することを含む、トレーニングさせること(108)と、
    前記画像分析システムのGUI(232)を介して、画像タイルのレポートギャラリ(206)を出力すること(110)であって、前記レポートギャラリは、画像タイルのサブセットを含み、前記画像タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされる、画像タイルのレポートギャラリ(206)を出力すること(110)と、
    を含み、
    前記画像タイルのそれぞれに対して前記特徴ベクトルを計算することは、患者であって、その組織サンプルがその画像タイルに描かれている該患者の患者関連データを受信することと、前記患者関連データを、前記特徴ベクトルにおける1つ又はそれ以上の特徴の形態に表すことと、を含み、前記患者関連データは、ゲノムデータ、RNA配列データ、該患者の既知の疾患、年齢、性別、体液における代謝物濃度、健康パラメータ、及び現在の投薬を含む群から選択される、方法。
  2. 受信した前記デジタル画像が、
    組織サンプルのデジタル画像であって、それらのピクセル強度値が、非バイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像、又は
    組織サンプルのデジタル画像であって、それらのピクセル強度値が、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合されたバイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像、又
    組織サンプルのデジタル画像であって、それらのピクセル強度値が、第1のバイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像と、
    組織サンプルのデジタル画像であって、それらのピクセル強度値が、非バイオマーカ特異的染料の量と相関する、組織サンプルのデジタル画像と、
    の組み合わせであって、前記第1のバイオマーカ特異的染料は、組織サンプルに含まれるバイオマーカを選択的に染色するよう適合されている、組み合わせ
    を含み、
    同じ患者からの、同じ組織サンプルを描く、及び/又は、隣接する組織サンプルを描くすべてのデジタル画像には、同じラベルが割り当てられており、前記MILプログラムは、前記デジタル画像から導き出されたすべての画像タイルを、画像タイルの同じバッグのメンバーとして扱うよう構成されている、
    請求項1に記載の方法。
  3. 画像タイルの前記レポートギャラリ(300)に示す画像タイルが、受信したデジタル画像の1つ又はそれ以上のデジタル画像(312、314、316、318)から導き出されており、前記方法は、前記レポートギャラリにおける前記1つ又はそれ以上のデジタル画像のそれぞれに対して、
    そのデジタル画像から導き出された画像タイルの1つであって、そのデジタル画像から導き出されたすべての画像タイルのうち最も高いスコアが割り当てられている、該画像タイルの1つを特定することであって、前記スコアは、前記MILプログラムにより各画像タイルに対して計算された前記数値、又は、アテンションMLLにより各画像タイルに対して計算された加重、又は、前記MILプログラムにより各画像タイルに対して計算された前記数値と前記アテンションMLLにより各画像タイルに対して計算された前記加重との組み合わせである、特定することと、
    前記デジタル画像の、前記最も高いスコアを有する画像タイル以外の他の画像タイルのそれぞれに対して、該他の画像タイルのスコアを、前記最も高いスコアと比較することにより、関連性インジケータを計算することであって、前記関連性インジケータは、前記他の画像タイルのスコアの、前記最も高いスコアとの差異と負に相関する数値である、関連性インジケータを計算することと、
    前記関連性インジケータの関数として、前記デジタル画像(312、314、316、318)に対する関連性ヒートマップ(322、324、326、328)を計算すること(208)であって、前記関連性ヒートマップのピクセルカラー及び/又はピクセル強度は、前記デジタル画像における画像タイルに対して計算された関連性インジケータを示す、関連性ヒートマップ(322、324、326、328)を計算すること(208)と、
    前記関連性ヒートマップを表示することと、
    を含む、請求項1又は請求項2に記載の方法。
  4. 前記レポートギャラリに示す画像タイルが選択可能であり、前記GUIが、類似性サーチタイルギャラリを計算して表示するよう構成されており、前記計算は、
    前記レポートギャラリの画像タイルの特定の1つの画像タイルの、ユーザの選択を受信することと、
    選択された前記特定の1つの画像タイルと類似する組織パターンを描くすべての受信したデジタル画像から取得されたすべての画像タイルを、前記特定の1つの画像タイルの特徴ベクトルへのその類似性が閾値を超える特徴ベクトルが割り当てられている、すべての受信したデジタル画像から取得されたすべての画像タイルを特定することにより、特定することと、
    前記特定された画像タイルのみを含む類似性サーチタイルギャラリを表示することと
    を含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記レポートギャラリにおける画像タイルが、患者であって、それらの組織サンプル画像から前記画像タイルが導き出された該患者に基づいてグループ化されている、及び/又は、前記レポートギャラリにおける画像タイルが、該画像タイルが導き出されたデジタル画像に割り当てられたラベルに基づいてグループ化されている、請求項1から4のいずれか一項に記載の方法。
  6. 実際に受信したデジタル画像から生成された画像タイルをソースタイルとした計算によって、追加的な画像タイルのセットを生成することにより、画像タイルのバッグの数を計算的に増やすことをさらに含み、各追加的な画像タイルのセットは、前記MILプログラムにより、前記ソースタイルが生成される基となったデジタル画像と同じラベルが割り当てられている、追加的な画像タイルのバッグとして扱われる、請求項1から5のいずれか一項に記載の方法。
  7. 前記追加的な画像タイルのセット生成すること
    1つ又はそれ以上のアーチファクト生成アルゴリズムを、アーチファクトを含む新たな画像タイルを生成するために、実際に受信したデジタル画像から生成された画像タイルの少なくとも1つのサブセットに適用すること、及び/又は
    それらのそれぞれのソースタイルよりきめが細かい、又は、これよりきめが粗い、新たな画像タイルを生成するために、実際に受信したデジタル画像から生成された画像タイルの少なくとも1つのサブセットの解像度を増やすこと、又は、これを減らすこと、
    を含む、請求項に記載の方法。
  8. つ又はそれ以上の受信したデジタル画像から取得された画像タイル、それらの画像タイルの特徴ベクトルの類似性に基づいて、クラスタにグループ化することをさらに含む、請求項1からのいずれか一項に記載の方法。
  9. 前記MILプログラムのトレーニングが、画像タイルの前記セットから、画像タイルのサブセットを取り出すために、画像タイルの前記セットを繰り返しサンプリングすることと、前記MILプログラムに、画像タイルの前記サブセットについてトレーニングさせることと、を含む、請求項1からのいずれか一項に記載の方法。
  10. 前記MILプログラムのトレーニングが、画像タイルの前記セットから、画像タイルのサブセットを取り出すために、画像タイルの前記セットを繰り返しサンプリングすることと、前記MILプログラムに、画像タイルの前記サブセットについてトレーニングさせることと、を含み、
    前記サンプリングすること、患者に対して取得された画像タイルのクラスタのそれぞれから、サンプリングすることにおいて生成される画像タイルのサブセットにおける画像タイルの数が、前記画像タイルが取り出される前記クラスタのサイズに対応するように、画像タイルを選択することを含む、請求項に記載の方法。
  11. 前記特徴ベクトルを計算することが、トレーニング済み機械学習ロジック(950)により行われる、請求項1から10のいずれか一項に記載の方法。
  12. 前記特徴ベクトルが、ラベル付けされた画像タイルペアを含むトレーニングデータセットについてトレーニングされた特徴抽出機械学習ロジックにより計算され、各ラベルは、画像タイルペアにより描かれた2つの組織パターンの類似性を表し、画像タイルペアの2つの画像タイルの空間的距離の関数として計算される、請求項1から11のいずれか一項に記載の方法。
  13. - それぞれが組織サンプルを描く、複数のデジタルトレーニング画像(800、832、834)を受信することと、
    - 受信した前記デジタルトレーニング画像のそれぞれを複数のトレーニング画像タイルに分割することと、
    トレーニング画像タイルペア(812、813、814、815、922)を自動的に生成することであって、各トレーニング画像タイルペアには、該トレーニング画像タイルペアの2つのトレーニング画像タイルに描かれている2つの組織パターの類似性の程度を示すラベル(907)が割り当てられており、前記類似性の程度は、該トレーニング画像タイルペアにおける2つのトレーニング画像タイルの空間的距離(d1、d2、d3、d4)の関数として計算され、前記空間的距離は、非類似性と正に相関する、トレーニング画像タイルペア(812、813、814、815、922)を自動的に生成することと、
    - 機械学習ロジック(MLL)(900、902、903、950)に、トレーニングデータとして、ラベル付けされた前記トレーニング画像タイルペアを使用して、トレーニング済みMLL(900)を生成するようトレーニングさせることであって、前記トレーニング済みMLLは、類似するデジタル組織画像は類似する特徴ベクトルを有し、類似しないデジタル組織画像は類似しない特徴ベクトルを有するような方法でデジタル組織画像を表す特徴ベクトルを、デジタル組織画像から抽出するように学習しているものである、トレーニングさせることと、
    前記画像タイルの特徴ベクトルを計算するために、前記トレーニング済みMLL又はそのコンポーネントを使用することと、
    をさらに含む、請求項12に記載の方法。
  14. 前記トレーニング済みMLLが、2つのニューラルサブネットワーク(902、903)であって、それらの出力レイヤ(924)により結合されている、2つのニューラルサブネットワーク(902、903)を含むサイアミーズネットワーク(900)であり、
    - トレーニング済みサイアミーズネットワーク(900)の前記ニューラルサブネットワークの1つ(902)を記憶媒体上に個別に記憶させることと、
    - 記憶させ前記ニューラルサブネットワークを、前記画像タイルの特徴ベクトルを計算するために使用される前記トレーニング済みMLL(900)の前記コンポーネントとして使用することと、
    をさらに含む、請求項13に記載の方法。
  15. 前記デジタル画像に割り当てられた前記ラベルが、
    患者が、特定の薬に反応したことのインジケーション、
    - 患者が、転移又は特定の形態の転移(例えば、微小転移)を発症したことのインジケーション、
    - がん患者が、特定の治療に応答して、病理学的完全奏効(pCR)を示したことのインジケーション、
    - 患者が、特定の形態学的状態又はマイクロサテライトステータスを伴うがんを有することのインジケーション、
    - 患者が、特定の薬に対する拒絶反応を発症したことのインジケーション、
    - 遺伝子属性、
    RNA発現プロファイル
    を含む群から選択される、請求項1から14のいずれか一項に記載の方法。
  16. 前記画像分析システムにより、患者のさらなるグループにおける各患者に対して、その患者の組織サンプルの少なくとも1つのさらなるデジタル画像を受信することであって、各さらなるデジタル画像には、前記予め定められたラベルの内の1つが割り当てられている、少なくとも1つのさらなるデジタル画像を受信することと、
    前記画像分析システムにより、各受信したさらなるデジタル画像を、さらなる画像タイルのセットに分割することであって、各さらなる画像タイルには、そのさらなる画像タイルを生成することに使用されたさらなるデジタル画像に割り当てられたラベルが割り当てられている、各受信したさらなるデジタル画像を、さらなる画像タイルのセットに分割することと、
    - さらなる画像タイルのそれぞれに対して、前記画像分析システムにより、そのさらなる画像タイルから、及び、そこに描かれた組織パターンから、抽出された画像特徴を含むさらなる特徴ベクトルを計算することと、
    さらなる画像タイルのそれぞれに対して、そのさらなる画像タイルが導き出されたさらなるデジタル画像に特定のラベルが割り当てられている確率を示す数値であって、そのさらなる画像タイルのさらなる特徴ベクトルの学習済み非線形変換関数として計算される数値を計算するために、トレーニング済みマルチプルインスタンスラーニング(Multiple-Instance-Learning、MIL)プログラムを、前記さらなるグループにおけるすべての患者に対して受信したすべてのさらなるデジタル画像のさらなる画像タイル及びそれぞれのさらなる特徴ベクトルに、適用することと、
    前記画像分析システムの前記GUIを介して、さらなる画像タイルのレポートギャラリを出力することであって、前記さらなる画像タイルのレポートギャラリは、複数のさらなる画像タイルを含み、それら複数のさらなる画像タイルは、それらの、それぞれ計算された前記数値に従ってソートされている、及び/又は、それらのそれぞれの前記数値の図形表現を含む、さらなる画像タイルのレポートギャラリを出力することと、
    をさらに含む、請求項1から15のいずれか一項に記載の方法。
  17. - 1つ又はそれ以上の「高予測パワータイル」であって、前記デジタル画像に割り当てられた前記ラベルの特定の1つに関して、その特徴ベクトルの前記予測パワーを示す数値(228)が、高予測パワー閾値を超える画像タイルである高予測パワータイルを、自動的に選択すること、又は、ユーザが選択できるようにすること、及び/又は、
    - 1つ又はそれ以上の「アーチファクトタイル」であって、前記デジタル画像に割り当てられた前記ラベルの特定の1つに関して、その特徴ベクトルの前記予測パワーを示す数値(228)が、最小予測パワー閾値未満である、又は、1つ又はそれ以上のアーチファクトを描く画像タイルであるアーチファクトタイルを、自動的に選択すること、又は、ユーザが選択できるようにすること、
    をさらに含み、
    - 1つ又はそれ以上の高予測パワータイル及び/又はアーチファクトタイルの選択に応答して、前記MILプログラムに自動的に再トレーニングさせ、これにより、トレーニングセットから、前記1つ又はそれ以上の高予測パワータイル及び/又はアーチファクトタイルを除外する、
    請求項1から16のいずれか一項に記載の方法。
  18. 患者関連属性値を示す組織パターンを特定するための画像分析システム(200)であって、
    - 少なくとも1つのプロセッサ(202)と、
    - 患者のグループの組織サンプルのデジタル画像(212)を含む揮発性又は不揮発性記憶媒体(210)であって、前記患者のグループにおける各患者に対して、その患者の組織サンプルの少なくとも1つのデジタル画像が、前記記憶媒体に記憶されており、前記少なくとも1つのデジタル画像には、少なくとも2つの異なる予め定められたラベルの内の1つが割り当てられており、各ラベルは、ラベル付けされた前記デジタル画像に組織サンプルが描かれている患者の患者関連属性値を示す、揮発性又は不揮発性記憶媒体(210)と、
    前記少なくとも1つのプロセッサにより実行可能であり、前記デジタル画像のそれぞれを、画像タイルのセット(216)に分割するよう構成されている画像分割モジュール(214)であって、各画像タイルには、その画像タイルを生成することに使用されたデジタル画像に割り当てられたラベルが割り当てられている、画像分割モジュール(214)と、
    - 前記少なくとも1つのプロセッサにより実行可能であり、前記画像タイルのそれぞれに対して、その画像タイルに描かれている組織パターンから抽出された画像特徴を含む特徴ベクトル(220)を計算するよう構成されている特徴抽出モジュール(218)と、
    - 前記少なくとも1つのプロセッサにより実行可能なマルチプルインスタンスラーニング(Multiple-Instance-Learning、MIL)プログラム(226)であって、MILプログラムのトレーニングフェーズにおいて、前記グループにおけるすべての患者のすべてのデジタル画像のすべての画像タイル及びそれぞれの特徴ベクトル(220)を受信するよう構成されており、画像タイルの各セットを、前記トレーニングフェーズ中に、同じラベルを有する画像タイルのバッグとして扱うよう構成されており、トレーニングは、画像タイルのそれぞれに対して、その画像タイルが導き出されたデジタル画像に割り当てられたラベルに関して、その画像タイルに関連付けられた特徴ベクトルの予測パワーを示す数値(228)を計算するように、前記特徴ベクトルを分析することを含む、マルチプルインスタンスラーニング(MIL)プログラム(226)と、
    前記少なくとも1つのプロセッサにより実行可能であり、画像タイルのレポートギャラリ(206)を含むGUI(232)を生成して出力するよう構成されているGUI生成モジュール(230)であって、前記レポートギャラリは、画像タイルのサブセットを含み、前記画像タイルのサブセットは、それらの、それぞれ計算された数値に従ってソートされているGUI生成モジュール(230)と、
    - 画像タイルの前記レポートギャラリを含む前記GUIを表示するよう適合されているディスプレイ(204)と、
    を含み、
    前記特徴抽出モジュールはさらに、患者であって、その組織サンプルがその画像タイルに描かれている該患者の患者関連データを受信し、前記患者関連データを、前記特徴ベクトルにおける1つ又はそれ以上の特徴の形態に表すように構成されており、前記患者関連データは、ゲノムデータ、RNA配列データ、該患者の既知の疾患、年齢、性別、体液における代謝物濃度、健康パラメータ、及び現在の投薬を含む群から選択される、画像分析システム。
JP2021552185A 2019-03-12 2020-03-09 予測的組織パターン特定のためのマルチプルインスタンスラーナ Active JP7270058B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19162244.8 2019-03-12
EP19162244 2019-03-12
EP19165967 2019-03-28
EP19165967.1 2019-03-28
PCT/EP2020/056174 WO2020182710A1 (en) 2019-03-12 2020-03-09 Multiple instance learner for prognostic tissue pattern identification

Publications (2)

Publication Number Publication Date
JP2022527145A JP2022527145A (ja) 2022-05-31
JP7270058B2 true JP7270058B2 (ja) 2023-05-09

Family

ID=69726594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021552185A Active JP7270058B2 (ja) 2019-03-12 2020-03-09 予測的組織パターン特定のためのマルチプルインスタンスラーナ

Country Status (5)

Country Link
US (1) US11901077B2 (ja)
EP (1) EP3938948A1 (ja)
JP (1) JP7270058B2 (ja)
CN (1) CN113454733B (ja)
WO (1) WO2020182710A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10818386B2 (en) * 2018-11-21 2020-10-27 Enlitic, Inc. Multi-label heat map generating system
WO2020244776A1 (en) * 2019-06-07 2020-12-10 Leica Microsystems Cms Gmbh System and method for processing biology-related data and a microscope
BR112022003461A2 (pt) * 2019-09-09 2022-05-24 Paige Ai Inc Sistemas e métodos para processamento de imagens de lâminas para patologia digital
US11462032B2 (en) 2019-09-23 2022-10-04 Proscia Inc. Stain normalization for automated whole-slide image classification
KR20210071410A (ko) * 2019-12-06 2021-06-16 삼성전자주식회사 센서 특화 이미지 인식 장치 및 방법
US11508481B2 (en) 2020-03-06 2022-11-22 Salesforce, Inc. Machine-learned hormone status prediction from image analysis
CN113393940B (zh) * 2020-03-11 2024-05-24 宏达国际电子股份有限公司 控制方法以及医疗系统
IL301435A (en) * 2020-09-18 2023-05-01 Proscia Inc Training weakly supervised end-to-end networks at the top image level of the sample
WO2022066736A1 (en) 2020-09-23 2022-03-31 Proscia Inc. Critical component detection using deep learning and attention
US20220107977A1 (en) * 2020-10-05 2022-04-07 Modern Adjusting Services, LLC Methods, systems, and software for inspection of a structure
US20220108097A1 (en) * 2020-10-05 2022-04-07 Rakuten, Inc. Dual encoder attention u-net
WO2022090205A1 (en) * 2020-10-30 2022-05-05 Genfit A method and a system for obtaining a training dataset usable for training a neural network to detect cells, using color deconvolutions and geometrical attributes
KR102510221B1 (ko) * 2020-12-24 2023-03-15 연세대학교 산학협력단 골절 위험 예측 방법 및 장치
US11791035B2 (en) 2021-03-09 2023-10-17 PAIGE.AI, Inc. Systems and methods for artificial intelligence powered molecular workflow verifying slide and block quality for testing
US11545253B2 (en) 2021-05-21 2023-01-03 PAIGE.AI, Inc. Systems and methods to process electronic images to categorize intra-slide specimen tissue type
JP2024528609A (ja) * 2021-07-14 2024-07-30 ルニット インコーポレイテッド 病理イメージ分析方法及びシステム
US20230115448A1 (en) * 2021-10-12 2023-04-13 PAIGE.AI, Inc. Systems and methods for processing electronic images with preanalytic adjustment
CN114121226B (zh) * 2021-12-02 2024-09-06 中国科学院自动化研究所 基于Unet模型的生物标志物预测系统、方法、设备
CN114429281B (zh) * 2021-12-30 2022-11-15 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法
CN114496142A (zh) * 2021-12-31 2022-05-13 上海艾莎医学科技有限公司 图片打标分配方法、装置、系统及存储介质
WO2023146361A1 (ko) * 2022-01-28 2023-08-03 서울대학교병원 인공지능 기반의 바이오 마커 선별 장치 및 방법
WO2023164164A1 (en) * 2022-02-24 2023-08-31 The Johns Hopkins University System and method for annotating pathology images to predict patient outcome
CN114648680B (zh) * 2022-05-17 2022-08-16 腾讯科技(深圳)有限公司 图像识别模型的训练方法、装置、设备、介质
JP7342194B1 (ja) 2022-05-19 2023-09-11 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2023228230A1 (ja) * 2022-05-23 2023-11-30 日本電気株式会社 分類装置、学習装置、分類方法、学習方法、およびプログラム
WO2023244567A1 (en) * 2022-06-13 2023-12-21 Rensselaer Polytechnic Institute Self-supervised representation learning with multi-segmental informational coding
CN115578797B (zh) * 2022-09-30 2023-08-29 北京百度网讯科技有限公司 模型训练方法、图像识别方法、装置及电子设备
CN115908374B (zh) * 2022-12-14 2024-07-19 广州科盛隆纸箱包装机械有限公司 基于度量学习的瓦楞纸箱印刷图案匹配检测方法、系统及存储介质
WO2024130333A1 (en) * 2022-12-22 2024-06-27 Franklin-AI Pty Ltd Diagnostic data user interfaces
WO2024137801A1 (en) * 2022-12-22 2024-06-27 Verily Life Sciences Llc Gene expression prediction from whole slide images
CN116646088B (zh) * 2023-07-27 2023-12-01 广东省人民医院 一种预测方法、装置、设备及介质
CN117637189B (zh) * 2023-12-20 2024-06-21 北京壹永科技有限公司 多模态大语言模型的训练及推理方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270495A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Multiple Cluster Instance Learning for Image Classification

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170330B2 (en) * 2007-10-30 2012-05-01 Siemens Aktiengesellschaft Machine learning for tissue labeling segmentation
US9275327B2 (en) * 2010-07-28 2016-03-01 Herbminers Informatics Limited AI for relating herbal ingredients to illnesses classified in traditional chinese medicine/TCM using probabilities and a relevance index
CA2893745A1 (en) * 2012-12-04 2014-06-12 Caris Mpi, Inc. Molecular profiling for cancer
GB2542765A (en) * 2015-09-23 2017-04-05 Pathxl Ltd Method and apparatus for tissue recognition
WO2015073935A1 (en) * 2013-11-15 2015-05-21 Corista LLC Continuous image analytics
EP3207499A4 (en) * 2014-10-17 2018-09-19 Cireca Theranostics, LLC Methods and systems for classifying biological samples, including optimization of analyses and use of correlation
AU2015345199A1 (en) * 2014-11-10 2017-04-27 Ventana Medical Systems, Inc. Classifying nuclei in histology images
US10489633B2 (en) * 2016-09-27 2019-11-26 Sectra Ab Viewers and related methods, systems and circuits with patch gallery user interfaces
WO2019020556A1 (en) 2017-07-24 2019-01-31 Ventana Medical Systems, Inc. METHODS AND SYSTEMS FOR ASSESSING INFILTRAT OF IMMUNE CELLS IN TUMOR SAMPLES
US10445879B1 (en) * 2018-03-23 2019-10-15 Memorial Sloan Kettering Cancer Center Systems and methods for multiple instance learning for classification and localization in biomedical imaging

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270495A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Multiple Cluster Instance Learning for Image Classification

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CAMPANELLA Gabriele et al.,Terabyte-scale Deep Multiple Instance Learning for Classification and Localization in Pathology,arXiv,2018年09月27日,https://doi.org/10.48550/arXiv.1805.06983
CHUNG Yu-An et al.,Learning Deep Representations of Medical Images using Siamese CNNs with Application to Content-Based Image Retrieval,arXiv,2017年12月27日,https://doi.org/10.48550/arXiv.1711.08490
ILSE Maximilian et al.,Attention-based Deep Multiple Instance Learning,arXiv,2018年06月28日,https://doi.org/10.48550/arXiv.1802.04712
QUELLEC Gwenole et al.,Multiple-Instance Learning for Medical Image and Video Analysis,IEEE Reviews in Biomedical Engineering,2017年01月10日,Vol.10,pp.213-234
SUDHARSHAN P.J. et al.,Multiple instance learning for histopathological breast cancer image classification,Expert Systems With Applications,2018年09月24日,Vol.117 (2019),pp.103-111
XU Yan et al.,Deep Learning of Feature Representation with Multiple Instance Learning for Medical Image Analysis,2014 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP),2014年07月14日,pp.1626-1630
XU Yan et al.,Weakly supervised histopathology cancer image segmentation and classification,Medical Image Analysis,2014年02月22日,Vol.18,pp.591-604

Also Published As

Publication number Publication date
US20210350176A1 (en) 2021-11-11
JP2022527145A (ja) 2022-05-31
CN113454733A (zh) 2021-09-28
EP3938948A1 (en) 2022-01-19
WO2020182710A1 (en) 2020-09-17
CN113454733B (zh) 2024-04-05
US11901077B2 (en) 2024-02-13

Similar Documents

Publication Publication Date Title
JP7270058B2 (ja) 予測的組織パターン特定のためのマルチプルインスタンスラーナ
US20220237788A1 (en) Multiple instance learner for tissue image classification
US11416716B2 (en) System and method for automatic assessment of cancer
US11756318B2 (en) Convolutional neural networks for locating objects of interest in images of biological samples
JP7231631B2 (ja) 腫瘍空間異質性およびインターマーカ異質性の計算方法
JP7504116B2 (ja) 距離ベース類似性ラベルを使用する機械学習
Fuchs et al. Computational pathology: challenges and promises for tissue analysis
US8831327B2 (en) Systems and methods for tissue classification using attributes of a biomarker enhanced tissue network (BETN)
Padmanabhan et al. An active learning approach for rapid characterization of endothelial cells in human tumors
CN114600155A (zh) 用于细胞检测和分割的弱监督多任务学习
Giuste et al. Explainable synthetic image generation to improve risk assessment of rare pediatric heart transplant rejection
Gupta et al. Simsearch: A human-in-the-loop learning framework for fast detection of regions of interest in microscopy images
Alim et al. Integrating convolutional neural networks for microscopic image analysis in acute lymphoblastic leukemia classification: A deep learning approach for enhanced diagnostic precision
Nanthini et al. Cervical Cancer Cell Segmentation and Classification using ML Approach
Wright Automated analysis of colorectal cancer
Sabata Digital pathology imaging-The next frontier in medical imaging
Alomari et al. Adaptive Localization of Focus Point Regions via Random Patch Probabilistic Density from Whole‐Slide, Ki‐67‐Stained Brain Tumor Tissue
Yang Using convolutional neural networks to predict NRG1-fusions in PDAC biopsy images
Jonaitytė Survival analysis incorporating medical imaging data
WO2024118842A1 (en) Systems and methods for detecting tertiary lymphoid structures
Borges A computer-assisted approach to supporting taxonomical classification of freshwater green microalga images
Akbar Tumour Localisation in Histopathology Images
McLeod et al. PhenoImageShare: a phenotype image annotation, sharing and discovery platform
Alim et al. Systems and Soft Computing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230424

R150 Certificate of patent or registration of utility model

Ref document number: 7270058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150