JP2022525288A - 距離ベース類似性ラベルを使用する機械学習 - Google Patents

距離ベース類似性ラベルを使用する機械学習 Download PDF

Info

Publication number
JP2022525288A
JP2022525288A JP2021552551A JP2021552551A JP2022525288A JP 2022525288 A JP2022525288 A JP 2022525288A JP 2021552551 A JP2021552551 A JP 2021552551A JP 2021552551 A JP2021552551 A JP 2021552551A JP 2022525288 A JP2022525288 A JP 2022525288A
Authority
JP
Japan
Prior art keywords
tile
tiles
image
tissue
mlm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021552551A
Other languages
English (en)
Inventor
エルダド クライマン,
ヤコブ ギルデンブラト,
Original Assignee
エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト filed Critical エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト
Publication of JP2022525288A publication Critical patent/JP2022525288A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Abstract

本発明は、デジタル病理のためのコンピュータ実装式自己教師あり学習方法に関する。方法は、それぞれが組織試料を描写する複数のデジタル画像を受信する(102)こと、受信された画像のそれぞれを複数のタイルに分割する(104)こと、タイル対(312、313、314、315、422)を自動的に生成する(106)ことであって、各タイル対は、対の2つのタイルにおいて描写される2つの組織パターンの類似性の程度を示すラベル(403)を割り当てられており、類似性の程度は、対内の2つのタイルの空間的近接性(d1、d2、d3、d4)の関数として計算され、距離は不同性とプラスに相関する、生成する(106)こと、機械学習モジュール-MLM-(400、402、403、600)を、訓練データとしてラベル付きタイル対を使用して訓練することであって、それにより、訓練済みMLMを生成する、訓練することを含み、訓練済みMLMは、デジタル組織病理画像の画像解析を実施するために適合される。【選択図】図3B

Description

本発明は、デジタル病理の分野に関し、より詳細には、画像解析の分野に関する。
デジタル病理の分野におけるデジタル組織画像の計算解析は、広い範囲の重要な生物医学的応用、例えば、組織検出、セグメント化、形態計測(morphometry)、疾病、例えば、がんを識別し分類すること、および考えられる処置オプションを有する。現在、機械学習手法は、画像解析問題の複雑さおよび多様性に対処するために使用されている。
典型的には、教師あり機械学習手法は、画像解析問題に対処するために使用されている。それにより、機械学習モジュール(MLM:machine learning module)は、領域専門家(特に、病理医および臨床医)によって真値(ground truth)としてラベル付けされた訓練用画像のセットに対して訓練される。訓練フェーズ中に、MLMの統計モデルは、画像解析アルゴリズムによって計算された関連する画像特徴量を、訓練用データセットに含まれるラベルにマッピングすることを学習する。
「アノテーション(annotation)」とも呼ばれるこれらのラベルは、描写される組織および/または組織がそこから導出される患者のメタデータを含むことができる。例えば、ラベルは、画像において描写される組織試料が腫瘍組織を示すか、健康組織を示すか、または、描写される試料がそこから採取された患者が、特定の薬物に応答したか否かを示すことができる。例えば、腫瘍組織が、原発腫瘍(primary tumor)からあるいはマイクロまたはマクロ転移から、間質組織、筋肉組織、脂肪組織、スライドのバックグラウンド切片、または同様なものから導出される場合、ラベルは、特定の組織タイプまたはサブタイプを示すことができる。アノテーション付き訓練用データセットは、新しい未知のデジタル組織画像において描写される組織パターンに基づいてラベルを自動的に識別/予測することを機械学習モジュール(MLM)が学習するように、MLMを訓練するために使用することができる。
デジタル病理において、教師あり学習のための基礎として適するアノテーション付き訓練用データは十分でない。なぜならば、アノテーション付き訓練用データは、収集しアノテーションするのが高価でかつ難しいからである。典型的には、訓練用データは、多数のデジタル組織画像を検査しアノテーションする1人または複数人の領域専門家によって手作業で作成される。これには、多大の時間がかかる。その問題は、デジタル病理の分野で特に重要である。なぜならば、組織の形態が、多くの因子に強く依存する場合があるからである。例えば、肺がん組織、乳がん組織、および肝臓がん組織の形態は、互いに異なる場合がある。したがって、特定のラベルを予測することができるMLMを生成するために、異なるがんタイプのそれぞれについて訓練用データセットを作成する必要がある場合がある。実際には、上記で述べたがんタイプのそれぞれの多くの異なるサブタイプが存在する。種々の異なるがんサブタイプおよび他のタイプの疾病に正しく対処するために、上記疾病および疾病サブフォームのそれぞれについて、ラベル付き訓練用データセットを提供することが望ましいことになる。しかしながら、そのような訓練用データセットのアノテーションは、時間がかかりかつ高価であるため、多くの生物医学的疑問は、アノテーション付き訓練用データが欠如しているため、現在利用可能なデジタル病理方法によって対処することができない。
デジタル病理問題を解決するためにMLMを訓練する状況において、予測的特徴量の識別が、重要であるが難しいタスクであることによって、問題はさらに悪化する。人の手で設計される伝統的な特徴量(handcrafted feature)は、領域専門家の知識に強く依存する。しばしば、領域専門家でさえも、明確に識別することができる特徴量であって、画像データセットにアノテーションするために使用することができかつ対象ラベルについてさらに予測的である、特徴量を明示的に規定することは難しいかまたは不可能である。
さらなる問題は、特定の組織タイプ等のラベルの割り当てが、時として主観的であることに関連する。訓練用データセットが多くの異なる病理医によってアノテーションされると、ラベルは、或る程度まで不整合である場合がある。結果として、この不整合訓練用データセットに対して訓練されたMLMの予測精度は、「アノテーション不整合/アノテーションノイズ(annotation inconsistency/annotation noise)」の部分が有意であるため、下がる場合がある。
上述した理由で、十分なサイズおよび品質のアノテーション付き訓練用データセットの不足は、現在のところ、公開されている多くの生物医学的疑問を、今日既に利用可能な機械学習が対処できず解決できない主要な理由である。
独立請求項で指定される、デジタル病理のための改良型コンピュータ実装学習方法および対応する記憶媒体および画像解析システムを提供することが本発明の目的である。本発明の実施形態は従属請求項で与えられる。本発明の実施形態は、互いに排他的でない場合、互いに自由に組み合わすことができる。
1つの態様において、本発明は、デジタル病理のためのコンピュータ実装自己教師あり学習方法に関する。方法は、複数のデジタル画像を受信することであって、受信された各画像が組織試料を描写する、受信すること;受信画像のそれぞれを複数のタイルに分割すること;タイル対を自動的に生成することであって、各タイル対は、対の2つのタイルにおいて描写される2つの組織パターンの類似性の程度を示すラベルを割り当てられており、類似性の程度は、対内の2つのタイルの空間的近接性の関数として計算され、距離は非類似性と正相関する、生成すること;機械学習モジュール(MLM)を、ラベル付きタイル対を訓練用データとして使用して訓練することであって、それにより、訓練済みMLMを生成する、訓練することを含む。訓練済みMLMは、デジタル組織病理画像の画像解析を実施するために適合される。
この手法は、複数の理由で有益であろう:2つの画像領域の空間的近接性は、組織試料の全てのデジタル画像において常にかつ本質的に利用可能である特徴量である。問題は、画像の空間的近接性およびそれぞれの組織領域それ自体が、典型的には、組織タイプ分類、疾病分類、特定の疾病の継続時間の予測、または画像セグメント化タスク等の生物医学的問題に対して関連情報を明らかにしないことである。少なくとも、多数のタイルおよびそれらのそれぞれの距離がMLMの訓練フェーズ中に解析される場合、2つの画像領域(「タイル(tile)」)の空間的近接性において伝達される情報が2つの画像領域の類似性の正確な指標であることを出願人は意外にも観測した。したがって、2つの比較されるタイルに組織パターン類似性ラベルを自動的に割り当てるために、2つのタイルの本質的に利用可能な情報「空間的近接性(spatial proximity)」を利用することによって、MLMを訓練するために使用することができる大きいアノテーション付き(annotated)データセットを提供することができる。訓練済みMLMは、入力として受信される2つの画像または画像タイルが、類似組織パターンを描写するか、非類似組織パターンを描写するかを自動的に判定するために使用することができる。しかしながら、データセットは、画像類似性検索、画像セグメント化、組織タイプ検出、および組織パターンクラスタリング等の、他のおよびより複雑なタスクのためにさらに使用することができる。したがって、画像の類似性を確実に決定するMLMの訓練を可能にし、またさらに、デジタル病理における複数の複雑な画像解析タスクのためにさらなるデータ処理ユニットが使用可能な特徴ベクトルを出力するMLMの訓練を可能にするアノテーション付き訓練用データを自動的に作成するために、タイルの空間的近接性において伝達される情報を使用できることを出願人は意外にも観測した。これらの手法はいずれも、訓練用データに手作業でアノテーションする領域専門家を必要としない。
多くの異なる組織パターン(例えば、「非腫瘍(non-tumor)」および「腫瘍(tumor)」)を含む組織試料の画像が多くの異なるタイルに分割されると、2つのタイル間の距離が小さければ小さいほど、比較される両方のタイルが同じ組織パターン、例えば、「非腫瘍」を描写する確率が高い。しかしながら、異なる組織パターンを描写する2つの異なるパターン(例えば、第1のタイル「腫瘍」、他のタイル「非腫瘍」)の境界に隣接して幾つかのタイル対が存在するであろう。これらのタイル対はノイズを生成する。なぜならば、これらのタイル対は、異なる組織パターンを描写するが、互いに空間的に非常に近接して存在するからである。異なる組織パターン間の境界に及ぶタイル対によって作成されるこのノイズが、描写される組織パターンの類似性を空間近接性が示すという単純化する仮定と組み合わせて、訓練済みMLMの精度を大幅に下げないことを出願人は意外にも観測した。実際には、本発明の実施形態に従って訓練されたMLMの精度が既存のベンチマーク法を凌ぐことができることを出願人は観測した。
さらなる有益な態様において、多くの異なる画像のセットについて訓練用データを迅速にかつ完全自動で作成することがここで可能である。現在、組織病理画像における自然でかつ実際の変動を捕捉する(capture)利用可能なアノテーション付きデータセットが欠如している。例えば、Camelyonのような既存の大きいデータセットでさえも、1つのタイプの染色(ヘマトキシリン・エオジン(Hematoxylin and Eosin))と1つのタイプのがん(乳がん)のみからなる。組織病理画像のテキスチャおよびオブジェクト形状は、異なるがんタイプ、異なる組織染色タイプ、および異なる組織タイプからの画像において大きく変動する場合がある。さらに、組織病理画像は、異なる領域特有の意味(例えば、間質、腫瘍湿潤リンパ球、血管、脂肪、健康組織、壊死等)を有する多くの異なるテキスチャおよびオブジェクトタイプを含む。したがって、本発明の実施形態は、複数の異なるがんタイプ、がんサブタイプ、染色方法、および患者群(例えば、処置済み/未処置、男性/女性、閾値年齢より老いた人/若い人、バイオマーカーポジティブ/バイオマーカーネガティブ等)のそれぞれについて、アノテーション付きデータセットを自動的に作成することを可能にすることができる。したがって、本発明の実施形態は、アノテーション付き訓練用データを自動的に作成し、訓練用データに対してそれぞれのMLMを訓練することを可能にすることができ、それにより、結果得られる訓練済みMLMは、患者の複数の異なる群のそれぞれについての生物医学的問題に特異性の高い方法で正確に対処するように適合される。手作業によるアノテーション付き乳がんデータセットに対して訓練されたMLMが結腸がん患者について準最適な結果を提供した現在の技術水準の手法と対照的に、本発明の実施形態は、異なる患者群のそれぞれについてMLMを別個に作成することを可能にすることができる。
実施形態によれば、2つの組織パターンの類似性の程度を示すラベルは、バイナリーデータ値、すなわち、考えられる2つのオプションからの1つを有することができる値であり。例えば、ラベルは、「1」または「類似(similar)」であり、2つのタイルが類似組織パターンを描写することを示すことができる。代替的に、ラベルは、「0」または「非類似(dissimilar)」であり、2つのタイルが非類似組織パターンを描写することを示すことができる。
他の実施形態によれば、ラベルは、細分化することができ、例えば、3つ以上のデータ値、例えば、「非類似」、「類似」、および「非常に類似(highly similar)」の制限されたセットから選択されるデータ値であってもよい。
さらに他の実施形態によれば、ラベルは、さらに細分化することができ、数値であって、数値の大きさが類似性の程度に正相関する、数値であってもよい。例えば、数値は、対内の2つのタイル間の空間的距離を、組織パターン類似性を示す数値に線形にかつ逆に変換する関数として計算することができる。空間的距離が大きければ大きいほど、組織パターン類似性を示す数値は小さい。
訓練用データセット(例えば、順序値または数値)において異なるタイプのラベルを処理し使用することができる幅広い種類のMLMアーキテクチャが存在する。MLMのタイプは、訓練用データセットの自動作成されたラベルを処理することが可能であるように選択される。
実施形態によれば、MLMは、教師あり学習アルゴリズムに従って学習するように適合される。教師あり学習は、入力特徴量のセットを、1つまたは複数の出力データ値に変換するマッピングを見出すことである。出力データ値は、訓練中に、ラベルとして、例えば、バイナリーオプションラベル「類似」または「非類似」として、または、類似性についての定量的尺度である数値として提供される。換言すれば、訓練中に、予測されるであろうデータ値は、訓練用データのラベルの形態でMLMのモデルに明示的に提供される。教師あり学習は、各試料について出力空間を規定するために訓練用データがラベル付けされる必要があるという問題を伴う。
実施形態によれば、タイル対の少なくとも一部または全ては、同じ組織スライスに含まれる2つの組織領域をそれぞれ描写する。組織スライスのそれぞれは、受信デジタル画像のそれぞれの画像において描写される。タイル間の距離は、対内のタイルがそこから導出された受信デジタル画像のx次元およびy次元によって規定される2D座標系内で計算される。
実施形態によれば、タイル対は、複数の異なる画像のそれぞれの画像内でタイル対をランダムに選択することによって生成される。ランダムベースの選択は、各対内のタイル間の空間的距離が変動することになることを保証する。例えば、2つのタイル間の距離に逆相関する数値の形態の類似性ラベルは、各対に対して計算され割り当てられる。
他の実施形態によれば、タイル対は、各受信画像のタイルの少なくとも一部または全てを開始タイルとして選択すること;各開始タイルについて、全てのまたは予め規定された数の「近傍タイル(nearby tile)」を選択することであって、「近傍タイル」は、開始タイルを中心とする第1の円内のタイルであり、ただし、この円の半径は第1の空間的近接性閾値と同一である、選択すること;各開始タイルについて、全てのまたは予め規定された数の「遠方タイル(distant tile)」を選択することであって、「遠方タイル」は、開始タイルを中心とする第2の円の外のタイルであり、ただし、上記円の半径は第2の空間的近接性閾値と同一である、選択すること;によって生成され、予め規定された数の選択は、それぞれの画像エリア内でこのタイルの数をランダムに選択することによって実施することができる。第1および第2の近接性閾値は同一であってもよいが、好ましくは、第2の近接性閾値は第1の近接性閾値より大きい。例えば、第1の近接性閾値は1mmであってよく、第2の近接性閾値は10mmであってもよい。その後、タイル対の第1のセットが選択され、ただし、各タイル対は、開始タイルおよび第1の円内に位置する近傍タイルを含む。第1のセット内の各タイル対は、ラベル「類似」組織パターンを割り当てられる。さらに、タイル対の第2のセットが選択され、ただし、上記セット内の各対は、開始タイルおよび「遠方タイル」のうちの1つの「遠方タイル」を含む。第2のセット内の各タイル対は、ラベル「非類似」組織パターンを割り当てられる。例えば、この実施形態は、「バイナリー」ラベル「類似」または「非類似」を作成するために使用することができる。
実施形態によれば、組織試料は1つまたは複数の組織スライスを含む。例えば、組織試料は、スライド、例えばガラススライドの表面に固定された組織スライスであってもよい。他の例によれば、組織試料は、スライドの表面に固定された組織スライスであってもよく、ただし、組織試料の厚さ(高さ、z次元)は、z次元において複数の層のそれぞれについて複数の画像を得ることを可能にし、各画像は組織スライドに対応しそれを描写する。
実施形態によれば、複数のタイルのうちのタイルは非オーバーラップタイルである。
実施形態によれば、タイル対は、近傍タイルのタイル対および遠方タイルのタイル対を含む。
実施形態によれば、組織試料は、IHC組織試料、すなわち、1つまたは複数の免疫組織化学(IHC:Immunohistochemistry)染色法を用いて染色された組織試料である。IHCは、典型的には、抗体が生物組織内の抗原に特異的に結合する原理を利用することによって、組織切片の細胞内の抗原(タンパク質)を選択的に識別するプロセスを含む。免疫組織化学染色は、がん性腫瘍において見出される異常細胞等の異常細胞の診断において使用される。特異的な分子マーカーは、増殖または細胞死(アポトーシス)等の特定の細胞事象に特徴的である。免疫組織化学染色(Immunohistochemistry)はまた、生物組織の異なる部分におけるバイオマーカーおよび差示的に発現した(differentially expressed)タンパク質の分布および局在化を理解する基礎研究において使用される。
例えば、画像のそれぞれにおいて描写される組織試料は、組織スライド、例えば、ガラススライド上の組織スライスであってもよい。
実施形態によれば、タイル間の距離は、タイルがそこから導出されるデジタル画像のx軸およびy軸によって規定される2D座標系内で測定される。これらの実施形態は、異なる患者の組織試料、および/または、同じ患者内の異なる領域であって、上記異なる領域が互いから離れて存在するかまたは上記2つの領域の互いに対する正確な位置がわかっていない、異なる領域の組織試料を描写する複数の組織試料画像が利用可能である状況で使用することができる。この場合、タイル間の空間的近接性は、デジタル画像によって規定されるピクセルの2D平面内でのみ測定される。画像取得(image acquisition)デバイス(例えば、顕微鏡またはスライドスキャナーのカメラ)の既知の解像度因子に基づいて、オリジナル画像のタイル間の距離は、2つのタイルによって描写される組織試料内の組織領域間の距離を計算するために使用することができる。
実施形態によれば、タイル対の少なくとも一部または全ては、隣接する組織スライスのスタックの2つの異なる組織スライスに含まれる2つの組織領域を描写する。組織スライスのそれぞれは、受信デジタル画像のそれぞれのデジタル画像において描写される。隣接する組織スライスのスタックの組織スライスを描写する受信画像は、3D座標系において互いに整列する。タイル間の距離は3D座標系内で計算される。
例えば、受信デジタル画像のサブセットまたは全ての受信デジタル画像は、隣接する組織スライスの組織ブロック内のスライスである組織試料を描写することができる。この場合、デジタル画像は、共通3D座標系内で互いに整列することができ、それにより、3D座標系内のデジタル画像の位置は、組織ブロック内のそれぞれ描写される組織スライスの位置を再生する。これは、3D座標系においてタイル距離を決定することを可能にすることができる。「近傍」および「遠方」タイルの選択は、2D座標系の場合について上述したように実施することができ、唯一の差は、タイル対の少なくとも一部内のタイルが、受信画像のうちの異なる受信画像から導出されることである。
幾つかの実施形態によれば、アノテーション付き訓練用データは、同じデジタル画像から導出されるタイル対ならびに共通3D座標系内で互いに整列した異なる画像から導出されるタイル対を共に含む。これは有利である場合がある。なぜならば、それぞれの組織試料であって、組織試料が同じセルブロック、例えば、3D生検セルブロックに属する、それぞれの組織試料の少数の画像のみが利用可能である場合に、3次元(異なる組織試料内の組織領域を示すタイルの空間的近接性)の考察が訓練用データ内のタイルの数を途方もなく増加させる場合があるからである。
実施形態によれば、タイル対の少なくともさらなるサブセットは、同じ組織スライスの2つの組織領域を描写するタイル対を含み、さらなるサブセットのタイル対のタイル間の距離(d1、d2)は、異なる組織スライスを描写すると導出されるタイル対のサブセットのタイル対間の距離として、空間的近接性の関数に基づいて計算される。換言すれば、空間的近接性を計算するための関数を、2つ以上の隣接する組織スライスに及ぶ3D座標系における2つのタイルの場合と同じ距離閾値を、同じ単一組織試料の2D座標系における2つのタイルについて使用することができる。
実施形態によれば、各タイルは、0.5mm未満、好ましくは0.3mm未満の最大エッジ長を有する組織またはバックグラウンド領域を描写する。
小さいタイルサイズは、異なる組織パターンの混合物を描写するタイルの数および面積率が減少するという利点を有することができる。これは、2つ以上の異なる組織パターンを描写するタイルによって、また、2つの異なる組織パターンを描写する「組織パターン境界(tissue pattern border)」に隣接するタイル対によって生成されるノイズを低減するのに役立つ場合がある。さらに、小さいタイルサイズは、多数のタイル対を生成し、ラベル付けすることを可能にすることができ、それにより、ラベル付き訓練用データの量を増加させる。
実施形態によれば、タイル対の自動生成は、
第1の空間的近接性閾値を使用してタイル対の第1のセットを生成することであって、第1のセット内の各タイル対の2つのタイルによって描写される2つの組織領域は、第1の空間的近接性閾値より小さい距離だけ互いから分離される、生成すること;
第2の空間的近接性閾値を使用してタイル対の第2のセットを生成することであって、第2のセット内の各タイル対の2つのタイルによって描写される2つの組織領域は、第2の空間的近接性閾値より大きい距離だけ互いから分離される、生成すること
を含む。例えば、これは、本発明の実施形態について既に述べたように、複数の開始タイルを選択すること、各開始タイルの周りで第1および第2の空間的近接性閾値に基づいて第1および第2の円を計算すること、および、開始タイルおよび「近傍タイル」(第1のセット)または「遠方タイル」(第2のセット)を含むタイル対を選択することによって、実装することができる。
実施形態によれば、方法は、複数のタイルから開始タイルを選択すること;第1の空間的近接性閾値を使用してタイル対の第1のセットを生成することであって、第1のセット内の各タイル対の2つのタイルによって描写される2つの組織領域は、第1の空間的近接性閾値より小さい距離だけ互いから分離され、第1のセット内の各タイル対は開始タイルを含む、生成すること;第2の空間的近接性閾値を使用してタイル対の第2のセットを生成することであって、第2のセット内の各タイル対の2つのタイルによって描写される2つの組織領域は、第2の空間的近接性閾値より大きい距離だけ互いから分離され、第2のセット内の各タイル対は開始タイルを含む、生成すること;複数のタイルから異なる開始タイルを選択すること;ならびに、タイル対の第1のセットを生成すること、タイル対の第2のセットを生成すること、および、複数のタイルの各タイルが開始タイルとして選択されてしまうまで異なる開始タイルを選択することを反復することを含む。
実施形態によれば、第1および第2の空間的近接性閾値は、同一、例えば、1mmである。
好ましい実施形態によれば、第2の空間的近接性閾値は、第1の空間的近接性閾値より少なくとも2mmより大きい。これは有利である場合がある。なぜならば、組織パターンが1つのパターンから別のパターンに徐々に変化する場合、「遠方タイル」において描写される組織パターンと「近傍タイル」において描写される組織パターンとの差がより明確である場合があり、学習効果を改善する場合があるからである。
実施形態によれば、第1の空間的近接性閾値は、2mmより小さい、好ましくは1.5mmより小さい、特に1.0mmの距離である。さらに、または、代替的に、第2の空間的近接性閾値は、4mmより大きい、好ましくは8mmより大きい、特に10.0mmの距離である。
これらの距離閾値は、デジタル画像およびそれぞれのタイルにおいて描写される組織領域(またはスライスバックグラウンド領域)の距離を指す。画像取得デバイスの既知の倍率およびデジタル画像の解像度に基づいて、この距離は、デジタル画像の2Dまたは3D座標系内の距離に変換することができる。
例えば、タイル(およびタイルにおいて描写される組織領域)間の距離は、例えば、2Dまたは3D座標系内の2つのタイルの中心間で測定することができる。代替の実装態様の変形によれば、距離は、2Dまたは3D座標系内で互いの最も近くに存在する2つのタイルエッジ(画像領域エッジ)間で測定することができる。
上記で述べた閾値は、乳がん患者について、類似のおよび非類似の組織パターンを正確に識別することが可能である訓練済みMLMを自動的に生成することが可能であるラベル付き訓練用データを提供することが観察された。一部の他の実装態様の例において、第1および第2の空間的近接性閾値は他の値を有することができる。特に、異なる組織タイプまたはがんタイプを示す受信デジタル画像の異なるセットが使用される場合、第1および第2の空間的近接性閾値は、上記で提供した距離閾値以外の値を有することができる。
実施形態によれば、MLMは、シャムニューラルネットワーク(または「シャムネットワーク(Siamese network)」)である。シャムネットワークは、共通出力層によって接合される2つの同一のニューラルサブネットワークを備える。2つのニューラルサブネットワークのそれぞれは、MLMへの入力として提供されるタイル対の2つのタイルのそれぞれのタイルから特徴ベクトルを抽出するように適合される。訓練済みシャムニューラルネットワークの出力層は、入力として提供される各タイル対についてのラベルを、2つの特徴ベクトルの関数として計算するように適合される。ラベルは、入力として提供されるタイル対において描写される2つの組織パターンの予測類似性を示す。
実施形態によれば、シャムニューラルネットワークは、損失関数を使用してタイルの対に対して訓練され、それにより、対の2つのタイルについて2つのサブネットワークによって抽出される特徴ベクトルの類似性は、対の2つのタイルにおいて描写される組織パターンの類似性にそれぞれ相関する。
シャムネットワークは、例えば、Bromley等「Signature Verification using a ‘Siamese’ Time Delay Neural Network」1994,NIPS’1994に記載されるシャムネットワークであってもよい。シャムネットワークの各サブネットワークは、入力として提供される2つの画像タイルのそれぞれの画像タイルから多次元特徴ベクトルを抽出するように適合される。ネットワークは、近接性ベースの組織パターン類似性ラベルによって自動的にアノテーションされた複数のタイル対に対して訓練され、その目的は、類似組織パターンを描写するタイル対が互いに近い(類似する)出力(特徴ベクトル)を有するべきであり、非類似組織パターンを描写するタイル対が互いから離れている出力を有するべきであるということである。1つの実施形態において、これは、例えば、Hadsell等「Dimensionality Reduction by Learning an Invariant Mapping」2006,CVPR’06において記載される対比損失を実施することによって達成される。対比損失は訓練中に最小にされる。対比損失CL(:Contrastive Loss)は、例えば、
CL=(1-y)2(f1-f2)+y*max(0,m-L2(f1-f2))
に従って計算することができる。
ここで、f1、f2は2つの同一のサブネットワークの出力であり、yはタイル対についての真値ラベルである:「類似」とラベル付けされる場合(タイル対の第1のセット)0であり、「非類似」とラベル付けされる場合(タイル対の第2のセット)1である。
上記で説明したように、デジタル病理の分野において類似画像と非類似画像の対を生成する簡単な方法は、意味のある異なる組織病理カテゴリーのアノテーションをそれぞれのデジタル画像またはタイルに手作業で割り当てることである可能性がある。例えば、異なるカテゴリーについての領域のアノテーションが存在する場合、カテゴリーの内部の画像の対および異なるカテゴリー間の画像の対をサンプリングすることが可能である。しかしながら、異なるタイプのカテゴリーを捕捉するのに十分に多様性のあるこの種類のデータセットを生成することは高価でかつ時間がかかる。したがって、関連する組織タイプおよび患者群のほとんどについて、適切な訓練用データは利用可能でない、しかしながら、デジタルタイル対の自動化アノテーションのおかげで、シャムネットワークは、ここで、多くの異なる生物医学的疑問および問題に対処するために、多数の異なる訓練用データセットに適用することができる。
実施形態によれば、MLMは、ベクトル-出力-MLMである。「ベクトル-出力-MLM(vector-output-MLM)」は、単一デジタル画像または単一タイルを受信するように適合され、かつ、上記タイルから抽出される特徴ベクトルを出力するように適合されるMLMであり、ただし、特徴ベクトルは、この組織パターンについて非常に特徴的であり、かつ、比較される2つの画像またはタイルが類似であるか否かを判定することを、別の画像またはタイルから同様に抽出される特徴ベクトルとの特徴ベクトル比較に基づいて可能にする特徴量を含む。異なる2つの画像またはタイルから抽出される2つの特徴ベクトルのそれぞれに含まれる特徴量は、上記2つの画像またはタイルにおいて描写される特定の組織パターンが類似であるか、非類似であるかという疑問に関して予測関連性が高い(of high predictive relevance)。
自動生成される訓練用データに対してベクトル-出力-MLMを生成することは有利である場合がある。なぜならば、訓練済みベクトル-出力-MLMによって生成される出力(特徴ベクトル)が、画像セグメント化、クラスタリング、画像類似性検索、および同様なもの等のデジタル病理における多数の異なる問題および疑問に対処することを可能にするからである。自動化アノテーション付き(automatically annotated)訓練用データに対して訓練される、訓練されるシャムネットワークは、画像またはタイルの対を受信することを予想し、異なる2つのタイルまたは画像において描写される組織パターンの類似性を自動的に計算(予測)するように適合される。しかしながら、デジタル病理の分野における一部の疑問および問題は、2つの画像の類似性ではなく、むしろ多数の画像の類似性に関係する、および/または、タイルの類似性自体に関係しない。特徴ベクトルMLMを設けることが、自動化ラベル付き(automatically labeled)訓練用データに対してこのMLMを訓練することによって、シャムネットワークアーキテクチャによって要求される/課される入力および出力データ構造に直接対応しない場合がある、画像セグメント化および他のもののようなデジタル病理問題に対処することができることを出願人は観測した。
機械学習においておよび画像処理において、特徴抽出は、測定データの初期セットから始め、情報量が多くかつ非冗長性であることを意図される被導出値(特徴量)を構築し、その後の学習および一般化ステップを容易にする。MLMの訓練中に、MLMは、次元削減(dimensionality reduction)プロセスを実施し、未処理特徴量の初期セットは、オリジナルのデータセットを依然として正確にかつ完全に記述しながら、処理するための特徴量のより小さくかつより扱いやすいセットに削減される。好ましくは、多数の特徴量、例えば、強度(intensity)勾配特徴量、コントラスト特徴量、カラーチャネルから導出される特徴量、色相(hue)、および/または彩度(saturation)ならびに他のものは、各タイルから導出される。既存の画像解析ツールおよびライブラリーは、タイルから特徴抽出を実施するために使用することができる。MLMの訓練中に、本発明の実施形態によるMLMは、最初に抽出された特徴量のセットを、特徴量の削減されたセット(特徴ベクトルとも命名される)に変換する。初期特徴量のサブセットを決定することは、特徴選択と呼ばれる。選択済み特徴量は、入力データ、すなわち、単一タイルからの関連情報を含むと予想されるため、最初に抽出された特徴量の完全なセットの代わりに、出力された特徴ベクトルに示されるこの特徴量の削減済みセットを使用することによって、所望のタスク(他のタイルにおいて描写される組織パターンに対するこのタイルにおいて描写される組織パターンの類似性の決定)を実施することができる。
実施形態によれば、MLMは、カラー、形状、明度(brightness)、コントラスト、テキスチャに関する記述を与える低レベル記述子である複数の特徴量および領域専門家の知識なしで画像から直接抽出することができる他の特徴量を抽出するためのルーチンを含む。さらに、または、代替的に、被抽出特徴量は、それぞれの生物医学的領域におけるオブジェクトおよび事象に関する情報を与える領域情報記述子を含むことができる。具体的な例は、特定の細胞成分例えば、核、細胞膜、あるいは、細胞内または細胞外構造、ならびに/または、特定のタイプの細胞、例えば、「腫瘍細胞(tumor cell)」、「間質細胞(stroma-cell)」、または特定の対象バイオマーカーを発現する細胞であると自動的に識別されたオブジェクトであることになる。好ましくは、これらの領域情報記述子は、受信デジタル画像において完全自動で識別されるため、デジタル画像の手作業による検査またはアノテーションは必要でない。
実施形態によれば、MLMは、ベクトル-出力-MLMであるまたはベクトル-出力-MLMを含む。ベクトル-出力-MLMは、入力として単一デジタル画像(またはタイル、すなわち、小さい画像)を受信するように適合されかつ上記画像から抽出される特徴ベクトルを出力するように適合されるMLMである。ラベル付きタイル対に対するMLMの訓練は、バックプロパゲーション操作を含む。バックプロパゲーション中に、MLMの予測モデルは、特定の組織パターンについて特徴的でありかつ類似のおよび非類似の画像対のベクトル比較ベース識別を可能にする特徴量を、MLMによって抽出されるベクトル内の特徴量が含むように変更される。換言すれば、バックプロパゲーション中に、MLMのパラメータは、類似である画像が類似特徴ベクトルを有し、非類似である画像が非類似特徴ベクトルを有するように画像を正しく表すことができる、各入力画像についての特徴ベクトルを作成するために変更される。例えば、バックプロパゲーションは、2つの特徴ベクトル間での実際の正規化距離(例えば、ゼロ距離は、ラベルゼロ、すなわち、類似であり、長い距離は、ラベル1,すなわち、非類似である)の形態の損失を計算する損失関数に基づくとすることができる。
ベクトル-出力-MLMを、自動化ラベル付きデータセットに対して訓練することによって作成することは、有利である場合がある。なぜならば、ベクトル-出力-MLMの入力/出力構造が、デジタル病理の分野における広い範囲の応用、特に、ベクトルベース画像類似性検索、ベクトルベースクラスタリング、および画像セグメント化をサポートすることができるからである。
実施形態によれば、ベクトル-出力-MLMの訓練は、訓練用データ内のラベル付きタイル対内のタイルのそれぞれから初期特徴ベクトルを、MLMによって抽出することを含む。最初に抽出される特徴量は、明度、コントラスト、カラー、勾配、および他の特徴量等の光学的特徴量であってもよい。例えば、汎用画像データベースImageNetに対して事前訓練されたニューラルネットワークは、各入力画像から初期特徴量のセットを抽出するために使用することができる。バックプロパゲーション中に、対のタイルの類似性ラベルおよび特徴ベクトルは、MLMの予測モデルに適合するために使用され、それにより、出力特徴ベクトル内の特徴量(最初に抽出される特徴量のサブセットに過ぎないことがある)は、類似である画像が類似特徴ベクトルを有し、非類似である画像が非類似特徴ベクトルを有するように画像を正しく表す。
実施形態によれば、ベクトル-出力-MLMは、少なくとも1つのボトルネック層を含む完全畳み込み(fully convolutional)ニューラルネットワークである。
1つの例によれば、ベクトル-出力-MLMは、UNETベースネットワークアーキテクチャを有する。ベクトル-出力-MLMは、5125123(512×512RGB)ニューロンを有する入力層および9128ニューロンを有するボトルネック層を有する。したがって、ボトルネック層内のニューロンの数は、入力層のニューロンの数の約1.5%である。
別の例によれば、ベクトル-出力-MLMのネットワークは、教師ありまたは教師なし学習アルゴリズムを実装するResnetアーキテクチャを有する。入力層は512×512×3ニューロンを含み、ボトルネック層およびボトルネック層によって出力される対応する特徴ベクトルは、典型的には、1024または2048要素(ニューロン/数)を含む。
実施形態によれば、MLMは、ベクトル-出力-MLMを、そのサブネットワークのうちの1つのサブネットワークの形態で含むシャムネットワークである。方法は、訓練済みシャムネットワークのサブネットワークのうちの1つのサブネットワークを、別個に記憶媒体上に記憶すること、および、記憶されたサブネットワークをベクトル-出力-MLMとして使用することによってベクトル-出力-MLMを提供することを含む。
この手法は有利である場合がある。なぜならば、さらなるMLMのさらなる訓練を実施することが必要でない場合があるからである。さらに、シャムネットワークに加えて、ベクトル-出力-MLMを実装し訓練するために必要とされるライブラリーおよびプログラムフレームワークに情通することが必要でない場合があるからである。むしろ、訓練済みシャムネットワークを結果として返す単一訓練フェーズで十分である。シャムネットワークは、画像の対または画像タイルの対において描写される組織パターンの類似性が自動的に決定される必要がある全てのデジタル病理問題のために使用することができる。なぜならば、シャムネットワークが、画像またはタイルの対を受信すると予想し、描写される2つの組織パターンの類似性を示す計算済みラベルを返すからである。ラベルは、定性的なバイナリーラベル(「類似」/「非類似」)または定量的な類似性の程度を示す数値であってもよい。その後、訓練済みシャムネットワークのサブネットワークのうちの1つのサブネットワークを別々に記憶し、このサブネットワークをベクトル-出力-MLMとして使用することによって、ベクトル-出力-MLMは、さらに多数のデジタル病理問題、例えば、単一の検索画像または検索タイルのみが入力として提供される画像類似性検索問題または画像セグメント化のような他のタスクまたはタイルベースクラスタリング問題に対処するために使用することができる。したがって、単一訓練フェーズを用いかつ単一MLMアーキテクチャに基づいて、2つの異なるタイプの訓練済みMLMが提供され、その訓練済みMLMは、異なるデータ構造を受信するように適合され、デジタル病理の分野における異なる問題に対処するように適合される。
実施形態によれば、コンピュータ実装方法は、ベクトル-出力-MLMの入力としてデジタル検索画像を提供することであって、検索画像は組織試料または組織試料のサブ領域を描写する、提供すること;ベクトル-出力-MLMによって、検索画像から検索特徴ベクトルを抽出すること;デジタル組織試料画像の画像データベースにおいて類似性検索を、類似性検索エンジンによって実施することであって、類似性検索エンジンは、画像データベース内の画像のそれぞれについてベクトル-出力-MLMによって抽出された特徴ベクトルを用いて、検索特徴ベクトルの類似性を決定する、実施すること;および、データベース内の画像のうちの画像であって、画像の特徴ベクトルが、類似性検索の結果として、検索特徴ベクトルに最も類似する、画像を返すことをさらに含む。
実施形態によれば、類似性検索エンジンは、類似性検索中に、データベース内の画像のそれぞれから特徴ベクトルを動的に抽出する。好ましい実施形態によれば、データベース内の画像の特徴ベクトルは、事前計算され、特徴ベクトルがそこから抽出された画像に関連するデータベースに記憶される。これは、特徴ベクトルが一回のみ計算され、その後、多くの類似性検索について再使用することができるという利点を有する場合がある。これは、CPUおよびメモリ容量を節約することができる。
幾つかの実施形態によれば、データベース内の画像は全スライド画像であり、検索画像はまた、全スライド画像またはタイル画像である。他の実施形態によれば、データベース内の画像は画像タイルであり、検索画像はまた画像タイルである。
これは有利である場合がある。なぜならば、訓練用データセットを提供するために使用される画像の領域特有の光学的詳細を包含し、訓練用データセットを作成するために人間の介入を必要としない機械学習ベース画像類似性検索が提供されるからである。
実施形態によれば、コンピュータ実装方法は、ベクトル-出力-MLMの入力としてデジタル画像を提供することであって、デジタル画像は、全スライド組織試料または全スライド組織試料のサブ領域を描写する、提供すること;提供されたデジタル画像を複数のタイルに分割すること;タイルのそれぞれから特徴ベクトルを、ベクトル-出力-MLMによって抽出すること;複数のタイルから抽出される特徴ベクトルを、クラスタリングエンジンによってクラスター化することであって、それにより、類似の特徴ベクトルのクラスターを作成する、クラスター化すること;タイルの特徴ベクトルについて計算されたクラスターに従って、複数のタイルをタイルのクラスターにグループ分けすること;および、タイルのクラスターを、グラフィカルユーザーインタフェースによって出力することをさらに含む。
タイルの特徴ベクトルについて計算されたクラスターに従って、複数のタイルをタイルのクラスターにグループ分けすることは、その特徴ベクトルが類似するタイルが同じクラスターにグループ分けされることを意味する。
これは有利である場合がある。なぜならば、画像領域を、類似組織パターンを描写するクラスターにクラスター化するための方法が提供され、方法は、訓練用データセットを提供するために使用される画像の領域特有の光学的詳細を包含するが、それでも、それぞれの組織セグメントに対して、「腫瘍組織(tumor tissue)」、「スライドバックグラウンド(slide background)」、「間質組織(stroma tissue)」等のラベルを割り当てるために人間の領域専門家を必要としないからである。どれだけ多くのまたどのタイプの異なる組織パターンが、デジタル画像に含まれると予想されるかを前もって指定することも必要でない。むしろ、クラスタリングエンジンは、既知のクラスタリングアルゴリズムおよび自己教師あり訓練済みMLMによって計算される特徴ベクトルに基づいて、類似組織パターンおよびそれぞれのタイルを完全自動で識別することができる。
例えば、クラスタリングエンジンは、ベクトルベースクラスタリングを実施するためにk平均法(k-means)アルゴリズムまたは階層的クラスタリングアルゴリズムを使用することができる。
実施形態によれば、コンピュータ実装方法は、提供されたデジタル画像内でセグメントを識別することであって、各セグメントは隣接するタイルの群であり、各セグメント内の全てのタイルは、識別されたタイルのクラスターの同じクラスターに属する、識別すること;および、提供されたデジタル画像内の識別されたセグメントの光学的指示を、グラフィカルユーザーインタフェースを介して出力することをさらに含む。
例えば、識別されたセグメントを、提供されるデジタル画像内で異なるカラーまたはハッチングを用いて強調することができる。識別された画像セグメントを、例えば、オリジナルデジタルデータの左または右に示すことができる、または、デジタル画像の上部に半透明オーバーレイ層として提示することができる。したがって、本発明の実施形態は、対象組織セグメントタイプを手作業で識別しラベル付けするために領域専門家を必要としない、デジタル病理画像のための画像セグメント化方法を提供する。したがって、デジタル病理領域における画像セグメント化のための完全自動またはほぼ自動のデータ駆動型手法が提供され、その手法は、組織画像のセットがそれについて利用可能である任意のタイプの患者群または疾病群に容易に適合可能である。
さらなる態様において、本発明は、コンピュータ解釈可能命令を含む不揮発性記憶媒体に関し、コンピュータ解釈可能命令は、プロセッサによって実行されると、本明細書で述べる実施形態および例のうちの任意の1つによるコンピュータ実装方法によって生成される、訓練済み機械学習モジュール-MLMをインスタンス化および/または実行する。
さらなる態様において、本発明は、少なくとも1つのプロセッサと揮発性または不揮発性記憶媒体とを備える画像解析システムに関する。記憶媒体は、本明細書で述べる実施形態および例のうちの任意の1つによるコンピュータ実装方法によって生成される訓練済み機械学習モジュール-MLMを備える。
本明細書で使用される用語「自己教師あり学習(self-supervised learning)」は、訓練用データセットのラベルが自動的に生成される機械学習手法を指す。アーキテクチャ自身および学習プロセスは、完全教師あり(entirely supervised)であるが、ラベル付き訓練用データを作成するための手作業によるアノテーションは必要でない。
用語「デジタル病理(digital pathology)」は、デジタルスライドから生成される情報を、管理し、抽出し、処理するために、コンピュータ技術が使用される画像ベース情報技術環境である。デジタル病理は、コンピュータモニター上で、観察し、管理し、共有し、分析することができるデジタルスライドにガラススライドを変換する実践法であるバーチャル顕微鏡法(virtual microscopy)によって部分的に使用可能にされる。
本明細書で使用される「組織試料(tissue sample)」は、本発明の方法によって分析することができる細胞の集成体(assembly of cells)である。集成体は、生体内または生体外細胞ブロックのスライスであってもよい。例えば、組織試料は、患者から収集される組織、例えば、がん患者からの肝臓、肺、腎臓、または結腸組織試料から調製することができる。試料は、顕微鏡スライド上の全組織またはTMA切片であってもよい。スライド搭載組織試料を調製するための方法は、当技術分野でよく知られており、本発明において使用するのに適する。
組織試料は、染料または染色液、組織化学物質、免疫組織化学物質等の任意の試薬またはバイオマーカーを使用して染色することができ、組織化学物質、免疫組織化学物質は、特異的バイオマーカーまたは種々のタイプの細胞または細胞コンパートメントと直接反応する。全ての染色液/試薬が、互換性があるわけではない。したがって、使用される染色液のタイプおよびそれらの適用シーケンスは、十分に考慮されるべきであるが、当業者が容易に決定することができる。そのような組織化学物質は、透過顕微鏡法によって検出可能な発色団(chromophore)または蛍光顕微鏡法によって検出可能な蛍光体(fluorophore)であってもよい。概して、試料を含む細胞は、ターゲットの化学群に直接反応するかまたはそれと結合することになる少なくとも1つの組織化学物質を含む溶液を用いて培養することができる。一部の組織化学物質は、典型的には、染色を可能にするために、媒染剤(mordant)または金属と同時培養される。試料を含む細胞は、対象成分を染色する少なくとも1つの組織化学物質、および、対比染色液として作用し、対象成分の外の領域に結合する別の組織化学物質の混合物と共に培養することができる。代替的に、複数のプローブの混合物は、染色において使用され、特異的プローブの位置を識別する方法を提供することができる。試料を含む細胞を染色するための手順は当技術分野でよく知られている。
本明細書で使用される「組織パターン(tissue pattern)」は、組織試料の規則性、したがって、この組織パターンを含む組織試料の領域を描写するデジタル画像またはタイルの規則性でもある。したがって、パターンの要素は、予測可能な方法で反復する、または、何らかの他の特徴的な視覚特徴、例えば、別のパターンを示す別の組織領域から、このパターンを含む特定の組織領域を区別することを可能にする別個のカラーおよび/または明度を有する。一部の組織パターンは、人間領域専門家によって直接観測可能でかつ解釈可能であろう。他の組織パターンは、非常に複雑であるため、機械学習モジュールのみが、画像内のパターンを識別することができる。画像パターンは、特定のカラー、明度、ドット、ライン、曲線、螺旋、蛇行、波、フォーム、タイリング、割れ等の反復的構造、ならびに、回転対称および反射によって作成されるものによって特徴付けることができる。
本明細書で使用される「画像解析システム(image analysis system)」は、ユーザーが画像を評価または解釈するのを支援するためにおよび/または画像内に暗黙的にまたは明示的に含まれる生物医学的情報を抽出するために、デジタル画像、特に、組織試料の画像を評価し処理するように適合されたシステム、例えば、コンピュータシステムである。例えば、コンピュータシステムは、標準的なデスクトップコンピュータシステムまたは分散型コンピュータシステム、例えば、クラウドシステムであってもよい。概して、コンピュータ化組織病理画像解析は、カメラによって取得される単一または複数チャネル画像をその入力として採取し、診断または処置を支援するために、さらなる定量的情報を提供しようと試みる。
本明細書で使用される「デジタル画像(digital image)」は、2次元画像の、通常はバイナリーの数値表現である。典型的には、組織画像は、ラスタータイプ画像であり、画像が、少なくとも1つの強度値をそれぞれ割り当てられているピクセルのラスター(「マトリクス(matrix)」)であることを意味する。一部のマルチチャネル画像は、1カラーチャネルについて1つの強度値を有するピクセルを有することができる。デジタル画像は、ピクセルの固定数の行および列を含む。ピクセルは、画像内の最小の個々の要素であり、任意の特定のポイントにおいて所与のカラーの明度を示す古い(anti-quated)値を保持する。典型的には、ピクセルは、コンピュータメモリ内に、ラスター画像またはラスターマップ、小さい整数の2次元アレイとして記憶される。これらの値は、しばしば、圧縮形態で送信または記憶される。デジタル画像は、例えば、デジタルカメラ、スキャナー、座標測定機、顕微鏡、スライドスキャンデバイス、および他のものによって取得することができる。
本明細書で使用される「ラベル(label)」は、データレコード、例えば、タイルの対に割り当てられ、このタイル対に関連する特性を示す、データ値、例えば、ストリングまたは数値である。特に、ラベルは、ラベルが割り当てられているタイル対内の2つのタイルの類似性または非類似性を示すことができる。
本明細書で使用される「画像タイル(image tile)」はデジタル画像のサブ領域である。概して、デジタル画像から作成されるタイルは、任意の形状、例えば、円形、楕円形、多角形、長方形、正方形、または同様なものを有することができ、オーバーラップ型または非オーバーラップ型であってもよい。好ましい実施形態によれば、画像から生成されるタイルは、長方形の、好ましくは、非オーバーラップ型タイルである。
本明細書で使用される「特徴ベクトル(feature vector)」は、オブジェクトの重要な特徴を記述する情報を含むデータ構造である。データ構造は、単一次元または多次元データ構造であってよく、特定のタイプのデータ値はデータ構造内のそれぞれの位置に記憶される。例えば、データ構造は、ベクトル、アレイ、マトリクス、または同様なものであってもよい。特徴ベクトルは、何らかのオブジュエクトを示す数値特徴量のn次元ベクトルとして考えることができる。画像解析において、特徴量は多くの形態をとることができる。画像の単純な特徴量表現は、各ピクセルの未処理強度値である。しかしながら、より複雑な特徴量表現も可能である。例えば、画像または画像タイルから抽出される特徴量は、SIFT記述子特徴量(スケール不変特徴量変換(scale invariant feature transform))であるとすることもできる。これらの特徴量は、異なるライン配向の広がりを捕捉する。他の特徴量は、コントラスト、勾配配向(gradient orientation)、カラー構成、および画像または画像タイルの他の局面を示すことができる、または、核、膜、および/または1つまたは複数の対象バイオマーカー等のより複雑な領域特有のオブジェクトの存在および/または分布を記述することができる。
本明細書で使用される「バイオマーカー特有の染色液(biomarker specific stain)」は、概して、他のバイオマーカーまたは組織成分ではなく、特定のバイオマーカー、例えば、HERのような特定のタンパク質を選択的に染色する染色液である。
本明細書で使用される「バイオマーカーに特有でない染色液(non-biomarker specific stain)」は、より一般的な結合挙動を有する染色液である。バイオマーカーに特有でない染色液は、個々のタンパク質またはDNAシーケンスを選択的に染色するのではなく、むしろ、物質のより大きい群、および、特定の物理的または化学的特性を有する細胞レベル下のならびに細胞レベル以上の構造に対して染色する。例えば、ヘマトキシリンおよびエオジンはそれぞれ、バイオマーカーに特有でない染色液である。ヘマトキシリンは、塩基性/ポジティブであるダークブルーまたはバイオレット染色液である。ヘマトキシリンは、好塩基性物質(酸性でかつ負電荷を持つDNAおよびRNA等)に結合する。核内のDNA/RNAおよび粗面小胞体(rough endoplasmic reticulum)内のリボゾーム内のRNAは、核酸のリン酸骨格が負電荷を持つため、共に酸性である。これらの骨格は、正電荷を含む塩基性染料を有する塩を形成する。したがって、ヘマトキシリンのような染料は、DNAおよびRNAに結合し、それらをバイオレットに染色する。エオジンは、酸性でかつネガティブであるレッドまたはピンク染色液である。エオジンは、正電荷を持つアミノ酸側鎖(例えば、リシン、アルギニン)等の好酸性物質に結合する。一部の細胞の細胞質内のほとんどのタンパク質は、アルギニンおよびリシンアミノ酸残基のせいで正電荷を持つため、塩基性である。これらは、エオジンのような、負電荷を含む酸性染料を有する塩を形成する。したがって、エオジンは、これらのアミノ酸/タンパク質に結合し、それらをピンクに染色する。これは、筋肉細胞内の細胞質フィラメント、細胞内膜、および細胞外線維を含む。
本明細書で使用される用語「強度情報(intensity information)」または「ピクセル強度(pixel intensity)」は、デジタル画像のピクセル上で取り込まれる(capture)かまたはそれによって示される電磁放射(「光(light)」)の量の尺度である。本明細書で使用される用語「強度情報」は、さらなる関連する情報、例えば特定のカラーチャネルの強度を含むことができる。MLMは、デジタル画像に含まれる勾配またはテキスチャ等の派生情報を計算的に抽出するためにこの情報を使用することができ、派生情報は、訓練中におよび/または訓練済みMLMによる特徴抽出中に、デジタル画像から暗黙的にまたは明示的に抽出することができる。例えば、「デジタル画像のピクセル強度値は1つまたは複数の特定の染色液の強さに相関する」という表現は、カラー情報を含む強度情報が、MLMを可能にし、また、上記1つまたは複数の染色液のうちの特定の染色液によって染色された組織試料内の領域を、ユーザーが識別することを可能にすることもできることを示唆することができる。例えば、ヘマトキシリンによって染色された試料の領域を描写するピクセルは、ブルーチャネルにおいて高いピクセル強度を有することができ、fastRedによって染色された試料の領域を描写するピクセルは、レッドチャネルにおいて高いピクセル強度を有することができる。
本明細書で使用される用語「機械学習モジュール(MLM:machine learning module)」は、プログラム論理、例えば、ニューラルネットワークまたはサポートベクトルマシン(support vector machine)または同様なもののようなソフトウェアのピースであり、そのプログラム論理は、訓練プロセスにおいて訓練されているかまたは訓練することができ、かつ、学習フェーズの結果として、提供される訓練用データに基づいて一部の予測的および/またはデータ処理タスクを実施することを学習する。そのため、MLMは、少なくとも部分的に、プログラマーによって明示的に指定されないが、試料入力から1つまたは複数の暗黙的または明示的モデルを構築するデータ駆動型学習プロセスにおいて暗黙的に学習され修正されるプログラムコードであってもよい。機械学習は、教師ありまたは教師なし学習を使用することができる。パターンを見出すことが難しく、また、しばしば十分な訓練用データが利用可能でないため、効果的な機械学習は、しばしば難しい。MLMは、例えば、独立型アプリケーションプログラムまたはアプリケーションプログラムのサブモジュールであってもよい。MLMは、ローカルにインストールされたプログラムであってよく、および/またはネットワークを介して複数のクライアントに提供されるサービスとして実装することができる。
本明細書で使用される用語「バイオマーカー(biomarker)」は、組織タイプ、正常または病理プロセス、あるいは、治療介入に対する応答の指標として生物試料において測定することができる分子である。特定の実施形態において、バイオマーカーは、タンパク質、ペプチド、核酸、脂質、および炭化水素からなる群から選択される。より詳細には、バイオマーカーは、特定のタンパク質、例えば、EGRF、HER2、p53、CD3、CD8、Ki67、および同様なものであってもよい。或るバイオマーカーは、特定の細胞に特異的であり、一方、他のマーカーは、特定の疾病または状態に関連するものとして識別されている。
組織試料画像の画像解析に基づいて特定の腫瘍の病期を決定するために、試料を複数のバイオマーカー特有の染色液で染色することが必要である場合がある。組織試料のバイオマーカー特有の染色は、典型的には、対象バイオマーカーに選択的に結合する1次抗体の使用を含む。特に、これらの1次抗体、しかし同様に、染色プロトコルの他の成分は、高価である場合があり、したがって、多くの応用シナリオ、特に、高スループットスクリーニングにおいて、コストの理由で、利用可能な画像解析技法の使用を排除する場合がある。
一般に、組織試料は、バックグラウンド染色液(「対比染色液(counter stain)」)、例えば、ヘマトキシリン染色液またはヘマトキシリン染色液とエオジン染色液の組み合わせ(「H&E」染色液)によって染色されて、大規模組織形態ならびに細胞および核の境界を明らかにする。バックグラウンド染色液に加えて、複数のバイオマーカー特有の染色液を、回答される生物医学的疑問、例えば、腫瘍の分類および病期分類(staging)、組織内の特定の細胞タイプの量および相対分布の検出に応じて、適用することができる。
本発明の以下の実施形態は、図面を参照して、例としてのみ、より詳細に説明される。
本発明の或る実施形態による方法のフローチャートである。 それぞれの組織試料を描写するデジタル画像である。 2Dおよび3D座標系におけるタイルの空間的距離を示す図である。 本発明の或る実施形態によるシャムネットワークのアーキテクチャを示す図である。 本発明の或る実施形態による訓練済みシャムネットワークの使用を示す図である。 切り詰めシャムネットワークの形態のベクトル-出力-MLMを示す図である。 画像データベースにおける類似性検索のためにベクトル-出力-MLMを使用するコンピュータシステムを示す図である。 画像セグメント化および/またはクラスター解析のためにベクトル-出力-MLMを使用するコンピュータシステムを示す図である。 2つの画像の組織パターンの類似性を決定するために訓練済みシャムネットワークを使用するコンピュータシステムを示す図である。 タイル対の空間的近接性に基づいてラベル付けされた「類似」および「非類似」タイル対を示す図である。 自動化ラベル付きデータセットに対して訓練されたMLMによって生成される類似性検索結果を示す図である。
図1は、本発明の或る実施形態による方法100のフローチャートを示す。方法は、例えば、2つの入力画像において描写される組織パターンの類似性を自動的に決定するように適合される訓練済みMLMを提供するために使用することができる。さらに、または、代替的に、訓練済みMLMが提供され、訓練済みMLMは、この画像において描写される組織パターンについて非常に特徴的である入力画像から特徴ベクトルを抽出するように適合され、また、類似性画像検索、画像領域の類似性ベースクラスタリング、および画像セグメント化等のデジタル病理の領域における多くの応用のための基礎として使用することができる。
方法100は、上記で述べたMLMを作成するための基礎として使用することができるアノテーション付き訓練用データセットを、対象生物医学的領域において自動的に作成することを可能にする。
第1のステップ102にて、画像解析システムは、患者の組織試料をそれぞれ描写する複数のデジタル画像を受信する。例えば、画像は、画像取り込みデバイスから、例えば、明視野顕微鏡、蛍光顕微鏡、またはスライドスキャンデバイスのカメラから直接受信することができる。さらに、または、代替的に、画像を、ローカルまたはリモートデータ記憶デバイスから読み取ることができる。読み取りは、データベースから画像を読み取ることを含むことができる。例えば、画像は、何年も経っている組織試料画像であってもよい。古い画像データセットは、多くの関連する事象、例えば、処置の成功、疾病進行、副作用の結果が、その間にわかっており、その結果を、さらなるラベルとして、わかっている事象を割り当てられている組織画像を含む訓練用データセットを作成するために使用することができるという利点を有することができる。
各患者について、1つまたは複数の画像を、画像解析システムによって受信することができる。例えば、同じ組織試料を、異なる染色プロトコルに従って複数回染色することができ、ただし、各染色プロトコルについて、画像が取得される。さらに、または、代替的に、幾つかの隣接する組織試料スライスは、同じまたは異なる染色プロトコルを用いてそれぞれ染色することができ、組織試料スライドのそれぞれについて、画像が取得される。好ましくは、全ての受信画像は、同じ染色プロトコルに従って染色され、かつ、関連する生物医学的属性を共有する患者、例えば、「乳がん患者(breast cancer patient)」または「結腸がん患者(colon cancer patient)」のコホートから導出された組織試料を描写する。
1つの例の実装態様によれば、「CAMELYON16」チャレンジ2016のための基礎として公表されたデジタル組織試料画像は、自動化ラベル付き訓練用データセットを作成するための基礎として使用することができる。乳がん患者のH&E染色済みリンパ節組織切片の270の全スライド画像からなるCAMELYON16データセットが、訓練用データセットとして提供される(正常組織の160の画像、腫瘍転移を有する110の画像)。データセットは、https://camelyon16.grand-challenge.org/data/の下で入手可能である。
次にステップ104にて、画像解析システムは、各受信画像を画像タイルのセットに分割する。例えば、CAMELYON16データセットの場合、10×倍率で、このデータセットの画像は、それぞれオーバーラップなしのサイズ256ピクセル×256ピクセルの非バックグラウンドエリアから、1,113,403のRGBタイルを生成するために使用することができる。
次にステップ106にて、画像解析システムは、アノテーション付き訓練用データセットを自動的に作成する。アノテーション付き訓練用データセットの作成は、複数のタイル対を選択することおよび各対にラベルを自動的に割り当てることを含む。ラベルは、対の2つのタイルによって描写される2つの組織パターンの類似性の程度の指標である。ラベルは、対の2つのタイルの空間的距離の関数として(したがって、対の2つのタイルによって描写される2つの組織領域の距離の関数として)自動的に計算される。ラベルは、定性的値として、例えば、「類似」または「非類似」である値として計算することができる。もちろん、これらの2つのオプションは、同様に、他のストリングによって、または、「0」および「1」等の数値の対によって示すことができる。このステップは、組織スライドの任意のデジタル画像に本質的に含まれる空間的近接性情報が、訓練用データセットにおいてアノテーションを自動的に作成するために使用することができ、その空間的近接性情報が、機械学習アルゴリズムが対処することができる多くの問題およびデジタル病理についての有意の予測値であるという観測に基づく。
次にステップ108にて、機械学習モジュールは、訓練用データセットとして、自動化ラベル付きタイル対を使用して訓練される。例えば、また、図4、図5、および図9を参照して、機械学習モジュールは、ニューラルネットワーク、特に、シャムネットワークであってもよい。訓練済みシャムネットワークは、入力として画像の対(または、タイルを小さい画像であると考えることができるタイルの対)を受信し、受信された画像の対において描写される組織パターンの類似性の程度を示すラベルを、訓練済み予測モデルに基づいて自動的に計算するように適合される。
さらに、または、代替的に、機械学習モジュール(本明細書でベクトル-出力-MLMと呼ばれる)は、個々の画像(またはタイル)から特徴ベクトルを計算するように適合される訓練用データセットとして、自動化ラベル付きタイル対を使用して訓練され、ただし、特徴ベクトルは、タイルにおいて描写される組織パターンについて特徴的であり、また、訓練済みベクトル-出力-MLMによって、それぞれの画像によって抽出される2つの特徴ベクトルの比較の関数として、画像の類似性/非類似性を計算することを可能にする。好ましくは、ベクトル-出力-MLMは、訓練済みシャムネットワークの切り詰めバージョンとして作成され、種々の異なる使用事例シナリオのために使用することができる(図6、図7、および図8の図の説明を参照)。
図2Aは、3人の異なる患者P1、P2、P3の組織試料202、204、206をそれぞれ描写する3つのデジタル画像220、222、224を示す。組織試料は、患者から得られた後、顕微鏡スライド上にセットされ、1つまたは複数の組織学的に関連する染色液、例えば、H&Eおよび/または種々のバイオマーカー特有の染色液によって染色される。画像は、例えば、スライドスキャナー顕微鏡を使用して、染色済み組織試料から採取される。組織試料は異なる患者から導出されるため、3D座標系内にデジタル画像を整列させることは可能でない。この場合、タイル距離は、画像のx座標およびy座標によって規定される2D空間内で計算される。以下において、タイル距離の決定は、デジタル画像およびタイルについて述べられる。
図2Bは、特定の患者P4の単一組織ブロックから導出された組織試料208、210、212をそれぞれ描写する3つのデジタル画像226、228、230を示す。描写される組織試料は、複数の隣接する組織スライスのスタックに属する。例えば、この組織スライスのスタックは、FFPET組織ブロックから生体外で(ex-vivo)調製することができる。組織ブロックはスライスされ、スライスは顕微鏡スライド上にセットされる。その後、スライスは、図2Aを参照して述べたように染色される。
このスタック内の組織試料は単一組織ブロックから導出されるため、組織スライス208、210、212を描写するデジタル画像226、228、230を、z軸が組織スライスに直交する共通3D座標系内で整列させることが可能である。同様に、3つのデジタル画像232、234、および236は、別の患者P5の別の単一組織ブロックから導出された3つのそれぞれの組織試料214、216、218を描写する。デジタル画像232、234、および236を、z軸が組織スライスに直交する共通3D座標系内で整列させることが可能である。
この場合、タイル距離は、対の2つのタイルが同じ画像から導出される場合に、2D空間内で計算される。さらに、タイル対であって、そのタイルが、共通3D座標系内で互いに整列した異なる画像から導出される、タイル対を作成することができる。この場合、対内の2つのタイルの距離は3D座標系を使用して計算される。
図3Aは、デジタル組織試料画像300のx軸およびy軸によって規定される2D座標系内のタイルの空間的距離を示す。デジタル画像300は複数のタイルに分割されている。例証のために、図3A内のタイルのサイズは典型的なタイルサイズより大きい。
訓練用データセットは、以下の手法によって自動的にラベル付けすることができる:最初に、開始タイル302が選択される。その後、この開始タイルの周りの第1の円形エリアが決定される。第1の円の半径は、第1の空間的近接性閾値308とも呼ばれる。この第1の円内の全てのタイル、例えば、タイル306は、開始タイル302の「近傍(nearby)」タイルであると考えられる。さらに、この開始タイルの周りの第2の円形エリアが決定される。第2の円の半径は、第2の空間的近接性閾値310とも呼ばれる。この第2の円の外の全てのタイル、例えば、タイル304は、開始タイル302に対して「遠方(distant)」タイルである。
その後、タイル対の第1のセットが作成され、第1のセットの各タイル対は、開始タイルおよび開始タイルの「近傍」タイルを含む。例えば、このステップは、第1の円内に含まれる近傍タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な近傍タイルのサブセットをランダムに選択すること、および、選択された近傍タイルに開始タイルを付加することによって、選択された近傍タイルのそれぞれについてタイル対を作成することを含むことができる。
タイル対の第2のセットが作成される。第2のセットの各タイル対は、開始タイルおよび開始タイルに対する「遠方」タイルを含む。例えば、このステップは、第2の円の外の画像300内に含まれる遠方タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な遠方タイルのサブセットをランダムに選択すること、および、選択された遠方タイルに開始タイルを付加することによって、選択された遠方タイルのそれぞれについてタイル対を作成することを含むことができる。
その後、画像300内の別のタイルを、開始タイルとして使用することができ、上記で述べたステップを同様に実施することができる。これは、新しい開始タイルを中心として使用して、第1および第2の円が再び描かれることを意味する。それにより、新しい開始タイルに対する近傍タイルおよび遠方タイルが識別される。タイルの第1のセットは、新しい開始タイルに基づいて識別された近傍タイルの対で補完され、タイルの第2のセットは、新しい開始タイルに基づいて識別された遠方タイルの対で補完される。
その後、画像300内のさらに別のタイルを、開始タイルとして使用することができ、上記で述べたステップを反復することができ、それにより、第1および第2のタイル対のセットをさらなるタイル対でさらに補完する。新しい開始タイルの選択は、画像内の全てのタイルが開始タイルとして一回選択されるまで、または、予め規定された数のタイルが開始タイルとして選択されるまで実施することができる。
第1のセット内のタイル対、例えば、対312のそれぞれに対して、ラベル「類似」が割り当てられる。第2のセット内のタイル対、例えば、対314のそれぞれに対して、ラベル「非類似」が割り当てられる。
図3Bは、デジタル組織試料画像300のx軸およびy軸、並びに、画像300、332、334によってそれぞれ描写される組織ブロックの組織スライスの相対位置に従って互いに整列した画像300、332、334のスタックの高さに対応するz軸によって規定される3D座標系内のタイルの空間的距離を示す。z方向の画像の距離は、上記画像によって描写される組織スライスの距離に対応する。整列したデジタル画像のそれぞれは、複数のタイルに分割されている。例証のために、図3B内のタイルのサイズは典型的なタイルサイズより大きい。
訓練用データセットは、以下の手法によって自動的にラベル付けすることができる:最初に、開始タイル302が選択される。その後、開始タイルおよび近傍タイルを含むタイル対、ならびに、開始タイルおよび遠方タイルを含むタイル対が、以下で述べるように、識別され、ラベル付けされる。
この開始タイルの周りの第1の3D球が決定される。例証のために、第1の球の断面のみが示される。第1の球の半径は、第1の空間的近接性閾値336とも呼ばれる。この第1の球内の全てのタイル、画像300内のタイル306、しかし同様に、画像334内のタイル340は、開始タイル302の「近傍」タイルであると考えられる。さらに、この開始タイルの周りの第2の3D球が決定される。第2の球の半径は、第2の空間的近接性閾値338とも呼ばれる。この第2の球の外の全てのタイル、例えば、画像300内のタイル304、しかし同様に、画像334内のタイル342は、開始タイル302に対して「遠方」タイルである。
タイル対の第1のセットが作成され、第1のセットの各タイル対は、開始タイルおよび開始タイルの「近傍」タイルを含む。例えば、このステップは、第1の球内に含まれる近傍タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な近傍タイルのサブセットをランダムに選択すること、および、選択された近傍タイルに開始タイルを付加することによって、選択された近傍タイルのそれぞれについてタイル対を作成することを含むことができる。
タイル対の第2のセットが作成される。第2のセットの各タイル対は、開始タイルおよび開始タイルに対する「遠方」タイルを含む。例えば、このステップは、第2の球の外の画像300、332、34内に含まれる遠方タイルと同程度の数のタイル対を作成することを含むことができる。代替的に、このステップは、利用可能な遠方タイルのサブセットをランダムに選択すること、および、選択された遠方タイルに開始タイルを付加することによって、選択された遠方タイルのそれぞれについてタイル対を作成することを含むことができる。
その後、画像300内または画像332、334内の別のタイルを、開始タイルとして使用することができ、上記で述べたステップを同様に実施することができる。これは、新しい開始タイルを中心として使用して、第1および第2の球が再び描かれることを意味する。それにより、新しい開始タイルに対する近傍タイルおよび遠方タイルが識別される。タイルの第1のセットは、新しい開始タイルに基づいて識別された近傍タイルの対で補完され、タイルの第2のセットは、新しい開始タイルに基づいて識別された遠方タイルの対で補完される。
上記で述べたステップを、受信画像300、332、334のそれぞれの受信画像内の全てのタイルが開始タイルとして選択されるまで(または、別の終了基準が満たされるまで)、反復することができ、それにより、第1および第2のタイル対のセットをさらなるタイル対でさらに補完する。
第1のセット内のタイル対、例えば、対312および313のそれぞれに対して、ラベル「類似」が割り当てられる。第2のセット内のタイル対、例えば、対314および315のそれぞれに対して、ラベル「非類似」が割り当てられる。
図3Aおよび図3Bに示す円および球ベース距離計算は、距離ベース類似性ラベルを計算するための例に過ぎず、この場合、バイナリーラベルは、「類似」または「非類似」である。他の手法、例えば、2Dまたは3D座標系において2つのタイル間のユークリッド距離(Euclidian distance)を計算すること、および、2つのタイルのユークリッド距離に負相関する類似性数値を計算することを、同様に使用することができる。
1mm組織に対応するピクセルの数は、画像取り込みデバイスの倍率およびデジタル画像の解像度等の種々の因子に依存するため、全ての距離閾値は、描写される実際の物理的オブジェクト、すなわち、組織試料または組織試料によってカバーされるスライドに対して本明細書で指定されることになる。
図4は、本発明の或る実施形態による、自動化ラベル付き訓練用データに対して訓練されるMLMとして使用されるシャムネットワーク400のアーキテクチャを示す。
シャムネットワーク400は、それらの出力層424で接合した2つの同一のサブネットワーク402、403からなる。各ネットワークは、入力として単一デジタル画像(例えば、タイル)404、414を受信するように適合される入力層405、415を備える。各サブネットワークは複数の隠れ層406、416、408、418を備える。1次元特徴ベクトル410、420は、2つのサブネットワークのそれぞれのサブネットワークによって2つの入力画像の一方から抽出される。それにより、各ネットワークの最後の隠れ層408、418は、特徴ベクトルを計算し、特徴ベクトルを出力層424に提供するように適合される。入力画像の処理は完全に分離される。これは、サブネットワークが入力画像404を処理するだけでありかつサブネットワークが入力画像414を処理するだけであることを意味する。2つの入力画像において伝達される情報が結合される唯一の地点は、出力層が、ベクトル類似性、したがって、2つの入力画像において描写される組織パターンの類似性を決定するために2つのベクトルを比較するときの出力層においてである。
実施形態によれば、各サブネットワーク402、403は、修正型res-net-50アーキテクチャ(He等「Deep Residual Learning for Image Recognition」2015,CVPR’15)に基づく。実施形態によれば、resnet-50事前訓練サブネットワーク402、403は、ImageNetに対して事前訓練された。最後の層(通常、1,000の特徴量を出力する)は、所望のサイズの特徴ベクトルを有するサイズ、例えば、サイズ128の全結合層(fully connected layer)408、418と置換される。例えば、各サブネットワークの最後の層408、418は、第2の最後の層から特徴量を抽出するように構成することができ、ただし、第2の最後の層は、最後の層408、418よりずっと多い数(例えば、2048)の特徴量を提供することができる。実施形態によれば、オプティマイザ、例えば、PyTorchにおけるデフォルトパラメータ(0.001の学習率および0.9、0.999のベータ)および256のバッチサイズを有するAdamオプティマイザが、訓練中に使用された。データ拡張(data augmentation)のために、ランダム水平および垂直フリップならびに/または20度までのランダム回転ならびに/または明度、コントラスト、彩度、および/または色相について0.075の値を有するカラージッター拡張を、訓練用データセットを増加させるためにタイルに対して適用することができる。
シャムネットワークが、自動化ラベル付き画像の対に対して訓練されると、類似の画像が、互いに類似である出力(特徴ベクトル)を出力すべきであり、非類似の画像が、互いに非類似である出力を出力すべきであることが、学習プロセスの目的である。これは、損失関数、例えば、対比(contrastive)を測定する関数を最小にすることによって達成することができる。
シャムネットワーク400の訓練は、ネットワーク400に複数の自動化ラベル付き類似タイル対312、313および複数の自動化ラベル付き非類似タイル対314、315を給送することを含む。各入力訓練用データレコード428は、タイル対の2つのタイル404、414、および、その自動割り当て済み空間近接性ベースラベル407を含む。近接性ベースラベル407は、「真値」として提供される。出力層424は、2つの入力画像404、414についての予測類似性ラベルを、比較される2つの特徴ベクトル408、418の類似性の関数として計算するように適合される。シャムネットワークの訓練はバックプロパゲーションプロセスを含む。予測ラベル426の入力ラベル407からのいずれの偏差も、損失関数の形態で測定される「エラー(error)」または「損失(loss)」であると考えられる。シャムネットワークの訓練は、バックプロパゲーションを反復的に使用することによって、損失関数によって計算されたエラーを最小にすることを含む。シャムネットワーク400は、例えば、Bromley等によって、「Signature Verification using a ”Siamese“ Time Delay Neural Network」1994,NIPS’1994において記載されるように実装することができる。
MLM予測精度の評価
1つの例の実施形態によれば、自動化ラベル付き訓練用データセットは、×10解像度のCamelyon16データセットから抽出された。Camelyon16訓練用データセットは、270の乳房リンパ節ヘマトキシリン・エオジン(H&E)染色済み組織全スライド画像を含む。最初に、Camelyon16データセット内の画像は、サイズ224×224の非オーバーラップタイルに分割された。2つのタイル間の1792ピクセルの最大距離は、第1の空間的近接性閾値として使用され、1792ピクセルより短い距離を有するタイル対が「類似」タイル対として自動的にラベル付けされたことを意味する。9048ピクセルの距離は、第2の空間的近接性閾値として使用され、9048ピクセルより長い距離を有するタイル対が「非類似」タイル対としてラベル付けされたことを意味する。近傍タイルの32の対および遠方タイルの32の対をサンプリングすることは、7千万対のデータセットを生じ、その中で、3千5百万が「類似」とラベル付けされ、3千5百万が「非類似」とラベル付けされる。これらの自動化ラベル付きタイル対は、シャムネットワーク400を訓練するために使用された。画像対に関する訓練用損失として、対比損失が使用された。シャムネットワーク400は、24時間、訓練され、それまでに、シャムネットワーク400は、訓練用セット内の画像対の40%にほぼ匹敵する3千万画像対にわたる反復をかろうじて達成した。訓練は、PyTorch DataParallel実装を使用するRoche Pharma HPC上で8 V100 GPUを使用して行われた。
その後、訓練済みシャムネットワークの精度は、乳がん組織の130の全スライド画像を含むCamelyon16試験セットに関して妥当性確認された。訓練済みシャムネットワークの精度は、遠方タイルに比べて近傍タイルが類似しているように見えるという仮定の下で、近傍タイルと遠方タイルを分離する学習済みネットワークの能力である。Camelyon16試験セット内の全てのタイルについて、データ拡張用のサンプリングのための基礎として、8の近傍タイルおよび8の遠方タイルが使用された。データ拡張は、ランダム水平および垂直フリップ、20度までのランダム回転、明度、コントラスト、彩度、および/または色相について0.075の値を有するカラージッター拡張を使用して実施された。これは、近傍タイルの1,385,288の対および1,385,288の遠方タイルをもたらした。
その後、大域的平均記述子距離比(ADDR:Average Descriptor Distance Ratio)が、試験タイル対について計算される。ADDRは、拡張された試験データセットにおいて、全ての遠方タイル対(「非類似(non-similar)」対)の記述子間の平均L2距離と、全ての近傍タイル対(「類似」対)の記述子間の平均L2距離との比からなる。さらに、タイル当たりのADDRの中央値が計算される。タイル当たりのADDRの中央値は、このタイルがそのメンバーである全ての遠方対の記述子間の平均L2距離と、このタイルがそのメンバーである全ての近傍対の記述子間の平均L2距離との比についてのタイル当たりの計算からなる。結果は以下の表に示される。
Figure 2022525288000002
この実験からの結果に基づいて、特許請求される本発明の実施形態に従って訓練されたMLMが、他の検査されたベンチマーク方法に比べて、試験セット上の記述子空間において、近傍および遠方(または「類似」および「非類似」)タイルを分離するタスクにおけるベンチマーク方法において優れるように見える。
MLMベース腫瘍タイル取り出しの評価
さらに、本発明の実施形態に従ってMLMを訓練する方法が、良好な画像取り出し性能をさらにもたらすことができることが観測された。さらなる実験において、病理画像取り出しタスクを実施する学習済みベクトル-出力-MLM402の能力が評価された。ベクトル-出力-MLM402は、データ記憶ユニット上に、訓練済みシャムネットワーク400のサブネットワークのうちの1つのサブネットワークを別個に記憶し、画像類似性検索において使用される訓練済みMLMとしてサブネットワーク(「切り詰めシャムネットワーク(truncated Siamese network)」)を使用することによって得られた。
Camelyon16試験セットから抽出される全てのタイルについて、タイルが腫瘍領域に属するか否かをマーク付けするために、供給済み腫瘍メタスターゼアノテーションが使用された。タイルが完全に腫瘍領域内にある場合、タイルは「腫瘍」タイルとラベル付けされた。タイルの総量の3%からなる、3809のタイルが腫瘍タイルとしてマーク付けされた。その後、全ての腫瘍タイルについて、ベクトル-出力-MLM402、403によって出力される特徴ベクトルに基づく最近傍探索(nearest neighbor search)が、異なる画像にわたる記述子一般化をより頑健に評価するために、探索を他のスライドからのタイルに制限しながら実施された。取り出しタスクからの結果についての例は図11に提示される。
Figure 2022525288000003
視覚的に意味のある画像記述子を生成するためにMLMを訓練するための新規な自己教師あり手法が提供され、その手法が、Camelyon16データセットに関して他のベンチマーク方法と比べて実質的に良好な画像取り出し結果をもたらすことを、2つの試験が明らかにする。空間的距離導出類似性ラベルは、組織パターン類似性について非常に意味がありかつ正確な記述子および画像取り出しを提供することを立証した。さらに、デジタル病理データセットのための改良型特徴抽出アルゴリズムが提供され、そのアルゴリズムを、教師あり訓練のためのラベルが、得ることが難しいかまたは不可能であるデジタル病理問題に対して適用することもできる。空間的近接性ベース類似性ラベルが、実際の組織類似性(例えば、腫瘍/非腫瘍)の意味のある記述子を提供することを2つの試験が明らかにした。
図5は、図4に示すシャムネットワーク400の訓練済みバージョン400’を示す。訓練済みシャムネットワーク400’は、入力として画像(例えば、タイル)504、506の対502を受信することを予想する。訓練済みネットワーク400’の訓練済みサブネットワーク402、403は、入力画像のそれぞれから特徴ベクトルを抽出するように適合され、ただし、特徴ベクトルの抽出される特徴は、2つの比較されるデジタル組織画像が類似であるか否かの疑問に関して特定の予測関連性がある特徴量である。訓練済みシャムネットワークの出力層424は、2つの特徴ベクトルを比較し、入力画像504、506から抽出された2つの特徴ベクトルの関数として類似性ラベル508を予測し出力する。したがって、訓練済みシャムネットワーク400’は、画像の入力対502について予測類似性ラベル508を計算することによって、データレコード510を終了するように適合される。
図6は、切り詰めシャムネットワークの形態のベクトル-出力-MLM600を示す。ベクトル-出力-MLM600は、例えば、訓練済みシャムネットワーク400’のサブネットワーク402、403のうちの1つのサブネットワークを別個に記憶することによって得ることができる。訓練済みシャムネットワークと対照的に、ベクトル-出力-MLMは、入力として単一画像602のみを必要とし、また、類似性ラベルを出力するのではなく、むしろ、シャムネットワーク400’の訓練中に識別された特徴量の制限されたセットの値を選択的に含む特徴ベクトル604を出力し、特徴ベクトル604は、特定の組織パターンについて特に特徴的であり、2つの画像から特徴量のこの特定のセットを抽出し比較することによって、2つの画像において描写される組織パターンの類似性を決定するのに特に適する。
図7は、1つまたは複数のプロセッサ714および例えば図6に示す訓練済みベクトル-出力-MLM600を備えるコンピュータシステム700を示す。システム700は、ベクトル-出力-MLMを使用して画像類似性検索を実施するように適合される。
コンピュータシステムは、例えば、データベース710を備えるかまたはそれに動作可能に結合される標準的コンピュータシステムまたはサーバーであってもよい。例えば、データベースは、複数の患者の組織試料を描写する数百またはさらに数千の全スライド画像を含むリレーショナルBDSMであってもよい。好ましくは、データベースは、データベース内の画像のそれぞれについて、データベース内の上記画像から特徴出力MLM600によって抽出されたそれぞれの特徴ベクトルを含む。好ましくは、データベース内の各画像の特徴ベクトルの計算は、任意のそのような要求が受信される前に、単一の前処理ステップにおいて実施される。しかしながら、検索要求に応答して、データベース内の画像について特徴ベクトルを動的に計算し抽出することも可能である。
コンピュータシステムは、検索画像704として使用される特定の画像または画像タイルをユーザー702が選択または提供することを可能にするユーザーインタフェースを備える。訓練済みベクトル-出力-MLM600は、入力画像から特徴ベクトル706(「検索特徴ベクトル(search feature vector)」)を抽出するように適合される。検索エンジン708は、検索特徴ベクトル706を特徴出力MLM600から受信し、画像データベースにおいてベクトルベース類似性検索を実施する。類似性検索は、2つの比較される特徴ベクトルの関数として類似性スコアを計算するために、検索特徴ベクトルをデータベース内の画像の特徴ベクトルのそれぞれと比較することを含む。類似性スコアは、検索特徴ベクトルとデータベース内の画像の特徴ベクトルとの類似性の程度を示し、したがって、2つの比較される画像において描写される組織パターンの類似性を示す。検索エンジン708は、検索結果712をユーザーに返し出力するように適合される。検索結果は、例えば、最も高い類似性スコアがそれについて計算されたデータベースの1つまたは複数の画像であってもよい。
例えば、検索画像704が、乳がん組織を描写することが知られている画像タイルである場合、図7に示すシステムは、類似の乳がん組織パターンを描写する複数の他のタイル(または、そのようなタイルを含む全スライド画像)を識別するために使用することができる。
システム700は、ベクトル-出力-MLMの入力/出力構造がシャムネットワークの入力/出力構造より適切である応用シナリオについての例である。
図8は、1つまたは複数のプロセッサ824および訓練済みベクトル-出力-MLM600を備えるコンピュータシステム800を示す。システム800は、画像セグメント化および/またはクラスター解析等のデジタル病理タスクを実施するために適合される。
システムは、入力画像、例えば、全スライド画像804を受信し、入力画像から複数の画像タイル808を生成するように適合される画像分割エンジン806を備える。示す例において、タイルインデックスは1から100に及ぶ。実際には、全スライド画像から生成されるタイルの数は、典型的には、ずっと多い、例えば、数千または10,000のタイルの範囲内にある。
訓練済みベクトル-出力-MLM600は、生成されたタイルを受信し、タイルのそれぞれから、それぞれの特徴ベクトルを抽出する。訓練済みMLM600によって計算される複数のダイレクター(director)810は、クラスタリングエンジン812に給送される。クラスタリングエンジンは、受信特徴ベクトルのクラスタリング、例えば、K平均法クラスタリングを実施するように適合される。クラスタリングの結果として、類似特徴ベクトルの複数のクラスター(群)814が自動的に識別される。図8に示す例において、特徴ベクトルの3つの類似クラスター(A、B、およびC)が識別され、さらなる処理ステップのための基礎として使用することができる。例えば、画像セグメント化エンジン818は、特徴ベクトルの同じクラスターに属する受信画像804内のタイルを識別するためにクラスター814を使用することができる。同じクラスターに属する全てのタイルは、セグメント化結果画像822において描写される画像セグメントとして識別することができ、異なる画像セグメントは、異なるカラーおよび/またはハッチングを使用して示される。さらに、または、代替的に、特徴ベクトルの識別済みクラスター814は、入力画像内で異なるタイプの組織パターンを識別するための基礎として使用することができる。例えば、類似性検索は、「腫瘍組織」、「スライドバックグラウンド」、「健康間質組織」等の、既知の組織タイプを示す類似画像を識別するために各クラスターA、B、またはCの1つまたは複数の特徴ベクトルについて実施することができる。類似性検索において識別される最も類似するデータベース画像に割り当てられる組織タイプは、それぞれのクラスターによって示される組織パターンと考えられる。それにより、入力画像において異なるタイプの組織パターンを自動的に識別するためのシステムおよび方法が提供され、そのシステムおよび方法は、多数の手作業によるアノテーション付き訓練用データの作成を必要としない。
分割エンジン、クラスタリングエンジン、および画像セグメント化エンジンは、例えば、独立型ソフトウェアアプリケーションとしてそれぞれ実装することができる。代替的に、エンジン806、814、および/または818の1つまたは複数は、単一の統合ソフトウェアアプリケーションのサブモジュールまたはプログラムルーチンとして実装することができる。
システム800は、ベクトル-出力-MLMの入力/出力構造がシャムネットワークの入力/出力構造より適切である応用シナリオについてのさらなる例である。
図9は、2つの画像の組織パターンの類似性を決定するために、1つまたは複数のプロセッサ902および訓練済みシャムネットワーク400’を備えるコンピュータシステム900を示す。例えば、シャムネットワークは、2つの画像またはタイルが入力として提供され、そこに描写される組織パターンの類似性が迅速に決定されるであろう全ての応用シナリオにおいて使用することができる。
図10は、2つのタイルマトリクスを示し、各マトリクスは3つの列からなり、各列が6つのタイル対を含む。第1のマトリクスは、互いの近くに存在しかつラベル「類似」タイル対を自動的に割り当てられるタイルからなるタイル対の第1のセット(A)を示す。第2のマトリクスは、互いから遠くに存在しかつラベル「非類似」タイル対を自動的に割り当てられるタイル対の第2のセット(B)を示す。場合によっては、「類似」ラベル付きタイルは非類似に見え、「非類似」ラベル付きタイルは類似に見える。このノイズは、2つの異なる組織パターンが接する境界において、2つの近傍タイルが異なる組織パターンを描写することができることによって、また、遠方組織領域でさえも、同じ組織パターンを描写することができることによって引き起こされる。これは、データセット生成プロセスにおける予想される固有ノイズである。
このノイズがあるにもかかわらず、自動化ラベル付きデータセットに対して訓練されたMLMの予測が非常に正確であることを出願人は観測した。このノイズに対する訓練済みMLMの観測される頑健性が、領域非境界エリアより少ない面積を領域境界が典型的には有することに基づくことを出願人は仮定する。
実施形態によれば、自動生成訓練用データセットの品質は、第1のステップにて、タイル対の類似性を評価するために事前訓練類似性ネットワークまたはImageNet事前訓練ネットワークを使用すること、その後、第2のステップにて、本発明の実施形態について本明細書で述べたタイルの空間的近接性に基づいて類似性ラベルを生成すること、および、その後、一方で第1のステップにて、また、他方で第2のステップにて判定される2つのタイルの類似性の大きい偏差が観測される場合に、対ラベルを補正することである。
図11は、本発明の実施形態について本明細書で述べた自動化ラベル付きデータセットに対して訓練された特徴出力MLMによって抽出された特徴ベクトル使用した、画像取り出しタスクにおける5つの腫瘍クエリータイル(A、B、C、D、E)、および、短~長までの距離によってランク付けされた、クエリースライド以外のスライドからの5つの最接近取り出し済みタイルについての類似性検索結果を示す。ターゲットクラス(例えば、腫瘍)は、検索されたタイルの3%のみを含む。一部の取り出し済みタイルがクエリータイル(例えば、C3およびC)と非常に異なるように見えても、A4を除く取り出し済みタイルの全てが、専門病理医によって、腫瘍細胞を含むと検証された(すなわち、正しいクラス取り出し)。
100 方法
102~108 ステップ
202~203 異なる患者の組織試料
208~212 隣接する組織試料のスタック内の組織試料
214~218 隣接する組織試料のさらなるスタック内の組織試料
220~236 組織試料をそれぞれ描写するデジタル画像
300 複数のタイルにスライスされたデジタル組織画像
302 タイルT1
304 タイルT2
306 タイルT3
308 第1の空間的近接性閾値(2D)
310 第2の空間的近接性閾値(2D)
312 「類似」とラベル付けされたタイルの対
313 「類似」とラベル付けされたタイルの対
314 「非類似」とラベル付けされたタイルの対
315 「非類似」とラベル付けされたタイルの対
316 訓練用データ
332 画像300に整列したデジタル組織画像
334 画像332に整列したデジタル組織画像
336 第1の空間的近接性閾値(3D)
338 第2の空間的近接性閾値(3D)
340 タイルT4
342 タイルT5
400 (未訓練)シャムネットワーク
400’ (訓練済み)シャムネットワーク
402 サブネットワーク
403 サブネットワーク
404 第1の入力タイル
405 第1のネットワークN1の入力層
406 隠れ層
407 近接性ベース(「測定済み」)類似性ラベル
408 第1の入力タイルについての特徴ベクトルを計算するように適合される隠れ層
410 第1の入力タイル404から抽出された特徴ベクトル
414 第2の入力タイル
415 第2のネットワークN2の入力層
416 隠れ層
418 第2の入力タイルについての特徴ベクトルを計算するように適合される隠れ層
420 第2の入力タイル414から抽出された特徴ベクトル
422 入力タイルの対
424 ネットワークN1、N2を接合する出力層
426 予測類似性ラベル
428 訓練用データセットの個々のデータレコード
502 入力タイル
504 第1の入力タイル
506 第2の入力タイル
508 予測類似性ラベル
510 入力タイル対502および予測類似性ラベル508を含む完全データレコード
600 ベクトル-出力-MLM
602 個々の入力画像/タイル
604 特徴ベクトル
700 コンピュータシステム
702 ユーザー
704 個々の入力画像/タイル
706 検索特徴ベクトル
708 特徴ベクトルベース検索エンジン
710 複数の画像またはタイルを含むデータベース
712 返された類似性検索結果
714 プロセッサ
800 コンピュータシステム
802 ユーザー
804 個々の入力画像/タイル
806 画像分割エンジン
808 複数のタイル
810 複数の特徴ベクトル
812 クラスタリングエンジン
814 類似性特徴ベクトルの識別されたクラスター
816 クラスター分析結果:識別された組織タイプ
818 画像セグメント化エンジン
820 ユーザーインタフェース
822 セグメント化画像
824 プロセッサ
900 コンピュータシステム
902 プロセッサ

Claims (15)

  1. デジタル病理のためのコンピュータ実装自己教師あり学習方法であって、
    - それぞれが組織試料を描写する複数のデジタル画像を受信する(102)こと、
    - 前記受信された画像のそれぞれを複数のタイルに分割する(104)こと、
    - タイル対(312、313、314、315、422)を自動的に生成する(106)ことであって、各タイル対は、前記対の2つのタイルにおいて描写される2つの組織パターンの類似性の程度を示すラベル(403)を割り当てられており、前記類似性の程度は、前記対内の前記2つのタイルの空間的近接性(d1、d2、d3、d4)の関数として計算され、距離が非類似性と正相関し、前記タイル対(313、315)の少なくともサブセットは、隣接する組織スライスのスタックの2つの異なる組織スライス内に含まれる2つの組織領域を描写し、前記組織スライスのそれぞれは、前記受信デジタル画像(300、332、334)のそれぞれの1つのデジタル画像において描写される前記組織試料であり、隣接する組織スライスのスタックの組織スライスを描写する受信画像は、3D座標系において互いに整列し、前記サブセットの前記タイル対の前記タイル間の距離(d3、d4)は前記3D座標系内で計算される、タイル対(312、313、314、315、422)を自動的に生成する(106)こと、および、
    - ラベル付けされたタイル対を訓練用データとして使用して、機械学習モジュール-MLM-(400、402、403、600)を訓練し、デジタル組織病理画像の画像解析を実施するために適合される訓練済みMLMを生成すること、
    を含む、コンピュータ実装自己教師あり学習方法。
  2. - 前記タイル対(312、314)の少なくとも一部は、同じ組織スライスに含まれる2つの組織領域を描写し、前記組織スライスのそれぞれは、前記受信デジタル画像のそれぞれ1つの画像において描写され、タイル間の距離は、前記対内の前記タイルがそこから導出された前記受信されたデジタル画像(300)のx次元およびy次元によって規定される2D座標系内で計算される、請求項1に記載のコンピュータ実装方法。
  3. 前記タイル対(313、315)の少なくともさらなるサブセットは、同じ組織スライスの2つの組織領域を描写するタイル対を含み、前記さらなるサブセットの前記タイル対の前記タイル間の距離(d1、d2)は、異なる組織スライスを描写すると導出されるタイル対の前記サブセットの前記タイル対の間の距離として、前記空間的近接性の関数に基づいて計算される、請求項1または2に記載のコンピュータ実装方法。
  4. 各タイルは、0.5mm未満、好ましくは0.3mm未満の最大エッジ長を有する組織またはバックグラウンド領域を描写する、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記タイル対の自動生成は、
    - 第1の空間的近接性閾値(308、336)を使用してタイル対(312、313)の第1のセットを生成することであって、前記第1のセット内の各タイル対の前記2つのタイルによって描写される前記2つの組織領域は、前記第1の空間的近接性閾値より小さい距離互いから分離される、タイル対(312、313)の第1のセットを生成すること、
    - 第2の空間的近接性閾値(310、338)を使用してタイル対(314、315)の第2のセットを生成することであって、前記第2のセット内の各タイル対の前記2つのタイルによって描写される前記2つの組織領域は、前記第2の空間的近接性閾値より大きい距離互いから分離される、タイル対(314、315)の第2のセットを生成すること
    を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  6. 前記第2の空間的近接性閾値は、前記第1の空間的近接性閾値より少なくとも2mm大きい、請求項5に記載のコンピュータ実装方法。
  7. 前記第1の空間的近接性閾値は、2mmより小さい、好ましくは1.5mmより小さい、特に1.0mmの距離である、および/または、
    前記第2の空間的近接性閾値は、4mmより大きい、好ましくは8mmより大きい、特に10.0mmの距離である、請求項5または6に記載のコンピュータ実装方法。
  8. 前記MLMは、共通出力層(424)によって接合される2つの同一のニューラルサブネットワーク(402、403)を備えるシャムニューラルネットワーク(400)であり、前記2つのニューラルサブネットワークのそれぞれは、前記MLMへの入力として提供されるタイル対(422)の2つのタイル(404、414)のそれぞれの1つのタイルから特徴ベクトル(410、420)を抽出するように適合され、
    訓練済みシャムニューラルネットワーク(400’)の出力層は、入力として提供される各タイル対(502)についてのラベル(508)を、2つの特徴ベクトル(410、420)の関数として計算するように適合され、前記ラベルは、入力として提供される前記タイル対(502)において描写される前記2つの組織パターンの予測類似性を示す、請求項1から7のいずれか一項に記載のコンピュータ実装方法。
  9. 前記MLMは、ベクトル-出力-MLM(600)であるかまたは前記ベクトル-出力-MLM(600)を含み、前記ベクトル-出力-MLMは、入力として単一デジタル画像またはタイルを受信するように適合されかつ前記画像またはタイルから抽出される特徴ベクトルを出力するように適合されるMLMであり、
    それにより、前記ラベル付けされたタイル対に対する前記MLMの訓練は、バックプロパゲーション操作を含み、バックプロパゲーション中に、前記MLMの予測モデルは、特定の組織パターンについて特徴的でありかつ類似のおよび非類似の画像対のベクトル比較ベース識別を可能にする特徴量を、前記MLMによって抽出される前記ベクトル内の特徴量が含むように変更される、請求項1から8のいずれか一項に記載のコンピュータ実装方法。
  10. 前記MLMはシャムネットワークであり、方法は、前記ベクトル-出力-MLM(600)を提供することをさらに含み、前記ベクトル-出力-MLMを前記提供することは、
    - 前記訓練済みシャムネットワーク(400’)の前記サブネットワークのうちの1つのサブネットワーク(402)を、別個に記憶媒体上に記憶すること、および、
    - 前記ベクトル-出力-MLM(600)として前記記憶されたサブネットワークを使用すること
    を含む、請求項8および9に記載のコンピュータ実装方法。
  11. - 前記ベクトル-出力-MLMの入力としてデジタル検索画像を提供することであって、前記検索画像は組織試料または前記組織試料のサブ領域を描写する、デジタル検索画像を提供すること、
    - 前記ベクトル-出力-MLMによって、前記検索画像から検索特徴ベクトルを抽出すること、
    - デジタル組織試料画像の画像データベース(710)において類似性検索を、類似性検索エンジン(708)によって実施することであって、前記類似性検索エンジンは、前記画像データベース内の前記画像のそれぞれについて前記ベクトル-出力-MLMによって抽出された特徴ベクトルを用いて、前記検索特徴ベクトルの類似性を決定する、類似性検索を実施すること、および、
    - 前記データベース内の前記画像のうちの画像であって、画像の特徴ベクトルは、前記類似性検索の結果として、前記検索特徴ベクトルに最も類似する、画像を返すこと
    をさらに含む、請求項9または10に記載のコンピュータ実装方法。
  12. - 前記ベクトル-出力-MLMの入力としてデジタル画像(804)を提供することであって、前記デジタル画像は、全スライド組織試料または前記全スライド組織試料のサブ領域を描写する、デジタル画像(804)を提供すること
    - 前記提供されたデジタル画像(804)を複数のタイル(808)に分割すること、
    - 前記タイル(808)のそれぞれから特徴ベクトルを、前記ベクトル-出力-MLMによって抽出すること、
    - 前記複数のタイルから抽出される前記特徴ベクトルを、クラスタリングエンジン(812)によってクラスター化することであって、それにより、類似の特徴ベクトルのクラスターを作成する、前記特徴ベクトルをクラスター化すること、
    - 前記タイルの特徴ベクトルについて計算された前記クラスターに従って、前記複数のタイルをタイルのクラスターにグループ分けすること、および、
    - タイルの前記クラスターを、グラフィカルユーザーインタフェースによって出力すること
    をさらに含む、請求項9から11のいずれか一項に記載のコンピュータ実装方法。
  13. - 前記提供されたデジタル画像(804)内でセグメントを識別することであって、各セグメントは隣接するタイルの群であり、各セグメント内の全てのタイルは、タイルの前記識別されたクラスターの同じクラスターに属する、セグメントを識別すること、および、
    - 前記提供されたデジタル画像(804)内の前記識別されたセグメントの光学的指示を、前記グラフィカルユーザーインタフェースを介して出力すること
    を含む、請求項12に記載のコンピュータ実装方法。
  14. コンピュータ解釈可能命令を含む不揮発性記憶媒体であって、前記コンピュータ解釈可能命令は、実行されると、請求項1から13のいずれか一項に記載のコンピュータ実装方法によって生成される訓練済み機械学習モジュール―MLM―(400、402、403、600)をインスタンス化および/または実行する、不揮発性記憶媒体。
  15. 画像解析システム(700、800、900)であって、
    - 少なくとも1つのプロセッサ(714、824、902)と、
    - 揮発性または不揮発性記憶媒体とを備え、前記記憶媒体は、請求項1から13のいずれか一項に記載のコンピュータ実装方法によって生成される訓練済み機械学習モジュール―MLM―(400、402、403、600)を備える、画像解析システム(700、800、900)。
JP2021552551A 2019-03-28 2020-03-26 距離ベース類似性ラベルを使用する機械学習 Pending JP2022525288A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19165965 2019-03-28
EP19165965.5 2019-03-28
PCT/EP2020/058570 WO2020193708A1 (en) 2019-03-28 2020-03-26 Machine learning using distance-based similarity labels

Publications (1)

Publication Number Publication Date
JP2022525288A true JP2022525288A (ja) 2022-05-12

Family

ID=66001073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021552551A Pending JP2022525288A (ja) 2019-03-28 2020-03-26 距離ベース類似性ラベルを使用する機械学習

Country Status (5)

Country Link
US (1) US20220139072A1 (ja)
EP (1) EP3948651A1 (ja)
JP (1) JP2022525288A (ja)
CN (1) CN113574534A (ja)
WO (1) WO2020193708A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function
US20220237810A1 (en) * 2019-05-09 2022-07-28 H. Lee Moffitt Cancer Center And Research Institute, Inc. Systems and methods for slide image alignment
US11462032B2 (en) * 2019-09-23 2022-10-04 Proscia Inc. Stain normalization for automated whole-slide image classification
US11556848B2 (en) * 2019-10-21 2023-01-17 International Business Machines Corporation Resolving conflicts between experts' intuition and data-driven artificial intelligence models
CA3196713C (en) 2020-09-23 2023-11-14 Proscia Inc. Critical component detection using deep learning and attention
CN112241452B (zh) * 2020-10-16 2024-01-05 百度(中国)有限公司 一种模型训练方法、装置、电子设备及存储介质
WO2022090205A1 (en) * 2020-10-30 2022-05-05 Genfit A method and a system for obtaining a training dataset usable for training a neural network to detect cells, using color deconvolutions and geometrical attributes
CN112819802B (zh) * 2021-02-09 2024-03-05 东北大学 基于风口信息深度学习的监督及预测高炉炉况异常的方法
EP4348452A1 (en) * 2021-06-02 2024-04-10 Genentech, Inc. Whole slide image search
CN113838058B (zh) * 2021-10-11 2024-03-19 重庆邮电大学 一种基于小样本分割的医学图像自动标注方法及系统
EP4207095A1 (en) * 2021-12-30 2023-07-05 Leica Biosystems Imaging, Inc. System and method for similarity learning in digital pathology
CN114648680B (zh) * 2022-05-17 2022-08-16 腾讯科技(深圳)有限公司 图像识别模型的训练方法、装置、设备、介质
CN116681839B (zh) * 2023-08-02 2024-02-23 深圳市森歌数据技术有限公司 一种基于改进NeRF的实景三维目标重建与单体化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805248B2 (en) * 2014-08-29 2017-10-31 Definiens Ag Applying pixelwise descriptors to a target image that are generated by segmenting objects in other images
US10716457B2 (en) * 2015-10-14 2020-07-21 Siemens Aktiengesellschaft Method and system for calculating resected tissue volume from 2D/2.5D intraoperative image data
CA3012360C (en) * 2016-03-01 2021-12-14 Ventana Medical Systems, Inc. Improved image analysis algorithms using control slides
WO2018017355A1 (en) * 2016-07-22 2018-01-25 Case Western Reserve University Methods and apparatus for predicting benefit from immunotherapy using tumoral and peritumoral radiomic features
EP3507770A1 (en) * 2016-08-31 2019-07-10 Koninklijke Philips N.V. Apparatus for tubulus detection from a tissue biopsy
US11195274B2 (en) * 2017-08-03 2021-12-07 Nucleai Ltd Systems and methods for analysis of tissue images

Also Published As

Publication number Publication date
EP3948651A1 (en) 2022-02-09
WO2020193708A1 (en) 2020-10-01
CN113574534A (zh) 2021-10-29
US20220139072A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
US20220139072A1 (en) Machine learning using distance-based similarity labels
JP7270058B2 (ja) 予測的組織パターン特定のためのマルチプルインスタンスラーナ
JP7231631B2 (ja) 腫瘍空間異質性およびインターマーカ異質性の計算方法
JP7425145B2 (ja) 包括的なマルチアッセイ組織分析のためのシステムおよび方法
JP2023501126A (ja) 組織画像分類用のマルチインスタンス学習器
JP7197584B2 (ja) デジタル病理学分析結果の格納および読み出し方法
US20220058839A1 (en) Translation of images of stained biological material
US20220180518A1 (en) Improved histopathology classification through machine self-learning of "tissue fingerprints"
Song et al. Unsupervised content classification based nonrigid registration of differently stained histology images
US11176412B2 (en) Systems and methods for encoding image features of high-resolution digital images of biological specimens
JP2023512560A (ja) 機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム
JP6882329B2 (ja) Ihc画像解析のための空間インデックス作成
Ghoshal et al. DeepHistoClass: a novel strategy for confident classification of immunohistochemistry images using deep learning
CN116805319A (zh) 提供训练机器学习分割算法的训练数据集的方法和系统
Nanthini et al. Cervical Cancer Cell Segmentation and Classification using ML Approach
Santamaria-Pang et al. Epithelial cell segmentation via shape ranking
Sabata Digital pathology imaging-The next frontier in medical imaging
Stokes et al. Quality Control and Analysis Algorithms for Tissue Microarrays as Biomarker Validation Tools
Nandy Segmentation and informatics in multidimensional fluorescence optical microscopy images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240424