JP2022538866A

JP2022538866A - 画像前処理のためのシステム及び方法

Info

Publication number: JP2022538866A
Application number: JP2021577279A
Authority: JP
Inventors: ジルワンリブ; ピエールクールシオル; オリヴィエモワンドロ; シャルリエサイヤール; シャルルモーシオン; ブノワシュモーシュ
Original assignee: オウキンインコーポレイテッド; オウキンフランスソシエテパルアクシオンサンプリフィエ
Priority date: 2019-06-25
Filing date: 2020-06-25
Publication date: 2022-09-06
Also published as: EP3864577A1; US20230386024A1; CA3145371A1; CN114787876A; WO2020261183A1; US11562585B2; EP3864577B1; US20210271847A1

Abstract

画像を分類するデバイスの方法及び装置について説明する。例示的な実施形態では、デバイスが、第１の畳み込みニューラルネットワークを適用することにより、分類に役立つ情報を含む関心領域と背景領域とに画像をセグメント化する。また、デバイスは、関心領域をタイルセットにタイル化する。デバイスは、各タイルについて、第２の畳み込みニューラルネットワークを適用することによってそのタイルの特徴ベクトルを抽出し、特徴ベクトルの特徴はタイルの局所記述子を表す。さらに、デバイスは、タイルセットの抽出された特徴ベクトルを処理して画像を分類する。【選択図】図５

Description

〔関連出願〕
本出願は、２０１９年６月２５日に出願された欧州特許出願第１９３０５８４０．１号に対する優先権を主張するものである。上記優先出願は、その内容全体が引用により本明細書に組み入れられる。

病理組織学的画像解析(histopathological image analysis)（ＨＩＡ）は、多くの医学領域において、特に現在この種の画像解析が絶対的基準指標(gold standard metric)を定める腫瘍学において重要な診断要素である。最近の研究では、最新の機械学習（ＭＬ）の発展を利用して病理学者らの疾患検出作業を支援しようと模索されているが、これらの技術の大半は、訓練データとして局所的アノテーションマスクを必要とする。病理学者らは、病変組織のピクセル単位のセグメンテーションマップを超解像度で構築するために時間を費やさなければならないため、これらの局所的アノテーションの取得には本来の診断よりもコストがかかる。従って、アノテーションを含むＨＩＡデータセットはサイズが非常に限られている。また、このような局所的アノテーションは、新たな疾患サブタイプ分類、予後推定、薬剤反応予測などの新たなＨＩＡの問題に直面した時には利用できない場合がある。ＨＩＡにとっての重要な問題は、局所的アノテーションを使用せずに正確な分類(classification)を行う学習アーキテクチャを設計できるのか、という点である。優れた技術であれば、解析中に病理学者らを支援するアルゴリズムを訓練できるはずであり、これまで知られていなかった構造及び関心領域を識別するために使用することもできる。

実際に、病理組織学は、腫瘍及びその他の疾患における絶対的診断である一方で非常にコストがかかり、１つの診断を下すために病理学者らが何時間にもわたって集中する必要がある。また、疾患によっては、病理学者らが正しい診断のために数百万個もの細胞の中から数個の細胞を識別する必要があるため、これらの作業は「干し草の中から針を探し出す」ようなものである。病理組織学における誤診率は、病理学者らによる誤診の自己申告に加えて対象の疾患及び組織にも依存するため、明確な数字を得ることが困難である。しかしながら、癌診断における偽陰性は、患者に破滅的結末をもたらすだけでなく、病理学者にとっても大きな財務リスクとなる。病理学者らが最も疑わしい部位に注意と労力を集中する支援を行うことができるツールがあれば、より正確な診断を通じて偽陰性を減少させて患者転帰を改善するのに役立つことができる。医学研究者らは何十年にもわたってコンピュータ支援診断に目を向けてきたが、計算リソース及びデータの不足がこのようなツールの幅広い実装及び使用を妨げてきた。１９９０年代に自動デジタル全スライド画像(automated digital whole slide image)（ＷＳＩ）撮影法が登場して以来、研究者らは、画像処理アルゴリズムを通じて病理学者らの作業負荷を緩和するとともに患者予後を改善する手法を模索してきた。これらの手順の多くは、最終診断を予測するのではなく、細胞数カウント又はＷＳＩ内の疑わしい領域の検出のためのセグメンテーションに焦点を当てたものであった。過去の方法は、ｋ近傍法又はサポートベクターマシンを介した分類の前に、手作りのテクスチャ又は形態学的特徴をｋ平均クラスタリング法又はその他の次元縮小法などの教師なし技術と共に使用することに重点を置いていた。

過去１０年の間、深層学習の実りある発展によって画像処理タスクの自動化に関する研究が爆発的に増加した。このような高度な機械学習（ＭＬ）技術を画像タスクに適用することは、多くの消費者向けアプリケーションでは成功しているが、医用画像の分野におけるこのような手法の採用はより緩やかである。しかしながら、これらの技術は、ＨＩＡの分野では大きな望みを示している。具体的に言えば、ＷＳＩを用いたデジタル病理学では、高度な訓練を受けた熟練の病理学者らが、調製されて染色された組織試料からデジタル的に取り込まれた顕微鏡画像を確認した上で診断を行う。デジタルＷＳＩは、複数のズームレベルで取り込まれた画像から成る膨大なデータセットである。ＷＳＩは、最も高い倍率では両次元で１０万ピクセルを超えるデジタル解像度を有することができる。しかしながら、局所的アノテーションの取得が非常に困難であるため、データセットはＷＳＩレベルの診断ラベルしか含まないことがあり、弱教師付き学習のカテゴリに該当する。

画像を分類するデバイスの方法及び装置について説明する。例示的な実施形態では、デバイスが、第１の畳み込みニューラルネットワークを適用することによって、画像を、分類に役立つ情報を含む関心領域(region of interest)と、背景領域とにセグメント化(segment)する。また、デバイスは、関心領域をタイルセット(set of tiles)にタイル化する(tile)。各タイルについて、第２の畳み込みニューラルネットワークを適用することによってそのタイルの特徴ベクトルを抽出する。さらに、デバイスは、タイルセットの抽出された特徴ベクトルを処理して画像を分類する。

さらなる実施形態では、デバイスが、画像の分類と相関する画像の対象領域を抽出する。この実施形態では、デバイスが、前記画像の関心領域を第１のタイルセットにタイル化する。さらに、デバイスは、各タイルについて、畳み込みニューラルネットワークを適用することによってそのタイルの特徴ベクトルを抽出し、特徴ベクトルの特徴はタイルの局所記述子(local descriptors)を表し、抽出された特徴ベクトルから、画像の分類に対するタイルの寄与を表すタイルのスコアを計算する。また、デバイスは、各タイルについて、所与の特性を検証するスコアを有する少なくとも１つの他のタイルを選択し、第１のタイルセットにおけるタイルスコアの高スコアと低スコアとの間のスコアを有する第２のタイルセットであるとともに、距離メトリック(distance metric)に従って少なくとも１つの他のタイルに視覚的に近接している比較対象領域(comparison target region)を抽出する。

さらに別の実施形態では、デバイスが分類モデルを生成する。この実施形態では、デバイスが、それぞれが関連する既知の分類を有する訓練画像セット(training set of images)を受け取る。さらに、デバイスは、訓練画像セット内の各訓練画像について、第１の畳み込みニューラルネットワークを適用することによって、訓練画像の複数の特徴ベクトルを抽出し、複数の特徴ベクトルの各特徴はその画像の局所記述子を表す。また、デバイスは、少なくとも抽出された特徴ベクトル及び関連する既知の分類を使用して分類モデルを訓練する。

その他の方法及び装置についても説明する。

同様の参照記号が同様の要素を示す添付図面の図に、限定ではなく一例として本発明を示す。

分類モデルを使用して画像を前処理することによって画像を分類するシステムの一実施形態のブロック図である。訓練画像セットを使用して分類モデルを訓練するシステムの一実施形態のブロック図である。画像を前処理して分類するプロセスの一実施形態のフロー図である。タイルセットにタイル化された画像を分類するプロセスの一実施形態のフロー図である。病理組織学的画像を分類する分類システムの図である。分類モデルを訓練して検証するプロセスの一実施形態のフロー図である。分類モデルを検証するプロセスの一実施形態のフロー図である。画像から比較対象領域を抽出するプロセスの一実施形態のフロー図である。分類モデル及びローカルアノテーションを使用して画像を分類するシステムの一実施形態のブロック図である。分類モデル及びローカルアノテーションを使用して画像を分類するプロセスの一実施形態のフロー図である。本明細書で説明する実施形態と共に使用できる典型的なコンピュータシステムの一例を示す図である。

画像を分類するデバイスの方法及び装置について説明する。以下の説明では、本発明の実施形態を完全に説明できるように数多くの具体的な詳細を示す。しかしながら、当業者には、これらの具体的な詳細を伴わずに本発明の実施形態を実施できることが明らかであろう。場合によっては、本説明の理解が曖昧にならないように、周知のコンポーネント、構造及び技術については詳細に示していない。

本明細書における「１つの実施形態」又は「ある実施形態」についての言及は、実施形態に関連して説明する特定の特徴、構造又は特性を本発明の少なくとも１つの実施形態に含めることができることを意味する。本明細書の様々な箇所で見られる「１つの実施形態では」という表現は、必ずしも全てが同じ実施形態を示すものではない。

以下の説明及び特許請求の範囲では、「結合された（ｃｏｕｐｌｅｄ）」及び「接続された（ｃｏｎｎｅｃｔｅｄ）」という用語をその派生語と共に使用していることがある。これらの用語は、互いに同義語として意図するものではないと理解されたい。「結合された」は、互いに直接物理的又は電気的に接触していることも又はそうでないこともある２又は３以上の要素が互いに協働又は相互作用することを示すために使用するものである。「接続された」は、互いに結合している２又は３以上の要素間における通信の確立を示すために使用するものである。

以下の図に示すプロセスは、ハードウェア（例えば、回路、専用ロジックなど）、（汎用コンピュータシステム又は専用機械上で実行されるような）ソフトウェア、又はこれらの両方の組み合わせを含む処理ロジックによって実行される。以下では、いくつかの連続動作の観点からプロセスを説明しているが、説明する動作の一部は異なる順序で実行することもできると理解されたい。さらに、一部の動作は順にではなく並行して実行することもできる。

「サーバ」、「クライアント」及び「デバイス」という用語は、サーバ、クライアント及び／又はデバイスの特定のフォームファクタを具体的に示すものではなく、データ処理システムを一般的に示すように意図するものである。

上述したように、病理組織学的画像解析は、画像を解析できる前に専門家による局所的アノテーションに依拠することができ、これには時間及び手間がかかる。この問題を解決するために、ローカルアノテーションを使用することなく、画像処理パイプラインを使用して画像を解析することができる。１つの実施形態では、ローカルアノテーションが、画像の一部に適用されて画像全体には適用されないメタデータ（例えば、テキスト、マーキング、番号、及び／又は別のタイプのメタデータ）である。例えば、１つの実施形態では、ローカルアノテーションを、組織画像などの画像内の関心領域のマーキングとすることができる。例示的なローカルアノテーションは、例えば画像の腫瘍領域、画像の間質領域、画像内の細胞タイプの識別、画像内の複数の細胞で構成された生物学的構造の識別などの、画像の一部を概説又は別様に識別するマーキングを含む。対照的に、本明細書で言及する「グローバルアノテーション」は、画像全体に適用されるメタデータを意味する。例示的なグローバルアノテーションは、画像全体を識別するラベル、画像がどのように取得されたかに関するデータ、例えば画像の取得元である被験者の年齢、性別、診断結果などを示すラベルなどの、画像の取得元である被験者の特徴を識別するラベル、及び／又は画像全体に適用されるその他のデータを含む。いくつかの実施形態では、グローバルアノテーションが、画像の取得元である被験者に存在すると分かっている又は理解されている腫瘍の存在、タイプ、悪性度又はステージを示すことができる。他の実施形態では、グローバルアノテーションが、画像の取得元である被験者の生存期間（例えば、画像内に表される試料取得後の生存期間）又は所定の治療に対する反応などの既知の特性を示すことができる。本明細書で説明するいくつかの実施形態では、ローカルアノテーションが存在しない場合、グローバルアノテーションを含む画像を使用することができる。

パイプラインは、最初に大型画像（例えば、ＷＳＩ）を２２４×２２４ピクセル画像などの小型画像に細分化し、この画像の関心領域を検出し、大津の手法（Ｏｔｓｕ’ｓｍｅｔｈｏｄ）を使用して分類を実行することに基づく。従って、この分類は、計算コストが大幅に低い小型画像に対して作用する。これらの小型画像をＲｅｓＮｅｔ畳み込みニューラルネットワークに供給して、各小型画像から、この小型画像の局所記述子である特徴ベクトルを抽出する。抽出された特徴ベクトルから、ローカルなタイルレベル（インスタンス）記述子として各小型画像のスコアを計算する。最上位及び最下位のインスタンスを多層パーセプトロン(Multi-Layer Perceptron)（ＭＬＰ）への入力として使用して、これらに対する分類を行う。この解決策は良好な結果をもたらすが、その全体的な効率性にはまだ改善の余地がある。

上記パイプラインを改善して画像を分類するデバイスの方法及び装置について説明する。１つの実施形態では、デバイスが、１又は２以上のニューラルネットワークモデルを使用して画像を分類し、この画像のラベルを決定する。この実施形態では、画像を、ニューラルネットワークモデルを単独で使用して画像全体を処理することが計算上非現実的である大型画像とすることができる。とりわけ、デバイスは、これらの大型画像に対して画像分類タスクを実行するのに必要な計算リソースの量（例えば、時間及び／又はメモリ要件）を低減する。このようなリソースの低減は、画像分類タスクを実行する際のデバイスの性能をさらに向上させる。また、デバイスは、機械学習モデルを訓練するために一般に使用されるグラフィックスプロセッシングユニットのメモリに収まりきらないほど大きな画像であっても全スライド画像を分類することができる。

さらなる実施形態では、デバイスがデータの次元性(dimensionality)を低減し、従ってより良好な一般化誤差をもたらし、モデル精度の面で効率性が高い。

１つの実施形態によれば、デバイスは、第１の畳み込みニューラルネットワークを適用することによって、分類に役立つ情報を含む少なくとも１つの関心領域と、分類に役立つ情報を含まない少なくとも１つの背景領域との間で画像をセグメント化することによって少なくとも１つの入力画像を分類する。さらに、デバイスは、画像の少なくとも１つの関心領域をタイルセットにタイル化する。また、デバイスは、第２の畳み込みニューラルネットワークを適用することによって各タイルの特徴ベクトルを抽出し、これらの特徴はタイルの局所記述子である。さらに、デバイスは、抽出されたタイルの特徴ベクトルを処理して画像を分類する。１つの実施形態では、デバイスが、入力画像をセグメント化することによって少ない数のタイルを処理し、画像全体の処理を回避することができる。

１つの実施形態では、第１の畳み込みネットワークが、入力画像のピクセルを（ａ）関心領域及び（ｂ）背景領域という２つのカテゴリの一方に分類するセマンティックセグメンテーションニューラルネットワークである。さらに、タイル化は、固定タイル化グリッド(fixed tiling grid)を画像に適用することによって、前記タイルが所定のサイズを有するように実行することができる。また、取得されたタイルには、少なくとも１つのズームレベル(level of zoom)を適用することができる。例えば、１つの実施形態では、タイルに複数のズームレベルを適用して、異なるズームレベルのタイルを組み合わせることができる。また、デバイスは、タイルセットが一定数のタイルを含むように、タイルを任意にランダムにサンプリングし、及び／又はタイルセットにブランクタイルをパディングすることができる。

さらなる実施形態では、第２の畳み込みニューラルネットワークを、ＲｅｓＮｅｔ５０残差ニューラルネットワーク、又は前の層を出力として使用して最後の層を除去したＲｅｓＮｅｔ１０１残差ニューラルネットワークなどの、残差ニューラルネットワーク(residual neural network)、又はＶＧＧニューラルネットワークとすることができる。この第２の畳み込みニューラルネットワークは、このニューラルネットワークを訓練するために大規模画像データベース及び計算リソースを有する必要なく最先端の高度なニューラルネットワークの使用を可能にする事前訓練されたニューラルネットワークとすることができる。

１つの実施形態では、デバイスが、抽出された特徴ベクトルからタイルの少なくとも１つのスコアを計算することができ、各タイルのスコアは、画像の分類に対するタイルの寄与を表す。デバイスは、これらのタイルスコアを使用してタイルスコアのセットをソートし、ソートされたセット内の値及び／又はランクに基づいてタイルスコアのサブセットを選択し、保持されたタイルスコアに分類器を適用して画像を分類することができる。デバイスは、この分類を複数の入力画像にさらに適用することができ、この場合、デバイスは、異なる入力画像から対応するタイルのグループを集約することができる。

別の実施形態では、デバイスが、隣接するタイルのクラスタを集約することもできる。この実施形態では、タイルのクラスタを集約することが、クラスタのタイルを連結し、所与の基準に従ってクラスタから単一のタイルを選択し、クラスタを多次元オブジェクトとして使用し、或いは平均又は最大プーリング演算などによって値を集約することを含むことができる。また、デバイスは、抽出された特徴ベクトルにオートエンコーダを適用して特徴の次元性を低減することができる。１つの実施形態では、画像を病理組織学的スライドとし、関心領域を組織領域とし、画像の分類を診断分類とすることができる。

別の実施形態では、スライドの領域における腫瘍の存在などのローカルアノテーションが利用可能である場合、ハイブリッド技術を使用してこれらのアノテーションを考慮することができる。これを行うために、デバイスは、（１）各タイル上の巨視的特性の存在（例えば、腫瘍又は他のタイプの巨視的特性の存在）のローカル予測、及びグローバルラベルセットの予測という２つの同時タスクのために機械学習モデルを訓練することができる。デバイス（又は複数のデバイス）は、一方では上述した分類システムを含む複雑なアーキテクチャを使用して１２８個の特徴セットを処理することができる。デバイスは、他方では畳み込みニューラルネットワークを適用して、Ｎ個のタイルの特徴をＮ＊１２８個の特徴ベクトルに変換する。デバイスは、このベクトルに基づいて、各タイルについて腫瘍（又は他の巨視的特性）の有無を予測するように畳み込みニューラルネットワークを訓練する。デバイスは、予測の出力及びＮ＊１２８個の特徴ベクトルの両方を採用し、これらの２つのベクトルの連結に重み付きプーリング演算を適用して、入力画像の１２８個の特徴ベクトルを取得することができる。デバイスは、分類モデルの出力と取得された１２８個の特徴とを連結し、このベクトルに基づいて、その画像のグローバルラベルセット（例えば、生存率、腫瘍サイズ、壊死及び／又は他のタイプの予測）を予測しようと試みる。モデルの損失は、グローバル予測及びローカル予測の両方を含む。この実施形態では、ローカルアノテーションに由来する情報を計算フローに追加することによって、全体的なモデルの性能を高めることができる。

図１は、前処理モデル及び分類モデルを使用して画像を前処理して分類することによって画像を分類するシステムの一実施形態のブロック図である。図１では、システム１００が、分類デバイス１０８に結合された前処理デバイス(preprocessing device)１０２に結合されたクライアント１１８を含む。１つの実施形態では、前処理デバイス１０２及び分類デバイス１０８が入力画像を受け取り、（１又は複数の）前処理モデル１０６及び（１又は複数の）分類モデル(classifying model)１１２を使用して画像分類を出力する。この実施形態では、画像分類を、異なるラベル、ある数字範囲から選択された数字、及び／又は他のタイプの分類、のうちの１つとすることができる。

１つの実施形態では、クライアント１１８、前処理デバイス１０２及び分類デバイス１０８の各々を、パーソナルコンピュータ、ラップトップ、サーバ、モバイルデバイス（例えば、スマートフォン、ラップトップ、携帯情報端末、音楽再生デバイス、ゲームデバイスなど）、及び／又は画像を処理できるいずれかのデバイスとすることができる。１つの実施形態では、クライアント１１８、前処理デバイス１０２及び／又は分類デバイス１０８の各々を、個別に物理デバイス又は仮想デバイスとすることができる。１つの実施形態では、クライアント１１８を、画像から患者の予後を決定したいと望む医療従事者などのユーザが画像の分類を決定するために使用する装置とすることができる。１つの実施形態では、画像を、ギガバイト又はそれを上回るオーダーの大型画像とすることができる。例えば、１つの実施形態では、画像を、数ギガバイト又はそれを上回るオーダーとすることができる病理組織学的スライド（例えば、ＷＳＩ）のデジタル画像とすることができる。１つの実施形態では、画像が病理組織学的スライドであるが、別の実施形態では、画像を別のタイプの画像（例えば、衛星画像、天文画像、風力タービン画像、別のタイプの医用画像、及び／又は他のいずれかのタイプの大型画像）とすることもできる。

さらなる実施形態では、前処理デバイス１０２が、画像を関心領域及び背景領域にセグメント化する。この実施形態では、入力画像から関心領域を抽出することによって、入力画像を分類するために必要な計算量を低減することができる。例えば、１つの実施形態では、病理組織学的スライド（又は他のタイプの画像）が、組織をほとんど又は全く含まない画像の（１又は複数の）空き領域を含むことができるので、スライドの領域がいずれかの組織を含むかどうかを評価するためにいわゆる「組織検出」法又は「異物検出」法を導入することが有用である。より一般的には、大型画像を分類することが目的である場合、このことは、画像内の関心領域を識別してこれらを背景領域と区別することに関連する。これらの関心領域は、分類プロセスのための貴重な情報を含む画像の領域である。また、背景領域は、貴重な情報をほとんど又は全く含まない画像の領域であり、目下のタスクのためのノイズとみなすことができる。画像セグメンテーションについては、以下の図３でさらに説明する。

１つの実施形態では、前処理デバイス１０２が、セグメント画像を使用して画像をタイル化することができる。この実施形態では、タイル化が、画像を画像サブセットのグループに分割するプロセスである。画像サブセットは、固定サイズとすることも、又は可変サイズとすることもできる。また、タイル化は、上述した画像セグメンテーションから生成される関心領域に基づくことができる。タイル化については、以下の図３でさらに説明する。

さらなる実施形態では、前処理デバイス１０２が、畳み込みニューラルネットワークを使用して画像の特徴を決定する。この実施形態では、前処理デバイス１０２が、タイルセット内の各タイルの特徴ベクトルを計算する。これらの特徴ベクトルを使用して分類器によって画像を分類することができる。特徴の決定については、以下の図３でさらに説明する。１つの実施形態では、前処理デバイス１０２が、１又は２以上の前処理モデル１０６を使用して前処理デバイス１０２の機能を実行する前処理モジュール１０４を含む。

１つの実施形態では、前処理デバイス１０２が、タイルセット及び特徴ベクトルを分類デバイス１０８に送信することができ、分類デバイス１０８は、タイルセット、特徴ベクトル及び分類モデル１１２を使用して入力画像１１４を分類する。この実施形態では、分類デバイス１０８が、タイルセット内の各タイルのタイルスコアを計算し、タイルセットをソートし、タイルセットからタイルのサブセットを選択する。分類デバイス１１２は、タイルのサブセットを使用してタイルのサブセットから画像を分類し、画像分類１１４を出力する。１つの実施形態では、画像分類がクライアント１１８に送信される。別の実施形態では、画像分類１１４を（場合によっては入力画像と共に）リポジトリに保存することができ、クライアントは入力画像１１６及び／又は画像分類１１４を取り出すことができる。タイルを使用した画像の分類については、以下の図３でさらに説明する。１つの実施形態では、前処理デバイス１０２又は分類デバイス１０８のいずれかの機能を他の装置が実行することができ、或いは１つの装置が前処理デバイス１０２及び分類デバイス１０８の機能を実行することもできる。１つの実施形態では、分類デバイス１０８が、１又は２以上の分類モデル１１２を使用して分類デバイス１０８の機能を実行する分類モジュール１１０を含む。

図１で説明したように、クライアントは、前処理デバイス１０２及び／又は分類デバイス１０８を使用して画像を前処理して分類する。１つの実施形態では、既知の特性を有する入力画像セットを使用して前処理モデル１０６及び／又は分類モデル１１２の各々を訓練することができる。例えば、１つの実施形態では、入力画像セットと各入力画像の既知のラベルセットとを使用して分類モデル１１２を訓練することができる。さらに、入力画像セットは、画像セグメンテーションモデルを訓練するために使用できる情報を含むこともできる。

図２は、訓練画像セット２１６を使用して分類モデルを訓練するシステム２００の一実施形態のブロック図である。図２では、システム２００が、訓練デバイス２０６に結合された前処理デバイス２０２を含む。１つの実施形態では、前処理デバイス２０２が画像訓練セット２１６を受け取って、画像訓練セット２１６内の各画像の特徴ベクトルセットを生成する。訓練デバイス２０８は、この特徴ベクトルセットを受け取り、画像訓練セット２１６に関連する入力ラベル２１２を使用して分類モデル２１４を訓練することができる。この訓練については、以下の図６でさらに説明する。

上述したように、前処理モデル１０２及び分類デバイス１０８は、画像を前処理して分類することができる。図３は、画像を前処理して分類するプロセス３００の一実施形態のフロー図である。１つの実施形態では、前処理デバイス１０２及び／又は分類デバイスのいずれかがプロセス３００の機能を実行する。図３では、プロセス３００が、ブロック３０２において画像、（１又は複数の）モデル及びその他の入力を受け取ることによって開始する。１つの実施形態では、入力画像を、病理組織学的画像、衛星画像、天文画像、風力タービン画像、別のタイプの医用画像、及び／又は他のいずれかのタイプの大型画像とすることができる。この実施形態では、モデルが、画像の前処理及び／又は分類に使用できる１又は２以上のモデルである。例えば、１つの実施形態では、モデルが、画像をセグメント化するために使用される画像セグメンテーションモデルと、画像を分類するために使用される分類モデルとを含むことができる。さらに、他の入力は、プロセス３００によって使用される重み及びその他の入力パラメータを含むことができる。

プロセス３００は、ブロック３０４においてこの入力画像をセグメント化する。１つの実施形態では、プロセス３００が、入力画像を関心領域及び背景領域にセグメント化する。この実施形態では、プロセス３００が、画像をセグメント化することによって入力画像の関心領域を抽出することができる。この実施形態では、入力画像から関心領域を抽出することで、入力画像を分類するのに必要な計算量を低減することができる。例えば、１つの実施形態では、病理組織学的スライド（又は他のタイプの画像）が、組織をほとんど又は全く含まない画像の（１又は複数の）空き領域を含むことができ、従ってスライドの領域がいずれかの組織を含むかどうかを評価するためにいわゆる「組織検出」法又は「異物検出」法を導入することが有用である。より一般的には、大型画像を分類することが目的である場合、このことは、画像内の関心領域を識別してこれらを背景領域と区別することに関連する。これらの関心領域は、分類プロセスのための貴重な情報を含む画像の領域であり、背景領域は、貴重な情報をほとんど又は全く含まない画像の領域であり、目下のタスクのためのノイズとみなすことができる。このタスクを実現するために、様々な異なるタイプの画像セグメンテーションスキームを使用することができる。例えば、１つの実施形態では、画像の強度ヒストグラムに基づく単純な閾値法である大津の手法を使用して画像をセグメント化することができる。この実施形態では、画像が、例えば前景ピクセル及び背景ピクセル、或いはより具体的には組織及び非組織などの二峰性分布に従う２つのクラスのピクセルを含む場合に、大津の手法を使用して画像をセグメント化することによってかなり良好な結果が示された。しかしながら、この方法は、強度レベルのヒストグラムが二峰性分布を有すると仮定できない場合、複雑な画像に対しては上手く実行されないことが分かっている。このため、方法の全体的効率性を高めるために、よりロバストな手法を使用することが必要とされる。

別の実施形態では、画像セグメンテーションのロバスト性を高めて複雑な画像に対処できるようにするために、Ｕ－ＮＥＴセマンティックセグメンテーションニューラルネットワーク、ＳｅｇＮｅｔ、ＤｅｅｐＬａｂ又は別のタイプのセマンティックセグメンテーションニューラルネットワークなどのセマンティックセグメンテーションニューラルネットワークを使用して画像をセグメント化することができる。この実施形態では、強度ヒストグラムの特定の分布に依存しないセマンティックセグメンテーションニューラルネットワークを使用することができる。さらに、このようなニューラルネットワークを使用すると、ＲＧＢ画像などのマルチチャンネル画像を考慮した画像セグメンテーションが可能になる。従って、セグメンテーションは、ピクセル強度のヒストグラムのみに依存するのではなく、画像のセマンティクスを活用することもできる。１つの実施形態では、セマンティックセグメンテーションニューラルネットワークが、組織を背景からセグメント化して、例えば染色組織又は未染色組織を背景から区別するように訓練される。別の実施形態では、セマンティックセグメンテーションニューラルネットワークを、異なるタイプの画像についてそのタイプの画像の前景を背景から区別するように訓練することができる。

さらなる実施形態では、画像セグメンテーションステップの計算コストを下げるために、オリジナル画像をダウンサンプリングすることができる。以下でさらに説明するように、１つの実施形態では、画像解析の一部が（画像のサブセクションである）タイルレベルで実行され、画像のダウンサンプリングバージョンに対してセマンティックセグメンテーションを使用してもセグメンテーションの品質が低下しない。これにより、セグメンテーションの品質を実際に低下させることなくダウンサンプリング画像を使用することができる。この結果、オリジナルの最大解像度画像でのセグメンテーションマスクを取得するには、ニューラルネットワークによって生成されたセグメンテーションマスクを単純にアップスケーリングすればよい。

別の実施形態では、Ｕ－ＮＥＴセグメンテーションニューラルネットワークを使用する別の利点として、このネットワークタイプが生物医学的画像セグメンテーションのために開発されたものであり、従って非常に高い次元性の小規模データセットを有することという生物医学的データの通常の制約に適合する点が挙げられる。実際に、Ｕ－ＮＥＴセグメンテーションニューラルネットワークは訓練すべきパラメータが少ないモデルであり、少ない訓練例で訓練することができる。さらに、別の実施形態では、訓練データに対してデータ補強技術を使用すると、このアーキテクチャでは同じ訓練セットからより多くの訓練例を得られることを可能にする非常に良好な結果を得ることができる。

プロセス３００は、ブロック３０６において画像を画像タイルセットにタイル化する。１つの実施形態では、プロセス３００が、タイル化を使用して画像を前処理する能力を高める。例えば、１つの実施形態では、病理組織学的解析では全スライド画像のサイズが大きいため、タイル化法を使用することが有用である。さらに広く見れば、病理組織学的スライド画像又は衛星画像などの特殊な画像、或いはその他のタイプの大型画像を取り扱う際には、これらの分野で使用されるイメージセンサの解像度が、センサに関連するランダムアクセスメモリの容量と同じぐらいに素早く成長することがある。この大きな画像サイズでは、コンピュータのランダムアクセスメモリ内に画像群を保存することが困難であり、場合によっては１つの画像を保存することさえも困難である。これらの大型画像をグラフィックプロセッシングユニット（ＧＰＵ）の専用メモリに保存しようと試みる場合には、この困難性がさらに悪化する。この状況では、画像スライド又は他のいずれかの同様のサイズの画像を全体的に処理することが計算的に解決困難になる。

１つの実施形態では、プロセス３００が画像（又は関心領域）をタイル化するにより、オリジナル画像（又は関心領域）をタイルと呼ばれる管理が容易な小型画像に分割することによってこの課題に対処する。１つの実施形態では、全スライド画像に固定グリッドを適用し、セグメンテーション法によって生成されたセグメンテーションマスクを使用し、後の分類プロセスのために組織又は他のいずれかの種類の関心領域を含むタイルを選択することによってタイル化動作が実行される。さらには、処理すべきタイルの数を減少させるために、一定数のスライドのみを保持するランダムサブサンプリングなどのさらなる選択法を使用することができる。

例えば、１つの実施形態では、プロセス３００が、関心領域を（例えば、各タイルが２２４×２２４ピクセルのサイズを有する）固定サイズのタイルに分割する。或いは、タイルサイズはこれより小さく又は大きくすることもできる。この例では、生成されるタイルの数が検出された異物のサイズに依存し、数百個のタイルから５０，０００個又はそれを上回る数のタイルまで変動することができる。１つの実施形態では、タイルの数が、少なくとも計算時間及びメモリ要件に基づいて設定できる固定数（例えば、１０、０００タイル）に制限される。

また、プロセス３００は、グリッドによって生成されたタイルにズームレベルを適用することができ、ここでは全てのタイルが同じ寸法を有するようにズーム動作が適合される。ズームの選択は、詳細とコンテキストとの間のトレードオフであり、ズームレベルを高くすれば、プロセス３００がタイル内のより詳細な情報を抽出できるのに対し、ズームレベルを低くすれば、選択領域のコンテキストが保持される。プロセス３００は、複数のズームレベルから恩恵を受けるために複数のズームレベルでタイルを抽出して、モデルが所与のスライドからより多くの情報を抽出できるようにする。これらの複数のズームレベルは、同じ中心位置を有する異なるズームレベルの複数のタイルを連結することによって組み合わせることができる。

プロセス３００は、ブロック３０８においてタイルセットから特徴ベクトルを抽出する。１つの実施形態では、特徴抽出が、入力画像から形成されたタイルから情報的かつ非冗長であるように意図された派生値を構築して後続の学習及び一般化ステップを容易にすることを目的とする。１つの実施形態では、抽出される特徴が、局所記述子とも呼ばれる数値ベクトルの形態である。

１つの実施形態では、プロセス３００が、ＲｅｓＮｅｔベースのアーキテクチャ（ＲｅｓＮｅｔ－５０、ＲｅｓＮｅｔ－１０１、ＲｅｓＮｅｔＸなど）、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ（ＶＧＧ）ニューラルネットワーク、Ｉｎｃｅｐｔｉｏｎニューラルネットワーク、教師なしの特徴抽出のためのオートエンコーダ、タスクのために特別に設計されたカスタムメイドニューラルネットワーク、或いはＳＩＦＴ又はＣｅｌｌＰｒｏｆｉｌｅｒなどの非ニューラルネットワーク特徴抽出器などのいずれかの特徴抽出ニューラルネットワークを使用することができる。さらに、使用される特徴抽出ニューラルネットワークは、大規模データセットについて訓練されたものであるため最適な一般化精度を有するという理由で、事前学習済みのものとすることができる。

１つの実施形態では、プロセス３００が、過度に多くの計算リソースを必要とすることなく画像解析に十分に適した特徴を提供できるという理由でＲｅｓＮｅｔ－５０ニューラルネットワークを使用する。例えば、１つの実施形態では、ＲｅｓＮｅｔ－５０を病理組織学的画像解析に使用することができる。この例では、層の数が多くなりすぎると単純な畳み込みニューラルネットワークのアーキテクチャの精度が最悪になってしまうため、ＲｅｓＮｅｔ－５０ニューラルネットワークが、ニューラルネットワークをより深くしてさらに精度を高めることができる残差ブロックに依拠する。１つの実施形態では、データセットＩｍａｇｅＮｅｔが真に汎用の画像データセットであるという理由で、ＲｅｓＮｅｔ－５０ニューラルネットワークの重みを、データセットＩｍａｇｅＮｅｔについての事前訓練からの特徴抽出に使用される重みとすることができる。１つの実施形態では、大規模な独立した画像データセットについて事前訓練されたニューラルネットワークを使用すると、たとえ病理組織学的画像（又は他のタイプの画像）のように入力画像が特殊なものである場合でも、画像の種類とは関係なく良好な特徴が得られる。この実施形態では、プロセス３００が、ＲｅｓＮｅｔ－５０畳み込みニューラルネットワークを使用してタイル当たり２，０４８個の特徴を抽出する。プロセス３００は、例えば１０，０００個のタイルを抽出した場合、２，０４８×１０，０００のマトリクスを生成する。さらに、プロセス３００は、入力としての多くの画像と共に実行されている場合、画像数×特徴／タイル数×タイル数の次元を有するテンソルを生成する。

１つの実施形態では、プロセス３００が、所与のスライドの特徴を抽出するために、選択されたタイルの各々を、そのタイルの特徴ベクトルを出力するＲｅｓＮｅｔ－５０ニューラルネットワークを通過するように処理する。この実施形態では、特徴ベクトルを次元２０４８のベクトルとすることができる。また、プロセス３００は、特徴ベクトルにオートエンコーダを適用してさらに次元低減を行い、例えば特徴ベクトルの次元を２５６（又は別の次元）に低減することができる。１つの実施形態では、機械学習モデルが過剰適合の影響を受けやすい場合にオートエンコーダを使用することができる。例えば、１つの実施形態では、プロセス３００が、２，０４８の長さの特徴ベクトルを５１２の長さの特徴ベクトルに低減することができる。この例では、プロセス３００が、（５１２ニューロンの）単一の隠れ層アーキテクチャを含むオートエンコーダを任意に使用することができる。これにより、モデルが訓練データセット内の複数の特異な特徴を発見することによって過剰適合することが防がれるとともに、計算時間及び必要なメモリも削減される。１つの実施形態では、分類モデルが画像タイルの小サブセットについて訓練され、例えば（合計４１１，４００個のタイルのうちの）各スライドからランダムに選択された２００個のタイルについて訓練される。

プロセス３００は、最小数の特徴を導出するために、任意に特徴ベクトルに対してゼロパディング動作(zero-padding operation)を実行することができる。この実施形態では、プロセス３００が、特徴ベクトルの数が特徴ベクトルの最小数を下回っている場合にゼロパディングを実行して、画像の特徴ベクトルセットに特徴ベクトルを追加することができる。この実施形態では、各ゼロパディングされた特徴ベクトルがヌル値を有する。

プロセス３００は、ブロック３１０において各タイルにスコア付けする。１つの実施形態では、プロセス３００が、接続されたニューラルネットワークのいずれかを使用して、各特徴ベクトルを１又は２以上のスコアに変換する。１つの実施形態では、プロセス３００が、全結合ニューラルネットワーク(fully connected neural network)を使用して特徴ベクトルを単一のスコアに変換し、或いは様々なスコアを出力する１つの全結合ニューラルネットワーク又はそれぞれが異なるスコアを出力する複数の全結合ニューラルネットワークを使用して、タイルの様々な特性を表す複数のスコアに変換することができる。１つのタイルに関連するこれらのスコアはソートされ、タイルのサブセットが画像分類のために選択される。１つの実施形態では、このタイルのサブセットを、上位Ｒ個のスコア及び下位Ｒ個のスコアを有するタイル、上位Ｒ個のスコアを有するタイル、下位Ｒ個のスコアを有するタイル、及び／又はこれらのスコアのいずれかの重み付けされた組み合わせとすることができる。最後に、これらのスコアは、画像分類のための入力とみなすことができる画像スコアベクトルに連結される。

例えば、１つの実施形態では、プロセス３００が、畳み込み１Ｄ層を使用して各タイルのスコアを作成することができる。上述した２，０４８の長さの特徴ベクトルを有する例では、この畳み込み層が、このスコアを取得するためにタイルの全ての２，０４８個の特徴間の加重和を実行し、この和の重みがモデルによって学習される。さらに、プロセス３００は、ゼロのバイアスを有する畳み込み１Ｄ層を使用するので、ゼロパディングタイルはゼロのスコアを有し、従ってゼロパディングタイルは、それぞれ全く情報をもたらさないタイルの参照である。プロセス３００は、最高及び最低のＲスコアを選別し、これらを後述する分類のための入力として使用する。このアーキテクチャは、予測を行うためにどのタイルが使用されるか、従ってプロセス３００がどのように結果を予測するかを確実にする。タイルスコアリングについては、以下の図４でさらに説明する。

プロセス３００は、ブロック３１２において、タイルスコアを使用して画像を分類して画像の１又は２以上のグローバルラベルを予測する。１つの実施形態では、プロセス３００が、所望の分類を提供する高密度多層ニューラルネットワーク(dense multilayer neural network)への入力として画像スコアベクトルを使用する。この分類は、分類器への入力として与えられたデータにラベルを関連付けるいずれかのタスクとすることができる。１つの実施形態では、病理組織学的スライド画像入力のために訓練された分類器を使用すると、前記入力データがパイプライン全体によって導出されるため、分類器は、法外な計算コストになる恐れがある全画像を処理する必要なく、入力として与えられた病理組織学的スライド又は他のいずれかの種類の画像にラベル付けすることができる。例えば、１つの実施形態では、これらのラベルを、所与の病状の予後を表す二値、生存率予測又は対治療反応予測などのスコア、確率又は物理量の予測を表す数値ラベル、及び／又は上述したようなスカラーラベル、又は構造化された情報を表すこのようなラベルのベクトル、マトリックス又はテンソルなどのいずれかの種類のラベルとすることができる。例えば、１つの実施形態では、プロセス３００が、中皮腫の病理組織学的入力画像の分類として連続リスクスコアを出力し、これを使用して被験者の推定生存期間を決定することができる。この例では、個々の被験者の推定生存期間を決定するために、既知の生存期間の複数の中皮腫被験者から導出された同様のリスクスコアに対して異なる被験者の異なる連続出力スコアをプロットすることができる。１つの実施形態では、プロセス３００が、シグモイド活性化を含む２００ニューロン及び１００ニューロンの２つの全結合層を有する多層パーセプトロン（ＭＬＰ）を使用する。この実施形態では、ＭＬＰが、タイルスコアを（１又は複数の）ラベルに変換する予測アルゴリズムのコアとして使用される。１つの実施形態では、プロセス３００が画像の単一のラベル（例えば、リスクスコア）を予測し、別の実施形態では、プロセス３００が画像の複数のグローバルラベルを予測することができる。１つの実施形態では、プロセス３００が、マルチタスク学習を実行して複数のグローバルラベルを予測することができる。例えば、１つの実施形態では、分類モデル（例えば、ＭＬＰ及び／又は他の箇所で説明する他のモデル）を、マルチタスク学習設定において同時に複数のラベル（例えば、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死、及び／又は他のタイプの予測）を予測するように訓練することができる。

図３から分かるように、画像は、ニューラルネットワークから生成された画像タイル特徴ベクトルから導出される少なくともタイルスコアセットに基づいて分類することができる。図４は、タイルセットにタイル化された画像にスコア付けするプロセス４００の一実施形態のフロー図である。１つの実施形態では、プロセス３００のブロック３１０などにおけるプロセスが、画像にスコア付けするプロセス４００を実行する。図４では、プロセス４００が、ブロック４０２においてタイルセットを受け取ることによって開始する。１つの実施形態では、このタイルセットが、図３のブロック３０６で生成されたタイルセットである。また、タイルセットは、タイルセット内の各タイルの特徴ベクトルを含む。プロセス４００は、ブロック４０４において、各タイルの関連する特徴ベクトルを使用して各タイルのタイルスコアを計算する。例えば、１つの実施形態では、プロセス４００が、畳み込み１Ｄ層を使用して各タイルのスコアを作成することができる。上述した２，０４８の長さの特徴ベクトルを有する例では、この畳み込み層が、このスコアを取得するためにタイルの全ての２，０４８個の特徴間の加重和を実行し、この和の重みがモデルによって学習される。さらに、畳み込み１Ｄ層は不偏的であるため、ゼロパディングタイルはゼロのスコアを有し、従って全く情報をもたらさないタイルの参照である。

プロセス４００は、ブロック４０６においてタイルセットをソートする。１つの実施形態では、プロセス４００が、以下のブロック４０８の上位Ｒ個及び／又は下位Ｒ個のスコアを決定するためにタイルセットをソートする。プロセス４００は、ブロック４０８においてタイルのサブセットを選択し、このタイルのサブセットは後の分類ステップに使用される。１つの実施形態では、このタイルのサブセットを、上位Ｒ_top個の最高スコア及び下位Ｒ_bottom個の最低スコア、上位Ｒ_top個の最高スコア、下位Ｒ_bottom個の最低スコア、及び／又はこれらのスコアのいずれかの重み付き結合(weighted combination)を含むタイルとすることができる。１つの実施形態では、Ｒ_top及び／又はＲ_bottomの値の範囲が同じであることも、又は異なることもできる。また、Ｒ_top及び／又はＲ_bottomの範囲は、静的数値範囲（例えば、１０、２０、１００、又は他の何らかの数値）、範囲に適合したもの、パーセンテージ、ラベル（例えば、小さい、大きい、又は他の何らかのラベル）、ユーザインターフェイスコンポーネント（スライダ、ユーザ入力、及び／又は別のタイプのユーザインターフェイスコンポーネント）を介して設定されたもの、及び／又は他の何らかの値であることができる。また、１つの実施形態では、プロセス４００が、これらのスコアを、画像分類のための入力とみなすことができる画像スコアベクトルに連結する。

１つの実施形態では、病理組織学のホールスライド画像（又はスライド）を検討する際に、様々な染色で、同じ試料の様々な場所で、複数の臓器から、又は様々な時点で撮影された複数のスライドに患者（又は被験者）を関連付けることができる。この実施形態では、１人の患者からのスライドを複数の方法で集約することができる。１つの実施形態では、プロセス３００が、通常のスライドと同一又は同様の方法（セグメンテーション、タイル化、特徴抽出及び分類）で処理されるより大きなスライドを形成するためにスライドを連結することができる。

さらなる実施形態では、プロセス３００が、複数のスライドを３次元画像として取り扱うことができる。このことは、スライドが同じ組織の複数の連続スライスである場合にとりわけ有用である。この場合、所与のスライドセットから最大限の情報を得るために、特徴抽出ステップに３Ｄ畳み込みニューラルネットワーク（ＣＮＮ）を使用することができる。さらに、セグメンテーション、タイル化及び特徴抽出ステップを複数のスライドに適用し、分類器使用の入力次元と一致するように一定数の特徴のみを保持することにより、選択される特徴を、例えば各タイルのＮ個の最大特徴及びＭ個の最小特徴とすることができる。この手法は、組み立てられる複数のスライドが同じスライドのバッチではあるが様々な染色を使用している場合に特に適している。

別の実施形態では、プロセス３００が、画像上又は特徴上で計算された距離メトリックに従って近くのタイルをクラスタリングし、これらの関連する特徴ベクトルの平均、最大値又は加重和を計算することによって特徴ベクトルを集約することができる。これにより、プロセス３００は、多数のタイル（例えば１０，０００タイル）から開始してこれらを少数のクラスタ（例えば２００）に集約することによって問題の次元性を大幅に低減することができ、これによって計算時間が減少するだけでなく過剰適合も減少して、モデルに与えられる一般化誤差が良好になる。具体的に言えば、集約すべきタイルを選択するための良好な距離メトリックは、例えばスライド上の１ｍｍ²のパッチに含まれる全てのタイルを集約する全スライド画像におけるユークリッド距離である。

別の実施形態では、スライドが、特徴抽出ステップを適用すべき、従って分類器に特徴を供給すべきタイルを抽出するのに十分な有用な組織を含んでいないこともある。この場合、分類器の入力はゼロパディングされ、すなわち欠けているタイル毎に、特徴抽出器によって計算された実際の特徴にゼロのみから成る特徴が追加される。

上述したように、１つの画像分類例は、病理組織学的画像を分類するためのものである。この例では、計算されるラベルが、入力された病理組織学的スライド画像に基づく患者の予測値である。図５は、病理組織学的画像分類のための分類システム５００の説明図である。図５では、分類システム５００が、タイル化機能５０２と、タイルサンプリング機能５０４と、特徴抽出機能５０６と、タイルスコアリング機能５０８と、タイルソート機能５１０と、分類（ここでは生存率予測）機能５１２とを含む。１つの実施形態では、タイル化機能５０２が全スライド画像５１４を受け取って前処理済みタイルセット５１６を出力する。この実施形態では、画像のタイル数を１０，０００タイルのオーダーとすることができる。さらなる実施形態では、画像のタイル数をこれより多く又は少なくすることもできる。１つの実施形態では、計算の複雑性を抑えるために、分類システム５００が、ニューラルネットワーク計算において使用されるタイル５１８の数を減少させるようにタイル５０４をサンプリングする。１つの実施形態では、分類システム５００が、タイル５０４をランダムに又は他の何らかのタイプのサンプリング機構でサンプリングする。例えば、１つの実施形態では、分類システム５００が、タイル５０４をランダムにサンプリングして、タイルの数を１０、０００タイルのオーダーから数千タイル（例えば、３０００タイル）のオーダーまで減少させる。

１つの実施形態では、分類システム５００が、サンプリングされたタイルに対して特徴抽出機能５０６を実行する。この実施形態では、分類システム５００が、局所記述子の行列５２０をもたらす畳み込みニューラルネットワークを使用して（例えば、ＲｅｓＮｅｔ－５０、又は上述した別のタイプの特徴抽出機構を使用して）、サンプリングされたタイル上の特徴を抽出する。さらに、１つの実施形態では、分類システム５００が、少なくともタイル特徴ベクトル５０８に基づいてタイルにスコア付け（５２２）する。この実施形態では、分類システム５００が、１Ｄ畳み込みニューラルネットワークを使用して各画像タイルのスコアを生成する。分類システム５００は、タイルスコア５１０をさらにソートし、ソートされたタイルは、予測生存率５１２を生成するためにＭＬＰリグレッサによって使用される。１つの実施形態では、分類システム５００によって実行されるこれらの機能の各々が、図３で上述した機能と同一又は同様のものである。

１つの実施形態では、調査員がタイルの選択を使用して、画像内のパターンと、画像に関連する、又は画像に関連するエンティティ（例えば、患者、衛星画像又は風力タービン画像の被写体など）に関連する、関連するグローバルラベルとの間の相関関係を決定することができる。この実施形態では、調査員が、特定のタイプの画像について、既知の（又は未知の）ラベルを有する画像から選択されたタイルを再検討して相関関係を決定することができる。例えば、１つの実施形態では、調査者が、プロセス３００によって処理された病理組織学的画像から選択されたタイルを再検討し、選択されたタイルと生存期間を示す対応する画像ラベル又はその他の対応するデータとを比較して、生存期間と選択されたタイルによって示される病理組織学的画像特徴との間の傾向を発見し又は相関させることができる。

上述したように、１つの実施形態では、この方法を病理組織学的画像解析において使用されるように示しており、このタスクは病理学者の疾患検出タスクを支援することができる。一方で、プロセス３００及び／又は４００は、画像全体に対して分類器を実行することが計算的に解決困難ないずれかのタイプの画像処理問題に適合することもできる。このような使用事例の１つは、例えば衛星画像からの高解像度を分類するためのものである。この例では、セマンティックセグメンテーションニューラルネットワーク及び分類器（例えば、ＭＬＰリグレッサ及び／又は（１又は複数の）他のモデル）が高解像度衛星画像を分類するように訓練される。

上述したように、プロセス３００は、（１又は複数の）訓練モデルを使用して各入力画像の（１又は複数の）ラベルを決定する。１つの実施形態では、プロセス３００が、画像セグメンテーション、畳み込みニューラルネットワークのスコアリング、及び分類のために訓練モデルを使用する。この実施形態では、これらの訓練モデルの各々が、特定のカテゴリの画像（例えば、病理組織学的画像スライド、衛星画像、及び／又は他のタイプの画像カテゴリ）のために訓練される。さらなる実施形態では、図３で使用されるモデルの一部がエンドツーエンドで訓練され、これらのモデルが共に訓練される。この実施形態では、画像を分類するために使用されるＭＬＰ、及びタイルにスコア付けするために使用される１次元畳み込みニューラルネットワークなどの、図３で使用されるモデルの一部を共に訓練することができる。また、図３で使用される他のモデルは、異なる訓練セット（例えば、ＲｅｓＮｅｔモデル、Ｕ－ＮＥＴ、及び／又は他のタイプのモデル）について別個に訓練することもできる。図６は、分類モデルを訓練して検証するプロセス６００の一実施形態のフロー図である。１つの実施形態では、分類モデルが、図３で説明した分類プロセスに使用される１又は２以上の個別モデル（例えば、ＭＬＰ及び／又は１次元畳み込みニューラルネットワーク）を含むことができる。図６では、プロセス６００が、ブロック６０２において訓練画像セットを受け取ることによって開始する。１つの実施形態では、訓練画像セットが、特定のカテゴリの画像の分類モデル（及び／又はプロセス３００において使用される他のモデル）を訓練するために使用される。例えば、１つの実施形態では、画像セットを、癌などの特定のタイプの疾患に関連してラベル付けされた病理組織学的スライド画像とすることができる。プロセス６００は、ブロック６０４においてモデルを受け取る。１つの実施形態では、このモデルが、ＭＬＰモデル及び上述した（１又は複数の）他のモデルなどの分類モデルである。

プロセス６００は、処理ループ（ブロック６０６～６１０）を実行して、訓練画像セットの特徴ベクトルセットを生成する。プロセス６００は、ブロック６０８において訓練セット内の画像の特徴ベクトルを抽出する。１つの実施形態では、プロセス６００が、図３で上述したように特徴ベクトルを抽出する。例えば、１つの実施形態では、プロセス６００が、図３で上述したように、ＲｅｓＮｅｔ－５０畳み込みニューラルネットワークを使用して、タイル化されたセグメント画像の各タイルの特徴ベクトルを決定する。１つの実施形態では、プロセス６００が、訓練画像の特徴ベクトルセットを生成する。また、プロセス６００は、方法の訓練中にデータ拡張(data augmentation)を実行して一般化誤差を改善することができる。このデータ拡張は、回転、並進、クロッピング、画像へのノイズ追加、特定の色の強度変更、コントラスト変更などの様々な変換をタイルに適用することによって行うことができる。プロセスループは６１０において終了する。

プロセス６００は、ブロック６１２において、訓練画像セットの抽出された特徴ベクトル及び訓練画像セットの入力ラベルを使用して（１又は複数の）モデルを訓練する。１つの実施形態では、プロセス６００が、訓練画像セットのラベルを使用して１次元畳み込みニューラルネットワーク及びＭＬＰ分類モデルを共に訓練する。この実施形態では、プロセス６００が、訓練画像のスコアセットを計算し、ラベルを予測し、予測されたラベルと入力ラベルとの間の差分を決定し、差分に基づいて（１又は複数の）モデルを最適化する（例えば、（１又は複数の）モデルの新たな重みを計算する）ことによって、差分が閾値内になるまで（１又は複数の）モデルを反復的に訓練する。１つの実施形態では、プロセス６００が、画像の単一のラベル（例えば、リスクスコア）を予測するようにモデルを訓練するが、別の実施形態では、プロセス６００を、画像の複数のグローバルラベルを予測するように訓練することもできる。１つの実施形態では、プロセス６００を、マルチタスク学習を実行して複数のグローバルラベルを予測するように訓練することができる。例えば、１つの実施形態では、分類モデル（例えば、ＭＬＰ及び／又は他の箇所で説明した他の（１又は複数の）モデル）を、マルチタスク学習設定において同時に複数のラベル（例えば、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死、及び／又は他のタイプの予測）を予測するように訓練することができる。プロセス６００は、訓練の妥当性を判定するために、ブロック６１４において分類モデルを検証する。検証については図７でさらに説明する。

図６では、プロセス６００が、画像を分類するために使用される分類モデルを訓練した。分類モデルがどれほど良好であるかについては、訓練画像セットを入力として使用して分類モデルを検証し、１又は２以上のラベルを計算することによってチェックすることができる。図７は、分類モデルを検証するプロセスの一実施形態のフロー図である。図７では、プロセス７００が、ブロック７０２において検証画像セット(validation image set)を受け取ることによって開始する。１つの実施形態では、検証画像セットが訓練セットと同じものである。別の実施形態では、検証セットが訓練画像セットと異なることができる。例えば、実施形態では、特定のタイプの画像（例えば、特定の疾患の病理組織）のラベル付けされた画像セットが、モデルの訓練において使用できるように選択されたいくつかの画像、及び訓練モデルの検証に使用できるこのセットの他の画像を有することができる。プロセス７００は、ブロック７０４において、検証画像セットを分類するために使用されるモデルを受け取る。１つの実施形態では、このモデルが、ＭＬＰモデル及び／又は他の箇所で説明した他の（１又は複数の）モデルなどの分類モデルである。

プロセス７００は、処理ループ（ブロック７０６～７１４）を実行して検証画像セットの画像ラベルセットを生成する。プロセス７００は、ブロック７０８において、検証画像セット内の画像の特徴ベクトルを抽出する。１つの実施形態では、プロセス７００が、図３で上述したように特徴ベクトルを抽出する。例えば、１つの実施形態では、プロセス７００が、図３で上述したように、ＲｅｓＮｅｔ－５０畳み込みニューラルネットワークを使用して、タイル化されたセグメント画像の各タイルの特徴ベクトルを決定する。１つの実施形態では、プロセスが、検証画像セットの特徴ベクトルセットを生成する。プロセス７００は、ブロック７１０において、特徴ベクトルセットを使用して検証画像セットのスコアセットを生成する。１つの実施形態では、プロセス７００が、図４で上述したように畳み込み１Ｄ層を使用して画像のスコアセットを生成して各タイルのスコアを作成する。この実施形態では、プロセス７００が画像のタイルのサブセットを選択し、このタイルのサブセットがタイルスコアを生成するために使用される。さらに、プロセス７００は、ブロック７１２において、訓練された分類モデルを使用して各画像を分類する。１つの実施形態では、プロセス７００が、シグモイド活性化を含む２００ニューロン及び１００ニューロンの２つの全結合層を有する多層パーセプトロン（ＭＬＰ）を使用して検証画像セットの画像を分類する。プロセスループは７１６において終了する。

プロセス７００は、検証画像セットの分類を使用して、生成された分類と検証画像セット内の画像の既知の分類とを比較して、この種の画像セットに使用される（１又は複数の）モデルの精度を決定することができる。１つの実施形態では、ラベル間の差分又は距離を比較するいずれかのタイプのメトリックを使用することができる。例えば、１つの実施形態では、予測タスクがバイナリタスクである場合、プロセス７００が、受信者操作特性曲線(receiver operating characteristic curve)（ＲＯＣ－ＡＵＣ）下面積を使用して、生成された分類と検証画像セット内の画像の既知の分類との間の比較を決定することができる。別の実施形態では、バイナリラベルが不均衡である場合、プロセス７００が、精度リコール曲線(precision recall curve)（ＰＲ－ＡＵＣ）下面積を使用して、生成された分類と検証画像セット内の画像の既知の分類との間の比較を決定することができる。別の実施形態では、生存率を予測する場合、プロセス７００が、コンコーダンスインデックス(concordance index)（ｃ－ｉｎｄｅｘ）を使用して、データ点の予測されるリスク順と既知の順序との間の比較を決定することができる。

前処理デバイス１０２及び／又は分類デバイス１０８は、図１で上述したように画像のラベルを予測することに加えて、その画像のタイルスコアに基づいて画像の比較対象領域をさらに抽出することができる。この実施形態では、最小又は最大スコアを有する１又は２以上のタイルと同様の（例えば、視覚的に同様の）タイルが存在することができるので、この比較対象領域は、図３で説明したような関心領域とは異なる。例えば、１つの実施形態では、比較対象領域のタイルを、平均スコア（例えば、その画像の計算されたタイルスコアの最小又は最大スコアではないスコア）を有していて最大又は最小スコアのタイルからのタイルに類似するタイルとすることができる。図８は、画像から比較対象領域を抽出するプロセス８００の一実施形態のフロー図である。図８では、プロセス８００が、ブロック８０２において画像及び（１又は複数の）モデルを受け取ることによって開始する。１つの実施形態では、画像が、（１又は複数の）モデルによって分類できる画像（例えば、病理組織学的画像、衛星画像など）であり、（１又は複数の）モデルは比較対象領域を選択するために使用される。この実施形態では、モデルが、図３で上述したように画像をセグメント化し、特徴ベクトルを抽出し、及び／又は特徴ベクトルにスコア付けするために使用されるモデルを含むことができる。プロセス８００は、ブロック８０４において画像をセグメント化する。１つの実施形態では、プロセス８００が、図３のブロック３０４で説明したように画像をセグメント化する。プロセス８００は、ブロック８０６において画像をタイル化する。１つの実施形態では、プロセス８００が、図３のブロック３０６で説明したように画像をタイル化する。プロセス８００は、ブロック８０８において画像の特徴ベクトルを抽出する。１つの実施形態では、プロセス８００が、図３のブロック３０８で説明したように各画像タイルの特徴ベクトルを抽出する。プロセス８００は、ブロック８１０において、抽出された特徴ベクトルを使用して画像タイルにスコア付けする。１つの実施形態では、プロセス８００が、図３のブロック３１０で説明したように画像タイルにスコア付けする。処理ループはブロック８１２において終了する。

プロセス８００は、ブロック８１４において、少なくともタイルスコアを使用して画像タイルを選択する。１つの実施形態では、このタイルが比較対象領域を決定するために使用される。１つの実施形態では、プロセス８００が、少なくともタイルスコアとタイルスコアのランクとに基づいてタイルを選択する。この実施形態では、プロセス８００が、スコアの上位数（Ｒ_top）及び／又は下位数（Ｒ_bottom）を選択することができる。１つの実施形態では、Ｒ_top及びＲ_bottomが最高及び最低のタイルスコアを表す。１つの実施形態では、Ｒ_top及び／又はＲ_bottomの値の範囲が同じであることも又は異なることもできる。また、Ｒ_top及び／又はＲ_bottomの範囲は、静的数値範囲（例えば、１０、２０、１００、又は他の何らかの数値）、範囲に適合したもの、パーセンテージ、ラベル（例えば、小さい、大きい、又は他の何らかのラベル）、ユーザインターフェイスコンポーネント（スライダ、ユーザ入力、及び／又は別のタイプのユーザインターフェイスコンポーネント）を介して設定されたもの、及び／又は他の何らかの値であることができる。或いは、プロセス８００は、タイルスコアの第１の閾値を上回る又は第２の閾値タイルスコアを下回る１又は２以上のタイルのセットを選択することができ、第１の閾値は同じであることも又は異なることもできる。さらなる実施形態では、プロセス８００が、少なくとも対応するタイルスコアから導出された確率に基づいて１又は２以上のタイルをランダムに選択する。この実施形態では、少なくとも対応するタイルスコアから導出された確率に基づくランダム選択を使用することで外れタイルスコアを有するタイルの選択が可能になるということが、上位Ｎ個又は下位Ｎ個のタイルスコアを有するタイルを厳密に選択するのではなく、より高いスコア又は低いスコアを有するタイルを選択する確率が高くなることを意味する。

プロセス８００は、ブロック８１６において比較対象領域を抽出する。１つの実施形態では、プロセス８００が、上記ブロック８１４からの選択された（１又は複数の）タイルを使用して、平均スコアを有する選択された（１又は複数の）タイルに関連する、距離メトリックに従って選択されたタイルのうちの少なくとも１つに視覚的に近い比較対象領域を抽出する。例えば、１つの実施形態では、２つのタイル間の視覚的近接性(visual proximity)を評価するためにプロセス８００が使用する距離メトリックを、２つのタイルの抽出された特徴上で計算されるＬ２ノルム、及び／又はこれら２つのタイル上で計算されるＬ２ノルムとすることができる。

上述したように、分類及びタイル選択に使用されるモデルは、専門家（例えば、病理学者）によって行われる画像のローカルアノテーションを必要とせず又は使用しない。別の実施形態では、画像内にローカルアノテーションが存在する場合、これらのローカルアノテーションを使用して（１又は複数の）モデルの予測的使用を改善することができる。従って、１つの実施形態では、スライドの領域における腫瘍の存在などのローカルアノテーションが利用可能である場合、ハイブリッド技術を使用してこれらのアノテーションを考慮することができる。これを行うために、デバイスは、（１）各タイル上の巨視的特性の存在（例えば、腫瘍又は他のタイプの巨視的特性の存在）のローカル予測、及びグローバルラベルセットの予測という２つの同時タスクのために機械学習モデルを訓練することができる。デバイス（又は複数のデバイス）は、一方では図３で上述した分類システムを含む複雑なアーキテクチャを使用して１２８個の特徴セットを処理することができる。デバイスは、他方では畳み込みニューラルネットワークを適用して、Ｎ個のタイルの特徴をＮ＊１２８個の特徴ベクトルに変換する。デバイスは、このベクトルに基づいて、各タイルについて腫瘍の有無などのローカルアノテーション情報を予測するように畳み込みニューラルネットワークを訓練する。デバイスは、予測の出力及びＮ＊１２８個の特徴ベクトルの両方を採用し、これらの２つのベクトルの連結に重み付きプーリング演算を適用して、入力画像の１２８個の特徴ベクトルを取得することができる。デバイスは、分類モデルの出力と取得された１２８個の特徴とを連結し、このベクトルに基づいて、その画像のグローバルラベルセット（例えば、生存率、腫瘍サイズ、壊死及び／又は他のタイプの予測）を予測しようと試みる。モデルの損失は、グローバル予測及びローカル予測の両方を含む。この実施形態では、ローカルアノテーションに由来する情報を計算フローに追加することによって、全体的なモデルの性能を高めることができる。

図９は、分類モデル及びローカルアノテーションを使用して画像を分類するシステム９００の一実施形態のブロック図である。図９では、システム９００が、スライドレベル処理９３２及びタイルレベル処理９３０の両方を使用することができる。１つの実施形態では、タイルレベル処理９３２が、システム９００全体のグローバルラベル予測を改善するためにローカルアノテーションを使用してタイルを処理する。１つの実施形態では、タイルレベル処理９３２が、図３で上述したようにタイル及び特徴ベクトルを処理する。さらに、スライドレベル処理９３０及びタイルレベル処理９３２の各々の結果を組み合わせてさらに処理して、後述する様々な予測を決定することができる。

１つの実施形態では、システム９００が、タイル化動作及び特徴ベクトル生成動作を使用して入力画像から導出されたＮ個のタイル及び対応する特徴ベクトルセットを有する画像を受け取る。例えば、１つの実施形態では、システム９００が、図３で上述したように生成されたタイル化画像及び対応する特徴ベクトルセットを受け取る。１つの実施形態では、システム９００が、各特徴ベクトルにつき２５６個の特徴の特徴ベクトルセットを有するＮ個のタイルを受け取り、別の実施形態では、特徴ベクトルセットがこれより少ない又は多い数の特徴を有する特徴ベクトルを含むことができる。さらに、システム９００は、特徴ベクトルセットをスライドレベル処理９３０及びタイルレベル処理９３２に送信する。この実施形態では、タイルレベル処理９３２のための各特徴ベクトルが、２５６個の特徴から１２８個の特徴に低減される。１つの実施形態では、１次元畳み込みニューラルネットワーク９１６を使用することによって特徴ベクトルが低減される。この実施形態では、この１次元畳み込みニューラルネットワーク９１６を使用して各タイルの興味深い特徴を抽出する。１次元畳み込みニューラルネットワーク９１６は、１回適用することも、複数回適用することも、又は全く適用しないこともできる。１つの実施形態では、特徴ベクトル当たりの特徴数が半分に低減され、別の実施形態では、特徴ベクトルの数が変化せず、異なる量だけ減少し、及び／又は増加することができる。さらなる実施形態では、システム９００が、１次元畳み込みニューラルネットワーク９２８を適用して各タイルの興味深い特徴を抽出した後に、特徴ベクトルセットをスライドレベル処理９３０に送信する。

１つの実施形態では、タイルレベル処理９３２が、上述した１次元畳み込みニューラルネットワーク９１６によって生成された特徴ベクトルセット９０８を受け取ることによって開始する。さらに、タイルレベル処理９３２は、ローカルアノテーションを使用して、第２の１次元畳み込みニューラルネットワークを特徴ベクトルセット９０８に訓練する。この実施形態では、次に第２の１次元畳み込みニューラルネットワークを使用して、ローカルアノテーション（例えば、各タイルにおける腫瘍の有無、他の巨視的な医学的特徴（例えば、炎症など）の存在、及び／又は他のタイプの特徴の存在）を含まない入力画像について、各タイルにおける巨視的特徴９１０の存在を予測することができる。タイルの一部又は全部にローカルアノテーションが存在する場合、利用可能なローカルアノテーションから得られる予測でＮ個の予測を補完又は置換することができる。例えば、１つの実施形態では、病理学者が画像上の腫瘍の部分的な又は完全な輪郭又は識別を決定した場合、各画像タイルの腫瘍の指示又は不在から対応するＮ個のタイルのＮ個の予測を導出することができる。ローカルアノテーションが存在しない場合には、この訓練された１次元畳み込みニューラルネットワークを使用してＮ個の予測を作成することができる。これらのＮ個の予測９１０は、Ｎ個の予測及び畳み込み特徴ベクトルセット９０８の加重ポーリングによって畳み込み特徴ベクトルセット９０８と組み合わせて新たな特徴ベクトル９１２を作成することができる。１つの実施形態では、新たな特徴ベクトル９１２が１２８個の特徴である。この実施形態では、重み付けプーリングを使用して、特徴ベクトルセット９０８をＮ個の予測９１０で重み付けする。別の実施形態では、新たな特徴ベクトル９１２が、これよりも多くの又は少ない数の特徴を有することができる。

同時に、スライドレベル処理９３０は、元々の特徴ベクトルセット９０２を受け取り、緻密層９２２を使用して図３で上述したような特徴ベクトル処理を実行して特徴セット９０６を生成する。１つの実施形態では、特徴ベクトルセット９０６が１２８個の特徴であり、別の実施形態では、特徴ベクトルセット９０６がこれよりも多くの又は少ない数の特徴を含むことができる。

１つの実施形態では、システムが、タイルレベル処理９３０によって生成された特徴ベクトル９１２、及びスライドレベル処理９３０によって生成された特徴ベクトル９０６という２つの異なる特徴ベクトルを有する。また、システムは、これらの２つの特徴ベクトルを結果として得られる特徴ベクトル９１４に連結することによってこれらの特徴ベクトルを組み合わせることができ、この結果として得られた特徴ベクトル９１４を使用して１又は２以上のグローバルラベル９２８を予測することができる。例えば、１つの実施形態では、医用画像スライドについて、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死、及び／又は他のタイプの予測などの１又は２以上のグローバルラベルを予測することができる。１つの実施形態では、スライドレベル処理９３０及びタイルレベル処理９３２の両方からの特徴ベクトルを使用することによって、結果として得られた特徴ベクトル９１４がローカルアノテーションからの影響を有することができ、これを予測に使用することができる。

上述したように、システム９００は、利用可能な場合にはローカルアノテーションを使用して（１又は複数の）分類モデルの予測能力をさらに改善することができる。図１０は、分類モデル及びローカルアノテーションを使用して画像を分類するプロセス１０００の一実施形態のフロー図である。図１０では、プロセス１０００が、ブロック１００２において、画像、ローカルアノテーション及びグローバルラベルを受け取ることによって開始する。１つの実施形態では、ローカルアノテーションを、入力画像における巨視的特徴の有無を記述し及び／又は示すことができるデータ及び／又はメタデータとすることができる。例えば、１つの実施形態では、ローカルアノテーションが、画像の特定の領域に腫瘍又は腫瘍様組織が存在することを示すことができる。プロセス１０００は、ブロック１００４において、画像をタイル化して特徴ベクトルセットを生成する。１つの実施形態では、プロセス１０００が、画像内の各タイルの特徴ベクトルを生成する。この実施形態では、特徴ベクトルの各々が２５６個の特徴を含むことができる。例えば、１つの実施形態では、プロセス１０００が、図３で上述したようにタイル及び特徴ベクトルを生成する。

この時点で、プロセス１０００は、スライドレベル処理及びタイルレベル処理のための２つの経路を取ることができる。スライドレベル処理では、プロセス１０００が、ブロック１００６において、（１又は複数の）分類モデルを適用して１２８個の特徴の特徴ベクトルを生成する。１つの実施形態では、プロセス１０００が、図３のブロック３０８で説明したように（１又は複数の）分類モデルを特徴ベクトルセットに適用する。実行は、以下のブロック１０１２に進む。

プロセス１０００は、ブロック１００８から開始してタイルレベル処理を実行する。プロセス１０００は、ブロック１００８において、各画像タイルのローカルラベルを予測する。１つの実施形態では、プロセス１０００が、１次元畳み込みニューラルネットワークを適用して２５６個の特徴ベクトルセットの興味深い特徴を抽出する。また、プロセス１０００は、ローカルアノテーションを使用して、各タイルの予測セットを生成するように第２の畳み込みニューラルネットワークを訓練することができる。プロセス１０００は、ブロック１０１０において、ローカル予測をモデルの特徴として使用する。この時点で、プロセス１０００は、ブロック１００８及び１０１０のタイルレベル処理から１２８個の特徴の特徴ベクトルを生成している。実行は、以下のブロック１０１２に進む。

プロセス１０００は、ブロック１０１２において、ブロック１００６及び１０１０からの特徴を組み合わせて２５６個の特徴の合成特徴ベクトルを作成する。１つの実施形態では、プロセス１０００が、ブロック１００６及び１０１０からの２つの特徴ベクトルを連結することによって合成特徴ベクトルを作成する。或いは、別の手段を使用して合成特徴ベクトルを作成することもできる。また、プロセス１０００は、ブロック１０１２において、合成特徴ベクトルを使用してグローバルラベルを予測する。１つの実施形態では、プロセス１０００が異なるグローバルラベル（例えば、医用画像スライドについて、生存率又は無病生存率、臨床データ、腫瘍サイズ、脈管浸潤、壊死及び／又はその他のタイプの予測）を予測することができる。１つの実施形態では、プロセス１０００が、図３のブロック３１０及び３１２で上述したようにタイルにスコア付けして予測を作成することによってグローバルラベルを予測する。

図１１に、本発明の一実施形態と共に使用できるデータ処理システム１１００の一例を示す。例えば、システム１１００は、上記の図１に示すように、前処理デバイス１０２及び／又は分類デバイス１０８を含んで実装することができる。なお、図１１にはコンピュータシステムの様々なコンポーネントを示しているが、コンポーネントを相互接続するいずれかの特定のアーキテクチャ又は方法は本発明に密接に関係するものではないため、このような詳細を表すことは意図していない。また、これよりも少ない又は多くのコンポーネントを有するネットワークコンピュータ及びその他のデータ処理システム又はその他の消費者向け電子機器も本発明と共に使用することができると理解されるであろう。

図１１に示すように、データ処理システムの形態のコンピュータシステム１１００は、（１又は複数の）マイクロプロセッサ１１０５、ＲＯＭ（リードオンリメモリ）１１０７、揮発性ＲＡＭ１１０９及び不揮発性メモリ１１１１に結合されたバス１１０３を含む。マイクロプロセッサ１１０５は、１又は２以上のＣＰＵ、ＧＰＵ、専用プロセッサ、及び／又はこれらの組み合わせを含むことができる。マイクロプロセッサ１１０５は、メモリ１１０７、１１０９、１１１１から命令を読み出し、これらの命令を実行して上述した動作を実行することができる。バス１１０３は、これらの様々なコンポーネントを相互接続するとともに、これらのコンポーネント１１０５、１１０７、１１０９、１１１１を、ディスプレイコントローラ及びディスプレイデバイス９１１１、並びにマウス、キーボード、モデム、ネットワークインターフェイス、プリンタ及び当業で周知の他のデバイスとすることができる入力／出力（Ｉ／Ｏ）デバイスなどの周辺デバイスにも相互接続する。通常、入力／出力デバイス９１５は、入力／出力コントローラ１１１３を通じてシステムに結合される。通常、揮発性ＲＡＭ（ランダムアクセスメモリ）１１０９は、メモリ内のデータをリフレッシュ又は維持するために継続的に電力を必要とするダイナミックＲＡＭ（ＤＲＡＭ）として実装される。

通常、大容量ストレージ１１１１は、システムから電力が除去された後でもデータ（例えば、大量のデータ）を維持する磁気ハードドライブ、磁気光学ドライブ、光学ドライブ、ＤＶＤＲＡＭ、フラッシュメモリ又はその他のタイプのメモリシステムである。通常は、大容量ストレージ１１１１もランダムアクセスメモリであるが、これは必須ではない。図１１には、大容量ストレージ１１１１がデータ処理システムの残りのコンポーネントに直接結合されたローカルデバイスであることを示しているが、本発明は、モデム、イーサネットインターフェイス又は無線ネットワークなどのネットワークインターフェイスを通じてデータ処理システムに結合されたネットワークストレージデバイスなどの、システムから離れた不揮発性メモリを利用することもできると理解されるであろう。バス１１０３は、当業で周知のような様々なブリッジ、コントローラ及び／又はアダプタを通じて互いに接続された１又は２以上のバスを含むことができる。

上述した内容の一部は、専用論理回路などの論理回路、マイクロコントローラ、又はプログラムコード命令を実行する他の形態のプロセッシングコアを使用して実装することもできる。従って、上記の説明によって教示されるプロセスは、命令を実行する機械に特定の機能を実行させる機械実行可能命令などのプログラムコードを使用して実行することもできる。この文脈における「機械」は、中間形態の（又は「抽象的な」）命令をプロセッサ固有命令（例えば、「仮想機械」（例えば、Ｊａｖａ仮想機械）、インタプリタ、共通言語ランタイム(Common Language Runtime)、高水準言語仮想機械などの抽象的実行環境）に変換する機械、及び／又は命令を実行するように設計された汎用プロセッサ及び／又は専用プロセッサなどの半導体チップ上に配置された電子回路（例えば、トランジスタと共に実装された「論理回路」）とすることができる。上記の説明によって教示されるプロセスは、（機械の代わりに又は機械と組み合わせて）プログラムコードの実行を伴わずにプロセス（又はその一部）を実行するように設計された電子回路によって実行することもできる。

本発明は、本明細書で説明した動作を実行する装置にも関する。この装置は、必要な目的のために特別に構築することも、コンピュータに記憶されたコンピュータプログラムによって選択的に起動又は再構成される汎用コンピュータを含むこともできる。このようなコンピュータプログラムは、以下に限定するわけではないが、それぞれがコンピュータシステムバスに結合された、フロッピーディスク、光ディスク、ＣＤ－ＲＯＭ及び光磁気ディスクを含むいずれかのタイプのディスク、リードオンリメモリ（ＲＯＭ）、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気又は光カード、又は電子命令を記憶するのに適したいずれかのタイプの媒体などのコンピュータ可読記憶媒体に記憶することができる。

機械可読媒体は、機械（例えば、コンピュータ）によって読み取ることができる形態で情報を記憶又は送信するいずれかの機構を含む。例えば、機械可読媒体は、リードオンリメモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイスなどを含む。

プログラムコードを記憶するには製造の物品を使用することができる。プログラムコードを記憶する製造の物品は、以下に限定するわけではないが、１又は２以上のメモリ（例えば、１又は２以上のフラッシュメモリ、ランダムアクセスメモリ（静的、動的又はその他））、光ディスク、ＣＤ－ＲＯＭ、ＤＶＤＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気又は光カード、或いは電子命令を記憶するのに適した他のタイプの機械可読媒体として具体化することができる。プログラムコードは、伝搬媒体の形で具体化されたデータ信号を介して（例えば、通信リンク（例えば、ネットワーク接続）を介して）、リモートコンピュータ（例えば、サーバ）から要求側コンピュータ（例えば、クライアント）にダウンロードすることもできる。

上述した詳細な説明は、コンピュータメモリ内のデータビットに対する演算のアルゴリズム及び記号的表現の観点から示したものである。これらのアルゴリズム的記述及び表現は、データ処理技術における当業者が自らの研究内容を他の当業者に最も効果的に伝えるために使用する手段である。ここでは、また一般的に、アルゴリズムとは、望ましい結果をもたらす首尾一貫した一連の演算であると考えられる。これらの演算は、物理量の物理的操作を必要とするものである。これらの量は、必ずというわけではないが、通常は、記憶、転送、合成、比較及び他の形の操作が可能な電気又は磁気信号の形を取る。主に共通使用という理由で、時にはこれらの信号を、ビット、値、要素、記号、文字、用語、番号などと呼ぶことが便利であると分かっている。

しかしながら、これらの及び同様の用語は、全て適切な物理量に関連付けられるべきものであり、またこれらの量に与えられた便利な表記に過ぎないことに留意されたい。上記の説明から明らかなように、特に別途述べていない限り、説明全体を通じて「セグメント化する（ｓｅｇｍｅｎｔｉｎｇ）」、「タイル化する（ｔｉｌｉｎｇ）」、「受け取る（ｒｅｃｅｉｖｉｎｇ）」、「計算する（ｃｏｍｐｕｔｉｎｇ）」、「抽出する（ｅｘｔｒａｃｔｉｎｇ）」、「処理する（ｐｒｏｃｅｓｓｉｎｇ）」、「適用する（ａｐｐｌｙｉｎｇ）」、「拡張する（ａｕｇｍｅｎｔｉｎｇ）」、「正規化する（ｎｏｒｍａｌｉｚｉｎｇ）」、「事前訓練する（ｐｒｅ－ｔｒａｉｎｉｎｇ）」、「ソートする（ｓｏｒｔｉｎｇ）」、「選択する（ｓｅｌｅｃｔｉｎｇ）」、「集約する（ａｇｇｒｅｇａｔｉｎｇ）」、「ソートする（ｓｏｒｔｉｎｇ）」などの用語を利用した説明は、コンピュータシステムのレジスタ及びメモリ内の物理（例えば、電子）量として表されるデータを操作し、コンピュータシステムのメモリ、レジスタ、又はその他のこのような情報記憶装置、送信又は表示装置内の物理量として同様に表される他のデータに変形させるコンピュータシステム又は同様の電子コンピュータ装置の動作及び処理を意味すると理解されたい。

本明細書で提示したプロセス及び表示は、本質的にいずれかの特定のコンピュータ又はその他の装置に関連するものではない。本明細書の教示に従うプログラムと共に様々な汎用システムを使用することもでき、或いは説明した動作を実行するために、より特殊化した装置を構成することが便利であると証明することもできる。以下の説明からは、これらの様々なシステムに必要な構造が明らかになるであろう。また、本発明は、いずれかの特定のプログラミング言語を参照して説明したものではない。本明細書で説明した本発明の教示を実施するために、様々なプログラミング言語を使用することができると理解されるであろう。

上述した説明は、本発明のいくつかの例示的な実施形態を説明したものにすぎない。当業者であれば、このような説明、添付図面及び特許請求の範囲から、本発明の趣旨及び範囲から逸脱することなく様々な修正を行うことができると容易に認識するであろう。

５００分類システム
５０２タイル化
５０４タイルサンプリング
５０６特徴抽出
５０８タイルスコアリング
５１０タイルソーティング
５１２予測生存率
５１４全スライド画像及び真の生存率
５１６事前処理済みタイル（スライド当たり合計～１０，０００のタイル）
５１８サンプリング済みタイル（スライド当たり～３，０００のサンプリング済みタイル）
５２０局所記述子の行列（３，０００×２０４８のスカラー）
５２２タイルスコア（３，０００のスカラースコア）

Claims

入力画像を分類する方法であって、
第１の畳み込みニューラルネットワークを適用することによって、前記入力画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することと、
前記関心領域をタイルセットにタイル化することと、
各タイルについて、第２の畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
前記タイルセットの前記抽出された特徴ベクトルを処理して前記入力画像を分類することと、
を含む、方法。
前記第１の畳み込みネットワークは、前記入力画像の各ピクセルを関心領域及び背景領域の一方として分類するセマンティックセグメンテーションニューラルネットワークである、請求項１に記載の方法。
前記セマンティックセグメンテーションニューラルネットワークは、Ｕ－ＮＥＴ、セマンティックセグメンテーションのための完全畳み込みネットワーク、ＳｅｇＮｅｔ、及びＤｅｅｐＬａｂから成るグループから選択される、請求項２に記載の方法。
前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの各々は所定のサイズを有する、請求項１に記載の方法。
前記タイルセットにズームレベルが適用される、請求項１に記載の方法。
前記タイルセットに複数のズームレベルが適用され、異なるズームレベルの前記タイルセットが組み合わされる、請求項１に記載の方法。
前記タイル化は、前記タイルセットに対して動作を実行することによって前記タイルセットを拡張することをさらに含み、前記動作は、回転、並進、クロッピング、前記入力画像へのノイズの追加、１又は２以上の色の強度の修正、又は前記入力画像のコントラストの変更のうちの少なくとも１つである、請求項１に記載の方法。
前記タイル化は、前記タイルセットが前記入力画像毎に一定数のタイルを含むように、前記タイルセットのランダムサンプリング及びブランクタイルを用いた前記タイルセットのパディングの少なくとも一方を実行することによって、前記タイルセット内の複数のタイルを前記入力画像毎に正規化することをさらに含む、請求項１に記載の方法。
前記第２の畳み込みニューラルネットワークは、ＲｅｓＮｅｔタイプの残差ニューラルネットワーク、ＶＧＧニューラルネットワーク、教師なし特徴抽出のためのオートエンコーダ、及びＩｎｃｅｐｔｉｏｎニューラルネットワークから成るグループから選択された残差ニューラルネットワークである、請求項１に記載の方法。
前記第２の畳み込みニューラルネットワークの重みを別のデータセット及びタスクの少なくとも一方について事前学習することをさらに含み、前記第２の畳み込みニューラルネットワークから少なくとも１つの出力層が除去される、請求項１に記載の方法。
前記処理は、
各タイルについて、
前記抽出された特徴ベクトルから、前記入力画像の前記分類に対する前記タイルの寄与を表す、前記タイルに関連するスコアを計算することと、
前記タイルスコアのセットをソートすることと、
前記ソートされたタイルスコアのセット内のタイルの値及びランクの少なくとも一方に基づいて、前記タイルスコアのサブセットを選択することと、
前記画像を分類するために前記タイルスコアのサブセットに分類器を適用することと、
を含む、請求項１に記載の方法。
前記タイル化は、複数の画像のうちの異なる画像から対応するタイルのグループを集約することをさらに含み、前記複数の画像は前記入力画像を含む、請求項１に記載の方法。
前記タイル化は、前記入力画像又は特徴マップの少なくとも一方において計算された距離メトリックに従って、一定距離内の前記タイルセットからのタイルのクラスタを集約することをさらに含む、請求項１に記載の方法。
タイルのクラスタを集約することは、
前記タイルのクラスタ内のタイルを連結することと、
前記タイルのクラスタを前記特徴ベクトル抽出のための多次元オブジェクトとして使用して、少なくとも所与の基準に基づいて前記タイルのクラスタから単一のタイルを選択することと、
前記タイルのクラスタ内のタイルの前記特徴ベクトルの平均値を計算することと、
前記タイルのクラスタ内のタイルの前記特徴ベクトルの少なくとも最大値又は最小値を計算することと、
のうちの少なくとも１つを含む、請求項１３に記載の方法。
前記特徴ベクトル抽出は、前記特徴の前記次元性を低減するために前記抽出された特徴ベクトルに対してオートエンコーダを適用することをさらに含む、請求項１に記載の方法。
前記入力画像は病理組織学的スライドであり、前記関心領域は組織領域である、請求項１に記載の方法。
前記画像分類は、診断分類、生存率予測、及び治療に対する反応予測のうちの少なくとも１つを実行するために使用される、請求項１に記載の方法。
前記入力画像の前記分類は、少なくとも１種類のグローバルラベル及びローカルラベルを予測することを含む、請求項１に記載の方法。
前記抽出された特徴ベクトルの前記処理は、前記入力画像の前記分類のための追加情報を提供する抽出された特徴ベクトルから導出された特徴ベクトルの重み付き結合における重みとして組み込まれた、前記入力画像に関連する１又は２以上のローカルアノテーションを使用することを含む、請求項１に記載の方法。
前記入力画像の分類は、マルチタスク環境において複数のグローバルラベルを予測することを含む、請求項１に記載の方法。
入力画像を分類するための方法を１又は２以上の処理ユニットに実行させる実行可能命令を有する非一時的機械可読媒体であって、前記方法は、
第１の畳み込みニューラルネットワークを適用することによって、前記入力画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することと、
前記関心領域をタイルセットにタイル化することと、
各タイルについて、第２の畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
前記タイルセットの前記抽出された特徴ベクトルを処理して前記入力画像を分類することと、
を含む、、機械可読媒体。
前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの前記各々は所定のサイズを有する、請求項２１に記載の機械可読媒体。
前記タイル化は、前記タイルセットが入力画像毎に一定数のタイルを含むように、前記タイルセットのランダムサンプリング及びブランクタイルを用いた前記タイルセットのパディングの少なくとも一方を実行することによって、前記タイルセット内の複数のタイルを入力画像毎に正規化することをさらに含む、請求項２１に記載の機械可読媒体。
前記第２の畳み込みニューラルネットワークは、ＲｅｓＮｅｔタイプの残差ニューラルネットワーク、ＶＧＧニューラルネットワーク、教師なし特徴抽出のためのオートエンコーダ、及びＩｎｃｅｐｔｉｏｎニューラルネットワークから成るグループから選択された残差ニューラルネットワークである、請求項２１に記載の機械可読媒体。
前記第２の畳み込みニューラルネットワークの重みを別のデータセット及びタスクの少なくとも一方について事前学習することをさらに含み、前記第２の畳み込みニューラルネットワークから少なくとも１つの出力層が除去される、請求項２１に記載の機械可読媒体。
前記処理は、
各タイルについて、
前記抽出された特徴ベクトルから、前記入力画像の前記分類に対する前記タイルの寄与を表す、前記タイルに関連するスコアを計算することと、
前記タイルスコアのセットをソートすることと、
前記ソートされたタイルスコアのセット内のタイルの値及びランクの少なくとも一方に基づいて、前記タイルスコアのサブセットを選択することと、
前記入力画像を分類するために前記タイルスコアのサブセットに分類器を適用することと、
を含む、請求項２１に記載の機械可読媒体。
前記タイル化は、複数の画像のうちの異なる画像からの対応するタイルのグループを集約することをさらに含み、前記複数の画像は前記入力画像を含む、請求項２１に記載の機械可読媒体。
前記タイル化は、前記入力画像又は特徴マップの少なくとも一方において計算された距離メトリックに従って、一定距離内の前記タイルセットからのタイルのクラスタを集約することをさらに含む、請求項２１に記載の機械可読媒体。
前記特徴ベクトル抽出は、前記特徴の前記次元性を低減するために前記抽出された特徴ベクトルに対してオートエンコーダを適用することをさらに含む、請求項２１に記載の機械可読媒体。
前記入力画像は病理組織学的スライドであり、前記関心領域は組織領域である、請求項２１に記載の機械可読媒体。
前記画像分類は、診断分類、生存率予測、及び治療に対する反応予測のうちの少なくとも１つを実行するために使用される、請求項２１に記載の機械可読媒体。
前記入力画像の前記分類は、少なくとも１つのグローバルラベル及びローカルラベルを予測することを含む、請求項２１に記載の機械可読媒体。
前記抽出された特徴ベクトルの前記処理は、前記入力画像の前記分類のための追加情報を提供する抽出された特徴ベクトルから導出された特徴ベクトルとの重み付き結合における重みとして組み込まれた、前記入力画像に関連する１又は２以上のローカルアノテーションを使用することを含む、請求項２１に記載の機械可読媒体。
前記入力画像の分類は、マルチタスク環境において複数のグローバルラベルを予測することを含む、請求項２１に記載の機械可読媒体。
画像の分類と相関する前記画像の比較対象領域を抽出するための方法であって、
前記画像の関心領域をタイルセットにタイル化することと、
各タイルについて、
畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
前記抽出された特徴ベクトルから、前記画像の前記分類に対する前記タイルの寄与を表す前記タイルのスコアを計算することと、
所与の特性を検証するスコアを有する少なくとも１つのタイルを選択することと、
平均タイルスコアを有するタイルのセットであり、かつ前記少なくとも１つの選択されたタイルに距離メトリックに従って視覚的に近接している前記比較対象領域を抽出することと、
を含む、方法。
前記選択することは、
前記タイルセット内の前記タイルの前記タイルスコアに従って前記タイルセットをソートすることと、
前記タイルスコア及び前記ソートされたタイルセット内のタイルのランクの少なくとも一方に基づいて、前記少なくとも１つのタイルを選択することと、
を含む、請求項３５に記載の方法。
前記選択することは、前記タイルスコアのうちの最も高いタイルスコアの第１の所与の数であるＲ＿ｔｏｐ、及び前記タイルスコアのうちの最も低いタイルスコアの第２の所与の数であるＲ＿ｂｏｔｔｏｍの少なくとも一方を選択することを含む、請求項３６に記載の方法。
平均タイルスコアは、前記Ｒ＿ｔｏｐのタイルスコアと前記Ｒ＿ｂｏｔｔｏｍのタイルスコアとの間のスコアである、請求項３５に記載の方法。
前記選択することは、所与の閾値よりも大きいもの及び所与の閾値よりも小さいものの少なくとも一方であるスコアを有する前記タイルを選択することを含む、請求項３８に記載の方法。
前記選択することは、前記対応するタイルの少なくともスコアから導出される確率で前記タイルをランダムに選択することを含む、請求項３９に記載の方法。
２つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、前記２つのタイルの前記抽出された特徴に基づいて計算されるＬ２ノルムである、請求項３５に記載の方法。
２つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、オリジナルタイル上で計算されるＬ２ノルムである、請求項３５に記載の方法。
画像の分類と相関する前記画像の比較対象領域を抽出するための方法を１又は２以上の処理ユニットに実行させる実行可能命令を有する非一時的機械可読媒体であって、前記方法は、
前記画像の関心領域をタイルセットにタイル化することと、
各タイルについて、
畳み込みニューラルネットワークを適用することによって前記タイルの特徴ベクトルを抽出することであって、前記特徴ベクトルの前記特徴は前記タイルの局所記述子を表す、抽出することと、
前記抽出された特徴ベクトルから、前記画像の前記分類に対する前記タイルの寄与を表す前記タイルのスコアを計算することと、
所与の特性を検証するスコアを有する少なくとも１つのタイルを選択することと、
平均スコアを有するタイルのセットであり、かつ前記少なくとも１つの選択されたタイルに距離メトリックに従って視覚的に近接している前記対象領域を抽出することと、
を含む、機械可読媒体。
前記選択することは、
前記タイルセット内の前記タイルのタイルスコアに従って前記タイルセットをソートすることと、
前記タイルスコア及び前記ソートされたタイルセット内のタイルのランクの少なくとも一方に基づいて、前記少なくとも１つのタイルを選択することと、
を含む、請求項４３に記載の機械可読媒体。
前記選択することは、前記タイルスコアのうちの最も高いタイルスコアの第１の所与の数であるＲ＿ｔｏｐ、及び前記タイルスコアのうちの最も小さいタイルスコアの第２の所与の数であるＲ＿ｂｏｔｔｏｍの少なくとも一方を選択することを含む、請求項４４に記載の機械可読媒体。
平均タイルスコアは、前記Ｒ＿ｔｏｐのタイルスコアと前記Ｒ＿ｂｏｔｔｏｍのタイルスコアとの間のスコアである、請求項４５に記載の機械可読媒体。
前記選択することは、所与の閾値よりも大きいもの及び所与の閾値よりも小さいものの少なくとも一方であるスコアを有する前記タイルを選択することを含む、請求項４４に記載の機械可読媒体。
前記選択することは、前記対応するタイルの少なくともスコアから導出される計算された確率で前記タイルをランダムに選択することを含む、請求項４４に記載の機械可読媒体。
２つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、前記２つのタイルの前記抽出された特徴に基づいて計算されるＬ２ノルムである、請求項４４に記載の機械可読媒体。
２つのタイル間の前記視覚的近接性を評価するために使用される前記距離メトリックは、オリジナルタイル上で計算されるＬ２ノルムである、請求項４４に記載の機械可読媒体。
分類モデルを生成するための方法であって、
訓練画像セットを受け取ることであって、前記訓練画像セットの各々は関連する既知の分類を有する、受け取ることと、
前記訓練画像セット内の各訓練画像について、
第１の畳み込みニューラルネットワークを適用することによって前記訓練画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記画像の局所記述子を表す、抽出することと、
少なくとも前記抽出された特徴ベクトル及び前記関連する既知の分類を使用して前記分類モデルを訓練することと、
を含む、方法。
少なくとも検証画像セットを使用して前記分類モデルを検証することをさらに含む、請求項４９に記載の方法。
前記検証は、
前記検証画像セットを受け取ることであって、前記検証画像セットの各検証画像は関連する既知の分類を有する、受け取ることと、
前記検証画像セット内の各検証画像について、
第１の畳み込みニューラルネットワークを適用することによって前記検証画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記検証画像の局所記述子を表す、抽出することと、
少なくとも前記複数の特徴ベクトルを使用して前記検証画像の検証スコアセットを生成することと、
少なくとも前記検証スコアセット及び前記分類モデルを使用して前記検証画像の分類を生成することと、
前記複数の生成された分類を前記関連する既知の分類と比較することと、
を含む、請求項５２に記載の方法。
前記複数の生成された分類の前記比較は、受信者操作特性曲線（ＲＯＣ－ＡＵＣ）下の面積の比較、精度リコール曲線（ＰＲ－ＡＵＣ）下の面積の比較、又はコンコーダンスインデックス（ｃ－ｉｎｄｅｘ）比較のうちの少なくとも１つを使用して実行される、請求項５３に記載の方法。
前記分類モデルは、２つの全結合層を有する多層パーセプトロンである、請求項５１に記載の方法。
検証セットの前記訓練セットの画像は、デジタル全スライド画像（ＷＳＩ）のうちの１つである、請求項５１に記載の方法。
前記第１の畳み込みニューラルネットワークは、ＲｅｓＮｅｔ５０ニューラルネットワークである、請求項５１に記載の方法。
前記複数の特徴ベクトルの前記抽出は、前記訓練画像の関心領域をタイルセットにタイル化することを含み、前記複数の特徴ベクトルの各々は、前記タイルセットからのタイルに対応する、請求項５１に記載の方法。
前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの各々は所定のサイズを有する、請求項５８に記載の方法。
前記分類モデルの前記訓練は、少なくとも畳み込み１Ｄ層及び前記タイルの対応する特徴ベクトルを使用して前記タイルセットの各タイルのスコアを計算することを含む、請求項５８に記載の方法。
前記方法は、訓練画像の前記訓練セット内の前記訓練画像の各々について、第２の畳み込みニューラルネットワークを適用することによって、前記訓練画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することをさらに含む、請求項５１に記載の方法。
前記第２の畳み込みニューラルネットワークはＵ－ＮＥＴニューラルネットワークである、請求項６１に記載の方法。
前記分類モデルは１又は２以上の別個のモデルを含む、請求項５１に記載の方法。
前記分類モデルは、多層パーセプトロンモデル及び１次元畳み込みニューラルネットワークモデルの少なくとも一方を含む、請求項５１に記載の方法。
分類モデルを生成するための方法を１又は２以上の処理ユニットに実行させる実行可能命令を有する機械可読媒体であって、前記方法は、
訓練画像セットを受け取ることであって、前記訓練画像セットの各々は関連する既知の分類を有する、受け取ることと、
前記訓練画像セット内の各訓練画像について、
第１の畳み込みニューラルネットワークを適用することによって前記訓練画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記画像の局所記述子を表す、抽出することと、
少なくとも前記抽出された特徴ベクトル及び前記関連する既知の分類を使用して前記分類モデルを訓練することと、
を含む、機械可読媒体。
少なくとも検証画像セットを使用して前記分類モデルを検証することをさらに含む、請求項６５に記載の機械可読媒体。
前記検証は、
前記検証画像セットを受け取ることであって、前記検証画像セットにおける各画像は関連する既知の分類を有する、受け取ることと、
前記検証画像セット内の各検証画像について、
第１の畳み込みニューラルネットワークを適用することによって前記検証画像の複数の特徴ベクトルを抽出することであって、前記複数の特徴ベクトルの前記特徴の各々は前記検証画像の局所記述子を表す、抽出することと、
少なくとも前記複数の特徴ベクトルを使用して前記検証画像の検証スコアセットを生成することと、
少なくとも前記検証スコアセット及び前記分類モデルを使用して前記検証画像の分類を生成することと、
前記複数の生成された分類を前記関連する既知の分類と比較することと、
を含む、請求項６６に記載の機械可読媒体。
前記複数の生成された分類の前記比較は、受信者操作特性曲線（ＲＯＣ－ＡＵＣ）下の面積の比較、精度リコール曲線（ＰＲ－ＡＵＣ）下の面積の比較、又はコンコーダンスインデックス（ｃ－ｉｎｄｅｘ）比較のうちの少なくとも１つを使用して実行される、請求項６７に記載の機械可読媒体。
前記分類モデルは、２つの結合層を有する多層パーセプトロンである、請求項６５に記載の機械可読媒体。
前記訓練セット又は前記検証セットの訓練画像は、デジタル全スライド画像（ＷＳＩ）のうちの１つである、請求項６５に記載の機械可読媒体。
前記第１の畳み込みニューラルネットワークは、ＲｅｓＮｅｔ５０ニューラルネットワークである、請求項６５に記載の機械可読媒体。
前記複数の特徴ベクトルの前記抽出は、前記訓練画像の関心領域をタイルセットにタイル化することを含み、前記複数の特徴ベクトルの各々は、前記タイルセットからのタイルに対応する、請求項６５に記載の機械可読媒体。
前記タイル化は、少なくとも前記関心領域に固定タイル化グリッドを適用することを含み、前記タイルセットの各々は所定のサイズを有する、請求項７２に記載の機械可読媒体。
前記分類モデルの前記訓練は、少なくとも畳み込み１Ｄ層及び前記タイルの対応する特徴ベクトルを使用して前記タイルセットの各タイルのスコアを計算することを含む、請求項７２に記載の機械可読媒体。
前記方法は、訓練画像の前記訓練セット内の前記訓練画像の各々について、第２の畳み込みニューラルネットワークを適用することによって、前記訓練画像を、分類に役立つ情報を含む関心領域と背景領域とにセグメント化することをさらに含む、請求項６５に記載の機械可読媒体。
前記第２の畳み込みニューラルネットワークはＵ－ＮＥＴニューラルネットワークである、請求項７５に記載の機械可読媒体。
前記分類モデルは１又は２以上の別個のモデルを含む、請求項６５に記載の機械可読媒体。
前記分類モデルは、多層パーセプトロンモデル及び１次元畳み込みニューラルネットワークモデルの少なくとも一方を含む、請求項６５に記載の機械可読媒体。