JP7292685B2

JP7292685B2 - 高頻度変異型癌の判別システム、プログラム及び方法

Info

Publication number: JP7292685B2
Application number: JP2020500447A
Authority: JP
Inventors: 俊文若井; 修二郎奥田; 能史島田; 浩井筒; 啓輔兒玉
Original assignee: Denka Co Ltd; Niigata University NUC; Denki Kagaku Kogyo KK
Current assignee: Denka Co Ltd; Niigata University NUC
Priority date: 2018-02-15
Filing date: 2019-02-07
Publication date: 2023-06-19
Anticipated expiration: 2039-02-07
Also published as: KR20200121318A; CN111727371B; WO2019159821A1; EP4235594A3; US11295447B2; JP2023058553A; JPWO2019159821A1; EP3754334A1; CN115684569A; US11869190B2; EP3754334B1; CN111727371A; EP4235594A2; CN115684568A; US20210035300A1; EP3754334A4; US20220301167A1

Description

本発明は、高頻度変異型癌の判別システム、プログラム及び方法に関する。

癌の遺伝子変異を広く調べることにより、遺伝子変異のパターンによって癌を分類することができることが判明してきた。そのような癌に特徴的な変異のパターンの一つに、高頻度変異型（Ｈｙｐｅｒｍｕｔａｔｉｏｎ又はＨｙｐｅｒｍｕｔａｔｅｄ）がある。高頻度変異型の癌は、体細胞変異率が他の型に比べて高いことで区別される。胃癌、乳癌、大腸癌、膠芽腫、子宮癌などで、高頻度変異型の特徴を示す癌があることが知られている。高頻度変異型の癌は、ＤＮＡ複製時のミスマッチ修復機構の欠損や不完全さを示すマイクロサテライト不安定性の性質を同時に持つ場合が多い。これは、ミスマッチ修復酵素であるＭＬＨ１、ＭＬＨ３、ＭＳＨ２、ＭＳＨ３、ＭＳＨ６、ＰＭＳ２の遺伝子が変異を起こしていることや、ＭＬＨ１遺伝子の発現がメチル化によって抑制されていることに起因すると考えられている。また、ＤＮＡ複製酵素であるポリメラーゼε（ＰＯＬＥ）の変異によって、特に高い頻度で体細胞変異を引き起こし、高頻度変異型となることも知られている（非特許文献１，２）。

一方、癌免疫逃避機構が解明され、この機構を標的とする新しい癌免疫治療法が臨床に応用されるようになった。なかでも特徴的なのは、イムノチェックポイント経路ともいわれるＰＤ－１（ＰｒｏｇｒａｍｍｅｄｃｅｌｌＤｅａｔｈ－１）／ＰＤ－Ｌ１（ＰＤ－１Ｌｉｇａｎｄ１）経路である。免疫抑制補助シグナルＰＤ－１／ＰＤ－Ｌ１経路をブロックすることで、Ｔ細胞の免疫抑制が解除され、Ｔ細胞が活性化し癌特異的抗原を発現している腫瘍の抑制が起こる。また、ＣＴＬＡ－４も活性化Ｔ細胞に発現し、抗原提示細胞のＣＤ２８リガンドが結合するとＴ細胞の活性化が抑制されるため、この経路をブロックすることでもＴ細胞の免疫抑制を解除し、腫瘍抑制を引き起こすことが可能である。このような原理を応用した抗癌剤が実用化されている（例：ニボルマブ、イピリブマブ）。

さらに、このような免疫抑制性の機構は他にも複数存在し、将来それらの免疫抑制機構をブロックする抗腫瘍剤が開発、実用化されていくことが期待されている。高頻度変異型の癌は、免疫機構のターゲットとなる癌特異的な抗原を多く持っているため、免疫抑制のシグナル経路をブロックする療法の効果が高いことが示されており、癌が高頻度変異型であることを簡便に判別できる方法が望まれている（非特許文献３）。

従来、高頻度変異型がんを検査するには、網羅的な遺伝子解析を行って変異数をカウントする方法が知られているが、検査に手間と時間が多く必要であるという問題点があった。また、癌に高頻度変異を引き起こす原因のひとつであるミスマッチ修復機構の欠損又は不完全さを、関連遺伝子の免疫染色又はマイクロサテライト不安定性試験で検査する方法も知られているが、この方法では全ての高頻度変異型癌を検出できないという問題がある。

一方、特許文献１に開示されるような病理診断支援プログラムが知られている。

ＮａｔＲｅｖＣａｎｃｅｒ．２０１４Ｄｅｃｅｍｂｅｒ；１４（１２）：７８６‐８００ＪＰａｔｈｏｌ２０１３；２３０：１４８‐１５３Ｓｃｉｅｎｃｅ０３Ａｐｒ２０１５Ｖｏｌ．３４８，Ｉｓｓｕｅ６２３０，ｐｐ．１２４－１２８

特願２００４－３４６９１１号公報

特許文献１では、腫瘍の有無、良性・悪性を判定することが可能であるとされているが、高頻度変異癌の判別方法については何ら言及されていない。

本発明はこのような事情に鑑みてなされたものであり、従来と比べて精度の高い高頻度変異癌の判別方法、プログラム及び方法を提供するものである。

本発明によれば、入力部、保持部、機械学習実行部及び判別部を備え、前記入力部は、複数の第１画像データ、複数の第２画像データ及び複数の第３画像データを入力可能に構成され、第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、第２画像データは、高頻度変異型癌ではない癌の病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、第３画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、前記保持部は、第１画像データ及び第２画像データを保持可能に構成され、前記機械学習実行部は、前記保持部により保持された第１画像データ及び第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成され、前記判別部は、前記判別モデルに第３画像データを入力し、第３画像データが高頻度変異型癌であるか否かを判別可能に構成される、高頻度変異型癌の判別システムが提供される。

本発明によれば、第１画像データ及び第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成する。ここで、第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データである。また、第２画像データは、高頻度変異型癌ではない癌の病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。そして、判別モデルに第３画像データを入力し、第３画像データが高頻度変異型癌であるか否かを判別可能に構成される。ここで、第３画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。これにより、従来においては次世代シーケンサーなどによる遺伝子解析を行わなければ困難であった高頻度変異型癌か否かの判別を、迅速かつ高精度で行うことができ、治療に有効な薬剤の選択を容易に行うことが可能となる。

以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記病理切片の染色方法が、ヘマトキシリン・エオシン染色である。
好ましくは、前記入力部は、非癌画像データをさらに入力可能に構成され、前記非癌画像データは、癌の病理切片ではない画像データであり、前記保持部は、前記非癌画像データをさらに保持可能に構成され、前記機械学習実行部は、前記保持部により保持された非癌画像データを教師データとし、癌の病理切片の画像データであるか否かを判別する判別モデルをさらに生成可能に構成され、前記判別部は、第３画像データが癌の画像データであるか否かをさらに判別可能に構成される。
好ましくは、画像処理部を備え、前記画像処理部は、第１画像データ及び第２画像データおよび非癌画像データの少なくとも１つに対し、ピクセル毎におけるＲＧＢの各色を、第１画像データ及び第２画像データまたは非癌画像データ全体の色分布に基づいてＣＩＥ表色系におけるＺ値に変換するＺ値変換処理を実行可能に構成される。
好ましくは、前記画像処理部は、前記入力部に入力される第１画像データ及び第２画像データおよび非癌画像データの少なくとも１つを分割する分割処理を実行可能に構成される。
好ましくは、前記分割処理は、第１画像及び第２画像データの少なくとも一方に対し、同一の病理切片の画像データを分割する分割処理を実行可能に構成される。
好ましくは、前記画像処理部は、分割後の画像において一部の領域が重複するように、前記分割処理を実行する。
好ましくは、前記画像処理部は、前記入力部に入力される第３画像データを分割する分割処理をさらに実行可能に構成される。
好ましくは、前記判別部は、前記第３画像データについて、癌の病理切片の画像データであるか否かを判別し、癌の病理切片であると判別された画像データについて、さらに、高頻度変異型癌であるか否かを判別する。
好ましくは、前記判別部は、癌の病理切片の画像データであると判別された画像データ内における前記高頻度変異型癌であると判別された画像データの比率に基づいて、前記癌が高頻度変異癌であるか否かを判別する。
他の観点によれば、コンピュータを、入力部、保持部、機械学習実行部及び判別部として機能させ、前記入力部は、複数の第１画像データ及び複数の第２画像データを入力可能に構成され、第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、第２画像データは、高頻度変異型癌ではない癌の病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、前記保持部は、第１画像データ及び第２画像データを保持可能に構成され、前記機械学習実行部は、前記保持部により保持された第１画像データ及び第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される、プログラムが提供される。
他の観点によれば、上述の何れか１つに記載のシステムを用いて実行される、高頻度変異型癌の判別方法が提供される。
他の観点によれば、上述の何れか１つに記載のプログラムを用いて実行される、高頻度変異型癌の判別方法が提供される。
好ましくは、免疫チェックポイント阻害剤の有効性を判断する工程を含む。

本発明の第１実施形態に係るシステム１０の機能ブロック図である。本発明の第１実施形態に係る高頻度変異型癌であるか否かを判別する判別モデルを生成するフローを表すフローチャートである。判定モデルを用いて第３画像データが高頻度変異型癌であるか否かを判別する際における第３画像データの流れを表す概念図である。本発明の第１実施形態に係る高頻度変異型癌であるか否かを判別するフローを表すフローチャートである。図４のＳ１３における解析について説明するための概念図である。判定モデルにおける重みｗについて説明するための概念図である。図２のＳ５における機械学習の実行について説明するための概念図である。第２実施形態に係るシステム２０の機能ブロック図である。画像処理部２２における入力画像の分割処理を説明する図である。画像処理部２２における入力画像の分割処理を説明する図である。本実施形態における第３画像データの判別処理の処理フローである。判別部２５における判別処理を説明する図である。

以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

＜１．第１実施形態＞
１．１．高頻度変異型癌であるか否かの判別
以下、図１～図４を用いて、本発明の一実施形態に係るシステム１０について説明する。

（１．１．１．システム１０）
図１に示すように、システム１０は、入力部１、画像処理部２、保持部３、機械学習実行部４及び判別部５を備える。

入力部１は、複数の第１画像データ、複数の第２画像データ及び複数の第３画像データを入力可能に構成される。ここで、第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データである。また、第２画像データは、高頻度変異型癌ではない癌の病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。さらに、第３画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データである。ここで、本実施形態では、これらの画像データのＲＧＢ値は、０～２５５の値を取り得る。

本実施形態では、癌ゲノムＤＮＡ配列の解析よりＨｙｐｅｒｍｕｔａｔｉｏｎタイプ（高頻度変異型）及びＮｏｎ－Ｈｙｐｅｒｍｕｔａｔｉｏｎタイプ（高頻度変異型でない）と判断された大腸癌サンプルのそれぞれ１７症例の病理組織染色標本を取得した。ここで、かかる１７症例は、日本人の大腸癌患者２０１人で癌ゲノムシーケンスをした結果、Ｈｙｐｅｒｍｕｔａｔｉｏｎと判定できた１７症例である（参考：ＮａｇａｈａｓｈｉｅｔａｌＧｅｎｏｍｅＭｅｄ２０１７）。そして、かかる標本をヘマトキシリン・エオシン染色した大腸癌の病理組織染色標本を、デジタルパソロジー技術を用いて第１画像データ及び第２画像データとした。ここで、本実施形態では、ＭＩＲＡＸフォーマットに準拠したデジタルパソロジー画像データとして第１画像データ及び第２画像データを保存した。ここで、上記条件はこれに限定されず、大腸癌以外の癌サンプルを所定の症例数取得する構成としてもよい。

このように、本実施形態では、臨床例の多いヘマトキシリン・エオシン染色された画像データを第１画像データ及び第２画像データとして採用しているため、汎用性の高い判別システムを実現することが可能となっている。

ただし、染色方法は、条件に応じて他の方法を採用し得る。さらに、画像データの保存フォーマットもこれに限定されない。

画像処理部２は、入力部１に入力される複数の第１画像データ、第２画像データ及び第３画像データを分割する分割処理を実行可能に構成される。本実施形態では、画像処理部２は、第１画像データ、第２画像データ及び第３画像データを所定のタイルに分割する機能を備える。一例として、画像処理部２により、第１画像データ、第２画像データ及び第３画像データが３００ｐｉｘｅｌ×３００ｐｉｘｅｌサイズの画像に分割される。なお、かかる分割サイズは特に限定されないが、画像データが癌組織部位であるか否かを識別できるサイズとすることが好ましい。そして、本実施形態では、分割処理により、第１画像データ及び第２画像データのそれぞれが１０００個以上に分割される。さらに、本実施形態では、画像処理部２は、第１画像及び第２画像データの少なくとも一方に対し、同一の病理切片の画像データを分割する分割処理を実行可能に構成される。なお、分割サイズ及び分割数はこれに限定されず、任意の条件を採用し得る。

このように、入力部１に入力する画像データを分割することにより、後続の機械学習に用いる教師データのデータ数を増やすことができ、機械学習の精度を向上することが可能となる。

また、本実施形態では、画像処理部２はさらに、分割された第１画像データ及び第２画像データに対し、ピクセル毎におけるＲＧＢの各色を、第１画像データ及び第２画像データ全体の色分布に基づいてＣＩＥ表色系におけるＺ値に変換する変換処理を実行可能に構成される。具体的には、Ｚ値は０を中心とした正規分布を取り、画像データのＲＧＢ値は、０～２５５の値であるので、ＲＧＢ各色のＺ値化した値を標準偏差（σ）の２倍の範囲に収めることが望ましい。このため、画像処理部２は、２σ以上の値は２σに、－２σ以下の値は－２σに補正する機能を備える。また、画像処理部２は、これらの値に対して、２を加算しすべての値を０以上の値に変換した後、４で割ることで０～１値に規格化する機能を備える。さらに、画像処理部２は、かかる値に２５５掛けることにより、通常の色表現の値に変換する機能を備える。合わせて、画像処理部２は、かかる値が整数値となるように、小数点以下を切り捨てる処理も行う。なお、規格化する手法はこれに限定されない。

ここで、「ｘ＝ｉｎｔ（（（ｍｉｎ（ｍａｘ（ｘｚ，－２），２）＋２）／４）×２５５）」と規定すると、「ｘｚ＝ｚ値化したＲＧＢの値」が成立する。

このように、第１画像データ及び第２画像データのＲＧＢの各色をＺ値に変換することにより、染色処理における色味のばらつき（色の濃淡）を少なくすることができ、染色の度合いが後続の機械学習に与える影響を抑えることが可能となる。その結果、機械学習の精度を向上することが可能となる。

保持部３は、第１画像データ及び第２画像データを保持可能に構成される、ここで、保持部３は、任意のメモリ、ラッチ、ＨＤＤ又はＳＳＤ等により構成される。

機械学習実行部４は、保持部３により保持された第１画像データ及び第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される。判別モデルの詳細については図３を用いて後述する。

機械学習実行部４の機械学習アルゴリズムは特に限定されないが、例えばニューラルネットワークや深層学習（ディープラーニング）を利用することができる。また、例えばＧｏｏｇｌｅ社により開発された「Ｉｎｃｅｐｔｉｏｎ－ｖ３」という画像識別用のＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を利用することができる。そして、「Ｋｅｒａｓ」フレームワークを用いてかかるＣＮＮを実行することができる。そして、機械学習自体については、過学習を防ぐため、１ｅｐｏｃｈ毎にバリデーションセットの画像で学習中モデルの精度を算出し、精度指標の変動が収まったｅｐｏｃｈで学習を切り上げる、「ＥａｒｌｙＳｔｏｐｐｉｎｇ」手法を用いて実施することができる。なお、本実施形態では、Ｚ値化での学習において、１４ｅｐｏｃｈ分機械学習を繰り返し実行している。

判別部５は、判別モデルに第３画像データを入力し、第３画像データが高頻度変異型癌であるか否かを判別可能に構成される。

（１．１．２．フローチャート）
次に、図２を用いて、本発明の一実施形態に係る高頻度変異型癌であるか否かを判別する判別モデルを生成するフローを説明する。

まず、Ｓ１において、第１画像データ及び第２画像データを入力部１に入力する。

次に、Ｓ２において、画像処理部２により、第１画像データ及び第２画像データを分割する分割処理が実行される。本実施形態では、第１画像データ及び第２画像データのそれぞれが１０００個以上のタイルに分割される。なお、かかる分割数は適宜設定することができ、例えば１０００～３０００、好ましくは、１０００～２０００、さらに好ましくは、１０００～１５００個としてもよい。具体的には例えば、１０００、１１００、１２００、１３００、１４００、１５００、１６００、１７００、１８００、１９００、２０００、２１００、２２００、２３００、２４００、２５００、２６００、２７００、２８００、２９００、３０００個であり、ここで例示した数値の何れか２つの間の範囲内であってもよい。

あわせて、画像処理部２により、分割された第１画像データ及び第２画像データをＺ値化するＺ値化が実行される。

次に、Ｓ３において、Ｚ値化された第１画像データ及び第２画像データに対し、それぞれの画像データが高頻度変異型癌組織部位（Ｈｙｐｅｒｍｕｔａｉｏｎタイプ）であるか非高頻度変異型癌組織部位（Ｎｏｎ－ｈｙｐｅｒｍｕｔａｔｉｏｎタイプ）であるかを判定し、各画像データに対してラベルを付す。例えば、癌を専門とする病理医により判定してもよく、既にラベルが付された画像データをサーバから取得する構成としてもよい。また、分割前の画像データのうち、Ｈｙｐｅｒｍｕｔａｉｏｎタイプ又はＮｏｎ－ｈｙｐｅｒｍｕｔａｔｉｏｎタイプに相当する箇所にマークをつけ、分割後のタイル画像データがマークされた箇所に相当する場合、分割後のデータにラベルを付す構成とすることもできる。

次に、Ｓ４において、入力部１に入力した１７症例分の第１画像データ及び第２画像データから、機械学習実行部４による機械学習に利用する１３症例分の画像データを選定する。かかる選定はランダムになされてもよく、癌を専門とする病理医により選定されてもよい。そして、ラベルが付された第１画像データ及び第２画像データが保持部３に保持される。かかる第１画像データ及び第２画像データが、機械学習における「正解セット」となる。

次に、Ｓ５において、機械学習実行部４により、保持部３により保持された第１画像データ及び第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成するために機械学習を実行する。具体的には、Ｓ４においてラベルが付された１３症例分の第１画像データ及び第２画像データを用いて、かかる画像データが高頻度型変異癌であるか否かを判別するための機械学習を実行する。

次に、Ｓ６において、判別モデルの判定精度が所定の精度以上であるかを判断する。判別モデルの判定精度が所定の精度以上でない場合（ＮＯ）、再びＳ４に戻り、１７症例分の第１画像データ及び第２画像データから、異なる組み合わせの１３症例分の画像データを選定し、Ｓ５における処理を実行する。一方、判別モデルの判定精度が所定の精度以上である場合（ＹＥＳ）、かかる判定モデルを採用することとし、Ｓ７に進む。

最後に、Ｓ７において、判別部５は、Ｓ６で決定された判定モデルを出力し、保持部３又は不図示の記憶部に記憶する。

（１．１．３．高頻度変異型癌であるか否かの判別）
次に、図３及び図４を用いて、判定モデルを用いて第３画像データが高頻度変異型癌であるか否かを判別する際における第３画像データの流れについて説明する。

図３に示されるように、本実施形態では、入力部１に入力された第３画像データが画像処理部２に出力され、上述の画像処理（分割処理及びＺ値化処理）が実行された第３画像データが判別部５に出力される。そして、判別部５は、図２のＳ７において出力された判別モデルを用い、第３画像データが高頻度変異型癌であるか否かを判別する。

このように、第３画像データについても分割処理を行うことにより、判別対象の画像データのサイズと、第１および第２画像データのサイズとが合うこととなり、判別部５における判別精度を向上させることができる。

このときのフローチャートは以下の通りである。

図４に示されるように、まず、Ｓ１１において、第３画像データが入力部１に入力される。

次に、Ｓ１２において、画像処理部２により画像処理（分割処理及びＺ値化処理）が実行される。

次に、Ｓ１３において、判別部５により、上述の判別モデルを用いて、第３画像データが高頻度変異型癌であるか否かを判別する。

最後に、Ｓ１４において、判別部５による判別結果を出力する。かかる判別結果の出力態様は特に限定されず、「高頻度変異型癌である」、「高頻度変異型癌でない」、「高頻度変異型癌である確率がＸ％である」、等とすることができる。

（１．１．４．判別モデルによる判別）
次に、図５及び図６を用いて、図４のＳ１３における判定モデルを用いた判別について説明する。なお、本実施形態では、機械学習のアルゴリズムは特に限定されず、ニューラルネットワークや深層学習（ディープラーニング）を利用することができる。以下、説明の簡素化のため、ニューラルネットワークを用いた例について説明する。

図５に示すように、ニューラルネットワーク（以下、図面中でＮＮと表記）は、複数の層（第１層Ｌ１～第３層Ｌ３）及び複数の計算ノードＮ（Ｎ１１～Ｎ３１）により構成される。ここで、Ｎｉｊは、第ｉ層のｊ番目の計算ノードＮを表す。本実施形態では、ｉ＝３、ｊ＝５としてニューラルネットワークを構築している。なお、ｉ，ｊの値はこれに限定されず、例えばｉ＝１～１００、ｊ＝１～１００の間の整数又は１００以上の整数とすることができる。

また、各計算ノードＮには、予め定められた重みｗが設定される。図４に示すように、例えば、第２層の計算ノードＮ２３に着目した場合、計算ノードＮ２３と、一つ前の層である第１層の全計算ノードＮ１１～Ｎ１５の間に、重みｗが設定される。重みｗは、例えば－１～１の値に設定される。

機械学習実行部４は、ニューラルネットワークに種々のパラメータを入力する。本実施形態では、ニューラルネットワークに入力するパラメータとして、第３画像データのＺ値、第３画像データのＺ値の分布、第３画像データのＺ値と第１画像データのＺ値の差分、第３画像データのＺ値と第２画像データのＺ値の差分、第３画像データのＺ値と第１画像データ及び第２画像データのＺ値の分布の差分を用いる。ここで、第１～第３画像データのＺ値は、ピクセル単位におけるＺ値である。また、第１～第３画像データのＺ値の分布は、画像データ（３００ｐｉｘｅｌ×３００ｐｉｘｅｌ）内におけるＺ値の分布である。また、第３画像データと第１画像データ及び第２画像データのＺ値の分布の差分は、第３画像データのＺ値の分布と、第１画像データ及び第２画像データの対応するピクセル毎におけるＺ値の分布の差分、又は画像データ内における対応するピクセル毎のＺ値の差分の合計である。

ここで、上述の通り、各パラメータは、ニューラルネットワークに入力されるにあたり、０～１の値に正規化されている。例えば、入力パラメータが０の場合、入力信号として０を入力する。また、入力パラメータが１の場合、入力信号として１を入力する。

そして、判別部５は、各種パラメータにより規定される入力信号を第１層Ｌ１に入力する。かかる入力信号は、第１層の計算ノードＮ１１～Ｎ１５から、第２層Ｌ２の計算ノードＮ２１～Ｎ２５にそれぞれ出力される。このとき、計算ノードＮ１１～Ｎ１５から出力された値に対し、計算ノードＮ毎に設定された重みｗを掛け合わせた値が計算ノードＮ２１～Ｎ２５に入力される。計算ノードＮ２１～Ｎ２５は、入力値を足し合わせ、かかる値に図６に示されるバイアスｂを足した値を活性化関数ｆ（）に入力する。そして、活性化関数ｆ（）の出力値（図４の例では仮想的な計算ノードノードＮ'２３からの出力値）が次ノードである計算ノードＮ３１に伝搬される。このとき、計算ノードＮ２１～Ｎ２５と計算ノードＮ３１の間との間に設定された重みｗと上記出力値を掛け合わせた値が計算ノードＮ３１に入力される。計算ノードＮ３１は、入力値を足し合わせ、合計値を出力信号として出力する。このとき、計算ノードＮ３１は、入力値を足し合わせ、合計値にバイアスを足した値を活性化関数ｆ（）に入力してその出力値を出力信号として出力してもよい。ここで、本実施形態では、出力信号の値は０～１の値となるように調整されている。そして、機械学習実行部４は、出力信号の値に対応する値を高頻度変異型癌であるか否かを判別する確率として出力する。

以上説明したように、本実施形態のシステム１０は、第１画像データ及び第２画像データを教師データとし、機械学習実行部４による機械学習を実行することにより、高頻度変異型癌であるか否かを判別する判別モデル（ニューラルネットワーク及び重みｗ）を生成する。そして、判別部５により、かかる判別モデルを用いて第３画像データが高頻度変異型癌であるか否かを判別する。

１．２．判別モデルの生成
次に、図７を用いて、図２のＳ５～Ｓ６における判別モデルの生成について説明する。

図７に示すように、機械学習実行部４は、図５に示されるニューラルネットワークと同じ構成のニューラルネットワークを構成する各計算ノードＮに対し、例えば－１～１までの重みｗを設定する。このとき、重みｗの影響を低減するため、最初に設定する重みｗの絶対値は小さいことが好ましい。そして、５種類のパラメータセットをニューラルネットワークに入力する。本実施形態では、ニューラルネットワークに入力するパラメータとして、第１画像データのＺ値、第２画像データのＺ値、第１画像データのＺ値の分布、第２画像データのＺ値の分布、第１画像データと第２画像データのＺ値の差分を用いる。ここで、第１画像データのＺ値及び第２画像データのＺ値は、ピクセル単位におけるＺ値である。また、第１画像データのＺ値の分布及び第２画像データのＺ値の分布は、画像データ（３００ｐｉｘｅｌ×３００ｐｉｘｅｌ）内におけるＺ値の分布である。また、第１画像データと第２画像データのＺ値の差分は、第１画像データ及び第２画像データの対応するピクセル毎のＺ値の差分又は画像データ内における対応するピクセル毎のＺ値の差分の合計である。

そして、ニューラルネットワークからの出力信号と、教師データ（専門医による判別）を比較し、出力信号と教師データの差分（以下、誤差という）が予め定められた閾値以上の場合、重みｗを変更し、再び５種類のパラメータセットをニューラルネットワークに入力する。このとき、重みｗの変更は、公知の誤差伝搬法等により実行される。かかる計算を繰り返し実行（機械学習）することにより、ニューラルネットワークからの出力信号と予め与えた教師データの誤差を極小化する。このとき、機械学習の学習回数は特に限定されず、例えば、１０００回～２００００回とすることができる。また、実際の出力信号と予め与えた教師データの誤差が極小化されていなくても、かかる誤差が予め定められた閾値以下となった場合又は開発者の任意のタイミングで機械学習を終了することにしてもよい。

そして、機械学習実行部４による機械学習が終了すると、機械学習実行部４は、このときの各計算ノードＮの重みをニューラルネットワークに設定する。つまり、本実施形態では、ニューラルネットワーク上に設けられたメモリ等の記憶部に重みｗが格納される。そして、機械学習実行部４により設定された重みｗが、システム１０に設けられた不図示の記憶部に送信され、図５のニューラルネットワークの各計算ノードＮの重みｗとされる。本実施形態では、図５のニューラルネットワーク上に設けられたメモリ等の記憶部に重みｗが格納される。ここで、図７のニューラルネットワークの構成を、図５のニューラルネットワークの構成と同じにすることにより、機械学習実行部４により設定された重みｗをそのまま用いることが可能になる。

＜２．第２実施形態＞
図８～図１２を用いて、本発明の第２実施形態について説明する。なお、実施形態１と同様の構成および機能については、その説明を繰り返さない。

図８に示すように、第２実施形態に係るシステム２０では、入力部２１は、第１画像データ、第２画像データに加えて、非癌画像データをさらに入力可能に構成される。ここで非癌画像データとは、癌の病理切片以外の画像データを意味する。画像処理部２２は、入力された画像データに対して分割処理を行う。分割処理の詳細は後述する。

保持部２３は、分割された第１画像データおよび第２画像データに加えて、分割された非癌画像データをさらに保持可能に構成される。機械学習実行部２４は、保持部３により保持された第１画像データ、第２画像データ、および非癌画像データを教師データとし、癌の画像であるか否かを判別する判別モデル（以下、第１判別モデルという）と、癌の画像が高頻度変異型癌であるか否かを判別する判別モデル（以下、第２判別モデルという）とを生成可能に構成される。判別部２５は、第１および第２判別モデルに第３画像データを入力し、第３画像データが癌の画像データであるか否かと、高頻度変異型癌の画像データであるか否かとを判別可能に構成される。

図９は、入力部２１に入力される一例としての画像データＰを示す。画像データＰは、組織領域Ｔと、ブランク領域ＢＬ（例えば、プレパレートの領域）を有する。組織領域Ｔは、高頻度変異型癌ではない癌の領域Ｃ１と、高頻度変異型癌の領域Ｃ２と、癌ではない組織領域ＮＣとを含む。

画像処理部２２は、入力部２１に入力される画像データＰに対して分割処理を行う。図９に示す例では、組織領域Ｔを縦１０×横１０に１００分割している。すなわち、組織領域Ｔを包含するように１００個からなるタイルＤ_００～Ｄ_９９を設定する。

この例においては、高頻度変異型癌の領域Ｃ２に対応するタイル（例えば、タイルＤ５４）は第１画像データに相当し、高頻度変異型癌でない癌の領域Ｃ１に対応するタイル（例えば、タイルＤ３４）は、第２画像データに相当する。また、癌でない組織領域ＮＣのみに対応するタイル（例えば、タイルＤ１５）、ブランク領域ＢＬのみに対応するタイル（例えば、タイルＤ４９）、および、癌でない組織領域ＮＣとブランク領域ＢＬとを含むタイル（例えば、タイルＤ０４）は、いずれも非癌画像データに相当する。

このように、本実施形態においては、非癌画像データとして、癌でない組織領域ＮＣに対応するタイル、ブランク領域ＢＬのみに対応するタイル、癌でない組織領域ＮＣとブランク領域ＢＬとを含むタイルなど、様々な画像を入力して機械学習を行う。このように非癌画像の多様性を増やすことにより、検査対象データが癌画像であるか否かの判定の精度が向上する。

また、本実施形態では、上記分割処理（以下、第１の分割処理という）後の画像データに対して、さらなる分割処理（以下、第２の分割処理という）を行うこともできる。図１０では、第１の分割処理によって分割後のタイルＤｎｍを、さらに５つのタイルに分割している。ここで、第２の分割処理では、分割後のタイルにおいて一部の領域が重複するように分割処理が実行される。すなわち、第２の分割処理後のタイルＤｎｍ１とタイルＤｎｍ２とは、一部の画像が重複している。また、タイルＤｎｍ２とタイルＤｎｍ３とも一部の画像が重複している。

このように、分割後の画像において一部の領域が重複するように分割処理を実行することにより、画像数を増加することが可能となり、後続の機械学習における学習効率を向上させることができる。

図１１は、本実施形態における第３画像データの判別処理の処理フローである。図１１に示すように、本実施形態では、判別部２５は第３画像データが癌画像であるか否かの判別と、高頻度変異型癌であるか否かの判別とを行う。

具体的には、ステップＳ２３内におけるステップＳ２３１において、判別部２５は、第３画像データが癌画像であるか否かの判別を行う。癌画像でない場合（ステップＳ２３１においてＮｏ）、ステップＳ２３３において、当該第３画像データは非癌画像であると判別する。

一方、癌画像である場合（ステップＳ２３１においてＹｅｓ）、判別部２５は、ステップＳ２３２において、第３画像データが高頻度変異型癌の画像であるか否かの判別を行う。高頻度変異型癌でない場合（ステップＳ２３２においてＮｏ）、ステップＳ２３５において、当該第３画像データは高頻度変異型癌の画像でないと判別される。一方、高頻度変異型癌である場合（ステップＳ２３２においてＹｅｓ）、ステップＳ２３４において、当該第３画像データは高頻度変異型癌の画像であると判別される。

このようにして、本実施形態では、第３画像データについて癌画像であるか否かの判別と、高頻度変異型癌であるか否かの判別とを行う。そのため、癌の画像データであるか否かを病理医等が予め診断する必要がなく、判別処理における作業効率を向上させることができる。

ここで、判別部２５は、癌の画像データであると判別された画像データ内における高頻度変異型癌であると判別された画像データの比率に基づいて、当該癌が高頻度変異癌であるか否かを判別してもよい。

図１２に示す例では、第３画像データＰ２において、癌の画像データであると判別された画像Ｅ１内に、高頻度変異型癌であると判別された画像Ｅ２が存在している。そのとき、判別部２５は、（Ｅ２のタイルの枚数）／（Ｅ１のタイルの枚数）で定められる比率が予め定められた閾値より大きい場合に、画像Ｅ１によって示される領域が高頻度変異型癌であると判別する。

このようにすることにより、局所的に高頻度変異型癌であると判別してしまう偽陽性をノイズとして除去することが可能となり、判別の精度を向上することが可能となる。

以上のように、第２実施形態では、入力部２１は、非癌画像データをさらに入力可能に構成され、機械学習実行部２４は、非癌画像データをも教師データとし、癌の病理切片の画像データであるか否かを判別する判別モデルをさらに生成可能に構成される。そして、判別部２５は、第３画像データが癌の画像データであるか否かをさらに判別可能に構成される。このような構成とすることにより、第３画像データについて、病理医になどによる癌であるか否かの診断が必要なくなり、判別処理の作業効率が向上する。

＜３．その他の実施形態＞
以上、種々の実施形態について説明したが、本発明は以下の態様でも実施可能である。

コンピュータを、
入力部、保持部、機械学習実行部及び解析部として機能させ、
前記入力部は、複数の第１画像データ及び複数の第２画像データを入力可能に構成され、
第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、
第２画像データは、高頻度変異型癌ではない病理切片であって、第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記保持部は、第１画像データ及び第２画像データを保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された第１画像データ及び第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される、
プログラム。

上述の何れか１つに記載のシステムを用いて実行される、高頻度変異型癌の判別方法。なお、ここにいう高頻度変異型癌とは、任意の癌種を含み、例えば脳腫瘍、頭頚部癌、乳癌、肺癌、食道癌、胃癌、十二指腸癌、虫垂癌、大腸癌、直腸癌、肝癌、膵癌、胆嚢癌、胆管癌、肛門癌、腎癌、尿管癌、膀胱癌、前立腺癌、陰茎癌、精巣癌、子宮癌、卵巣癌、外陰癌、膣癌、皮膚癌などの固形癌が挙げられるがこれらに限定されない。本発明の目的では高頻度変異型がんは、大腸癌、肺癌、胃癌、メラノーマ(悪性黒色腫)、頭頚部癌、食道癌であることが好ましい。

上述のプログラムを用いて実行される、高頻度変異型癌の判別方法。

免疫チェックポイント阻害剤の有効性を判断する工程を含む、上述の何れか１つに記載の判別方法。かかる判別方法は、高頻度変異型の癌を有すると判別された患者が、免疫チェックポイント阻害剤の投与の有効性が高いことを示す工程をさらに含むことができる。高頻度変異型癌は、免疫機構のターゲットとなる癌特異的な抗原を多く持っているため、免疫抑制のシグナル経路をブロックする療法の効果が高いことが示されている。かかる判別方法では、癌が高頻度変異型であることを簡便に判別できるため有利である。ここにいう「免疫チェックポイント」は、当該分野で公知であり（Ｎａｉｄｏｏｅｔａｌ．ＢｒｉｔｉｓｈＪｏｕｒｎａｌｏｆＣａｎｃｅｒ（２０１４）１１１，２２１４－２２１９）、ＣＴＬＡ４、ＰＤ１、及び、そのリガンドＰＤＬ－１等が知られている。その他には、ＴＩＭ－３、ＫＩＲ、ＬＡＧ－３、ＶＩＳＴＡ、ＢＴＬＡが含まれる。免疫チェックポイントの阻害剤は、それらの正常な免疫機能を阻害する。例えば、免疫チェックポイントの分子の発現を負に制御するか、又は、その分子に結合して、正常な受容体／リガンド相互作用をブロックすることによって阻害する。免疫チェックポイントは、抗原に対する免疫系応答にブレーキをかけるように働くので、その阻害剤は、この免疫抑制効果を減少させ、免疫応答を増強する。免疫チェックポイントの阻害剤は、当技術分野で公知であり、好ましいものは、抗ＣＴＬＡ－４抗体（例；イピリムマブ（ｉｐｉｌｉｍｕｍａｂ），トレメリムマブ（ｔｒｅｍｅｌｉｍｕｍａｂ））、抗ＰＤ－１抗体（例：ニボルマブ（ｎｉｖｏｌｕｍａｂ）、ペンブロリズマブ（ｌａｍｂｒｏｌｏｚｕｍａｂ）、ｐｉｄｉｌｉｚｕｍａｂ、及びＲＧ７４４６（Ｒｏｃｈｅ））、並びに、抗ＰＤＬ－１抗体（例；ＢＭＳ－９３６５５９（Ｂｒｉｓｔｏｌ－ＭｙｅｒｓＳｑｕｉｂｂ）、ＭＰＤＬ３２８０Ａ（Ｇｅｎｅｎｔｅｃｈ）、ＭＳＢ００１０７１８Ｃ（ＥＭＤ－Ｓｅｒｏｎｏ）及びＭＥＤＩ４７３６（ＡｓｔｒａＺｅｎｅｃａ））等の抗－免疫チェックポイント抗体である。

また、保持部３は、外部のＰＣ又はサーバ等の情報処理装置に設けるクラウドコンピューティングの態様とすることができる。この場合、計算の度に必要なデータを外部の情報処理装置がシステム１０に送信する。

また、上述のプログラムを格納した、コンピュータ読取り可能な非一時的記録媒体として提供することもできる。さらに、上述のプログラムの機能を実装したＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＤＲＰ（ＤｙｎａｍｉｃＲｅＣｏｎｆｉｇｕｒａｂｌｅＰｒｏｃｅｓｓｏｒ）として提供することもできる。

１，２１：入力部
２，２２：画像処理部
３，２３：保持部
４，２４：機械学習実行部
５，２５：判別部
１０，２０：システム

Claims

入力部、保持部、機械学習実行部及び判別部を備え、
前記入力部は、複数の第１画像データ、複数の第２画像データ及び複数の第３画像データを入力可能に構成され、
前記第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、
前記第２画像データは、高頻度変異型癌ではない癌の病理切片であって、前記第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記第３画像データは、新たに高頻度変異型癌であるか否かの判別を行うがんの病理切片であって、前記第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記保持部は、前記第１画像データ及び前記第２画像データを保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された前記第１画像データ及び前記第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成され、
前記判別部は、前記判別モデルに前記第３画像データを入力し、前記第３画像データが高頻度変異型癌であるか否かを判別可能に構成される、
高頻度変異型癌の判別システム（但し、前記病理切片の染色方法が、免疫染色であるものを除く）。
前記病理切片の染色方法が、ヘマトキシリン・エオシン染色である、
請求項１に記載のシステム。
前記入力部は、非癌画像データをさらに入力可能に構成され、
前記非癌画像データは、癌の病理切片ではない画像データであり、
前記保持部は、前記非癌画像データをさらに保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された前記非癌画像データを教師データとし、癌の病理切片の画像データであるか否かを判別する判別モデルをさらに生成可能に構成され、
前記判別部は、前記第３画像データが癌の画像データであるか否かをさらに判別可能に構成される、
請求項１または請求項２に記載のシステム。
画像処理部を備え、
前記画像処理部は、前記第１画像データ、および前記第２画像データの少なくとも１つに対し、ピクセル毎におけるＲＧＢの各色を、前記第１画像データ、または前記第２画像データ全体の色分布に基づいてＣＩＥ表色系におけるＺ値に変換するＺ値変換処理を実行可能に構成される、
請求項１又は請求項２に記載のシステム。
画像処理部を備え、
前記画像処理部は、前記第１画像データ、前記第２画像データおよび前記非癌画像データの少なくとも１つに対し、ピクセル毎におけるＲＧＢの各色を、前記第１画像データ、前記第２画像データまたは前記非癌画像データ全体の色分布に基づいてＣＩＥ表色系におけるＺ値に変換するＺ値変換処理を実行可能に構成される、
請求項３に記載のシステム。
前記画像処理部は、
前記入力部に入力される前記第１画像データ、および前記第２画像データの少なくとも１つを分割する分割処理を実行可能に構成される、
請求項４に記載のシステム。
前記画像処理部は、
前記入力部に入力される前記第１画像データ、前記第２画像データ、および前記非癌画像データの少なくとも１つを分割する分割処理を実行可能に構成される、
請求項５に記載のシステム。
前記画像処理部は、
分割後の画像において一部の領域が重複するように、前記分割処理を実行する、請求項６又は請求項７に記載のシステム。
前記画像処理部は、
前記入力部に入力される前記第３画像データを分割する分割処理をさらに実行可能に構成される、請求項６～請求項８の何れか１つに記載のシステム。
前記判別部は、
前記第３画像データについて、癌の病理切片の画像データであるか否かを判別し、
癌の病理切片であると判別された画像データについて、さらに、高頻度変異型癌であるか否かを判別する、
請求項３、請求項５、及び請求項７のうち何れか１つに記載のシステム。
前記判別部は、
癌の病理切片の画像データであると判別された画像データ内における前記高頻度変異型癌であると判別された画像データの比率に基づいて、前記癌が高頻度変異癌であるか否かを判別する、
請求項１０に記載のシステム。
コンピュータを、
入力部、保持部、機械学習実行部及び判別部として機能させ、
前記入力部は、複数の第１画像データ及び複数の第２画像データを入力可能に構成され、
前記第１画像データは、染色された高頻度変異型癌の病理切片を表す画像データであり、
前記第２画像データは、高頻度変異型癌ではない癌の病理切片であって、前記第１画像データのもととなるがんの病理切片と同じ染色がされた病理切片を表す画像データであり、
前記保持部は、前記第１画像データ及び前記第２画像データを保持可能に構成され、
前記機械学習実行部は、前記保持部により保持された前記第１画像データ及び前記第２画像データを教師データとし、高頻度変異型癌であるか否かを判別する判別モデルを生成可能に構成される、
プログラム（但し、前記病理切片の染色方法が、免疫染色であるものを除く）。
請求項１～請求項１１の何れか１つに記載のシステムを用いて実行される、
高頻度変異型癌の判別方法。
請求項１２記載のプログラムを用いて実行される、
高頻度変異型癌の判別方法。
免疫チェックポイント阻害剤の有効性を判断する工程を含む、
請求項１３又は請求項１４に記載の判別方法。