既存の遺伝子解析では、観察可能な遺伝子変異体を特異的な種類の癌と互いに関係づける。この手法では、癌が、明確に定義された種類に分類されると仮定し、また所与の種類の癌を、その種類の癌の患者(または獣医学の文脈では獣医患畜)に共通の相関遺伝子変異体によって特徴づけできると仮定する。
しかし、本明細書では、これらの仮定は多くの状況で適合しない可能性があると認識する。例えば、エストロゲン受容体陽性乳癌とエストロゲン受容体陰性乳癌の両方について報告された研究では、乳癌の病理組織学的表現型が同じである別々の患者からの癌遺伝子間で、かなりの複雑性および異質性が実際には観察されることが示された(腫瘍間異質性)。Shahら、「Mutational evolution in a lobular breast tumour profiled at single nucleotide resolution」、Nature vol.461、809〜813頁(2009年)、Stephensら、「Complex landscapes of somatic rearrangement in human breast cancer genomes」、Nature vol.462、1005〜1010頁(2009年)、およびDingら、「Genome remodelling in a basal−like breast cancer metastasis and xenograft」、Nature vol.464、999〜1005頁(2010年)を参照されたい。例えば、Stephensらが特定した新規の融合遺伝子のどれも、調査された24の癌のいずれにも2回以上は存在せず、またShahらが報告したように、経過観察のために選択された3つの発現インフレーム融合遺伝子が、調査された追加の288の乳癌に存在しなかった。別の研究では、個々の乳癌内での実質的な異質性(腫瘍内異質性)が記述されており、別個の遺伝子プロファイルをそれぞれが有する複数の腫瘍亜集団が特定されている。Navinら、「Inferring tumor progression from genomic heterogeneity」、Genome Res.Vol.20、68〜80頁(2010年)を参照されたい。
さらに、変異体−癌の相関関係の違いが集団間で生じうることが知られており、そのため、ある特定の集団について文献に報告されている遺伝子シグネチャ(例えば、突然変異、一塩基多型すなわちSNP、挿入または欠失すなわちインデルなど)を他の集団に使用することが不適切なことになる可能性がある。例えば、疾病突然変異としてフラグが立てられた配列変異体についての1つの研究では、調査された変異体の74%が多型であることが分かった。さらに、ある突然変異が、ある特定の種類の癌と相互に関連していると文献でたとえ言及されていても、このことは、それが確かに原因となる突然変異であることを保証するものではない。実際、言及された疾病突然変異の27%がおそらく多型であること、または誤って注釈されていることが同じ研究で判明した。
実際、従来の発癌のモデル、すなわち、正常細胞から癌細胞に移行する個々の、相対的に離散的な遺伝子突然変異が段階的に蓄積することは疑われてきた。例えば、発癌のいくつかの例で最近開発されたモデルは染色体破砕(chromothripsis)である。このモデルでは、染色体が大規模な破砕をこうむった後に不正確な再組立てが続く。Stephensら「Massive Genomic Rearrangement Acquired in a Single Catastrophic Event during Cancer Development」、Cell vol.144 no.1、27〜40頁、(2011年1月)。この染色体破砕モデルでは、特定の種類の癌が、相関関係にある離散的な遺伝子変異体と関連づけられそうであるとは予測していない。一般的になってきている別のモデルでは、仮説としてドライバー変異とパッセンジャー変異を取り上げる。このモデルは、多くの癌ゲノムが突然変異で満たされるという観察に基づく。このモデルでは、これらの突然変異の大多数はおそらく乗客であり、つまり癌の発生の一因ではなく、それよりむしろ癌の増殖時に発生した突然変異である。http://www.news−medical.net/news/20100219/Cancer−genomes−Distinguishing−between−driver−and−passenger−mutations.aspx(最終アクセス2011年10月27日)を参照されたい。このモデルによれば、生物学データベース中の突然変異のほとんどはパッセンジャー変異であることになる。
本明細書に開示の癌特定技法により、文献ベースの癌相関性遺伝子変異体に頼ることが少なくなるか、または無くなる。代わりに、本開示の技法では、発癌機構にかかわらずすべての癌に有効であると期待される原理・考慮事項にまず依拠する。本開示の技法ではまた、全ゲノム配列(WGS)が利用可能であることを活用する。WGSは、いくつかの既存の市販ゲノムシークエンサーまたは配列決定サービスから得られる(適切なシークエンサーまたは配列決定サービスが、例えば、Illumina(登録商標)、San Diego、カリフォルニア州、米国、Knome(登録商標)、Cambridge、マサチューセッツ州、米国、Roche 454(Roche、バーゼル、スイスから入手可能)、およびIon Torrent、Guilford、コネチカット州、米国、から入手可能である)。
本明細書に開示の技法は、以下の観察結果を前提とする。すなわち、すべての癌は遺伝子の異常な変化と関連づけられる。これは、特定の発癌の機構にかかわらず、また特定の癌の種類にかかわらず当てはまる。この観察結果に基づき、本開示の技法は、疑わしい細胞のWGSを同じ個体からの正常細胞のWGSと比較することに依拠する。疑わしい細胞が確かに癌細胞である場合には、そのWGSと、同じ個体からの正常細胞のWGSとの間の相違は、同じ個体からの2つの異なる正常細胞のWGS間の相違よりも大きいと予想される。したがって、ある対象(例えば、人間の医療患者または獣医患畜)から採取された疑わしい組織試料のWGSを、同じ対象から採取された正常組織試料のWGSと比較することによって、疑わしい組織試料が実際に癌組織を含む可能性が容易に評価される。正常組織のWGSは、癌と関係がないゲノムの部分を取り除くフィルタとして使用されて、疑わしい組織が実際に癌組織であるかどうかの証拠となるユニークな変異体だけが残される。
この手法には大きな利点がある。この手法により、良性(すなわち、癌と関係がない)変異体を癌シグネチャとして誤解釈する可能性は、このような良性変異体が同じ対象の正常WGSとの比較によって選別され除かれるので、大幅に低減する。一方で、文献の変異体−癌相互関連物との比較によっては検出されないユニークな癌関連変異体が、本開示の手法を用いて容易に検出される。
本開示の手法では、疑わしい組織試料が癌を含むかどうかを判定するが、どの種類の癌であるかは特定しない。同業者にはこれが、癌の診断および監視での大きな不利点と見えるかもしれない。しかし、本明細書では、場合によって認められるこの不利点は、当初考えられうるほどには大きくないと認識する。第1に、本開示の手法は、遺伝子材料を変異体の参照データベースと網羅的に比較することに依拠しないので、変異体による従来の癌特定よりもかなり速い。したがって、この手法は、初期の癌スクリーニングに使用することができる(本開示の手法で癌の可能性が示された場合には、変異体による従来の癌特定の形で追跡が行われる)。本開示の手法はまた、癌監視でも有用である。というのはその場合、癌の種類が(通常は)すでに知られており、求められている情報が癌の進行についてのものになるからである。本明細書でさらに開示するように、本開示の手法の速度によりこの手法は、外科的除去または放射線治療などの介入手順のための計画時に、腫瘍の描写で使用するのに実行可能な技法にもなる。
図1を参照すると、本開示の癌試験技法は、試料抽出検査室8で患者6から抽出された1つまたは複数の組織試料について本開示の癌試験を行うゲノム検査室4で適切に実行される。検査室4、8には、様々な関係がありうることを理解されたい。例えば、いくつかの実施形態では、2つの検査室4、8は同じ検査室であり、例えば、それ自体の組織試料採取もまた行う病院にある院内ゲノム検査室である。別の実施形態では、2つの検査室4、8は、同じ病院または他の共同医療施設に設置された別々の院内検査室でよい。さらに別の実施形態では、2つの検査室4、8は組織的および/または地理的に別々でよい。例えば、試料採取検査室8は、ある病院に設置された院内検査室でよく、ゲノム検査室4は商業サービス提供業者でよく、この提供業者は、抽出された組織試料を郵便または他の配達経路を介して受け取り、試験結果を元のその病院にインターネットまたは他の電子通信経路を介して伝達する。
これらの実施形態のいずれでも、試料採取検査室8は、患者6から少なくとも2つの組織試料、すなわち「疑わしい」組織試料10および「正常」組織試料12を抽出する。疑わしい組織試料10は、癌組織を含む疑いがある患者6の部位または領域から取得された組織試料である。例えば、疑わしい組織試料10は、悪性であることが疑われる、もしくは分かっている腫瘍から(本明細書では「疑われる」は「分かっている」を包含すると理解されたい)、または肺癌があると疑われる肺から、または悪性であると分かっているか疑われる乳癌病変などから取得されてよい。正常組織試料12は、同じ患者6から取得されるのであるが、正常組織試料12が癌組織を含まないことを保証するのに有効な患者6の領域または部位から取得される。正常な組織試料12を抽出できるこのような「正常」領域を特定することは、様々な種類の情報に基づくことができる。例えば、(まだ)転移していない悪性腫瘍の場合、正常組織試料12は、腫瘍から十分に遠く離れている、無視できない量の癌細胞を含んでいそうにない同じ種類の組織の部位から安全に取り出すことができる。転移癌の場合では、正常組織試料12は、無視できない量の転移癌細胞を含んでいそうにない種類の組織から取り出すことができる。例えば、癌が口腔組織まで広がっていそうにない場合には、正常組織試料12は口腔試料でよい。一般に、疑わしい組織試料10と正常組織試料12は、同じ組織型のものであることもないこともある。
図1では、試料10、12はバイアルによって表されていることに留意されたい。しかし、試料10、12は一般に、試料採取された組織の種類に適した任意の形を取ることができ、またその組織の種類に適した任意の容器または支持体によって収容または支持できることを理解されたい。例えば試料10、12は、皮下注射針または他の流体収集装置を使用して取得された流体試料(例えば血液)、表面試料(例えば、口腔スワブによって得られ、滅菌スライド上または他の適切な表面に置かれる)、生検針または他の介入機器を使用して取得された生検試料などでよい。(余談であるが、各図面で、正常組織試料12、および正常組織試料12だけを利用する処理は、見やすくするために点線を用いて描かれている。)さらに、例示的な疑わしい組織試料10が単一の試料として表され、例示的な正常組織試料12が単一の試料として表されているが、どちらかまたは両方の試料が実際には2つ以上の試料の一組を含むことができ、その結果が平均され、またはそれ以外に一緒にされることを理解されたい。
組織試料10、12は、試料採取検査室8からゲノム検査室4へ(検査室4、8が同じ物理的施設ではない限り)搬送される。ゲノム検査室4において、各試料10、12は、遺伝子配列決定装置14を使用して適切に準備および処理されて、疑わしい組織試料10および正常組織試料12にそれぞれ対応する疑わしい全ゲノム配列(疑わしいWGS)20、および正常な全ゲノム配列(正常WGS)22が生成される。遺伝子配列決定装置14は、全ゲノム配列(WGS)を生成できるほぼどんなシークエンサーも使用することができる。いくつかの適切な配列決定装置は、Illumina(登録商標)、San Diego、カリフォルニア州、米国、Knome(登録商標)、Cambridge、マサチューセッツ州、米国、Roche 454(Roche、バーゼル、スイスから入手可能)、およびIon Torrent、Guilford、コネチカット州、米国、から入手可能である。
本明細書では、「全ゲノム配列」、すなわちWGS(当技術分野では、「フル」、「完全」、または「全体」ゲノム配列とも呼ばれる)、または類似の用語は、患者の実質的な、しかし必ずしも完全ではない、ゲノムを包含すると理解されたい。当技術分野では、「全ゲノム配列」という用語、すなわちWGSは、いくつかの用途では少なくとも95%が完全であるような、患者のほぼ完全なゲノムを指すのに用いられる。本明細書で「全ゲノム配列」という用語、すなわちWGSは、ゲノムの0.1%未満が通常はカバーされる、一塩基多型(SNP)遺伝子型同定などの遺伝子特異的技法に使用される「配列」を包含しない。本明細書で「全ゲノム配列」という用語、すなわちWGSは、ゲノムをいかなる参照配列とも合わせる必要がなく、また変異体または他の特徴に注釈をつける必要がない。
WGS10、12は、説明のための図1に代表的なコンピュータ24で示されている電子データ処理デバイス24で処理される。より一般には、電子データ処理デバイス24は、デスクトップ・コンピュータ、ノート型コンピュータ、電子タブレット、ネットワーク・サーバなどでよい。さらに、例示的なコンピュータ24は、ゲノム検査室4の内側にあるように示されているが、電子データ処理デバイスがゲノム検査室4の外側に設置され、有線または無線のローカル・エリア・ネットワークを介して、および/またはインターネットなどを介して検査室4と通信することもまた企図されている。例えば、電子データ処理デバイス24は、検査室4から電子病院ネットワークを介してアクセスするネットワーク・サーバでよい。電子データ処理デバイス24で実行されるWGS10、12の処理は、インシリコの処理と呼ばれることがある。本明細書で開示される様々な実施形態は、本開示のインシリコの処理を実施するようにプログラムされた、またはそれ以外で構成された電子データ処理デバイス24として物理的に具体化できることを理解されたい。さらに、本明細書に開示の様々な実施形態は、本開示のインシリコの処理を実行するための電子データ処理デバイス24によって実行可能な命令を記憶する持続性記憶媒体(図示せず)として物理的に具体化することができる。このような持続性記憶媒体には、例えば、ハード・ディスクもしくは他の磁気記憶媒体、または光ディスクもしくは他の光記憶媒体、またはフラッシュメモリ、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、もしくは他の電子記憶媒体などが含まれてよい。
本開示の癌特定試験は、疑わしい全ゲノム配列20と正常全ゲノム配列22とを、これらのWGS20、22の間の相違が大きければ大きいほど疑わしいWGS20が癌組織である可能性が高いという一般的な前提で比較することに基づく。癌細胞の場合、ゲノムの変化は、大きいインデル(挿入/欠失)、大幅なコピー数変化(CNV)、染色体異常および染色体再配置、ならびに高度に悪性および脱分化型の腫瘍の極端な場合での染色体異数性によって、より顕著になる。この場合もやはり、これは発癌の機構にかかわらず当てはまる。これらのゲノム変化には、全ゲノム内の顕著な変化またはエラーが含まれ、それによって癌細胞のWGSが正常細胞のWGSから大幅に逸脱することになる。一般には、これは程度の問題である。正常細胞のWGSでも、互いに逸脱があることが予想される。これらの逸脱は、癌細胞ではかなり大きいことが予想される。この前提はまた、1つの癌段階から次の段階への癌進行を監視することに適用することが、後の癌段階では正常細胞WGSに対してよりいっそうの差別を(より早い段階の癌細胞に対し)示すことが予想されるので可能である。実際、後期段階の癌細胞のWGSは、初期段階の癌細胞のWGSと比較して、定量化できる差別の増大を示すことが予想される。有利なことに、これらの変化は、疑わしい組織試料のWGSを詳細な解析パイプライン(例えば、完全整列/組立て、変異体コーリングおよび注釈づけ、ならびに文献の変異体−癌相関データベースとの比較を含む)にかける前でも確認することができる。
この目的に向けて、動作30でWGS比較測定基準を計算して、疑わしい全ゲノム配列20と正常全ゲノム配列22の定量的比較を行う。決定動作32で、定量的WGS比較測定基準が癌基準を満たすかどうかを決定する。決定動作32で達した結論に応じて、疑わしい組織試料10は、正常組織として分類されるか(動作34)、または癌組織として分類される(動作36)。この点で、決定動作32はまた、分類子または分類動作と見ることもできる。
図1の例示的な分類子32には2値(すなわち、癌または正常のどちらか)分類が用いられているが、より一般的には、この分類でソフト分類または確率的分類(例えば、試料10が癌である70%の確率がある)を用いることができることに留意されたい。この場合、百分率は、試料10が癌を含む確率として、または試料に含まれる癌の「量」として、様々に解釈することができる。例えば、疑わしい試料10は、実際には、いくらかの癌細胞およびいくらかの正常細胞を含むことがある。このような場合、分類子32からの低確率出力が、癌細胞である細胞の割合が低いことを示すことができる。
分類子32は、癌の種類については見解を述べずに、疑わしい試料10が癌を含むかどうかについてだけ見解を述べる。出力34、36は、様々に解釈および/または利用することができる。図1に図示の例では、動作30、32、34、36で具体化される癌試験は、癌スクリーニング試験として用いることができる。この応用例では、疑わしい組織試料10が正常組織であること示す出力34が得られた場合、さらなる動作は通常起こされない。一方、癌の確率を示す出力36が得られた場合には、追加の診断が医師の指導の下で通常行われる。
図1に図示の例では、追加の診断には、従来の遺伝子変異体−癌相関解析を行うことが含まれる。有利なことに、この解析は、疑わしいWGS20を「再使用」することができる。この目的に向けて、出力36は、ゲノム整列/組立て40、変異体コーリング42および注釈/特定44の各動作と、癌の種類の出力46とを呼び出す呼出し動作38としての役割を果たし、癌の種類の出力46は、臨床研究においてその種類の癌と相関関係があることが示された遺伝子変異体を特定する動作40、42、44に基づく。この実施形態では、追加の遺伝子試験40、42、44、46は、癌試験30、32、34、36の検証としても機能し、また癌の種類を特定することによって追加の情報を提供する。
本明細書に開示の癌試験技法について図1を参照して概説したが、WGS比較測定基準計算動作30および分類子動作32のいくつかの具体的な実施形態について、図2〜5を参照して説明する。
図2を参照して、WGS比較測定基準計算動作30の第1の実施形態301、および分類子動作32の第1の実施形態321について説明する。同等数の組織試料のリードを選択するために適用された塩基クオリティの同じカバー度および同じ閾値に対して試料すべて(複数の場合)を別々に配列決定することによって、疑わしいWGS20を作り出す。組織試料ごとのリードは、ブルーム・フィルタのような確率的データ構造で保存される。動作50で、疑わしいWGS20から重複リード(duplicate read)を除去し、類似の動作52では、正常WGS22から重複リードを除去する。正常細胞からのリードは癌細胞からのリードほど多く重複しないことが、癌細胞で予想される挿入の数が正常細胞と比較して多いことを反映して、予想される。それに応じて、重複リード除去動作50、52では、除去された重複リードの量を、疑わしいWGS20の場合の重複であるリードの百分率54、および正常WGS22の場合の重複であるリードの百分率56などの、適切な計量によって定量化する。正常試料の百分率56に基づき(ここでは、それぞれ別個に配列決定された複数の正常組織試料があると仮定して)、正常細胞の閾値が見出される。いくつかの実施形態では、正常細胞について、10〜15%の重複リードの閾値が予想されるが、測定された重複値56に基づくもっと高い値、またはもっと低い値が企図される。動作58で、百分率54、56の比を計算する。「正常」百分率56を上回る(例えば、原理的に重複挿入を含む発癌に対応する20%を超える)カットオフ、または下回る(例えば、原理的に欠失を含む発癌に対応する10%未満の)カットオフがあれば、癌と関連している可能性がある。次に分類子321で、動作58で計算された比が、ここでは前述のカットオフ値で示される規定癌基準を満たすかどうかを判定する。
図2を参照して説明したWGS比較測定基準計算動作301は、事前にゲノムの整列を必要としない、癌の高速インシリコ・スクリーニング試験としての役割を果たすことができる。重複リード検出を効果的に実施する1つの方法は、ブルーム・フィルタを使用することによるものである。ブルーム・フィルタは、0に初期化されるビット列と、配列決定リードを列のビットの1つにマッピングする1組のハッシュ関数とを含む。リードをブルーム・フィルタに加えるために、リードは、すべてのハッシュ関数によってハッシュされ、出力ビットが設定される。所与のリードがブルーム・フィルタにすでに加えられているかを検査するために(つまり、問い合わせを実施するために)、各出力ビットが1または0であるかを見るために検査されること以外は同じ処理を使用し、いずれかの検査されたビットが0に設定されていれば、そのリードが(まだ)ブルーム・フィルタに加えられていないことが分かり、このリードをフィルタに加える加算操作を検査の後に適切に続ける。「Bloom Filter」、http://en.wikipedia.org/wiki/Bloom_filter(最終アクセス2011年9月23日)を参照されたい。
ブルーム・フィルタの特性は、リードがブルーム・フィルタ内に実際にはある場合に無しとフィルタが誤って表示することが決してないことであるが、ブルーム・フィルタは、リードがフィルタ内にない場合に有りと表示する可能性はある(同Webサイト)。これが起こることは、他の加算操作が、問い合わせのリードを加えることによって設定されたビットのすべてを設定しており、そのため、問い合わせのリードが実際にはブルーム・フィルタに加えられていなくても、その問い合わせがすべての1を返す場合にありうる。しかし、このようなエラーは、重複リードの数を1つだけ大きく見積もりすぎることになるだけであるので、この応用例では特に重要ではない(というのは、リードが検査される初回にリードは、重複ではないときに重複として現われるが、その後は、そのリード検査のどの繰返しも実際に重複であると共に、そのように正しく認識されるからである)。さらに、ブルーム・フィルタは、必要な精度および報告に要する時間が得られるように、列内のビットの数およびハッシュ関数の数を調整することによって微調整することもできる。
図2のWGS比較測定基準301は、計算が高速であるが、WGS20、22からの多くの情報を使用しない。
図3を参照して、入手可能な情報をより多く使用する、WGS比較測定基準計算動作30の第2の実施形態302、および分類子動作32の第2の実施形態322について説明する。疑わしいWGSから重複リードを除去するために、動作50を図2の実施形態と同様に実行する。正常WGS側では、動作60でリードをブルーム・フィルタに入力して、正常WGS22のリードを表すブルーム・フィルタ62を作り出す。すでに記したように、これには、正常WGSからすべての重複を除去する効果がある。動作64で、リードが正常WGS22の一部であるかどうかを判定するために、疑わしいWGSの各リードをブルーム・フィルタ62に問い合わせる。ユニークなリード、つまり疑わしいWGS20にユニークであり、正常WGS22には含まれないリードを、疑わしいWGSにユニークであるリードの組66として蓄積する。
動作64を実行する際、リードがブルーム・フィルタ内に実際にはある場合に無しと誤って表示することが決してないブルーム・フィルタの特性により、ユニークなリードの組66が、正常WGSの一部であるリードを全く含まないことが保証される。しかし、ブルーム・フィルタ62は、リードがフィルタ内にない場合に有りと誤って表示しうるので、2、3個のユニークなリードが誤って動作64で選別されて除かれる可能性がある。したがって、リード66はすべて、疑わしいWGS20にユニークであることは保証されるが、いくつかのユニークなリードが失われている可能性がある。
ユニークなリードの組66は、WGS比較測定基準として取り扱うことができ、あるいはWGS比較測定基準を組66から導出することができる。図3の説明的な実施形態では、WGS比較測定基準を組66から、分類子322への入力としての役割を果たすユニークなリードの量として導出する(好ましくは、ユニークなリードの量は、疑わしいWGS20内のリードの総数によって、または動作50によって重複を除去した後の疑わしいWGS20内のリードの総数によって正規化される)。別の適切なWGS比較測定基準は、疑わしいWGS20にユニークであるリード66の合計整列長さと、疑わしいWGS20の(任意選択で、動作50により重複を除去した後の)合計ゲノム長さとの比である。このWGS比較測定基準は、癌ゲノム内で受けた総変化の有効な尺度であり(疑わしい組織が確かに癌であると仮定して)、分類子322によってユニークなリード量の代わりに適用することができる。
あるいは、代替決定動作3222として図3にも示されているように、ユニークなリード66は整列させ、既知の癌変異体と比較することもできる。この手法では、正常なWGS22のユニークなリード(重複が除去されている)をブルーム・フィルタ62の中に集める。複数の正常な組織試料がある場合、これらをブルーム・フィルタ62の中にプールすることが、すべての試料からのすべての正常なWGSリードを動作60によりブルーム・フィルタ62の中に入力することによって可能である。したがって、ブルーム・フィルタ62は、リードの「正常な組」になる。この「正常な組」を、疑わしいWGS20のユニークなリードとして得られた(動作50により)リードの「癌の組」と比較する。ここでもやはり、複数の疑わしい組織試料が配列決定された場合、これら複数の試料からのリードをプールすることができる。(ここではブルーム・フィルタは、ブルーム・フィルタからリードを呼び戻す方法がなく、所与のリードがブルーム・フィルタ内にあるかどうかを問い合わせることしか可能ではないので、適切ではない。)「正常な組」内にも生じる「癌の組」のリード(つまり、もし供給されれば複数の疑わしい組織試料からのリードをプールすることが一緒の動作50の出力)は破棄される(この場合もやはり、これは動作64で、ブルーム・フィルタ62に対して問い合わせることによって実施される)。残っているユニークなリード66は、特に癌と関連づけられた変異体を含むという点で、「原因となる組」であると予想される。代替分類子3222では、これらのユニークなリード66を新規に整列させて、一塩基多型(SNP)、インデル(挿入または欠失)、または他の遺伝子変異体を特定し、特定された変異体を文献で知られている癌相関性変異体と比較する。この実施形態では、ゲノムのバルクが、証拠となる変異体を得るために整列および探索されないので、WGS比較測定基準(この実施形態では、実際のユニークなリードの組66)を使用することによりかなり高速の処理が可能になる。代わりに、標準参照配列の一部ではなく、かつ調査を受けている特定の患者6の正常ゲノムの変異体ではないリード66だけを整列させ探索する。
図3の手法では、整列は、ユニークなリードの組66についてのみ実施する。しかし、疑わしいWGS20および正常なWGS22の整列を実施した場合でも、疑わしいWGS20にユニークである変異体の組を含むWGS比較測定基準、またはこの組から計算されたWGS比較測定基準を使用することによって、かなりの効率ゲインを実現することができる。
図4を参照すると、動作70で、疑わしいWGS20を標準参照配列と整列させて、整列された疑わしいWGS72を変異体(標準参照ゲノムに対する)に印付きで生成する。同様に、動作74で、正常WGS22を標準参照配列と整列させて、整列された正常WGS76を変異体に印付きで生成する。整列70は、好ましくは「緩い」整列であり、つまり、疑わしい組織試料10が実際に癌試料である場合に存在することが予想される新規の変異体をエラーとして拒否しないように、厳しさを減じて行われる整列である。動作78で、整列された疑わしいWGS72の変異体を整列された正常WGS76の変異体と突き合わせて選別して、疑わしいWGS20にユニークである変異体の組を特定する。WGS比較測定基準は、このユニークな変異体の組を含むか、またはこの組に基づいて計算される。
1つの手法では、WGS比較測定基準は、疑わしいWGSだけに見出されたユニークな変異体の量(この場合もやはり、整列された疑わしいWGS72内の変異体の総数によって、または他の正規化係数によって、任意選択で正規化されている)を含む。図示の例では、このWGS比較測定基準は、分類子323への入力としての役割を果たし、分類子323では、疑わしいWGSだけに見出されたユニークな変異体の量を適切な癌基準と突き合わせて比較する。通常、疑わしいWGS20内のユニークな変異体の数が大きければ大きいほど癌が示唆される傾向があり、したがって、分類子323で使用される癌基準は、それを超えると疑わしい組織試料20が癌と標識される閾値であることが適切である。
図4に代替分類子3233としても示されている別の手法では、疑わしいWGS20だけに見出されたユニークな変異体を、文献に基づいて評価される影響レベルに従ってランク付けする。例えば、癌遺伝子および腫瘍抑制遺伝子の、またはその付近の異常は、テロメア長を増大させるので、強い影響を与えると評価される。トリアレリックおよびテトラアレリック単一ヌクレオチド変異体(SNV)を適切に表にして、局部的な複数の腫瘍細胞集団を示唆するパターンを特定する。
図5を参照すると、WGS比較測定基準計算動作30の第4の実施形態304が示されている。この実施形態では、再び整列動作70、74を使用して、整列された疑わしいWGS72および正常WGS76を生成する。この実施形態では、整列動作70、74で生成された整列統計量を動作80でWGS比較測定基準に公式化する。様々な整列統計量により、癌WGSが正常WGSに対して効果的に差別化されると予想される。本発明者らは、正常WGSと比較して癌WGSでは、表1の4つの特徴が一般に著しく異なることを観察した。これらの細胞型を区別するのに効果的であると企図される他のパラメータには、破損対末端、見当たらない対、対配向などが含まれる。
図4および図5を引き続き、図1に戻ってさらに共に参照すると、変異体(標準参照ゲノムに対する)に印が付けられている整列された疑わしいWGS72が、図1に示された動作40の出力に対応することが注目に値する。したがって、変異体による解析40、42、44、46が、癌36の結果を出力する試験30、32を条件として実施される場合には、動作40を省略することができ、整列された疑わしいWGS72を動作42に直接入力することができる。
WGSデータに基づく本開示の癌試験では、癌に起因する、ありそうな遺伝子変化について大量のWGSを事前選別するための高速評価を実現し、それによって、計算的および時間的に大規模な解析パイプラインの指針が得られる。本開示の癌試験はまた、癌の進行を定量化するのに有用であると期待される。本開示の癌試験実施形態では、全WGSの規模で癌により受けた遺伝子損傷を効果的に測定する。これらの結果は、詳細な特異的な変異体による遺伝子解析を待たなくても迅速に取得可能である。本開示の癌試験は、通常のゲノム解析とは異なっている、また限定された計算的基盤を使用する、癌の規定された解析パイプラインを選択するのに使用することができる。WGS比較測定基準は、癌の脱分化/悪性度のレベルの適切な尺度であり、したがって予測値になる。
いくつかの実際的な癌診断応用例では、疑わしい組織試料10および正常組織試料12が同じカバー度まで配列決定され、その生の配列決定リードを使用して癌ゲノムのランダム性が測定される。正常細胞のベースライン(すなわち正常)WGS22は、患者6から、例えば白血球細胞(WBC)、口腔からの細胞などでよい正常組織試料12についての全ゲノム配列決定を行うことによって用意される。疑わしいWGS20は、癌細胞配列決定により得られる。生のリードは直接比較され、WGS差異測定基準が得られる。
癌進行の検出では、疑わしい組織試料10が癌組織および境界の別々の領域から集められ、また疾病の結節性進行の場合では、(可能な場合に)関与するリンパ節(1つまたは複数)からも集められる。疑わしい組織試料10はまた、(実行可能および適用可能である場合に)転移性病巣から集められてもよい。正常組織試料12は、小さい細胞肺癌腫の場合には正常肺組織などの適切な正常組織から集められ、あるいは基底細胞癌腫/皮膚扁平細胞癌腫の場合には皮膚生検から集められる。正常組織試料12は、コントロールまたはベースラインとしての役割を果たす。
本明細書で開示の癌細胞特定手法の別の応用例は、腫瘍描写に関する。外科的腫瘍除去、ガンマ・ナイフ手術、または放射線治療の計画過程の一部として、腫瘍は正確に描写されなければならない。しかし、癌細胞は、正常な体細胞と密接な関係があり、したがって正常な体細胞と区別することは困難なことがあるので、このような描写は困難なことになりうる。コンピュータ断層撮影(CT)または磁気共鳴画像法(MRI)などの画像化技法では、腫瘍と周辺の健康な組織との間の明快な描写ができないことがあり、また画像化された境界が、(画像中ではよく画定されていても)微小浸潤などにより癌細胞の物理的な分布と正確に一致しないことがある。病理組織診断を使用することもできる。ここでは、疑わしい組織が抽出され、癌細胞を差別化し特定するために、証拠となる染色と場合によっては併せて、顕微鏡で調べられる。病理組織診断は、形態的に異なる特性を有する、かつ/または適切な染色条件のもとで特定可能に色付く癌細胞に依拠する。残念ながら、これはいつでも当てはまるわけではない。正常細胞との差別が微妙である場合、正確な病理組織学的評価は人間の技師の能力に依拠し、したがってヒューマン・エラーが生じやすい。実際、場合によっては癌細胞が形態的に正常細胞と全く同じであることがあり、それによって病理組織診断は効果的でなくなる。
本開示の癌細胞特定技法によって実現される迅速なスループットにより、これらの技法を腫瘍境界描写に使用することが容易になる。
図6を参照すると、組織試料が患者6から、腫瘍100の中および付近の部位で、画像誘導試料採集を用いて集められる。この画像誘導試料採集では、生検針などの介入機器102により組織試料104を画像化システム106(そのスキャナ空洞の一部が図示されている)の誘導を受けて取得する。ゲノムDNA/mRNAの配列決定には、介入機器102は吸引針であることが適切である(吸引針は、特定の種類の病理組織診断には不十分なこともある)。試料採取では、細針吸引生検(アクセス可能な腫瘍の場合)、神経索腫瘍での定位生検などの適切な任意の取得技法を使用することができる。画像化システム106は、コンピュータ断層撮影(CT)または磁気共鳴(MR)など、腫瘍100および隣接する器官または他の重要な構造物(図6には示されていない)などの顕著な特徴を画像化できる任意のモダリティとすることができる。いくつかの実施形態では、画像化システム106は、Brilliance(登録商標)Big Bore(登録商標)CT(Koninklijke Philips Electronics N.V.、Eindhoven、オランダ、から市販されている)であり、介入試料取得手順を実施しやすくする大きい空洞直径を有する。本明細書で開示の癌細胞特定技法を使用するために、少なくとも1つの正常組織試料108もまた患者6から取得される。いくつかの実施形態では、正常組織試料108は、口腔試料の場合の口腔スワブなど、介入機器102以外の機構によって取得されてよい。説明の目的で、癌組織を含む試料104は中が黒い丸として示され、正常組織を含む試料104、108は中が白い丸で示されている。(もちろん、このように示すことは、参照正常試料108の場合を除き、癌細胞試験で決定されるべきことである。)図6にはまた、腫瘍100の実際の境界110も示されており、境界110は、正常な組織と癌組織を分離している。(この場合もやはり、境界110は、取得された組織試料104についての癌細胞試験で決定されるべきである。)
組織試料が採集された後、これらは、各試料104を癌組織または正常組織として分類するために、図1〜5を参照して本明細書で開示されたように処理される(各試料104は疑わしい組織試料10に対応し、これら組織試料104は個別に処理され、1つまたは複数の組織試料108は正常組織試料12として使用される)。これらの分類と、組織試料104が取得された試料位置とに基づいて(これらの位置は、組織試料取得時に、例えば画像化システム106から提供される空間座標を用いて記録される)、腫瘍100の範囲が空間的にマッピングされ、癌組織と正常組織の間の境界110が確定される。WGSを生成する際、いくつかの実施形態では、エクソーム捕獲などの適切な技法を使用して、(DNA配列決定の代わりに、またはそれに加えて)RNAゲノム配列決定が生じる。
1つの手法では、組織試料104は、図6に示されたような画像化によって表示された境界の中心から外側への径方向の外向きに、腫瘍の別々の深さから採集される。多次元(例えば、2次元または3次元)マッピングを得るために、この採集は、直交する直径の1つまたは複数の対に沿って適宜に繰り返される(図6にはこのような多次元性は表示されていない)。これらの試料からのDNAおよび/またはRNAが抽出され配列決定されて、試料104ごとに疑わしいWGSが生成される。
いくつかの実施形態では、一塩基多型(SNP)、インデル、構造変異体(SV)、コピー数変異体(CNV)などの遺伝子変異体が従来の遺伝子解析を用いて抽出され、発現パターンが抽出されると共に、腫瘍100に対応する癌の種類と関連があると報告されているシグネチャのデータベースと突き合わせて比較される。切除境界110は、正常配列パターンが観察される複数の点にまたがって引かれる。
しかし、癌の種類を特定することは、腫瘍100の性質が一般に、放射線治療、ガンマ・ナイフ手術、外科的腫瘍除去などを計画する前に知られているので、一般には必要ない。したがって、本開示の手法は、例えば図1の動作30、32を参照して本明細書で説明したように、適宜に使用されるが、従来の変異体解析よりもかなり速いという利点を有する。
1つの異型の手法では、組織試料104が、図6を参照して説明したように採集され、放射状線(腫瘍100の中心から外側に向かう)に沿って径方向に隣接する試料の対ごとに2つのWGSが互いに比較されて、外側試料の一致しないリードが特定される。これら外側試料の一致しないリードが選択されて、参照配列と突き合わせて整列される。この整列は、外向きに進むことにより外側の対の試料が正常組織の試料になる箇所に達するまで不十分と予想され、その箇所において整列は良好になるはずである(例えば、停止閾値を超える整列百分率として定量化される)。
別の異型の手法では、試料採集は図6を参照して説明したものと同様である。しかし、直接DNA配列決定ではなく、RNA WGSを生成するためのエクソーム捕獲配列決定が行われる。正常試料のトランスクリプトームは癌試料と異なることが予想され、それによって境界110の検出が可能になる。
別の異型の手法では、試料採集は図6に示されたものと同様であり、画像化システム106を使用する画像誘導を用いる。この異型の手法では、トランスクリプトームのほぼリアル・タイムの配列決定がナノポア配列決定などの配列決定法によって行われる。http://www.nanoporetech.com/、最終アクセス2011年10月27日、を参照されたい。トランスクリプトーム解析は、任意選択で、発現シグネチャのデータベースを参照して検証される。
別の異型の手法では、画像誘導組織試料採集が、腫瘍の既知の(平均)微小浸潤の長さの範囲内、およびそれを越えた明らかに正常組織内の画像化によって表示された腫瘍100の境界周辺で、図6を参照して説明したように行われる。高速WGS解析が、図1〜5を参照して説明した技法の1つによって、境界110の外側で特定された第1の正常試料を含むすべての試料104について行われる。次に、より詳細な、または完全な配列決定(すなわち、「深い配列決定」)が、境界110の外側で特定された第1の正常試料について行われて、それが確かに正常組織であることが確認される。この深い配列決定により、悪性組織からの何らかの無視できない寄与が依然としてあることが示された場合には、この試料は切除可能領域に含められる(すなわち境界110は、この試料を包含するように外側に拡大される)。後者の場合、処理は任意選択で、高速WGS解析を使用して試験の結果が正常であった隣の外側試料について繰り返される。すなわち、この隣の外側試料は、深い配列決定を使用して検査される。
別の異型の手法では、別々の組織試料104からの各配列決定リードが互いに差し引かれる。正常組織内の変化の百分率が決定される(例えば、正常組織試料108を使用して)。正常組織では、約1.5〜2.5%の変化が一般に予想される。癌組織試料は、正常組織よりも大きい変化を示すと予想され、それによって境界110を検出することが可能になる。例えば、いくつかの実施形態では、2つの組織試料間のリード類似性が97.5%未満である場合、これを細胞型の差異と考えることができ、したがって境界110を画定することができる。
本発明を好ましい諸実施形態に関して説明してきた。明らかに、前述の詳細な説明を読み理解することによって、修正形態および代替形態が他の人に想起されよう。本発明は、このような修正形態および代替形態を、これらが添付の特許請求の範囲またはその同等物の範囲内に入る限り含むと解釈されるものである。