JP6806909B2 - 腫瘍形成性スプライスバリアントの判定 - Google Patents

腫瘍形成性スプライスバリアントの判定 Download PDF

Info

Publication number
JP6806909B2
JP6806909B2 JP2019538438A JP2019538438A JP6806909B2 JP 6806909 B2 JP6806909 B2 JP 6806909B2 JP 2019538438 A JP2019538438 A JP 2019538438A JP 2019538438 A JP2019538438 A JP 2019538438A JP 6806909 B2 JP6806909 B2 JP 6806909B2
Authority
JP
Japan
Prior art keywords
junction
sample
splice
baseline
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019538438A
Other languages
English (en)
Other versions
JP2020506684A (ja
Inventor
ジュン スネデカー,
ジュン スネデカー,
ハン−ユー チュアン,
ハン−ユー チュアン,
グウェン ベリー,
グウェン ベリー,
シャオ チェン,
シャオ チェン,
Original Assignee
イルミナ インコーポレイテッド
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド, イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2020506684A publication Critical patent/JP2020506684A/ja
Application granted granted Critical
Publication of JP6806909B2 publication Critical patent/JP6806909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Description

優先権出願への参照による援用
本願は、2017年1月17日に出願された米国仮出願番号第62/447,382号に基づく優先権の利益を主張しており、この仮出願は、本明細書によって参考として援用される。
背景
スプライスバリアントは遺伝子転写物の1つのバリエーションである。多くの遺伝子が細胞の環境または機能に依拠して複数の可能なスプライスバリアントを有することにより、単一の遺伝子が、複数の可能なタンパク質をコードすることが可能になる。タンパク質に翻訳される前に、mRNA転写物は、タンパク質配列におけるコードされないmRNA転写物の部分を除去するようにスプライスされる。図1に示されるように、カルシトニン遺伝子関連ペプチド(CGRP)102およびカルシトニン104は同一の起源遺伝子の転写物によって生成され、前駆体mRNA(pre−mRNA)106として発現されて、遺伝子転写物がどこで発現されるかに依拠して異なってスプライスされる。非限定的な例として、pre−mRNA106は、神経細胞にあるときにはCGRP102としてスプライスされてよく、甲状腺細胞にあるときにはカルシトニン104としてスプライスされてよい。
従来、腫瘍形成性スプライスバリアントは、患者から1組の非腫瘍試料および1組の腫瘍試料を取得することによって判定され得る。次いで、試料の各々が配列決定され、参照(DNAまたはRNAのいずれか)に対してマッピングされる。続いて、全体のスプライス転写物が新たに識別され、スプライス転写物に基づき、正常な(非腫瘍)試料と異常な(腫瘍)試料の間の発現差分が評価される。
腫瘍形成性スプライスバリアントを判定する伝統的方法は、多数の試料を必要とするので理想的ではない。また、一人の患者のために多数の試料を試験すると、試薬のコストと配列決定のコストの両方が大幅に増加する。例えば、腫瘍試料/非腫瘍試料の対が必要な場合には、コストは少なくとも2倍になるはずである。
要旨
発明の要旨は、以下の、発明を実施するための形態においてさらに説明される概念の選択を簡単に導入するために提供されるものである。発明の要旨は、特許請求される主題の主な特長または重要な特徴を識別するように意図されたものではなく、特許請求される主題の範囲を限定するように使用されることを意図したものでもない。
本開示の一態様は、スプライスバリアントを識別するための様々な方法およびシステムを提供するものである。一実装形態では、方法は、単一の生物学的試料からの複数のRNA配列リードから1つまたは複数の試料のスプライス接合部位を判定するステップと、複数の健康なRNA試料から判定された1組のベースラインスプライス接合部位を検索するステップと、1つまたは複数の試料のスプライス接合部位を1組のベースラインスプライス接合部位と比較するステップと、ベースラインスプライス接合部位とオーバラップしない試料のスプライス接合部位を含む1つまたは複数のフィルター処理された試料のスプライス接合部位を識別するステップであって、1つまたは複数のフィルター処理された試料のスプライス接合部位は候補腫瘍形成性イベントである、ステップとを含む。
いくつかの実施形態は、候補腫瘍形成性イベントのリストを出力するステップをさらに含む。
いくつかの実施形態では、複数の健康なRNA試料は、地理的領域、年齢、性別、人種群、組織タイプ、または試料保存特性タイプのうち1つまたは複数の断面から得られた健康なRNA試料を含む。
いくつかの実施形態では、複数の健康なRNA試料は、肺、副腎、膀胱、乳房、卵巣、肝臓、前立腺、皮膚、および脾臓からなるグループから選択された1つまたは複数の組織タイプからの試料を含む。いくつかの実施形態では、複数の健康なRNA試料は、ある範囲の年齢にわたるドナーからの試料を含む。
いくつかの実施形態では、単一の試料からの試料接合部位を判定するステップの前に、複数の健康なRNA試料からのベースラインスプライス接合部位が判定される。
いくつかの実施形態では、ベースラインスプライス接合部位のための複数の健康なRNA試料は、単一の生物学的試料と同一の生物学的対象からは取得されない。
いくつかの実施形態では、ベースライン接合部位は試料接合部位と同一のゲノム領域に由来する。
いくつかの実施形態では、単一の生物学的試料は腫瘍試料に由来する。
いくつかの実施形態では、試料のスプライス接合部位とベースラインスプライス接合部位は両方とも共通のアッセイを使用して判定される。
いくつかの実施形態では、1つまたは複数の試料接合部位を判定するステップは、単一の生物学的試料からの複数のRNA配列リードを判定するステップと、単一の生物学的試料からのRNA配列リードとアラインしたDNA参照配列を検索するステップと、RNAリードにおいて、DNA参照と比較して失われた連続位置として1つまたは複数の試料接合部位を判定するステップとを含む。
いくつかの実施形態では、フィルター処理された試料のスプライス接合部位はサードパーティ接合部位とオーバラップせず、サードパーティ接合部位は、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフから判定される。
いくつかの実施形態では、ベースラインスプライス接合部位の組は、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフを判定せずに判定される。
いくつかの実施形態は、スプライスバリアントを識別するためのシステムを提供する。このシステムは、メモリと、少なくとも1つのプロセッサと、命令を含有している少なくとも1つの非一時的コンピュータ可読媒体とを含み、命令が、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、単一の生物学的試料からの複数のRNA配列リードから1つまたは複数の試料のスプライス接合部位を判定するステップと、複数の健康なRNA試料から判定された1組のベースラインスプライス接合部位を検索するステップと、1つまたは複数の試料のスプライス接合部位を1組のベースラインスプライス接合部位と比較するステップと、1つまたは複数のフィルター処理された試料のスプライス接合部位を識別するステップであって、フィルター処理された試料のスプライス接合部位が、ベースラインスプライス接合部位の組とオーバラップしない試料のスプライス接合部位を含み、フィルター処理された試料のスプライス接合部位は候補腫瘍形成性イベントである、ステップとを含む動作を遂行させる。
本明細書で説明されるように、様々な他の特徴および利点は、これらの技術の中へ要求通りに組み込まれ得る。
図1は、スプライスバリアントの例示的特徴を示す概念図である。
図2は、スプライスバリアントの判定を含む動作環境の一実施形態を示すブロック図である。
図3は、図2の動作環境によって利用されるスプライスバリアント判定サービスの例示の構成要素の一実施形態を示すブロック図である。
図4は、接合部位分析の一実施形態を示す流れ図である。
図5は、可能性のある腫瘍形成性接合部位を判定するステップの一実施形態を示す流れ図である。
図6は、試料接合部位を判定するステップの一実施形態を示す流れ図である。
図7は、ベースライン接合部位を判定するステップの一実施形態を示す流れ図である。
図8は、フィルター処理された試料接合部位を判定するステップの一実施形態を示す流れ図である。
図9は、フィルター処理された試料接合部位を検証するステップの一実施形態を示す流れ図である。
図10は、可能性のある腫瘍形成性接合部位を判定するステップの一実施形態の概念図を伴う流れ図である。
図11は、図10の実施形態からの実験結果を示す表である。
図12Aおよび図12Bは、フィルター処理された試料接合部位を検証するステップの特徴を示す概念図である。 同上。
詳細な説明
全般的に説明すると、本開示は、ベースライン分析によって腫瘍形成性スプライスバリアントを判定するための方法およびシステムに対応するものである。
癌細胞ではスプライシングが破壊されることが多い。その全体が参照によって本明細書に組み込まれているDvinge, H.、およびBradley, R. K.(2015年)、「Widespread intron retention diversifies most cancer transcriptomes」Genome Medicine、7巻(1号)、45頁に説明されているように、スプライシング変化の原因となる破壊は多くの癌において識別されている。加えて、製薬会社は、これらのバリアントの製品を薬物治療の可能な標的として識別している。影響を受けたバリアントを持つ患者を識別する能力は、癌治療薬の効能の検討において重要であり得る。
癌の異常なスプライシング(スプライスバリアント)をもたらす可能性がある、DNAレベルにおける複数の突然変異がある。非限定的な例は、その全体が参照によって本明細書に組み込まれているJung, H.、Lee, D.、Lee, J.、Park, D.、Kim, Y. J.、Park, W.-Y.、... Lee, E.(2015年)、「Intron retention is a widespread mechanism of tumor-suppressor inactivation」、Nature Genetics、47巻(11号)、1242〜1248頁に見られる。
Cancer Genome Atlas(TCGA)(米国のメリーランド州ロックヴィルに本社を置くNational Cancer Institute’s Center for Cancer Genomics、および米国のメリーランド州ベテスダに本社を置くNational Human Genome Research Instituteによって管理されている)は、少なくとも(1)スプライス位置の直接的な突然変異と、(2)エクソンの最後の塩基の30の塩基対(bp)の内部で生じる突然変異と、(3)影響を受けたエクソンの近くでは生じないが、スプライシングが起こるところで生じる、転写物に対する変化と、(4)スプライシングに直接関係のない腫瘍形成性の変化(それだけではないがMyc突然変異など)とを含む、突然変異(スプライスバリアント)の複数の仕組みを識別した。
したがって、破壊されたスプライシングをもたらし得る多種多様な仕組みに少なくとも部分的に起因する関連する変化に関するDNAではなくRNAを直接試験することによってスプライスバリアントを識別するのが有利であり得る。
その上、ベースライン分析による腫瘍形成性スプライスバリアントの判定のために本明細書で説明される様々な実施形態によるシステムおよび方法は、可能な腫瘍形成性スプライスバリアントを従来の技法の短所なしで簡単に判定するものである。上記で説明されたように、スプライスバリアント判定の従来の技法は、より侵襲性であり、患者からの複数の生検すなわち試料を採用することに少なくとも部分的に起因して計算負荷が重く、高くつくものである。むしろ、以下でさらに説明されるように、腫瘍の単一の試料が患者から得られ、健康な試料のベースライン参照と比較されてよい。対応する正常かつ健康な試料なしで単一の腫瘍試料を使用するこのタイプのバリアント識別により、分析の複雑さが低減され、正常かつ健康な試料では発現しない検証可能で異常なイベントに的が絞られる。
それゆえに、ベースライン分析による腫瘍形成性スプライスバリアントの判定は、以下でさらに説明されるようなスプライス接合部位判定などのスプライスバリアント判定のための関連要因に的を絞って、初めからゲノム発現を判定する複雑な(計算負荷が重い)プロセスを回避するものである。別の言い方をすれば、単一構造重複(またはすべて)において捕捉する全体の転写物のスプライスグラフを構築するのではなく、所定の遺伝子のエクソンが集められ得る代替のやり方で、スプライスバリアントが接合部位レベルで評価され得る。
スプライス接合部位(接合部位とも名付けられる)は、DNA参照とアラインしたとき、RNA配列において出現しないDNA参照における座標としてスプライスバリアントを規定する。接合部位はアッセイによって判定されてよく、これは、特定の内容物(RNAアッセイのRNAなど)に対する試験である。接合部位は、少なくとも図4に関連して以下でさらに論じられる。非限定的な例として、肺癌における突然変異をスキップするMETエクソン14については、13と15の間の接合部位がスプライスバリアントであると判定され得る。
上記で導入されたように、ベースライン参照は、健康な非腫瘍試料からの接合部位の断面のコレクションである。健康な非腫瘍組織の様々な断面において観測される接合部位(またはスプライスバリアント)のこのベースライン参照は、調査中の腫瘍試料を配列決定するのに使用されるのと同じRNAアッセイによって配列決定されてよい。ベースライン参照は、通常の生理学において捕捉するスプライシングイベントに使用されてよく、またはアッセイアーチファクトによってもたらされ得る。ベースライン参照を使用することにより、文献における転写アイソフォームのキュレーションの制限が補完され、ホルマリンで固定されてパラフィンに埋め込まれた(FFPE)保存状態または他の系統誤差におけるアーチファクトが低減する。ベースライン分析、またはベースライン参照のベースライン接合部位によるフィルター処理は、癌と関連する可能性が高い新規のスプライス接合部位を捕捉する。ベースライン参照のベースライン接合部位を、少なくとも図7に関連して以下でさらに論じる。
しかしながら、計算資源におけるこれらの節約は、その全体が参照によって本明細書に組み込まれているBen-Hur, V.、Denichenko, P.、Siegfried, Z.、Maimon, A.,、Krainer, A.、Davidson, B.、およびKarni, R.(2013年)、「S6K1 Alternative Splicing Modulates Its Oncogenic Activity and Regulates mTORC1」、Cell Reports、3巻(1号)、103〜115頁に説明されているように、本質的に正常組織において発現される、それだけではないがRPS6KB1の特定のバリアントなど、癌に関連したスプライスバリアントを判定する際の困難さとバランスをとられてよいことが注目され得る。それにもかかわらず、上記で導入されたように、ベースライン分析による腫瘍形成性スプライスバリアントの判定は、これらの難点よりも重要な、従来のツールに対する複数の利点を特徴とするものである。
例示の実施形態の概要
図2は、例示のスプライスバリアント判定サービス202の状況において本明細書で説明された特徴を実施することができるスプライスバリアント判定環境200の一実施形態を示すものである。いくつかの実施形態では、スプライスバリアント判定環境200は、スプライスバリアント判定サービス202、スプライスバリアント判定データメモリ204、ネットワーク206、ローカルデータプロバイダ208A、リモートデータプロバイダ208B、参照プロバイダ210、ローカルデータコンシューマ212A、およびリモートデータコンシューマ212Bを含む。いくつかの実施形態では、スプライスバリアント判定環境200の様々な構成要素が、ネットワーク206を通じて互いに通信可能に相互接続される。スプライスバリアント判定環境200は、多数または少数の異なる構成要素を含み得て、異なって構築され得る。例えば、スプライスバリアント判定サービス202に関連して、複数のデータメモリまたは他のコンピュータデバイスがあり得る。別の例として、スプライスバリアント判定環境200の構成要素は、ネットワーク206を用いて、またはネットワークなしで、互いに通信してよい。
スプライスバリアント判定サービス202は、本明細書で説明されたプロセスを遂行することができる任意のシステムに対応し得るものである。スプライスバリアント判定サービス202は、1つまたは複数のコンピュータデバイスによって実施されてよい。例えば、スプライスバリアント判定サービス202は、メモリに記憶された1つまたは複数の命令を実行するための1つまたは複数のプロセッサを含むコンピュータデバイスと、ネットワーク206を通じてデータを送受信するための通信デバイスとによって実施され得る。いくつかの実施形態では、スプライスバリアント判定サービスは、ネットワークにわたる通信が可能な1つまたは複数のバックエンドサーバ上で実施される。他の実施形態では、スプライスバリアント判定サービス202は、ホスティングされたコンピュータ環境(例えば「クラウドコンピュータ環境」)において1つまたは複数の仮想マシンによって実施される。ホスティングされたコンピュータ環境に含まれ得る、1つまたは複数の、セットアップして公開されたコンピュータ資源は、コンピュータデバイス、ネットワークデバイス、および/または記憶デバイスを含み得る。
一態様では、スプライスバリアント判定サービス202が実施し得る1つまたは複数のアプリケーションが、個々に、または組合せで、試料接合部位を判定するステップ、ベースライン接合部位を判定するステップ、ベースライン参照を判定するステップ、フィルター処理された試料接合部位を検証するステップ、組織からRNAリードを判定するステップ、接合部位のオーバラップを除去するステップ、フィルター処理された試料接合部位を検証するステップ、十分なオーバラップ数を判定するステップなどを含む、本明細書で説明されたスプライスバリアント判定機能を遂行する。これらのスプライスバリアント判定機能は、(それだけではないが)スプライスバリアント判定サービスが、試料のフィルター処理された接合部位または試料接合部位を判定するのと同時にベースライン参照のベースライン接合部位を判定するのではなく、最初に(ベースライン参照として収集された)ベースライン接合部位を判定して記憶し、次いで、試料のフィルター処理された接合部位を判定するとき、記憶されたベースライン接合部位を検索する場合など、異なる時間において、スプライスバリアント判定サービスの異なる態様によって遂行されてよい。別の態様では、スプライスバリアント判定サービス202は、試料接合部位、ベースライン接合部位を、スプライスバリアント判定データメモリ204において記憶するかまたは更新するように構成されてよい。いくつかの実施形態では、スプライスバリアント判定サービスは、ネットワークまたはネットワークベースのサービスプロバイダまたはサービスベンダに関連づけられてよい。
示された実施形態では、スプライスバリアント判定サービス202は、スプライスバリアント判定データメモリ204に対して通信可能に接続され得る。スプライスバリアント判定データメモリ204は、一般的には任意のリポジトリ、データベース、またはスプライスデータおよび関連するメタデータを記憶することができる情報記憶システムを含むことができる。スプライスバリアント判定データメモリ204に記憶されるスプライスデータは、(健康な試料の断面から判定された接合部位を含む)ベースライン参照のベースライン接合部位、単一の腫瘍試料からの腫瘍試料のデータ、健康な試料または非腫瘍試料の断面からの健康な試料のデータ、単一の腫瘍試料からの試料接合部位、および/またはベースライン分析による腫瘍形成性スプライスバリアント判定によって処理された、フィルター処理された試料接合部位であり得る。スプライスデータは、リスト、ベクトル、アレイ、マトリクスなどの様々な形式またはデータ構造で記憶され得る。メタデータは、個々の試料もしくは接合部位、または接合部位の試料の集合の、フォーマット、セマンティクス、特徴、状態、起源、生成のデータ、入力の日付、注釈の日付、処理の日付、関連する断面(例えば地理的領域、年齢、性別、道徳上の群、FFPEアーチファクト、FFPE品質、同族体アーチファクト、ポリメラーゼ通読アーチファクト、非腫瘍性代替スプライシング、組織タイプ)などを指示するために、それらに関連づけられ得る。例えば、メタデータは、共通のアッセイによって判定された単一の腫瘍試料からの試料接合部位を、共通のアッセイによって判定されたベースライン接合部位にリンクすることができる。その代わりに、またはそれに加えて、メタデータは、カテゴリまたは接合部位の集合(それだけではないが、ベースライン参照、ベースライン接合部位の集合、フィルター処理された試料接合部位の集合、または試料接合部位の集合など)における接合部位に関連した分類における位置を指示し得る。
ネットワーク206は、スプライスバリアント判定環境200の内部の通信を確立するのに必要なネットワークのハードウェアとプロトコールの任意の適切な組合せを含み得る。例えば、ネットワーク206は、ローカルエリアネットワーク(LAN)などの私的ネットワークまたは広域ネットワーク(WAN)、ならびに公開または非公開の有線または無線のネットワーク、衛星ネットワーク、ケーブルネットワーク、セルラーネットワーク、またはインターネットを含み得る。そのような一実施形態では、ネットワーク206は、ハードウェア(例えばモデム、ルータ、スイッチ、負荷分散装置、プロキシサーバなど)と、スプライスバリアント判定環境200の内部でネットワークのリンクを確立するハードウェアによって実施されるソフトウェア(例えばプロトコールスタック、アカウントソフトウェア、ファイアウォール/セキュリティソフトウェアなど)とを含み得る。加えて、ネットワーク206は、スプライスバリアント判定環境200の構成要素の間でデータを伝送するための様々な通信プロトコールのうち1つを実施してよい。
データプロバイダ208A、208Bは、ローカルデータプロバイダ208Aのサイト(それだけではないが、スプライスバリアント判定サービス202が、計器上のRNA配列決定からのデータも判定する装置上にあるとき、またはRNA配列決定からのそのようなデータを記憶するデバイス上にあるときなど)、またはネットワークもしくは他のリモートデータプロバイダ208Bのサイト(それだけではないが、RNA配列決定からのデータを判定する装置またはRNA配列決定からのそのようなデータを記憶するデバイスがスプライスバリアント判定サービス202から遠く離れているときなど)などのホストに対応し得る。それゆえに、データプロバイダ208A、208Bは、ネットワーク206を介して、またはネットワーク206の代わりに、スプライスバリアント判定サービス202との通信を助長することができる任意のコンピュータデバイス(複数可)に関連づけられ得る。そのようなコンピュータデバイスは、一般に、少し例を挙げると、配列決定装置、無線モバイルデバイス(例えばスマートフォン、PDA、タブレット、着用可能コンピュータデバイスなど)、サーバ、デスクトップコンピュータ、ノートパソコン、およびコンピュータ化された装置を含むことができる。さらに、そのようなコンピュータデバイスは、上記で説明された通信を助長することができる任意のタイプのソフトウェア(ブラウザまたはモバイルアプリケーションなど)を実施することができる。
データコンシューマ212A、212Bは、ローカルデータコンシューマ208Aのサイト(それだけではないが、スプライスバリアント判定サービス202が他のサービスまたはプロセスが依拠する計器上にあるときなど)またはネットワークもしくは他のリモートデータプロバイダ208Bのサイト(それだけではないが、スプライスバリアント判定サービス202が、サービスまたはプロセスが依存する遠く離れた計器上にあるときなど)などのホストに対応し得る。データコンシューマ212A、212Bは、臨床または研究のネットワークサイトのビジター、科学者、医者、生物情報科学者、技術者などに対応し得、ネットワーク206を介して、またはネットワーク206の代わりに、スプライスバリアント判定サービス202との通信を助長することができる任意のコンピュータデバイス(複数可)に関連づけられ得る。そのようなコンピュータデバイスは、一般に、少し例を挙げると、無線モバイルデバイス(例えばスマートフォン、PDA、タブレット、着用可能コンピュータデバイスなど)、サーバ、デスクトップコンピュータ、ノートパソコン、測定器、およびコンピュータ化された装置を含むことができる。さらに、そのようなコンピュータデバイスは、上記で説明された通信を助長することができる任意のタイプのソフトウェア(ブラウザまたはモバイルアプリケーションなど)を実施することができる。
参照プロバイダ210は、それだけではないが、参照ゲノム、DNA参照、RNA参照、RNA転写物のスプライスグラフ、およびサードパーティ接合部位など、スプライスバリアント判定サービス202に関係のある参照データを提供する、任意のエンティティに対応し得るものである。特定の実施形態では、参照プロバイダ210がスプライスバリアント判定サービス202に参照データを提供し、スプライスバリアント判定サービス202は、参照データを、スプライスバリアント判定データメモリ204に局所的に記憶する。参照プロバイダ210は、参照データベースネットワークサイトなどに対応してよく、ネットワーク206を介してスプライスバリアント判定サービス202との通信を助長することができる任意のコンピュータデバイスに関連づけられてよい。そのようなコンピュータデバイスは、一般に、少し例を挙げると、無線モバイルデバイス(例えばスマートフォン、PDA、タブレット、着用可能コンピュータデバイスなど)、サーバ、デスクトップコンピュータ、ノートパソコン、測定器、およびコンピュータ化された装置を含むことができる。さらに、そのようなコンピュータデバイスは、上記で説明された通信を助長することができる任意のタイプのソフトウェア(ブラウザまたはモバイルアプリケーションなど)を実施することができる。
当業者なら、図2に与えられた構成要素および構成は本来例証であることを理解するであろう。それゆえに、本明細書で開示された機能を助長するための追加の構成要素、システム、およびサブシステムを含む、追加もしくは代替の構成要素および/または構成が利用され得る。
図3は図2の動作環境によって利用されるバリアントコールサービスの例示の構成要素の一実施形態を示すブロック図である。例示のコンピュータシステム300は、本開示の態様を実施するために使用され得るコンピュータハードウェアおよびソフトウェアコンポーネントの機構を含む。当業者なら、コンピュータシステム300が、図3に表されたものよりも多数(または少数)の構成要素を含み得ることを理解するであろう。しかしながら、可能にする開示を提供するために、これらの全般的に従来の構成要素のすべてを示す必要はない。
示された実施形態では、コンピュータシステム300は、処理ユニット302、ネットワークインターフェース304、非一時的コンピュータ可読媒体ドライブ306、および入出力デバイスインターフェース308を含み、それらのすべてが通信バスによって互いに通信してよい。ネットワークインターフェース304は、1つまたは複数のネットワークあるいはコンピュータシステムに対する接続性を用いて、スプライスバリアント判定サービス202(図2を参照されたい)を提供し得る。したがって、処理ユニット302は、ネットワークを介して、他のコンピュータデバイス、システム、またはサービスから情報および命令を受け取り得る。処理ユニット302はまた、メモリ310と通信してよく、入出力デバイスインターフェース308を介して出力情報を提供してよい。入出力デバイスインターフェース308はまた、キーボード、マウス、デジタルペン、タッチスクリーンなどの様々な入力デバイスから入力を受け入れてよい。
メモリ310は、処理ユニット302が本開示の1つまたは複数の実施形態を実施するために実行し得るコンピュータプログラム命令を含有してよい。メモリ310は、一般に、RAM、ROMおよび/または他の持続的すなわち非一時的コンピュータ可読記憶媒体を含む。メモリ310は、スプライスバリアント判定サービス302の全般的な管理および動作において処理ユニット302が使用するコンピュータプログラム命令を供給するオペレーティングシステム314を記憶してよい。メモリ310は、本開示の態様を実施するための他の情報をさらに含み得る。
一実施形態では、メモリ310はインターフェースモジュール312を含む。インターフェースモジュール312は、1つまたは複数のユーザインターフェースの生成を助長するように構成され得、互換性のあるコンピュータデバイスを利用するデータプロバイダ208A、208B、参照プロバイダ210、またはデータコンシューマ212A、212Bは、ユーザインターフェースを通じて、スプライスバリアント判定サービス202との間で、スプライスデータ、参照データ、命令データ、メタデータなどを送信するかもしくは受信してよく、またはそうでなければスプライスバリアント判定サービス202と通信してよい。具体的には、インターフェースモジュール312は、スプライスデータの取得、スプライスデータの処理、スプライスデータの記憶、スプライスデータの送信、スプライスデータの注釈などを含む、本明細書で説明された処理機能を助長するように構成され得る。例えば、データプロバイダ208A、208B、またはデータコンシューマ212A、212Bは、特定のアッセイによって判定された接合部位を記憶するか、注釈するか、または検索してよく、その結果、ベースライン分析によるスプライスバリアントの判定が、一貫したアッセイの下で遂行されたものとして追跡され得る。これは、1つまたは複数の生成されたユーザインターフェースを介して行われ得る。ユーザインターフェースは、グラフィカルユーザインターフェース(GUI)、ネットワークベースのユーザインターフェース、コンピュータプログラム、スマートフォンもしくは表プログラム、またはアプリケーション、タッチスクリーン、着用可能コンピュータデバイスインターフェース、コマンドラインインターフェース、ジェスチャ、音声、テキストインターフェースなど、あるいはそれらの任意の組合せとして実施され得る。その上、ユーザインターフェースは、試料が処理されるとき、候補腫瘍形成性イベントであるフィルター処理された試料接合部位を判定するため指示器などを含み得る。
加えて、メモリ310は、処理ユニット302によって実行され得るデータ処理モジュール316を含み得る。一実施形態では、データ処理モジュール316は本開示の態様を実施する。非限定的な例として、データ処理モジュール316は、スプライスデータ、命令、参照データ、またはメタデータを処理するように構成され得る。具体的には、データ処理モジュール316は、試料接合部位の判定、ベースライン接合部位の判定、フィルター処理された試料接合部位の判定、組織からのRNAリードの判定、接合部位オーバラップの除去、フィルター処理された試料接合部位の検証、十分なオーバラップカウントの判定などを含む、本明細書で説明された機能を遂行するように構成され得る。
スプライスバリアント判定サービス202は、図3に関して本明細書で論じられたようなコンピュータシステム300に存在する構成要素のうちいくつかまたはすべてによって実施され得ることに留意されたい。加えて、コンピュータシステム300は、図3にない追加部品を含み得る。上記で説明されたモジュールまたは構成要素は、追加モジュールも含み得、または図2もしくは図3に表されていなくてよいコンピュータデバイスによって実施され得る。例えば、インターフェースモジュール312およびデータ処理モジュール316は図3では単一モジュールとして識別されているが、当業者なら、これらのモジュールが2つまたはそれよりも多いモジュールによって分散したやり方で実施され得ることを理解するであろう。また、スプライスバリアント判定サービス202およびスプライスバリアント判定データメモリ204は、図2では単一の構成要素として識別されているが、2つまたはそれよりも多い構成要素によって分散したやり方で実施され得ることを当業者なら理解するであろう。別の例として、コンピュータシステム300およびその構成要素は、ネットワーク206を介して、またはネットワーク206の代わりに、データプロバイダ208A、208Bまたはデータコンシューマ212A、212Bとの間のデータ伝送を助長するように構成されたネットワークサーバ、アプリケーションサーバ、データベースサーバ、これらの組合せなどによって実施され得る。それゆえに、モジュールおよび構成要素の記述は本来例証である。
接合部位
上記で導入されたように、接合部位は特定のスプライスバリアントを識別するやり方の1つである。接合部位は、読取りアライナの上流で識別され、DNAゲノム上の座標によって識別される。正常な組織では、接合部位は、イントロン(切り出されたDNA配列の一部分)ではなく、エクソン間の境界において(スプライシングの後に保持されるDNA配列の一部分として)生じる。
図4は、(図2の)スプライスバリアント判定サービス202によって実施される接合部位分析の一実施形態を示す流れ図である。図4について付け加えると、ブロック402において接合部位分析400のプロセスが始まり、ここで、スプライスバリアント判定サービスがRNAリードを検索する。RNAリードは、シーケンサを使用するRNA試料の処理から判定されたヌクレオチド配列である。図2を参照して、RNAリードは、スプライスバリアント判定データメモリ204またはデータプロバイダ208A、208Bから検索され得る。RNAリードは、組織試料から、具体的には(図7に関連してさらに論じられるように)健康な組織試料から、または(図6に関連してさらに論じられるように)腫瘍組織試料から判定されてよい。RNAリードは、以下でさらに論じられる配列決定方法によってシーケンサから判定されてよい。
図4について付け加えると、ブロック404においてRNAリードがアラインされ得る。RNAリードは、RNAリードを検索して、RNAリードをDNA参照にアラインさせることによってアラインされてよい。アラインは、DNA参照に対するRNAリードの位置を判定する。図2を参照して、DNA参照は参照プロバイダ210によってもたらされ得るが、アクセスの容易さのために、スプライスバリアント判定データメモリ204において局所的に記憶され(かつ検索され)てよい。図4に戻って、参照DNA配列は、人間の1組の遺伝子の代表的な例としてのデジタル核酸シーケンスデータベースの参照ゲノムの一部分でよく、一般的には複数のドナーからの異なるDNA配列の半数のモザイクである。RNAリードおよびDNA配列は、それだけではないが、米国メリーランド州ボルティモアのジョンホプキンズ大学によって維持されているBowtie配列アライナ(全体が参照によって本明細書に組み込まれているLangmead B、Trapnell C、Pop M、Salzberg SL、「Ultrafast and memory-efficient alignment of short DNA sequences to the human genome」、Genome Biol 10: R25.に関連してさらに説明される)、米国メリーランド州ボルティモアのジョンホプキンズ大学によって維持されているTop Hat配列アライナ(全体が参照によって本明細書に組み込まれているTrapnell C、Pachter L、 Salzberg SL.、「TopHat: discovering splice junctions with RNA-Seq」、Bioinformatics doi:10.1093/bioinformatics/btp120.に関連してさらに説明される)またはGitHub上に維持されているSTAR配列アライナ(全体が参照によって本明細書に組み込まれているDobin、Davis CA、Schlesinger F、Drenkow J、Zaleski C、Jha S、Batut P、Chaisson M、Gingeras TR.、「STAR: ultrafast universal RNA-seq aligner」、Bioinformatics.、2013年1月1日、29巻(1号):15〜21頁、doi: 10.1093/bioinformatics/bts635. Epub、2012年10月25日に関連してさらに説明される)などのアライナを使用してアラインされてよい。DNA配列にアラインされたRNAリードにおけるギャップはスプライシングイベントを示しており、処理するべき接合部位のリストを作成するのに使用される。現在の実装形態では、アライナは下流の処理の前にスプライス接合部位を識別する。
ブロック406において、スプライスバリアント判定サービス202は、アラインされたDNA配列との比較に基づいて、RNAリードにおいて失われた連続位置があるかどうかを判定する。この判定は、上記で説明されたアライナを使用して遂行されてよい。また、上記で導入されたように、RNAリードからのこれらの失われた連続位置は、アラインされたRNA配列において除去されたDNA配列上の座標である。また、これらはエクソンとイントロンの間の境界において生じ得るものである。
RNAリードにおいて失われた連続領域があると判定された場合には、接合部位分析400のプロセスはブロック408へ進み、ここで、RNAリードにおいて失われた連続領域は接合部位とされる。
ブロック420において、この接合部位はスプライスバリアント判定データメモリ204に記憶され得る。この接合部位は、染色体の注釈およびRNAリードにおいて失われたDNA配列における位置とともに記憶されてよい。非限定的な例として、接合部位は、RNAリードにおいて失われた連続領域が位置12と15の間の染色体21において生じるとの注釈として記憶され得る。
RNAリードにおいて失われた連続領域が検知されなければ、接合部位を判定するプロセスはブロック410へ進み、RNAリードから評価される部分は接合部位とされない。
ブロック416はブロック406、408、および410を包含し、総体として接合部位を判定するプロセスと名付けられてよく、後に、少なくとも図6および図7に関連して参照される。
腫瘍形成性接合部位の判定
図5は、(図2の)スプライスバリアント判定サービス202によって実施される、可能性のある腫瘍形成性接合部位を判定するステップの一実施形態を示す流れ図である。図5は、その前の図やその後の図においてより詳細に論じられるベースライン分析プロセスによる腫瘍形成性スプライスバリアントの判定の概要を示すものである。
可能性のある腫瘍形成性接合部位を判定するプロセス500はブロック502において始まり、ここで試料接合部位が判定される。試料接合部位の判定は、図6に関連して、より詳細に論じられる。
図5に戻って、ブロック504において、ベースライン参照のベースライン接合部位が判定される。ベースライン接合部位の判定は、図7に関連して、より詳細に論じられる。
ブロック506において、フィルター処理された試料接合部位が判定される。フィルター処理された試料接合部位の判定は、図8に関連して、より詳細に論じられる。
試料の接合部位
上記で導入されたように、ベースライン分析による腫瘍形成性スプライスバリアントの判定は患者からの単一の腫瘍試料を使用するものであり、有利には、患者からの複数の試料(腫瘍試料および健康な非腫瘍試料)を使用する従来のスプライスバリアント判定よりも簡単である。
図6は、スプライスバリアント判定サービス202によって実施される、試料接合部位を判定するステップの一実施形態を示す流れ図である。
図6に示された試料接合部位502の判定は、ブロック612において始まり、ここで、患者からの単一の腫瘍試料を反映する腫瘍試料リードが検索される。単一の腫瘍試料は、異常なスプライスバリアントを表す異常な接合部位を識別するために、腫瘍組織から収集されてよい。特定の実施形態では、腫瘍試料リードは、配列決定方法に関連して以下でさらに論じられるように、単一の腫瘍試料の配列決定から従来のやり方で判定されてよい。特定の実施形態では、腫瘍試料リードは、データプロバイダ208A、208Bから検索されてよく(図2に関連してさらに論じる)、データプロバイダは、それ自体が(それだけではないが、以下でさらに論じられる配列決定方法などによって)腫瘍試料リードを生成するものであるか、または腫瘍試料リードのリポジトリであって、ここからスプライスバリアント判定サービスが腫瘍試料リードを検索する。
図6について付け加えると、ブロック614において腫瘍試料のRNAリードがDNA参照にアラインされる。腫瘍試料のRNAリードはアライナによって判定されてよく、図4に関連して上記でさらに論じられている。
図6について付け加えると、ブロック616において、ブロック614の腫瘍試料のRNAリードから試料接合部位が判定される。試料接合部位はアライナによって判定されてよく、図4に関連して上記でさらに論じられている。例証となる非限定的な例として、図4を参照すると、試料接合部位は、図4に関連して示されたような接合部位分析400のプロセスのブロック416の接合部位判定と同じように判定されてよく、ブロック402において検索されたRNAリードは、ブロック614において単一の試料から判定されたRNAリードであり、ブロック408において接合部位とされたのはブロック616から判定された試料接合部位である。
図6について付け加えると、ブロック618において、試料接合部位は、スプライスバリアント判定サービス202によるさらなる検索および処理のために、図2に関連してさらに論じられたスプライスバリアント判定データメモリ204に記憶されてよい。
特定の実施形態では、試料接合部位の判定は、ベースライン分析による腫瘍形成性スプライスバリアントの判定のセッション中に、スプライスバリアント判定サービス202によって遂行される他のプロセス(それだけではないが、フィルター処理された試料接合部位の判定および/またはベースライン接合部位の判定など)と一緒に生じ得る。他の実施形態では、試料接合部位の判定は、ベースライン分析による腫瘍形成性スプライスバリアントの判定のセッション中に、スプライスバリアント判定サービス202によって遂行される他のプロセス(それだけではないが、フィルター処理された試料接合部位の判定および/またはベースライン接合部位の判定など)の後で、またはそれよりも早く、独立して遂行されてよい。
ベースライン接合部位
上記で導入されたように、ベースライン分析による腫瘍形成性スプライスバリアントの判定が対象とするのは、主として腫瘍形成性イベントを要求する接合部位であり、新たなスプライスバリアントコールではない。新たなスプライスバリアントコールによってスプライスバリアント判定を遂行すると、複数の誤差が導入される可能性がある。これらの誤差には、腫瘍形成性イベントを要求するスプライスバリアントの精度の妨げになり得るアルゴリズムまたはアッセイの問題が含まれ得る。非限定的な例として、検討されている腫瘍試料がFFPEであるので、新たなスプライスバリアントコールにはアッセイまたは試料の準備で導入されたアーチファクトがあり得る。また、新たなスプライスバリアントコールが、RNAアライナを使用するリードアラインに頼るので、アラインアーチファクトがあり得る。
しかしながら、本質的に、トランスクリプトームが包括的に注釈されていないという問題があり、腫瘍進行と無関係なイベントが報告されることになる。これらは、特徴付けられていない正常かつ健康な細胞における実際の構成的イベントである可能性がある。アルゴリズムまたはアッセイの問題は、アッセイおよびアルゴリズムから誤差を除去することによって仮説的に扱うことができる可能性がある。しかしながら、トランスクリプトームのどれが正常かつ健康な組織のものであるのか実際に特徴付ける試行をせず、包括的に注釈しないので、誤差を除去するのは困難であろう。
その上、前述のように、一般的には、新たなスプライスバリアントコールは、一人の患者から少なくとも2つの試料(腫瘍組織から少なくとも1つの試料と健康な組織から少なくとも1つの試料)を必要とする。追加の試料を処理しなくてはならないことは、侵襲性で、臨床的に望ましくない。また、一人の患者のために多数の試料を試験すると、試薬のコストと配列決定のコストの両方が大幅に増加する。
それゆえに、ベースライン分析によって腫瘍形成性スプライスバリアントの判定を遂行すると、従来の新たなスプライスバリアントコールの、少なくともこれらの短所が克服され得る。ベースライン分析は、患者からの単一の試料を評価するとき参照として使用される、正常かつ健康な非腫瘍組織試料からのベースライン接合部位の多様な断面のベースライン参照を使用する分析を指す。これらの断面は、それだけではないが、地理的領域、年齢、性別、倫理学上の群、FFPEアーチファクト、FFPE品質、同族体アーチファクト、ポリメラーゼ通読アーチファクト、非腫瘍代替スプライシング、組織タイプなど、任意数の範疇にわたり得る。断面は、特定の範疇の内部の変動であり得る。例えば、年齢の断面は、(それだけではないが)1歳、5歳、10歳、15歳、20歳、25歳、30歳、35歳、40歳、45歳、50歳、55歳、60歳、65歳、70歳、75歳、80歳、85歳、90歳、95歳、100歳、105歳、110歳など、異なる年齢にわたる様々なドナーからの試料を含み得る。さらなる例として、組織タイプの断面は、(それだけではないが)肺、副腎、膀胱、乳房、卵巣、肝臓、前立腺、皮膚、脾臓などの様々な位置からの組織を含めて、異なる身体部分からの組織を含み得る。さらなる例として、FFPEアーチファクトの断面は、(それだけではないが)脱アミノ、フラグメンテーション、塩基修飾、脱塩基部位などの異なる値を含み得る。さらなる例として、FFPE品質の断面は、(それだけではないが)異なるサイズのRNAの断片を伴う異なる試料を含み得る。
その上、ベースライン参照は、様々な組織タイプの構成的スプライシングを捕捉するのに十分包括的であり得る。ベースライン参照における試料が、完全にオーバラップするスプライスバリアント発現を有し得ない多くの異なる組織タイプからのものであっても、図10および図11に関連して言及されるように、ベースライン分析が有効であるために、組織にわたって見いだされるスプライスバリアントのタイプにおいて意義深く十分なオーバラップがあるはずである。より包括的なベースライン参照を用いて、腫瘍形成性イベントとして誤識別されてしまう偽のスプライス接合部位または通常の生理的スプライス接合部位を減少するのはより効果的であり得る。
ベースライン分析によるスプライスバリアント判定は、アッセイ誤差または位置合わせ誤差を伴ってオーバラップする実際の腫瘍形成性スプライシングイベントも濾過されることになるので、感度が犠牲になる可能性がある。しかしながら、アラインおよび試料の処理が改善するにつれて、ベースライン参照も、正常かつ健康な(非腫瘍)試料からの正常な構成的接合部位を捕捉する一方で、改善された方法を反映するように更新され得る。
図7は、スプライスバリアント判定サービス202によって実施されるベースライン参照のベースライン接合部位を判定するステップの一実施形態を示す流れ図である。
図7に示されるベースライン接合部位504の判定は、ブロック712において始まり、ここで、健康な(非腫瘍組織)試料の断面から健康な試料のリードが検索される。前述のように、断面は、患者からの単一の試料を評価するとき参照として使用される健康な(非腫瘍組織)試料からの接合部位の任意の断面でよい。これらの断面は、それだけではないが、地理的領域、年齢、性別、倫理学上の群、FFPEアーチファクト、FFPE品質、同族体アーチファクト、ポリメラーゼ通読アーチファクト、非腫瘍代替スプライシング、組織タイプなど、任意数の範疇にわたり得るものである。
特定の実施形態では、健康な試料のリードは、個々の健康な組織試料の配列決定から、従来のやり方で判定され得る。配列決定方法は以下でさらに論じられる。特定の実施形態では、健康な試料のリードは、データプロバイダ208A、208Bから検索されてよく(図2に関連してさらに論じる)、データプロバイダは、それ自体が(それだけではないが、以下でさらに論じられる配列決定などによって)健康な試料のデータを生成するものであるか、または健康な試料のリードのリポジトリであって、ここからスプライスバリアント判定サービスが健康な試料のリードを検索する。
図7について付け加えると、ブロック714において健康な試料のリードが参照配列にアラインされる。健康な試料のリードはアライナによってアラインされてよく、図4に関連して上記でさらに論じられている。
ブロック716において、ベースライン接合部位は、ブロック714の健康な試料のRNAリードから判定される。ベースライン接合部位はアライナによって判定されてよく、図4に関連して上記でさらに論じられている。例証となる非限定的な例として、図4を参照すると、ベースライン接合部位は、図4に関連して示されたような接合部位分析400のブロック416の接合部位判定と同じように判定されてよく、ブロック402において検索されたRNAリードは、ブロック712において健康な試料から判定された健康な試料のリードであり、ブロック408において接合部位とされたのはブロック716から判定されたベースライン接合部位である。
図7について付け加えると、ブロック718において、ベースライン接合部位の集合は、スプライスバリアント判定サービス202によるさらなる検索および処理のために、ベースライン参照として、図2に関連してさらに論じられたスプライスバリアント判定のデータメモリ204に記憶されてよい。
特定の実施形態では、ベースライン接合部位またはベースライン参照の判定はフィルター処理された試料接合部位の判定および/または試料接合部位の判定に先立って遂行されてよい。それゆえに、コンピュータ資源における節約が実現されるのは、ベースライン参照がスプライスバリアント判定データメモリ204から必要に応じて検索されるときであり得、ベースライン分析によって、進行中に判定されるとき、またはスプライスバリアント判定の各セッションで臨時に判定されるときではない。
その上、特定の実施形態では、ベースライン接合部位の判定は、スプライスバリアント判定データメモリ204から、記憶されたベースライン参照を検索することを含み得る。さらなる実施形態では、ベースライン参照の判定およびベースライン接合部位の構成は、ベースライン分析による腫瘍形成性スプライスバリアント判定のセッション中に一緒に生じ得る。
フィルター処理された試料接合部位
ベースライン分析によるスプライスバリアント判定は、フィルター処理された試料接合部位を生成する。これらのフィルター処理された試料接合部位は、可能性のある腫瘍形成性スプライスバリアントとして試料接合部位を指示し得るものである。フィルター処理された試料接合部位は、試料接合部位とベースライン接合部位が同一のアッセイを使用して判定されるとき、ベースライン接合部位とオーバラップしない試料接合部位でよい。また、接合部位が健康な非腫瘍形成性組織に由来するものであると知られていないために、フィルター処理された試料接合部位は、新規のものとして、したがって場合により腫瘍形成性として識別され得、または癌に関連づけられる可能性がある。これらのフィルター処理された試料接合部位は、スプライスバリアントおよび薬物治療の可能性のある標的として識別される可能性がある。
特定の実施形態では、フィルター処理された試料接合部位は、フィルター処理された試料接合部位が誤っていないことを確証する証拠によって付加的に検証されてよい。このタイプのフィルター処理された試料接合部位は、図9に関連してさらに論じられる検証済みのフィルター処理された試料接合部位であり得る。
追加の実施形態では、フィルター処理された試料接合部位は、上記で論じられたようにベースライン接合部位とオーバラップしないことに加えて、サードパーティ接合部位とオーバラップしない試料接合部位として判定されてよい。このタイプのフィルター処理された試料接合部位は、ベースラインサードパーティのフィルター処理された試料接合部位と名付けられ得、図10に関連してさらに論じられる。また、図10に関連してさらに論じられるように、このタイプのフィルター処理された試料接合部位は付加的に検証されてよく、検証されたベースラインサードパーティのフィルター処理された試料接合部位と名付けられ得る。
図8は、スプライスバリアント判定サービス202によって実施される、フィルター処理された試料接合部位を判定するステップの一実施形態を示す流れ図である。図7に示された、フィルター処理された試料接合部位506の判定は、ブロック812で始まり、ここで試料接合部位が検索される。試料接合部位の判定は、図6に関連してさらに論じられている。また、図2および図6に関連してさらに論じられたように、試料接合部位はスプライスバリアント判定データメモリ204から検索されてよい。
図8に戻って、ブロック814では、(ブロック812の試料接合部位と共通のアッセイを使用して判定された)ベースライン接合部位のベースライン参照が検索される。ベースライン参照の判定は、図7に関連してさらに論じられる。また、図2および図7に関連してさらに論じられたように、ベースライン参照はスプライスバリアント判定データメモリ204から検索されてよい。
ブロック816において、スプライスバリアント判定サービス202は、試料接合部位がベースライン接合部位とオーバラップするかどうかを判定する。特定の実施形態では、この判定は、各試料接合部位の値をベースライン参照のベースライン接合部位の各々と比較して、それらがオーバラップするかどうかを判定することに基づくものでよい。オーバラップは、比較されている接合部位の間に同一の値または座標があるかどうかを判定することを指す。非限定的な例として、これは、第2の試料接合部位がベースライン接合部位の各々と比較される前に第1の試料接合部位がベースライン接合部位の各々と比較される場合に行われてよい。
ブロック816について付け加えると、特定の実施形態では、ベースライン参照のすべてのベースライン接合部位は、ブロック816で試料接合部位とのオーバラップがあるかどうかを判定するために個々に参照されてよい。しかしながら、さらなる実施形態では、参照されるベースライン接合部位は、ブロック812において検索された試料接合部位の座標に依拠するものでよい。具体的には、ブロック812において検索された試料接合部位とオーバラップする可能性があるベースライン接合部位が参照され、ブロック812において判定された試料接合部位とオーバラップする可能性がないベースライン接合部位は参照されない。非限定的な例として、特定の染色体の試料接合部位が、その染色体のベースライン接合部位と比較されてよい。有利には、試料接合部位の座標に依拠する参照されたベースライン接合部位があると、試料接合部位の座標とは無関係にベースライン参照のすべてのベースライン接合部位を検索するかまたは処理するのと比較して、計算上の効率が改善され得る。
試料接合部位がベースライン参照のベースライン接合部位とオーバラップすると判定された場合には、プロセスはブロック822へ進み、ここで、オーバラップしている試料接合部位は、フィルター処理された試料接合部位ではなくオーバラップする試料接合部位として収集される。
試料接合部位がベースライン参照のベースライン接合部位のいずれともオーバラップしないと判定された場合には、プロセスはブロック818へ進み、ここで、ベースライン接合部位のいずれともオーバラップしない試料接合部位は、フィルター処理された試料接合部位として収集される。
ブロック824は、ベースライン接合部位とオーバラップする試料接合部位を除去することによってフィルター処理された試料接合部位を収集する総体のステップを指すものであり、ブロック816、ブロック818、およびブロック822の総体としての言い換えである。ブロック822は、後に、図10に関連して参照され得る。
ブロック820において、フィルター処理された試料接合部位が検証される。フィルター処理された試料接合部位の検証は、図9に関連してさらに論じられる。特定の実施形態では、フィルター処理された試料接合部位の検証は(ブロック820の点線によって示されるように)任意選択でよく、フィルター処理された試料接合部位は、図9に関連して説明されるように検証なしで使用され得る。あるいは、検証は、それだけではないが、接合部位が判定された後の任意の時点など、ベースライン分析によってスプライスバリアントを判定するプロセスの他の部分で行われてよい。
図8について付け加えると、ブロック830において、フィルター処理された試料接合部位は、スプライスバリアント判定サービス202によるさらなる検索および処理のため、またはデータコンシューマ208A、208Bによるさらなる検索および処理のために、図2に関連してさらに論じられたスプライスバリアント判定データメモリ204に記憶されてよい。
検証
接合部位検証は、いかなるベースライン接合部位ともオーバラップしないフィルター処理された試料接合部位が誤りであるかどうかを判定するために遂行され得る。多くの実施形態では、接合部位検証は、図8のブロック824によって判定された、フィルター処理された試料接合部位に対して遂行されてよく、ここで、ベースライン接合部位とオーバラップしない試料接合部位は、フィルター処理された試料接合部位として収集される。そうすると、試料接合部位が検証される場合には、フィルター処理された試料接合部位の数が試料接合部位の数よりも少ない可能性があるので有利であり得る。しかしながら、さらなる実施形態は、試料接合部位および濾過されていない試料接合部位の検証、ならびに/あるいは試料接合部位とフィルター処理された試料接合部位の両方の検証も企図するものである。
前述のように、接合部位は、単一の試料からの少なくとも1つのRNAリードによって判定され得る。配列決定方法に関連して以下でさらに説明されるように、試料からのRNAは、配列決定中に増幅されるかまたは転写されてよい。増幅されたRNAは、配列決定中に、信号対雑音比を向上するように利用され得る。加えて、増幅されたRNAからのリードはRNAからの特定のリードを確認するため、または支持するために利用され得る。同様に、増幅されたRNAからのリードは、RNAリードから判定された特定の接合部位の精度を確認するかまたは支持する、支持接合部位リードでよい。これらの支持接合部位リードは、RNAリードから判定された特定の接合部位を伴う冗長な追加のリードからの接合部位を含むリードでよい。それゆえに、特定の接合部位の検証は、支持接合部位リードの閾値数が、検証されている特定の接合部位に関して判定されるとき、判定されてよい。
図12Aおよび図12Bは、フィルター処理された試料接合部位を検証するステップの特徴を示す概念図である。図12Aおよび図12Bに示されるように、支持接合部位リード1202は分割されたリードでよく、アラインメントは、検証されている接合部位の開始1204において終了し、検証されている接合部位の他の端部1206から再び開始する。これは、1210で、検証されている接合部位にアラインメントが及ぶかどうかを評価し、1212で、検証されている接合部位の一端においてアラインメントが終了するかどうかを評価し、かつ/または1214で、検証されている接合部位の他端からアラインメントが開始するかどうかを評価することによって判定されてよい。
それゆえに、図12Aに示されるように、接合部位の範囲内にリードのいずれかのアラインされた領域があれば、リードは、支持する接合部位リードとしてカウントされないわけではない。また、別の言い方をすれば、図12Bに示されるように、エクソン1220は、検証されている接合部位の中央においてアラインしない、検証されている接合部位の終端に対して、アラインしなければならない。
特定の実施形態では、接合部位は、スコアが、検証されている接合部位に起因すると考えることによって検証されてよい。式
スコア=(min(u,M)−N)×1/(M−N)
で表現されるように、スコアは0〜1でよく、各支持接合部位のリードに0.1点が加算され、ここで、M=検証されている接合部位に及ぶリードの最大数(デフォルトは10)、N=検証されている接合部位に及ぶリードの最小数(デフォルトは0)、u=支持接合部位リードの数である。この式に採用されているように、検証されている接合部位に関して少なくとも10の支持接合部位リードが判定されたとき、検証が達成される。
図9は、スプライスバリアント判定サービス202によって実施される、接合部位を検証するステップの一実施形態を示す流れ図である。図9に示された接合部位900を検証するプロセスは、ブロック902において始まり、ここで、試料からの第1のRNAリードから接合部位が判定される。特定の実施形態では、試料は、図6に関連してさらに上記で論じられた単一の試料でよく、接合部位は、ブロック612、614、および616に関連して論じられたように単一の試料から判定されてよい。また、検証分析されている接合部位は、第1のRNAリードから判定された接合部位でよい。また、接合部位を判定するプロセスは、図4に関連してさらに論じられている。
図9について付け加えると、ブロック904において、試料から、RNAリードからの追加の接合部位が判定されてよい。上記で論じられたように、単一の試料が複数のRNAリードを有し得る。これらのRNAリードは、第1のリードに対して冗長な接合部位を含む支持接合部位リードとして利用されてよい。また、試料は、図6に関連してさらに上記で論じられた単一の試料でよく、接合部位は、ブロック612、614、および616に関連して論じられたように単一の試料から判定されてよい。その上、接合部位を判定するプロセスは、図4に関連してさらに論じられている。
図9について付け加えると、ブロック906において、スプライスバリアント判定サービス202は、追加のRNAリードからの追加の接合部位から、十分なオーバラップカウントがあるかどうかを判定する。十分なオーバラップカウントは、オーバラップする支持接合部位リードの(それだけではないが、2、3、4、5、6、7、8、9、または10のオーバラップする支持接合部位リードなどの)閾値カウントでよく、これから検証が行われ得る。
十分なオーバラップカウントがあると判定された場合には、プロセスはブロック908へ進み、ここで、ブロック902において参照された接合部位は、検証されたもの(すなわち検証済みのフィルター処理された試料接合部位)とされる。
十分なオーバラップカウントがないと判定された場合には、プロセスはブロック904へ戻り、ここで、試料から、RNAリードからの追加の接合部位が判定されてよい。
例示的実施形態
図10は、可能性のある腫瘍形成性接合部位を判定するステップの一実施形態の概念図を伴う流れ図である。図10の流れ図は、ベースライン分析によって、非癌性スプライスバリアントを表すサードパーティ接合部位が、スプライスバリアント判定の一部として利用される一実施形態を示すものである。非癌性スプライスバリアントを表すこれらのサードパーティ接合部位は、健康な試料の断面(非腫瘍組織)試料から判定されるベースライン接合部位と対照的に、新たなスプライスバリアントコールから判定されてよい。
流れ図1000には、流れ図1000のブロックの各々を表す図解1050が並置されている。
図10に示された腫瘍形成性スプライスバリアントの判定のプロセス1000は、ブロック614において始まり、ここで、図6に関連して上記で論じられたように、単一の腫瘍試料からのRNAリードがアラインされる。
図6に関連して上記でさらに論じられたように、ブロック616において、ブロック614のRNAリードから試料接合部位が判定される。
ブロック1002において、サードパーティ接合部位とオーバラップする試料接合部位が除去される。上記で論じられたように、非癌性スプライスバリアントを表すこれらのサードパーティ接合部位は、健康な試料の断面(非腫瘍組織)試料から判定されるベースライン接合部位のベースライン参照と対照的に、新たなスプライスバリアントコールから判定されてよい。ブロック1002による、サードパーティ接合部位とオーバラップする試料接合部位の除去は、図8に関連して論じられたような、試料接合部位とベースライン接合部位のオーバラップを除去するプロセス824に似たやり方で遂行されてよいが、ここでは、(図8の)ベースライン接合部位はサードパーティ接合部位であり、(図8の)フィルター処理された試料接合部位は、サードパーティ接合部位とオーバラップする試料接合部位の除去の後に残存するサードパーティのフィルター処理された試料接合部位である。
図10について付け加えると、ブロック1004において、ベースライン接合部位とオーバラップするサードパーティのフィルター処理された試料接合部位を除去することにより、ベースラインサードパーティのフィルター処理された試料接合部位が収集される。ブロック1004による、ベースライン接合部位とオーバラップするサードパーティのフィルター処理された試料接合部位の除去は、図8に関連して論じられたような、試料接合部位とベースライン接合部位のオーバラップを除去するプロセス824に似たやり方で遂行されてよいが、ここでは、(図8の)試料接合部位はサードパーティのフィルター処理された試料接合部位であり、(図8の)フィルター処理された試料接合部位は、ベースライン接合部位とオーバラップするサードパーティのフィルター処理された試料接合部位の除去の後に残存するベースラインサードパーティのフィルター処理された試料接合部位である。
図10について付け加えると、ブロック1006において、ベースラインサードパーティのフィルター処理された試料接合部位が検証される。ブロック1006による、ベースラインサードパーティのフィルター処理された試料接合部位の検証は、図9に関連して論じられたような、接合部位を検証するプロセス900に似たやり方で遂行されてよいが、ここでは、(図9の)第1のRNAリードからの接合部位はベースラインサードパーティのフィルター処理された試料接合部位であり、ブロック908において検証済みとされた接合部位は、検証済みのベースラインサードパーティのフィルター処理された試料接合部位である。
ブロック1008において、検証されたベースラインサードパーティのフィルター処理された試料接合部位が記憶され得る。検証されたベースラインサードパーティの記憶は、図8のブロック830に関連して論じられた、フィルター処理された試料接合部位の記憶と似たやり方で遂行されてよいが、ここでは、記憶されるのは、フィルター処理された試料接合部位ではなく、検証済みのベースラインサードパーティのフィルター処理された試料接合部位である。検証済みのベースラインサードパーティのフィルター処理された試料接合部位は、それだけではないが、示された実施形態におけるバリアントコールフォーマット(VCF)ファイルなどの任意のデータ構造で記憶されてよい。VCFファイルは、少なくともメタ情報ライン、ヘッダライン、およびデータラインを含有しており、それぞれが、少なくとも1つの検証済みのフィルター処理された試料接合部位に関連した座標を含有している。
前述のように、フィルター処理された試料接合部位(上記で論じられたような、検証済みのベースラインサードパーティのフィルター処理された試料接合部位など)は、上記で論じられたように、サードパーティ接合部位とオーバラップせずベースライン接合部位ともオーバラップしない試料接合部位として判定されてよい。ブロック1002、ブロック1004、およびブロック1006は、図10の流れ図1000の中で特定の順序で生じているが、フィルター処理された試料接合部位を判定するステップの任意のポイントにおいて、それに応じて調節された従属性を伴って生じ得るものである。
図11は、図10の実施形態からの実験結果を示す表である。図11に示されるように、スプライスバリアント(接合部位)は、組織タイプ(肺、副腎、膀胱、乳房、卵巣、肝臓、前立腺、皮膚、および脾臓)の断面にわたる71の異なる相互検証された正常かつ健康な(非腫瘍)試料に対してプロットされている。試験すべき10の試料からなる7つの異なる相互検証の組を生成し、残りの61からベースライン参照を生成した。最初にサードパーティ接合部位のオーバラップを除去し、次いでベースライン接合部位のオーバラップを除去することによって濾過した。図11に示されるように、ベースライン接合部位のオーバラップを除去した後のスプライスバリアントの数は、サードパーティ接合部位のオーバラップを除去した後のものよりも少ない。これは、新規の接合部位(フィルター処理された試料接合部位、または候補腫瘍形成性イベント)の減少が、サードパーティ接合部位とオーバラップする試料接合部位の除去と比較して、より顕著であることを指示している。実際、ベースライン分析による腫瘍形成性スプライスバリアントの判定を受けた後にフィルター処理された試料接合部位として残った新規の接合部位はほとんどなかった。
検知の性能/限界
RNAにおけるバリアントの検知限界は、発現した特定のスプライスバリアントに加えて、影響を受けた転写物がどれだけ発現したかということの関数であり得る。RNAの1ナノグラム当たりの融合コピー数における有効な検知限界は、特定のFFPE試料においてスプライスバリアント転写物がどれだけ発現するかを推定するためにデジタルドロップレットPCR(ddPCR)を使用して検知され得る。
ベースライン分析による腫瘍形成性スプライスバリアント判定の性能を実証するために、3つのスプライスバリアント(EGFRviii、ARv7、およびMETエクソンの14スキッピング)がFFPE腫瘍試料において識別され、次いでddPCRを使用して測定された。スプライスバリアントの発現レベルが十分に大きい場合には、これらの試料はRNAの1ナノグラム当たり2つのコピーまで滴定された。このデータから、ベースライン分析による腫瘍形成性スプライスバリアント判定は、RNAの1ナノグラム当たりわずか0.13のコピーで少なくとも1つのスプライスバリアント(EGFRviii)をコールした。RNAの1ナノグラム当たり5つのコピーでは、ベースライン分析による腫瘍形成性スプライスバリアント判定によって、3つのスプライスバリアントのすべてが正確に識別される。
配列決定方法
本明細書で説明された方法は、様々な核酸の配列決定技術とともに使用され得るものである。特に適用可能な技術は、核酸が、アレイにおいて、相対位置が変化しないように固定配置で付加され、アレイが繰り返し撮像されるものである。1つのヌクレオチド塩基タイプを別のものから区別するために使用される、例えば異なる標識と符合する異なる色チャネルにおいて画像が取得される実施形態には、特に適用可能である。いくつかの実施形態では、目標の核酸のヌクレオチド配列を判定するプロセスは自動プロセスであり得る。望ましい実施形態は合成による配列決定(「SBS」)技術を含む。
SBS技術は、一般に、鋳型鎖に対してヌクレオチドを繰り返し付加することによる発生期の核酸鎖の酵素伸長を包含している。SBSの従来の方法では、各デリバリにポリメラーゼがある状態では、単一のヌクレオチドモノマーが標的ヌクレオチドに与えられ得る。しかしながら、本明細書で説明された方法では、デリバリにポリメラーゼがある状態で、複数のタイプのヌクレオチドモノマーが標的核酸に与えられ得る。
SBSは、ターミネータ部分を有するヌクレオチドモノマーまたはターミネータ部分がないヌクレオチドモノマーを利用することができる。ターミネータがないヌクレオチドモノマーを利用する方法は、例えば、以下でより詳細に説明されるように、ピロ配列決定法と、ガンマ−リン酸塩で標識されたヌクレオチドを使用する配列決定法とを含む。ターミネータがないヌクレオチドモノマーを使用する方法では、各サイクルにおいて付加されるヌクレオチドの数は一般に可変であり、鋳型配列およびヌクレオチドデリバリのモードに依拠するものである。ターミネータ部分を有するヌクレオチドモノマーを利用するSBS技術向けには、ターミネータは、ジデオキシヌクレオチドを利用する従来のSanger配列決定法で使用されるような配列決定の条件下では効果的に不可逆であり得、またはSolexa(現在はIllumina,Inc.)によって開発された配列決定法の場合のように可逆的であり得る。
SBS技術は、標識部分を有するヌクレオチドモノマーまたは標識部分がないヌクレオチドモノマーを利用することができる。それゆえに、取り込みイベントは、標識の蛍光などの標識の特性、分子量または分子電荷などのヌクレオチドモノマーの特性、ピロリン酸塩の放出などヌクレオチドの取り込みの副産物、などに基づいて検知され得る。配列決定試薬の中に2つまたはそれよりも多い異なるヌクレオチドが存在する実施形態では、異なるヌクレオチドは互いに識別可能であり得、あるいは、使用されている検知技術の下で2つまたはそれよりも多い異なる標識が識別不可能なこともある。例えば、配列決定試薬の中にある異なるヌクレオチドは、異なる標識を有し得、Solexa(現在はIllumina,Inc.)によって開発された配列決定法によって例示されているような適切な光学部品を使用して識別され得る。
望ましい実施形態はピロ配列決定技術を含む。特定のヌクレオチドが発生期の鎖に組み込まれるので、ピロ配列決定法によって無機ピロリン酸塩(PPi)の放出が検知される(Ronaghi, M.、Karamohamed, S.、Pettersson, B.、Uhlen, M.およびNyren, P.(1996年)「Real-time DNA sequencing using detection of pyrophosphate release.」 Analytical Biochemistry242巻(1号)、84〜9頁、Ronaghi, M.(2001年)「Pyrosequencing sheds light on DNA sequencing.」 Genome Res. 11巻(1号)、3〜11頁、Ronaghi, M.、Uhlen, M.およびNyren, P.(1998年)「A sequencing method based on real-time pyrophosphate.」Science281巻(5375号)、363頁、米国特許第6,210,891号、米国特許第6,258,568号および米国特許第6,274,320号、これらの開示は全体が参照によって本明細書に組み込まれる)。ピロ配列決定法では、放出されたPPiは、ATPスルフリラーゼによって直ちにアデノシン三リン酸(ATP)に変換されることによって検知され得、生成されたATPのレベルは、ルシフェラーゼ生成の光子によって検知される。配列決定される核酸はアレイの特徴に付加され得、アレイは、ヌクレオチドをアレイの特徴に組み込むことによって生成される化学発光(chemiluminscent)信号を捕捉するために撮像され得る。アレイが特定のヌクレオチドタイプ(例えばA、T、CまたはG)を用いて処置された後に画像が取得され得る。それぞれのヌクレオチドタイプを付加した後に得られる画像は、アレイにおいて検知される特徴によって異なることになる。画像におけるこれらの相違は、アレイ上の特徴の異なる配列内容を反映するものである。しかしながら、各特徴の相対的位置は画像の中で変わらないはずである。画像は、本明細書で説明された方法を使用して、記憶され、処理され、かつ分析され得る。例えば、それぞれの異なるヌクレオチドタイプを用いてアレイを処置した後に得られる画像は、可逆性ターミネータに基づく配列決定法用の異なる検出チャネルから取得された画像に関して本明細書で例示されたのと同一のやり方で扱われ得る。
SBSの別の例示的タイプでは、サイクル配列決定法は、例えばWO04/018497および米国特許第7,057,026号において説明されているような例えば開裂性または光退色性の染料標識を含有している可逆性のターミネータヌクレオチドを段階的に追加することによって達成され、これらの開示は参照によって本明細書に組み込まれる。この手法はSolexa(現在はIllumina Inc.)によって商品化され、WO91/06678およびWO07/123,744において説明されており、これらの各々が参照によって本明細書に組み込まれる。終止の反転と蛍光性標識の開裂の両方が可能な、蛍光性に標識されたターミネータの可用性により、効率的で周期的な可逆性終止(CRT)の配列決定が助長される。ポリメラーゼはまた、これらの修正されたヌクレオチドを効率的に組み込み、かつそこから伸長するために、共操作され得る。
好ましくは、可逆性ターミネータに基づく配列決定の実施形態では、標識は、実質的にSBS反応状態での伸長を阻止しない。しかしながら、検知標識は、例えば開裂または劣化によって除去可能であり得る。画像は、アレイの核酸特徴に標識を組み込んだ後に取り込まれ得る。特定の実施形態では、各サイクルが、アレイに対して4つの異なるヌクレオチドタイプを同時にデリバリすることを包含しており、それぞれのヌクレオチドタイプがスペクトル的に別個の標識を有する。次いで、それぞれが4つの異なる標識のうち1つ向けの選択的検知チャネルを使用して、4つの画像が取得され得る。あるいは、異なるヌクレオチドタイプが順次に追加され得、各追加ステップの間にアレイの画像が取得され得る。そのような実施形態では、各画像は、特定のタイプのヌクレオチドを組み込んだ核酸特徴を示すはずである。異なる画像には、各特徴の異なる配列内容による異なる特徴が、存在するかまたは存在しないことになる。しかしながら、特徴の相対位置は画像の中で変わらないはずである。そのような可逆性のターミネータ−SBS方法から取得された画像は、本明細書で説明されたように記憶され、処理されて、分析され得る。画像取込みステップに続いて標識が除去され得、後続のヌクレオチド追加および検知のサイクルのために、可逆性のターミネータ部分が除去され得る。標識が、特定のサイクルにおいて検知された後に、後続のサイクルに先立って除去されると、サイクル間のバックグラウンド信号およびクロストークが低減するという利点がもたらされ得る。有効な標識および除去方法の例が以下で説明される。
特定の実施形態では、ヌクレオチドモノマーのうちいくつかまたはすべてが可逆性のターミネータを含み得る。そのような実施形態では、可逆性ターミネータ/開裂性蛍光体は、3’エステル結合(Metzker, Genome Res. 15巻、1767〜1776頁(2005年)、参照によって本明細書に組み込まれる)によってリボース部分に連結された蛍光体を含み得る。他の手法は、蛍光標識の開裂からターミネータの化学的性質を分離している(Ruparelら、Proc Natl Acad Sci USA 102巻、5932〜7頁(2005年)、その全体が参照によって本明細書に組み込まれる)。Ruparelらは、ブロック伸長に小さい3’アリル基を使用するがパラジウム触媒を用いる短い処置によって容易に非ブロック化され得る、可逆性ターミネータの開発を説明した。フルオロフォアが、長波長UV光に30秒露光することによって容易に開裂され得る光開裂性リンカによって塩基に付加された。したがって、二硫化物還元または光切断のいずれかが開裂性リンカとして使用され得る。可逆性ターミネーションの別の手法には、dNTP上に大きな染料を配置した後に結果として起きる自然なターミネーションを使用するものがある。dNTP上の帯電した大きな染料の存在が、立体障害および/または静電気障害による有効なターミネータとして働き得る。染料が除去されなければ、1つの取り込みイベントの存在が、さらなる取り込みを防止する。染料の開裂が蛍光体を除去し、ターミネーションを効果的に反転する。修正されたヌクレオチドの例は、米国特許第7,427,673号および米国特許第7,057,026号にも説明されており、これらの開示は全体が参照によって本明細書に組み込まれる。
本明細書で説明された方法およびシステムとともに利用され得る追加の例示的なSBSシステムおよび方法は、米国特許出願公開第2007/0166705号、米国特許出願公開第2006/0188901号、米国特許第7,057,026号、米国特許出願公開第2006/0240439号、米国特許出願公開第2006/0281109号、PCT公開番号WO05/065814、米国特許出願公開第2005/0100900号、PCT公開番号WO06/064199、PCT公開番号WO07/010,251、米国特許出願公開第2012/0270305号および米国特許出願公開第2013/0260372号に説明されており、これらの開示は全体が参照によって本明細書に組み込まれる。
いくつかの実施形態は、4つ未満の異なる標識を使用する、4つの異なるヌクレオチドの検知を利用することができる。例えば、SBSは、米国特許出願公開第2013/0079232号の組み込まれた資料の中で説明されている方法およびシステムを利用して遂行され得る。第1の例として、1対のヌクレオチドタイプは、同一の波長において検知され得るが、対の一方の要素の強度の他方の強度との比較における相違に基づいて、または、対の他方の要素に関して検知された信号と比較して、(例えば化学的修飾、光化学的修飾または物理的修飾による)信号の明白な出現もしくは消滅をもたらす対の一方の要素の変化に基づいて、識別され得る。第2の例として、4つの異なるヌクレオチドタイプのうち3つが特定の条件下で検知され得るが、第4のヌクレオチドタイプは、それらの条件下で検知可能な標識がないか、または(例えばバックグラウンド蛍光などによって)それらの条件下での検知が最小限になる。最初の3つのヌクレオチドタイプの核酸への取り込みは、それぞれの信号の存在に基づいて判定され得、第4のヌクレオチドタイプの核酸への取り込みは、何らかの信号の不在または最小限の検知に基づいて判定され得る。第3の例として、1つのヌクレオチドタイプが2つの異なるチャネルで検知される標識(複数可)を含み得、他のヌクレオチドタイプはチャネルのうちの1つ以下で検知される。前述の3つの例示的構成は、相互排除とは見なされず、様々な組合せにおいて使用され得るものである。すべての3つの例を組み合わせる例示的実施形態は、第1のチャネルで検知される第1のヌクレオチドタイプ(例えば第1の励起波長で励起されたとき第1のチャネルで検知される標識を有するdATP)と、第2のチャネルで検知される第2のヌクレオチドタイプ(例えば第2の励起波長で励起されたとき第2のチャネルで検知される標識を有するdCTP)と、第1のチャネルと第2のチャネルの両方で検知される第3のヌクレオチドタイプ(例えば第1の励起波長および/または第2の励起波長によって励起されたとき両方のチャネルで検知される少なくとも1つの標識を有するdTTP)と、いずれのチャネルにも検知されない、または検知が最小限になる、標識がない第4のヌクレオチドタイプ(例えば標識がないdGTP)とを使用する蛍光ベースのSBS法である。
さらに、米国特許出願公開第2013/0079232号の組み込まれた資料の中で説明されているように、配列決定データは単独チャネルを使用して取得され得る。そのような、いわゆる、1つの染料の配列決定手法では、第1のヌクレオチドタイプが標識されるが、第1の画像が生成された後に標識が除去され、第1の画像が生成された後でなければ第2のヌクレオチドタイプは標識されない。第3のヌクレオチドタイプは第1の画像と第2の画像の両方でその標識を保持し、第4のヌクレオチドタイプはどちらの画像でも標識のないままである。
いくつかの実施形態は、ライゲーション技術による配列決定法を利用することができる。そのような技術は、オリゴヌクレオチドを組み込んでそのようなオリゴヌクレオチドの取り込みを識別するためにDNAリガーゼを利用する。オリゴヌクレオチドは、一般的にはオリゴヌクレオチドが交雑する配列において特定のヌクレオチドのアイデンティティに関連づけられた異なる標識を有する。他のSBS方法と同様に、画像は、標識された配列決定試薬を用いて核酸特徴のアレイを処置した後に取得され得る。各画像は、特定のタイプの標識を組み込んだ核酸特徴を示すはずである。各特徴の配列内容が異なるので、異なる画像には異なる特徴が存在するかまたは存在しないことになるが、画像における各特徴の相対位置は変わらないはずである。ライゲーションに基づく配列決定方法から取得された画像は、本明細書で説明されたように記憶され、処理されて、分析され得る。本明細書で説明された方法およびシステムとともに利用され得る例示的SBSのシステムおよび方法は、米国特許第6,969,488号、米国特許第6,172,218号、および米国特許第6,306,597号に説明されており、これらの開示は全体が参照によって本明細書に組み込まれる。
いくつかの実施形態はナノ細孔配列決定法を利用することができる(Deamer, D. W.およびAkeson, M.「Nanopores and nucleic acids: prospects for ultrarapid sequencing.」Trends Biotechnol. 18巻、147〜151頁(2000年)、Deamer, D.およびD. Branton、「Characterization of nucleic acids by nanopore analysis」 Acc. Chem. Res. 35巻、817〜825頁(2002年)、Li, J., M. Gershow、D. Stein、E. Brandin、およびJ. A. Golovchenko、「DNA molecules and configurations in a solid-state nanopore microscope」Nat. Mater. 2巻、611〜615頁(2003年)、これらの開示は全体が参照によって本明細書に組み込まれる)。そのような実施形態では、標的核酸はナノ細孔を通過する。ナノ細孔は、合成細孔またはアルファ−溶血素などの生体膜タンパク質であり得る。標的核酸がナノ細孔を通過するので、各塩基対は、細孔の電気的伝導度における変化を測定することによって識別され得る(米国特許第7,001,792号、Soni, G. V.およびMeller、「A. Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin. Chem. 53巻、1996〜2001頁(2007年)、Healy, K.「Nanopore-based single-molecule DNA analysis.」Nanomed. 2巻、459〜481頁(2007年)、Cockroft, S. L., Chu, J., Amorin, M.およびGhadiri, M. R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J. Am. Chem. Soc. 130巻、818〜820頁(2008年)、これらの開示は全体が参照によって本明細書に組み込まれる)。ナノ細孔配列決定法から取得されたデータは、本明細書で説明されたように記憶され、処理され、かつ分析され得る。具体的には、データは、本明細書で説明された、光学画像および他の画像の例示的処置によって、画像として処置され得る。
いくつかの実施形態は、DNAポリメラーゼ活性のリアルタイム監視を包含する方法を利用することができる。ヌクレオチドの取り込みは、例えば米国特許第7,329,492号および米国特許第7,211,414号(各々が参照によって本明細書で組み込まれる)において説明されているように、フルオロフォア担持ポリメラーゼとガンマ−リン酸塩で標識されたヌクレオチドの間の蛍光共鳴エネルギー転移(FRET)相互作用によって検知され得、あるいは、例えば米国特許第7,315,019号(参照によって本明細書に組み込まれる)において説明されているゼロモード導波路を用い、例えば米国特許第7,405,281号および米国特許出願公開第2008/0108082号(各々が参照によって本明細書に組み込まれる)において説明されているように、蛍光性ヌクレオチド類似体および操作されたポリメラーゼを使用して、検知され得る。蛍光性に標識されたヌクレオチドの取り込みが低バックグラウンド状態で観測され得るように、照明は、表面拘束されたポリメラーゼのまわりのゼプトリットルスケールボリュームに制限され得る(Levene, M. J. ら「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science 299巻、682〜686頁(2003年)、Lundquist, P. M.ら「Parallel confocal detection of single molecules in real time.」 Opt. Lett. 33巻、1026〜1028頁(2008年)、Korlach, J.ら「Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures.」Proc. Natl. Acad. Sci. USA 105巻、1176〜1181頁(2008年)、これらの開示は全体が参照によって本明細書に組み込まれる)。そのような方法から取得された画像は、本明細書で説明されたように記憶され、処理され、かつ分析され得る。
いくつかのSBSの実施形態は、伸長生成物にヌクレオチドを組み込むとき放出されるプロトンの検知を含む。例えば、放出されたプロトンの検知に基づく配列決定法は、Ion Torrent(Guilford、CT、Life Technologiesの子会社)から市販されている電気的検知器および関連する技術、あるいは米国特許出願公開第2009/0026082 A1号、米国特許出願公開第2009/0127589 A1号、米国特許出願公開第2010/0137143 A1号、または米国特許出願公開第2010/0282617 A1号に説明されている配列決定方法およびシステムを使用することができ、これらの各々が参照によって本明細書に組み込まれる。本明細書で説明された、動的除外を使用して標的核酸を増幅するための方法は、プロトンを検知するために使用される基体に対して容易に適用され得るものである。より具体的には、本明細書で説明された方法は、プロトンを検知するために使用される単位複製配列のクローン群を生成するのに使用され得る。
上記のSBS方法は、複数の異なる標的核酸が同時に操作されるように、有利には多重フォーマットで実行され得る。特定の実施形態では、異なる標的核酸が、共通の反応槽の中で、または特定の基体の面上で処置され得る。これによって、配列決定試薬の便利なデリバリ、未反応の試薬の除去および取り込みイベントの検知が、多重化されたやり方で可能になる。表面結合の標的核酸を使用する実施形態では、標的核酸はアレイフォーマットであり得る。アレイフォーマットでは、標的核酸は、一般的には空間的に識別可能なやり方で表面に結合され得る。標的核酸は、直接的な共有結合の取付け、ビードもしくは他の粒子への取付け、または表面に取り付けられているポリメラーゼもしくは他の分子に結合することによって結合され得る。アレイは、各サイト(特徴とも称される)における標的核酸の単一のコピーを含み得、または各サイトすなわち特徴において同一の配列を有する多重コピーが存在し得る。多重コピーは、以下でより詳細に説明されるようなブリッジ増幅またはエマルジョンPCRなどの増幅方法によって生成され得る。
本明細書で説明された方法は、例えば、少なくとも約10特徴/cm、100特徴/cm、500特徴/cm、1,000特徴/cm、5,000特徴/cm、10,000特徴/cm、50,000特徴/cm、100,000特徴/cm、1,000,000特徴/cm、5,000,000特徴/cm、またはより高い密度を含む様々な密度のうち任意の密度の特徴を有するアレイを使用することができる。
本明細書で説明された方法には、複数の標的核酸を、並行して迅速かつ効率的に検知するという利点がある。それゆえに、本開示は、上記で例示されたものなど当技術において公知の技術を使用して、核酸を準備して検知することができる、統合システムを提供するものである。したがって、本開示の統合システムは、1つまたは複数の固定されたDNA断片に対して増幅試薬および/または配列決定試薬をデリバリすることができる流体成分を含み得、ポンプ、弁、貯槽、流体ラインなどの構成要素を備える。フローセルは、統合システムにおいて、標的核酸を検知するように構成され、かつ/または使用され得る。例示的フローセルは、例えば米国特許出願公開第2010/0111768 A1号および米国特許仮出願第13/273,666号に説明されており、これらの各々が参照によって本明細書に組み込まれる。フローセルに関して例示されるように、統合システムの流体成分のうち1つまたは複数が増幅方法および検知方法に使用され得る。一例として核酸の配列決定の実施形態を挙げれば、統合システムの流体成分のうち1つまたは複数は、本明細書で説明された増幅方法用、および上記で例示されたものなどの配列決定方法における配列決定試薬のデリバリ用に使用され得る。あるいは、統合システムは、増幅方法を実行するための流体系と検知方法を実行するための流体系とを個別に含み得る。増幅された核酸を生成することができ、核酸の配列を判定することもできる統合型配列決定システムの例は、MiSeq(商標)プラットホーム(Illumina,Inc.、San Diego、CA)および米国特許仮出願第13/273,666号において説明されているデバイスを制限なく含み、この仮出願は参照によって本明細書に組み込まれる。
上記で導入されたように、上記の配列決定方法などの方法によって試料から検知されるヌクレオチドは、試料からのリードと名付けられ得る。
代替形態
本明細書で説明されたアルゴリズムのうち任意のものの特定の行為、イベント、または関数は、実施形態に依拠して、異なる順序で遂行され得、付加され得、合併され得、またはすべて除外され得る(例えば、アルゴリズムを実行するのに、説明された行為またはイベントのすべてが必要とされるとは限らない)。その上に、特定の実施形態では、行為またはイベントは、順次に遂行するのではなく、例えばマルチスレッド処理、割込み処理、または複数のプロセッサもしくはプロセッサコアによって、あるいは他の並列アーキテクチャ上で、同時に遂行され得る。
本明細書で開示された実施形態に関連して説明された様々な例証となる論理ブロック、モジュールおよびアルゴリズムのステップは、電子的ハードウェア、コンピュータソフトウェアまたは両方の組合せとして実施され得るものである。ハードウェアおよびソフトウェア、様々な例証となる構成要素、ブロック、モジュールおよびステップは、この互換性を明瞭に示すために、それらの機能性の観点から全般的に上記で説明されている。そのような機能性がハードウェアで実施されるのかそれともソフトウェアで実施されるのかということは、特定の用途および全体的なシステムに課された設計制約条件に依拠する。説明された機能性は、それぞれの特定用途向けの様々なやり方で実施され得るが、そのような実装形態の決定が本開示の範囲からの逸脱をもたらすと解釈されるべきではない。
本明細書で開示された実施形態に関連して説明された様々な例証となる論理ブロックおよびモジュールは、本明細書で説明された機能を遂行するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブル論理デバイス、離散ゲート論理もしくはトランジスタ論理、離散ハードウェア構成要素、またはそれらの任意の組合せなどのマシンによって実施され得、または遂行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替形態では、コントローラ、マイクロコントローラ、またはステートマシン、それらの組合せなどであり得る。プロセッサは、例えばDSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアに関連する1つまたは複数のマイクロプロセッサ、他のそのような構成といったコンピュータデバイスの組合せとしても実施され得る。
本明細書で開示された実施形態に関連して説明された方法、プロセス、またはアルゴリズムの要素は、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、またはこれら2つの組合せで、直接具現され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取外し可能ディスク、CD−ROMまたは当技術において公知のコンピュータ可読記憶媒体の任意の他の形態の中に存在し得る。記憶媒体は、プロセッサが記憶媒体との間で情報の読取りおよび書込みをすることができるように、プロセッサに結合され得る。代替形態では、記憶媒体はプロセッサに内蔵され得る。プロセッサおよび記憶媒体はASIC内に存在し得る。ASICはユーザ端末内に存在し得る。代替形態では、プロセッサおよび記憶媒体はユーザ端末の個別部品として存在し得る。
本明細書で使用された、「可能性がある」、「恐れがある」、「あり得る」、「例えば」などの条件付き言語は、特に別記されない限り、または文脈の中で使用されたのと違った風に理解されるのでなければ、一般に、特定の特徴、要素および/または状態が、特定の実施形態には含まれ、他の実施形態には含まれないことを伝えるように意図されている。したがって、そのような条件付き言語は、一般に、特徴、要素および/または状態が1つまたは複数の実施形態に多少なりとも必要なものであること、あるいは、任意の特定の実施形態において、著者の入力または促しの有無にかかわらず、これらの特徴、要素および/または状態を含むべきかどうか、または遂行するべきかどうかを判断するための論理を、1つまたは複数の実施形態が必然的に含むこと、を意味するようには意図されていない。「備える」、「含む」、「有する」、および「包含する」などの用語は同意語であり、包括的に、拡張可能なやり方で使用され、追加の要素、特徴、行為、動作などを除外しない。同様に、「または」という用語は、その(排他的な意味ではなく)包括的な意味で使用されており、例えば要素のリストを接続するように使用されたときには、リストにおける要素のうち1つ、いくつかまたはすべてを意味する。
慣用句「X、YまたはZのうち少なくとも1つ」などの分離性の言語は、特に別記しない限り、一般に、項目、事項などが、X、YもしくはZのいずれか、またはそれらの任意の組合せ(例えばX、Yおよび/またはZ)でよいことを提示するように使用されるような文脈で理解される。したがって、そのような分離性の言語は、一般に、特定の実施形態のそれぞれが、Xのうち少なくとも1つ、Yのうち少なくとも1つ、またはZのうち少なくとも1つの存在を必要とすることを意味するようには意図されておらず、意味するべきではない。
「1つの(a)」または「1つの(an)」などの冠詞は、明示的に別記されない限り、一般に、1つまたは複数の説明された項目を含むように解釈されるべきである。それゆえに、「〜ように構成されたデバイス」などの慣用句は、1つまたは複数の記載されたデバイスを含むように意図されている。そのような1つまたは複数の記載されたデバイスはまた、明示された記載を実行するように総体として構成され得る。例えば、「記載A、BおよびCを実行するように構成されたプロセッサ」は、記載BおよびCを実行するように構成された第2のプロセッサと連動する、記載Aを実行するように構成された第1のプロセッサを含み得る。
上記の詳細な説明は、新規の特徴を示し、説明して、様々な実施形態に適用されるものと指摘してきたが、本開示の精神から逸脱することなく、示されたデバイスまたはアルゴリズムの形態および詳細における様々な省略、置換および変更が可能であることが理解されよう。認識されるように、本明細書で説明された特定の実施形態は、本明細書で説明された特徴および利点のうちすべてを用意するわけではない形態の範囲内で具現され得、いくつかの特徴は、他のものから分かれて使用され得、または実施され得る。特許請求の範囲の等価の意味および範囲の範囲内に入るすべての変更形態は、それらの範囲内に包含される。
いずれかの例からの技術は、他の例のうち任意の1つまたは複数で説明されている技術と組み合わされ得る。開示された技術の原理が適用され得る多くの可能な実施形態を考慮すれば、示された実施形態が開示された技術の例であり、開示された技術の範囲における制限として解釈されるべきではないことを理解されたい。むしろ、開示された技術の範囲は、以下の特許請求の範囲によって対象として含まれるものを含む。したがって、特許請求の範囲の範囲および精神の中に入るものは特許請求される。
本発明の実施形態の例として、以下の項目が挙げられる。
(項目1)
スプライスバリアントを識別するためのシステムであって、
メモリと、
少なくとも1つのプロセッサと、
命令を含有している少なくとも1つの非一時的コンピュータ可読媒体とを備え、前記命令が、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
単一の生物学的試料からの複数のRNA配列リードから1つまたは複数の試料のスプライス接合部位を判定するステップと、
複数の健康なRNA試料から判定された1組のベースラインスプライス接合部位を検索するステップと、
前記1つまたは複数の試料のスプライス接合部位を前記1組のベースラインスプライス接合部位と比較するステップと、
前記1組のベースラインスプライス接合部位とオーバラップしない試料のスプライス接合部位を含む1つまたは複数のフィルター処理された試料のスプライス接合部位を識別するステップであって、前記フィルター処理された試料のスプライス接合部位が候補腫瘍形成性イベントである、ステップとを含む動作を遂行させる、システム。
(項目2)
候補腫瘍形成性イベントのリストを出力するステップをさらに含む、項目1に記載のシステム。
(項目3)
前記複数の健康なRNA試料が、地理的領域、年齢、性別、人種群、組織タイプ、または試料保存特性のうち1つまたは複数の断面から得られた健康なRNA試料を含む、項目1または2に記載のシステム。
(項目4)
前記複数の健康なRNA試料が、肺、副腎、膀胱、乳房、卵巣、肝臓、前立腺、皮膚、および脾臓からなる群から選択された1つまたは複数の組織タイプからの試料を含む、項目1から3のいずれか一項に記載のシステム。
(項目5)
前記複数の健康なRNA試料が、ある範囲の年齢にわたるドナーからの試料を含む、項目1から4のいずれか一項に記載のシステム。
(項目6)
前記単一の試料からの試料接合部位を判定する前記ステップの前に、前記複数の健康なRNA試料からの前記ベースラインスプライス接合部位が判定される、項目1から5のいずれか一項に記載のシステム。
(項目7)
前記ベースラインスプライス接合部位のための前記複数の健康なRNA試料が、前記単一の生物学的試料と同一の生物学的対象からは取得されない、項目1から6のいずれか一項に記載のシステム。
(項目8)
前記ベースライン接合部位が、前記試料接合部位と同一のゲノム領域に由来する、項目1から7のいずれか一項に記載のシステム。
(項目9)
前記単一の生物学的試料が腫瘍試料に由来する、項目1から8のいずれか一項に記載のシステム。
(項目10)
前記複数の健康なRNA試料が非腫瘍組織に由来する、項目9に記載のシステム。
(項目11)
前記試料のスプライス接合部位と前記ベースラインスプライス接合部位が両方とも共通のアッセイを使用して判定される、項目1から10のいずれか一項に記載のシステム。
(項目12)
前記1つまたは複数の試料接合部位を判定するステップが、
前記単一の生物学的試料からの前記複数のRNA配列リードを判定するステップと、
前記単一の生物学的試料からのRNA配列リードとアラインしたDNA参照配列を検索するステップと、
前記RNAリードにおいて、前記DNA参照と比較して失われた連続位置として1つまたは複数の試料接合部位を判定するステップとを含む、項目1から11のいずれか一項に記載のシステム。
(項目13)
前記フィルター処理された試料のスプライス接合部位がサードパーティ接合部位とオーバラップせず、前記サードパーティ接合部位が、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフから判定される、項目1から12のいずれか一項に記載のシステム。
(項目14)
前記ベースラインスプライス接合部位の組が、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフを判定せずに判定される、項目1から13のいずれか一項に記載のシステム。
(項目15)
コンピュータで実施される方法であって、
少なくとも1つのプロセッサを使用して、単一の生物学的試料からの複数のRNA配列リードから1つまたは複数の試料のスプライス接合部位を判定するステップと、
前記少なくとも1つのプロセッサによって、メモリから、複数の健康なRNA試料から判定された1組のベースラインスプライス接合部位を検索するステップと、
前記1つまたは複数の試料のスプライス接合部位を前記1組のベースラインスプライス接合部位と比較するステップと、
前記少なくとも1つのプロセッサによって、前記ベースラインスプライス接合部位とオーバラップしない試料のスプライス接合部位を含む1つまたは複数のフィルター処理された試料のスプライス接合部位を識別するステップであって、前記1つまたは複数のフィルター処理された試料のスプライス接合部位が候補腫瘍形成性イベントである、ステップとを含む方法。
(項目16)
候補腫瘍形成性イベントのリストを出力するステップをさらに含む、項目15に記載の方法。
(項目17)
前記少なくとも1つのプロセッサによって、前記単一の試料からのRNAリードを判定するステップと、
前記少なくとも1つのプロセッサによって、前記メモリから、前記単一の試料からの前記RNAリードとアラインしたDNA参照を検索するステップと、
前記少なくとも1つのプロセッサによって、前記RNAリードにおいて、前記DNA参照と比較して失われた連続位置として前記試料接合部位を判定するステップとをさらに含む、項目15または16に記載の方法。
(項目18)
前記複数の健康なRNA試料が、地理的領域、年齢、性別、人種群、組織タイプ、または試料保存特性のうち1つまたは複数の断面から得られた健康なRNA試料を含む、項目15から17のいずれか一項に記載の方法。
(項目19)
前記ベースラインスプライス接合部位のための前記複数の健康なRNA試料が、前記単一の生物学的試料と同一の生物学的対象からは取得されない、項目15から18のいずれか一項に記載の方法。
(項目20)
前記フィルター処理された試料接合部位がサードパーティ接合部位とオーバラップせず、前記サードパーティ接合部位が、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフから判定される、項目15から19のいずれか一項に記載の方法。

Claims (17)

  1. 患者からの候補腫瘍形成性スプライスバリアントを識別するためのシステムであって、
    メモリと、
    少なくとも1つのプロセッサと、
    命令を含有している少なくとも1つの非一時的コンピュータ可読媒体とを備え、前記命令が、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
    前記患者から取得された単一のホルマリンで固定されてパラフィンに埋め込まれた(FFPE)腫瘍試料からの複数のRNA配列リードから1つまたは複数の試料のスプライス接合部位を判定するステップと、
    前記単一のFFPE腫瘍試料と同一の生物学的対象から取得されていない複数の健康なRNA試料から判定された1組のベースラインスプライス接合部位を検索するステップと、
    前記1つまたは複数の試料のスプライス接合部位を前記1組のベースラインスプライス接合部位と比較するステップと、
    1つまたは複数のフィルター処理された試料のスプライス接合部位を識別するステップであって、前記フィルター処理された試料のスプライス接合部位は、前記1組のベースラインスプライス接合部位とオーバラップしない試料のスプライス接合部位である、ステップと、
    識別された前記フィルター処理された試料のスプライス接合部位の1つまたは複数を候補腫瘍形成性イベントであると判定するステップとを含む動作を遂行させる、システム。
  2. 候補腫瘍形成性イベントのリストを出力するステップをさらに含む、請求項1に記載のシステム。
  3. 前記複数の健康なRNA試料が、地理的領域、年齢、性別、人種群、組織タイプ、または試料保存特性のうち1つまたは複数から選択される範囲にわたるドナーから得られた健康なRNA試料を含む、請求項1または2に記載のシステム。
  4. 前記複数の健康なRNA試料が、肺、副腎、膀胱、乳房、卵巣、肝臓、前立腺、皮膚、および脾臓からなる群から選択された1つまたは複数の組織タイプからの試料を含む、請求項1から3のいずれか一項に記載のシステム。
  5. 前記複数の健康なRNA試料が、ある範囲の年齢にわたるドナーからの試料を含む、請求項1から4のいずれか一項に記載のシステム。
  6. 前記単一のFFPE腫瘍試料からの試料接合部位を判定する前記ステップの前に、前記複数の健康なRNA試料からの前記ベースラインスプライス接合部位が判定される、請求項1から5のいずれか一項に記載のシステム。
  7. 前記ベースライン接合部位が、前記試料接合部位と同一のゲノム領域に由来する、請求項1から6のいずれか一項に記載のシステム。
  8. 前記複数の健康なRNA試料が非腫瘍組織に由来する、請求項1に記載のシステム。
  9. 前記試料のスプライス接合部位と前記ベースラインスプライス接合部位が両方とも共通のアッセイを使用して判定される、請求項1から8のいずれか一項に記載のシステム。
  10. 前記1つまたは複数の試料接合部位を判定するステップが、
    前記単一のFFPE腫瘍試料からの前記複数のRNA配列リードを判定するステップと、
    前記単一のFFPE腫瘍試料からのRNA配列リードとアラインしたDNA参照配列を検索するステップと、
    前記RNAリードにおいて、前記DNA参照と比較して失われた連続位置として1つまたは複数の試料接合部位を判定するステップとを含む、請求項1から9のいずれか一項に記載のシステム。
  11. 前記フィルター処理された試料のスプライス接合部位が、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフから判定された非癌性スプライスバリアントとオーバラップしない、請求項1から10のいずれか一項に記載のシステム。
  12. 前記ベースラインスプライス接合部位の組が、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフを判定せずに判定される、請求項1から1のいずれか一項に記載のシステム。
  13. コンピュータで実施される方法であって、
    少なくとも1つのプロセッサを使用して、患者から取得された単一のホルマリンで固定されてパラフィンに埋め込まれた(FFPE)腫瘍試料からの複数のRNA配列リードから1つまたは複数の試料のスプライス接合部位を判定するステップと、
    前記少なくとも1つのプロセッサによって、メモリから、前記単一のFFPE腫瘍試料と同一の生物学的対象から取得されていない複数の健康なRNA試料から判定された1組のベースラインスプライス接合部位を検索するステップと、
    前記1つまたは複数の試料のスプライス接合部位を前記1組のベースラインスプライス接合部位と比較するステップと、
    前記少なくとも1つのプロセッサによって、1つまたは複数のフィルター処理された試料のスプライス接合部位を識別するステップであって、前記フィルター処理された試料のスプライス接合部位は、前記ベースラインスプライス接合部位とオーバラップしない試料のスプライス接合部位である、ステップと、
    識別された前記フィルター処理された試料のスプライス接合部位の1つまたは複数を候補腫瘍形成性イベントであると判定するステップとを含む方法。
  14. 候補腫瘍形成性イベントのリストを出力するステップをさらに含む、請求項13に記載の方法。
  15. 前記少なくとも1つのプロセッサによって、前記単一のFFPE腫瘍試料からのRNAリードを判定するステップと、
    前記少なくとも1つのプロセッサによって、前記メモリから、前記単一のFFPE腫瘍試料からの前記RNAリードとアラインしたDNA参照を検索するステップと、
    前記少なくとも1つのプロセッサによって、前記RNAリードにおいて、前記DNA参照と比較して失われた連続位置として前記試料接合部位を判定するステップとをさらに含む、請求項13または14に記載の方法。
  16. 前記複数の健康なRNA試料が、地理的領域、年齢、性別、人種群、組織タイプ、または試料保存特性のうち1つまたは複数から選択される範囲にわたるドナーから得られた健康なRNA試料を含む、請求項13から15のいずれか一項に記載の方法。
  17. 前記フィルター処理された試料接合部位が、所定の遺伝子のエクソンの複数の交互の組合せを捕捉するスプライスグラフから判定された非癌性スプライスバリアントとオーバラップしない、請求項13から16のいずれか一項に記載の方法。
JP2019538438A 2017-01-17 2018-01-16 腫瘍形成性スプライスバリアントの判定 Active JP6806909B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762447382P 2017-01-17 2017-01-17
US62/447,382 2017-01-17
PCT/US2018/013864 WO2018136416A1 (en) 2017-01-17 2018-01-16 Oncogenic splice variant determination

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020191614A Division JP2021036895A (ja) 2017-01-17 2020-11-18 腫瘍形成性スプライスバリアントの判定

Publications (2)

Publication Number Publication Date
JP2020506684A JP2020506684A (ja) 2020-03-05
JP6806909B2 true JP6806909B2 (ja) 2021-01-06

Family

ID=61148514

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019538438A Active JP6806909B2 (ja) 2017-01-17 2018-01-16 腫瘍形成性スプライスバリアントの判定
JP2020191614A Withdrawn JP2021036895A (ja) 2017-01-17 2020-11-18 腫瘍形成性スプライスバリアントの判定

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020191614A Withdrawn JP2021036895A (ja) 2017-01-17 2020-11-18 腫瘍形成性スプライスバリアントの判定

Country Status (10)

Country Link
US (1) US20200090784A1 (ja)
EP (1) EP3571613A1 (ja)
JP (2) JP6806909B2 (ja)
KR (1) KR102326612B1 (ja)
CN (1) CN110178184B (ja)
AU (1) AU2018210316A1 (ja)
BR (1) BR112019014042A2 (ja)
CA (1) CA3045498C (ja)
SG (1) SG11201905640XA (ja)
WO (1) WO2018136416A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3246416A1 (en) 2011-04-15 2017-11-22 The Johns Hopkins University Safe sequencing system
EP2912468B1 (en) 2012-10-29 2018-09-12 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
AU2018342007A1 (en) 2017-08-07 2020-02-27 Board Of Regents, The University Of Texas Systems Methods and materials for assessing and treating cancer
JP6931860B2 (ja) * 2019-02-08 2021-09-08 株式会社Zenick mRNA前駆体の解析方法、情報処理装置、コンピュータプログラム
WO2021172315A1 (ja) * 2020-02-25 2021-09-02 国立大学法人東京大学 Lamc2-nr6a1スプライシングバリアント及びその翻訳産物
US20240102099A1 (en) * 2020-11-20 2024-03-28 H. Lee Moffitt Cancer Center And Research Institute, Inc. Methods and compositions relating to a novel epidermal growth factor receptor (egfr) splice variant

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
AU3087801A (en) * 2000-02-04 2001-08-14 Molecular Dynamics Inc Human genome-derived single exon nucleic acid probes useful for analysis of geneexpression in human breast and hbl 100 cells
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
AU2002210791A1 (en) * 2000-07-28 2002-02-13 Compugen Inc. Oligonucleotide library for detecting rna transcripts and splice variants that populate a transcriptome
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
WO2004013311A2 (en) * 2002-08-06 2004-02-12 Diadexus, Inc. Compositions and methods relating to ovarian specific genes and proteins
ES2407681T3 (es) 2002-08-23 2013-06-13 Illumina Cambridge Limited Nucleótidos modificados para la secuenciación de polinucleótidos.
CA2511816A1 (en) * 2002-12-26 2004-07-22 Cemines, Inc. Methods and compositions for the diagnosis, prognosis, and treatment of cancer
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
EP1896495A2 (en) * 2005-03-30 2008-03-12 Novartis Vaccines and Diagnostics, Inc. Dkkl-1 splice product modulators for cancer diagnosis and therapy
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP4134667A1 (en) 2006-12-14 2023-02-15 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2010009074A2 (en) * 2008-07-14 2010-01-21 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Method for predicting and detecting tumor metastasis
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
JP2010252787A (ja) * 2009-03-31 2010-11-11 Shizuoka Prefecture 大腸癌又は胃癌マーカー
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
JP2013039111A (ja) * 2011-08-19 2013-02-28 Shizuoka Prefecture スプライシングバリアント
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
CN106414768B (zh) * 2014-03-27 2020-05-29 生命技术公司 与癌症相关的基因融合体和基因变异体
CN105989246B (zh) * 2015-01-28 2018-10-26 深圳华大智造科技有限公司 一种基于基因组组装的变异检测方法和装置

Also Published As

Publication number Publication date
CN110178184A (zh) 2019-08-27
CA3045498A1 (en) 2018-07-26
KR20190098233A (ko) 2019-08-21
SG11201905640XA (en) 2019-08-27
WO2018136416A1 (en) 2018-07-26
BR112019014042A2 (pt) 2020-02-04
US20200090784A1 (en) 2020-03-19
JP2020506684A (ja) 2020-03-05
AU2021201007B2 (en) 2023-02-23
JP2021036895A (ja) 2021-03-11
CN110178184B (zh) 2024-04-19
AU2018210316A1 (en) 2019-06-27
CA3045498C (en) 2021-07-13
AU2021201007A1 (en) 2021-03-11
EP3571613A1 (en) 2019-11-27
KR102326612B1 (ko) 2021-11-15

Similar Documents

Publication Publication Date Title
JP6806909B2 (ja) 腫瘍形成性スプライスバリアントの判定
US11837328B2 (en) Methods and systems for detecting sequence variants
US11335437B2 (en) Set membership testers for aligning nucleic acid samples
US10370710B2 (en) Analysis methods
AU2014337089B2 (en) Methods and systems for genotyping genetic samples
EP3053073B1 (en) Methods and system for detecting sequence variants
US20180195953A1 (en) Phasing correction
Kinsella et al. Sensitive gene fusion detection using ambiguously mapping RNA-Seq read pairs
US20130324417A1 (en) Determining the clinical significance of variant sequences
IL285319B (en) Suppressing errors in sequenced DNA fragments using common reads with unique molecular indices
JP2016533182A (ja) 疾患に誘導された変異を同定するための方法およびシステム
Davidson et al. JAFFAL: detecting fusion genes with long-read transcriptome sequencing
JP2018500625A (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
Chen et al. Practical considerations on performing and analyzing CLIP-seq experiments to identify transcriptomic-wide RNA-protein interactions
Lee et al. Currently applied molecular assays for identifying ESR1 mutations in patients with advanced breast cancer
CN115867665A (zh) 嵌合扩增子阵列测序
Deshpande et al. RNA-seq data science: From raw data to effective interpretation
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
CN115691671A (zh) 一种基于三代测序的转录组嵌合体的切分方法、装置
Hambuch et al. Whole Genome Sequencing in the Clinical Laboratory

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190716

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201204

R150 Certificate of patent or registration of utility model

Ref document number: 6806909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250