本明細書で開示される主題のいくつかの実施形態は、以下で詳細に論じられる。実施形態を説明する際に、明確にするために特定の用語が使用される。しかしながら、開示された方法及びコンピュータシステムは、そのように選択された特定の用語に限定されることを意図していない。当業者は、本明細書に開示される主題から逸脱することなく、他の同等の構成要素を採用することができ、他の方法を開発できることを認識するであろう。背景及び詳細な説明のセクションを含む、本明細書のいずこかに引用されているすべての参考文献は、それぞれが個別に組み込まれたかのように参照により組み込まれている。
細胞又は細胞集団等からの試験試料(ヒト試料又は別の生物由来の試料)に存在するRNA転写物の同定には、RNAのコピーの増幅、増幅されたコピーのシークエンシング、及びシークエンシングされたコピー又はリードの、RNAが試料となった細胞型の参照ゲノム等の参照ゲノムに対するアライメントが含まれ得る。例えば、細胞又は細胞の集団によって産生されるRNA分子の全体は、そのような試験試料の1つ又は複数の細胞の「トランスクリプトーム」と呼ばれる場合があり、所与の組織型若しくは腫瘍等の疾患に潜在的に罹患している組織の細胞等の所与の細胞で転写されているゲノム配列のすべてを同定するため、又は、異なる個体のトランスクリプトームを比較するため、又は所与の細胞における転写に対する異なる環境因子若しくは処理が及ぼす影響を比較するため、増幅され、シークエンシングされ、及びアライメントされ得る。そのような方法は、細胞又は細胞集団のRNAをDNAに逆転写し、次いで逆転写DNAを増幅して、トランスクリプトームの決定のためにシークエンシング及びアライメントを可能にすることを含む。
DNA増幅は、標的核酸分子(細胞のRNAのすべて又は実質的にすべてを含む、細胞のRNAから逆転写されたDNAを含むRNA又はDNA等)のコピー数を増やす技術である。DNA増幅の例は、マルチプレックスポリメラーゼ連鎖反応(マルチプレックスPCR)である。マルチプレックスPCRアッセイでは、1回の反応での複数の標的核酸分子の増幅を含む。典型的には、各標的核酸分子の増幅のために一対のオリゴヌクレオチドプライマーが選択される。RNAのアライメントのために、増幅は、RNAからDNAへの逆転写を含み、ヌクレオチドの対を使用して、存在するRNA配列に対応するDNA配列を作成及び増幅し、プロセスは逆転写PCRと呼ばれる。本明細書で使用されるとき、PCRという用語は、逆転写PCRを含む。標的核酸分子を含む鋳型核酸を含む試料は、試料中の鋳型上の標的へのプライマーの対のハイブリダイゼーションを可能にする条件下で、選択されたオリゴヌクレオチドプライマーの対と接触する。プライマーは適切な条件下で伸長され、鋳型から解離され、再アニーリング、伸長、及び解離されて、標的核酸分子のコピー数を増幅する。増幅産物は、必要に応じて、例えば核酸シークエンシングによって特徴付けることができる。
標的核酸分子は、細胞RNAから逆転写されたDNAを含む、試料中の鋳型核酸内に含まれる任意の核酸分子であり得る。マルチプレックスPCRアッセイのための標的核酸分子は、100~150、200~300、400~500、更には70~120塩基対の長さ等の70~1000塩基対の長さである。マルチプレックスPCRアッセイのために選択されたプライマー対のメンバーは、増幅を開始するために、標的核酸分子の上流及び下流の末端にハイブリダイズする。
プライマーは核酸分子であり、通常、約10~50又は20~25ヌクレオチドの長さのDNAオリゴヌクレオチドである(より長い長さも可能である)。プライマーはまた、最大長、例えば、25、40、50、75、又は100ヌクレオチド以下の長さであってもよい。特定のプライマーのハイブリダイゼーション特異性は、典型的には、その長さとともに増加する。したがって、例えば、20個の連続したヌクレオチドを含むプライマーは、典型的には、わずか10個のヌクレオチドの対応するプライマーよりも高い特異性で標的にアニールする。マルチプレックスPCRアッセイのためのオリゴヌクレオチドプライマーの5'末端は、増幅された標的の分析に使用するための追加の部分(追加のオリゴヌクレオチドを含む)に連結できる。例えば、プライマー対のプライマーの5'末端は、増幅された標的のシークエンシングと結果の配列リードの分析を促進する追加のオリゴヌクレオチド配列(例えば、アダプター配列、バーコード配列等)に連結できる。
本明細書で議論されるように、マルチプレックスPCRアッセイのためのプライマーの設計及び選択には、マルチプレックスPCRアッセイを妨害する参照配列(参照文字列)を持つ鋳型核酸分子に対する候補プライマーのオフターゲットハイブリダイゼーション事象(オフターゲット一致)の可能性がある場合、決定すべき候補配列を有する候補プライマーのスクリーニングが含まれ得る。これには、プライマーがハイブリダイズする可能性のある鋳型核酸分子上の候補ハイブリダイゼーション位置(候補一致位置)を特定し、候補プライマー配列と、1つ又は複数の検証基準(一致検証基準)に従う候補一致位置の配列との比較に基づいて、候補ハイブリダイゼーション位置が検証されたハイブリダイゼーション位置(検証済み一致位置)であるかどうかを決定することが含まれる。本明細書に記載の技術に関して、候補配列は、プライマー配列の形態をとることができ、これは、対のプライマー(例えば、文字列)として表される。便宜上、このような内部表現は単に「配列」と呼ばれることがある。実際の物理的な配列は、文字列によって内部的に表される。参照ゲノム配列は、参照ゲノム又はプライマーによって標的とされる部分参照ゲノムの表現の形をとることができる。したがって、参照ゲノム配列はヌクレオチドの配列を表すことができ、指定された3'末端と5'末端を示すことができる。プライマーの逆相補体を生成し、候補文字列として含める手法において、プラス鎖とマイナス鎖の両方を単一の参照ゲノム配列で表すことができる。参照ゲノム配列と一致するプライマー逆相補体は、一致によって示される位置での参照ゲノムのマイナス鎖の一致を示す。プライマー逆相補体のこのような一致は、閾値距離(例えば、オフターゲット条件ウィンドウの長さ)内にある場合、適切なPCR反応を妨害し、オフターゲット条件になる可能性があるため、興味深い。
検証基準が充足されているために候補ハイブリダイゼーション位置が検証されたハイブリダイゼーション位置として同定された場合、マルチプレックスPCRアッセイのための追加の候補プライマーの、鋳型核酸分子上の対応する検証されたハイブリダイゼーション位置へのハイブリダイゼーションと組み合わせて、検証されたハイブリダイゼーション位置への候補プライマーのハイブリダイゼーションが、標的核酸分子の増幅及び/又は非標的核酸分子の増幅を妨害する可能性がある(オフターゲット条件を形成する)かどうかを決定するために追加の分析を実行できる。第1の候補プライマーの検証基準が第2の候補プライマーにも適用される場合(例えば、2つの候補プライマーの配列の類似性のため)、効率のために、第1の候補プライマーの検証基準が充足されているかどうかを判定する分析は、第2の候補プライマーに再利用できる。
候補プライマー配列と参照ゲノム配列の間の文字レベルでの一致は、2つの文字が相補的なヌクレオチドである(例えば、それらは結合する)かどうかに基づいて計算できる。したがって、「A」は「T」に相補的とみなされ、「C」は「G」に相補的とみなされる。理解されるように、DNA配列には「T」ヌクレオチドが含まれるが、RNAは代わりに「T」の代わりに「U」ヌクレオチドを含み、「A」ヌクレオチドは「U」ヌクレオチドと相補的である。RNAのDNAへの逆転写及び逆転写されたDNAのマルチプレックス増幅では、試験試料のRNA配列に対応するDNA配列は、「U」ヌクレオチドの代わりに「T」ヌクレオチドを有し、その結果、試験試料RNAから逆転写及び増幅された配列における「T」ヌクレオチドの存在等は、逆転写及び増幅された元のRNA配列中の「U」ヌクレオチドの存在を示す。
試験試料のRNAに対応する配列を増幅することによって試験試料のトランスクリプトームをアライメントするために、すなわち、試験試料の転写されたRNAからDNAを逆転写し、その逆転写物を増幅し、参照ゲノムへのアライメントを演算上要求する。メッセンジャーRNA(mRNA)のヌクレオチド配列はエクソンを欠く場合があり、すなわち、ゲノム内で直接連続していないが、ゲノムDNAが転写された後にスプライシングメカニズムによって結合される配列のセクションで構成される。更に、異なる細胞型又は異なる器官又は組織の細胞は、そのような転写物が他の細胞型、器官、又は組織でスプライシングされる方法とは異なる方法で所与の転写物をスプライスすることができ、所与の細胞型又は組織又は器官は、異なる条件下又は異なる時点で異なるスプライシングされた転写物を生成することができ、そのような異なる細胞型又は器官又は組織におけるスプライスバリアントの存在をもたらす。異なる個体の細胞若しくは組織の、又は疾患組織のトランスクリプトームも、他の個体又は非罹患組織由来の細胞、器官、又は組織のRNA転写物とは異なるスプライスバリアントを示すことにより、異なり得る。更に、最初に一次RNA転写物の一部としてではなく、ゲノムDNAの異なる領域から転写されたRNAが連続してRNA転写物を形成するように互いに結合するRNA融合は、RNAのアライメントに更なる規模の変動性と複雑さを追加する。他の例では、ある遺伝子座から別の遺伝子座へのゲノムDNAの転座は、ゲノムDNAが、ゲノムDNAの転座元の遺伝子座に対応する配列を持つ転写物の別の部分と連続的に転座した遺伝子座に対応する配列を持つ転写物の一部との融合として現れるRNA転写物の産生をもたらし得る。
例えば、トランスクリプトーム内のスプライスバリアントとRNA融合の存在は、従来のヌクレオチドアライメント法の複雑さに加えて、演算の複雑さのレイヤーを追加する。従来のRNAアライメント法は、演算能力に大きな負担がかかり、従来、アライメント処理を実行するには最大32ギガバイトのRAMが必要であった。多くの場合、このような演算上の要求により、利用可能なコンピュータシステムでRNAアライメントを実行不能とし、利用できない、又は不必要に強力で高価なコンピュータシステム、又はシークエンシングに使用される他のハードウェアの構成要素として簡単に提供できないコンピュータシステムの使用が必要になる。本明細書に開示されるように、プライマー設計と、試験試料から増幅され得る配列を表す改変参照ゲノムの生成とを組み合わせることにより、RNAアライメントに対する演算上の要求が実質的に低減され得、16ギガバイト以下のRAMのみを使用して、試験試料のトランスクリプトーム等のRNAのアライメントが実行され得る。本明細書で開示される効率化された方法、及びその性能のためのコンピュータシステムは、処理能力の要求を低減することによりコンピュータ機能を改善し、それにより不要にされるステップを排除することによりワークフローを更に改善する。
以下により詳細に説明するように、RNAをアライメントさせるために、所与のゲノムから転写可能であり得るRNAのセット全体を同定し、そのような同定された転写可能な配列のセットを使用して、本明細書に開示されるようにRNAアライメントを簡略化する。完全な参照ゲノムには、転写されていないDNAの重要な部分と、転写されているがイントロンであるためRNAから除去された他の部分が含まれる。参照ゲノムは、スプライスバリアント又は融合RNA転写物を直接同定することはできないが、転写されたRNA配列がどこでスプライス又は融合されるかを判別する配列を含む。したがって、参照ゲノムから理論的に転写可能なすべてのRNAのセットは、参照ゲノムよりもはるかに少ないコンピュータシステムのメモリストレージを占有し、その配列情報にアクセスするために必要なメモリ要求を低減し、転写不可能なDNAを除外し、参照ゲノムに直接存在しないスプライスバリアント及び融合RNAをも含む。本明細書に開示されているように、試験試料に存在するRNAは、参照ゲノム自体の参照ゲノムからの仮説的に転写可能な配列の一部に類似する可能性が高いため、参照ゲノムから転写可能な配列の転写物は、試験試料のRNAをアライメントする際に参照配列の供給源として使用することができる。
参照ゲノムの転写物配列は、参照ゲノムと遺伝子モデルを参照してコンピュータによって構築され得る。遺伝子モデルには、特定の配列の転写、転写停止点、転写された配列のエクソン-イントロン境界、可変スプライシング順列、生成され得るRNA融合産物、並びにすべての可能な転写イベントが発生したときに参照ゲノムのどの配列が含まれ、除外されるか、及び転写産物のどのようなバリエーションが可能かを決定するその他の因子を指示する参照ゲノムの領域を同定することに基づいて、参照ゲノムから転写可能な配列を特定する規則を同定するコンピュータプロセッサによって実行可能な命令のセットを含み得る。遺伝子モデルには、転写された配列の出現と配列、及びスプライシング、RNA融合、又はその両方に基づいた潜在的に異なる配列配置を示すことが知られている参照ゲノムの配列に基づいて、転写物配列に転写可能な配列を含めるための命令が含まれ得る。遺伝子モデルはまた、所与の参照ゲノムを有する細胞によって産生されることが知られている転写物に基づいて、改変された転写物配列に転写可能な配列を含めるための命令も含み得る。
上述のように、試験試料のRNAのアライメントには、プライマーの使用による試験試料のRNAの増幅が含まれ得る。マルチプレックス合成のためのプライマーの選択と、試験試料のRNAに対応するDNAの増幅により、アライメントのリードを作成するために試料から増幅され得るオンターゲット及びオフターゲットの配列が決定される。試験試料中のヌクレオチド配列から増幅され得るオンターゲット及びオフターゲットの配列を同定するためのシステム及び方法は、米国特許出願第15/705,079号に記載されており、その内容はその全体が本明細書に組み込まれる。プライマー配列の所与のセットについて、参照ゲノムから、又は遺伝子モデルに従って参照ゲノムから転写可能な転写物配列から増幅される配列が決定され得る。それらのうち、参照ゲノムの標的配列中の標的配列に対応する配列の増幅から生じるオンターゲットの配列を表す配列、及び標的配列以外のプローブのハイブリダイゼーションと続く標的配列以外の増幅から生じるオフターゲットの配列を表す配列が同定され得る。プライマーの所与のセットによる参照ゲノムの参照転写物の所与のセットから増幅可能なオンターゲット配列及びオフターゲット配列の同定は、増幅された標的がオンターゲット又はオフターゲットの定義を充足するかどうかを定義する規則に基づいて改変可能である。例えば、プライマーの配列と、プライマーがアライメントでき、マルチプレックス増幅中の増幅を促進する参照ゲノムの転写物配列の領域との間のいくつかのミスマッチの数の上限の許容範囲が設定され得る。或いは、プライマーの末端、例えば3'末端のヌクレオチドと、プライマーがアライメントでき、マルチプレックス増幅中の増幅を促進する参照ゲノムの転写物配列の領域との間のミスマッチの最大許容数が設定され得る。
そのようなプライマーのそのような領域へのハイブリダイゼーションから生じるプライマーは、マルチプレックス増幅中にオフターゲット配列の生成をもたらすとみなされ得る。ミスマッチ又はプライマー末端のミスマッチの最大数を増加又は減少させると、所与のプライマーをマルチプレックス増幅で使用するときにオフターゲットとして分類される標的の数がそれぞれ減少又は増加する可能性がある。オフターゲット配列が少ないか、又は全くないことが好ましい場合、オフターゲット配列を同定するためのより厳密なパラメータを使用し得、オフターゲット配列の増幅をもたらすプライマーを増幅における使用から除外することができる。
試験試料のRNAから生成されたリードの同定とアライメントのために、遺伝子モデルに従って参照ゲノムから生成された転写物配列から、改変参照ゲノムを生成できる。試験試料のRNAから生成される可能性のある増幅産物を予め決定することにより、上に説明するように、試験試料のRNAからのリードを参照ゲノムにアライメントするのとは対照的に、参照ゲノムからのすべての可能な転写可能な配列で構成される仮説的なトランスクリプトームへのアライメントと比較して、試験試料のRNAのアライメントははるかに演算効率が向上する。マルチプレックス増幅プロセスで適切なプライマーを使用することにより増幅が刺激される配列のみが、RNAアライメント法でのリードに対応すると予想される。本明細書に開示されるように、プライマーのセットは、増幅産物を判定するために分析され得、したがって、それらリードはRNAアライメント法の開発をもたらすであろう。
遺伝子モデルに基づいて参照ゲノムから転写可能な転写物配列、及びプライマー配列は、データストレージユニットによって受信できる。次いで、1つ又は複数のマイクロプロセッサは、マルチプレックス増幅プロセスにおいて、そのようなプライマーが生成をもたらすであろう転写物を同定し得る。それによって同定された標的は、試験試料のRNAに対応するリードがアライメントされる改変参照ゲノムとして機能する。参照修飾ゲノムのサイズは、それを生成するために使用されるプライマーの数に依存し、また、改変参照ゲノムにおけるオフターゲット配列の包含又は排除のためのオフターゲット配列の定義及び規則のパラメータの厳密性にも依存し得る。試験試料中のすべてのRNA配列の増幅も本明細書に開示される方法及びシステムに含まれるが、試験試料中に存在するすべてのRNA転写物に対応する配列の増幅のためにプライマーを選択する必要はない。いずれの場合でも、RNAアライメントのためのマルチプレックス増幅プロセスでの使用を意図したプライマー又は提案された候補プライマーを最初に分析して、遺伝子モデルに従って参照ゲノムの転写物配列を参照して増幅すると予測される配列を決定できる。
本明細書の例のいずれにおいても、候補プライマー配列は、一致の発見を促進するために、長さk(k mer)のサブ文字列又はサブ配列に分解することができる。kmerは、候補プライマー配列に対して生成できる。実際には、このようなサブ文字列又はサブ配列はすべて生成されるが、他の配置も可能である。
本明細書の例のいずれかにおいて、候補プライマー配列について参照ゲノム配列上の一致する位置を同定することは、候補プライマー配列をk merに分解し、k merを有するk merインデックスを検索することを含むことができる。
プライマー配列又はk-merは、参照ゲノムからの転写物配列と一致させて、プライマーが増幅標的を生じさせるかどうかを判定することができる。パラメータは、プライマーと転写物配列間で一致する最小数の連続した塩基対、プライマー全体で許容される最大ミスマッチ数、及びプライマーの5'末端と転写物配列との間の許容されるミスマッチの最大数を含んで、k-merがそうするかどうかについて設定できる。また、所与のプライマーセットについての参照ゲノムの転写物配列から改変参照ゲノムを生成するための規則には、改変参照ゲノムに含まれる最大及び最小の長さ又は予測される標的が含まれ得る。標的を生成するプライマーを定義するために設定されたパラメータを充足しないプライマー、及び参照ゲノムに含まれる標的に対して設定された定義を充足しないターゲットは除外し得る。
改変参照ゲノムに含める標的を同定する例では、プライマーは参照ゲノムの転写物配列と一致し、5'端で開始して3'端まで続く。転写物配列にはプラス鎖及び相補的マイナス鎖からの配列情報が含まれ、プライマーは、上述のように一致としてプライマーを分類するために確立されたパラメータに従って、各鎖に一致するかどうか分析され得る。プライマーがプラス鎖の配列と一致する場合、プライマーとその一致位置はメモリキャッシュに保存され得る。プライマーがマイナス鎖に一致する場合、メモリキャッシュに保存され得る。プライマーの対、フォワードプライマーとリバースプライマー、参照ゲノム転写物配列の相補鎖の対のそれぞれに一致するプライマーは、マルチプレックス増幅中に増幅産物を一緒に生成する。したがって、マイナス鎖に一致するプライマーが同定されてキャッシュされると、参照ゲノムの転写物配列の配列に一致するとして以前にキャッシュされたプライマーと比較できる。キャッシュされたプライマー、1つのフォワードとリバースが標的の増幅をもたらすと判定されるとき、標的を改変参照ゲノムに追加できる。
プライマーと転写物配列の一致は転写物配列に沿って5'から3'に進行し、追加のプライマーの一致が上流プライマーの一致と比較して同定され、プライマーによって増幅可能な標的を同定し、新しいプライマーの一致が以前の上流の一致により増幅可能な標的を形成できるかどうかについてのチェックが、すべての以前の一致について実施される。鋳型配列を下に進むと、以前の一致と新しい一致の一致配列の位置がより遠くになり、そのような潜在的に増幅可能なターゲットがより長くなる。新しいプライマー一致と以前の上流プライマー一致との間の増幅可能なターゲットの長さが、標的のパラメータを超えて改変参照ゲノムに含める場合、上流の標的は、増幅可能な標的のその後の評価で無視できる。
プライマー一致と標的サイズのいずれかのパラメータが充足されている場合、一対のプライマーは、改変参照ゲノム内の標的の生成と包含をもたらす。しかしながら、プライマーは、参照ゲノムの転写物配列内の複数の配列に一致する場合がある。そのような重複が同定されて削除されない限り、改変参照ゲノム内の標的の重複が生じる可能性がある。一例では、このような重複を回避するために、一致するプライマーの単一の遺伝子座が決定される。転写物配列内の領域に一意的な各プライマーについて、プライマーを遺伝子座に割り当てることができる。鋳型の増幅をもたらすと判定された一対のプライマーのうちの少なくとも1つのプライマーが1つを超える転写物の配列に一致する場合、両方のプライマーが一致する配列を持つ転写物が存在する場合、そのような転写物の遺伝子座を割り当てることができる。両方のプライマーが一致する配列を持つ複数の転写物がある場合、そのような複数の転写物のいずれかをそれぞれ又は両方のプライマーについての遺伝子座として割り当てるための任意の規則を使用してもよい。一例では、第1の転写物は、その遺伝子座IDに従ってアルファベット順に、各プライマーに割り当てられてもよい。対のプライマーのいずれかが複数の転写物の配列に一致するときに、対の両方のプライマーが一致する配列を持つ単一の転写物がない場合、そのような複数の転写物のいずれかをプライマーの一方の遺伝子座として割り当てるための任意の規則を使用してもよい。例えば、各プライマーが一致する配列を有する、その遺伝子座IDに従ってアルファベット順になっている第1の転写物は、それぞれ各プライマーに割り当てられてもよい。
互いに比較的近接している2つの標的の場合、2つの標的を含むより長い標的も検出され得る。そのような遺伝子座横断は、増幅中に近位標的が遺伝子座横断標的から形成可能であり得るが、より小さな標的のいずれかからより大きな標的を形成することができないため、それらはコピー数が少なく、したがって表れることが少ないことを意味し、アライメントにおいて重大な問題を示さない。それにもかかわらず、そのような遺伝子座横断標的は、それらをオフターゲット配列として特徴付けることにより、改変参照ゲノムから除外されるか、又はそれに追加されない可能性がある。改変参照ゲノムから除外するためには、大きな標的の上流の標的が1つの意図された標的内の配列に一致し、その下流のプライマーが異なる標的に一致し、大きな標的が、そのプライマーが一致するいずれかの標的より大きくなければならない。
次いで、改変参照ゲノム内の対応するゲノム位置情報を含めるために、改変参照ゲノム内の配列を参照ゲノムにマッピングして戻すことができる。スプライシングとRNA融合により、改変参照ゲノムの連続配列は、参照ゲノム内の位置にマッピングして戻すために分割化を必要とする。互いに異なる試料内のRNA転写物は、マルチプレックス増幅中にプライマーセットのプライマーによって増幅されると、互いに同一である増幅産物又はアンプリコンを生じ得る可能性がある。例えば、一対のプライマーが、スプライスバリアントの他の部分間の違いにもかかわらず、各スプライスバリアントに含まれる隣接するエクソンにまたがる配列の増幅をもたらす場合、互いの2つのスプライスバリアントは、互いに同一のアンプリコンを生じさせ得る。他のプライマー対は、スプライスバリアントから、互いに異なるアンプリコンに生じさせ得る。例えば、エクソンが他のスプライスバリアントにない一方のスプライスバリアントのプライマー間にエクソンが存在すると、プライマー対によりスプライスバリアントから生成される異なるアンプリコンが生じる。マルチプレックス増幅に使用されるプライマーセットによってそこから増幅できる標的のリストが互いにゲノム内の同じ位置に対応する場合、RNA鋳型は互いに同一であるとみなされる。
改変参照ゲノムが構築されると、改変参照ゲノムの構築に使用されるプライマーセットのプライマーの配列を有するプライマーは、試験試料中のRNA配列のマルチプレックスPCR増幅に使用できる。試験試料から検出されたアンプリコンに対応するリードが生成でき、その後、改変参照ゲノムにマッピングして戻すことができる。マッピングには、いずれかの重複する末端に基づいて配列を連続してアライメントさせ、改変参照ゲノム内のリードが対応する位置を同定することが含まれる。一般的に、配列分析の一部として収集されたシークエンシングデータは、配列アライメントデータセットに保存される。配列アライメントデータを保存するための一般的なファイルタイプは、SAM(.sam)及びBAM(.bam)ファイル形式である。配列アライメントソフトウェア(「アライナー」)は、リード配列の参照ゲノムへのアライメント、又は本開示によれば、参照ゲノムの転写物配列からの増幅可能な標的からなる改変ゲノム参照へのアライメントを示す、配列アライメントデータセットファイル、例えば、BAMファイルを出力する。
アライメントファイルには、アライメントに基づいた試験試料のアライメントプロファイルを含めることができる。アライメントプロファイルには、アライメントファイルに含まれるアライメントされた配列に関する更なる情報が含まれ得る。例えば、本明細書の例に開示されているように、改変参照ゲノムに含まれる配列情報が改変参照ゲノムの配列に対応する参照ゲノム内の位置の同定を含み得る場合、試験試料からのリードを改変参照ゲノムにアライメントすることは、また、アライメントされたリードが関係する改変参照ゲノム配列に含まれる参照ゲノム位置情報への参照によって、リードを参照ゲノムにマッピングすることを可能にする。場合によっては、これは、スプライス及び融合ジャンクションに由来する標的にアライメントした配列リードを翻訳する工程を含み得る。例えば、改変参照ゲノムからの標的には、エクソン-エクソン境界が含まれる場合があり、リード又はリード内の配列がそのような境界を越えてアライメントする場合がある。或いは、改変参照ゲノム由来の標的には、単一の転写物からではなく、参照ゲノム内の独立した遺伝子座から転写された個々の転写物分子からのRNA配列間のジャンクションを含むRNA融合が含まれ得る。別の例では、融合は、ゲノムDNAの転座から生じ、2つの以前は連続していない遺伝子座からの配列情報を伴うRNA転写物をもたらし得る。改変参照ゲノムに染色体遺伝子座同定情報が含まれる場合、リードのアライメントには、アライメントされたリード又はアライメントされたリード内の配列が転写された参照ゲノム内の染色体遺伝子座の同定を含むアライメントされたリードのプロファイルの生成が含まれ得る。同様に、RNA融合配列内のエクソン-エクソン境界又は融合配列間の境界にまたがらないアライメントされたリードも、参照ゲノム内の染色体遺伝子座に翻訳して戻すことができ、そのような情報はアライメントプロファイルに含まれる。
いくつかの例では、試料は遺伝子モデルで説明されているRNA融合産物を含み得る。そのような場合、遺伝子モデルはそれを参照ゲノムから転写可能であると同定することができるため、そのような融合ジャンクションは改変参照ゲノムに存在する可能性がある。そのような融合ジャンクションに対応する配列リードが存在する場合、それは改変参照ゲノムにアライメントされ、アライメントされた融合ジャンクションとして分類され得る。このような分類は、アライメントプロファイルに反映させることができる。
他の例では、試料は、遺伝子モデルには存在しないRNA融合産物を含む場合がある。そのような場合、対応する融合ジャンクションが改変参照ゲノムに存在しない可能性がある。したがって、試料からの融合ジャンクションを含む転写物に対応する配列リードは、改変参照ゲノムにアライメントできないか、不完全又は不十分にアライメントする可能性がある。例えば、それらは、一方が融合ジャンクションの5'側に存在する配列に対応し、他方が融合ジャンクションの3'側に存在する配列に対応する、改変参照ゲノムの2つの非連続又は分散遺伝子座のそれぞれに部分的にのみアライメントする可能性がある。そのような融合ジャンクションに対応する配列リードのアライメントは、改変参照ゲノムにアライメントできない可能性がある。そのような例では、そのような配列リードを改変参照ゲノムにアライメントする試みが失敗すると、アライメントされていない融合ジャンクションとして分類される可能性がある。
本明細書に開示されるように、アライメントされていない融合ジャンクションは依然としてアライメントされ、そのアライメントは生成されたアライメントプロファイルに含まれ得る。アライメントされていない融合ジャンクションは、参照ゲノムから転写可能な複数の標的配列から組み立てられた改変参照ゲノムに対してではなく、参照ゲノムに対してアライメントされ得る。そのような例では、アライメントされていない融合ジャンクションを参照ゲノムにアライメントさせると、融合ジャンクションの各側に対応するゲノム遺伝子座の同定をもたらし得、すなわち、融合ジャンクションの作成時にスプライシングによって結合されたか又はゲノムDNAの転座によって結合されたかのいずれかの配列を表す。RNA転写物に対応する配列リードのアライメントには、分割される可能性のあるゲノムDNAの領域へのリードのマッピングがしばしば含まれ、例えば、RNA転写物からイントロンを除去し、イントロンの両側のエクソンを一緒にスプライシングすると、最終的に、参照ゲノムのゲノムDNAの一部に対応する配列を有する5'部分及び参照ゲノムのゲノムDNAの異なる領域に対応する配列を有する別の3'部分を有する配列リードが生成される。同様に、アライメントされていない融合ジャンクションを参照ゲノムにアライメントさせ、転写物の形成において一緒になって配列リードをもたらす、参照ゲノム内では異なる遺伝子座を同定することができる。
上で論じられたように、配列リードを参照ゲノムにアライメントすることは、演算上の要求が多く時間のかかるコンピュータ実装の方法であり得る。このような高い演算上の要求に対する理由には、試料から生成される可能性があり、アライメントが必要な配列リードの数が多いことが含まれる。本明細書に開示される方法及びシステムの例の利点は、参照ゲノムへのアライメントを必要とするリードの数が低減され得ることであり得る。例えば、配列リードを改変参照ゲノムにアライメントし、それらを参照ゲノムに翻訳して戻した後、そのような配列リードを参照ゲノムに直接再アライメントする必要はない可能性があり、それらの参照ゲノム内の対応する位置は、記載されたものとしてすでに同定されている。アライメントしていない融合ジャンクションが分類されている場合、それらは参照ゲノムに直接アライメントされている可能性がある。しかしながら、このような場合、演算及び時間の要求は、最初にアライメントされていない融合ジャンクションとして分類されていない場合(すなわち、改変参照ゲノムに関してアライメントされていない場合)にアライメントされた場合に必要な要求と比較して、大幅に低減される可能性がある。配列リードを改変参照ゲノムにアライメントし、アライメントされていない融合ジャンクションを分類することにより、アライメントされていない融合ジャンクションを参照ゲノムにアライメントすることは、改変参照ゲノムにアライメントされた配列リードをアライメントする必要もなく、実施することができる。最初に配列リードを改変参照ゲノムにアライメントすることにより、参照ゲノムにアライメントするための配列リードの総数が大幅に低減され、すなわち、アライメントされていない融合ジャンクションのみになる。参照ゲノムに直接アライメントするための配列リードの数のこのような低減により、そうでなければ、試料からの配列リードの完全なセットとともに参照ゲノムにアライメントされている必要がある、アライメントされていない融合ジャンクションを参照ゲノムにアライメントさせるために必要な演算と時間の要求が大幅に低減される。
いくつかのそのような例では、改変参照ゲノムとアライメントしていない配列リードを参照ゲノムにアライメントさせることができ、そのようなアライメントは、配列リードが融合ジャンクションを表すが、そのような命令は正しくなく、実際には配列リードは融合ジャンクションを表していない可能性があることを示す場合がある。そのような例は、融合ジャンクション偽陽性と呼ぶことができる。アライメントされていない融合ジャンクションとして分類された配列リードを同定する場合、いくつかの例では、実際の融合ジャンクションを含まない配列リードが参照ゲノムにアライメントされるアライメントされていない融合ジャンクションに含まれ得、それらの一部が参照ゲノムにアライメントされ、融合接合部として誤って同定される場合があり、一方で、他は、改変参照ゲノムにアライメントされず、参照ゲノムにアライメントされると融合ジャンクションとして正しく同定される場合がある。改変参照ゲノムにアライメントされ、融合ジャンクションと融合ジャンクションの偽陽性として正確に同定されたアライメントされていない融合ジャンクションを区別することが有利であり得る。
正確に同定された融合ジャンクションと融合ジャンクション偽陽性を区別するためのスクリーニングのいくつかの例を、本開示に従って、個別に又は一緒に使用することができる。例えば、最小配列リードアライメント長は、アライメントされていない融合ジャンクションとして分類されてから参照ゲノムにアライメントされた後に融合ジャンクションとして同定された配列リードが、そのアライメント長がそのような最小配列リードアライメント長未満でない限り、偽陽性として分類されないように確立され得る。例えば、配列リードは、そのアライメント長が70以下の場合、融合ジャンクションの偽陽性として分類される可能性がある。最小配列リードアライメント長としての200ヌクレオチドの代わりに、50、60、80、90、100、150等、他の最小アライメント長を使用することができる。
別の例では、融合ジャンクションの偽陽性として特徴付けられないために、配列リードは、配列リードの試料に反映された少なくとも最小数のコピーを有している必要がある場合がある。例えば、アライメントされていない融合ジャンクションが参照ゲノムにアライメントされ、融合ジャンクションとして同定される場合、少なくとも100のリードがない限り、融合ジャンクションの偽陽性として特徴付けられる要件を適用できる。一部の例では、リードの最小数は200、又は300、又は500、又は750、又は1000であり得る。他の最小値も使用できる。
更に他の例では、配列リードが融合ジャンクションの偽陽性として分類されないように、配列リードのアライメント長と局所アライメント長の比が最小値を超える必要がある場合がある。例えば、配列リードは融合ジャンクションを表すように見える場合があり、リードの一つの末端は参照ゲノムの一部にアライメントし得、配列リードの他の末端は、第1のものと連続していない(例えば、異なる染色体上にある、又は同じ染色体上の第1のものと全く異なる)参照ゲノムの別の領域にアライメントし得る。しかしながら、配列リードは、参照ゲノムの別の領域と少なくとも部分的に、連続的に(すなわち、非連続領域にまたがらないか、又は融合ジャンクションを示さないように)追加的にアライメント可能に見える場合がある。この後者のアライメントは、融合ジャンクションを示すアライメントの代わりに、局所アライメントと呼ばれる場合がある。融合ジャンクションの存在を示すアライメントは、アライメント長を持っている場合があり、これは、参照ゲノムに(部分的に1つの遺伝子座に、部分的に別の遺伝子座に)アライメントされるその配列の長さである。代替の局所アライメントは、局所アライメント長も持つ場合があり、これは、参照ゲノムの連続配列に代替的にアライメント可能なその配列の長さである。融合ジャンクションとして特徴付けられないように(つまり、偽陽性としての特性評価の資格として)、融合ジャンクションとしてアライメントされた配列リードのアライメント長は、配列リードの代替の局所アライメント長を超える必要がある場合がある。配列リードが1つを超える可能性のある局所アライメント長を有する可能性がある場合、最も長いそのような局所アライメント長が選択され、融合ジャンクションのアライメント長との比較に使用され得る。
一部の例では、融合ジャンクションの偽陽性として分類されないために、配列リードはこれらの基準のいずれか1つ又は2つ又は3つすべてを充足する必要がある場合がある。改変参照ゲノムにアライメントされなかった融合ジャンクションの参照ゲノムへのアライメント、及びそれらが融合ジャンクションの偽陽性として分類されないことを確認すると、融合ジャンクション及び参照ゲノムの対応する位置にアライメントプロファイルを含めることができる。
追加情報もアライメントプロファイルに含むことができる。例えば、プロファイルには、品質スコアとして知られている特定のリードが誤ってアライメントされているかどうかを示すスコア、又は配列リードの完全性、又はリードの正確性若しくは完全性、挿入若しくは削除の推定上の存在、又は他のミスマッチ等の他の兆候を含めることができる。
本明細書に開示された方法は、参照ゲノムに対して任意の所与の試料を試験することに加えて、異なる試験試料のRNAアライメントを相互に比較するために使用することもできる(本明細書に開示された改変参照ゲノムへのアライメントを介して)。改変参照ゲノムは、参照ゲノムから構築され得、異なる試験試料に含まれるRNAから配列アライメントが作成される。異なる試料は、異なる個体、個体からの異なる組織、又は腫瘍細胞集団等の罹患組織、及び非罹患組織由来のものであり得る。試料ごとにアライメントファイルを作成することができ、各ファイルにはアライメントプロファイルを含めることもできる。比較は、2つ以上の試料のアライメントファイル間でなすことができ、各試料型に存在するRNAの差異を同定できる。差次的発現ソフトウェアを使用して、生成されたさまざまな試験試料のアライメントファイルを、共通の改変参照ゲノムと比較し、アライメントファイル間の明らかな違いが試料のRNA間の実際の違いを表すかどうか、及びいつ表すかを分析することができる。
以下の実施例は、本開示の特定の実施形態を例示することを意図しているが、その範囲を限定することを決して意図していない。
本明細書の例のいずれにおいても、技術は、マルチプレックスポリメラーゼ連鎖反応シナリオにおけるプライマーの特異性計算に適用することができる。したがって、マルチプレックスポリメラーゼ連鎖反応プライマー設計の迅速な特異性チェックを実現できる。マルチプレックスポリメラーゼ連鎖反応は、診断試験及び法医学試験で広く使用されており、複数の目的のDNA領域(標的)を同時に増幅する。マルチプレックスPCRを正常に実行するには、適切なプライマー対のセットを設計する必要がある。プライマーの各対は、標的の上流領域と下流領域から抽出されたフォワードプライマーとリバースプライマーを含む。理想的には、設計された各対は意図された標的のみを増幅するが、意図しない標的(オフターゲット)を増幅しないようにする必要がある。潜在的なオフターゲットをチェックするプロセスは特異性チェックと呼ばれ、これはプライマー設計の重要な工程である。
プライマー配列は、参照ゲノム配列の標的領域に基づいてクラスターにグループ化できる。例えば、マルチプレックスPCRシナリオで複数の標的領域に対するプライマー候補を生成するためにプライマー生成ツールを使用する場合、標的領域に基づいて関連するものとしてプライマーを保存できる(例えば、異なる標的領域に対するプライマーは異なるクラスターに保存される)。そのようなクラスターに基づいて、本明細書で記載されるように、共通領域の決定を実行することができる。
したがって、本明細書の候補プライマー配列は、標的に一致することが知られている可能性があり、そのような候補プライマーのオフターゲット一致がほとんど又は全くないことが望ましい場合がある。候補プライマー配列の対を参照ゲノム上の既知の位置に関連付けて、それらの標的を表し、オフターゲット条件の確認を可能にすることができる。標的での一致はオンターゲットとみなされる。
特異性チェックのタスクは、DNA又はRNA領域をプライマーで増幅できるかどうかを決定する際に考慮されるいくつかの要因、特に標的の全体的な類似性と3'末端の安定性が考慮されるため、重要である。典型的な既存のアプローチは、最大でも数百のプライマーで結果を報告するだけである。本明細書に記載される技術は、数十万のプライマーに容易に拡張することができる。したがって、この手法は、規則計算キャッシング、オフターゲット予測、及び配列近接グループ化を採用することにより、特異性チェックの実行時間を劇的に低減できる。
本明細書に記載されるように、複数の候補プライマー配列についてオフターゲット検出を実施することができる。キャッシングは、共通領域を共有するプライマー配列候補の規則充足計算を再利用できる。一致予測を使用して候補をフィルタリングし得、配列近接グループ化を使用して、オフターゲット一致条件の同定を容易にすることができる。本明細書で記載される技術を達成するために、共通領域拡張に関連する他の特徴を採用することができる。
この技術の利点には、特に大規模な参照ゲノム配列上の複数の領域を標的化する多数の候補プライマー配列に対するより大きな拡張性が含まれる。
オフターゲット検出は、本明細書で記載されているように、特異性の計算に有用であり得る。
したがって、本明細書で記載されるように、オフターゲット検出の全体的な性能を向上させることができる。
(実施例1)
オフターゲット一致検出を実装する例示的なシステム
図1は、転写物配列180から改変参照ゲノム配列を生成するためのオフターゲット一致検出を実装する例示的なシステム100のブロック図である。本明細書の例のいずれにおいても、文字列は、値の文字列を表す文字の配列の形態をとることができる。ここでは「文字列」と呼ばれるが、内部表現は文字列、配列、又はその他のデータ構造の形式をとることができる。文字は、文字又はそのような文字を表すコードの形式を取ることができる。
この例では、複数の候補プライマー配列110がオフターゲット検出ツール150による入力として受け取られる。本明細書に記載のように、そのような候補プライマー配列110は、本明細書に記載の参照ゲノムから転写可能な転写物配列のプラス鎖及びマイナス鎖を表す転写物配列180上の特定の位置を標的化するプライマー対の形態を取り得る。したがって、候補プライマー配列110は、転写物配列180上の標的に向けられている。場合によっては、同じ対又は別の対のプライマーと組み合わせて、オフターゲットの一致もまた発生し得る(例えば、遺伝子座間オフターゲット一致)。マルチプレックスシナリオでは、候補プライマー配列110は、転写物配列180の複数の位置を標的化することができ、オフターゲットの一致を見つけるときの演算の高い複雑さをもたらす。このより高い演算の複雑さは、より多くのリソースと処理をより長い時間に費やすことになる。
オフターゲット検出ツールは、許容可能な配列160(例えば、検出されたオフターゲット一致に照らして許容可能であると考えられる入力候補プライマー配列(例えば、プライマーの対))を生成する。
内部的に、オフターゲット検出ツール150は、プライマー配列が転写物配列180の位置と一致するかどうかを判定する際に複数の規則120を適用することができる。ツール150はまた、転写物配列180のk-merインデックス170を利用して、一致の決定を支援することができる。実際には、一致は最初に候補一致とみなされ、次いで検証済み一致であることが検証され得る。
規則充足計算キャッシュ125を使用して、マルチプレックスシナリオに関連する演算の複雑さを軽減できる。本明細書で記載されるように、キャッシュ125は、候補プライマー配列110のクラスター内の共通領域を活用することができる。
オフターゲット相関器127は、検証済み一致を受け入れ、そのような検証済み一致がオフターゲットの一致条件をもたらすかどうかを決定することができる。本明細書で記載されるように、配列近接グループ化を適用して、オフターゲット一致条件の同定に含まれる演算を低減することができる。
オフターゲット検出ツール150は、規則120のパラメータ等、動作を構成する設定を入力として受け入れることもできる。
本明細書の例のいずれにおいても、サブシステムのいくつかは単一のボックスに示されているが、実際には、それらは1つを超えるデバイスを有する演算システムとして実装され得る。構成要素間の境界は変動し得る。例えば、オフターゲット検出ツール150は単一の実態として示されているが、複数の位置にまたがる複数のデバイスによって実装することができる。規則120は、複数のツール150間で共有することができ、以下同様である。
実際には、システム100等の本明細書に示されるシステムは、より多いか又はより少ない機能、より多くか又はより少なく複雑な構成要素等により、複雑さが変化する可能性がある。例えば、追加のインデックス、テーブル等をシステム100の一部として実装できる。セキュリティ、冗長性、負荷分散、監査等を実装するために、追加の構成要素を含めることができる。
実際には、多数の候補プライマー配列110及び多数の参照ゲノム配列180は、マルチプレックスシナリオでのオフターゲット一致についてチェックすることができる。
記載される演算システムは、有線又は無線のネットワーク接続を介してネットワーク化できる。代替的に、システムはイントラネット接続(例えば、企業環境、政府環境、教育環境、研究環境等)を介して接続できる。
システム100及び本明細書に記載される他のシステムのいずれかは、以下に記載される演算システム(例えば、処理ユニット、メモリ等)等の本明細書に記載されるハードウェア構成要素のいずれかとともに実装できる。本明細書の例のいずれにおいても、入力、出力、キャッシュ、インデックス、文字列、ルール等は、1つ又は複数のコンピュータ可読ストレージ媒体又はコンピュータ可読ストレージデバイスに保存することができる。本明細書で記載される技術は、オペレーティングシステム又はハードウェアの仕様に汎用的であり得、任意のさまざまな環境に適用して、記載した特徴の利点を得ることができる。
(実施例2)
オフターゲット一致検出の例示的な方法
図2は、オフターゲット一致検出を実装する例示的な方法200のフローチャートであり、例えば、図1に示すようなシステムで実装することができる。転写物配列上の複数の標的を標的化する複数の候補プライマー配列が支援され得る。
実際には、プライマー生成ツール等を使用して候補プライマー配列対を生成する等の動作を、方法を開始する前に実行できる。
220で、候補プライマー配列が受け取られる。候補プライマー配列は、本明細書に記載の形のいずれかを取ることができる。
230で、候補プライマー配列について、転写物配列上の一致が同定される。一致の判定は、本明細書で記載される複数の記載を適用することを含み得る。例えば、複数の候補一致条件は、転写物配列上で同定され得る(例えば、本明細書に記載される一致規則を介して)。候補一致する位置のうち、転写物配列上の検証済みの一致する位置を同定できる。そのような検証は、本明細書に記載されるように、転写物配列上の候補位置のどれが一致規則を充足するかを決定することを含むことができる。
候補一致位置の同定又は一致位置の検証は、本明細書に記載の候補プライマー配列と共通領域を共有する別の候補プライマー配列についてすでに計算された規則充足計算を再利用することを含み得る。
240では、検証済み一致する位置が転写物配列上のオフターゲット一致条件を形成するかどうかが判定される。本明細書に記載されるように、一致は、オフターゲット一致をもたらす一対の候補プライマー配列を見つけるために、(例えば、本明細書に記載されるように表される別の反対方向転写物配列上の)別の候補プライマー配列の一致と併せて考慮することができる。
検証済み一致位置がオフターゲット一致条件を形成するかどうかに基づいて、候補プライマー配列が許容できるかどうかが判定される。例えば、オフターゲットの一致の閾値数を適用することも、オフターゲットの一致を許可しないこともできる。候補プライマー配列対、又はそれらに関連する候補標的は、オフターゲットの閾値を充足している場合、許容可能なプライマー配列に含まれる。オフターゲットの一致が多いと、特異性が低くなり、候補プライマー配列がより望ましくないものとなる。
本明細書で記載されるように、方法200は、複数の候補プライマー配列について実行され得る(例えば、他の候補プライマー配列について繰り返される)。実際には、並列及び/又は同時の演算シナリオを適用できる。
本明細書に記載の方法200及び任意の他の方法は、1つ又は複数のコンピュータ可読媒体(例えば、ストレージ又は他の有形媒体)に保存されるか又は1つ又は複数のコンピュータ可読ストレージデバイスに保存されるコンピュータ実行可能命令(例えば、演算システムに方法を実行させる)によって実施され得る。そのような方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせで実行できる。そのような方法は、演算システム(例えば、1つ又は複数の演算デバイス)によって少なくとも部分的に実行され得る。
本明細書で記載される技術のいずれにおいても、技術を実装しながら、例示された行動を代替の観点から記載することができる。例えば、220では、方法は、候補プライマー配列を受け取ることを記載する。しかしながら、このような行為は、別の観点から「候補プライマー配列を送信する」と記載することもできる。
(実施例3)
例示的なオフターゲット一致検出
本明細書の例のいずれにおいても、オフターゲット一致は、本明細書に記載の近接位置で一致する一対の候補プライマー配列(例えば、元の対又は2つの異なる対から)の形をとることができる。実際には、近接位置は、本明細書に記載されているように、2つの異なる(例えば、1つの元のものであり、1つが逆向きで元のものに相補的である)転写物配列上にあり得、候補プライマー配列の逆相補物を取り、それを候補プライマー配列に含めることにより、単一の転写物配列で演算を達成することができる。本明細書に記載されるように、そのようなオフターゲット一致の検出は、候補プライマー配列が許容可能かどうかを判定するために使用され得る。オフターゲットの一致条件の閾値を超える候補プライマー配列(及びその対)は、許容可能でないとみなすことができる。
(実施例4)
例示的なk-mer
本明細書の例のいずれにおいても、候補プライマー配列は、一致の発見を促進するために、長さk(k-mer)のサブ文字列又はサブ配列に分解することができる。k-merは、候補プライマー配列に対して生成できる。実際には、このようなサブ文字列又はサブ配列はすべて生成されるが、他の配置も可能である。
本明細書の例のいずれかにおいて、候補プライマー配列について転写物配列上の一致する位置を同定することは、候補プライマー配列をk-merに分解し、k-merを有するk-merインデックスを検索することを含むことができる。
(実施例5)
例示的な一致
本明細書の例のいずれにおいても、規則が充足された場合、配列は、特定の位置で転写物配列と一致するとみなされる。例示的な一致規則には、次のものが含まれる。
規則1. 少なくともk個の連続する一致文字がある(例えば、文字レベルでの一致)。
規則2. 合計でe×lを超える文字の不一致なく、式中、lは候補プライマー配列の長さで、eはパラメータ(パーセンテージ、割合等)である。
規則3. 候補プライマー配列の末端には、m個を超える文字の不一致はない。
本明細書で説明するように、文字の一致及び不一致は、文字間の相補的な一致に基づいて判定することができる。一致処理中、3つの規則が充足されていることが検証されるまで、一致は候補一致として処理され得、検証される時点で、一致は検証済み一致となり得る。
本明細書の例のいずれにおいても、一致を判定するために上述の3つの一致規則を組み込むことができる。1つ又は複数の規則を初期規則として指定し、1つ又は複数の他の規則を一致検証規則として指定できる。例えば、連続した一致に関する規則1を初期規則として指定し得、初期規則を充足する候補一致を他の規則を介して検証できる。規則の他の配置を実装することができる。
本明細書の例のいずれにおいても、一致は、一致が生じる転写物配列上の位置の形をとることができる(例えば、転写物配列の先頭からi文字を示す整数、位置へのポインター等)。一致は、含まれる候補プライマー配列の表示(及び対の識別子又は対の中の別の候補プライマー配列の識別子)の形をとることもできる。複数の転写物配列又はその表現を含むシナリオでは、一致は、どの転写物配列で一致するかを示すこともできる。
検証済み一致は、一致の形を取ることができ、一致が検証されたことの表示も含めることができる。検証を暗示することができる(例えば、一致が検証済み一致のリストに表示されるため)。
(実施例6)
例示的な候補一致検証
本明細書の例のいずれにおいても、転写物配列上の一致を同定することは、候補一致を検証するという形をとることができる。図3は、候補プライマー配列310の候補一致を検証する例示的なシステム300のブロック図であり、本明細書の例のいずれかで使用することができる。一致を判定するための計算を分離することにより、共通領域を共有する候補プライマー配列に対して一部の計算を再利用できる。例えば、特定の候補一致325は安全にスキップできる。そのような構成は、図1に示されるシステムを実装するために使用することができる。
この例では、オフターゲット検出ツール350は、一致規則320を適用して検証済み一致360を判定する一致ファインダー340を使用する。
実際には、転写物配列380のk-merインデックス370を使用して候補一致325を同定することができる(例えば、転写物配列のk-merインデックスは、候補プライマー配列の分解されたk-merについて検索することができ、ヒットは候補一致を示す)。いくつかの一致328A、328Bは検証済み一致360として検証され、その他は検討から破棄される。
(実施例7)
候補一致を検証する例示的な方法
図4は、候補一致を検証する例示的な方法400のフローチャートであり、例えば、図3に示すようなシステムで実装することができる。
430で、候補一致(例えば、転写物配列上の位置)を同定することができる(例えば、k-merインデックスを使用して候補プライマー配列のk-merの出現を検索し、ここで記載されている規則1等の初期一致規則が充足されているか、又は部分的に充足されているかを見出す)。次に、440で一致検証規則によって、候補一致を検証する。例えば、候補プライマー配列の追加部分又は更なる規則を考慮することができる。
方法400は、複数の候補一致に対して実行することができる(例えば、他の候補一致に対してこの方法を繰り返す)。
(実施例8)
共通領域に対する例示的な規則計算キャッシュ
図5は、本明細書に記載の例のいずれかで使用することができる候補プライマー配列内の共通領域に対する規則充足計算キャッシュを有する例示的なシステム500のブロック図である。この例では、クラスター510A、510B又は候補プライマー配列520A~Fは共通領域530A~Bに関連付けられており、共通領域530A~Bは転写物配列580上の位置に関連付けられている。
共通領域530A~Bは、候補間で共有される候補プライマー配列の領域(例えば、サブ文字列、サブ配列等)である(例えば、候補は同一のサブ文字列、サブ配列等を含む)。
規則充足計算キャッシュ540は、異なる共通領域によって編成され、入力候補プライマー配列520A~Fの異なるそれぞれのクラスター510A~Bに関連する共通領域530A~Bのそれぞれについての規則充足計算532A~Bを保存する。本明細書で記載されるように、特定の候補一致538A、538Bは、事前の計算により一致規則が充足されていないことがすでに判定されているため、候補プライマー配列については安全にスキップすることができる(例えば、不一致が多すぎるため規則2は充足されてない)。
(実施例9)
例示的な規則充足計算キャッシュ
本明細書の例のいずれにおいても、規則が充足されるかどうかを判定するための計算は、規則充足計算キャッシュ(例えば、一致規則充足計算キャッシュ)内の複数の候補プライマー配列による使用のためにキャッシュできる。本明細書に記載されるように、候補プライマー配列間の共通領域が判定され得る。
規則のロジックに基づいて、規則充足に関する特定の計算を再利用できる。例えば、共通の領域に少なくともk個の連続一致があることがわかっている場合、そのような領域を含む任意の候補プライマー配列は規則1を充足する(例えば、inはk以上の連続一致のみを有することができる)。したがって、領域が規則1を充足するという判定は、共通領域を有する候補プライマー配列に再利用することができる。同様に、共通領域にe×lを超える不一致があることがわかっている場合、長さlの候補プライマー配列はいずれも規則2を充足しない(例えば、e×lを超える不一致がない場合がある)。したがって、領域が規則2を充足しないという判定は、共通領域を有する候補プライマー配列に再利用することができる。
キャッシュされた規則充足の計算には、計算が適用される保存位置(例えば、一致が発生した位置、不一致が発生した位置等、キャッシュされた計算に関係する参照ゲノム配列上の位置)を含めることができる。
複数レベルのキャッシュは、異なる条件又は異なる配列の長さ(例えば、l、l+1、l+3等)の規則充足計算を保存できる。
実際には、非共通領域を判定に組み込むことができる。例えば、共通領域にm個の不一致があることをキャッシュが示している場合、mに更に不一致を追加して、候補プライマー配列全体の不一致を判定し、全体の不一致が規則2を充足するかどうかを計算できる。
したがって、合計規則充足計算(例えば、規則の条件が充足されているかどうか)又は部分的な規則充足の計算(例えば、規則の条件が充足されているかどうかの部分的な計算)をキャッシュできる。
(実施例10)
キャッシュを介して一致を同定する例示的な方法
図6は、キャッシュを介して候補プライマー配列の一致を同定する例示的な方法600のフローチャートであり、例えば、図5に示すようなシステムで実装することができる。実際には、そのような方法は、典型的に、一致ファインダー又はオフターゲット検証ツールの他の部分によって実行され、図4に示す方法の一部として実行することができる。
一致処理が開始されると、候補プライマー配列を受け取ることができる。
630では、候補プライマー配列の共通領域が同定される。候補プライマー配列と共通領域との関連付けは、キャッシュの構築時に保存できる。
640では、共通領域の規則充足計算が候補一致に再利用される。換言すると、規則の充足のために計算をやり直す代わりに、キャッシュを調べることができる。例えば、計算を使用して、候補一致を安全にスキップできる(例えば、候補のプライマー配列は、場合により転写物配列上の位置と一致しない可能性がある)。或いは、計算を使用して、候補プライマー配列が規則条件を充足することを確認できる。
方法600は、複数の候補プライマー配列について行うことができる。したがって、他の候補プライマー配列に対して繰り返すことができる。
(実施例11)
規則充足計算キャッシュを介して一致を同定する例示的な方法
図7は、候補プライマー配列のためのキャッシュを構築する例示的な方法700のフローチャートであり、図5に示されるようなキャッシュを使用する任意のシステムで実装することができる。キャッシュの構築は、一致処理の前に、又はそれと併せて実行できる(例えば、図4に示すように)。
730では、クラスターにグループ化された候補プライマー配列が受け取られる。実際には、候補プライマー配列のセットが共通の起源に関連付けられており、それに応じてクラスターにグループ化できることがわかっている場合がある。或いは、配列間で共通の可能性の高い領域を見つけることにより、クラスター化を実行できる。
740では、クラスターの共通領域が同定される。入ってくるクラスターは、共通領域又は共通領域の可能性の初期表示をすでに持っている場合があり、又は、候補プライマー配列をアライメントさせて、共通領域を判定することができる。初期の共通領域は、拡張される前は「シード」と呼ばれ得る。
本明細書のいずれの例でも、共通領域は750で示すように拡張できる。共通領域の拡張の結果として、演算リソースの増加と演算リソースの減少のバランスを取ることができる。共通領域を拡張する利点と欠点は、領域を拡張するかどうかを判定するときに考慮することができる。例えば、領域を拡張するための演算リソースの増加(例えば、キャッシュの構築に費やされるリソース)を計算でき、共通領域を拡張するための演算リソースの低減(例えば、キャッシュで検索することによって節約されるリソース)を計算でき、領域を拡張しないための演算リソースの増加(例えば、キャッシュなしの検索に費やされるリソース)を計算できる。共通領域を拡張するかどうかの判定は、演算リソースの増加と演算リソースの減少のバランスを取ることで判定できる。例えば、共通領域の拡張は、クラスター内の候補プライマー配列のサブセットにのみ到達する場合がある。
760では、本明細書で記載されるように、共通領域の規則充足計算が保存される。そのような計算は、共通領域を有する候補プライマー配列を処理するときに後で使用するために、キャッシュ内の共通領域に関連付けることができる。同様に、共通領域と、共通領域を含む候補プライマー配列との関連付けを保存できる。
方法700は、複数のクラスターに対して実施することができる。例えば、他のクラスターに対して繰り返すことができる。
本明細書の例のいずれにおいても、候補プライマー配列と別の候補プライマー配列との間の共通領域を同定することができる。共通領域に対して規則充足計算を実施でき、規則充足計算をキャッシュに保存できる。キャッシュに基づいて、計算をスキップすることができる(例えば、候補プライマー配列の場合等)。キャッシュは、本明細書で記載されるように、(例えば、候補プライマー配列のそれぞれ異なる長さについて)複数のレベルをサポートすることができる。
(実施例12)
マルチレベルキャッシュを実装する例示的なシステム
図8は、マルチレベルキャッシュ810を実装する例示的なシステム800のブロック図であり、キャッシュを使用する本明細書の例のいずれかに実装することができる。
この例では、規則充足計算キャッシュ810は、共通領域830Aによって編成され、キャッシュ810の異なるレベルに対して保存される個別の規則充足計算832AA及び832ABを含む。
例えば、異なる規則の計算、又は規則の異なるパラメータの計算(例えば、異なる候補プライマー配列の長さ)を保存できる。
共通領域及び転写物配列880のさまざまな候補一致をキャッシュに関連付けることができる。特定の候補一致838A、838Bは、規則を充足していないものとして示すことができるため、共通領域を含む他の候補プライマー配列を処理する際に安全にスキップできる。異なる長さの候補プライマー配列は、計算の再利用を規則に適したものに制限できる(例えば、上述の規則2には長さの構成要素が組み込まれている)。
(実施例13)
k-merインデックスを実装する例示的なシステム
図9は、k-merインデックス950を実装する例示的なシステム900のブロック図である。この例は、基本的な実装を示している。実際には、さまざまなバリエーションが可能である。技術には、さまざまなk-merインデックススキームを使用できる。
この例では、インデックス950は、k-merキー952A~Nと、転写物配列980でk-merが生じるそれぞれの位置954A~Nとを含む。位置は、リストの形をとることができる(例えば、転写物配列980内の位置を特定する整数、ポインター等)。
(実施例14)
例示的なオフターゲット予測子
プライマーの特異性をチェックする実装では、オフターゲット判定は、プライマーがゲノムの意図しない領域を増幅するかどうかを参照して実施できる。図14は、例示的なオフターゲット一致条件のブロック図である。
意図しない領域が増幅されると、プライマーのオフターゲット一致条件が存在する。プライマー対は、フォワードプライマーとリバースプライマーを含むことができる。プライマー対が意図しない位置で結合すると、意図しない増幅が生じる可能性がある。したがって、アンプリコン又は対応する転写物配列の他の鎖の隣接位置での別のプライマーの一致の検出と併せて、RNA又は参照ゲノムから転写可能な配列に由来するアンプリコンの一方の鎖上の位置での1つのプライマーの一致の検出は、オフターゲットの一致条件を示す。プライマーが別の対からのものである場合、オフターゲット一致条件が依然として生じ、「遺伝子座間オフターゲット」条件と呼ばれる。マルチプレックスPCRプライマー設計では、いくつかのターゲットのプライマーセットが同時に設計されるため、プライマーの選択がより複雑で困難になる。
オフターゲットを検出する方法は、転写物配列で収集された一致(例えば、規則条件を充足するプライマーの一致位置)を受け取り、転写物配列上で、互いの閾値距離(例えば、オフターゲット条件ウィンドウの長さ)内に一致があるかどうかをチェックできる。そのような方法は、少なくとも1つの他の候補プライマー配列に対する少なくとも1つの他の一致と併せて考慮した場合に、検証された一致位置が転写物配列上のオフターゲット一致条件を形成するかどうかの判定を実施できる。マイナス鎖を説明するために、記載されたようなプライマーの逆相補体を含めることができる。転写物配列上の所望の標的位置にないそのような収集された一致は、オフターゲット一致とみなされる。オフターゲット条件を検出する1つの方法では、各一致位置を他の一致位置(例えば、互いの一致位置)と単純に比較して、それらが閾値距離内にあるかどうかを確認し、次数n2の演算をもたらし得る。閾値距離内の2つの一致位置を検出すると、更に処理を行って(例えば、一致が転写物配列の異なる鎖上にあることを確認するために)オフターゲット条件を確認できる。一致の鎖は、その表現の一部として保存できる(例えば、関連する候補プライマーが逆相補体である場合、マイナス鎖で一致することが示され、それ以外の場合、プラス鎖で一致する)。意図された標的での一致のセットは、オフターゲット条件として示されない。
本明細書の例のいずれにおいても、オフターゲット条件ウィンドウの長さは、本明細書に記載されるPCR反応において、標的核酸分子の最大予想長さ(例えば、典型的には25~1000塩基対の長さ、200~1000、500~1000、200~800、又は300~700塩基対の長さ)と等しいか、又は実質的に類似し得る。本明細書において記載される例では、オフターゲット条件ウィンドウの長さとして1000の値が使用され、オフターゲットはその長さに基づいてスコア付けされる。
図10は、オフターゲット予測子を実装する例示的なシステム1000のブロック図であり、候補プライマー配列について本明細書の例のいずれかで使用することができる。このような予測子は、キャッシュの有無にかかわらず実装で使用できる。一致を検索する前に、いくつかの一致を予測できる。多数の一致は、オフターゲット一致と相関している。そのため、予測された一致の数が閾値を充足している場合、候補プライマー配列を破棄(例えば、スキップ)できるため、計算数が低減し、性能が向上する。
1つの予測子は、学習済みのパラメータa、b、c、及びdを使用して、次の計算Aの形を取る。
y=e(a×logx+b*l+c*floor[l*e]+d)
式中、
y:ヒット数(プラス又はマイナス鎖、高度に相関している)
x:候補プライマー配列のk-merインデックスによって返された候補ヒット(一致)の数
l:候補プライマー配列の長さ
e:(規則2から)許容される不一致の割合、又は許容される不一致率、又は許容されるエラー率。
パラメータa、b、c、及びdは、履歴データから計算できる。線形回帰を使用して、予測モデル計算Aを、y及びxのヒットの観測データセットに適合させることができる。パラメータa、b、c、及びdは、yの付随する値なしでxの追加の値が与えられた場合に適用でき、近似モデルを使用してyの値の予測を行うことができる。
この例では、オフターゲット予測子1050は、入力として候補プライマー配列1010を受け入れ、パラメータa、b、c、及びdを予測エンジン1060(上述の計算)に適用して、転写物配列上の予測一致数を生成する。l及びxは、候補プライマー配列1010から導出することができる。一致が閾値を充足している(又は超えている)場合、候補プライマー配列は考慮から破棄できる(例えば、候補プライマー配列又はその対の配列に対してマッチング処理を実施する必要はない)。したがって、オフターゲット検出ツールは閾値を保存し、記載どおりに適用できる。
本明細書の例のいずれにおいても、オフターゲット予測技術は、閾値を超えるヒット数を有する候補プライマーを破棄するためのプレフィルターとして使用することができる。ヒトゲノムを含む1つの実装では、1,000の閾値(例えば、オフターゲット条件ウィンドウの長さ)が使用されたが、800~1200の範囲の他の値(例えば、900、1100等を)使用することができる。遺伝子モデルに従ってヒトゲノムから転写可能な転写物を含む他の実装には、1000、又は800~1200、又は900、又は1100の対応する閾値、又はより高い又はより低い又は中間のその他の閾値が使用されてもよい。本明細書で記載されるように候補プライマーの予測が生成され、予測ヒットの数が閾値を充足する場合、候補プライマーは考慮から破棄される(例えば、候補プライマー配列に対してキャッシュを考慮する必要はない)。
図23は、一致を検索する前に、パラメータとともにヒトゲノムを使用して、上述の計算Aを介して一致予測を適用した結果を示すブロック図を示す。この例では、1000件の一致の閾値が設定されている。特定の候補プライマー配列の予測が閾値を充足した場合、それは考慮から破棄された。実行時間の改善とメモリ使用量の劇的な低減がもたらされた。オフターゲットのチェック時間は1時間から10分に短縮された。直接的な方法では、プライマーあたり5.5秒であり、キャッシュされた方法では、プライマーごとに0.38秒であり、予測/フィルタリング方法では、プライマーあたり0.29秒であった。配列の14%をフィルタリングすることで、一致(ヒット)の56.4%がフィルタリングされた。ヒットが多すぎる配列をフィルタリングすると、メモリ使用量を低減できる。
図24に示すように、フィルタリングされた配列の93%超に、実際に観察される800を超えるヒットがある。したがって、計算Aによって生成された予測に基づくフィルタリングは有効とみなすことができる。
約250、約500、約1000、約1500、又は約2000の他の閾値も使用できる。
したがって、いくつかの候補プライマー配列のフィルタリングは、多くのヒットがある(例えば、したがってオフターゲット一致状態になる可能性が高い)と予測されるプライマー配列を削除することで実現できる。図10及び図11の実施形態は、このようなアプローチを実装できる。したがって、本明細書の例のいずれにおいても、閾値の数のヒット(一致)を有すると予測されるプライマーを除去することにより、プライマーを事前にフィルタリングすることができる。このような予測は、実際の一致の観察に基づいて計算された結果を学習することで生成できる(例えば、プライマーの長さに基づいて変化するため)。予測を生成する任意の数の計算を使用できる。以下の計算Aは、本明細書で記載されるされているパラメータを有する例として使用できる。
y=e(a×logx+b*l+c*floor[l*e]+d)
以下の実施形態のいずれかを実施することができる。例えば、キャッシュ及び配列近接グループ化技術に依存しない、いずれかのマルチプレックスPCRシナリオで、候補プライマーの事前フィルタリングは、図10及び図11の一致予測技術を使用して達成することができる。したがって、マルチプレックスPCR反応のプライマーとして含めると考えられる候補プライマー配列については、配列を受け取ることができ、候補プライマー配列の転写物配列に関する多くの一致の予測を生成することができ、予測された一致数が閾値を超えるという判定に応答して、候補プライマー配列は考慮から破棄することができる(例えば、除外される)。計算及び閾値は、本明細書に記載の形のいずれかを取ることができる。
配列近接グループ化によるオフターゲット検出は、キャッシュ及び一致予測技術に依存せず、任意のマルチプレックスPCRプライマー特異性評価シナリオに適用できる。したがって、複数の候補プライマーの複数の検証された一致について、検証された一致は、本明細書に記載されているように配列近接グループ化に入れることができる。そのような一致は、本明細書で記載されるキャッシュ技術以外の技術を介して検証され得る(例えば、本明細書で記載されるキャッシュなしで一致規則を適用することにより)。その後、近接グループ化をチェックして、オフターゲット一致条件を同定できる。
(実施例15)
オフターゲット予測の例示的な方法
図11は、候補プライマー配列のオフターゲット予測を生成する例示的な方法1100のフローチャートであり、例えば、図10に示すようなシステムで実装することができる。このような方法は、キャッシュの使用の有無にかかわらず実装で使用できる。
1130で、候補プライマー配列が受け取られる。
1140で、パラメータを予測エンジンに適用することにより、転写物配列上の一致数の予測が生成される。
1150では、予測される一致数が閾値を超えると判定したことに応答して、候補プライマー配列は考慮から破棄される(例えば、実際の一致は判定されない)。
実際には、方法1100は、複数の候補プライマー配列に対して実施され得る(例えば、他の候補プライマー配列に対して繰り返される)。
(実施例16)
近接グループ化を実装する例示的なシステム
図12は、文字列又は配列近接グループ化を実装する例示的なシステム1200のブロック図であり、本明細書の例のいずれかで使用して、オフターゲット一致条件を同定することができる。オフターゲット相関器1250は、オフターゲット検出ツールに組み込まれ得る(例えば、図1のツール150の相関器127として)。配列近接グループ化は、キャッシュを持たないシステムで使用できる。
相関器1250は、検証された一致1210及び意図された標的1220を受け入れる。実際には、システムは、本明細書に記載の技術のいずれかを介して判定された多数の候補プライマー配列について検証された一致1210を処理することができる。意図された標的1220は、候補プライマー配列に対して意図された標的を示し、それは、本明細書に記載されるように対で編成され得る。
相関器1250は、候補プライマー配列の検証された一致がオフターゲット一致であるかどうかの判定を支援する配列近接グループ化1260を作成することができる。本明細書に記載されるように、そのような判定は、処理が実施された2つの転写物配列を参照してなすことができ、本明細書で記載されるように、2つの配列は単一の配列を介して表すことができる。
配列近接グループ化1260に基づいて、相関器1250はオフターゲット判定1280を出力することができる。そのような判定は、特定の候補プライマー配列がオフターゲット一致をもたらすことを示し得る。転写物配列上のオフターゲット一致が起こる位置、それが遺伝子座間オフターゲット一致であるかどうか等の他の情報を含めることができる。
(実施例17)
近接グループ化を介してオフターゲット一致条件を同定する例示的な方法
図13は、配列近接グループ化を介してオフターゲット一致を同定する例示的な方法1300のフローチャートであり、例えば、図12に示されるようなシステムで実装することができる。(例えば、オフターゲット相関器による)。配列近接グループ化は、キャッシュの使用の有無にかかわらず方法で使用できる。
1330では、複数の候補プライマー配列の複数の検証済み一致が受け取られる。本明細書に記載されるように、検証済み一致は、転写物配列上のどこで一致が起こるかの表示を含むことができる。
1340では、一致が発生したゲノム配列の位置に応じて、一致が配列近接グループ化に配置又はクラスター化される。グループ化は、オフターゲット条件ウィンドウの長さに基づいて行うことができる。
1350では、本明細書で説明されるように、配列近接グループ化をチェックして、オフターゲット一致条件を同定することができる。
(実施例18)
例示的な配列近接グループ化
本明細書の例のいずれにおいても、転写物配列は位置の範囲に分割することができる。範囲のサイズは、オフターゲット条件ウィンドウの長さに基づくことができる。したがって、第1のグループは位置1からwindow_lengthを包含し、第2のグループは位置window_length+1からwindow_length*2等を包含する。したがって、グループgの範囲は1+(window_length×(g-1))から(window_length×g)である。
グループには、グループの範囲内の場所で発生する検証済みの一致のリストが含まれる。転写物配列の近接した位置(例えば、隣接グループ)で発生する一致対間でのみチェックを行う必要があるため、オフターゲットマッチ対のチェックを簡略化できる。このようにして、オフターゲット条件ウィンドウの長さの互いの距離内の一致を同定し、オフターゲット条件を検出するために処理できる。
(実施例19)
例示的な実装:プライマー対の特異性計算
本明細書で記載されるように、k-merインデックスを適用でき、中間結果を規則充足計算キャッシュにキャッシュして、精度を損なうことなく実行時間を低減できる。
特異性チェックのタスクは、2つのフェーズを介して進めることができる:プライマーヒット(一致)を検索し、そのような一致が2つのプライマーのオフターゲット一致条件になるかどうかをチェックする。長さがlでゲノム領域がrのプライマーpが与えられた場合、rは次の3つの条件(一致規則)を充足する場合にプライマーのヒットである。1.少なくともk個の連続する一致文字があり、2.合計でe×lを超える不一致が存在し得ない、3.プライマーの3'末端には、m個を超える不一致は存在し得ない。条件は、本書で説明されている一致規則として実装できる。(この例で理解されるように、RNAからのDNAアンプリコンのT又は遺伝子モデルに従って参照ゲノムから転写可能な転写物は、RNA分子のUに対応する。)
例えば、次の場合、転写物領域rがヒットする可能性がある。1. プライマーヌクレオチド配列と転写物領域rのヌクレオチド配列の間に、少なくとも6~10(少なくとも6~8等)の連続した一致、例えば、少なくとも6、7、8、9、又は10の連続した一致がある、2. プライマーヌクレオチドの20%以下(15%以下又は10%以下等)が、プライマーヌクレオチド配列と転写物領域rのヌクレオチド配列との間で不一致である、3. プライマーヌクレオチド配列と転写物領域rのヌクレオチド配列との間に、プライマーの3'末端から(ヌクレオチドで)プライマーの20%で、5つ以下の不一致(4つ以下、3つ以下、2つ以下、又は1つ以下の不一致等)が存在する(例えば、連続して)。プライマーの3'末端は、いくつかの実施形態では5塩基対の長さとして定義することができる。他の実施形態では、プライマーの3'末端は、1~5塩基対の長さとして定義することができる。例えば、カットオフは、最後の5つの塩基対で3つ以下の不一致、又は最後の3つの塩基対で2つ以下の不一致であり得、プライマーの長さよりもポリメラーゼに依存する。典型的に、3'末端の不一致は増幅を妨げる可能性がある(ポリメラーゼは不一致から伸長できない場合がある)。しかしながら、高忠実度のポリメラーゼは典型的に、不一致塩基を噛み砕いて再合成するため、エラーを修正できるが、オフターゲットが増幅される可能性も高くなる。
したがって、この技術により、許容される不一致の総数を、プライマーと標的間のプライマー長のパーセンテージとして指定できる。3'のカスタム領域を定義でき、プライマーと標的の間の領域で許容されるミスマッチの数を特定できる。複数の既存のプライマーの特異性を判定できる。この技術は、数十万のプライマーに拡張することができる。
転写物鎖の一致は、3つの規則を充足していることが検証されるまで、一致候補とみなすことができる。
(実施例20)
例示的な実装:オフターゲット判定
図15は、オフターゲット判定のために配列近接グループ化を採用する例示的なシステム1500のブロック図であり、図12及び図13に示される構成に使用することができる。この例では、転写物配列の標的配列鎖1580は、オフターゲット条件ウィンドウ長1525Aに従って範囲に分割された転写物配列セットによって表される。マイナス鎖は、プライマーの逆相補体もプライマー候補配列として含まれているという点で、転写物配列1580によって表されている。したがって、PCRプロセス中に標的位置の望ましくない増幅又は増幅との干渉を引き起こすオフターゲット位置を同定することができる。このようにして、本明細書で記載される配列近接グループ化が実装される。代替的な実施形態では、異なる鎖を表すために2つの異なる配列(互いに逆向きで相補的)を使用することができる。
鎖1580に対する検証済み一致は、鎖上の検証済み一致が発生した位置に従ってリスト1520A~Nに配置される。例えば、図2の方法は、プライマー配列とプライマー配列の逆相補体に対して実行でき、その結果、両方の鎖の検証済み一致がもたらされる。次に、リストを使用してオフターゲット一致を同定できる。
オフターゲット一致条件のチェックは、同じグループ内及び隣接グループ内で一致をチェックすること1530で実現できる。チェックはグループに対して連続して実行できるため、実際には、グループを次のグループに対して単純にチェックできる(例えば、リスト1520Bを処理する場合、1520Aに対する処理はすでに実行されているため、リスト1520Aに対してチェックする必要はない)。例えば、リスト1520Aの一致をリスト1520Bの一致に対してチェックして、オフターゲット一致条件が存在するかどうかを確認でき(例えば、オフターゲット条件ウィンドウの長さ内に、2つのプライマー一致が存在し、それが望ましい標的ではない)、次いで1520Bでの一致は1520C等に対してチェックできる。その場合、オフターゲット一致条件のプライマーは、オフターゲット一致条件に含まれていると記録できる。プライマー対もそのように記録できる。
したがって、リスト1520A~Nは、一致の指標として機能して、オフターゲット検出処理を大幅に高速化できる。
したがって、特異性は、プライマー又はプライマー対ごとに検出されたオフターゲットマッチ条件の数に基づいて計算できる。特異性は、オフターゲットの一致の計数という形をとることができる。一部の適用では、単一のオフターゲット一致を許容可能でないとみなすよう要求する場合がある。しかしながら、そのような厳しい条件を充足する候補プライマーを常に見つけることができるとは限らないため、適用に応じて、より複雑な統計手法を適用できる。
候補鎖が候補プライマー配列の形をとる場合、オフターゲット予測を達成できる。そのような候補プライマー配列は、予測が本明細書に記載の閾値を充足する場合、更なる検討から事前にフィルタリングすることができる。このような事前にフィルタリングされた配列では、キャッシュ及びオフターゲットの考慮の計算を実行する必要はない。代わりに、そのような計算は、スキップできる。
(実施例21)
例示的な詳細説明
図16は、共通領域のキャッシュを示すブロック図である。この例では、プライマークラスターのシード配列が見出された。シード配列は共通領域に拡張された。マルチレベルキャッシュには、k個の連続した一致を有する共通領域の計算が保存される。したがって、このような共通領域は、他のプライマーを再計算する必要なく、規則1を充足するとみなすことができる。
マルチレベルキャッシュには、合計で最大e×lの不一致を有する共通領域の計算が保存される。したがって、このような共通領域は、長さlの他のプライマーを再計算する必要なく、規則2を充足しないとみなすことができる。別のレベルのキャッシュには、合計で最大e×(l+1)の不一致を有する共通領域の計算が保存される。したがって、このような共通領域は、長さl+1の他のプライマーを再計算する必要なく、規則2を充足しないとみなすことができる。
図17は、キャッシュを介してスキップされた候補を示すブロック図である。この例では、検索するスペースには、規則1及び規則2を充足すると判定された共通領域を有するプライマー配列が含まれる。規則2を充足しないものは安全にスキップできる。共通領域外のプライマー配列の領域について、新しいk-merリストをチェックできる。
図18は、クラスター化されたプライマー配列1840の共通領域を拡張するための配置1800を示すブロック図である。図の下部の線1820は、プライマーの特定の位置に同一のヌクレオチドを有するプライマーの数を反映している(例えば、プライマーが重複領域によりアライメントしている場合)。この例では、最初に発見された共通領域1825(例えば、「シード配列」と呼ばれることもある)が拡張対象として検討されている。ある位置で同じ値を共有するプライマー配列1820の数は、計算が増加するか減少するかを判定するときに、本明細書で説明されるように考慮され得る。場合によっては、共通領域1825を拡張すると、論理的に別個の共通領域が生じ、そのいくつかは異なるプライマー1840によって共有される。
(実施例22)
例示的な実装結果:キャッシュ
キャッシュを実装すると、キャッシュにより一部の配列を検索できた。一部の候補は、キャッシュを介して検証又はスキップできるため、判定時間が10倍高速化された。
直接的な方法では、キャッシュ、フィルタリング、又は配列近接グループ化を使用しない。代わりに、このアプローチでは、プライマーをk-merに単に分解し、位置リストのk-merインデックスを検索し、すべてのリストの和集合を取得し、候補を検証して最終結果を取得した。このアプローチは、ビット操作で最適化されている可能性がある。このようなアプローチでは、プライマー配列あたり平均5.5秒かかり、115,116のプライマー配列(687の標的を含む)で175時間の実行時間が生じた。
図19は、規則充足キャッシュを有する結果を示すブロック図である。この例(例として、ヒト参照ゲノム配列を使用するが、ヒト参照ゲノム配列から転写可能な転写物配列も同様に使用できる)では、96.9%の配列をキャッシュで検索でき、そのうち32.5%が検証済みの候補であり、67.5%がスキップされた候補であった。結果として判定を完了するまでの時間は、プライマーあたり0.38秒であり、その結果、直接的な方法(例えば、キャッシュなし等)におけるプライマーあたり5.5秒に対して10倍の速度になった。
(実施例23)
例示的な実装結果:オフターゲット予測
図20は、参照ヒトゲノム配列のプラス鎖とマイナス鎖とのヒット間の相関を示すブロック図である。示されているように、プライマーのプラス鎖へのヒット数とマイナス鎖へのヒット数は、通常、例えばヒトゲノム上で高度に相関している可能性がある。したがって、マイナスの結果を生じることなく、1つの鎖の予測を両方の鎖に使用できる。したがって、本明細書に示される予測子は、単一鎖について単一の予測を生成し、オーバーフィルタリング又はアンダーフィルタリングなしで候補プライマー配列をフィルタリングするために使用され得る。遺伝子モデルに従って参照ヒトゲノムから転写可能な転写物を使用する場合、同等の分析が適用される。
図21は、異なる配列長についての候補の数とヒットの数との間の相関を示すブロック図である。示されているように、相関は異なる配列の長さにわたって存在する。プライマーの配列長と参照ヒトゲノム配列での実際のヒット数(例えば、さまざまな配列長)の間の相関の観測された現象は、本明細書に記載の配列長に基づいて予測子を構築するための基礎として使用できる。参照ヒトゲノムの代わりに、遺伝子モデルに従って参照ヒトゲノムから転写可能な転写物を使用する場合、同等の分析が適用される。
図22は、上述の計算Aを使用したヒット数対予測(例えば、ヒットの予測数)の履歴データを示す。この例では、ヒトゲノムが使用され、学習の結果、表示されたパラメータが得られた。使用されたパラメータは、a=1.97、b=1.23、c=1.96、d=-4.43であった。このようなパラメータを使用すると、一致を検索する前に、プライマーの一致(ヒット)数を予測できる。履歴データは、図で明らかな実際の一致の数と予測された一致の数の間の強い相関により、予測子が正確であることを確立する。パラメータは履歴データに基づいて導出でき、使用するゲノムのバージョンによって異なる場合がある。参照ヒトゲノムの代わりに、遺伝子モデルに従って参照ヒトゲノムから転写可能な転写物を使用する場合、同等の分析が適用される。
(実施例24)
更なる組み合わせ
更に、これらの技術を組み合わせて、キャッシング、一致予測によるフィルタリング、及び配列近接グループ化を同時に実行できる。そのような例では、転写物配列上のオフターゲット一致を同定するコンピュータ実装方法は、候補プライマー配列を受け取る工程と、候補プライマー配列について、転写物配列上の複数の候補一致位置を同定する工程と、候補一致位置から、転写物配列上の検証済み一致位置を同定し、検証済み一致位置を同定することが、転写物配列上のどの候補一致位置が1つ又は複数の一致検証規則を充足するかを判定し、すでに計算された規則充足計算を、候補プライマー配列と共通領域を共有する異なる候補プライマー配列について再利用することを含む、工程と、少なくとも1つの他の候補プライマー配列に対する少なくとも1つの他の一致と併せて考慮されたときに、検証済み一致位置が転写物配列上のオフターゲット一致条件を形成するかどうかを判定する工程とを含み、方法は、少なくとも1つの追加の候補プライマー配列をフィルタリングすることを更に含み、ここで、フィルタリングすることは、追加の候補プライマー配列の転写物配列上の一致の数の予測を生成し、一致の数が閾値を超えると判定することに応答して、追加の候補プライマー配列を破棄することを含み、方法は、検証済み一致を配列近接グループ化に配置することを更に含み、近接グループ化をチェックすることはオフターゲット一致条件を同定することを更に含む。
(実施例25)
例示的な演算システム
図25は、記載されたイノベーションのいくつかを実装することができる適切な演算システム2500の一般化された例を示す。演算システム2500は、用途又は機能性の範囲に関する制限を示唆することを意図したものではない。なぜなら、イノベーションは、特殊用途の演算システムを含む多様な演算システムで実施できるからである。実際には、演算システムは、図示された演算システムの複数のネットワーク化されたインスタンスを含むことができる。
図25を参照すると、演算システム2500は、1つ又は複数の処理ユニット2510、2515及びメモリ2520、2525を含む。図25では、この基本構成2530は破線内に含まれる。処理ユニット2510、2515は、コンピュータ実行可能命令を実行する。処理ユニットは、中央演算処理装置(CPU)、特定用途向け集積回路(ASIC)のプロセッサ、又はその他の種類のプロセッサであり得る。マルチプロセッシングシステムでは、複数の処理ユニットがコンピュータ実行可能命令を実行して、処理能力を向上させる。例えば、図25は、中央演算処理装置2510及びグラフィックス処理装置又は共同処理装置2515を示す。有形メモリ2520、2525は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリ等)、又は処理ユニットによってアクセス可能な2つの何らかの組み合わせであってもよい。メモリ2520、2525は、処理ユニットによる実行に適したコンピュータ実行可能命令の形で、本明細書で説明される1つ又は複数のイノベーションを実装するソフトウェア2580を保存する。
演算システムには追加の特徴が含まれ得る。例えば、演算システム2500は、ストレージ2540、1つ又は複数の入力デバイス2550、1つ又は複数の出力デバイス2560、及び1つ又は複数の通信接続2570を含む。バス、コントローラ、又はネットワーク等の相互接続メカニズム(図示せず)は、演算システム2500の構成要素を相互接続する。典型的には、オペレーティングシステムソフトウェア(図示せず)は、演算システム2500で実行される他のソフトウェアにオペレーティング環境を提供し、演算システム2500の構成要素のアクティビティを調整する。
有形ストレージ2540は、取り外し可能又は取り外し不能であってよく、磁気ディスク、磁気テープ又はカセット、CD-ROM、DVD、又は非一時的な方法で情報を保存するために使用でき、演算システム2500内でアクセス可能な他の媒体を含む。ストレージ2540は、本明細書で記載される1つ又は複数のイノベーションを実装するソフトウェア2580の命令を保存する。
入力デバイス2550は、キーボード、マウス、ペン、又はトラックボール等のタッチ入力デバイス、音声入力デバイス、スキャンデバイス、又は演算システム2500に入力を提供する別のデバイスとすることができる。ビデオエンコーディングの場合、入力デバイス2550は、カメラ、ビデオカード、TVチューナーカード、又はアナログ又はデジタル形式のビデオ入力を受け入れる同様のデバイス、又はビデオ試料を演算システム2500に読み込むCD-ROM又はCD-RWとすることができる。出力デバイス2560は、ディスプレイ、プリンター、スピーカー、CDライター、又はコンピューティングシステム2500からの出力を提供する別のデバイスであり得る。
通信接続2570は、通信媒体を介した別の演算実体への通信を可能にする。通信媒体は、コンピュータ実行可能命令、オーディオ若しくはビデオの入力若しくは出力、又は変調されたデータシグナルの他のデータ等の情報を伝達する。変調されたデータシグナルは、シグナル内の情報をエンコードするように設定又は変更された特性の1つ又は複数を有するシグナルである。例として、限定ではなく、通信媒体は、電気、光学、RF、又はその他の担体を使用できる。
イノベーションは、標的の現実のプロセッサ又は仮想プロセッサ上の演算システムで実行される、プログラムモジュールに含まれる命令等、コンピュータ実行可能命令の一般的なコンテキストで記載できる。一般的に、プログラムモジュールには、特定のタスクを実施するか、又は特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、構成要素、データ構造等が含まれる。プログラムモジュールの機能は、さまざまな実施形態で望まれるように、プログラムモジュール間で結合又は分割されてもよい。プログラムモジュールのコンピュータ実行可能命令は、局所又は分散演算システム内で実行できる。
提示のために、詳細な説明では、「判定する」や「使用する」等の用語を使用して、演算システムのコンピュータ操作を説明する。これらの用語は、コンピュータによって実行される操作の高レベルの抽象化であり、人間によって実行される行為と混同するべきではない。これらの用語に対応する実際のコンピュータ操作は、実装によって異なる。
本明細書で更に開示されるRNAアライメント方法を実施するために構築されたコンピュータシステムも提供される。コンピュータシステムは、記載された方法の実行のためのコードを実行することができる1つ又は複数のマイクロプロセッサ等の1つ又は複数のプロセッサを含み得る。コンピュータシステムは、参照ゲノム配列、参照ゲノムから転写可能な転写物配列、プライマーセット内のプライマーの配列、参照ゲノムの転写物配列からプライマーセットのプライム配列により転写可能な標的、増幅された標的配列を含む改変参照ゲノム、及び試験試料又は試料のRNAから得られたリードに対応する配列リードファイル等の情報を保存するためのハードドライブ等の1つ又は複数のストレージデバイスを備えていてもよい。1つ又は複数のマイクロプロセッサは、1つ又は複数のストレージユニットと通信し、そこからマイクロプロセッサはそこに保存されている情報にアクセスし、方法の実行時に1つ又は複数のマイクロプロセッサによって生成された配列及びその他のデータをその中に保存できる。コンピュータシステムは、RNAアライメント中に生成及びアクセスされる情報の一時的なストレージのためのキャッシュ、及び方法の態様を実施する際に使用されるコードの実行のためのRAMを備えてもよい。
コンピュータシステムは、シークエンシング装置に含まれる、又はシークエンシング装置の一部として含まれるコンピュータシステム等の他のハードウェアの一部であってもよく、又はそのような他の装置とは別個であってもよい。また、コンピュータシステムは自己完結型であり得るか、ネットワークシステム上でネットワーク化され、プロセッサとストレージユニットは異なる位置にあるが、ネットワークを介して互いに通信し得る。ネットワークは、有線でも無線でもよく、両方の形式の接続が組み込まれていてもよい。コンピュータシステムの一部はシークエンシング若しくはその他の装置に含まれるか、又はシークエンシング若しくはその他の装置の一部であり得るが、コンピュータシステムの他の部分は別個であり得る一方で、コンピュータシステムのすべての態様が有線通信又は無線で通信する。コンピュータシステムは、システムの特定の構成要素が1つの位置にあり、他の構成要素が別の位置にあり、インターネット経由で相互に通信するクラウドベースのシステムにすることもできる。
(実施例26)
コンピュータ可読媒体
本明細書の任意のコンピュータ可読媒体は、非一時的(例えば、DRAM若しくはSRAM等の揮発性メモリ、磁気記憶装置、光学記憶装置等の不揮発性メモリ)及び/又は有形であり得る。本明細書で記載される保存行為のいずれかは、1つ又は複数のコンピュータ可読媒体(例えば、コンピュータ可読記憶媒体又は他の有形媒体)に保存することにより実装され得る。保存されていると記載される任意のもの(例えば、実装中に作成及び使用されるデータ)は、1つ又は複数のコンピュータ可読媒体(例えば、コンピュータ可読記憶媒体又は他の有形媒体)に保存することができる。コンピュータ可読媒体は、信号で構成されていない実装に限定できる。
本明細書に記載の方法のいずれかは、1つ又は複数のコンピュータ可読媒体(例えば、コンピュータ可読ストレージ媒体又は他の有形媒体)又は1つ又は複数のコンピュータ可読ストレージデバイス(例えば、メモリ、磁気ストレージ、光学ストレージ等)中の(例えば、それに記憶された、コードされた等の)コンピュータ実行可能命令によって実装できる。そのような命令は、演算デバイスに方法を実施させることができる。本明細書で記載される技術は、さまざまなプログラミング言語で実装できる。
(実施例27)
RNAの改変参照ゲノムへのアライメント
図26は、本明細書に開示されるRNAアライメントのフローチャート2600を示す。転写物配列及びプライマー配列は、データストレージユニット又はコンピュータシステムのユニットに受信されてもよい2610。プライマーは、選択された標的の増幅のために選択又は設計できるか、増幅に有用であると判定される未知の標的の同定のために提案できるか、又はその両方の組み合わせであり得る。転写物配列には、遺伝子モデルに従って参照ゲノムから転写できる転写物が含まれる。遺伝子モデルの構造とパラメータに応じて、転写物配列には、どの配列が転写される領域に対応するかを示す参照ゲノムに含まれる配列情報に基づいて、参照ゲノムから転写され得る一次転写物を含み、転写物で発生すると予測されるスプライシング事象、及び転写物から発生することが既知、予測、又は仮説であるRNA融合事象に関する情報をも含み得、又は上述のすべてを含み得る。理解されるように、プライマー配列と改変参照ゲノムを一緒に受け取る必要はなく、これは、どちらか一方を他方とは別に準備して提供できるためである。
次いで、改変参照ゲノムから増幅可能な標的配列が生成される2620。マイクロプロセッサは、転写物配列がRNA試験試料に存在する場合、所定のプライマーセットからのRNA試験試料から増幅されると予測される転写物配列上の標的配列を判定する。次いで、転写物配列から増幅可能な標的配列から、改変参照ゲノムが生成される2630。改変参照ゲノムには、参照ゲノムの転写物配列から生成されると予測される標的配列が含まれる。一部の標的はオンターゲットであり得る。標的配列の生成中にオフターゲット配列が生成されると予測されたかどうかに応じて、オフターゲット配列となる場合があり、もしそうであれば、改変参照ゲノムの生成に採用されたパラメータにより、その中でオフターゲット配列と判定された配列を含めることができる。
次いで、1つ又は複数の配列リードファイルがストレージユニットに受け取られ2640、アライメントソフトウェアを使用するマイクロプロセッサによって改変参照ゲノムとアライメントされる2650。アライメントソフトウェアは、配置、品質スコア、及び配列完全性、又は配列リードの他の特性又は測定基準を含むことができるアライメントプロファイル2660を生成してもよい。
(実施例28)
プライマーと転写物配列の一致
図27は、改変参照ゲノムを作成する際の標的の生成のために、プライマーセットから転写物配列へのプライマーの一致を決定するためのプロセスの例を示す。転写物配列が示され、転写物配列内で強調表示されているのは、さまざまなプライマーが一致配列を有している配列であり、いくつかがフォワード方向(fwdA1、fwdB1'、fwdB1、fwdB2、及びfwdA3)並びに他がリバース方向(revA1、revB1、revA2、revB2、revA3)である。転写物配列の3'末端から開始して、潜在的なプライマー一致部位を同定できる。フォワード方向のプライマー一致部位が同定されると、プライマーとその位置がキャッシュされ、その後、第1のプライマー一致部位の下流にある潜在的な一致部位について他のプライマーがチェックされる。別のリバース方向プライマーの一致部位が同定された場合、以前のキャッシュされたプライマーの位置を参照して、改変参照ゲノムに標的配列を含めるためのパラメータを充足する標的(例えば、最小長)が充足されているかどうかを判定できる。その場合、標的は改変参照ゲノムに含まれ得る。プライマーが転写物配列に一致する部位が転写物配列に沿って十分に遠くなり、キャッシュされたプライマーと現在一致するプライマーとの間で増幅可能な標的配列が最大標的配列長パラメータを超えると、フォワードプライマーをキャッシュから削除できる。
例えば、図27の転写物配列及びプライマーを参照すると、プライマー一致は、転写物配列の3'(左上)端から開始し、プライマー配列fwdA1が一致するため、キャッシュに追加される。転写物配列3'から5'の方向に移動すると、revA1がキャッシュに追加される。fwdA1とrevA1は一対の対向するプライマーであるが、その長さは、この例のために選択された最小標的配列の長さ(25個の塩基)を下回るので、fwdA1~revA1の標的配列は、この場合に改変参照ゲノムに追加されないであろう。次のfwdB1'がキャッシュに追加され、次のrevA1~fwdB1のように、revA1~fwdB1'の配列が改変参照ゲノムに追加される。次いで、revB1が追加され、fwdA1及びrevA1に対してチェックされ、改変参照ゲノムにfwdA1~revB1が追加される。次いで、revA2がキャッシュに追加される。次いで、fwdB2がfwdA1、revA1、revA2に対してチェックされ、fwdB2~revA1とfwdB2~revA2が改変参照ゲノムに追加される。次いで、revB2が追加され、fwdA1、revA1、及びrevA2に対してチェックされ、改変参照ゲノムにfwdA1~revB2が追加される。これはこの例では許容可能な最長の標的配列の長さ(200塩基)であるため、revB2から下流の後続のプライマー一致に対するチェックからfwdA1を破棄できる。
(実施例29)
プライマーへの遺伝子座の割り当て
図28は、1つ又は複数の遺伝子座が1つ又は複数のプライマーにどのように割り当てられるかの例を示す。プライマー配列が1つの転写物配列遺伝子座のみに一致する場合、その遺伝子座が割り当てられる。プライマー配列が2つの転写物配列遺伝子座に一致する場合、その割り当てられた遺伝子座は、標的の増幅で対になっているプライマー(すなわち、転写物配列の増幅で対になっている反対方向のプライマー)に依存する。両方のプライマーが一致する転写物配列遺伝子座が1つしかない場合、その遺伝子座にはプライマーが割り当てられる。上述の規則に従ってプライマーに複数の遺伝子座が割り当てられる場合、アルファベット順に最初の遺伝子座IDを持つ遺伝子座が割り当てられる。
例えば、図28において、遺伝子座は4つの遺伝子座にわたって7つのプライマー対に割り当てられる。プライマーforward_1_2とreverse_1の対については、遺伝子座1がプライマーreverse_1の一致する唯一の遺伝子座であるため、両方が遺伝子座1に割り当てられる。プライマーforward_1_2及びreverse_2_3については、遺伝子座2が両方の一致する唯一の遺伝子座であるため、両方が遺伝子座2に割り当てられる。プライマーforward_3及びreverse_2_3については、遺伝子座3が両方の一致する唯一の遺伝子座であるため、両方に遺伝子座3が割り当てられる。プライマーforward_4及びreverse_4については、遺伝子座4がいずれかのプライマーの一致する唯一の遺伝子座であるため、遺伝子座4が割り当てられる。プライマーforward_3及びreverse_1については、それぞれが同じ遺伝子座ではない1つの遺伝子座にのみ一致するため、それぞれ遺伝子座3及び1が割り当てられる。プライマーforward_4及びreverse_2_3については、それらは両方とも一致する単一の遺伝子座がないため、異なる遺伝子座に割り当てられ、プライマーforward_4は、遺伝子座4がそれの一致する唯一の遺伝子座であるため、遺伝子座4に割り当てられ、プライマーreverse_2_3は、遺伝子座2に一致する遺伝子座がアルファベット順で最初に来るため、遺伝子座2に割り当てられる。更に、プライマーforward_1_2及びreverse_4については、それらは両方とも一致する単一の遺伝子座がないため、異なる遺伝子座に割り当てられ、プライマーforward_1_2は、遺伝子座1に一致する遺伝子座がアルファベット順で最初に来るため、遺伝子座1に割り当てられ、プライマーreverse_4は、遺伝子座4が一致する唯一の遺伝子座であるため、遺伝子座4に割り当てられる。
(実施例30)
遺伝子座横断標的のフィルタリング
図29は、予想される遺伝子座横断標的をフィルタリングするための例の概略図を示す。プライマーセットのいくつかのプライマー対が、互いに比較的近接した標的を増幅すると予測される場合、遺伝子座横断標的が予想されるだろう。そのような場合、標的の増幅に関与するプライマーのサブセットを組み合わせて、2つの元の標的を含む複数の遺伝子座からより大きな標的を増幅することもできる。上流の遺伝子座特異的オリゴ(ULSO)と下流の遺伝子座特異的オリゴ(DLSO)が隣接する3つの意図された標的が示されている。以下に示すように、意図された標的を増幅するために使用される組み合わせ以外のULSOとDLSOの他の組み合わせも、それらを増幅するために使用される6つのプライマーの中から利用可能である。例えば、遺伝子座横断標的は、左端の意図された標的からのULSOと右端の意図された標的からのDLSOを使用して増幅でき、遺伝子座横断標的は、すべての標的の配列を包含する。同様に、右端の2つの意図された標的、又は左端の2つの意図された標的を含む遺伝子座横断標的を増幅できる。そのようなオフターゲットの遺伝子座横断標的は、改変参照ゲノムから除外されてもよい。例えば、オフターゲット配列がULSOとDLSOを有し、それぞれが意図された標的と一致し、いずれかの標的よりも大きい場合、遺伝子座横断標的として改変参照ゲノムから除外できる。
(実施例31)
さまざまな転写物からのアンプリコンの同定
図30は、いくつかの配列(例えば、いくつかのエクソン)を共有するが他の配列を共有しない異なるRNA転写物から生成され得る異なる増幅可能な標的の概略図である。プライマーの異なる対は、一方、他方、又は両方の転写物から配列を増幅すると予測される。改変参照ゲノムの生成において、参照は、参照ゲノムのどの転写物配列からどの標的が増幅され得るかに関して維持される。例えば、プライマーgreenAとgreenBは、赤と青の転写物から同一の配列を増幅するが、プライマーorangeAとorangeB/yellowBは、互いに異なる赤と青の転写物から配列を増幅し(青の転写物に介在するエクソン3が存在し、赤の転写物に存在しないため)、プライマーyellowA及びorangeB/yellowBは青の転写物の配列を増幅するが、赤の転写物は増幅しない(プライマーyellowAはエクソン3の配列と一致するため)。
(実施例32)
スプライス及び融合ジャンクションに由来する標的にアライメントされた配列リードの翻訳
いくつかの例では、本明細書に開示される遺伝子モデルに基づいた転写可能な転写物配列の同定等により、改変参照ゲノムにアライメントされたリードは、改変参照ゲノムが生成された参照ゲノムに更にアライメントされ得る。場合によっては、配列がエクソン-エクソン境界を越えるRNAリードは、改変参照ゲノムにアライメントする。例えば、リードは、改変参照ゲノムからの所与の標的に対応するものとして同定され得る。そのような標的は、リード内の配列の連続部分に反映されるように、エクソン-エクソンジャンクションを含み得る。リードに対応する、改変参照ゲノムが由来する参照ゲノム内の遺伝子座を同定することが望ましい場合がある。改変参照ゲノムには、参照ゲノムからの所与の染色体上のどこにその配列、特に例えばそのエクソンが由来するかという対応する情報が含まれていてもよい。そのようなエクソン配列は、参照ゲノムの転写されていない部分、又はスプライシング中に除去されたイントロン配列に対応するゲノムの転写された部分によって分離され得ることが理解されよう。そのようなゲノム遺伝子座の同定を含む改変参照ゲノムにリードがアライメントされる場合、リードは改変参照ゲノムだけでなく、改変参照ゲノムの対応する位置に翻訳して戻されて、リードの部分を発生させるためゲノムのどの部分が転写されたかを示すことができる。
一例を図31に示す。図31は、RNAリードの一部が転写された部位に対応する染色体遺伝子座3100に対してRNAリードを翻訳するプロセスの図解を示す。この例では、snRNAリード3110は、改変参照ゲノム標的3120にアライメントされている。この標的tには、いくつかのエクソン、3120A、3120B、3120C、3120D、及び3120Eが存在する。RNAリード3110は、これらのエクソン間の境界にアライメントする。改変参照ゲノム3120は、そのエクソンが対応する参照ゲノム3130上の遺伝子座を示す、すなわち参照ゲノム3130内の所与の染色体上のどこから転写されたかを示す遺伝子座識別子を含む。改変参照ゲノムの標的tにアライメントするRNAリード3110は、参照ゲノム3130、染色体c、及び同定されたアライメントされたエクソンをコードする染色体内の特定の遺伝子座lに翻訳して戻すことができる。いくつかの例では、RNAリードに含まれる配列に対応する染色体位置を同定する配置情報を含むアライメントプロファイルを作成することができる。
いくつかの例では、RNAリードは、エクソン-エクソン境界を欠く標的に、又はそのような境界を欠く標的の一部に、例えば標的又はリードが単一のエクソン又は単一のエクソン内の配列からなる場合に対応し得る。そのようなリードは、図31に示されるように比較可能な方法で参照ゲノムに翻訳して戻すこともできる。他の例では、RNAリードは、最初の転写時に別々のRNA分子として発生した転写物から一緒に融合した配列を含む、融合RNAに対応する標的にアライメントし得る。改変参照ゲノムにそのような潜在的な融合標的及び対応する染色体遺伝子座同定情報が含まれる場合、そのような融合RNA標的に対応するRNAリードの一部は、図31に示されるように、エクソン-エクソン境界にわたるRNAリードがどのように参照ゲノムに翻訳して戻され得るかと比較して、参照ゲノムの染色体位置に翻訳して戻され得る。そのような場合には、リードの一部が異なる染色体に翻訳して戻されることが含まれ得る。リードの配列が融合ジャンクションを含まない融合RNAの一部にアライメントする場合、それはまた同様にその染色体起源の遺伝子座に翻訳して戻されてもよい。
(実施例33)
アライメントされていない融合ジャンクションを参照ゲノムにアライメントする
本明細書に開示されているように、配列リードは、配列リードが融合ジャンクションに対応し、融合ジャンクションが改変参照ゲノムの生成に使用される遺伝子モデルに含まれていない場合等、改変参照ゲノムに対してアライメント可能ではないか、又はアライメントされていない場合がある。そのような場合、改変参照ゲノムへとアライメントされていないものが参照ゲノムにアライメントされ得た後、配列リードはアライメントされていない融合ジャンクションとして分類される。そのようなアライメントが、配列リードの融合ジャンクション偽陽性として特徴付けを回避するための最小要件を充足する場合、配列リードは、融合ジャンクションとして特徴付けられ得、それ自体がアライメントプロファイルに含まれることがある。
一例では、4つの試料のそれぞれから配列リードが生成され、2つは融合ジャンクションがないことがわかっており、2つは融合ジャンクションがあることがわかっている。各試料の8つの複製を使用して、合計32試料を得た。本明細書に開示されるように、試料の配列リードを改変参照ゲノムにアライメントさせた後、アライメントしていない融合ジャンクションが同定された。次に、これらの非アライメント融合ジャンクションを参照ゲノムにアライメントさせた。いくつかは、試料に存在する融合ジャンクションに対応していることがその後確認された(すなわち、遺伝子モデルに存在しない融合ジャンクションは、改変参照ゲノムにアライメントされないか又はアライメントできないが、参照ゲノムへの融合ジャンクションとしてアライメントし、正確に同定された)。一部の試料に存在することが個別に確認され、改変参照ゲノムへのアライメント後にアライメントされていない融合ジャンクションとして分類された融合ジャンクションは、改変参照ゲノムへのその後のアライメント後に試料に存在する融合ジャンクションとして正しく同定された。
その他は、参照ゲノムにアライメントした後の融合ジャンクションの偽陽性として特徴付けられた。例えば、融合アライメントの長さが最小融合アライメントの長さの閾値を超えていないか、対応する配列リードの数が少なすぎるか、配列リードのアライメント長の局所アライメント長に対する比が1より大きくない。例では、2,100を超える配列リード(2,165)が参照ゲノムに融合ジャンクションであるかのようにアライメントしたが、試料に存在する融合ジャンクションを正確に表さないことが確認された。しかしながら、本明細書に開示される融合ジャンクション偽陽性の分類のためにそれらをスクリーニングすると、それら(2,107)のうち2,100超が融合ジャンクション偽陽性として正しく分類された。具体的には、そのような配列リードは、次の3つの基準のいずれか1つ又は複数を充足する場合、融合ジャンクション偽陽性として分類された:(1)配列リード融合アライメントの長さが70ヌクレオチドを超えなかった、(2)融合ジャンクションと称されるものに対応する配列リードが100を超えなかった、及び/又は(3)融合アライメントの長さが、少なくともアライメントの長さ、又はそこにアライメントされた任意の他のリードよりも高いアライメントスコアを持つ位置へのリードと同じ長さではなかった。
上述の例の場合、図32は、得られた多数の偽陽性の同定及び破棄を可能にし得る方法での融合ジャンクション偽陽性のプロットを示す。上述の例で同定された2,165個の偽陽性のうち、次の規則に従って、配列リード長が70を超えるものが図32にプロットされる。
融合ジャンクションとして最初に同定された配列リードの場合、それがアライメントする参照ゲノム内の領域(又は、融合ジャンクションと称されるものの場合は非連続領域)が同定された。融合ジャンクションがアライメントした参照ゲノムの長さ(配列リード融合ジャンクションアライメントの両端でのアライメントの長さの合計)が決定された。配列リードが、配列リードの局所アライメントと呼ばれる参照ゲノムの連続領域に代替的にアライメント可能であった場合、局所アライメントの長さと呼ばれるそのような局所アライメントの長さが決定された。複数の局所アライメントが潜在的にアライメント可能である場合、局所アライメントの長さとして、最も長い局所アライメントの長さを有する局所アライメントが選択された。次に、最初に融合ジャンクションとして同定された各配列リードの比率を計算した。そのような比率の分子は、融合ジャンクションと称されるもののアライメント長であり、そのような比率の分母は局所アライメント長であった。この比率は、図32に示されるプロットのx軸に沿ってプロットされる。この例では、比率が1以下(縦線)の融合ジャンクションと称されるものが偽陽性であると同定された。
更に、各融合ジャンクションと称されるものに対応する配列リードの数も同定され、図32のy軸にプロットされた。この例では、そのような融合ジャンクションを示す対応する配列リードの数が100(水平線)以下である場合、融合ジャンクションと称されるものを偽陽性と同定した。
図32のプロット上の線は、この例で使用される融合ジャンクションの偽陽性基準(70を超えるアライメント長に加えて)を示し:アライメント長の局所アライメント長に対する比が1(垂直線)を超え、リード数が100を超える(水平ライン)。多くの融合ジャンクションの偽陽性は、これらの除外基準の外(すなわち、垂直線の左側及び水平線の下側)にプロットされ、それによって偽陽性として同定され、融合ジャンクションを示すものとして最終的に同定されない。
代替物
任意の例の技術は、1つ又は複数の他の例で記載されている技術と組み合わせることができる。開示された技術の原理が適用され得る多くの可能な実施形態に鑑みて、図示された実施形態は開示された技術の例であり、開示された技術の範囲に対する制限として解釈されるべきではないことを認識すべきである。むしろ、開示された技術の範囲には、以下の特許請求の範囲によって包含されるものが含まれる。したがって、特許請求の範囲及び趣旨に含まれるすべてが請求される。
本明細書では好ましい実施形態を詳細に図示及び説明したが、本開示の趣旨から逸脱することなくさまざまな改変、追加、置換等を行うことができることは当業者には明らかであり、したがって、これらは、添付の特許請求の範囲で定義されるような本開示の範囲内にあるとみなされる。