JP6423426B2 - 転写産物判定方法 - Google Patents

転写産物判定方法 Download PDF

Info

Publication number
JP6423426B2
JP6423426B2 JP2016524758A JP2016524758A JP6423426B2 JP 6423426 B2 JP6423426 B2 JP 6423426B2 JP 2016524758 A JP2016524758 A JP 2016524758A JP 2016524758 A JP2016524758 A JP 2016524758A JP 6423426 B2 JP6423426 B2 JP 6423426B2
Authority
JP
Japan
Prior art keywords
transcript
model
fragment
probability
mix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016524758A
Other languages
English (en)
Other versions
JP2016531344A (ja
Inventor
アンドレアス トゥルク
アンドレアス トゥルク
Original Assignee
レクソゲン ゲーエムベーハー
レクソゲン ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP13175774.2A external-priority patent/EP2824601A1/en
Application filed by レクソゲン ゲーエムベーハー, レクソゲン ゲーエムベーハー filed Critical レクソゲン ゲーエムベーハー
Publication of JP2016531344A publication Critical patent/JP2016531344A/ja
Application granted granted Critical
Publication of JP6423426B2 publication Critical patent/JP6423426B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)

Description

本発明は、次世代シークエンシング(NGS:next generation sequencing)リードに基づいて転写産物(例えば、mRNA)量の情報を提供することに関する。
次世代シークエンシング技術は、核酸サンプルを配列決定するときに大量のショートリードを作り出す。次世代シークエンシングに不可欠なステップは、ライブラリ調製または略してライブラリプレップ(library prep)である。このプロセスは、入力としてmRNAまたはcDNAを取り、それぞれがmRNA分子の区分に対応する短いcDNAフラグメントのライブラリを作り出す。これらのフラグメントは、次にNGSシーケンサーによって、通常はそれらの全体ではなくそれらの開始および/またはそれらの終結部において部分的に配列決定される。これは、ヌクレオチドの短い配列を生じ、この短い配列は、リードと称され、遺伝コードの核酸塩基を表すA、C、G、Tまたは0、1、2、3のような4つのASCII文字の一群の配列として、最も一般にはNGSシーケンサーによって記憶される。元のサンプル中にどのmRNA分子が存在したかを推測するために、リードがリファレンスゲノム上へマッピングされる。
次世代シークエンシングは、様々なゲノム・マッピング手順(特許文献1)または、例えば、配列リードをある生物バリアントへ関連付けるためにマッピングされたゲノムを用いることによるDNA同定方法(特許文献2)において利用されてきた。
特許文献3は、生物のトランスクリプトームのプロファイルを得るための方法を記載し、この方法は、シークエンシング・リードを得るために1つ以上のcDNA分子を配列決定するステップと、それぞれのシークエンシング・リードをリファレンス配列へアライメントするステップとを備える。しかしながら、従来の方法には知られていない、短い配列リードを用いたトランスクリプトーム解析の根底にある主要な問題は、配列のずれが異なるアイソフォームのような、例えば、遺伝子の系統差、点変異、または1つのタンパク質のスプライスバリアントなどの転写バリアントの場合におけるアライメント・ステップである。通常、短い配列リードを1つの転写バリアントへ正しくアライメントすることは困難である。
配列リードに基づいて転写産物シークエンシング・データをアセンブルする最も一般的な方法は、「Cufflinks」法である(非特許文献1)。Cufflinksは、RNA−Seq実験において観測されたリードを「説明する(“explain”)」転写産物の簡潔なセットを構築する。Cufflinksは、比較アセンブリ問題を二部グラフにおける最大マッチングの問題へ帰着させることによってこれを行う。基本に、Cufflinksは、リード・アライメントについて被覆関係を構築し、この関係に係る有向非巡回グラフ上において最小パス被覆を見出すことによって、ディルワースの定理の構成的な証明を実施する。この統計的手法を用いて、Cufflinksは、既知のリファレンス・アノテーションを用いるかあるいはリファレンスゲノムのみを用いた転写産物の非経験的なアセンブリ後に、サンプルに存在する転写産物アイソフォームの存在比を推定することができる。Cufflinksは、フラグメントのセットを所与として、ペアエンド・シークエンシング実験の統計モデルを用い、転写産物のセットにおける存在比について尤度を導出する。この尤度関数が一意的な最大値を有することを示すことができて、Cufflinksは、数値的最適化アルゴリズムを用いてこれを見出す。プログラムは、次に、転写産物に関して提案された存在比を所与として、これらの確率を乗算し、実験においてフラグメントを観測するであろう総合的な尤度を計算する。Cufflinksの統計モデルが線形であるために、尤度関数は、一意的な最大値を有し、数値的最適化アルゴリズムをもつCufflinksによってこれが見出される。
非特許文献2は、フラグメント・バイアスを補正することによりRNA−Seq発現推定値を改善する方法に関する。非特許文献3は、自然個体群における転写産物量のクラスの混合モデリングを記載する。
従来の方法は、転写バリアントを正しく識別して他の転写産物との比較において正しい転写産物量または存在比を得ることができなかった。本明細書において比較により示されるように、Cufflinks法でさえ、いくつかの実験では正しい転写産物量情報に到達することができなかった。
本発明の目標は、転写産物量のより正確な評価を可能にする改善された方法を提供することである。
米国特許出願公開第2013/110410(A1)号 国際公開第2009/085412(A1)号 国際公開第2009/091798(A1)号
コール・トラップネル(Cole Trapnell)、ブライアン・A・ウィリアムズ(Brian A Williams)、ジオ・ペルテア(Geo Pertea)、アリ・モルタザヴィ(Ali Mortazavi)、ゴードン・クワン(Gordon Kwan)、マレイケ・J・ヴァン・バレン(Marijke J van Baren)、スチーブン・L・ザルツバーグ(Steven L Salzberg)、バーバラ・J・ウォルド(Barbara J Wold)およびリオル・パクター(Lior Pachter)転写産物アセンブリおよびRNA−Seqによる定量化が細胞分化の間のアノテーションされていない転写産物およびアイソフォームのスイッチングを明らかにする(Transcript assembly and quantification by RNA−Seq reveals unannotated transcripts and isoform switching during cell differentiation)Nat Biotechnol 28(5):511−515、2010年5月 アダム・ロバーツ(Adam Roberts)、コール・トラップネル(Cole Trapnell)、ジュリー・ ドナヒー(Julie Donaghey)、ジョン・L・リン(John L Rinn)およびリオル・パクター(Lior Pachter)フラグメント・バイアス補正によるrna−seq発現推定値の改善(Improving rna−seq expression estimates by correcting for fragment bias)Genome Biol 12(3):R22 2011年3月 ウェン−ピン(Wen−Ping)ら:ゲノム生物学(Genome Biology)8(6)(2007):R98
本発明は、転写産物量を推定する方法を提供し、方法は、a)対象となる遺伝子座内の転写産物の潜在的な混合物から転写産物フラグメントシークエンシングデータを得るステップと、b)前記フラグメントシークエンシングデータを対象となる前記遺伝子座の遺伝子座標へ割り当て、それによってフラグメント遺伝子座標カバレッジのデータセットを得るステップであって、遺伝子座標ごとの前記カバレッジは、結合されて(全カバレッジ・ヒストグラムまたは全体のヒストグラムとも呼ばれる)カバレッジ包絡曲線を形成する、ステップと、c)前記混合物の転写産物の数をセットするステップと、d)転写産物iごとにモデリングされた遺伝子カバレッジの確率分布関数を予めセットするステップであって、iは、転写産物のための数値識別子を示し、前記確率分布関数は、前記転写産物iの重み係数αと、少なくとも2つの確率サブ関数jの和との数学的積からなり、jは、確率サブ関数のための数値識別子を示し、各確率サブ関数jは、重み係数βi,jによって独立に重み付けされる、ステップと、e)サム関数を得るために転写産物ごとの確率分布関数を加算するステップと、f)サム関数を前記カバレッジ包絡曲線へフィッティングし、それによってフィットを向上させるために、αおよびβi,jに関する値を最適化するステップと、g)予めセットされた収束判定基準が満たされるまでステップe)およびf)を繰り返し、それによって収束判定基準が満たされた後に最適化されるような重み係数αによって与えられる、混合物の転写産物ごとの推定転写産物量を得るステップとを備える。
本発明は、前記方法を利用した、例えば、前記方法およびステップをコンピュータ上で行うかまたは補助するための機械コードを含む、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品は、任意の種類のメモリ装置上に提供できる。さらに提供されるのは、システム、例えば、本発明の方法のステップを行うことを補助するようにプログラムされたコンピュータ装置である。算出ステップは、通常、オペレータの補助なしに行われる。入力および設定ステップは、プログラムまたはシステムによって、例えば、ステップd)において確率サブ関数の数およびタイプに関する選択肢の提案を示唆することによって補助されてもよい。もちろん、プログラムまたはシステムは、オペレータからのさらなる入力なしにデフォルト・パラメータを用いて行われてもよい。
以下の詳細な記載および好ましい実施形態は、本発明のすべての態様に適用され、明示的に示された場合を除いて、制限なしに互いに組み合わせることができる。好ましい実施形態および態様は、特許請求の範囲において定義される。
発明の詳細な開示
本発明は、転写産物フラグメント配列のサンプルから転写産物量情報を得るために数値的方法を利用する。
この方法は、遺伝子カバレッジ情報を得るために、一般に転写産物フラグメント配列と呼ばれる(NGS)リードをリファレンスゲノムのようなリファレンス配列へアライメントする(ステップb)。このために用いられる従来の統計学的ツールは、観測データの特質についてしばしば非現実的な仮定を行い、それゆえに転写産物濃度の推定値が不正確である。最も広く用いられるツールのいくつか、例えば、Cufflinksは、リードの分布が転写産物に沿って均一であると仮定し、これは現在のmRNA−Seqプロトコルと矛盾する。本発明は、転写産物に沿ったリード分布のバイアスと、転写産物量とを同時に知ることが可能な統計学的モデルを提供する。このために、転写産物のリードまたはフラグメント分布を混合関数によってモデリングして、この混合関数を転写産物量とともにフィッティング・ステップにおいてトレーニングする。フィッティング・ステップに用いる方法は、期待値最大化アルゴリズムを用いた最大尤度の枠組みなど、従来の最大化または最小化手順から推測できる。本発明のモデルにおけるリードの全確率分布は、混合関数を混合した関数なので、このモデルをMix(Mixquareと読む)モデルと称する。以下に示すのは、Mixモデルが非常に多用途であり、随意的なパラメータの連結によって、データに本来備わった様々な構造へ調整できることである。特に、転写産物量を得るために用いる方法は、転写産物に係る確率分布に適しうる。実験において示すのは、Mixモデルが転写産物量に関してCufflinksプログラムに用いる統計学的モデルよりかなり良好な推定値を達成することである。不正確な転写産物アノテーションから開始したときでも、Mixモデルは、正しいアノテーションをデータから知ることができ、先行技術よりはるかに優れた存在比の推定値を生み出す。フィッテング・ステップの間の優れた学習能力ゆえに、例えば、割り当てステップa)の間またはステップd)における(例えば、ランダム)確率分布関数の選択の間に選択される開始パラメータが決定的に重要ではない。仮定する転写産物の数も異なってもよい。誤った転写産物アノテーションまたは転写産物数の仮定は、例えば、1つ以上の転写産物に関する統計分布関数を存在比ゼロへフィッティングすることによって、おそらく補正されるであろう。重み係数アルファは、確率としてモデリングでき、収束後に転写産物の存在比を表すことになろう。
本明細書において、「対象となる遺伝子座(“genetic locus of interest”)」は、本方法を染色体上の遺伝子の1つの連続的な配列伸長鎖には限定しない。「対象となる遺伝子座」は、一般に、遺伝子配列の1つ以上の区分を指す。遺伝子座は、ゲノム座標と関連付けることができて、配列リード(転写産物フラグメント配列)に関する位置情報を提供する。ゲノム「位置(“position”)」または「座標(“coordinate”)」は、本明細書では、リファレンス配列の開始からある距離を隔てたリファレンス配列上で数値により識別されるヌクレオチドを指すために用いる。遺伝子座標は、遺伝子座標が転写産物と適合すれば、ゲノム座標または転写産物座標で表すことができ、遺伝子座標がいずれかの転写産物エクソン内に位置すれば、これが当てはまる。適合するゲノム座標は、転写産物開始からの相対距離を算出して、ゲノム座標に先行するイントロンの長さを減算することによって転写産物座標へ変換される。転写産物座標は、このプロセスを逆戻りすることによってゲノム座標へ変換できる。1つの転写産物の座標上で定義された確率分布が確率サブ関数の縮小、伸張およびシフトによって別の転写産物の転写産物座標上の確率分布へ変換されてもよい。
核酸塩基タイプ(例えば、A、T/U、G、C)がゲノム座標または位置と関連付けられても、関連付けられなくてもよい。通常、各転写産物に対して1つのタイプの核酸塩基が各遺伝子座標と関連付けられる。しかしながら、本発明は、点変異を識別するために用いることができるので、遺伝子座標ごとに、異なる重複転写産物の核酸塩基構成が異なってもよく、すなわち、特にサンプルが異なる生物または異なる対立遺伝子の核酸分子を含んだ場合には、異なる転写産物間で1つ以上の核酸塩基が異なってもよい。対象となる遺伝子座内の(and a locus of interest)転写産物、それらのフラグメント間で生じうるミスマッチの場合においても共通の遺伝子座標を配分することができる。フラグメント配列を遺伝子座標へ割り当てるステップb)が遺伝子座標を提供するこれらの配列間の配列比較またはアライメントを備えてもよい。ヌクレオチドの比較を備える(例えば、前述のオープンソースCufflinks法による)配列比較は、当技術分野においてよく知られている。本発明の方法は、対象となる所与の遺伝子座上にずれた配列をもつ異なる系統または生物のデータに対して用いることができ、或いは、異なるスプライスバリアント、すなわち、エクソン配列の異なる組み合わせによって区別できる異なる転写産物を識別するために本発明の方法を用いてもよい。このように、割り当てステップa)の間のミスマッチは、許容することも却下することもできる。かかるミスマッチは、好ましくは、100塩基当たり多くとも1、2、3、4、5、6、7、8、9、10または11個のミスマッチである。
本発明は、転写産物の混合物における個々の転写産物の(例えば、確率に相当する相対量のような)存在比をモデリングできる。転写産物フラグメントシークエンシングデータは、少なくとも2、好ましくは3、4、5、6、7、8、9、10、あるいは少なくともまたは多くとも15、少なくともまたは多くとも20、少なくとも25、少なくともまたは多くとも30、少なくともまたは多くとも40個の転写産物配列を備えてもよい。転写産物の数は、例えば、核酸を例えば増幅または除去することにより核酸サンプルに対して行う選択ステップにおいて選択できる。このように除去または増幅される核酸が共通の配列伸長鎖、例えば、選択したオリゴヌクレオチド・プローブに対応する配列、アンカー配列またはプライマー配列を含んでもよい。1つ以上のゲノム遺伝子座がこのような方法で選択されてもよい。本発明の特に好ましい実施形態では、1つの遺伝子の複数の転写バリアントが検討される。とは言え一般に、「転写産物」は、本明細書において任意の遺伝子または遺伝子の組み合わせおよびその任意のバリアントの任意の核酸またはその配列、特にそのmRNAまたはcDNA配列バリアントを指してもよい。
好ましくは、前記転写産物フラグメントシークエンシングデータの転写産物フラグメント配列は、5から800ヌクレオチド、好ましくは6から600ヌクレオチド、7から400ヌクレオチド、8から200ヌクレオチドまたは9から150ヌクレオチド、なおさらに好ましくは10から100ヌクレオチド、特に好ましくは12から70ヌクレオチドの長さを有する。
転写産物フラグメント配列の数は、少なくともまたは多くとも100、少なくともまたは多くとも500、少なくともまたは多くとも1000、少なくともまたは多くとも5000、少なくともまたは多くとも10000であってもよい。好ましくは、転写産物ごとに、少なくともまたは多くとも10、或いは少なくともまたは多くとも20、少なくともまたは多くとも50であってもよい。組み合わせてまたは代わりとして、転写産物フラグメント配列の数は、多くとも400000、多くとも300000、多くとも200000、多くとも100000または多くとも50000であってもよい。
少なくとも1つ以上、例えば、すべての転写産物の転写産物長は、例えば、100から1000000、好ましくは1000から100000ヌクレオチドまたは2000から10000ヌクレオチドであってもよい。
好ましい実施形態において、対象となる遺伝子座は、1つ以上の遺伝子または遺伝因子の、例えば、転写産物配列をコードする、1つ以上のアイソフォームを備え、好ましくは1つの遺伝子または遺伝因子の少なくとも2、3、4個またはそれ以上のプライスバリアントを備える。対象となる遺伝子座は、別の遺伝子または遺伝因子の1つ以上の他のプライスバリアントを備えてもよい。スプライスバリアントに加えてまたは代わりに、対象となる遺伝子座は、異なる対立遺伝子を備えてもよい。好ましい実施形態において、遺伝子または遺伝因子は、タンパク質(例えば、mRNA)をコードするが、タンパク質をコードしない転写産物、例えば、microRNA、snoRNAもしくはrRNA、ならびにそれらの前駆体、特にpre−microRNAまたはpre−rRNAを含む、調節または触媒RNAもコードする。
本明細書では、「遺伝子」および「遺伝因子」は、1つ以上の転写産物を形成するために転写される配列をもつ遺伝子ヌクレオチドに関する。
本明細書では、「アイソフォーム」は、転写産物の特定のバリアントに関係して用いる。1つの「遺伝子」または「遺伝因子」の転写産物は、例えば、スプライスバリアントの場合、異なってもよく、従って異なるアイソフォームを生じる。他のアイソフォーム変化は、異なる対立遺伝子、または、例えば異なる微生物もしくは系統の混合における転写産物物質の異なるソースによって生じうる。
転写産物の数をセットするステップは、予めアノテーションされている配列データを対象となる遺伝子座から得ることと、転写産物の数を、対象となる前記遺伝子座から予想される、異なる転写産物配列としてカウントするスプライスバリアントを含む、異なる転写産物配列の少なくとも数にセットすることとを備えてもよい。前述のように、誤った転写産物は、サム関数のフィッティングの間に除去されてもよく、ゼロへ収束する1つ以上の重み係数アルファを結果として生じるため、転写産物のセット数は、(厳密に分かっても分からなくてもよい)転写産物の実際の数を超えてもよい。通常、対象となる遺伝子座は、例えば、核酸選択ステップのうちのいずれか1つのcDNA生成ステップから知られる。アノテーションされている遺伝子データを用いて、転写産物の量に係る開始数imaxに到達することが可能である。転写産物ごとに、ステップd)において確率分布関数をセットすることによって存在比をモデリングすることになる。この関数は、重み係数アルファを含み、重み係数アルファは、和および確率分布フィッティングの収束、反復プロセス後に混合物における転写産物の存在比に対応する。転写産物の混合物は、本発明のモデルの第1の混合物である。各アルファは、フィッティング・プロセスの間に別々に修正できる。従って、転写産物の数のセッティングは、粗い推定値であってもよい。例えば、この数は、2、3、4、5、6、7、8、9、10、11、12、13、14、15であってもよく、16、20、30、40またはそれ以上のうちの少なくともいずれか1つであってもよい。
第2の混合物は、各確率分布関数に数学的に含まれる。確率分布関数は、2つ以上(例えば、2、3、4、5、6、7、8、9、10またはそれ以上)の確率サブ関数または「ブロック」からなる。転写産物の長さ(転写産物座標範囲)にわたって非対称的なリード分布のモデリングを可能にするためには、少なくとも2つの確率サブ関数を有することが不可欠である。転写産物当たりの確率サブ関数の総量は、jmaxである。jmaxは、通常、およそ4〜8である。あまりに多い量の確率サブ関数は、過剰なトレーニングおよび計算効率の低下に繋がりかねない。
確率分布関数は、確率サブ関数の和である。注目すべきは、係数アルファが確率分布関数全体を重み付けし、従って、各基礎をなす確率サブ関数を均等に重み付けすることである。確率分布関数内では、確率サブ関数が重み係数βi,j(ベータi,j)によって別々に重み付けされる。注目すべきは、転写産物ごとに、すなわち確率分布関数ごとに、ベータが独立係数または従属係数(「連結される」)であってもよいことである。独立係数の場合、各ベータは、フィッティング・ステップの間に個別に修正できる。さらに可能なのは、例えば、第1のベータ、または一般に任意のベータjが各確率分布関数に対して同じになるように、ベータを異なる確率分布関数間で連結することである(例えば、ベータ1,j=ベータ2,j)。これによって、モデリングされる重み係数ベータの数がimax×jmaxではなく、単にjmaxへ減少して、フィッティング・プロセスが簡略になり、計算リソースの使用量が減少する。この簡略化は、転写産物ごとに同様のフラグメント・カバレッジ分布が予想できる場合、例えば−2つ以上の、例えば、すべての転写産物(「連結された」転写産物)に対して−所定の配列部分では他の部分より常に大きい存在比が予想される場合に最もよく機能する。この仮定は、通常、およそ同じかまたは同様の長さの転写産物に関して、例えば、連結された別の転写産物の0.3から3.2、好ましくは0.5から2.1の(核酸塩基単位の)長さを有する転写産物に関して真である。もちろん、以下でより明確になるように、確率サブ関数の他のパラメータも、異なる転写産物間で同様に、または(例えば、ある1つの転写産物に関する確率分布関数全体を遺伝子座標方向に横へシフトさせるときに)所与の転写産物の確率サブ関数間でやはり同様に連結できる。また、ステップd)において、転写産物の確率サブ関数を、互いに(通常、確率分布関数の全体に対する部分の確率または確率寄与としてモデリングされる)およそ同じ最大高さまたは最大値に正規化することが可能である。
パラメータを連結するためのさらなる選択肢によれば、すべての転写産物、すなわち、各確率分布関数にわたってではなく、転写産物、すなわち、各確率分布関数の一群において、1つ以上のパラメータ、例えば、1つ以上のベータのみを連結することも可能である。かかる群は、確率分布関数のサム関数の同様の予想形状によって定義されてもよい。例えば、同様の長さおよび/または同様のGC含量によって群が定義されてもよい。同様の長さとは、例えば、群のすべてのメンバーがすべてのメンバーの平均サイズの+/−50%以内、好ましくは+/−35%以内、より好ましくは+/−30%以内の長さを有するときである。同様のGC含量とは、例えば、すべてのメンバーの平均GC含量の+/−10%以内、好ましくは+/−5%以内であってもよい。
「およそ(“about”)」は、本明細書では、所定の値と同じ値もしくは所定の値と±10%異なる値を指す。
所定の重み係数を用いた転写産物iに関する確率サブ関数の和は、転写産物(transcrip)Iに関する確率分布関数を構成する。確率サブ関数としては、これらの確率サブ関数の和が確率関数を形成できることを必要条件として、任意の数学関数を選択できる。確率サブ関数は、フィッティングおよび最適化が可能な計算モデルのための基礎をなすため、少ないパラメータを用いた簡略な関数が好ましい。確率サブ関数は、遺伝子座標に応じて関数の形状を確定する、例えば、1、2、3、4、5、6、7、8、9または10個の関数パラメータを備えるか、またはそれらから成ってもよい。確率サブ関数jは、好ましくは遺伝子座標ごとに正値で構成される。好ましくは、確率サブ関数は、非周期関数であるか、および/または特に好ましくは、確率サブ関数は、密度関数または確率関数であるが、(所定の転写産物に関する)確率分布関数と呼ばれる、確率サブ関数の和と区別するために本明細書では確率サブ関数または「ブロック」と呼ばれる。確率サブ関数は、通常、ある遺伝子座標において最大値を含み、前記最大値から離れた正または負の遺伝子座標では着実に減少する。好ましくは、確率サブ関数は、唯一の最大値を有する。確率サブ関数jの例は、ガウス関数、正方形関数、三角形関数、好ましくはガウス関数から選択される。
遺伝子座標またはその範囲は、好ましくは各転写産物に対して同じである。この目的のために、転写産物に関する確率分布関数を遺伝子座標方向に縮小もしくは拡張、またはシフトさせることができる。もちろん、リファレンス配列、例えば、ゲノムにおける正しいソース座標に再び到達するために、かかる変換を反転させることができる。しかしながら、かかる変換は、存在比モデリング・アルゴリズムにとって有益であろう。
この縮小、拡張およびシフトは、正しい(または尤度がより高い)転写産物長の知識を得るため、または高めるために用いることができる。プリファーメントにおいて、転写産物長の推定値は、このステップによって得られ、フラグメントの数(例えば、量または濃度)を確定するためにこれを用いる。フラグメント数は、関係:FPKM=フラグメントの数/転写産物長(×重み係数)に基づいて、FPKM(100万リード当たり、1000塩基対当たりのフラグメント:fragments per kilo base pair per million reads)から推定できる。従って、フラグメントの数は、FPKM×転写産物長と相関する。
転写産物長の推定値は、ステップe)の収束後のサム関数を随意的に縮小もしくは拡張および/またはシフトさせた確率分布関数に従って、転写産物開始および終結位置をセットすることによって得ることができる。定義された開始および終結位置は有さないが、それに関する確率値のみを有しうる、複数の確率分布関数からなるサム関数の特質に起因して、開始および終結は、例えば、(開始に関しては)遺伝子座標までの部分面積、または(終結に関しては)遺伝子座標から始まる部分面積が、(サム関数または最初もしくは最後の確率分布関数の)曲線下の全面積のある割合である前記遺伝子座標として推定できる。この割合は、1%と10%との間とすることができる。当業者は、用いる確率(probably)分布関数の形状に応じて、かかる面積カットオフを確定するのに適した値を容易に試験できる。これは、既知の開始および終結位置をもつモデル核酸を用い、他の開始および終結位置をもつ本発明の関数を設定し、記載するように、本発明のアルゴリズムに改善された開始および終結位置をトレーニングさせて容易に試験できる。カットオフ値に用いる値の例は、0.5%、1%、2%、3%、4%、5%、6%、7%、8%、9%または10%である。
さらなる選択肢によれば、フラグメント長分布または平均フラグメント長は、ステップe)の収束後に本発明のモデル関数を用いて算出される。
特に、1つ以上の転写産物、好ましくは各転写産物のための遺伝子座標(およびその確率分布関数)は、対象とならない遺伝子領域を削除するように随意的に変換した、ゲノムにおけるヌクレオチド位置に対応してもよく、好ましくは−リードまたは配列フラグメントが何もアライメントしないイントロンのような−前記対象とならない遺伝子領域は、前記転写産物フラグメントシークエンシングデータによるカバレッジを含まない。このように、連続的な確率分布関数を間歇的なゼロ分布を伴わずにモデリングできる。かかる対象とならない領域は、個々の確率分布関数から除去でき、加えてまたは代わりに(各反復ステップg)の間に様々な確率分布関数のサム関数をフィッティングする対象となる)カバレッジ包絡曲線からも除去できる。包絡曲線は、結合された配列データ・カバレッジのヒストグラムを表す。
このように、好ましくは、本発明の方法は、イントロンをもつ遺伝子座標位置を前記カバレッジ包絡曲線から除去することを備えたステップb2)をさらに備える。これは、もちろん、元のフラグメントシークエンシングデータまたは対象となる遺伝子座の遺伝子もしくはゲノム座標に戻って確率分布関数を再び参照する場合を除いて、ステップf)および好ましくはすべての他のステップにおけるカバレッジ包絡曲線の使用を置き換える、修正されたカバレッジ包絡曲線を得ることにつながる。
存在比をモデリングするために、遺伝子座標カバレッジがリードの配列情報全体を用いる必要はない。さらに、リード配列の限られた数のヌクレオチドのみ、例えば、単に最初の1つまたは開始点の情報を用いれば十分である。フラグメント遺伝子座標カバレッジは、遺伝子座標に割り当てられたフラグメント配列ごとに少なくとも1つのヌクレオチドのカウントを含むことができ、好ましくは、少なくとも1つのヌクレオチドは、フラグメント開始点またはフラグメント配列全体を備える。「備える(“comprises”)」は、本明細書では、含む(“containing”)におけるようにさらなるメンバーを許容する、開いた定義として理解するものとする。他方、「成る(”consisting”)」は、成るの定義の特徴のさらなる要素を伴わない閉じた定義と見做される。このように、「備える」は、より広い定義であり、「成る」の定義を包含する。「備える」の語を用いた本明細書における任意の定義は、本発明の特別の実施形態では成るの制限とともに読まれてもよい。
確率分布関数の成分である、2つ以上の確率サブ関数は、(転写産物の)前記確率分布関数のゲノム座標範囲のうちに好ましくは均等に分布する。一般に、好ましくは、転写産物に関する確率サブ関数は、それぞれ異なる遺伝子座標に極大を備える。本発明の特に好ましい実施形態において、転写産物ごとの確率サブ関数の極大は、随意的に(イントロンの除去後のように、修正された遺伝子カバレッジを提供しうる)上述のような変換後に、少なくともおよそ、ステップa)において転写産物に割り当てられた遺伝子座標の最初と最後のヌクレオチドとの間の差に1/jmaxを乗じたものだけ分離される。このように、1つの転写産物(それゆえにカバレッジをモデリングする確率密度関数)によってカバーされる遺伝子座標に沿って複数の確率サブ関数が均等に分布することができる。もちろん、最適な均等分布からずれることもありうる。従って、確率サブ関数ごとに、遺伝子座標上の最大位置は、均等分布の最大値から、転写産物長またはjmaxで除した転写産物長の、例えば、0%〜50%、好ましくは10%〜40%ずれてもよい。
このように、ステップd)では正値を用いて転写産物の全長をカバーするために、遺伝子座標において転写産物に関する確率サブ関数を配置するか、またはシフトさせることができる。
好ましい実施形態において、本方法は、少なくとも1つの転写産物、好ましくはmRNAまたはcDNAの配列リードを確定するステップを備え、前記リードは、前記転写産物フラグメントシークエンシングデータを提供するために前記転写産物のフラグメントの配列を備える。確定ステップは、当該技術分野で知られた任意の方法、例えば、PCRシークエンシングによって行うことができる。かかる方法は、マクサム−ギルバート・シークエンシング、チェーンターミネーション法、ショットガン・シークエンシング、ブリッジPCR、大規模並列処理特徴シークエンシング(MPSS:massively parallel signature sequencing)、ポロニー・シークエンシング、ピロシークエンシング、イルミナ(ソロクサ)シークエンシング、SOLiDシークエンシング、イオン半導体シークエンシング、DNAナノボール・シークエンシング、ヘリスコープ一分子シークエンシング、一分子リアルタイム(SMRT:single molecule real time)シークエンシング、ナノポアDNAシークエンシング、ハイブリダイゼーションによるシークエンシング、質量分光法を用いたシークエンシング、マイクロ流体サンガー・シークエンシング、顕微鏡法ベース技術、RNAPシークエンシング、インビトロウイルス(in vitro virus)高スループット・シークエンシングを含む。
本発明の方法は、代わりにまたは加えて、例えば、予め用意された配列データを用いる場合に、本発明の方法を行うことが可能な演算装置へ転写産物フラグメントシークエンシングデータを入力するステップを備えてもよい。前記演算装置は、次に、入力したシークエンシング・データを用いて存在比情報に到達するために本発明の方法を行うことになる。
存在比情報は、例えば、以下にさらに記載されるように、ビデオスクリーン、プリンタまたはコンピュータ可読媒体などの出力装置上に表示できる。
ステップf)におけるフィッティングは、期待値最大化アルゴリズムによって行うことができる。期待値最大化アルゴリズムは、デンプスターら、1977、に記載されている。もちろん、任意の他の最大化または最小化アルゴリズムを適用して本発明のサム関数が包絡曲線にフィッティングするようにできる。基本的に、重みアルファiおよびベータi,j−ならびに随意的に、確率サブ関数を定義する任意のさらなるパラメータは、サム関数(モデル)とカバレッジ包絡曲線(フラグメント配列に基づく実際のデータ)との間の差を、例えば、確率サブ関数のパラメータを変化させることによって最小化するように修正される。特に、算出ステップe)およびf)の繰り返しによる数回の反復後に、最小値を見出すべくかかる最小化または変更を行うために多くのアルゴリズムが存在する。
確率サブ関数のかかる追加のパラメータは、例えば、半値全幅値、または、特にガウス関数の場合には、標準偏差値(シグマi,j)である。これらは、関数幅のパラメータである。好ましくは、転写産物iに関する確率サブ関数ごとに、確率サブ関数の最大値とは別のいずれかの遺伝子座標における関数幅(例えば、好ましくは半値全幅値または標準偏差)は、およそ同一であり、好ましくは同一である。代わりに、幅対最大値の比が転写産物iに関する確率サブ関数ごとにおよそ同一であり、好ましくは同一である。これは、転写産物の異なる確率分布関数間のベータについて上述したのと同様に関数幅を「連結する(“ties”)」。
一般に、好ましい実施形態において、フィッティング・ステップf)の間にひとつの転写産物の確率サブ関数の群内および/または複数の転写産物に対して同じ識別子jをもつ確率サブ関数の群内で確率サブ関数の少なくとも1、2、3、4、5、または6個のパラメータを連結し、例えば、互いに組み合わせて修正する。
最後のステップは、フィッティングの収束である。収束判定基準は、オペレータによってセットできる。これは、パラメータαもしくはβi,jのうちのいずれか1つまたはそれらの組み合わせ、例えば、すべてのαsもしくはすべてのβs、またはすべてのαsおよびβsの最大値の調整、あるいは、例えば、実施例の式(15)のような、確率分布関数における最大値の調整とすることができる。例えば、収束判定基準は、式(21)による対数尤度の増加が0.5未満である場合とすることができる。所望の品質を達成するために、オペレータによって任意の収束判定基準を選択できる。
プリファーメントにおいて、本発明の方法を他のバイアス低減方法とさらに組み合わせる。例えば、ステップe)で得た推定転写産物量をバイアス係数によってさらに重み付けし、それによって重み付けした推定転写産物量を得る。このバイアス係数は、ある転写産物が湿式化学的な転写産物またはフラグメント生成の間に増加または減少することを考慮に入れることができる。いくつかのフラグメント、例えば、Cで開始するフラグメントは、過剰発現することがあり、好ましくは1未満のバイアス係数によって重み付けし、それによって重み付けした推定転写産物量をステップe)の推定転写産物量に比べて減少させる。Cで開始するフラグメントが過剰発現する化学的な理由は、プライマーの動態にある、すなわち、GまたはTで開始するテンプレートと比較して、Cで開始するテンプレートを用いるとプライマーがより良好にアニールする。それゆえに、Gおよび/またはTで開始するフラグメントは、Cで開始するフラグメントのバイアス係数より大きいバイアス係数によって重み付けするとよい。一般に、当業者は、任意の多核酸特性に依存しうる系統的なバイアスが存在する任意のパラメータに関してかかるバイアス係数を取得し、適合したバイアスを含めてステップ3)の結果を相応に重み付けする(an weigh the result of)ことができる。
本発明は、さらに、本発明による方法をコンピュータ上で行うため、または本発明による方法をコンピュータによってサポートするためのコンピュータプログラム製品を備えたコンピュータ可読メモリ装置に関し、特に、ステップa)、b)、b2)、c)、d)、e)、f)およびg)のいずれか1つをコンピュータ上で行うことができる。本発明に関する任意の方法またはステップをコンピュータに実装した方法として行うことができる。配列リードを確定する通常は湿式化学的なステップも、例えば、自動化または半自動化配列リーダを制御してそこからデータを得るためにコンピュータによって補助されてもよい。コンピュータプログラム製品またはメモリ装置にはサンプルからショートリードを得るリード生成コンポーネント、例えば、シーケンサー、好ましくは、コンピュータ・コンポーネントを備えるシーケンサーがさらに設けられてもよい。例えば、コンピュータ可読媒体は、磁気記憶装置(例えば、ハードディスク、フロッピディスク、磁気ストリップ、...)、光ディスク(例えば、コンパクトディスク(CD:compact disk)、デジタル多用途ディスク(DVD:digital versatile disk)、スマートカードならびにフラッシュメモリ装置(例えば、カード、スティック、キーデバイス、...)を含みうるが、これらには限定されない。
本発明を以下の図面および例によってさらに説明するが、本発明のこれらの実施形態に限定されることはなく、各要素を本発明の任意の他の実施形態と組み合わせることができる。特に、本発明の方法におけるステップを記載または定義するために、以下に示す式のいずれか1つを別々に、個別に、または組み合わせて用いることができる。
cDNA生成、フラグメンテーション、シークエンシング、配列リードのリファレンス配列へのマッピング、およびフラグメント配列のマッピング・データセットの解析のステップに従うNGSワークフローを示す。 2つの転写産物の混合カバレッジ・ヒストグラムを示す。 参考図:Cufflinksモデルによって仮定されたフラグメント開始点の分布を示す。 参考図:Cufflinksモデルによって仮定されたカバレッジを示す。 Uqcrq遺伝子上の転写産物リードのカバレッジを示す。 遺伝子座標変換を示す。平均確率p(avg)(r)のスケーリングおよびシフト・バージョンによる全確率p(total)(r)の分解;全存在量包絡線(上部)、転写産物1に関する存在量(中央)、転写産物1に関して修正した遺伝子カバレッジを示すためのジャンクションの除去(シフト)およびスケーリングによる転写産物1に関する初期遺伝子カバレッジの変換(下部)を示す。 遺伝子座標上の存在比が等しい(それぞれが全体の1/3)3つのモデル転写産物のエクソン構造およびジャンクションを示す。 図7の転写産物に関するジャンクションの除去(シフト)後の転写産物座標における開始点確率分布p(s(r)|t=i)を示す。 図7の転写産物に関するゲノム座標における開始点確率分布p(s(r)|t=i)を示す。 i=1、2、3に対して存在比α=1/3が等しい図7および8の転写産物に関する開始点の全確率分布を示す。 図7の転写産物の拡張した開始および終結点を示す。モデルは、スケールおよびシフト・パラメータのラムダiおよびニューiを用いて正しい開始および終結点分布を推定する。 シグマの連結を示す:シグマ、確率サブ関数における随意的なさらなる標準偏差(幅)パラメータを転写産物iに関する各確率サブ関数内で一定に保ち、示されるのは、サム関数(下部)をもつ2つの転写産物1(中央)および2(上部)である。破線は、欠落した確率サブ関数であり、欠落していなければ1つの転写産物の遺伝子カバレッジ範囲にわたって均等に分布した確率サブ関数(ここではガウス関数)からなるサム関数をモデリングするための確率サブ関数である。 図10における全フラグメント開始点分布からサンプリングした開始点のヒストグラムを示す。 サンプリングしたフラグメント長のヒストグラムを示す。 混合ガウシアンの成分(確率サブ関数)(点線)、実線:転写産物に関する確率分布関数を示す。 1tie−Mixモデルに対する重み係数アルファの収束を示す。 1tie−Mixモデルに対する重み係数ベータの収束を示す。 1tie−Mixモデルに対する最終的な重み係数ベータを示す。 1tie−Mixモデルに対する転写産物2の最終的な確率分布関数(pdf:probability distribution function)[p(s(r)|t=2)]を示す。 1tie−Mixモデルに対するサム関数[p(total)(s(r))]の収束を示す。 アルファ(3)=0.2を用いた、収束後の1tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 アルファ(3)=0.4を用いた、収束後の1tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 アルファ(3)=0.6を用いた、収束後の1tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 アルファ(3)=0.8を用いた、収束後の1tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 正しいおよび誤った転写産物アノテーションのエクソン構造を示す。 5tie−Mixモデルに対するアルファの収束を示す。 5tie−Mixモデルに対するベータの収束を示す。 5tie−Mixモデルに対するミュー(確率サブ関数jをシフトさせるためのパラメータ)の収束を示す。 5tie−Mixモデルに対するシグマ(確率サブ関数jのための幅パラメータ)の収束を示す。 5tie−Mixモデルに対するニュー(転写産物iに関する確率分布関数のためのシフトまたは並進係数)の収束を示す。 5tie−Mixモデルに対するラムダ(転写産物iに関する確率分布関数のためのスケーリング係数)の収束を示す。 転写産物1および5tie−Mixモデルに対する確率分布関数p(r|t=i)の収束を示す。垂直実線は、転写産物の正しい開始および終結点を示す。 転写産物2および5tie−Mixモデルに対する確率分布関数p(r|t=i)の収束を示す。垂直実線は、転写産物の正しい開始および終結点を示す。 転写産物3および5tie−Mixモデルに対する確率分布関数p(r|t=i)の収束を示す。垂直実線は、転写産物の正しい開始および終結点を示す。 5tie−Mixモデルに対するサム関数p(total)(r)の収束を示す。 アルファ(3)=0.2を用いた、収束後の5tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 アルファ(3)=0.4を用いた、収束後の5tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 アルファ(3)=0.6を用いた、収束後の5tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファi(存在量、全体のうちの比率)を示す。 アルファ(3)=0.8を用いた、収束後の5tie−Mixモデル、Cufflinksモデルに対する推定および真のアルファ(存在比、全体のうちの比率)を示す。 アルファ(3)=0.2を用いた、収束後の5tie−Mixモデル、1tie−Mixモデルに対する推定および真のアルファを示す。 アルファ(3)=0.4を用いた、収束後の5tie−Mixモデル、1tie−Mixモデルに対する推定および真のアルファを示す。 アルファ(3)=0.6を用いた、収束後の5tie−Mixモデル、1tie−Mixモデルに対する推定および真のアルファを示す。 アルファ(3)=0.8を用いた、収束後の5tie−Mixモデル、1tie−Mixモデルに対する推定および真のアルファを示す。
実施例1:NGS方法への導入
元のサンプルにどのmRNA分子が存在したかを推測するために、バローズ・ホィーラー変換のような既知の方法を用いてNGSリードをリファレンスゲノム上へマッピングする。これは、リードごとにスプライス部位についての情報を潜在的に含んだ遺伝子座標のセットを与える。マッピング・プロセスを図1に視覚化する。ここではシーケンサーによって作り出されたショートリードの位置がリファレンスゲノム内で同定される。このプロセスをシーケンサーによって生成されたすべてのリードに対して繰り返し、図1において黒く塗りつぶした曲線下の短い直線によって示されるような、多数の短い配列を遺伝子軸上に生じさせる。マッピングしたリードを組み合わせた統計データは、遺伝子軸上に異なるタイプのヒストグラム(すなわち、異なるタイプのカバレッジ包絡曲線)をもたらす。図1における黒く塗りつぶした曲線は、例として、カバレッジ(包絡線)を示す。遺伝子軸上の所定の位置における曲線の値は、その位置をカバーするリードの数である。フラグメント開始点ヒストグラム、別のタイプのカバレッジ包絡曲線のような他のヒストグラムも同様に調べる。各遺伝子位置におけるこのヒストグラムの値は、この位置で開始するリードの数である。本発明の方法は、ヒストグラムの特定のタイプには依存せず、遺伝子軸上および遺伝子座におけるフラグメントのセット上の両方で任意のタイプのヒストグラムに適用可能である。
遺伝子のような遺伝子座は、それぞれがそれら自体のmRNAを生成する多数の異なる、おそらく重なった領域を含むことができる。かかる領域は、転写産物と称される。遺伝子座におけるヒストグラムh(locus)(r)は、それゆえに、遺伝子座における各個別の転写産物と関連付けられた混合ヒストグラム、すなわち
Figure 0006423426
であり、ここでh(r|t=i)は、転写産物t=iと関連付けられたヒストグラムであり、iは転写産物の名称、例として、Apoeである。図2は、図1におけるヒストグラムの2つの転写産物のヒストグラムへの可能な分解を示す。転写産物1は、遺伝子座の全長にわたって広がり、転写産物2の左側で開始する。加えて、転写産物1は、2つのエクソンおよび1つのジャンクションを有する。他方、転写産物2は、転写産物1の第1のエクソンの末端で終結する単一のエクソンを有する。図2における黒く塗りつぶした曲線は、転写産物1のヒストグラムであり、その上の曲線から転写産物1のヒストグラムを差し引いたものが、(生のフラグメントシークエンシングデータからは知られない)転写産物2のヒストグラムである。転写産物t=iの重みαは、
Figure 0006423426
によって与えられる。これは、全ヒストグラムhlocus(r)中で転写産物t=iに属するカウントの割合である。hlocus(r)が、例として、フラグメント開始点のヒストグラムであれば、αは、転写産物t=iによって生成されたフラグメントのパーセンテージである。この場合、αは、転写産物t=iの存在比と称され、mRNAサンプル内の転写産物t=iの濃度と直接に相関する。図2において、転写産物の重みは、hlocus(r)下の全面積に対するヒストグラムh(r|t=i)下の面積の割合である。両方の転写産物に対してヒストグラムの面積がおよそ同じなので、転写産物ごとの重みは、約0.5である。従って、各転写産物は、遺伝子座における位置をカバーする約50%のチャンスを有する。
式(1)におけるヒストグラムhlocus(r)の分解は、通常、知られておらず、αの導出は、精緻な数学的機械を必要とする。分解(1)を見出す問題を数学的に扱いやすくするために(1)を確率論的枠組み、すなわち、
Figure 0006423426
に再定式化し、ここでplocus(r)は、遺伝子座においてフラグメントrを観測する全確率であり、p(r|t=i)は、転写産物t=iを所与として、遺伝子座においてフラグメントrを観測する確率であり、αは、遺伝子座において転写産物t=iを観測する確率である。合計して1になるように確率分布plocus(r)およびp(r|t=i)を正規化することによってそれらをヒストグラムから導出する場合、(3)が(1)および(2)の直接の結果である。以下に展開する方法が次世代シークエンシングの分野だけでなく、一般的な確率論的設定において適用可能であるという事実を強調するために、下付き文字「locus」を「total」によって置き換えることにする。従って
(locus)(r)=p(total)(r) (4)
である。
転写産物確率αの推定においては、転写産物分布の形状が基本的に重要である。しかしながら、Cufflinks(非特許文献1)のような現在の方法は、これらの分布を正確にモデリングしない。その代わりに、フラグメント開始点分布に関して、Cufflinksは、フラグメント長の分布のみに依存するモデルを用いる。Cufflinksにおけるフラグメント長のデフォルト・モデルは、平均値が200および標準偏差が80のガウシアンである。Cufflinksにおける他の仮定と併せて、これが示唆するのは、200bpのリード長および3000bpの転写産物に対してフラグメント開始点分布および転写産物のカバレッジが図3および4に示す関数によってモデリングされることである。
比較として、図5は、図4においてCufflinksによって仮定された分布から著しくずれたSquareライブラリプレップのカバレッジを示す。カバレッジにおける転写産物の5’および/または3’末端へのバイアスは、現在のNGSライブラリの間で共通の特徴であり、Cufflinksの仮定はそれゆえに妥当でない。結果として、Cufflinksによって推定される転写産物量および濃度は、それらの真の値とは実質的に異なる可能性がある。本明細書に記載する方法は、転写産物分布およびそれらの確率を同時に推定し、それゆえに転写産物量の推定においてかなりより正確である。
遺伝子位置において観測される分布は、どの転写産物が遺伝子位置に含まれるか、およびそれらの確率についてしばしば視覚的な手がかりを呈示する。再び、図2における例を考える。転写産物の平均分布が図6における分布と同様の形状を有し、転写産物確率p(r|t=i)がスケーリングおよびシフトによってpavg(r)から近似的に導出されることが分かっていれば、図2における重ね合わせの成分を見出すタスクは、全確率分布ptotal(r)において平均分布pavg(r)の形状と同様の形状を探すことによって解決できる。図6ではこのプロセスを視覚化し、pavg(r)のスケーリングおよびシフト・バージョンの重ね合わせによるptotal(r)へのベスト・フィットが図2におけるのと同様の重ね合わせに繋がり、従って転写産物確率αの正しい推定をもたらすことを示す。
p(r|t=i)は、pavg(r)のスケーリングおよびシフト・バージョンなので、それらは、
p(r|t=i)=pavg(λr−ν) (5)
によって与えられ、ここでλおよびνは、転写産物t=iのスケールおよびシフト・パラメータである。これが意味するのは、転写産物t=iがこの転写産物に固有の2つのパラメータλおよびνのみを有することである。すべての他のパラメータ、すなわちpavg(r)のパラメータは、異なるp(r|t=i)間で連結される。これは、p(r|t=i)のパラメータを然るべく連結することによってpavg(r)のような異なる転写産物に共通の構造を推定できるという、以下に記載する方法の中心となる考えを際立たせる。以下では、p(r|t=i)を混合関数によってモデリングすることになり、それゆえに(3)においてptotal(r)から分解されるのは、混合関数のうちの混合関数である。読み易くするために、このモデルを本発明のモデルと呼ぶことにする。以下のセクションは、Mixモデルとも称する本発明のモデルを一般的に紹介し、そのいくつかの変形を考察する。加えて、本発明のモデル、Mixモデルが確率分布P(r|t=i)を確実に推定できて、Cufflinksモデルよりかなり正確なαに関する推定値を生み出すことを実験が示す。
実施例2:座標変換
2.1.ゲノムにおける位置および転写産物座標における位置
遺伝子軸は、生物に関して配列決定された塩基対の配列であり、通常、0または1で開始し、生物の複雑さによっては数百万塩基対の長さにまで達しうる。加えて、遺伝子軸は、通常、染色体またはコンティグへさらに分割される。遺伝子軸を図5の上部に視覚化し、このグラフィックは、およそ塩基対53,242,500と53,244,200との間の染色体11上のゲノムの選択を表す。転写産物は、通常、遺伝子軸上のエクソンの配列(エクソン,...,エクソン)として定義し、i番目のエクソンは、s(エクソン)で開始し、e(エクソン)で終結する遺伝子軸上の区間[s(エクソン),...,e(エクソン)]である。2つの連続するエクソン間のギャップ[e(エクソン)+1,s(エクソンi+1)−1]をイントロンと称し、イントロンに先行する最後のヌクレオチドからイントロンの後に続く最初のヌクレオチドへの接続をジャンクションと称する。転写産物の3つの例を図7に示す。この図上のx軸は、1000から5500に及ぶ遺伝子軸を示し、一方でy軸は転写産物idを示す。このように、転写産物1は、位置1000で開始し、位置2500で終結する単一のエクソンからなる。それに対して、転写産物2は、エクソン配列([1500,3200],[4000,5000])によって定義され、一方で転写産物3は、エクソン配列([2700,3200],[4000,5500])よって定義される。従って、転写産物2および3は、図7では破線矢印で示す同じジャンクションを有する。以下では、転写産物の長さをl(t)によって示すことにする。従って、l(転写産物1)=1501、l(転写産物2)=2702およびl(転写産物3)=2002である。図7におけるエクソン配列および転写産物の長さをさらに表1にまとめる。
Figure 0006423426
転写産物のエクソン内にある遺伝子軸上の点は、この転写産物の座標系内でも参照できる。転写産物座標は、転写産物の開始からの距離から先行するイントロンの長さを差し引いたものであり、それゆえに1とl(t)との間の数である。このように、転写産物のエクソンeにおける位置Pに対して、転写産物およびゲノム座標Ptransは、次のように変換できる。
Figure 0006423426
例として、図7の遺伝子座標における位置4500を考える。この位置は、第2および第3の両方の転写産物のエクソン内にある。転写産物2では、この位置の転写産物座標は、4500−1500+1−801=2200であり、一方で転写産物3では、転写産物座標は、4500−2700+1−801=1000である。位置4500は、転写産物1のエクソン内にはないので、この位置を転写産物1のための転写産物座標へ変換することはできない。転写産物のエクソン内にある遺伝子軸上の位置は、転写産物と適合すると称することになる。転写産物と適合する遺伝子(例えば、ゲノム)座標の転写産物の座標への変換は、Tによって示すことになる。Tが関連付けられる転写産物は、文脈から明らかになるであろう。転写産物座標における確率分布ptrans(Ptrans|t=i)は、遺伝子またはゲノム座標における確率分布へ次のように変換できる。
Figure 0006423426
表記法を簡略化するために、以下では都合がよいときはいつでも、「genome」および「trans」を落とすことにする。図8および9は、転写産物座標およびゲノム座標における確率分布の間の関係を示す。図8は、図7における3つの転写産物のそれぞれに対してスケーリングした確率分布を示す。混合関数における成分としてのそれらの使用を予想して、各確率分布に係数1/3を乗じた。実線は、3つの転写産物のうちで最も短い転写産物1に属し、1501塩基対の長さを有する。それに対して、転写産物2および3は、2002および2702塩基対長であり、転写産物座標におけるそれらの確率分布は、それゆえに、1からそれぞれ2002および2702へ及ぶ。
図9は、ゲノム座標における転写産物確率分布を示す。ここでは転写産物の異なる開始点およびジャンクションを考慮に入れた。
ゲノム座標における転写産物確率の和をとると、図10に示す対象となる遺伝子座全体における位置に関する全確率分布ptotal(r)を得る。図10における曲線は、NGSデータから導出した遺伝子座における分布の平滑化バージョンと同様である。後のセクションでは、遺伝子座におけるフラグメントの開始点と解釈されるサンプルを生成するために、図10におけるのと同様の分布を用いることになる。次に、本発明のモデルの確率密度関数のパラメータをトレーニングするために、これらのサンプルを用いることになり、結果として生じたp(r|t=i)およびptotal(r)が図9および10における曲線の正確な推定値であり、続いて重み係数αとしての存在比をもたらすことを示すことになる。
2.2 ゲノムおよび転写産物座標におけるフラグメント
フラグメントは、転写産物内の連続的な配列である。転写産物と同様に、フラグメントrは、それゆえに遺伝子軸上の区間の配列、r=(rint,...,rint)からなり、ここでrint=[s(rint),e(rint)]は、開始s(rint)および終結e(rint)をもつi番目の区間である。フラグメントrは、その開始および終結が転写産物のエクソン内に位置し、かつ隣接する区間の間のギャップ[e(rint)+1,s(rinti+1)−1]が転写産物のイントロンであれば、すなわち、いくつかのi≦kに対して、
s(int)∈exoni (9)
e(int)∈exonk (10)
であり、
[e(int)+1,s(intk+1)−1]∈{[e(exon)+1,s(exoni+1)−1]:i=1,...,N−1}∀k=1,...,K−1 (11)
であれば、その転写産物と適合する。
フラグメントrが転写産物と適合すれば、それを転写産物座標における区間[T(s(rint)),T(e(rint))]へ変換できる。フラグメントの区間の間のギャップは、それゆえに転写産物座標への変換において除去される。前セクションにおけるように、フラグメントrの転写産物座標への変換は、Tによって示すことになる。例として、フラグメント([2000,3000],[4000,4500])および図7における3つの転写産物を考える。このフラグメントの開始および終結は、それぞれ転写産物2の第1および第2のエクソン中にある。同時に、フラグメントのギャップ[3001,3999]は、転写産物2のイントロンと合致する。このように、フラグメントは、転写産物2と適合し、転写産物座標における区間[501,2200]へ変換される。それに対して、転写産物1および転写産物3に対しては、フラグメントの開始または終結のいずれかがそのエクソンの1つの内にはなく、フラグメントは、それゆえにこれらの転写産物のいずれとも適合しない。
転写産物座標におけるフラグメント上の確率分布ptrans(rtans|t=i)は、それゆえにゲノム座標におけるフラグメント上の確率分布へ次のように変換できる。
Figure 0006423426
前の通り、「genome」および「trans」の下付き文字は、都合が良いときはいつでも落とすことにする。その開始および終結を用いる代わりに、区間をその開始s(r)および長さl(r)によって表すこともできる。これは、転写産物座標における確率分布の次の因数分解を可能にする。
Figure 0006423426
フラグメント長の包括的な分布は、通常、ライブラリのバイオアナライザ・トレースから推測できるので、これらの因数分解は、NGSデータにとって便利である。(13)における因数分解は、Cufflinksによって用いられ、Cufflinksは、所定の長さのフラグメントを転写産物上のどこにでも等しい確率で配置できることを追加的に仮定する。対照的に、セクション4の実験において、Mixモデルは、(14)における因数分解を用い、それによってフラグメント開始点の転写産物特有のばらつきのより効率的な推定が可能になる。
実施例3:転写産物確率の推定および転写産物特有の確率分布
以下に記載するモデルは、混合関数を混合した関数を用い、それゆえにMixモデルと称することにする。
3.1 Mixモデルの数学的基礎
以下では、rは、フラグメントおよび位置の両方を表すことができる。しかしながら、便宜上、rを常にフラグメントと呼ぶことにする。遺伝子座において特定のフラグメントrを観測する確率ptotal(r)は、転写産物に対してフラグメントを観測する確率に、その転写産物がフラグメントを生成する確率を重み付けしたものの和である。従って、ptotal(r)は、次の混合確率分布によって与えられる。
Figure 0006423426
セクション2において記載したように、rがt=iと適合すればp(r|t=i)=ptrans(T(r)|t=i)であり、そうでない場合にはp(r|t=i)=0である。本方法は、確率分布ptrans(r|t=i)が混合確率分布、すなわち、
Figure 0006423426
であることを仮定する。
ここでMは混合成分の数であり、ptrans(r|t=i,b=j)は確率分布である。βi,j≧0は、和が1になる重みであり、すなわち、
Figure 0006423426
である。
前の通り、変数tが転写産物を表すものとし、一方で新たに導入した変数bは、一般に確率サブ関数とも呼ばれる「ビルディングブロック」を表すものとする。このモデルでは、フラグメントrを所与として転写産物t=iおよびブロックb=jが観測された事後確率を算出することが可能である。この事後確率は、
Figure 0006423426
によって与えられる。
フラグメントrが転写産物t=iと適合しなければ、p(t=i,b=j)=0、従ってp(r|t=i,b=j|r)=0であることに留意すべきである。tおよびbに関する事後確率は、
Figure 0006423426
によって与えられる。
そのうえ、モデルは、ptotal(r)のいくつかのパラメータが異なる転写産物(確率分布関数)およびブロック(確率サブ関数)の間で連結されることを仮定する。これは、混合重みβi,jと、確率分布ptrans(r|t=i,b=j),i=1,...,N,j=1,...,Mの確率サブ関数のセットを確定する任意のパラメータΘとの両方を含むことができる。連結は、組み合わせたすべての転写産物およびブロックに対して適用されてもよく、または転写産物およびブロックの群内で適用されてもよい。確率分布ptrans(r|t=i)のパラメータを連結することは、ptrans(r|t=i)間のある類似性を示唆するため、パラメータ連結は、パラメータ連結のタイプによって示唆されるような類似性を呈示する転写産物に対してのみ適用されるべきである。例として、導入において提案したように、ptrans(r|t=i)が単一のpavg(r)からスケーリングおよびシフトによって導出されたことをパラメータ連結が示唆するならば、パラメータ連結は、ptrans(r|t=i)が相互のスケーリングおよびシフト・バージョンである転写産物に対してのみ適用されるべきである。いくつかのライブラリプレップでは、後者は、ある範囲の長さをもつ転写産物に対してのみ有効である。それゆえに、その長さが異なる範囲内にある転写産物には、p(r|t=i)が相互のスケーリングおよびシフト・バージョンであることを必要とするパラメータ連結を適用すべきではない。
遺伝子領域におけるフラグメントrのデータセットRに関して、データセットRの尤度をモデルptotal(r)の下で最大化することによって、Mixモデルの転写産物特有の分布p(r|t=i)および転写産物確率αを推定する。パラメータα、β,j、Θの尤度関数は、それゆえに
Figure 0006423426
によって与えられる。
(21)の最大化は、多数の異なる最適化方法を用いて近似解を見出すことができる制約付き非線形最適化問題である。以下で用いる最適化方法は、期待値最大化(EM:expectation maximization)アルゴリズムである。EMアルゴリズムは、尤度関数の極大を見出す反復法である。大域的最適に近い極大を得るために、多分必要なのは、モデルパラメータに対して異なる初期化を用いて、EMアルゴリズムを数回試みることである。次に、最大尤度をもたらす結果が最適化問題の解として選ばれる。EMアルゴリズムは、ptrans(r|t=i)の形状またはそれらのパラメータの連結についての仮定なしに、αを推定するために用いることができる。Cufflinksでも用いられる、αに関するEM更新式は、
Figure 0006423426
によって与えられる。
ここで|R|は、データセットRにおけるフラグメントの数であり、α (n+1)は、n+1回目の反復後のαに関する推定値であり、p(n)(t=i|r)は、フラグメントrを所与として、n回目の反復からのパラメータを用いて推定した転写産物t=iを観測する事後確率である。この場合、最適化問題は凹なので、異なる初期化を用いてEMアルゴリズムを繰り返す必要はない。凹問題では、EMアルゴリズムが常に収束する単一の大域的最適が存在する。モデルパラメータは、モデルptotal(r)の観測データRへのフィットを最適化することによって推定する。しかしながら、最終目標は、ptrans(r|t=i)への良好なフィット、延いては転写産物確率αの良好な推定値を見出すことである。ptotal(r)の最適化それ自体は、αの良好な推定値を示唆しない。ptrans(r|t=i)のパラメータが適切に連結されている場合に限り、ptotal(r)の最適化は、転写産物確率αの良好な推定値をもたらすであろう。次のセクションは、異なる連結方策を用いたMixモデルのいくつかの変形を紹介する。セクション4ではそれらの変形のうちの2つを調べて、スケーリングおよびシフトした転写産物確率分布p(r|t=i)の場合、2つの変形がCufflinksモデルよりかなり正確なαに関する推定値をもたらすことを示すことになろう。
3.2 Mixモデルの変形
先のセクションにおけるMixモデルの数学的基礎は、かなり一般的である。このセクションは、多くの具体的に実現したMixモデルを考察して、その様々な利点および限界を際立たせる。
3.2.1 単一のパラメータ群内の連結
このセクションにおいて考察する最も簡単なMixモデルは、異なる転写産物間のi=1,...,Nに対して重みβi,jのみを連結する。従って、このモデルのパラメータのセットは、{α,β:i=1,...,N,j=1,...,M}であり、ptrans(r|t=i)は、
Figure 0006423426
によって与えられる。
このMixモデルは、単一のパラメータ群内のパラメータ、すなわちβのみを連結するので、以下ではこのモデルを1tie−Mixと呼ぶことにする。1tie−Mixモデルの下でフラグメントrを観測する確率は、
Figure 0006423426
によって与えられる。
式(24)では和の順序を交換することができて、
Figure 0006423426
である。前述のように、(26)における被加数は、フラグメントrが転写産物t=iと適合しなければゼロである。p(r|b=j)が確率分布なので、式(25)は、αを所与として、βを推定する問題がαの推定と概念的に同じであることを示す。このように、EMアルゴリズムを適用することができて、βに関する次の更新式を与える。
Figure 0006423426
これは、式(22)および(27)の反復的な適用によって、1tie−Mixモデルのαおよびβの両方を同時にトレーニングできることを示唆する。Cufflinksモデルと比較して、1tie−Mixモデルの尤度関数が凹ではないため、原理的に、1tie−Mixモデルに対するEMアルゴリズムは、αおよびβの初期化に依存して異なる解へ収束する可能性がある。しかしながら、セクション4における実験では満足すべき結果へ収束するのにαおよびβの単一の初期化で十分であった。データをフィッティングするためには、1tie−Mixモデルに係る確率分布ptrans(r|t=i,b=j)を選ばなければならない。従って、データの構造について予備知識が必要である。観測したptrans(r|t=i)が異なるt=iに対する相互のスケーリング・バージョンであれば、ptrans(r|t=i,b=j)も同様に異なるt=iに対するスケーリング・バージョンでなければならない。加えて、同じb=j、しかし異なるt=iに対して、ptrans(r|t=i,b=j)は、同じスケーリング係数βによって調節される転写産物座標系の領域内になければならない。後者は、転写産物の正しい開始および長さが分かっていれば達成できる。この場合、ptrans(r|t=i,b=j)をt=iの転写産物座標系に沿って等距離の位置に配置できる。正しい開始および長さが分からなければ、ptrans(r|t=i,b=j)をどのように置くかが直ちに明確ではない。次のセクションにおけるモデルは、転写産物の正しい開始および長さをデータから知ることによってこの制限を回避する。
3.2.2 5つのパラメータ群内の連結
先のセクションにおけるモデルは、転写産物の正しい開始点および長さの知識に依存する。このセクションは、ptrans(r|t=i,b=j)を自動的に配置およびスケーリングするモデルを考察する。このモデルは、5つのパラメータ群内のパラメータを連結するので、以下では5tie−Mixモデルと称することにする。5tie−Mixモデルは、分布ptrans(r|t=i,b=j)に対してガウシアンを用い、その内部パラメータ、すなわち、それらの平均値μi,jおよび標準偏差σi,jは、パラメータのセット
Figure 0006423426
から導出する。特に、μi,jおよびσi,jは、
Figure 0006423426
によって与えられる。
Figure 0006423426
転写産物t=iおよびブロックb=jに関するpdfは、それゆえに
Figure 0006423426
によって与えられる。前の通り、ブロックjに対してβi,jを転写産物i=1,...,N間で連結し、従ってβi,j=βである。確率分布
Figure 0006423426
は、転写産物t=iに関するpdf p(r|t=i)を得るためにνによってシフトさせてλによってスケーリングした、遺伝子座における転写産物の平均pdf pavg(r)として解釈でき、ここでgμj,σj(r)は、平均値μjおよび標準偏差σjをもつガウシアンである。モデルの能力を制限することなく、選択した転写産物に関してλ=1およびν=0とセットすることが可能である。式(32)におけるpdfは、転写産物t=iの座標系ではなく実際の連続空間における確率分布である。従って、結果として生じるpdf p(r|t=i)およびptotal(r)も連続的なpdfである。この点を強調するために、以下ではこれらの確率分布を
Figure 0006423426
によって示し、
Figure 0006423426
の重みを
Figure 0006423426
によって示すことになる。これらの連続的な確率分布から、転写産物t=iに関して
Figure 0006423426
を、可能なフラグメントF(t)のセットに制限して、それらの値を和が1になるように、すなわち、
Figure 0006423426
に正規化することによって、ゲノムおよび転写産物座標におけるptotal(r)およびptrans(r|t=i)を算出することができ、ここで(33)の分母の和における和集合は、遺伝子座におけるすべての転写産物に及ぶ。次に、α
Figure 0006423426
から次のように導出できる。
Figure 0006423426
式(35)は、連続的なモデル重みアルファ(i,R)のリスケーリングになる。リスケーリングの効果は、ゆっくりと変化する確率分布ptrans(r|t=i)、およびすべての転写産物がかなりの長さを有する遺伝子座に対してはあまり顕著ではない。従って、後で記載する実験ではリスケーリング式の効果を無視できる。遺伝子座およびptrans(r|t=i)がこれらの必要条件に適合する状況では、それゆえに転写産物確率αとしてアルファ(i,R)を直接に用いることができ、セクション4においてこれを行うことになる。λは、転写産物の異なる長さを考慮するスケーリング・パラメータであり、一方でνは、転写産物開始点の転写産物アノテーションとは異なる相対的なオフセットを考慮する。これら2つのパラメータは、転写産物アノテーションにおける誤った開始点および長さを補正できるため、転写産物アノテーションから開始および終結の定義を一斉に除去することが可能である。例として、すべての転写産物の開始点を遺伝子座における転写産物のすべての開始点より小さい同じ値にセットできる。同様に、すべての転写産物の終結点を遺伝子座における転写産物のすべての終結点より大きい同じ値にセットできる。転写産物アノテーションのこの拡張を図11に示す。転写産物アノテーションを拡張することは、転写産物開始または終結と適合しなかったためにこれまで転写産物に対して無効であったフラグメントがこの転写産物に対して今や有効になるという効果を有する。図11では、例として、転写産物2に対して有効なすべてのフラグメントが転写産物3に対しても有効である。加えて、イントロンに架からないか、または入らないすべてのフラグメントは、すべての3つの転写産物に対して有効である。
このセクションにおけるモデルのパラメータは、EMアルゴリズムを用いて効率的にトレーニングできる。平均値、分散およびオフセット・パラメータに関するEM更新式を以下に示す。
Figure 0006423426
スケール・パラメータλに対してEMアルゴリズムの補助関数の微分を算出すると、以下の2次式が得られる。
Figure 0006423426
ほとんどの実際的な環境では、式(39)は、1つの正および1つの負の解を有する。λは、スケール・パラメータなので正でなければならず、それゆえに(39)の正の解のみが対象となる。セクション4における実験は、5tie−Mixモデルが、実際、不正確な転写産物アノテーションを補正でき、この場合、正しい転写産物アノテーションに依存するモデルよりはるかに正確なαに関する推定値をもたらすことを示す。
3.2.3 2つのパラメータ群内の連結
前モデルのように、このセクションにおけるモデルは、ブロックjに対してβi,jを転写産物にわたって連結し、それゆえにβi,j=βである。加えて、このセクションにおけるモデルは、5tie−Mixモデルからの
Figure 0006423426
を連結するが、所定のブロックに対して転写産物にわたって連結するのではなく、より一般的に(i,j),i=1,...,N,j=1,...,Mの対にわたって連結する。例として、N≧2,M≧3であれば、可能なセットは、L={(1,1),(1,2),(2,3)}であり、従って、
Figure 0006423426
である。このセクションにおけるモデルは、2つの群内のパラメータのみを連結するので、2tie−Mixモデルと称することにする。このように、2tie−Mixモデルに関して、
σi,j=λσ(i,j)∈L (40)
である。
2tie−Mixモデルに対する動機付けは、以下の通りである。図12に示す状況を考える。この図では、1000bpで開始して4000bpで終結する領域内にジャンクションが何もない2つの転写産物がある。第2の転写産物は、全領域に及び、一方で第1の転写産物は、位置1500で開始して位置3500で終結する。各転写産物のpdf(p(r|t=i))が図12におけるガウシアンより上の2つの曲線の形状を有すると想定する。しかしながら、図12の下部に示す全pdf ptotal(r)は、厳密には2つの転写産物に関するp(r|t=i)の和ではない。その代わりに、ptotal(r)は、2250bpと2750bpの間の領域にくぼみを有する。これは、NGSシークエンシングの共通の特徴であり、ある領域内のヌクレオチド配列がこの領域と交差しているすべての転写産物に係るフラグメントの生成に影響を及ぼしうる。シークエンシングを開始するシークエンシング・プライマーにある配列に結合する能力が欠如していると、このような結果になりうる。図12における例では、例として、くぼみの領域内の配列がシークエンシング・プライマーにはより不利であり、それゆえに、この領域における全pdf ptotal(r)が著しく減少する。この問題に対する解は、くぼみの領域と交差していない他の転写産物によって共有されるかもしれないβの連結ではなく、その領域との交差を有するブロックp(r|t=i,b=j)に属する
Figure 0006423426
の連結である。図12では、これらのブロックを破線で示す。すべてのこれらのブロックの
Figure 0006423426
を非常に大きい値にセットすれば、連続的なx軸全体にわたってガウシアンp(r|t=i,b=j)が広がり、ゲノムの遺伝子座における全pdf ptotal(r)にはほとんど何も寄付しない。ptotal(r)においてくぼみが生じうる領域が予め知られていなければ、互いに近接したブロックに属するすべての
Figure 0006423426
を連結できる。本例では、転写産物1のための2つの隣接ブロックの
Figure 0006423426
を、それらの上にある転写産物2のブロックの
Figure 0006423426
と連結してもよく、例えば、L={(1,1),(1,2),(2,3)}であり、従ってこのセクションの初めにおけるように、
Figure 0006423426
である。σに関するEM更新式は、式(37)から導出でき、
Figure 0006423426
によって与えられる。
モデルの他のパラメータに関するEM更新式は、前セクションにおけるのと同じである。図12の状況では、βを更新することが賢明である。他のパラメータの更新は、(i,j)∈Lに対するp(r|t=i,b=j)の空間的な関連性を破壊しかねず、それゆえに潜在的に有害である。
3.2.4 6つのパラメータ群内の連結
5tie−Mixの直接的な拡張は、
Figure 0006423426
をスケーリングする別のパラメータ
Figure 0006423426
の導入によって与えられる。特に、
Figure 0006423426
である。
このように、5tie−Mixモデルと比較して、このセクションにおけるモデルは、
Figure 0006423426
を独立にスケーリングし、パラメータを6つのパラメータ群内で連結するので、6tie−Mixモデルと称する。6tie−Mixモデルでは、
Figure 0006423426
を、同じ転写産物に対して異なるブロック間で連結し、従って
Figure 0006423426
である。6tie−Mixモデルにおいて、λおよびκは、平均値μおよび標準偏差σと同様の役割を果たし、式(36)、(37)と同様の構造を有する以下の式を用いてトレーニングできる。
Figure 0006423426
5tie−Mixモデルを凌ぐ6tie−Mixモデルの利点は、異なる転写産物間の平滑度の違いをモデリングできることである。しかしながら、パラメータ数の増加が不十分なモデル収束に繋がる可能性もあり、それゆえに6tie−Mixモデルによって示唆される平滑度における分散をNSGデータが呈示する場合にのみ用いるべきである。
3.2.5 高次Mixモデル
前セクションでは、式(30)および(31)によって与えられるλの転写産物特有のアフィン線形変換を通じてμおよびσから、ガウシアンptrans(r|t=i,b=j)の平均値μi,jおよび標準偏差σi,jを導出した。このセクションは、この概念を一般化して、μi,jおよびσi,jをλにおける多項式、すなわち、
Figure 0006423426
によって生成することを可能にする。
μ(k)に関するEM更新式は、以下の表現によって与えられる。
Figure 0006423426
残りのモデルパラメータに関するEM更新式は、非線形方程式をもたらし、これらの式は、反復法によってのみそれら自体を解決できる。
実施例4:スケーリングおよびシフトした転写産物特有の確率分布に関する実験
このセクションにおける実験では、確率ptrans(r|t=i,b=j)を次のように因数分解する。
trans(r|t=i,b=j)=ptrans(s(r)|t=i,b=j)ptrans(l(r)|t=i,b=j,s(r)) (48)
ここでs(r)およびl(r)は、フラグメントrの開始および長さである。加えて、確率ptrans(l(r)|t=i,b=j,s(r))がs(r)および転写産物の長さl(t)にのみ依存すると仮定する。それゆえに(48)は、
trans(r|t=i,b=j)=ptrans(s(r)|t=i,b=j)ptrans(l(r)|l(t),s(r)) (49)に帰着する。
結果として、混合モデル(16)は、開始点分布ptrans(s(r)|t=i)にフラグメント長に関する確率分布を乗じた混合モデル、すなわち、
Figure 0006423426
である。
このように、モデルの正しいptrans(r|t=i)への収束は、分布
Figure 0006423426
の正しい開始点分布への収束およびαの正しい存在比への収束をチェックすることによって評価できる。
このセクションでは2つのタイプの実験を考察する。第1のタイプは、10000個のフラグメントのセットに対するMixモデルの収束の詳細な解析であり、重みα=0.28、α=0.32およびα=0.4を用いた図9におけるp(r|t=i)の重ね合わせからフラグメント開始点をランダムに取り出した。加えて、フラグメント開始点s(r)ごとに、s(r)、すなわち、1,...,l(t)−s(r)+1で開始するフラグメントの可能な長さへ正規化した平均値200および標準偏差80のガウシアンから、フラグメント長をランダムに取り出した。サンプリングした開始点およびフラグメント長のヒストグラムを図13および14に示す。図からわかるように、開始点ヒストグラムは、図10における分布の形状におおよそ従い、一方でフラグメント長ヒストグラムは、ガウシアンの形状に従う。
このセクションにおける第2のタイプの実験は、重みα,α,αの60個の異なるセットに対して第1のタイプを繰り返し、Mixモデルによって推定したα,α,αを真の重みと比較する。前の実験は、Mixモデルの収束およびそれらのパラメータについて詳細な知見を提供し、一方で後の実験は、Mixモデルによって推定する重みα,α,αの総合的な精度に注目する。αをそれぞれ0.2、0.4、0.6、0.8の値にセットすることによって60個の重みのセットを選んだ(where chosen)。αの値ごとに、αの15個の異なる値を0と1−αとの間に等距離間隔で選び、αは、α=1−α−αにセットした。重みのセットごとに、真の重みと推定した重みとの間のカルバック・ライブラー(KL:Kullback−Leibler)ダイバージェンスを算出し、重みのすべてのセットにわたるKLダイバージェンスの平均値を尺度として用いて、CufflinksおよびMixモデルの精度を定量化した。
4.1 1tie−Mixモデル
4.1.1 α=0.28、α=0.32、α=0.4に対する1tie−Mixモデルの収束
前述のように、このセクションにおいてモデルを推定するために用いたデータは、重みα=0.28、α=0.32、α=0.4を用いた図9におけるp(r|t=i)の重ね合わせからフラグメント開始点をサンプリングすることによって生成し、一方でフラグメント長は、再正規化した平均値200および標準偏差80のガウシアンからサンプリングした。これらのサンプリング・データセットのヒストグラムを図13および図14に示す。このセクションにおける1tie−Mixモデルは、ガウシアンであるように選んだ8つのビルディングブロックbi,j(s(r))を用いる。ガウシアンの平均値は、転写産物の長さにわたって均等に分布し、
Figure 0006423426
の位置で開始して、
Figure 0006423426
のステップで進み、ここで両方の数を最も近い整数へ四捨五入した。このように、例として、長さが2702bpの転写産物2に関して、このモデルは、169、507、845、1183、1521、1859、2197、2535における平均値を生じた。各ガウシアンの標準偏差は、第1の平均値に等しいようにセットした。従って、転写産物2に関して、各ガウシアンの標準偏差は、169であった。モデルにおける初期のβは、1/8にセットした。転写産物2に関して結果として生じたp(r|t=i)の初期化を、重み付けしたブロックβp(s(r)|t=i,b=j)とともに図15に示す。最初および最後のブロックは、転写産物内のブロックより若干高い。これは、これらのガウシアンがそのすその部分を失っており、それらの正規化定数がそれゆえに他のガウシアンより高いという事実に起因する。
モデルにおける初期の存在比は、α=α=α=1/3にセットした。後続の反復間のαおよびβの間の差が0.001未満か、または後続の反復間の対数尤度における増加が0.5未満となるまでEMアルゴルズムを適用した。これらの終了条件を用いると、EMアルゴリズムが20回の反復後に収束した。
Figure 0006423426
図16は、αの収束を示す。この図のx軸はEMアルゴリズムの反復を表し、一方でy軸はαの値を表す。図16における3つの曲線は、すべて初期値1/3から始まり、図16に3つの水平線で示す正解に近い値へ収束する。最終値は、α=0.29、α=0.3、α=0.41であった。比較として、Cufflinksモデルを用いて導出した推定値は、α=0.37、α=0.12、α=0.51である。これらの数をαの真の値と推定値との間のカルバック・ライブラー(KL)ダイバージェンスとともに表2にまとめる。KLダイバージェンスは、同一の分布に対して0であり、分布間の差の増加とともに増加する。表2は、Cufflinksモデルに対する真のαと推定されたαとの間のKLダイバージェンスが1tie−MixモデルのKLダイバージェンスより2桁優ることを示す。
図17は、8個のブロックに関する8つのベータの収束を示す。前の通り、x軸はEMアルゴリズムの反復を表し、y軸はβの値を表す。βはすべて1/8に初期化したので、曲線は、同じ位置から始まる。αの場合のように、βに関するグランドトルースは何もないので、それらの品質は、結果として生じた分布p(r|t=i)をチェックすることによってのみ評価できる。最終的なβをそれらのブロックidに対してプロットした図18に示す。これは、図19から分かるように、βがp(r|t=i)の形状におおよそ従い、次には正しいp(r|t=i)の良好な近似に繋がることを示す。
最後に、図20は、全確率分布ptotal(r)の収束を示す。これは、総合的な尤度の観点から、EMアルゴリズムが最初の反復において正解に向けた最も大きなステップを進むことを示す。その後の反復は、総合的な尤度の増加に対して比較的わずかな効果を有する。しかしながら、初期の反復では、αはそれらの正解からまだはるかに遠い。これは、総合的な尤度におけるわずかな変化もパラメータの有意な変化に繋がりうることを示す。結果として、EMアルゴリズムの終了条件は、全尤度の小さい増加に対して寛容であるべきである。
4.1.2 重みの60個のセットに関する1tie−MixおよびCufflinksモデルの間の比較
このセクションは、セクション4の初めに記載した手順に従って選んだ、重みα、α、αの60個の異なるセットを用いた実験を考察する。従って、αは、0.2、0.4、0.6、0.8の値をとり、αおよびαは、0と1−αとの間に等距離間隔で分布する。重みのセットごとに、図15におけるように転写産物2に対してp(r|t=i)を初期化した。他の2つの転写産物に関する分布p(r|t=i)をそれに応じて初期化した。収束判定基準を満たすまでEMアルゴリズムを実行した。最終的な反復で得られたαを1tie−Mixモデルの結果として選んだ。同様に、Cufflinksモデルに対して収束判定基準のうちの1つを満たすまでEMアルゴリズムを行い、最終的な反復からのαをCufflinksモデルの結果として選んだ。図21は、α=0.2に対するこれらの実験の結果を示す。このグラフのx軸はαの真の値を示し、y軸は真のαならびにCufflinksおよび1tie−Mixモデルによって推定したαを示す。図21における一点鎖線は、真のαを指し、一方で点線および破線は、それぞれCufflinksおよび1tie−Mixの推定値を指す。図21は、α=0.2に対して、1tie−Mixの推定値がαの真の値と非常によく一致し、一方でCufflinksの推定値がむしろ不十分であることを示す。α=0に対してのみ、Cufflinksおよび1tie−Mixモデルの推定値が符合する。この状況では、図7からわかるように、完全に分離した転写産物1および3のみが存在する。この場合には、それゆえにEMアルゴリズムは、転写産物1および3に割り当てられたフラグメントの数を単にカウントし、p(r|t=i)の形状には依存しない。図22は、α=0.4に対して、Cufflinksおよび1tie−Mix2モデルの推定値を示す。α=0.2については、1tie−Mixモデルの推定値は、Cufflinksモデルと比較して非常に正確である。α=0に対してのみ、両方の推定値が符合する。同様の描像がα=0.6およびα=0.8に関して浮かび上がる。
Figure 0006423426
表3から分かるように、これは、総合的にCufflinksモデルでは平均KLダイバージェンス0.12368および1tie−Mixモデルでは平均KLダイバージェンス3.6369e−04に繋がる。このように、平均KLダイバージェンスの観点から、1tie−Mixモデルの精度は、Cufflinksモデルより3桁上回る。
4.2 5tie−Mixモデル
このセクションにおけるモデルは、転写産物特有のオフセットおよびスケーリング・パラメータνおよびλを推定し、それゆえに、正しい転写産物アノテーションには依存しない。このように、このモデルの可能性を実証するために、3つの誤った転写産物アノテーションを用いてこのモデルをトレーニングする。これらのアノテーションを図25に見ることができる。この図における実線は、図7および表1と同じ正しい転写産物アノテーションを示す。図25における点線は、このセクションにおけるモデルをトレーニングするために用いた誤った転写産物アノテーションを示す。誤った転写産物アノテーションにおけるエクソンの厳密な開始および終了位置ならびに正しいアノテーションとのそれらの差を表4に示す。このセクションにおける5tie−Mixモデルは、位置1で開始し、位置10000で終結する拡張した転写産物アノテーションを用いる。従って、転写産物2および3の拡張したアノテーションは、同一である。5tie−Mixモデルのνおよびλを誤ったアノテーションと適合するように初期化して表5に示す。転写産物2のλを1に選び、それゆえに転写産物1および3のλは、1275/2900=0.4397および2300/2900=0.7931によって与えられる。5tie−Mixモデルのパラメータの複雑な相互作用に起因して、このモデルの尤度面は、準最適な極大を有する。これらの極大のうちの1つに捕らわれることを回避し、それゆえにαに関する複数の準最適な推定値を得るために、モデルパラメータを適切に初期化する必要がある。このセクションにおける方策は、実施例4.1.1において1tie−Mixモデルに関して得た初期値を誤ったアノテーションに対して用い、それらをランダムにある量変化させることであった。このような方法で、200個の異なる初期パラメータセットを生成し、それらに対して収束判定基準のうちの1つを満たすまで、すなわち、後続の反復間の対数尤度における差が0.5未満か、あるいはαおよびβの間の差が0.001未満となるまでEMアルゴリズムを行った。得られた200個の結果から、最大尤度をもつ結果を推定値として選んだ。
このセクションにおいて調べた他のモデル、すなわち、Cufflinksおよび1tie−Mixモデルでは、誤ったアノテーションを補正できず、転写産物2は、そのシフトした開始に起因して失うよりも、その増加した長さによってより多くのフラグメントを獲得するため、推定したαが高過ぎることが予想できる。同様に、転写産物1は、転写産物3がその開始において失うよりも、その終結においてより多くのフラグメントを失うため、αがαよりさらに強く過小評価されることが予想できる。
Figure 0006423426
Figure 0006423426
4.2.1 α=0.28、α=0.32、α=0.4に対する5tie−Mixモデルの収束
図26は、重みα=0.28、α=0.32、α=0.4に対して、EMアルゴリズムの収束後に最大尤度をもつ初期パラメータセットに関するαの収束を示す。この初期パラメータセットではEMアルゴリズムが149回の反復後に収束した。図26におけるx軸はEMアルゴリズムの反復を示し、y軸は対応するαを示す。図26における破線は、EMアルゴリズムの経過中のαを示し、一方で水平一点鎖線は、真のαを示す。図26は、αが真の値に非常に近い値へ収束することを示す。これは、表6にも反映され、同表は、推定したαとともにEMアルゴリズムの最終的な反復後の正しい重みからのそれらのKLダイバージェンスを示す。EMアルゴリズムの間の他のモデルパラメータの値を図27、28、29、30および31に示す。前述のように、β、μ、σの取得値の品質は、結果として生じたp(r|t=i)を検討することによってのみ評価できる。比較として、転写産物特有のシフトおよびスケール・パラメータνおよびλは、最終的なモデルが誤った初期仮定を補正するかどうかについて指標を与える。νの増加は、右へのシフトを示し、一方でλの増加は、長さにおける増加を示す。図30および31は、それゆえに5tie−Mixモデルが転写産物1の開始を右へシフトさせて、その長さを増加させ、一方では転写産物2および3の開始を左へシフトさせて、その長さを減少させることを示す。これは、表5に示すような、誤ったアノテーションの正しいアノテーションからのずれと合致する。
Figure 0006423426
EMアルゴリズムの間の誤った転写産物アノテーションの補正は、p(n)(r|t=i)の収束を示す図32、33および34においてもわかる。これらの図中の縦線は、問題の転写産物の転写産物座標における正しい開始および終結を示す。図32は、転写産物1に関するp(n)(r|t=i)の収束を示す。この図中の一点鎖線は、初期の転写産物特有のpdf p(0)(r|t=i)を示し、一方で実線は、p(149)(r|t=i)、149回の反復後のEMアルゴリズムの結果を示す。図32は、図30および31と合致して、p(n)(r|t=i)がEMアルゴリズムの間にわずかに右へ動き、長さが増加することを示す。p(149)(r|t=i)において生じた転写産物開始および転写産物長の値は、ほとんど完全である。図32は、正しいアノテーションへの主要な一歩がEMアルゴリズムの最初の数回の反復において生じることも示す。これは、ν (n)およびλ (n)が20回のEM反復後に実質的に一定のままであることを示す図30および31と合致する。図33および34は、転写産物2および3に関するp(n)(r|t=i)の収束を示す。これらの図が示すのは、EMアルゴリズムが両方の転写産物を左へシフトさせ、それらの長さを減少させることによって、転写産物1に対するように、初期の誤った転写産物アノテーションを補正することを示す。最後に、図35は、
Figure 0006423426
の収束を示す。図35における実線からわかるように、最終的な
Figure 0006423426
は、図13におけるヒストグラムの形状に対する良好な近似である。
4.2.2 重みの60個のセットに関する5tie−Mix、1tie−MixおよびCufflinksモデル間の比較
このセクションは、重みα、α、αの60個の異なるセット、ならびに5tie−Mix、1tie−MixおよびCufflinksモデルを用いた実験を考察する。5tie−Mixモデルのパラメータを初期化するために、かつ1tie−MixおよびCufflinksモデルのための固定参照枠として図25における誤った転写産物アノテーションを用いた。図36は、真の値α=0.2に対して、5tie−MixおよびCufflinksモデルに関して推定したαを示す。この図は、真のαと5tie−Mixモデルによって推定したαとの間の良好な一致を示し、一方でCufflinksモデルによって推定したαは、正解から著しくずれる。真のαの小さい値に対してのみ、Cufflinksモデルは、5tie−Mixモデルに近づく推定値を作り出す。この場合には、転写産物1が非常に低い濃度を有し、それゆえに転写産物2および3からのフラグメントのみがEMアルゴリズムにおいて役割を果たす。転写産物1がその誤った末端に起因して転写産物2に対して失うフラグメントの数は無視できるため、これらのフラグメントは、EMアルゴリズムによって転写産物2および3の間でほとんど正しく配分される。しかしながら、αの増加とともに、Cufflinksモデルは、αを著しく過大評価し、αおよびαの過小評価がより顕著になる。この影響は、図37ではさらに強く、短い初期の減少後に、αに関するCufflinksの推定値は、0.5においてほとんど一定であるように見える。比較として、5tie−Mixモデルによって推定したαは、重みの全範囲にわたってやはり非常に正確である。
図38および39において、5tie−Mixモデルの推定値は、やはり非常に正確であり、一方でCufflinksモデルは、αおよびαを著しく過小評価する。加えて、図38および39ではCufflinksモデルは、それぞれアルファ 0.4および0.28に関してほとんど一定の推定値をもたらす。表7からわかるように、完全な60個のパラメータセットにわたってCufflinksモデルは、平均KLダイバージェンス0.21977を得て、一方で5tie−Mixモデルは、平均KLダイバージェンス0.014482を得る。このように、平均KLダイバージェンスの観点から、5tie−Mixモデルの精度は、Cufflinksモデルの精度を15倍上回る。事実、5tie−Mixモデルは、表3によれば、平均KLダイバージェンス0.12368をもたらす正しいアノテーションを用いたCufflinksモデルよりさらにいっそう正確である。このように、平均KLダイバージェンスの観点から、誤った転写産物アノテーションを用いた5tie−Mixモデルの精度は、正しいアノテーションを用いたCufflinksモデルの精度を8倍上回る。
Figure 0006423426
4.2.3 1par−Mixモデルとの比較
1tie−Mixモデルは、セクション4.1.2における正しい転写産物アノテーションを用いた実験ではCufflinksモデルよりはるかに良好であったので、誤った転写産物アノテーションを両方が用いた5tie−Mixモデルと1tie−Mixモデルとを比較する価値がある。図40は、真のαの値0.2に対して、1tie−Mixおよび5tie−Mixモデルに関して推定したαを示す。図36におけるように、αは、固定した誤った転写産物アノテーションを用いる1tie−Mixモデルによって著しく過大評価される。図40における1tie−Mixモデルのαの推定値は、図36におけるCufflinksモデルの推定値に比べてわずかにより正確であるが、5tie−Mixモデルより依然としてかなり不十分である。この傾向は、図41、42および43にも呈示され、これらの図は、1tie−Mixモデルに関する推定値がCufflinksモデルに関する推定値を少し改善するが、5tie−Mixモデルの推定値よりかなり不十分であることを示す。総じて、これは、表8における1tie−Mixモデルに関する平均KLダイバージェンスをもたらし、同表は、KLダイバージェンスの観点から、5tie−Mixモデルの精度が1tie−Mixモデルの精度より約12倍高いことを示す。要約すれば、このセクションにおける実験は、正しい転写産物アノテーションがないときにαに関する信頼性の高い推定値を得るためには、正しい転写産物位置を知ることが可能なモデルの使用が重要であることを示す。
Figure 0006423426
実施例5:結論
先のセクションにおける実験は、正しいおよび誤った転写産物アノテーションの両方を用いて1tie−Mixおよび5tie−MixモデルをCufflinksモデルと比較した。60個のパラメータセットα,α,αのセットに関する実験の結果を表9にまとめる。これらの結果は、正しい転写産物アノテーションを用いると1tie−Mixモデルは、Cufflinksモデルよりはるかに優れており、一方で誤った転写産物アノテーションを用いると5tie−Mixモデルが1tie−MixおよびCufflinksモデルの両方に勝ることを示す。これは、適切なMixモデルの使用が存在比の推定値の精度をかなり改善することを示唆する。
Figure 0006423426
実施例6:先行技術との比較
Cufflinksは、転写産物アセンブリおよび転写産物量の推定のための方法を実装したプログラムである。実装の詳細な記載は、非特許文献1に見ることができる。Cufflinksでは、本発明によるαに対応する転写産物量を式(13)における因数分解を通じて推定し、式(13)においてptrans(s(r)|t=i,l(r))は均一であり、ptrans(l(r)|t=i)は、転写産物t=iに依存しない。Mixモデルとは対照的に、Cufflinksは、フラグメント開始点s(r)の分布をデータから知ることがなく、そのうえ、正しい転写産物アノテーションの利用可能性に依存する。
Cufflinksの存在比推定への拡張を実装するロバーツら、2011、では、ptrans(r|t=i)が式(13)におけるように因数分解される。ptrans(s(r)|t=i,l(r))は、配列特有の位置的な重みの正規化された積であり、これらの重みが転写産物座標における位置ごとに定義される。この結果、単一の転写産物に関してさえトレーニングが必要な多数のパラメータが生じる。参考文献9の実験ではモデルを計算上扱いやすくするために位置的な重みをステップ関数に制限しなければならず、そのうちの5つのみが推定されて、すべての転写産物間で共有される。参考文献9とは対照的に、本発明のモデルは、すべての確率ptrans(s(r)|t=i)を個別には推定しないが、混合確率分布(16)のパラメータを推定する。結果として、本発明のモデルを推定するために必要なパラメータは、はるかにより少なく、それゆえに、そのパラメータ推定が参考文献9におけるモデルよりロバストであり、計算上扱いやすい。加えて、参考文献9におけるモデルは、転写産物量に関する正確な開始推定値を必要とし、それゆえに、その重みが単一のアイソフォーム遺伝子上で推定される。従って、参考文献9におけるモデルは、本明細書に示される実験に用いるデータには適用できない。これに対して、本発明のモデルは、転写産物量に関する正確な開始推定値を必要とせず、それゆえに、複数のアイソフォーム遺伝子上でトレーニングすることができる。加えて、参考文献9におけるモデルは、本発明のモデルと異なり、正しい転写産物アノテーションを必要とする。
ウーら、2011、では、各エクソンおよび転写産物に単一の重みを割り当てることによって、フラグメントの分布におけるバイアスが遺伝子のエクソンに関してモデリングされる。本発明のモデルとは対照的に、これは、ptrans(s(r)|t=i)が各エクソン上で一定であるように制限する。加えて、ウーら、2011、における重みは、部分的に確率論的枠外の発見的方法によって推定される。ウーら、2011、における研究が本発明のモデルとさらに異なるのは、ウーら、2011、における研究がエクソン上のリード・カウントの確率にポアソン分布を用いるのに対して、本発明のモデルが、転写産物を所与として、フラグメントの確率に混合モデルを用いる点である。加えて、ウーら、2011、における研究は、正しい転写産物アノテーションに依存する。
リーら、2010、は、配列特有のバイアスを補正し、それゆえに、参考文献9における配列特有の重みと同様である。リーら、2010、は、カウント・データをモデリングするためにポアソン分布を用いる点ではウーら、2011、における研究にも類似する。ウーら、2011、とは対照的に、リーら、2010、におけるカウント・データは、エクソンには基づかず、カバレッジによって与えられる。リーら、2010、における研究は、転写産物量を推定しないという点で、本発明のモデルならびに参考文献9およびウーら、2011、におけるモデルとは異なる。
グラウスら、2012、では、転写産物によって生成されたリードを観測する確率に関してベイジアン・モデルが用いられる。このモデルは、転写産物量を推定するために参考文献9と同じ配列特有の位置的な重みおよびギブスサンプリング手順を用いる。このように、本発明のモデルと比較して、グラウスら、2012、におけるパラメータ推定は、最大尤度の枠組みではなくベイジアン内で行われる。グラウスら、2012、におけるモデルは、p(r|t=i)に混合確率分布を何も用いず、正しい転写産物アノテーションを必要とするという点においても本発明のモデルとは異なる。
リーら、2010および2011、におけるモデルは、グラウスら、2012、におけるモデルと同様の構造をもつベイジアン・モデルである。しかしながら、グラウスら、2012、とは対照的に、リーら、2010および2011、における転写産物量は、最大尤度の枠内で、特にEMアルゴリズムを用いてトレーニングされる。p(s(r)|t=i)のような、残りのモデルパラメータは、事前に導出されるか、または発見的方法を用いて推定されるかいずれかである。これは、すべてのそのパラメータを最大尤度の枠内で推定する本発明のモデルとは対照的である。加えて、リーら、2010および2011、におけるモデルは、ptrans(r|t=i)をモデリングするために混合確率分布を用いず、正しい転写産物アノテーションを必要とする。
本発明に従って、本発明のモデルを推定するために期待値最大化アルゴリズムを用いた。期待値最大化アルゴリズムの一般的な枠組みは、デンプスターら、1977、において開発され、一方で本発明のモデルのための具体的なEM更新式は、本明細書に記載するように導出した。
実施例7:Mix モデルを用いた転写産物群の連結
式(20)に続く段落において、Mixモデルのパラメータの連結は、異なる転写産物t=iに関するp(r|t=i)間のある類似性を示唆することを述べた。それゆえに、Mixモデルのパラメータは、この類似性を呈示する転写産物t=i間でのみ連結されるべきである。群内の転写産物のみがそれらのパラメータを共有するような異なる群に転写産物が分けられるならば、MixモデルのEM更新式(27)、(36)および(37)は、修正される必要がある。以下では、各転写産物t=iは、関数G(i)=kを通じてリトリーブできる関連付けられた群g=kを有する。その場合、群g=k内のパラメータβk,j,μk,jおよびσk,jのEM更新式は、以下のように与えられる。
制約条件
Figure 0006423426

を実行するためにラグランジェ法を用いて、βk,jに関する微分をとると、
Figure 0006423426

を結果として生じ、ここで
Figure 0006423426

である。転写産物間で連結される残りのパラメータ、すなわち、μk,jおよびσk,jに関しては、転写産物t=1,...,Nの完全なセットにわたる和を群g=k内の転写産物にわたる和で置き換えることによって更新式(36)および(37)を修正する必要があり、すなわち、
Figure 0006423426
である。遺伝子座における各転写産物をそれ自体の群へ配置すると、すべてのパラメータ連結が解除されて、前述のように、フラグメント分布および転写物量に関する不正確な推定値に繋がる。転写産物を異なる群へ配置するときには、それゆえに、同様でないフラグメント分布p(r|t=i)の分離と、Mixモデルの安定性を確保するために十分な数のパラメータの連結の維持との間で適正なバランスをとることが重要である。賢明な必要条件は、例として、各群が少なくとも2つの転写産物を含むことである。代わりに、3つ以上の群が存在するときには、多くとも1つの群が単一の転写産物を含むことを必要とするのが賢明である。
実施例8:Mix モデルを用いたフラグメント長分布のトレーニング
セクション4において考察した実験では、転写産物特有のフラグメント確率ptrans(r|t=i,b=j)を(48)におけるように因数分解し、フラグメント長の確率分布ptrans(l(r)|t=i,b=j,s(r))は、フラグメント開始s(r)および転写産物t=iの長さl(t=i)のみに依存すると仮定した。加えて、ptrans(l(r)|l(t=i),s(r))は、所与であると仮定した。これらの仮定は、ptrans(l(r)|t=i,b=j,s(r))をデータセットRから推定するのであれば必要なく、Mixモデルの枠内でこの推定を行うことができる。このために、フラグメント開始s(r)の分布については、ptrans(l(r)|t=i,b=j,s(r))を混合確率分布、すなわち、
Figure 0006423426

として書き、bs=jは、先にb=jによって示した隠れ変数である。ここではbsは、「フラグメント開始のビルディングブロック」に対する簡略記憶記号であり、一方で隠れ変数blは、「フラグメント長のビルディングブロック」に対する簡略記憶記号である。ptrans(l(r)|t=i,bs=j,s(r))は、bs=jに依存しないと仮定するのが賢明であり、従って(57)は、
Figure 0006423426

に帰着する。(15)、(48)および(58)を組み合わせると、フラグメントの確率に関する次の表現をもたらし、
Figure 0006423426

ここで以下が成り立つ。
Figure 0006423426

従って、(59)は、ptrans(r|t=i)の混合重みがβとγとの積であるMixモデルであり、ptrans(r|t=i)の混合成分は、(60)における条件付き確率分布の積である。
(15)および(25)に加えて、(59)から以下を導出できる。
Figure 0006423426

結果として、(22)および(27)と同様に、EMアルゴリズムを用いてγを次のように推定でき、
Figure 0006423426

である。フラグメント長のビルディングブロックptrans(l(r)|t=i,bl=k,s(r))に関しては、例として、その平均値がs(r)とl(t=i)との間、または1とl(t=i)との間のいずれかに等距離に分布して、離散的または連続的な1次元確率空間内のいずれかにおいて正規化したガウシアンを用いることができる。連続的な1次元確率空間上の分布を選ぶならば、それらの内部パラメータ、例えば、平均値、標準偏差、シフトおよびスケール・パラメータは、フラグメント開始ptrans(s(r)|t=i)の確率分布に関するこれらのパラメータと同様に推定できる。
実施例9:固定した転写産物エンドポイントを用いたν の評価
5tie−Mixモデルは、シフトおよびスケール・パラメータνおよびλを推定する。νを0にセットしてEMアルゴリズムの間に更新しなければ、転写産物t=iの開始は、変化しないままである。転写産物のエンドポイントを固定することになれば、5tie−Mixモデルを少し修正する必要がある。
がアノテーションによる転写産物t=iの長さであれば、転写産物t=iの固定したエンドポイントに関して、以下が成り立つ。
Figure 0006423426

これは、νに関する次のEM更新式をもたらす。
Figure 0006423426

これから、λ (n+1)を(65)に従って導出でき、すなわち、
Figure 0006423426

である。
実施例10:Mix モデルの他のバイアス・モデルとの組み合わせ
第4のセクションの実験において考察したMixパラメータの連結は、位置的なフラグメンテーション・バイアス、すなわち、転写産物内のフラグメント開始に関係するバイアスに関するモデルを実装する。配列特有のバイアスのような、他の種類のバイアスを他のモデル、例えば、非特許文献2における可変長隠れマルコフ・モデル(VLMM:variable length hidden Markov model)を用いて記述してもよい。典型的に、非位置的なバイアスに関するモデルは、ヌクレオチド配列の観測度数をバイアスされていないデータの帰無仮説下におけるそれらの度数と比較する。バイアスされたデータ中でrの単一のコピーを観測することを考慮すれば、バイアスが何もないときのフラグメントrの多重度m=cにわたる確率分布p(m=c|r)を導出するためにこの比較を用いることができる。次に、分布p(m=c|r)は、MixモデルのEM更新式における各フラグメントrを予想されるrの多重度により重み付けすることによって、非位置的なバイアスをデータから計算上除去するために用いることができる。存在比αのEM更新式に関して、例として、これは、
Figure 0006423426
をもたらす。留意すべきは、p(m=c|r)の期待値がそれにより無限大になりかねないため、Mixモデルの下でデータセットの尤度Rを最大化することによって分布p(m=c|r)を推定することができないことである。Mixモデルの他のバイアス・モデルとの組み合わせについては、このセクションにおいて考察したように、p(m=c|r)をMixモデルの最大尤度の枠外で推定することがそれゆえに重要である。
実施例11:FPKMおよびRPKM値を補正するためのMix モデルの使用
RNA−Seqにおける転写産物の濃度は、通常、FPKM(100万リード当たり、1000塩基対当たりのフラグメント数)またはRPKM(100万リード当たり、1000塩基対当たりのリード数)尺度を用いて測定され、転写産物t=iに関して、後者は、
Figure 0006423426
によって与えられる。FPKM尺度では、(69)における転写産物t=iの長さl(t=i)が調整した転写産物長
Figure 0006423426
によって置き換えられる(非特許文献1)。このように、正確なFPKMおよびRPKM値を得るためには(69)において正確な転写産物長l(t=i)を用いることが重要である。5tie−Mixモデルは、不正確な転写産物アノテーションを補正でき、それゆえにより高い精度の転写産物長をもたらし、改善された精度のRPKMおよびFPKM値を結果として生じる。5tie−Mixモデルに基づいて転写産物長に関する推定値を得るために種々の方法を利用できる。転写産物開始は、例として、
Figure 0006423426
ここで0<c<1である位置xとして推定できる。典型的に、cは、c=0.05のような小さい正値となるであろう。同様に、転写産物終結は、cを置き換えた1に近いであろう0<c<1のc値、例えばc=0.95によって(70)が成り立つ位置として推定できる。同様に、(70)は、cおよびcとともに、任意の混合成分p(r|t=i,b=j)に適用できる。この場合、転写産物開始を確定するために用いる混合成分は、典型的に、小さいs(r)の領域に集中するのに対して、転写産物終結を確定するために用いる混合成分は、大きいs(r)の領域に集中するであろう。5tie−Mixモデルから転写産物t=iの長さに関する推定値を得るための別の方法は、転写産物アノテーションの長さにMixモデルの収束後のλを乗じる。
参考文献
[1]A.P.デンプスター(Dempster)、N.M.レアード(Laird)、およびD.B.ルービン(Rubin)emアルゴリズムを用いた不完全データからの最大尤度(Maximum likelihood from incomplete data via the em algorithm)Journal of the Royal Statistical Society、Series B、39(1):1 38、1977
[2]ピーター・グラウス(Peter Glaus)、アンティ・ホンケラ(Antti Honkela)およびマグナス・ラトリ(Magnus Rattray)生物学的多様性をもつRNA−Seqデータからの発現変動転写産物の同定(Identifying differentially expressed transcripts from RNA−Seq data with biological variation)Bioinformatics 28(13):1721−1728、2012
[3]ボー・リー(Bo Li)およびコリン・デューイ(Colin Dewey)RSEM:リファレンスゲノム有無のrna−seqデータからの正確な転写産物定量化(accurate transcript quantification from rna−seq data with or without a reference genome)BMC Bioinformatics 12(1):323、2011
[4]ボー・リー(Bo Li),ビクター・ルオーティ(Victor Ruotti)、ロン・M・スチュワート(Ron M Stewart)、ジェームズ・A・トムソン(James A Thomson)、コリン・N・デューイ(Colin N Dewey)リード・マッピングの不確実性を伴うRna−seq遺伝子発現推定(Rna−seq gene expression estimation with read mapping uncertainty)Bioinformatics 26(4):493−500、2010年2月
[5]ジュン・リー(Jun Li)、フェイ・ジアン(Hui Jiang)およびウィン・ワン(Wing Wong)RNA−Seqデータにおけるショートリードの割合の不均一性モデリング(Modeling non−uniformity in short−read rates in RNA seq data)Genome Biology 11(5):R50+、2010年
[6]アダム・ロバーツ(Adam Roberts)、コール・トラップネル(Cole Trapnell)、ジュリー・ ドナヒー(Julie Donaghey)、ジョン・L・リン(John L Rinn)およびリオル・パクター(Lior Pachter)フラグメント・バイアス補正によるrna−seq発現推定値の改善(Improving rna−seq expression estimates by correcting for fragment bias)Genome Biol 12(3):R22 2011年3月
[7]コール・トラップネル(Cole Trapnell)、ブライアン・A・ウィリアムズ(Brian A Williams)、ジオ・ペルテア(Geo Pertea)、アリ・モルタザヴィ(Ali Mortazavi)、ゴードン・クワン(Gordon Kwan)、マレイケ・J・ヴァン・バレン(Marijke J van Baren)、スチーブン・L・ザルツバーグ(Steven L Salzberg)、バーバラ・J・ウォルド(Barbara J Wold)およびリオル・パクター(Lior Pachter)転写産物アセンブリおよびRNA−Seqによる定量化が細胞分化の間のアノテーションされていない転写産物およびアイソフォームのスイッチングを明らかにする(Transcript assembly and quantification by RNA−Seq reveals unannotated transcripts and isoform switching during cell differentiation)Nat Biotechnol 28(5):511−515、2010年5月
[8]ジュヨンプオン・ウー(Zhengpeng Wu)、シー・ワーン(Xi Wang)およびシュエゴン・ジャーン(Xuegong Zhang)、RNA−Seqにおけるアイソフォーム発現推測を改善するための不均一リード分布モデルの使用(Using non−uniform read distribution models to improve isoform expression inference in RNA−Seq) Bioinformatics 27(4):502−508、2011年2月
[9]ロバーツ(Roberts)ら:ゲノム生物学(Genome Biology)12(3)(2011):R22
[10]ウェン−ピン(Wen−Ping)ら:ゲノム生物学(Genome Biology)8(6)(2007):R98

Claims (15)

  1. コンピュータを用いて転写産物量を推定する方法であって、
    a)対象となる遺伝子座の転写産物の潜在的な混合物から転写産物フラグメントシークエンシングデータを得るステップと、
    b)前記フラグメントシークエンシングデータを対象となる前記遺伝子座の遺伝子座標に割り当て、それによってフラグメント遺伝子座標カバレッジのデータセットを得るステップであって、遺伝子座標ごとの前記カバレッジは、結合されてカバレッジ包絡曲線を形成する、ステップと、
    c)前記混合物の転写産物の数をセットするステップと、
    d)転写産物iごとにモデリングされた遺伝子カバレッジの確率分布関数を予めセットするステップであって、iは、転写産物のための数値識別子を示し、前記確率分布関数は、少なくとも2つの確率サブ関数jの和を乗じた前記転写産物iの重み係数αによって定義され、jは、確率サブ関数のための数値識別子を示し、各確率サブ関数jは、重み係数βi,jによって独立に重み付けされる、ステップと、
    e)サム関数を得るために各転写産物の前記確率分布関数を加算するステップと、
    f)前記サム関数を前記カバレッジ包絡曲線へフィッティングし、それによってフィットを向上させるために、αおよびβi,jに関する値を最適化するステップと、
    g)予めセットされた収束判定基準が満たされるまでステップe)およびf)を繰り返し、それによって前記収束判定基準が満たされた後に最適化されるような前記重み係数αによって与えられる、前記混合物の転写産物ごとの推定転写産物量を得るステップと
    を備える方であって、
    前記コンピュータが、前記ステップa)における転写産物フラグメントシークエンシングデータを入力する手段、前記ステップb)〜g)を行う演算手段、及び前記ステップg)における前記混合物の転写産物ごとの推定転写産物量を出力する手段を備える、方法
  2. 転写産物フラグメントシークエンシングデータは、少なくとも5つの転写産物フラグメント配列を備える、請求項1に記載の方法。
  3. 対象となる前記遺伝子座は、1つ以上の遺伝子または遺伝因子の1つ以上のアイソフォームを備え、好ましくは1つの遺伝子または遺伝因子の少なくとも2つのスプライスバリアントを備える、請求項1または2に記載の方法。
  4. 転写産物の数をセットする前記ステップは、予めアノテーションされている配列データを対象となる前記遺伝子座から得ることと、転写産物の前記数を、対象となる前記遺伝子座から予想される、異なるアイソフォームとしてカウントするスプライスバリアントを含む、異なるアイソフォームの少なくとも前記数にセットすることとを備える、請求項1から3のいずれか一項に記載の方法。
  5. 前記確率サブ関数jは、各遺伝子座標ごとに正値から構成され、好ましくは密度関数である、請求項1から4のいずれか一項に記載の方法。
  6. 前記確率サブ関数jは、非周期関数であり、好ましくはガウス関数、正方形関数、三角形関数、特に好ましくはガウス関数である、請求項1から5のいずれか一項に記載の方法。
  7. 前記遺伝子座標は、対象とならない遺伝子領域を削除するように随意的に変換された、ゲノムにおけるヌクレオチド位置に対応し、好ましくは前記対象とならない遺伝子領域は、前記転写産物フラグメントシークエンシングデータによるカバレッジを含まない、請求項1から6のいずれか一項に記載の方法。
  8. スプライスジャンクションをもつ遺伝子座標位置を前記カバレッジ包絡曲線から除去することを備えたステップb2)をさらに備える、請求項1から7のいずれか一項に記載の方法。
  9. 前記フラグメント遺伝子座標カバレッジは、遺伝子座標に割り当てられたフラグメント配列ごとに少なくとも1つのヌクレオチドのカウントを含み、好ましくは、前記少なくとも1つのヌクレオチドは、フラグメント開始点またはフラグメント配列全体を備える、請求項1から8のいずれか一項に記載の方法。
  10. 転写産物に関する前記確率サブ関数は、それぞれ異なる遺伝子座標における極大を備える、請求項1から9のいずれか一項に記載の方法。
  11. ステップd)において、転写産物に関する前記確率サブ関数は、正値を用いて転写産物の全長をカバーするために前記遺伝子座標において配置またはシフトされる、請求項1から10のいずれか一項に記載の方法。
  12. 少なくとも1つの転写産物、好ましくはmRNAの配列リードを確定するステップを備え、前記リードは、前記転写産物フラグメントシークエンシングデータを提供するために前記転写産物のフラグメントの配列を備える、請求項1から11のいずれか一項に記載の方法。
  13. 前記転写産物フラグメントシークエンシングデータの前記転写産物フラグメント配列は、5から800ヌクレオチド、好ましくは6から600ヌクレオチド、より好ましくは7から400ヌクレオチド、なおさらに好ましくは8から200ヌクレオチド、とりわけ好ましくは9から150ヌクレオチド、特に好ましくは10から100ヌクレオチド、最も好ましくは12から70ヌクレオチドの長さを有する、請求項1から12のいずれか一項に記載の方法。
  14. 転写産物iに関する確率サブ関数ごとの半値全幅値は、およそ同一である、請求項1から13のいずれか一項に記載の方法。
  15. コンピュータ上で請求項1から14のいずれか一項の方法を行うためのコンピュータプログラム製品を備える、コンピュータ可読メモリ装置。
JP2016524758A 2013-07-09 2014-07-04 転写産物判定方法 Active JP6423426B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13175774.2 2013-07-09
EP13175774.2A EP2824601A1 (en) 2013-07-09 2013-07-09 Transcript determination method
EP14170767 2014-06-02
EP14170767.9 2014-06-02
PCT/EP2014/064310 WO2015004016A1 (en) 2013-07-09 2014-07-04 Transcript determination method

Publications (2)

Publication Number Publication Date
JP2016531344A JP2016531344A (ja) 2016-10-06
JP6423426B2 true JP6423426B2 (ja) 2018-11-14

Family

ID=51134089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016524758A Active JP6423426B2 (ja) 2013-07-09 2014-07-04 転写産物判定方法

Country Status (10)

Country Link
US (1) US20160328514A1 (ja)
EP (1) EP2943906B1 (ja)
JP (1) JP6423426B2 (ja)
KR (1) KR102408080B1 (ja)
CN (1) CN105408909B (ja)
AU (1) AU2014289407B2 (ja)
CA (1) CA2916188C (ja)
DK (1) DK2943906T3 (ja)
LT (1) LT2943906T (ja)
WO (1) WO2015004016A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944224B (zh) * 2017-12-06 2021-04-13 懿奈(上海)生物科技有限公司 构建皮肤相关基因标准型别数据库的方法及应用
CN107944226B (zh) * 2017-12-19 2020-03-27 清华大学 基于信息论基因转录本组装与量化方法及系统
CN116312796B (zh) * 2022-12-27 2023-11-14 江苏先声医学诊断有限公司 一种基于期望最大化算法的宏基因组丰度估计方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6632610B2 (en) * 2000-10-12 2003-10-14 Gensat S.A. Methods of identification and isolation of polynucleotides containing nucleic acid differences
JP5198284B2 (ja) * 2005-12-22 2013-05-15 キージーン ナムローゼ フェンノートシャップ 高処理量配列決定技術を使用する転写産物の特徴づけのための改良された戦略
US20090171640A1 (en) 2007-12-28 2009-07-02 Microsoft Corporation Population sequencing using short read technologies
WO2009091798A1 (en) 2008-01-16 2009-07-23 Helicos Biosciences Corporation Quantitative genetic analysis
US8483970B2 (en) * 2008-09-29 2013-07-09 The Trustees Of Columbia University In The City Of New York Method for identifying aQTL regions whose genotype modulates transcription factor activity
KR101295784B1 (ko) 2011-10-31 2013-08-12 삼성에스디에스 주식회사 목표 유전체 서열 내의 신규서열 생성 장치 및 방법

Also Published As

Publication number Publication date
CA2916188A1 (en) 2015-01-15
US20160328514A1 (en) 2016-11-10
CN105408909A (zh) 2016-03-16
DK2943906T3 (en) 2017-09-18
AU2014289407B2 (en) 2020-01-02
JP2016531344A (ja) 2016-10-06
CN105408909B (zh) 2018-10-26
KR20160029800A (ko) 2016-03-15
WO2015004016A1 (en) 2015-01-15
LT2943906T (lt) 2017-10-10
KR102408080B1 (ko) 2022-06-10
EP2943906B1 (en) 2017-06-21
EP2943906A1 (en) 2015-11-18
CA2916188C (en) 2021-08-03
AU2014289407A1 (en) 2016-01-21

Similar Documents

Publication Publication Date Title
Phillippy New advances in sequence assembly
Daley et al. Modeling genome coverage in single-cell sequencing
US8725422B2 (en) Methods for estimating genome-wide copy number variations
Kolpakov et al. mreps: efficient and flexible detection of tandem repeats in DNA
JP2019507585A5 (ja)
Delcher et al. Identifying bacterial genes and endosymbiont DNA with Glimmer
Kuleshov Probabilistic single-individual haplotyping
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
JP7171709B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
Wallace et al. Estimating selection on synonymous codon usage from noisy experimental data
JP2018500625A (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
Jonikas et al. Knowledge-based instantiation of full atomic detail into coarse-grain RNA 3D structural models
JP6423426B2 (ja) 転写産物判定方法
Suo et al. Joint estimation of isoform expression and isoform-specific read distribution using multisample RNA-Seq data
US20180322242A1 (en) A System and Method for Compensating Noise in Sequence Data for Improved Accuracy and Sensitivity of DNA Testing
Rogozin et al. Computer prediction of sites associated with various elements of the nuclear matrix
EP2824601A1 (en) Transcript determination method
Xiong et al. Probabilistic estimation of short sequence expression using RNA-Seq data and the “positional bootstrap”
Bansal An accurate algorithm for the detection of DNA fragments from dilution pool sequencing experiments
US20160154930A1 (en) Methods for identification of individuals
Zararsiz Development and application of novel machine learning approaches for RNA-seq data classification
Li et al. Micro-dissection and integration of long and short reads to create a robust catalog of kidney compartment-specific isoforms
EP4204582A1 (en) Linked dual barcode insertion constructs
WO2024010812A2 (en) Methods and systems for determining copy number variant genotypes
Li et al. Prober: A general toolkit for analyzing sequencing-based ‘toeprinting’assays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181018

R150 Certificate of patent or registration of utility model

Ref document number: 6423426

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250