JP6423426B2 - 転写産物判定方法 - Google Patents
転写産物判定方法 Download PDFInfo
- Publication number
- JP6423426B2 JP6423426B2 JP2016524758A JP2016524758A JP6423426B2 JP 6423426 B2 JP6423426 B2 JP 6423426B2 JP 2016524758 A JP2016524758 A JP 2016524758A JP 2016524758 A JP2016524758 A JP 2016524758A JP 6423426 B2 JP6423426 B2 JP 6423426B2
- Authority
- JP
- Japan
- Prior art keywords
- transcript
- model
- fragment
- probability
- mix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 83
- 239000000203 mixture Substances 0.000 claims description 169
- 239000012634 fragment Substances 0.000 claims description 148
- 108090000623 proteins and genes Proteins 0.000 claims description 93
- 238000005315 distribution function Methods 0.000 claims description 47
- 238000012163 sequencing technique Methods 0.000 claims description 41
- 239000002773 nucleotide Substances 0.000 claims description 31
- 125000003729 nucleotide group Chemical group 0.000 claims description 31
- 108010029485 Protein Isoforms Proteins 0.000 claims description 19
- 102000001708 Protein Isoforms Human genes 0.000 claims description 17
- 230000002068 genetic effect Effects 0.000 claims description 15
- 108020004999 messenger RNA Proteins 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 94
- 230000006870 function Effects 0.000 description 57
- 238000004422 calculation algorithm Methods 0.000 description 48
- 238000002474 experimental method Methods 0.000 description 27
- 238000007481 next generation sequencing Methods 0.000 description 16
- 238000003559 RNA-seq method Methods 0.000 description 11
- 238000007476 Maximum Likelihood Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 239000000523 sample Substances 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 8
- 102000039446 nucleic acids Human genes 0.000 description 8
- 150000007523 nucleic acids Chemical class 0.000 description 8
- 108700024394 Exon Proteins 0.000 description 7
- 239000002299 complementary DNA Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013518 transcription Methods 0.000 description 7
- 230000035897 transcription Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 108700028369 Alleles Proteins 0.000 description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 3
- 230000024245 cell differentiation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 108700011259 MicroRNAs Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 101150037123 APOE gene Proteins 0.000 description 1
- 241001236093 Bulbophyllum maximum Species 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 101100216294 Danio rerio apoeb gene Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 1
- 101100070542 Podospora anserina het-s gene Proteins 0.000 description 1
- 101100273253 Rhizopus niveus RNAP gene Proteins 0.000 description 1
- 108020003224 Small Nucleolar RNA Proteins 0.000 description 1
- 102000042773 Small Nucleolar RNA Human genes 0.000 description 1
- 101150044494 Uqcrq gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 235000019689 luncheon sausage Nutrition 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 239000011807 nanoball Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002751 oligonucleotide probe Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Complex Calculations (AREA)
Description
本発明は、転写産物フラグメント配列のサンプルから転写産物量情報を得るために数値的方法を利用する。
元のサンプルにどのmRNA分子が存在したかを推測するために、バローズ・ホィーラー変換のような既知の方法を用いてNGSリードをリファレンスゲノム上へマッピングする。これは、リードごとにスプライス部位についての情報を潜在的に含んだ遺伝子座標のセットを与える。マッピング・プロセスを図1に視覚化する。ここではシーケンサーによって作り出されたショートリードの位置がリファレンスゲノム内で同定される。このプロセスをシーケンサーによって生成されたすべてのリードに対して繰り返し、図1において黒く塗りつぶした曲線下の短い直線によって示されるような、多数の短い配列を遺伝子軸上に生じさせる。マッピングしたリードを組み合わせた統計データは、遺伝子軸上に異なるタイプのヒストグラム(すなわち、異なるタイプのカバレッジ包絡曲線)をもたらす。図1における黒く塗りつぶした曲線は、例として、カバレッジ(包絡線)を示す。遺伝子軸上の所定の位置における曲線の値は、その位置をカバーするリードの数である。フラグメント開始点ヒストグラム、別のタイプのカバレッジ包絡曲線のような他のヒストグラムも同様に調べる。各遺伝子位置におけるこのヒストグラムの値は、この位置で開始するリードの数である。本発明の方法は、ヒストグラムの特定のタイプには依存せず、遺伝子軸上および遺伝子座におけるフラグメントのセット上の両方で任意のタイプのヒストグラムに適用可能である。
p(locus)(r)=p(total)(r) (4)
である。
p(r|t=i)=pavg(λir−νi) (5)
によって与えられ、ここでλiおよびνiは、転写産物t=iのスケールおよびシフト・パラメータである。これが意味するのは、転写産物t=iがこの転写産物に固有の2つのパラメータλiおよびνiのみを有することである。すべての他のパラメータ、すなわちpavg(r)のパラメータは、異なるp(r|t=i)間で連結される。これは、p(r|t=i)のパラメータを然るべく連結することによってpavg(r)のような異なる転写産物に共通の構造を推定できるという、以下に記載する方法の中心となる考えを際立たせる。以下では、p(r|t=i)を混合関数によってモデリングすることになり、それゆえに(3)においてptotal(r)から分解されるのは、混合関数のうちの混合関数である。読み易くするために、このモデルを本発明のモデルと呼ぶことにする。以下のセクションは、Mix2モデルとも称する本発明のモデルを一般的に紹介し、そのいくつかの変形を考察する。加えて、本発明のモデル、Mix2モデルが確率分布P(r|t=i)を確実に推定できて、Cufflinksモデルよりかなり正確なαiに関する推定値を生み出すことを実験が示す。
2.1.ゲノムにおける位置および転写産物座標における位置
遺伝子軸は、生物に関して配列決定された塩基対の配列であり、通常、0または1で開始し、生物の複雑さによっては数百万塩基対の長さにまで達しうる。加えて、遺伝子軸は、通常、染色体またはコンティグへさらに分割される。遺伝子軸を図5の上部に視覚化し、このグラフィックは、およそ塩基対53,242,500と53,244,200との間の染色体11上のゲノムの選択を表す。転写産物は、通常、遺伝子軸上のエクソンの配列(エクソン1,...,エクソンN)として定義し、i番目のエクソンは、s(エクソンi)で開始し、e(エクソンi)で終結する遺伝子軸上の区間[s(エクソンi),...,e(エクソンi)]である。2つの連続するエクソン間のギャップ[e(エクソンi)+1,s(エクソンi+1)−1]をイントロンと称し、イントロンに先行する最後のヌクレオチドからイントロンの後に続く最初のヌクレオチドへの接続をジャンクションと称する。転写産物の3つの例を図7に示す。この図上のx軸は、1000から5500に及ぶ遺伝子軸を示し、一方でy軸は転写産物idを示す。このように、転写産物1は、位置1000で開始し、位置2500で終結する単一のエクソンからなる。それに対して、転写産物2は、エクソン配列([1500,3200],[4000,5000])によって定義され、一方で転写産物3は、エクソン配列([2700,3200],[4000,5500])よって定義される。従って、転写産物2および3は、図7では破線矢印で示す同じジャンクションを有する。以下では、転写産物の長さをl(t)によって示すことにする。従って、l(転写産物1)=1501、l(転写産物2)=2702およびl(転写産物3)=2002である。図7におけるエクソン配列および転写産物の長さをさらに表1にまとめる。
フラグメントは、転写産物内の連続的な配列である。転写産物と同様に、フラグメントrは、それゆえに遺伝子軸上の区間の配列、r=(rint1,...,rintk)からなり、ここでrinti=[s(rinti),e(rinti)]は、開始s(rinti)および終結e(rinti)をもつi番目の区間である。フラグメントrは、その開始および終結が転写産物のエクソン内に位置し、かつ隣接する区間の間のギャップ[e(rinti)+1,s(rinti+1)−1]が転写産物のイントロンであれば、すなわち、いくつかのi≦kに対して、
s(int1)∈exoni (9)
e(intK)∈exonk (10)
であり、
[e(intk)+1,s(intk+1)−1]∈{[e(exoni)+1,s(exoni+1)−1]:i=1,...,N−1}∀k=1,...,K−1 (11)
であれば、その転写産物と適合する。
以下に記載するモデルは、混合関数を混合した関数を用い、それゆえにMix2モデルと称することにする。
以下では、rは、フラグメントおよび位置の両方を表すことができる。しかしながら、便宜上、rを常にフラグメントと呼ぶことにする。遺伝子座において特定のフラグメントrを観測する確率ptotal(r)は、転写産物に対してフラグメントを観測する確率に、その転写産物がフラグメントを生成する確率を重み付けしたものの和である。従って、ptotal(r)は、次の混合確率分布によって与えられる。
先のセクションにおけるMix2モデルの数学的基礎は、かなり一般的である。このセクションは、多くの具体的に実現したMix2モデルを考察して、その様々な利点および限界を際立たせる。
このセクションにおいて考察する最も簡単なMix2モデルは、異なる転写産物間のi=1,...,Nに対して重みβi,jのみを連結する。従って、このモデルのパラメータのセットは、{αi,βj:i=1,...,N,j=1,...,M}であり、ptrans(r|t=i)は、
先のセクションにおけるモデルは、転写産物の正しい開始点および長さの知識に依存する。このセクションは、ptrans(r|t=i,b=j)を自動的に配置およびスケーリングするモデルを考察する。このモデルは、5つのパラメータ群内のパラメータを連結するので、以下では5tie−Mix2モデルと称することにする。5tie−Mix2モデルは、分布ptrans(r|t=i,b=j)に対してガウシアンを用い、その内部パラメータ、すなわち、それらの平均値μi,jおよび標準偏差σi,jは、パラメータのセット
前モデルのように、このセクションにおけるモデルは、ブロックjに対してβi,jを転写産物にわたって連結し、それゆえにβi,j=βjである。加えて、このセクションにおけるモデルは、5tie−Mix2モデルからの
σi,j=λiσL(i,j)∈L (40)
である。
前セクションでは、式(30)および(31)によって与えられるλの転写産物特有のアフィン線形変換を通じてμjおよびσjから、ガウシアンptrans(r|t=i,b=j)の平均値μi,jおよび標準偏差σi,jを導出した。このセクションは、この概念を一般化して、μi,jおよびσi,jをλにおける多項式、すなわち、
このセクションにおける実験では、確率ptrans(r|t=i,b=j)を次のように因数分解する。
ptrans(r|t=i,b=j)=ptrans(s(r)|t=i,b=j)ptrans(l(r)|t=i,b=j,s(r)) (48)
ここでs(r)およびl(r)は、フラグメントrの開始および長さである。加えて、確率ptrans(l(r)|t=i,b=j,s(r))がs(r)および転写産物の長さl(t)にのみ依存すると仮定する。それゆえに(48)は、
ptrans(r|t=i,b=j)=ptrans(s(r)|t=i,b=j)ptrans(l(r)|l(t),s(r)) (49)に帰着する。
4.1.1 α1=0.28、α2=0.32、α3=0.4に対する1tie−Mix2モデルの収束
前述のように、このセクションにおいてモデルを推定するために用いたデータは、重みα1=0.28、α2=0.32、α3=0.4を用いた図9におけるp(r|t=i)の重ね合わせからフラグメント開始点をサンプリングすることによって生成し、一方でフラグメント長は、再正規化した平均値200および標準偏差80のガウシアンからサンプリングした。これらのサンプリング・データセットのヒストグラムを図13および図14に示す。このセクションにおける1tie−Mix2モデルは、ガウシアンであるように選んだ8つのビルディングブロックbi,j(s(r))を用いる。ガウシアンの平均値は、転写産物の長さにわたって均等に分布し、
このセクションは、セクション4の初めに記載した手順に従って選んだ、重みα1、α2、α3の60個の異なるセットを用いた実験を考察する。従って、α3は、0.2、0.4、0.6、0.8の値をとり、α1およびα2は、0と1−α3との間に等距離間隔で分布する。重みのセットごとに、図15におけるように転写産物2に対してp(r|t=i)を初期化した。他の2つの転写産物に関する分布p(r|t=i)をそれに応じて初期化した。収束判定基準を満たすまでEMアルゴリズムを実行した。最終的な反復で得られたα1を1tie−Mix2モデルの結果として選んだ。同様に、Cufflinksモデルに対して収束判定基準のうちの1つを満たすまでEMアルゴリズムを行い、最終的な反復からのαiをCufflinksモデルの結果として選んだ。図21は、α3=0.2に対するこれらの実験の結果を示す。このグラフのx軸はα1の真の値を示し、y軸は真のαiならびにCufflinksおよび1tie−Mix2モデルによって推定したαiを示す。図21における一点鎖線は、真のαiを指し、一方で点線および破線は、それぞれCufflinksおよび1tie−Mix2の推定値を指す。図21は、α3=0.2に対して、1tie−Mix2の推定値がαiの真の値と非常によく一致し、一方でCufflinksの推定値がむしろ不十分であることを示す。α2=0に対してのみ、Cufflinksおよび1tie−Mix2モデルの推定値が符合する。この状況では、図7からわかるように、完全に分離した転写産物1および3のみが存在する。この場合には、それゆえにEMアルゴリズムは、転写産物1および3に割り当てられたフラグメントの数を単にカウントし、p(r|t=i)の形状には依存しない。図22は、α3=0.4に対して、Cufflinksおよび1tie−Mix2モデルの推定値を示す。α3=0.2については、1tie−Mix2モデルの推定値は、Cufflinksモデルと比較して非常に正確である。α2=0に対してのみ、両方の推定値が符合する。同様の描像がα3=0.6およびα3=0.8に関して浮かび上がる。
このセクションにおけるモデルは、転写産物特有のオフセットおよびスケーリング・パラメータνiおよびλiを推定し、それゆえに、正しい転写産物アノテーションには依存しない。このように、このモデルの可能性を実証するために、3つの誤った転写産物アノテーションを用いてこのモデルをトレーニングする。これらのアノテーションを図25に見ることができる。この図における実線は、図7および表1と同じ正しい転写産物アノテーションを示す。図25における点線は、このセクションにおけるモデルをトレーニングするために用いた誤った転写産物アノテーションを示す。誤った転写産物アノテーションにおけるエクソンの厳密な開始および終了位置ならびに正しいアノテーションとのそれらの差を表4に示す。このセクションにおける5tie−Mix2モデルは、位置1で開始し、位置10000で終結する拡張した転写産物アノテーションを用いる。従って、転写産物2および3の拡張したアノテーションは、同一である。5tie−Mix2モデルのνiおよびλiを誤ったアノテーションと適合するように初期化して表5に示す。転写産物2のλiを1に選び、それゆえに転写産物1および3のλiは、1275/2900=0.4397および2300/2900=0.7931によって与えられる。5tie−Mix2モデルのパラメータの複雑な相互作用に起因して、このモデルの尤度面は、準最適な極大を有する。これらの極大のうちの1つに捕らわれることを回避し、それゆえにαiに関する複数の準最適な推定値を得るために、モデルパラメータを適切に初期化する必要がある。このセクションにおける方策は、実施例4.1.1において1tie−Mix2モデルに関して得た初期値を誤ったアノテーションに対して用い、それらをランダムにある量変化させることであった。このような方法で、200個の異なる初期パラメータセットを生成し、それらに対して収束判定基準のうちの1つを満たすまで、すなわち、後続の反復間の対数尤度における差が0.5未満か、あるいはαiおよびβjの間の差が0.001未満となるまでEMアルゴリズムを行った。得られた200個の結果から、最大尤度をもつ結果を推定値として選んだ。
図26は、重みα1=0.28、α2=0.32、α3=0.4に対して、EMアルゴリズムの収束後に最大尤度をもつ初期パラメータセットに関するαiの収束を示す。この初期パラメータセットではEMアルゴリズムが149回の反復後に収束した。図26におけるx軸はEMアルゴリズムの反復を示し、y軸は対応するαを示す。図26における破線は、EMアルゴリズムの経過中のαiを示し、一方で水平一点鎖線は、真のαiを示す。図26は、αiが真の値に非常に近い値へ収束することを示す。これは、表6にも反映され、同表は、推定したαiとともにEMアルゴリズムの最終的な反復後の正しい重みからのそれらのKLダイバージェンスを示す。EMアルゴリズムの間の他のモデルパラメータの値を図27、28、29、30および31に示す。前述のように、βj、μj、σjの取得値の品質は、結果として生じたp(r|t=i)を検討することによってのみ評価できる。比較として、転写産物特有のシフトおよびスケール・パラメータνiおよびλiは、最終的なモデルが誤った初期仮定を補正するかどうかについて指標を与える。νiの増加は、右へのシフトを示し、一方でλiの増加は、長さにおける増加を示す。図30および31は、それゆえに5tie−Mix2モデルが転写産物1の開始を右へシフトさせて、その長さを増加させ、一方では転写産物2および3の開始を左へシフトさせて、その長さを減少させることを示す。これは、表5に示すような、誤ったアノテーションの正しいアノテーションからのずれと合致する。
このセクションは、重みα1、α2、α3の60個の異なるセット、ならびに5tie−Mix2、1tie−Mix2およびCufflinksモデルを用いた実験を考察する。5tie−Mix2モデルのパラメータを初期化するために、かつ1tie−Mix2およびCufflinksモデルのための固定参照枠として図25における誤った転写産物アノテーションを用いた。図36は、真の値α3=0.2に対して、5tie−Mix2およびCufflinksモデルに関して推定したαiを示す。この図は、真のαiと5tie−Mix2モデルによって推定したαiとの間の良好な一致を示し、一方でCufflinksモデルによって推定したαiは、正解から著しくずれる。真のα1の小さい値に対してのみ、Cufflinksモデルは、5tie−Mix2モデルに近づく推定値を作り出す。この場合には、転写産物1が非常に低い濃度を有し、それゆえに転写産物2および3からのフラグメントのみがEMアルゴリズムにおいて役割を果たす。転写産物1がその誤った末端に起因して転写産物2に対して失うフラグメントの数は無視できるため、これらのフラグメントは、EMアルゴリズムによって転写産物2および3の間でほとんど正しく配分される。しかしながら、α1の増加とともに、Cufflinksモデルは、α2を著しく過大評価し、α1およびα3の過小評価がより顕著になる。この影響は、図37ではさらに強く、短い初期の減少後に、α2に関するCufflinksの推定値は、0.5においてほとんど一定であるように見える。比較として、5tie−Mix2モデルによって推定したαiは、重みの全範囲にわたってやはり非常に正確である。
1tie−Mix2モデルは、セクション4.1.2における正しい転写産物アノテーションを用いた実験ではCufflinksモデルよりはるかに良好であったので、誤った転写産物アノテーションを両方が用いた5tie−Mix2モデルと1tie−Mix2モデルとを比較する価値がある。図40は、真のα3の値0.2に対して、1tie−Mix2および5tie−Mix2モデルに関して推定したαiを示す。図36におけるように、α2は、固定した誤った転写産物アノテーションを用いる1tie−Mix2モデルによって著しく過大評価される。図40における1tie−Mix2モデルのαiの推定値は、図36におけるCufflinksモデルの推定値に比べてわずかにより正確であるが、5tie−Mix2モデルより依然としてかなり不十分である。この傾向は、図41、42および43にも呈示され、これらの図は、1tie−Mix2モデルに関する推定値がCufflinksモデルに関する推定値を少し改善するが、5tie−Mix2モデルの推定値よりかなり不十分であることを示す。総じて、これは、表8における1tie−Mix2モデルに関する平均KLダイバージェンスをもたらし、同表は、KLダイバージェンスの観点から、5tie−Mix2モデルの精度が1tie−Mix2モデルの精度より約12倍高いことを示す。要約すれば、このセクションにおける実験は、正しい転写産物アノテーションがないときにαiに関する信頼性の高い推定値を得るためには、正しい転写産物位置を知ることが可能なモデルの使用が重要であることを示す。
先のセクションにおける実験は、正しいおよび誤った転写産物アノテーションの両方を用いて1tie−Mix2および5tie−Mix2モデルをCufflinksモデルと比較した。60個のパラメータセットα1,α2,α3のセットに関する実験の結果を表9にまとめる。これらの結果は、正しい転写産物アノテーションを用いると1tie−Mix2モデルは、Cufflinksモデルよりはるかに優れており、一方で誤った転写産物アノテーションを用いると5tie−Mix2モデルが1tie−Mix2およびCufflinksモデルの両方に勝ることを示す。これは、適切なMix2モデルの使用が存在比の推定値の精度をかなり改善することを示唆する。
Cufflinksは、転写産物アセンブリおよび転写産物量の推定のための方法を実装したプログラムである。実装の詳細な記載は、非特許文献1に見ることができる。Cufflinksでは、本発明によるαiに対応する転写産物量を式(13)における因数分解を通じて推定し、式(13)においてptrans(s(r)|t=i,l(r))は均一であり、ptrans(l(r)|t=i)は、転写産物t=iに依存しない。Mix2モデルとは対照的に、Cufflinksは、フラグメント開始点s(r)の分布をデータから知ることがなく、そのうえ、正しい転写産物アノテーションの利用可能性に依存する。
式(20)に続く段落において、Mix2モデルのパラメータの連結は、異なる転写産物t=iに関するp(r|t=i)間のある類似性を示唆することを述べた。それゆえに、Mix2モデルのパラメータは、この類似性を呈示する転写産物t=i間でのみ連結されるべきである。群内の転写産物のみがそれらのパラメータを共有するような異なる群に転写産物が分けられるならば、Mix2モデルのEM更新式(27)、(36)および(37)は、修正される必要がある。以下では、各転写産物t=iは、関数G(i)=kを通じてリトリーブできる関連付けられた群g=kを有する。その場合、群g=k内のパラメータβk,j,μk,jおよびσk,jのEM更新式は、以下のように与えられる。
を実行するためにラグランジェ法を用いて、βk,jに関する微分をとると、
を結果として生じ、ここで
である。転写産物間で連結される残りのパラメータ、すなわち、μk,jおよびσk,jに関しては、転写産物t=1,...,Nの完全なセットにわたる和を群g=k内の転写産物にわたる和で置き換えることによって更新式(36)および(37)を修正する必要があり、すなわち、
セクション4において考察した実験では、転写産物特有のフラグメント確率ptrans(r|t=i,b=j)を(48)におけるように因数分解し、フラグメント長の確率分布ptrans(l(r)|t=i,b=j,s(r))は、フラグメント開始s(r)および転写産物t=iの長さl(t=i)のみに依存すると仮定した。加えて、ptrans(l(r)|l(t=i),s(r))は、所与であると仮定した。これらの仮定は、ptrans(l(r)|t=i,b=j,s(r))をデータセットRから推定するのであれば必要なく、Mix2モデルの枠内でこの推定を行うことができる。このために、フラグメント開始s(r)の分布については、ptrans(l(r)|t=i,b=j,s(r))を混合確率分布、すなわち、
として書き、bs=jは、先にb=jによって示した隠れ変数である。ここではbsは、「フラグメント開始のビルディングブロック」に対する簡略記憶記号であり、一方で隠れ変数blは、「フラグメント長のビルディングブロック」に対する簡略記憶記号である。ptrans(l(r)|t=i,bs=j,s(r))は、bs=jに依存しないと仮定するのが賢明であり、従って(57)は、
に帰着する。(15)、(48)および(58)を組み合わせると、フラグメントの確率に関する次の表現をもたらし、
ここで以下が成り立つ。
従って、(59)は、ptrans(r|t=i)の混合重みがβjとγkとの積であるMix2モデルであり、ptrans(r|t=i)の混合成分は、(60)における条件付き確率分布の積である。
結果として、(22)および(27)と同様に、EMアルゴリズムを用いてγkを次のように推定でき、
である。フラグメント長のビルディングブロックptrans(l(r)|t=i,bl=k,s(r))に関しては、例として、その平均値がs(r)とl(t=i)との間、または1とl(t=i)との間のいずれかに等距離に分布して、離散的または連続的な1次元確率空間内のいずれかにおいて正規化したガウシアンを用いることができる。連続的な1次元確率空間上の分布を選ぶならば、それらの内部パラメータ、例えば、平均値、標準偏差、シフトおよびスケール・パラメータは、フラグメント開始ptrans(s(r)|t=i)の確率分布に関するこれらのパラメータと同様に推定できる。
5tie−Mix2モデルは、シフトおよびスケール・パラメータνiおよびλiを推定する。νiを0にセットしてEMアルゴリズムの間に更新しなければ、転写産物t=iの開始は、変化しないままである。転写産物のエンドポイントを固定することになれば、5tie−Mix2モデルを少し修正する必要がある。
これは、νiに関する次のEM更新式をもたらす。
これから、λi (n+1)を(65)に従って導出でき、すなわち、
である。
第4のセクションの実験において考察したMix2パラメータの連結は、位置的なフラグメンテーション・バイアス、すなわち、転写産物内のフラグメント開始に関係するバイアスに関するモデルを実装する。配列特有のバイアスのような、他の種類のバイアスを他のモデル、例えば、非特許文献2における可変長隠れマルコフ・モデル(VLMM:variable length hidden Markov model)を用いて記述してもよい。典型的に、非位置的なバイアスに関するモデルは、ヌクレオチド配列の観測度数をバイアスされていないデータの帰無仮説下におけるそれらの度数と比較する。バイアスされたデータ中でrの単一のコピーを観測することを考慮すれば、バイアスが何もないときのフラグメントrの多重度m=cにわたる確率分布p(m=c|r)を導出するためにこの比較を用いることができる。次に、分布p(m=c|r)は、Mix2モデルのEM更新式における各フラグメントrを予想されるrの多重度により重み付けすることによって、非位置的なバイアスをデータから計算上除去するために用いることができる。存在比αiのEM更新式に関して、例として、これは、
RNA−Seqにおける転写産物の濃度は、通常、FPKM(100万リード当たり、1000塩基対当たりのフラグメント数)またはRPKM(100万リード当たり、1000塩基対当たりのリード数)尺度を用いて測定され、転写産物t=iに関して、後者は、
[1]A.P.デンプスター(Dempster)、N.M.レアード(Laird)、およびD.B.ルービン(Rubin)emアルゴリズムを用いた不完全データからの最大尤度(Maximum likelihood from incomplete data via the em algorithm)Journal of the Royal Statistical Society、Series B、39(1):1 38、1977
[2]ピーター・グラウス(Peter Glaus)、アンティ・ホンケラ(Antti Honkela)およびマグナス・ラトリ(Magnus Rattray)生物学的多様性をもつRNA−Seqデータからの発現変動転写産物の同定(Identifying differentially expressed transcripts from RNA−Seq data with biological variation)Bioinformatics 28(13):1721−1728、2012
[3]ボー・リー(Bo Li)およびコリン・デューイ(Colin Dewey)RSEM:リファレンスゲノム有無のrna−seqデータからの正確な転写産物定量化(accurate transcript quantification from rna−seq data with or without a reference genome)BMC Bioinformatics 12(1):323、2011
[4]ボー・リー(Bo Li),ビクター・ルオーティ(Victor Ruotti)、ロン・M・スチュワート(Ron M Stewart)、ジェームズ・A・トムソン(James A Thomson)、コリン・N・デューイ(Colin N Dewey)リード・マッピングの不確実性を伴うRna−seq遺伝子発現推定(Rna−seq gene expression estimation with read mapping uncertainty)Bioinformatics 26(4):493−500、2010年2月
[5]ジュン・リー(Jun Li)、フェイ・ジアン(Hui Jiang)およびウィン・ワン(Wing Wong)RNA−Seqデータにおけるショートリードの割合の不均一性モデリング(Modeling non−uniformity in short−read rates in RNA seq data)Genome Biology 11(5):R50+、2010年
[6]アダム・ロバーツ(Adam Roberts)、コール・トラップネル(Cole Trapnell)、ジュリー・ ドナヒー(Julie Donaghey)、ジョン・L・リン(John L Rinn)およびリオル・パクター(Lior Pachter)フラグメント・バイアス補正によるrna−seq発現推定値の改善(Improving rna−seq expression estimates by correcting for fragment bias)Genome Biol 12(3):R22 2011年3月
[7]コール・トラップネル(Cole Trapnell)、ブライアン・A・ウィリアムズ(Brian A Williams)、ジオ・ペルテア(Geo Pertea)、アリ・モルタザヴィ(Ali Mortazavi)、ゴードン・クワン(Gordon Kwan)、マレイケ・J・ヴァン・バレン(Marijke J van Baren)、スチーブン・L・ザルツバーグ(Steven L Salzberg)、バーバラ・J・ウォルド(Barbara J Wold)およびリオル・パクター(Lior Pachter)転写産物アセンブリおよびRNA−Seqによる定量化が細胞分化の間のアノテーションされていない転写産物およびアイソフォームのスイッチングを明らかにする(Transcript assembly and quantification by RNA−Seq reveals unannotated transcripts and isoform switching during cell differentiation)Nat Biotechnol 28(5):511−515、2010年5月
[8]ジュヨンプオン・ウー(Zhengpeng Wu)、シー・ワーン(Xi Wang)およびシュエゴン・ジャーン(Xuegong Zhang)、RNA−Seqにおけるアイソフォーム発現推測を改善するための不均一リード分布モデルの使用(Using non−uniform read distribution models to improve isoform expression inference in RNA−Seq) Bioinformatics 27(4):502−508、2011年2月
[9]ロバーツ(Roberts)ら:ゲノム生物学(Genome Biology)12(3)(2011):R22
[10]ウェン−ピン(Wen−Ping)ら:ゲノム生物学(Genome Biology)8(6)(2007):R98
Claims (15)
- コンピュータを用いて転写産物量を推定する方法であって、
a)対象となる遺伝子座の転写産物の潜在的な混合物から転写産物フラグメントシークエンシングデータを得るステップと、
b)前記フラグメントシークエンシングデータを対象となる前記遺伝子座の遺伝子座標に割り当て、それによってフラグメント遺伝子座標カバレッジのデータセットを得るステップであって、遺伝子座標ごとの前記カバレッジは、結合されてカバレッジ包絡曲線を形成する、ステップと、
c)前記混合物の転写産物の数をセットするステップと、
d)転写産物iごとにモデリングされた遺伝子カバレッジの確率分布関数を予めセットするステップであって、iは、転写産物のための数値識別子を示し、前記確率分布関数は、少なくとも2つの確率サブ関数jの和を乗じた前記転写産物iの重み係数αiによって定義され、jは、確率サブ関数のための数値識別子を示し、各確率サブ関数jは、重み係数βi,jによって独立に重み付けされる、ステップと、
e)サム関数を得るために各転写産物の前記確率分布関数を加算するステップと、
f)前記サム関数を前記カバレッジ包絡曲線へフィッティングし、それによってフィットを向上させるために、αiおよびβi,jに関する値を最適化するステップと、
g)予めセットされた収束判定基準が満たされるまでステップe)およびf)を繰り返し、それによって前記収束判定基準が満たされた後に最適化されるような前記重み係数αiによって与えられる、前記混合物の転写産物ごとの推定転写産物量を得るステップと
を備える方法であって、
前記コンピュータが、前記ステップa)における転写産物フラグメントシークエンシングデータを入力する手段、前記ステップb)〜g)を行う演算手段、及び前記ステップg)における前記混合物の転写産物ごとの推定転写産物量を出力する手段を備える、方法。 - 転写産物フラグメントシークエンシングデータは、少なくとも5つの転写産物フラグメント配列を備える、請求項1に記載の方法。
- 対象となる前記遺伝子座は、1つ以上の遺伝子または遺伝因子の1つ以上のアイソフォームを備え、好ましくは1つの遺伝子または遺伝因子の少なくとも2つのスプライスバリアントを備える、請求項1または2に記載の方法。
- 転写産物の数をセットする前記ステップは、予めアノテーションされている配列データを対象となる前記遺伝子座から得ることと、転写産物の前記数を、対象となる前記遺伝子座から予想される、異なるアイソフォームとしてカウントするスプライスバリアントを含む、異なるアイソフォームの少なくとも前記数にセットすることとを備える、請求項1から3のいずれか一項に記載の方法。
- 前記確率サブ関数jは、各遺伝子座標ごとに正値から構成され、好ましくは密度関数である、請求項1から4のいずれか一項に記載の方法。
- 前記確率サブ関数jは、非周期関数であり、好ましくはガウス関数、正方形関数、三角形関数、特に好ましくはガウス関数である、請求項1から5のいずれか一項に記載の方法。
- 前記遺伝子座標は、対象とならない遺伝子領域を削除するように随意的に変換された、ゲノムにおけるヌクレオチド位置に対応し、好ましくは前記対象とならない遺伝子領域は、前記転写産物フラグメントシークエンシングデータによるカバレッジを含まない、請求項1から6のいずれか一項に記載の方法。
- スプライスジャンクションをもつ遺伝子座標位置を前記カバレッジ包絡曲線から除去することを備えたステップb2)をさらに備える、請求項1から7のいずれか一項に記載の方法。
- 前記フラグメント遺伝子座標カバレッジは、遺伝子座標に割り当てられたフラグメント配列ごとに少なくとも1つのヌクレオチドのカウントを含み、好ましくは、前記少なくとも1つのヌクレオチドは、フラグメント開始点またはフラグメント配列全体を備える、請求項1から8のいずれか一項に記載の方法。
- 転写産物に関する前記確率サブ関数は、それぞれ異なる遺伝子座標における極大を備える、請求項1から9のいずれか一項に記載の方法。
- ステップd)において、転写産物に関する前記確率サブ関数は、正値を用いて転写産物の全長をカバーするために前記遺伝子座標において配置またはシフトされる、請求項1から10のいずれか一項に記載の方法。
- 少なくとも1つの転写産物、好ましくはmRNAの配列リードを確定するステップを備え、前記リードは、前記転写産物フラグメントシークエンシングデータを提供するために前記転写産物のフラグメントの配列を備える、請求項1から11のいずれか一項に記載の方法。
- 前記転写産物フラグメントシークエンシングデータの前記転写産物フラグメント配列は、5から800ヌクレオチド、好ましくは6から600ヌクレオチド、より好ましくは7から400ヌクレオチド、なおさらに好ましくは8から200ヌクレオチド、とりわけ好ましくは9から150ヌクレオチド、特に好ましくは10から100ヌクレオチド、最も好ましくは12から70ヌクレオチドの長さを有する、請求項1から12のいずれか一項に記載の方法。
- 転写産物iに関する確率サブ関数ごとの半値全幅値は、およそ同一である、請求項1から13のいずれか一項に記載の方法。
- コンピュータ上で請求項1から14のいずれか一項の方法を行うためのコンピュータプログラム製品を備える、コンピュータ可読メモリ装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13175774.2 | 2013-07-09 | ||
EP13175774.2A EP2824601A1 (en) | 2013-07-09 | 2013-07-09 | Transcript determination method |
EP14170767 | 2014-06-02 | ||
EP14170767.9 | 2014-06-02 | ||
PCT/EP2014/064310 WO2015004016A1 (en) | 2013-07-09 | 2014-07-04 | Transcript determination method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016531344A JP2016531344A (ja) | 2016-10-06 |
JP6423426B2 true JP6423426B2 (ja) | 2018-11-14 |
Family
ID=51134089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016524758A Active JP6423426B2 (ja) | 2013-07-09 | 2014-07-04 | 転写産物判定方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20160328514A1 (ja) |
EP (1) | EP2943906B1 (ja) |
JP (1) | JP6423426B2 (ja) |
KR (1) | KR102408080B1 (ja) |
CN (1) | CN105408909B (ja) |
AU (1) | AU2014289407B2 (ja) |
CA (1) | CA2916188C (ja) |
DK (1) | DK2943906T3 (ja) |
LT (1) | LT2943906T (ja) |
WO (1) | WO2015004016A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944224B (zh) * | 2017-12-06 | 2021-04-13 | 懿奈(上海)生物科技有限公司 | 构建皮肤相关基因标准型别数据库的方法及应用 |
CN107944226B (zh) * | 2017-12-19 | 2020-03-27 | 清华大学 | 基于信息论基因转录本组装与量化方法及系统 |
CN116312796B (zh) * | 2022-12-27 | 2023-11-14 | 江苏先声医学诊断有限公司 | 一种基于期望最大化算法的宏基因组丰度估计方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6632610B2 (en) * | 2000-10-12 | 2003-10-14 | Gensat S.A. | Methods of identification and isolation of polynucleotides containing nucleic acid differences |
JP5198284B2 (ja) * | 2005-12-22 | 2013-05-15 | キージーン ナムローゼ フェンノートシャップ | 高処理量配列決定技術を使用する転写産物の特徴づけのための改良された戦略 |
US20090171640A1 (en) | 2007-12-28 | 2009-07-02 | Microsoft Corporation | Population sequencing using short read technologies |
WO2009091798A1 (en) | 2008-01-16 | 2009-07-23 | Helicos Biosciences Corporation | Quantitative genetic analysis |
US8483970B2 (en) * | 2008-09-29 | 2013-07-09 | The Trustees Of Columbia University In The City Of New York | Method for identifying aQTL regions whose genotype modulates transcription factor activity |
KR101295784B1 (ko) | 2011-10-31 | 2013-08-12 | 삼성에스디에스 주식회사 | 목표 유전체 서열 내의 신규서열 생성 장치 및 방법 |
-
2014
- 2014-07-04 WO PCT/EP2014/064310 patent/WO2015004016A1/en active Application Filing
- 2014-07-04 KR KR1020167001053A patent/KR102408080B1/ko active IP Right Grant
- 2014-07-04 JP JP2016524758A patent/JP6423426B2/ja active Active
- 2014-07-04 AU AU2014289407A patent/AU2014289407B2/en active Active
- 2014-07-04 LT LTEP14735959.0T patent/LT2943906T/lt unknown
- 2014-07-04 CN CN201480039309.XA patent/CN105408909B/zh active Active
- 2014-07-04 CA CA2916188A patent/CA2916188C/en active Active
- 2014-07-04 EP EP14735959.0A patent/EP2943906B1/en active Active
- 2014-07-04 DK DK14735959.0T patent/DK2943906T3/en active
- 2014-07-04 US US14/903,425 patent/US20160328514A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CA2916188A1 (en) | 2015-01-15 |
US20160328514A1 (en) | 2016-11-10 |
CN105408909A (zh) | 2016-03-16 |
DK2943906T3 (en) | 2017-09-18 |
AU2014289407B2 (en) | 2020-01-02 |
JP2016531344A (ja) | 2016-10-06 |
CN105408909B (zh) | 2018-10-26 |
KR20160029800A (ko) | 2016-03-15 |
WO2015004016A1 (en) | 2015-01-15 |
LT2943906T (lt) | 2017-10-10 |
KR102408080B1 (ko) | 2022-06-10 |
EP2943906B1 (en) | 2017-06-21 |
EP2943906A1 (en) | 2015-11-18 |
CA2916188C (en) | 2021-08-03 |
AU2014289407A1 (en) | 2016-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Phillippy | New advances in sequence assembly | |
Daley et al. | Modeling genome coverage in single-cell sequencing | |
US8725422B2 (en) | Methods for estimating genome-wide copy number variations | |
Kolpakov et al. | mreps: efficient and flexible detection of tandem repeats in DNA | |
JP2019507585A5 (ja) | ||
Delcher et al. | Identifying bacterial genes and endosymbiont DNA with Glimmer | |
Kuleshov | Probabilistic single-individual haplotyping | |
US20220101944A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
JP7171709B2 (ja) | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 | |
Wallace et al. | Estimating selection on synonymous codon usage from noisy experimental data | |
JP2018500625A (ja) | シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス | |
Jonikas et al. | Knowledge-based instantiation of full atomic detail into coarse-grain RNA 3D structural models | |
JP6423426B2 (ja) | 転写産物判定方法 | |
Suo et al. | Joint estimation of isoform expression and isoform-specific read distribution using multisample RNA-Seq data | |
US20180322242A1 (en) | A System and Method for Compensating Noise in Sequence Data for Improved Accuracy and Sensitivity of DNA Testing | |
Rogozin et al. | Computer prediction of sites associated with various elements of the nuclear matrix | |
EP2824601A1 (en) | Transcript determination method | |
Xiong et al. | Probabilistic estimation of short sequence expression using RNA-Seq data and the “positional bootstrap” | |
Bansal | An accurate algorithm for the detection of DNA fragments from dilution pool sequencing experiments | |
US20160154930A1 (en) | Methods for identification of individuals | |
Zararsiz | Development and application of novel machine learning approaches for RNA-seq data classification | |
Li et al. | Micro-dissection and integration of long and short reads to create a robust catalog of kidney compartment-specific isoforms | |
EP4204582A1 (en) | Linked dual barcode insertion constructs | |
WO2024010812A2 (en) | Methods and systems for determining copy number variant genotypes | |
Li et al. | Prober: A general toolkit for analyzing sequencing-based ‘toeprinting’assays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180813 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6423426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |