JP5610347B2 - リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム - Google Patents

リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム Download PDF

Info

Publication number
JP5610347B2
JP5610347B2 JP2010508258A JP2010508258A JP5610347B2 JP 5610347 B2 JP5610347 B2 JP 5610347B2 JP 2010508258 A JP2010508258 A JP 2010508258A JP 2010508258 A JP2010508258 A JP 2010508258A JP 5610347 B2 JP5610347 B2 JP 5610347B2
Authority
JP
Japan
Prior art keywords
sequence
fragment
molecular weight
nucleic acid
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010508258A
Other languages
English (en)
Other versions
JPWO2009128526A1 (ja
Inventor
中山 洋
洋 中山
美沙紀 秋山
美沙紀 秋山
俊明 礒邉
俊明 礒邉
万悟 田岡
万悟 田岡
山内 芳雄
芳雄 山内
信弘 高橋
信弘 高橋
石川 英明
英明 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Tokyo Metropolitan University
RIKEN Institute of Physical and Chemical Research
Original Assignee
NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Tokyo Metropolitan University
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY, Tokyo Metropolitan University, RIKEN Institute of Physical and Chemical Research filed Critical NATIONAL UNIVERSITY CORPORATION TOKYO UNIVERSITY OF AGRICULUTURE & TECHNOLOGY
Priority to JP2010508258A priority Critical patent/JP5610347B2/ja
Publication of JPWO2009128526A1 publication Critical patent/JPWO2009128526A1/ja
Application granted granted Critical
Publication of JP5610347B2 publication Critical patent/JP5610347B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システムに関し、特に、リボ核酸(以下、ribonucleic acidの略称であるRNAと記す場合がある。)の質量データ(特に、開裂により生じるプロダクトイオン質量情報)を用いて配列データベースを検索しRNAを同定するリボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システムに関する。
従来から、質量分析によるタンパク質の同定方法が開発されている。
例えば、分子量セットを用いる方法(mass fingerprinting)、タンデム質量分析(MS/MS)データを用いて配列データベースを検索する方法(MS/MSイオン検索)、および、MS/MSスペクトル情報のみから部分配列情報を得る方法(de novo sequencing)が多数開発されており、そのうちのいくつかは市販プログラムとして利用できるようになっている(非特許文献2〜6、8)。
また、近年、タンパク質をコードしないRNA(非コードRNA)の機能に注目が集まっており、質量分析によるRNAの同定方法が開発されてきている。
例えば、比較的単純なRNA混合物から、あるRNAの消化物に特有なシグニチャー質量を用いてその存在を確認する方法(非特許文献1)が報告されている。
また、例えば、核酸についてもde novo sequencing(非特許文献7)が報告されている。
また、例えば、RNA分子量を用いてゲノム上でRNA配列を同定する装置および方法(特許文献1)が報告されている。
ここで、タンパク質の質量分析において、タンパク質を構成するアミノ酸残基は、ペプチド結合部分と側鎖部分とに分けられる。このうち、アミノ酸残基の種類や修飾により質量変化が起きるのは側鎖部分であり、ペプチド結合部分には通常質量変化は起こらない。
これに対して、RNA/DNAでは、構成ヌクレオチド残基はリン残基、リボース(または、デオキシリボース)、塩基の三つの部分から構成されており、修飾様式という観点からは、タンパク質より化学構造が複雑である。これらのうち、リボース、塩基の双方に修飾による質量変化が起こりうる。また、この構造を反映してMS/MSスペクトルの開裂パターンも複雑化しやすい傾向にある。また、核酸の間でもRNAとDNAは、開裂パターンが異なっており、RNA/DNAの質量分析をもちいた同定法においては、それぞれの開裂経路に応じた得点配分が必要となる。
そのため、従来の質量分析によるタンパク質の同定方法(非特許文献2〜6の技術)では、タンパク質に特化しているため、RNAには適用できなかった。
特開2008−21260号公報
Hossain,M.and Limbach,P. "Mass spectrometry−based detection of transfer RNAs by their signature endonuclease digestion products." 2007, RNA, 13,1−9. Perkins DN,Pappin DJ,Creasy DM,Cottrell JS. "Probability−based protein identification by searching sequence database using mass spectrometry data." 1999, Electrophoresis, 20,3551−3567. Yates JR,Eng Jk, McCormack AL,Schieltz D. "Method to correlate tandem mass spectra of modified peptides to amino acid sequence in the protein database." 1995, Anal.Chem. 67,1426−1436. Zhang,W.and Chait,B. "ProFound: An expert system for protein identification using mass spectrometric peptide mapping information" 2000, Anal.Chem. 72,2482−2489. Geer LY et al. "Open Mass Spectrometery Search Algorithm" 2004, J.Proteome Res. 3,958−964. Sadygov RG,Cociorva D,Yates JR. "Large−scale database searching using tandem mass spectra: looking up the answer in the back of the book" 2004, Nat Methods. 1,195−202. Oberacher H, Mayr BM, Huber CG.Automated de novo sequencing of nucleic acids by liquid chromatography−tandem mass spectrometry.J Am Soc Mass Spectrom. 2004 Jan;15(1):32−42. Siegel MM, Bauman N.An efficient algorithm for sequencing peptides using fast atom bombardment mass spectral data.Biomed Environ Mass Spectrom. 1988 Mar 15;15(6):333−43.
しかしながら、従来の質量分析によるRNA同定方法では、混合物試料中の個々の成分を同定することができず、同定の特異性や信頼性が低く、転写後修飾の部位を同定出来ないという問題点があった。
例えば、特許文献1の技術は、単一の消化オリゴヌクレオチドの分子量では、原理的に単一の配列を特定できないため、単一のRNAを酵素消化して生じる複数の分子量セットを用いてデータベース検索を行っている。このため、試料中に複数のRNAが混在する場合には、有効に適用することができなかった。また、miRNA等の20数残基程度の短い分子からは酵素消化断片が数本程度しか得られない場合もあり、これらの分子量情報からのみでは、分子を同定できない可能性があり、同定の信頼性が低いという問題点があった。
また、非特許文献1の技術は、可能性のあるRNAのリストが小規模である場合のみという限られた条件下で、比較的単純なRNA混合物からRNAの存在を確認できるものであり、一般的なRNAの同定方法とは呼べなかった。
また、非特許文献7の技術は、データベース検索する方法と比較して高い計算力を必要とする。非特許文献7では転写後修飾の解析については言及されていないが、特に、非コードRNAでしばしば検出される転写後修飾を考慮する場合には必要な計算力が指数的に増加する。
また、近年、ゲノムシークエンシング技術が飛躍的に加速しているため、近い将来、データベース上に分析対象となる全ての配列が存在する可能性が高く、今後は、この非特許文献7の技術のように、データベース検索なしにスペクトル解析を行う必要性は減少していくと考えられる。質量分析データをもちいてタンパク質・核酸を同定するための方法の位置づけについて図1にまとめた。
本発明は、上記に鑑みてなされたもので、核酸残基組成しか与えない消化物分子量だけでなく、MS/MSで生成する配列を含む内部構造情報を与えるプロダクトイオン質量のセットから核酸残基配列情報を得ることにより、個々の消化物の同定信頼性を飛躍的に高めることができるリボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システムを提供することを目的とする。
本発明においてリボ核酸を同定する目的を達成するため、本発明のリボ核酸同定装置は、記憶部と制御部とを備えたリボ核酸同定装置であって、上記記憶部は、残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを記憶するピーク記憶手段と、核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、を備え、上記制御部は、上記ピークから実測断片分子量を抽出する実測断片分子量抽出手段と、上記断片化規則を参照して、上記核酸配列を断片化する断片化手段と、上記断片化手段で断片化した結果得られた上記核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出手段と、上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出手段と、上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出手段と、上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出手段と、上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出手段と、上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付け手段と、上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定手段と、検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出手段と、上記出現確率に基づいて、上記候補配列同定手段で同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付け手段と、上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定手段と、を備えたことを特徴とする。
また、本発明のリボ核酸同定装置は、上記記載のリボ核酸同定装置において、上記記憶部は、上記リボ核酸の修飾規則を記憶する修飾規則記憶手段を更に備え、上記制御部は、上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う修飾変換手段を更に備えたことを特徴とする。
また、本発明のリボ核酸同定方法は、制御部と記憶部とを備えたリボ核酸同定装置において実行されるリボ核酸同定方法であって、上記記憶部は、残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを記憶するピーク記憶手段と、核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、を備え、上記制御部において実行される、上記ピークから実測断片分子量を抽出する実測断片分子量抽出ステップと、上記断片化規則を参照して、上記核酸配列を断片化する断片化ステップと、上記断片化ステップで断片化した結果得られた上記核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出ステップと、上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出ステップと、上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出ステップと、上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出ステップと、上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出ステップと、上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付けステップと、上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定ステップと、検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出ステップと、上記出現確率に基づいて、上記候補配列同定ステップで同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付けステップと、上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定ステップと、を含むことを特徴とする。
また、本発明のリボ核酸同定方法は、上記記載のリボ核酸同定方法において、上記記憶部は、上記リボ核酸の修飾規則を記憶する修飾規則記憶手段を更に備え、上記制御部において実行される、上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う修飾変換ステップを更に含むことを特徴とする。
また、本発明のプログラムは、制御部と記憶部とを備えたリボ核酸同定装置において実行させるためのプログラムであって、上記記憶部は、残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを記憶するピーク記憶手段と、核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、を備え、上記制御部において実行させるための、上記ピークから実測断片分子量を抽出する実測断片分子量抽出ステップと、上記断片化規則を参照して、上記核酸配列を断片化する断片化ステップと、上記断片化ステップで断片化した結果得られた上記核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出ステップと、上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出ステップと、上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出ステップと、上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出ステップと、上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出ステップと、上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付けステップと、上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定ステップと、検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出ステップと、上記出現確率に基づいて、上記候補配列同定ステップで同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付けステップと、上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定ステップと、を含むことを特徴とする。
また、本発明のプログラムは、上記記載のプログラムにおいて、上記記憶部は、上記リボ核酸の修飾規則を記憶する修飾規則記憶手段を更に備え、上記制御部において実行させるための、上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う修飾変換ステップを更に含むことを特徴とする。
また、本発明は記録媒体に関するものであり、上記記載のプログラムを記録したことを特徴とする。
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、上記記載のプログラムを、コンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
このように、本発明のリボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システムは、RNA残基配列特異的な切断方法により生じた断片のMS/MSにより得られる、各断片の分子量および内部構造情報を表すプロダクトイオン質量セットを用いて核酸配列データベースを検索し、候補配列に得点を与え、最も高い得点を得た候補配列のうち得点が閾値を越えたものを同定配列とし、得られた同定配列を用いてゲノム配列を含む核酸配列データベースにマッピングすることを特徴とする。ここで、「RNA残基配列特異的な切断方法」とは、例えば、ヌクレアーゼによる酵素的な切断方法や、化学的な切断方法(文献「Peattie DA.Direct chemical method for sequencing RNA.Proc Natl Acad Sci U S A. 1979 Apr;76(4):1760−4.」を参照)などを含むものである。本明細書では、「RNA」を、DNAの塩基配列を転写した情報伝達媒体として扱う場合には、DNA同様、塩基配列で定義(規定)する。また、RNA断片化酵素(リボヌクレアーゼ)の基質特異性は、塩基やリボース部分に修飾を含むRNAを質量分析で扱う場合、また、塩基の種類だけでなく塩基部分およびリボース部分のメチル化などの修飾にも影響を受けることや、RNA創薬では塩基、リボース、リン酸部それぞれに官能基を導入した合成RNAなどを扱う可能性があることから、塩基配列だけで規定(表現)することはできないので、本明細書では、「RNA」を、生体分子(物(モノ))として扱う場合(塩基配列だけで規定(表現)することができない場合)には、モノヌクレオチド単位が重合した生体分子として定義(表現)し、当該ヌクレオチド単位を「残基」と定義する。なお、リン酸は、ヌクレオシドの5’末端または3’末端のどちらに含まれていても(付加しても)よい。具体的には、ポリヌクレオチドの3’末端処理において3’末端の残基がリン酸の修飾を受けていると解釈したり、また5’末端処理において5’末端の残基がリン酸の修飾を受けていると解釈したりすることで、質量計算の辻褄を合わせてもよい。
本発明によれば、(1)スペクトルのピークから実測断片分子量を抽出し、(2)断片化規則を参照して、核酸配列を断片化し、(3)断片化した結果得られた核酸配列の断片配列について計算断片分子量を算出し、(4)計算断片分子量と実測断片分子量とを比較することにより、実測断片分子量に対応する候補計算断片分子量を抽出し、(5)候補計算断片分子量に対応する断片配列である候補断片配列を、断片配列から抽出し、(6)断片配列について、所定の開裂規則に従って計算プロダクトイオン質量を算出し、(7)ピークから実測プロダクトイオン質量を抽出し、(8)計算プロダクトイオン質量と実測プロダクトイオン質量とを比較することにより、候補断片配列にスコアを付け、(9)スコアに基づいて、候補断片配列から、RNAの断片配列を同定する。
これにより、核酸残基組成しか与えない消化物分子量だけでなくプロダクトイオン質量のセットから核酸残基配列情報を得ることにより、個々の消化物の同定信頼性を飛躍的に高めることができるという効果を奏する。
また、本発明によれば、検索対象核酸配列データベース(検索対象として予め指定した部分集合)内での核酸配列の断片配列の出現確率を算出し、出現確率に基づいて、RNAの断片配列(同定断片配列)と核酸配列とを比較することにより、核酸エントリーにマッピングスコアを付け、付けたマッピングスコアに基づいて、最も確からしい核酸エントリーを同定する。
これにより、同定配列セットのデータベースへのマッピングを定量的に評価できるという効果を奏する。
また、本発明によれば、修飾規則を参照して、断片配列において修飾配列と未修飾配列との変換を行う。そして、修飾を含まない配列データベースに対して、試料に含まれるRNA中の転写後修飾の存在を検出しさらには修飾部位を特定する。
これにより、修飾を含む試料にも本発明を適用することができるという効果を奏する。
そして、本発明によれば、上記した効果が得られる結果、混合物にも本発明を適用することができるという効果を奏する。
図1は、質量分析の各種解析手法(mass fingerprinting,MS/MS ion search,denovo sequencing)における性質の違いや、タンパク質とRNAを対象試料とする場合の従来技術の有無について、まとめた図表である。 図2は、本発明が適用される本RNA同定装置の構成の一例を示すブロック図である。 図3は、本実施の形態におけるRNA同定装置100のRNA検索のデータフローを示すフロー図である。 図4は、本実施の形態におけるデータベース加工処理の一例を示すフローチャートである。 図5は、本実施の形態における酵素消化処理の一例を示すフローチャートである。 図6は、本実施の形態におけるMS/MSイオン検索処理の一例を示すフローチャートである。 図7は、本実施の形態におけるマッピング処理の一例を示すフローチャートである。 図8は、本実施の形態における出現確率算出処理の一例を示すフローチャートである。 図9は、RNA鎖長に対して特定可能な組成および配列の種類数を示すグラフである。 図10は、マージデータベースに対して検索した結果の比較の一例を示す図である。 図11は、マージデータベースに対して検索した結果の比較の一例を示す図である。 図12は、tRNA−Phe RNase T1消化物のLC−MS/MSクロマトグラムである。 図13は、tRNA−PheをDNA配列に対して検索した結果を示す図表である。 図14は、MS/MSスペクトルとプロダクトイオンのアサインの一例を示す図である。 図15は、酵母 tRNAの陰イオン交換カラムによる分取を示す図である。 図16は、酵母 tRNA, 陰イオン交換の画分No.10の逆相LCによる脱塩・精製を示す図である。 図17は、酵母tRNA混合物フラクション10−2 RNase T1消化物のLC−MS/MSクロマトグラムである。 図18は、酵母tRNA混合物フラクション10−2 RNase T1消化物検索結果のマッピングスコアヒストグラムである。 図19は、マッピングにより同定した配列領域の一例を示す図である。 図20は、マッピングにより同定した配列領域の一例を示す図である。 図21は、マッピングにより同定した配列領域の一例を示す図である。 図22は、マッピングにより同定した配列領域の一例を示す図である。 図23は、本発明が適用される本RNA同定システム構成の一例を示すブロック図である。
[I.本発明の概要]
質量分析データをもちいてタンパク質・核酸を同定するための方法の位置づけについて図1にまとめた。RNAのMS/MSイオン検索法はマスフィンガープリンティング法と比べて同定の信頼性が高いと考えられること、計算量がde novo sequencing法に比べて少ないことから有用と考えられる。MS/MSイオン検索は、タンパク質の同定では一般的な手法である。しかし、この方法をRNAの同定に適用しようとする場合、主に3つの問題があったため、従来適用されていなかった。
(1)RNAは4つの残基から構成されるため20種類のアミノ酸残基から構成されるタンパク質と比べて、配列の多様性が少ない。このため10残基程度の単一断片配列では元のDNA/RNAを同定出来ないことがある。特にゲノムのような巨大な配列データベースに対して検索する場合には、ある断片配列がそのデータベース内でユニークになることはまれである。したがって、この構造的な制約により、RNA同定法は後述するマッピングを備えることが望ましい。
(2)非コードRNAにしばしば見出される転写後修飾は修飾様式がタンパク質に比べて多様である。すなわち、タンパク質の場合には、通常修飾されうるのはアミノ酸残基の側鎖だけである。これに対して、RNAの修飾は、どの塩基、リボースにも起き得ることから修飾部位の判別が難しい場合がある。また一つの塩基の複数部位に、複数の同一または別の修飾がなされる場合がある。RNAでは、4種類全てのヌクレオシドにメチル化など同じ修飾が起こりえる。このため、全ての残基に対して修飾可能性を考慮して検索を行わなければならない。また、一つの残基に複数の修飾部位がある場合があり、異なる部位に異なる官能基が修飾している例も多数報告されている。このようにRNAのMS/MSイオン検索ではタンパク質には無い形式の修飾を扱う必要がある。
(3)従来からタンパク質のデータベースがよく整備されているのに対し、非コードRNAではrRNA、tRNA以外に関するデータベースが未成熟である。非コードRNAは、ゲノムのどの部位から転写されるかのルールが確立していない。したがって、現状ではゲノムや巨大な核酸配列に対して二本鎖の両側を検索する必要があり、計算量が膨大である。また、ゲノムDNAの繰り返し領域を扱う必要性がある。
これらの問題点を解決するため、本発明は以下の2つの部分から構成される。
(1) MS/MSイオン検索・・・残基特異的断片化産物をタンデム質量分析して得られたピークのプレカーサイオンの分子量と複数のプロダクトイオン質量から断片配列を同定する。
(2) マッピング・・・同定断片配列リストと核酸配列を比較することにより、全核酸エントリーにマッピングスコアを付け、当該スコアに基づいて、最も確からしい核酸エントリーを同定する。
本発明のMS/MSイオン検索では、後述する確率的な評価により断片の同定信頼性を高めることが出来る。本発明のMS/MSイオン検索では、断片配列から修飾断片配列を派生することで、しばしば非コードRNAに見出される転写後修飾を考慮して検索することが出来る。
本発明では、MS/MSイオン検索で同定した断片配列の組を検索対象データベースの各エントリーにマッピングし、確率的な評価によりエントリー同定の信頼性を高めることが出来る。
本発明のマッピングでは、ゲノムなどの巨大なデータベースエントリーに対応するために、エントリーを分割してサブエントリーとすることが出来る。適切な大きさのサブエントリーに分割することで、試料中のRNAが由来したゲノム上の位置を同定することが出来る。サブエントリーへの分割方法としては、単純に残基数による、断片数による、繰り返しを除いた断片数によるなどの方法をもちいることが出来る。
本発明では、MS/MSイオン検索とマッピングの両方で目的の断片配列あるいはエントリーを確率的に評価する。すなわち、個々の断片配列あるいはエントリーを偶然同定する確率を求め、この確率をもちいて同定の確からしさを評価する。確率が低いほど偶然生じる可能性が低くなるため、その同定には意味があると考える。実際には利用しやすいように、低い確率ほど高くなるようにスコア付けして評価にもちいる。しかし、一般に、ある検索対象に対する最も高いスコアが有意とは限らない。そこで、本発明では、得られたスコアの有意性を客観的に判断するために、閾値をもちいることが出来る。閾値はデータベースの大きさに依存して定まるものと、スコア自身の分布により定まるもののいずれかあるいは両方をもちいることが出来る。
[II.リボ核酸同定装置の構成]
図2は、本発明が適用されるリボ核酸同定装置の構成の一例を示すブロック図である。
RNA同定装置100は、記憶部106と制御部102を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。
記憶部106は、データベースやテーブル(核酸配列DB106a〜同定核酸エントリー表106m)の記憶手段である。当該記憶手段は、固定ディスク等のストレージ手段であってもよく、RAM等のような一時的記憶手段であってもよい。また、これらの記憶手段は制御部と共用であってもよい。また、記憶部106は制御部102により加工された中間記憶データ(106e、106i〜106m)を記憶してもよい。以下では、記憶部106の各構成要素を説明する。
核酸配列DB106aは、核酸エントリーを記憶する核酸配列情報記憶手段である。ここで、「核酸エントリー」とは、配列の同定を行うための核酸配列の検索単位であり、配列をエントリー名と対応付けて記憶する。「エントリー名」とは、核酸エントリー毎に核酸配列に対応付けた識別番号等である。好適には、エントリー名として、同定対象である一つのRNAに対応する核酸配列単位で識別番号等が付与されてもよい。また、ここで、核酸配列DB106aは、所定の部分集合(ヒトゲノム配列、マウスゲノム配列、ヒト非コードRNA等)に分けて核酸配列を記憶してもよい。ここで、本発明において、部分集合とは、核酸配列DB106aの部分集合を言う。部分集合は種名と分子の種類名あるいは性質などにより特定してもよい。例えば、ヒトrefseq、哺乳類tRNAなどである。
断片化規則表106bは、残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段である。例えば、断片化規則表106bは、RNase T1が指定される場合は、配列中のグアニン(G)の3’側を断片化部位として規定し、Colicin E5が指定される場合は、グアニン−ウラシル(GU)のGの3’側を断片化部位として規定する。
質量定義表106cは、配列からRNAの分子量を計算するために、RNAを構成するリボースやリン酸や各塩基の質量を規定した質量情報記憶手段である。例えば、質量定義表106cは、リボース:115.0395、アデニン(A):134.0467のように、RNAを構成する元素や官能基を表す記号と質量を対応付けて記憶する。
修飾規則表106dは、RNA構成要素ごとに修飾しうる官能基を記憶する修飾情報記憶手段である。例えば、塩基やリボースに対するメチル化や、アデニン塩基の脱アミノ化、ウラシル塩基のジヒドロ化などがある。また、この修飾規則表106dには、各修飾様式に対応付けて修飾により変更される質量を記憶してもよい。
また、ピークリスト106gは、タンデム質量分析データから抽出されたピークを記憶するピーク情報記憶手段である。
制御部102は、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、又は記憶部もしくは記憶部との共用記憶手段に記憶されているデータを認識するための手段を有し、これらのプログラム等により、種々の情報処理を行う。制御部102は、実測断片分子量抽出部102a、断片化部102b、計算断片分子量算出部102c、候補計算断片分子量抽出部102e、候補断片配列抽出部102f、計算プロダクトイオン質量算出部102g、実測プロダクトイオン質量抽出部102h、アサインスコア算出部102i、候補配列同定部102j、出現確率算出部102k、エントリースコア付け部102p、エントリー同定部102q、修飾変換部102nを備える。以下では、制御部102の各要素を説明する。
実測断片分子量抽出部102aは、ピークリスト106gに記憶されたピークについて、プリカーサイオンに対応する実測断片分子量を抽出する実測断片分子量抽出手段である。
断片化部102bは、断片化規則表106bを参照して、核酸配列DB106aから取得した核酸配列を断片化する断片化手段である。
計算断片分子量算出部102cは、断片化部102bで断片化した結果得られた核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出手段である。
候補計算断片分子量抽出部102eは、実測断片分子量抽出部102aにより抽出された実測断片分子量と、計算断片分子量算出部102cにより算出された計算断片分子量とを比較することにより、ピークリスト106gに記憶されたピークから候補計算断片分子量を抽出する候補計算断片分子量抽出手段である。
候補断片配列抽出部102fは、候補計算断片分子量抽出部102eにより抽出された候補計算断片分子量に対応する断片配列を候補断片配列として抽出する候補断片配列抽出手段である。
計算プロダクトイオン質量算出部102gは、与えられた断片配列について、所定の開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出手段である。
ここで、計算プロダクトイオン質量算出部102gは、候補断片配列リスト106iの候補断片配列について、プロダクトイオンに対応する計算プロダクトイオン質量を算出してもよい。また、ここで、計算プロダクトイオン質量算出部102gは、質量定義表106cを参照して計算プロダクトイオン質量を算出してもよく、また、計算断片分子量算出部102cが計算断片分子量を算出する場合に用いた当該断片配列の構成要素(リン酸、リボース、各塩基)毎の分子量に基づいて、計算プロダクトイオン質量を算出してもよい。
実測プロダクトイオン質量抽出部102hは、ピークリスト106gから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出手段である。
アサインスコア算出部102iは、計算プロダクトイオン質量算出部102gにより算出された計算プロダクトイオン質量と、実測プロダクトイオン質量抽出部102hにより抽出された実測プロダクトイオン質量とを比較することにより、候補断片配列にアサインスコアを付けるスコア付け手段である。
候補配列同定部102jは、アサインスコア算出部102iで付けたアサインスコアに基づいて、候補断片配列から、同定断片配列を抽出する候補配列同定手段である。
出現確率算出部102kは、核酸配列DB106aに記憶された核酸配列集合のうち検索対象として予め指定した部分集合内での核酸配列の断片配列の出現確率を算出する出現確率算出手段である。
エントリースコア付け部102pは、出現確率算出部102kにより算出された出現確率に基づいて、同定断片表106kの同定断片配列と核酸配列DB106aで記憶した核酸配列とを比較することにより、核酸エントリーにマッピングスコアを付けるエントリースコア付け手段である。
エントリー同定部102qは、エントリースコア付け部102pで付けたマッピングスコアに基づいて、尤もらしい(例えば、最も確からしい)核酸エントリーを同定するエントリー同定手段である。
修飾変換部102nは、修飾規則表106dに記憶された修飾規則を参照して、断片配列において、修飾配列と未修飾配列との変換を行う修飾変換手段である。ここで、修飾変換部102nは、修飾の無い核酸配列に修飾を付加してもよく、また、修飾を含む同定断片配列を元の核酸エントリーの配列に対応付けるために、断片配列から修飾を除去してもよい。
[III.本RNA同定装置100の処理]
次に、このように構成された本実施の形態におけるRNA同定装置100の処理の一例について、図2および図3を参照して説明する。図3は、本実施の形態におけるRNA同定装置100のRNA検索のデータフローを示すフロー図である。
なお、以下に示すRNA同定装置100の処理の順序は一例であり、この説明の順序に限られるものではない。特に、候補計算断片分子量抽出部102eの処理までの、実測側の処理(実測断片分子量抽出部102aの処理)および計算側の処理(断片化部102b〜計算断片分子量算出部102cの処理)は、いずれが先に実行されてもよく、また同時に並行して処理が行われてもよいものである。同様に、アサインスコア算出部102iの処理までの、実測側の処理(実測プロダクトイオン質量抽出部102hの処理)および計算側の処理(断片化部102b〜計算プロダクトイオン質量算出部102gの処理)は、いずれが先に実行されてもよく、また同時に並行して処理されてもよいものである。また、更には、計算側(断片化部102b、計算断片分子量算出部102c、計算プロダクトイオン質量算出部102g)の各処理による計算結果は、予めデータベース化されて、記憶部106の断片配列表106eや計算プロダクトイオン表106j等に格納されていてもよいものである。また、出現確率の算出は、断片化部102bで行なってもよく、断片化後からエントリースコア付け部102pの直前までどのタイミングで行なってもよい。
図2の断片化部102bは、核酸配列DB106aから核酸エントリー毎に核酸配列を取得して、断片化規則表106bに記憶された指定された切断方法に対応する断片化規則に基づいて、当該核酸配列を断片配列に断片化する。ここで、断片化部102bは、断片化結果を断片配列表106eに一時的に格納してもよい。また、断片化部102bは、指定された部分集合の核酸配列について断片化を実行してもよい。また、ここで、修飾変換部102nは、修飾規則表106dを参照して、修飾の無い断片配列に修飾を付加してもよい。
また、ここで、出現確率算出の一部を行ってもよく、出現確率算出部102kは、核酸配列DB106aに記憶された核酸配列のうち検索対象として予め指定された核酸配列の部分集合(例えば、ヒトrefseqや酵母tRNAデータベース等)内での当該断片配列の出現確率を算出し、断片配列表106eに断片配列と出現確率とが対応付けられる形式で格納してもよい。
そして、計算断片分子量算出部102cは、断片化部102bによって断片化された断片配列について、質量定義表106cを参照して、計算断片分子量を算出し、当該断片配列と対応付ける。ここで、計算断片分子量算出部102cは、断片配列表106eに断片配列と当該計算断片分子量とを対応付けられる形式で格納してもよい。
一方、検索クエリは所定の切断方法で切断されたRNAのタンデム質量分析データから抽出されたピークリスト106gである。タンデム質量分析データからのピーク抽出は質量分析計メーカーが提供するソフトウェア(Thermo−Fischer社, Xcalibur;Waters社,Masslynxなど(会社名))あるいは市販のソフトウェア(Matrix Science社, Mascot Distillerなど(会社名))により行うことが出来る。典型的なピークリストは以下に示すように、断片の分子量とプロダクトイオンの質量および強度を対応付けて記憶する。
断片1分子量
プロダクトイオン1質量,プロダクトイオン1強度
プロダクトイオン2質量,プロダクトイオン2強度
プロダクトイオン3質量,プロダクトイオン3強度
・・・
プロダクトイオンM質量,プロダクトイオンM強度
断片2分子量
プロダクトイオン1質量,プロダクトイオン1強度
プロダクトイオン2質量,プロダクトイオン2強度
プロダクトイオン3質量,プロダクトイオン3強度
・・・
プロダクトイオンN質量,プロダクトイオンN強度
ピークリストは上記の他に断片イオンの質量、電荷、強度、溶離時間、スキャン番号、コメントなどの付加情報を含んでもよい。一つのピークリストに複数のMS/MSに相当するピークが含まれていてもよい。この場合にはピークとピークは適当な区切り文字により区切られていてもよい。なお、上の例では空行により区切っている。ここで、ピークリストは、ピークごとにファイルを分けてもよい。また、複数のピークリストファイルを一つのピークリストとみなして、一回のデータベース検索にもちいてもよい。
実測断片分子量抽出部102aは、図3に示すように、ピークリスト106gから実測断片分子量を抽出する。
そして、候補計算断片分子量抽出部102eは、抽出された実測断片分子量を、計算断片分子量と比較することにより、候補計算断片分子量を抽出する。
そして、候補断片配列抽出部102fは、候補計算断片分子量抽出部102eにより抽出された候補計算断片分子量に対応する断片配列を、候補断片配列として断片配列表106eから抽出する。候補断片配列抽出部102fは、抽出した候補断片配列を候補断片配列リスト106iに記憶してもよい。
そして、計算プロダクトイオン質量算出部102gは、候補断片配列について、所定の開裂規則に従って、計算プロダクトイオン質量を算出し、候補となる断片配列と、後述する各プロダクトイオンのイオン名(「a1」,「w3」など)と、計算プロダクトイオン質量とを対応付けて記憶する計算プロダクトイオン表106jを作成する。
ここで、RNAは、主鎖がリン酸、リボースという二つの要素から構成され、さらに側鎖である塩基がリボースに結合した構造を有する。この構造に起因してペプチドと異なり低エネルギーでも開裂部位が二箇所(5’側:リボース−−3’O−P−−5’O−リボース:3’側(ここで、矢印「↓」は開裂部位を示す))に存在する。リボース−3’O結合間で開裂した場合、5’末端側のプロダクトイオンはa系列と呼ばれ、3’末端側のプロダクトイオンは、w系列と呼ばれる。また、P−5’O結合間で開裂した場合、5’末端側のプロダクトイオンはc系列と呼ばれ、3’末端側のプロダクトイオンは、y系列と呼ばれる。5’末端を含むa,c系列は5’側から、例えばa1,a2,a3・・・と数える。これに対して3’末端を含むw,y系列は3’側から数える。
そして、実測プロダクトイオン質量抽出部102hは、ピークリスト106gから実測プロダクトイオン質量を抽出する。例えばイオン強度が閾値以上のピークの実測プロダクトイオン質量を抽出する。ここで、実測プロダクトイオン質量抽出部102hは、実測断片分子量抽出部102aにより抽出された実測断片分子量に基づいて、プリカーサイオンに対応するピークを、抽出する実測プロダクトイオン質量から除去してもよい。
そして、アサインスコア算出部102iは、計算プロダクトイオン質量算出部102gにより算出された計算プロダクトイオン表106jの計算プロダクトイオン質量と、実測プロダクトイオン質量抽出部102hにより抽出された実測プロダクトイオン質量とを比較することにより、候補断片配列にアサインスコアを付ける。
そして、候補配列同定部102jは、アサインスコア算出部102iによりスコア付けされたアサインスコアに基づいて、候補断片配列リスト106iの候補断片配列から、RNAの断片配列を同定断片配列として同定する。ここで、候補配列同定部102jは、当該同定断片配列とアサインスコアとを対応付けて同定断片表106kに格納してもよい。出現確率算出部102kは、核酸配列DB106aに記憶された核酸配列のうち検索対象として予め指定された核酸配列の集合(例えば、ヒトゲノム配列等)内での断片配列の出現確率を算出する。当該断片配列と対応付けて同定断片表106kに格納してもよい。また、ここで、断片配列表106eの断片配列、および、同定断片表106kの同定断片には、後述の修飾変換処理、重複除去、切れ残り断片派生の各処理が行われてもよい。
そして、エントリースコア付け部102pは、同定断片表106kの出現確率に基づいて、同定断片表106kの同定断片配列と核酸配列DB106aに記憶された核酸配列とを比較して、核酸エントリーにマッピングスコアを付け、同定核酸エントリー表106mを作成する。例えば、エントリースコア付け部102pは、出現確率が高い同定断片配列については、同定対象のRNAに対する信頼性が低いと評価して、マッピングスコアを低く見積もる。以上により、同定核酸エントリー表106mには、核酸エントリーに対応する、エントリー名とマッピングスコアと同定断片配列リスト(核酸エントリーの核酸配列由来の複数の同定断片配列)が格納される。
そして、エントリー同定部102qは、エントリースコア付け部102pによりスコア付けされたマッピングスコアに基づいて、尤もらしい(例えば、最も確からしい)核酸エントリーを同定する。例えば、エントリー同定部102qは、エントリースコア付け部102pで求められた複数のマッピングスコアについて標準偏差を求め、z−スコアが所定の閾値以上の核酸エントリーを同定結果として出力してもよい。
以上で、RNA同定装置100の全体的な処理フローの説明を終える。次に、上述したRNA同定装置100の各構成(実測断片分子量抽出部102a〜修飾変換部102n)の処理において、更に詳細化した処理について、以下に図4〜図8を参照して説明する。
[検索条件設定処理]
RNA同定装置100は、以下の(1)〜(8)を含む検索条件に基づき検索を行う。RNA同定装置100は、検索条件をあらかじめ記憶しておいてもよいし、利用者に入力装置を介して指定させるよう制御してもよい。
(1)生物種:例えば、ヒト、酵母、哺乳類、全て等
(2)データベース種類:例えば、ゲノム配列、refseq等
(3)切断方法:例えば、RNase T1,U2,A等のヌクレアーゼ名、化学的切断方法等
(4)考慮する最大の切れ残り:例えば、0〜3程度
(5)考慮する最大修飾数:例えば、0〜3程度
(6)許容質量誤差:質量分析計の精度に応じて、例えば、10〜500ppm程度、タンデム質量分析計の種類によりプリカーサイオン、プロダクトイオンの質量精度が異なる場合がある。この場合にはそれぞれについて別の許容質量誤差を指定することが出来る。
(7)末端官能基:例えば、リン酸基、水酸基、キャップ(5’のみ)、2’,3’−環状リン酸(3’のみ)など
(8)質量テーブル(質量定義表106cに格納される。):残基毎に単同位体質量を算出したテーブル
[断片化処理]
核酸断片DB106aに記憶された核酸配列はDNA配列またはRNA配列である。DNA配列またはRNA配列を含むFasta形式ファイルを断片化の対象データベース(DB)としてもよい。
核酸断片DB106aに記憶された核酸配列がRNA配列である場合、上述したように、断片化部102bは、断片化規則表106bに記憶された、利用者に指定された切断方法に対応する断片化規則を参照して、核酸配列DB106aから取得した核酸配列を断片化する。しかしながら、核酸断片DB106aに記憶された核酸配列がDNA配列である場合、そのままでは生体内に存在するRNAの配列と対応しないため、以下に示すように、DNA配列からRNA配列への変換である転写処理(T→U)を行う必要がある。また、核酸配列DB106aに格納された核酸配列がゲノムDNAである場合には、二本鎖の双方からRNAが産出される場合を想定して相補鎖を派生する必要がある。
すなわち、図4に示すように、断片化部102bは、利用者に指定された検索条件[生物種]および[データベース種類]に基づいて、核酸配列DB106aから指定の核酸配列の集合の核酸エントリーを読み込む(ステップSA−1)。ここで、断片化部102bは、核酸配列DB106aがゲノムDB等であり、一つのエントリーが巨大な場合には、この一つの核酸エントリーを核酸サブエントリーに分割してもよい。例えば、サブエントリーへの分割方法としては、単純に残基数による、断片数による、繰り返しを除いた断片数によるなどの方法をもちいることが出来る。
そして、断片化部102bは、読み込んだ核酸配列がDNA配列であるかを判断する(ステップSA−2)。
そして、断片化部102bは、DNA配列であると判断した場合(ステップSA−2:Yes)、転写処理を行う(ステップSA−3)。
断片化部102bは、DNA配列でない、すなわちRNA配列と判断した場合(ステップSA−2:No)、または、転写処理(ステップSA−3)を終えた場合、読込元の核酸配列DB106aがゲノムDBであるか判断する(ステップSA−4)。
そして、断片化部102bは、ゲノムDBであると判断した場合(ステップSA−4:Yes)、相補鎖派生処理を行う(ステップSA−5)。ここで、相補DNAを派生した後に転写処理を行ってもよく、逆にまず転写処理を行ってから相補RNAを派生してもよい。
断片化部102bは、読込元の核酸配列DB106aがゲノムDBでないと判断した場合(ステップSA−4:No)、または、以上の相補鎖派生処理を終えた場合(ステップSA−5)、以上の処理で取得したRNA配列について、以下の残基配列特異的断片化処理を行う(ステップSA−6)。ここで、図5は、本実施の形態における断片化処理の一例を示すフローチャートである。なお、以下の例では、残基配列特異的な切断方法として1塩基認識酵素であるリボヌクレアーゼT1(RNase T1)を用いた場合について説明するが、本実施の形態は、1塩基認識酵素に限られず、2塩基以上を認識する酵素を用いてもよい。また、酵素的な切断方法に限らず、化学的な切断方法などを用いてもよい。
(酵素消化処理)
図5に示すように、まず、断片化部102bは、カウンタiと断片jを0にセットする(ステップSA−61)。
そして、断片化部102bは、入力されたRNA配列からi文字目の配列を読み込む(ステップSA−62)。
そして、断片化部102bは、i文字目を断片jに付加する(ステップSA−63)。
そして、断片化部102bは、i文字目が特異的な残基配列であるかを判断する(ステップSA−64)。
そして、断片化部102bは、i文字目が特異的な残基配列であると判断した場合(ステップSA−64:Yes)、断片jを断片配列表106eの断片配列リストに付加する(ステップSA−65)。一方、断片化部102bが、i文字目は特異的な残基配列でないと判断した場合(ステップSA−64:No)、ステップSA−67の処理へ進む。
そして、断片化部102bは、断片jを1つインクリメントする(j++)(ステップSA−66)。
そして、断片化部102bは、カウンタiを1つインクリメントする(i++)(ステップSA−67)。
そして、断片化部102bは、読み込んだi文字目がRNA配列の総文字数Nより小さいか否かを判断する(ステップSA−68)。
そして、断片化部102bは、読み込んだi文字目がRNA配列の総文字数Nより小さい場合(ステップSA−68:Yes)、ステップSA−62に戻り、以上のステップSA−62〜68の処理を繰り返す。
そして、断片化部102bは、読み込んだi文字目が配列総文字数N以上である場合(ステップSA−68:No)、利用者により指定された検索条件[末端官能基]に従って、断片jに末端を付加する(ステップSA−69)。
また、断片化部102bは、指定された検索条件[考慮する最大の切れ残り]に従って、切れ残り断片を派生させる(ステップSA−70)。例えば、最大切れ残りが1箇所と設定された場合、断片化部102bは、上述の処理で検索した特異的残基のうち1箇所について断片化しない断片配列についても、断片配列表106eに格納する。
再び図4に戻り、以上のように、断片化部102bは、酵素消化処理において、読み込んだ配列を全て断片化するまで処理を続け、断片配列リストを作成し断片配列表106eに格納する(ステップSA−6)。なお、核酸配列DB106aに記憶された配列が、塩基を特定できなかった場合のシンボル(例えば、一文字表記N)を含む場合は、分子量計算が不可能なので、断片配列リストを作成する際に排除してもよい。また、ここで、修飾変換部102nは、指定された検索条件[考慮する最大修飾数]に従って、修飾規則表106dを参照して、修飾の無い断片配列に修飾を付加してもよい。また、ここで後述の通り出現確率算出の一部を行ってもよい。
[MS/MSイオン検索処理]
断片化されたRNA配列について、RNA同定装置100は、以下のMS/MSイオン検索処理を実行する。MS/MSイオン検索処理の前半工程(ステップSB−1〜4)は、実測断片分子量抽出部102a、計算断片分子量算出部102c、候補計算断片分子量抽出部102e、および、候補断片配列抽出部102fによって実行される、プリカーサイオンについての質量検索である。一方、MS/MSイオン検索処理の後半工程(ステップSB−5〜11)は、プロダクトイオンについての質量検索である。ここで、図6は、本実施の形態におけるMS/MSイオン検索処理の一例を示すフローチャートである。
まず、計算断片分子量算出部102cは、断片化部102bにより作成された断片配列表106eの断片配列リストの各断片配列について、質量定義表106cを参照して、プリカーサイオンに対応する計算断片分子量を算出して、計算断片分子量リストを作成し、RNA同定装置100は、計算断片分子量リストを読み込む(ステップSB−1)。
そして、実測断片分子量抽出部102aは、タンデム質量分析データから抽出したピークを記憶するピークリスト106gのうち、MS1スペクトルのピークについての質量値(m/z)および電荷(z)を参照して、プリカーサイオンに対応する実測断片分子量を読み込む(ステップSB−2)。
そして、候補計算断片分子量抽出部102eは、読み込んだ実測断片分子量(プリカーサイオンに対応する質量)に関して、計算断片分子量リストに対して質量検索を行う(ステップSB−3)。なお、検索結果が空集合の場合は「外れ」となる。
そして、候補計算断片分子量抽出部102eは、検索結果の計算断片分子量が、利用者に指定された検索条件[許容質量誤差]の許容誤差範囲内にあるか否かを判断する(ステップSB−4)。
そして、候補計算断片分子量抽出部102eは、許容誤差範囲内にないと判断した場合(ステップSB−4:No)、ステップSB−2に戻り、他のファイルのピークリスト106gに記憶された実測プロダクトイオン質量を読み込んで、ステップSB−2〜4の処理を繰り返す。
一方、候補計算断片分子量抽出部102eは、許容誤差範囲内にあると判断した場合(ステップSB−4:Yes)、当該計算断片分子量に対応する断片配列を断片配列表106eから取得して候補断片配列とし、候補断片配列リスト106iを作成して、次のステップSB−5へ進む。
そして、実測プロダクトイオン質量抽出部102hは、ピークリスト106gに記憶されたMS2スペクトルのピークについて、実測プロダクトイオン質量の組を抽出し、一方、計算プロダクトイオン質量算出部102gは、候補断片配列リスト106iの各候補断片配列について、所定の開裂規則に従って、各系列のプロダクトイオンに対応する計算プロダクトイオン質量の組を算出し、計算プロダクトイオン表106jを作成する(ステップSB−5)。
そして、アサインスコア算出部102iは、実測プロダクトイオン質量に関して、計算プロダクトイオン表106jに対して質量検索を行う(ステップSB−6)。
そして、アサインスコア算出部102iは、検索結果の計算プロダクトイオン質量と実測プロダクトイオン質量とを比較することにより、候補断片配列にアサインスコアを付けるアサインスコア算出処理を実行する(ステップSB−7)。
そして、アサインスコア算出部102iは、アサインスコア算出処理を行ったピークリスト106gが、最後のピークリストのファイルであるかを判断する(ステップSB−8)。
そして、アサインスコア算出部102iは、最後のピークリストのファイルでないと判断した場合は(ステップSB−8:No)、ステップSB−2の処理へ戻り、他のファイルのピークリスト106gについて、以上のステップSB−2〜8の処理を繰り返す。
一方、アサインスコア算出部102iは、最後のピークリストのファイルであると判断した場合は(ステップSB−8:Yes)、候補配列同定部102jは、閾値を算出する(ステップSB−9)。
そして、候補配列同定部102jは、アサインスコア算出部102iで付けたアサインスコアに基づいて、候補断片配列リスト106iの候補断片配列から、RNAの断片配列を同定断片配列として同定し、算出した閾値以上のアサインスコアに基づいて整列(例えば、降順にソート)させた同定断片表106kを作成する(ステップSB−10)。ここで、候補配列同定部102jは、候補断片配列の全ての開裂断片に対してスコア付けが終わったら、各アサインスコアを閾値と比較し、比較の結果、閾値よりこのスコアが高ければ、このアサインスコアを与えた候補断片配列を同定断片配列とする。なお、最高のアサインスコアを与える配列が複数存在する場合には、その全てを同定断片配列とみなしてもよい。
ここで、同定断片表106kに基づいて出力されるデータには、同定断片配列の組および属性値(例えば、分子量、アサインスコア、閾値、MS2アサインリストなど)等が含まれてもよい。
そして、RNA同定装置100は、マッピング処理を続けて行わない場合、候補配列同定部102jの処理により、同定断片表106kに基づいて、同定断片配列のセットおよび属性値を整形した結果を出力する。以上で、MS/MSイオン検索処理の一例の説明を終える。
以下では本発明のRNA同定装置が採用している確率モデルについて説明する。実測プロダクトイオン質量について設定した許容質量誤差範囲内に計算プロダクトイオン表106jに含まれる計算プロダクトイオン質量が存在する場合、この実測プロダクトイオン質量はマッチしたという。
本実施の形態においては、計算量を少なくするため、マッチを独立試行とし、個々のマッチ確率は等しいと仮定した単純な確率モデルをもちいる。なお、この実施の形態に限られず、マッチを独立試行とせず(例えば、y系列プロダクトイオンのマッチとw系列プロダクトイオンのマッチが相関する等)、等確率でない確率モデルを設定してもよい。
本実施の形態の確率モデルによれば、あるRNA断片のMS/MSスペクトルにおいて、マッチを評価したピークをn本、そのうちヒットしたものをx本とすると、これらの事象が同時に起こる確率Passignは、
assign*p*(1−p)(n−x)
となる。
ここで、「」は、nからmを選ぶ組み合わせの場合の数である。これは、n回サイコロを投げてx回同じ目(例えば一の目)が出る確率と同様に考えることができる。
また、「p」は、個々のプロダクトイオンが偶然にマッチする確率である。サイコロの例えでは何面体のサイコロをもちいるかに対応する。
p=Mtol*Mcenter/(Mmax−Mmin
である。
ここで、「Mtol」は、相対値(例えば、%,ppmなど)で表した許容質量誤差であり、「Mcenter」は、測定質量範囲の中心値であり、「Mmax」および「Mmin」は、測定質量範囲のそれぞれ上下限値である。
なお、確率値Passignは、信頼性の高い結果では非常に小さくなり直感的な相互比較が難しいため、本実施の形態においては、−logPassignをアサインスコアとする。
一方、アサインスコア算出部102iにより算出されたアサインスコアのうち有意なものを評価するための閾値は、候補配列同定部102jによって、一例として以下のように求められる。
すなわち、候補配列同定部102jは、本実施の形態において、アサインスコアの閾値として、「データベースの大きさに依存した閾値」および/または「スコア分布に依存した閾値」を以下のように算出する。
ここで、「データベースの大きさに依存した閾値」とは、設定した危険率で偶然生じてしまう場合のアサインスコアを閾値とするものである。具体的には、ある候補を偶然同定する確率を「P」(ここで、ランダムであるのでどの候補を同定する確率も同じであると考える)とし、候補断片配列の数を「N」、全候補から一つでも偶然同定する確率、すなわち危険率を「p」とすると、
p=1−(1−P)
となる。
これをPについて解くと、
P=1−(1−p)1/N
となる。
ここで、危険率pとしては、通常0.05をもちいるが、解析目的やもちいる質量分析計の質量精度に応じて、0.01など異なる値をもちいてもよい。
したがって、P以下の確率で、断片配列を同定することができれば、その同定はランダムではないといえる。
すなわち、上述のアサインスコアと同様に対数で表すと、アサインスコア算出部102iによってスコア付けされたアサインスコアである「−logPassign」が、候補配列同定部102jにより算出された閾値である「−logP」よりも大きければ、有意な同定であると評価でき、候補配列同定部102jは、当該候補断片配列を候補断片配列として同定断片表106kに格納する。
ここで、他の同定評価方法として、「スコア分布に依存した閾値」を用いてもよい。「スコア分布に依存した閾値」としては、例えば、あるアサインスコアが、不正解である大多数の断片配列に対するアサインスコアの分布からどの程度離れているかを示す指標を用いる。例えば、スコア分布が正規分布とみなせる場合には、以下の計算式によるz−スコアZを用いてもよい。
Z=(s−Smean)/σ
ここで、sはある断片配列のスコア、Smeanは全ての断片配列に対するスコアの平均値、σはスコアの標準偏差である。
なお、z−スコアの閾値としては、スコア付け方法やデータベースの種類などにより異なるため、実験条件に応じて指定してもよい。
[マッピング処理]
次に、マッピング処理について、以下に図7および図8を参照して詳細に説明する。
ここで、マッピング処理において、核酸配列に含まれる断片配列の種類と数に基づいてマッピングを行ってもよい。なお、各断片配列の出現確率を数え上げによる算出に限らず、長さ毎の平均出現確率やその他の推定出現確率を用いてもよい。
出現確率算出部102kは、核酸配列DB106aに記憶された核酸配列のうち検索対象として予め指定した核酸配列の集合内での断片配列の出現確率を算出し、エントリースコア付け部102pは、出現確率算出部102kにより算出された出現確率に基づいて、同定断片表106kの同定断片配列と、核酸配列DB106aから取得した核酸配列を比較することにより、核酸エントリーにマッピングスコアを付ける。エントリー同定部102qは、これらのマッピングスコアに基づいて、尤もらしい(例えば、最も確からしい)核酸エントリーを同定する。ここで、図7は、本実施の形態におけるマッピング処理の一例を示すフローチャートである。
図7に示すように、まず、エントリースコア付け部102pは、断片配列表106eの断片配列リストを読み込む(ステップSC−1)。
そして、エントリースコア付け部102pは、候補配列同定部102jが出力した同定断片配列リストを読み込む(ステップSC−2)。
ここで、断片配列表106eの断片配列、および、同定断片表106kの同定断片には、次の処理が行われていてもよい。すなわち、修飾変換部102nは、核酸配列DB106aの核酸配列がDNA配列等であり、修飾がない場合には、同定断片配列から修飾を除き、修飾を除いた元の配列としてもよい。また、修飾変換部102nは、修飾を取った同定断片配列リストに重複が生じた場合には、重複を取り除いてもよい。また、断片化部102bは、各核酸エントリー(またはサブエントリー)を、仮想的に断片化して生じる断片配列が重複する場合、重複を取り除いてもよい。また、断片化部102bは、指定された検索条件[考慮する最大の切れ残り]に従って、切れ残り断片を派生させた断片についても(最大切れ残りが1箇所と指定された場合、特異的残基のうち1箇所について断片化しない断片配列についても)、予め断片配列表106eに格納してもよい。
そして、出現確率算出部102kは、以下の出現確率算出処理を行う(ステップSC−3)。ここで、図8は、本実施の形態における出現確率算出処理の一例を示すフローチャートである。
すなわち、図8に示すように、出現確率算出部102kは、断片配列表106eの断片配列リスト(DB)に対して(ステップSC−31)、断片配列リスト(DB)の各断片配列が、同定断片表106kの同定断片リストにマッチするかを判断する(ステップSC−32)。
そして、出現確率算出部102kは、同定断片配列リストにマッチすると判断した場合(ステップSC−32:Yes)、各断片のマッチ数を断片ごとにカウントする(ステップSC−33)。
一方、出現確率算出部102kは、同定断片配列リストにマッチしないと判断した場合(ステップSC−32:No)、該当する断片配列を非同定断片として、その総数をカウントする(ステップSC−34)。
そして、出現確率算出部102kは、ステップSC−31〜ステップSC−35の処理をループさせ(ステップSC−35)、断片配列表106eの全断片配列についてカウントする。
そして、出現確率算出部102kは、断片配列表106eの全断片数を算出する(ステップSC−36)。
そして、出現確率算出部102kは、全断片数に対する各同定断片数の割合をその同定断片の出現確率として算出する(ステップSC−37)。ここで、全断片数に対する非同定断片の総数の割合をそれぞれの非同定断片の出現確率とする。
なお、出現確率算出部の一部を候補配列同定部より前に行う場合は、ここで同定断片リストを参照して全非同定断片の出現確率の和を求めて、これをそれぞれの非同定断片の出現確率とする。
[MS/MSイオン検索処理]の候補配列同定部102jで1つのピークリストのプリカーサイオンから複数の断片配列が同じアサインスコアで同定された場合、これらの断片配列は区別ができないため、複数の断片配列の出現確率の和を算出し、これをそれぞれの断片配列の出現確率としてもよい。
再び図7に戻り、エントリースコア付け部102pは、核酸エントリー(サブエントリーを含む。)のマッピングスコア算出処理を行う(ステップSC−4)。
マッピングスコアの算出においては、同定断片配列と断片配列の対応付けを行い、マッチしたものとマッチしなかったものを、それぞれカウントすることにより、出現確率を考慮してマッピングスコアを算出する。すなわち、本実施の形態においては、マッチは独立事象とするが、マッチ確率は一定と仮定せず、各断片配列の実際のデータベース内での出現確率に従ってマッピングスコアを算出する。換言すれば、エントリースコア付け部102pの処理により、個々の断片配列はランダムかつ独立に出現すると仮定して、ある核酸エントリーの核酸配列に断片配列の組が偶然共存する確率を算出する。そして、エントリースコア付け部102pは、核酸エントリーから生じる各断片配列の出現確率を乗じることでこの選択確率(確率を−logを取ってスコア化してもよい)を算出する。この偶然共存する確率が小さく起こりにくい場合ほどそのエントリーが元の試料に含まれていた可能性が高いと考える。
すなわち、本実施の形態におけるマッピングスコアは、次のように求められる。検索対象核酸配列データベース内でのマッチ断片の出現確率をそれぞれp、p、p、・・・、マッチしない断片の出現確率の和をpnotとし、あるエントリーの全断片数をN、マッチ断片数をa、b、c、・・・、マッチしない断片の総数をnnotとすると、そのエントリーが偶然に同定される確率Pentryは、
entry=N!/(a!*b!*c!*・・nnot!)*p^a*p^b*p^c*・・・・pnot^nnot
となる。
ここで、繰り返し配列の重みを考慮し、エントリー内での各断片を重複を除いたユニークなものとして考えると、あるエントリーの全断片数は断片の種類数となるのでこれをMとし、マッチ断片数はそれぞれ1となるので、Pentryは、次式で求められる。
entry=M!/(nnot!)*p*p*p*・・・・(pnot)^nnot
この選択確率Pentryの−logを取ってスコア化したものをマッピングスコアとしてもよい。
再び図7に戻り、エントリー同定部102qは、エントリースコア付け部102pで付けたマッピングスコアに基づいて、核酸エントリーを整列化(例えば、降順にソート)する(ステップSC−5)。
そして、エントリー同定部102qは、マッピングスコアの閾値を算出する(ステップSC−6)。ここで、エントリースコア付け部102pは、データベースの大きさに依存した閾値を算出してもよい。すなわち、エントリースコア付け部102pは、全ての核酸エントリーのマッピングスコアについて、上述のようにz−スコアを算出してもよい。
そして、エントリー同定部102qは、所定の閾値(例えば、利用者に検索条件として指定させた閾値)以下のマッピングスコアを有する核酸エントリーについて排除して、同定核酸エントリー表106mを作成する。すなわち、エントリー同定部102qは、所定の閾値よりスコアが高ければ、このスコアを与えた核酸エントリーを同定核酸エントリーとする。
[IV.実施例]
(実施例1)
ここで、配列と分子量の情報量の差について図9を参照して説明する。従来の断片分子量の組をもちいてゲノム上の位置を同定する方法と本発明の断片配列の組をもちいてゲノム上の位置を同定する方法との識別能力の差を簡単な計算に見積る。
ACUGAUCGCUAGというRNAだけからなるデータベースの存在を仮定する。このRNAをRNase T1で消化したときに生じる断片配列は{ACUG, AUCG, CUAG}であり、分子量はどの配列も1303.175なので{1303.175}となる。ただし、断片の5’末端はOH、3’末端は環状リン酸基とする。この例の場合、配列からは3つの断片をそれぞれ識別出来るのに対して、分子量は全て同じ値となるため分子量からではどの断片かを識別出来ない。このように、あるデータベース、断片化条件を設定したときに生じうる断片配列数および断片分子量数を比較すれば配列と分子量を同定にもちいる際の識別能力の差を見積もることが出来る。
まず原理的に可能なRNA断片について考える。断片化法としてはRNase T1を仮定し、断片化は完全に進行すると仮定する。
次に、実際の生物ゲノムでは構造的、生理的なバイアスが掛かるため、原理的に可能な全ての配列が現れるわけではない。したがって、S. cerevisiaeゲノムから生じうるRNase T1断片ヌクレオチドを考える。ゲノムを裏表双方向で転写して生成したRNAをさらにRNaseT1で断片化して生じる断片について配列、組成を数え上げた。
実施例1において、一般的なRNase T1断片の配列は、XのN−1回の繰り返し・Gと表現できる。ここで、XはA,C,U残基のいずれかを表し、Nは鎖長を表す。このとき鎖長Nの断片配列数は3N−1となる。4〜19残基の断片について鎖長ごとの配列数を図9に示した(配列1)。図9の横軸は鎖長、縦軸はlog10変換した種類数である。
S.cerevisiaeゲノムをRNase T1で断片化した結果、4〜19残基の断片について360726種類の断片配列が生成した。これらの断片について鎖長ごとに配列数を数え図9に示した(配列2)。鎖長が10以上では予想通り原理的に可能な配列数と実際にゲノム上に現れる配列数は乖離した。したがって、10残基を超える鎖長では、可能な全ての配列を考慮しなければならないde novo sequencingに対して、実際にゲノム上に現れる配列とその派生物のみを考えればよいMS/MSイオン検索の方が必要とする計算量が少ない。
(比較例)
上記実施例と同じ場合について考える。まず、分子量の意味について確認すると、誤差無しで分子量を決めた場合に得られる最も意味のある構造上の情報は、断片の残基組成である。そこで、簡単のため本比較例では断片分子量数の代わりに断片残基組成数をもちいて、断片配列数と比較することにする。
上述の一般的なRNase T1断片配列から組成数を算出すると、断片の長さをN残基とすれば3’末端Gを除いた鎖長N−1部分ではG以外の3種類の残基{A,C,U}が考えられるので、3種類の残基から重複を許してN−1個を取り出す組み合わせ(3+N−2)N−1となる。この式から算出した4〜19残基の断片について鎖長ごとの組成数を図9に示した(組成1)。全ての鎖長で実施例の配列種類数の方が多く、識別能力が高いことがわかった。また、鎖長が長くなるに伴い配列と組成数の差は増大した。10残基程度の鎖長では数百倍の違いがあった。
S.cerevisiaeゲノムをRNase T1で断片化した結果、4〜19残基の断片について1223種類の塩基組成(分子量も1223種類)が得られた。したがって、平均的には配列は組成の300倍程度種類数があった。これらの断片について鎖長ごとに組成数を数え図9に示した(組成2)。組成は鎖長が10以上でも原理的に可能な配列数と実際にゲノム上に現れる組成数の乖離が少なかった。8残基以上のどの鎖長でも配列数は組成数の数百倍であった。
(実施例2)
以下に、本RNA同定装置100にかかる実施例2−1〜3を、図10〜図22を参照して説明する。ここで、図10は、無細胞合成アフリカツメガエルサイクロフィリンA(xCyPA) mRNA RNase T1消化物のLC−MS/MS結果を本発明により検索したスコアヒストグラムである。図11は、正解データベースに対して検索した結果の比較の一例を示す図である。また、図12は、tRNA−Phe RNase T1消化物のLC−MS/MSクロマトグラムである。また、図13は、tRNA−PheをDNA配列に対して検索した結果を示す図である。また、図14は、MS/MSスペクトルとプロダクトイオンのアサインの一例を示す図である。また、図15は、酵母 tRNA混合物をイオン交換クロマトグラフィーで分取する際のクロマトグラムを示す図である。また、図16は、酵母 tRNA, 陰イオン交換の画分No.10の逆相LCによる脱塩・精製を示す図である。また、図17は、酵母 tRNA混合物フラクション10−2 RNase T1消化物のLC−MS/MSクロマトグラムである。また、図18は、酵母 tRNA混合物フラクション10−2 RNase T1消化物検索結果のスコアヒストグラムである。また、図19〜図22は、マッピングにより同定した配列領域の一例を示す図である。
<材料・方法>
ここで、本実施例2−1〜3において用いた材料および方法を以下(1)〜(9)に示す。
(1)in vitro transcription
実施例2−1において、Ambion(会社名)社のin vitro transcriptionキットを用いて、Xenopus laevis Cyclophilin A(CypA) cDNA(ref|NM_001089190.1|)、および、Xenopus laevis FK506結合タンパク質(xFKBP)遺伝子を、それぞれグロビン遺伝子の3´UTR領域に挿入したpBluescript RN3 vector(浅島誠博士からの提供)を作成した。そして、作成したpBluescript RN3−xCypA vector、および、pBluescript RN3−XFKBP vectorを鋳型として、無細胞転写系で、グロビン由来の配列にxCyPA配列またはxFKBP配列を含むmRNAを合成した。合成したmRNAはQIAGEN RNeasy kit(商品名)により精製し、純度をポリアクリルアミドゲル電気泳動法により確認した。
(2)RNA
実施例2−2,3において、S. cerevisiae tRNA−Phe、および、酵母 tRNA混合物(tRNA typeX, from baker’s yeast)は、Sigma(会社名)から購入した。ribonuclease T1(RNase T1)はWorthington(会社名)から購入した。
(3)イオン交換クロマトグラフィーによる未知RNAの精製
実施例2−3において、tRNA混合物100ugをイオン交換クロマトグラフィーで分離し、各ピークを分取した(図15)。そして、48分付近のフラクション(図15のフラクション10)全量をさらに逆相HPLCで精製した。分取したフラクション(図16のフラクション10−2)は、凍結乾燥またはエタノール沈殿で溶媒を除去し、−20℃で保存した。
(4)RNase T1消化
RNase T1は使用前に硫安を除去するために、逆相カラムで精製・凍結乾燥した。その後、DNase/RNaseが混入していない(「free」の)滅菌水(invitrogen(会社名))で再溶解した。試料RNAを消化緩衝液(10mM 酢酸アンモニウムバッファー(pH5.3))に0.25ug/uLになるように溶解した後、1/500量(重量比)のRNase T1を添加して37℃で30分間、断片化した。酵素消化物は、液体クロマトグラフィー−タンデム質量分析(LC−MS/MS)で直ぐに分析した。
(5)LC−MS/MS分析
LC−MS/MSには、プロテオミクス用のナノLC−MS/MSシステム(T. Natsume et al. Anal. Chem. 2002, 74, 4725−4733)を用いた。ただし、以下に示す各項目(a)〜(d)はRNA用に変更した。
(a)カラム充填剤:Develosil C30−UG−3(野村化学(会社名))、カラムサイズ:100μmIDx50mmL
(b)溶媒A:10mM トリエチルアミン−酢酸水溶液(TEA−AA) pH7.0、B:メタノール(MeOH)
(c)溶離条件:流速100nL/minでB10−40%まで60分で直線的に上昇させた。
(d)質量分析装置:Q−Tof Ultima(ウォーターズ(会社名))、イオン化電圧:−1200V(ネガティブモード)、測定質量範囲(m/z):400−1600
(6)MS/MSイオン検索
LC−MS/MS分析の結果から、MassLynx(ウォーターズ(会社名))およびSpiceCmd(三井情報システム(会社名))を用いてピークリストを作成した。
(7)Xenopus laevis合成mRNA用の検索条件等
実施例2−1において、xCypAおよびxFKBP合成mRNAのLC−MS/MS分析結果を、xCypAおよびxFKBP配列のみを含む核酸配列DB、または、ヒト参照配列(refseq_human(Reference sequence release 27, 2008−02−18 download, H. sapiens 38,864 entries))にxCypAおよびxFKBP配列を加えた核酸配列DB(マージDB)に対して検索した。なお、ヒト参照配列に対して、xCypAおよびxFKBP配列をクエリーとしてblast検索して有意な相同性を持つmRNAは検出されなかったので、ヒト参照配列にxCypAおよびxFKBP同定の際に偽陽性がでないことを確かめるために使用できることを確認した。すなわち、全てのMS/MSはxCypAあるいはxFKBPを一位として同定することが期待出来る。本実施例では、xCypAおよびxFKBPのみの核酸配列DBで同定されたヌクレオチドの結果を複数の研究者により目視で確認し、同定に問題が無いことを確認した。次にこのデータセットをマージDBに対してMS/MSイオン検索後、マッピングした。マッピングによりヒト参照配列由来のエントリーを同定した場合には、そのエントリーは不正解と判定した。
(8)S. cerevisiae tRNA−Phe用の検索条件等
実施例2−2において、tRNA用の核酸配列DBは、G tRNA db(http://lowelab.ucsc.edu/GtRNAdb/)から、S. cerevisiae tDNA配列をダウンロードして用いた。修飾条件は、ACGU4種類の塩基、または、糖2’OHへのメチル化およびUに対するジヒドロ化を考慮した。また、一つの断片に同時に生じる最大修飾数は「2」とした。また、最大切れ残りは「2」とした。そして、MS/MSイオン検索で修飾を含む断片配列を同定した場合には、これらの断片から修飾を除去した元の配列に戻して核酸配列DBへのマッピングを行った。修飾を除去した結果、切れ残り断片になってしまう場合には、さらに完全消化断片の組に変換してからマッピングした。
(9)S. cerevisiae tRNA混合物用の検索条件等
実施例2−3において、混合物について用いる核酸配列DBは、mNCBI(ftp://ftp.ncbi.nih.gov/genomes/Fungi/Saccharomyces_cerevisiae/)から、S. cerevisiaeゲノム配列をダウンロードして用いた。3残基以下の断片は無視し、サブエントリー長は100断片、切れ残りおよび修飾は考慮せず検索した。
<結果>
上記材料および方法を用いて、以下の実施例2−1〜3に示す結果を得た。
(実施例2−1)無細胞合成mRNAを用いたMS/MSイオン検索の有効性の確認と混合物への適用
xCypA mRNAのRNase T1消化物のLC−MS/MSデータから抽出したピークリストについて、xCypAのみの核酸配列DBに対して検索を行った。検索条件の消化時の許容最大切れ残りは「0」または「2」とした。
本発明のMS/MSイオン検索により許容最大切れ残りは「0」、「2」いずれの場合でも同じ66種類の断片を同定した。この同定断片配列リストに対応する断片のプリカーサイオンの単同位体選択、プリカーサイオンの電荷、主要なプロダクトイオンのアサインについて目視で確認して、66種類全てを正解と判定した。計算上、xCypAをRNase T1で消化した場合に生じる断片は87種類であり、このうち今回のLC−MS/MS測定質量範囲に含まれる4残基以上は75種類である。したがって、正解は全体の88%を含んでいた。
また、これらをマージDBに対して検索した結果、1.変化無し(xCypAを1位で同定)は57種類、2.データベースが大きくなったため閾値が上がり同定ではなくなったものは0種類、3.xCypA以外の配列を同定としたものは9種類であった。
ここで、上述の質量(MS/MS)検索により同定断片配列リストを用いて、エントリースコア付け部102pおよびエントリー同定部102qにより核酸配列DBにマッピングする2段階検索した。2段階検索(1段階目:断片に対するアサイン、2段回目:核酸配列DBに対するマッピング)により、1段階目のMS/MSイオン検索結果に不正解が含まれていた場合でも、2段階目で正しいRNAを同定することが可能であった。
同様に、xFKBPのRNase T1断片のLC−MS/MSデータから抽出したピークリストをxFKBP配列のみのDBに対して検索した結果、80%以上の配列網羅率が得られた。次に同様にマージDBに対して2段階検索したところ、xCypA同様、1段回目のMS/MSイオン検索結果に不正解が含まれている場合でもxFKBPを正しく同定することが可能だった。
次に、本発明が混合物に適用できるかどうか検討した。
2つの遺伝子それぞれのピークリストを混合して、本評価で用いるピークリストとした。
このピークリストを、マージDBに対して検索した結果を解析することで、混合物試料中で正解同士を区別する能力、正解と不正解を区別する能力をそれぞれ評価出来ると考えた。
図10および図11にマージDBに対して検索して、xCyPAとxFKBPの混合物から、それぞれを同定した結果を示す。図10はマッピングスコアを横軸に、log10変換したスコア頻度を縦軸としたマッピングヒストグラムである。図11に示すように、CyPaおよびFKBPそれぞれのマッピングスコア、同定断片数、指定した断片化法(本実施例ではRNase T1)により生じうる断片数、同定断片がRNA中で生じる位置を示す断片番号が示されている。なお、グロビン由来の配列はcypa転写物およびFKBP転写物の両者に含まれるため両者で重複しているため、グロビン由来の断片オリゴヌクレオチドの共通部分は混合物中で区別できないが、cypa,FKBP遺伝子本来の配列間には有意な相同性が無い。このように本発明の二段階検索をもちいることで、相同な部分を含むRNAの混合物であってもそれぞれのRNAを同定可能だった。
(実施例2−2)修飾を伴う条件でS. cerevisiaeのtRNA−Pheのゲノム配列データベースに対する検索による同定
以下に、実施例2−2として、転写後修飾された試料において検討した結果の詳細を示す。機能性RNAは、しばしば転写後にメチル化などの修飾を受ける。これらの修飾は、RNAの機能発現に重要な役割を担っている場合もあり、RNA解析方法では、修飾を含む配列も同定出来ることが望ましい。本実施例では、修飾テーブル(修飾種およびその質量の対応表)、および、最大許容修飾数を設定することで、DNA配列データベースのような修飾情報を含まない核酸配列DBに対して検索する場合でも、検索時に動的に修飾配列を生成して実測データとの照合を行うことが可能となることを示す。以下では、この修飾を伴う条件でS. cerevisiaeのtRNA−Pheを解析した例を示す。
まず、本検索において、検索条件として適切な設定修飾パラメータ値を見積もるために修飾の種類と頻度を調べた。調査対象RNAは、最も修飾頻度が高いtRNAを用い、修飾を含む配列情報はtRNA compilationデータベースから取得した。各tRNA配列はRNase T1断片化したオリゴヌクレオチドとし、重複したオリゴヌクレオチドは削除した。
その結果、E. coliでは232種類、S. cerevisiaeでは229種類の対象核酸配列を得た。これらのオリゴヌクレオチドを下記分類規則(a)〜(c)に従って分類した(下表参照)。
(a)未修飾または質量変化無
質量分析で検出しうる修飾は質量変化を伴うものだけなので、最も多い修飾種である偽ウリジンは修飾無しの通常塩基と同じ分類とした。
(b)メチル化またはジヒドロ化
次に多い修飾種はメチル化、ジヒドロ化の順であった。検索条件として設定するためには個々の修飾毎に上限値を定めるのではなく全部の修飾数として設定出来ることが望ましい。このため、これらの修飾はまとめて扱い、それらの合計数で分類した。
(c)その他
偽ウリジン化、メチル化、ジヒドロ化以外の修飾はまとめて扱い、合計数をその他とした。
Figure 0005610347
種により修飾種や数が異なっていたが、修飾種として修飾無し、偽ウリジン化、メチル化、ジヒドロ化を考え、メチル化またはジヒドロ化の最大数を「2」とすれば、E. coliで178種類(全体の77%)、S. cerevisiaeで189種類(全体の83%)を含むので、RNAの同定には十分と考えた。すなわち、最大修飾数を「3」、「4」と増やしても、計算量は急激に増加するのに対し、対応出来る配列数はほとんど増えないので、この点からも最大修飾数は「2」で十分と考えた。さらに、多くの修飾を含む配列を対象とするためには、対象修飾種をメチル化、ジヒドロ化とし最大修飾数を「2」として通常のデータベースで検索した結果得られたRNA配列のみを検索対象として、さらに多くの修飾条件を設定して検索することが有効と考える。
また、切断部位の修飾に伴い切れ残り断片が生成する(多くの修飾塩基はRNaseに認識されない)ので、併せて最大許容切れ残り数も検索条件として設定出来るようにした。この検索条件は、消化状況に合わせて最大修飾数と同じかそれ以上の値を設定することが好ましい。
上記調査の結果、今回の検索では、考慮する修飾種をメチル化、ジヒドロ化とし、最大修飾数を「2」とし、最大許容切れ残り数を(最大修飾数に合わせて)「2」とした。
続いて、上述の検索条件を用いて、市販のtRNA−PheをRNase T1で消化し、500fmolを上述の方法によりLC−MS/MS測定した(図12参照)。得られたMS/MSスペクトルは、目視でtRNA−Phe由来の配列と照合して、複数の研究者が確認して同定した(図13参照)。そして、これらのMS/MSピークリストを評価用ピークリストセットとした。
検索する核酸配列DBとして、The genomic tRNA database(http://lowelab.ucsc.edu/GtRNAdb/)から取得したS. cerevisiae tRNAに関する、275種類中の同一配列を同じ核酸配列エントリーに整理した72種類の配列を用いた。評価用ピークリストセットを、この核酸配列DBに対して検索した。主な検索条件として、許容質量誤差(プリカーサイオン)は500ppm、許容質量誤差(プロダクトイオン)は500ppm、最大修飾数は2、ヌクレアーゼはRNase T1、最大切れ残り数は「2」、考慮する最小ヌクレオチドは「4塩基以上」を設定した。
図13に、tRNA−Phe遺伝子のDNA配列を転写したRNA配列を、RNase T1で消化して得られた断片配列のリストを示す。図13に示すように、完全消化断片の全てとともに、同定した切れ残り断片を示す。なお、yW修飾に伴う配列削除部分はコメントに記した。また、MS/MSスペクトルから目視により同定した断片は、丸印または二重丸印で示した12種類であった。このうち、本実施例における検索対象としては、25−30番(ジメチル化を含む)および31−60番(配列の切断・繋ぎ換えとyWを含む)を除く10種類であり、そのうち9種類のヌクレオチドが同定できた。同定できたヌクレオチドのうち修飾を含む断片は6種類(5修飾部位)であった。
なお、図13に示すように、本実施例2−2において同定出来なかったヌクレオチドは、64GUCCU69G(64 mG)であった。このヌクレオチドはLC−MSでピーク強度が弱く、MS/MSスペクトルの質が低かった。mGは、pH中性で正電荷を持つためイオン化効率あるいはプロダクトイオンの生成効率が通常のヌクレオチドより低く、同定出来なかった可能性がある。
図14に、本発明のMS/MSイオン検索により修飾を含む配列AUUUAGCUCA(部位:5−15、10Gのメチル化)を同定したMS/MSスペクトル(上図)とプロダクトイオンのアサイン(下図)を示す。図14中に、同定配列から予想される各プロダクトイオンの質量を示す。例えば、c1−系列(1−はネガティブモードの一価イオンを表す)の#1は、c1− のプロダクトイオンに対応する計算プロダクトイオン質量が「328.045」であることを示している。
また、図14の計算プロダクトイオン表中の下線は、MS/MSスペクトルデータから抽出された実測プロダクトイオン質量の値とマッチしたことを示す。この結果が示す通り、例えば、5´側からc1− 〜c1− までのプロダクトイオンの質量が一致し、一方、3´側からy1− 〜y1− までのプロダクトイオンの質量が一致していることがわかるので、5´側から6番目のGが修飾を受けていることがわかる。すなわち、同定したAUUUAGCUCAGの6番目のGがメチル化していることを特定した。
このように、MS/MSスペクトルデータを用いて検索することにより、修飾の有無だけでなく修飾部位を同定することが可能である。なお、この6番目のG(tRNA全体では10番)は、2−メチル化していることが知られており、上記MS/MSスペクトル検索の結果と一致していた(文献「McLaughlin LW, Cramer F, Sprinzl M. “Rapid analysis of modified tRNAphe from yeast by high−performance liquid chromatography: chromatography of oligonucleotides after RNase T1 digestion on aminopropylsilica and assignment of the fragments based on nucleoside analysis by chromatography on C18−silica.” Anal Biochem. 1981 Mar 15;112(1):60−9.」を参照)。
以上、実施例2−2によれば、転写後修飾を含む試料を、修飾無しの核酸配列DBに対して検索することにより、RNAと共にその修飾部位を同定することができることが分かった。すなわち、実施例2−2によれば、記憶した修飾規則を参照して、断片配列において修飾配列と未修飾配列との変換を行い、修飾を含まない配列データベースに対して、試料に含まれるRNA中の転写後修飾の存在を検出しさらには修飾部位を特定することが出来ることが示された。
(実施例2−3)S. cerevisiae tRNA混合物中の未知RNAのゲノム配列データベースに対する検索による同定
つづいて、tRNA混合物中の未知試料を同定した実施例2−3を示す。このRNAは市販のRNA混合物中に混在していたRNAであり、tRNAとは明らかに大きさが異なっていた。このRNAを同定するために、ゲノム配列データベースに対して検索を行った。
図15に酵母(S. cerevisiae) tRNA混合物のイオン交換クロマトグラフィーの溶出プロファイル(A260)を示した。大部分のRNAは、約22〜45分までに一群となって溶離された。これらは相互に似た構造を持つtRNAと考えた。一方、図15のフラクション10に示すように48分付近にもピークが検出された。イオン交換クロマトグラフィーでは核酸の鎖長が長いものほど保持が大きいことが知られているので、このRNAは通常のtRNAより大きいことが予想された。
つぎに、このフラクション10を分取し、さらに逆相クロマトグラフィーで精製した(図16のフラクション10−2)。このピークの成分は、電気泳動で通常のtRNAより移動度が低くかった(すなわち分子量が大きかった)。この結果はイオン交換クロマトグラフィーの結果を支持する結果である。
このことから、フラクション10−2は、tRNA混合物に混入したtRNA以外のRNAであると考え、この試料をRNase T1で消化して、LC−MS/MSで分析した。図17に、分析結果のLC−MS/MSクロマトグラムを示す。
そして、この未知RNAのMS/MSピークリストについて、tRNA 核酸配列DBに対してMS/MSイオン検索およびマッピングを行ったが、予想通り有意な同定結果が得られなかった。そこで、S. cerevisiaeゲノム配列に対してMS/MSイオン検索を行った。ここで、ゲノムの各染色体について重複を除いた100断片ずつをサブエントリーとして分割した。
その結果、図18に示すように、染色体XII番の6つのサブエントリーが有意に同定された(図18のマッピングスコア35〜55の範囲、縦軸はlog10)。これらのサブエントリー内で同定された配列近傍を比較すると、相互に高い相同性を持っていた。連続して断片が同定されている範囲をクエリーとして、blast検索をNCBInrに対して行うと、5S rRNA(gi|176405|)と一致した。
そして、今度は逆に、この5S rRNA配列(配列番号1)をクエリーとして、S. cerevisiaeゲノム配列に対してblast検索すると、図19〜図22に示すように、染色体XII番に相同性98%以上の配列領域を6つ検出した(順に配列番号2〜7)。この配列領域は、MS/MSイオン検索結果のマッピングにより同定した配列領域であった。5S rRNAは約120残基とtRNA(70〜80残基)よりも鎖長が長く、クロマトグラフィー、電気泳動の結果とも一致していた。
以上、実施例2−3によれば、MS/MSイオン検索結果を用いることで、未知RNAのゲノム上の位置を特定することが可能であることが分かった。このように、ゲノムのような大きなデータベースにも適用できることは、タンパク質とは異なりデータベースが未だよく整備されていないRNAの検索・同定の分野において極めて有用であり、本RNA同定装置100が優位な効果を奏するものであることを示すものである。
(実施例3)
次に、RNA同定装置100をサーバ装置400とし、同定結果をサーバ装置400からクライアント装置200へ返すように構成したRNA同定システムの実施例を、図23を参照して説明する。RNA同定装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワークに通信可能に接続されてもよい。
本実施例にかかるRNA同定システムは、クライアント装置200とサーバ装置400とから構成され、これら装置はネットワーク300を介して有線又は無線で通信可能に接続されている。クライアント装置200は、ピーク取得部202a、検索条件入力部202pおよび結果出力部202q等を備える制御部202と、ピークリスト、検索結果および結果レポート等を記憶する記憶部206と、入力部212と、出力部214と、を備える。クライアント装置200は、制御部202で、タンデム質量分析データ(タンデム型質量分析器10で生成された質量分析データ)を取得する。サーバ装置400は、制御部402と記憶部(内部DB)406とを備え、核酸エントリー毎に核酸配列を記憶する外部データベース(核酸配列DB)500とネットワーク600を介して有線又は無線で通信可能に接続されている。
ここで、図23に示す各部は、検索条件入力部202pおよび結果出力部202q並びに結果送信部402rを除いて図2の同名の各部と共通するため、本実施例では、当該共通するこれら各部の説明を省略する。
検索条件入力部202pは、入力部212を介して入力された検索条件(残基配列特異的な切断方法等を少なくとも指定したもの)を、記憶部206に格納すると共にサーバ装置400へ送信する検索条件入力手段である。結果出力部202qは、サーバ装置400から送信された同定断片配列リスト(候補配列同定部402jで同定した断片配列である同定断片配列を含むもの)を、結果レポートとして記憶部206に格納すると共に出力部214を介して出力する結果出力手段である。
制御部402は、DB加工部と、MS/MSイオン検索部と、マッピング部と、整形・出力部とから構成される。DB加工部は、断片化部402b、出現確率算出部402kおよび修飾変換部402nを備える。MS/MSイオン検索部は、図示の如く、計算断片分子量算出部402cから候補配列同定部402jまでを備える。マッピング部は、エントリースコア付け部402pおよびエントリー同定部402qを備える。整形・出力部は、結果送信部402rを備える。結果送信部402rは、同定断片配列リストをクライアント装置200へ送信する結果送信手段である。
次に、このように構成された本実施例のRNA同定システムで行われる処理を以下に説明する。
まず、ピーク取得部202aは、残基配列特異的な切断方法(例えば、ヌクレアーゼによる酵素的な切断方法や、化学的な切断方法)で切断された同定対象のRNAに対するタンデム質量分析データからピークを抽出することによりピークリストを作成し、作成したピークリストを記憶部206に格納すると共にサーバ装置400へ送信する。また、検索条件入力部202pは、入力部212を介して入力された検索条件を記憶部206に格納すると共にサーバ装置400へ送信する。
そして、断片化部402bは、外部データベース500に記憶された核酸配列エントリーリストに含まれる核酸配列をネットワーク600経由で読み込む。そして、断片化部402bは、読み込んだ核酸配列を、記憶部406に記憶された断片化規則(残基配列特異的な切断方法に対応するもの)を参照して、クライアント装置200から送信された検索条件に基づいて断片化することにより、当該核酸配列の断片配列を含む断片配列リストを作成する。ここで、DB加工部の処理として、出現確率算出部402kは、外部データベース500に記憶された核酸配列エントリーリストから検索対象として予め指定した部分集合内での核酸配列の断片配列の出現確率を算出してもよい。また、DB加工部の処理として、修飾変換部402nは、修飾規則を参照して、断片配列において修飾配列と未修飾配列との変換を行ってもよい。具体的には、修飾変換部402nは、修飾の無い核酸配列に修飾を付加(断片配列ごとに修飾規則に基づいて修飾を付加した断片配列を生成)してもよく、また、同定断片配列を元の核酸エントリーの配列に対応付けて、核酸エントリーを同定するために同定した修飾付加断片配列から修飾を取ってもよい。
そして、計算断片分子量算出部402cは、断片化部402bで作成した断片配列リストの全断片配列について計算断片分子量を算出することにより、当該計算断片分子量を含む計算断片分子量リストを作成する。一方、実測断片分子量抽出部402dは、クライアント装置200から送信されたピークリストの各ピークから実測断片分子量を抽出することにより、当該実測断片分子量を含む実測断片分子量リストを作成する。
そして、候補計算断片分子量抽出部402eは、計算断片分子量算出部402cで作成した計算断片分子量リストに含まれる計算断片分子量と、実測断片分子量抽出部402dで作成した実測断片分子量リストに含まれる実測断片分子量とを比較して、各ピークの実測断片分子量に対応する候補計算断片分子量を抽出することにより、当該候補計算断片分子量を含む候補計算断片分子量リストを作成する。
そして、候補断片配列抽出部402fは、候補計算断片分子量抽出部402eで作成した候補計算断片分子量リストに含まれる各候補計算断片分子量に対応する断片配列である候補断片配列を、断片化部402bで作成した断片配列リストから抽出することにより、各ピークに対応する候補断片配列リスト(当該候補断片配列を含むもの)を作成する。
そして、計算プロダクトイオン質量算出部402gは、断片化部402bで作成した断片配列リストに含まれる各断片配列について、所定の開裂規則に従って生成する各プロダクトイオンに対応する計算プロダクトイオン質量を算出することにより、当該計算プロダクトイオン質量を含む計算プロダクトイオン表を作成する。一方、実測プロダクトイオン質量抽出部402hは、クライアント装置200から送信されたピークリストの各ピークから実測プロダクトイオン質量を抽出することにより、当該実測プロダクトイオン質量を含む実測プロダクトイオンリストを作成する。
そして、アサインスコア算出部402iは、計算プロダクトイオン質量算出部402gで作成した計算プロダクトイオン表に含まれる計算プロダクトイオン質量と、実測プロダクトイオン質量抽出部402hで作成した実測プロダクトイオンリストに含まれる実測プロダクトイオン質量とを比較することにより、候補断片配列抽出部402fで作成した候補配列断片リストに含まれる全候補断片配列にスコアを付ける。
そして、候補配列同定部402jは、アサインスコア算出部402iで全候補断片配列に付されたスコアに基づいて、候補断片配列抽出部402fで作成した候補断片配列リストに含まれる候補断片配列から、同定対象のRNAの断片配列を同定することにより、当該同定した断片配列である同定断片配列を含む同定断片配列リストを作成する。ここで、エントリースコア付け部402pは、出現確率算出部402kで算出した断片配列の出現確率に基づいて、候補配列同定部402jで作成した同定断片配列リストに含まれる各同定断片配列と外部データベース500で記憶した核酸配列とを比較することにより各核酸エントリーにマッピングスコアを付け、エントリー同定部402qは、付けたマッピングスコアに基づいて最も確からしい核酸エントリーを同定してもよい。
そして、結果送信部402rは、候補配列同定部402jで作成した同定断片配列リストをクライアント装置200へ送信する。なお、結果送信部402rは、エントリー同定部402qの処理結果もクライアント装置200へ送信してもよい。
そして、結果出力部202qは、サーバ装置400から送信された同定断片配列リストを出力部214を介して出力する。なお、結果出力部202qは、クライアント装置200から送信されたエントリー同定部402qの処理結果も出力部214を介して出力してもよい。
[V.他の実施の形態]
本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。例えば、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、上述した各装置に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えばRNA同定装置100、クライアント装置200およびサーバ装置400の各装置が備える処理機能(特に制御部にて行われる各処理機能)については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、さらにはワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて各装置に機械的に読み取られる。すなわち、ROMやHDなどの記憶部などは、OS(Operating System)として協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
また、このコンピュータプログラムは、各装置に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD、HDD等の任意の「可搬用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部に格納される各種のデータベース等は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ上に実現される論理的記憶手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやデータベースやウェブページ用ファイル等を格納する。また、上述した各装置に、既知のパーソナルコンピュータやワークステーション等の情報処理装置を接続し、本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を当該情報処理装置に実装することにより実現してもよい。
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
以上詳述に説明したように、本発明にかかるリボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システムは、核酸残基組成しか与えない消化物分子量だけでなく、プロダクトイオン質量のセットから核酸残基配列情報を得ることにより、個々の消化物の同定信頼性を飛躍的に高めることができ、例えば医療や製薬、創薬、生物学研究、臨床検査などの様々な分野において極めて有用である。
100 リボ核酸同定装置
102 制御部
102a 実測断片分子量抽出部
102b 断片化部
102c 計算断片分子量算出部
102e 候補計算断片分子量抽出部
102f 候補断片配列抽出部
102g 計算プロダクトイオン質量算出部
102h 実測プロダクトイオン質量抽出部
102i アサインスコア算出部
102j 候補配列同定部
102k 出現確率算出部
102p エントリースコア付け部
102q エントリー同定部
102n 修飾変換部
106 記憶部
106a 核酸配列DB
106b 断片化規則表
106c 質量定義表
106d 修飾規則表
106g ピークリスト
106e 断片配列表
106i 候補断片配列リスト
106j 計算プロダクトイオン表
106k 同定断片表
106m 同定核酸エントリー表
10 タンデム型質量分析器
200 クライアント装置
202a ピーク取得部
202p 検索条件入力部
202q 結果出力部
212 入力部
214 出力部
300 ネットワーク
400 サーバ装置
402r 結果送信部
406 内部DB
500 外部データベース
600 ネットワーク

Claims (8)

  1. 記憶部と制御部とを備えたリボ核酸同定装置であって、
    上記記憶部は、
    残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを記憶するピーク記憶手段と、
    核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、
    上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、
    を備え、
    上記制御部は、
    上記ピークから実測断片分子量を抽出する実測断片分子量抽出手段と、
    上記断片化規則を参照して、上記核酸配列を断片化する断片化手段と、
    上記断片化手段で断片化した結果得られた上記核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出手段と、
    上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出手段と、
    上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出手段と、
    上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出手段と、
    上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出手段と、
    上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付け手段と、
    上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定手段と、
    検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出手段と、
    上記出現確率に基づいて、上記候補配列同定手段で同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付け手段と、
    上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定手段と、
    を備えたことを特徴とするリボ核酸同定装置。
  2. 上記記憶部は、
    上記リボ核酸の修飾規則を記憶する修飾規則記憶手段
    を更に備え、
    上記制御部は、
    上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う修飾変換手段
    を更に備えたことを特徴とする請求項に記載のリボ核酸同定装置。
  3. 制御部と記憶部とを備えたリボ核酸同定装置において実行されるリボ核酸同定方法であって、
    上記記憶部は、
    残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを記憶するピーク記憶手段と、
    核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、
    上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、
    を備え、
    上記制御部において実行される、
    上記ピークから実測断片分子量を抽出する実測断片分子量抽出ステップと、
    上記断片化規則を参照して、上記核酸配列を断片化する断片化ステップと、
    上記断片化ステップで断片化した結果得られた上記核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出ステップと、
    上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出ステップと、
    上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出ステップと、
    上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出ステップと、
    上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出ステップと、
    上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付けステップと、
    上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定ステップと、
    検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出ステップと、
    上記出現確率に基づいて、上記候補配列同定ステップで同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付けステップと、
    上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定ステップと、
    を含むことを特徴とするリボ核酸同定方法。
  4. 上記記憶部は、
    上記リボ核酸の修飾規則を記憶する修飾規則記憶手段
    を更に備え、
    上記制御部において実行される、
    上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う
    修飾変換ステップ
    を更に含むことを特徴とする請求項に記載のリボ核酸同定方法。
  5. 制御部と記憶部とを備えたリボ核酸同定装置において実行させるためのプログラムであって、
    上記記憶部は、
    残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを記憶するピーク記憶手段と、
    核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、
    上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、
    を備え、
    上記制御部において実行させるための、
    上記ピークから実測断片分子量を抽出する実測断片分子量抽出ステップと、
    上記断片化規則を参照して、上記核酸配列を断片化する断片化ステップと、
    上記断片化ステップで断片化した結果得られた上記核酸配列の断片配列について計算断片分子量を算出する計算断片分子量算出ステップと、
    上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出ステップと、
    上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出ステップと、
    上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出ステップと、
    上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出ステップと、
    上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付けステップと、
    上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定ステップと、
    検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出ステップと、
    上記出現確率に基づいて、上記候補配列同定ステップで同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付けステップと、
    上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定ステップと、
    を含むことを特徴とするプログラム。
  6. 上記記憶部は、
    上記リボ核酸の修飾規則を記憶する修飾規則記憶手段
    を更に備え、
    上記制御部において実行させるための、
    上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う修飾変換ステップ
    を更に含むことを特徴とする請求項に記載のプログラム。
  7. 制御部と記憶部と入力部と出力部とを備えたクライアント装置と、制御部と記憶部とを備えたサーバ装置と、から構成されるリボ核酸同定システムであって、
    上記クライアント装置の上記制御部は、
    残基配列特異的な切断方法で切断されたリボ核酸に対するタンデム質量分析データから抽出されたスペクトルのピークを取得し、取得した上記ピークを上記クライアント装置の上記記憶部に格納すると共に上記サーバ装置へ送信するピーク取得手段と、
    上記入力部を介して入力された、上記残基配列特異的な切断方法を少なくとも指定する検索条件を、上記クライアント装置の上記記憶部に格納すると共に上記サーバ装置へ送信する検索条件入力手段と、
    上記サーバ装置で同定され上記サーバ装置から送信された上記リボ核酸の断片配列を、上記出力部を介して出力する結果出力手段と、
    を備え、
    上記サーバ装置の上記記憶部は、
    核酸エントリー毎に核酸配列を記憶する核酸配列記憶手段と、
    上記残基配列特異的な切断方法に対応する断片化規則を記憶する断片化規則記憶手段と、
    を備え、
    上記サーバ装置の上記制御部は、
    上記ピークから実測断片分子量を抽出する実測断片分子量抽出手段と、
    上記断片化規則を参照して、上記検索条件に基づいて、上記核酸配列を断片化する断片化手段と、
    上記断片化手段で断片化した結果得られた上記核酸配列の上記断片配列について計算断片分子量を算出する計算断片分子量算出手段と、
    上記計算断片分子量と上記実測断片分子量とを比較することにより、上記実測断片分子量に対応する候補計算断片分子量を抽出する候補計算断片分子量抽出手段と、
    上記候補計算断片分子量に対応する上記断片配列である候補断片配列を、上記断片配列から抽出する候補断片配列抽出手段と、
    上記断片配列について、リボース−3’O結合間とP−5’O結合間に開裂部位を有するとする開裂規則に従って計算プロダクトイオン質量を算出する計算プロダクトイオン質量算出手段と、
    上記ピークから実測プロダクトイオン質量を抽出する実測プロダクトイオン質量抽出手段と、
    上記計算プロダクトイオン質量と上記実測プロダクトイオン質量とを比較することにより、上記候補断片配列にスコアを付けるスコア付け手段と、
    上記スコアに基づいて、上記候補断片配列から、上記リボ核酸の上記断片配列を同定する候補配列同定手段と、
    上記候補配列同定手段で同定した上記断片配列を上記クライアント装置へ送信する結果送信手段と、
    検索対象として予め指定した部分集合内での上記核酸配列の上記断片配列の出現確率を算出する出現確率算出手段と、
    上記出現確率に基づいて、上記候補配列同定手段で同定した上記断片配列と上記核酸配列とを比較することにより、上記核酸エントリーにマッピングスコアを付けるエントリースコア付け手段と、
    上記マッピングスコアに基づいて、最も確からしい上記核酸エントリーを同定するエントリー同定手段と、
    を備えたことを特徴とするリボ核酸同定システム。
  8. 上記サーバ装置の上記記憶部は、
    上記リボ核酸の修飾規則を記憶する修飾規則記憶手段
    を更に備え、
    上記サーバ装置の上記制御部は、
    上記修飾規則を参照して、上記断片配列において修飾配列と未修飾配列との変換を行う修飾変換手段
    を更に備えたことを特徴とする請求項に記載のリボ核酸同定システム。
JP2010508258A 2008-04-17 2009-04-17 リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム Active JP5610347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010508258A JP5610347B2 (ja) 2008-04-17 2009-04-17 リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008108369 2008-04-17
JP2008108369 2008-04-17
JP2010508258A JP5610347B2 (ja) 2008-04-17 2009-04-17 リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム
PCT/JP2009/057739 WO2009128526A1 (ja) 2008-04-17 2009-04-17 リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム

Publications (2)

Publication Number Publication Date
JPWO2009128526A1 JPWO2009128526A1 (ja) 2011-08-04
JP5610347B2 true JP5610347B2 (ja) 2014-10-22

Family

ID=41199213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010508258A Active JP5610347B2 (ja) 2008-04-17 2009-04-17 リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム

Country Status (3)

Country Link
US (1) US8880353B2 (ja)
JP (1) JP5610347B2 (ja)
WO (1) WO2009128526A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012102875B4 (de) * 2011-04-04 2024-04-18 Wisconsin Alumni Research Foundation Vorläuferauswahl mit einem Artificial-Intelligence-Algorithmus erhöht Abdeckung und Reproduzierbarkeit von proteomischen Proben
US9047069B2 (en) * 2011-04-12 2015-06-02 Texas Instruments Incorporated Computer implemented method of electing K extreme entries from a list using separate section comparisons
CN116660439B (zh) * 2023-07-28 2023-10-20 常州合全药业有限公司 一种磷酰二胺吗啉代寡核苷酸序列的高分辨质谱检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007662A1 (fr) * 2006-07-14 2008-01-17 The University Of Tokyo Système servant à identifier une séquence d'arn sur un génome par spectroscopie de masse

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007662A1 (fr) * 2006-07-14 2008-01-17 The University Of Tokyo Système servant à identifier une séquence d'arn sur un génome par spectroscopie de masse

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JPN6009029036; 礒辺俊明: '「代謝調節機構解析に基づく細胞機能制御基盤技術」「RNA代謝解析のための質量分析プラットフォームの開発' 戦略的創造研究推進事業研究年報 Vol.2006, 2006 *
JPN6009029039; 礒辺俊明: '「代謝調節機構解析に基づく細胞機能制御基盤技術」「RNA代謝解析のための質量分析プラットフォームの開発' 戦略的創造研究推進事業研究年報 Vol.2007, 2007 *
JPN6009029042; GOLL M.G. et al.: 'Methylation of tRNAAsp by the DNA methyltransferase homolog Dnmt2' Science Vol.311, No.5759, 20060120, pp.395-398 *
JPN6009029044; NI J. et al.: 'Interpretation of oligonucleotide mass spectra for determination of sequence using electrospray ioni' Anal. Chem. Vol.68, No.13, 19960701, pp.1989-1999 *
JPN6009029048; HOSSAIN M. and LIMBACH P.A.: 'Mass spectrometry-based detection of transfer RNAs by their signature endonuclease digestion product' RNA Vol.13, No.2, 20061228, pp.295-303 *
JPN6009029048; RNA Vol.13, No.2, 20061228, pp.295-303 *

Also Published As

Publication number Publication date
US8880353B2 (en) 2014-11-04
JPWO2009128526A1 (ja) 2011-08-04
US20110161273A1 (en) 2011-06-30
WO2009128526A1 (ja) 2009-10-22

Similar Documents

Publication Publication Date Title
US11155863B2 (en) Sequence assembly
US20120095696A1 (en) Methods and apparatus for genetic evaluation
JP5610347B2 (ja) リボ核酸同定装置、リボ核酸同定方法、プログラムおよびリボ核酸同定システム
Buschmann et al. Enhancing the detection of barcoded reads in high throughput DNA sequencing data by controlling the false discovery rate
Bandeira Spectral networks: a new approach to de novo discovery of protein sequences and posttranslational modifications
US8712695B2 (en) Method, system, and computer program product for scoring theoretical peptides
Martens Bioinformatics challenges in mass spectrometry-driven proteomics
US20070161012A1 (en) Method of identifying unique target sequence
CN113393903A (zh) 参考蛋白质数据库的构建方法、存储介质、电子设备
US8214153B1 (en) Methods for determining the genetic affinity of microorganisms and viruses
US20210335454A1 (en) Fast-na for detection and diagnostic targeting
WO2013097143A1 (zh) 估计基因组杂合率的方法和装置
WO2024195760A1 (ja) 情報処理方法、情報処理装置、およびコンピュータプログラム
JP2009031128A (ja) 核酸の塩基配列及び塩基修飾を解析する装置、方法及びプログラム
Copeland Computational Analysis of High-replicate RNA-seq Data in Saccharomyces Cerevisiae: Searching for New Genomic Features
WO2002014872A2 (en) Sequence data preparation method and apparatus
Beals et al. A survey of experimental and computational identification of small proteins
JP2008021260A (ja) 質量分析によるゲノム上でrna配列を同定するシステム
Shanmugam Integrative Analysis Frameworks for Improved Peptide and Protein Identifications from Tandem Mass Spectrometry Data.
CN116386713A (zh) 基因编辑酶脱靶位点的检测方法、装置和电子设备
Tang Tagger: Enhance Database Search Tools with De Novo Sequencing Tags
Chapman Developing a bioinformatics framework for proteogenomics
Feng Some probability and statistics problems in proteomics research
Stavrovskaya et al. ClusterTree-RS: A binary tree algorithm identifying coregulated genes by clustering regulatory signals
Kristensen et al. Intelligent mining of complex data: challenging the proteomic bottleneck

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140822

R150 Certificate of patent or registration of utility model

Ref document number: 5610347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250