JP2023156389A - Rnaの直接配列決定で使用するための方法およびシステム - Google Patents
Rnaの直接配列決定で使用するための方法およびシステム Download PDFInfo
- Publication number
- JP2023156389A JP2023156389A JP2023126160A JP2023126160A JP2023156389A JP 2023156389 A JP2023156389 A JP 2023156389A JP 2023126160 A JP2023126160 A JP 2023126160A JP 2023126160 A JP2023126160 A JP 2023126160A JP 2023156389 A JP2023156389 A JP 2023156389A
- Authority
- JP
- Japan
- Prior art keywords
- rna
- mass
- data
- algorithm
- present disclosure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 78
- 238000012163 sequencing technique Methods 0.000 title description 51
- 239000012634 fragment Substances 0.000 abstract description 116
- 108091032973 (ribonucleotides)n+m Proteins 0.000 abstract description 98
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 abstract description 98
- 125000003729 nucleotide group Chemical group 0.000 abstract description 59
- 239000002773 nucleotide Substances 0.000 abstract description 47
- 239000013614 RNA sample Substances 0.000 abstract description 32
- 108091028043 Nucleic acid sequence Proteins 0.000 abstract description 29
- 238000001914 filtration Methods 0.000 abstract description 12
- 125000002680 canonical nucleotide group Chemical group 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 96
- 150000001875 compounds Chemical class 0.000 description 25
- 125000002652 ribonucleotide group Chemical group 0.000 description 23
- 230000004048 modification Effects 0.000 description 22
- 238000012986 modification Methods 0.000 description 22
- 108020004566 Transfer RNA Proteins 0.000 description 20
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 18
- 238000003559 RNA-seq method Methods 0.000 description 15
- 108091028664 Ribonucleotide Proteins 0.000 description 13
- 238000004949 mass spectrometry Methods 0.000 description 13
- 239000002336 ribonucleotide Substances 0.000 description 13
- 229960002685 biotin Drugs 0.000 description 12
- 239000011616 biotin Substances 0.000 description 12
- 230000014759 maintenance of location Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 10
- 230000026279 RNA modification Effects 0.000 description 9
- 235000020958 biotin Nutrition 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000005094 computer simulation Methods 0.000 description 6
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 5
- 150000007523 nucleic acids Chemical class 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 239000011324 bead Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000002864 sequence alignment Methods 0.000 description 4
- 108010090804 Streptavidin Proteins 0.000 description 3
- 238000000184 acid digestion Methods 0.000 description 3
- 238000007385 chemical modification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004128 high performance liquid chromatography Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 2
- 108010046983 Ribonuclease T1 Proteins 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 125000002044 canonical ribonucleotide group Chemical group 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000001360 collision-induced dissociation Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000004896 high resolution mass spectrometry Methods 0.000 description 2
- 229920001519 homopolymer Polymers 0.000 description 2
- 238000000126 in silico method Methods 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000004007 reversed phase HPLC Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- YBJHBAHKTGYVGT-ZXFLCMHBSA-N 5-[(3ar,4r,6as)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]pentanoic acid Chemical compound N1C(=O)N[C@H]2[C@@H](CCCCC(=O)O)SC[C@H]21 YBJHBAHKTGYVGT-ZXFLCMHBSA-N 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 101710086015 RNA ligase Proteins 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 108091092328 cellular RNA Proteins 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007515 enzymatic degradation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009145 protein modification Effects 0.000 description 1
- 230000033117 pseudouridine synthesis Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/0027—Methods for using particle spectrometers
- H01J49/0036—Step by step routines describing the handling of the data generated during a measurement
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
- G01N27/622—Ion mobility spectrometry
- G01N27/623—Ion mobility spectrometry combined with mass spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
- G01N30/7233—Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrochemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Library & Information Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
【課題】RNA分子のヌクレオチドの順番を決定するためのシステムおよび方法を提供すること。【解決手段】本方法は、RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップ、質量に基づいてLC-MSデータをフィルタリングするステップであって、フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ、フィルタリングされたLC-MSデータを分析して、複数のRNA配列を決定するステップ、および残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定した後、RNA配列を読み出すステップを含む。フィルタリングされたLC-MSデータを分析するステップは、少なくとも2つの隣接するラダー断片間の質量差を決定すること、および質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドに等しいかどうかを決定することを含む。【選択図】なし
Description
関連出願の相互参照
本出願は、その全体が参照により本明細書に組み込まれる2018年5月25日に出願された米国仮出願第62/676,754号の利益および優先権を主張する。
本出願は、その全体が参照により本明細書に組み込まれる2018年5月25日に出願された米国仮出願第62/676,754号の利益および優先権を主張する。
本発明の開示は、一般的に、配列決定されるRNAの末端標識付けと、第1のリボヌクレオチドから最後のリボヌクレオチドへの完全な一式のラダー断片をカバーするRNAの断片化したラダーとをベースとする、液体クロマトグラフィー-質量分析(LC-MS)ベースのRNA配列決定技術のために開発された新規のアルゴリズムに関する。アルゴリズムは、単一ヌクレオチド分解能で標的RNA配列を同時に読み、広範な標的RNA修飾の存在、タイプ、位置、および量を決定する。開示されるアルゴリズムは、実験データとシミュレートしたデータとの間の相互の検証をもたらすコンピューターによるシミュレーションを導入する。シミュレーションは、増加した長さを有するRNA分子、加えて、増加した鎖および集団多様性を有するRNA試料を配列決定するための手段を提供する。
質量分析(MS)は、タンパク質修飾を研究するためのツールであり、それにおいて、ペプチド断片化によって、様々なアミノ酸修飾の正体および位置を解明する「ラダー」が生産される。これまで、十分な配列カバー率をもたらすin situの断片化技術は存在しないため、核酸に対する類似のアプローチは実現できていない。異常な核酸修飾、特に、RNAにおけるメチル化およびシュードウリジル化は、それぞれ世界中の数百万人もの人々に影響を及ぼす乳がん、2型糖尿病、および肥満症のような主要疾患の発症との相関が示された。それらの重要性にもかかわらず、RNA中の修飾を確実に同定する、位置決定する、および定量するための利用可能なツールは、極めて限定的である。
したがって、RNA分子の効率的な配列決定を容易にするために、新しい方法が必要である。
LC/MSデータが、複数回切断されたRNA断片からのデータを含有し、そのことが、特に、より小さい分解されたRNA断片の位置が特定されるより低い質量の領域から生成される配列の場合、分析を難しくすることを考えれば、RNAの自動化直接配列決定を可能にするために、改善された精度を有するアルゴリズムが望ましい。本発明の開示は、質量RNAラダーリング配列決定方法と使用するためのアルゴリズムの開発に関する。
本発明の開示の態様によれば、RNA分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法が提示される。本方法は、RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップ、質量に基づいてLC-MSデータをフィルタリングするステップ、フィルタリングされたLC-MSデータを分析して、RNA配列を決定するステップ、および残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定することに基づいて、RNA配列を、配列リードとして読み出すステップを含む。RNA配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む。LC-MSデータは、質量、保持時間(RT)、体積、および品質スコア(QS)を含む。フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む。配列決定は、少なくとも2つの隣接するラダー断片間の質量差を決定すること、および質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定することを含む。
本発明の開示の一態様において、本方法は、配列決定されたLC-MSデータ中に何らかのギャップがあるかどうかを決定するステップ、ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存するRNA断片があるかどうかを決定するステップ、化合物に対して階層クラスタリングアルゴリズムを実行して、その関連する質量付加物から、可能性のあるヌクレオチドを同定するステップ、同定された質量付加物と質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつきRNA断片の質量を決定するステップ、各クラスターにつき決定された質量に基づいて、ラダー断片を予測するステップ、予測されたラダー断片に基づいて、RNA配列を読み出すステップ、およびRNA配列を報告するステップをさらに含んでいてもよい。階層クラスタリングアルゴリズムは、RNA断片の質量とRTに基づいて距離メトリック(distance metric)を決定すること;および各断片が真のラダー断片の可能性のある質量付加物を含むように、RNA断片を、その質量の関係に基づいて、質量のクラスターにグループ分けすることを含む。報告するために選択されるRNA配列は、あらゆる質量付加物から同定されたヌクレオチドを含み得る。
本発明の開示の別の態様において、RNA分子の長さは、20ヌクレオチドより大きい。
本発明の開示の一態様において、1つまたは複数のRNA分子は、配列決定されるRNA試料中に存在する。
本発明の開示のさらに別の形態において、RNA試料は、精製されたRNA試料を含む。
本発明の開示のさらなる態様において、RNA試料は、治療用RNA分子を含む。
本発明の開示の一態様において、RNA配列は、MSデータ出力と公知のリボヌクレオチドの質量の相関によって決定される。
本発明の開示のさらなる態様において、質量分析(MS)データ出力を公知の修飾されたリボヌクレオチドの質量と相関させることに基づいて、修飾されたリボヌクレオチドのタイプ、位置、および量を決定することを含む。
本発明の開示のさらに別の形態において、フィルタリングされたLC-MSデータの配列決定は、RNA断片の固有の特性に基づく。本発明の開示のさらなる態様において、RNA断片の固有の特性は、電子的または光学的なシグネチャーシグナルの少なくとも1つを含む。
本発明の開示の態様によれば、RNA分子のヌクレオチドの順番を決定するためのシステムが提示される。システムは、プロセッサーおよびメモリーを含む。メモリーは、命令を保存しており、命令は、1つまたは複数のプロセッサーによって遂行されると、システムに、RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、LC-MSデータは、質量、保持時間(RT)、体積、および品質スコア(QS)を含む、ステップ;質量に基づいてLC-MSデータをフィルタリングするステップであって、フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ;フィルタリングされたLC-MSデータを分析して、複数のRNA配列を決定するステップ、および残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定した後、RNA配列を、配列リードとして読み出すステップを実施させる。RNA配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列を含む。フィルタリングされたLC-MSデータを分析するステップは、少なくとも2つの隣接するラダー断片間の質量差を決定すること;および質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定することを含む。
本発明の開示の態様によれば、RNA分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法が提示される。本方法は、RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データにアクセスするステップであって、RNA試料は、RNAラダー断片を含む、ステップ;塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスするステップ;LC-MSデータに、アンカーベースのサブセッティングを実行するステップであって、アンカーベースのサブセッティングは、データゾーンを選択することを含む、ステップ;LC-MSデータの選択されたサブセットに塩基コールを実行して、タプルのデータセットを生成するステップ;データセット中のタプルを連結するトラジェクトリを構築して、RNAラダー断片のドラフトリードを生成するステップ;およびドラフトリードストラテジーを実行するステップを含む。
本発明の開示のよりさらなる態様において、ドラフトリードストラテジーは、リード長さ、平均体積、平均QS、または平均百万分率(PPM)の少なくとも1つに基づいて、スコア付けすることを含む。
本発明の開示のさらなる態様において、平均PPMは、ドラフトリードに含有されるデータポイントに関連する全てのPPM値の合計をリード長さで割った値である。
本発明の開示のよりさらなる態様において、トラジェクトリを構築することは、深さ優先探索(Depth First Search)(DFS)アルゴリズムを実行して、考えられる全てのドラフトリードが、LC-MSデータから確実に見出されるようにすることをさらに含む。
本発明の開示のさらに別の形態において、本方法は、RNA試料の生化学的な標識付けをさらに含む。
本発明の開示のさらなる態様において、ドラフトリードストラテジーは、グローバル階層ランク付けストラテジー(global hierarchical ranking
strategy)を含む。
strategy)を含む。
本発明の開示の一態様において、ドラフトリードストラテジーは、ローカルベストスコアストラテジーを含む。本発明の開示の別の態様において、本方法は、RNA分子の異なる断片から完全なRNA配列をアセンブルするように構成されたアライメント/アセンブリアルゴリズムを実行することをさらに含む。
本開示の例示的な実施形態のさらなる詳細および態様は、添付の図面を参照しながら以下でより詳細に記載される。本開示の上記の態様および実施形態はいずれも、本開示の範囲から逸脱することなく組み合わせることができる。
RNA配列決定およびアルゴリズムのための本発明の方法の様々な実施形態は、図面を参照しながら本明細書に記載される。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
RNA分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法であって、
RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、前記LC-MSデータは、質量、保持時間(RT)、体積、および品質スコア(QS)を含む、ステップ;
質量に基づいて前記LC-MSデータをフィルタリングするステップであって、前記フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ;
フィルタリングされた前記LC-MSデータを分析して、複数のRNA配列を決定するステップであって、前記フィルタリングされたLC-MSデータを分析することは、
少なくとも2つの隣接するラダー断片間の質量差を決定すること;および
前記質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定すること
を含む、ステップ;ならびに
残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定した後、RNA配列を、配列リードとして読み出すステップであって、前記RNA配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む、ステップ
を含む、方法。
(項目2)
配列決定されたLC-MSデータ中に何らかのギャップがあるかどうかを決定するステップ;
前記ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存するRNA断片があるかどうかを決定するステップ;
前記RNA断片に対して階層クラスタリングアルゴリズムを実行して、その関連する質量付加物から、可能性のあるヌクレオチドを同定するステップであって、前記階層クラスタリングアルゴリズムは、
化合物の質量とRTに基づいて距離メトリックを決定すること;および
各断片が真のラダー断片の可能性のある質量付加物を含むように、RNA断片を、その質量の関係に基づいて、質量のクラスターにグループ分けすること
を含む、ステップ;
同定された前記質量付加物と前記質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつきRNA断片の質量を決定するステップ;
各クラスターにつき決定された前記質量に基づいて、ラダー断片を予測するステップ;および
予測された前記ラダー断片に基づいて、RNA配列を読み出すステップであって、前記RNA配列は、あらゆる同定された質量付加物を含む、ステップ
をさらに含む、項目1に記載のコンピューターにより実装される方法。
(項目3)
前記RNA分子の長さが、20ヌクレオチドより大きい、項目1に記載のコンピューターにより実装される方法。
(項目4)
1つまたは複数のRNA分子が、配列決定される前記RNA試料中に存在する、項目1に記載のコンピューターにより実装される方法。
(項目5)
前記RNA試料が、精製されたRNA試料を含む、項目1に記載のコンピューターにより実装される方法。
(項目6)
前記RNA試料が、治療用RNA分子を含む、項目1に記載のコンピューターにより実装される方法。
(項目7)
前記RNA配列が、MSデータ出力と公知のリボヌクレオチドの質量の相関によって決定される、項目1に記載のコンピューターにより実装される方法。
(項目8)
質量分析(MS)データ出力を公知の修飾されたリボヌクレオチドの質量と相関させることに基づいて、修飾されたリボヌクレオチドのタイプ、位置、および量を決定するステップをさらに含む、項目1に記載のコンピューターにより実装される方法。
(項目9)
前記フィルタリングされたLC-MSデータの配列決定が、RNA断片の固有の特性に基づく、項目1に記載のコンピューターにより実装される方法。
(項目10)
前記RNA断片の前記固有の特性が、電子的または光学的なシグネチャーシグナルの少なくとも1つを含む、項目9に記載のコンピューターにより実装される方法。
(項目11)
RNA分子のヌクレオチドの順番を決定するためのシステムであって、
1つまたは複数のプロセッサー;および
命令を保存する1つまたは複数のメモリー
を含み、
前記命令は、前記1つまたは複数のプロセッサーによって遂行されると、前記システムに、
RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、前記LC-MSデータは、質量、保持時間(RT)、体積、および品質スコア(QS)を含む、ステップ;
質量に基づいて前記LC-MSデータをフィルタリングするステップであって、前記フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ;
フィルタリングされた前記LC-MSデータを分析して、複数のRNA配列を決定するステップであって、前記フィルタリングされたLC-MSデータを分析することは、
少なくとも2つの隣接するラダー断片間の質量差を決定すること;および
前記質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定すること
を含む、ステップ;ならびに
残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定した後、RNA配列を、配列リードとして読み出すステップであって、前記RNA配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む、ステップ
を実施させる、システム。
(項目12)
RNA分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法であって、
RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、前記RNA試料は、RNAラダー断片を含む、ステップ;
塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスするステップ;
前記LC-MSデータに、アンカーベースのサブセッティングを実行するステップであって、前記アンカーベースのサブセッティングは、データゾーンを選択することを含む、ステップ;
LC-MSデータの前記サブセットに塩基コールを実行して、タプルのデータセットを生成するステップ;
前記データセット中のタプルを連結するトラジェクトリを構築して、前記RNAラダー断片のドラフトリードを生成するステップ;および
ドラフトリードストラテジーを実行するステップ
を含む、方法。
(項目13)
前記ドラフトリードストラテジーが、リード長さ、平均体積、平均品質スコア(QS)、または平均百万分率(PPM)の少なくとも1つに基づいて、スコア付けすることを含む、項目12に記載のコンピューターにより実装される方法。
(項目14)
PPMが、
に従って決定され、式中、
質量experimentalは、分子タグを含むラダー断片に対応する実験上の質量であり;
質量theoreticalは、理論上の質量である、項目13に記載のコンピューターにより実装される方法。
(項目15)
平均PPMが、ドラフトリードに含有されるデータポイントに関連する全てのPPM値の合計をリード長さで割った値である、項目12に記載のコンピューターにより実装される方法。
(項目16)
トラジェクトリを構築することが、深さ優先探索(DFS)アルゴリズムを実行して、考えられる全てのドラフトリードが、前記LC-MSデータから確実に見出されるようにすることをさらに含む、項目12に記載のコンピューターにより実装される方法。
(項目17)
前記RNA試料の生化学的な標識付けをさらに含む、項目12に記載のコンピューターにより実装される方法。
(項目18)
前記ドラフトリードストラテジーが、グローバル階層ランク付けストラテジーまたはローカルベストストラテジーを含む、項目12に記載のコンピューターによる方法。
(項目19)
前記ドラフトリードストラテジーが、ローカルベストストラテジーを含む、項目12に記載のコンピューターにより実装される方法。
(項目20)
前記RNA分子の異なる断片から完全なRNA配列をアセンブルするように構成されたアライメント/アセンブリアルゴリズムを実行するステップをさらに含む、項目12に記載のコンピューターにより実装される方法。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
RNA分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法であって、
RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、前記LC-MSデータは、質量、保持時間(RT)、体積、および品質スコア(QS)を含む、ステップ;
質量に基づいて前記LC-MSデータをフィルタリングするステップであって、前記フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ;
フィルタリングされた前記LC-MSデータを分析して、複数のRNA配列を決定するステップであって、前記フィルタリングされたLC-MSデータを分析することは、
少なくとも2つの隣接するラダー断片間の質量差を決定すること;および
前記質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定すること
を含む、ステップ;ならびに
残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定した後、RNA配列を、配列リードとして読み出すステップであって、前記RNA配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む、ステップ
を含む、方法。
(項目2)
配列決定されたLC-MSデータ中に何らかのギャップがあるかどうかを決定するステップ;
前記ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存するRNA断片があるかどうかを決定するステップ;
前記RNA断片に対して階層クラスタリングアルゴリズムを実行して、その関連する質量付加物から、可能性のあるヌクレオチドを同定するステップであって、前記階層クラスタリングアルゴリズムは、
化合物の質量とRTに基づいて距離メトリックを決定すること;および
各断片が真のラダー断片の可能性のある質量付加物を含むように、RNA断片を、その質量の関係に基づいて、質量のクラスターにグループ分けすること
を含む、ステップ;
同定された前記質量付加物と前記質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつきRNA断片の質量を決定するステップ;
各クラスターにつき決定された前記質量に基づいて、ラダー断片を予測するステップ;および
予測された前記ラダー断片に基づいて、RNA配列を読み出すステップであって、前記RNA配列は、あらゆる同定された質量付加物を含む、ステップ
をさらに含む、項目1に記載のコンピューターにより実装される方法。
(項目3)
前記RNA分子の長さが、20ヌクレオチドより大きい、項目1に記載のコンピューターにより実装される方法。
(項目4)
1つまたは複数のRNA分子が、配列決定される前記RNA試料中に存在する、項目1に記載のコンピューターにより実装される方法。
(項目5)
前記RNA試料が、精製されたRNA試料を含む、項目1に記載のコンピューターにより実装される方法。
(項目6)
前記RNA試料が、治療用RNA分子を含む、項目1に記載のコンピューターにより実装される方法。
(項目7)
前記RNA配列が、MSデータ出力と公知のリボヌクレオチドの質量の相関によって決定される、項目1に記載のコンピューターにより実装される方法。
(項目8)
質量分析(MS)データ出力を公知の修飾されたリボヌクレオチドの質量と相関させることに基づいて、修飾されたリボヌクレオチドのタイプ、位置、および量を決定するステップをさらに含む、項目1に記載のコンピューターにより実装される方法。
(項目9)
前記フィルタリングされたLC-MSデータの配列決定が、RNA断片の固有の特性に基づく、項目1に記載のコンピューターにより実装される方法。
(項目10)
前記RNA断片の前記固有の特性が、電子的または光学的なシグネチャーシグナルの少なくとも1つを含む、項目9に記載のコンピューターにより実装される方法。
(項目11)
RNA分子のヌクレオチドの順番を決定するためのシステムであって、
1つまたは複数のプロセッサー;および
命令を保存する1つまたは複数のメモリー
を含み、
前記命令は、前記1つまたは複数のプロセッサーによって遂行されると、前記システムに、
RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、前記LC-MSデータは、質量、保持時間(RT)、体積、および品質スコア(QS)を含む、ステップ;
質量に基づいて前記LC-MSデータをフィルタリングするステップであって、前記フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む、ステップ;
フィルタリングされた前記LC-MSデータを分析して、複数のRNA配列を決定するステップであって、前記フィルタリングされたLC-MSデータを分析することは、
少なくとも2つの隣接するラダー断片間の質量差を決定すること;および
前記質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定すること
を含む、ステップ;ならびに
残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定した後、RNA配列を、配列リードとして読み出すステップであって、前記RNA配列は、それぞれの同定された正規のヌクレオチドおよびあらゆる同定された修飾されたヌクレオチドの配列の順番を含む、ステップ
を実施させる、システム。
(項目12)
RNA分子のヌクレオチドの順番を決定するためのコンピューターにより実装される方法であって、
RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取るステップであって、前記RNA試料は、RNAラダー断片を含む、ステップ;
塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスするステップ;
前記LC-MSデータに、アンカーベースのサブセッティングを実行するステップであって、前記アンカーベースのサブセッティングは、データゾーンを選択することを含む、ステップ;
LC-MSデータの前記サブセットに塩基コールを実行して、タプルのデータセットを生成するステップ;
前記データセット中のタプルを連結するトラジェクトリを構築して、前記RNAラダー断片のドラフトリードを生成するステップ;および
ドラフトリードストラテジーを実行するステップ
を含む、方法。
(項目13)
前記ドラフトリードストラテジーが、リード長さ、平均体積、平均品質スコア(QS)、または平均百万分率(PPM)の少なくとも1つに基づいて、スコア付けすることを含む、項目12に記載のコンピューターにより実装される方法。
(項目14)
PPMが、
質量experimentalは、分子タグを含むラダー断片に対応する実験上の質量であり;
質量theoreticalは、理論上の質量である、項目13に記載のコンピューターにより実装される方法。
(項目15)
平均PPMが、ドラフトリードに含有されるデータポイントに関連する全てのPPM値の合計をリード長さで割った値である、項目12に記載のコンピューターにより実装される方法。
(項目16)
トラジェクトリを構築することが、深さ優先探索(DFS)アルゴリズムを実行して、考えられる全てのドラフトリードが、前記LC-MSデータから確実に見出されるようにすることをさらに含む、項目12に記載のコンピューターにより実装される方法。
(項目17)
前記RNA試料の生化学的な標識付けをさらに含む、項目12に記載のコンピューターにより実装される方法。
(項目18)
前記ドラフトリードストラテジーが、グローバル階層ランク付けストラテジーまたはローカルベストストラテジーを含む、項目12に記載のコンピューターによる方法。
(項目19)
前記ドラフトリードストラテジーが、ローカルベストストラテジーを含む、項目12に記載のコンピューターにより実装される方法。
(項目20)
前記RNA分子の異なる断片から完全なRNA配列をアセンブルするように構成されたアライメント/アセンブリアルゴリズムを実行するステップをさらに含む、項目12に記載のコンピューターにより実装される方法。
本開示の例示的な実施形態のさらなる詳細および態様は、添付の図面を参照しながら以下でより詳細に記載される。本開示の上記の態様および実施形態はいずれも、本開示の範囲から逸脱することなく組み合わせることができる。
本発明の開示は、具体的な実施形態に関して記載されることになるが、本発明の開示の趣旨から逸脱することなく様々な修飾、再構成、および置換をなすことができることが当業者には容易に理解されよう。本発明の開示の範囲は、ここに添付される特許請求の範囲によって定義される。
本発明の開示の原理の理解を促進する目的で、ここで図面で例証された例示的な実施形態について述べるが、それを説明するために特定の言語が使用される。しかしながら、それによって本発明の開示の範囲の限定は意図されないことが理解されるものとする。本明細書において例示された発明の特性のあらゆる変更およびさらなる修飾、ならびに本明細書で例示される本発明の開示の原理のあらゆる追加の適用は、関連分野の当業者およびこの開示の所有権を有する者であれば考え付くものと予想され、これらは本発明の開示の範囲内であるとみなされるものとする。
RNA配列決定の自動化のために、精度が改善されたアルゴリズムが必要である。本発明の開示は、質量RNAラダーリング配列決定方法(例えば、その全体が参照により本明細書に組み込まれる米国特許第62/833,964号に記載されるもの)と使用するためのアルゴリズムの開発に関する。LC/MSベースのRNA配列決定の詳細な議論に関して、米国特許第62/833,964号および“A general LC/MS-based RNA sequencing method for direct analysis of multiple-base modifications in RNA
mixtures,” Zhang et. al.(https://doi.org/10.1101/643387で入手可能)を参照することができ、これらの全内容は、参照により本明細書に組み込まれる。
mixtures,” Zhang et. al.(https://doi.org/10.1101/643387で入手可能)を参照することができ、これらの全内容は、参照により本明細書に組み込まれる。
RNA配列決定は、核酸配列、すなわちRNA中のヌクレオチドの順番を決定するプロセスである。これは、4種の塩基:アデニン、グアニン、シトシン、およびウラシルの順番を決定するのに使用されるあらゆる方法または技術を含む。核酸配列を決定することに加えて、本明細書で開示される方法は、核酸配列内のRNA修飾を同定する、位置決定する、および定量することもできる。
開示されるアルゴリズムは、実験データとシミュレートしたデータとの間の相互の検証をもたらすコンピューターによるシミュレーションを含む。シミュレーションは、増加した長さを有するRNA分子に加えてRNAの混合物を有する多様なRNA試料をプローブするための手段を提供する。階層クラスタリングアルゴリズムは、例えばAgilentの分子フィーチャアルゴリズムから得られたモノアイソトピック質量データからRNA配列生成を自動操作するために使用されてきた。例えばPythonベースのアルゴリズムは、短いRNAには十分機能するが、tRNAからのLC/MSデータを流すと、顕著に速度が落ち、アルゴリズムによって生成されたRNA配列中の誤り率が増加したことが見出され、これは、コンピューターによるデータセットからの作業負荷の増加とtRNA試料の複雑さに起因する可能性がある。76ヌクレオチドの長さのtRNAは、このアルゴリズムが元々誘導された20ntのRNAより実質的に長い。さらに、tRNAは、11個の異なる化学修飾(以下の表1を参照)を有する。化学修飾とRNA長さの両方における増加は、Pythonベースのアルゴリズムの能力に対する挑戦であっただけでなく、誤り率の問題を著しくする。約20ヌクレオチドの長さを有する短いRNAの場合、2つの隣接するラダー成分間の質量差を手作業で計算して、アルゴリズムからの各配列読み出しの精度を検証することができる。それより長いRNAの場合、この手作業での検証は、より課題が多くなり、より効率が低くなる。RNA配列生成および修飾分析の自動化のために、よりロバストな方法を開発することが、特に、より高い複雑さでより長い細胞RNA試料の配列決定が進行する場合の、MSベースの配列決定データの精度を検証するための手段を提供することになる。本明細書で開示されるアルゴリズムは、より優れた精度のために、二方向の配列決定再確認を介してRNA配列決定方法の精度を改善するように設計される。アルゴリズムは、(i)MSデータから提唱されたドラフト配列リードに読み出すステップ、(ii)提唱されたドラフト配列リードから理想的なラダーパターンにシミュレーションするステップ、および(iii)どの程度よくそれらがフィットするかを見るために再確認するステップを含む。
MSベースのRNA配列決定方法は、分解条件を制御して、配列決定のための明確な質量ラダーを生成するが、化学的/酵素分解ステップにおけるラダー断片を生成するプロセスが、3’または5’末端を有さない内部断片の産出を引き起こす可能性がある。本明細書で開示されるアルゴリズムの使用は、望ましくないRNAオリゴヌクレオチド断片をクラスタリングすることを介してそれらを一緒につなぎ合わせること、およびコンピューターによるシミュレーションによって、配列アライメントのための内部断片を利用するための手段を提供する。本開示のアルゴリズムはまた、例えばMSベースの配列決定で使用するためのより短いRNAを生産するのに断片化が利用される場合、長い配列を有するRNAのための配列アライメントの精度を増加させることも助ける。
一態様において、本開示のアルゴリズムは、様々なRNA配列決定方法と共に使用することができる。1つのこのような非限定的な方法は、(i)RNA分子の5’および3’末端を親和性により標識付けするステップ;(ii)標識されたRNAをランダムに分解するステップ;(iii)必要に応じて、5’および3’末端が標識された断片を分離するステップ;(iv)逆相高速液体クロマトグラフィー(HPLC)を使用して、得られた標的RNA断片を分離するステップ;および(iv)配列/修飾同定のために、高分解能質量分析で、得られた質量ラダーを逐次的に分析するステップを含む。このようなRNA配列決定方法は、本明細書では5’および3’ラダープールと称される、分解されたRNA断片の2つのラダープールの形成および逐次的な物理的分離に基づき、これは次いで、RNA配列に加えて、RNA修飾の存在、タイプ、位置および量のHPLCおよびMS決定のために、LC/MSに供される。有利には、本明細書で開示されるアルゴリズムは、得られたLC/MS誘導されたデータを分析するために利用される。
一態様において、本発明の開示のアルゴリズムは、様々なRNA配列決定方法と共に使用することができる。1つのこのような非限定的な方法は、(i)RNA分子の5’および3’末端を異なるタグで化学的に標識付けするステップ;(ii)標識されたRNAをランダムに分解するステップ;(iii)逆相高速液体クロマトグラフィー(HPLC)を使用して、得られた標的RNA断片を分離するステップ;および(iv)配列/修飾同定のために、高分解能質量分析で、得られた質量ラダーを逐次的に分析するステップを含む。
開示されるアルゴリズムは、全てのタイプのヌクレオチドがLC-MSデータにおいてそれらの固有の質量および保持時間(RT)の特性を有するという事実に基づいて、4種の正規のリボヌクレオチドの正体および位置だけでなく、異なるタイプの修飾されたリボヌクレオチドの正体および位置も、それぞれ個々に、および/またはそれらの逐次的な順番で認識する。アルゴリズムは、広範な異なるRNA修飾の存在、タイプ、位置および量を明らかにした配列を自動的に生成する。アルゴリズムは、配列リードを生成するための、質量および保持時間(RT)、体積、および品質スコアなどのLC/MSの特徴的な特性を利用し、各正規のリボヌクレオチドおよび非正規の塩基修飾の正体および位置を明らかにするRNA配列をde novo生成することができる。質量、RT、体積および品質スコア(QS)などのアルゴリズム開発のために使用されるデータは、他のいかなる処理も用いずに、LC/MSワークステーションから直接エクスポートされた。アルゴリズムを、tRNA(tRNA(醸造酵母由来のフェニルアラニン特異的なもの)で試験したところ、その配列読み出しが正確であることが検証された。
図1を参照すれば、本発明の開示によるアルゴリズムの配列決定ワークフローのためのフローチャートが示される。本明細書で開示されるアルゴリズムにおいて(図1)、有利にLC/MSデータ102の強度を使用するため、およびデータ中に存在し得る「ノイズ」の量を明らかにするために、数々のステップが採用される。第1のステップ104において、データを質量に基づきフィルタリングし、配列決定において有用であるには小さすぎる質量を消去する。次いで、ステップ106において、残存するデータポイントは、RTにおいて近い隣接するラダー断片化合物間の質量差に基づいて配列決定される。ランダムな化合物から開始して、アルゴリズムは、RTにおいて近接している隣接する化合物を同定し、2つの化合物間の質量差を計算する(図2を参照)。RNA断片またはラダー断片という用語は、本明細書で使用される場合、LC/MSによって測定された1つの化合物であり、これはまた、2-D質量-RTプロットにおける1つのドットでもある。ステップ108において、質量差が、4種の正規のヌクレオチド:A、U、C、G、または110種を上回る公知の修飾されたRNA塩基のデータベースからの修飾された塩基の1つの質量と一致する場合、その塩基は、配列決定リードの一部として保存される。次いでアルゴリズムは、有効な化合物がもはや見出されなくなるまで、または有効な正規のヌクレオチドまたは修飾されたヌクレオチドをもたらす質量差を生じると予想される化合物がもはや見出されなくなるまで、次の化合物を見出すための同じセットのルールに従い続ける。アルゴリズムが塩基対の全てを読み出すことができる場合(122)、その配列が報告される(116)。好ましい実施形態において、天然全長RNA配列が決定される。配列中に何らかのギャップがある場合、アルゴリズムは補助ステップに進む。
補助ステップにおいて、階層クラスタリングアルゴリズム128は、関連する質量付加物を同定するのに使用される。様々な実施形態において、質量に加えてRTを考慮に入れる距離メトリックを使用して、階層クラスタリングアルゴリズム128は、各クラスターが真のラダー断片の可能性のある質量付加物を含有するように、それらの質量関係に基づいて化合物をグループ分けする。データの複雑さを下げるために、すでに以前のステップで配列決定されたポイント、したがって引き続きそれらの関連する質量クラスターは、階層クラスタリングステップから排除されることになる。ステップ130において、一旦質量クラスターが同定されたら、質量を付加物の質量に対して試験して、異なる質量付加物断片を生じさせるラダー断片の真の質量を決定することになる。アルゴリズムは、図3中の式により同定されたラダー断片の質量に等しい質量、およびその質量クラスターにおけるRTの平均に等しいRTを有する新しいデータポイントを産出することになる。クラスタリングステップを介して新しい質量を同定した後、配列決定アルゴリズムを再度試行して(132)、新しい配列決定リードを生成する。最後に、2ステップからの配列決定リードを合わせて、配列134の完全な読み出しを生成する。
図3を参照すれば、本発明の開示による質量付加物によって隠されたラダー断片の質量を決定するための式が示される。最初に、ステップ302において、質量のクラスターを決定する。例えば質量のクラスターは、質量A、B、およびCを含んでいてもよい。次に、ステップ304において、付加物を決定する。例えば、0、a1、およびa2。次に、ステップ306において、質量差を決定する。次に、ステップ308において、質量差を比較する。例えば、A-a1=B-a2=C-a3は、およそ10ppmの差以内である。ステップ310において、質量は、ステップ308により同定されたラダー断片の質量に等しい。例えば、A-a1は、ラダー断片の質量である。
酸分解をブロックする2’-ヒドロキシル基にRNA修飾がある事象において、2’-O位におけるブロッキング基によって生じるギャップを埋めるために、異なるアプローチが採用されると予想される。RNA修飾、例えば、RNAの2’-ヒドロキシル基におけるメチル化は、隣接する3’-5’-ホスホジエステル結合を非加水分解性にし、1つより多くのヌクレオチドである5’-および3’-質量ラダーファミリーの両方において質量ギャップを産出する。結果として、2’-O位における単一の修飾と2つのヌクレオチドの組合せが存在することが決定されるが、それらの順番は不明である。このような曖昧さを解消するために、シミュレートされた2’-Oで修飾された配列に対して観察されたLC/MSデータ102を一致させるのにコンピューターによるシミュレーションが使用され、したがってこれらの分析からの結果は、2’-O位に修飾が存在する場合、よく一致すると予想される。加えて、従来のRNA配列決定プラットフォームを介して、完全なヌクレオチド配列をアセンブルすることができる。代替として、ジヌクレオチド断片の構造を解明するために、2’-Oで修飾された二量体断片に、衝突誘導解離(CID)MSを実行することができる。
様々な実施形態において、配列決定プロセスの最後のステップは、新しい配列または最終的な配列のためのチェックとして機能するように、データ中の複数の内部断片の存在を関連付けることである。質量クラスター中に含まれない、または配列決定リードで使用される質量を4種の正規の塩基の平均値で割り、それらの配列長さを推測する。様々な実施形態において、長さが3から6塩基の配列を、長さが3から6塩基の内部断片の生成した質量のリストと比較して、正確な一致tを見出す。これらの短い断片は、配列中のギャップを埋めたり、または配列の精度を確認したりするのに使用することができる。
様々な実施形態において、望ましい断片および/または1つより多くの切断を有する望ましくない断片のm/zデータを含有するLC-MSから誘導された生データは、MassHunter(商標)ソフトウェアに内蔵されたAgilentの分子フィーチャアルゴリズムを使用して、全LCの試行にわたりデコンボリューションしてもよく、これは、その後、配列アライメントのために使用される。質量付加物は、デコンボリューションされたデータから除去でき、その配列は、質量および保持時間データの両方を使用して予測/生成されることになる。保持時間と組み合わされた断片に関するm/zデータを分析し、開発されたサポートベクターマシン(SVM)分類器アルゴリズムを使用して分類して、どのデータポイントが「有効」であり、それに続く配列決定のために使用されるべきか、およびどのデータポイントがフィルタリングで除外されるべきかを決定する。データ整理ステップの後、2つの隣接するRNAラダー断片間の質量差(m)は、m=m(i)-m(i-1)、1<i<n、n=RNA長さであり、式中、m(i)は、任意のラダー断片の質量であり、m(i-1)は、その前のより低い質量のラダー断片であり、正規のヌクレオチドおよびそれらの修飾の正体を決定するために、質量差に基づいて誘導されたRNA配列決定情報を相関させるように設計された探索アルゴリズムを使用して、このような質量差を、公知のヌクレオチド断片の正確な質量と一致させる。RNAヌクレオシドにおける構造的な修飾が質量を変更するものである限り、探索アルゴリズムおよびダイナミックプログラミング方法は共に、RNA配列の同定およびその修飾の同定を許容すると予想される。様々な実施形態において、公知の修飾されたリボヌクレオチドの質量は、公知のRNA修飾データベースから、または図6に示される表の使用を介してうまく検索することができる。
図4を参照すれば、本発明の開示による3つのホモポリマーの3’-質量ラダー断片の同時の塩基コールのコンピューターによるシミュレーションが示される。配列アライメントのための1つより多くのカットを有する望ましくない断片の利用に加えて、配列決定精度を増加させるために、RNA配列生成の自動化のためのアルゴリズムをトレーニングするシミュレーションが導入される。実験室とin silicoの両方におけるランダムな配列を有するRNAのMSライブラリーを構築し、配列生成についてアルゴリズムを試験した。例えば化学修飾および複数のRNA鎖が導入されることによって、困難さが段階的に増加した(図4)。加えて、実験室とin silicoの両方において、混成のRNA試料の配列決定が可能になるようにリード長さおよびスループットについてアルゴリズムを試験し、理論上/シミュレーションおよび実験データからの配列読み出しを比較した。
図8を参照すれば、本発明の開示によるRNA分子のヌクレオチドの順番を決定するための方法800を例示する流れ図が示される。最初に、ステップ802において、システムは、RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取る。LC-MSデータは、質量、保持時間(RT)、および体積を含む。様々な実施形態において、RNA分子の長さは、20ヌクレオチドより大きい。様々な実施形態において、1つまたは複数のRNA分子は、配列決定されるRNA試料中に存在する。様々な実施形態において、RNA試料は、多様性が限定された精製されたRNA試料を含んでいてもよい。様々な実施形態において、RNA試料は、治療用RNA分子を含んでいてもよい。
次に、ステップ804において、システムは、質量に基づいてLC-MSデータをフィルタリングし、フィルタリングは、予め決定されたサイズより小さい質量を除去することを含む。様々な実施形態において、データは、質量に基づいてフィルタリングされ、配列決定において有用であるには小さすぎる質量を消去する。
次に、ステップ806において、システムは、フィルタリングされたLC-MSデータを配列決定して、RNA配列を生成する。配列決定は、ステップ808~812を含む。ステップ808において、システムは、2つの隣接する化合物がRTにおいて近いかどうかを決定する。次に、ステップ810において、システムは、2つの隣接するラダー断片間の質量差を決定する。様々な実施形態において、システムは、ランダムな化合物から開始して、RTにおいて近接している隣接する化合物を同定し、2つの化合物間の質量差を計算することができる(図2を参照)。
次に、ステップ812において、システムは、質量差が、正規のヌクレオチドまたは修飾されたヌクレオチドの少なくとも1つに等しいかどうかを決定する。様々な実施形態において、システムは、質量差が、4種の正規のヌクレオチド:A、U、C、G、または110種を上回る公知の修飾されたRNA塩基のデータベースからの修飾された塩基の1つの質量と一致するかどうかを決定する。次に、ステップ814において、システムは、メモリー中に、配列決定リードの一部として、決定された質量差に基づき有効なヌクレオチドとして結果を保存する。
次に、ステップ816において、システムは、有効なヌクレオチドをもたらす質量差を生じると予想されるいずれか2つの隣接する化合物がLC-MSデータ中に残存しているかどうかを決定する。様々な実施形態において、次いでアルゴリズムは、有効な化合物がもはや見出されなくなるまで、または有効な正規のヌクレオチドまたは修飾されたヌクレオチドをもたらす質量差を生じると予想される化合物がもはや見出されなくなるまで、次の化合物を見出すためのステップ808~812のための同じセットのルールに従い続ける。様々な実施形態において、システムは、それが塩基対の全てを読み出すことができるかどうかを決定する。様々な実施形態において、配列中に何らかのギャップがある場合、アルゴリズムは補助ステップに進む。
様々な実施形態において、補助ステップにおいて、システムは、ギャップに基づく有効なヌクレオチドを生じなかった何らかの残存する化合物があるかどうかを決定する。何らかのギャップがある場合、システムは、化合物に対して階層クラスタリングアルゴリズムを実行して、関連する質量付加物を同定する。様々な実施形態において、階層クラスタリングアルゴリズムは、化合物の質量とRTに基づいて距離メトリックを決定すること、各断片が真のラダー断片の可能性のある質量付加物を含むように、化合物を、その質量の関係に基づいて、質量のクラスターにグループ分けすることを含む。様々な実施形態において、すでに以前のステップで配列決定されたポイント、したがって引き続きそれらの関連する質量クラスターは、階層クラスタリングステップから排除されることになる。
様々な実施形態において、システムは次いで、同定された質量付加物と質量のクラスターとの間の項目ごとの比較に基づいて、各クラスターにつき断片の質量を決定する。様々な実施形態において、システムは次いで、各クラスターにつき、決定された質量に基づいてラダー断片を予測する。様々な実施形態において、システムは次いで、予測されたラダー断片に基づいてRNA配列を読み出し、RNA配列を報告する。
次に、ステップ818において、システムは、残存するLC-MSデータ中に残存する有効なヌクレオチドがないことを決定することに基づいて、RNA配列を読み出す。次に、ステップ820において、システムは、RNA配列を報告する。様々な実施形態において、システムは、ディスプレイ上にRNA配列を表示することができる。
様々な実施形態において、液体クロマトグラフィー-質量分析(本明細書ではLC-MSと称される)ベースのRNA配列決定方法は、単一ヌクレオチド分解能で標的RNA分子のヌクレオチド配列を同時に決定する、加えて、標的RNA修飾の存在を検出するのに使用することができる。開示される方法は、標的RNA試料内の各修飾のタイプ、位置および量を決定するのに使用することができる。このような技術は、あらゆる所与のRNA分子の生物学的機能とその関連する修飾との相関を示すために、さらに、RNAベースの治療剤の品質管理のために、有利に使用することができる。
様々な実施形態において、図8の上記の方法800は、その末端の5’末端またはその末端の3’末端のいずれかにおける、ビオチンのような疎水性タグでの配列決定されるRNAの末端標識付けとそれに続く断片化したラダーRNAの生成に依拠する、液体クロマトグラフィー-質量分析(LC-MS)ベースのRNA配列決定技術を含んでいてもよい。様々な実施形態において、方法800は、各正規のリボヌクレオチドおよび非正規の塩基修飾の正体および位置を明らかにするRNA配列をde novo生成するために、質量および保持時間(RT)、体積、ならびに品質スコアなどの特徴的なLC/MSの特性を利用する。方法800は、広範な異なるRNA修飾の存在、タイプ、位置および量を明らかにした配列を生成することを含んでいてもよい。
図9および10を参照すれば、ドラフトリードストラテジーを実行するための方法が示される。様々な実施形態において、アルゴリズムは、データの前処理、塩基コール、配列生成、および具体的な方式でフォーマット化されたLC-MSからの出力である入力データセットにおける出力のフィルタリングを実行する。例えば、MassHunter(商標)取得ソフトウェア(Agilent Technologies(商標)、USA)を使用して、試料データを取得した。LC-MS実験から収集されたデータから関連する液体クロマトグラフおよび質量スペクトル(LC-MS)情報を抽出するために、MassHunter(商標)定性分析(Agilent Technologies(商標)、USA)における分子フィーチャ抽出(MFE)ワークフローを使用した。この権利化された分子フィーチャ抽出(MFE)アルゴリズムは、それぞれその固有の質量および保持時間の範囲を有する全ての可能性のある化合物を見出す標的化されないフィーチャを実行する。ソフトウェアのMFE設定を、実験に使用されるRNAの量に応じて変更した。本発明者らが適用したMFE設定は以下の通りであった:「質量中心データフォーマット、小分子(クロマトグラフ)、500以上、最大1000までの高さを有するピーク、品質スコア≧30」。それぞれグローバル階層ランク付けストラテジーおよびローカルベストスコアストラテジーを実装するアルゴリズムの2つのバリエーションがある(図9および図10)。他のソフトウェアを使用できることが企図される。
図11Aを参照すれば、本発明の開示によるLC/MSによって検出されたtRNAのRNアーゼT1消化による3つの主要な断片、断片I、II、およびIIIの生成が示される。図11Aを参照すれば、本発明の開示による試験tRNA配列決定出力データセットの2-D RT対質量プロットにおけるデータゾーン906の選択が示される。データの前処理904は、アルゴリズムが、データゾーン906、例えば全ての質量ラダー成分がビオチンタグを有するトップゾーンの選択によって、入力データセットの特定のサブセットに同時に焦点を当てるためのステップである。ビオチン標識の疎水性は、標識されていないラダー成分と比較して、ラダー成分のRT値の有意な増加をもたらす。
様々な実施形態において、アルゴリズムで解析する前に、データセット904をサブセット化する理由が少なくとも2つある。第1の理由は、配列決定に必要な質量ラダーを同定し、データセットからノイズデータを消去するためである。第2の理由は、完全なデータセットというより部分的なデータセットを処理するために、アルゴリズムを簡単にするためである。様々な実施形態において、これは、本発明者らは、実験的に配列決定されるRNAにビオチンまたはCy3のような疎水性タグを導入したため、可能である。標識の疎水性は、標識されていないラダー成分と比較して、ラダー成分のRT値の有意な増加をもたらし、本発明者らが2-D質量-RTプロットにおいて標識された質量ラダーを容易に同定できるように、全ての標識された質量ラダー成分をトップゾーンにシフトアップすることを助ける。ここで本発明者らは、試験tRNA配列決定からのデータポイントの図式的な分布を示す(図11Aおよび11B)。アルゴリズムは、同時に1つの断片の配列を読み出すために、1つの群に「ズームイン」する。データセットのサブセット化は、ウィンドウ中の入力データセットのRTおよび質量値をリファインすること、および各断片の開始データポイントを特定することによって実装される。これは、分子タグは各断片の末端に付加されており、タグのRTおよび質量特性は公知であることから実現可能である。それゆえに、分子タグに対応する開始データポイントを特定することによって、データセット全体からの断片に対応するデータポイントが捕まえられるため、アルゴリズムはアンカーベースと呼ばれる。
図12を参照すれば、本発明の開示による塩基コール908の疑似コードが示される。データセットをサブセット化した後、アルゴリズムは、塩基コール908を実行する。塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量は、MBASEのリストとして保存される。第1の反復適用において、アルゴリズムは、分子タグ(アンカー)910に対応する質量を見出し、この質量に等しいMexperimental_iを設定する。アルゴリズムは、リストからの各MBASEを、Mexperimental_iにそれを加え、理論上の合計質量Mtheoretical_jを得ることによって試験する。アルゴリズムは、Mtheoretical_jと一致する質量値のためのデータセットにわたり検索する。一致する質量値Mexperimental_jが存在する場合、結果セットV中に、タプル(Mexperimental_i、塩基、Mexperimental_j)が保存される。アルゴリズムはリスト中の全てのMBASEを試験し、考えられる全ての一致を探すため、セットV中に、同じMexperimental_iを有するが異なる塩基正体およびMexperimental_jを有する複数のタプルが保存される。アルゴリズムが、一致が存在するかどうかを決定する場合、実験上の質量が同じリボヌクレオチドの理論上の質量からわずかに逸脱する可能性がある実験誤差を考察に入れる。本発明者らは、カスタマイズ可能な範囲内でMexperimental_jをMtheoretical_jと一致させることができる計算されたパラメーターであるPPM(百万分率)を実装した。PPMのための式は、
である。アルゴリズムは、考えられる全てのタプルがセットVに保存されるまで、全てのデータポイントに対して塩基コールを実行する。ここで留意すべきことに、セットV中の各タプルは、個々の塩基コールの可能性を表す。
である。アルゴリズムは、考えられる全てのタプルがセットVに保存されるまで、全てのデータポイントに対して塩基コールを実行する。ここで留意すべきことに、セットV中の各タプルは、個々の塩基コールの可能性を表す。
図13を参照すれば、本発明の開示によるトラジェクトリを構築することによる配列生成の疑似コード/ワークフローが示される。様々な実施形態において、塩基コールの後、アルゴリズムは、セットV中のタプルを連結するトラジェクトリを構築して、RNA断片の配列を生成する。セットVからのタプルを頂点として採用して、アルゴリズムは、所与のタプルの対(Mi、塩基、Mj)および(Mk、塩基、Ml)につきMk=Mjになるように、タプルの対を検査することによって全てのエッジを見出し、保存する。アルゴリズムは、エッジを見出しながらグラフG=(V、E)を生成する。グラフGが完成したら、アルゴリズムは、深さ優先探索(DFS)によってグラフG中の全てのパスを見出す。全てのパスは、頂点のセットとして保存される。パス中に含有される頂点はタプル(Mexperimental_i、塩基、Mexperimental_j)であるため、塩基は、RNA配列のドラフトリード912として出力することができる。
様々な実施形態において、LC-MSからの出力は膨大な数のデータポイントを含有するため、グラフGは、同じ数の頂点を含有し、さらには膨大な数のエッジも含有し、結果として、それぞれドラフトリードを表す莫大な数の総パスをもたらす。正しい配列を報告するためにドラフトリードを効果的にフィルタリングするために、2つのドラフトリード選択ストラテジー、すなわちグローバル階層ランク付けストラテジー900およびローカルベストスコアストラテジー1000が開発された。それでもなお、どちらのストラテジーも、ドラフトリード914をスコア付けするのに、PPM、RT、体積、品質スコア(QS)、リード長さを含む、LC-MSデータセットから取得された同じパラメーターを使用する。
図14を参照すれば、本発明の開示による、最終的なリードとしての最良の全体的なスコア付けドラフトリードの階層ランク付けストラテジー900および選択によるドラフトリード選択の疑似コード/ワークフローが示される。様々な実施形態において、グローバル階層ランク付けストラテジーでは、ドラフトリードは、以下の基準:リード長さ、平均体積、平均QS、および平均PPMを用いて、配列生成ステップの後にスコア付けされる。リード長さは、ドラフトリード中の塩基の数である。平均体積は、ドラフトリード中の各データポイントに関連する体積を合計し、その合計をリード長さで割ることによって計算される。平均QSは、各ドラフトリードにつきQSの合計をリード長さで割ることによって計算される。平均PPMは、ドラフトリードに含有されるデータポイントに関連する全てのPPM値の合計をリード長さで割った値である。グローバル階層ランク付けストラテジーの第1のステップは、全てのドラフトリードを、それらのリード長さに基づいてクラスターにグループ分けし、各クラスターは、リード長さに応じたランク付けスコアが割り当てられる。最も高いランク付けを受け取るクラスターは、トップのリード長さを有するドラフトリードを含有し、アルゴリズムは、それに続くステップで、このクラスターに焦点を当てる。このクラスター内で、ドラフトリードは、平均体積値に基づいてその次にランク付けされるスコアが割り当てられ、ここで、より高い平均体積を有するドラフトリードは、より高いランク付けを受け取る。1つより多くのドラフトリードが同じリード長さおよび平均体積値を有し、したがって同じランク付けを受け取る場合では、アルゴリズムは、これらのドラフトリードを再びランク付けするのに平均QS値を使用し、ここで、より高い平均QS値は、より高いランクをもたらす。それでもなお同じランクを受け取る複数のドラフトリードがある場合、アルゴリズムは、これらのドラフトリードを再びランク付けするのに平均PPM値を使用するが、PPMは、観察された質量値と、LC-MSからの質量ラダー成分の各データポイントに関連するその理論上の質量値との差を反映するため、より高いランクは、より低い平均PPM値を有するドラフトリードに割り当てられる。最終的に、階層ランク付け手順において、最も長いリード長さ、最も大きい平均体積、最も高い平均QSおよび最も低い平均PPMを有するドラフトリードが、全ての他のドラフトリードに勝り、それが、配列の最終的なリードとして出力されることになる。
図15を参照すれば、本発明の開示によるローカルベストスコアストラテジー1000の疑似コード/ワークフローが示される。代替として、ローカルベストスコアストラテジー1000は、塩基コールのステップからの以前のストラテジーとは異なる。様々な実施形態において、ローカルベストスコアストラテジー1000のアルゴリズムは、アンカーベースの方法1010を適用して、質量の順番を昇順にすることによって予備的にソートされたLC-MSデータセットの具体的なサブセットに焦点を当てる。様々な実施形態において、これは、ユーザー定義のアンカー質量によって開始のリボヌクレオチドを突き止め、断片全体からのデータポイントをアンカーによって配置する。様々な実施形態において、これらのデータポイントに焦点を当てることで、アルゴリズムはここで、塩基コールを実行し、同時に各データポイントを評価する。様々な実施形態において、望ましいゾーン中の全てのデータポイントはここでノードとみなされ、アルゴリズムは、各ノードの評価に基づいて、最終的なリードとして単一のパスを完成させる。現時点でのノードに対して、以前のノード(アンカーとして初期設定された)からのその質量差を、正体の一致に関して全ての公知のリボヌクレオチドの質量のリストと比較する。一致は、このノードのPPM値が、ある特定の閾値未満である場合にのみ承諾される。tRNA試料を含む試験データにおいて、この閾値は10と特定されたが、常に実際のLC-MSデータセットに対してカスタマイズされるべきである。一致(またはそれ以外の場合、ミスマッチ)を承諾または拒絶した後、アルゴリズムは、一致したリボヌクレオチドの正体を保存し、次のノードに進む。それらのRTに基づいて、常に数々の可能性のある次のノードが存在する。最も大きい体積を有するノードが選択されることになるが、例外として、ノードが著しく小さいPPM値(0に近い)を有する場合、このノードは、より高い体積を有する他のノードを超えて選択されることになる。アルゴリズムはここで、選択されたノードの正体の一致について検索し、その一致を評価し、リボヌクレオチドの正体を保存する。このプロセスは、望ましいデータゾーン中の配列が読み出されるまで繰り返される。酵母からのtRNAPheのde novo MS配列決定の一例。
図16は、2-D LC/MSによる断片IIIのDe novo配列決定のためのストラテジーを示す。a)断片IIIの3’末端を、A(5’)pp(5’)Cp-TEG-ビオチン-3’およびT4 RNAリガーゼの使用によってビオチンタグで標識した。ストレプトアビジンがカップリングされたビーズの助けによる捕捉および放出の後、得られた断片IIIを、酸分解とそれに続くLC/MS分析に供した。概略図は、ラダー成分の全ての3’末端に導入されたビオチンタグによって引き起こされた可能性のあるtR-質量シフトを示す/予測する。b)配列決定のために、2-D LC/MSデータ102からの断片IIIの3’-ビオチン標識質量ラダーを同定する。一番上の曲線(点線の赤色のラインの上)における配列を、ローカルベストスコアストラテジー(SI)を使用するPythonでコードされたアルゴリズムによって自動的にde novo生成した。K:m1A。
図17は、2-D LC/MSによる断片IのDe novo配列決定のためのストラテジーを示す。a)断片Iの5’末端を脱リン酸化し、その後ビオチンタグで標識した。ストレプトアビジンがカップリングされたビーズの助けによる捕捉および放出の後、得られた断片Iを、酸分解とそれに続くLC/MS分析に供した。概略図は、ラダー成分の全ての5’末端に導入されたビオチンタグによって引き起こされた可能性のある質量-RTシフトを示す/予測する。b/e)配列決定のために、2-D LC/MSデータ(一番上の赤色の点線の上)からの断片Iの5’-ビオチン標識質量ラダーを同定する。一番上の曲線における配列を、ローカルベストスコアストラテジーを使用するPythonでコードされたアルゴリズム(b)またはグローバル階層ランク付けストラテジーを使用するJAVA(登録商標)でコードされたアルゴリズム(e)のいずれかによって自動的にde novo生成した。c)LC/MS分析のために、断片Iを、まったく標識付けせずに直接酸分解したが、これは、その5’末端に末端PO4
-を有し、これは、ローカルベストスコアストラテジーを使用するPythonでコードされたアルゴリズム(d)を自動的に使用する断片Iの配列のde novo生成のための質量タグとしてプログラム化することができる。
図18は、2-D LC/MSによる断片IIのDe novo配列決定のためのストラテジーを示す。a)断片IIの5’末端を、方法のセクションで説明した化学を用いてビオチンタグで標識した。ストレプトアビジンがカップリングされたビーズの助けによる捕捉および放出の後、得られた断片IIを、酸分解とそれに続くLC/MS分析に供した。概略図は、ラダー成分の全ての5’末端に導入されたビオチンタグによって引き起こされた可能性のあるtR-質量シフトを示す/予測する。b~c)配列決定のために、2-D LC/MSデータからの断片IIの5’-ビオチン標識質量ラダーを同定する。一番上の曲線における配列を、ローカルベストスコアストラテジーを使用するPythonでコードされたアルゴリズム(b)およびグローバル階層ランク付けストラテジーを使用するJAVA(登録商標)でコードされたアルゴリズム(c)によって自動的にde novo生成した。
図19は、グローバル階層ランク付けストラテジーとローカルランク付けストラテジーの両方を適用することによる、tRNAの断片Iの同じデータからの最終的な配列読み出し間の比較を示す。a)最終的な配列リードは、5’末端からのtRNAの断片Iの配列と完全に一致しており、これは、両方のグローバル階層ランク付けが、効果的に配列を生成できることを意味する。b)グローバル階層ランク付けを使用するJAVA(登録商標)でコードされたアルゴリズムを、自動的に断片Iの配列のde novo生成に適用した。
図20を参照すれば、本発明の開示によるRNA分子のヌクレオチドの順番を決定するための方法2000を例示する流れ図が示される。最初に、ステップ2002において、システムは、RNA試料の液体クロマトグラフィー-質量分析(LC-MS)データを受け取る。LC-MSデータは、質量、保持時間(RT)、および体積を含む。RNA試料は、RNA断片を含む。様々な実施形態において、コンピューターにより実装される方法は、RNA試料の生化学的な標識付けをさらに含む。
次に、ステップ2004において、システムは、塩基への修飾を有するものを含む全ての公知のリボヌクレオチドの化学式から計算された理論上の質量を含むデータベースにアクセスする。次に、ステップ2004において、システムは、LC-MSデータに、アンカーベースのサブセッティングを実行し、アンカーベースのサブセッティングは、データゾーンを選択することを含む。
次に、ステップ2006において、システムは、LC-MSデータのサブセットに塩基コールを実行して、タプルのデータセットを生成する。次に、ステップ2008において、システムは、データセット中のタプルを連結するトラジェクトリを構築して、RNA断片のドラフトリードを生成する。様々な実施形態において、ドラフトリードストラテジーは、グローバル階層ランク付けストラテジーまたはローカルベストストラテジーを含む。様々な実施形態において、ドラフトリードストラテジーは、ローカルベストストラテジーを含む。様々な実施形態において、トラジェクトリを構築することは、深さ優先探索(DFS)アルゴリズムを実行して、考えられる全てのドラフトリードが、LC-MSデータから確実に見出されるようにすることをさらに含む。
次に、ステップ2010において、システムは、ドラフトリードストラテジーを実行する。図21を参照すれば、選択されたドラフトリードストラテジーを実行した後、断片のオーバーラップする領域に基づいてtRNAの配列をアセンブルする。1つの断片のリーディング配列を別の断片の終わりの配列と5kmerのサイズでアライメントする場合、これらの2つの断片がアセンブルされる。5kmerのサイズは、試料調製物からの不完全な断片化の設計の結果である、試験tRNA試料の断片の配列決定リードが長さが少なくとも5bpのオーバーラップを含有する実験データの観察に基づいて選択される。5kmerのサイズは、断片のサイズが小さいことを考慮すれば、断片アセンブリの精度を保証するのに十分である。またkmerのサイズは、tRNAの配列決定以外の異なる適用ごとに調整も可能である。
様々な実施形態において、ドラフトリードストラテジーは、リード長さ、平均体積、平均QS、または平均PPMの少なくとも1つに基づいて、スコア付けすることを含む。
また本明細書に記載されるシステムは、様々な情報を受け取り、受け取った情報を変換して、出力を生成するための1つまたは複数のコントローラーを利用してもよい。コントローラーは、あらゆるタイプのコンピューティングデバイス、計算回路、またはメモリー中に保存される一連の命令を遂行することが可能なあらゆるタイプのプロセッサーもしくは処理回路を含み得る。コントローラーは、複数のプロセッサーおよび/またはマルチコア中央処理装置(CPU)を含んでいてもよく、さらに、あらゆるタイプのプロセッサー、例えばマイクロプロセッサー、デジタルシグナルプロセッサー、マイクロコントローラー、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)などを含んでいてもよい。コントローラーはまた、データおよび/または命令を保存するためのメモリーを含んでいてもよく、これらのデータおよび/または命令は、1つまたは複数のプロセッサーによって遂行されると、1つまたは複数のプロセッサーに、1つまたは複数の方法および/またはアルゴリズムを実施させる。
本明細書において記載された方法、プログラム、アルゴリズムまたはコードはいずれも、1つまたは複数の機械可読な媒体またはメモリーに含有されていてもよい。用語「メモリー」は、プロセッサー、コンピューター、またはデジタル処理デバイスなどの機械によって読み取り可能な形態で情報を提供する(例えば、保存するおよび/または送信する)メカニズムを含み得る。例えば、メモリーは、読み出し専用メモリー(ROM)、ランダムアクセスメモリー(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリーデバイス、または他のあらゆる揮発性もしくは不揮発性メモリー保存デバイスを含み得る。そこに含有されるコードまたは命令は、搬送波シグナル、赤外線シグナル、デジタルシグナルによって表すことができ、さらに、他の類似のシグナルによっても表すことができる。
本明細書で開示される実施形態は、本開示の例であり、様々な形態で具体化することができる。例えば、本明細書に記載のある特定の実施形態は、別個の実施形態として記載されるが、本明細書に記載の実施形態のそれぞれは、本明細書に記載の他の実施形態の1つまたは複数と組み合わせてもよい。本明細書で開示される具体的な構造的および機能的な詳細は、限定として解釈されるのではなく、特許請求の範囲の基礎として、さらに実質的に全ての適切に詳述された構造で本発明の開示を様々に採用するための当業者への教示の代表的な基準として解釈されるものとする。
句「一実施形態において」、「実施形態において」、「様々な実施形態において」、「一部の実施形態において」、または「他の実施形態において」はそれぞれ、本発明の開示による同じおよび/または異なる実施形態の1つまたは複数を指し得る。「AまたはB」という形態での句は、「(A)、(B)、または(AおよびB)」を意味する。「A、B、またはCの少なくとも1つ」という形態での句は、「(A);(B);(C);(AおよびB);(AおよびC);(BおよびC);または(A、B、およびC)」を意味する。
本明細書に記載の説明は、本発明の開示の単なる例示であることが理解されるものとする。様々な代替物および改変が、本開示から逸脱することなく当業者によって考案できる。したがって、本発明の開示は、このような全ての代替物、改変および変化を包含することが意図される。記載された実施形態は、単に本開示のある特定の例を実証するために提示される。上記および/または添付の特許請求の範囲に記載されたものから実質的に異なっていない他の要素、ステップ、方法、および技術も、本発明の開示の範囲内であることが意図される。
Claims (1)
- 本明細書に記載の発明。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862676754P | 2018-05-25 | 2018-05-25 | |
US62/676,754 | 2018-05-25 | ||
JP2020565742A JP2021525859A (ja) | 2018-05-25 | 2019-05-24 | Rnaの直接配列決定で使用するための方法およびシステム |
PCT/US2019/033895 WO2019226976A1 (en) | 2018-05-25 | 2019-05-24 | Method and system for use in direct sequencing of rna |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020565742A Division JP2021525859A (ja) | 2018-05-25 | 2019-05-24 | Rnaの直接配列決定で使用するための方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023156389A true JP2023156389A (ja) | 2023-10-24 |
Family
ID=68617227
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020565742A Pending JP2021525859A (ja) | 2018-05-25 | 2019-05-24 | Rnaの直接配列決定で使用するための方法およびシステム |
JP2023126160A Pending JP2023156389A (ja) | 2018-05-25 | 2023-08-02 | Rnaの直接配列決定で使用するための方法およびシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020565742A Pending JP2021525859A (ja) | 2018-05-25 | 2019-05-24 | Rnaの直接配列決定で使用するための方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210217494A1 (ja) |
EP (1) | EP3802818A4 (ja) |
JP (2) | JP2021525859A (ja) |
WO (1) | WO2019226976A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023522353A (ja) * | 2020-04-20 | 2023-05-30 | ニューヨーク・インスティテュート・オブ・テクノロジー | Rnaの直接的配列決定の方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6083693A (en) * | 1996-06-14 | 2000-07-04 | Curagen Corporation | Identification and comparison of protein-protein interactions that occur in populations |
US6934636B1 (en) * | 1999-10-22 | 2005-08-23 | Genset, S.A. | Methods of genetic cluster analysis and uses thereof |
JP2009031128A (ja) * | 2007-07-27 | 2009-02-12 | Univ Of Tokyo | 核酸の塩基配列及び塩基修飾を解析する装置、方法及びプログラム |
JP5183155B2 (ja) * | 2007-11-06 | 2013-04-17 | 株式会社日立製作所 | 大量配列の一括検索方法及び検索システム |
CN102203292B (zh) * | 2008-10-29 | 2014-06-25 | 南克森制药公司 | 通过质谱分析法测序核酸分子 |
JP5569264B2 (ja) * | 2010-08-31 | 2014-08-13 | 株式会社島津製作所 | マトリクス支援レーザー脱離イオン化飛行時間型質量分析装置を用いたイオン源内解裂によるrna配列決定法 |
KR102648489B1 (ko) * | 2015-04-06 | 2024-03-15 | 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 | Crispr/cas-매개 유전자 조절을 위한 화학적으로 변형된 가이드 rna |
US20170199960A1 (en) * | 2016-01-07 | 2017-07-13 | Seven Bridges Genomics Inc. | Systems and methods for adaptive local alignment for graph genomes |
-
2019
- 2019-05-24 WO PCT/US2019/033895 patent/WO2019226976A1/en unknown
- 2019-05-24 US US17/058,165 patent/US20210217494A1/en active Pending
- 2019-05-24 EP EP19807413.0A patent/EP3802818A4/en active Pending
- 2019-05-24 JP JP2020565742A patent/JP2021525859A/ja active Pending
-
2023
- 2023-08-02 JP JP2023126160A patent/JP2023156389A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210217494A1 (en) | 2021-07-15 |
EP3802818A4 (en) | 2022-03-02 |
JP2021525859A (ja) | 2021-09-27 |
EP3802818A1 (en) | 2021-04-14 |
WO2019226976A1 (en) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beveridge et al. | A synthetic peptide library for benchmarking crosslinking-mass spectrometry search engines for proteins and protein complexes | |
Sandin et al. | Data processing methods and quality control strategies for label-free LC–MS protein quantification | |
US11049587B2 (en) | Methods and systems for aligning sequences in the presence of repeating elements | |
US20180336314A1 (en) | Methods and systems for detecting sequence variants | |
CN108763865B (zh) | 一种预测dna蛋白质结合位点的集成学习方法 | |
EP3058093B1 (en) | Methods and systems for identifying disease-induced mutations | |
US8594951B2 (en) | Methods and systems for nucleic acid sequence analysis | |
JP2024059673A (ja) | タンパク質同定のための方法およびシステム | |
JP7319197B2 (ja) | 標的核酸のシークエンシングデータをアライメントする方法 | |
JP2023156389A (ja) | Rnaの直接配列決定で使用するための方法およびシステム | |
US20140188396A1 (en) | Oligomer sequences mapping | |
US8731843B2 (en) | Oligomer sequences mapping | |
US20190018928A1 (en) | Methods for Mass Spectrometry-Based Structure Determination of Biomacromolecules | |
Polasky et al. | Recent advances in computational algorithms and software for large-scale glycoproteomics | |
CN107563148B (zh) | 一种基于离子索引的整体蛋白质鉴定方法与系统 | |
Martens | Bioinformatics challenges in mass spectrometry-driven proteomics | |
CN109727645B (zh) | 生物序列指纹 | |
KR20220083620A (ko) | 몬테카를로 트리 탐색을 사용하여 rna 압타머 서열을 스크리닝하는 방법 및 장치 | |
US20060259250A1 (en) | Extraction of motifs from large scale sequence data | |
CN112326767A (zh) | 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法 | |
Fiscon et al. | A perspective on the algorithms predicting and evaluating the rna secondary structure | |
Chutipongtanate et al. | Proteomics: Moving Toward Precision Medicine | |
Beveridge et al. | A synthetic peptide library for benchmarking crosslinking mass spectrometry search engines | |
CN113234831A (zh) | 一种预测肺癌预后的模型及产品和系统 | |
CN107533588B (zh) | 估计dna芯片探针-靶亲和性的方法和制造dna芯片的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230802 |