JP2017525339A - 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム - Google Patents
1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2017525339A JP2017525339A JP2016574372A JP2016574372A JP2017525339A JP 2017525339 A JP2017525339 A JP 2017525339A JP 2016574372 A JP2016574372 A JP 2016574372A JP 2016574372 A JP2016574372 A JP 2016574372A JP 2017525339 A JP2017525339 A JP 2017525339A
- Authority
- JP
- Japan
- Prior art keywords
- dna
- genome
- chromosome
- biological sample
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 128
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims description 130
- 238000004590 computer program Methods 0.000 title claims description 11
- 239000002773 nucleotide Substances 0.000 claims abstract description 21
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 21
- 108020004414 DNA Proteins 0.000 claims description 158
- 239000012472 biological sample Substances 0.000 claims description 53
- 238000004422 calculation algorithm Methods 0.000 claims description 48
- 241001515965 unidentified phage Species 0.000 claims description 41
- 239000002245 particle Substances 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 27
- 238000012163 sequencing technique Methods 0.000 claims description 22
- 230000002759 chromosomal effect Effects 0.000 claims description 20
- 244000005700 microbiome Species 0.000 claims description 19
- 241000700605 Viruses Species 0.000 claims description 17
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 claims description 15
- 238000004132 cross linking Methods 0.000 claims description 15
- 108091008146 restriction endonucleases Proteins 0.000 claims description 14
- 230000003612 virological effect Effects 0.000 claims description 12
- 230000001580 bacterial effect Effects 0.000 claims description 11
- 241000894006 Bacteria Species 0.000 claims description 8
- 238000013467 fragmentation Methods 0.000 claims description 8
- 238000006062 fragmentation reaction Methods 0.000 claims description 8
- 230000003426 interchromosomal effect Effects 0.000 claims description 7
- 239000013612 plasmid Substances 0.000 claims description 7
- 108010077544 Chromatin Proteins 0.000 claims description 6
- 210000003483 chromatin Anatomy 0.000 claims description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 244000045947 parasite Species 0.000 claims description 5
- 230000005945 translocation Effects 0.000 claims description 5
- 239000011324 bead Substances 0.000 claims description 4
- 230000009089 cytolysis Effects 0.000 claims description 4
- 230000002503 metabolic effect Effects 0.000 claims description 4
- 241000203069 Archaea Species 0.000 claims description 3
- 241000233866 Fungi Species 0.000 claims description 3
- 240000004808 Saccharomyces cerevisiae Species 0.000 claims description 3
- 239000000919 ceramic Substances 0.000 claims description 3
- 239000011521 glass Substances 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 244000000001 Virome Species 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 2
- 230000002934 lysing effect Effects 0.000 claims description 2
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 2
- 102000053602 DNA Human genes 0.000 description 138
- 210000004027 cell Anatomy 0.000 description 35
- 239000000203 mixture Substances 0.000 description 28
- 230000006870 function Effects 0.000 description 19
- 241000894007 species Species 0.000 description 18
- 238000012545 processing Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 230000000813 microbial effect Effects 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 239000000523 sample Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000000835 fiber Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000001717 pathogenic effect Effects 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- 238000005119 centrifugation Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000012010 growth Effects 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 108090000790 Enzymes Proteins 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- LOKCTEFSRHRXRJ-UHFFFAOYSA-I dipotassium trisodium dihydrogen phosphate hydrogen phosphate dichloride Chemical compound P(=O)(O)(O)[O-].[K+].P(=O)(O)([O-])[O-].[Na+].[Na+].[Cl-].[K+].[Cl-].[Na+] LOKCTEFSRHRXRJ-UHFFFAOYSA-I 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000002953 phosphate buffered saline Substances 0.000 description 3
- 238000005204 segregation Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 2
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 2
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 229940098773 bovine serum albumin Drugs 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000001726 chromosome structure Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 235000020938 metabolic status Nutrition 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- 101100180402 Caenorhabditis elegans jun-1 gene Proteins 0.000 description 1
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 1
- 239000004971 Cross linker Substances 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 101710141836 DNA-binding protein HU homolog Proteins 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 101710174628 Modulating protein YmoA Proteins 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 229920004890 Triton X-100 Polymers 0.000 description 1
- 239000013504 Triton X-100 Substances 0.000 description 1
- 108020005202 Viral DNA Proteins 0.000 description 1
- 230000003698 anagen phase Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 229920001222 biopolymer Polymers 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000011089 carbon dioxide Nutrition 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- YTRQFSDWAXHJCC-UHFFFAOYSA-N chloroform;phenol Chemical compound ClC(Cl)Cl.OC1=CC=CC=C1 YTRQFSDWAXHJCC-UHFFFAOYSA-N 0.000 description 1
- 230000008711 chromosomal rearrangement Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012869 ethanol precipitation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 229920005570 flexible polymer Polymers 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 235000019833 protease Nutrition 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 210000003934 vacuole Anatomy 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Organic Chemistry (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
Description
本発明は、一般に、ゲノムアセンブリの分野に関する。より詳細には、本発明は、ハイスループット配列決定と組み合わせた染色体コンフォメーションキャプチャを用いて、1又は複数の生物の1又は複数のゲノムをアセンブルするための方法、装置、及びコンピュータプログラムに関する。
−前記少なくとも1つの染色体のDNA領域間の接触頻度を表す第1の値を取得する工程であり、ここで前記第1の値が、対応するDNA領域間の距離を表す第2の値と関連づけられる、工程;及び
−反復的に以下の工程を実行する工程:
−前記第1及び第2の値に基づき、かつ、DNA領域間の接触確率と、対応するDNA領域間の距離とを関連付ける理論モデルに基づいて、ゲノム構造を更新する工程であり、更新されたゲノム構造が、前記少なくとも1つの生物の前記少なくとも1つの染色体の前記少なくとも1つの断片の実際のゲノム構造を表す、工程;及び
−更新されたゲノム構造の関数として、前記理論モデルのパラメータを更新する工程、
を含む方法である。
−少なくとも1つの染色体の少なくとも1つの断片を含む調製された生物学的サンプルの染色体の断片を架橋する工程;
−少なくとも2つの異なるタイプの制限酵素を用いて、架橋された染色体を断片化する工程;及び
−断片化工程から生じる染色体の断片を配列決定する工程。
−少なくとも1つの染色体の少なくとも1つの断片を含む生物学的サンプルを調製する工程;
−調製された生物学的サンプルの染色体の断片を架橋する工程;
−少なくとも2つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程;
−断片化工程から生じる染色体の断片を配列決定する工程;及び
−染色体の配列決定された断片をアセンブルする工程。
−生物学的サンプルから独立したウイルス粒子の集団を抽出する工程;
−請求項1〜17のいずれか1項に記載の方法に基づいて、独立したウイルス粒子の抽出集団のウイルスゲノム配列を同定し、同定されたウイルスゲノム配列がウイロームを形成する工程;
−生物学的サンプルのゲノムを形成するための請求項1〜17のいずれか一項に記載の方法に基づいて、ウイルス粒子の集団が抽出された生物学的サンプル中の細菌、プラスミド及びウイルスゲノム配列を同定する工程;及び、
−生物学的サンプルのウイロームとゲノムとの間の対応関係を、物理的接触に基づいて確立する工程。
本発明の一実施形態によれば、染色体コンフォメーションのメタゲノムキャプチャー(Meta3C)実験により測定できる、類似の細胞コンパートメントを共有する染色体が経験する頻繁な物理的接触は、メタ個体群(metapopulation)に存在するゲノムのより広範なスキャフォールドをアセンブルするために使用され得る。Meta3Cライブラリは、接触頻度に基づく広範なDNA領域をアセンブルすることが可能であるだけでなく、予備的に新規(de novo)アセンブル工程を実施するにより、読み取りが、それらを生成するために直接使用可能である。
に従うと仮定される。
−CPUと呼ばれるマイクロプロセッサのような中央処理装置1311;
−本発明を実施するためのコンピュータプログラムを記憶するための、ROMと示される、読み出し専用メモリ1307;
−本発明の実施形態の方法の実行可能コード並びに本発明の実施形態によるゲノム構造決定方法を実施するために必要な変数及びパラメータを記録するように適合されたレジスタを記憶するための、RAMと示される、ランダムアクセスメモリ1312;及び、
−通信ネットワーク1303に接続され、処理されるデジタルデータを送信可能な通信インターフェース1302。
−本発明の1つ又は複数の実施形態の方法を実施するためのコンピュータプログラムと、本発明の1つ又は複数の実施形態の実施中に使用又は生成されるデータとを格納するための、ハードディスクなどのデータ記憶手段1304;
−ディスクドライブはディスク1306からのデータの読み出し、又は前記ディスクへのデータの書き込みに適した、ディスク1306に対するディスクドライブ1305;
−キーボード1310又は任意の他のポインティング手段を用いて、データを表示する、及び/又はユーザとのグラフィカルインタフェースとして機能するための画面1309。
Claims (25)
- 少なくとも1つのライブラリの全てのDNAフラグメントを表す未処理のサブ配列のセットに基づき、少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片を表す少なくとも1つの配列をアセンブルするためのコンピュータのための方法であって、前記少なくとも1つのライブラリが、前記少なくとも1つの染色体の連続したヌクレオチドの鎖を含むDNAフラグメントを含み、かつ、前記少なくとも1つの染色体の連続するヌクレオチドの少なくとも2つの鎖の組合せを含むDNAフラグメントを含むものであり、
前記方法が、以下の工程:
−前記少なくとも1つの染色体のDNA領域間の接触頻度を表す第1の値を得る工程であり、ここで前記第1の値が、対応するDNA領域間の距離を表す第2の値と関連づけられる、工程;及び
−反復して以下の工程を実行する工程:
−前記第1及び第2の値に基づいて、及び、DNA領域間の接触確率と対応するDNA領域間の距離とを関連付ける理論モデルに基づいて、ゲノム構造を更新する工程であって、更新されたゲノム構造が、前記少なくとも1つの生物の前記少なくとも1つの染色体の前記少なくとも1つの断片の実際のゲノム構造を表す、工程;及び
−前記更新されたゲノム構造の関数として、前記理論的モデルのパラメータを更新する工程、
を含む、方法。 - 2つのDNA領域間の距離が、所定の経路に沿った2つのDNA領域間の距離及び/又は2つのDNA領域間の空間距離の関数として決定される、請求項1に記載の方法。
- 少なくとも1つのライブラリの全てのDNAフラグメントを表す未処理のサブ配列を、複数のビンに分割する工程をさらに含む、請求項1又は2に記載の方法。
- 複数のゲノム候補構造を生成する工程と、生成された候補ゲノム構造のそれぞれについて、実際のゲノム構造に近い明示的尤度値を計算する工程をさらに含む、請求項1〜3のいずれか1項に記載の方法。
- 前記複数のゲノム候補構造を生成する工程が、転座、欠失、逆位及び重複の少なくとも1つの変異を含む所定の構造変化に基づく、請求項4に記載の方法。
- 前記生成されたゲノム候補構造の1つが、複数試行メトロポリスタイプ(multiple try Metropolis type)の法則に従って、関連する尤度値の関数として選択される、請求項4又は請求項5に記載の方法。
- 前記ゲノム候補構造が、ビンの構造的変異によって決定される、請求項3に従属する請求項4〜6のいずれか1項に記載の方法。
- 前記理論モデルパラメータを更新する工程が、ギブスサンプラタイプ(Gibbs sampler type)のアルゴリズムに基づく、請求項1〜7のいずれか1項に記載の方法。
- 前記理論モデルが、DNA領域間の染色体内及び染色体間接触からDNA領域間の染色体内接触を識別するために使用される閾値を表す少なくとも1つのパラメータを含む、請求項1〜8のいずれか1項に記載の方法。
- 前記理論的モデルは、DNA領域間の染色体内接触又はDNA領域間の染色体内及び染色体間接触と、異なる生物間の接触とを識別するために使用される閾値を表す少なくとも1つのパラメータを含む、請求項1〜9のいずれか1項に記載の方法。
- 前記少なくとも1つのライブラリのDNAフラグメントをクラスタ化する工程をさらに含み、各クラスタが特定の生物に関連し、クラスタ化されたDNAフラグメントに対応する未処理のサブ配列がクラスタベースの配列決定用に処理される、請求項1〜9のいずれか1項に記載の方法。
- 前記ライブラリのDNAフラグメントをクラスタ化する工程が、ルーバインタイプ(Louvain type)のアルゴリズムに基づく、請求項11に記載の方法。
- 前記少なくとも1つの生物の前記少なくとも1つの染色体の前記少なくとも1つの断片を表す前記少なくとも1つの配列中の少なくとも1つのDNA配列を同定する工程をさらに含む、請求項1〜12のいずれか1項に記載の方法。
- 少なくとも1つの生物の全体的な染色体構造を特徴付けるための、請求項1〜12のいずれか1項に記載の方法であって、全体的な染色体構造が対応するゲノムの三次元構造から特徴付けられる、前記少なくとも1つの生物の代謝状態を推測する工程をさらに含む、方法。
- 生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するための方法であって、前記方法が、請求項1〜14のいずれか1項に記載の少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片をアセンブルする方法の各工程を含む、方法。
- 生物学的サンプル中の微生物のゲノムを同定するための請求項15に記載の方法であり、前記微生物が、寄生生物、細菌、古細菌、真菌、酵母及びウイルスタイプの1つである、方法。
- 請求項1〜16のいずれか1項に記載の方法であり、さらに、以下の工程:
−少なくとも1つの染色体の少なくとも1つの断片を含む、調製された生物学的サンプルの染色体断片を架橋する工程;
−少なくとも2つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程;及び
−断片化工程から得られる染色体の断片を配列決定する工程、
を含む方法。 - 少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片をアセンブルする方法であり、前記方法が、以下の工程:
−少なくとも1つの染色体の少なくとも1つの断片を含む生物学的サンプルを調製する工程;
−調製された生物学的サンプルの染色体の断片を架橋する工程;
−少なくとも2つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程;
−断片化工程から生じる染色体の断片を配列決定する工程;及び
−染色体の配列決定された断片をアセンブルする工程、
を含む、方法。 - 調製された生物学的サンプルの染色体の断片の架橋が、3%の最終濃度を有するホルムアルデヒドを用いて実施される、請求項18に記載の方法。
- 架橋した染色体のガラスビーズ又はセラミックビーズに基づく機械的溶解工程をさらに含み、機械的溶解が、少なくとも2つの異なるタイプの制限酵素を用いて断片化する前に実施される、請求項18又は19に記載の方法。
- 生物学的サンプルのウイローム(virome)とゲノムとの間の対応関係(correspondence)を確立する方法であり、前記方法が以下の工程:
−生物学的サンプルから独立したウイルス粒子の集団を抽出する工程;
−請求項1〜17のいずれか1項に記載の方法に基づいて、独立したウイルス粒子の抽出された集団のウイルスゲノム配列を同定する工程であって、同定されたウイルスゲノム配列がウイロームを形成する、工程;
−生物学的サンプル中の細菌、プラスミド及びウイルスゲノム配列を同定する工程であって、ここで、生物学的サンプルのゲノムを形成するために、請求項1〜17のいずれか1項に記載の方法に基づいて、ウイルス粒子の集団が抽出されたものである、工程;及び
−生物学的サンプルのウイロームとゲノムとの間の対応関係を、物理的接触に基づいて確立する工程、
を含む、方法。 - 前記ウイロームがファージオーム(phageome)であり、かつ、前記ウイルス粒子がバクテリオファージ粒子である、請求項21に記載の方法。
- 抽出されたバクテリオファージ粒子集団のバクテリオファージを溶解する工程、溶解されたバクテリオファージのDNAを抽出する工程、及び抽出されたDNAからクロマチンを再構築する工程、をさらに含む、請求項22に記載の方法。
- 請求項1〜23のいずれか1項に記載の方法の各工程を実行するように構成された手段を含む装置。
- プログラム可能な装置のためのコンピュータプログラム製品であり、プログラムがプログラム可能な装置によってロードされて実行された場合、前記コンピュータプログラム製品が、請求項1〜16のいずれか一項に記載の方法の各工程を実行するための命令を含む、コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14305997.0 | 2014-06-24 | ||
EP14305997.0A EP2960818A1 (en) | 2014-06-24 | 2014-06-24 | Method, device, and computer program for assembling pieces of chromosomes from one or several organisms |
PCT/EP2015/064286 WO2015197711A1 (en) | 2014-06-24 | 2015-06-24 | Method, device, and computer program for assembling pieces of chromosomes from one or several organisms |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017525339A true JP2017525339A (ja) | 2017-09-07 |
Family
ID=51136399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016574372A Pending JP2017525339A (ja) | 2014-06-24 | 2015-06-24 | 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170169161A1 (ja) |
EP (2) | EP2960818A1 (ja) |
JP (1) | JP2017525339A (ja) |
CN (1) | CN106471509A (ja) |
WO (1) | WO2015197711A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190385703A1 (en) * | 2016-06-08 | 2019-12-19 | The Broad Institute, Inc. | Linear genome assembly from three dimensional genome structure |
CN109055491A (zh) * | 2018-09-18 | 2018-12-21 | 武汉菲沙基因信息有限公司 | 一种适用于植物的Hi-C高通量测序建库方法 |
CN111909983A (zh) * | 2020-08-25 | 2020-11-10 | 武汉菲沙基因信息有限公司 | 一种适用于微生物宏基因组学Hi-C高通量测序建库方法及应用 |
CN114566212B (zh) * | 2022-04-29 | 2022-09-16 | 天津诺禾致源生物信息科技有限公司 | 大于10G的基因组Hi-C挂载的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130096009A1 (en) * | 2008-09-25 | 2013-04-18 | University Of Massachusetts | Methods of identifying interactions between genomic loci |
JP2013531983A (ja) * | 2010-06-11 | 2013-08-15 | パソジェニカ,インコーポレイテッド | 多重生物検出のための核酸ならびにその使用および製造方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4063518A1 (en) * | 2010-07-09 | 2022-09-28 | Cergentis B.V. | V3-d genomic region of interest sequencing strategies |
-
2014
- 2014-06-24 EP EP14305997.0A patent/EP2960818A1/en not_active Withdrawn
-
2015
- 2015-06-24 WO PCT/EP2015/064286 patent/WO2015197711A1/en active Application Filing
- 2015-06-24 JP JP2016574372A patent/JP2017525339A/ja active Pending
- 2015-06-24 CN CN201580034173.8A patent/CN106471509A/zh active Pending
- 2015-06-24 US US15/321,066 patent/US20170169161A1/en not_active Abandoned
- 2015-06-24 EP EP15731338.8A patent/EP3161699A1/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130096009A1 (en) * | 2008-09-25 | 2013-04-18 | University Of Massachusetts | Methods of identifying interactions between genomic loci |
JP2013531983A (ja) * | 2010-06-11 | 2013-08-15 | パソジェニカ,インコーポレイテッド | 多重生物検出のための核酸ならびにその使用および製造方法 |
Non-Patent Citations (4)
Title |
---|
BEITEL C ET AL: "Strain- and plasmid-level deconvolution of a synthetic metagenome by sequencing proximity ligation p", PEERJ, vol. Vol. 2, JPN6019009900, 27 May 2014 (2014-05-27), pages DOI 10.7717/peerj.415 * |
BURTON J ET AL: "Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions", NATURE BIOTECHNOLOGY, vol. Vol. 31, No. 12, JPN6019009898, 2013, pages p. 1119-1125 * |
BURTON J ET AL: "Species-level deconvolution of metagenome assemblies with Hi-C-based contact probability maps", G3, vol. Vol. 4, JPN6019009897, 22 May 2014 (2014-05-22), pages p. 1339-1346 * |
KAPLAN N ET AL: "High-throughput genome scaffolding from in vivo DNA interaction frequency", NATURE BIOTECHNOLOGY, vol. Vol. 31, No. 12, JPN6019009899, 2013, pages p. 1143-1147 * |
Also Published As
Publication number | Publication date |
---|---|
EP2960818A1 (en) | 2015-12-30 |
CN106471509A (zh) | 2017-03-01 |
US20170169161A1 (en) | 2017-06-15 |
EP3161699A1 (en) | 2017-05-03 |
WO2015197711A1 (en) | 2015-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marie-Nelly et al. | High-quality genome (re) assembly using chromosomal contact data | |
Carr et al. | Probing the mobilome: discoveries in the dynamic microbiome | |
Diss et al. | The genetic landscape of a physical interaction | |
Putnam et al. | Chromosome-scale shotgun assembly using an in vitro method for long-range linkage | |
Prakash et al. | Functional assignment of metagenomic data: challenges and applications | |
KR102215219B1 (ko) | 승법형 모델을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어 | |
JP2017525339A (ja) | 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム | |
Sahoo et al. | Residue proximity information and protein model discrimination using saturation-suppressor mutagenesis | |
WO2017214461A1 (en) | Linear genome assembly from three dimensional genome structure | |
Dai et al. | Characterizing the existing and potential structural space of proteins by large-scale multiple loop permutations | |
Taylor et al. | Deep mutational scans of XBB. 1.5 and BQ. 1.1 reveal ongoing epistatic drift during SARS-CoV-2 evolution | |
Harrington et al. | Predicting biological networks from genomic data | |
Gopalakrishnan et al. | Whole‐Genome Sequencing of Yeast Cells | |
Liberles et al. | The use of phylogenetic profiles for gene predictions | |
Lowe et al. | Evaluating a lightweight transcriptome assembly pipeline on two closely related ascidian species | |
Yamada et al. | Extraction of phylogenetic network modules from prokayrote metabolic pathways | |
CN114245922A (zh) | 单一生物单元的序列信息的新型处理方法 | |
Gao et al. | Exploring the roles of ribosomal peptides in prokaryote-phage interactions through deep learning-enabled metagenome mining | |
Quentin et al. | Single-strand DNA processing: phylogenomics and sequence diversity of a superfamily of potential prokaryotic HuH endonucleases | |
Lu et al. | Computational viromics: applications of the computational biology in viromics studies | |
Pokusaeva et al. | Experimental assay of a fitness landscape on a macroevolutionary scale | |
Lobkovsky et al. | Estimation of prokaryotic supergenome size and composition from gene frequency distributions | |
Xia et al. | Thermostability of lipase A and dynamic communication based on residue interaction network | |
Simmonds et al. | CZ ID: a cloud-based, no-code platform enabling advanced long read metagenomic analysis | |
Ulrich | Advanced Methods for Real-time Metagenomic Analysis of Nanopore Sequencing Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180403 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190326 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190625 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191119 |