JP2014508994A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2014508994A5 JP2014508994A5 JP2013549922A JP2013549922A JP2014508994A5 JP 2014508994 A5 JP2014508994 A5 JP 2014508994A5 JP 2013549922 A JP2013549922 A JP 2013549922A JP 2013549922 A JP2013549922 A JP 2013549922A JP 2014508994 A5 JP2014508994 A5 JP 2014508994A5
- Authority
- JP
- Japan
- Prior art keywords
- information
- disease
- genomic sequence
- genomic
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 claims description 161
- 230000014509 gene expression Effects 0.000 claims description 73
- 230000002068 genetic Effects 0.000 claims description 63
- 230000035772 mutation Effects 0.000 claims description 59
- 210000001519 tissues Anatomy 0.000 claims description 57
- 210000000056 organs Anatomy 0.000 claims description 38
- 210000004027 cells Anatomy 0.000 claims description 37
- 239000000203 mixture Substances 0.000 claims description 24
- 239000002773 nucleotide Substances 0.000 claims description 18
- 125000003729 nucleotide group Chemical group 0.000 claims description 18
- 238000003780 insertion Methods 0.000 claims description 17
- 230000001965 increased Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000037361 pathway Effects 0.000 claims description 16
- 210000000349 Chromosomes Anatomy 0.000 claims description 13
- 230000011987 methylation Effects 0.000 claims description 12
- 238000007069 methylation reaction Methods 0.000 claims description 12
- 241000894007 species Species 0.000 claims description 12
- 206010028980 Neoplasm Diseases 0.000 claims description 11
- 230000001105 regulatory Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 229920002459 Intron Polymers 0.000 claims description 8
- 238000004393 prognosis Methods 0.000 claims description 8
- 230000000295 complement Effects 0.000 claims description 7
- 229920000160 (ribonucleotides)n+m Polymers 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 6
- 238000001574 biopsy Methods 0.000 claims description 5
- 230000002759 chromosomal Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 5
- 210000004369 Blood Anatomy 0.000 claims description 4
- 210000001124 Body Fluids Anatomy 0.000 claims description 4
- 108010026552 Proteome Proteins 0.000 claims description 4
- 210000003296 Saliva Anatomy 0.000 claims description 4
- 210000002966 Serum Anatomy 0.000 claims description 4
- 210000002700 Urine Anatomy 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 4
- 239000010839 body fluid Substances 0.000 claims description 4
- 230000003252 repetitive Effects 0.000 claims description 4
- 210000004185 Liver Anatomy 0.000 claims description 3
- 210000003205 Muscles Anatomy 0.000 claims description 3
- 210000001672 Ovary Anatomy 0.000 claims description 3
- 210000000496 Pancreas Anatomy 0.000 claims description 3
- 229920000970 Repeated sequence (DNA) Polymers 0.000 claims description 3
- 210000000952 Spleen Anatomy 0.000 claims description 3
- 210000002105 Tongue Anatomy 0.000 claims description 3
- 101700066475 set1 Proteins 0.000 claims description 3
- 206010006187 Breast cancer Diseases 0.000 claims description 2
- 206010033128 Ovarian cancer Diseases 0.000 claims description 2
- 206010060862 Prostate cancer Diseases 0.000 claims description 2
- 230000002496 gastric Effects 0.000 claims description 2
- 230000001537 neural Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 38
- 239000000523 sample Substances 0.000 description 28
- 230000002829 reduced Effects 0.000 description 23
- 206010061818 Disease progression Diseases 0.000 description 13
- 229920003013 deoxyribonucleic acid Polymers 0.000 description 11
- 201000011510 cancer Diseases 0.000 description 9
- 230000000875 corresponding Effects 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 9
- 229920001204 Intergenic region Polymers 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 230000027455 binding Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 102000003995 transcription factors Human genes 0.000 description 5
- 108090000464 transcription factors Proteins 0.000 description 5
- 206010008805 Chromosomal abnormality Diseases 0.000 description 4
- 241000710137 Cucumber necrosis virus Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 108020004417 Untranslated RNA Proteins 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 201000002406 genetic disease Diseases 0.000 description 4
- 230000003426 interchromosomal Effects 0.000 description 4
- 229920001894 non-coding RNA Polymers 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 206010064571 Gene mutation Diseases 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000670 limiting Effects 0.000 description 3
- 230000004083 survival Effects 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- -1 EFGR Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 210000002751 Lymph Anatomy 0.000 description 2
- 229920000272 Oligonucleotide Polymers 0.000 description 2
- 239000002246 antineoplastic agent Substances 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 102000024070 binding proteins Human genes 0.000 description 2
- 108091007650 binding proteins Proteins 0.000 description 2
- 238000004166 bioassay Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 201000009910 diseases by infectious agent Diseases 0.000 description 2
- 238000002651 drug therapy Methods 0.000 description 2
- 229940079593 drugs Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000003102 growth factor Substances 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000036678 protein binding Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 102000010400 1-phosphatidylinositol-3-kinase activity proteins Human genes 0.000 description 1
- 108040005185 1-phosphatidylinositol-3-kinase activity proteins Proteins 0.000 description 1
- 101700007241 APOC4 Proteins 0.000 description 1
- 210000003165 Abomasum Anatomy 0.000 description 1
- 101700004551 BRAF Proteins 0.000 description 1
- 102100004328 BRAF Human genes 0.000 description 1
- 102000036638 BRCA1 Human genes 0.000 description 1
- 108010042977 BRCA1 Protein Proteins 0.000 description 1
- 102000002280 BRCA2 Protein Human genes 0.000 description 1
- 108010000750 BRCA2 Protein Proteins 0.000 description 1
- 206010060945 Bacterial infection Diseases 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 210000004556 Brain Anatomy 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 206010061765 Chromosomal mutation Diseases 0.000 description 1
- 102000009508 Cyclin-Dependent Kinase Inhibitor p16 Human genes 0.000 description 1
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 1
- 101700025368 ERBB2 Proteins 0.000 description 1
- 102100016662 ERBB2 Human genes 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 229920000665 Exon Polymers 0.000 description 1
- 101710038729 F2R Proteins 0.000 description 1
- 210000003608 Feces Anatomy 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 101700002184 GATA4 Proteins 0.000 description 1
- 102100012697 GATA4 Human genes 0.000 description 1
- 210000001035 Gastrointestinal Tract Anatomy 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 210000002216 Heart Anatomy 0.000 description 1
- 210000003734 Kidney Anatomy 0.000 description 1
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 108060001084 Luciferase family Proteins 0.000 description 1
- 210000004072 Lung Anatomy 0.000 description 1
- 210000000944 Nerve Tissue Anatomy 0.000 description 1
- 102100014579 PARP1 Human genes 0.000 description 1
- 101700036247 PARP1 Proteins 0.000 description 1
- 101700053624 PARP2 Proteins 0.000 description 1
- 101700027237 PROA Proteins 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 description 1
- 210000002307 Prostate Anatomy 0.000 description 1
- 101710037934 QRSL1 Proteins 0.000 description 1
- 229920001186 RNA-Seq Polymers 0.000 description 1
- 241000507627 Salana Species 0.000 description 1
- 210000000582 Semen Anatomy 0.000 description 1
- 210000003491 Skin Anatomy 0.000 description 1
- 210000002784 Stomach Anatomy 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 102100019730 TP53 Human genes 0.000 description 1
- 101710026335 TP53 Proteins 0.000 description 1
- 229920003003 Telomeric non-coding RNA Polymers 0.000 description 1
- 210000001215 Vagina Anatomy 0.000 description 1
- 206010047461 Viral infection Diseases 0.000 description 1
- 208000001756 Virus Disease Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000000538 analytical sample Substances 0.000 description 1
- 101700004528 arp Proteins 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 201000011231 colorectal cancer Diseases 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000003247 decreasing Effects 0.000 description 1
- 230000001809 detectable Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000008325 diseases of cellular proliferation Diseases 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000002349 favourable Effects 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000004077 genetic alteration Effects 0.000 description 1
- 231100000118 genetic alteration Toxicity 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000002458 infectious Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000009114 investigational therapy Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 101710030587 ligN Proteins 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 101700077585 ligd Proteins 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 230000002438 mitochondrial Effects 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 239000008194 pharmaceutical composition Substances 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- OZAIFHULBGXAKX-UHFFFAOYSA-N precursor Substances N#CC(C)(C)N=NC(C)(C)C#N OZAIFHULBGXAKX-UHFFFAOYSA-N 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002250 progressing Effects 0.000 description 1
- 238000002331 protein detection Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible Effects 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
- 230000017613 viral reproduction Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Description
本発明は、対象のゲノムデータを処理する方法に関し、(a)対象のゲノム配列を取得し;(b)上記ゲノム配列情報の複雑性及び/又は量を低減させ;及び(c)ステップ(b)の上記ゲノム配列情報を、迅速に検索可能な形で記憶するステップを含む。本発明はさらに、上記ゲノム配列情報の複雑性及び/又は量を低減するステップが、疾患又は障害に関連するシグネチャーデータを除く上記ゲノム配列情報を切り取ることで、又は対象のゲノム配列を、疾患又は障害に関連するシグネチャーデータを含む基準配列と整列させることで実行する、方法に関する。さらに、本発明は、対象の、特に遺伝子発現データでの機能性遺伝子情報の使用が含まれる方法に関し、同様に上記情報がマトリクス中にエンコード及びデコードされ、かつマルコフ連鎖過程に基づき表される、方法に関する。得られる情報はまた、疾患の診断、検出、モニター又は予後判定をするため及び/又は対象の分子履歴を作るために使用され得る。加えて、対応する臨床判断支援及び記憶システムが、好ましくは電子画像/データ保存記録及び通信システムの形で提供される。
新たな又は次世代の配列決定技術の導入で、配列情報の取得のコスト及びこの情報の提供のために必要な時間は劇的に少なくなっており、将来さらに下がるものと考えられる。従って、全ゲノム配列決定は、現在の生化学的遺伝学的試験及びアッセイに代えて、費用対効果の優れたものとなるであろう。さらに、患者の全ゲノム配列決定は、ひとつの疾患の分析だけでなく、全集団の疾患遺伝子型を評価するために使用され、さらには全ての可能な第2のマーカーの自動的決定により治療見通しを結論することを可能にする。しかしながら、ゲノム配列データは、非常に大量の記憶容量を必要とする巨大なものであり、また、その分析には最高度のコンピュータ装置を必要とする。Schusterらは、「Nature 463(18)、943−947、2010」で、またFujimotoらは、「Nature Genetics、42、931−936、2010」で、例えば、アフリカからの狩猟採集人、及び日本人個人の完全なゲノムの情報を提供する。これらの分析は、人の集団間での、一塩基多様性の存在、集団間の差について、対立遺伝子頻度同様、大量の新たな情報を提供する。遭遇するゲノム差及び類似性は遺伝子分野での基礎研究において基本的に重要なものとなり得る。しかし、これらは専門家に対しては主要な興味ではなく、専門家は具体的な臨床的質問に関心を持ち、症状又は疑われる疾患に関連する情報に焦点をあてることを望む。この関連で、全ゲノム配列決定の際に得られたゲノム配列データの大部分は、専門家の診断可能性を改善するというよりはむしろ阻害するものであり得る。
従って、利用可能な時間及び資源(リソース)で、患者の遺伝子データ処理を維持することを可能にする要求が存在する。
Schusterら、2010、Nature 463(18)、943−947
Fujimotoら、2010、Nature Genetics、42、931−936
本発明は、この必要性に鑑み、対象のゲノム配列の複雑性及び/又は量を低減し、かつ迅速に検索可能にそれを保存(記憶)する方法を提供する。
上記課題は特に、対象のゲノムデータを処理する方法で達成され、上記方法は:
(a)対象のゲノム配列を取得し;
(b)上記ゲノム配列情報の複雑性及び/又は量を低減し;及び
(c)ステップ(b)でのゲノム配列情報を、迅速に検索可能に保存する、ステップを含む。
(a)対象のゲノム配列を取得し;
(b)上記ゲノム配列情報の複雑性及び/又は量を低減し;及び
(c)ステップ(b)でのゲノム配列情報を、迅速に検索可能に保存する、ステップを含む。
この方法は、ゲノム情報に、専門家又は医者が集中して処理された形で容易にアクセスすることを可能にし、即ち、上記ゲノム情報を管理可能とし、必要な事実に限定されており、従って、時間及び資源が、非常に大量の元の配列データの処理を維持することを可能にする、という利点を持ち、迅速に検索可能な形で保存されることで、迅速に、いつでもかつどこででも、困難なく独立して利用することを可能とし、これにより例えば問題の臨床環境、移動病院又は患者の側で利用することを可能とする。
本発明の好ましい実施態様では、上記ゲノム配列は患者のサンプルから取得される。
さらに好ましい実施態様では、上記分析サンプルは組織、臓器、細胞の混合物である。上記サンプルはまた、これに代えて組織、臓器又は細胞の断片であり得る。さらなる実施態様では、上記サンプルは組織又は臓器特異的サンプルであり得る。特に好ましくは、サンプルは、膣組織、舌、膵臓、肝臓、脾臓、卵巣、筋肉、関節組織、神経組織、胃腸組織、腫瘍組織、体液、血液、血清、唾液、または尿からの生検サンプルであり得る。
本発明のさらに特に好ましい実施態様では、対象ゲノム配列を得るためのステップは繰り返され、例えばある一定時間後に繰り返される。
本発明のさらに好ましい実施態様では、患者のゲノム配列の取得の繰り返しは、データ追加(増加データ)又は変更を与え、既に得られたゲノム配列情報に比較して上記増加データが保存され、好ましくは迅速に検索可能な形で保存される。
本発明のさらに好ましい実施態様では、上記ゲノム配列情報の複雑性及び/又は量の低減は、上記ゲノム配列情報を切り取ることで実施され得る。かかる切り取り又は低減ステップは、好ましくは、疾患又は障害に関連するシグネチャーデータ以外のゲノム配列の全ての部分で実施される。
本発明のさらなる特に好ましい実施態様では、上記ゲノム配列情報の複雑性及び/又は量の低減は、疾患又は障害に関連するシグネチャーデータを含む参照配列(疾患参照配列)と整列させることで実施され得る。
本発明の他の好ましい実施態様では、上記シグネチャーデータは、ミスセンス変異、ナンセンス変異、一塩基多型(SNP)、コピー数多型(CNV)、スプライシング変異、制御配列の変異、小欠失、小挿入、小インデル、総欠失、総挿入、複雑な遺伝子再配列、染色体間再配列、染色体内再配列、ヘテロ接合性消失、反復配列の挿入及び反復配列の欠失を含む群から選択される、疾患又は障害に特異的な少なくとも1つの変異である。
本発明の他の好ましい実施態様では、対象のゲノムデータを処理するための方法がさらに、ステップ(d)を含み、ここで対象の機能性遺伝子情報を得ること、ステップ(e)を含み、ここでこの情報の複雑性及び/又は量を低減させ、かつステップ(f)を含み、ここで上記機能的ゲノム情報が迅速に検索可能に保存する。
本発明の他の特に好ましい実施態様では、上記機能的ゲノム情報が、(i)遺伝子発現の情報、好ましくは、1以上のRNA種、1以上のタンパク質、上記対象のトランスクリプトーム又はその部分、対象のプロテオーム又はその部分、又はこれらの混合物;及び/又は(ii)メチル化配列情報、好ましくは、それぞれ個別ヌクレオチド(C又はA)についてのメチル化配列情報;及び/又は、(iii)活性化遺伝子及び/又はサイレント化遺伝子を示すヒストンマーク、好ましくはH3K4メチル化及び/又はH3K27メチル化のヒストンマークについての情報を含む。
他の好ましい実施態様では、上記情報の複雑性及び/又は量を低減するステップが、上記機能的遺伝子情報を切り取ることで実施される。かかる切り取り又は低減ステップは、好ましくは、疾患又は障害に関連するシグネチャーデータ(疾患参照配列)について以外の機能的ゲノム情報の全ての部分で実施される。
本発明のさらなる実施態様では、ゲノム情報の及び/又は機能的ゲノム情報の変化が行列内でエンコード(符号化)される。なお他の好ましい実施態様では、遺伝子状態、ゲノム領域、調節領域、プロモーター、エクソン又は、特に疾患又は障害に関する経路に関連する、ゲノム情報及び/又は機能的ゲノム情報がデコードされ、マルコフ連鎖過程に基づき表される。特に好ましい実施態様では、上記表現は可視化表現である。
他の側面では、本発明は、対象の分子履歴を作るためのゲノム配列情報の使用に関する。本発明の好ましい実施態様では、ここで定められる方法により得られ及び/又は保存されたような機能的ゲノム情報とゲノム配列情報との組合せが対象の分子履歴を作るために使用される。
特に好ましい実施態様では、上記分子履歴は、上記全ゲノムの機能的側面、レギュローム、又は上記ゲノムの制御状態、ゲノム領域、遺伝子、プロモーター、イントロン、エクソン、経路、経路成分又は所定時間のわたるメチル化状態などを捕捉することで生成される。
他の側面では、本発明は、ここで定められた方法により得られ及び/又は保存されたゲノム配列情報を、疾患の診断、検出、モニター又は予後のために使用することに関する。本発明の特に好ましい実施態様では、ここで定められた方法により得られ及び/又は保存された機能的遺伝情報と、ゲノム配列情報との組合せが、疾患の診断、検出、モニター又は予後のために使用され得る。
本発明の特に好ましい実施態様では、ここで記載される方法又は使用に関して説明される疾患又は障害は、癌疾患、腫瘍疾患又は新生物であり得る。本発明のさらに特に好ましい実施態様では、癌性疾患が、乳癌、卵巣癌又は前立腺癌であり得る。
他の側面では、本発明は臨床判断サポート及び保存システムに関し、上記システムは、対象のゲノム配列情報の入力;プロセッサーに、上で定められた上記ゲノムの配列情報の複雑性及び/又は量を低減させ得る、コンピュータプログラム製品、対象の遺伝子変異、増加された遺伝子変異又は遺伝子発現変異パターンを出力するための出力、及び上記出力情報を保存するための媒体を含む。特に好ましい実施態様では、上記臨床サポート及び保存システムは、対象のゲノム配列情報を、対象の機能的遺伝子情報、好ましくは遺伝子発現情報と組み合わせて提供するための入力;プロセッサーに、上記ゲノム発現情報の複雑性及び/又は量を低減するステップ及び/又は上記機能的遺伝子情報、好ましくはここで定めた遺伝子発現情報の複雑性及び/又は量を低減するステップとを実施させるコンピュータプログラム製品、対象の遺伝子変異、増加された遺伝子変異又は好ましくは機能的遺伝子変異パターン、好ましくは遺伝子発現変異パターンを出力するための出力、及び上記出力情報を保存するための媒体を含む。
本発明の好ましい実施態様では、上記システムは、電子画像/データ保存記録及び通信システムであり得る。
本発明者は、対象のゲノム配列の複雑性及び/又は量を低減させ、それを迅速に検索可能な形で保存し得る、手段及び方法を開発した。
本発明は、具体的な実施態様により説明されるが、この説明はなにかを限定することを意図するものではない。
本発明の詳細に例示的実施態様を説明する前に、本発明を理解するために重要な定義を与えることとする。
本明細書及び特許請求の範囲で使用される、単数を示す「ひとつの」、「1つの」などは特に記載されない限り複数を含むことを意味する。
本発明の文脈で、用語「約」及び「略」は、当業者が、問題の構成による技術的効果が保証されると理解する精度を意味する。上記用語は通常は、±20%、好ましくは±15%、より好ましくは±10%、さらに好ましくは±5%である。
理解されるべきことは、用語「含む」は限定的な意味ではない、ということである。本発明の目的において、用語「からなる」は、「を含む」の好ましい実施態様と考えられる。以下、群が、少なくともある数の実施態様を含むように定義される場合、これはまた、これらの実施態様のみからなる群を含むことを意味する。
さらに明細書中及び特許請求の範囲中での用語「第1の」、「第2の」、「第3の」又は「(a)」、「(b)」、「(c)」、「(d)」などは、類似の要素を区別するためであり、この順序に又は時間的に記載れることは必要ではない。理解されるべきことは、使用される用語は適切な場合には交互に使用できることであり、ここで説明される本発明の実施態様は、ここで説明される順序以外の他の順序でも実施され得る、ということである。
用語「第1」、「第2」、「第3」又は「(a)」、「(b)」、「(c)」、「(d)」などが方法又は使用に関連する場合には、このステップ間の時間又は間隔には一貫性はなく、即ち、上記ステップは同時に実施されてよく、又は特に記載されない限り、ステップの間にある時間間隔があってよく、例えば、秒、分、時間、日、週、月又は年であり得る。
理解されるべきことは、本発明は、ここで記載される具体的な方法論、手順、試薬などに限定されるものではなく、変更され得るものである、ということである。また理解されるべきことは、ここで使用される用語は、具体的な実施態様を説明するためであり、本発明を限定する意図はなく、本発明は添付された特許請求の範囲でのみ限定されるものである、ということである。特に記載されない限り、ここで使用される全ての技術的科学的用語は、当業者が共通に理解するものと同じ意味を持つ。
上で説明したように、本発明はひとつの側面で、対象のゲノム配列を処理するための方法に関し、
(a)対象のゲノム配列を取得し;
(b)上記ゲノム配列状態の複雑性及び/又は量を低減し;及び
(c)ステップ(b)のゲノム配列状態を迅速に検索可能な形で保存することを含む。
(a)対象のゲノム配列を取得し;
(b)上記ゲノム配列状態の複雑性及び/又は量を低減し;及び
(c)ステップ(b)のゲノム配列状態を迅速に検索可能な形で保存することを含む。
上記方法の第1のステップでは、対象のゲノム配列が取得される。ここで使用される用語「対象」とは、ゲノムを持つ全ての有機体であり得る。好ましくは上記対象は人である。又は、動物のゲノム配列、例えば犬、猫などのペット、ウシ、馬、豚など、又は植物のゲノム配列が得られ得る。本発明の方法は、しかし、これらの有機体の群に限定されるものではなく、一般に、遺伝的、特にゲノム状態を含む全ての対象又は有機体で使用され得る。
ここで使用される用語「対象のゲノム配列を取得する」とは、対象のゲノム配列を決定することを意味する。配列決定の方法は当業者に知られている。好ましくは、次世代配列決定方法又はハイスループット配列決定方法である。例えば、対象のゲノム配列は、多量平行シグネチャー配列決定方法(Massively Parallel Signature Sequencing (MPSS))を用いることで得られ得る。想定される配列決定方法の一例は、パイロシーケンシングで、特に454パイロシーケンシング、例えばRocheの454Genome Sequencerである。この方法は、油溶液中の水滴内部のDNAを増幅する方法であり、それぞれの液滴は単一のDNAをテンプレートとして含み、これは単一のプライマーコーティングされたビーズに結合され、次にクローン化コロニーを形成する、という方法である。パイロシーケンシング方法はルシフェラーゼを用いて、上記最初のDNAに結合された個別のヌクレオチドの検出のために光発生させ、上記組み合わせデータが配列読み取り出力を生成するために使用される。他の想定される例はIllumina又はSolexa配列決定方法であり、例えば、Illumina Genome Analyzer技術を用いるものであり、これは可逆的色素ターミネータに基づく。DNA分子は通常はスライド上のプライマーに結合して増幅され、従って局所的クローンコロニーが形成される。続いて、1つのタイプのヌクレオチドが一度に添加され、取り込まれないヌクレオチドが洗浄で除去される。続いて、蛍光ラベル化ヌクレオチドの画像が取得され、上記色素がDNAにから化学的に除去され、次のサイクルを可能にする。さらに可能な想定される対象のゲノム配列の取得方法は、Applied BiosystemsのSOLiD技術を用いる方法であり、これはライゲーションにより配列を決定する方法である。この方法は、固定長さの全ての可能なオリゴヌクレオチドの集団を使用することに基づき、これらは配列位置によりラベル化されている。かかるオリゴヌクレオチドをアニールしてライゲートさせる。続いて、マッチング配列に有利なDNAリガーゼによるライゲーションは、上記位置にあるヌクレオチドのシグナル情報を与える結果となる。DNAは通常懸濁PCRにより増幅されることから、得られるビーズは、それぞれ上記同じDNA分子の1つだけのコピーを含み、ガラススライド上に蓄積され得るものであり、Illumina配列決定と同程度の配列量及び長さを与える結果となる。さらなる想定される方法は、HelicosのHeliscope技術に基づく方法であり、断片がポリTオリゴマーにより捕捉されアレイに繋げられる。それぞれの配列決定サイクルで、ポリメラーゼ及び単一の蛍光ラベル化ヌクレオチドが添加されて上記アレイを画像化する。上記蛍光タグが続いて除去され上記サイクルが繰り返される。本発明の方法に含まれるさらなる配列決定技術は、ハイブリダイゼーションによる配列決定方法であり、ナノポア、ミクロサイズ配列決定技術、マイクロ流体サンガー配列決定方法、又はマイクロチップ配列決定方法を用いる方法である。本発明はまた、さらに、これらの技術の発展を想定しており、例えばさらに配列決定の精度の改善又は有機体などのゲノム配列決定のために必要な時間の改善などである。
上記ゲノム配列決定は任意の好適な品質、精度及び/又は範囲で得られる。ゲノム配列取得はまた、既に行われた又は独立して得られた配列情報を適用することを含み、例えばデータベース、データリポジトリ、配列決定プロジェクトなどである。
好ましくは、得られるゲノム配列は、10000塩基、50000塩基、75000塩基、さらには100000塩基につき1つ以下のエラーを持つものである。より好ましくは、得られるゲノム配列は、150000塩基、200000塩基又は250000塩基につき1つ以下のエラーを持つものである。
さらには、具体的な実施態様では得られるゲノム配列は、カバーする範囲が、少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、99.99%、99.999%又は100%である。さらに具体的な実施態様では、得られるゲノム配列は、半数体ゲノム当たりの平均リード深さが、少なくとも約15x、20x、25x、30x、35x、40x以上、又は15xから50x以上の他の任意の平均リード深さを持ち得る。本発明はまた、配列決定技術の改良によるより高いカバー範囲を持つ配列を作るか用いることを想定する。本発明は、従って、いかなるエラー幅又はカバー範囲限界に縛られるものではなく、むしろ、好適な現代的配列決定技術により利用可能な、作られ及び得られる配列情報を実装することに焦点を合わせている。
本発明の好ましい実施態様では、半数体ゲノム当たり、約15x、20x、25x、35x、40x以上の得られたゲノム配列の平均リード深さが、上記ゲノムの1以上のサブ領域、例えば、制御領域、オープンリーディングフレーム、1以上のプロモーター領域、1以上のエンハンサー要素、制御ネットワーク部分又は任意のその他の好適なゲノム領域のサブセット、例えば疾患又は障害に関連するシグネチャーデータにより定められる領域に限定され得る。本発明の特に好ましい実施態様では、制御領域又は疾患又は障害に関連するシグネチャーデータで定められる領域では、それぞれの塩基は、少なくとも約15、20、25、30、40以上の配列リード数でカバーされており、又は15から50の任意のリード数でカバーされている。本発明はまた、配列決定技術の改善によるより高いリード深さを持つ配列の調製及び使用を想定する。本発明は、従って、いかなるエラー幅又はリード深さの限界に縛られるものではなく、むしろ、現在好適な配列決定技術により得られる利用可能な、調製され得られる配列情報の実装に焦点を合わせている。
対象のゲノム配列は、任意の好適なインビトロ及び/又はインビボでの方法により得られる。特に好ましくは、対象から得られるサンプル、例えば以下定められるサンプルからのゲノム配列を得ることである。本発明の具体的な実施態様では、対象のゲノムデータを処理するための方法は、生検サンプルを得ること又は実施をすることを含む。
さらなる実施態様では、対象のゲノム配列は、また、データリポジトリから、例えば対象のゲノム配列を含む1以上のデータベースから、又は対象のゲノム配列を再構成することによる1以上のデータベースから得られる。
得られたゲノム配列は、当業者に知られる任意の好適なフォーマットで表現され得る。例えば、上記配列は、生(元)データとして、FASTAフォーマットとして、単純なテキストデータとして、ユニコードテキストとして、xmlフォーマットとして、htmlフォーマットとして表され得る。好ましくは、得られるゲノム配列は、バリアントコールフォーマット(VCF)、ゼネラルフィーチャーフォーマット(GFF)、BEDフォーマット、AVLIST又はアノバア(Annovar)フォーマットで表され得る。
本発明の第2のステップは、上記ゲノム配列情報の複雑性及び/又は量を低減することである。ここで使用される用語「複雑性」とは、上記ゲノム配列に存在する情報の多様性、上記ゲノム配列に存在する配列情報の冗長性、既知の変異が起こりやすい染色体領域の範囲、遺伝子又は点など、同じく当業者に知られる遺伝子変異のさらなるパラメータなどを意味する。ここで使用される用語「ゲノム配列の量」とは、配列情報の範囲を意味し、例えば染色体の範囲、染色体領域、遺伝子、遺伝子要素、イントロン、エクソン、疾患関連領域また遺伝子などを意味する。上記ゲノム配列の複雑性及び/又は量を低減することで、上記第1のステップで得られた全ゲノム配列データは、異なる好適なパラメータ、例えば遺伝子間領域、イントロン又はエクソンの存在、転写因子の存在、繰り返し領域の存在、知られた変異の点又は領域の存在などのパラメータにより選別される。例えば、エクソン(エクソーム)の配列のみが得られ、又は上記エクソンのあるサブグループのみが得られ得る。同様に、イントロンの配列又はイントロンのサブグループ又はイントロン−エクソン境界領域のなどの配列が得られ得る。さらに、選別パラメータは染色体に局所化することもできる。例えば、上記データは、1、2、3などの染色体へ低減されたり、又は色素化又は発現パターンにより染色体腕や染色領域に低減され得る。さらに、想定される選別パラメータは、例えば生化学的経路、転写因子経路、成長因子又はリガンド活性化による発現パターン、特定の栄養学的状況による発現パターンから導かれる、知られた発現パターンであり得る。さらに一組の選別パラメータは、ゲノム全体の知られた多型、特定の染色体の知られた多型、遺伝子の知られた多型、遺伝子間領域の知られた多型、プロモーター領域の知られた多型であり得る。さらに選別パラメータは、疾患、疾患群、疾患の素因の知られたデータと連携され得るものであり、例えば選別パラメータは、特定の疾患、疾患群又は疾患の素因に関連する遺伝子変異についての全ての情報を含み得る。
本発明の具体的な実施態様では、上記ゲノム配列は、ゲノム領域、全遺伝子、エクソン(エクソーム配列)、転写因子結合サイト、DNAメチル化結合タンパク質結合サイト、短い又は長い非コードRNAなどを含み得る遺伝子間領域であって、臨床的に関連し又は重要であり、及び変異可能であるか高変異性であることが知られ又は疑われている、人間、人種間又は集団間、人又は動物の性間、人の年齢集団、例えば新生児及び成人間、人及び他の生物などの間、同じ種の動物間、異なる種、族又はクラス間の動物、植物品種、植物種などの間、又は疾患又は障害において変異可能又は高変異性であることが知られているか又は疑われている遺伝子間領域に低減され得る。かかるゲノム領域、遺伝子、エクソン、結合サイトなどは当業者に知られており、又は好適な教科書又は情報リポジトリ、例えばUCSCゲノムブラウザ又はNCBIから導き出せる。
ゲノム配列の複雑性及び/又は量の低減は、1以上のステップで実施され、例えば比較方法又はアルゴリズム、モチーフ検索方法又はアルゴリズム、反復プロセスなどでありこれらは当業者に知られている。例えば、上記低減は、適切な教科書又は科学文献に基づき実行でき、例えば、S.Kurtz、A.Phillippy、A.L.Delcher、M.Smoot、M.Shumway、C.Antonescu、及びS.L.Salzbergらの「Versatile and open software for comparing large genomes、(Genome Biology、5:R12、Schuster et al.、2010、Nature 463(18)、943−947(2000))」又はFujimotoらの「Nature Genetics、42、931−936(2010)」が挙げられ、これらの内容は参照されて本明細書に援用される。
さらにゲノム配列の複雑性及び/又は量を低減するために想定される方法は、Ashleyらの「The Lancet、375、1525−1535、2010」から導き出せ、この内容はまた参照されて本明細書に援用される。特に上記刊行物の図1に与えられるゲノム変異に関する分子情報に基づき上記複雑性の低減は本発明の範囲内である。
さらなる具体的な実施態様では、医薬−応答表現型、遺伝子座特異的変異データベース(LSMD)又は人ミトコンドリア遺伝子多型データベース(mtSNP)に関する医薬品知識ベース(PharmGKB)により提供される情報に基づく、上記ゲノム配列の複雑性及び/又は量の低減が想定される。
特に好ましくは、上記得られるゲノム情報について集団系選別を適用することである。例えば、ゲノム配列変異、特にSNPはここで定めた比較方法で検出され、さらに患者の集団、人種又は祖先の内容に沿って比較又は分析され得る。従って、例えば、特定の集団、人種、年齢群などについてひとつの変異SNPが存在する場合、この変異は本発明の目的において、関連すると報告され識別されず又は選別されて除去される。具体的な実施態様では、かかる変異が−ある集団、人種、年齢群などに特異的又は典型的であっても−上記変異が重要な/臨床的機能的意味を示す場合には本発明の目的において関連あるとして考慮され識別される。全集団で見出される機能的重要なSNPのクラスとしての一例はCYP関連遺伝子であり、これは上記医薬を代謝し排泄することを助ける。ある医薬は、(非白人などの)異なる集団では、容量が異なる、例えば低容量であることが知られており、CYP−関連遺伝子での変異は、患者の集団所属又は患者の人種により、選別、ソート、クラス分け及び/又は評価される。かかる選別は、例えば上記PharmGKBデータベースに提供される情報に基づき実施され得る。
選別され又は低減されたゲノム配列は任意の好適なフォーマットで表され得る。好ましくは、上記配列は、FASTAフォーマット、単純なテキストフォーマット、ユニコードテキスト、xmlフォーマット、htmlフォーマット、バリアントコールフォーマット(VCF)、ゼネラルフィーチャーフォーマット(GFF)、BEDフォーマット、AVLISTフォーマット又はアノバールフォーマット(Annovar)で表され得る。さらに、上記ゲノム配列は、デリバティブフォーマットで表されてよく、例えば、データベースエントリーとして、注釈付きデータベースエントリーとして、ゲノム/遺伝子的変異の点のリストとして表されてよく、好ましくは発生、例えば集団などでの発生の関連性又は数で並べ替えられる。
上記方法の第3のステップでは、上記第2のステップで得られたゲノム配列情報が迅速に検索可能な形で保存される。保存されるべき情報は、任意の好適な形又はフォーマットでよく、例えば上で説明したフォーマットが挙げられる。上記ゲノム情報の保存は、好ましくは、好適な保存媒体、例えばコンピュータハードディスク・ドライブ、モバイル保存装置などの利用可能な空間に限定される。特に好ましい保存構造は、(1)階層的及び/又は(2)時間情報をエンコードし及び/又は(3)患者データ、画像、報告などにリンクするものである。より好ましくは、差分DNA保存構造(DDSS)などの構造である。
ここで使用される用語「迅速に検索可能」とは、上記ゲノム情報が、容易に情報にアクセスでき、及び/又は上記保存データ情報の複雑でない抽出を可能にする形で提供される、ということを意味する。本発明で想定される保存の形は、好適なデータベース保存、リストでの保存、数字付け文書及び/又はグラフの形での保存、例えば絵文字、グラフ配列、比較図などである。本発明の具体的な実施態様では、上記情報は、保存媒体から取り出され、続いて、例えば好適なモニター上に、ハンドヘルド装置、コンピュータ装置などで表示される。
本発明の具体的な実施態様では、対象のゲノム配列を処理するための方法は、ステップ(a)で、上で定めた上記ゲノム配列情報の複雑性及び/又は量を低減させることを含み;かつステップ(b)でステップ(a)のゲノム配列情報をここで説明したように迅速に検索可能な形で保存することを含む。
本発明の好ましい実施態様では、対象のゲノム配列を得るための分析されるサンプルは、対象の身体又は器官の任意の好適な部又は部分から誘導され得る。上記サンプルは、ひとつの実施態様では、純粋な組織又は臓器から又は細胞型から誘導され、又は非常に特異的な位置、例えば1つのタイプの組織、細胞又は臓器のみを含む位置から誘導され得る。さらなる実施態様では、上記サンプルは組織、臓器、細胞又はそれらの断片の混合物から誘導され得る。サンプルは、好ましくは、臓器又は組織から得られ得るものであり、例えば消化管、膣、胃、心臓、舌、膵臓、肝臓、肺、腎臓、皮膚、脾臓、卵巣、筋肉、関節、脳、前立腺、リンパシステムまたは臓器または当業者に知られている組織が含まれる。本発明のさらなる実施態様では、上記サンプルは身体液、例えば血液、血清、唾液、尿、糞便、精液、リンパ液などの体液から誘導され得る。
特に好ましくは、腫瘍組織の適用又は癌性として知られる臓器から誘導されるサンプルの使用である。また、疾患、感染、障害などに関連した、又は影響されると診断された任意の他の臓器又は組織又は細胞又は細胞型から誘導されるサンプルの使用が想定されている。本発明の具体的な実施態様では、上記サンプルは固体腫瘍、腫瘍又は癌性の疑いがある組織切除、疾患臓器又は組織からの生検、例えば感染又は癌性臓器や組織などから得られる細胞を含む。上記感染は、例えば細菌性又はウイルス性感染である。
上記サンプルは1以上の細胞、例えば組織学的又は形態的に同一の細胞、又は組織学的又は形態的に異なる細胞を含み得る。好ましくは、組織学的に同一又は類似の細胞、例えば上記身体の1つの閉鎖領域から生じる細胞の使用である。
さらに、異なる時点での、同じ対象から、同じ対象の異なる臓器又は組織から、又は同じ対象の異なる時点での、異なる臓器又は組織から得られるサンプルの使用が想定されている。例えば、腫瘍組織のサンプル又は、同じ組織又は臓器の近隣の非癌性領域の腫瘍組織及び1以上のサンプルが取得され、対象のゲノム配列を得るために使用され得る。
非人又は非動物対象の場合には、サンプルは他の組織型、例えば使用される特定の植物組織などから誘導され、これには例えば葉、根組織、分裂組織、発光組織、植物種から誘導される組織などを含み得る。
対象のゲノム配列は、従って、取得されたサンプルに依存し、ゲノム配列情報の混合物を含み、例えば対象の異なる組織、臓器及び/又は細胞の混合物であり、又は対象の特定の単一ソースから誘導されるゲノム情報、例えば1つの臓器や臓器型、1つの組織や組織型、1つの細胞や細胞型であり、従って対応する臓器、組織又は細胞を表すものである。癌性臓器や組織の場合、組織学的方法及び手法での生検のサポートと同じく、特定して選択されたサンプルはまた、本発明で想定されるものである。
本発明のさらなる実施態様では、対象のゲノム配列は最初に取得され、続いて上記取得ステップが繰り返される。好ましくは対象のゲノム配列の取得は、1回、2回、3回、4回、5回、6回以上繰り返される。上記第2の又はそれ以上の取得はある一定期間後に実施され、例えば1週間後、2週間後、3週間後、4週間後、2、3、4、5、6、7、8、9、10、11、12ヶ月後、1.5年後、2年後、3年後、4年後、5年後、6年後など、又はずっと後の時点、又はこれらの時点間での任意の期間後であり得る。対象のゲノム配列の、第1回と第2回取得との間の時間、及び第2回と続く取得との時間は同じ、本質的に同じ又は異なっていてもよく、例えば増加又は減少も可能である。例えば、治療モニターの間、対象のゲノム配列は、等間隔、又はより長い間隔又はより短い間隔で取得され得る。
通常は、対象のゲノム配列が最初の取得後のさらなる取得の場合、同じ臓器、組織、細胞、臓器型、組織型、細胞型で、また、同じサンプルタイプ、例えば尿、血液、血清、唾液サンプルなど上記最初の取得で使用されたもので、取得される。又は、非同一の臓器、組織、細胞、臓器型、組織型、細胞型又はサンプルタイプなどが、対象のゲノム配列の続く取得の対象とされ得る。さらに、組織、臓器、細胞などの混合物から対象のゲノム配列を最初に取得し、続いて、決まった特定のソース、例えばここで定められた特定の臓器、組織、細胞、臓器型、組織型また細胞型からの対象のゲノム配列の取得がなされることが想定される。又は、最初に、特定のソース、例えばここで定められた特定の臓器、組織、細胞、臓器型、組織型また細胞型から対象のゲノム配列を取得し、続いて組織、臓器、細胞などの混合物から対象のゲノム配列を取得する。例えば、疾患、例えば癌の治療の間、後者の方法が取られ、変性又は異常細胞、細胞型又は組織部分の残渣の存在をカバーする。
本発明のさらなる実施態様では、対象のゲノム配列を、2以上の異なる位置、臓器、組織、細胞、組織型、細胞型などから同時に又は平行して取得し、それに対応して得られるゲノム配列情報を、また上で記載されたように処理する。
対象のゲノム配列を最初に及び続いて取得するための方法は、また並行して配列が取得される場合の方法は、同じであってもよく、異なっていてもよい。
上記配列決定技術、及び/又は得られる結果のフォーマットなどが本質的に同じであることが好ましい。
対象のゲノム配列が、第2の取得、又は細胞の最初の取得後さらに時間経過後取得された後、又は一回で1以上のゲノム配列が取得された場合、得られたゲノム配列情報間、例えば最初の取得及び第2の取得又はさらなる取得された情報間の比較が実施される。好ましくは、かかる比較は、上記最初に得られたゲノム配列と、続いて得られたゲノム配列の間の、又は異なる位置、臓器、組織、細胞で得られたゲノム配列間との変化、変性又は差を明らかにするために実施される。ここで使用される用語「比較」とは、2つのゲノム配列をマッチングするための任意の好適な方法又は技術に関連する。通常は、当業者に知られる整列アルゴリズムが適用されて、2つのゲノム配列間の相違を検出する。かかるアルゴリズムの例は、S.Kurtz、A.Phillippy、A.L.Delcher、M.Smoot、M.Shumway、C.Antonescu及びS.L.Salzbergの「Versatile and open software for comparing large genomes.」、Genome Biology、5:R12、2004」から導き出される方法を含む。好適な及び想定されるアルゴリズムのさらなる例は、ベースコールのUMKAアルゴリズム(Pushkarev et al.、Nat Biotechnology、2009、27:847−52)であり、この内容は参照されて本明細書に援用され、及びAshleyらによるアルゴリズム「The Lancet、375、1525−1535、2010」である。
本発明の1つの実施態様では、比較は、最初の取得と第2の又は続く取得で得られた全ゲノム配列間で、又は同時に得られたゲノム配列間で実施される。これにより、全ての変異、変化及び差が全ゲノム配列を通じて完全な概要を与える。
本発明の他の実施態様では、比較は、選別された又は低減されたゲノム配列又は上記のゲノム配列情報間で実施される。好ましくは上記最初に得られたゲノム配列又は同時に得られたゲノム配列であって、ゲノム領域、全遺伝子、エクソン(エクソーム配列)、転写因子結合サイト、DNAメチル化結合タンパク質結合サイト、短い又は長い非コードRNAなどを含み得る遺伝子間領域であって、臨床的に関連し又は重要であり、及び変異可能であるか高変異性であることが知られ又は疑われている、人間、人種間又は集団間、人種間又は集団間、人の年齢集団、例えば新生児及び成人間、人及び他の生物などの間、同じ種の動物間、異なる種、族又はクラス間の動物、植物品種、植物種などの間、又は疾患又は障害において変異可能な又は高変異性であることが知られているか又は疑われている遺伝子間領域に低減されるゲノム配列が、第2の又は続いて取得されるゲノム配列と比較されるために使用され得る。
他の実施態様では、比較はさらに、試験、例えば遺伝データ解釈、データ標準化、データクラスタ化、k−平均クラスタ化、階層クラスタ化、主因子分析、教師方法などを含む。かかる追加の試験は当業者に知られており、好適なソース、例えばTjadenらの「Applied Mycology and Biotechnology:Bioinformatics、6、2006」から導入され、この内容はここで参照されて本明細書に援用される。
さらなる実施態様では、最初の取得後、得られた第3、4、5などの続いて得られた対象のゲノム配列が比較され、この比較は、最初に得られたゲノム配列及び/又は続いて得られたゲノム配列と共に実行され得る。かかる比較は、全ゲノム配列間、又は上で説明された低減又は選別されたサブセット間で実行され得る。
好ましい実施態様では、比較は、連続したゲノム配列情報の組み間で、例えば最初に得られたゲノム配列情報とゲノム配列取得の第1回目の繰り返しで得られたゲノム配列情報間で実施され;上記ゲノム配列取得の第1回目の繰り返しで得られたゲノム配列情報と、ゲノム配列取得の上記2回目の繰り返しで得られたゲノム配列情報間で実施され;上記ゲノム配列取得の第2回目の繰り返しで得られたゲノム配列情報と、ゲノム配列取得の上記3回目の繰り返しで得られたゲノム配列情報間で実施され得る。
又は、比較は次のように実施され得る:例えば、最初に得られたゲノム配列情報とゲノム配列取得の第2回目の繰り返しで得られたゲノム配列情報との間;最初に得られたゲノム配列情報とゲノム配列取得の第3回目の繰り返しで得られたゲノム配列情報との間である。さらなる実施態様では、例えば上記ゲノム配列情報はよりしばしば得られる場合においては、それぞれの組みのゲノム配列情報間の全てのタイプの比較が実施され得る。
特に好ましい実施態様では、対象のゲノム配列が第2又は続く時間で得られる場合には、すでに保存されたゲノム配列情報のゲノム配列情報と比較して上記増加データが保存される。ここで使用される「増加データ」とは、与えられた2つの組みのゲノム配列情報間で異なるか又は変化した情報を意味する。
例えば、保存されるデータは、変化のあった位置又は特質を含む。加えて、さらなるパラメータが保存され、例えば配列伸長、取得時間、取得間隔などである。かかる保存は、任意の好適なフォーマット又は形で実施され、例えばデータベースエントリーの形で、グラフ化情報として、テキスト又は携帯可能な資料として、又は専門家のために音声として検索可能な音声又は会話フォーマットで保存され得る。特に好ましくは、(1)階層的及び/又は(2)時間情報をエンコードする及び/又は(3)患者データ、画像、報告などとリンクする、保存構造である。さらに好ましくは、差DNA保存構造(DDSS)などの保存構造である。
具体的な実施態様では、例えば、対象のゲノム配列が2回以上得られる場合、上記データが上記2回目に表される場合、上記遺伝データでの変化は識別され(即ち、G2及びG1間の差)かつ変更された部分のみが保存される(δG2)。上記遺伝データは、第n回時(Gn)につき表される場合、前回の遺伝データ(Gn−1)は次のように再構成される。
本発明の好ましい実施態様では、Gn及びGn−1間で変化がある場合にはこの変化は上記疾患状態に対応し得るものであり、好ましくはエンコードされ行列に記載される(例えば図6で示されるように)。ある遺伝子の状態(例えば、増幅又は削減された状態であり、これはそれぞれの遺伝子がアップレギュレーション又はダウンレギュレーションされている結果である)が、例えばデコードされ得る。
本発明は、従って、次の方法を想定し、上記方法は、ゲノム及び/又は機能的遺伝子情報での変化が行列内にエンコードされ、及び好ましくは疾患又は障害との関連で、遺伝子、ゲノム領域、制御領域、プロモーター、エクソン又は経路の状態を保持する情報がデコードされ、好適なプロセスで表される。
好ましい実施態様では、好ましくは疾患又は障害との関連で、遺伝子、ゲノム領域、制御領域、プロモーター、エクソン又は経路の状態が、かかる行列からエンコードされるか、濃縮されて表され、及び好適なグラフモデルで可視的に表現され得る。
好ましくは、かかるグラフモデルは有限マルコフ連鎖過程に基づく。マルコフ連鎖は、一組の状態が連続的に動き、状態Aから状態Bへの動きがある確率を持っている過程である。この確率は、行列として、好ましくは遷移行列の形で表され得る。図7は、連続的な一組の状態を示し、患者のプロファイルをマッチングさせ、患者への意思決定がある確率を持って状態Aから状態Bへ遷移することを示す。かかるプロセスの利点は、(i)上記遺伝情報を保存するための必要なメモリ及び保存スペースが劇的に低減されることであり、(ii)上記表現が、疾患の進展(又は後退)の状態を表す行列とマッチングするための助けとなる、ということである。この方法で、上記保存された表現は、容易に臨床判断サポートソフトウェアに準拠することが可能となり、これは遷移状態をマッチングさせ、診断判断を行う上で助けとなる。
本発明の具体的な実施態様では、上記ゲノム配列及び/又は上記機能的遺伝情報の複雑性及び/又は量を低減及び/又はゲノム及び/又は機能的型遺伝情報での変化のエンコード又は分析は、確率ブーリアンネットワーク(PBN)で、又はこれに基づき実施され得る。かかるPBNは、モデル化方法についての規則ベースのパラダイムとして、使用され得る、例えば制御ネットワーク、又はここで説明したデータ又は情報の選別やリンクのために使用され得る。本発明はまた、従って、例えばここで説明されたマルコフ連鎖過程に含まれるマルコフ遺伝子制御ネットワークのサブクラスとしてかかるネットワークを採用することを想定する。ひとつの実施態様では、上記PBNは、異なる遺伝子、経路、疾患状態、疾患因子、分子疾患症状又はその他の当業者に知られる好適な情報を表すために使用され得る。PBNの好適な実装及び形式化は当業者に知られており、又は高品質科学的資料、例えばHamid Bolouriの「Computational Modelling Of Gene Regulatory Networks、2008、Imperial College Press」から導入することが可能である。
かかる表現は、臨床判断サポートソフトウェアでの実装での対応と同じく本発明において想定されている。
本発明のさらなる実施態様では、ここで定められる方法はまた、時間経過にわたり変化又は差をモニターするステップを含む。さらに又はこれに代えて、本方法は傾向を予想するステップを含み、例えば治療の進行中又は疾患の進展中の改善傾向又は悪化傾向などである。
他の実施態様では、本発明はさらに、例えば(δGn)に基づく関連するリスク因子の計算を含む。遺伝データの変化(δGn)が、上記人が影響され得るリスクを示唆しないか、直接示唆しない場合において、1以上の(δG2、δG3、...δGn−1)と組み合わせて(δGn)がリスク因子の計算のために使用され得る。ここで使用される用語「リスク因子」とは、疾患を発症する可能性及び/又は疾患が悪化して次の段階へ進む可能性、又は疾患の素因が疾患へ向かう可能性を意味する。
特に好ましい実施態様では、増加データの全ての可能な組合せが上記リスクを導くために分析され得る。従って、リスクのための上記遺伝子データを分析する際の複雑性は、それが大量のデータ(G1、G2、...Gn)を処理するものではないことから大きく低減され得る。具体的な実施態様では、上記保存された表現が疾患防止ステップを作るために使用され得る。さらなる実施態様では、上記保存表現は、より頻繁なスクリーニング、好ましくは画像化又はその他の診断モダリティを用いることで実行され得る。
さらに具体的な実施態様では、上記保存ゲノム配列データは、これらのデータが専門家に使用されるために十分であることから、上記増加データ即ち(δG2、δG3、...δGn)のみがアクセス許容される選択肢と共に提供される。かかる可能性は、上記対象が彼の遺伝データ又はゲノムデータを開示することから秘匿することを可能にする、という利点を持つ。
本発明のさらに好ましい具体的な実施態様では、ゲノム配列情報の複雑性及び/又は量を低減することは、疾患又は障害に関連するシグネチャーデータ以外のデータを上記ゲノム配列情報から切り取ることで実施され得る。ここで使用される用語「ゲノム配列情報を切り取る」とは、ゲノム配列の最初又は続く取得で得られるゲノム配列セットにおいて実施される、集中化又は削除手順を意味する。従って、非関連及び/又は冗長なゲノム配列情報は、最初のゲノム情報から削除されるか除去され得る。かかる集中化又は切り取りステップは通常は、遺伝子的症状、障害、疾患のシグネチャーデータ、障害又は疾患の予兆、疾患などの進展へのリスク因子などに基づく。
ここで使用される用語「シグネチャーデータ」とは、遺伝子又がゲノム変異についての情報を意味する。好ましくは、かかるシグネチャーデータは、疾患、障害に特異的、疾患又は障害の予兆に特異的、疾患などの進展へのリスク因子へ特異的な遺伝子的又はゲノム変異であり得る。又はシグネチャーデータは、それ自体が疾患や障害に関連しているものではなく、対象の適合性、丈夫さ、特定の状態への適合性、適合可能性、変異の履歴に基づく情報、又は対象の又は対象の識別に必要な情報、例えば犯罪捜査、指紋手法、父性試験などに基づく情報を提供する。
好ましい実施態様では、シグネチャーデータは、疾患、障害、疾患や障害の予兆、疾患進展へのリスク因子に特異的な情報であり、又は提供するものであり、これらは、ミスセンス変異、ナンセンス変異、一塩基多型(SNP)、コピー数多型(CNV)、スプライシング変異、制御配列の変異、小欠失、小挿入、小インデル、総欠失、総挿入、複雑な遺伝子再配列、染色体間再配列、染色体内再配列、ヘテロ接合性消失、反復配列の挿入及び/又は反復配列の欠失、及び/又はこれらのシグネチャーのいずれかの組み合わせ、から選択される。さらに、好適な上記ゲノム又は対象の遺伝子配列や、当業者に知られる症状やシグネチャーデータが本発明の範囲に含まれる。
本発明のさらなる実施態様では、上記シグネチャーデータは、特異的疾患に関連することが知られる特異的遺伝子又は遺伝子座であり、例えばHER2、EFGR、KRAS、BRAF、Bcr−abl、PTEN、PI3K、BRCA1、BRCA2、GATA4、CDKN2A、PARP、p53などである。かかるマーカーシグネチャーは、もちろんまた、追加パラメータ又は追加の遺伝子情報、例えばSNP、コピー数変異などと組合せることが可能である。
特に好ましい実施態様では、シグネチャーデータは、一塩基多型(SNP)及び/又はコピー数変動(CNV)、又は遺伝子コピー数多型(GCN)、即ち、対象の遺伝子型での特定に遺伝子のコピー数の変異であるか、又はこれらを与えるものである。上記GCNは、例えば、癌性細胞で複雑に変性させ得る。対応する遺伝子発現情報は、さらに具体的な実施態様で得られる。
対応する遺伝子又はゲノム変異は、例えば同様に疾患や障害に関連して当業者には知られており、及び/又は好適なデータリポジトリから導き出せ、これらは例えば、
「the National Center for Biotechnology Information(NCBI)、NIH、USA、www.ncbi.nlm.nih.govからアクセス可能」や「the European Bioinformatics Institute(EBI) of the EMBL、www.ebi.ac.ukからアクセス可能」であり、特に特異的なデータ収集は「the SNP database、OMIM、RefSeq」や「the Human Genome Mutation Database」などからのデータリポジトリである。
「the National Center for Biotechnology Information(NCBI)、NIH、USA、www.ncbi.nlm.nih.govからアクセス可能」や「the European Bioinformatics Institute(EBI) of the EMBL、www.ebi.ac.ukからアクセス可能」であり、特に特異的なデータ収集は「the SNP database、OMIM、RefSeq」や「the Human Genome Mutation Database」などからのデータリポジトリである。
特に好ましい実施態様では、上記シグネチャーデータは、遺伝子又はゲノム領域のパネルに基づくものであり、これらは少なくとも対象又は症状の2つの群を識別し得るものであり、例えば、腫瘍状態対正常/健常状態間;又は悪性腫瘍状態対良性状態間;又は医薬組成物例えば制癌剤への化学的感受性対医薬組成物、例えば制癌剤への化学的抵抗性の状態間、などである。対象の遺伝子データを処理する本発明の具体的な実施態様では、ここで定められるようにまた、遺伝子データの変性がさらなる続く変化の結果となり得る状態も含む。従って、遺伝子データの変化(δGn’)が、(δG2、δG3、...δGn−1)から、知られる遺伝疾患のシグネチャーデータを用いることで予期され得る。例えば、上記予期される変化δGn’が実際の変化δGnに等しい場合は、対象は上記疾患に影響を受けやすいと考えられる。さらなる実施態様では、δGnが、これまでの遺伝子変化を用いて計算され得るものであり、従って保存されるか保存されなくてもよい。また、上記得られたデータは保存又は一時的に保存され得る。
本発明の他の好ましい実施態様では、対象の遺伝子データを処理するための本発明のゲノム配列情報の複雑性及び/又は量を低減するステップは、対象のゲノム配列をシグネチャーデータを含む標準シグネチャーデータと整列させることで実施され得る。好ましくは、参照配列(RefSeq)は疾患又は障害に関連するシグネチャーデータを含み得る、例えば、障害、疾患、障害又は疾患の予兆、疾患の進展のリスク因子の基づく情報であり、ミスセンス変異、ナンセンス変異、一塩基多型(SNP)、コピー数多型(CNV)、スプライシング変異、制御配列の変異、小欠失、小挿入、小インデル、総欠失、総挿入、複雑な遺伝子再配列、染色体間再配列、染色体内再配列、ヘテロ接合性消失、反復配列の挿入及び/又は反復配列の欠失、及び/又はこれらのシグネチャーのいずれかの組み合わせ、から選択される。特に好ましくは、1又は全てのゲノムシグネチャーについての全ての可能な配列が存在する参照配列に基づくシグネチャーの提供である。さらなる実施態様では、これらのシグネチャーは、上記ゲノム変異の上流又は下流又は上記ゲノム変異の上流又は下流のいずれかの、特定の長さ、例えば100bp、200bp、500bp、1kbp、2kbp、5kbp、10kbpのフランキング配列での情報と組合せることが可能である。
本発明によるこれらのシグネチャー参照配列は、任意の好適なフォーマット又は形で提供される。好ましくはFASTA又はFASTQフォーマットである。さらに好ましくは、アライナ、好ましくはアライナ(aligner)のマルチタイプにより任意の認識されるフォーマットが好ましい。
本発明によるシグネチャー参照配列の具体的な実施態様では、通常の参照配列(例えばNCBIなどのデータリポジトリから導きさせるゲノム配列情報)を、例えば、疾患のデータ、遺伝子要素の位置及び/又は方向の情報、関連する遺伝子の情報、変異型及び/又は変異サイズの情報及び/又は変異の頻度の情報を含むゲノムシグネチャーと組み合わせることから導かれ得る。これらのデータはさらに、注釈付きデータベース、例えば遺伝子要素の位置及び/又は方向及び/又はこれらの要素のタイプ及びサイズに関連する注釈付きデータから導かれるデータと組合せ得る。例示的ワークフローは図2に与えられる。
他の実施態様では、本発明によるシグネチャー参照配列は、検出されるゲノム変異のタイプ及び/又は得られる又は得られ得るゲノム配列情報のタイプに適合され得る。これらのパラメータは組み合わせることができ、又は相互に排他的であり得る。
例えば、シグネチャー参照配列は、単一末端及び/又は対末端データとしてゲノム配列と比較するために与えられ得る。かかるシグネチャー参照配列は、置換、インデル、SNP、CNV、規則的変異、ミスセンス又はナンセンス変異などを含み得る。このシグネチャー参照配列に基づき、対象から得られるゲノム配列に存在する知られる置換、インデル、SNP、CNV、規則的変異、ミスセンス又はナンセンス変異が検出され得る。上記シグネチャー参照配列は、FASTAファイル、例えばsRefSeqIとして与えられ得る。
さらなる実施例では、シグネチャー参照配列は、対末端データとして存在するゲノム配列と比較するために与えられ得る。かかるシグネチャー参照配列は、総挿入、総欠失、染色体異常、染色体間、染色体内変異などの情報を含む。対象から得られる、知られた総挿入、総欠失、染色体異常、染色体間、染色体内変異などの知られるシグネチャー参照配列が削除され得る。上記シグネチャー参照配列は、FASTAファイル、例えばsRefSeqIIなどのファイルとして与えられ得る。
さらなる例では、シグネチャー参照配列は、単一末端データ又は対末端データとして存在するゲノム配列と比較するために与えられ得る。かかるシグネチャー参照配列は、ゲノム領域又は興味領域の情報を含み、例えば、特定の疾患や障害、ホットスポット又は変異などの観点で変化又は変性されることが知られる領域である。このシグネチャー参照配列に基づき、対象から得られたゲノム配列に存在する知られた特定の疾患や障害、ホットスポット又は変異などの文脈で変化又は変性される領域が削除され得る。このシグネチャー参照配列は、FASTAファイル、例えば、sRefSeqIIIとして与えられる。
本発明の他の実施態様では、ここで定められたように対象から得られるゲノム配列はまた、参照配列として使用され得る。かかる参照配列では、知られる変異、例えばSNP又は置換が検索され得る。
通常の実施態様では、置換、インデル、SNP、CNV、規則的変異、ミスセンス又はナンセンス変異など(sRefSeqI)の検出のための上記説明されたシグネチャー参照配列は、以下の方法ステップで実施され得る:
(1)置換、インデル、SNP、CNV、規則的変異、ミスセンス又はナンセンス変異などに対応するシグネチャーのリストが作られる。
(2)シグネチャーのリストは、染色体、配位数及び方向により並べ替えられ得る。さらに識別コード、正常配列情報及び変異配列情報が含まれる。
(3)上記配列は、正常及び変異配列の両方で利用可能な配列情報に基づき拡張され得る。
例えば上記変異のいずれかの側の50、100、200、300、400、500、600、700、800、900、1000塩基が含まれ得る。
通常は、上記変異側からの配列の拡張は、配列読み取りの数倍(100塩基の読み取りにつき500塩基)であり得る。
(4)正常及び変異拡張型の逆相補的配列が生成され得る。
(5)上記変異が互いに近い場合、上記配列は拡張された型であり、上記変異が末端に位置する。正常及び変異配列の両方の対応する逆相補的配列が作られる。
(1)置換、インデル、SNP、CNV、規則的変異、ミスセンス又はナンセンス変異などに対応するシグネチャーのリストが作られる。
(2)シグネチャーのリストは、染色体、配位数及び方向により並べ替えられ得る。さらに識別コード、正常配列情報及び変異配列情報が含まれる。
(3)上記配列は、正常及び変異配列の両方で利用可能な配列情報に基づき拡張され得る。
例えば上記変異のいずれかの側の50、100、200、300、400、500、600、700、800、900、1000塩基が含まれ得る。
通常は、上記変異側からの配列の拡張は、配列読み取りの数倍(100塩基の読み取りにつき500塩基)であり得る。
(4)正常及び変異拡張型の逆相補的配列が生成され得る。
(5)上記変異が互いに近い場合、上記配列は拡張された型であり、上記変異が末端に位置する。正常及び変異配列の両方の対応する逆相補的配列が作られる。
さらなる実施態様では、総挿入、総欠失、染色体上で説明した染色体異常、染色体内又は染色体間変異などを検出するために上で説明したようなシグネチャー参照配列が、次の方法ステップを実行するために作られる。
(1)総挿入、総欠失、染色体上で説明した染色体異常、染色体内又は染色体間変異などに対応するシグネチャーのリストが作られ得る。
(2)上記変異配列が、上記染色体変異の情報により与えられる。さらに、上記染色体の情報、上記変異の説明及び/又は識別コードが与えられる。
(3)上記変異配列の逆相補的配列が生成され得る。
(1)総挿入、総欠失、染色体上で説明した染色体異常、染色体内又は染色体間変異などに対応するシグネチャーのリストが作られ得る。
(2)上記変異配列が、上記染色体変異の情報により与えられる。さらに、上記染色体の情報、上記変異の説明及び/又は識別コードが与えられる。
(3)上記変異配列の逆相補的配列が生成され得る。
上記シグネチャー参照配列及び対象から得られるゲノム配列との整列は、好適な整列方法又は技術により実施され得る。かかる方法の例は好適な刊行物、特に、Li H.及びDurbin R.の「Fast and accurate short read alignment with Burrows−Wheeler transform(Bioinformatics、25、1754−60[PMID:19451168]2009」;又はLi及びDurbin R.の「Fast and accurate long−read alignment with Burrows−Wheeler transform(Bioinformatics、26;589−95[PMID:20080505]、2010」から導かれ、これらの内容は参照されて本明細書に援用される。
好ましくは、上記整列は、逆相補的配列を用いることで実施される。これらの配列は、ここで説明した方法によるここで説明された又は与えられたシグネチャー参照配列にすでに存在し得る。従って、特に好ましくは、逆相補的配列を含むシグネチャー参照配列を用いることである。任意の逆相補的計算をバイパスすることで、分析時間が大きく低減され、本発明のさらなる利点を構成する。
本発明のさらなる実施態様では、ここで説明した方法によるゲノム配列情報を、例えば上記配列をここで定めたシグネチャー参照配列と整列又は比較することで低減することは、続いて迅速に検索可能な形で保存され、例えばデータベースエントリーの形、好ましくは差DNA保存構造(DDSS)フォーマット又はその誘導フォーマットで保存され得る。
本発明の他の好ましい実施態様では、対象のゲノムデータを処理するための方法はさらに対象の機能的遺伝子情報を分析するステップを含む。好ましくは、上記方法は、対象の機能的遺伝子情報を得るステップ、この情報の複雑性又は量を低減するステップ及び上記機能的遺伝子情報を迅速に検索可能な形で保存するステップを含む。ここで使用される用語「機能的遺伝子情報」とは、上記プライマリ配列又は遺伝子配列の生物/生化学的機能を意味するか示唆する任意のタイプの分子データを意味する。機能的遺伝子情報は従って、特に、(i)遺伝子発現の情報及び/又は、(ii)メチル化配列情報、好ましくはここのヌクレオチド(C又はA)のメチル化配列情報;及び/又は、(iii)活性遺伝子及び/又はサイレント遺伝子、好ましくはH3K4メチル化及び/又はH3K27メチル化を示し得るヒストンマークの情報である。さらなる機能的情報は、変異に関連し、例えばタンパク質機能を変化させ及び/又は非コードRNAの部分として制御的影響を持つ一塩基変異多型、又は患者の機能に伴い及び/又は非コードRNAの部分としての制御的影響を持つ、増幅遺伝子又は削除遺伝子及び非コードRNAとしてのコピー数変異である。
本発明の特に好ましい実施態様では、対象のゲノムデータを処理するための方法はさらに、対象の遺伝子発現を分析するステップを含む。例えば、上記方法は、対象の遺伝子発現の情報を得るステップ、この情報の複雑性又は量を低減するステップ及び上記遺伝子発現情報を迅速に検索可能な形で保存するステップを含む。ここで用語「遺伝子発現」とは、遺伝子又は遺伝子要素の転写、翻訳及び/又は翻訳後変性に関する情報の任意のタイプに関連する。好ましくは、遺伝子発現の情報は、1以上のRNA種の存在又は不存在の情報、1以上のタンパク質種の存在又は不存在の情報、対象のトランスクリプトームの情報、対象のプロテオームの情報又は対象のトランスクリプトーム又はプロテオームの部分の情報を含む。遺伝子発現データは、当業者に知られる全ての好適な方法により得ることが可能であり、例えば、マイクロアレイ分析、PCR実施、特に定量的PCR分析により、タンパク質検出アッセイ、2Dゲル電気泳動法、3Dゲル電気泳動法などで可能である。さらに好適な技術は、当業者に知られているか、適切な教科書から導かれ得る。対応する試験は、対象から誘導されるサンプルで、例えばここで定められたサンプルで実施され得る。好ましくは、上記ゲノム配列の取得のために使用されるサンプルと同じサンプル、又は同じ時間に及び/又は同じ場所又は位置で、同じ臓器、組織又は組織型で取得されたサンプルが、対象の遺伝子発現の分析のために使用され得る。又は遺伝子発現データはまた、情報リポジトリ、例えば疾患タイプ、性別、年齢群などに関連する対象の状態に関連する具体的な条件下で遺伝子発現パターンの情報を提供するデータベースから誘導することができる。さらに対象について得られる遺伝子発現データは、比較され、標準化され及び/又は、情報リポジトリ又は好適なデータベースから得られる情報に標準を用いて訂正され得る。
さらに好ましい実施態様では、上記機能的遺伝子情報、例えば遺伝子発現の情報の複雑性及び/又は量が低減され得る。この低減手順は好ましくは、機能的遺伝子情報、例えば遺伝子発現情報を切り取ることで実施される。ここで用語「機能的遺伝子情報を切り取る」及び「遺伝子情報を切り取る」とは、利用可能な機能的遺伝子情報又は遺伝子発現情報の特定のパラメータに集中する手順を意味する。例えば、機能的遺伝子情報は、特定の遺伝子、遺伝子要素、生化学的経路の成分、特定の領域のメチル化、特定の制御的要素、特定の領域での特定の塩基などの情報に低減されることが可能である。同様に、遺伝子発現情報は、特定の遺伝子、特定の遺伝子要素、又は領域の発現、又は生化学的経路の成分の発現、転写因子、成長因子などによる上記経路の活性化の反応での発現の情報に低減され得る。好ましくは、上記機能的遺伝子情報及び特に遺伝子発現情報は、疾患又は障害に関連するシグネチャーデータへ低減され得る。例えば、機能的遺伝子情報、例えば特定の癌疾患に関連するとして知られる情報について以外の遺伝子発現情報を切り取ることが可能である。従って、例えばかかる疾患に関連するメチル化パターン又は発現パターンに関する従来技術から知られる情報に基づき、この観点から関連するマーカーの例えばRNA種、タンパク質種などの存在又は不存在などが決定される。
加えて、対象の状態のさらなるパラメータ、例えば組織学的パラメータ、細胞サイズに関連するパラメータ、疾患などについて知られたタンパク質スコアに関するパラメータを決定され得る。
本発明のさらなる実施態様では、対象の遺伝子発現の情報は、最初に得られ、続いて上記取得ステップを繰り返して得られ得る。好ましくは、対象の遺伝子発現情報の取得は、1回、2回、3回、4回、5回、又は6回以上繰り返され得る。上記第2の又はそれ以上の取得は、ある時間経過後、例えば1週間後、2週間後、3週間後、4週間後、2、3、4、5、6、7、8、9、10、11、12ヶ月後、1.5年、2年、3年、4年、5年、6年後など、又はその期間よりも長い期間後、又はこれらの期間の任意の期間で取得され得る。対象のゲノム配列の1回目と2回目の取得期間、及び2回目と続く取得との期間は同じ、本質的に同じであってよく、又は例えばそれ以上又は以下の異なる期間であってよい。例えば、治療モニター期間では、対象の遺伝子発現情報が、等間隔又はより長い又はより短い期間で取得され得る。好ましくは、対象の遺伝子発現情報の取得は、対象のゲノム配列の取得と調整され又は協調してなされる。好ましくは、対象のゲノム配列の取得及び対象の遺伝子発現情報の取得は本質的に同時になされる。
対象の遺伝子発現情報が、最初の取得後第2回目又はそれ以降で得られるか、又は1以上の遺伝子発現情報の組み、例えば異なる組織や組織型で同時に与えられると、例えば最初の取得で得られた遺伝子発現情報と、第2回目又はそれ以降で得られた遺伝子発現情報間での比較がなされる。好ましくは、かかる比較は、上記最初に得られた遺伝子発現情報と続いて得られた遺伝子発現情報間の、又は異なる位置、臓器、組織、細胞などで得られた遺伝子発現情報間の変化、変性又は差を明らかにするために実施される。ここで「比較」とは、発現データを整合させる全ての好適な方法や技術を意味する。通常は、当業者に知られるクラスタアルゴリズムが適用され得る。かかるアルゴリズムの例は、階層クラスタ化又はk−平均クラスタ化を含む。さらなる例は、好適な刊行物から得られ、例えばA.K.Jain及びR.C.Dubesの、「Algorithms for Clustering Data、Prentice Hall、1988」であり、この内容は参照されて本明細書に援用される。
好ましい実施態様では、比較は、連続する機能的遺伝子情報の組みの間で実施され、特に、遺伝子発現情報について行われ、例えば機能的遺伝子情報間、例えば最初に得られた及び上記情報取得の第1回目の繰り返しで得られた遺伝子発現情報間での比較である。
特に好ましい実施態様では、対象の機能的遺伝子情報、例えば対象の遺伝子発現情報が、第2回目又はそれ以降で得られた場合に、既に保存されている機能的遺伝子情報、例えば既に保存されている遺伝子発現情報との比較で増加されたデータが保存される。従って、2つの組みの機能的遺伝子情報間、例えば遺伝子発現情報間で変化した又は異なる情報が保存され得る。
具体的な実施態様では、例えば対象の遺伝子発現情報が2回以上得られた場合、上記データが第2回目につき提示される際に、遺伝子発現データでの変化が識別され(即ち、E2及びE1との差)、及び上記変化した部分のみが保存される(δE2)。遺伝子発現データが、n番目(nth)時間(En)につき得られる場合、以前の遺伝子データ(En−1)は次の形で再構成され得る。
本発明のさらなる実施態様では、ここで説明する対象の遺伝子発現などの対象の機能的遺伝子情報の情報は、(i)上記ゲノム配列の情報と共に保存される、及び/又は(ii)上記ゲノム配列の情報とリンクされて保存させるかである。特に好ましくは、両方の情報の組みを組み合わせるステップであり、例えばゲノム配列情報と機能的遺伝子情報の情報であり、例えば遺伝子発現情報は特定の疾患や障害に集中された情報であり、これにより対象の健康状態を相互に影響する上記データの解釈により判断することを可能にする。
さらに、時間を経過して増加したデータを取得することで、機能的遺伝子変異の進行経路、特にゲノム配列に状況に依存して遺伝子発現の進行が観察され得ることであり、例えば疾患治療の間、疾患が進行している間などである。この情報の組合せは、対象の治療への応答、疾患の進展、対象の見通しについてより詳細な判断を可能にするという利点を提供する。
他の側面で本発明は、ここで説明される本発明の方法により、取得され、処理され及び/又は保存されたゲノム配列情報を、疾患の診断、検出、モニター又は予後のために使用することに関する。具体的な実施態様では、ここで説明される本発明の方法により、取得され、処理され及び/又は保存されたゲノム配列情報を、機能的遺伝子情報、特にここで説明される本発明の方法により、取得され、処理され及び/又は保存された遺伝子発現情報と組み合わせることで、疾患の診断、検出、モニター又は予後のために使用することに関する。
ここで用語「疾患を診断」とは、最初に得られたゲノム配列情報が、対象の遺伝子状態につき通常の既定の状態とは異なる場合に対象がある疾患を患っていると考えられことを意味する。「対象の遺伝子状態につき通常の既定の状態」とは、従来技術の知識、又は1以上の特定の遺伝子及び/又は機能的遺伝子状態、例えば遺伝子発現状態に基づき、健康であると考えられ、一方上記状態からの変化が疾患に関連すると仮定される、ことを意味する。用語「診断」はまた、かかる比較プロセスを通じて到達される結論を意味する。
ここで使用される用語「疾患検出」とは、対象の疾患又は障害が、器官で識別され得ることを意味する。疾患又は障害の判断及び識別は、ゲノム配列変性の決定により達成され得る。より好ましくは、上記疾患又は障害の判断又は識別は、ゲノム配列の変性及び機能的遺伝子変化、例えばここで説明した遺伝子発現変化を決定することで達成され得る。
ここで使用する用語「疾患をモニターする」とは、診断された又は検出された疾患又は障害に伴い、例えば治療手順の間、又はある期間、通常は1日、2日、5日、1週間、2週間、4週間、2ヶ月、3ヶ月、4ヶ月、5ヶ月、6ヶ月、1年、2年、3年、5年、10年又はそれ以上の期間行われる。用語「伴い」とは、疾患のこれらの状態及び特に状態の変化が、本発明の方法により得られる増加情報に基づき又は対応するデータベース値に基づき、任意の時間周期間隔で検出され得ることを意味し、例えば毎週、2週間毎、毎月、2、3、4、5、6、7、8、919、1112ヶ月毎、1.5年毎、2、3、4、5、6、7、8、9、10年毎、任意の期間例えばそれぞれ2週間、3週間、1、2、3、4、5、6、7、8、9、10、11、12ヶ月、1.5年、2、3、4、5、6、7、8、9、10、15、20年間である。
ここで使用される用語「疾患予後」とは、診断され検出された疾患の進展又は結果の予想を意味し、例えばある期間の間、治療の間又は治療後などである。上記用語はまた、上記疾患から生存又は回復の機会を決定することを意味し、同様に対象の予想生存時間の予想を意味する。予後は、特に、対象の将来の生存の可能性の期間を含み、例えば6ヶ月、1年、2年、3年5年、10年又は任意の期間である。
好ましくは、疾患の情報、例えば診断又は予後情報は迅速に検索可能な形で保存され得る。
他の実施態様では、本発明は、ここで記載された方法を、対象の分子履歴又は上記分子履歴に記録化に使用することを含む。ここで使用される用語「分子履歴」とは、上記全ゲノムの機能的側面を捕捉すること、又はここで記載されるサブ部分の捕捉、又は上記レグローム(regulome)又は上記ゲノム、ゲノム領域、遺伝子、プロモーター、イントロン、エクソン、経路、経路成分、メチル化状態など既定の期間にわたる制御状態の捕捉を意味する。上記履歴は、他の実施態様ではまた、種々の分子プロファイルモダリティを含む。好ましい実施態様では、上記分子履歴は、以下の時間間隔で生成され、例えば1から7日、例えば1、2、3、4、5、6、7、8、9、10週間などの週、例えば1、2、3、4、5、6、7、8、9、10、11、12ヶ月などの月、又は例えば1、2、3、4、5、6、7、8、9、10、15、20、25間年などの年である。ここで記載される全ゲノム又はその部分、又はレギュローム、又は上記ゲノム、ゲノム領域、遺伝子、プロモーター、イントロン、エクソン、経路、経路成分、メチル化状態の制御状態、の機能的側面同じくそれらの変化が、任意の好適な時間間隔で捕捉され得る、例えば1から7日、1、2、3、4、5、6、7、8、9、10週間、1、2、3、4、5、6、7、8、9、10、11、12ヶ月間、1、2、3、4、5、6、7、8、9、10年間などである。上記捕捉はまた、非定期的に実施され、例えば患者が医師又はゲノム専門家を訪れる際である。分子履歴は、迅速に検索可能な、容易にアクセス可能な形で提供されることが有利である。好ましくは、1つの疾患又は限られた群の疾患に関連する特定の分子シグネチャーに集中したフォーマットである。この情報は、さらなる実施態様では、また疾患とは直接は関連しないが、対象の健康状態の情報を提供する他の臨床的指標とリンクされ得る。
本発明により判断され、検出され、診断され、モニターされ又は予後される疾患又は障害は、当業者に知られる全ての検出可能な疾患であり得る。特に好ましい実施態様では、上記疾患は遺伝子疾患又は障害、であり、特にゲノム配列情報の基づき検出され得る遺伝子障害である。かかる障害には、限定されるものではないが、上記障害を含み、例えば好適な科学文献、臨床又は医学刊行物、高い品質の教科書、公開情報リポジトリ、インターネットソース又はデータベースが含まれ、「http://en.wikipedia.org/wiki/List_of_genetic_disorders」で検索されるものが含まれる。
本発明の特に好ましい実施態様では、上記疾患は癌性疾患であり、例えば当業者に知られる癌疾患又は腫瘍である。
他の側面では、本発明は臨床判断サポート及び保存システムに関連し、対象のゲノム配列情報を与えるための入力及びその機能的読み出しを含み、例えば遺伝子、又は非コードRNA発現、又はタンパク質レベルであり;コンピュータプログラム製品を含み、これはプロセッサーに、ここで定義されたゲノム配列情報の複雑性及び/又は量を低減するステップを実行させ、対象のゲノム変異、増加ゲノム変異又は遺伝子発現変化パターンを出力するために出力を含み、及び上記出力された情報を保存する媒体を含む。具体的な実施態様では、上記臨床判断サポート及び保存システムは、対象のゲノム配列情報を対象の遺伝子発現情報と組み合わせて提供するための入力を持ち;コンピュータプログラム製品を含み、これはプロセッサーに、上記ゲノム配列情報の複雑性及び/又は量を低減するステップを実行させ、及びここで定めた上記対象の遺伝子発現情報の複雑性及び/又は量を低減するステップを実行させ、対象のゲノム変化、増加ゲノム変化又は遺伝子発現変化パターンを出力するための出力を含み、及び上記出力された情報を保存する媒体を含む。
具体的な実施態様では、上記臨床判断サポート及び保存システムは、分子腫瘍学判断ワークステーションであり、好ましくは上記人又は患者の分子履歴を捕捉する時系列データであり得る。上記判断ワークステーションは、好ましくは、対象について癌治療を開始する及び/又は継続するかどうかにつき判断するために使用される。より好ましくは、上記判断ワークステーションは、治療の反応性の確率及び可能性について判断するために使用され得る。さらに、異なるタイプの疾患、例えば上で説明した疾患のいずれについても、同様の判断ワークステーションが想定される。
さらなる実施態様では、本発明はまた、ここで説明した判断ワークステーションで使用されるソフトウェア又はコンピュータプログラムが含まれる。上記ソフトウェアは、ひとつの実施態様では、ここで説明したゲノム配列情報の分析に基づく。例えば、上記ソフトウェアは、ここで説明したゲノム配列情報の複雑性及び/又は量を低減するための方法ステップを実行し得る。さらなる実施態様では、上記ソフトウェアはさらに、ここで説明した遺伝子発現情報の複雑性及び/又は量を低減する方法ステップを実行し得る。なお他の実施態様では、上記ソフトウェアはここで説明したシグネチャー参照配列に基づき比較のステップを実行し得る。他の実施態様では、上記ソフトウェアは、対象の分子履歴の記録化を実行し得る。
出力される結果データは、従って、任意の好適な方法又はフォーマットで、好ましくは、(1)階層的及び/又は(2)時間情報をエンコードし、及び/又はさらに(3)患者データ、画像、報告などをリンクする保存構造で保存され得る。さらに好ましくは、保存構造が差DNA保存構造(DDSS)としてである。
なお他の具体的な本発明の実施態様では、上記臨床判断サポート及び保存システムは電子画像/データ取り出し及び通信システムである。かかる電子画像/データ保存記録及び通信システムの例は、PACSシステムである。特に好ましくは、iSitePACSシステムであり、Philips社から提供される。これらのシステムは、本発明の方法の要求に適合させるため及び/又はここで記載されたコンピュータプログラム又はアルゴリズムを実行させるため、及び/又はここで説明したゲノム配列情報及び/又は機能的遺伝情報を保存するために、調節又は変更することが可能である。
以下の実施例及び図面は、説明目的で与えられる。従って、理解されるべきことは、実施例及び図面は、なんらを限定するものではない、ということである。当業者が、ここで説明した原理のさらなる変更を想定することができることは明らかである。
実施例1: 整列パラメータの比較
整列アルゴリズムで設定される現在の限界は通常は最大5ミスマッチ(例えば置換、ギャップ)及び最大3挿入又は削除である。一般的に2bpミスマッチは、上記メモリ/プロセッサー利用及び実行時間を最適化するためのデフォルト入力パラメータとして使用される。目標の数がないとこれを超えるパラメータが膨大化する。しかし、これは、我々がより大きい挿入及び削除を検索する際に必要となるよりもずっと少ない。どのくらいの数のリードマッチ及び変異が、上記RefSeqから呼ばれるかは、直接表1に示される入力パラメータに比例する。表1は、それぞれ2bp及び3bpミスマッチを用いるマウスchr19の11MRNA−Seqリードを示す。ここで、3bpマッピングは、18.5%より特異的なマップ化リードを与え、かつその42%が従来のRefSeq遺伝子で注釈される転写領域内にあり、上記ゲノムの僅か2から3%を占めるにすぎないことが示される。
整列アルゴリズムで設定される現在の限界は通常は最大5ミスマッチ(例えば置換、ギャップ)及び最大3挿入又は削除である。一般的に2bpミスマッチは、上記メモリ/プロセッサー利用及び実行時間を最適化するためのデフォルト入力パラメータとして使用される。目標の数がないとこれを超えるパラメータが膨大化する。しかし、これは、我々がより大きい挿入及び削除を検索する際に必要となるよりもずっと少ない。どのくらいの数のリードマッチ及び変異が、上記RefSeqから呼ばれるかは、直接表1に示される入力パラメータに比例する。表1は、それぞれ2bp及び3bpミスマッチを用いるマウスchr19の11MRNA−Seqリードを示す。ここで、3bpマッピングは、18.5%より特異的なマップ化リードを与え、かつその42%が従来のRefSeq遺伝子で注釈される転写領域内にあり、上記ゲノムの僅か2から3%を占めるにすぎないことが示される。
本発明で説明したように、より小さい疾患/適用特異的焦点化参照配列(例えば、sRefSeqI、sRefSeqII、sRefSeqIII)を用いて、ミスマッチ及びインデルの数が増加され、それによって、より大きなゲノム変異を検出可能となり、高い臨床的重要性を持つ。
実施例2:治療への患者反応の経時的モニター
本発明の方法により得られる増加情報は、患者の治療への経時的反応をモニターするために使用され得る。患者が治療を開始した後計算される上記δGsが、どの程度迅速に彼/彼女が治療へ反応するかを見るようにチェックされ得る。上記変化が最小の場合、次に患者は、GnがG1に等しい場合、完全に回復したか、治療に十分反応していないかであり、いずれの場合も代わりの治療を適用されるべきである。
本発明の方法により得られる増加情報は、患者の治療への経時的反応をモニターするために使用され得る。患者が治療を開始した後計算される上記δGsが、どの程度迅速に彼/彼女が治療へ反応するかを見るようにチェックされ得る。上記変化が最小の場合、次に患者は、GnがG1に等しい場合、完全に回復したか、治療に十分反応していないかであり、いずれの場合も代わりの治療を適用されるべきである。
実施例3:疾患傾向の予想
上記増加情報はまた、上記疾患の予想と同様に追跡するために使用され、疾患(例えば癌)の診断及び段階を知るために使用され得る。例えば、特定の疾患を患う患者の上記δGs(診断相)が利用可能であれば、それらは上記疾患の進展の際のキーとなる遺伝子変化を検出するために使用され得る。この情報は、他の患者での上記疾患の初期発症を検出するために使用され得る。また、これらは疾患が進行する人の遺伝子的構造の影響を識別するために使用され得る。例えば、正常なプロファイル(図6)を持つ癌患者において、患者が結腸直腸癌を持つとして診断される変化が検出される。化学療法及び放射線治療を行った結果、上記疾患が診断される前の正常なプロファイルと非常に近いプロファイルが得られ得る。上記行列の値は、RNAシグナルのレベルを表し得る(遺伝子発現データ−又は遺伝子コピー数多型の値)。
上記増加情報はまた、上記疾患の予想と同様に追跡するために使用され、疾患(例えば癌)の診断及び段階を知るために使用され得る。例えば、特定の疾患を患う患者の上記δGs(診断相)が利用可能であれば、それらは上記疾患の進展の際のキーとなる遺伝子変化を検出するために使用され得る。この情報は、他の患者での上記疾患の初期発症を検出するために使用され得る。また、これらは疾患が進行する人の遺伝子的構造の影響を識別するために使用され得る。例えば、正常なプロファイル(図6)を持つ癌患者において、患者が結腸直腸癌を持つとして診断される変化が検出される。化学療法及び放射線治療を行った結果、上記疾患が診断される前の正常なプロファイルと非常に近いプロファイルが得られ得る。上記行列の値は、RNAシグナルのレベルを表し得る(遺伝子発現データ−又は遺伝子コピー数多型の値)。
上記疾患の進展の間は、図6に与えられるデータをさらに加える複数の分子データが関連するようになる。例えば、治療の全反応を見るために、それぞれの薬物治療の後3日連続して実験することがあり得る。それぞれの時点で、通常の診断画像(例えばMRI)が取得され、差分データが経時的に保存され得る。
図6では、疾患進展段階で、6つの値が劇的に変化し、ついで治療後これらの値の3つが正常値に戻り、残る3つは最初の値に近くなる。従って、分子履歴保存では、δG2は6つの値を持ち、δG3が3つの値を持ち得る。上記δG2は、上記疾患のこの段階での既知のプロファイルに対してマッチされるプロファイルを表す。実際の実験では、多くの数、例えば3164.7百万の化学的ヌクレオチド塩基(A、C、T及びG)であり得る。
実施例4:疾患の進展速度
患者は、疾患の進展の間、いくつかの遺伝子試験を受け得る。より短時間差で行われた2回の連続する試験の間の変化は最小であるが、なお、疾患の進行の速度に関する臨床情報を提供し得る。図7は、図6で与えられる例の疾患の進行の間の遺伝子コピー数(GCN)での変異を示す。δGsの数は3であり、2と1はそれぞれ種々の段階を示す。例えば、Tjadenらの「Applied Mycology and Biotechnology:Bioinformatics、6、2006」の技術が上記増加データを分析するために適用され得る。例えば、同じ疾患を患う種々の患者の上記増加データが、上記疾患の発症から等しい時間例で利用可能であれば、k−平均方法を用いて上記疾患の進行の速度に基づく種々のクラスにクラスタ化し得る。新たな患者の増加データが表される場合には、上記k−平均(又は重心)と比較され、進行速度が推定され得る。これにより上記患者に対する適切な治療を選択することの助けとなる。それぞれのクラスタを用いて、患者のカテゴリを関連付けができ、例えば:「薬物療法に反応性」であると関連付けされる場合は、このクラスタは、「薬物療法に反応しない」クラスタに対してより初期のクラスタ(健康状態)に近く、即ちδGsの値が「健康」クラスタでの行列よりもさらに高いことになる。
患者は、疾患の進展の間、いくつかの遺伝子試験を受け得る。より短時間差で行われた2回の連続する試験の間の変化は最小であるが、なお、疾患の進行の速度に関する臨床情報を提供し得る。図7は、図6で与えられる例の疾患の進行の間の遺伝子コピー数(GCN)での変異を示す。δGsの数は3であり、2と1はそれぞれ種々の段階を示す。例えば、Tjadenらの「Applied Mycology and Biotechnology:Bioinformatics、6、2006」の技術が上記増加データを分析するために適用され得る。例えば、同じ疾患を患う種々の患者の上記増加データが、上記疾患の発症から等しい時間例で利用可能であれば、k−平均方法を用いて上記疾患の進行の速度に基づく種々のクラスにクラスタ化し得る。新たな患者の増加データが表される場合には、上記k−平均(又は重心)と比較され、進行速度が推定され得る。これにより上記患者に対する適切な治療を選択することの助けとなる。それぞれのクラスタを用いて、患者のカテゴリを関連付けができ、例えば:「薬物療法に反応性」であると関連付けされる場合は、このクラスタは、「薬物療法に反応しない」クラスタに対してより初期のクラスタ(健康状態)に近く、即ちδGsの値が「健康」クラスタでの行列よりもさらに高いことになる。
Claims (13)
- 対象のゲノムデータを処理する方法であって、当該方法は、
(a)対象のゲノム配列情報を取得するステップ、
(b)前記ゲノム配列情報の複雑性及び量を低減するステップであり、疾患又は障害に関連するシグネチャーデータ以外の前記ゲノム配列情報を切り取ることを含む、ステップ、並びに
(c)ステップ(b)の前記ゲノム配列情報を迅速に検索可能な形で保存するステップ、
を含む方法。 - 請求項1に記載の方法であり、前記ゲノム配列が対象のサンプル、好ましくは、組織、臓器、細胞及び/又はそれらの断片の混合物から、又は膣組織、舌、膵臓、肝臓、脾臓、卵巣、筋肉、関節組織、神経組織、胃腸組織、腫瘍組織からの組織生検などの組織特異的若しくは臓器特異的サンプル、体液、血液、血清、唾液、又は尿から取得される、方法。
- 請求項1又は2に記載の方法であり、前記ステップ(a)が、対象のゲノム配列の繰り返しの取得を含み、及び最初の取得で得られたゲノム配列情報と2回目以降の取得で得られたゲノム配列情報との間の比較が実施される、方法。
- 請求項3に記載の方法であり、追加のステップにおいて、最初に得られたゲノム配列情報及び第2回目以降で得られたゲノム配列情報間で異なる情報を含む増加データが迅速に検索可能な形で保存される、方法。
- 請求項1又は2に記載の方法であり、ステップ(b)が、対象のゲノム配列と、疾患又は障害に関連するシグネチャーデータを含む参照配列と整列させることで実施され、及び前記整列が、逆相補的配列を用いて実施される、方法。
- 請求項5に記載の方法であり、前記シグネチャーデータが、疾患又は障害に特異的な少なくとも1つの変異であり、該変異は、ミスセンス変異、ナンセンス変異、一塩基多型(SNP)、コピー数多型(CNV)、スプライシング変異、制御配列の変異、小欠失、小挿入、小インデル、総欠失、総挿入、複雑な遺伝子再配列、染色体間再配列、染色体内再配列、ヘテロ接合性消失、反復配列の挿入、及び反復配列の欠失を含む群から選択される、方法。
- 請求項1乃至6のいずれか一項に記載の方法であり、当該方法がさらに、(d)前記対象の機能的遺伝子情報を取得するステップ、(e)機能的遺伝子情報の複雑性及び/又は量を低減させるステップ、及び、(f)前記機能的遺伝子情報を迅速に検索可能な形で保存するステップを含み、前記機能的遺伝子情報の複雑性及び/又は量を低減させるステップが、疾患又は障害に関連するシグネチャーデータ以外の前記機能的遺伝子情報を切り取ることで実施される、方法。
- 請求項7に記載の方法であり、前記機能的遺伝子情報が、
(i)遺伝子発現の情報、好ましくは1以上のRNA種、1以上のタンパク質種、前記対象のトランスクリプトーム若しくはその一部、前記対象のプロテオーム若しくはその一部、又は、これらの混合物の存在に対する情報;及び/又は、
(ii)メチル化配列情報、好ましくはそれぞれ個別のヌクレオチド(C又はA)のメチル化配列情報;及び/又は、
(iii)活性遺伝子及び/又はサイレント遺伝子を示すヒストンマーク、好ましくはH3K4メチル化及び/又はH3K27メチル化を示すヒストンマークの情報、
を含む、方法。 - 請求項1又は8に記載の方法であり、ゲノム及び/又は機能的遺伝子情報の変化が行列内にエンコードされ、及び遺伝子の状態、ゲノム領域、制御領域、プロモーター、エクソン又は経路、好ましくは疾患又は障害に関連する情報がデコードされ、マルコフ連鎖処理に基づき表現される、方法。
- 請求項1乃至9に記載の方法により取得及び/又は保存されるゲノム配列情報の、場合により遺伝子発現情報と組み合わせた、
(i)全ゲノム、レギュローム、又は前記ゲノムの制御状態、ゲノム領域、遺伝子、プロモーター、又はイントロン、エクソン、経路、経路成分又は所定の期間にわたるメチル化状態に対する情報を捕捉することで、種々の分子プロファイルモダリティの形で対象の分子履歴を作るための;及び/又は
(ii)疾患を診断、検出、モニター又は予後判定するための;
使用。 - 請求項5乃至9のいずれか一項に記載の方法又は請求項10に記載される使用であり、前記疾患が癌性疾患、好ましくは乳癌、卵巣癌又は前立腺癌である、方法又は使用。
- 臨床判断サポート及び保存システムであり:
対象のゲノム配列情報、好ましくは対象の機能的遺伝子情報と組み合わせて提供するための入力装置;
プロセッサーに、請求項1乃至9又は請求項11のいずれか一項に記載の方法のステップ(b)及び場合によりステップ(e)を実施させることができるコンピュータプログラム;
所定の期間にわたって対象のゲノム変異、増加ゲノム変化又は遺伝子発現変異パターンを出力するための出力装置;及び
前記出力された情報を保存する媒体;
を含むシステム。 - 請求項12に記載のシステムであり、前記システムが、電子画像/データ保存記録及び通信システムである、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161434017P | 2011-01-19 | 2011-01-19 | |
US61/434,017 | 2011-01-19 | ||
PCT/IB2012/050255 WO2012098515A1 (en) | 2011-01-19 | 2012-01-19 | Method for processing genomic data |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014508994A JP2014508994A (ja) | 2014-04-10 |
JP2014508994A5 true JP2014508994A5 (ja) | 2015-08-20 |
JP6420543B2 JP6420543B2 (ja) | 2018-11-07 |
Family
ID=45607311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013549922A Active JP6420543B2 (ja) | 2011-01-19 | 2012-01-19 | ゲノムデータ処理方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20140229495A1 (ja) |
EP (1) | EP2666115A1 (ja) |
JP (1) | JP6420543B2 (ja) |
CN (2) | CN111192634A (ja) |
BR (1) | BR112013018139A8 (ja) |
RU (1) | RU2013138422A (ja) |
WO (1) | WO2012098515A1 (ja) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9773091B2 (en) | 2011-10-31 | 2017-09-26 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
CN102841988B (zh) * | 2012-07-28 | 2015-10-21 | 盛司潼 | 一种对核酸序列信息进行匹配的系统和方法 |
US9418203B2 (en) | 2013-03-15 | 2016-08-16 | Cypher Genomics, Inc. | Systems and methods for genomic variant annotation |
WO2014149972A1 (en) | 2013-03-15 | 2014-09-25 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
US11342048B2 (en) | 2013-03-15 | 2022-05-24 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
US9898575B2 (en) | 2013-08-21 | 2018-02-20 | Seven Bridges Genomics Inc. | Methods and systems for aligning sequences |
US9116866B2 (en) | 2013-08-21 | 2015-08-25 | Seven Bridges Genomics Inc. | Methods and systems for detecting sequence variants |
WO2015027085A1 (en) | 2013-08-22 | 2015-02-26 | Genomoncology, Llc | Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein |
CN105793859B (zh) * | 2013-09-30 | 2020-02-28 | 七桥基因公司 | 用于检测序列变异体的系统 |
CA2925111C (en) * | 2013-10-07 | 2024-01-16 | Sequenom, Inc. | Methods and processes for non-invasive assessment of chromosome alterations |
US20150106115A1 (en) * | 2013-10-10 | 2015-04-16 | International Business Machines Corporation | Densification of longitudinal emr for improved phenotyping |
WO2015058097A1 (en) | 2013-10-18 | 2015-04-23 | Seven Bridges Genomics Inc. | Methods and systems for identifying disease-induced mutations |
EP3058332B1 (en) | 2013-10-18 | 2019-08-28 | Seven Bridges Genomics Inc. | Methods and systems for genotyping genetic samples |
WO2015058120A1 (en) | 2013-10-18 | 2015-04-23 | Seven Bridges Genomics Inc. | Methods and systems for aligning sequences in the presence of repeating elements |
WO2015058095A1 (en) | 2013-10-18 | 2015-04-23 | Seven Bridges Genomics Inc. | Methods and systems for quantifying sequence alignment |
US9092402B2 (en) | 2013-10-21 | 2015-07-28 | Seven Bridges Genomics Inc. | Systems and methods for using paired-end data in directed acyclic structure |
CN110570906A (zh) * | 2013-11-13 | 2019-12-13 | 凡弗3基因组有限公司 | 用于传送并且预处理测序数据的系统和方法 |
US9817944B2 (en) | 2014-02-11 | 2017-11-14 | Seven Bridges Genomics Inc. | Systems and methods for analyzing sequence data |
EP3111353A4 (en) * | 2014-02-26 | 2017-11-01 | Nantomics, LLC | Secured mobile genome browsing devices and methods therefor |
CN107735787A (zh) * | 2014-09-05 | 2018-02-23 | 南托米克斯有限责任公司 | 用于种源测定的系统和方法 |
US9558321B2 (en) | 2014-10-14 | 2017-01-31 | Seven Bridges Genomics Inc. | Systems and methods for smart tools in sequence pipelines |
WO2016141294A1 (en) | 2015-03-05 | 2016-09-09 | Seven Bridges Genomics Inc. | Systems and methods for genomic pattern analysis |
US10395759B2 (en) * | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
US10275567B2 (en) | 2015-05-22 | 2019-04-30 | Seven Bridges Genomics Inc. | Systems and methods for haplotyping |
SG11201707649SA (en) * | 2015-06-24 | 2017-10-30 | Samsung Life Public Welfare Foundation | Method and device for analyzing gene |
JP2018534530A (ja) * | 2015-07-16 | 2018-11-22 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 人間の炎症性自己免疫疾患の処置を管理するための装置、システム及び方法。 |
US10793895B2 (en) | 2015-08-24 | 2020-10-06 | Seven Bridges Genomics Inc. | Systems and methods for epigenetic analysis |
US10724110B2 (en) | 2015-09-01 | 2020-07-28 | Seven Bridges Genomics Inc. | Systems and methods for analyzing viral nucleic acids |
US10584380B2 (en) | 2015-09-01 | 2020-03-10 | Seven Bridges Genomics Inc. | Systems and methods for mitochondrial analysis |
US11347704B2 (en) | 2015-10-16 | 2022-05-31 | Seven Bridges Genomics Inc. | Biological graph or sequence serialization |
US20170199960A1 (en) | 2016-01-07 | 2017-07-13 | Seven Bridges Genomics Inc. | Systems and methods for adaptive local alignment for graph genomes |
US10364468B2 (en) | 2016-01-13 | 2019-07-30 | Seven Bridges Genomics Inc. | Systems and methods for analyzing circulating tumor DNA |
US10460829B2 (en) | 2016-01-26 | 2019-10-29 | Seven Bridges Genomics Inc. | Systems and methods for encoding genetic variation for a population |
NZ745249A (en) | 2016-02-12 | 2021-07-30 | Regeneron Pharma | Methods and systems for detection of abnormal karyotypes |
US10262102B2 (en) | 2016-02-24 | 2019-04-16 | Seven Bridges Genomics Inc. | Systems and methods for genotyping with graph reference |
US10790044B2 (en) | 2016-05-19 | 2020-09-29 | Seven Bridges Genomics Inc. | Systems and methods for sequence encoding, storage, and compression |
US10600499B2 (en) | 2016-07-13 | 2020-03-24 | Seven Bridges Genomics Inc. | Systems and methods for reconciling variants in sequence data relative to reference sequence data |
US11289177B2 (en) | 2016-08-08 | 2022-03-29 | Seven Bridges Genomics, Inc. | Computer method and system of identifying genomic mutations using graph-based local assembly |
US11250931B2 (en) | 2016-09-01 | 2022-02-15 | Seven Bridges Genomics Inc. | Systems and methods for detecting recombination |
US20190362807A1 (en) * | 2016-09-29 | 2019-11-28 | Koninklijke Philips N.V. | Genomic variant ranking system for clinical trial matching |
US20200042735A1 (en) * | 2016-10-11 | 2020-02-06 | Genomsys Sa | Method and system for selective access of stored or transmitted bioinformatics data |
US10319465B2 (en) | 2016-11-16 | 2019-06-11 | Seven Bridges Genomics Inc. | Systems and methods for aligning sequences to graph references |
US10726110B2 (en) | 2017-03-01 | 2020-07-28 | Seven Bridges Genomics, Inc. | Watermarking for data security in bioinformatic sequence analysis |
US11347844B2 (en) | 2017-03-01 | 2022-05-31 | Seven Bridges Genomics, Inc. | Data security in bioinformatic sequence analysis |
US20200035332A1 (en) * | 2017-04-06 | 2020-01-30 | Koninklijke Philips N.V. | Method and apparatus for masking clinically irrelevant ancestry information in genetic data |
US11177042B2 (en) * | 2017-08-23 | 2021-11-16 | International Business Machines Corporation | Genetic disease modeling |
CN107609348B (zh) * | 2017-08-29 | 2020-06-23 | 上海三誉华夏基因科技有限公司 | 高通量转录组数据样本分类数目估计方法 |
US20190156923A1 (en) | 2017-11-17 | 2019-05-23 | LunaPBC | Personal, omic, and phenotype data community aggregation platform |
CN107967410B (zh) * | 2017-11-27 | 2021-07-30 | 电子科技大学 | 一种面向基因表达与甲基化数据的融合方法 |
CN107944224B (zh) * | 2017-12-06 | 2021-04-13 | 懿奈(上海)生物科技有限公司 | 构建皮肤相关基因标准型别数据库的方法及应用 |
US12046325B2 (en) | 2018-02-14 | 2024-07-23 | Seven Bridges Genomics Inc. | System and method for sequence identification in reassembly variant calling |
US11574701B1 (en) | 2018-11-28 | 2023-02-07 | Allscripts Software, Llc | Computing system for normalizing computer-readable genetic test results from numerous different sources |
JP2022523621A (ja) | 2018-12-28 | 2022-04-26 | ルナピービーシー | コミュニティデータの集約、完成、修正、および使用 |
CN109979537B (zh) * | 2019-03-15 | 2020-12-18 | 南京邮电大学 | 一种面向多条序列的基因序列数据压缩方法 |
CN111028883B (zh) * | 2019-11-20 | 2023-07-18 | 广州达美智能科技有限公司 | 基于布尔代数的基因处理方法、装置及可读存储介质 |
CN111785370B (zh) * | 2020-07-01 | 2024-05-17 | 医渡云(北京)技术有限公司 | 病历数据处理方法及装置、计算机存储介质、电子设备 |
WO2023154935A1 (en) * | 2022-02-14 | 2023-08-17 | AiOnco, Inc. | Approaches to normalizing genetic information derived by different types of extraction kits to be used for screening, diagnosing, and stratifying patents and systems for implementing the same |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2440035A1 (en) * | 2001-03-05 | 2002-09-12 | Gene Logic, Inc. | A system and method for managing gene expression data |
US7529685B2 (en) * | 2001-08-28 | 2009-05-05 | Md Datacor, Inc. | System, method, and apparatus for storing, retrieving, and integrating clinical, diagnostic, genomic, and therapeutic data |
JP2003271735A (ja) * | 2002-03-12 | 2003-09-26 | Yokogawa Electric Corp | 遺伝子診断分析装置およびそれを用いた遺伝子診断支援システム |
US7729865B2 (en) * | 2003-10-06 | 2010-06-01 | Cerner Innovation, Inc. | Computerized method and system for automated correlation of genetic test results |
US8340914B2 (en) * | 2004-11-08 | 2012-12-25 | Gatewood Joe M | Methods and systems for compressing and comparing genomic data |
US20060223058A1 (en) * | 2005-04-01 | 2006-10-05 | Perlegen Sciences, Inc. | In vitro association studies |
US20070231816A1 (en) * | 2005-12-09 | 2007-10-04 | Baylor Research Institute | Module-Level Analysis of Peripheral Blood Leukocyte Transcriptional Profiles |
JP4852313B2 (ja) * | 2006-01-20 | 2012-01-11 | 富士通株式会社 | ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 |
NZ581858A (en) * | 2007-05-25 | 2012-07-27 | Decode Genetics Ehf | Genetic variants on chr 5p12 and 10q26 as markers for use in breast cancer risk assessment, diagnosis, prognosis and treatment |
WO2009108802A2 (en) * | 2008-02-26 | 2009-09-03 | Purdue Research Foundation | Method for patient genotyping |
JP2010157214A (ja) * | 2008-12-02 | 2010-07-15 | Sony Corp | 遺伝子クラスタリングプログラム、遺伝子クラスタリング方法及び遺伝子クラスター解析装置 |
-
2012
- 2012-01-19 WO PCT/IB2012/050255 patent/WO2012098515A1/en active Application Filing
- 2012-01-19 CN CN202010098891.4A patent/CN111192634A/zh active Pending
- 2012-01-19 CN CN2012800059273A patent/CN103329138A/zh active Pending
- 2012-01-19 BR BR112013018139A patent/BR112013018139A8/pt not_active IP Right Cessation
- 2012-01-19 RU RU2013138422/10A patent/RU2013138422A/ru not_active Application Discontinuation
- 2012-01-19 JP JP2013549922A patent/JP6420543B2/ja active Active
- 2012-01-19 US US13/979,908 patent/US20140229495A1/en not_active Abandoned
- 2012-01-19 EP EP12704126.7A patent/EP2666115A1/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6420543B2 (ja) | ゲノムデータ処理方法 | |
JP2014508994A5 (ja) | ||
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
Kosoy et al. | Genetics of the human microglia regulome refines Alzheimer’s disease risk loci | |
JP7487163B2 (ja) | がんの進化の検出および診断 | |
US20210142904A1 (en) | Systems and methods for multi-label cancer classification | |
Chiang et al. | The impact of structural variation on human gene expression | |
US20210098078A1 (en) | Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay | |
JP2022532897A (ja) | マルチラベルがん分類のためのシステムおよび方法 | |
EP4073805B1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
CN112601826A (zh) | 通过全基因组整合进行循环肿瘤dna的超灵敏检测 | |
AU784645B2 (en) | Method for providing clinical diagnostic services | |
CN112602156A (zh) | 用于检测残留疾病的系统和方法 | |
US20140040264A1 (en) | Method for estimation of information flow in biological networks | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
US20210358626A1 (en) | Systems and methods for cancer condition determination using autoencoders | |
US20190228836A1 (en) | Systems and methods for predicting genetic diseases | |
US20220367010A1 (en) | Molecular response and progression detection from circulating cell free dna | |
US20230175058A1 (en) | Methods and systems for abnormality detection in the patterns of nucleic acids | |
US20220328133A1 (en) | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing | |
US12073920B2 (en) | Dynamically selecting sequencing subregions for cancer classification | |
US20240312564A1 (en) | White blood cell contamination detection | |
US20240296920A1 (en) | Redacting cell-free dna from test samples for classification by a mixture model | |
Barnell | Bioinformatic Tools to Alleviate the Annotation Bottleneck within Precision Oncology | |
Oakley | Building bioinformatics solutions for biomarker identification |