CN112272849A - 用于分析染色质相互作用数据的方法和设备 - Google Patents
用于分析染色质相互作用数据的方法和设备 Download PDFInfo
- Publication number
- CN112272849A CN112272849A CN201980034320.XA CN201980034320A CN112272849A CN 112272849 A CN112272849 A CN 112272849A CN 201980034320 A CN201980034320 A CN 201980034320A CN 112272849 A CN112272849 A CN 112272849A
- Authority
- CN
- China
- Prior art keywords
- bin
- bins
- processors
- pair
- contacts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 233
- 108010077544 Chromatin Proteins 0.000 title claims abstract description 164
- 210000003483 chromatin Anatomy 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims description 77
- 230000008520 organization Effects 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 239000012634 fragment Substances 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 64
- 210000000349 chromosome Anatomy 0.000 claims description 52
- 230000000875 corresponding effect Effects 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 40
- 210000004027 cell Anatomy 0.000 claims description 39
- 238000009826 distribution Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 18
- 238000007619 statistical method Methods 0.000 claims description 18
- 108020004414 DNA Proteins 0.000 claims description 13
- 102000053602 DNA Human genes 0.000 claims description 13
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 12
- 230000001105 regulatory effect Effects 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 7
- 230000004962 physiological condition Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 239000000104 diagnostic biomarker Substances 0.000 claims description 5
- 239000000092 prognostic biomarker Substances 0.000 claims description 5
- 108700026220 vif Genes Proteins 0.000 claims description 5
- 210000001726 chromosome structure Anatomy 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000001521 two-tailed test Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 abstract description 17
- 238000004458 analytical method Methods 0.000 abstract description 15
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000010606 normalization Methods 0.000 abstract description 4
- -1 TAD Proteins 0.000 abstract description 3
- 210000001519 tissue Anatomy 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 13
- 229940079593 drug Drugs 0.000 description 12
- 239000003814 drug Substances 0.000 description 12
- 239000012472 biological sample Substances 0.000 description 11
- NIJJYAXOARWZEE-UHFFFAOYSA-N Valproic acid Chemical compound CCCC(C(O)=O)CCC NIJJYAXOARWZEE-UHFFFAOYSA-N 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 238000003556 assay Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 240000008168 Ficus benjamina Species 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 239000003623 enhancer Substances 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 102000010029 Homer Scaffolding Proteins Human genes 0.000 description 4
- 108010077223 Homer Scaffolding Proteins Proteins 0.000 description 4
- 101150068479 chrb gene Proteins 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 210000000130 stem cell Anatomy 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 229960000604 valproic acid Drugs 0.000 description 4
- 208000026350 Inborn Genetic disease Diseases 0.000 description 3
- 230000024245 cell differentiation Effects 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 210000002950 fibroblast Anatomy 0.000 description 3
- 208000016361 genetic disease Diseases 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 210000004940 nucleus Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003285 pharmacodynamic effect Effects 0.000 description 3
- 230000000144 pharmacologic effect Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 238000000528 statistical test Methods 0.000 description 3
- HWPZZUQOWRWFDB-UHFFFAOYSA-N 1-methylcytosine Chemical compound CN1C=CC(N)=NC1=O HWPZZUQOWRWFDB-UHFFFAOYSA-N 0.000 description 2
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- 101100239628 Danio rerio myca gene Proteins 0.000 description 2
- 102000016911 Deoxyribonucleases Human genes 0.000 description 2
- 108010053770 Deoxyribonucleases Proteins 0.000 description 2
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 108091023040 Transcription factor Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000027455 binding Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 210000004413 cardiac myocyte Anatomy 0.000 description 2
- 230000022131 cell cycle Effects 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- 210000004880 lymph fluid Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000008672 reprogramming Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000003491 skin Anatomy 0.000 description 2
- 210000004927 skin cell Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 208000011117 substance-related disease Diseases 0.000 description 2
- 230000005945 translocation Effects 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 101100257359 Caenorhabditis elegans sox-2 gene Proteins 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 102000010970 Connexin Human genes 0.000 description 1
- 108050001175 Connexin Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 108700020911 DNA-Binding Proteins Proteins 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 206010013654 Drug abuse Diseases 0.000 description 1
- 108010022894 Euchromatin Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 238000001162 G-test Methods 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108010034791 Heterochromatin Proteins 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- YQEZLKZALYSWHR-UHFFFAOYSA-N Ketamine Chemical compound C=1C=CC=C(Cl)C=1C1(NC)CCCCC1=O YQEZLKZALYSWHR-UHFFFAOYSA-N 0.000 description 1
- 108700021430 Kruppel-Like Factor 4 Proteins 0.000 description 1
- 102000006835 Lamins Human genes 0.000 description 1
- 108010047294 Lamins Proteins 0.000 description 1
- 240000001931 Ludwigia octovalvis Species 0.000 description 1
- 101100257363 Mus musculus Sox2 gene Proteins 0.000 description 1
- 108010047956 Nucleosomes Proteins 0.000 description 1
- 101100247004 Rattus norvegicus Qsox1 gene Proteins 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 210000001789 adipocyte Anatomy 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000227 basophil cell of anterior lobe of hypophysis Anatomy 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000003467 cheek Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000000378 dietary effect Effects 0.000 description 1
- 239000000890 drug combination Substances 0.000 description 1
- 206010013663 drug dependence Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 210000000632 euchromatin Anatomy 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000004458 heterochromatin Anatomy 0.000 description 1
- 108010051779 histone H3 trimethyl Lys4 Proteins 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 230000009610 hypersensitivity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004263 induced pluripotent stem cell Anatomy 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 230000003426 interchromosomal effect Effects 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 229960003299 ketamine Drugs 0.000 description 1
- 210000005053 lamin Anatomy 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000031864 metaphase Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000004766 neurogenesis Effects 0.000 description 1
- 238000011457 non-pharmacological treatment Methods 0.000 description 1
- 210000001623 nucleosome Anatomy 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 230000008816 organ damage Effects 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011458 pharmacological treatment Methods 0.000 description 1
- 230000036470 plasma concentration Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000000159 protein binding assay Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 229940084026 sodium valproate Drugs 0.000 description 1
- AEQFSUDEHCCHBT-UHFFFAOYSA-M sodium valproate Chemical compound [Na+].CCCC(C([O-])=O)CCC AEQFSUDEHCCHBT-UHFFFAOYSA-M 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
为了分析染色质的空间组织,计算装置可以使用二叉搜索树将基因组元件触点或读段编译到可变大小的箱中。所述箱可被选择用于各自表示基因组内不同的切割位点增量或功能元件,如基因、TAD、染色质状态片段、环状结构域、染色质结构域等。选择两组箱来生成箱对的正方形基因组矩阵,其中每个组表示所述矩阵的轴。然后将归一化方法应用于具有可变大小和/或形状的所述箱对的相互作用频率以生成每个箱对的经归一化的相互作用频率。可以使用所述经归一化的相互作用频率来识别具有富集的触点和贫化的触点的箱对,以进行各种分析,包含基因组变体的靶基因的检测,以及触点的全基因组分析。
Description
相关申请的交叉引用
本申请要求于2018年3月22日提交的标题为“染色质相互作用数据分析的方法和设备(Method and Apparatus for Analysis of Chromatin Interaction Data)”的美国临时申请序列号62/646,433的优先权和申请日的权益,所述文献的全部公开内容均在此通过引用明确并入本文。
技术领域
本申请涉及染色质相互作用分析,并且,更具体地说,涉及一种利用统计技术使用可变大小的箱有效识别基因组元件的触点的方法和系统。
背景技术
今天,基因组元件触点使用Hi-C测序或其它类似方法进行映射,如基因组结构映射、ChIA-PET、4C、5C、Combi-C、Micro-C等。在此类方法中,成对末端测序读段表示在被处理用于产生Hi-C测序库的生物细胞样品中具有空间触点的基因组位置对。将多个这样的成对末端读段编译成表示基因组位置对在空间上相互作用的频率的图或频率矩阵。
为了执行映射,将数据集编译到固定大小的箱中,这些箱是彼此相邻的基因组的大小均匀的部分。然而,这种方法需要选择固定的分辨率,这使其带有固有的局限性。在低分辨率下,关注的基因座与不相关的基因座结合,而其它基因座被分成两半。基因通常由增强子元件调节,所述增强子元件在序列空间中距所述基因很远,称为远侧顺式,或者位于不同的染色体上,称为反式。然而,由于数据稀疏,这些方法在检测远侧增强子相互作用方面表现不佳。反式和远侧顺式相互作用出现严重的数据稀疏,因为线性基因组中的读段对被映射到面积超过九百万平方兆碱基(Mb)的正方形基因组中。在高分辨率下,这一方法非常占用内存,需要大量计算资源。
此外,读段密度随基因组距离变化五个数量级,大多数测得的相互作用集中在轴上。因此,对于固定的箱,精细的分辨率将导致99.9%以上的全基因组矩阵条目是空的,而粗略的分辨率将完全不能受益于功能元件的长程触点的调解,从而将它们切成碎片并将其与相邻序列区域结合,从而耗散研究人员希望检测的信号。
拓扑关联结构域(TAD)已被确定为有效的空间和功能基因组。人类基因组约80%的序列长度被分成约2500个TAD,这是非常稳健的,在人体细胞类型之间、不同人体之间以及疾病状态下都非常保守。TAD也起复制结构域的作用。此外,TAD介导长程空间相互作用:在正方形基因组的任何给定部分中的接触频率将与同一TAD对中的更远序列部分比跨越TAD边界的近侧序列部分更密切相关。
最近的工作已经开始解决固定箱的缺点。SHAMAN包省去了固定的箱和矩阵编译,并采用了不同的方法来检测触点。其使用一个基对分辨率的稀疏矩阵,然后生成一个满足从真实矩阵中采样的距离频率和边缘覆盖标准的随机矩阵。其使用这种随机矩阵与真实矩阵进行比较,生成p值,然后将p值与FDR统计进行比较,以解决Hi-C矩阵中的随机误差。但是,p值是根据数据库中每个单独读段对周围的K最近近邻聚类密度的Kolmogorov-SmirnovD统计数据生成的。具有显著密集的K个最近近邻的对可以被认为是富集的。因此,为特定实验选择K值表示分辨率和统计能力之间的重要权衡,很像传统Hi-C编译中的箱大小选择。
对于远侧触点,SHAMAN包受到影响,因为其没有考虑到大序列元件对触点的调解。一个特定读段对的K个最近近邻可能不会被显著地富集,而读段对所在的整个TAD对可能被富集。对于一个合适的K值,这些将是近似一致的,但SHAMAN没有提供选择这一K的方法,这将在任何情况下改变全基因组。此外,与具有强聚类的TAD对相邻的读段对可以“收起(stowaway)”在序列接近的密集读段上,从而以固定箱的方式产生近邻溢出触点检测。
因此,与现有系统相比,需要一种精确映射基因组元件触点的系统,以保持高精度并减少存储器需求和计算资源。还需要一种在同一个箱中分割相关的基因座并且不将基因座分成两半以检测由功能元件介导的长程顺式和反式相互作用的系统。
发明内容
为了对基因组元件触点进行映射,染色质相互作用系统获得一组基因组元件(例如,基因座),并将所述一组元件分割成不同大小的箱。可以将箱选择为在同一个箱中包含相关的基因组元件并防止将基因组元件分成两半。例如,每个箱可以对应于脱氧核糖核酸(DNA)序列的连续片段,并且可以表示如基因、染色质状态片段、环状结构域、染色质结构域、拓扑关联结构域(TAD)等切割位点增量或功能元件。然后选择两组箱(例如,对应于染色体1的第一组箱和对应于染色体8的第二组箱),并将其放置在n × m矩阵(正方形基因组区域)中,以生成一组箱对。因此,正方形基因组区域可以具有可变的大小和形状。在一些实施例中,两组箱是相同的(例如,每个对应于染色体1)。在任何情况下,染色质相互作用系统使用例如二叉搜索树识别与成对末端读段对应的位置对或具有可能含有所述位置对的箱对的其它在空间上相互作用的位置(即其中所述箱中的一个箱含有所述基因座中的一个基因座,并且另一个箱含有另一个基因座)(例如Chr1:950000和Chr8:15000)。
然后,基于对应的箱对内的基因组元件触点,产生每个箱对的相互作用频率。此外,根据每个箱对内的成对触点的密度随基因组距离的变化来对相互作用频率进行归一化。更具体地说,可以确定成对触点的密度随基因组距离的变化以生成密度函数。这种函数可以针对特定箱序列中的GC序列百分比、Hi-C测序数据集中特定箱序列的序列覆盖率或用于Hi-C归一化的其它适当因素进行校正。然后,对于特定的箱对,在箱对的正方形基因组区域上对密度函数进行积分,以确定箱对的预期密度。然后,可以使用例如统计测试(如泊松分布p值(例如可以向其应用Benjamini错误发现率))将箱对的预期密度与实际密度(即箱对的正方形基因组区域内的成对触点的数量)进行比较,以在局部或全基因组的基础上以针对距离(和其它适当的特征)进行调整的方式生成富集和贫化染色质触点的集合。染色质相互作用系统然后可以提供用于在用户界面上显示对具有例如富集或贫化的触点的箱对的指示。
以这种方式,富集或贫化的触点可以用于基于相应基因组内基因座的空间相互作用预测受试者的分子表型。富集或贫化的触点也可以用于对染色体的3D和4D结构进行建模,并识别组织样品中改变的TAD边界和空间相互作用,以确定遗传病或肿瘤学。此外,富集或贫化的触点可以用于确定特定组织或细胞系中的一对基因座是否相互作用。此外,富集或贫化的触点可以用于定位功能性TAD的反式和远侧顺式结合配偶体,并构建空间触点网络。本实施例有利地在具有固定大小和间距的可比箱的相同数据集中检测使用传统方法的现有系统中没有发现的长程触点。在实验中,与传统方法相比,本发明的实施例检测到TAD之间2.5倍的显著长程顺式相互作用。
此外,与传统方法相比,通过使用可变箱大小,本实施例有利地减少了映射空间相互作用的存储器需求和计算资源。与传统方法一样,使用固定大小的箱来映射空间相互作用时,必须选择高到足以确保每个箱的边界都在选定的范围内的分辨率。例如,当使用固定大小的箱来映射TAD之间的空间相互作用时,必须将分辨率选择成使得对应于每个箱的DNA序列片段比最短的TAD短。换句话说,如果最小的TAD是100千碱基(kB),那么固定大小的箱的分辨率必须最多为100 kB。为了提高精度,分辨率通常比最短的TAD小得多(例如,1 kB或10 kB),并且聚集了几个箱。另一方面,使用可变的箱大小,本实施例将箱选择成使得每个箱表示不同的TAD(或其它功能元件,如基因、染色质状态片段、环状结构域、染色质结构域等),而不管其长度如何。例如,如果平均TAD是1兆碱基(MB)长,则本实施例可以有效地使用1 MB分辨率来映射相同功能元件(TAD)的空间相互作用,相比之下,使用传统方法来映射TAD之间的空间相互作用的分辨率为1 kB或10 kB。因此,与传统方法相比,本实施例的存储器密集度和计算复杂度较低。其中n是读段对的数量,k是正方形矩阵中的箱的数量,每个步骤的复杂度对于对准和质量控制为大约O(n),对于编译为大约O(n*log(k)),对于积分大约为O(k),对于统计控制和数据输出为大约O(k^2)。下面参考图8对这些步骤中的每一个进行进一步的详细描述。
在一个实施例中,提供了一种用于分析染色质的空间和时间组织的计算机实施的方法。所述方法包含获得基因组元件的一组成对触点,将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致,识别第一组多个箱和第二组多个箱,并生成n × m个箱对的矩阵,其中n对应于第一组多个箱,并且m对应于第二组多个箱。所述方法进一步包含:识别所述箱对中的每个箱对内的成对触点的子集,确定所述箱对中的每个箱对的相互作用频率,对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率,以及提供用于在用户界面上显示的染色质相互作用的映射,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。
在另一个实施例中,提供了一种用于分析染色质的空间和时间组织的计算装置。所述计算装置包含通信网络、一个或多个处理器以及耦接到所述一个或多个处理器并在其上存储指令的非暂时性计算机可读存储器。当由所述一个或多个处理器执行时,所述指令使所述系统获得基因组元件的一组成对触点,将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致,识别第一组所述多个箱和第二组所述多个箱,并生成n × m个箱对的矩阵,其中n对应于所述第一组所述多个箱,并且m对应于所述第二组所述多个箱。所述指令进一步使得所述系统识别所述箱对中的每个箱对内的成对触点的子集,确定所述箱对中的每个箱对的相互作用频率,对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率,并且通过所述通信网络提供用于在用户界面上显示的染色质相互作用的映射,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。
附图说明
图1A展示了根据当前描述的实施例的示例性染色质相互作用系统可以在其上操作的计算机网络和系统的框图;
图1B是根据当前描述的实施例的可以在图1A的系统中操作的示例性染色质相互作用服务器的框图;
图1C是根据当前描述的实施例的可以在图1A的系统中操作的示例性客户端装置的框图;
图2描绘了根据当前描述的实施例的一组示例箱,每个箱对应于染色体中基因座的连续片段;
图3描绘了根据当前描述的实施例的箱对的示例正方形基因组矩阵;
图4描绘了根据当前描述的实施例的箱对和相应的经归一化的相互作用频率的示例空间相互作用图;
图5描绘了根据当前描述的实施例的示例密度函数,每个密度函数表示成对触点的密度随基因组距离的变化;
图6是表示用于从受试者的生物样品中生成染色质相互作用数据的示例性过程的框图;
图7A描述了根据当前描述的实施例的富集的触点和对应的基因座和/或与分子表型相关的单核苷酸多态性(SNP)的示例显示;
图7B描绘了根据当前描述的实施例的从空间相互作用数据生成的示例染色质相互作用网络;
图8展示了根据当前描述的实施例的表示用于分析染色质空间组织的示例性方法的流程图;以及
图9展示了对描述由染色质相互作用系统识别的触点数量和由替代系统识别的触点数量进行比较的维恩图。
具体实施方式
尽管以下文本阐述了许多不同实施例的详细描述,但是应当理解的是,这一描述的法律范围由在本公开结尾处阐述的权利要求书的文字来定义。详细描述应被解释为仅是示例性的,并且未描述每个可能的实施例,因为描述每个可能的实施例将是不切实际的,即使不是不可能的。可以使用当前技术或在本专利申请日之后开发的技术来实施许多替代性实施例,所述实施例将仍落入权利要求书的范围内。
还应当理解的是,除非在本专利中使用句子“如本文所用,术语‘______’在本文限定为意味着……”或类似的句子中明确定义术语,否则无意限制所述术语的含义,无论是明示的还是通过暗示,超出其平常或普通含义,并且此术语不应被解释为在基于本专利的任何章节中作出的任何陈述(权利要求书的语言除外)的范围上受到限制。就以与单个含义一致的方式在本专利中参考在本专利的结尾处的权利要求书中叙述的任何术语来说,这样做仅为了清晰起见,以便不使读者混淆,并且并不旨在将此权利要求术语通过暗示或以其它方式限制于所述单个含义。最后,除非通过引用单词“构件”和没有任何结构的叙述的功能来限定权利要求要素,否则不旨在根据35 U.S.C. § 112的申请(第六段)来解释任何权利要求要素的范围。
因此,如本文所用,术语“读段对”或“成对基因组元件触点”可以指基因组相应部分内的一对基因座。例如,读段对可以是Chr1:950000、Chr8:15000。
另外,如本文所用,术语“基因组元件”可以指脱氧核糖核酸(DNA)序列的特定单元。基因组元件可以是读段、染色体内的基因座、碱基对等。
如本文所用,术语“箱”可以指人类或其它生物体的被认为是染色质触点分析的一个单元的基因组内的DNA序列的连续片段。这种箱可以根据特定分析针对各种目的进行选择,并且例如可以包含对应于TAD、TAD间片段、基因、superTAD、subTAD、环状结构域、普通结构域、增强子体和/或启动子体、外显子、内含子、染色质状态片段、限制性内切酶片段、基因工程插入构建体、易位元件、LAD、NOR、SAR、MAR或这些元件的组合的序列区域。
此外,如本文所用,术语“箱对”可以指与线性基因组空间中表示的两个箱的笛卡尔乘积(Cartesian product)对应于的正方形基因组空间中的矩形区域。这个术语也可以指被视为是一对的两个箱,而不是由所述对表示的正方形基因组空间的区域。
如本文所用,术语“受试者”可以指任何人类或其它生物体或其组合,其健康、寿命或其它生物学结果是临床或研究兴趣、研究或努力的目标。
如本文所用,术语“药理学表型”可以指在临床护理、临床护理的管理和财务以及对人类和其它生物体的制药以及其它医学和生物医学研究方面可能影响药物治疗、受试者寿命和结果、生活质量等的任何可辨别的表型。此类表型可以包含药代动力学(PK)和药效动力学(PD)表型,包含药物的吸收、分布、代谢和排泄(ADME)的速率和特征的所有表型,以及与药物疗效、药物治疗剂量、半衰期、血浆水平、清除率等有关的药物反应,以及不良药物事件、不良药物反应和不良药物事件或不良药物反应的对应严重程度、器官损伤、药物滥用和依赖性及其可能性,以及体重及其变化、情绪和行为变化及干扰。此类表型还可包含对药物组合、药物与基因的相互作用、社会和环境因素、饮食因素等的有利和不利的反应。所述表型也可以包含遵守药理学或非药理学治疗方案。所述表型还可能包含医学表型,如受试者感染某种疾病或并发症的倾向、疾病的结果和预后、受试者是否会出现特定的疾病症状以及受试者的结果(如寿命、临床评分和参数、测试结果、医疗保健支出),和其它表型。
如本文所用,术语“分子表型”可以指能够在特定的时间点或回顾点中单独地或总体地测量或辨别并且可以出于任何有用的目的而被检测、评估、估计或修饰、影响或改变的人类或其它生物体的药理学表型或任何其它表型。
总体而言,可以在一个或多个客户端装置、一个或多个网络服务器或者包含这些装置的组合的系统中实施用于映射空间相互作用的技术。然而,为了清楚起见,下面的实例主要集中于一个实施例,其中染色质相互作用服务器获得一组读段对或成对基因组元件触点,如一对基因座(例如Chr1:950000, Chr8:15000)。染色质相互作用服务器还获得一组箱,其为DNA的不重叠的连续片段。在一些实施例中,所述一组读段对和/或所述一组箱可以从研究人员或医疗保健专业人员的客户端装置获得。例如,研究人员或医疗保健专业人员可以选择一组特定的读段对进行分析。此外,研究人员或医疗保健专业人员可以以特定的分辨率选择一组特定的箱。例如,研究人员或医疗保健专业人员可以选择其中每个箱表示不同的TAD的一组箱。在另一个实例中,研究人员或医疗保健专业人员可以选择其中每个箱表示不同的基因的一组箱。
在任何情况下,所述箱可以具有可变的大小或序列长度,并且可以用于将基因组的一个或多个部分分成片段,其中每个箱表示切割位点增量或功能元件,如基因、染色质状态片段、环状结构域、染色质结构域、TAD等(例如,Chr1:1000-2000)。然后染色质相互作用服务器选择两组箱(例如,第一组箱对应于染色体2,第二组箱对应于染色体5,两组相同的箱各自对应于染色体3,等等)。每组可以表示n × m正方形基因组矩阵的轴,其中第一组包含n个箱,并且第二组包含m个箱。因此,正方形基因组矩阵可以包含n × m个箱对,其中箱对是正方形基因组矩阵(例如,Chr1:1000-2000*Chr8:10000-20000)中的一个条目或矩形。染色质相互作用服务器还可以将每个读段对分配给对应的箱对。例如,可以将读段对Chr1:1010, Chr8:15000分配给箱对Chr1:1000-2000*Chr8:10000-20000,因为这一读段对位于与箱对对应的正方形基因组区域的边界内。具体而言,可以构建箱和多组箱,以便分析顺式(即箱对中的箱位于同一染色体上)或反式(即箱对中的箱位于不同的染色体上)的触点。
更进一步地,染色质相互作用服务器可以基于箱对中读段对的密度来确定每个箱对的相互作用频率。每个相互作用频率可以通过计算整组读段对随基因组距离或每个读段对中两个基因座(在本文中也称为“读段”)彼此之间距离而变化的密度函数来归一化。这种函数可以针对特定箱序列中的GC序列百分比、Hi-C测序数据集中特定箱序列的序列覆盖率、特定序列区域中切割位点的密度或用于Hi-C归一化的其它适当因素进行校正。对于每个箱对,可以在箱对的矩形区域上对密度函数进行积分,以确定料箱对的预期密度。然后,可以使用统计方法(例如泊松分布p值)(例如可以向其应用Benjamini错误发现率)将箱对的预期密度与箱对的实际密度(箱对中读段对的密度)进行比较。基于p值和错误发现率,染色质相互作用服务器可以识别具有富集触点的箱对和具有贫化触点的箱对。然后,染色质相互作用服务器可以向客户端装置提供对箱对的指示和对其相应的经归一化相互作用频率(如p值)的指示,以进行显示。客户端装置可以呈现空间相互作用图(如热图),其中较高归一化相互作用频率的箱对用较暗的颜色表示。在其它实施例中,客户端装置可以呈现归一化相互作用频率的数字指示,如每个箱对的p值。因此,医疗保健专业人员或研究人员可以查看她的客户端装置上的空间相互作用图或数字指示,以查看具有富集的或贫化的触点的箱对。
在一些实施例中,可以将如例如对应于不同生物细胞系统或不同生理条件的箱对中的多组触点的实际读段计数一起分析。例如,这样的系统可以构成人体内的两种不同组织、来自两个不同个体的组织样品、与对照样品相比经受医学处理的细胞系、或者相同组织、细胞系或生物体的多细胞周期条件(例如间期或中期)或细胞分化状态。这种分析可以通过例如单独比较来自每个数据集的富集和贫化触点来确定例如一对触点组之间的一组差异性触点。差异性触点还可以通过例如使用泊松分布或其它统计分布的多重采样分布来确定,以生成对应于偶然观察到的差异性相互作用频率的概率的p值,然后可以用错误发现率(FDR)或其它方法来校正这一p值,如本文所述。
参考图1A,示例染色质相互作用系统100识别选定的一组读段对和箱的箱对内的富集或贫化的触点。具有富集的或贫化的触点的箱对可以被突出显示并显示在研究人员或医疗保健专业人员的客户端装置上。例如,在空间相互作用图中可以突出显示具有富集的或贫化的触点的箱对。医疗保健专业人员或研究人员随后可以使用富集或贫化的触点根据相应基因组内基因座的空间相互作用来预测受试者的分子表型。这种预测可以使用空间相互作用以及其它形式的临床和/或全景信息使用别处描述的其它方法来进行。富集或贫化的触点也可以用于对细胞核内染色体或基因组的3D和4D结构进行建模,并识别组织样品中改变的TAD边界和空间相互作用,以确定遗传病或肿瘤学。此外,富集或贫化的触点可以用于确定特定组织或细胞系中的一对基因座是否相互作用。
染色质相互作用系统100包含染色质相互作用服务器102和可以通过网络130通信连接的多个客户端装置106-116,如下所述。在一个实施例中,染色质相互作用服务器102和客户端装置106-116可以在通信网络130上通过无线信号120进行通信,所述通信网络可以是任何合适的局域网或广域网,包含WiFi网络、蓝牙网络、蜂窝网络(如3G、4G、长期演进(LTE)、5G)、因特网等。在一些情况下,客户端装置106-116可以通过介于中间的无线或有线装置118与通信网络130进行通信,所述无线或有线装置可以是无线路由器、无线中继器、移动电话提供商的基站收发器等。举例来说,客户端装置106-116可以包含平板计算机106、测序仪107、支持网络的蜂窝电话108、包含来自已发表文献、临床试验、联合会、学术界等的序列数据的序列数据库109、个人数字助理(PDA)110、移动装置智能电话112(本文中也称为“移动装置”)、膝上型计算机114、台式计算机116、可佩戴生物传感器、便携式媒体播放器(未示出)、平板电脑、任何配置用于有线或无线RF(射频)通信的装置等。此外,记录受试者的基因组数据、接收多组读段对/箱、或显示对富集触点的指示的任何其它合适的客户端装置也可以与染色质相互作用服务器102进行通信。
客户端装置106-116中的每一个可以与染色质相互作用服务器102交互,以提供选定的一组读段对和/或选定的多组箱。例如,测序仪107可以产生提供给染色质相互作用服务器102的序列数据。在又一个实例中,序列数据库109可以向染色质相互作用服务器102提供从例如已发表的文献、临床试验、联合会、学术界等产生的预先存在的序列数据。染色质相互作用服务器102然后可以从序列数据中识别一组读段对和/或多组箱。每个客户端装置106-116还可以与染色质相互作用服务器102交互,以接收对箱对的一个或多个指示和对箱对的经归一化相互作用频率的指示。指示可以是数字指示,并且客户端装置可以通过用于向医疗保健专业人员或研究人员显示的用户界面呈现数字指示。客户端装置还可以呈现箱对和经归一化相互作用频率的图形表示,如热图,其中对应于具有较高经归一化相互作用频率的箱对(例如,富集的触点)的正方形基因组区域以较暗的颜色突出显示。
在示例实施方案中,染色质相互作用服务器102可以是基于云的服务器、应用服务器、网络服务器等,并且包含存储器150、一个或多个处理器(CPU)142(如耦接到存储器150的微处理器)、网络接口单元144和I/O模块148,所述I/O模块例如可以是键盘或触摸屏。
染色质相互作用服务器102也可以通信地连接到读段对和箱的数据库154。例如,数据库154可以存储跨基因组或基因组的一部分的箱的集合,其中每个箱表示对应于TAD的一组基因座(例如,Chr1:1280000-1840000)。在一些实施例中,染色质相互作用服务器102可以从数据库154中检索一组读段对和/或多组箱。在其它实施例中,所述一组读段对和/或多组箱由客户端装置106-116提供。在又其它实施例中,染色质相互作用服务器102可以从数据库中检索箱,并且医疗保健专业人员或研究人员可以为正方形基因组矩阵的每个轴选择多组箱(例如,对应于染色体1的第一组箱和对应于染色体4的第二组箱)。
存储器150可以是有形的非暂时性存储器,并且可以包含任何类型的合适的存储器模块,包含随机存取存储器(RAM)、只读存储器(ROM)、闪存、其它类型的持久性存储器等。存储器150可以存储例如能够在处理器142上执行的用于操作系统(OS)152的指令,所述操作系统可以是任何类型的合适的操作系统,如现代智能手机操作系统。存储器150还可以存储例如可在处理器142上执行的用于空间组织模块160的指令。将在下文参照图1B对染色质相互作用服务器102进行更详细的描述。在一些实施例中,空间组织模块160可以是客户端装置106-116、染色质相互作用服务器102或染色质相互作用服务器102与客户端装置106-116的组合中的一个或多个的一部分。
在任何情况下,空间组织模块160可以从数据库154和/或客户端装置106-116获得一组读段对和多组箱。空间组织模块160然后可以使用每组箱作为轴来生成n × m正方形基因组矩阵,以识别n × m个箱对。此外,对于每个箱对,空间组织模块160可以识别对应于所述箱对的读段对的子集。然后,空间组织模块160可以通过基于所有读段对随基因组距离而变化的密度函数将箱对中读段对的实际密度与预期密度进行比较来识别每个箱对的经归一化的相互作用频率。这种函数可以针对特定箱序列中的GC序列百分比、Hi-C测序数据集中特定箱序列的序列覆盖率或用于Hi-C归一化的其它适当因素进行校正。可以使用各种统计方法来执行比较,以生成例如p值,可以将p值与置信阈值进行比较,以确定特定的箱对是否具有富集的触点。空间组织模块160可以对提供箱对的指示和对相应的经归一化的相互作用频率的指示,用于在客户端装置106-116上显示。这些指示可以以数字形式或图形形式(如空间相互作用图的形式)显示,如下面参考图7更详细描述的。
染色质相互作用服务器102可以通过网络130与客户端装置106-116进行通信。数字网络130可以是专用网络、安全公共互联网、虚拟专用网络和/或一些其它类型的网络,如专用接入线、普通常规电话线、卫星链路、这些的组合等。在数字网络130包括因特网的情况下,数据通信可以通过因特网通信协议在数字网络130上进行。
现在转到图1B,染色质相互作用服务器102可以包含控制器224。控制器224可以包含程序存储器226、微控制器或微处理器(MP)228、随机存取存储器(RAM)230和/或输入/输出(I/O)电路234,所有这些都可以通过地址/数据总线232进行互连。在一些实施例中,控制器224还可以包含数据库239,或以其它方式通信连接到所述数据库或其它数据存储机制(例如,一个或多个硬盘驱动器、光存储驱动器、固态存储装置等)。数据库239可以包含如受试者信息、读段对数据、箱数据、空间相互作用映射模板、网页模板和/或网页等数据,以及通过网络130与用户交互所需的其它数据。数据库239可以包含与上面参考图1A描述的数据库154相似的数据。
应当理解的是,尽管图1B仅描绘了一个微处理器228,但是控制器224可以包含多个微处理器228。类似地,控制器224的存储器可以包含多个RAM 230和/或多个程序存储器226。尽管图1B将I/O电路234描述为单个块,但是I/O电路234可以包含许多不同类型的I/O电路。控制器224可以将一个或多个RAM 230和/或程序存储器226实施为例如半导体存储器、磁性可读存储器和/或光学可读存储器。
如图1B所示,程序存储器226和/或RAM 230可以存储各种应用,以供微处理器228执行。例如,用户界面应用236可以向染色质相互作用服务器102提供用户界面,所述用户界面可以例如允许系统管理员对服务器操作的各个方面进行配置、故障排除或测试。服务器应用238可以操作用于接收一组读段对和多组箱,生成箱对的正方形基因组矩阵,识别每个箱对的经归一化相互作用频率,并向医疗保健专业人员或研究人员的客户端装置106-116提供对箱对的指示和对归一化相互作用频率的指示。服务器应用238可以是单个模块238,如空间组织模块160或多个模块238A、238B。
尽管在图1B中将服务器应用238描绘为包含两个模块238A和238B,但是服务器应用238可以包含完成与染色质相互作用服务器102的实施有关的任务的任何数量的模块。应当理解的是,尽管在图1B中仅描绘了一个染色质相互作用服务器102,但是可以提供多个染色质相互作用服务器102以用于分配服务器负载、服务于不同的网页等。这些多个染色质相互作用服务器102可以包含网页服务器、特定于实体的服务器(例如Apple®服务器等)、位于零售或专用网络中的服务器等。
现在参照图1C,膝上型计算机114(或客户端装置106-116中的任何一个)可以包含显示器240、通信单元258、用户输入装置(未示出)以及像染色质相互作用服务器102一样包含控制器242。类似于控制器224,控制器242可以包含程序存储器246、微控制器或微处理器(MP)248、随机存取存储器(RAM)250和/或输入/输出(I/O)电路254,所有这些都可以通过地址/数据总线252进行互连。程序存储器246可以包含操作系统260、数据存储装置262、多个软件应用264和/或多个软件例程268。例如,操作系统260可以包含Microsoft Windows®、OS X®、Linux®、Unix®等。数据存储装置262可以包含如受试者信息、多个应用264的应用数据、多个例程268的例程数据等数据和/或通过数字网络130与染色质相互作用服务器102交互所必需的其它数据。在一些实施例中,控制器242还可以包含驻留在膝上型计算机114内的其它数据存储机制(例如,一个或多个硬盘驱动器、光存储驱动器、固态存储装置等),或以其它方式通信连接到所述其它数据存储机制。
通信单元258可以通过如无线电话网络(例如,GSM、CDMA、LTE等)、Wi-Fi网络(802.11标准)、WiMAX网络、蓝牙网络等任何合适的无线通信协议网络与染色质相互作用服务器102通信。用户输入装置(未示出)可以包含显示在膝上型计算机114的显示器240上的“软”键盘、通过有线或无线连接进行通信的外部硬件键盘(例如,蓝牙键盘)、外部鼠标、用于接收语音输入的麦克风或任何其它合适的用户输入装置。如参考控制器224所讨论的,应当理解的是,尽管图1C仅描绘了一个微处理器248,但是控制器242可以包含多个微处理器248。类似地,控制器242的存储器可以包含多个RAM 250和/或多个程序存储器246。尽管图1C将I/O电路254描述为单个块,但是I/O电路254可以包含许多不同类型的I/O电路。控制器242可以将一个或多个RAM 250和/或程序存储器246实施为例如半导体存储器、磁性可读存储器和/或光学可读存储器。
除其它软件应用之外,一个或多个处理器248可以适于并被配置成执行驻留在程序存储器246中的多个软件应用264中的任何一个或多个和/或多个软件例程268中的任何一个或多个。多个应用264中的一个应用可以是客户端应用266,所述客户端应用可以被实施为一系列机器可读指令,用于执行与在膝上型计算机114处接收信息、在膝上型计算机上显示信息和/或从膝上型计算机发送信息相关联的各种任务。
多个应用264中的一个应用可以是本地应用和/或网络浏览器270(如Apple'sSafari®、Google Chrome™、Microsoft Internet Explorer®和Mozilla Firefox®),所述本地应用和/或网络浏览器可以被实施为一系列机器可读指令,用于接收、解释和/或显示来自染色质相互作用服务器102的网页信息,同时还从如医疗保健专业人员或研究人员等的用户处接收输入。多个应用中的另一个应用可以包含嵌入式网络浏览器276,所述嵌入式网络浏览器可以被实施为一系列机器可读指令,用于接收、解释和/或显示来自染色质相互作用服务器102的网页信息。
多个例程中的一个可以包含空间组织显示例程272,其获得对箱对的指示和对经归一化相互作用频率的指示,并在显示器240上呈现空间相互作用图。多个例程中的另一个例程可以包含数据输入例程274,所述例程获得一组读段对、对一组箱或两组箱的选择,以包含在正方形基因组矩阵中作为轴,并将所述一组读段对、对所述一组箱或两组箱的选择发送到染色质相互作用服务器102。
优选地,用户可以从客户端装置(如客户端装置106-116中的一个装置)处启动客户端应用266以与染色质相互作用服务器102进行通信,从而实施染色质相互作用系统100。另外,用户还可以启动或实例化任何其它合适的用户界面应用(例如,本机应用或网页浏览器270,或多个软件应用264中的任何其它应用)以访问染色质相互作用服务器102,从而实现染色质相互作用系统100。
如上所述,图1A所示的染色质相互作用估服务器102可以包含存储器150,所述存储器可以存储能够在处理器142上执行的用于空间组织模块160的指令。
图2展示了一组示例箱200,每个箱表示说明性地标记为染色体A的染色体的连续片段。在此实例中,每个箱包含染色体A内的几个基因座。第一箱为从基因座1到基因座100,第二箱为从基因座100到基因座186,第三箱为从基因座192到基因座304,第四箱为从基因座308到基因座396,第五箱为从基因座396到基因座472,第六箱为从基因座478到基因座672,第七箱为从基因座672到基因座716,并且第八箱为从基因座716到基因座904。每个箱可以表示染色体A内不同的切割位点增量或功能元件,例如基因、TAD、染色质状态片段、环状结构域、染色质结构域等。在示例组中,箱是不重叠的,并且每个箱的大小(或每个箱的染色体片段的长度)各不相同。如上所述,箱可以由医疗保健专业人员或研究人员选择,可以从以前的研究中确定,可以是数据库154中预先存储的箱,或者可以以任何合适的方式选择。虽然所述一组示例箱200在染色体A内,但是箱可以跨整个基因组或其任何合适的部分生成,并且可以是任何合适的大小。
如上所述,染色质相互作用服务器102,更具体地说,空间组织模块160可以获得与箱组200类似的两组箱,并且可以生成正方形基因组矩阵,其中每组箱是矩阵的轴。在一些实施例中,两组箱是相同的,并且对应于相同的染色体或其它基因组区域。在其它实施例中,两组箱对应于相同的染色体或基因组区域,但是箱是不同的,即每个轴的染色体或基因组区域被不同地分割。在又其它实施例中,两组箱对应于不同的染色体或其它基因组区域。在任何情况下,医疗保健专业人员或研究人员可以通过客户端装置106-116选择要用作矩阵中的轴的箱组,或者可以以任何合适的方式选择箱组。
虽然上文已经参照染色体(例如,对应于染色体A的一组箱)描述了箱组,但这仅仅是为了便于说明的一个实例。箱组可以对应于人类或其它生物体基因组中任何合适的DNA序列片段组,如TAD的全基因组集合、基因的全基因组集合、染色质状态片段的全基因组集合、特定生物医学环境中关注的基因座的集合等。除了全基因组集合之外,箱组可以是等位基因特异性的,并且可以对应于特定的单倍型和/或双倍型。此外,根据倍性水平和/或拷贝数,可以产生多个箱组。更一般地,一个箱组可以包含任何箱的集合,其中所述箱中的每一个对应于相同类型的功能元件(例如,一组TAD、基因、染色质状态片段、基因座、环状结构域、染色质结构域等)。例如,可以选择箱组用于长程相互作用的全基因组搜索、特定基因座或基因座组的相互作用配偶体的集中搜索、调节回路的全基因组映射、长程相互作用中细胞间类型可变性的综合评估、基于Hi-C的诊断和预后生物标记等。然而,箱组不一定必须对应于相同类型的功能元件,并且可以包含任何合适的箱组。
图3展示了可以由染色质相互作用服务器102,更具体地说,空间组织模块160生成的示例正方形基因组矩阵的箱对300。在此实例中,来自染色体A的一组箱可以对应于矩阵的一个轴,并且来自染色体B的一组箱可以对应于另一个轴。与来自一个轴的箱和来自另一个轴的箱对应的矩阵的矩形区域可以被称为箱对。例如,箱对302对应于ChrA: 478-672*ChrB: 320-488。如示例正方形基因组矩阵所示,箱对具有不同的形状和大小。一些箱对是矩形的,而其它的更像正方形(例如,箱对302)。此外,在矩阵中,箱对的矩形区域是不同的。
除了生成矩阵之外,染色质相互作用服务器102还识别每个箱对内的读段对。一组读段对可以从数据库154获得,可以由研究人员或医疗保健专业人员通过客户端装置106-116提供,或者可以以任何合适的方式获得。在任何情况下,当两个读段都在由箱对占据的矩形区域内时,可以将读段对识别为处于箱对内。例如,含有读段对304的箱对所占据的矩形区域跨度为从ChrA: 478-672*ChrB: 1-320。这意味着任何在478与672之间具有染色体A基因座和在1与320之间具有染色体B基因座的读段对都在箱对内。读段对304可以包含基因座ChrA: 570, ChrB: 160,其位于ChrA: 478-672*ChrB: 1-320的矩形区域内。在一些实施例中,可以使用二叉搜索树、另一种类型的搜索树(如四叉树、k-d树或B-树)或用于有效搜索的任何其它合适的数据结构(如哈希表)将读段对与箱对进行匹配。
染色质相互作用服务器102然后可以识别与每个箱对对应的读段对的子集。对于每个箱对,读段对的对应子集可以用于确定箱对的读段对的实际密度或相互作用频率。在一些实施例中,箱对的读段对的实际密度可以是箱对内的读段对的数量或者读段对的数量除以箱对占据的矩形区域。在任何情况下,每个箱对的相互作用频率可以根据密度函数进行归一化。
在一些实施例中,染色质相互作用服务器102,更具体地说,空间组织模块160可以向研究人员或医疗保健专业人员的客户端装置106提供对箱对的指示和对经归一化相互作用频率的指示。客户端装置106可以显示箱对和经归一化相互作用频率的图形表示。图4展示了可以在客户端装置106上呈现的示例空间相互作用图400或箱对的热图和相应的经归一化的相互作用频率。图4所示的箱组表示人类基因组(染色体1-22,X)。在示例空间相互作用图400中,箱对的经归一化相互作用频率用颜色等级表示,以产生染色质组织的二维映射。更具体地说,具有较大经归一化相互作用频率的箱对以较暗的颜色突出显示。空间相互作用图400可以与上面参考图3以图形形式描述的正方形基因组矩阵类似。如图4所示,在空间相互作用图400上沿着从左上方到右下方的对角线的箱对被以空间相互作用图400中的其它箱对更暗的颜色呈现。因此,这些箱对可以具有富集的触点。此外,沿着表示染色体内触点的轴的正方形中的触点比正方形基因组空间的离轴染色体间区域中的触点更暗。总体来说,染色体内的“顺式”区域比染色体间的“反式”区域具有更高的接触频率。在相应的实施例中,可以出于许多有用的目的来评估具有富集和贫化触点的区域的集合和接触程度。
空间相互作用图400和/或此类触点的其它表示可以用于生成3D和4D染色质结构,如3D染色质结构410。3D染色质结构410描绘了染色体位于细胞核中染色质结合区域中的4D核小体。常染色质的特征是DNase 1超敏反应,以及定义活性基因组调节元件的组蛋白标记的特定组合。例如,启动子通常带有标记H3K4me3和H3K27ac,并且增强子通常带有标记H3K4me1和H3K27ac。增强子可以增加或减少其靶基因中的转录,所述靶基因可以是序列近侧的,和/或在空间上局部化的(例如,通过上述方法)和/或单独或以组合形式功能性地连接(例如,通过分子QTL连接)到增强子。异染色质定位在染色体区域的内部和核的外围,靠近核层蛋白和核仁,异染色质的特征在于其自身的抑制性染色质标记和DNA结合蛋白,以及空间紧缩和连接子组蛋白。最新研究表明,在大脑中,DNA序列CAC是甲基化的常见位点,这与CpG最常被甲基化的其它组织相反。另外,在大脑中,一种带有表观基因信息的独特元件的反应性物种—5-羟甲基胞嘧啶(5hmC)相对较常见。相反,在外围,甲基胞嘧啶(hmC)很常见。
如上所述,为了确定经归一化的相互作用频率,空间组织模块160可以将密度函数应用于箱对,以计算每个箱对的预期密度。图5展示了示例曲线图500,其描绘了三个示例密度函数510、520、530,每个密度函数表示跨这一组中所有读段对的读段对真实密度或理想密度随基因组距离的变化。如示例曲线图500中所示,密度函数510-530中的每一个随基因组距离以总体向下倾斜的方式而变化,因为大量的读段对包含彼此非常接近的读段。密度函数510单调地减小,而密度函数520和530首先随距离而增加,然后减小,并且在每个距离位置具有可变的斜率和水平。密度函数510是基于公布的幂律样条模型的合成函数,所述幂律样条模型是有时用于归一化Hi-C数据集的类型的合成距离密度曲线,而其它两个密度函数520、530是经验密度函数。密度函数520基于来自SK-N-SH细胞(神经元细胞)的数据集,并且密度函数530基于来自成纤维细胞(皮肤细胞)的数据集。然而,这些仅仅是几组读段对的密度函数的几个实例。密度随基因组距离的变化可以表现出其它组读段对的其它模式(例如,这一函数可以随基因组距离的增加以更快或更慢的速率衰减)。可以根据经验生成序列触点的特定数据库的这种函数,并对其进行适当调整。
在任何情况下,染色质相互作用服务器,更具体地说,空间组织模块160可以应用示例曲线图500中所示的密度函数510-530之一来计算每个箱对的预期密度。在一些实施例中,空间组织模块160可以选择适用于所选箱对的经验密度函数。例如,当箱组包含表示在皮肤细胞中表达的DNA序列片段的箱时,空间组织模块160可以基于来自成纤维细胞的数据集选择密度函数530。当箱组包含表示在神经元中表达的DNA序列片段的箱时,空间组织模块160可以基于来自SK-N-SH细胞的数据集选择密度函数520。在其它实施例中,空间组织模块160可以选择合成密度函数510。
对于特定的箱对,空间组织模块160可以对跨由箱对占据的矩形区域的选定密度函数(例如,密度函数520)进行积分,以确定箱对的预期密度。然后,对于每个箱对,空间组织模块160可以使用各种统计方法将箱对的预期密度与实际密度进行比较,以确定预期密度是否与实际密度相差统计上显著的量。例如,零假设可以是箱对的实际密度不大于预期密度。空间组织模块160可以根据泊松分布或使用单尾测试的任何其它合适的分布将预期密度与实际密度进行比较,以生成p值。当p值小于阈值置信水平(例如,p值.05对应于95%的置信度,p值.01对应于99%的置信度,等等)时,可以拒绝零假设,并且空间组织模块160可以确定箱对包含富集的触点。在一些实施例中,空间组织模块160可以将错误发现率应用于p值,如Benjamini错误发现率,或者用于多重比较控制的其它统计方法。
在另一个实例中,零假设可以是箱对的实际密度不小于预期密度。空间组织模块160可以根据泊松分布或使用单尾测试的任何其它合适的分布将预期密度与实际密度进行比较,以生成p值。当p值小于阈值置信水平(例如,p值.05对应于95%的置信度,p值.01对应于99%的置信度,等等)时,可以拒绝零假设,并且空间组织模块160可以确定箱对包含贫化的触点。在一些实施例中,空间组织模块160可以将错误发现率应用于p值,如Benjamini错误发现率,或者用于多重比较控制的其它统计方法。
在又另一个实例中,零假设可以是箱对的实际密度与预期密度相同。空间组织模块160可以根据泊松分布或使用双尾测试的任何其它合适的分布将预期密度与实际密度进行比较,以生成p值。当p值小于阈值置信水平(例如,p值.05对应于95%的置信度,p值.01对应于99%的置信度,等等)时,可以拒绝零假设,并且空间组织模块160可以确定箱对包含差异性或异常触点(即,富集或贫化触点)。在一些实施例中,空间组织模块160可以将错误发现率应用于p值,如Benjamini错误发现率,或者用于多重比较控制的其它统计方法。
虽然本文参考泊松分布描述了统计分析,但是这仅仅是一种可以用于确定箱对的实际密度和预期密度之间是否存在统计上显著的差异的类型的统计测试。其它统计测试可以包含T检验、卡方测试、G测试、回归测试等。此外,除了统计测试之外,还可以使用机器学习方法,包含但不限于回归算法(例如,普通最小二乘回归、线性回归、逻辑回归、逐步回归、多元自适应回归样条、局部估计的散点图平滑等)、基于实例的算法(例如,k最近近邻、学习矢量量化、自组织映射、局部加权学习等)、正则化算法(例如,岭回归、最小绝对收缩和选择算子、弹性网、最小角度回归等)、决策树算法(例如,分类和回归树、迭代二分器3、C4.5、C5、卡方自动交互检测、决策树桩、M5、条件决策树等)、聚类算法(例如,k均值、k中位数、期望最大化、分层聚类、谱聚类、均值偏移、带噪声的应用的基于密度的空间聚类、鉴定聚类结构的排序点等)、关联规则学习算法(如先验算法、Eclat算法等)、贝叶斯算法(如朴素贝叶斯、高斯朴素贝叶斯、多项式朴素贝叶斯、平均单相关估计、贝叶斯信念网络、贝叶斯网络等)、人工神经网络(例如,感知器、Hopfield网络、径向基函数网络等)、深度学习算法(例如多层感知器、深度玻尔兹曼机、深层置信网络、卷积神经网络、堆叠式自动编码器、生成对抗网络等)、降维算法(例如,主成分分析、主成分回归、偏最小二乘回归、萨蒙映射(Sammonmapping)、多维缩放、投影追踪、线性判别分析、混合判别分析、二次判别分析、灵活判别分析、因子分析,独立成分实体分析、非负矩阵分解、t分布随机邻域嵌入等)、集成算法(例如,增强、自举聚合、AdaBoost、堆叠泛化、梯度增强机、梯度增强回归树、随机决策森林等)、强化学习(例如,时间差异学习、Q学习、学习自动机、状态-动作-奖励-状态-动作等)、支持向量机、混合模型、进化算法、概率图形模型等。
此外,虽然本文描述的方法利用错误发现率进行多重比较控制,但是可以将任何合适的多重比较控制方法(如错误覆盖率、贝叶斯方法等)应用于p值。
然后,具有富集或贫化触点的箱对可以用于基于相应基因组内基因座的空间相互作用预测受试者的分子表型。富集或贫化的触点也可以用于对染色体的3D和4D结构进行建模,并识别组织样品中改变的TAD边界和空间相互作用,以确定遗传病或肿瘤学。此外,富集或贫化的触点可以用于确定一对基因座在特定组织或细胞系中是否和/或在多大程度上相互作用。更进一步,富集或贫化的触点可以用于基于异常触点和/或正方形基因组空间中的总接触密度来识别倍性和易位。
例如,医疗保健专业人员可以获得用于测量受试者染色质相互作用数据的生物样品(例如,来自面颊拭子、皮肤样品、活检切片、血液样品、淋巴液、骨髓、细胞系、组织、模式生物等),并向染色质相互作用服务器提供通过分析生物样品获得的实验室结果。
在图6中示出了用于从受试者的生物样品中生成染色质相互作用数据的示例过程600。所述过程可以由分析实验室或其它合适的机构执行。在框602处,医疗保健专业人员获得受试者的生物样品,并将其发送至化验实验室进行分析。生物样品可以包含受试者的皮肤、血液、淋巴液、骨髓、面颊细胞、细胞系、组织等。然后在框604从生物样品中提取细胞,并在框606将其重新编程为干细胞(如诱导性多能干细胞(iPSC))。然后在框608处,将iPSC分化为多种组织(如神经元、心肌细胞等),并在框610进行分析以获得染色质相互作用数据。染色质相互作用数据可以包含5C数据、Hi-C数据、ChIA-PET数据、Combi-C数据、基因组结构映射数据、Micro-C数据等。
此外,DNA序列的单个基因座可以被识别为与特定的分子表型相关联或以因果关系相关联。一组箱还可以被识别为含有单个基因座。然后,当相对于特定的分子表型或一组分子表型(例如,指示对丙戊酸的反应的分子表型)对受试者的染色质相互作用数据进行分析时,可以对与特定的一组分子表型相关联或以因果关系相关联的基因座的iPSC进行分析。可以将对应于从测定中识别的基因座的箱组与来自其它生物细胞系统中的这种箱组的触点数据进行比较,例如,这样的系统可以构成人体内的两种不同组织、来自两个不同个体的组织样品、与对照样品相比经受医学处理的细胞系、或者相同组织、细胞系或生物体的多细胞周期条件或细胞分化状态。然后,染色质相互作用服务器102可以基于这一比较来预测受试者的分子表型。例如,如果受试者的iPSC在具有与对丙戊酸的特定反应相关联或以因果方式相关联的基因座的箱组中包含读段对,染色质相互作用服务器102可以预测受试者将对丙戊酸具有特定反应。
更通常地,选择哪种染色质相互作用数据进行测定可以基于被识别为与受试者的受检分子表型组相关或以因果关系相关的染色质相互作用数据。
更具体地,通过将转录因子或“重编程因子”或其它试剂引入给定的细胞类型,将细胞重编程为iPSC。例如,可以使用山中(Yamanaka)因子(包含转录因子Oct4(POU5F1)、Sox2(SOX2)、cMyc(MYC)和Klf4(KLF4))将细胞重编程为iPSC。然后可以将iPSC分化为多种组织,如神经元、脂肪细胞、心肌细胞、胰岛β细胞等。分化iPSC之后,可以使用各种检测技术(如DNA甲基化分析、DNase足迹测定、过滤器结合测定等)来检测分化的iPSC,以鉴定表观基因组信息。实际上,所述系统执行虚拟活检,并且分化的iPSC至少在一定程度上具有其对应组织的表型和表观基因组特性。
在上述实施例中,从受试者的生物样品中提取细胞,将其重新编程为干细胞,分化为各种组织,并进行分析以获得染色质相互作用数据(分化的、重编程的细胞测定法)。可替代地,在某些实施例中,在不提取细胞的情况下测定患者的生物样品(无细胞测定法)。在其它实施例中,从患者的生物样品中提取细胞,并在不对细胞进行重新编程或分化的情况下进行测定(原代细胞测定法)。在其它实施例中,将细胞重编程为iPSC,并在不对细胞进行分化的情况下进行分析(重编程的干细胞分析法)。例如,可以在不进行分化的情况下对iPSC进行分析以获得干细胞组学。尽管这些只是用于从受试者的生物样品中生成染色质相互作用数据的一些示例过程,但是可以在过程中的任何合适阶段执行测定,并且可以按照任何合适的方式生成染色质相互作用数据。
在一些实施例中,空间组织模块160然后可以向研究人员或医疗保健专业人员的客户端装置106提供对箱对的指示和对经归一化相互作用频率的指示。图7A展示了可以在客户端装置106上呈现的富集的触点和对应的基因座以及与分子表型相关联的SNP的示例显示700。示例显示700包含TAD(每个TAD由DNA序列的一组单个基因座组成),其含有被认为对在成人中诱导神经发生的两种药物(特别是丙戊酸和氯胺酮)的反应表型显著的调节SNP的集合。作为本发明实施例的示例性实例,研究这些药物的科学家可能希望辨别它们起作用的机制。这些科学家可能希望识别这些调节性SNP的靶基因,并因此在关注的系统中找到含有它们的TAD的空间触点配偶体。这些科学家也可能希望找出在关注的系统中这些TAD中的哪一个相互接触。在其它实施例中,关注基因座的集合可以被识别为与药物、疾病或其它分子表型的变体的集合或者特定受试者的关注基因座的集合等对应。
示例显示700包含染色体(例如,17号染色体)、基因座(例如,33720000-35360000)、TAD(例如,1977)、候选触点(例如,1)和与具有富集触点的箱对相关的靶基因(例如,CCL2)。显示700中的每一个TAD在整个基因组中显示出一些远侧触点,其数量范围为三个(例如TAD 1977)到数百个(例如TAD 2112)。含有药动学基因座的TAD,例如代谢这些药物的CYP基因,似乎具有最多的触点。显示700还包含与富集的触点相关联的SNP(例如,rs2857654)和其中其反应与SNP相关联的药物(例如,丙戊酸钠)。以这种方式,医疗保健专业人员或研究人员可以查看与富集的触点及其对应的分子表型相关的SNP。然而,这仅仅是箱对的数字指示的一个示例显示,仅为了便于说明。在其它实施例中,客户端装置106可以显示每个箱对的数字指示(例如,Chr11:8560000-10720000*Chr11:4580000-4780000)、箱对的相互作用频率的数字指示(如p值)、箱对是否具有富集的触点的指示等。
在又其它实施例中,客户端装置106可以显示从空间触点数据生成的染色质相互作用网络。图7B展示了根据参考图7A描述的空间触点数据生成的染色质相互作用网络750的示例显示。在一些实施例中,染色质相互作用网络750可以呈现在客户端装置106上。在任何情况下,如显示器700所示,具有至少一个候选触点的TAD包含在染色质相互作用网络750中。例如,TAD 1977是一个候选触点,因此包含在染色质相互作用网络750中。此外,TAD1977与其候选触点(TAD 2112)相关联。此外,TAD 2245与TAD 2258和2112连接,TAD 1567、1862和693具有零个候选触点,因此不包含在染色质相互作用网络750中。因此,在图7A的显示中显示的13个所识别的TAD中,有10个包含与形成功能相关的TAD的密集相互作用的空间网络的组中其它TAD的连接。无论如何,TAD 1636与TAD 2258和2112连接,并且TAD 1832与TAD 2258、2112和1418连接。此外,TAD 2112与染色质相互作用网络750中的TAD每隔一个连接,并且TAD 2258与染色质相互作用网络750中除TAD 1977之外的TAD每隔一个连接。此外,TAD 1063与其四个候选触点(TAD 2112、2258、1418和1343)连接。TAD 1343还具有四个候选触点,并且在染色质相互作用网络750中与这些触点(TAD 2245、1063、2258、1343和1418)中的每一个连接。TAD 1418与染色质相互作用网络750中的TAD 1832、2112、2258、1063和1343连接,TAD 1472与TAD 2258和2112连接。染色质相互作用网络750中包含的TAD没有一个被替代性系统(如下面更详细描述的HOMER)识别。TAD 1064、2258、2112和1418是药代动力学TAD,而TAD 1472、2245、1636、1977、1343和1832是药效动力学TAD。
以这种方式,在客户端装置106上查看染色质相互作用网络750的医疗保健专业人员或研究人员可以看到染色质相互作用网络750内的关系的强度。例如,医疗保健专业人员或研究人员可能会看到TAD 2112与染色质相互作用网络750中的所有其它TAD都有关系,而TAD 1977是染色质相互作用网络750的一部分,但仅与一个TAD有关系。考虑到每个TAD中存在的不同的基因和变体组,以及它们在各种生物医学触点和研究触点中不同的生物学功能和意义,染色质触点的准确检测和显示在各个实施例中可以服务于许多有用的目的。
图9展示了染色质相互作用系统和HOMER(一种广泛使用的Hi-C编译程序)之间的比较结果。染色质相互作用系统和HOMER分析了一个人类成纤维细胞的数据集,其中染色质相互作用系统在两个轴上产生了TAD箱的矩阵。对于HOMER,使用具有1Mb分辨率的固定箱。如图9所示,HOMER检测到18,220个触点,而染色质相互作用系统检测到17,720个触点,并且两个系统检测到相同的5,648个触点。染色质相互作用系统检测到10,193个HOMER没有检测到的触点。因此,由于染色质相互作用系统辨别能力的提高,染色质相互作用系统识别了以前的系统没有检测到的触点。因此,染色质相互作用系统能够比以前的系统识别出更多的长程触点(例如,在大于10 Mb的范围内的顺式相互作用,其富集了两倍或更多,并通过了比较控制、正方形全基因组)。
HOMER检测到了12,572个染色质相互作用系统未检测到的触点。然而,在这些触点中,82%没有通过染色质相互作用系统中的倍数变化临界值,90%没有通过FDR临界值,72%没有通过两个临界值。在这些对中,有92%的近邻TAD对在染色质相互作用系统中确实检测到触点。非近邻不和谐HOMER触点包含1,054个触点。
图8描绘了表示用于分析染色质的空间组织的示例性方法800的流程图。方法800可以在染色质相互作用服务器102上执行。在一些实施例中,方法800可以在存储在非暂时性计算机可读存储器上并可在染色质相互作用服务器102上的一个或多个处理器上执行的一组指令中实现。例如,方法800可以由图1A的空间组织模块160执行。
所述方法可以包含对准、质量控制、编译、整合、统计测试和结果输出的步骤。更具体地说,在框802,空间组织模块160可以获得一组成对的基因组元件触点或读段对。所述一组读段对可以从如图1A所示的数据库154、从研究人员或专业人员的客户端装置106或以任何其它合适的方式获得。在一些实施例中,研究人员或专业人员可以为特定的分析或研究选择特定的一组读段对,并通过客户端装置106将所选择的组提供给染色质相互作用服务器102。在另一个实例中,测序仪107可以产生提供给染色质相互作用服务器102的序列数据。空间组织模块160然后可以从序列数据中识别一组读段对。在又另一个实例中,序列数据库109可以向染色质相互作用服务器102提供从例如已发表的文献、临床试验、联合会、学术界等产生的预先存在的序列数据。然后,空间组织模块160可以从序列数据中识别一组读段对。在一些实施例中,空间组织模块160将读段对分成其单端组件,并将单端组件对准。然后选择多个对,其中所述对中的两个读段在任一个读段中都存在小于阈值概率(例如,0.05)的未对准。
空间组织模块160还可以将基因组元件触点或读段分割成箱(框804)。每个箱可以表示基因组或基因组部分中不同的切割位点增量或功能元件,如基因、TAD、染色质状态片段、环状结构域、染色质结构域等。箱是非重叠的,并且箱的大小是不一致的,即每个箱的大小(或每个箱的基因组片段的长度)是变化的。在一些实施例中,箱可以由医疗保健专业人员或研究人员通过客户端装置106来选择,可以从先前研究如序列数据库109中确定,可以是数据库154中预先存储的箱,或者可以以任何合适的方式进行选择。例如,研究人员或医疗保健专业人员可以选择其中每个箱表示不同的TAD的一组箱。在另一个实例中,研究人员或医疗保健专业人员可以选择其中每个箱表示不同的基因的一组箱。
然后在框806,选择第一组 n 个箱和第二组m个箱,其中每组对应于n × m正方形基因组矩阵的轴。轴可以由医疗保健专业人员或研究人员通过客户端装置106-116选择,或者可以以任何合适的方式进行选择。在一些实施例中,两组箱是相同的,并且对应于同一染色体。在其它实施例中,两组箱对应于同一染色体,但是箱是不同的,即每个轴的染色体被不同地分割。在又其它实施例中,两组箱对应于不同的染色体。在任何情况下,空间组织模块160可以生成包含n × m个箱对的正方形基因组矩阵(框810),其中箱对是正方形基因组矩阵中的一个条目或矩形(例如Chr1:1000-2000*Chr8:10000-20000)。
然后,空间组织模块160将读段对编译成箱对。更具体地说,空间组织模块160可以使用例如二叉搜索树来识别对应于每个箱对的读段对的子集(框810)。当两个读段都在由箱对占据的矩形区域内时,可以将读段对识别为处于箱对内。例如,如图3所示,含有读段对304的箱对所占据的矩形区域跨度为从ChrA: 478-672*ChrB: 1-320。这意味着任何在478与672之间具有染色体A基因座和在1与320之间具有染色体B基因座的读段对都在箱对内。读段对304可以包含基因座ChrA: 570, ChrB: 160,其位于ChrA: 478-672*ChrB: 1-320的矩形区域内。在一些实施例中,可以使用另一种类型的搜索树(如四叉树、k-d树或B-树)或用于有效搜索的任何其它合适的数据结构(如哈希表)将读段对与箱对进行匹配。
在框812,空间组织模块160基于跨整组读段对的读段对密度随基因组距离的变化来生成密度函数。在一些实施例中,密度函数可以是单调地递减的函数。对于特定的箱对,对密度函数在箱对(例如,ChrA:478-672*ChrB:1-320)的矩形区域上进行积分,以确定这一箱对的预期密度(框814)。可以确定箱对中每个箱对的预期密度。
然后,空间组织模块160可以将特定箱对的预期密度与特定箱对的实际密度进行比较。例如,实际密度可以是包含在特定箱对中的读段对的数量。可以使用统计分析对实际密度和预期密度进行比较,以确定预期密度之间的差异是否与实际密度相差统计上显著的量(经归一化的相互作用频率)(框816)。例如,零假设可以是箱对的实际密度不大于预期密度。空间组织模块160可以根据泊松分布或任何其它合适的分布将预期密度与实际密度进行比较,以生成p值。当p值小于阈值置信水平(例如,p值.05对应于95%的置信度,p值.01对应于99%的置信度,等等)时,可以拒绝零假设,并且空间组织模块160可以确定箱对包含富集的触点。在一些实施例中,空间组织模块160可以将错误发现率应用于p值,如Benjamini错误发现率,或者用于多重比较控制的其它统计方法。在另一个实例中,零假设可以是箱对的实际密度不小于预期密度。当p值小于阈值置信水平时,可以拒绝零假设,并且空间组织模块160可以确定箱对包含贫化的触点。
在一些实施例中,可以将例如与不同的生物细胞系统或不同的生理条件对应的多组触点的实际读段计数一起分析。例如,这样的系统可以构成人体内的两种不同组织、来自两个不同个体的组织样品、与对照样品相比经受医学处理的细胞系、或者相同组织、细胞系或生物体的多细胞周期条件或细胞分化状态。这种分析可以通过例如单独比较来自每个数据集的富集和贫化触点来确定例如一对触点组之间的一组差异性触点。差异性触点还可以通过例如使用泊松分布或其它统计分布的多重采样分布来确定,以生成对应于偶然观察到的差异性相互作用频率的概率的p值,然后可以用错误发现率或其它方法来校正这一p值,如本文所述。
在框818,空间组织模块160可以向研究人员或医疗保健专业人员的客户端装置106提供对箱对的指示和对经归一化相互作用频率的指示。这些指示可以包含经归一化的相互作用频率的数字指示(例如p值)、箱对和经归一化相互作用频率的图形表示(例如空间组织图)、具有富集的触点的箱对的列表或任何其它合适的指示。
在整个说明书中,多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一种或多种方法的单独操作示出并被描述为单独的操作,但是单独操作中的一个或多个可以同时地执行,并且不需要按照所示顺序执行操作。在示例配置中呈现为独立组件的结构和功能可以实现为组合结构或组件。类似地,呈现为单个组件的结构和功能可以实现为单独的组件。这些以及其它变型、修改、添加和改进均落入本文主题的范围内。
另外,本文将某些实施例描述为包含逻辑或多个例程、子例程、应用或指令。这些可以构成软件(例如,在机器可读媒体上或在传输信号中具体化的代码)或硬件。在硬件中,例程等是能够执行某些操作的有形单元并且可以按照某种方式进行配置或布置。在示例实施例中,一个或多个计算机系统(例如,独立的客户端或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如,处理器或一组处理器)可以由软件(例如,应用程序或应用程序部分)配置作为操作来执行本文所述某些操作的硬件模块。
在各种实施例中,硬件模块可以机械地或电子地实现。例如,硬件模块可以包括被永久地配置成执行某些操作的专用电路或逻辑(例如,专用处理器,如场可编程门阵列(FPGA)、专用集成电路(ASIC)或定制硅)。硬件模块还可以包括通过软件被临时地配置成执行某些操作的可编程逻辑或电路(例如,如通用处理器、图形处理单元(GPU)或其它可编程处理器中所包含的)。应当理解,在成本和时间考虑因素的驱动下,可以决定以机械方式在专用且永久配置的电路中或者在临时配置的电路(例如,由软件配置)中实施硬件模块。
因此,术语“硬件模块”应被理解为涵盖有形实体,是指被物理地构造、永久地配置(例如,硬连线)或临时地配置(例如,编程)为按照一定方式操作或者执行本文所述的某些操作的实体。考虑到硬件模块被临时配置(例如,编程)的实施例,无需在任何一个时刻配置或实例化每个硬件模块。例如,在硬件模块包括使用软件来配置的通用处理器的情况下,通用处理器在不同时间可以被配置成相应的不同硬件模块。因此,软件可以配置处理器例如以在一个时刻构成特定的硬件模块并且在不同时刻构成不同的硬件模块。
硬件模块可以向其它硬件模块提供信息,或从其它硬件模块接收信息。因此,所述硬件模块可以被认为是通信地耦接的。在同时存在多个此类硬件模块的情况下,可以通过连接硬件模块的信号传输(例如,通过适当的电路和总线)来实现通信。在其中在不同时间配置或实例化多个硬件模块的实施例中,可以例如通过在多个硬件模块能够访问的存储器结构中存储和检索信息来实现此类硬件模块之间的通信。例如,一个硬件模块可以执行操作并将这种操作的输出存储在其所通信耦接的存储器装置中。然后,另一个硬件模块可以在以后的时间访问这一存储器装置以检索和处理所存储的输出。硬件模块还可以发起与输入或输出装置的通信,并且可以对资源(例如,信息的集合)进行操作。
本文所述的示例方法的各种操作可以至少部分地由被临时配置(例如,通过软件)或永久配置为执行相关操作的一个或多个处理器执行。无论是临时配置还是永久配置,此类处理器都可以构成处理器实现的模块,这些模块运行以执行一个或多个操作或功能。在一些示例实施例中,本文所指的模块可以包括处理器实现的模块。
类似地,本文所述的方法或例程可以至少部分地由处理器实现。例如,一种方法的至少一些操作可以由一个或多个处理器或处理器实现的硬件模块执行。某些操作的性能可以分布在一个或多个处理器之间,不仅驻留在单个机器内,而且可以跨多个机器部署。在一些示例实施例中,处理器或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境内或作为服务器场),而在其它实施例中,处理器可以分布在多个位置。
某些操作的性能可以分布在一个或多个处理器之间,不仅驻留在单个机器内,而且可以跨多个机器部署。在一些示例性实施例中,一个或多个处理器或处理器实现的模块可以位于单个地理位置(例如,在家庭环境、办公室环境或服务器场内)。在其它示例实施例中,一个或多个处理器或处理器实现的模块可以分布在多个地理位置。
除非另有明确说明,否则本文中使用诸如“处理”、“计算(computing)”、“计算(caculating)”、“确定”、“呈现”、“显示”等的词语进行的讨论可以是指机器(例如,计算机)的动作或进程,来操纵或转换在一个或多个存储器(例如,易失性存储器、非易失性存储器或其组合)、寄存器或接收、存储、传输或显示信息的其它机器组件中被表示为物理(例如,电、磁或光)量的数据。
如本文所用,对“一个实施例”或“一实施例”的任何引用意思是结合这一实施例所描述的特定元件、特征、结构或特性包括在至少一个实施例中。说明书中各个地方出现的短语“在一个实施例中”不一定全都指同一实施例。
例如,一些实施例可能使用术语“耦接”来描述,以表示两个或更多个元件处于直接物理触点或电接触。例如,一些实施例可能使用术语“耦接”来描述,以表示两个或更多个元件处于直接物理接触或电接触。然而,术语“耦接”也可以是指两个或更多个元件彼此并不直接接触,但是仍然彼此协作或进行交互。实施例并不局限于这些范围。
如本文所用,术语“包括(comprises/comprising)”、“包含(includes/including)”、“具有(has/having)”或其任何其它变型均旨在涵盖非排他性的包含。例如,包括要素列表的过程、方法、物品或设备不一定仅限于那些要素,而是可以包含未明确列出的或这种过程、方法、物品或设备固有的其它要素。进一步,除非有相反的明确说明,“或”指的是包含性或,而不是排他性或。例如,以下任一项均满足条件A或B:A为真(或存在)并且B为假(或不存在)、A为假(或不存在)并且B为真(或存在)以及A和B均为真(或存在)。
另外,“一个/一种(a/an)”用于描述本文的实施例的元件和组件。这仅仅是为了方便起见并给出一般性描述。此描述和所附的权利要求书应被理解为包含一个或至少一个,并且除非明显地另有所指,否则单数也包含复数。
此详细描述应被解释为仅提供实例,并且未描述每个可能的实施例,因为描述每个可能的实施例将是不切实际的,即使不是不可能的。可以使用当前技术或在本申请的提交日期之后开发的技术来实施很多替代实施例。
以下方面的列表反映了本申请明确设想的各种实施例。本领域的普通技术人员将容易理解,下面的方面既不是对本文公开的实施例的限制,也不是对从上面的公开中可以想到的所有实施例的穷举,而是意图在本质上是示例性的。
1. 一种用于分析染色质的空间和时间组织的计算机实施的方法,所述方法由被编程为执行所述方法的一个或多个处理器执行,所述方法包括:在一个或多个处理器处获得基因组元件的一组成对触点;由所述一个或多个处理器将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致;由所述一个或多个处理器识别第一组所述多个箱和第二组所述多个箱;由所述一个或多个处理器生成n × m个箱对的矩阵,其中n对应于所述第一组所述多个箱,并且m对应于所述第二组所述多个箱;由所述一个或多个处理器识别所述箱对中的每个箱对内的成对触点的子集;由所述一个或多个处理器确定所述箱对中的每个箱对的相互作用频率;由所述一个或多个处理器对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率;以及由所述一个或多个处理器提供用于在用户界面上显示的染色质相互作用的映射,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。
2. 根据方面1所述的方法,其中对所述相互作用频率中的每个相互作用频率进行归一化包含:由所述一个或多个处理器确定所述一组成对触点的密度随基因组距离的变化以生成密度函数;对于所述多个箱对中的每个箱对:由所述一个或多个处理器对所述箱对的区域上的密度函数进行积分以确定所述箱对的预期密度;由所述一个或多个处理器通过使用泊松统计分布执行统计分析来将所述箱对内的成对触点的所述子集与所述箱对的所述预期密度进行比较,以确定所述箱对的实际密度大于所述箱对的所述预期密度的量明显显著的似然度;由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的似然度以确定经过调整的似然度;以及当经过调整的似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有富集的触点。
3. 根据方面1或方面2中任一方面所述的方法,其进一步包括:由所述一个或多个处理器使用泊松分布执行统计分析以确定所述箱对的所述实际密度小于所述箱对的所述预期密度的量明显显著的第二似然度;由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第二似然度以确定经过调整的第二似然度;以及当所述经过调整的第二似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有贫化的触点。
4. 根据前述方面中任一方面所述的方法,其中所述统计分析包含用于确定所述箱对的所述实际密度与所述预期密度不同的量在统计上显著的第三似然度的双尾测试;由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第三似然度以确定经过调整的第三似然度;以及当经过调整的第三似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有富集的或贫化的触点。
5. 根据前述方面中任一方面所述的方法,其中所述成对触点中的至少一些成对触点是顺式触点,使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于同一染色体;并且其中所述成对触点中的至少一些成对触点反式触点,使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于不同的染色体。
6. 根据前述方面中任一方面所述的方法,其中所述密度函数由经验数据产生,并且所述密度函数的至少一部分随着基因组距离的增加而减小。
7. 根据前述方面中任一方面所述的方法,其进一步包括:由所述一个或多个处理器识别DNA序列中与一种或多种分子表型相关或以因果关系相关的单个基因座;由所述一个或多个处理器识别含有所述单个基因座的一组箱;由所述一个或多个处理器获得受试者的染色质相互作用数据;由所述一个或多个处理器将含有所述单个基因座的所述箱的所述染色质相互作用数据与另一个生物细胞系统中此类箱的触点数据进行比较;以及由所述一个或多个处理器基于所述比较预测所述受试者的分子表型。
8. 根据前述方面中任一方面所述的方法,其进一步包括:由所述一个或多个处理器基于染色质相互作用的所述映射生成染色体结构的3D或4D模型。
9. 根据前述方面中任一方面所述的方法,其进一步包括:由所述一个或多个处理器生成一组特定的基因座的空间相互作用网络。
10.根据前述方面中任一方面所述的方法,其中识别每个箱对内的成对触点的所述子集包含使用二叉搜索树识别每个箱对内的成对触点的所述子集。
11.根据前述方面中任一方面所述的方法,其中所述第一组所述多个箱和所述第二组所述多个箱是对应于同一染色体的相同的箱。
12.根据前述方面中任一方面所述的方法,其中每个基因组元件对应于基因组内的基因座;并且其中每个箱对应于包含以下至少一种的脱氧核糖核酸(DNA)序列的连续片段:拓扑关联结构域(TAD)、基因、染色质状态片段、环状结构域或染色质结构域。
13.根据前述方面中任一方面所述的方法,其中识别第一组所述多个箱和第二组所述多个箱包含接收对所述第一组箱和所述第二组箱的选择,以对长程相互作用进行全基因组搜索、对调节回路进行全基因组映射、对长程相互作用中的细胞间类型可变性进行综合评估,或者识别一组基于Hi-C的诊断和预后生物标记。
14.根据前述方面中任一方面所述的方法,其进一步包括:对于所述箱对中的一个或多个箱对,由所述一个或多个处理器将来自第一生物细胞系统或生理条件的所述箱对的实际密度与来自第二生物细胞系统或生理条件的所述箱对的实际密度进行比较以识别差异性触点。
15.一种用于分析染色质的空间和时间组织的计算装置,所述计算装置包括:通信网络、一个或多个处理器;以及非暂时性计算机可读存储器,所述非暂时性计算机可读存储器耦接到所述一个或多个处理器并且在其上存储指令,所述指令当由所述一个或多个处理器执行时使所述计算装置:获得基因组元件的一组成对触点;将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致;识别第一组所述多个箱和第二组所述多个箱;生成n ×m个箱对的矩阵,其中n对应于所述第一组所述多个箱,并且m对应于所述第二组所述多个箱;识别所述箱对中的每个箱对内的成对触点的子集;确定所述箱对中的每个箱对的相互作用频率;对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率;并且经由所述通信网络提供用于在用户界面上显示染色质相互作用的映射,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。
16.根据方面15所述的计算装置,其中为了对所述相互作用频率中的每个相互作用频率进行归一化,所述指令使得所述计算装置:确定所述一组成对触点的密度随基因组距离的变化以生成密度函数;对于所述多个箱对中的每个箱对:对所述箱对的区域上的密度函数进行积分以确定所述箱对的预期密度;通过使用泊松统计分布执行统计分析来将所述箱对内的成对触点的所述子集与所述箱对的所述预期密度进行比较,以确定所述箱对的实际密度大于所述箱对的所述预期密度的量明显显著的似然度;将用于多重比较控制的错误发现率应用于所确定的似然度以确定经过调整的似然度;并且当经过调整的似然度小于阈值似然度时,确定所述箱对具有富集的触点,其中所述密度函数由经验数据产生,并且所述密度函数的至少一部分随着基因组距离的增加而减小。
17.根据方面15或方面16中任一方面所述的计算装置,其中所述指令进一步使所述计算装置:识别DNA序列中与一种或多种分子表型相关或以因果关系相关的单个基因座;识别含有所述单个基因座的一组箱;获得受试者的染色质相互作用数据;将含有所述单个基因座的所述箱的染色质相互作用数据与另一个生物细胞系统中此类箱的触点数据进行比较;并且基于所述比较预测所述受试者的分子表型。
18.根据方面15到17中任一方面所述的计算装置,其中所述指令进一步使所述计算装置:基于染色质相互作用的所述映射生成染色体结构的3D或4D模型;或者生成一组特定的基因座的空间相互作用网络。
19.根据方面15到18中任一方面所述的计算装置,其中使用二叉搜索树来识别每个箱对内的成对触点的所述子集,所述第一组所述多个箱和所述第二组所述多个箱是对应于同一染色体的相同的箱,其中每个基因组元件对应于基因组内的基因座,并且其中每个箱对应于包含以下至少一种的脱氧核糖核酸(DNA)序列的连续片段:拓扑关联结构域(TAD)、基因、染色质状态片段、环状结构域或染色质结构域。
20. 根据方面15到19中任一方面所述的计算装置,其中为了识别第一组所述多个箱和第二组所述多个箱,所述指令使得所述计算装置接收对所述第一组箱和所述第二组箱的选择,以对长程相互作用进行全基因组搜索、对调节回路进行全基因组映射、对长程相互作用中的细胞间类型可变性进行综合评估,或者识别一组基于Hi-C的诊断和预后生物标记。
Claims (20)
1.一种用于分析染色质的空间和时间组织的计算机实施的方法,所述方法由被编程为执行所述方法的一个或多个处理器执行,所述方法包括:
在一个或多个处理器处获得基因组元件的一组成对触点;
由所述一个或多个处理器将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致;
由所述一个或多个处理器识别第一组所述多个箱和第二组所述多个箱;
由所述一个或多个处理器生成n × m个箱对的矩阵,其中n对应于所述第一组所述多个箱,并且m对应于所述第二组所述多个箱;
由所述一个或多个处理器识别所述箱对中的每个箱对内的成对触点的子集;
由所述一个或多个处理器确定所述箱对中的每个箱对的相互作用频率;
由所述一个或多个处理器对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率;以及
由所述一个或多个处理器提供染色质相互作用的映射以在用户界面上显示,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。
2.根据权利要求1所述的方法,其中对所述相互作用频率中的每个相互作用频率进行归一化包含:
由所述一个或多个处理器确定所述一组成对触点的密度随基因组距离的变化以生成密度函数;
对于所述多个箱对中的每个箱对:
由所述一个或多个处理器对所述箱对的区域上的密度函数进行积分以确定所述箱对的预期密度;
由所述一个或多个处理器通过使用泊松统计分布执行统计分析来将所述箱对内的成对触点的所述子集与所述箱对的所述预期密度进行比较,以确定所述箱对的实际密度大于所述箱对的所述预期密度的量明显显著的似然度;
由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的似然度以确定经过调整的似然度;以及
当经过调整的似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有富集的触点。
3.根据权利要求2所述的方法,其进一步包括:
由所述一个或多个处理器使用泊松分布执行统计分析以确定所述箱对的所述实际密度小于所述箱对的所述预期密度的量明显显著的第二似然度;
由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第二似然度以确定经过调整的第二似然度;以及
当所述经过调整的第二似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有贫化的触点。
4. 根据权利要求3所述的方法,其中所述统计分析包含用于确定所述箱对的所述实际密度与所述预期密度不同的量在统计上显著的第三似然度的双尾测试;
由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第三似然度以确定经过调整的第三似然度;以及
当经过调整的第三似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有富集的或贫化的触点。
5. 根据权利要求1所述的方法,
其中所述成对触点中的至少一些成对触点是顺式触点,使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于同一染色体;并且
其中所述成对触点中的至少一些成对触点是反式触点,使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于不同的染色体。
6.根据权利要求2所述的方法,其中所述密度函数由经验数据生成,并且所述密度函数的至少一部分随着基因组距离的增加而减小。
7.根据权利要求2所述的方法,其进一步包括:
由所述一个或多个处理器识别DNA序列中与一种或多种分子表型相关或以因果关系相关的单个基因座;
由所述一个或多个处理器识别含有所述单个基因座的一组箱;
由所述一个或多个处理器获得受试者的染色质相互作用数据;
由所述一个或多个处理器将含有所述单个基因座的所述箱的所述染色质相互作用数据与另一个生物细胞系统中此类箱的触点数据进行比较;以及
由所述一个或多个处理器基于所述比较预测所述受试者的分子表型。
8.根据权利要求1所述的方法,其进一步包括:
由所述一个或多个处理器基于染色质相互作用的所述映射生成染色体结构的3D或4D模型。
9.根据权利要求1所述的方法,其进一步包括:
由所述一个或多个处理器生成一组特定的基因座的空间相互作用网络。
10.根据权利要求1所述的方法,其中识别每个箱对内的成对触点的所述子集包含使用二叉搜索树识别每个箱对内的成对触点的所述子集。
11. 根据权利要求1所述的方法,其中所述第一组所述多个箱和所述第二组所述多个箱是对应于同一染色体的相同的箱。
12.根据权利要求1所述的方法,其中每个基因组元件对应于基因组内的基因座;并且
其中每个箱对应于包含以下至少一种的脱氧核糖核酸(DNA)序列的连续片段:拓扑关联结构域(TAD)、基因、染色质状态片段、环状结构域或染色质结构域。
13.根据权利要求12所述的方法,其中识别第一组所述多个箱和第二组所述多个箱包含接收对所述第一组箱和所述第二组箱的选择,以对长程相互作用进行全基因组搜索、对调节回路进行全基因组映射、对长程相互作用中的细胞间类型可变性进行综合评估,或者识别一组基于Hi-C的诊断和预后生物标记。
14.根据权利要求1所述的方法,其进一步包括:
对于所述箱对中的一个或多个箱对,由所述一个或多个处理器将来自第一生物细胞系统或生理条件的所述箱对的实际密度与来自第二生物细胞系统或生理条件的所述箱对的实际密度进行比较以识别差异性触点。
15.一种用于分析染色质的空间和时间组织的计算装置,所述计算装置包括:
通信网络;
一个或多个处理器;以及
非暂时性计算机可读存储器,所述非暂时性计算机可读存储器耦接到所述一个或多个处理器并且在其上存储指令,所述指令当由所述一个或多个处理器执行时使所述计算装置:
获得基因组元件的一组成对触点;
将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致;
识别第一组所述多个箱和第二组所述多个箱;
生成n × m个箱对的矩阵,其中n对应于所述第一组所述多个箱,并且m对应于所述第二组所述多个箱;
识别所述箱对中的每个箱对内的成对触点的子集;
确定所述箱对中的每个箱对的相互作用频率;
对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率;并且
经由所述通信网络提供染色质相互作用的映射以在用户界面上显示,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。
16.根据权利要求15所述的计算装置,其中为了对所述相互作用频率中的每个相互作用频率进行归一化,所述指令使得所述计算装置:
确定所述一组成对触点的密度随基因组距离的变化以生成密度函数;
对于所述多个箱对中的每个箱对:
对所述箱对的区域上的密度函数进行积分以确定所述箱对的预期密度;
通过使用泊松统计分布执行统计分析来将所述箱对内的成对触点的所述子集与所述箱对的所述预期密度进行比较,以确定所述箱对的实际密度大于所述箱对的所述预期密度的量明显显著的似然度;
将用于多重比较控制的错误发现率应用于所确定的似然度以确定经过调整的似然度;并且
当经过调整的似然度小于阈值似然度时,确定所述箱对具有富集的触点,
其中所述密度函数由经验数据产生,并且所述密度函数的至少一部分随着基因组距离的增加而减小。
17.根据权利要求16所述的计算装置,其中所述指令进一步使所述计算装置:
识别DNA序列中与一种或多种分子表型相关或以因果关系相关的单个基因座;
识别含有所述单个基因座的一组箱;
获得受试者的染色质相互作用数据;
将含有所述单个基因座的所述箱的所述染色质相互作用数据与另一个生物细胞系统中此类箱的触点数据进行比较;并且
基于所述比较预测所述受试者的分子表型。
18. 根据权利要求15所述的计算装置,其中所述指令进一步使所述计算装置:
基于染色质相互作用的所述映射生成染色体结构的3D或4D模型;或
生成一组特定的基因座的空间相互作用网络。
19.根据权利要求15所述的计算装置,其中使用二叉搜索树来识别每个箱对内的成对触点的所述子集,其中所述第一组所述多个箱和所述第二组所述多个箱是对应于同一染色体的相同的箱,其中每个基因组元件对应于基因组内的基因座,并且其中每个箱对应于包含以下至少一种的脱氧核糖核酸(DNA)序列的连续片段:拓扑关联结构域(TAD)、基因、染色质状态片段、环状结构域或染色质结构域。
20.根据权利要求19所述的计算装置,其中为了识别第一组所述多个箱和第二组所述多个箱,所述指令使得所述计算装置接收对所述第一组箱和所述第二组箱的选择,以对长程相互作用进行全基因组搜索、对调节回路进行全基因组映射、对长程相互作用中的细胞间类型可变性进行综合评估,或者识别一组基于Hi-C的诊断和预后生物标记。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862646433P | 2018-03-22 | 2018-03-22 | |
US62/646433 | 2018-03-22 | ||
PCT/US2019/023356 WO2019183346A1 (en) | 2018-03-22 | 2019-03-21 | Method and apparatus for analysis of chromatin interaction data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112272849A true CN112272849A (zh) | 2021-01-26 |
Family
ID=67985551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980034320.XA Pending CN112272849A (zh) | 2018-03-22 | 2019-03-21 | 用于分析染色质相互作用数据的方法和设备 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20190295684A1 (zh) |
EP (1) | EP3769310A4 (zh) |
JP (1) | JP7350002B2 (zh) |
CN (1) | CN112272849A (zh) |
AU (1) | AU2019240231B2 (zh) |
CA (1) | CA3094806A1 (zh) |
SG (1) | SG11202009305TA (zh) |
WO (1) | WO2019183346A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110957002B (zh) * | 2019-12-17 | 2023-04-28 | 电子科技大学 | 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 |
CN111429003B (zh) * | 2020-03-23 | 2023-11-03 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
US11570182B1 (en) * | 2020-03-30 | 2023-01-31 | Amazon Technologies, Inc. | Compute-less authorization |
CN112132177B (zh) * | 2020-08-14 | 2023-07-18 | 上海大学 | 基于机器学习快速预测abo3钙钛矿带隙的在线预报方法 |
CN113178230A (zh) * | 2021-04-12 | 2021-07-27 | 山东大学 | 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统 |
CN114446384A (zh) * | 2022-03-14 | 2022-05-06 | 中南大学 | 染色体拓扑关联结构域的预测方法及预测系统 |
CN114944190B (zh) * | 2022-05-12 | 2024-04-19 | 南开大学 | 基于Hi-C测序数据的TAD识别方法及系统 |
CN117237241B (zh) * | 2023-11-15 | 2024-02-06 | 湖南自兴智慧医疗科技有限公司 | 染色体增强参数调整方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009155443A2 (en) * | 2008-06-20 | 2009-12-23 | Eureka Genomics Corporation | Method and apparatus for sequencing data samples |
CN103403182A (zh) * | 2010-11-30 | 2013-11-20 | 香港中文大学 | 与癌症相关的遗传或分子畸变的检测 |
CN103646192A (zh) * | 2013-11-14 | 2014-03-19 | 漯河医学高等专科学校 | 增强子在全基因组相互作用研究方法 |
US20160232291A1 (en) * | 2015-02-09 | 2016-08-11 | 10X Genomics, Inc. | Systems and methods for determining structural variation and phasing using variant call data |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2915626A1 (en) * | 2013-06-17 | 2014-12-24 | Verinata Health, Inc. | Method for determining copy number variations in sex chromosomes |
US10318704B2 (en) * | 2014-05-30 | 2019-06-11 | Verinata Health, Inc. | Detecting fetal sub-chromosomal aneuploidies |
US10095831B2 (en) * | 2016-02-03 | 2018-10-09 | Verinata Health, Inc. | Using cell-free DNA fragment size to determine copy number variations |
-
2019
- 2019-03-20 US US16/359,385 patent/US20190295684A1/en active Pending
- 2019-03-21 AU AU2019240231A patent/AU2019240231B2/en active Active
- 2019-03-21 WO PCT/US2019/023356 patent/WO2019183346A1/en active Application Filing
- 2019-03-21 SG SG11202009305TA patent/SG11202009305TA/en unknown
- 2019-03-21 JP JP2020551384A patent/JP7350002B2/ja active Active
- 2019-03-21 CA CA3094806A patent/CA3094806A1/en active Pending
- 2019-03-21 CN CN201980034320.XA patent/CN112272849A/zh active Pending
- 2019-03-21 EP EP19771887.7A patent/EP3769310A4/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009155443A2 (en) * | 2008-06-20 | 2009-12-23 | Eureka Genomics Corporation | Method and apparatus for sequencing data samples |
CN103403182A (zh) * | 2010-11-30 | 2013-11-20 | 香港中文大学 | 与癌症相关的遗传或分子畸变的检测 |
CN103646192A (zh) * | 2013-11-14 | 2014-03-19 | 漯河医学高等专科学校 | 增强子在全基因组相互作用研究方法 |
US20160232291A1 (en) * | 2015-02-09 | 2016-08-11 | 10X Genomics, Inc. | Systems and methods for determining structural variation and phasing using variant call data |
Non-Patent Citations (4)
Title |
---|
BOYAN BONEV ET AL.: "Multiscale 3D Genome Rewiring during Mouse Neural Development", 《CELL》, no. 171, 19 October 2017 (2017-10-19), pages 6 - 7 * |
CALEB WEINREB ET AL.: "Identification of hierarchical chromatin domains", 《BIOINFORMATICS ADVANCE ACCESS》, 26 August 2015 (2015-08-26), pages 2 - 3 * |
EREZ LIEBERMAN-AIDEN ET AL.: "Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome", 《SCIENCE》, vol. 326, no. 9, 9 October 2009 (2009-10-09), pages 289, XP002591649 * |
GALIP GÜRKAN YARDIMCI ET AL.: "Software tools for visualizing Hi-C data", 《GENOME BIOLOGY》, vol. 18, 31 December 2017 (2017-12-31), pages 1 - 3 * |
Also Published As
Publication number | Publication date |
---|---|
CA3094806A1 (en) | 2019-09-26 |
JP2021519453A (ja) | 2021-08-10 |
AU2019240231B2 (en) | 2024-10-10 |
EP3769310A1 (en) | 2021-01-27 |
EP3769310A4 (en) | 2022-01-05 |
WO2019183346A1 (en) | 2019-09-26 |
US20190295684A1 (en) | 2019-09-26 |
SG11202009305TA (en) | 2020-10-29 |
AU2019240231A1 (en) | 2020-11-19 |
JP7350002B2 (ja) | 2023-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112272849A (zh) | 用于分析染色质相互作用数据的方法和设备 | |
Li et al. | Machine learning for lung cancer diagnosis, treatment, and prognosis | |
Ai-Jun et al. | Bayesian variable selection for disease classification using gene expression data | |
Johannes et al. | Integration of pathway knowledge into a reweighted recursive feature elimination approach for risk stratification of cancer patients | |
Rau et al. | Co-expression analysis of high-throughput transcriptome sequencing data with Poisson mixture models | |
Seoane et al. | A pathway-based data integration framework for prediction of disease progression | |
Koestler et al. | Semi-supervised recursively partitioned mixture models for identifying cancer subtypes | |
EP3520006A1 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
CN113597645A (zh) | 用于重建药物应答和疾病网络的方法和系统以及其用途 | |
Golestan Hashemi et al. | Intelligent mining of large-scale bio-data: Bioinformatics applications | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
Handfield et al. | Unsupervised clustering of subcellular protein expression patterns in high-throughput microscopy images reveals protein complexes and functional relationships between proteins | |
Liu et al. | Classification and feature selection algorithms for multi-class CGH data | |
Dhillon et al. | eBreCaP: extreme learning‐based model for breast cancer survival prediction | |
WO2020138479A1 (ja) | 個体の形質情報を予測するためのシステムまたは方法 | |
Morris et al. | Statistical contributions to bioinformatics: design, modelling, structure learning and integration | |
Wahid et al. | Feature selection and classification for gene expression data using novel correlation based overlapping score method via Chou’s 5-steps rule | |
Qu et al. | Quantitative trait associated microarray gene expression data analysis | |
Deshwar et al. | PLIDA: cross-platform gene expression normalization using perturbed topic models | |
CN115274136A (zh) | 整合多组学与必需基因的肿瘤细胞系药物响应预测方法 | |
Coates et al. | Radiomic and radiogenomic modeling for radiotherapy: strategies, pitfalls, and challenges | |
US20140309122A1 (en) | Knowledge-driven sparse learning approach to identifying interpretable high-order feature interactions for system output prediction | |
Qattous et al. | PaCMAP-embedded convolutional neural network for multi-omics data integration | |
Dong et al. | Predicting housekeeping genes based on Fourier analysis | |
Nepomuceno-Chamorro et al. | Prognostic transcriptional association networks: a new supervised approach based on regression trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40045652 Country of ref document: HK |