CN117457068B - 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 - Google Patents
基于多组学的功能性生物标记物筛选方法、系统、终端及介质 Download PDFInfo
- Publication number
- CN117457068B CN117457068B CN202310800382.5A CN202310800382A CN117457068B CN 117457068 B CN117457068 B CN 117457068B CN 202310800382 A CN202310800382 A CN 202310800382A CN 117457068 B CN117457068 B CN 117457068B
- Authority
- CN
- China
- Prior art keywords
- list
- functional
- functional element
- gene
- epigenetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 109
- 239000000090 biomarker Substances 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 47
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 220
- 230000001973 epigenetic effect Effects 0.000 claims abstract description 117
- 201000010099 disease Diseases 0.000 claims abstract description 76
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 76
- 238000001514 detection method Methods 0.000 claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 230000014509 gene expression Effects 0.000 claims abstract description 45
- 230000036541 health Effects 0.000 claims abstract description 36
- 238000003745 diagnosis Methods 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims description 30
- 238000005516 engineering process Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 19
- 108010077544 Chromatin Proteins 0.000 claims description 17
- 210000003483 chromatin Anatomy 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000523 sample Substances 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 9
- 108091026890 Coding region Proteins 0.000 claims description 8
- 238000000749 co-immunoprecipitation Methods 0.000 claims description 8
- 102000004169 proteins and genes Human genes 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 6
- 108010033040 Histones Proteins 0.000 claims description 5
- 102000006947 Histones Human genes 0.000 claims description 5
- 239000013068 control sample Substances 0.000 claims description 5
- 108091023040 Transcription factor Proteins 0.000 claims description 4
- 102000040945 Transcription factor Human genes 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008827 biological function Effects 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 abstract description 7
- 239000003147 molecular marker Substances 0.000 abstract 1
- 230000011987 methylation Effects 0.000 description 16
- 238000007069 methylation reaction Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 208000024770 Thyroid neoplasm Diseases 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 201000002510 thyroid cancer Diseases 0.000 description 5
- 230000007067 DNA methylation Effects 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 238000003559 RNA-seq method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000000101 novel biomarker Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000009711 regulatory function Effects 0.000 description 2
- 230000009946 DNA mutation Effects 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 208000009453 Thyroid Nodule Diseases 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- 150000001413 amino acids Chemical group 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 238000000975 co-precipitation Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000022602 disease susceptibility Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 208000013076 thyroid tumor Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Library & Information Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质,建立了一套基于多组学的功能指导的生物标记物的筛选评价体系,通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表,筛选分离能够影响生物学功能的特征,可以更有效的发现具有生物学功能的DNA层面的分子标记物,从而可进一步开发为具有实用性的诊断工具。
Description
技术领域
本发明涉及生物标记物筛选领域,特别是涉及一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质。
背景技术
生物标记物在疾病的早期诊断、治疗和疗效检测等多个方面都有着重要作用,因此新型生物标记物的发现为推动疾病诊疗领域的进步起着重要作用。随着科学技术的发现,DNA测序技术、RNA测序技术、蛋白质谱技术等等都为研究者们提供了非常好的工具来了解人类基因组的功能及发现其在疾病状态中的差异改变,从而可以发现潜在的新型生物标记物。高通量测序技术虽然能够发现大量不同组合的生物标记物,然而大部分研究的生物标记物筛选逻辑基本都是单纯基于单一组学数据统计学进行的,选择在疾病和非疾病状态下有显著差异的生物标记物。这一逻辑对于复杂疾病数量庞大的生物标记物的筛选准确率低,结论过于片面,易于被噪音干扰,其所涉及的模型等也容易出现过拟合从而影响模型的普适性。
随着人类基因组计划的完成,人类的基因研究进入后基因组时代,阐述基因功能成为重要的方向。ENCODE计划为进一步阐述基因组上不通区域的功能元件奠定了基础,尤其很多曾经被认为是垃圾DNA的序列被发现具有重要的调控功能。GWAS的研究主要集中在单核苷酸多态性(SNP)与人类疾病的关系,从而可以确定疾病易感位点。编码区的突变或者SNP一般可以通过评估对氨基酸及蛋白序列及结构的改变情况而确认其是否为有害变异即致病变异。然而人类基因组上有高达近99%的区域为非基因编码区域,越来越多的证据表明,这些区域也发挥着重要的生物调控功能。因此,如何评估位于基因非编码区域的DNA水平改变的意义及其作为生物标记物的可行性将具有重要的意义,也是目前面临巨大挑战的方向。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质,用于解决以上现有技术问题。
为实现上述目的及其他相关目的,本发明提供一种基于多组学的功能性生物标记物筛选方法,所述方法包括:对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表;利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表;通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表;基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点。
于本发明的一实施例中,所述基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点包括:基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点。
于本发明的一实施例中,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:将所述表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析,获得第一功能特征位点列表;其中,所述第一功能特征位点列表包括:位于所述第一功能元件区域列表中功能性元件区域的多个表观遗传特征位点;对所述第一功能特征位点列表执行关联基因注释操作,确定第一关联基因列表;其中,所述第一关联基因列表包括:多个与所述功能特征位点列表中表观遗传特征位点关联的基因;将所述第一关联基因列表与差异基因列表进行基因重叠性分析获得第一差异表达基因列表,并获得对应的第二功能特征位点列表;对所述第二功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
于本发明的一实施例中,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:对所述表观遗传特征位点列表执行关联基因注释操作,确定第二关联基因列表;其中,所述第二关联基因列表包括:多个与所述表观遗传特征位点列表中表观遗传特征位点关联的基因;将所述差异基因列表以及所述第二关联基因列表进行基因重叠性分析,获得第二差异表达基因列表以及对应的差异表观遗传特征位点列表;将所述差异表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析,获得对应的第三功能特征位点列表;其中,所述第三功能特征位点列表包括:所述差异表观遗传特征位点列表中位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点;对所述第三功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
于本发明的一实施例中,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:将所述功能元件区域列表与所述表观遗传特征位点列表进行功能元件区域重叠性分析,获得重叠功能元件区域列表;其中,所述重叠功能元件区域列表包括:所述表观遗传特征位点列表中各表观遗传特征位点位于的所述功能元件区域列表中的功能性元件区域;对所述重叠功能元件区域列表执行关联基因注释操作,确定第三关联基因列表;其中,所述第三关联基因列表包括:多个与所述重叠功能元件区域列表中功能性元件区域关联的基因;将所述关联基因列表与所述差异基因列表进行基因重叠性分析获得获得第三差异表达基因列表,并获得对应的第四功能特征位点列表;对所述第四功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
于本发明的一实施例中,所述关联基因注释操作基于物理位置最近原则进行关联基因注释。
于本发明的一实施例中,所述优化筛选操作包括:通过统计学工具对表观遗传特征位点进行优化筛选。
于本发明的一实施例中,所述利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表包括:利用基因组活性区域检测技术,仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的功能元件区域列表。
于本发明的一实施例中,所述利用基因组活性区域检测技术获得疾病状态及健康状态下基因组范围的功能元件区域列表包括:利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表。
于本发明的一实施例中,所述通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表包括:通过RNA水平检测技术或者蛋白水平检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。
于本发明的一实施例中,所述方法还包括:基于各最终功能性特征位点构建对应的诊断模型,以供进行对应的疾病诊断。
为实现上述目的及其他相关目的,本发明提供一种基于多组学的功能性生物标记物筛选系统,所述系统包括:表观遗传特征位点捕获模块,用于对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表;功能元件区域定义模块,用于利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表;差异基因检测模块,用于通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表;筛选模块,连接所述表观遗传特征位点捕获模块、功能元件区域定义模块以及差异基因检测模块,用于基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点。
为实现上述目的及其他相关目的,本发明提供一种基于多组学的功能性生物标记物筛选终端,包括:一或多个存储器及一或多个处理器;所述一或多个存储器,用于存储计算机程序;所述一或多个处理器,连接所述存储器,用于运行所述计算机程序以执行所述基于多组学的功能性生物标记物筛选方法。
为实现上述目的及其他相关目的,本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被一个或多个处理器运行时执行所述基于多组学的功能性生物标记物筛选方法。
如上所述,本发明是一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质,具有以下有益效果:本发明建立了一套基于多组学的功能指导的生物标记物的筛选评价体系,通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表,筛选分离能够影响生物学功能的特征,可以更有效的发现具有生物学功能的DNA层面的分子标记物,从而可进一步开发为具有实用性的诊断工具。
附图说明
图1显示为本发明一实施例中的基于多组学的功能性生物标记物筛选方法的流程示意图。
图2显示为本发明一实施例中的采用第一种方式筛选最终功能性特征位点示意图。
图3显示为本发明一实施例中的采用第二种方式筛选最终功能性特征位点示意图。
图4显示为本发明一实施例中的采用第三种方式筛选最终功能性特征位点示意图。
图5显示为本发明一实施例中的功能差异甲基化位点对应的差异表达基因分布示意图。
图6显示为本发明一实施例中的21个功能性甲基化生物标记物的性能表现示意图。
图7显示为本发明一实施例中的基于功能DNA甲基化分子标记物的诊断工具开发策略流程图。
图8显示为本发明一实施例中的基于多组学的功能性生物标记物筛选系统的结构示意图。
图9显示为本发明一实施例中的基于多组学的功能性生物标记物筛选终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在通篇说明书中,当说某部分与另一部分“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。
其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此,以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内,可以言及到第二部分、成分、区域、层或段。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提供一种基于多组学的功能性生物标记物筛选方法,建立了一套基于多组学的功能指导的生物标记物的筛选评价体系,通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表,筛选分离能够影响生物学功能的特征,可以更有效的发现具有生物学功能的DNA层面的分子标记物,从而可进一步开发为具有实用性的诊断工具。
下面以附图为参考,针对本发明的实施例进行详细说明,以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现,并不限于此处说明的实施例。
如图1展示本发明实施例中的一种基于多组学的功能性生物标记物筛选方法的流程示意图。
本发明主要针对基因组DNA水平的分子标记物的筛选,包括但不限于DNA突变、缺失、倒位、甲基化等任意方面的改变;所述方法包括:
步骤S1:对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表。
具体的,进行DNA层面变异或表观遗传等整体特征的捕获,对疾病状态及健康状态对照样本进行差异统计分析出在两种不同状态下的改变的表观遗传特征位点,以获得表观遗传特征位点列表。
步骤S2:利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表。
在一实施例中,利用基因组活性区域检测技术,仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的具有显著信号的各功能元件区域,以获得功能元件区域列表;功能元件区域列表的功能元件区域涉及基因组的编码区域以及非编码区域;
对于同时采用疾病状态样本以及健康状态样本的情况,可以通过对比疾病状态样本以及健康状态样本之间的差异进行基因组活性区域检测获得功能元件区域列表。
在一实施例中,所述利用基因组活性区域检测技术获得疾病状态及健康状态下基因组范围的功能元件区域列表包括:利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术(ATAC-seq/DNase-seq/FAIRE-seq等)以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表;
需要说明的是,除了以上提到的技术还可以采用其他基因组活性区域的检测技术。
步骤S3:通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。
在一实施例中,步骤S3包括:通过RNA水平检测技术或者蛋白水平检测技术对疾病状态及健康状态对照样本进行检测获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。
具体的,RNA水平检测技术或者蛋白水平检测技术包括但不限于RNA-seq或者质谱分析。
需要说明的是,本步骤采用的疾病状态及健康状态对照样本可以为步骤S1的对照样本也可以为自定义的对照样本。
步骤S4:基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点。
在一实施例中,步骤S4包括:基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点。
为了更好的说明,基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点的方式,以下结合具体实施例进行说明。
若获得所述表观遗传特征位点列表A、功能元件区域列表B以及差异基因列表C,基于上述列表A、B以及C进行生物标记物筛选的方式具体为以下三种方式:
在一实施例中,如图2所示,第一种方式:
将所述表观遗传特征位点列表A与功能元件区域列表B进行特征位点重叠性分析,获得第一功能特征位点列表D1;其中,所述第一功能特征位点列表D1包括:位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点;
对所述第一功能特征位点列表D1执行关联基因注释操作,确定第一关联基因列表E1;其中,所述第一关联基因列表E1包括:多个与所述第一功能特征位点列表D1中表观遗传特征位点关联的基因;
将所述第一关联基因列表E1与差异基因列表C进行基因重叠性分析获得第一差异表达基因列表F1,并获得对应的第二功能特征位点列表D2;具体的,将所述第一关联基因列表E1与差异基因列表C之间重复基因提取,获得第一差异表达基因列表F1;由于所述第一关联基因列表E1的各基因分别与第一功能特征位点列表D1中的一或多个的表观遗传特征位点相关联,因此,根据第一差异表达基因列表F1的各基因可获得对应的第二功能特征位点列表D2。
对所述第二功能特征位点列表D2中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
在一实施例中,如图3所示,第二种方式为:
对所述表观遗传特征位点列表A执行关联基因注释操作,确定第二关联基因列表E2;其中,所述第二关联基因列表E2包括:多个与所述表观遗传特征位点列表A中表观遗传特征位点关联的基因;
将所述差异基因列表C以及所述第二关联基因列表E2进行基因重叠性分析,获得第二差异表达基因列表F2以及对应的差异表观遗传特征位点列表G;具体的,获得所述差异基因列表C以及所述第二关联基因列表E2重叠的基因,由于所述第二关联基因列表E2的各基因分别与所述表观遗传特征位点列表A中的一或多个的表观遗传特征位点相关联,因此,根据第二差异表达基因列表F2的各基因可获得对应的差异表观遗传特征位点列表G。
将所述差异表观遗传特征位点列表G与功能元件区域列表B进行特征位点重叠性分析,获得对应的第三功能特征位点列表D3;其中,所述第三功能特征位点列表D3包括:所述差异表观遗传特征位点列表G中位于所述功能元件区域列表B中功能性元件区域的多个表观遗传特征位点;
对所述第三功能特征位点列表D3中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
在一实施例中,如图4所示,第三种方式为:
将所述功能元件区域列表B与所述表观遗传特征位点列表A进行功能元件区域重叠性分析,获得重叠功能元件区域列表H;其中,所述重叠功能元件区域列表H包括:所述表观遗传特征位点列表A中各表观遗传特征位点位于的所述功能元件区域列表B中的功能性元件区域;
对所述重叠功能元件区域列表H执行关联基因注释操作,确定第三关联基因列表E3;其中,所述第三关联基因列表E3包括:多个与所述重叠功能元件区域列表中功能性元件区域关联的基因;
将所述关联基因列表E3与所述差异基因列表C进行基因重叠性分析获得获得第三差异表达基因列表F3,并获得对应的第四功能特征位点列表D4;具体的,获得所述关联基因列表E3与所述差异基因列表C之间重叠的基因,由于所述第三差异表达基因列表F3的各基因分别与所述表观遗传特征位点列表A中的一或多个的表观遗传特征位点相关联(由于所述功能元件区域列表B与所述表观遗传特征位点列表A获得重叠功能元件区域列表H,再获得第三关联基因列表E3,所述关联基因列表E3与所述差异基因列表C获得第三差异表达基因列表F3,因此所述第三差异表达基因列表F3的各基因对应有所述表观遗传特征位点列表A中的一或多个的表观遗传特征位点);因此,根据所述第三差异表达基因列表F3的各基因可获得对应的第四功能特征位点列表D4。
对所述第四功能特征位点列表D4中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
在一实施例中,以上三种方式提到的关联基因注释操作基于物理位置最近原则进行关联基因注释;优选的,应用基因组区域注释工具GREAT进行关联基因注释。
在一实施例中,以上三种方式采用的优化筛选操作包括:通过统计学工具进行对表观遗传特征位点进行优化筛选;
优选的,通过LASSO进行优化筛选得到性能表现优越的具有应用价值的最终功能性特征。
在一实施例中,所述方法还包括:基于各最终功能性特征位点构建对应的诊断模型,通过算法模型评估其作为生物标记物的可行性,以供进行对应的疾病诊断。
为了更好的描述基于多组学的功能性生物标记物筛选方法,提供以下具体实施例进行说明;
实施例1:一种甲状腺癌中功能性DNA甲基化生物标记物的筛选方法。
所述方法包括:
通过简并代表性亚硫酸氢盐测序技术(RRBS)对30个甲状腺癌组织及19个甲状腺结节良性组织进行全基因组范围的甲基化水平进行系统检测,通过数据统计分析,共得到780个显著差异的甲基化位点特征。同时利用染色质免疫共沉淀测序技术对基因组水平的组蛋白H3第27位赖氨酸的乙酰化(H3K27ac)水平进行检测,统计分析出在甲状腺肿瘤及良性组织中的存在显著信号的区域13221个。然后将上述780个差异甲基化位点与有显著H3K27ac信号的5000个区域进行重叠性分析,共得到523个差异甲基化位点,410个位点位于增强子上,113个位点位于启动子上。根据基因组上的基因位置,我们将物理位置上距离差异甲基化位点最近的基因定义为其相关联基因,基于此逻辑我们共定义523个差异甲基化位点关联基因182个。此外,通过RNA-seq,我们在甲状腺癌及良性组织中共鉴定了3556个差异表达基因。通过重叠性分析,共得到有36个差异甲基化位点关联基因,其对应着134个功能性差异甲基化位点,如图5。进一步地,通过回归分析分析方法LASSO对134个特征进一步优化得到21个终极功能性DNA甲基化特征进行建模用于评估其在甲状腺癌诊断中的性能表现,如图6。
同样的,另外一种实现方式,如图7所示,也可以先将上述780个差异甲基化位点进行差异甲基化位点关联基因确认,再与3556个差异表达基因通过重叠性分析获得差异甲基化位点,再与有显著H3K27ac信号的5000个区域进行重叠性分析获得功能甲基化标记物,通过回归分析分析方法LASSO对功能甲基化标记物进一步优化得到多个终极功能性DNA甲基化特征进行建模用于评估其在甲状腺癌诊断中的性能表现。
由此,本实施例建立了一套基于多组学的功能指导的生物标记物的筛选评价体系,通过整合DNA测序、基因表达谱测序及基因功能区域的测序数据筛选分离能够影响生物学功能的特征,从而进一步通过算法模型评估其作为生物标记物的可行性。
与上述实施例原理相似的是,本发明提供一种基于多组学的功能性生物标记物筛选系统。
以下结合附图提供具体实施例:
如图8展示本发明实施例中的一种基于多组学的功能性生物标记物筛选系统的结构示意图。
所述系统包括:
表观遗传特征位点捕获模块81,用于对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表;
功能元件区域定义模块82,用于利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表;
差异基因检测模块83,用于通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表;
筛选模块84,连接所述表观遗传特征位点捕获模块81、功能元件区域定义模块82以及差异基因检测模块83,用于基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点
需说明的是,应理解图8系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现;
例如各模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
由于该基于多组学的功能性生物标记物筛选系统的实现原理已在前述实施例中进行了叙述,因此此处不作重复赘述。
在一实施例中,所述筛选模块84用于基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点。
在一实施例中,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:将所述表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析,获得第一功能特征位点列表;其中,所述第一功能特征位点列表包括:位于所述第一功能元件区域列表中功能性元件区域的多个表观遗传特征位点;对所述第一功能特征位点列表执行关联基因注释操作,确定第一关联基因列表;其中,所述第一关联基因列表包括:多个与所述功能特征位点列表中表观遗传特征位点关联的基因;将所述第一关联基因列表与差异基因列表进行基因重叠性分析获得第一差异表达基因列表,并获得对应的第二功能特征位点列表;对所述第二功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
在一实施例中,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:对所述表观遗传特征位点列表执行关联基因注释操作,确定第二关联基因列表;其中,所述第二关联基因列表包括:多个与所述表观遗传特征位点列表中表观遗传特征位点关联的基因;将所述差异基因列表以及所述第二关联基因列表进行基因重叠性分析,获得第二差异表达基因列表以及对应的差异表观遗传特征位点列表;将所述差异表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析,获得对应的第三功能特征位点列表;其中,所述第三功能特征位点列表包括:所述差异表观遗传特征位点列表中位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点;对所述第三功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
在一实施例中,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:将所述功能元件区域列表与所述表观遗传特征位点列表进行功能元件区域重叠性分析,获得重叠功能元件区域列表;其中,所述重叠功能元件区域列表包括:所述表观遗传特征位点列表中各表观遗传特征位点位于的所述功能元件区域列表中的功能性元件区域;对所述重叠功能元件区域列表执行关联基因注释操作,确定第三关联基因列表;其中,所述第三关联基因列表包括:多个与所述重叠功能元件区域列表中功能性元件区域关联的基因;将所述关联基因列表与所述差异基因列表进行基因重叠性分析获得获得第三差异表达基因列表,并获得对应的第四功能特征位点列表;对所述第四功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
在一实施例中,所述关联基因注释操作基于物理位置最近原则进行关联基因注释。
在一实施例中,所述优化筛选操作包括:通过统计学工具对表观遗传特征位点进行优化筛选。
在一实施例中,所述功能元件区域定义模块82用于利用基因组活性区域检测技术,仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的功能元件区域列表。
在一实施例中,所述功能元件区域定义模块82用于利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表。
在一实施例中,差异基因检测模块83通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表包括:通过RNA水平检测技术或者蛋白水平检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。
在一实施例中,所基于多组学的功能性生物标记物筛选系统还用于基于各最终功能性特征位点构建对应的诊断模型,以供进行对应的疾病诊断。
如图9展示本发明实施例中的基于多组学的功能性生物标记物筛选终端90的结构示意图。
所述基于多组学的功能性生物标记物筛选终端90包括:存储器91及处理器92。所述存储器91用于存储计算机程序;所述处理器92运行计算机程序,实现如图1所述的基于多组学的功能性生物标记物筛选方法。
可选的,所述存储器91的数量均可以是一或多个,所述处理器92的数量均可以是一或多个,而图9中均以一个为例。
可选的,所述基于多组学的功能性生物标记物筛选终端90中的处理器92会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器91中,并由处理器92来运行存储在第一存储器91中的应用程序,从而实现如图1所述基于多组学的功能性生物标记物筛选方法中的各种功能。
可选的,所述存储器91,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器92,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,所述处理器92可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的基于多组学的功能性生物标记物筛选方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
综上所述,本发明的基于多组学的功能性生物标记物筛选方法、系统、终端及介质,建立了一套基于多组学的功能指导的生物标记物的筛选评价体系,通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表,筛选分离能够影响生物学功能的特征,可以更有效的发现具有生物学功能的DNA层面的分子标记物,从而可进一步开发为具有实用性的诊断工具。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种基于多组学的功能性生物标记物筛选方法,其特征在于,所述方法包括:
对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表;
利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表;
通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表;
基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点;功能元件区域列表的功能元件区域涉及基因组的编码区域以及非编码区域;
其中,所述基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点包括:基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点;
所述关联基因注释操作基于物理位置最近原则进行关联基因注释;所述优化筛选操作包括:通过统计学工具对表观遗传特征位点进行优化筛选。
2.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:
将所述表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析,获得第一功能特征位点列表;其中,所述第一功能特征位点列表包括:位于第一功能元件区域列表中功能性元件区域的多个表观遗传特征位点;
对所述第一功能特征位点列表执行关联基因注释操作,确定第一关联基因列表;其中,所述第一关联基因列表包括:多个与所述功能特征位点列表中表观遗传特征位点关联的基因;
将所述第一关联基因列表与差异基因列表进行基因重叠性分析获得第一差异表达基因列表,并获得对应的第二功能特征位点列表;
对所述第二功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
3.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:
对所述表观遗传特征位点列表执行关联基因注释操作,确定第二关联基因列表;其中,所述第二关联基因列表包括:多个与所述表观遗传特征位点列表中表观遗传特征位点关联的基因;
将所述差异基因列表以及所述第二关联基因列表进行基因重叠性分析,获得第二差异表达基因列表以及对应的差异表观遗传特征位点列表;
将所述差异表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析,获得对应的第三功能特征位点列表;其中,所述第三功能特征位点列表包括:所述差异表观遗传特征位点列表中位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点;
对所述第三功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
4.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括:
将所述功能元件区域列表与所述表观遗传特征位点列表进行功能元件区域重叠性分析,获得重叠功能元件区域列表;其中,所述重叠功能元件区域列表包括:所述表观遗传特征位点列表中各表观遗传特征位点位于的所述功能元件区域列表中的功能性元件区域;
对所述重叠功能元件区域列表执行关联基因注释操作,确定第三关联基因列表;其中,所述第三关联基因列表包括:多个与所述重叠功能元件区域列表中功能性元件区域关联的基因;
将所述关联基因列表与所述差异基因列表进行基因重叠性分析获得获得第三差异表达基因列表,并获得对应的第四功能特征位点列表;
对所述第四功能特征位点列表中的各表观遗传特征位点执行优化筛选操作,获得对应的最终功能性特征位点。
5.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表包括:
利用基因组活性区域检测技术,仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的功能元件区域列表。
6.根据权利要求1或5中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述利用基因组活性区域检测技术获得疾病状态及健康状态下基因组范围的功能元件区域列表包括:利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表。
7.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表包括:通过RNA水平检测技术或者蛋白水平检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。
8.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法,其特征在于,所述方法还包括:
基于各最终功能性特征位点构建对应的诊断模型,以供进行对应的疾病诊断。
9.一种基于多组学的功能性生物标记物筛选系统,其特征在于,所述系统包括:
表观遗传特征位点捕获模块,用于对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表;
功能元件区域定义模块,用于利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表;
差异基因检测模块,用于通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表;
筛选模块,连接所述表观遗传特征位点捕获模块、功能元件区域定义模块以及差异基因检测模块,用于基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点;功能元件区域列表的功能元件区域涉及基因组的编码区域以及非编码区域;
其中,所述基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选,获得对应的最终功能性特征位点包括:基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表,分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点;
所述关联基因注释操作基于物理位置最近原则进行关联基因注释;所述优化筛选操作包括:通过统计学工具对表观遗传特征位点进行优化筛选。
10.一种基于多组学的功能性生物标记物筛选终端,其特征在于,包括:一或多个存储器及一或多个处理器;
所述一或多个存储器,用于存储计算机程序;
所述一或多个处理器,连接所述存储器,用于运行所述计算机程序以执行如权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被一个或多个处理器运行时执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310800382.5A CN117457068B (zh) | 2023-06-30 | 2023-06-30 | 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310800382.5A CN117457068B (zh) | 2023-06-30 | 2023-06-30 | 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117457068A CN117457068A (zh) | 2024-01-26 |
CN117457068B true CN117457068B (zh) | 2024-05-24 |
Family
ID=89587977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310800382.5A Active CN117457068B (zh) | 2023-06-30 | 2023-06-30 | 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117457068B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103305618A (zh) * | 2013-06-26 | 2013-09-18 | 北京迈基诺基因科技有限责任公司 | 一种遗传代谢疾病基因的筛查方法 |
CN104603283A (zh) * | 2012-08-01 | 2015-05-06 | 深圳华大基因研究院 | 确定异常状态相关生物标志物的方法及系统 |
CN106682456A (zh) * | 2016-12-30 | 2017-05-17 | 西安交通大学 | 一种基于基因组表观调控元件特征的复杂疾病易感基因的挖掘方法 |
CN107103207A (zh) * | 2017-04-05 | 2017-08-29 | 浙江大学 | 基于病例多组学变异特征的精准医学知识搜索系统及实现方法 |
CN108830045A (zh) * | 2018-06-29 | 2018-11-16 | 深圳先进技术研究院 | 一种基于多组学的生物标记物系统筛选方法 |
CN109637588A (zh) * | 2018-12-29 | 2019-04-16 | 北京百迈客生物科技有限公司 | 一种基于全转录组高通量测序构建基因调控网络的方法 |
CN110021364A (zh) * | 2017-11-24 | 2019-07-16 | 上海暖闻信息科技有限公司 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
CN110317856A (zh) * | 2018-03-28 | 2019-10-11 | 中国科学院上海生命科学研究院 | 基于表观组信息低成本组装解析生物核心基因组信息 |
CN112652362A (zh) * | 2020-11-27 | 2021-04-13 | 山东省农业科学院奶牛研究中心 | 一种筛选牛高原低氧适应基因aldoc和功能性分子标记的方法及其应用 |
CN115019884A (zh) * | 2022-05-13 | 2022-09-06 | 华东交通大学 | 一种融合多组学数据的网络标志物识别方法 |
CN115478113A (zh) * | 2022-10-26 | 2022-12-16 | 中国农业科学院北京畜牧兽医研究所 | 一种肉牛脂肪酸组分候选标记多组学筛选方法及其应用 |
KR20230007010A (ko) * | 2021-07-05 | 2023-01-12 | 한국 한의학 연구원 | 대사질환 위험도 예측 방법 및 시스템 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210005327A1 (en) * | 2019-07-05 | 2021-01-07 | Molecular You Corporation | Method and system for personalized, molecular based health management and digital consultation and treatment |
-
2023
- 2023-06-30 CN CN202310800382.5A patent/CN117457068B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104603283A (zh) * | 2012-08-01 | 2015-05-06 | 深圳华大基因研究院 | 确定异常状态相关生物标志物的方法及系统 |
CN103305618A (zh) * | 2013-06-26 | 2013-09-18 | 北京迈基诺基因科技有限责任公司 | 一种遗传代谢疾病基因的筛查方法 |
CN106682456A (zh) * | 2016-12-30 | 2017-05-17 | 西安交通大学 | 一种基于基因组表观调控元件特征的复杂疾病易感基因的挖掘方法 |
CN107103207A (zh) * | 2017-04-05 | 2017-08-29 | 浙江大学 | 基于病例多组学变异特征的精准医学知识搜索系统及实现方法 |
CN110021364A (zh) * | 2017-11-24 | 2019-07-16 | 上海暖闻信息科技有限公司 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 |
CN110317856A (zh) * | 2018-03-28 | 2019-10-11 | 中国科学院上海生命科学研究院 | 基于表观组信息低成本组装解析生物核心基因组信息 |
CN108830045A (zh) * | 2018-06-29 | 2018-11-16 | 深圳先进技术研究院 | 一种基于多组学的生物标记物系统筛选方法 |
CN109637588A (zh) * | 2018-12-29 | 2019-04-16 | 北京百迈客生物科技有限公司 | 一种基于全转录组高通量测序构建基因调控网络的方法 |
CN112652362A (zh) * | 2020-11-27 | 2021-04-13 | 山东省农业科学院奶牛研究中心 | 一种筛选牛高原低氧适应基因aldoc和功能性分子标记的方法及其应用 |
KR20230007010A (ko) * | 2021-07-05 | 2023-01-12 | 한국 한의학 연구원 | 대사질환 위험도 예측 방법 및 시스템 |
CN115019884A (zh) * | 2022-05-13 | 2022-09-06 | 华东交通大学 | 一种融合多组学数据的网络标志物识别方法 |
CN115478113A (zh) * | 2022-10-26 | 2022-12-16 | 中国农业科学院北京畜牧兽医研究所 | 一种肉牛脂肪酸组分候选标记多组学筛选方法及其应用 |
Non-Patent Citations (3)
Title |
---|
Biomarker Identification through Multiomics Data Analysis of Prostate Cancer Prognostication Using a Deep Learning Model and Similarity Network Fusion;Wang, TH 等;Web of Science ResearcherID;20210621;全文 * |
基因组、转录组及表观基因组在肺癌中的联合分析;杨惠敏;何斐;胡志坚;;肿瘤防治研究;20200925(第09期);全文 * |
生物标志物的筛查方法及研究进展;虞萌;黄家恺;巴俊强;蒋成燕;;医学综述;20170305(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117457068A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lowe et al. | Transcriptomics technologies | |
Aguilar-Rodríguez et al. | A thousand empirical adaptive landscapes and their navigability | |
Huber et al. | Population genetic models of GERP scores suggest pervasive turnover of constrained sites across mammalian evolution | |
Chaitankar et al. | Next generation sequencing technology and genomewide data analysis: Perspectives for retinal research | |
Li et al. | Anchor: trans-cell type prediction of transcription factor binding sites | |
Chung et al. | Discovering transcription factor binding sites in highly repetitive regions of genomes with multi-read analysis of ChIP-Seq data | |
Magger et al. | Enhancing the prioritization of disease-causing genes through tissue specific protein interaction networks | |
Duan et al. | Comparative studies of copy number variation detection methods for next-generation sequencing technologies | |
Chiu et al. | Straglr: discovering and genotyping tandem repeat expansions using whole genome long-read sequences | |
US20220228215A1 (en) | Method of Determining Disease Causality of Genome Mutations | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
Liu et al. | Structural variation discovery in the cancer genome using next generation sequencing: computational solutions and perspectives | |
Zhang et al. | Computational methods for analysing multiscale 3D genome organization | |
Andergassen et al. | Allelome. PRO, a pipeline to define allele-specific genomic features from high-throughput sequencing data | |
Niu et al. | Towards a map of cis-regulatory sequences in the human genome | |
CN113963749A (zh) | 高通量测序数据自动化组装方法、系统、设备及存储介质 | |
CN117457068B (zh) | 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 | |
Frankhouser et al. | PrEMeR-CG: inferring nucleotide level DNA methylation values from MethylCap-seq data | |
Wu et al. | Genome-wide characterization of intergenic polyadenylation sites redefines gene spaces in Arabidopsis thaliana | |
Angelini et al. | Is this the right normalization? A diagnostic tool for ChIP-seq normalization | |
Leong et al. | Transcriptogenomics identification and characterization of RNA editing sites in human primary monocytes using high-depth next generation sequencing data | |
Ni et al. | Underlying causes for prevalent false positives and false negatives in STARR-seq data | |
Adolfsson et al. | Whole exome sequencing of FFPE samples—expanding the horizon of forensic molecular autopsies | |
Ghadie et al. | Mutation edgotype drives fitness effect in human | |
Oh et al. | PIC-Me: paralogs and isoforms classifier based on machine-learning approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |