CN117457068B

CN117457068B - 基于多组学的功能性生物标记物筛选方法、系统、终端及介质

Info

Publication number: CN117457068B
Application number: CN202310800382.5A
Authority: CN
Inventors: 杨峰; 石涵; 洪跟东
Original assignee: Shanghai Ruijing Biotechnology Co ltd
Current assignee: Shanghai Ruijing Biotechnology Co ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2024-05-24
Anticipated expiration: 2043-06-30
Also published as: CN117457068A

Abstract

本发明提供一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质，建立了一套基于多组学的功能指导的生物标记物的筛选评价体系，通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表，筛选分离能够影响生物学功能的特征，可以更有效的发现具有生物学功能的DNA层面的分子标记物，从而可进一步开发为具有实用性的诊断工具。

Description

基于多组学的功能性生物标记物筛选方法、系统、终端及介质

技术领域

本发明涉及生物标记物筛选领域，特别是涉及一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质。

背景技术

生物标记物在疾病的早期诊断、治疗和疗效检测等多个方面都有着重要作用，因此新型生物标记物的发现为推动疾病诊疗领域的进步起着重要作用。随着科学技术的发现，DNA测序技术、RNA测序技术、蛋白质谱技术等等都为研究者们提供了非常好的工具来了解人类基因组的功能及发现其在疾病状态中的差异改变，从而可以发现潜在的新型生物标记物。高通量测序技术虽然能够发现大量不同组合的生物标记物，然而大部分研究的生物标记物筛选逻辑基本都是单纯基于单一组学数据统计学进行的，选择在疾病和非疾病状态下有显著差异的生物标记物。这一逻辑对于复杂疾病数量庞大的生物标记物的筛选准确率低，结论过于片面，易于被噪音干扰，其所涉及的模型等也容易出现过拟合从而影响模型的普适性。

随着人类基因组计划的完成，人类的基因研究进入后基因组时代，阐述基因功能成为重要的方向。ENCODE计划为进一步阐述基因组上不通区域的功能元件奠定了基础，尤其很多曾经被认为是垃圾DNA的序列被发现具有重要的调控功能。GWAS的研究主要集中在单核苷酸多态性(SNP)与人类疾病的关系，从而可以确定疾病易感位点。编码区的突变或者SNP一般可以通过评估对氨基酸及蛋白序列及结构的改变情况而确认其是否为有害变异即致病变异。然而人类基因组上有高达近99％的区域为非基因编码区域，越来越多的证据表明，这些区域也发挥着重要的生物调控功能。因此，如何评估位于基因非编码区域的DNA水平改变的意义及其作为生物标记物的可行性将具有重要的意义，也是目前面临巨大挑战的方向。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质，用于解决以上现有技术问题。

为实现上述目的及其他相关目的，本发明提供一种基于多组学的功能性生物标记物筛选方法，所述方法包括：对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表；利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表；通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表；基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点。

于本发明的一实施例中，所述基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点包括：基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点。

于本发明的一实施例中，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：将所述表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析，获得第一功能特征位点列表；其中，所述第一功能特征位点列表包括：位于所述第一功能元件区域列表中功能性元件区域的多个表观遗传特征位点；对所述第一功能特征位点列表执行关联基因注释操作，确定第一关联基因列表；其中，所述第一关联基因列表包括：多个与所述功能特征位点列表中表观遗传特征位点关联的基因；将所述第一关联基因列表与差异基因列表进行基因重叠性分析获得第一差异表达基因列表，并获得对应的第二功能特征位点列表；对所述第二功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

于本发明的一实施例中，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：对所述表观遗传特征位点列表执行关联基因注释操作，确定第二关联基因列表；其中，所述第二关联基因列表包括：多个与所述表观遗传特征位点列表中表观遗传特征位点关联的基因；将所述差异基因列表以及所述第二关联基因列表进行基因重叠性分析，获得第二差异表达基因列表以及对应的差异表观遗传特征位点列表；将所述差异表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析，获得对应的第三功能特征位点列表；其中，所述第三功能特征位点列表包括：所述差异表观遗传特征位点列表中位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点；对所述第三功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

于本发明的一实施例中，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：将所述功能元件区域列表与所述表观遗传特征位点列表进行功能元件区域重叠性分析，获得重叠功能元件区域列表；其中，所述重叠功能元件区域列表包括：所述表观遗传特征位点列表中各表观遗传特征位点位于的所述功能元件区域列表中的功能性元件区域；对所述重叠功能元件区域列表执行关联基因注释操作，确定第三关联基因列表；其中，所述第三关联基因列表包括：多个与所述重叠功能元件区域列表中功能性元件区域关联的基因；将所述关联基因列表与所述差异基因列表进行基因重叠性分析获得获得第三差异表达基因列表，并获得对应的第四功能特征位点列表；对所述第四功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

于本发明的一实施例中，所述关联基因注释操作基于物理位置最近原则进行关联基因注释。

于本发明的一实施例中，所述优化筛选操作包括：通过统计学工具对表观遗传特征位点进行优化筛选。

于本发明的一实施例中，所述利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表包括：利用基因组活性区域检测技术，仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的功能元件区域列表。

于本发明的一实施例中，所述利用基因组活性区域检测技术获得疾病状态及健康状态下基因组范围的功能元件区域列表包括：利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表。

于本发明的一实施例中，所述通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表包括：通过RNA水平检测技术或者蛋白水平检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。

于本发明的一实施例中，所述方法还包括：基于各最终功能性特征位点构建对应的诊断模型，以供进行对应的疾病诊断。

为实现上述目的及其他相关目的，本发明提供一种基于多组学的功能性生物标记物筛选系统，所述系统包括：表观遗传特征位点捕获模块，用于对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表；功能元件区域定义模块，用于利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表；差异基因检测模块，用于通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表；筛选模块，连接所述表观遗传特征位点捕获模块、功能元件区域定义模块以及差异基因检测模块，用于基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点。

为实现上述目的及其他相关目的，本发明提供一种基于多组学的功能性生物标记物筛选终端，包括：一或多个存储器及一或多个处理器；所述一或多个存储器，用于存储计算机程序；所述一或多个处理器，连接所述存储器，用于运行所述计算机程序以执行所述基于多组学的功能性生物标记物筛选方法。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被一个或多个处理器运行时执行所述基于多组学的功能性生物标记物筛选方法。

如上所述，本发明是一种基于多组学的功能性生物标记物筛选方法、系统、终端及介质，具有以下有益效果：本发明建立了一套基于多组学的功能指导的生物标记物的筛选评价体系，通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表，筛选分离能够影响生物学功能的特征，可以更有效的发现具有生物学功能的DNA层面的分子标记物，从而可进一步开发为具有实用性的诊断工具。

附图说明

图1显示为本发明一实施例中的基于多组学的功能性生物标记物筛选方法的流程示意图。

图2显示为本发明一实施例中的采用第一种方式筛选最终功能性特征位点示意图。

图3显示为本发明一实施例中的采用第二种方式筛选最终功能性特征位点示意图。

图4显示为本发明一实施例中的采用第三种方式筛选最终功能性特征位点示意图。

图5显示为本发明一实施例中的功能差异甲基化位点对应的差异表达基因分布示意图。

图6显示为本发明一实施例中的21个功能性甲基化生物标记物的性能表现示意图。

图7显示为本发明一实施例中的基于功能DNA甲基化分子标记物的诊断工具开发策略流程图。

图8显示为本发明一实施例中的基于多组学的功能性生物标记物筛选系统的结构示意图。

图9显示为本发明一实施例中的基于多组学的功能性生物标记物筛选终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内，可以言及到第二部分、成分、区域、层或段。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本发明提供一种基于多组学的功能性生物标记物筛选方法，建立了一套基于多组学的功能指导的生物标记物的筛选评价体系，通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表，筛选分离能够影响生物学功能的特征，可以更有效的发现具有生物学功能的DNA层面的分子标记物，从而可进一步开发为具有实用性的诊断工具。

下面以附图为参考，针对本发明的实施例进行详细说明，以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现，并不限于此处说明的实施例。

如图1展示本发明实施例中的一种基于多组学的功能性生物标记物筛选方法的流程示意图。

本发明主要针对基因组DNA水平的分子标记物的筛选，包括但不限于DNA突变、缺失、倒位、甲基化等任意方面的改变；所述方法包括：

步骤S1：对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表。

具体的，进行DNA层面变异或表观遗传等整体特征的捕获，对疾病状态及健康状态对照样本进行差异统计分析出在两种不同状态下的改变的表观遗传特征位点，以获得表观遗传特征位点列表。

步骤S2：利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表。

在一实施例中，利用基因组活性区域检测技术，仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的具有显著信号的各功能元件区域，以获得功能元件区域列表；功能元件区域列表的功能元件区域涉及基因组的编码区域以及非编码区域；

对于同时采用疾病状态样本以及健康状态样本的情况，可以通过对比疾病状态样本以及健康状态样本之间的差异进行基因组活性区域检测获得功能元件区域列表。

在一实施例中，所述利用基因组活性区域检测技术获得疾病状态及健康状态下基因组范围的功能元件区域列表包括：利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术(ATAC-seq/DNase-seq/FAIRE-seq等)以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表；

需要说明的是，除了以上提到的技术还可以采用其他基因组活性区域的检测技术。

步骤S3：通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。

在一实施例中，步骤S3包括：通过RNA水平检测技术或者蛋白水平检测技术对疾病状态及健康状态对照样本进行检测获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。

具体的，RNA水平检测技术或者蛋白水平检测技术包括但不限于RNA-seq或者质谱分析。

需要说明的是，本步骤采用的疾病状态及健康状态对照样本可以为步骤S1的对照样本也可以为自定义的对照样本。

步骤S4：基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点。

在一实施例中，步骤S4包括：基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点。

为了更好的说明，基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点的方式，以下结合具体实施例进行说明。

若获得所述表观遗传特征位点列表A、功能元件区域列表B以及差异基因列表C，基于上述列表A、B以及C进行生物标记物筛选的方式具体为以下三种方式：

在一实施例中，如图2所示，第一种方式：

将所述表观遗传特征位点列表A与功能元件区域列表B进行特征位点重叠性分析，获得第一功能特征位点列表D1；其中，所述第一功能特征位点列表D1包括：位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点；

对所述第一功能特征位点列表D1执行关联基因注释操作，确定第一关联基因列表E1；其中，所述第一关联基因列表E1包括：多个与所述第一功能特征位点列表D1中表观遗传特征位点关联的基因；

将所述第一关联基因列表E1与差异基因列表C进行基因重叠性分析获得第一差异表达基因列表F1，并获得对应的第二功能特征位点列表D2；具体的，将所述第一关联基因列表E1与差异基因列表C之间重复基因提取，获得第一差异表达基因列表F1；由于所述第一关联基因列表E1的各基因分别与第一功能特征位点列表D1中的一或多个的表观遗传特征位点相关联，因此，根据第一差异表达基因列表F1的各基因可获得对应的第二功能特征位点列表D2。

对所述第二功能特征位点列表D2中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

在一实施例中，如图3所示，第二种方式为：

对所述表观遗传特征位点列表A执行关联基因注释操作，确定第二关联基因列表E2；其中，所述第二关联基因列表E2包括：多个与所述表观遗传特征位点列表A中表观遗传特征位点关联的基因；

将所述差异基因列表C以及所述第二关联基因列表E2进行基因重叠性分析，获得第二差异表达基因列表F2以及对应的差异表观遗传特征位点列表G；具体的，获得所述差异基因列表C以及所述第二关联基因列表E2重叠的基因，由于所述第二关联基因列表E2的各基因分别与所述表观遗传特征位点列表A中的一或多个的表观遗传特征位点相关联，因此，根据第二差异表达基因列表F2的各基因可获得对应的差异表观遗传特征位点列表G。

将所述差异表观遗传特征位点列表G与功能元件区域列表B进行特征位点重叠性分析，获得对应的第三功能特征位点列表D3；其中，所述第三功能特征位点列表D3包括：所述差异表观遗传特征位点列表G中位于所述功能元件区域列表B中功能性元件区域的多个表观遗传特征位点；

对所述第三功能特征位点列表D3中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

在一实施例中，如图4所示，第三种方式为：

将所述功能元件区域列表B与所述表观遗传特征位点列表A进行功能元件区域重叠性分析，获得重叠功能元件区域列表H；其中，所述重叠功能元件区域列表H包括：所述表观遗传特征位点列表A中各表观遗传特征位点位于的所述功能元件区域列表B中的功能性元件区域；

对所述重叠功能元件区域列表H执行关联基因注释操作，确定第三关联基因列表E3；其中，所述第三关联基因列表E3包括：多个与所述重叠功能元件区域列表中功能性元件区域关联的基因；

将所述关联基因列表E3与所述差异基因列表C进行基因重叠性分析获得获得第三差异表达基因列表F3，并获得对应的第四功能特征位点列表D4；具体的，获得所述关联基因列表E3与所述差异基因列表C之间重叠的基因，由于所述第三差异表达基因列表F3的各基因分别与所述表观遗传特征位点列表A中的一或多个的表观遗传特征位点相关联(由于所述功能元件区域列表B与所述表观遗传特征位点列表A获得重叠功能元件区域列表H，再获得第三关联基因列表E3，所述关联基因列表E3与所述差异基因列表C获得第三差异表达基因列表F3，因此所述第三差异表达基因列表F3的各基因对应有所述表观遗传特征位点列表A中的一或多个的表观遗传特征位点)；因此，根据所述第三差异表达基因列表F3的各基因可获得对应的第四功能特征位点列表D4。

对所述第四功能特征位点列表D4中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

在一实施例中，以上三种方式提到的关联基因注释操作基于物理位置最近原则进行关联基因注释；优选的，应用基因组区域注释工具GREAT进行关联基因注释。

在一实施例中，以上三种方式采用的优化筛选操作包括：通过统计学工具进行对表观遗传特征位点进行优化筛选；

优选的，通过LASSO进行优化筛选得到性能表现优越的具有应用价值的最终功能性特征。

在一实施例中，所述方法还包括：基于各最终功能性特征位点构建对应的诊断模型，通过算法模型评估其作为生物标记物的可行性，以供进行对应的疾病诊断。

为了更好的描述基于多组学的功能性生物标记物筛选方法，提供以下具体实施例进行说明；

实施例1：一种甲状腺癌中功能性DNA甲基化生物标记物的筛选方法。

所述方法包括：

通过简并代表性亚硫酸氢盐测序技术(RRBS)对30个甲状腺癌组织及19个甲状腺结节良性组织进行全基因组范围的甲基化水平进行系统检测，通过数据统计分析，共得到780个显著差异的甲基化位点特征。同时利用染色质免疫共沉淀测序技术对基因组水平的组蛋白H3第27位赖氨酸的乙酰化(H3K27ac)水平进行检测，统计分析出在甲状腺肿瘤及良性组织中的存在显著信号的区域13221个。然后将上述780个差异甲基化位点与有显著H3K27ac信号的5000个区域进行重叠性分析，共得到523个差异甲基化位点,410个位点位于增强子上，113个位点位于启动子上。根据基因组上的基因位置，我们将物理位置上距离差异甲基化位点最近的基因定义为其相关联基因，基于此逻辑我们共定义523个差异甲基化位点关联基因182个。此外，通过RNA-seq，我们在甲状腺癌及良性组织中共鉴定了3556个差异表达基因。通过重叠性分析，共得到有36个差异甲基化位点关联基因，其对应着134个功能性差异甲基化位点，如图5。进一步地，通过回归分析分析方法LASSO对134个特征进一步优化得到21个终极功能性DNA甲基化特征进行建模用于评估其在甲状腺癌诊断中的性能表现，如图6。

同样的，另外一种实现方式，如图7所示，也可以先将上述780个差异甲基化位点进行差异甲基化位点关联基因确认，再与3556个差异表达基因通过重叠性分析获得差异甲基化位点，再与有显著H3K27ac信号的5000个区域进行重叠性分析获得功能甲基化标记物，通过回归分析分析方法LASSO对功能甲基化标记物进一步优化得到多个终极功能性DNA甲基化特征进行建模用于评估其在甲状腺癌诊断中的性能表现。

由此，本实施例建立了一套基于多组学的功能指导的生物标记物的筛选评价体系，通过整合DNA测序、基因表达谱测序及基因功能区域的测序数据筛选分离能够影响生物学功能的特征，从而进一步通过算法模型评估其作为生物标记物的可行性。

与上述实施例原理相似的是，本发明提供一种基于多组学的功能性生物标记物筛选系统。

以下结合附图提供具体实施例：

如图8展示本发明实施例中的一种基于多组学的功能性生物标记物筛选系统的结构示意图。

所述系统包括：

表观遗传特征位点捕获模块81，用于对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表；

功能元件区域定义模块82，用于利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表；

差异基因检测模块83，用于通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表；

筛选模块84，连接所述表观遗传特征位点捕获模块81、功能元件区域定义模块82以及差异基因检测模块83，用于基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点

需说明的是，应理解图8系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现；

例如各模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

由于该基于多组学的功能性生物标记物筛选系统的实现原理已在前述实施例中进行了叙述，因此此处不作重复赘述。

在一实施例中，所述筛选模块84用于基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点。

在一实施例中，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：将所述表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析，获得第一功能特征位点列表；其中，所述第一功能特征位点列表包括：位于所述第一功能元件区域列表中功能性元件区域的多个表观遗传特征位点；对所述第一功能特征位点列表执行关联基因注释操作，确定第一关联基因列表；其中，所述第一关联基因列表包括：多个与所述功能特征位点列表中表观遗传特征位点关联的基因；将所述第一关联基因列表与差异基因列表进行基因重叠性分析获得第一差异表达基因列表，并获得对应的第二功能特征位点列表；对所述第二功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

在一实施例中，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：对所述表观遗传特征位点列表执行关联基因注释操作，确定第二关联基因列表；其中，所述第二关联基因列表包括：多个与所述表观遗传特征位点列表中表观遗传特征位点关联的基因；将所述差异基因列表以及所述第二关联基因列表进行基因重叠性分析，获得第二差异表达基因列表以及对应的差异表观遗传特征位点列表；将所述差异表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析，获得对应的第三功能特征位点列表；其中，所述第三功能特征位点列表包括：所述差异表观遗传特征位点列表中位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点；对所述第三功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

在一实施例中，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：将所述功能元件区域列表与所述表观遗传特征位点列表进行功能元件区域重叠性分析，获得重叠功能元件区域列表；其中，所述重叠功能元件区域列表包括：所述表观遗传特征位点列表中各表观遗传特征位点位于的所述功能元件区域列表中的功能性元件区域；对所述重叠功能元件区域列表执行关联基因注释操作，确定第三关联基因列表；其中，所述第三关联基因列表包括：多个与所述重叠功能元件区域列表中功能性元件区域关联的基因；将所述关联基因列表与所述差异基因列表进行基因重叠性分析获得获得第三差异表达基因列表，并获得对应的第四功能特征位点列表；对所述第四功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

在一实施例中，所述关联基因注释操作基于物理位置最近原则进行关联基因注释。

在一实施例中，所述优化筛选操作包括：通过统计学工具对表观遗传特征位点进行优化筛选。

在一实施例中，所述功能元件区域定义模块82用于利用基因组活性区域检测技术，仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的功能元件区域列表。

在一实施例中，所述功能元件区域定义模块82用于利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表。

在一实施例中，差异基因检测模块83通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表包括：通过RNA水平检测技术或者蛋白水平检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。

在一实施例中，所基于多组学的功能性生物标记物筛选系统还用于基于各最终功能性特征位点构建对应的诊断模型，以供进行对应的疾病诊断。

如图9展示本发明实施例中的基于多组学的功能性生物标记物筛选终端90的结构示意图。

所述基于多组学的功能性生物标记物筛选终端90包括：存储器91及处理器92。所述存储器91用于存储计算机程序；所述处理器92运行计算机程序，实现如图1所述的基于多组学的功能性生物标记物筛选方法。

可选的，所述存储器91的数量均可以是一或多个，所述处理器92的数量均可以是一或多个，而图9中均以一个为例。

可选的，所述基于多组学的功能性生物标记物筛选终端90中的处理器92会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器91中，并由处理器92来运行存储在第一存储器91中的应用程序，从而实现如图1所述基于多组学的功能性生物标记物筛选方法中的各种功能。

可选的，所述存储器91，可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备；所述处理器92，可能包括但不限于中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，所述处理器92可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供计算机可读存储介质，存储有计算机程序，所述计算机程序运行时实现如图1所示的基于多组学的功能性生物标记物筛选方法。所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

综上所述，本发明的基于多组学的功能性生物标记物筛选方法、系统、终端及介质，建立了一套基于多组学的功能指导的生物标记物的筛选评价体系，通过对疾病状态及健康状态对照样本进行差异统计分析、进行基因组活性区域检测以及表达层面检测获得的在疾病状态及健康状态下的表观遗传特征位点列表、功能元件区域列表以及差异基因列表，筛选分离能够影响生物学功能的特征，可以更有效的发现具有生物学功能的DNA层面的分子标记物，从而可进一步开发为具有实用性的诊断工具。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于多组学的功能性生物标记物筛选方法，其特征在于，所述方法包括：

对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表；

利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表；

通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表；

基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点；功能元件区域列表的功能元件区域涉及基因组的编码区域以及非编码区域；

其中，所述基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点包括：基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点；

所述关联基因注释操作基于物理位置最近原则进行关联基因注释；所述优化筛选操作包括：通过统计学工具对表观遗传特征位点进行优化筛选。

2.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：

将所述表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析，获得第一功能特征位点列表；其中，所述第一功能特征位点列表包括：位于第一功能元件区域列表中功能性元件区域的多个表观遗传特征位点；

对所述第一功能特征位点列表执行关联基因注释操作，确定第一关联基因列表；其中，所述第一关联基因列表包括：多个与所述功能特征位点列表中表观遗传特征位点关联的基因；

将所述第一关联基因列表与差异基因列表进行基因重叠性分析获得第一差异表达基因列表，并获得对应的第二功能特征位点列表；

对所述第二功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

3.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：

对所述表观遗传特征位点列表执行关联基因注释操作，确定第二关联基因列表；其中，所述第二关联基因列表包括：多个与所述表观遗传特征位点列表中表观遗传特征位点关联的基因；

将所述差异基因列表以及所述第二关联基因列表进行基因重叠性分析，获得第二差异表达基因列表以及对应的差异表观遗传特征位点列表；

将所述差异表观遗传特征位点列表与功能元件区域列表进行特征位点重叠性分析，获得对应的第三功能特征位点列表；其中，所述第三功能特征位点列表包括：所述差异表观遗传特征位点列表中位于所述功能元件区域列表中功能性元件区域的多个表观遗传特征位点；

对所述第三功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

4.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述基于表观遗传特征位点列表、功能元件区域列表以及差异基因列表，分别执行重叠性分析操作、关联基因注释操作以及优化筛选操作获得对应的最终功能性特征位点包括：

将所述功能元件区域列表与所述表观遗传特征位点列表进行功能元件区域重叠性分析，获得重叠功能元件区域列表；其中，所述重叠功能元件区域列表包括：所述表观遗传特征位点列表中各表观遗传特征位点位于的所述功能元件区域列表中的功能性元件区域；

对所述重叠功能元件区域列表执行关联基因注释操作，确定第三关联基因列表；其中，所述第三关联基因列表包括：多个与所述重叠功能元件区域列表中功能性元件区域关联的基因；

将所述关联基因列表与所述差异基因列表进行基因重叠性分析获得获得第三差异表达基因列表，并获得对应的第四功能特征位点列表；

对所述第四功能特征位点列表中的各表观遗传特征位点执行优化筛选操作，获得对应的最终功能性特征位点。

5.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表包括：

利用基因组活性区域检测技术，仅采用疾病状态样本或同时采用疾病状态样本以及健康状态样本进行基因组活性区域检测获得疾病状态及健康状态下基因组范围的功能元件区域列表。

6.根据权利要求1或5中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述利用基因组活性区域检测技术获得疾病状态及健康状态下基因组范围的功能元件区域列表包括：利用不同组蛋白的染色质免疫共沉淀测序技术、不同转录因子的染色质免疫共沉淀测序技术、染色质可及性检测技术以及染色质相互作用检测技术中的一种或多种获得疾病状态及健康状态下基因组范围的功能元件区域列表。

7.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表包括：通过RNA水平检测技术或者蛋白水平检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表。

8.根据权利要求1中所述的基于多组学的功能性生物标记物筛选方法，其特征在于，所述方法还包括：

基于各最终功能性特征位点构建对应的诊断模型，以供进行对应的疾病诊断。

9.一种基于多组学的功能性生物标记物筛选系统，其特征在于，所述系统包括：

表观遗传特征位点捕获模块，用于对疾病状态及健康状态对照样本进行差异统计分析获得对应在疾病状态及健康状态下具有显著差异的表观遗传特征位点列表；

功能元件区域定义模块，用于利用基因组活性区域检测技术获得在疾病状态及健康状态下基因组范围的功能元件区域列表；

差异基因检测模块，用于通过表达层面检测技术获得在疾病状态以及健康状态下存在表达显著差异的差异基因列表；

筛选模块，连接所述表观遗传特征位点捕获模块、功能元件区域定义模块以及差异基因检测模块，用于基于所述表观遗传特征位点列表、功能元件区域列表以及差异基因列表进行生物标记物筛选，获得对应的最终功能性特征位点；功能元件区域列表的功能元件区域涉及基因组的编码区域以及非编码区域；

10.一种基于多组学的功能性生物标记物筛选终端，其特征在于，包括：一或多个存储器及一或多个处理器；

所述一或多个存储器，用于存储计算机程序；

所述一或多个处理器，连接所述存储器，用于运行所述计算机程序以执行如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被一个或多个处理器运行时执行如权利要求1至8中任一项所述的方法。