CN108830045A

CN108830045A - 一种基于多组学的生物标记物系统筛选方法

Info

Publication number: CN108830045A
Application number: CN201810712098.1A
Authority: CN
Inventors: 王莹莹; 周静雯; 蔡云鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-16
Anticipated expiration: 2038-06-29
Also published as: CN108830045B

Abstract

本发明提供了一种基于多组学的生物标记物系统筛选方法。所述方法包括：基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表；根据显著差异表达基因列表，分别获取miRNA组学层面特征标记物和蛋白质组学层面特征标记物；构建显著差异表达基因列表中的显著差异表达基因的特征向量，并基于向量筛选出两种不同条件的患者样本群之间的多组学生物标记物。本发明通过结合转录组学、miRNA组学和蛋白质组学等三个层面数据筛选生物标记物，筛选方法准确度高，结论涵盖对于多因素多层面考量，更加全面，为生命科学领域的科研人员对于生物标记物的筛选和进一步探究提供了巨大的方便。

Description

一种基于多组学的生物标记物系统筛选方法

技术领域

本发明涉及生物标记物筛选技术领域，更具体地说，涉及一种基于多组学的生物标记物系统筛选方法。

背景技术

在对复杂疾病的研究中，生物标记物由于在疾病早期检测、治疗及疗效监测等多个方面发挥重要作用而成为直接有效的诊断手段和备受关注的研究对象。利用基因芯片技术及深度测序技术可以在同一时间内定量分析大量的RNA的表达并发现潜在的疾病生物标记物。miRNA组学也同样可以应用于发现潜在生物标记物。研究蛋白质组的复杂性更利于回答关于生命活动的问题并筛选重要蛋白作为潜在生物标记物。

复杂疾病的生物标记物数量庞大且其间互作关系错综复杂，但传统的技术中均为基于单一组学数据来筛选生物标记物，针对生物标记物的筛选方法准确率低，结论过于片面，计算结果生物学意义不大，为生命科学领域的科研人员对生物标记物的筛选和进一步探究造成了不便。

发明内容

有鉴于此，本发明提供一种基于多组学的生物标记物系统筛选方法以解决现有技术的不足。为解决上述问题，本发明提供一种基于多组学的生物标记物系统筛选方法，包括：

基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表；根据所述显著差异表达基因列表，分别获取miRNA 组学层面特征标记物和蛋白质组学层面特征标记物；根据所述miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物。

优选地，所述miRNA组学层面特征标记物的获取，包括：通过miRNA- 靶基因关系预测算法获取靶基因集合列表；通过Fisher检验法计算得到所述显著差异表达基因列表在每个所述靶基因集合列表中的富集P值；对所述富集P值设定的第一阈值，并根据所述第一阈值筛选出所述miRNA组学层面特征标记物。

优选地，每个所述靶基因集合列表对应一个miRNA；并且，每个所述靶基因集合列表包含至少一个基因序列。

优选地，所述蛋白质组学层面特征标记物的获取，包括：获取显著差异表达基因列表中的每个基因对应的蛋白质名称；获取与所述显著差异表达基因列表中每个基因对应的所述蛋白质名称相匹配的蛋白质相互作用数据对，作为PPI数据集；基于图论算法，计算得出所述PPI数据集中每个显著差异表达基因列表的显著差异表达基因对应的蛋白质的常用中心性度量指标；根据所述常用中心性度量指标，对所述显著差异表达基因列表中每个基因对应的蛋白质进行排序，得到排序列表；接收根据所述排序列表所设定的第二阈值，筛选出所述排序列表中的所述蛋白质组学层面特征标记物。

优选地，所述“接收根据所述排序列表所设定的第二阈值，筛选出所述排序列表中的所述蛋白质组学层面特征标记物”之后，还包括：对所述PPI 数据集进行可视化分析，并通过可视化分析提取出所述PPI数据集中的重要蛋白。

优选地，所述常用中心性度量指标包括介数中心性、紧密中心性和度中心性。

优选地，所述“基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表”，包括：接收基于目标疾病的两种不同条件的患者样本群的mRNA表达谱数据；通过单基因差异表达分析方法，计算得出每个mRNA表达谱数据中的基因在所述两种不同条件的患者样本群之间的表达水平差异值；接收对所述表达水平差异值所设定的第三阈值，根据所述第三阈值筛选出每个mRNA表达谱数据中统计学显著的差异表达基因，并基于所述差异表达基因构建候选差异表达基因列表；计算所述候选差异表达基因列表的并集中的每个基因的观测RP值；利用假设检验法，基于随机重排列方法设置随机模拟试验，预测所述观测RP值在假设条件下的分布，得到所述候选差异表达基因列表的并集中的基因的PFP估计值；接收对所述PFP估计值设定的PFP上界值，根据所述PFP上界值筛选出显著差异表达基因，并基于所述显著差异表达基因构建所述显著差异表达基因列表。

优选地，所述“根据所述miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物”包括：针对所述显著差异表达基因列表中的显著差异表达基因，构建包含多列数值的特征向量；对所述特征向量取平均值，得到每个所述显著差异表达基因对应的特征评分；对每个所述显著差异表达基因根据所述特征评分进行排序，根据排序提取排名前预设百分率下的所述显著差异表达基因作为所述多组学层面特征标记物。

优选地，所述包含多列数值的特征向量中包括三列数值；其中，第一列数值为所述显著差异表达基因的p值在所述显著差异表达基因列表中的升序排列的第一秩次值；第二列数值为计算所述显著差异表达基因列表中的显著差异表达基因所靶向的所述miRNA组学层面特征标记物的数量，根据所计算的数量进行降序排列的第二秩次值；第三列数值为所述显著差异表达基因所对应的蛋白质在所述PPI数据集中的降序排列所得到的第三秩次值。

优选地，所述多组学层面特征标记物包括一个显著差异表达基因、至少一个miRNA，以及至少一个蛋白质。

本发明提供的一种基于多组学的生物标记物系统筛选方法。其中，本发明所提供的方法通过构建显著差异表达基因列表，并且根据显著差异表达基因列表获取miRNA组学层面特征标记物和蛋白质组学层面特征标记物，进而筛选出两种不同条件的所述患者样本群之间的多组学生物标记物。本发明提供了从转录组学、miRNA组学和蛋白质组学三个层面设计筛选复杂疾病生物标记物的方法，从分子层面发现复杂疾病的生物标记物，为复杂疾病的诊断、治疗和疗效检测等方面提供参考。本发明通过结合转录组学、miRNA组学和蛋白质组学等三个层面数据筛选生物标记物，筛选方法准确度高，结论涵盖对于多因素多层面考量，更加全面，为生命科学领域的科研人员对于生物标记物的筛选和进一步探究提供了巨大的方便。

附图说明

图1为本发明基于多组学的生物标记物系统筛选方法实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于多组学的生物标记物系统筛选方法第一实施例的流程示意图；

图3为本发明基于多组学的生物标记物系统筛选方法第二实施例的流程示意图；

图4为本发明基于多组学的生物标记物系统筛选方法第三实施例的流程示意图；

图5为本发明基于多组学的生物标记物系统筛选方法第四实施例的流程示意图；

图6为本发明基于多组学的生物标记物系统筛选方法第五实施例的流程示意图；

图7为本发明基于多组学的生物标记物系统筛选方法第六实施例的流程示意图；

图8为本发明基于多组学的生物标记物系统筛选方法第六实施例的系统框架示意图；

图9为本发明基于多组学的生物标记物系统筛选方法第六实施例的PPI 数据集可视化示意图；

图10为本发明一种基于多组学的生物标记物系统筛选装置的功能模块示意图；

图11为本发明又一种基于多组学的生物标记物系统筛选装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。

本发明实施例终端可以是的PC，也可以是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、便携计算机等可移动式终端设备。此外，也可为服务端或云端大型计算机设备，或者多台相同或不同类型的计算机相组合作为终端进行集成运算。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，终端还可以包括RF(Radio Frequency，射频)电路、音频电路、WiFi模块等等。此外，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及基于多组学的生物标记物系统筛选程序。

本发明提供的一种基于多组学的生物标记物系统筛选方法。其中，所述方法通过结合转录组学、miRNA组学和蛋白质组学等三个层面数据筛选生物标记物，筛选方法准确度高，结论涵盖对于多因素多层面考量，更加全面，为生命科学领域的科研人员对于生物标记物的筛选和进一步探究提供了巨大的方便。

实施例1：

参照图2，本发明第一实施例提供一种基于多组学的生物标记物系统筛选方法，包括：

步骤S10，基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表；

上述，不同条件为两组患者样本群的区别点，可以包括但不限于：1、年龄区别，例如一组为年龄小于50岁，另一组为年龄大于80岁；2、身体情况，例如，一组患有糖尿病，另一组没有糖尿病；3、性别区别，一组为男性，另一组为女性；4、民族或人种区别，一组为黄种人，另一组为白种人等等。

上述，本步骤所获取的为显著差异表达基因列表，为基于转录组学层面的特征标记物的获取。其中，需要说明的是，转录组学，是指-门在整体水平上研究细胞中基因转录的情况及转录调控规律的学科。转录组学是从RNA水平研究基因表达的情况。转录组即一个活细胞所能转录出来的所有RNA的总和，是研究细胞表型和功能的一个重要手段。以DNA为模板合成RNA的转录过程是基因表达的第一步，也是基因表达调控的关键环节。所谓基因表达，是指基因携带的遗传信息转变为可辨别的表型的整个过程。与基因组不同的是，转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下，其基因表达情况是不完全相同的。通常，同一种组织表达几乎相同的一套基因以区别于其他组织，如脑组织或心肌组织等分别只表达全部基因中不同的30％而显示出组织的特异性。

上述，需要说明的是，mRNA，即信使RNA，是由DNA的一条链作为模板转录而来的、携带遗传信息的能指导蛋白质合成的一类单链核糖核酸。mRNA携带遗传信息，在蛋白质合成时充当模板的RNA。从脱氧核糖核酸(DNA)转录合成的带有遗传信息的一类单链核糖核酸(RNA)。它在核糖体上作为蛋白质合成的模板，决定肽链的氨基酸排列顺序。mRNA存在于原核生物和真核生物的细胞质及真核细胞的某些细胞器(如线粒体和叶绿体)中。

上述，需要说明的是，基因表达谱指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库，大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成，从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息，这样编制成的数据表就称为基因表达谱。

上述，不同条件的患者样本群中包含有多个不同的患者样本(人)，并且，每个患者样本中可以包含有一个或多个mRNA表达谱数据。

上述，显著差异表达基因列表为体现两种不同条件患者样本群之间的存在的差异基因的显著差异的情况。具体的，可以为在两组条件不同的患者样本群之间的具有一定差异性的基因的列表。

基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表。

步骤S20，根据所述显著差异表达基因列表，分别获取miRNA组学层面特征标记物和蛋白质组学层面特征标记物；

上述，需要说明的是，miRNA，即为MicroRNA是一类内生的、长度约20-24个核苷酸的小RNA，几个miRNAs也可以调节同一个基因。可以通过几个miRNAs的组合来精细调控某个基因的表达。据推测，miRNA调节着人类三分之一的基因。MicroRNA存在多种形式，最原始的是 pri-miRNA，长度大约为300～1000个碱基；pri-miRNA经过一次加工后，成为pre-miRNA即microRNA前体，长度大约为70-90个碱基；pre-miRNA 再经过Dicer酶酶切后，成为长约20～24nt的成熟miRNA。

上述，需要说明的是，蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。一般说，蛋白质约占人体全部质量的18％，最重要的还是其与生命现象有关。蛋白质是生命的物质基础，是有机大分子，是构成细胞的基本有机物，是生命活动的主要承担者。没有蛋白质就没有生命。氨基酸是蛋白质的基本组成单位。

上述，根据显著差异表达基因列表，分别在miRNA组学层面和蛋白质组学层面获得miRNA组学层面特征标记物和蛋白质组学层面特征标记物。

步骤S30，根据所述miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物。

上述，在数学中，向量(也称为欧几里得向量、几何向量、矢量)，指具有大小(magnitude)和方向的量。

根据分别所获取的miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，进行不同组学的特征标记物的整合与筛选，进而得到最终的多组学层面特征标记物。

本实施例所提供的方法通过构建显著差异表达基因列表，并且根据显著差异表达基因列表获取miRNA组学层面特征标记物和蛋白质组学层面特征标记物，进而筛选出两种不同条件的所述患者样本群之间的多组学生物标记物。本实施例提供了从转录组学、miRNA组学和蛋白质组学三个层面设计筛选复杂疾病生物标记物的方法，从分子层面发现复杂疾病的生物标记物，为复杂疾病的诊断、治疗和疗效检测等方面提供参考。本实施例通过结合转录组学、miRNA组学和蛋白质组学等三个层面数据筛选生物标记物，筛选方法准确度高，结论涵盖对于多因素多层面考量，更加全面，为生命科学领域的科研人员对于生物标记物的筛选和进一步探究提供了巨大的方便。

实施例2：

参照图3，本发明第二实施例提供一种基于多组学的生物标记物系统筛选方法，基于上述图2所示的第一实施例，所述步骤S20中，miRNA组学层面特征标记物的获取，包括：

步骤S21，通过miRNA-靶基因关系预测算法获取靶基因集合列表；

上述，在进行miRNA组学层面特征标记物的获取的步骤中，需要输入两个数据，其一为显著差异表达基因列表，另一个为miRNA-靶基因关系预测的数据，即为靶基因集合列表。该靶基因集合列表可由现有数据库中通过运算进行获得。即为，每个miRNA对应一个靶基因集合列表，里面是它的靶基因集合。

miRNA-靶基因关系预测算法为从miRNA种子区域(通常为miRNA上第2到第8个碱基之间的区域)与基因的3’UTR之间的序列匹配程度、 miRNA与基因结合所需能量，及miRNA-基因在不同物种之间的保守性。不同的靶基因预测算法多从上述的某个或多个角度出发，设计算法。具体而言，常用的预测算法为：包括但不限于DIANA-microT,mirSVR、PicTar5、RNA22、RNAhybrid、TargetScan、PITA、MirTarget2、TargetMiner和miRanda 等方法。

步骤S22，通过Fisher检验法计算得到所述显著差异表达基因列表在每个所述靶基因集合列表中的富集P值；

上述，Fisher检验法即为Fisher精确概率检验，是用来判断两个变量之间是否存在非随机相关性的一种统计学检验方法。假设检验用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下：随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下，一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

超几何分布(无放回产品抽样实验)：样本产品数N，其中不合格产品数D，无放回抽取产品数n，则其中不合格产品数为k的概率服从超几何分布。Fisher精确检验是基于超几何分布的一种假设检验。Fisher精确检验的列联表其实就是无放回产品抽样实验的一个具体结果实例。而这个具体的实例可以分解出8个类似产品抽样实验的具体实例结果。根据给出的数据可以计算出每个抽样结果基于假设的超几何分布概率。根据其中之一抽样结果的概率，通过假设检验的原则即可推定假设是否成立。

上述，P值，是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。总之，P值越小，表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

步骤S23，对所述富集P值设定的第一阈值，并根据所述第一阈值筛选出所述miRNA组学层面特征标记物。

每个所述靶基因集合列表对应一个miRNA；并且，每个所述靶基因集合列表包含至少一个基因序列。

上述，输入显著差异表达基因列表，利用Fisher精确检验，计算差异表达基因列表在每个miRNA靶基因集合列表中的富集p值，设定阈值，不大于阈值的miRNA即作为筛选得到的miRNA组学层面的特征标记物。其中，每个miRNA对应一个列表，里面是它的靶基因集合。本实施例中，通过利用多种不同的miRNA-靶基因关系预测算法，从而获取到miRNA组学层面数据，即为靶基因集合列表，并通过Fisher精确检验，计算显著差异表达基因列表在任意miRNA靶基因集合列表中的富集情况，即通过Fisher 检验法计算得到显著差异表达基因列表在每个所述靶基因集合列表中的富集P值，并对所有富集P值设定一个阈值，从而筛选出富集的miRNA功能节点，即为miRNA组学层面特征标记物，实现了基于转录组学层面特征标记物获取的基础上，对于miRNA组学层面特征标记物的获取，并且，通过 Fisher精确检验筛选出miRNA组学层面特征标记物，筛选结果更加精确。

实施例3：

参照图4，本发明第三实施例提供一种基于多组学的生物标记物系统筛选方法，基于上述图2所示的第一实施例，所述步骤S20中，蛋白质组学层面特征标记物的获取，包括：

步骤S25，获取显著差异表达基因列表中的每个基因对应的蛋白质名称，并且获取与所述显著差异表达基因列表中每个基因对应的所述蛋白质名称相匹配的蛋白质相互作用数据对，作为PPI数据集；

上述，蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质。并且，染色体是DNA和组蛋白一起组成的。基因是DNA上面的核酸序列，编码特定的蛋白，所以基因和蛋白质具有对应关系。本实施例中，基于基因与蛋白质的对应关系，获取转录组学层面获取的特征标记物列表，即显著差异表达基因列表中任意基因对应的蛋白质名称组成的列表。

上述，PPI，为蛋白质-蛋白质相互作用(protein-protein interaction,PPI) 是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(protein complex)的过程。

PPI数据集即为PPI网络，其中包括不同蛋白质与蛋白质之间关系的节点数据，即为蛋白质相互作用数据对。

上述，PPI数据集为通过查询网络公开数据库，从而筛选出的任意包含显著差异表达基因列表中任意基因的“蛋白质-蛋白质”相互作用的数据对，作为PPI数据集。构建的PPI网络(PPI数据集)用于计算网络中每个节点的拓扑性质，根据计算结果排序，排序靠前的即为蛋白质组学层面的特征标记物。

步骤S26，基于图论算法，计算得出所述PPI数据集中每个显著差异表达基因列表的显著差异表达基因对应的蛋白质的常用中心性度量指标；

所述常用中心性度量指标包括介数中心性、紧密中心性和度中心性。

上述，图论算法在计算机科学中扮演着很重要的角色，它提供了对很多问题都有效的一种简单而系统的建模方式。很多问题都可以转化为图论问题，然后用图论的基本算法加以解决。

在本实施例中，通过图论算法，根据图论中的定义，计算出在PPI数据集中，每个显著差异表达基因列表的基因(每个节点)对应的蛋白质的常用中心性度量指标。

上述，度中心性(Degree Centrality)是在网络分析中刻画节点中心性(Centrality)的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。在图论(Graph Theory)与网络分析(Network Analysis)中，中心性(Centrality)是判定网络中节点重要性的指标，是节点重要性的量化。这些中心性度量指标最初应用在社会网络中，随后被推广到其它类型网络的分析中。在社会网络中，一项基本任务是需要鉴定一群人中哪些人比其他人更具有影响力，帮助研究人员分析和理解扮演者在网络中担当的角色。为完成这种分析，这些人以及人与人之间的联系被模型化成网络图，网络图中的节点代表人，节点之间的连边表示人与人之间的联系。基于建立起来的网络结构图，使用一系列中心性度量方法就可以计算出哪个个体比其他个体更重要。

上述，需要说明的是，介数中心性，即为中介中心性(closeness)，指的是一个结点担任其它两个结点之间最短路的桥梁的次数。一个结点充当“中介”的次数越高，它的中介中心度就越大。如果要考虑标准化的问题，可以用一个结点承担最短路桥梁的次数除以所有的路径数量。

上述，需要说明的是，紧密中心性也为接近中心性(betweenness)，需要考量每个结点到其它结点的最短路的平均长度。也就是说，对于一个结点而言，它距离其它结点越近，那么它的中心度越高。一般来说，那种需要让尽可能多的人使用的设施，它的接近中心度一般是比较高的。

步骤S27，根据所述常用中心性度量指标，对所述显著差异表达基因列表中每个基因对应的蛋白质进行排序，得到排序列表；

步骤S28，接收根据所述排序列表所设定的第二阈值，筛选出所述排序列表中的所述蛋白质组学层面特征标记物。

步骤S29，对所述PPI数据集进行可视化分析，并通过可视化分析提取出所述PPI数据集中的重要蛋白。

上述，对蛋白质根据常用中心性度量指标，进行排序，设定一个第二阈值，对排序以中心性度量指标进行筛选，从而得到蛋白质组学层面特征标记物。此外，对PPI数据集进行可视化分析，进行可视化。具体的，可通过可视化软件，例如cytoscape进行对于PPI数据集(PPI网络)的可视化分析，以便于找出其中的重要蛋白(或者其中关键通路)。

在本实施例中，通过基于基因与蛋白质的对应关系，获取得到显著差异表达基因列表中的基因对应的蛋白质及其蛋白质名称，通过公开数据库汇总对PPI数据集进行筛选，并计算其中每个蛋白质对应的三个常用中心性度量指标，并根据该指标进行排序和筛选，从而筛选出排序列表中的蛋白质组学层面特征标记物；进而利用可视化软件对于PPI数据集进行可视化分析，从而找出其中的重要蛋白，实现了根据凸轮算法的基于转录组学层面获取的特征标记物获取蛋白质组学层面特征标物，筛选方法结合多组学层面的特征标记物，使筛选结果更加准确。

实施例4：

参照图5，本发明第四实施例提供一种基于多组学的生物标记物系统筛选方法，基于上述图2所示的第一实施例，所述步骤S10，“基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表”，包括：

步骤S11，接收基于目标疾病的两种不同条件的患者样本群的mRNA 表达谱数据；

上述，用户输入数据，该数据为两种不同的条件下的针对于某目标疾病的患者样本的mRNA表达谱数据。此两种不同条件的数据，用于找出在转录组学层面的区别点和关联。

步骤S12，通过单基因差异表达分析方法，计算得出每个mRNA表达谱数据中的基因在所述两种不同条件的患者样本群之间的表达水平差异值；

上述，本实施例中采用多种单基因差异表达分析方法进行计算，其中，分析方法可以包括但不限于wilcoxon秩和检验、SAM方法、FoldChange 等方法，计算每个基因在两组患者间的表达水平差异。

步骤S13，接收对所述表达水平差异值所设定的第三阈值，根据所述第三阈值筛选出每个mRNA表达谱数据中统计学显著的差异表达基因，并基于所述差异表达基因构建候选差异表达基因列表；

上述，对所有表达水平差异值设定一个阈值，该阈值用于筛选出统计学显著的差异表达基因，并构成候选的差异表达基因列表。在本实施例中，候选差异表达基因列表记做G_i(i＝1,...,n)。

步骤S14，计算所述候选差异表达基因列表的并集中的每个基因的观测 RP值；

上述，运用的是将Rank Products(RP)方法迁移使用于此。所述Rank Products(RP)方法，是一种基于倍数变化的秩的简单无参数的差异特征提取方法，此方法不要求数据集满足特定的分布，采用了简单而严谨的统计方法来确定每个特征的显著性水平，并允许灵活控制错误发现率。

上述，在候选差异列表达基因列表G_i(i＝1,...,n)的并集(在本实施例中，记为G)上迁移使用Rank Products(RP)方法得到基因的整合打分，计算每个基因的观测RP值。具体的，计算基因g的RP值的公式为：

其中对于基因g∈G,

步骤S15，利用假设检验法，基于随机重排列方法设置随机模拟试验，预测所述观测RP值在假设条件下的分布，得到所述候选差异表达基因列表的并集中的基因的PFP估计值；

上述，假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。常用的假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等。

上述，随机模拟也称蒙特卡罗法或统计试验法，这种计算方法以概率与统计理论为基础。随机模拟是指在分析一个系统时，可先构造一个与该系统相似的模型，通过在模型上进行实验来研究原模型，这就是模拟。随机系统可以用概率模型来描述并进行实验，称为随机模拟方法。

上述，PFP，为percentage of false-positives，即为，在进行了多次随机实验后，对每个基因g可以计算将其(以及所有RP值小于或等于RP_g的基因)识别为显著性差异表达基因的假阳性比例(percentage of false-positives,PFP)保守估计，这一估计方法与SAM中进行FDR估计的方法相同。随机模拟实验中被识别为显著差异表达的基因都可以看作是随机选取的，已计算过这样的基因个数为x(RP)，其平均期望值为E(RP)。利用SAM中的估计思想有：

其中rank(g)代表基因g在按照RP值升序排列的列表中的秩。可以利用这一方法为每个基因确定判别的显著性水平，再根据可接受的最大PFP值得到最终判断为差异表达的基因列表。

上述，在本实施例中，利用假设检验方法，决定候选差异表达基因列表的并集(G)中的基因禅意表达的显著水平。通过随机重排列方法设计随机模拟实验，估计RP值在原假设下的分布，从而得到G中的PFP估计值。其中，原假设为统计分析时的对于

需要说明的是，假没检验分为双侧假设检验和单侧假设检验。双侧假设检验所针对的问题是指一些客体的指标过大和过小都不符合要求，或证明总体某个参数是否等于某个特定值。假设的基本设定方法是等号放在原假设，其基本形式为：原假设！"：！％！"，备择假设！#：！！！"。

步骤S16，接收对所述PFP估计值设定的PFP上界值，根据所述PFP 上界值筛选出显著差异表达基因，并基于所述显著差异表达基因构建所述显著差异表达基因列表。

上述，设定一个阈值进行筛选，即为PFP估计值的上界值，筛选显著差异表达基因，构成显著差异表达基因列表。在本实施例中，通过对不同条件的样本区的mRNA表达谱数据输入作为分析对象，进而运用单基因差异表达分析方法筛选并构建出候选差异表达基因列表，对所述候选差异表达基因列表的并集上使用RP方法得出RP值，并给予假设检验法得出PFP 估计值，进而筛选出其中的显著差异表达基因，建立显著差异表达基因列表，从而完成在转录组学层面特征标记物的获取，获取方法基于多种运算分析方法的结合，数据筛选结果精确。

实施例5：

参照图6，本发明第五实施例提供一种基于多组学的生物标记物系统筛选方法，基于上述图2所示的第一实施例，所述步骤S30，“根据所述miRNA 组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物”包括：

步骤S31，针对所述显著差异表达基因列表中的显著差异表达基因，构建包含多列数值的特征向量；

上述，针对任意一个基于转录组学层面筛选所得到的特征标记物，即为针对显著差异表达基因列表中的显著差异表达基因，构建特征向量，该特征向量为评分向量，可包括多组数值。

所述包含多列数值的特征向量中包括三列数值；其中，第一列数值为所述显著差异表达基因的p值在所述显著差异表达基因列表中的升序排列的第一秩次值；第二列数值为计算所述显著差异表达基因列表中的显著差异表达基因所靶向的所述miRNA组学层面特征标记物的数量，根据所计算的数量进行降序排列的第二秩次值；第三列数值为所述显著差异表达基因所对应的蛋白质在所述PPI数据集中的降序排列所得到的第三秩次值。例如，针对某个基因a，所得的数值为{5,3,9}；针对某个基因b，所得的数值为{1,6,11}；以此类推。

步骤S32，对所述特征向量取平均值，得到每个所述显著差异表达基因对应的特征评分；

上述，对所述特征向量中的数值进行数据整合处理，对特征向量中的所有列的数值进行取平均值，得到显著差异表达基因列表中的每个基因的特征评分。

步骤S33，对每个所述显著差异表达基因根据所述特征评分进行排序，根据排序提取排名前预设百分率下的所述显著差异表达基因作为所述多组学层面特征标记物。

所述多组学层面特征标记物包括一个显著差异表达基因、至少一个 miRNA，以及至少一个蛋白质。

对列表中所有基因依据特征评分进行排序，并且，选取一预设百分率 (在本实施例中，即为a％)，作为筛选依据，筛选出排序中前a％的作为最终的多组学层面标记物。其中，每个特征标记物包含1个基因、1个或多个 miRNA、1个或多个蛋白质。

实施例6：

为了更好的说明本发明所提供的基于多组学的生物标记物系统筛选方法，参考图7-9，本发明的实施例6提供一种基于多组学的生物标记物系统筛选方法，对不同年龄段的患有缺血性脑卒中患者的数据进行处理，包括如下步骤：

步骤S1，基于转录组学层面的特征标记物获取：

步骤S1.1，输入患有缺血性脑卒中(IS)的八位患者样本的mRNA表达谱数据。这八位患者均处于IS非急性期。表达谱中共包含39150个基因。根据患者年龄将他们分为两组：四名年龄在五十岁以下的患者被划分为年轻组，四名年龄在八十岁以上的患者被划分为老年组；

步骤S1.2，运用六种单基因差异表达分析方法，计算每个基因在两组患者间的表达水平差异。实验中运用的六种方法分别是：wilcoxon秩和检验、FoldChange方法、经典SAM方法、基于wilcoxon统计量的SAM方法以及R语言limma包中的eBayes函数和cyber-T网页服务工具两种贝叶斯框架方法；

步骤S1.3，以0.05为假设检验显著性水平、0.25-4为倍数变化阈值，得到六个候选差异表达基因列表。在wilcoxon秩和检验、FoldChange方法、经典SAM方法、基于wilcoxon统计量的SAM方法以及R语言limma包中的eBayes函数和cyber-T网页服务工具两种贝叶斯框架方法中，分别得到 436个、1521个、4个、11510个、46个和124个候选差异表达基因；

步骤S1.4，计算上述六个候选差异表达基因列表的并集G，根据如下公式计算G中每个基因的观测RP值；

其中对于基因g∈G,

步骤S1.5，分别通过排秩的随机重排列和表达谱数据的随机重排列构造随机模拟实验。计算多次模拟实验中得到的RP值小于或等于观测RP值的实验次数并计算其期望值，记作E(RP)。根据E(RP)值的标准差关于不同模拟实验次数的变化曲线确定合适的模拟实验次数；

步骤S1.6，基于观测的RP值得到G中每个基因分别在两种随机重排列下的PFP估计值；

步骤S1.7，分别以0.00005和0.00001为PFP的界值，两种随机模拟方法分别得到包含174个、110个基因的显著差异表达基因列表，两个显著差异表达基因列表的交集共包含40个基因；

步骤S1.8，通过参考已有研究的结果，证实了两个显著差异表达基因列表中分别有15个、33个基因与脑卒中疾病密切相关。

步骤S2，基于miRNA组学层面的特征标记物获取：

步骤S2.1，输入由多种miRNA-靶基因关系预测算法得到的1218个 miRNA功能节点。这里的预测算法包括但不限于DIANA-microT,mirSVR, PicTar5,RNA22,RNAhybrid,TargetScan,PITA,MirTarget2,TargetMiner,and miRanda等十种方法；

步骤S2.2，对于每一个miRNA功能节点，分别计算该节点在两个显著差异表达基因列表中的富集情况；

步骤S2.3，以0.05为Fisher精确检验的显著性水平，基于排秩重排列的显著差异表达基因列表筛选出67个富集miRNA节点，基于表达谱数据重排列的显著差异表达基因列表筛选出215个富集miRNA节点；

步骤S2.4，在两个显著差异表达基因列表中均富集的miRNA节点有 21个。通过参考已有研究的结果，证实了其中16个miRNA与脑卒中疾病密切相关。

步骤S3，基于蛋白质组学层面的特征标记物获取：

步骤S3.1，输入从人类蛋白组参考数据库(HPRD)中获取的蛋白质互作关系数据集，基于两个显著差异表达基因列表的交集选出其中构成PPI 网络的25个顶点，共21个蛋白质对；

步骤S3.2，根据图论计算PPI网络中每个节点的三个常用中心性度量指标，其中度中心性较大的三个顶点分别是(括号中为度中心性具体数值) BSG(11),RFX3(6),CD177(3)；介数中心性较大的两个顶点分别是(括号中为介数中心性具体数值)BSG(36),CD177(3)；紧密中心性较大的十个顶点分别是(括号中为紧密中心性具体数值)BSG(0.00260)、SLC2A4(0.00255)、 MMP1(0.00255)、PPIA(0.00255)、SLC16A1(0.00255),SLC16A3(0.00255)、 PPIL2(0.00255)、PP2R1B(0.00255)、CAV1(0.00255)和PDLIM7(0.00255)；

步骤S3.3，在cytoscape软件上对PPI网络进行可视化，结果如图9所示。其中用顶点颜色的深浅表示顶点度的大小，用顶点形状的大小表示顶点介数中心性值的大小。

此外，参考图10，本发明还提供一种基于多组学的生物标记物系统筛选装置，包括：获取模块10和筛选模块20；所述获取模块10，用于基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表；所述获取模块10，还用于根据所述显著差异表达基因列表，分别获取miRNA组学层面特征标记物和蛋白质组学层面特征标记物；所述筛选模块20，用于根据所述miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物。

此外，参考图11，本发明还提供一种基于多组学的生物标记物系统筛选装置，包括：转录组学分析模块30、miRNA组学分析模块40和蛋白质组学分析模块50。所述转录组学分析模块30，用于基于表达谱数据的筛选和整合，得到显著差异表达基因列表；所述miRNA组学分析模块40，用于计算显著差异表达基因在miRNA-靶基因集的富集程度，得到富集的miRNA功能节点；所述蛋白质组学分析模块50，用于构建和分析PPI网络。

此外，本发明还提供一种用户终端，包括存储器以及处理器，所述存储器用于存储基于多组学的生物标记物系统筛选程序，所述处理器运行所述基于多组学的生物标记物系统筛选程序以使所述用户终端执行如上述所述基于多组学的生物标记物系统筛选方法。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于多组学的生物标记物系统筛选程序，所述基于多组学的生物标记物系统筛选程序被处理器执行时实现如上述所述基于多组学的生物标记物系统筛选方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多组学的生物标记物系统筛选方法，其特征在于，包括：

基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表；

根据所述显著差异表达基因列表，分别获取miRNA组学层面特征标记物和蛋白质组学层面特征标记物；

根据所述miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物。

2.如权利要求1所述基于多组学的生物标记物系统筛选方法，其特征在于，所述miRNA组学层面特征标记物的获取，包括：

通过miRNA-靶基因关系预测算法获取靶基因集合列表；

通过Fisher检验法计算得到所述显著差异表达基因列表在每个所述靶基因集合列表中的富集P值；

对所述富集P值设定的第一阈值，并根据所述第一阈值筛选出所述miRNA组学层面特征标记物。

3.如权利要求2所述基于多组学的生物标记物系统筛选方法，其特征在于，每个所述靶基因集合列表对应一个miRNA；并且，

每个所述靶基因集合列表包含至少一个基因序列。

4.如权利要求1所述基于多组学的生物标记物系统筛选方法，其特征在于，所述蛋白质组学层面特征标记物的获取，包括：

获取显著差异表达基因列表中的每个基因对应的蛋白质名称，并且获取与所述显著差异表达基因列表中每个基因对应的所述蛋白质名称相匹配的蛋白质相互作用数据对，作为PPI数据集；

基于图论算法，计算得出所述PPI数据集中每个显著差异表达基因列表的显著差异表达基因对应的蛋白质的常用中心性度量指标；

根据所述常用中心性度量指标，对所述显著差异表达基因列表中每个基因对应的蛋白质进行排序，得到排序列表；

接收根据所述排序列表所设定的第二阈值，筛选出所述排序列表中的所述蛋白质组学层面特征标记物。

5.如权利要求4所述基于多组学的生物标记物系统筛选方法，其特征在于，所述“接收根据所述排序列表所设定的第二阈值，筛选出所述排序列表中的所述蛋白质组学层面特征标记物”之后，还包括：

对所述PPI数据集进行可视化分析，并通过可视化分析提取出所述PPI数据集中的重要蛋白。

6.如权利要求4所述基于多组学的生物标记物系统筛选方法，其特征在于，所述常用中心性度量指标包括介数中心性、紧密中心性和度中心性。

7.如权利要求1所述基于多组学的生物标记物系统筛选方法，其特征在于，所述“基于两种不同条件的患者样本群中的每个mRNA表达谱数据，获取显著差异表达基因列表”，包括：

接收基于目标疾病的两种不同条件的患者样本群的mRNA表达谱数据；

通过单基因差异表达分析方法，计算得出每个mRNA表达谱数据中的基因在所述两种不同条件的患者样本群之间的表达水平差异值；

接收对所述表达水平差异值所设定的第三阈值，根据所述第三阈值筛选出每个mRNA表达谱数据中统计学显著的差异表达基因，并基于所述差异表达基因构建候选差异表达基因列表；

计算所述候选差异表达基因列表的并集中的每个基因的观测RP值；

利用假设检验法，基于随机重排列方法设置随机模拟试验，预测所述观测RP值在假设条件下的分布，得到所述候选差异表达基因列表的并集中的基因的PFP估计值；

接收对所述PFP估计值设定的PFP上界值，根据所述PFP上界值筛选出显著差异表达基因，并基于所述显著差异表达基因构建所述显著差异表达基因列表。

8.如权利要求1所述基于多组学的生物标记物系统筛选方法，其特征在于，所述“根据所述miRNA组学层面特征标记物和所述蛋白质组学层面特征标记物，构建所述显著差异表达基因列表中的显著差异表达基因的特征向量，并基于所述向量筛选出两种不同条件的所述患者样本群之间的多组学生物标记物”包括：

针对所述显著差异表达基因列表中的显著差异表达基因，构建包含多列数值的特征向量；

对所述特征向量取平均值，得到每个所述显著差异表达基因对应的特征评分；

对每个所述显著差异表达基因根据所述特征评分进行排序，根据排序提取排名前预设百分率下的所述显著差异表达基因作为所述多组学层面特征标记物。

9.如权利要求8所述基于多组学的生物标记物系统筛选方法，其特征在于，所述包含多列数值的特征向量中包括三列数值；其中，

第一列数值为所述显著差异表达基因的p值在所述显著差异表达基因列表中的升序排列的第一秩次值；

第二列数值为计算所述显著差异表达基因列表中的显著差异表达基因所靶向的所述miRNA组学层面特征标记物的数量，根据所计算的数量进行降序排列的第二秩次值；

第三列数值为所述显著差异表达基因所对应的蛋白质在所述PPI数据集中的降序排列所得到的第三秩次值。

10.如权利要求9所述基于多组学的生物标记物系统筛选方法，其特征在于，所述多组学层面特征标记物包括一个显著差异表达基因、至少一个miRNA，以及至少一个蛋白质。