CN111161799B - 一种基于多组学数据获取多基因风险评分的方法及系统 - Google Patents
一种基于多组学数据获取多基因风险评分的方法及系统 Download PDFInfo
- Publication number
- CN111161799B CN111161799B CN201911353185.3A CN201911353185A CN111161799B CN 111161799 B CN111161799 B CN 111161799B CN 201911353185 A CN201911353185 A CN 201911353185A CN 111161799 B CN111161799 B CN 111161799B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- linear regression
- value
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000003234 polygenic effect Effects 0.000 title claims abstract description 18
- 238000012417 linear regression Methods 0.000 claims abstract description 37
- 238000012795 verification Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims description 36
- 230000007067 DNA methylation Effects 0.000 claims description 21
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 238000003559 RNA-seq method Methods 0.000 claims description 10
- 108020004999 messenger RNA Proteins 0.000 claims description 9
- 108091070501 miRNA Proteins 0.000 claims description 8
- 239000002679 microRNA Substances 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000008602 contraction Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 description 24
- 230000011987 methylation Effects 0.000 description 18
- 238000007069 methylation reaction Methods 0.000 description 18
- 108091029430 CpG site Proteins 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000013077 scoring method Methods 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 241000237509 Patinopecten sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 235000020637 scallop Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明实施例公开了一种基于多组学数据获取多基因风险评分的方法及系统,其包括输入多组学原始数据并对所述多组学原始数据进行预处理;将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型,基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型;对输入的待测数据进行评分。本发明解决了现有技术中数据来源缺乏多样性,那么就会对多基因风险评分的有效性存在一定的限制的弊端。
Description
技术领域
本发明涉及基因检测分析技术领域,尤其涉及一种基于多组学数据获取多基因风险评分的方法及系统。
背景技术
诸多复杂疾病都是由多基因、基因与基因相互作用、基因与环境相互作用共同引起的。这些基因与基因、基因与环境的相互作用构成了复杂的多层次生物网络,而疾病的发生与发展与这复杂网络的变异息息相关。
多基因风险评分是一种用来评估个体患某种疾病风险的方法,通过输入统计数据的基因型效应值来进行计算,是一种可以在某个水平进行遗传倾向估计得方法。多基因风险评分(PRS)可以预测一个人患上冠状动脉疾病、乳腺癌或糖尿病等诸多复杂疾病的风险。许多疾病是由一系列常见变异和低频变异所介导的。尽管每个变异的影响跟小,但综合起来可以预测一个人的风险。多基因风险评分的目标就是将患者分到不同的风险类别,为精准医疗打下基础。
标准的多基因风险评分方法是计算对应于每个个体中相关表型的风险等位基因总和,并通过全基因组关联分析方法对表型的单核苷酸多样性效应大小进行加权处理。该PRS方法是仅使用单核苷酸多态性(SNP)数据作为输入数据进行多基因风险评分;在上述方法中,最主要的问题是数据来源缺乏多样性,那么就会对多基因风险评分的有效性存在一定的限制。
发明内容
基于此,为解决现有技术所存在的不足,特提出了一种基于多组学数据获取多基因风险评分的方法。
为了实现上述目的,本发明对应的技术方案是:
一种基于多组学数据获取多基因风险评分的方法,包括,其特征在于:
S1、输入多组学原始数据并对所述多组学原始数据进行预处理,所述多组学原始数据至少包括DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合;
S2、将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型;
S3、基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型;
S4、对输入的待测数据进行评分并获取评分结果。
可选的,在其中一个实施例中,所述S1中对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩。
可选的,在其中一个实施例中,将预处理后的多组学原始数据随机均分为k份,令i=1,取第i组数据作为验证集,其余(k-1)组数据作为训练集,对应的线性回归模型公式为:
其中,Y表示疾病,可以为连续值表达量或离散值表达量,k表示数据收缩处理后的位点个数,xj表示第j个的多组学原始数据表达值,αj为对应位点的回归系数。
可选的,在其中一个实施例中,使用均方误差度量所述线性回归模型的性能,以确定最优回归系数值,即基于均方误差最小化进行模型求解,则均方误差最小化对应的回归系数α*公式为:
设定Eα为均方误差,则令基于Eα对回归系数α求导,得到:
其中,m表示患者个数,yi表示第i个患者是否得病,xi表示第i个患者的多组学原始数据表达值;令上式为零即可得到所需的回归系数α的最优解。
基于相同的发明构思,本发明还提出了一种基于多组学数据获取多基因风险评分的系统,其特征在于,其包括:数据预处理单元、第一数据获取单元、第二数据获取单元和数据输出单元;
其中,数据预处理单元,其能够对所输入的多组学原始数据进行预处理,所述多组学原始数据包括但不限于DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合;
第一数据获取单元,其能够将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型;
第二数据获取单元,其能够基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型;
以及数据输出单元,其能够对输入的待测数据进行评分并输出评分结果。
可选的,在其中一个实施例中,对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩。
可选的,在其中一个实施例中,第一数据获取单元将预处理后的多组学原始数据随机均分为k份,令i=1,取第i组数据作为验证集,其余(k-1)组数据作为训练集,对应的线性回归模型公式为:
其中,Y表示疾病,可以为连续值表达量或离散值表达量,k表示数据收缩处理后的位点个数,xj表示第j个多组学原始数据表达值,αj为对应位点的回归系数。
可选的,在其中一个实施例中,第一数据获取单元使用均方误差度量所述线性回归模型的性能,以确定最优回归系数值,即基于均方误差最小化进行模型求解,则均方误差最小化对应的回归系数α*公式为:
设定Eα为均方误差,则令基于Eα对回归系数α求导,得到:
其中,m表示患者个数,yi表示第i个患者是否得病,xi表示第i个患者的多组学原始数据表达值;令上式为零即可得到所需的回归系数α的最优解。
实施本发明实施例,将具有如下有益效果:
采用了上述技术之后,首先给出一种基于验证合格后线性回归模型作为多基因风险评分的评分模型,并对输入的待测数据进行评分并获取评分结果的方法;其次本发明可以灵活运用现有的多基因风险评分方法,不再局限于仅使用一种基因数据类型进行测评,如DNA序列信息或是转录组数据等都可以成为基因风险评分的有效信息;输入数据类型的多样性同时保证了评分结果的准确性;而使用多种不同的数据类型进行风险研究,也可以为精准医学和个体化测评提供有效地帮助。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中所述方法对应的核心步骤流程图;
图2为一个实施例中所述方法对应的具体步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。可以理解,本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一元件称为第二元件,且类似地,可将第二元件为第一元件。第一元件和第二元件两者都是元件,但其不是同一元件。
在本实施例中,特提出了一种基于多组学数据获取多基因风险评分的方法,该方法首先提出了一种基于多组学数据输入的多基因风险评分模型,基于所述模型对待测数据进行评分测定以为用户提供准确的数据分析方法,如图1-2所示,该方法其特征在于,包括如下步骤:
S1、输入多组学原始数据并对所述多组学原始数据进行预处理,所述多组学原始数据至少包括DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据;在一些具体的实施例中,所述多组学原始数据,如DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据等数据,所述数据多来源于公开数据库如TCGA数据库、Oncomine数据库、GEO数据库等,所需数据可直接从库中下载得到;也可以自己通过使用测序仪器等测量手段直接获取数据;输入数据复杂多样,有效的提高了多基因风险评分预测的准确性,在下述例子中仅使用所述多组学原始数据中的DNA甲基化数据进行说明,设当输入数据为DNA甲基化数据,则对应的多基因风险分数为DNA甲基化的表达值xi与对应位点的回归系数αi的乘积的累加和;假设有一个n×m的DNA甲基化矩阵,矩阵的行代表有个n个样本数据,矩阵的列代表有m个CPG位点;则xij表示第i个样本的第j个CPG位点对应的DNA甲基化表达值。在一些具体的实施例中,输入的数据,如甲基化数据集数目庞大且具有不确定性,同时并非所有的甲基化数据都与研究中的性状相关,因此使用所有未调整的甲基化数据的效果估计值可能会产生效果不佳的评分模型,且有较大误差,因此要对数据进行收缩,即所述预处理主要是指对所述数据进行收缩处理,收缩处理方法中一般采用一定的统计技术收缩如甲基化数据等原始数据的效果估计值或对P值进行限制作为评分模型纳入分数的标准,其中,由于所述的统计技术中,最合适的收缩取决于零效应和真实效应大小分布的组合,通常在进行一系列的参数优化后获得,则所述统计技术主要有带惩罚项的逻辑回归方法和贝叶斯估计法。更进一步的,应用到本例的所述逻辑回归方法是在基础的线性回归上引入惩罚方法,通过构造一个惩罚函数得到一个较为精炼的模型,通过压缩一些回归系数,即强制系数绝对值之和小于某个固定值,并设定一些回归系数为零的方式达到变量选择的效果,并使用那些系数不为零的效应值来计算PRS;则对应的基础线性回归模型为:
对应的等价形式为:
其中t与λ一一对应,其为调节系数,Y为疾病,X为甲基化效应值(本例中使用多组学原始数据中其中个数据类型进行说明),为引入的惩罚函数;令/>则t<t0时,一部分系数就会被压缩至0,从而降低数据X的维度,达到减小模型复杂度的目的;例如,若/>粗略来讲,模型中非零系数的个数就会由d大约减至/>更进一步的,应用到本例的所述对P值进行限制作为评分模型纳入分数的标准即P值选择阈值方法,所述P值选择阈值方法中,仅使用P值低于特定阈值的甲基化数据来有效排除零效应估计。P值阈值方法的标准方法为聚集和阈值的处理法,它选择了一个相关统计量“P值”来度量特征的重要性,P值越小说明结果越显著,一般认为P<0.05为具有统计学差异。通常取P值低于特定阈值(例如,P<1×10-5)的DNA甲基化效应值来进行PRS计算中。而由于最优P值阈值是先验未知的,对P值进行前向选择的方法尽管可以很好地预测目标基因,但庞大的效应数据使得这种方法难以实施。因此要在一定范围的阈值上计算PRS,并针对每个阈值进行测试。由于基因间结合了很强的关联结构,难以定义不相关的基因效应,而聚集可以优先选择与疾病最相关的那些基因效应,并同时保留同一基因区域的多个独立影响(而不是只保留区域中最有关联的基因效应),而且聚集还可以使保留的效应值在很大程度上彼此独立,令其效果值可以相加,因此在进行阈值选择前需要先对基因进行数据收缩。
S2、将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型;在一些具体的实施例中,将预处理后的甲基化数据随机均分为k份,令i=1,取第i组数据作为验证集,其余(k-1)组甲基化数据作为训练集,对应的线性回归模型公式为:
其中,Y表示疾病,可以为连续值表达量或离散值即二值表达量,k表示数据收缩处理后的位点个数,xj表示第j个CPG位点下的DNA甲基化表达值,αj为对应位点的回归系数。在更具体的实施例中,使用均方误差度量所述线性回归模型的性能,以确定最优回归系数值,其中性能度量是对学习器的泛化能力进行评估,其需要有衡量模型泛化能力的评价标准,性能度量可以很好地反映模型性能的“好坏”;如基于均方误差最小化来进行模型求解,则均方误差最小化对应的回归系数α*公式为:
设定Eα为均方误差,则令基于Eα对回归系数α求导,得到:
令上述公式为零即可得到所需的回归系数α的最优解。
在更具体的实施例中,为防止模型产生过拟合,采用交叉验证的方式,将数据集随机划分为K个子集循环建模并取最优,以确保生成容错性更高的模型。
S3、基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型;在一些具体的实施例中,例如回归任务常用的度量性能均方误差MSE,是预测数据与原始数据对应点误差的平方和均值,其值越小模型性能越好;决定系数R2也称为拟合优度,其值越接近1表示模型性能越好;曲线下面积AUC表示ROC曲线下的面积,ROC曲线是根据一系列不同的二分类方式绘制的曲线,可以反映模型性能的优劣,而AUC值一般介于0.5到1之间,作为数值可以直观的评价分类器的好坏,AUC值越大的分类器正确率越高。
S4、对输入的待测数据进行评分获取评分结果。
在一些具体的实施例中,还提出了输入数据为两种或多种组学数据的案例,这与单一数据的处理方法大致相同,仅仅在数据的收缩技术上将有所差别。即假设输入数据为DNA甲基化数据和RNA-seq数据,先将两组数据分别进行收缩处理,如上述LASSO回归方法或P值阈值法分别选出两组数据的收缩结果,然后进行数据合并以获取对应的数组,由于DNA甲基化与RNA-seq数据的数值量级有所差别,则需要分别将这两组数据进行归一化处理以用于建立模型,通常使用log2(X+1)的方法实现,其中X表示基因的表达量。随后基于所述方法使用整合后的数据建立模型,对训练集建立模型表达式 并采用交叉验证的方式防止过拟合,将数据集随机划分为K个子集循环建模并取最优,以确保生成容错率更高的模型。对于一个新样本,预测分数值Y*可以通过所开发的模型应用给出的多组学数据x*进行求解,例如/>
基于相同的发明构思,本发明还提出了一种基于多组学数据获取多基因风险评分的系统,其包括:数据预处理单元、第一数据获取单元、第二数据获取单元和数据输出单元;
其中,数据预处理单元,其能够对所输入的多组学原始数据进行预处理,所述多组学原始数据至少包括DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据;在一些具体的实施例中,所述多组学原始数据,如DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据等数据,所述数据多来源于公开数据库如TCGA数据库、Oncomine数据库、GEO数据库等,所需数据可直接从库中下载得到;也可以自己通过使用测序仪器等测量手段直接获取数据;输入数据复杂多样,有效的提高了多基因风险评分预测的准确性,在下述例子中仅使用所述多组学原始数据中的DNA甲基化数据进行说明,设当输入数据为DNA甲基化数据,则对应的多基因风险分数为DNA甲基化的表达值xi与对应位点的回归系数αi的乘积的累加和;假设有一个n×m的DNA甲基化矩阵,矩阵的行代表有个n个样本数据,矩阵的列代表有m个CPG位点;则xij表示第i个样本的第j个CPG位点对应的DNA甲基化表达值。在一些具体的实施例中,输入的数据,如甲基化数据集数目庞大且具有不确定性,同时并非所有的甲基化数据都与研究中的性状相关,因此使用所有未调整的甲基化数据的效果估计值可能会产生效果不佳的评分模型,且有较大误差,因此要对数据进行收缩,即所述预处理主要是指对所述数据进行收缩处理,收缩处理方法中一般采用一定的统计技术收缩如甲基化数据等原始数据的效果估计值或对P值进行限制作为评分模型纳入分数的标准,其中,由于所述的统计技术中,最合适的收缩取决于零效应和真实效应大小分布的组合,通常在进行一系列的参数优化后获得,则所述统计技术主要有带惩罚项的逻辑回归方法和贝叶斯估计法。更进一步的,应用到本例的所述逻辑回归方法是在基础的线性回归上引入惩罚方法,通过构造一个惩罚函数得到一个较为精炼的模型,通过压缩一些回归系数,即强制系数绝对值之和小于某个固定值,并设定一些回归系数为零的方式达到变量选择的效果,并使用那些系数不为零的效应值来计算PRS;则对应的基础线性回归模型为:
对应的等价形式为:
其中t与λ一一对应,其为调节系数,Y为疾病,X为甲基化效应值,为引入的惩罚函数;令/>则t<t0时,一部分系数就会被压缩至0,从而降低数据X的维度,达到减小模型复杂度的目的;例如,若/>粗略来讲,模型中非零系数的个数就会由d大约减至/>更进一步的,应用到本例的所述对P值进行限制作为评分模型纳入分数的标准即P值选择阈值方法,所述P值选择阈值方法中,仅使用P值低于特定阈值的甲基化数据来有效排除零效应估计。P值阈值方法的标准方法为聚集和阈值的处理法,它选择了一个相关统计量“P值”来度量特征的重要性,P值越小说明结果越显著,一般认为P<0.05为具有统计学差异。通常取P值低于特定阈值(例如,P<1×10-5)的DNA甲基化效应值来进行PRS计算中。而由于最优P值阈值是先验未知的,对P值进行前向选择的方法尽管可以很好地预测目标基因,但庞大的效应数据使得这种方法难以实施。因此要在一定范围的阈值上计算PRS,并针对每个阈值进行测试。由于基因间结合了很强的关联结构,难以定义不相关的基因效应,而聚集可以优先选择与疾病最相关的那些基因效应,并同时保留同一基因区域的多个独立影响(而不是只保留区域中最有关联的基因效应),而且聚集还可以使保留的效应值在很大程度上彼此独立,令其效果值可以相加,因此在进行阈值选择前需要先对基因进行收缩。
第一数据获取单元,其能够将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型;在一些具体的实施例中,将预处理后的甲基化数据随机均分为k份,令i=1,取第i组数据作为验证集,其余(k-1)组甲基化数据作为训练集,对应的线性回归模型公式为:
其中,Y表示疾病,可以为连续值表达量或二值表达量,k表示数据收缩处理后的位点个数,xj表示第j个CPG位点下的DNA甲基化表达值,αj为对应位点的回归系数。在更具体的实施例中,使用均方误差度量所述线性回归模型的性能,以确定最优回归系数值,其中性能度量是对学习器的泛化能力进行评估,其需要有衡量模型泛化能力的评价标准,性能度量可以很好地反映模型性能的“好坏”;如基于均方误差最小化来进行模型求解,则均方误差最小化对应的回归系数α*公式为:
设定Eα为均方误差,则令基于Eα对回归系数α求导,得到:
令上述公式为零即可得到所需的回归系数α的最优解。
在更具体的实施例中,为防止模型产生过拟合,采用交叉验证的方式,将数据集随机划分为K个子集循环建模并取最优,以确保生成容错性更高的模型。
第二数据获取单元,其能够基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型;在一些具体的实施例中,例如回归任务常用的度量性能均方误差MSE,是预测数据与原始数据对应点误差的平方和均值,其值越小模型性能越好;决定系数R2也称为拟合优度,其值越接近1表示模型性能越好;曲线下面积AUC表示ROC曲线下的面积,ROC曲线是根据一系列不同的二分类方式绘制的曲线,可以反映模型性能的优劣,而AUC值一般介于0.5到1之间,作为数值可以直观的评价分类器的好坏,AUC值越大的分类器正确率越高。
以及数据输出单元,其能够对输入的待测数据进行评分并输出评分结果。
实施本发明实施例,将具有如下有益效果:
本发明使用多组学数据进行多基因风险评分的方法开发完成,这种方法支持使用多种组学数据集来作为基因风险评分的有效信息,比如mRNA数据或DNA甲基化数据等。这将代替仅使用单一的SNP数据的多基因风险评分方法来保证评分结果的准确性;而使用多种不同的数据类型进行风险研究,也可以为精准医学和个体化测评提供有效地帮助。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种基于多组学数据获取多基因风险评分的方法,包括,其特征在于:
S1、输入多组学原始数据并对所述多组学原始数据进行预处理,所述多组学原始数据包括但不限于DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合;
S2、将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型;
S3、基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型;
S4、对输入的待测数据进行评分以获取对应的评分结果;所述S1中对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩;将预处理后的多组学原始数据随机均分为k份,令i=1,取第i组数据作为验证集,其余(k-1)组数据作为训练集,对应的线性回归模型公式为:
其中,Y表示疾病,可以为连续值表达量或离散值表达量,k表示数据收缩处理后的位点个数,xj表示第j个的多组学原始数据表达值,αj为对应位点的回归系数;使用均方误差度量所述线性回归模型的性能,以确定最优回归系数值,即基于均方误差最小化进行模型求解,则均方误差最小化对应的回归系数α*公式为:
设定Eα为均方误差,则令基于Eα对回归系数α求导,得到:
其中,m表示患者个数,yi表示第i个患者是否得病,xi表示第i个患者的多组学原始数据表达值;令上式为零即可得到所需的回归系数α的最优解。
2.一种基于多组学数据获取多基因风险评分的系统,其特征在于,其包括:数据预处理单元、第一数据获取单元、第二数据获取单元和数据输出单元;
其中,数据预处理单元,其能够对所输入的多组学原始数据进行预处理,所述多组学原始数据包括但不限于DNA甲基化数据、mRNA数据、miRNA数据、RNA-seq数据中的一种或者多种组合;
第一数据获取单元,其能够将预处理后数据划分为训练集与验证集后,基于所述训练集创建线性回归模型;
第二数据获取单元,其能够基于所述验证集对所述线性回归模型进行验证,在验证合格后选定出作为多基因风险评分的评分模型即选出效果最优的模型;
以及数据输出单元,其能够对输入的待测数据进行评分并输出评分结果;对所述多组学原始数据进行预处理即采用统计学方法或设定P值阈值的方法对所述多组学原始数据进行数据收缩;第一数据获取单元将预处理后的多组学原始数据随机均分为k份,令i=1,取第i组数据作为验证集,其余(k-1)组数据作为训练集,对应的线性回归模型公式为:
其中,Y表示疾病,可以为连续值表达量或离散值表达量,k表示数据收缩处理后的位点个数,xj表示第j个多组学原始数据表达值,αj为对应位点的回归系数;第一数据获取单元使用均方误差度量所述线性回归模型的性能,以确定最优回归系数值,即基于均方误差最小化进行模型求解,则均方误差最小化对应的回归系数α*公式为:
设定Eα为均方误差,则令基于Eα对回归系数α求导,得到:
其中,m表示患者个数,yi表示第i个患者是否得病,xi表示第i个患者的多组学原始数据表达值;令上式为零即可得到所需的回归系数α的最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353185.3A CN111161799B (zh) | 2019-12-24 | 2019-12-24 | 一种基于多组学数据获取多基因风险评分的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353185.3A CN111161799B (zh) | 2019-12-24 | 2019-12-24 | 一种基于多组学数据获取多基因风险评分的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161799A CN111161799A (zh) | 2020-05-15 |
CN111161799B true CN111161799B (zh) | 2023-12-15 |
Family
ID=70556587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911353185.3A Active CN111161799B (zh) | 2019-12-24 | 2019-12-24 | 一种基于多组学数据获取多基因风险评分的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161799B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820403B (zh) * | 2021-02-25 | 2024-03-29 | 中山大学 | 一种基于多组学数据预测癌症患者预后风险的深度学习方法 |
CN113066586A (zh) * | 2021-04-01 | 2021-07-02 | 北京果壳生物科技有限公司 | 一种基于多基因风险打分构建疾病分类模型的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060278241A1 (en) * | 2004-12-14 | 2006-12-14 | Gualberto Ruano | Physiogenomic method for predicting clinical outcomes of treatments in patients |
CN110349622A (zh) * | 2019-07-09 | 2019-10-18 | 南京邮电大学 | 基于决策树与线性回归模型预测癌症合成致死基因对的方法 |
-
2019
- 2019-12-24 CN CN201911353185.3A patent/CN111161799B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060278241A1 (en) * | 2004-12-14 | 2006-12-14 | Gualberto Ruano | Physiogenomic method for predicting clinical outcomes of treatments in patients |
CN110349622A (zh) * | 2019-07-09 | 2019-10-18 | 南京邮电大学 | 基于决策树与线性回归模型预测癌症合成致死基因对的方法 |
Non-Patent Citations (2)
Title |
---|
郭茂祖 等."一种基于多组学生物网络的癌症关键模块挖掘方法".《中国科学:信息科学》.2017,第47卷(第11期),全文. * |
阿波斯托利亚•玛蒂亚•钦巴瑞多 等.《癌症转化医学研究中的靶向治疗》.上海:上海科学技术出版社,2017,第7页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111161799A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Korn et al. | Controlling the number of false discoveries: application to high-dimensional genomic data | |
Li et al. | Bayesian modeling of spatial molecular profiling data via Gaussian process | |
Horimoto et al. | Statistical estimation of cluster boundaries in gene expression profile data | |
WO2018064486A1 (en) | Noninvasive prenatal screening using dynamic iterative depth optimization | |
KR102351306B1 (ko) | 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법 | |
CN111161799B (zh) | 一种基于多组学数据获取多基因风险评分的方法及系统 | |
Ruaño et al. | Physiogenomics: integrating systems engineering and nanotechnology for personalized medicine | |
CN114373507B (zh) | 一种混合dna图谱的分析方法 | |
Montserrat et al. | Lai-net: Local-ancestry inference with neural networks | |
KR20220053642A (ko) | 유전자 데이터 분석을 위한 컴퓨터 구현 방법 및 장치 | |
Pique-Regi et al. | Joint estimation of copy number variation and reference intensities on multiple DNA arrays using GADA | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
Zhang et al. | Penalized integrative analysis under the accelerated failure time model | |
Lock et al. | Bayesian genome-and epigenome-wide association studies with gene level dependence | |
US11435357B2 (en) | System and method for discovery of gene-environment interactions | |
WO2020234666A1 (en) | Deep learning based system and method for prediction of alternative polyadenylation site | |
ElBakry et al. | Identification of differentially expressed genes for time-course microarray data based on modified RM ANOVA | |
KR20230116029A (ko) | 유전 데이터 분석을 위한 컴퓨터 구현 방법 및 장치 | |
Shervais et al. | Reconstructability analysis as a tool for identifying gene-gene interactions in studies of human diseases | |
US10438687B1 (en) | Dynamic evaluation of polygenic models based on genetic loci for which input is received | |
Seffernick et al. | High-dimensional genomic feature selection with the ordered stereotype logit model | |
JPWO2002048915A1 (ja) | 遺伝子間の関連を検出する方法 | |
KR102535267B1 (ko) | 심층 강화학습 기반 최적 snp 세트 정보 생성 장치 및 그 방법 | |
KR102441856B1 (ko) | 중요도 샘플링을 활용한 다중변이 연관연구 방법 | |
US20230111182A1 (en) | Method for a predictive prognosis of menopause onset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |