CN117352048A - 一种预后生物标志物识别系统 - Google Patents
一种预后生物标志物识别系统 Download PDFInfo
- Publication number
- CN117352048A CN117352048A CN202311279121.XA CN202311279121A CN117352048A CN 117352048 A CN117352048 A CN 117352048A CN 202311279121 A CN202311279121 A CN 202311279121A CN 117352048 A CN117352048 A CN 117352048A
- Authority
- CN
- China
- Prior art keywords
- genes
- gene
- vertex
- interaction network
- prognosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 58
- 239000000090 biomarker Substances 0.000 title claims abstract description 32
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 131
- 230000014509 gene expression Effects 0.000 claims abstract description 71
- 230000003993 interaction Effects 0.000 claims abstract description 55
- 201000010099 disease Diseases 0.000 claims abstract description 41
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 41
- 239000003550 marker Substances 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000004891 communication Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 17
- 239000000092 prognostic biomarker Substances 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 206010006187 Breast cancer Diseases 0.000 description 33
- 208000026310 Breast neoplasm Diseases 0.000 description 33
- 230000004083 survival effect Effects 0.000 description 24
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 206010028980 Neoplasm Diseases 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 230000001575 pathological effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 101000840566 Homo sapiens Insulin-like growth factor-binding protein 5 Proteins 0.000 description 3
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 3
- 102100029225 Insulin-like growth factor-binding protein 5 Human genes 0.000 description 3
- 101150117406 Mafk gene Proteins 0.000 description 3
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 3
- 102100039190 Transcription factor MafK Human genes 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010059866 Drug resistance Diseases 0.000 description 2
- 101001049697 Homo sapiens Early growth response protein 1 Proteins 0.000 description 2
- 101000653540 Homo sapiens Transcription factor 7 Proteins 0.000 description 2
- 102100030627 Transcription factor 7 Human genes 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010201 enrichment analysis Methods 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 239000000439 tumor marker Substances 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 102100023226 Early growth response protein 1 Human genes 0.000 description 1
- 238000008149 MammaPrint Methods 0.000 description 1
- 101100444898 Mus musculus Egr1 gene Proteins 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000101 novel biomarker Substances 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息学技术领域,公开了一种预后生物标志物识别系统,包括:数据获取与预处理模块,用于获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;基因互作网络生成模块,用于将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;连通网络预后标志物识别模块,用于基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。有效提高了预后生物标志物的识别准确性和可靠性。
Description
技术领域
本发明涉及生物信息学技术领域,特别是涉及一种预后生物标志物识别系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
在生物信息学领域,对于疾病的准确预后和分型是疾病治疗和干预的关键因素之一,尤其是像乳腺癌这一威胁女性健康的“头号杀手”。2023年1月12日,全球医学期刊《临床医师癌症杂志》发表的《2023年度癌症报告》显示,在女性肿瘤的前十大患病率中,乳腺癌患病率最高,占比约为31%。乳腺癌是一种让所有女性闻之色变的恶性肿瘤,如果治疗不及时或治疗不当,就可能发生转移,随时威胁生命安全。
乳腺癌是一种多因素复杂疾病,准确的预后标志物对于指导治疗决策和改善患者预后至关重要。目前,对基因表达数据的分析越来越关注基因表达与生存表型间的关系(例如乳腺癌复发或死亡时间),以识别可用于改善乳腺癌预后和治疗的新型生物标志物。机器学习和特征选择算法能够从高通量数据集中识别潜在的乳腺癌预后标志物,从而为乳腺癌患者的临床决策、治疗选择和预后提供更多有用信息。
传统的乳腺癌预后标志物识别方法缺乏对基因之间相互作用的综合考虑,所识别的预后标志物往往是“孤立”的基因,以至于无法捕捉到发病机制的系统性和复杂性。
发明内容
为了解决现有技术的不足,本发明提供了一种预后生物标志物识别系统,从基因互作网络的内在结构出发,挖掘具有连通网络结构的重要基因作为预后标志物,使得识别出的生物标志物具有网络连通性,有效提高了预后生物标志物的识别准确性和可靠性。
第一方面,本发明提供了一种预后生物标志物识别系统;
一种预后生物标志物识别系统,包括:
数据获取与预处理模块,用于获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
基因互作网络生成模块,用于将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
连通网络预后标志物识别模块,用于基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
进一步地,所述数据获取与预处理模块,还用于在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
进一步地,假设基因相互作用网络G由顶点集V和边集E组成,顶点集V的子集C是基因相互作用网络G的所有连通分支的所有顶点的集合,如果C∪{k},对于任意的k∈C\U都不连通,则集合U是子集C的最大连通分支的集合。
进一步地,假设基因相互作用网络G由顶点集V和边集E组成,从顶点k到顶点j的边为ekj,给定不相连的两个顶点{k,j}∈U,U表示最大连通分支的集合,满足ekj∈E,如果在G[U\S]中,顶点k和顶点j之间无任意一条连线,则集合为分离顶点k和顶点j的最小节点割。
进一步地,所述带有连通不等式约束的稀疏图惩罚项的对数偏似然函数为:
其中,Lp为基因相互作用网络G的最大连通分支U的拉普拉斯矩阵,λ和α是调节参数,是第i个样本的p维回归系数,θj表示第i个样本的第j维回归系数,L(θ;D)表示比例风险模型的对数偏似然函数,p表示样本的维度,δl(U)为在节点l处的狄拉克测度,S表示最小节点割,U表示最大连通分支的集合,Γ(k,j)表示顶点k和顶点j的最小节点割的集合,E表示基因相互作用网络G的边集,ekj表示从顶点k到顶点j的边,C表示基因相互作用网络G的所有连通分支的所有顶点的集合。
进一步地,还包括预后风险得分指标的建立模块,用于对所述预后生物标志物,计算预后风险得分指标,并基于所述预后风险得分指标,将疾病的患者分为高危组和低危组。
第二方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行以下步骤:
获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
进一步地,在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
第三方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行以下步骤:
获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
进一步地,在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
与现有技术相比,本发明的有益效果是:
本发明从基因互作网络的内在结构出发,挖掘具有连通网络结构的重要基因作为预后标志物,使得识别出的生物标志物具有网络连通性,有效提高了预后生物标志物的识别准确性和可靠性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一的一种预后生物标志物识别系统的数据流转图;
图2为本发明实施例一的从基因-基因相互作用网络中获得最小k j-节点割的具体流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
术语解释:
Cox比例风险回归模型(Cox's proportional hazards regression model),简称Cox回归模型,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。
实施例一
本实施例提供了一种预后生物标志物识别系统。
考虑到基因与基因之间的相互作用信息会影响个体对乳腺癌的易感性,进而影响疾病的严重程度和预后反应,同时,基因互作网络有助于揭示基因及其产物如何协同工作,执行许多生命所必需的复杂过程。因此,基于生物分子相互作用网络的特征选择方法成为系统分析复杂疾病、揭示主要调控关系和识别网络生物标志物的强有力工具。
本实施例提供的一种预后生物标志物识别系统,在经典Cox比例风险模型的基础上,通过加入连通网络正则惩罚项,赋予Cox回归模型具备特征选择能力,同时考虑变量之间的连通性,以期通过挖掘高通量基因组数据,识别出相互连通的疾病预后生物标志物,进而阐明基因间互作网络和连通结构在复杂疾病发生、进展和预后中的作用。
本实施例提供的一种预后生物标志物识别系统,与现有的正则化Cox比例风险模型不同,本实施例利用基因组学数据和基因与基因相互作用网络,开发了基于生物分子网络的特征选择方法,实现了连通网络生物标志物识别的系统化建模。
本实施例提供的一种预后生物标志物识别系统,适用于但不限于乳腺癌预后标志物的识别。
本实施例提供的一种预后生物标志物识别系统,包括:数据获取与预处理模块、基因互作网络生成模块、网络正则化特征选择构建模块、连通网络预后标志物识别模块、预后标志物可靠性的验证模块、预后风险得分指标的建立模块、患者生存风险预测与分组模块、独立数据集外部验证评估模块。
数据获取与预处理模块,被配置为:获取与待开展预后研究的某一复杂疾病相关的基因表达数据以及相应样本的随访数据和临床结局信息(包括生存状态、样本数量、基因数量、年龄、肿瘤大小和病理学分期等);对原始基因表达数据进行预处理并筛选差异表达基因;将数据预处理后的差异表达基因和该复杂疾病的先验标志基因整合。
在本实施例中,δi即表征生存状态,比如:δi=0,表示第i个病人yi处于死亡状态;样本数量、基因数量、年龄、肿瘤大小和病理学分期等,在患者生存风险预测与分组模块用到,揭示预后风险得分指标在疾病预后研究中优于年龄、肿瘤大小和病理学分期。
疾病预后生物标志物识别的第一步是获得与乳腺癌相关的基因表达数据、乳腺癌患者的随访时间和临床结局信息。由于不同疾病的样本类型具有不同的属性,所以其相应的临床信息也各不相同。
针对某一种待研究的复杂疾病,令T表示每个患者的潜在生存时间,对于每个病人,观测得到Y=min(T,C),其中C是截尾时间。
为了探索患者的生存时间T与相应基因表达水平之间的关系,假设该疾病中一共有来自n个样本的独立同分布的观测变量(Xi,yi,δi),i=1,2,…,n,其中Xi为自变量,yi为因变量,δi是一个二值指示变量,表示yi是处于截尾时间还是死亡时间(δi=1,yi处于截尾时间;δi=0,yi处于死亡时间)。
方便起见,将上述观察数据记作数据集D={(X1,y1,δ1),(X2,y2,δ2),…,(Xn,yn,δn)}。具体地,对于基因表达数据而言,表示来自第i个样本的一个p维基因表达向量,其中xij为第i个样本的第j个基因的基因表达值。
首先做数据预处理:对于随访和临床信息,丢弃生存时间小于或等于0的样本,对剩余的样本进行生存分析研究;对于乳腺癌样本的基因组学数据,通过对数变换log(x+1)将基因表达计数x转换为表达值并进行归一化处理。
然后应用R包DEseq2函数对基因表达数据X做差异表达分析,其中X=(X1,X2,…,Xn),基于校正后的P值和log(FC)的绝对值,筛选得到显著差异表达的基因。即,将基因表达计数做对数变换并进行归一化处理,然后对正常样本和乳腺癌样本的基因表达数据做差异表达分析。其中,FC(FoldChange)表示变化倍数,用来衡量正常样本和乳腺癌样本间的基因表达水平差异。
最后将差异基因与乳腺癌先验标志基因整合:乳腺癌相关先验基因对于识别潜在的预后生物标志物具有重要影响,为此,将差异表达基因与RegNetwork数据库记录的转录因子基因、KEGG数据库的乳腺癌通路中的基因、MammaPrint使用的乳腺癌标志基因、OSbrca挖掘的乳腺癌标志基因和scPrognosis识别的乳腺癌预后标志基因进行整合。
基因互作网络生成模块,被配置为:从RegNetwork数据库提取候选基因的相互作用网络,并将整合后的基因表达数据映射到基因-基因相互作用网络,并提取网络的最大连通分支和最小节点割。
首先从RegNetwork数据库中获取人类基因-基因相互作用网络,然后将整合后的基因映射到基因互作网络(记作G),最后依图2所示得到基因互作网络的最大连通分支(记作U)。
具体地,假设网络或图G由顶点集V和边集E组成,即G=(V,E),假设集合V的子集C是图G的所有连通分支的所有顶点的集合,如果C∪{k}对于任意的k∈C\U都不连通,则称集合U是子集C的最大连通分支的集合。其中,k是顶点;顶点k属于集合C相对于集合U的余集,即由集合C中不属于集合U的元素所构成的集合;C\U表示集合C中除去集合U后的余集。
定义从顶点k到顶点j的边为ekj,给定不相连的两个顶点{k,j}∈U,满足ekj∈E。如果在G[U\S]中,顶点k和顶点j之间无任意一条连线,则集合 即为分离顶点k和顶点j的最小节点割(简记为k j-节点割),其求解方法由图2给出。对任意的ekj∈E,定义则Γ(k,j)即为最小k,j-节点割集。其中,G[U\S]表示由集合C除去集合U后的余集中的顶点组成的图G。
令x∈C,对任意的定义δx(U)为在节点x处的Dirac测度(狄拉克测度)。如果对于任意的/>成立不等式:
则称U是连通的。
图的节点割集提供了在图G中施加连通性约束的基础。考虑特征之间的连通性,有助于识别出高度互连并具有协同功能模块的特征子网,有助于识别网络中对系统行为有重大影响的关键节点或“枢纽”。
如图2所示,求解最小k j-节点割的步骤包括:应用广度优先搜索算法计算图G的所有连通分支;应用广度优先搜索似然算法计算所有连通分支的直径;统计并比较每个连通分支直径的大小;判断最长直径是否只有一条,若是选择唯一一条直径;否则,按搜索顺序选择第一条直径;定义直径连接的两个端点为顶点k和顶点j(即,vk和vj);给定的vk和vj,确定最大连通分支的最小k j-节点割S。
网络正则化特征选择构建模块,被配置为:基于图论与组合中的连通不等式构建连通网络正则化Cox比例风险模型(Connected Network-regularized Cox proportionalhazards,CNet-Cox)。
疾病在t时刻复发或死亡的风险可通过如下的Cox比例风险模型表示:
其中,h(t,Xi)是第i个样本在时刻t的风险,h0(t)是基准风险(每个样本在Xi=0时的风险),是对应于第i个样本的待求解的p维回归系数。
假设样本之间没有关联,即存活时间是独立的。为估计回归系数θ,只需最大化Cox比例风险模型的对数偏似然函数:
其中,D={(X1,y1,δ1),(X2,y2,δ2),…,(Xn,yn,δn)}表示数据集,δi是一个二值指示变量(δi=1,yi处于截尾时间;δi=0,yi处于死亡时间),ti表示第i个样本的生存时间(观测时间或截尾时间),Hi={j|tj>ti,j=1,2,…,n}表示活着的样本在ti时刻的风险集。
基于正则化思想,将带有连通不等式约束的稀疏图惩罚项添加到负的对数偏似然函数上,得到如下的连通网络正则化Cox比例风险模型CNet-Cox:
其中,Lp为图G的最大连通分支U的拉普拉斯矩阵,λ>0和α∈(0,1)是调节参数,用来平衡损失项和惩罚函数项,以此建立了一个正则化约束规划模型。是第i个样本的p维回归系数,θj表示第i个样本的第j维回归系数,L(θ;D)表示比例风险模型的对数偏似然函数,p表示样本的维度,δl(U)为在节点l处的狄拉克测度,S表示最小节点割,U表示最大连通分支的集合,Γ(k,j)表示顶点k和顶点j的最小节点割的集合,E表示基因相互作用网络G的边集,ekj表示顶点k到顶点j的边,C表示基因相互作用网络G的顶点集V的子集。
连通网络预后标志物识别模块,被配置为:计算整合后的基因互作网络中节点的回归系数,非零回归系数对应的基因即为CNet-Cox模型识别的预后生物标志物。
计算每个基因所对应的回归系数,非零系数对应的基因即为CNet-Cox模型所识别出的预后生物标志物(特征变量)。
预后标志物可靠性的验证模块,被配置为:通过功能富集分析、语义相似性分析和耐药性分析探索预后生物标志物基因在乳腺癌中的潜在病理学意义。
对所识别的预后标志物分别做通路和过程功能富集分析,同时做语义相似性分析和耐药性分析,探索识别的预后生物标志物基因对乳腺癌的潜在病理学意义。
预后风险得分指标的建立模块,被配置为:对识别的预后标志物进行单因素和多因素Cox回归生存分析,建立临床可用的预后风险得分指标(Prognostic Risk Score,PRS)。
分别对所有样本的总生存期进行单变量和多变量Cox回归分析,最终选择m个关键的预后基因构建用于预测疾病预后和治疗反应的预后风险得分指标:
其中,m表示独立预后基因的总数,xi表示第i个基因的表达值,表示基因i的回归系数,其来自多变量Cox回归模型。选取PRS指标的最佳截断阈值,即可将所有患者分为高危组和低危组。
患者生存风险预测与分组模块,被配置为:基于PRS指标对疾病样本的生存概率进行预测,将其分为高风险组和低风险组。
为了构建乳腺癌预后风险评分系统,使用1080个具有临床信息样本中的68个预后标志物基因做进一步分析。单变量Cox回归生存分析的结果表明,P<0.05的39个基因与总生存期显著相关;多变量Cox回归的结果表明,P<0.05的6个基因(EGR1、IGFBP5、JUN、MAFK、MYC和TCF7)与总生存期高度相关。因此,可建立如下的乳腺癌预后风险得分指标:
PRS=0.197*xEGR1+0.120*xIGFBP5-0.130*xJUN+0.155*xMAFK-0.099*xMYC-0.109*xTCF7
其中,xGene表示其对应基因的表达值。
选取合适的阈值将乳腺癌患者划分为高风险组和低风险组,同时绘制生存分析的KM曲线并结合双侧对数秩检验计算显著性。结果表明,高风险组和低风险组着两个组别之间的生存概率存在显著差异(P=0.006),从而证明了PRS指标在乳腺癌预后中的有效性。
独立数据集外部验证评估模块,被配置为:获取待研究疾病的独立基因表达数据集进行外部验证,通过绘制生存曲线确定高风险组和低风险组在生存模式上的统计学显著差异,验证预后风险得分指标的有效性。
获取乳腺癌患者的多个独立基因表达数据集以进行外部验证。首先从独立数据集中提取基因EGR1、IGFBP5、JUN、MAFK、MYC和TCF7的表达值,然后计算每个样本的PRS指标值,使用PRS的最佳截断阈值将患者分为高风险组和低风险组,并借助对数秩检验分别在每个独立的外部数据集上计算P值、结果表明,基于PRS指数的KM生存曲线在每个独立的数据集上都有显著差异(P<0.05)。
本系统分为四层模型,整合差异表达基因与已知的先验标志基因并将其基因表达值映射至基因互作网络,提取基因互作网络的最大连通分支作为候选子网并构建基于连通网络正则化Cox比例风险模型进行特征选择,筛选非零回归系数所对应的基因作为预后标志物并对其可靠性进行验证,进一步基于单因素和多因素Cox生存分析模型构建预后风险得分指标预测患者的生存概率并区分高风险组和低风险组。
本发明提出的连通网络正则化Cox比例风险模型从基因互作网络的内在结构出发,挖掘具有连通网络结构的重要基因作为预后标志物;与其他正则化Cox比例风险模型相比,该模型在训练过程中嵌入了稀疏特征选择过程和先验网络拓扑结构信息,使得识别出的生物标志物具有网络连通性,并有效提高了预后生物标志物的识别准确性和可靠性。
本发明的模块分析展示了复杂疾病(如乳腺癌)在分子层面的异常,深入探索识别的预后生物标志物基因对复杂疾病的潜在病理学意义,为揭示复杂疾病的致病机理和驱动因素提供了新思路。
本发明关注临床事件发生的时间和结局,每个协变量的回归系数可以很容易地解释为比值比(回归系数的指数),直观地反映了协变量与结局之间的关联强弱,相较于“黑箱”机器学习算法,同时具有模型与结果的可解释性,医生对该模型的解读更加容易。
本发明建立的预后风险得分指标中各系数不受数据集的影响,内部验证和外部验证结果一致,证实了预后风险得分指标在高/低风险乳腺癌患者中的显著划分能力,可以指导乳腺癌患者的治疗选择和预后评估。
本发明所提供的系统将组学数据分析与机器学习算法相结合,为预后生物标志物的发现和应用提供了一套系统的、可解释的新框架,为临床决策提供了重要参考,具有广泛的应用前景和推广价值。
实施例二
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行以下步骤:
获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
其中,在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例三
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,执行以下步骤:
获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
其中,在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种预后生物标志物识别系统,其特征是,包括:
数据获取与预处理模块,用于获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
基因互作网络生成模块,用于将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
连通网络预后标志物识别模块,用于基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
2.如权利要求1所述的一种预后生物标志物识别系统,其特征是,所述数据获取与预处理模块,还用于在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
3.如权利要求1所述的一种预后生物标志物识别系统,其特征是,假设基因相互作用网络G由顶点集V和边集E组成,顶点集V的子集C是基因相互作用网络G的所有连通分支的所有顶点的集合,如果C∪{k},对于任意的k∈C\U都不连通,则集合U是子集C的最大连通分支的集合。
4.如权利要求1所述的一种预后生物标志物识别系统,其特征是,假设基因相互作用网络G由顶点集V和边集E组成,从顶点k到顶点j的边为ekj,给定不相连的两个顶点{k,j}∈U,U表示最大连通分支的集合,满足ekj∈E,如果在G[U\S]中,顶点k和顶点j之间无任意一条连线,则集合为分离顶点k和顶点j的最小节点割。
5.如权利要求1所述的一种预后生物标志物识别系统,其特征是,所述带有连通不等式约束的稀疏图惩罚项的对数偏似然函数为:
其中,Lp为基因相互作用网络G的最大连通分支U的拉普拉斯矩阵,λ和α是调节参数,是第i个样本的p维回归系数,θj表示第i个样本的第j维回归系数,L(θ;D)表示比例风险模型的对数偏似然函数,p表示样本的维度,δl(U)为在节点l处的狄拉克测度,S表示最小节点割,U表示最大连通分支的集合,Γ(k,j)表示顶点k和顶点j的最小节点割的集合,E表示基因相互作用网络G的边集,ekj表示从顶点k到顶点j的边,C表示基因相互作用网络G的所有连通分支的所有顶点的集合。
6.如权利要求1所述的一种预后生物标志物识别系统,,其特征是,还包括预后风险得分指标的建立模块,用于对所述预后生物标志物,计算预后风险得分指标,并基于所述预后风险得分指标,将疾病的患者分为高危组和低危组。
7.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行以下步骤:
获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
8.如权利要求1所述的电子设备,其特征是,在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
9.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行以下步骤:
获取疾病的基因表达数据,并筛选出差异表达基因,将差异表达基因与所述疾病的先验标志基因整合;
将整合后的基因表达数据,映射到基因相互作用网络后,提取最大连通分支和最小节点割;
基于所述最大连通分支和最小节点割,通过最小化带有连通不等式约束的稀疏图惩罚项的对数偏似然函数,得到基因相互作用网络中节点的回归系数,非零回归系数对应的基因即为预后生物标志物。
10.如权利要求9所述的存储介质,其特征是,在筛选差异表达基因前,对基因表达数据进行对数变化和归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311279121.XA CN117352048A (zh) | 2023-09-28 | 2023-09-28 | 一种预后生物标志物识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311279121.XA CN117352048A (zh) | 2023-09-28 | 2023-09-28 | 一种预后生物标志物识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117352048A true CN117352048A (zh) | 2024-01-05 |
Family
ID=89355175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311279121.XA Pending CN117352048A (zh) | 2023-09-28 | 2023-09-28 | 一种预后生物标志物识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117352048A (zh) |
-
2023
- 2023-09-28 CN CN202311279121.XA patent/CN117352048A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Identification of 12 cancer types through genome deep learning | |
Binder et al. | Morphological and molecular breast cancer profiling through explainable machine learning | |
Khosravi et al. | Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images | |
Yu et al. | Association of omics features with histopathology patterns in lung adenocarcinoma | |
Kong et al. | Machine-based morphologic analysis of glioblastoma using whole-slide pathology images uncovers clinically relevant molecular correlates | |
US20160110496A1 (en) | Methods for Classifying Samples Based on Network Modularity | |
US20130030713A1 (en) | Methods of associating an unkown biological specimen with a family | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
Hu et al. | Classifying the multi-omics data of gastric cancer using a deep feature selection method | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
Yao et al. | Data-driven choice set generation and estimation of route choice models | |
Binder et al. | Towards computational fluorescence microscopy: Machine learning-based integrated prediction of morphological and molecular tumor profiles | |
Zhao et al. | Identification of pan-cancer prognostic biomarkers through integration of multi-omics data | |
CN113270188A (zh) | 食管鳞癌根治术后患者预后预测模型构建方法及装置 | |
Parodi et al. | Differential diagnosis of pleural mesothelioma using Logic Learning Machine | |
CN116564421B (zh) | 一种急性髓系白血病患者铜死亡相关预后模型构建方法 | |
CN107025387B (zh) | 一种用于癌症生物标志物识别的方法 | |
Li et al. | A neural network-based method for exhaustive cell label assignment using single cell RNA-seq data | |
Tahmouresi et al. | Gene selection using pyramid gravitational search algorithm | |
CN106874705A (zh) | 基于转录组数据确定肿瘤标记物的方法 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
Vijayan et al. | Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods | |
CN117352048A (zh) | 一种预后生物标志物识别系统 | |
KR102305806B1 (ko) | 임상 정보와 유전자 다형성 정보를 이용한 폐암 환자의 수술 후 예후 예측 방법 | |
Weber et al. | Distinguishing linear and branched evolution given single-cell DNA sequencing data of tumors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |