CN114171199A - 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 - Google Patents
脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN114171199A CN114171199A CN202111528003.9A CN202111528003A CN114171199A CN 114171199 A CN114171199 A CN 114171199A CN 202111528003 A CN202111528003 A CN 202111528003A CN 114171199 A CN114171199 A CN 114171199A
- Authority
- CN
- China
- Prior art keywords
- patient
- survival
- brain
- clustering
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004083 survival effect Effects 0.000 title claims abstract description 65
- 201000011510 cancer Diseases 0.000 title claims abstract description 42
- 210000004556 brain Anatomy 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 206010028980 Neoplasm Diseases 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000036210 malignancy Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 239000013610 patient sample Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 10
- 208000003174 Brain Neoplasms Diseases 0.000 abstract description 7
- 238000004393 prognosis Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000032612 Glial tumor Diseases 0.000 description 2
- 206010018338 Glioma Diseases 0.000 description 2
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 1
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 1
- 101710102690 Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101710175291 Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Pathology (AREA)
- Economics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
Abstract
本申请提供的脑恶性肿瘤患者生存预测方法、系统、终端及存储介质,获取脑恶性肿瘤患者生物学数据,对所述生物学数据进行预处理,构建患者关系虚拟属性图,基于所述患者关系虚拟属性图对相似患者人群进行聚类,基于相似患者聚类,对患者的预后生存概率进行预测,本申请提供的脑恶性肿瘤患者生存预测方法、系统、终端及存储介质,通过建立患者关系虚拟图,可自动化的建立患者关系网络,通过患者各个特征属性之间的相似度进行患者聚类,从而更多的保留脑肿瘤各个亚型的疾病异质性信息,在患者生存分析中为预测精度提供了保证。
Description
技术领域
本申请属于医学数据处理技术领域,具体涉及一种脑恶性肿瘤患者生存预测方法、系统、终端及存储介质。
背景技术
不同的脑恶性肿瘤患者预后表现出显著差异,如IDH1和IDH2突变型胶质瘤预后明显优于IDH野生型胶质瘤。针对颅外原发性肿瘤脑转移,不同的肿瘤微环境细胞类型,在癌症进展和治疗反应中表现出极大的异质性。此外,细胞的功能很少由一个单一的基因直接控制,而是多种因素相互作用的结果。生命系统的运行机制本质上呈现典型的多组学相互作用特征,大部分生命过程都是多个组学层面进行复杂相互作用的产物。因此,多组学融合分析在生命科学规律解析、疾病机制发现等方面都有较为深远的意义。综上,如何在多组学知识嵌入的基础上,实现脑癌患者特征的有效表征,挖掘疾病异质性,是癌症患者生存分析研究的重要方向之一。
对癌症患者人群分组需要在正确区分疾病的异质性的基础上寻找相似的患者,因此,需要充分的医学知识对患者属性的重要性进行度量并进行数学建模。疾病的复杂性以及医学知识的有限性限制了模型的能力并引起分组偏差。在医学知识有限的情况下对海量电子病历的人群按照疾病演变节点准确分组,是后续脑恶性肿瘤患者生存预测准确性的基础。
发明内容
鉴于此,有必要针对现有技术存在的缺陷提供一种实现患者生存预测的高效、准确分析的脑恶性肿瘤患者生存预测方法。
为解决上述问题,本申请采用下述技术方案:
本申请的目的之一在于提供了一种脑恶性肿瘤患者生存预测方法,包括下述步骤:
获取脑恶性肿瘤患者生物学数据;
对所述生物学数据进行预处理;
构建患者关系虚拟属性图;
基于所述患者关系虚拟属性图对相似患者人群进行聚类;
基于相似患者聚类,对患者的预后生存概率进行预测。
在其中一些实施例中,在获取脑恶性肿瘤患者生物学数据的步骤中,所述生物学数据包括临床数据、多组学数据及影像数据。
在其中一些实施例中,在对所述生物学数据进行预处理的步骤中,具体包括下述步骤:
将所述生物学数据整理为行代表特征及列代表患者样本的矩阵形式;
对所述生物学数据进行初步的缺失值填充;
对缺失值填充后的数据进行标准化处理,行标准化与列标准化分别进行。
在其中一些实施例中,在对所述生物学数据进行初步的缺失值填充的步骤中,具体包括下述步骤:
针对每一个特征如果在某个患者样本中的表达存在缺失的情况,则通过如下方法进行填充:计算其余表达值的几何平均值、算数平均值,将其替代缺失值;或者直接将缺失值补充为0。
在其中一些实施例中,在构建患者关系虚拟属性图的步骤中,具体包括下述步骤:
所述患者关系虚拟属性图为一个可以学习的神经网络,如下述公式:
sv=τ(obsv,obs(v-1),…,obs(v-p+1);θτ)
=τ(O(v,p);θτ)
其中,obsv是患者在v时刻的状态,τ是一个神经网络,θτ是该网络的参数;
虚拟图的边表示患者之间的相似度,如下述公式所示,其中:Wline_proj表示可训练的线性映射,
t(v,u)=κ(sv,su)
inst_norm[Wline_proj,Sv]⊙inst_norm[Wline_proj,Su]
所述虚拟图作为后续的神经网络下游任务的输入,经过模型训练自动化的训练调整成为理想的患者关系图;其中Wline_proj表示可训练的线性映射,inst_norm代表InstanceNorm,即一个实例归一化函数。
在其中一些实施例中,在基于所述患者关系虚拟属性图对相似患者人群进行聚类的步骤中,具体包括:
图信号的光滑程度可以由特征值来度量:
其中:表示特征向量uq的第i个元素,ai,j是图邻接矩阵的第i行和第j列元素。使用低通滤波对图信号卷积的阶次越多,则图信号越平滑,低通滤波器的频率响应函数可表示为:G=Up(Λ)U-1,其中p(Λ)=diag(p(λ1),…,p(λn)),邻接矩阵A和图拉普拉斯矩阵可以表示为D=diag(d1,…,dn)和L=D-A,图拉普拉斯算子可表示为
采用自监督聚类以对相似患者人群进行聚类:通过下述公式对相似患者人群进行聚类:
λtig表示聚类内的损失函数,λseq表示聚类间的损失函数。其中:
其中,C(i)表示顶点vi所属的类簇节点集合,C′(i)表示顶点vi所属类簇之外的节点集合,dis(·)用于描述两个对象间的差异性。
在其中一些实施例中,在基于相似患者聚类,对患者的预后生存概率进行预测的步骤中,具体包括下述步骤:
患者聚类节点作为输入,通过全连接层对患者的生存概率进行回归,通过模型的反向传播与不断优化调整对患者的生存概率进行输出,实现患者的生存分析。
本申请的目的之二,在于提供一种脑恶性肿瘤患者生存预测系统,包括:
生物学数据采集单元:用于获取脑恶性肿瘤患者生物学数据;
数据处理单元:用于对所述生物学数据进行预处理;
属性单元:用于构建患者关系虚拟属性图;
聚类单元:用于基于所述患者关系虚拟属性图对相似患者人群进行聚类;
预测单元:用于基于相似患者聚类,对患者的预后生存概率进行预测。
本申请的目的之三,在于提供了一种终端,包括:所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现所述的脑恶性肿瘤患者生存预测方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制生存预测。
本申请的目的之四,在于提供了一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行任一项所述脑恶性肿瘤患者生存预测方法。
本申请采用上述技术方案具备下述效果:
本申请提供的脑恶性肿瘤患者生存预测方法、系统、终端及存储介质,获取脑恶性肿瘤患者生物学数据,对所述生物学数据进行预处理,构建患者关系虚拟属性图,基于所述患者关系虚拟属性图对相似患者人群进行聚类,基于相似患者聚类,对患者的预后生存概率进行预测,本申请提供的脑恶性肿瘤患者生存预测方法、系统、终端及存储介质,通过建立患者关系虚拟图,可自动化的建立患者关系网络,通过患者各个特征属性之间的相似度进行患者聚类,从而更多的保留脑肿瘤各个亚型的疾病异质性信息,在患者生存分析中为预测精度提供了保证。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的脑恶性肿瘤患者生存预测方法的步骤流程图。
图2是本申请实施例提供的脑恶性肿瘤患者生存预测方法的结构示意图。
图3为本申请实施例提供的终端结构示意图。
图4为本申请实施例提供的存储介质的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,术语“上”、“下”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,为本申请提供的脑恶性肿瘤患者生存预测方法的步骤流程图,包括下述步骤:
步骤S110:获取脑恶性肿瘤患者生物学数据。
在本实施例中,在获取脑恶性肿瘤患者生物学数据的步骤中,所述生物学数据包括临床数据、多组学数据及影像数据。
步骤120:对所述生物学数据进行预处理。
在本实施例中,在对所述生物学数据进行预处理的步骤中,具体包括下述步骤:
将所述生物学数据整理为行代表特征及列代表患者样本的矩阵形式,对所述生物学数据进行初步的缺失值填充,对缺失值填充后的数据进行标准化处理,行标准化与列标准化分别进行。
在本实施例中,针对每一个特征(即矩阵中的每一行),如果在某个患者样本中(即在某一列)的表达存在缺失的情况,则通过如下方法进行填充:计算其余表达值的几何平均值、算数平均值,将其替代缺失值;或者直接将缺失值补充为0。
步骤S130:构建患者关系虚拟属性图。
在本实施例中,在构建患者关系虚拟属性图的步骤中,具体包括下述步骤:
所述患者关系虚拟属性图为一个可以学习的神经网络,如下述公式:
sv=τ(obsv,obs(v-1),…,obs(v-p+1);θτ)
=τ(O(v,p);θτ)
其中,obsv是患者在v时刻的状态,τ是一个神经网络,θτ是该网络的参数;
虚拟图的边表示患者之间的相似度,如下述公式所示,其中:Wline_proj表示可训练的线性映射,
t(v,u)=κ(sv,su)
inst_norm[Wline_proj,Sv]⊙inst_norm[Wline_proj,Su]
所述虚拟图作为后续的神经网络下游任务的输入,经过模型训练自动化的训练调整成为理想的患者关系图;其中Wline_proj表示可训练的线性映射,inst_norm代表InstanceNorm,即一个实例归一化函数。
可以理解,在无领域知识的前提下,通过训练自动学习疾病的重要特征变量,融合患者的各属性特征以及可以构成时序特征的变量构成图节点,生成患者关系虚拟属性图,并以此为基础进行适度阶次的图学习方法能够反映患者疾病异质性的深度表征,对脑癌患者生存分析的临床应用及生物学相关领域的分析具有重要意义。
步骤S140:基于所述患者关系虚拟属性图对相似患者人群进行聚类。
在本实施例中,在基于所述患者关系虚拟属性图对相似患者人群进行聚类的步骤中,具体包括:
图信号的光滑程度可以由特征值来度量:
其中:表示特征向量uq的第i个元素,ai,j是图邻接矩阵的第i行和第j列元素,使用低通滤波对图信号卷积的阶次越多,则图信号越平滑,低通滤波器的频率响应函数可表示为:G=Up(Λ)U-1,其中p(Λ)=diag(p(λ1),…,p(λn)),邻接矩阵A和图拉普拉斯矩阵可以表示为D=diag(d1,…,dn)和L=D-A,图拉普拉斯算子可表示为
可以理解,图卷积神经网络的阶数可通过图信号的光滑程度来度量并做出最佳选择的。
采用自监督聚类以对相似患者人群进行聚类:通过下述公式对相似患者人群进行聚类:
λtig表示聚类内的损失函数,λseq表示聚类间的损失函数。其中:
其中,C(i)表示顶点vi所属的类簇节点集合,C′(i)表示顶点vi所属类簇之外的节点集合,dis(·)用于描述两个对象间的差异性。
可以理解,在聚类过程中,距离较远的节点对仍可能属于相同的类簇,而距离较近的节点对可能属于不同的类簇。
步骤S150:基于相似患者聚类,对患者的预后生存概率进行预测。
在本实施例中,在基于相似患者聚类,对患者的预后生存概率进行预测的步骤中,具体包括下述步骤:
患者聚类节点作为模型的输入,通过模型对患者的生存概率进行输出,实现患者的生存分析。
可以理解,在下游患者生存预测模型中,患者聚类节点作为模型的输入,通过全连接层对患者的生存概率进行回归,通过模型的反向传播与不断优化调整对脑癌患者的生存概率进行输出,实现患者的生存分析。
请参阅图2,为本申请提供的脑恶性肿瘤患者生存预测系统的结构示意图,生物学数据采集单元110:用于获取脑恶性肿瘤患者生物学数据;数据处理单元120:用于对所述生物学数据进行预处理;属性单元130:用于构建患者关系虚拟属性图;聚类单元140:用于基于所述患者关系虚拟属性图对相似患者人群进行聚类;预测单元150:用于基于相似患者聚类,对患者的预后生存概率进行预测。其详细的实现方式在本申请上述方法描述中已经说明,这里不再赘述。
请参阅图3,为本申请实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
存储器52存储有用于实现所述的脑恶性肿瘤患者生存预测方法的程序指令。
处理器51用于执行存储器52存储的程序指令以控制所述脑恶性肿瘤患者生存期预测。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图4,为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
本申请选取GDC数据库的脑癌患者公开数据为测试数据进行分析。
步骤1:输入生物学数据,输入测试数据,包含4881列(其中miRNA表达数据1881列,RNA表达数据1000列,CNV2000列),1000行。即共有4881个特征,1000个样本。示例仅选择了CNV、RNA、miRNA特征数据,实际应用可根据需求增加DNA甲基化等多组学数据。
步骤2:数据预处理与标准化,(1)对输入的原始数据进行初步的缺失值填充:针对每一个特征(即矩阵中的每一行),如果在某个样本中(即在某一列)的表达存在缺失的情况,则计算其余表达值算数平均值,将其替代缺失值;(2)对缺失值填充后的数据进行标准化处理,行标准化与列标准化分别进行。
步骤3:模型在反向传播过程中自动优化调整,建立患者关系虚拟属性图。
步骤4:基于构建的虚拟患者关系图,利用谱聚类进行人群分组。
(1)模型通过基于图信号的图平滑表达方法对患者关系虚拟属性图中的关联关系进行优化。(2)对患者关系图中的患者进行自监督聚类,模型中的算法在一定程度上保证了各个类簇之间的距离最大化且类簇内各个节点之间的距离最小化。
步骤5:通过全连接层网络对聚类后的患者节点进行回归,实现数值输出。模型的输出为患者的生存概率。
本申请提供的脑恶性肿瘤患者生存预测方法、系统、终端及存储介质,通过建立患者关系虚拟图,可自动化的建立患者关系网络,通过患者各个特征属性之间的相似度进行患者聚类,从而更多的保留脑肿瘤各个亚型的疾病异质性信息,在患者生存分析中为预测精度提供了保证。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种脑恶性肿瘤患者生存预测方法,其特征在于,包括下述步骤:
获取脑恶性肿瘤患者生物学数据;
对所述生物学数据进行预处理;
构建患者关系虚拟属性图;
基于所述患者关系虚拟属性图对相似患者人群进行聚类;
基于相似患者聚类,对患者的预后生存概率进行预测。
2.根据权利要求1所述的脑恶性肿瘤患者生存预测方法,其特征在于,在获取脑恶性肿瘤患者生物学数据的步骤中,所述生物学数据包括临床数据、多组学数据及影像数据。
3.根据权利要求2所述的脑恶性肿瘤患者生存预测方法,其特征在于,在对所述生物学数据进行预处理的步骤中,具体包括下述步骤:
将所述生物学数据整理为行代表特征及列代表患者样本的矩阵形式;
对所述生物学数据进行初步的缺失值填充;
对缺失值填充后的数据进行标准化处理,即行标准化与列标准化分别进行。
4.根据权利要求3所述的脑恶性肿瘤患者生存预测方法,其特征在于,在对所述生物学数据进行初步的缺失值填充的步骤中,具体包括下述步骤:
针对每一个特征如果在某个患者样本中的表达存在缺失的情况,则通过如下方法进行填充:计算其余表达值的几何平均值、算数平均值,将其替代缺失值;或者直接将缺失值补充为0。
5.根据权利要求1所述的脑恶性肿瘤患者生存预测方法,其特征在于,在构建患者关系虚拟属性图的步骤中,具体包括下述步骤:
所述患者关系虚拟属性图为一个可以学习的神经网络,如下述公式:
sv=τ(obsv,obs(v-1),...,obs(v-p+1);θτ)
=τ(O(v,p);θτ)
其中,obsv是患者在v时刻的状态,τ是一个神经网络,θτ是该网络的参数;
虚拟图的边表示患者之间的相似度,如下述公式所示,其中:Wline_proj表示可训练的线性映射,
t(v,u)=κ(sv,su)
inst_norm[Wline_proj,Sv]⊙inst_norm[Wline_proj,Su]
所述虚拟图作为后续的神经网络下游任务的输入,经过模型训练自动化的训练调整成为理想的患者关系图;其中Wline_proj表示可训练的线性映射,inst_norm代表InstanceNorm,即一个实例归一化函数。
6.根据权利要求5所述的脑恶性肿瘤患者生存预测方法,其特征在于,在基于所述患者关系虚拟属性图对相似患者人群进行聚类的步骤中,具体包括:
图信号的光滑程度可以由特征值来度量:
其中:表示特征向量uq的第i个元素,ai,j是图邻接矩阵的第i行和第j列元素,使用低通滤波对图信号卷积的阶次越多,则图信号越平滑,低通滤波器的频率响应函数可表示为:G=Up(∧)U-1,其中p(Λ)=diag(p(λ1),...,p(λn)),邻接矩阵A和图拉普拉斯矩阵可以表示为D=diag(d1,...,dn)和L=D-A,图拉普拉斯算子可表示为
采用自监督聚类以对相似患者人群进行聚类:通过下述公式对相似患者人群进行聚类:
λtig表示聚类内的损失函数,λseq表示聚类间的损失函数,其中:
其中,C(i)表示顶点vi所属的类簇节点集合,C′(i)表示顶点vi所属类簇之外的节点集合,dis(·)用于描述两个对象间的差异性。
7.根据权利要求6所述的脑恶性肿瘤患者生存预测方法,其特征在于,在基于相似患者聚类,对患者的预后生存概率进行预测的步骤中,具体包括下述步骤:
患者聚类节点作为输入,通过全连接层对患者的生存概率进行回归,通过模型的反向传播与不断优化调整对患者的生存概率进行输出,实现患者的生存分析。
8.一种脑恶性肿瘤患者生存预测系统,其特征在于,包括:
生物学数据采集单元:用于获取脑恶性肿瘤患者生物学数据;
数据处理单元:用于对所述生物学数据进行预处理;
属性单元:用于构建患者关系虚拟属性图;
聚类单元:用于基于所述患者关系虚拟属性图对相似患者人群进行聚类;
预测单元:用于基于相似患者聚类,对患者的预后生存概率进行预测。
9.一种终端,其特征在于,包括:所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1-6任一项所述的脑恶性肿瘤患者生存预测方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制生存预测。
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至6任一项所述脑恶性肿瘤患者生存预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111528003.9A CN114171199A (zh) | 2021-12-14 | 2021-12-14 | 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111528003.9A CN114171199A (zh) | 2021-12-14 | 2021-12-14 | 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114171199A true CN114171199A (zh) | 2022-03-11 |
Family
ID=80486412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111528003.9A Pending CN114171199A (zh) | 2021-12-14 | 2021-12-14 | 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114171199A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373657A (zh) * | 2023-12-07 | 2024-01-09 | 深圳问止中医健康科技有限公司 | 基于大数据分析的个性化医疗辅助问诊系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778042A (zh) * | 2017-01-26 | 2017-05-31 | 中电科软件信息服务有限公司 | 心脑血管患者相似性分析方法及系统 |
CN106897545A (zh) * | 2017-01-05 | 2017-06-27 | 浙江大学 | 一种基于深度置信网络的肿瘤预后预测系统 |
-
2021
- 2021-12-14 CN CN202111528003.9A patent/CN114171199A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897545A (zh) * | 2017-01-05 | 2017-06-27 | 浙江大学 | 一种基于深度置信网络的肿瘤预后预测系统 |
CN106778042A (zh) * | 2017-01-26 | 2017-05-31 | 中电科软件信息服务有限公司 | 心脑血管患者相似性分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
CHAOJIE JI等: "Adaptive Smoothness-Transition Graph Convolutions for Attributed Graph Clustering", ARXIV, 12 September 2020 (2020-09-12), pages 5 - 8 * |
JIE ZHANG等: "Dynamic Virtual Graph Significance Networks for Predicting Influenza", ARXIV, 16 February 2021 (2021-02-16), pages 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373657A (zh) * | 2023-12-07 | 2024-01-09 | 深圳问止中医健康科技有限公司 | 基于大数据分析的个性化医疗辅助问诊系统 |
CN117373657B (zh) * | 2023-12-07 | 2024-02-20 | 深圳问止中医健康科技有限公司 | 基于大数据分析的个性化医疗辅助问诊系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | From quantitative microscopy to automated image understanding | |
US8831327B2 (en) | Systems and methods for tissue classification using attributes of a biomarker enhanced tissue network (BETN) | |
JP2002513979A (ja) | 多次元空間において近接データを表すシステム、方法、およびコンピュータプログラムプロダクト | |
CN107301328B (zh) | 基于数据流聚类的癌症亚型精准发现与演化分析方法 | |
Cheng et al. | DGCyTOF: Deep learning with graphic cluster visualization to predict cell types of single cell mass cytometry data | |
CN111913999B (zh) | 基于多组学与临床数据的统计分析方法、系统和存储介质 | |
US20230056839A1 (en) | Cancer prognosis | |
Loughrey et al. | The topology of data: opportunities for cancer research | |
CN115471448A (zh) | 基于人工智能的胸腺瘤组织病理的分型方法及装置 | |
Pham et al. | Analysis of microarray gene expression data | |
CN117422704A (zh) | 一种基于多模态数据的癌症预测方法、系统及设备 | |
Peng et al. | Cell type hierarchy reconstruction via reconciliation of multi-resolution cluster tree | |
Wang et al. | DFSP: A fast and automatic distance field-based stem-leaf segmentation pipeline for point cloud of maize shoot | |
CN114171199A (zh) | 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 | |
Jin et al. | Imputing dropouts for single-cell RNA sequencing based on multi-objective optimization | |
Yuan et al. | Harnessing computational spatial omics to explore the spatial biology intricacies | |
CN117423391A (zh) | 一种基因调控网络数据库的建立方法、系统及设备 | |
CN117594225A (zh) | 基于病理和基因的多模态融合生存预后方法及装置 | |
CN117422897A (zh) | 一种基于多模态结构化嵌入模型的脑组织识别与分区方法 | |
Burns | Neural connectivity of the rat: theory, methods and applications | |
Martin et al. | A graph based neural network approach to immune profiling of multiplexed tissue samples | |
CN116386725A (zh) | 联合病理组学特征的肿瘤差异基因表达谱预测方法及系统 | |
CN115661498A (zh) | 一种自优化单细胞聚类方法 | |
Alim et al. | Integrating convolutional neural networks for microscopic image analysis in acute lymphoblastic leukemia classification: A deep learning approach for enhanced diagnostic precision | |
CN117496279B (zh) | 影像分类模型建立方法及装置、分类方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |