CN111009292B - 基于单样本sKLD指标检测复杂生物系统相变临界点的方法 - Google Patents
基于单样本sKLD指标检测复杂生物系统相变临界点的方法 Download PDFInfo
- Publication number
- CN111009292B CN111009292B CN201911142801.0A CN201911142801A CN111009292B CN 111009292 B CN111009292 B CN 111009292B CN 201911142801 A CN201911142801 A CN 201911142801A CN 111009292 B CN111009292 B CN 111009292B
- Authority
- CN
- China
- Prior art keywords
- sample
- distribution
- skld
- critical
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000014509 gene expression Effects 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims description 49
- 239000000523 sample Substances 0.000 claims description 40
- 230000001186 cumulative effect Effects 0.000 claims description 10
- 239000013074 reference sample Substances 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 6
- 206010028980 Neoplasm Diseases 0.000 abstract description 11
- YGYAWVDWMABLBF-UHFFFAOYSA-N Phosgene Chemical compound ClC(Cl)=O YGYAWVDWMABLBF-UHFFFAOYSA-N 0.000 abstract description 8
- 206010009944 Colon cancer Diseases 0.000 abstract description 7
- 208000024770 Thyroid neoplasm Diseases 0.000 abstract description 7
- 201000006585 gastric adenocarcinoma Diseases 0.000 abstract description 7
- 230000001105 regulatory effect Effects 0.000 abstract description 7
- 201000002510 thyroid cancer Diseases 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 6
- 238000002474 experimental method Methods 0.000 abstract description 6
- 210000004072 lung Anatomy 0.000 abstract description 5
- 208000029742 colonic neoplasm Diseases 0.000 abstract description 4
- 206010037423 Pulmonary oedema Diseases 0.000 abstract description 3
- 201000011510 cancer Diseases 0.000 abstract description 3
- 208000005333 pulmonary edema Diseases 0.000 abstract description 3
- 206010041823 squamous cell carcinoma Diseases 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 description 12
- 239000000090 biomarker Substances 0.000 description 10
- 230000008859 change Effects 0.000 description 10
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 230000004083 survival effect Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 6
- 201000005249 lung adenocarcinoma Diseases 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 206010069351 acute lung injury Diseases 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 5
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000699670 Mus sp. Species 0.000 description 3
- 208000033781 Thyroid carcinoma Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 208000013077 thyroid gland carcinoma Diseases 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000010205 computational analysis Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 108700020796 Oncogene Proteins 0.000 description 1
- 208000037273 Pathologic Processes Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000004034 genetic regulation Effects 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000009054 pathological process Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于单样本sKLD指标检测复杂生物系统相变临界点的方法,通过从高通量的数据中挖掘丰富的动态信息并利用正常状态和临界状态之间的不同动态特性,量化单一样本对参照组样本分布的干扰,从而确定临界状态或相变的早期预警信号。为了验证算法的有效性,本发明将该算法应用于一个基于模拟数据集的调控网络和六个真实的数据集。这六个真实数据集分别是:小鼠实验中通过吸入羰基氯引发肺水肿生成的基因表达谱的数据集、5个TCGA数据库的癌症数据集(肺鳞癌、肺腺癌、胃腺癌、甲状腺癌、结肠癌)。
Description
技术领域
本发明涉及生物系统相变临界点检查的技术领域,具体涉及一种基于单样本sKLD指标检测复杂生物系统相变临界点的方法。
背景技术
生物系统的发展进程通常是一个非线性过程,具有三个阶段,即正常状态、临界状态和疾病状态,其中临界状态是正常状态进入疾病状态的临界点。传统的生物标记物旨在通过利用观察到的分子的差异表达信息来识别疾病状态,但是由于正常和临界状态之间通常没有显著差异,所以可能无法检测到复杂生物系统相变的临界。因此,对临界状态进行信号预警是一个挑战,这实际上意味着对复杂生物系统相变临界点进行预测。
下面介绍计算方法的理论推导如下:
在临界相变之前和附近不同的动态特性:
复杂生物系统相变临界点进展的动力学可以通过以下非线性离散时间动态系统来表示:Z(t)=f(Z(t-1);P),这里Z(t)= (z1(t),z2(t),…,zn(t))是n维状态向量或在时间t=1,2,…的变量,P= (P1,…,Ps)是一个代表缓慢变化因素的参数向量或者驱动因素,例如,遗传因素(SNP,CNV等),表观遗传因素(methylation,acetylation等)或者环境因素。f:Rn×Rs×Rn是一个非线性函数。对于这样一个非线性系统,该系统在处将经历一个相变或者是一种当参数P达到阈值Pc时来自稳定平衡的分叉(Gilmore,1993)。
对于z附近的系统(1),在P到达Pc之前,系统应该保持稳定的平衡因而所有的特征值的绝对值都在(0,1)内。使系统状态发生移位的参数值Pc称为一个分岔参数值或一个临界值,而在这种分歧之前的状态被称为前疾病状态。为了从理论和数学上描述生物系统的动力学,通常将其演化建模为一个含时非线性动力学系统,在该系统中,突变被视为分叉点处的时期转移。在小噪声的理想情况下,当一个复杂系统接近临界点时,在所有观测变量中,存在一个被定义为动态网络生物标记物生物分子的优势群,它基于观测数据满足以下三个条件(Chen et al.,2012;Liu et al.,2012,2013a, 2014b)
1.动态网络生物标记物组中任何一对分子之间的相关性迅速增加;
2.动态网络生物标记物组中任何的一个分子与任何其他非动态网络生物标记物分子之间的相关性迅速降低;
3.动态网络生物标记物组中任何一个分子的标准差急剧增加。
因此,从上述三个性质可以看出,系统的临界转变实际上可以由“分布转变”来表示,即对于动态网络生物标记物,当系统接近临界转变点时,它们的分布会发生显著变化。因此,通过探索这些变量的分布,我们可以预测即将到来的定性时期转变。另一方面,一个高通量数据样本使研究者能够同时分析成千上万种生物分子的表达。这样一个高维的样本实际上富含了累积效应的动态信息,比如相关生物系统在长期发展中的生物分子的相互作用。
大多数生物分子通过与功能模块或模块之间的其它生物分子的相互作用来执行其功能。这种模块间和模块内的互连性表明,特定遗传异常的影响不仅影响携带它的基因产物的活性,而且可以沿着由生物分子组成的网络的链接延伸,改变其它基因产物的活性。因此,了解生物分子的相互作用网络环境对于确定影响生物分子的缺陷的表型至关重要。
发明内容
本发明的目的是通过利用正常状态和临界状态之间的不同动态特性,提出一种基于单样本sKLD指标检测复杂生物系统相变临界点的方法。同时,高通量技术的快速发展为计算分析提供了新的视角,即使只有一个样本也可以识别临界状态。实际上,基于高通量数据样本,可以同时测量数千个生物分子的表达,这种全生物分子组范围内的高维观测不仅提供了一个生物系统的全局视图,而且还展示了其长期动态的累积效应。基于这一点,本研究开发了一种数据驱动的计算方法,实现了从高通量的数据中挖掘丰富的动态信息以实现基于单样本识别复杂生物系统相变临界点的目的。
本发明的目的可以通过采取如下技术方案达到:
一种基于单样本的sKLD指标检测复杂生物系统相变临界点的方法,给定至少6个参照样本(来自正常时期的样本),仅使用一个实验样本来识别临界状态,所述的方法包括如下步骤:
S1、准备一组参照样本。以正常时期提取的样本作为参照样本,也就是把处于正常时期的相对健康个体作为背景。对于数值模拟,将初始时间点采集的样本被视为参照样本。对于真实的数据集,选择来自正常组织的样本作为参照样本;
S2、根据参照样本,拟合生物分子的分布。具体来说,对于生物分子 gi,基于参照样本{s1,s2,…,sk}中的表达水平拟合高斯分布。然后,得到一个k维向量(area(Dgi(S1)),area(Dgi(S2)),…,area(Dgi(Sk))),其中, area(Dgi(Sk))代表第k个样本中的生物分子gi被高斯分布所确定的累积面积;
S3、按照如下公式构造参照分布P
S4、对于单个实验样本,基于这单个实验样本构造扰动分布Q,如下所示
S5、根据公式(A3)计算sKLD,sKLD用于评估参照分布P和扰动分布Q之间的差异
根据动态网络生物标记物理论,当复杂生物系统接近临界时期时,动态网络生物标记物生物分子表现出明显的集体波动行为,这导致了动态网络生物标记物生物分子处于前疾病时期的分布与处于正常时期的明显不同。因此,一组参照/正常样本的背景分布与一个新样本的扰动分布显著不同,导致公式(A3)中sKLD明显增加。因此,sKLD可以提供临界转变的预警信号。从上面的算法可以看出,该方法是数据驱动的,因此不需要模型。
进一步地,该方法需要至少6个正常样本作为参照样本。
进一步地,利用公式(A3)(sKLD指标)评估参照分布P和扰动分布 Q之间的差异,sKLD指标突然迅速增加表示即将到来的临界转变,或者复杂生物系统相变临界点的出现。
本发明相对于现有技术具有如下的优点及效果:
本发明给出了一个基于单样本的sKLD指标的计算方法,用来识别即将到来的临界转变,它被真实数据集证明是有效的。值得注意的是,本发明的目的是检测临界状态产生的早期预警信号,而不是找到发生质变的疾病状态的迹象。本发明的创新之处有:
1、传统的方法只能判断个体是处于正常状态还是疾病状态,而对于正常状态的极限状态也即临界转变关键期不能有效地察觉,本发明能够准确地反映出复杂生物系统发展过程中的临界状态的发生;
2、本发明方法是一种无模型方法,这意味着既没有特征选择,也没有模型/参数训练过程。因此,它不同于传统的机器学习或分类方法,在学习过程中产生一个鲁棒模型,需要大量的样本来避免过度拟合问题;
3、现有技术中单变量或少数变量受噪声影响太大,临界点信号不明显,而本发明方法可以克服;
4、本发明方法朝着检测复杂生物系统相变临界点进展中的关键转变的预警信号迈进了一步,它为识别生物系统进展中的临界转变的早期预警信号开辟了一条新的途径;
5、给定一些参照样本,sKLD指标基于单一样本也可以识别临界状态,即使只有一个样本也可以识生物系统的临界状态,在个体化的预防医学中具有巨大的潜力。
附图说明
图1是基于sKLD指标识别疾病前状态的流程示意图;
图2(A)是由模型控制八个节点的网络的示意图;
图2(B)是通过数值仿验证sKLD指标的验证图;
图2(C)是参照分布P和扰动分布Q的频率分布的分布图;
图3(A)是基于来自每个时间点的急性肺损伤数据集的sKLD指标的验证图;
图3(B)是急性肺损伤数据集的对照组和病例组的频率分布的分布图;
图3(C)是累积面积的变化最显著的前5%生物分子组成的网络的动力学演化示意图;
图4(A)是肺鳞癌的临界时期的识别示意图;
图4(B)是肺腺癌的临界时期的识别示意图;
图4(C)是胃腺癌的临界时期的识别示意图;
图4(D)是甲状腺癌的临界时期的识别示意图;
图4(E)是结肠癌的临界时期的识别示意图;
图4(F)是肺鳞癌的临界时期前后生存曲线的比较示意图;
图4(G)是肺腺癌的临界时期前后生存曲线的比较示意图;
图4(H)是胃腺癌的临界时期前后生存曲线的比较示意图;
图4(I)是甲状腺癌的临界时期前后生存曲线的比较示意图;
图4(J)是结肠癌的临界时期前后生存曲线的比较示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
基于sKLD指标在数值模拟中的验证
如图1所示,本发明所实施的案例公开了一种基于sKLD指标检测复杂生物系统相变前的临界状态的方法。根据图1公开的流程示意图,该实施案得到的结果如下:
1、识别八节点网络的疾病前状态:
使用八节点人工网络的模型(图2(A))来验证所提出的计算方法。该网络是一组八个生物分子的调控表示,由八个随机微分方程控制。
本实施例使用一个包含8个基因的调控网络(见图2(A))进行数值模拟,以使用SKLD检测生物系统发展过程的临界时期。这些类型的基因分子调控网络通常用于研究各种生物过程,包括影响基因调控活性的转录、翻译、扩散和易位过程。下面的8个微分方程代表了网络中8个基因的基因调控。在网络中,除降解率与相应基因浓度成线性比例外,基因调控以 michaelis-menten形式表示。
其中s是标量控制参数,(i=1,2,…,8)是均值和协方差为零的高斯噪声。zi(t)(i=1,2,…,8)表示mRNA-i的浓度。在式(1)中,表示为mRNA-i的降解率的大小,是微分方程式(1)的稳定平衡点。利用Euler 格式可以将微分方程(1)转化为差分方程。结果如下:
J=eΔt·m (3)
其中m是方程(2)线性化后的矩阵,从式(3)中,取Δt=1,方程有8个不同的特征值,当s→0时,方程的最大特征值0.66→1。因此,当s∈(0,1] 时,平衡点是稳定的,但是,当Sc=0,系统会发生临界的变化。在理论模型方程(2)的基础上,收集了8个节点在各个参数条件下的时间序列数据。然后,模拟了平均sKLD曲线,如图2(B)所示。
这样一个模型是以michaelis-menten形式表示的。这类调控网络通常用于研究遗传调控,包括转录和翻译过程,以及多稳定性和非线性生物过程。此外,michaelis-menten形式的分叉经常被用来模拟基因调控网络的时期转移。参数s在-0.5到0.2之间变化。在此模型的基础上,生成了数值模拟数据集。在图2(B)中可以看到,当系统接近一个特殊的参数值s=0时,sKLD突然急剧上升,该参数值被设置为分岔点。换言之,在参数值s=0 附近,sKLD的突然急剧上升表示参照分布P与由单个实验样本生成的扰动分布Q显著不同。为了更好地说明正常时期和临界时期之间的不同分布,在图2(C)中用一系列参数值演示了P和Q的频率分布的动态过程,其中每个频率分布是基于一万个模拟的统计图。从这些频率分布图可以看出,临界时期(s=0)的扰动频率分布Q呈现两个峰值,即当网络系统处于临界时期时,一些节点的表达式以强烈的集体方式剧烈波动,从而产生的分布与正常时期的参照分布显著不同。sKLD能够准确地检测到这一临界现象,为识别即将到来的分岔点提供了一个定量的衡量。数值实验验证了基于sKLD指标在疾病前状态信号传递过程中的可靠性和准确性。
2、预测真实数据集的临界点:
本实施例将基于sKLD指标应用于六个真正的实验数据集,即小鼠实验中通过吸入羰基氯引发肺水肿生成的基因表达谱数据集(GSE2565)和5 个TCGA数据库的癌症数据集(肺鳞癌、肺腺癌、胃腺癌、甲状腺癌、结肠癌)。
实施例二
基于sKLD指标在光气吸入致急性肺损伤数据集中的应用
sKLD指标算法已应用于(GSE2565)数据集的微阵列数据,该数据集来源于光气诱导急性肺损伤的小鼠实验。在原实验中,实验样本的基因表达数据来源于光气暴露72小时的cd-1雄性小鼠肺组织,而对照样本的基因表达数据来源于暴露于空气中的cd-1雄性小鼠肺组织。在实验过程中,实验组和对照组共有9个采样点,分别为0、0.5、1、4、8、12、24、48和72小时,在每个采样点取6-8只小鼠的肺组织。将第一时间点(0小时)的样本作为参照组样本。如图3(A)所示,sKLD在1到4h之间突然增加,并在8h达到峰值,这表明在8h左右存在一个临界转变。为了证明结果的准确性,利用leave-one的方法生成了六个数据集。将sKLD算法分别应用于这些数据集,得到6个sKLD平均得分,并绘制为图3(A)中的曲线。可以看出,基于重新采样数据集的这些sKLD曲线都表示8h时是临界点。在图3(B)中,它显示了实验组和对照组分布的动态变化。显然,对于对照组,扰动分布几乎没有动态差异,而对于实验组,在第4个采样时间点 (8h)的扰动分布与其他采样时间点的扰动分布明显不同,导致sKLD的显著变化。在图3(C)中,展示了由实验样本累积面积的变化最显著的前 5%基因组成的网络的动态演化。显然,在8小时左右,网络结构发生了明显的变化,从网络层面角度预示着即将到来的临界转变。
简而言之,这些分析表明在吸入光气后的前8小时内,实验组的主要病理过程导致了支气管肺泡灌洗液蛋白水平升高,进而引发肺水肿,最终增加死亡率。严重的光气所致急性肺损伤大约出现在第8小时,暴露后持续至12小时,随着光气接触的继续,12小时后死亡率为50%-60%,24小时后死亡率为60%-70%。
实施例三
基于sKLD指标在5个肿瘤数据集的应用
为了进一步证明该方法的有效性,将其应用于5个肿瘤数据集:肺鳞状细胞癌、肺腺癌、胃腺癌、甲状腺癌、结肠癌,所有这些数据都来自于 TCGA癌基因图谱,由肿瘤和肿瘤邻近样本组成。根据TCGA相应的临床资料,将肿瘤分为不同的分期。肺鳞状细胞癌、肺腺癌和胃腺癌可以分为 7个时期,甲状腺癌、结肠癌可以分为4个时期。在所有5个数据集中,肿瘤邻近样本被用作正常/参照样本。然后根据sKLD算法计算每个单个肿瘤样本的sKLD。最后,取每个阶段的平均sKLD来确定肿瘤的临界时期。
sKLD指标成功地识别了所有五种癌症恶化前的关键阶段(图4(A) -图4(E))。为了验证所识别的临界时期,需对临界转化前和转换临界转化后的样本进行kaplan-meier(log-rank)生存分析进行比较(图4(F)-图 4(J))。临界转化前的样本的预后寿命通常比临界转化后的样本高。具体地说,对于肺鳞状细胞癌,从图4(F)可以看出,临界时期前样本(IA-IIA 期的样本)的存活时间比临界时期后样本(IIB-IV阶段的样本)的存活时间长得多,两组样本生存曲线之间存在显著差异(显著值p=0.0034)。肺腺癌的ⅡB期前后样本的生存曲线有显著性差异(p=3e-07,图4(G)),临界前样本(IA-IIB期的样本)的存活时间比临界时期后样本(IIIA-IV期的样本)长得多。同样地,对于胃腺癌、甲状腺癌和结肠癌,也可以得出相同的结论。这些结果表明所确定的临界阶段是准确的,并且与预后密切相关。
综上所述,本发明利用观测到的正常和临界状态状态分子间的分布差异关联信息,提出的基于单样本sKLD指标的计算方法,能够准确地反映生物系统临界状态的发生。这种方法与现有方法的区别在于,它为计算分析提供了新的视角,在只有单一病例样本的情况下,也可以识别复杂生物系统相变临界点。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种基于单样本sKLD指标检测复杂生物系统相变临界点的方法,其特征在于,所述的方法包括如下步骤:
S1、准备参照样本,以正常时期提取的样本为参照样本,也就是把处于正常时期的相对健康个体作为背景,对于数值模拟,将初始时间点采集的样本被视为参照样本;对于真实的数据集,选择来自正常组织的样本作为参照样本;
S2、根据参照样本,拟合生物分子的分布,具体如下
对于生物分子gi,基于参照样本{s1,s2,…,sk}中的表达水平拟合高斯分布;然后,得到一个k维向量(area(Dgi(S1)),area(Dgi(S2)),…,area(Dgi(Sk))),其中,area(Dgi(Sk))代表第k个样本中的生物分子gi被高斯分布所确定的累积面积;
S3、按照如下公式构造参照分布P
S4、对于单个实验样本,基于这单个实验样本构造扰动分布Q,如下所示
S5、根据公式(A3)计算sKLD,sKLD用于评估参照分布P和扰动分布Q之间的差异;
该检测复杂生物系统相变临界点的方法至少需要6个正常样本作为参照样本;
所述的sKLD指标突然迅速增加预示即将到来的临界转变,或者复杂生物系统相变临界点的出现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911142801.0A CN111009292B (zh) | 2019-11-20 | 2019-11-20 | 基于单样本sKLD指标检测复杂生物系统相变临界点的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911142801.0A CN111009292B (zh) | 2019-11-20 | 2019-11-20 | 基于单样本sKLD指标检测复杂生物系统相变临界点的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111009292A CN111009292A (zh) | 2020-04-14 |
CN111009292B true CN111009292B (zh) | 2023-04-21 |
Family
ID=70113032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911142801.0A Active CN111009292B (zh) | 2019-11-20 | 2019-11-20 | 基于单样本sKLD指标检测复杂生物系统相变临界点的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111009292B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083524A (zh) * | 2022-06-06 | 2022-09-20 | 华南理工大学 | 基于单细胞图熵检测复杂生物系统相变临界点的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108591A (zh) * | 2018-01-09 | 2018-06-01 | 华南理工大学 | 一种基于隐马尔科夫模型检测复杂生物系统相变临界点的方法 |
CN108292326A (zh) * | 2015-08-27 | 2018-07-17 | 皇家飞利浦有限公司 | 用于使用多组学癌症谱来识别功能性患者特异性体细胞畸变的整合方法和系统 |
CN108363907A (zh) * | 2018-05-09 | 2018-08-03 | 中国科学院昆明动物研究所 | 一种基于多基因表达特征谱的肺腺癌个性化预后评估方法 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
-
2019
- 2019-11-20 CN CN201911142801.0A patent/CN111009292B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108292326A (zh) * | 2015-08-27 | 2018-07-17 | 皇家飞利浦有限公司 | 用于使用多组学癌症谱来识别功能性患者特异性体细胞畸变的整合方法和系统 |
CN108108591A (zh) * | 2018-01-09 | 2018-06-01 | 华南理工大学 | 一种基于隐马尔科夫模型检测复杂生物系统相变临界点的方法 |
CN108363907A (zh) * | 2018-05-09 | 2018-08-03 | 中国科学院昆明动物研究所 | 一种基于多基因表达特征谱的肺腺癌个性化预后评估方法 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111009292A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hanczar et al. | Small-sample precision of ROC-related estimates | |
Simon et al. | Using cross-validation to evaluate predictive accuracy of survival risk classifiers based on high-dimensional data | |
Vlasblom et al. | Markov clustering versus affinity propagation for the partitioning of protein interaction graphs | |
US8515680B2 (en) | Analysis of transcriptomic data using similarity based modeling | |
Kuhn et al. | Data pre-processing | |
EP2864919B1 (en) | Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques | |
CN111933212B (zh) | 一种基于机器学习的临床组学数据处理方法及装置 | |
CN115132273B (zh) | 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统 | |
Zerzucha et al. | Dissimilarity partial least squares applied to non-linear modeling problems | |
Huang et al. | Clustering gene expression pattern and extracting relationship in gene network based on artificial neural networks | |
Wu et al. | Highly Regional Genes: graph-based gene selection for single-cell RNA-seq data | |
Murray-Watters et al. | What is going on inside the arrows? Discovering the hidden springs in causal models | |
JP7275334B2 (ja) | 個人の生物学的ステータスを予測するためのシステム、方法および遺伝子シグネチャ | |
CN111009292B (zh) | 基于单样本sKLD指标检测复杂生物系统相变临界点的方法 | |
CN111261243B (zh) | 一种基于相对熵指标检测复杂生物系统相变临界点的方法 | |
Lim et al. | Model-based feature selection and clustering of RNA-seq data for unsupervised subtype discovery | |
Rao et al. | Partial correlation based variable selection approach for multivariate data classification methods | |
Mahmoodian et al. | Using fuzzy association rule mining in cancer classification | |
Jardillier et al. | Benchmark of lasso-like penalties in the Cox model for TCGA datasets reveal improved performance with pre-filtering and wide differences between cancers | |
KR102659915B1 (ko) | 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 | |
Sarigiannis et al. | Informatics and Data Analytics to Support Exposome-Based Discovery: Part 2-Computational Exposure Biology | |
US20220292363A1 (en) | Method for automatically determining disease type and electronic apparatus | |
US20220293212A1 (en) | Method for automatically predicting treatment management factor characteristics of disease and electronic apparatus | |
Netzer et al. | Predicting prediction: A systematic workflow to analyze factors affecting the classification performance in genomic biomarker discovery | |
Vahabi et al. | Cox-smbpls: An algorithm for disease survival prediction and multi-omics module discovery incorporating cis-regulatory quantitative effects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |