CN113889180A - 一种基于动态网络熵的生物标记物识别方法与系统 - Google Patents
一种基于动态网络熵的生物标记物识别方法与系统 Download PDFInfo
- Publication number
- CN113889180A CN113889180A CN202111165386.8A CN202111165386A CN113889180A CN 113889180 A CN113889180 A CN 113889180A CN 202111165386 A CN202111165386 A CN 202111165386A CN 113889180 A CN113889180 A CN 113889180A
- Authority
- CN
- China
- Prior art keywords
- disease
- entropy
- gene
- channel
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000000090 biomarker Substances 0.000 title claims abstract description 53
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 138
- 201000010099 disease Diseases 0.000 claims abstract description 136
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 121
- 230000037361 pathway Effects 0.000 claims abstract description 78
- 230000014509 gene expression Effects 0.000 claims abstract description 47
- 230000000694 effects Effects 0.000 claims abstract description 15
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 238000007619 statistical method Methods 0.000 claims abstract description 11
- 238000003745 diagnosis Methods 0.000 claims description 31
- 206010012601 diabetes mellitus Diseases 0.000 claims description 27
- 201000007270 liver cancer Diseases 0.000 claims description 24
- 208000014018 liver neoplasm Diseases 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 230000001575 pathological effect Effects 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 8
- 238000005259 measurement Methods 0.000 abstract description 4
- 206010061818 Disease progression Diseases 0.000 abstract 1
- 230000005750 disease progression Effects 0.000 abstract 1
- 108091006146 Channels Proteins 0.000 description 42
- 238000011161 development Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 230000009471 action Effects 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 208000016097 disease of metabolism Diseases 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 208000030159 metabolic disease Diseases 0.000 description 3
- 230000037353 metabolic pathway Effects 0.000 description 3
- 235000006679 Mentha X verticillata Nutrition 0.000 description 2
- 235000002899 Mentha suaveolens Nutrition 0.000 description 2
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 206010020718 hyperplasia Diseases 0.000 description 2
- 230000002390 hyperplastic effect Effects 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- INAPMGSXUVUWAF-GCVPSNMTSA-N [(2r,3s,5r,6r)-2,3,4,5,6-pentahydroxycyclohexyl] dihydrogen phosphate Chemical compound OC1[C@H](O)[C@@H](O)C(OP(O)(O)=O)[C@H](O)[C@@H]1O INAPMGSXUVUWAF-GCVPSNMTSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000019425 cirrhosis of liver Diseases 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008278 dynamic mechanism Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000000968 medical method and process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 150000003906 phosphoinositides Chemical class 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Physiology (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Genetics & Genomics (AREA)
- Probability & Statistics with Applications (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于动态网络熵的生物标记物识别方法与系统,所述方法包括以下步骤:获取疾病相关的功能基因通路和基因间相互作用,生成基因网络通路;对所述基因网络通路中的基因,获取对应所述疾病不同阶段的基因表达数据;基于动态网络熵,对于疾病不同阶段,计算基因网络通路中每个通路的通路熵;通过对疾病不同阶段每个通路的通路熵进行统计分析,确定对所述疾病具有标识作用的通路。本发明通过构建基因网络通路,对疾病不同阶段的通路采用熵进行信息度量,通过分析熵的变化,能够准确识别出与疾病进展相关的基因通路生物标记物。
Description
技术领域
本发明属于生物信息计算中的疾病生物标记物识别领域,尤其涉及一种基于动态网络熵的生物标记物识别方法与系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
在医疗领域,不断提高疾病预测、防控、诊断、治疗等医疗过程的确定性、预见性和可控性,对于当前人类健康及发展具有重要意义,因此,系统地识别获取疾病发生及阶段性发展的动态机制显得尤为重要。
例如,糖尿病这一常见慢性代谢疾病,患病知晓率很低,很多无症状患者被确诊。作为一种复杂疾病,糖尿病的发病机制至今仍未被完全揭示,并且由于糖尿病患者的症状往往不明显,现有的对糖尿病的传统诊断方式,比如血糖检测等方法,成本较高,同时难以提前预测健康状态向疾病状态的转变并迅速进行干预,很难做到疾病的早发现早治疗。
生物标记物在疾病检测和健康监测方面有很高的应用价值,致力于疾病生物标记物发现、验证的研究每年都在增加。较传统方法,生物标记物对于疾病预测及治疗具有优势。目前已有生物标志物在肝细胞癌HCC的应用,十分有助于标准化早期HCC的组织学诊断并提供适当的治疗,在治疗肝癌的过程中引入分子生物标志物,除了预测癌症患病风险、早期诊断,还可以为标准化早期HCC的组织学诊断并提供更加精确的治疗。
一些研究表明,对于糖尿病以及肝癌等复杂疾病的发生及阶段性发展,往往非简单地由某个基因单独差异表达造成,而是疾病作用通路的作用失调。因此,相较于单独基因的生物标记物识别,基于网络的方法识别生物标记物具有一定优势。同时,在疾病发生发展的进程中,相关基因和信号传导途径失调背后蕴含着大量信息,很多度量这些信息的方法存在着无法获得动态特征的局限性。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于动态网络熵的生物标记物识别方法与系统,通过构建基因网络通路,对疾病不同阶段的通路采用熵进行信息度量,通过分析熵的变化,能够准确识别出与疾病进展相关的基因通路生物标记物。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种基于动态网络熵的生物标记物识别方法,包括以下步骤:
获取疾病相关的功能基因通路和基因间相互作用,生成基因网络通路;
对所述基因网络通路中的基因,获取对应所述疾病不同阶段的基因表达数据;
基于动态网络熵,对于疾病不同阶段,计算基因网络通路中每个通路的通路熵;
通过对疾病不同阶段每个通路的通路熵进行统计分析,确定对所述疾病具有标识作用的通路。
进一步地,疾病的阶段包括正常阶段和疾病阶段,若所述疾病包括病理阶段,则所述疾病阶段还按照病理阶段划分。
进一步地,通路的通路熵计算方法包括:
计算所述通路中每个基因的熵和边的熵;
根据所述通路中基因的熵和边的熵,计算所述通路的通路熵。
进一步地,单个基因X的熵计算方法为:
假设通路P中有n条边,将其中任一条边ek连接的两个基因记为X和Y,则这条边的熵概率计算方法为:
通路P的通路熵计算方法为:
进一步地,确定对所述疾病具有标识作用的通路包括:
若所述疾病的阶段包括正常阶段和一个疾病阶段,对于每个通路,均获取多个设定时间节点的正常阶段和疾病阶段的基因表达数据;基于动态网络熵计算得到每条通路的多个正常阶段通路熵和多个疾病阶段通路熵,记为正常组和疾病组;对每条通路的疾病组和正常组进行统计分析,将差异性大于设定阈值的通路作为对所述疾病具有标识作用的通路;
若所述疾病的阶段包括正常阶段和多个疾病阶段,对于每个通路,获取所有阶段的基因表达数据;基于动态网络熵计算得到每条通路的所有阶段的通路熵;对每条通路所有阶段的通路熵进行时间序列差异分析,将差异性大于设定阈值的通路作为对所述疾病具有标识作用的通路。
一个或多个实施例提供了一种基于动态网络熵的生物标记物识别系统,包括:
网络通路构建模块,用于获取疾病相关的功能基因通路和基因间相互作用,生成基因网络通路;
基因表达获取模块,用于对所述基因网络通路中的基因,获取对应所述疾病不同阶段的基因表达数据;
通路熵计算模块,用于基于动态网络熵,对于疾病不同阶段,计算基因网络通路中每个通路的通路熵;
差异统计分析模块,用于通过对疾病不同阶段每个通路的通路熵进行统计分析,确定对所述疾病具有标识作用的通路。
一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述生物标记物识别方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述生物标记物识别方法。
一个或多个实施例提供了一种基于生物标记物识别的糖尿病诊断系统,包括:
基因通路筛选模块,用于根据所述生物标记物识别方法,筛选得到对糖尿病具有标识作用的通路,记为候选通路;其中,糖尿病被划分为正常和疾病两个阶段;
诊断模型训练模块,用于获取对应候选通路的正常组和疾病组基因表达数据,作为初始数据集;基于初始数据集,对支持向量机模型进行训练,得到诊断模型;
糖尿病诊断模块,用于获取用户基因表达数据,根据所述诊断模型得到诊断结果。
一个或多个实施例提供了一种基于生物标记物识别的肝癌诊断系统,包括:
基因通路筛选模块,用于根据所述生物标记物识别方法,筛选得到对肝癌具有标识作用的通路,记为候选通路;其中,肝癌被划分为正常和多个疾病阶段;
诊断模型训练模块,用于获取对应候选通路的所有阶段基因表达数据,作为初始数据集;根据每两个相邻阶段的初始数据集训练支持向量机模型,得到多分类诊断模型;
肝癌诊断模块,用于获取用户基因表达数据,根据所述多分类诊断模型得到诊断结果。
以上一个或多个技术方案存在以下有益效果:
本申请通过基于网络的方法识别生物标记物,由于疾病的发生及阶段性发展往往非简单地由某个基因单独差异表达造成,因此,基于网络的方法识别生物标记物具有一定优势。并且,基因及分子互作数据来源准确可靠,现有的高通量转录组测序技术以及基因表达谱技术提供的基因表达信息为识别疾病的生物标记物创造了机会,为探究复杂疾病的发生、发展机制提供了条件。
本申请选择信息论中的熵作为疾病潜在信息的有效度量,在疾病发生发展的进程中,相关基因和信号传导途径失调背后蕴含着大量信息,这些变化的信息往往不易获取,而通过探究作用通路中熵值增减的动态变化能够有效获取疾病发生及进展过程的动态特征,有着较高的准确度,而通过对熵值与疾病进展的关联度分析,能够快速得到与疾病相关度高的基因通路。
本申请提供了通用的生物标记物识别方法。其中,对于疾病难以区分阶段的疾病,划分为正常和疾病两个阶段,对于每个通路分别获取对应正常和疾病阶段的多个熵,构建正常组和疾病组,通过统计分析的方法对各个通路正常组和疾病组进行差异分析,能够明显区分正常和疾病的通路,即为与疾病相关度高的基因通路。对于病理阶段明确的疾病,划分为正常和多个病理阶段,对于每个通路,分别计算所有阶段的熵,形成时间序列数据,基于时间序列数据进行差异化分析,即可得到与疾病进程相关性更强的基因通路。也就是说,本申请通过采用熵作为有效度量信息,通过探究作用通路中熵值增减的动态变化,实现了在时间进程中得到疾病发生及进展过程的动态特征。
在基于动态网络熵实现与疾病发展相关基因通路提取的基础上,本申请还提供了两种疾病的诊断系统,为疾病的诊断提供了参考。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中基于网络熵的生物标记物识别方法流程图;
图2为本发明实施例中区分两个表型样本时的基于动态网络熵的生物标记物识别方法流程图;
图3为本发明实施例中时间序列差异变化下的基于动态网络熵的生物标记物识别方法流程图。
图4为本发明实施例中应用于肝癌八阶段熵动力学示例图。
图5为本发明实施例中动态通路网络熵随时间变化示例图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种基于动态网络熵的生物标记物识别方法,如图1所示,具体包括:
S1:获取疾病相关的功能基因通路和基因间相互作用,生成基因网络通路;
S2:对所述基因网络通路中的基因,获取对应疾病不同阶段的基因表达数据;
S3:基于动态网络熵,对于疾病不同阶段,计算基因网络通路中每个通路的通路熵;
S4:通过对疾病不同阶段每个通路的通路熵进行统计分析,确定对所述疾病具有标识作用的通路。
下面对每个步骤进行详细说明。
步骤S1具体包括:
步骤S101:获取疾病相关的功能基因通路,如:通路1(基因a,基因b,…),通路2(基因a,基因m,…)…;此处需要说明的是,对于收集到的功能基因通路,删除其中基因数目小于5个的通路。
步骤S102:获取生物分子间的相互作用关系,如:基因a与基因n、基因b与基因k、…。
步骤S103:根据所述功能基因通路和相互作用关系,生成基因网络通路。如:通路1(基因a与基因n,基因b与基因k,基因b与基因r…),通路2(基因a与基因n,基因m与基因t,…)…。
本实施例中,从KEGG、Biocarta、Reactome、MINT、BioGRID、NCBI GEO等数据库中收集功能基因通路、相互作用关系和基因表达数据。具体地,从KEGG、Biocarta、Reactome等常见数据库收集作用通路,如磷酸肌醇代谢通路、脱氧核糖核酸复制通路等;从MINT、KEGG、BioGRID等数据库收集分子互作。
所述步骤S2具体包括:
步骤S201:将疾病划分阶段,获取不同阶段基因网络通路中基因的表达数据;其中,对于不同的疾病可以采用不同的划分方法,例如,对于糖尿病这类疾病发展与时间关联性不强的疾病,可以包括正常和疾病两个阶段;对于肝癌这类具有明确病理阶段疾病,按其病例阶段划分。
本实施例的基因表达数据从NCBI GEO数据库下载。对于从NCBI下载的疾病样本微阵列表达数据,须通过官方注释文件,将探针ID转换为基因ID,当多个探针被映射到同一个基因时,分位数间距(IQR)最大的数据被用作该基因的表达值。
步骤S202:对所述基因网络通路中的基因,获取对应疾病不同阶段的基因表达数据。
步骤S3中,基于动态网络熵计算通路熵的方法如下:
计算出条通路的边缘熵、通路熵,作为反应疾病发展进程潜在信息内容的度量。
步骤S301:分别计算每个通路上各个基因的熵。
香农信息熵的定义:在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵。根据信息熵的定义:
其中p(xi)代表随机事件X为xi的概率。应用到通路基因中,将单个基因X(基因X表达值的集合)的熵定义为:
熵和互信息估计在信息论中广泛应用。由于基因表达值是离散的,需要近似边缘和联合概率分布函数。在这项工作中,采用经验估计量,通过计算落入各个区间(bins)中的数据点的数量来计算经验分布。具体而言,通过将基因X的表达值划分到个区间中使其离散化。其中表示区间的索引向量。令为基因X落入的第k个区间的表达值个数。X的熵由下式计算:
步骤S302:计算通路中每条边的熵。
假设通路P中有n条边,分别记为e1,e2,……,en,每条边连接两个具有相互作用关系的基因。对于其中一条边ek,将其连接的两个基因记为X和Y,令p(X,Y)为基因变量X和Y的联合概率分布函数,p(X)和p(Y)分别为X和Y的边缘概率分布函数。关于X和Y之间的交互(边缘)的互信息定义为
假设通路中有n个相互作用,其边缘互信息和为
每条边的熵概率估计为
可以看出,通路中边缘熵概率的总和为1。
步骤S303:根据基因的熵和边的熵,计算每个通路的通路熵。对于每个通路,通过以下公式定义通路熵:
这样,每个通路都会单独获得它的熵度量
步骤S4具有两种不同的实现方式。
作为其中一种实现方式,对于糖尿病这类疾病发展与时间关联性不强的疾病,通过熵值确定相同时间节点下、每条通路疾病和正常状态下的信息度量,来区分两个表型样本,从而衡量每条通路对疾病的标识作用。如图2所示,通过设置多个时间节点,获取每个时间节点正常和疾病两个阶段基因网络通路中基因的表达数据,然后基于动态网络熵,计算得到每条通路的对应正常和疾病两个阶段的多组通路熵,记为正常组和疾病组。本实施例中,以代谢性疾病糖尿病为例,从NCBI GEO数据库下载糖尿病相关基因表达微阵列数据,并经过数据处理,得到疾病相关的基因表达值,如GEO数据库中ID号为GSE13270中,糖尿病组与正常组分别在第4/8/12/16/20周设置了五个时间节点,则步骤S2中得到每条通路中包括10个通路熵值,包括正常组5个熵值和疾病组5个熵值。
随着时间阶段的推移,通路熵值处于动态变化中,则从正常组五个熵值与疾病组五个熵值的动态差异中可以体现疾病发展的动态特征。
具体地,对每条通路的疾病组和正常组进行统计t检验,找到它们之间的差异,表明这些通路在糖尿病进展中的特异性,从而评价该条通路在糖尿病发生发展进程中的特异性。对由t检验得出的每条通路的p值进行排序,p越小则通路对疾病组与正常组差异性的判断力越好,因此,通过设定阈值,当检验结果在设定阈值范围内,筛选作为候选通路。比如,以p<0.05作为筛选标准,选取p值小于0.05的通路作为候选通路,如通路e(基因a,基因m,…)、通路k(基因f,基因t,…)等等。
本实施例中,对步骤S1中提出的糖尿病参考例GSE13270进行了验证研究,从KEGG数据库获取了190条通路,按照p小于0.05的标准最终得到6条候选通路,如其中之一的肌醇磷酸代谢通路,作为一条十分重要的代谢通路,该通路熵值的波动变化异常,对于代谢性疾病糖尿病发生发展过程中的特异性的指示性是很明确的,筛选其作为糖尿病的通路生物标记物具有准确性。
作为另一种实现方式,对于肝癌这类具有明确病理阶段疾病,按其病理阶段划分为多个阶段。对于每个通路,分别获取多个阶段基因的表达数据,基于动态网络熵,计算得到每个通路对应多个阶段的通路熵。通过时间序列差异变化反映疾病的动态特征,具体地,对不同阶段的通路熵进行时间序列差异分析,对这些通路的通路熵的差异状态进行排名,如图3所示。
以肝癌为例,首先对肝癌在时间进展过程中的不同病理阶段的动态通路熵进行计算。以NCBI GEO数据库ID:GSE6764提供的八个病理阶段的基因表达数据为例,计算出每条通路在正常阶段(C)、肝硬化(Ci)、低度非典型增生结节(LDN)、高度非典型增生结节(HDN)、非常早期肝癌(VeHCC)、早期肝癌(eHCC)、晚期肝癌(aHCC)以及非常晚期肝癌(VaHCC)八个病理发展阶段的通路熵。通过统计检验方法识别时间进程下病理发展阶段的差异。通路熵筛选的显著性P值评价了这些通路在疾病过程中的变化活动。按P值排序,选取P=0.05或P=0.01作为阈值,小于阈值的通路被筛选为候选通路用作下一步分析,以ID:GSE6764为例,从BioCarta数据库中的通路中识别的3条候选通路熵动力学参见图4所示。
作为另外一种具体的实施方式,本实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述生物标记物识别方法。
作为另外一种具体的实施方式,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述生物标记物识别方法。
疾病与正常的两种状态和时序差异的单状态的通路生物标记物识别方法与系统识别出疾病进展的通路生物标记物,通路熵值增减的动态变化,得到疾病发生及进展过程的动态特征,如图5所示。
实施例二
上述实施例一提供了一种基于动态网络熵的生物标记物识别方法,实现了对疾病具有标识作用的基因通路的识别。作为一种具体的应用,本实施例提供了一种基于动态网络熵的生物标记物识别的糖尿病诊断系统。
所述系统具体包括:
基因通路筛选模块,用于根据如实施例一所述生物标记物识别方法,筛选得到对糖尿病具有标识作用的通路,记为候选通路;其中,糖尿病被划分为正常和疾病两个阶段;
诊断模型训练模块,用于获取对应候选通路的正常组和疾病组基因表达数据,作为初始数据集;基于初始数据集,对支持向量机模型进行训练,得到诊断模型;
具体地,从通路网络中找到候选通路的基因相互作用网络,经处理得到每条通路作用的基因在正常和疾病两个状态下的基因表达值,建立起分类的初始数据集。
糖尿病诊断模块,用于获取用户基因表达数据,根据所述诊断模型得到诊断结果。
具体地,使用k折交叉验证中的留一法划分测试集与训练集,每次只取一个样本数据作为测试集,剩下的全部作为训练集,这个步骤一直持续K次,最终完成分类过程。分类结束后,进行性能评估,绘制出ROC曲线,计算出对应曲线的AUC值。
实施例三
上述实施例一提供了一种基于动态网络熵的生物标记物识别方法,实现了对疾病具有标识作用的基因通路的识别。作为一种具体的应用,本实施例提供了一种基于动态网络熵的生物标记物识别的肝癌诊断系统。
所述系统具体包括:
基因通路筛选模块,用于根据如实施例一所述生物标记物识别方法,筛选得到对肝癌具有标识作用的通路,记为候选通路;其中,肝癌被划分为正常和多个疾病阶段;
诊断模型训练模块,用于获取对应候选通路的所有阶段基因表达数据,作为初始数据集;根据每两个相邻阶段的初始数据集训练支持向量机模型,得到多分类诊断模型;
肝癌诊断模块,用于获取用户基因表达数据,根据所述多分类诊断模型得到诊断结果。
本实施例中,通过选择基于SVM的特征选择算法SVM-RFE过滤相关特征并删除相对不重要的特征变量,实现更高的分类性能。
首先,对不同阶段的时间序列基因表达数据,基于多分类的支持向量机递归特征消除方法,对初步筛选得到的通路进行特征选择,将基因集中权重低的不重要基因删除,得到候选通路的最优模型,比如某通路从36个基因删选至28个。
采取留一法划分训练集和测试集,最终完成分类过程。
基于多分类SVM-RFE特征选择得到的优化后的通路基因集,对时间上相邻的两状态表达数据集进行SVM分类评价,即对每条候选通路相邻两个状态执行支持向量机(SVM),以评估其时序的变化。
对于4个阶段的时间序列基因表达数据,则为阶段1和阶段2、阶段2和阶段3、阶段3和阶段4。例如,以上述步骤提出的肝癌的病理分期为例,则分为C和Ci、Ci和LDN、LDN和HDN、HDN和veHCC、evHCC和eHCC、eHCC和aHCC、aHCC和vaHCC。
分类结束后,进行性能评估,绘制出每条通路的ROC曲线,计算出对应曲线的AUC值,均值AUC较高的通路具有良好的分类能力。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于动态网络熵的生物标记物识别方法,其特征在于,包括以下步骤:
获取疾病相关的功能基因通路和基因间相互作用,生成基因网络通路;
对所述基因网络通路中的基因,获取对应所述疾病不同阶段的基因表达数据;
基于动态网络熵,对于疾病不同阶段,计算基因网络通路中每个通路的通路熵;
通过对疾病不同阶段每个通路的通路熵进行统计分析,确定对所述疾病具有标识作用的通路。
2.如权利要求1所述的基于动态网络熵的生物标记物识别方法,其特征在于,疾病的阶段包括正常阶段和疾病阶段,若所述疾病包括病理阶段,则所述疾病阶段还按照病理阶段划分。
3.如权利要求1所述的基于动态网络熵的生物标记物识别方法,其特征在于,通路的通路熵计算方法包括:
计算所述通路中每个基因的熵和边的熵;
根据所述通路中基因的熵和边的熵,计算所述通路的通路熵。
5.如权利要求1所述的基于动态网络熵的生物标记物识别方法,其特征在于,确定对所述疾病具有标识作用的通路包括:
若所述疾病的阶段包括正常阶段和一个疾病阶段,对于每个通路,均获取多个设定时间节点的正常阶段和疾病阶段的基因表达数据;基于动态网络熵计算得到每条通路的多个正常阶段通路熵和多个疾病阶段通路熵,记为正常组和疾病组;对每条通路的疾病组和正常组进行统计分析,将差异性大于设定阈值的通路作为对所述疾病具有标识作用的通路;
若所述疾病的阶段包括正常阶段和多个疾病阶段,对于每个通路,获取所有阶段的基因表达数据;基于动态网络熵计算得到每条通路的所有阶段的通路熵;对每条通路所有阶段的通路熵进行时间序列差异分析,将差异性大于设定阈值的通路作为对所述疾病具有标识作用的通路。
6.一种基于动态网络熵的生物标记物识别系统,其特征在于,包括:
网络通路构建模块,用于获取疾病相关的功能基因通路和基因间相互作用,生成基因网络通路;
基因表达获取模块,用于对所述基因网络通路中的基因,获取对应所述疾病不同阶段的基因表达数据;
通路熵计算模块,用于基于动态网络熵,对于疾病不同阶段,计算基因网络通路中每个通路的通路熵;
差异统计分析模块,用于通过对疾病不同阶段每个通路的通路熵进行统计分析,确定对所述疾病具有标识作用的通路。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述生物标记物识别方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述生物标记物识别方法。
9.一种基于生物标记物识别的糖尿病诊断系统,其特征在于,包括:
基因通路筛选模块,用于根据如权利要求1-5任一项所述生物标记物识别方法,筛选得到对糖尿病具有标识作用的通路,记为候选通路;其中,糖尿病被划分为正常和疾病两个阶段;
诊断模型训练模块,用于获取对应候选通路的正常组和疾病组基因表达数据,作为初始数据集;基于初始数据集,对支持向量机模型进行训练,得到诊断模型;
糖尿病诊断模块,用于获取用户基因表达数据,根据所述诊断模型得到诊断结果。
10.一种基于生物标记物识别的肝癌诊断系统,其特征在于,包括:
基因通路筛选模块,用于根据如权利要求1-5任一项所述生物标记物识别方法,筛选得到对肝癌具有标识作用的通路,记为候选通路;其中,肝癌被划分为正常和多个疾病阶段;
诊断模型训练模块,用于获取对应候选通路的所有阶段基因表达数据,作为初始数据集;根据每两个相邻阶段的初始数据集训练支持向量机模型,得到多分类诊断模型;
肝癌诊断模块,用于获取用户基因表达数据,根据所述多分类诊断模型得到诊断结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111165386.8A CN113889180B (zh) | 2021-09-30 | 2021-09-30 | 一种基于动态网络熵的生物标记物识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111165386.8A CN113889180B (zh) | 2021-09-30 | 2021-09-30 | 一种基于动态网络熵的生物标记物识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113889180A true CN113889180A (zh) | 2022-01-04 |
CN113889180B CN113889180B (zh) | 2024-05-24 |
Family
ID=79005045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111165386.8A Active CN113889180B (zh) | 2021-09-30 | 2021-09-30 | 一种基于动态网络熵的生物标记物识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113889180B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912570A (zh) * | 2024-03-19 | 2024-04-19 | 北京科技大学 | 一种基于基因共表达网络的分类特征确定方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150487A (zh) * | 2012-11-29 | 2013-06-12 | 扬州大学 | 一种构建鸡肌肉肌苷酸合成途径相关关键酶基因网络调控方法 |
CN103778349A (zh) * | 2014-01-29 | 2014-05-07 | 思博奥科生物信息科技(北京)有限公司 | 一种基于功能模块的生物分子网络分析的方法 |
KR20150092780A (ko) * | 2014-02-05 | 2015-08-17 | 연세대학교 산학협력단 | 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법 |
US20150302165A1 (en) * | 2012-10-23 | 2015-10-22 | Japan Science And Technology Agency | Detection device, method, and program for assisting network entropy-based detection of precursor to state transition of biological object |
CN109411023A (zh) * | 2018-09-30 | 2019-03-01 | 华中农业大学 | 一种基于贝叶斯网络推理的基因间交互关系挖掘方法 |
KR20190054386A (ko) * | 2017-11-13 | 2019-05-22 | 한양대학교 산학협력단 | 모듈화에 기반한 게놈 분석 방법 |
CN109891508A (zh) * | 2019-01-29 | 2019-06-14 | 北京大学 | 单细胞类型检测方法、装置、设备和存储介质 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
CN111223523A (zh) * | 2020-01-06 | 2020-06-02 | 中南大学 | 基于多时滞因果熵的基因调控网络构建方法及系统 |
CN111261243A (zh) * | 2020-01-10 | 2020-06-09 | 华南理工大学 | 一种基于相对熵指标检测复杂生物系统相变临界点的方法 |
CN112837744A (zh) * | 2021-02-07 | 2021-05-25 | 南京邮电大学 | 一种前列腺癌预后显著相关ceRNA调控网络的构建方法 |
-
2021
- 2021-09-30 CN CN202111165386.8A patent/CN113889180B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150302165A1 (en) * | 2012-10-23 | 2015-10-22 | Japan Science And Technology Agency | Detection device, method, and program for assisting network entropy-based detection of precursor to state transition of biological object |
CN103150487A (zh) * | 2012-11-29 | 2013-06-12 | 扬州大学 | 一种构建鸡肌肉肌苷酸合成途径相关关键酶基因网络调控方法 |
CN103778349A (zh) * | 2014-01-29 | 2014-05-07 | 思博奥科生物信息科技(北京)有限公司 | 一种基于功能模块的生物分子网络分析的方法 |
KR20150092780A (ko) * | 2014-02-05 | 2015-08-17 | 연세대학교 산학협력단 | 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법 |
KR20190054386A (ko) * | 2017-11-13 | 2019-05-22 | 한양대학교 산학협력단 | 모듈화에 기반한 게놈 분석 방법 |
CN109411023A (zh) * | 2018-09-30 | 2019-03-01 | 华中农业大学 | 一种基于贝叶斯网络推理的基因间交互关系挖掘方法 |
CN109891508A (zh) * | 2019-01-29 | 2019-06-14 | 北京大学 | 单细胞类型检测方法、装置、设备和存储介质 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
CN111223523A (zh) * | 2020-01-06 | 2020-06-02 | 中南大学 | 基于多时滞因果熵的基因调控网络构建方法及系统 |
CN111261243A (zh) * | 2020-01-10 | 2020-06-09 | 华南理工大学 | 一种基于相对熵指标检测复杂生物系统相变临界点的方法 |
CN112837744A (zh) * | 2021-02-07 | 2021-05-25 | 南京邮电大学 | 一种前列腺癌预后显著相关ceRNA调控网络的构建方法 |
Non-Patent Citations (2)
Title |
---|
SOMAYEH ABBASI ET AL: "FUZZY C-MEANS AND ENTROPY BASED GENE SELECTION BY PRINCIPAL COMPONENT ANALYSIS IN CANCER CLASSIFICATION", 《JOURNAL OF THEORETICAL AND APPLIED INFORMATION TECHNOLOGY》, 31 December 2014 (2014-12-31), pages 1 - 10 * |
ZHI-PING LIU ET AL: "Biomarker discovery from high-throughput data by connected network-constrained support vector machine", 《ELSEVIER》, 31 December 2023 (2023-12-31), pages 1 - 12 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912570A (zh) * | 2024-03-19 | 2024-04-19 | 北京科技大学 | 一种基于基因共表达网络的分类特征确定方法及系统 |
CN117912570B (zh) * | 2024-03-19 | 2024-05-14 | 北京科技大学 | 一种基于基因共表达网络的分类特征确定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113889180B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315774B2 (en) | Big-data analyzing Method and mass spectrometric system using the same method | |
RU2517286C2 (ru) | Классификация данных выборок | |
Torres et al. | Research techniques made simple: feature selection for biomarker discovery | |
US9940383B2 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
CN103177179A (zh) | 诊断因素集合确定设备和方法 | |
CN113271849A (zh) | 结合类别不平衡集降采样与生存分析的疾病风险确定方法 | |
Rahnenführer et al. | Statistical analysis of high-dimensional biomedical data: a gentle introduction to analytical goals, common approaches and challenges | |
CN115132273A (zh) | 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统 | |
JP7275334B2 (ja) | 個人の生物学的ステータスを予測するためのシステム、方法および遺伝子シグネチャ | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN113889180B (zh) | 一种基于动态网络熵的生物标记物识别方法与系统 | |
Wang et al. | Survival risk prediction model for ESCC based on relief feature selection and CNN | |
US20220343999A1 (en) | Molecular phenotype classification | |
Ali Shah et al. | An ensemble-based deep learning model for detection of mutation causing cutaneous melanoma | |
CN116312800A (zh) | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 | |
US20180181705A1 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
EP2335175B1 (en) | Method of determining a reliability indicator for signatures obtained from clinical data and use of the reliability indicator for favoring one signature over the other | |
AU2018391843B2 (en) | Sequencing data-based ITD mutation ratio detecting apparatus and method | |
Lazar et al. | GENESHIFT: a nonparametric approach for integrating microarray gene expression data based on the inner product as a distance measure between the distributions of genes | |
Lauria | Rank‐Based miRNA Signatures for Early Cancer Detection | |
US20230253109A1 (en) | Cancer screening device and cancer screening method | |
CN109920474A (zh) | 绝对定量方法、装置、计算机设备和存储介质 | |
CN111263965A (zh) | 利用测量分析物改善疾病诊断的系统和方法 | |
EP4202943A1 (en) | Method and system for finding missing value for physiological feature | |
DINH | LEVERAGING MACHINE LEARNING TO IDENTIFY PROTEOMIC BIOMARKERS OF TIBIAL BONE STRESS REINJURY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |