CN113889180A

CN113889180A - 一种基于动态网络熵的生物标记物识别方法与系统

Info

Publication number: CN113889180A
Application number: CN202111165386.8A
Authority: CN
Inventors: 刘治平; 沈忱; 曹怡; 王怡娟; 高瑞
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04
Anticipated expiration: 2041-09-30
Also published as: CN113889180B

Abstract

本发明公开了一种基于动态网络熵的生物标记物识别方法与系统，所述方法包括以下步骤：获取疾病相关的功能基因通路和基因间相互作用，生成基因网络通路；对所述基因网络通路中的基因，获取对应所述疾病不同阶段的基因表达数据；基于动态网络熵，对于疾病不同阶段，计算基因网络通路中每个通路的通路熵；通过对疾病不同阶段每个通路的通路熵进行统计分析，确定对所述疾病具有标识作用的通路。本发明通过构建基因网络通路，对疾病不同阶段的通路采用熵进行信息度量，通过分析熵的变化，能够准确识别出与疾病进展相关的基因通路生物标记物。

Description

一种基于动态网络熵的生物标记物识别方法与系统

技术领域

本发明属于生物信息计算中的疾病生物标记物识别领域，尤其涉及一种基于动态网络熵的生物标记物识别方法与系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在医疗领域，不断提高疾病预测、防控、诊断、治疗等医疗过程的确定性、预见性和可控性，对于当前人类健康及发展具有重要意义，因此，系统地识别获取疾病发生及阶段性发展的动态机制显得尤为重要。

例如，糖尿病这一常见慢性代谢疾病，患病知晓率很低，很多无症状患者被确诊。作为一种复杂疾病，糖尿病的发病机制至今仍未被完全揭示，并且由于糖尿病患者的症状往往不明显，现有的对糖尿病的传统诊断方式，比如血糖检测等方法，成本较高，同时难以提前预测健康状态向疾病状态的转变并迅速进行干预，很难做到疾病的早发现早治疗。

生物标记物在疾病检测和健康监测方面有很高的应用价值，致力于疾病生物标记物发现、验证的研究每年都在增加。较传统方法，生物标记物对于疾病预测及治疗具有优势。目前已有生物标志物在肝细胞癌HCC的应用，十分有助于标准化早期HCC的组织学诊断并提供适当的治疗，在治疗肝癌的过程中引入分子生物标志物，除了预测癌症患病风险、早期诊断，还可以为标准化早期HCC的组织学诊断并提供更加精确的治疗。

一些研究表明，对于糖尿病以及肝癌等复杂疾病的发生及阶段性发展，往往非简单地由某个基因单独差异表达造成，而是疾病作用通路的作用失调。因此，相较于单独基因的生物标记物识别，基于网络的方法识别生物标记物具有一定优势。同时，在疾病发生发展的进程中，相关基因和信号传导途径失调背后蕴含着大量信息，很多度量这些信息的方法存在着无法获得动态特征的局限性。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于动态网络熵的生物标记物识别方法与系统，通过构建基因网络通路，对疾病不同阶段的通路采用熵进行信息度量，通过分析熵的变化，能够准确识别出与疾病进展相关的基因通路生物标记物。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于动态网络熵的生物标记物识别方法，包括以下步骤：

获取疾病相关的功能基因通路和基因间相互作用，生成基因网络通路；

对所述基因网络通路中的基因，获取对应所述疾病不同阶段的基因表达数据；

基于动态网络熵，对于疾病不同阶段，计算基因网络通路中每个通路的通路熵；

通过对疾病不同阶段每个通路的通路熵进行统计分析，确定对所述疾病具有标识作用的通路。

进一步地，疾病的阶段包括正常阶段和疾病阶段，若所述疾病包括病理阶段，则所述疾病阶段还按照病理阶段划分。

进一步地，通路的通路熵计算方法包括：

计算所述通路中每个基因的熵和边的熵；

根据所述通路中基因的熵和边的熵，计算所述通路的通路熵。

进一步地，单个基因X的熵计算方法为：

假设通路P中有n条边，将其中任一条边e_k连接的两个基因记为X和Y，则这条边的熵概率计算方法为：

其中，

通路P的通路熵计算方法为：

其中，p(X_i)代表基因X表达为X_i的概率，p(X_j)代表基因Y表达为Y_j的概率，p(X_i,Y_j)表示X_i和Y_j的联合概率分布函数，

表示基因记为X和Y之间的互信息。

进一步地，确定对所述疾病具有标识作用的通路包括：

若所述疾病的阶段包括正常阶段和一个疾病阶段，对于每个通路，均获取多个设定时间节点的正常阶段和疾病阶段的基因表达数据；基于动态网络熵计算得到每条通路的多个正常阶段通路熵和多个疾病阶段通路熵，记为正常组和疾病组；对每条通路的疾病组和正常组进行统计分析，将差异性大于设定阈值的通路作为对所述疾病具有标识作用的通路；

若所述疾病的阶段包括正常阶段和多个疾病阶段，对于每个通路，获取所有阶段的基因表达数据；基于动态网络熵计算得到每条通路的所有阶段的通路熵；对每条通路所有阶段的通路熵进行时间序列差异分析，将差异性大于设定阈值的通路作为对所述疾病具有标识作用的通路。

一个或多个实施例提供了一种基于动态网络熵的生物标记物识别系统，包括：

网络通路构建模块，用于获取疾病相关的功能基因通路和基因间相互作用，生成基因网络通路；

基因表达获取模块，用于对所述基因网络通路中的基因，获取对应所述疾病不同阶段的基因表达数据；

通路熵计算模块，用于基于动态网络熵，对于疾病不同阶段，计算基因网络通路中每个通路的通路熵；

差异统计分析模块，用于通过对疾病不同阶段每个通路的通路熵进行统计分析，确定对所述疾病具有标识作用的通路。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述生物标记物识别方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述生物标记物识别方法。

一个或多个实施例提供了一种基于生物标记物识别的糖尿病诊断系统，包括：

基因通路筛选模块，用于根据所述生物标记物识别方法，筛选得到对糖尿病具有标识作用的通路，记为候选通路；其中，糖尿病被划分为正常和疾病两个阶段；

诊断模型训练模块，用于获取对应候选通路的正常组和疾病组基因表达数据，作为初始数据集；基于初始数据集，对支持向量机模型进行训练，得到诊断模型；

糖尿病诊断模块，用于获取用户基因表达数据，根据所述诊断模型得到诊断结果。

一个或多个实施例提供了一种基于生物标记物识别的肝癌诊断系统，包括：

基因通路筛选模块，用于根据所述生物标记物识别方法，筛选得到对肝癌具有标识作用的通路，记为候选通路；其中，肝癌被划分为正常和多个疾病阶段；

诊断模型训练模块，用于获取对应候选通路的所有阶段基因表达数据，作为初始数据集；根据每两个相邻阶段的初始数据集训练支持向量机模型，得到多分类诊断模型；

肝癌诊断模块，用于获取用户基因表达数据，根据所述多分类诊断模型得到诊断结果。

以上一个或多个技术方案存在以下有益效果：

本申请通过基于网络的方法识别生物标记物，由于疾病的发生及阶段性发展往往非简单地由某个基因单独差异表达造成，因此，基于网络的方法识别生物标记物具有一定优势。并且，基因及分子互作数据来源准确可靠，现有的高通量转录组测序技术以及基因表达谱技术提供的基因表达信息为识别疾病的生物标记物创造了机会，为探究复杂疾病的发生、发展机制提供了条件。

本申请选择信息论中的熵作为疾病潜在信息的有效度量，在疾病发生发展的进程中，相关基因和信号传导途径失调背后蕴含着大量信息，这些变化的信息往往不易获取，而通过探究作用通路中熵值增减的动态变化能够有效获取疾病发生及进展过程的动态特征，有着较高的准确度，而通过对熵值与疾病进展的关联度分析，能够快速得到与疾病相关度高的基因通路。

本申请提供了通用的生物标记物识别方法。其中，对于疾病难以区分阶段的疾病，划分为正常和疾病两个阶段，对于每个通路分别获取对应正常和疾病阶段的多个熵，构建正常组和疾病组，通过统计分析的方法对各个通路正常组和疾病组进行差异分析，能够明显区分正常和疾病的通路，即为与疾病相关度高的基因通路。对于病理阶段明确的疾病，划分为正常和多个病理阶段，对于每个通路，分别计算所有阶段的熵，形成时间序列数据，基于时间序列数据进行差异化分析，即可得到与疾病进程相关性更强的基因通路。也就是说，本申请通过采用熵作为有效度量信息，通过探究作用通路中熵值增减的动态变化，实现了在时间进程中得到疾病发生及进展过程的动态特征。

在基于动态网络熵实现与疾病发展相关基因通路提取的基础上，本申请还提供了两种疾病的诊断系统，为疾病的诊断提供了参考。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中基于网络熵的生物标记物识别方法流程图；

图2为本发明实施例中区分两个表型样本时的基于动态网络熵的生物标记物识别方法流程图；

图3为本发明实施例中时间序列差异变化下的基于动态网络熵的生物标记物识别方法流程图。

图4为本发明实施例中应用于肝癌八阶段熵动力学示例图。

图5为本发明实施例中动态通路网络熵随时间变化示例图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于动态网络熵的生物标记物识别方法，如图1所示，具体包括：

S1：获取疾病相关的功能基因通路和基因间相互作用，生成基因网络通路；

S2：对所述基因网络通路中的基因，获取对应疾病不同阶段的基因表达数据；

S3：基于动态网络熵，对于疾病不同阶段，计算基因网络通路中每个通路的通路熵；

S4：通过对疾病不同阶段每个通路的通路熵进行统计分析，确定对所述疾病具有标识作用的通路。

下面对每个步骤进行详细说明。

步骤S1具体包括：

步骤S101：获取疾病相关的功能基因通路，如：通路1(基因a，基因b，…)，通路2(基因a，基因m，…)…；此处需要说明的是，对于收集到的功能基因通路，删除其中基因数目小于5个的通路。

步骤S102：获取生物分子间的相互作用关系，如：基因a与基因n、基因b与基因k、…。

步骤S103：根据所述功能基因通路和相互作用关系，生成基因网络通路。如：通路1(基因a与基因n，基因b与基因k，基因b与基因r…)，通路2(基因a与基因n，基因m与基因t，…)…。

本实施例中，从KEGG、Biocarta、Reactome、MINT、BioGRID、NCBI GEO等数据库中收集功能基因通路、相互作用关系和基因表达数据。具体地，从KEGG、Biocarta、Reactome等常见数据库收集作用通路，如磷酸肌醇代谢通路、脱氧核糖核酸复制通路等；从MINT、KEGG、BioGRID等数据库收集分子互作。

所述步骤S2具体包括：

步骤S201：将疾病划分阶段，获取不同阶段基因网络通路中基因的表达数据；其中，对于不同的疾病可以采用不同的划分方法，例如，对于糖尿病这类疾病发展与时间关联性不强的疾病，可以包括正常和疾病两个阶段；对于肝癌这类具有明确病理阶段疾病，按其病例阶段划分。

本实施例的基因表达数据从NCBI GEO数据库下载。对于从NCBI下载的疾病样本微阵列表达数据，须通过官方注释文件，将探针ID转换为基因ID，当多个探针被映射到同一个基因时，分位数间距(IQR)最大的数据被用作该基因的表达值。

步骤S202：对所述基因网络通路中的基因，获取对应疾病不同阶段的基因表达数据。

步骤S3中，基于动态网络熵计算通路熵的方法如下：

计算出条通路的边缘熵、通路熵，作为反应疾病发展进程潜在信息内容的度量。

步骤S301：分别计算每个通路上各个基因的熵。

香农信息熵的定义：在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值：U₁…U_i…U_n，对应概率为：P₁…P_i…P_n，且各种符号的出现彼此独立。这时，信源的平均不确定性应当为单个符号不确定性-logP_i的统计平均值(E)，可称为信息熵。根据信息熵的定义：

其中p(x_i)代表随机事件X为x_i的概率。应用到通路基因中，将单个基因X(基因X表达值的集合)的熵定义为：

熵和互信息估计在信息论中广泛应用。由于基因表达值是离散的，需要近似边缘和联合概率分布函数。在这项工作中，采用经验估计量，通过计算落入各个区间(bins)中的数据点的数量来计算经验分布。具体而言，通过将基因X的表达值划分到

个区间中使其离散化。其中

表示区间的索引向量。令

为基因X落入

的第k个区间的表达值个数。X的熵由下式计算：

其中S指的是样本的数量。同时，令

为基因Y落入的第l个区间的表达值个数，对基因Y执行类似的过程。联合概率由落入它们的交互区间中的数据点的个数来估计。

步骤S302：计算通路中每条边的熵。

假设通路P中有n条边，分别记为e₁，e₂，……，e_n，每条边连接两个具有相互作用关系的基因。对于其中一条边e_k，将其连接的两个基因记为X和Y，令p(X,Y)为基因变量X和Y的联合概率分布函数，p(X)和p(Y)分别为X和Y的边缘概率分布函数。关于X和Y之间的交互(边缘)的互信息定义为

假设通路中有n个相互作用，其边缘互信息和为

每条边的熵概率估计为

可以看出，通路中边缘熵概率的总和为1。

步骤S303：根据基因的熵和边的熵，计算每个通路的通路熵。对于每个通路，通过以下公式定义通路熵：

这样，每个通路都会单独获得它的熵度量

步骤S4具有两种不同的实现方式。

作为其中一种实现方式，对于糖尿病这类疾病发展与时间关联性不强的疾病，通过熵值确定相同时间节点下、每条通路疾病和正常状态下的信息度量，来区分两个表型样本，从而衡量每条通路对疾病的标识作用。如图2所示，通过设置多个时间节点，获取每个时间节点正常和疾病两个阶段基因网络通路中基因的表达数据，然后基于动态网络熵，计算得到每条通路的对应正常和疾病两个阶段的多组通路熵，记为正常组和疾病组。本实施例中，以代谢性疾病糖尿病为例，从NCBI GEO数据库下载糖尿病相关基因表达微阵列数据，并经过数据处理，得到疾病相关的基因表达值，如GEO数据库中ID号为GSE13270中，糖尿病组与正常组分别在第4/8/12/16/20周设置了五个时间节点，则步骤S2中得到每条通路中包括10个通路熵值，包括正常组5个熵值和疾病组5个熵值。

随着时间阶段的推移，通路熵值处于动态变化中，则从正常组五个熵值与疾病组五个熵值的动态差异中可以体现疾病发展的动态特征。

具体地，对每条通路的疾病组和正常组进行统计t检验，找到它们之间的差异，表明这些通路在糖尿病进展中的特异性，从而评价该条通路在糖尿病发生发展进程中的特异性。对由t检验得出的每条通路的p值进行排序，p越小则通路对疾病组与正常组差异性的判断力越好，因此，通过设定阈值，当检验结果在设定阈值范围内，筛选作为候选通路。比如，以p<0.05作为筛选标准，选取p值小于0.05的通路作为候选通路，如通路e(基因a，基因m，…)、通路k(基因f，基因t，…)等等。

本实施例中，对步骤S1中提出的糖尿病参考例GSE13270进行了验证研究，从KEGG数据库获取了190条通路，按照p小于0.05的标准最终得到6条候选通路，如其中之一的肌醇磷酸代谢通路，作为一条十分重要的代谢通路，该通路熵值的波动变化异常，对于代谢性疾病糖尿病发生发展过程中的特异性的指示性是很明确的，筛选其作为糖尿病的通路生物标记物具有准确性。

作为另一种实现方式，对于肝癌这类具有明确病理阶段疾病，按其病理阶段划分为多个阶段。对于每个通路，分别获取多个阶段基因的表达数据，基于动态网络熵，计算得到每个通路对应多个阶段的通路熵。通过时间序列差异变化反映疾病的动态特征，具体地，对不同阶段的通路熵进行时间序列差异分析，对这些通路的通路熵的差异状态进行排名，如图3所示。

以肝癌为例，首先对肝癌在时间进展过程中的不同病理阶段的动态通路熵进行计算。以NCBI GEO数据库ID：GSE6764提供的八个病理阶段的基因表达数据为例，计算出每条通路在正常阶段(C)、肝硬化(Ci)、低度非典型增生结节(LDN)、高度非典型增生结节(HDN)、非常早期肝癌(VeHCC)、早期肝癌(eHCC)、晚期肝癌(aHCC)以及非常晚期肝癌(VaHCC)八个病理发展阶段的通路熵。通过统计检验方法识别时间进程下病理发展阶段的差异。通路熵筛选的显著性P值评价了这些通路在疾病过程中的变化活动。按P值排序，选取P＝0.05或P＝0.01作为阈值，小于阈值的通路被筛选为候选通路用作下一步分析，以ID：GSE6764为例，从BioCarta数据库中的通路中识别的3条候选通路熵动力学参见图4所示。

作为另外一种具体的实施方式，本实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述生物标记物识别方法。

作为另外一种具体的实施方式，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述生物标记物识别方法。

疾病与正常的两种状态和时序差异的单状态的通路生物标记物识别方法与系统识别出疾病进展的通路生物标记物，通路熵值增减的动态变化，得到疾病发生及进展过程的动态特征，如图5所示。

实施例二

上述实施例一提供了一种基于动态网络熵的生物标记物识别方法，实现了对疾病具有标识作用的基因通路的识别。作为一种具体的应用，本实施例提供了一种基于动态网络熵的生物标记物识别的糖尿病诊断系统。

所述系统具体包括：

基因通路筛选模块，用于根据如实施例一所述生物标记物识别方法，筛选得到对糖尿病具有标识作用的通路，记为候选通路；其中，糖尿病被划分为正常和疾病两个阶段；

具体地，从通路网络中找到候选通路的基因相互作用网络，经处理得到每条通路作用的基因在正常和疾病两个状态下的基因表达值，建立起分类的初始数据集。

具体地，使用k折交叉验证中的留一法划分测试集与训练集，每次只取一个样本数据作为测试集，剩下的全部作为训练集，这个步骤一直持续K次，最终完成分类过程。分类结束后，进行性能评估，绘制出ROC曲线，计算出对应曲线的AUC值。

实施例三

上述实施例一提供了一种基于动态网络熵的生物标记物识别方法，实现了对疾病具有标识作用的基因通路的识别。作为一种具体的应用，本实施例提供了一种基于动态网络熵的生物标记物识别的肝癌诊断系统。

所述系统具体包括：

基因通路筛选模块，用于根据如实施例一所述生物标记物识别方法，筛选得到对肝癌具有标识作用的通路，记为候选通路；其中，肝癌被划分为正常和多个疾病阶段；

本实施例中，通过选择基于SVM的特征选择算法SVM-RFE过滤相关特征并删除相对不重要的特征变量，实现更高的分类性能。

首先，对不同阶段的时间序列基因表达数据，基于多分类的支持向量机递归特征消除方法，对初步筛选得到的通路进行特征选择，将基因集中权重低的不重要基因删除，得到候选通路的最优模型，比如某通路从36个基因删选至28个。

采取留一法划分训练集和测试集，最终完成分类过程。

基于多分类SVM-RFE特征选择得到的优化后的通路基因集，对时间上相邻的两状态表达数据集进行SVM分类评价，即对每条候选通路相邻两个状态执行支持向量机(SVM)，以评估其时序的变化。

对于4个阶段的时间序列基因表达数据，则为阶段1和阶段2、阶段2和阶段3、阶段3和阶段4。例如，以上述步骤提出的肝癌的病理分期为例，则分为C和Ci、Ci和LDN、LDN和HDN、HDN和veHCC、evHCC和eHCC、eHCC和aHCC、aHCC和vaHCC。

分类结束后，进行性能评估，绘制出每条通路的ROC曲线，计算出对应曲线的AUC值，均值AUC较高的通路具有良好的分类能力。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于动态网络熵的生物标记物识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于动态网络熵的生物标记物识别方法，其特征在于，疾病的阶段包括正常阶段和疾病阶段，若所述疾病包括病理阶段，则所述疾病阶段还按照病理阶段划分。

3.如权利要求1所述的基于动态网络熵的生物标记物识别方法，其特征在于，通路的通路熵计算方法包括：

计算所述通路中每个基因的熵和边的熵；

4.如权利要求3所述的基于动态网络熵的生物标记物识别方法，其特征在于，单个基因X的熵计算方法为：

其中，

通路P的通路熵计算方法为：

表示基因记为X和Y之间的互信息。

5.如权利要求1所述的基于动态网络熵的生物标记物识别方法，其特征在于，确定对所述疾病具有标识作用的通路包括：

6.一种基于动态网络熵的生物标记物识别系统，其特征在于，包括：

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述生物标记物识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述生物标记物识别方法。

9.一种基于生物标记物识别的糖尿病诊断系统，其特征在于，包括：

基因通路筛选模块，用于根据如权利要求1-5任一项所述生物标记物识别方法，筛选得到对糖尿病具有标识作用的通路，记为候选通路；其中，糖尿病被划分为正常和疾病两个阶段；

10.一种基于生物标记物识别的肝癌诊断系统，其特征在于，包括：

基因通路筛选模块，用于根据如权利要求1-5任一项所述生物标记物识别方法，筛选得到对肝癌具有标识作用的通路，记为候选通路；其中，肝癌被划分为正常和多个疾病阶段；