CN103279666B

CN103279666B - 中医证候的分子解释工具构造方法

Info

Publication number: CN103279666B
Application number: CN201310208018.6A
Authority: CN
Inventors: 高一波; 代文; 卢朋; 刘西; 陈琳; 宋江龙; 陈迪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-05-30
Filing date: 2013-05-30
Publication date: 2016-04-13
Anticipated expiration: 2033-05-30
Also published as: CN103279666A

Abstract

本发明公开了一种中医证候分子解释工具构造方法，包括如下步骤：计算症状与中医证候之间的信息增益；根据多个不同的信息增益阈值来筛选出多个不同的症状集，并构建基于该多个不同症状集的支持向量机分类模型；将多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状；确定核心症状对应的表型本体条目以及表型本体条目关联的基因，筛选出频繁基因；根据频繁基因和分子层面的数据来构造用于中医证候解释的分子解释工具。本发明通过筛选出中医证候的核心症状和获得频繁基因，能够构造阐释核心症状的分子机制的分子解释工具，该工具有助于更好的认识中医证候的机理。

Description

中医证候的分子解释工具构造方法

技术领域

本发明涉及计算机技术在中医领域研究中的应用，特别是涉及基于中医病例样本的中医证候分子解释机制，具体是一种中医证候的分子解释工具构造方法，所述分子解释工具用于从分子层面阐释中医证候的机理。

背景技术

中医的发展源远流长，在一些疾病治疗上逐渐形成一套完善的体系。中医对疾病的诊断建立在一套完备的证候理论之上，基于“望闻问切”四诊信息，在症状群基础之上对患者的中医证候做出经验判断。

“证候”是中医学的专用术语，概括为一系列有相互关联的症状总称；即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化。证，是指对疾病所处的一定阶段的病机概括，或非疾病机体一定阶段的机体状态的概括；候，是指这种病机或状态的可被观察到的外在表现。

中医体系的形成得益于中医学家长期以来实践与经验的积累。在这个过程中，中医名书古籍记载着中医实践者智慧的结晶，推动者中医学的发展。然而，正是由于中医诊断依赖中医专家的经验，不同医师根据从业经历和业务水平的不同，对同一对象会做出不同的判断，这使得中医的诊断具有一定的主观性。缺乏准确的分子解释，是制约中医发展的一大瓶颈。近年来，一些国内外研究者试图在大量中医病例样本数据的基础上，提取出症状与证候之间的关系，对中医证候的诊断加以量化。

目前，中医证候的研究主要集中在对中医病例样本进行学习，并构建用于证候诊断的分类模型。在学习方法的选择上则不尽相同，有些学习算法得到的模型预测准确度较高，而有的模型则相对较低，比较常见的有如下三类方法用于构建证候诊断模型。第一类方法对病例样本进行回归分析，得到证候的判别函数，表征出不同症状的重要性，并用于新病例的预测。第二类根据相关分析对症状进行打分，然后筛选出预测准确度最高的判别函数作为诊断模型。第三类方法采用机器学习的算法(如贝叶斯网络、支持向量机等)对病例样本进行学习，并构建出最优模型，用于新病例的预测。这三类方法都可以得到较高的准确率，但是同时各有一定的局限性。第一类方法往往是基于大批量的样本数据，在小样本的情况下难以保证高准确率，第二类方法的主观性较大，第三类方法在不平衡样本集上的表现欠佳。尽管中医证候的研究在证候分类上取得了不少进展，但是很少有学者从分子层面对中医证候的潜在机理进行阐述。

针对这种情况，有必要对中医证候建立分子解释机制，并构建一系列分子解释工具，利用分子解释工具不仅能根据中医病例样本筛选核心症状，还能对核心症状的分子机制进行分析，从而更好的阐释中医证候的机理。

发明内容

(一)要解决的技术问题

本发明所要解决的技术问题在于提供一种构造基于中医病例样本的中医证候分子解释工具，以便方便地对中医症候的核心症状的分子机制进行阐释。

(二)技术方案

为解决上述技术问题，本发明提出一种中医证候分子解释工具构造方法，以便于从分子层面阐释中医证候的机理，所述方法包括如下步骤：步骤S1：根据中医病例样本数据，计算症状与中医证候之间的信息增益；步骤S2：根据多个不同的信息增益阈值来筛选出多个不同的症状集，并构建基于该多个不同症状集的支持向量机分类模型；步骤S3：将所述多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状；步骤S4：确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因，依据关联基因的出现频率对基因进行排序，并设置一个频率阈值来筛选出频繁基因；步骤S5：根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具。

根据本发明的具体实施方式，在步骤S1中，信息增益IG(C|X)根据下面的表达式来计算：

IG (C | X) = - \underset{i}{Σ} P (c_{i}) \log_{2} (P (c_{i})) - (- \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))),

其中，C表示中医证候，X表示症状，第一项表示证候的信息熵，P(c_i)为证候取值的先验概率；第二项

H (C | X) = - \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))

表示观察症状取值之后证候的信息熵，P(c_i|x_j)为观察症状取值后证候的后验概率。

根据本发明的具体实施方式，所述步骤S2进一步包括：步骤S21：将所述病例样本分为训练样本集和测试样本集两部分；步骤S22：设置多个不同的信息增益阈值，利用该多个不同信息增益阈值来选取多个不同的症状集，并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型；步骤S23：将所述训练得到的每组支持向量机分类模型用于测试样本集的预测，计算每组支持向量机分类模型在测试样本集上的预测准确率。

根据本发明的具体实施方式，在所述步骤S4中，确定核心症状对应的表型本体条目以及表型本体条目关联的基因的通过查询数据库来实现。

根据本发明的具体实施方式，所述分子解释工具是生物通路数据集，所述步骤S5包括步骤S51：查询数据库以确定每一个频繁基因相关的生物通路，形成生物通路数据集。

根据本发明的具体实施方式，所述分子解释工具还包括症状-基因-生物通路多层关联网络，所述步骤S5还包括步骤S52：依据频繁基因和生物通路图数据，构建症状-基因-生物通路多层关联网络。

根据本发明的具体实施方式，所述步骤S52包括：步骤S521：从生物通路数据集中进行数据挖掘得到通路模式；步骤S522：反向连接通路模式、基因和核心症状；步骤S523：删除单独的通路模式-基因关联边和单独的基因-核心症状关联边，只保留完整的通路模式-基因-核心症状关联边。

根据本发明的具体实施方式，所述分子解释工具是基因富集生物通路，所述步骤S5包括步骤S53：对所述频繁基因进行基因富集分析，得到基因富集生物通路。

根据本发明的具体实施方式，相关分子交互网络，所述步骤S5包括步骤S54：根据所述频繁基因构建分子交互网络。

(三)有益效果

本发明的分子解释工具构造方法通过提取核心症状，能够更全面更深入的分析了中医证候的机理，为中医证候研究提供了新的视角和手段。

本发明在分子机理上，着重于对生物信息的数据挖掘，通过构造基于中医证候解释机制的分子解释工具，能够从分子层面对核心症状的重要性作出解释。

附图说明

图1是本发明所提供的方法的流程图；

图2是本发明具体实施例的操作流程示意图；

图3是信息增益阈值与模型预测准确率之间的对应关系图；

图4A和图4B是本发明具体实施例的症状-基因-生物通路多层关联网络，其中图4A是局部放大图，图4B是完整图；

图5是本发明具体实施例的富集生物通路；

图6是本发明具体实施例的最相关分子交互网络。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明基于中医病例样本的中医证候分子解释机制，并构造分子解释工具。本发明所称的分子解释工具包括生物通路数据集、症状-基因-生物通路多层关联网络、富集生物通路和最相关分子交互网络等。

生物通路描述了特定基因在体内表达并发挥作用的过程。通过筛选核心症状、频繁基因和关联生物通路，并构建症状-基因-生物通路多层关联网络，逐层深入，能更清晰地解释中医证候的分子机制。而富集生物通路则与频繁基因表现出极强的统计相关性，通过富集分析能发掘出证候相关的重要生物通路。此外，最相关分子交互网络包含了化合物-基因关联和基因-基因关联，通过构建最相关分子交互网络可以整体地展现中医证候在分子层面的作用背景。

总体来说，本发明首先通过设置信息增益阈值构建不同的分类模型，并选取表现最好的分类模型，筛选对应的症状集作为核心症状。然后收集核心症状对应的表型本体条目，并通过表型条目-基因映射收集关联基因，设置频率阈值筛选频繁基因，基于频繁基因形成生物通路数据集，挖掘通路模式并构建症状-基因-生物通路多层关联网络，同时基于频繁基因发掘富集生物通路和最相关分子交互网络。

图1是本发明所提供的构造分子解释工具的方法的流程图。如图1所示，本发明提供一种基于中医病例样本的中医证候分子解释机制，该方法包括如下步骤：

步骤S1：根据中医病例样本数据，计算症状与中医证候间的信息增益。

其中，信息增益IG(C|X)可根据下面的表达式来计算：

IG (C | X) = - \underset{i}{Σ} P (c_{i}) \log_{2} (P (c_{i})) - (- \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j})))

H (C | X) = - \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))

步骤S2：根据多个不同的信息增益阈值来筛选出多个不同的症状集，构建基于该多个不同症状集的支持向量机分类模型。

优选地，所述步骤S2包括：

步骤S21：将病例样本分为训练样本集和测试样本集两部分。

步骤S22：设置多个不同的信息增益阈值，利用该多个不同信息增益阈值来选取多个不同的症状集，并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型。

步骤S23：将所述训练得到的每组支持向量机分类模型用于测试样本集的预测，计算每组支持向量机分类模型在测试样本集上的预测准确率。

步骤S3：将所述多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状。

步骤S4：确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因，依据关联基因的出现频率对基因进行排序，并设置一个频率阈值来筛选出频繁基因。

其中，确定核心症状对应的表型本体条目以及表型本体条目关联的基因的可以通过查询HPO数据库(TheHumanPhenotypeOntology)来实现。

步骤S5：根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具。

步骤S5可以包括以下步骤来构造不能功能的分子解释工具。

步骤S51：查询数据库以确定每一个频繁基因相关的生物通路，形成生物通路数据集。该步骤可通过查询KEGG数据库(KyotoEncyclopediaofGenesandGenomes)来实现。

在步骤S51之后，步骤S5还可以包括步骤S52：依据频繁基因和生物通路图数据，构建症状-基因-生物通路多层关联网络。

优选地，所述步骤S52包括：

步骤S521：从生物通路数据集中进行数据挖掘得到通路模式；

步骤S522：反向连接通路模式、基因和核心症状；

步骤S523：删除单独的通路模式-基因关联边和单独的基因-核心症状关联边，只保留完整的通路模式-基因-核心症状关联边；

此外，步骤S5还可包括步骤S53：对所述频繁基因进行基因富集分析，得到基因富集生物通路。

步骤S5还可包括步骤S54：根据所述频繁基因构建分子交互网络。

在具体应用时，所述步骤S53和S54可以在MetaDrug软件平台上进行。

下面通过对一个具体实施例的说明来体现本发明的各个特征和优点。该实施例选取中风(急性脑梗死)的风痰瘀阻证构造分子解释工具。

图2是该实施例的流程示意图，如图2所示，该实施例的方法包括如下步骤：

步骤S1：收集中风病例，计算各病例的症状与证候间的信息增益。

临床采集发病72小时以内的中风病例166例，由经过统一培训的神经内科医师对患者的四诊信息(包括102个症状)进行采集。症状以0-1形式记录，0表示无此症状，1表示有此症状。由资深中医专家对患者做出中风病的诊断。中风证候以0-1形式记录，0表示未诊断为此证候，1表示诊断为此证候。在风痰瘀阻证上，得到共120个阳性样本和46个阴性样本。

依据下列表达式，分别计算102个症状与风痰瘀阻证之间的信息增益：

IG (C | X) = - \underset{i}{Σ} P (c_{i}) \log_{2} (P (c_{i})) - (- \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))),

其中，第一项表示风痰瘀阻证的信息熵，P(c_i)为风痰瘀阻证取值的先验概率；第二项

H (C | X) = - \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))

表示观察症状取值之后风痰瘀阻证的信息熵，P(c_i|x_j)为观察症状取值后风痰瘀阻证的后验概率。

由于一些取值分布极不平衡的症状也可能计算得到一个较高的信息增益，但是这样的高信息增益是没有意义的。极端情况下，症状上样本数少的一类可能全被划分到测试样本集中。因此，优选地，为了避免出现这种虚高的信息增益，如果一个症状取值为0或1的样本数小于等于一个阈值，例如5，则删除这一症状。

步骤S2：设置不同的信息增益阈值以筛选症状集，构建基于不同症状集的分类模型。具体包括如下步骤：

步骤S21：将166个样本随机分成训练样本集和测试样本集。

针对风痰瘀阻证样本集的小样本和不平衡样本的特点，训练样本集由146个样本组成(110个阳性样本和36个阴性样本)，测试样本集由20个样本组成(10个阳性样本和10个阴性样本)。

步骤S22：设置多个不同的信息增益阈值，利用该多个不同信息增益阈值来选取多个不同的症状集，并利用该多个不同的症状集在训练样本集上训练多个支持向量机分类模型。

具体地，将症状按照信息增益由大到小的顺序进行排序。遍历症状序列，依次设置信息增益阈值，使得每次加入的症状数目均匀稳定在5-10之间。对于每一个症状集，抽取训练样本在症状集上的数据，以此为输入向量，寻找最优的分类平面，构建支持向量机分类模型。

步骤S23：将所述训练得到的每个支持向量机分类模型用于测试样本集的预测，计算每个支持向量机分类模型在测试样本集上的预测准确率。

针对每一个选取的信息增益阈值，重新划分训练样本集和测试样本集，在训练样本集上构建支持向量机分类模型，在测试样本集上计算预测准确率，重复100次，取平均值作为该组症状集所建立模型的预测准确率。

图3是信息增益阈值与模型预测准确率之间的对应关系，原始模型指未经核心症状筛选建立的支持向量机分类模型。

步骤S3：选取预测准确率

最高的一组支持向量机分类模型对应的症状集作为核心症状。

如图3所示，当信息增益阈值选为0.004时，模型的预测准确率最高。

因此，该组模型对应的24个症状选为核心症状，如下表所示。

核心症状	信息增益
		腻苔	0.041751
细脉	0.032381
		舌下脉络瘀紫	0.030248
沉脉	0.029555
		滑脉	0.023376
弦脉	0.022498
		嗜睡	0.020716
红舌	0.02046
		口唇紫暗	0.015375
口多粘涎	0.014193
		面色晦暗	0.013139
或手足心热	0.013014
		头痛而痛处不移	0.013014
头昏沉	0.010641
		神疲乏力或少气懒言	0.009921
或便干尿少	0.009029
		情绪不稳	0.008032
语声低怯或咳声无力	0.006736
		便干三日以上未解	0.005297
麻木	0.004979
		厚苔	0.004949
声高气粗或口唇干红	0.004901
		肢体瘫软	0.004516
咯痰或呕吐痰涎	0.004181

步骤S4：收集核心症状对应的表型本体条目以及表型本体条目关联的基因，依据关联基因的出现频率对基因进行排序，设置频率阈值筛选频繁基因。

在HPO数据库中收集到43个与核心症状相近的表型本体条目，通过HPO数据库中的表型-基因映射，找到与这43个表型本体条目关联的775个基因条目，对这些基因条目按照出现频率由大到小排序。设置基因频率为3，删除出现频率小于3的偶然出现的基因数据。剩下251个基因条目构成频繁基因。

在该实施例中，分子解释工具是症状-基因-生物通路多层关联网络。

查询KEGG数据库，收集每一个基因关联的生物通路条目。将251个频繁基因映射形成由251条生物通路记录组成生物通路数据集。在生物通路数据集上进行数据挖掘，获得通路模式。反向连接通路模式、基因和核心症状，如果一个基因的关联生物通路包含了通路模式的一条关联规则中的所有生物通路条目，则连接这个基因与这条关联规则；如果一个基因包含在一个核心症状对应的HPO表型条目的关联基因中，则连接这个基因与这个核心症状。最后，删除单独的通路模式-基因关联边和单独的基因-核心症状关联边，只保留完整的通路模式-基因-核心症状关联边，则构建成症状-基因-生物通路多层关联网络(如图4A与图4B所示)。

此外，分子解释工具还可以是用于基因富集分析的基因富集生物通路和相关分子交互网络。

在MetaDrug软件平台上，对251个频繁基因进行基因富集分析，发掘富集生物通路；在MetaDrug软件平台上，以251个频繁基因为输入构建最相关的分子交互网络。如图5所示为缬氨酸、亮氨酸和异亮氨酸的降解通路图，它是频繁基因富集到的一个生物通路，医学文献已经验证该生物通路与中风病血浆表征有关；如图6所示为最相关分子交互网络，其中包括了25个频繁基因，它描述了分子作用的背景。

在核心症状基础上建立的分类模型减小了其他相关程度小的症状的影响，能够应用于新的中风病例的风痰瘀阻证的诊断。同时，在分子机制层面构建的症状-基因-生物通路多层关联网络能够为24个核心症状的重要性提供分子解释，发掘的富集生物通路和构建的最相关分子交互网络也能提供分子基础。其中，富集生物通路在一些医学文献中得到了验证。综合以上两个方面，基于中医病例样本的中医证候分子解释工作能够更全面更深入地分析了中风病风痰瘀阻证的机理。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中医证候分子解释工具构造方法，所述分子解释工具用于从分子层面阐释中医证候的机理，其特征在于，所述方法包括如下步骤：

步骤S1：根据中医病例样本数据，计算症状与中医证候之间的信息增益；

步骤S2：根据多个不同的信息增益阈值来筛选出多个不同的症状集，并构建基于该多个不同症状集的多组支持向量机分类模型；

步骤S3：将所述多组支持向量机分类模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状；

步骤S4：确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因，依据关联基因的出现频率对基因进行排序，并设置一个频率阈值来筛选出频繁基因；

步骤S5：根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具；

在步骤S1中，信息增益IG(C|X)根据下面的表达式来计算：

I G (C | X) = - \underset{i}{Σ} P (c_{i}) \log_{2} (P (c_{i})) - (- \underset{j}{Σ} P (x_{j}) \underset{i}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))),

H (C | X) = - \underset{j}{Σ} P (x_{j}) \underset{j}{Σ} P (c_{i} | x_{j}) \log_{2} (P (c_{i} | x_{j}))

表示观察症状取值之后证候的信息熵，P(c_i|x_j)为观察症状取值后证候的后验概率；

所述步骤S2进一步包括：

步骤S21：将所述病例样本分为训练样本集和测试样本集两部分；

步骤S22：设置多个不同的信息增益阈值，利用该多个不同信息增益阈值来选取多个不同的症状集，并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型；

2.如权利要求1所述的中医证候分子解释工具构造方法，其特征在于：在所述步骤S4中，确定核心症状对应的表型本体条目以及表型本体条目关联的基因的通过查询数据库来实现。

3.如权利要求1所述的中医证候分子解释工具构造方法，其特征在于：所述分子解释工具是生物通路数据集，所述步骤S5包括：

步骤S51：查询数据库以确定每一个频繁基因相关的生物通路，形成生物通路数据集。

4.如权利要求3所述的中医证候分子解释工具构造方法，其特征在于：所述分子解释工具还包括症状-基因-生物通路多层关联网络，所述步骤S5还包括：

步骤S52：依据频繁基因和生物通路图数据，构建症状-基因-生物通路多层关联网络。

5.如权利要求4所述的中医证候分子解释工具构造方法，其特征在于：所述步骤S52包括：

步骤S521：从生物通路数据集中进行数据挖掘得到通路模式；

步骤S522：反向连接通路模式、基因和核心症状；

步骤S523：删除单独的通路模式-基因关联边和单独的基因-核心症状关联边，只保留完整的通路模式-基因-核心症状关联边。

6.如权利要求3所述的中医证候分子解释工具构造方法，其特征在于：所述分子解释工具是基因富集生物通路，所述步骤S5包括：

步骤S53：对所述频繁基因进行基因富集分析，得到基因富集生物通路。

7.如权利要求3所述的中医证候分子解释工具构造方法，其特征在于：相关分子交互网络，所述步骤S5包括：

步骤S54：根据所述频繁基因构建分子交互网络。