CN103279666B - 中医证候的分子解释工具构造方法 - Google Patents
中医证候的分子解释工具构造方法 Download PDFInfo
- Publication number
- CN103279666B CN103279666B CN201310208018.6A CN201310208018A CN103279666B CN 103279666 B CN103279666 B CN 103279666B CN 201310208018 A CN201310208018 A CN 201310208018A CN 103279666 B CN103279666 B CN 103279666B
- Authority
- CN
- China
- Prior art keywords
- gene
- molecule
- symptom
- syndrome
- tcm syndrome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000011580 syndromic disease Diseases 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 37
- 208000024891 symptom Diseases 0.000 claims abstract description 94
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 62
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000008236 biological pathway Effects 0.000 claims description 36
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 230000002068 genetic effect Effects 0.000 claims description 12
- 230000037361 pathway Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000007418 data mining Methods 0.000 claims description 5
- 238000010201 enrichment analysis Methods 0.000 claims description 5
- 230000009456 molecular mechanism Effects 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 abstract 1
- 206010062717 Increased upper airway secretion Diseases 0.000 description 11
- 208000026435 phlegm Diseases 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 9
- 206010008190 Cerebrovascular accident Diseases 0.000 description 8
- 208000006011 Stroke Diseases 0.000 description 8
- 239000003814 drug Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 239000002052 molecular layer Substances 0.000 description 2
- 206010054196 Affect lability Diseases 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 206010030302 Oliguria Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 235000020095 red wine Nutrition 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000004916 vomit Anatomy 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种中医证候分子解释工具构造方法,包括如下步骤:计算症状与中医证候之间的信息增益;根据多个不同的信息增益阈值来筛选出多个不同的症状集,并构建基于该多个不同症状集的支持向量机分类模型;将多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状;确定核心症状对应的表型本体条目以及表型本体条目关联的基因,筛选出频繁基因;根据频繁基因和分子层面的数据来构造用于中医证候解释的分子解释工具。本发明通过筛选出中医证候的核心症状和获得频繁基因,能够构造阐释核心症状的分子机制的分子解释工具,该工具有助于更好的认识中医证候的机理。
Description
技术领域
本发明涉及计算机技术在中医领域研究中的应用,特别是涉及基于中医病例样本的中医证候分子解释机制,具体是一种中医证候的分子解释工具构造方法,所述分子解释工具用于从分子层面阐释中医证候的机理。
背景技术
中医的发展源远流长,在一些疾病治疗上逐渐形成一套完善的体系。中医对疾病的诊断建立在一套完备的证候理论之上,基于“望闻问切”四诊信息,在症状群基础之上对患者的中医证候做出经验判断。
“证候”是中医学的专用术语,概括为一系列有相互关联的症状总称;即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化。证,是指对疾病所处的一定阶段的病机概括,或非疾病机体一定阶段的机体状态的概括;候,是指这种病机或状态的可被观察到的外在表现。
中医体系的形成得益于中医学家长期以来实践与经验的积累。在这个过程中,中医名书古籍记载着中医实践者智慧的结晶,推动者中医学的发展。然而,正是由于中医诊断依赖中医专家的经验,不同医师根据从业经历和业务水平的不同,对同一对象会做出不同的判断,这使得中医的诊断具有一定的主观性。缺乏准确的分子解释,是制约中医发展的一大瓶颈。近年来,一些国内外研究者试图在大量中医病例样本数据的基础上,提取出症状与证候之间的关系,对中医证候的诊断加以量化。
目前,中医证候的研究主要集中在对中医病例样本进行学习,并构建用于证候诊断的分类模型。在学习方法的选择上则不尽相同,有些学习算法得到的模型预测准确度较高,而有的模型则相对较低,比较常见的有如下三类方法用于构建证候诊断模型。第一类方法对病例样本进行回归分析,得到证候的判别函数,表征出不同症状的重要性,并用于新病例的预测。第二类根据相关分析对症状进行打分,然后筛选出预测准确度最高的判别函数作为诊断模型。第三类方法采用机器学习的算法(如贝叶斯网络、支持向量机等)对病例样本进行学习,并构建出最优模型,用于新病例的预测。这三类方法都可以得到较高的准确率,但是同时各有一定的局限性。第一类方法往往是基于大批量的样本数据,在小样本的情况下难以保证高准确率,第二类方法的主观性较大,第三类方法在不平衡样本集上的表现欠佳。尽管中医证候的研究在证候分类上取得了不少进展,但是很少有学者从分子层面对中医证候的潜在机理进行阐述。
针对这种情况,有必要对中医证候建立分子解释机制,并构建一系列分子解释工具,利用分子解释工具不仅能根据中医病例样本筛选核心症状,还能对核心症状的分子机制进行分析,从而更好的阐释中医证候的机理。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题在于提供一种构造基于中医病例样本的中医证候分子解释工具,以便方便地对中医症候的核心症状的分子机制进行阐释。
(二)技术方案
为解决上述技术问题,本发明提出一种中医证候分子解释工具构造方法,以便于从分子层面阐释中医证候的机理,所述方法包括如下步骤:步骤S1:根据中医病例样本数据,计算症状与中医证候之间的信息增益;步骤S2:根据多个不同的信息增益阈值来筛选出多个不同的症状集,并构建基于该多个不同症状集的支持向量机分类模型;步骤S3:将所述多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状;步骤S4:确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因,依据关联基因的出现频率对基因进行排序,并设置一个频率阈值来筛选出频繁基因;步骤S5:根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具。
根据本发明的具体实施方式,在步骤S1中,信息增益IG(C|X)根据下面的表达式来计算:
根据本发明的具体实施方式,所述步骤S2进一步包括:步骤S21:将所述病例样本分为训练样本集和测试样本集两部分;步骤S22:设置多个不同的信息增益阈值,利用该多个不同信息增益阈值来选取多个不同的症状集,并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型;步骤S23:将所述训练得到的每组支持向量机分类模型用于测试样本集的预测,计算每组支持向量机分类模型在测试样本集上的预测准确率。
根据本发明的具体实施方式,在所述步骤S4中,确定核心症状对应的表型本体条目以及表型本体条目关联的基因的通过查询数据库来实现。
根据本发明的具体实施方式,所述分子解释工具是生物通路数据集,所述步骤S5包括步骤S51:查询数据库以确定每一个频繁基因相关的生物通路,形成生物通路数据集。
根据本发明的具体实施方式,所述分子解释工具还包括症状-基因-生物通路多层关联网络,所述步骤S5还包括步骤S52:依据频繁基因和生物通路图数据,构建症状-基因-生物通路多层关联网络。
根据本发明的具体实施方式,所述步骤S52包括:步骤S521:从生物通路数据集中进行数据挖掘得到通路模式;步骤S522:反向连接通路模式、基因和核心症状;步骤S523:删除单独的通路模式-基因关联边和单独的基因-核心症状关联边,只保留完整的通路模式-基因-核心症状关联边。
根据本发明的具体实施方式,所述分子解释工具是基因富集生物通路,所述步骤S5包括步骤S53:对所述频繁基因进行基因富集分析,得到基因富集生物通路。
根据本发明的具体实施方式,相关分子交互网络,所述步骤S5包括步骤S54:根据所述频繁基因构建分子交互网络。
(三)有益效果
本发明的分子解释工具构造方法通过提取核心症状,能够更全面更深入的分析了中医证候的机理,为中医证候研究提供了新的视角和手段。
本发明在分子机理上,着重于对生物信息的数据挖掘,通过构造基于中医证候解释机制的分子解释工具,能够从分子层面对核心症状的重要性作出解释。
附图说明
图1是本发明所提供的方法的流程图;
图2是本发明具体实施例的操作流程示意图;
图3是信息增益阈值与模型预测准确率之间的对应关系图;
图4A和图4B是本发明具体实施例的症状-基因-生物通路多层关联网络,其中图4A是局部放大图,图4B是完整图;
图5是本发明具体实施例的富集生物通路;
图6是本发明具体实施例的最相关分子交互网络。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明基于中医病例样本的中医证候分子解释机制,并构造分子解释工具。本发明所称的分子解释工具包括生物通路数据集、症状-基因-生物通路多层关联网络、富集生物通路和最相关分子交互网络等。
生物通路描述了特定基因在体内表达并发挥作用的过程。通过筛选核心症状、频繁基因和关联生物通路,并构建症状-基因-生物通路多层关联网络,逐层深入,能更清晰地解释中医证候的分子机制。而富集生物通路则与频繁基因表现出极强的统计相关性,通过富集分析能发掘出证候相关的重要生物通路。此外,最相关分子交互网络包含了化合物-基因关联和基因-基因关联,通过构建最相关分子交互网络可以整体地展现中医证候在分子层面的作用背景。
总体来说,本发明首先通过设置信息增益阈值构建不同的分类模型,并选取表现最好的分类模型,筛选对应的症状集作为核心症状。然后收集核心症状对应的表型本体条目,并通过表型条目-基因映射收集关联基因,设置频率阈值筛选频繁基因,基于频繁基因形成生物通路数据集,挖掘通路模式并构建症状-基因-生物通路多层关联网络,同时基于频繁基因发掘富集生物通路和最相关分子交互网络。
图1是本发明所提供的构造分子解释工具的方法的流程图。如图1所示,本发明提供一种基于中医病例样本的中医证候分子解释机制,该方法包括如下步骤:
步骤S1:根据中医病例样本数据,计算症状与中医证候间的信息增益。
其中,信息增益IG(C|X)可根据下面的表达式来计算:
其中,C表示中医证候,X表示症状,第一项表示证候的信息熵,P(ci)为证候取值的先验概率;第二项 表示观察症状取值之后证候的信息熵,P(ci|xj)为观察症状取值后证候的后验概率。
步骤S2:根据多个不同的信息增益阈值来筛选出多个不同的症状集,构建基于该多个不同症状集的支持向量机分类模型。
优选地,所述步骤S2包括:
步骤S21:将病例样本分为训练样本集和测试样本集两部分。
步骤S22:设置多个不同的信息增益阈值,利用该多个不同信息增益阈值来选取多个不同的症状集,并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型。
步骤S23:将所述训练得到的每组支持向量机分类模型用于测试样本集的预测,计算每组支持向量机分类模型在测试样本集上的预测准确率。
步骤S3:将所述多组支持向量机模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状。
步骤S4:确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因,依据关联基因的出现频率对基因进行排序,并设置一个频率阈值来筛选出频繁基因。
其中,确定核心症状对应的表型本体条目以及表型本体条目关联的基因的可以通过查询HPO数据库(TheHumanPhenotypeOntology)来实现。
步骤S5:根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具。
步骤S5可以包括以下步骤来构造不能功能的分子解释工具。
步骤S51:查询数据库以确定每一个频繁基因相关的生物通路,形成生物通路数据集。该步骤可通过查询KEGG数据库(KyotoEncyclopediaofGenesandGenomes)来实现。
在步骤S51之后,步骤S5还可以包括步骤S52:依据频繁基因和生物通路图数据,构建症状-基因-生物通路多层关联网络。
优选地,所述步骤S52包括:
步骤S521:从生物通路数据集中进行数据挖掘得到通路模式;
步骤S522:反向连接通路模式、基因和核心症状;
步骤S523:删除单独的通路模式-基因关联边和单独的基因-核心症状关联边,只保留完整的通路模式-基因-核心症状关联边;
此外,步骤S5还可包括步骤S53:对所述频繁基因进行基因富集分析,得到基因富集生物通路。
步骤S5还可包括步骤S54:根据所述频繁基因构建分子交互网络。
在具体应用时,所述步骤S53和S54可以在MetaDrug软件平台上进行。
下面通过对一个具体实施例的说明来体现本发明的各个特征和优点。该实施例选取中风(急性脑梗死)的风痰瘀阻证构造分子解释工具。
图2是该实施例的流程示意图,如图2所示,该实施例的方法包括如下步骤:
步骤S1:收集中风病例,计算各病例的症状与证候间的信息增益。
临床采集发病72小时以内的中风病例166例,由经过统一培训的神经内科医师对患者的四诊信息(包括102个症状)进行采集。症状以0-1形式记录,0表示无此症状,1表示有此症状。由资深中医专家对患者做出中风病的诊断。中风证候以0-1形式记录,0表示未诊断为此证候,1表示诊断为此证候。在风痰瘀阻证上,得到共120个阳性样本和46个阴性样本。
依据下列表达式,分别计算102个症状与风痰瘀阻证之间的信息增益:
由于一些取值分布极不平衡的症状也可能计算得到一个较高的信息增益,但是这样的高信息增益是没有意义的。极端情况下,症状上样本数少的一类可能全被划分到测试样本集中。因此,优选地,为了避免出现这种虚高的信息增益,如果一个症状取值为0或1的样本数小于等于一个阈值,例如5,则删除这一症状。
步骤S2:设置不同的信息增益阈值以筛选症状集,构建基于不同症状集的分类模型。具体包括如下步骤:
步骤S21:将166个样本随机分成训练样本集和测试样本集。
针对风痰瘀阻证样本集的小样本和不平衡样本的特点,训练样本集由146个样本组成(110个阳性样本和36个阴性样本),测试样本集由20个样本组成(10个阳性样本和10个阴性样本)。
步骤S22:设置多个不同的信息增益阈值,利用该多个不同信息增益阈值来选取多个不同的症状集,并利用该多个不同的症状集在训练样本集上训练多个支持向量机分类模型。
具体地,将症状按照信息增益由大到小的顺序进行排序。遍历症状序列,依次设置信息增益阈值,使得每次加入的症状数目均匀稳定在5-10之间。对于每一个症状集,抽取训练样本在症状集上的数据,以此为输入向量,寻找最优的分类平面,构建支持向量机分类模型。
步骤S23:将所述训练得到的每个支持向量机分类模型用于测试样本集的预测,计算每个支持向量机分类模型在测试样本集上的预测准确率。
针对每一个选取的信息增益阈值,重新划分训练样本集和测试样本集,在训练样本集上构建支持向量机分类模型,在测试样本集上计算预测准确率,重复100次,取平均值作为该组症状集所建立模型的预测准确率。
图3是信息增益阈值与模型预测准确率之间的对应关系,原始模型指未经核心症状筛选建立的支持向量机分类模型。
步骤S3:选取预测准确率
最高的一组支持向量机分类模型对应的症状集作为核心症状。
如图3所示,当信息增益阈值选为0.004时,模型的预测准确率最高。
因此,该组模型对应的24个症状选为核心症状,如下表所示。
核心症状 | 信息增益 |
腻苔 | 0.041751 |
细脉 | 0.032381 |
舌下脉络瘀紫 | 0.030248 |
沉脉 | 0.029555 |
滑脉 | 0.023376 |
弦脉 | 0.022498 |
嗜睡 | 0.020716 |
红舌 | 0.02046 |
口唇紫暗 | 0.015375 |
口多粘涎 | 0.014193 |
面色晦暗 | 0.013139 |
或手足心热 | 0.013014 |
头痛而痛处不移 | 0.013014 |
头昏沉 | 0.010641 |
神疲乏力或少气懒言 | 0.009921 |
或便干尿少 | 0.009029 |
情绪不稳 | 0.008032 |
语声低怯或咳声无力 | 0.006736 |
便干三日以上未解 | 0.005297 |
麻木 | 0.004979 |
厚苔 | 0.004949 |
声高气粗或口唇干红 | 0.004901 |
肢体瘫软 | 0.004516 |
咯痰或呕吐痰涎 | 0.004181 |
步骤S4:收集核心症状对应的表型本体条目以及表型本体条目关联的基因,依据关联基因的出现频率对基因进行排序,设置频率阈值筛选频繁基因。
在HPO数据库中收集到43个与核心症状相近的表型本体条目,通过HPO数据库中的表型-基因映射,找到与这43个表型本体条目关联的775个基因条目,对这些基因条目按照出现频率由大到小排序。设置基因频率为3,删除出现频率小于3的偶然出现的基因数据。剩下251个基因条目构成频繁基因。
步骤S5:根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具。
在该实施例中,分子解释工具是症状-基因-生物通路多层关联网络。
查询KEGG数据库,收集每一个基因关联的生物通路条目。将251个频繁基因映射形成由251条生物通路记录组成生物通路数据集。在生物通路数据集上进行数据挖掘,获得通路模式。反向连接通路模式、基因和核心症状,如果一个基因的关联生物通路包含了通路模式的一条关联规则中的所有生物通路条目,则连接这个基因与这条关联规则;如果一个基因包含在一个核心症状对应的HPO表型条目的关联基因中,则连接这个基因与这个核心症状。最后,删除单独的通路模式-基因关联边和单独的基因-核心症状关联边,只保留完整的通路模式-基因-核心症状关联边,则构建成症状-基因-生物通路多层关联网络(如图4A与图4B所示)。
此外,分子解释工具还可以是用于基因富集分析的基因富集生物通路和相关分子交互网络。
在MetaDrug软件平台上,对251个频繁基因进行基因富集分析,发掘富集生物通路;在MetaDrug软件平台上,以251个频繁基因为输入构建最相关的分子交互网络。如图5所示为缬氨酸、亮氨酸和异亮氨酸的降解通路图,它是频繁基因富集到的一个生物通路,医学文献已经验证该生物通路与中风病血浆表征有关;如图6所示为最相关分子交互网络,其中包括了25个频繁基因,它描述了分子作用的背景。
在核心症状基础上建立的分类模型减小了其他相关程度小的症状的影响,能够应用于新的中风病例的风痰瘀阻证的诊断。同时,在分子机制层面构建的症状-基因-生物通路多层关联网络能够为24个核心症状的重要性提供分子解释,发掘的富集生物通路和构建的最相关分子交互网络也能提供分子基础。其中,富集生物通路在一些医学文献中得到了验证。综合以上两个方面,基于中医病例样本的中医证候分子解释工作能够更全面更深入地分析了中风病风痰瘀阻证的机理。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种中医证候分子解释工具构造方法,所述分子解释工具用于从分子层面阐释中医证候的机理,其特征在于,所述方法包括如下步骤:
步骤S1:根据中医病例样本数据,计算症状与中医证候之间的信息增益;
步骤S2:根据多个不同的信息增益阈值来筛选出多个不同的症状集,并构建基于该多个不同症状集的多组支持向量机分类模型;
步骤S3:将所述多组支持向量机分类模型中的预测准确率最高的一组支持向量机分类模型对应的症状集作为核心症状;
步骤S4:确定所述核心症状对应的表型本体条目以及表型本体条目关联的基因,依据关联基因的出现频率对基因进行排序,并设置一个频率阈值来筛选出频繁基因;
步骤S5:根据所述筛选得到的频繁基因和生物通路图数据来构造用于中医证候解释的分子解释工具;
在步骤S1中,信息增益IG(C|X)根据下面的表达式来计算:
所述步骤S2进一步包括:
步骤S21:将所述病例样本分为训练样本集和测试样本集两部分;
步骤S22:设置多个不同的信息增益阈值,利用该多个不同信息增益阈值来选取多个不同的症状集,并利用该多个不同的症状集在训练样本集上训练多组支持向量机分类模型;
步骤S23:将所述训练得到的每组支持向量机分类模型用于测试样本集的预测,计算每组支持向量机分类模型在测试样本集上的预测准确率。
2.如权利要求1所述的中医证候分子解释工具构造方法,其特征在于:在所述步骤S4中,确定核心症状对应的表型本体条目以及表型本体条目关联的基因的通过查询数据库来实现。
3.如权利要求1所述的中医证候分子解释工具构造方法,其特征在于:所述分子解释工具是生物通路数据集,所述步骤S5包括:
步骤S51:查询数据库以确定每一个频繁基因相关的生物通路,形成生物通路数据集。
4.如权利要求3所述的中医证候分子解释工具构造方法,其特征在于:所述分子解释工具还包括症状-基因-生物通路多层关联网络,所述步骤S5还包括:
步骤S52:依据频繁基因和生物通路图数据,构建症状-基因-生物通路多层关联网络。
5.如权利要求4所述的中医证候分子解释工具构造方法,其特征在于:所述步骤S52包括:
步骤S521:从生物通路数据集中进行数据挖掘得到通路模式;
步骤S522:反向连接通路模式、基因和核心症状;
步骤S523:删除单独的通路模式-基因关联边和单独的基因-核心症状关联边,只保留完整的通路模式-基因-核心症状关联边。
6.如权利要求3所述的中医证候分子解释工具构造方法,其特征在于:所述分子解释工具是基因富集生物通路,所述步骤S5包括:
步骤S53:对所述频繁基因进行基因富集分析,得到基因富集生物通路。
7.如权利要求3所述的中医证候分子解释工具构造方法,其特征在于:相关分子交互网络,所述步骤S5包括:
步骤S54:根据所述频繁基因构建分子交互网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310208018.6A CN103279666B (zh) | 2013-05-30 | 2013-05-30 | 中医证候的分子解释工具构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310208018.6A CN103279666B (zh) | 2013-05-30 | 2013-05-30 | 中医证候的分子解释工具构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279666A CN103279666A (zh) | 2013-09-04 |
CN103279666B true CN103279666B (zh) | 2016-04-13 |
Family
ID=49062181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310208018.6A Active CN103279666B (zh) | 2013-05-30 | 2013-05-30 | 中医证候的分子解释工具构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279666B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709520B (zh) * | 2016-12-23 | 2019-05-31 | 浙江大学 | 一种基于主题模型的医案分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855398A (zh) * | 2012-08-28 | 2013-01-02 | 中国科学院自动化研究所 | 基于多源信息融合的疾病潜在关联基因的获取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003298654A1 (en) * | 2002-11-15 | 2004-06-15 | The Salk Institute For Biological Studies | Structure of the farnesoid x receptor ligand binding domain and methods of use therefor |
-
2013
- 2013-05-30 CN CN201310208018.6A patent/CN103279666B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855398A (zh) * | 2012-08-28 | 2013-01-02 | 中国科学院自动化研究所 | 基于多源信息融合的疾病潜在关联基因的获取方法 |
Non-Patent Citations (3)
Title |
---|
中医理论的细胞活动解释;刘迅等;《自然杂志》;20050414;第24卷(第2期);111-113 * |
人类基因组信息与中医;林乔等;《遗传》;20061012;第28卷(第9期);1135-1140 * |
系统性红斑狼疮的中医基因研究三论;林辰等;《四川中医》;20061113;第24卷(第10期);27-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN103279666A (zh) | 2013-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hibbett | After the gold rush, or before the flood? Evolutionary morphology of mushroom-forming fungi (Agaricomycetes) in the early 21st century | |
CN107066791A (zh) | 一种基于病人检验结果的辅助疾病诊断方法 | |
CN107463800B (zh) | 一种肠道微生物信息分析方法及系统 | |
CN110349630A (zh) | 血液宏基因组测序数据的分析方法、装置及其应用 | |
Mirmozaffari et al. | Data mining Apriori algorithm for heart disease prediction | |
CN110136836A (zh) | 一种基于体检报告聚类分析的疾病预测方法 | |
CN108511056A (zh) | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
CN107610771A (zh) | 一种基于决策树的医学检测指标筛选方法 | |
CN112652361A (zh) | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 | |
CN112786203A (zh) | 一种机器学习糖尿病视网膜病变发病风险预测方法及应用 | |
CN112466402A (zh) | 一种使用血液标志物预测年龄的方法 | |
CN110334767B (zh) | 一种用于空气质量分类的改进随机森林方法 | |
CN113288157A (zh) | 基于深度可分离卷积和改进损失函数的心律失常分类方法 | |
Ahn et al. | Text mining as a tool for real-time technology assessment: Application to the cross-national comparative study on artificial organ technology | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
CN114038501B (zh) | 一种基于机器学习的背景菌判定方法 | |
Mirzajani | Prediction and diagnosis of diabetes by using data mining techniques | |
CN113178234B (zh) | 一种基于神经网络和连接图算法的化合物功能预测方法 | |
CN103279666B (zh) | 中医证候的分子解释工具构造方法 | |
CN113796873A (zh) | 穿戴式动态心电信号分类方法及系统 | |
CN112382347A (zh) | 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法 | |
CN116130105A (zh) | 一种基于神经网络的健康风险预测方法 | |
CN111261283A (zh) | 基于金字塔型卷积层的心电信号深度神经网络建模方法 | |
CN110739072A (zh) | 出血事件发生评估方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |