CN111951971A - 一种中药和症状关系的数据挖掘方法 - Google Patents
一种中药和症状关系的数据挖掘方法 Download PDFInfo
- Publication number
- CN111951971A CN111951971A CN202010708196.5A CN202010708196A CN111951971A CN 111951971 A CN111951971 A CN 111951971A CN 202010708196 A CN202010708196 A CN 202010708196A CN 111951971 A CN111951971 A CN 111951971A
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- traditional chinese
- symptom
- vector
- prescription
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 199
- 208000024891 symptom Diseases 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007418 data mining Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 229940126680 traditional chinese medicines Drugs 0.000 claims abstract description 26
- 229940079593 drug Drugs 0.000 claims abstract description 24
- 238000005065 mining Methods 0.000 claims abstract description 17
- 201000010099 disease Diseases 0.000 claims description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 229940126678 chinese medicines Drugs 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000013501 data transformation Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 239000000890 drug combination Substances 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 235000008216 herbs Nutrition 0.000 description 5
- 241000721047 Danaus plexippus Species 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 208000032928 Dyslipidaemia Diseases 0.000 description 2
- 208000017170 Lipid metabolism disease Diseases 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 231100000331 toxic Toxicity 0.000 description 2
- 230000002588 toxic effect Effects 0.000 description 2
- 240000005589 Calophyllum inophyllum Species 0.000 description 1
- 206010062717 Increased upper airway secretion Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 208000026435 phlegm Diseases 0.000 description 1
- 239000000955 prescription drug Substances 0.000 description 1
- 229940126532 prescription medicine Drugs 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 229940126672 traditional medicines Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Pharmacology & Pharmacy (AREA)
- Alternative & Traditional Medicine (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种中药和症状关系的数据挖掘方法,为挖掘中药对象与症状对象的准确对应关系,本发明先采用熵聚类算法从中药处方数据中挖掘常用方药配伍,然后以方药配伍为整体,依据共现信息寻找可能与方药配伍存在映射关系的候选症状对象。接着,为了从大量不确定的方药配伍与症状对象的映射关系中过滤不准确的结果,采用关联度系数分析法和共现频次分析法确定中药与症状的关联强度,筛除关联强度弱的候选症状对象。本发明挖掘方药配伍采用的改进熵聚类算法,动态选择中药向量的亲密变量个数,只考虑与目标中药的关联度系数非负的中药;改进后方法可以过滤掉临床上实际并未同时使用的中药药对,使挖掘结果更准确且更具实际意义。
Description
技术领域
本发明涉及一种将中药和诊断症状进行匹配的方法,尤其涉及中药和症状关系的数据挖掘方法,属于数据挖掘技术领域。
背景技术
临床医案是名老中医临床实践经验及学术思想的载体,伴随大数据时代的到来,数据挖掘技术被广泛地应用于临床知识发现,有关方症关系挖掘的研究则较为稀少。
目前,具有中医学背景的医学研究者和拥有计算机专业背景的跨领域合作者在各自的知识背景下进行科研创作,为弘扬中医药助力。前者以分析名老中医治疗某疾病的遣方用药规律为研究重点,通常采用关联规则[1]、复杂网络[2]和聚类方法[3,4]挖掘处方中的核心药对和方药配伍。从中医药理知识出发,根据中药功效的基础理论,归纳总结治疗该疾病的用药思想。李[5]等人基于熵聚类算法挖掘出10组治疗血脂异常的常用药物组合,药物组合的特征反映出血脂异常用药的基本原则是益气健脾、燥湿化痰、活血化瘀。
后者以期运用数据挖掘的手段发现中药—症状之间的映射规律。Poon等人[6]将用于基因表达研究的双聚类算法运用在失眠症状-药物关系挖掘中,得到了症状子集与中药子集的关系。Li等人[7]通过χ2检验检测患者之间重叠部分症状与中药的相关性,该模型通过过滤掉无效的正相关关联,获得了有意义的症状-中药关系。Wang[8]等人提出用主题模型SHT对病例文本建模,以中医常识作为指导,认为症状与其对应的中药属于同一个“证候”主题,在挖掘症状与中药的相关关系上取得了较好的效果。上述方法在探索药物与症状的关系问题时,均没有考虑方药配伍原则。中医方药都是由两味及以上的中药组方来治疗临床症状或者疾病,中药“君臣佐使”的配伍原则在提高疗效的同时还能减少毒副作用。不考虑方药配伍原则的方药症状挖掘关系,其实际参考价值将大打折扣。
目前各大医院的电子病例系统还不完善,临床上积累了大量的非结构化病例数据。想要从这些原始病例数据中发现有价值的知识,首先要进行数据预处理,数据质量直接影响了数据挖掘结果的准确性。本文的研究数据来源于北京某医院某著名中医大夫的老年病医案数据。由于身体机能衰退,一个老年病患者往往同时患几种疾病,症状呈现多样化,中医医师在遣方时自然也兼顾多种疾病,综合治疗,这就导致了病例数据呈现出中药与症状之间复杂又不明确的关系,增加了数据挖掘难度。原始医案数据是文本格式,来源于临床实践的真实记录,内容仅在结构及要素上明确,包括患者症状、舌脉象体征以及医师所开处方。而对于症状术语、药物名称等内容却呈现一义多词、多词一义、冗余、复合表述的特点,这就为数据的预处理增加了难度,必须进行医案数据清洗和结构化,以适应数据挖掘算法的要求。结合本文的数据特点。
发明内容
本发明的目的是利用数据挖掘技术,提出一种查找存在于中药对象和症状对象之间的映射关系的方法,在临床应用上有利于医生为患者提供精准的治疗方案。
为实现上述目的,本发明采取的技术方案是:首先收集中医诊疗老年病的真实医案数据,分析数据特点并进行数据预处理,得到结构化数据。然后设计了基于方药配伍原则和关联强度规则的方法来挖掘中药对象和症状对象的映射关系。最终将结构化的实验数据集作为输入,得到了符合临床认知的中药-症状映射关系。
本发明主要面对的问题有如下几点:
1.中医医案是半结构化文本数据,且用语十分不规范,词义笼统模糊,低质量数据严重影响数据挖掘的效果,必须进行合适的预处理。
2.中医开方配药遵循“君臣佐使”的配伍原则,多味中药组合使用共同发挥疗效,挖掘中药-症状关系,不能忽略中药对象之间的联系。
3.老年病由于没有明显的症状与体征,临床表现初期不易察觉,症状出现后又呈多样化,中医诊疗老年病往往兼顾多症综合治疗,医案数据呈现症状对象与中药对象复杂又不明确的关系,要发现其一一对应关系,十分困难。
针对上述问题,本发明设计了数据预处理方案,解决了用语不规范影响数据挖掘质量的问题。中医学中,“君臣佐使”的方药配伍原则是中医医师开药的精髓,合适的中药组合不但能提高疗效还能减少毒副作用。结合方药配伍原则才能更准确地挖掘中药对象与症状对象的映射关系。为挖掘中药对象与症状对象的准确对应关系,本发明先采用熵聚类算法从中药处方数据中挖掘常用方药配伍,然后以方药配伍为整体,依据共现信息寻找可能与方药配伍存在映射关系的候选症状对象。接着,为了从大量不确定的方药配伍与症状对象的映射关系中过滤不准确的结果,采用关联度系数分析法和共现频次分析法确定中药与症状的关联强度,筛除关联强度弱的候选症状对象。
且本发明对熵聚类算法进行了改进,本发明动态地选择中药的亲密变量个数,只考虑与目标中药的关联度系数非负的中药。因为关联度系数为负值表示中药之间共现频次为0,即在实际处方中并未同时出现过,不应该组成方药配伍。所以,改进后方法可以过滤掉临床上实际并未同时使用的中药药对,使挖掘结果更准确且更具实际意义。
综上所述,依托于中医诊疗老年病真实医案数据的一种中药和症状关系的计算机数据挖掘方法步骤叙述如下:
步骤1、对中医诊疗老年病数据集进行相关预处理,输入数据为文本形式的医案数据,输出数据为向量形式,输入到输出的转换过程如图6所示,整个处理流程如图2所示;具体包括以下步骤:
步骤1.1、将文本解析成字符串,并进行字符串匹配、字符串分割操作,从中提取出症状词、中药词。
步骤1.2、对不规范的症状词、中药词进行数据清洗。针对一义多词、多词一义、复合表述的情况,基于设计聚合、拆分规则,纠正错误用语,保证症状词、中药词的唯一性和准确性。
步骤1.3、进行数据变换,根据症状词、中药词在就诊记录中存在与否,映射到对应的二进制值1、0。存在用1表示,不存在用0表示。
步骤1.4、进行降维,统计各个症状词、中药词出现的频次,将频次不足样本量十分之一的词删除。
步骤2、采用熵聚类算法挖掘方药配伍,输入是经过数据预处理后得到的所有中药向量,输出是方药配伍组合,熵聚类算法的流程图如图3所示。具体步骤是:
步骤2.1、输入N个中药向量,计算中药向量两两之间的关联度系数。
步骤2.2、规定与给定中药向量关联度系数大小排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量。为每个中药向量按照此规定寻找亲密变量。
步骤2.3、将两个互为亲密变量的中药向量组成二元组方药配伍。接着搜索下一个可能聚类的中药向量,如果该中药向量能够与二元组方药配伍中的任意一个中药互为亲密变量,则这三个中药向量聚为一类,形成三元组方药配伍。以此类推,直到饱和,即不能再往里添加任何一个中药向量才结束迭代过程。
图中加黑框图是本发明的改进之处。本发明动态地选择中药的亲密变量个数,只考虑与目标中药的关联度系数非负的中药。因为关联度系数为负值表示中药变量之间共现频次为0,即在实际处方中并未同时出现过,不应该组成方药配伍。所以,改进后方法可以过滤掉临床上实际并未同时使用的中药药对,使挖掘结果更准确且更具实际意义。
算法中关联度系数的公式如下:
其中H(Xi)表示中药向量Xi的自信息熵,p(i,j)表示两种中药在同一剂处方中同时出现的频率。两味中药共现频率大于0时,按照上面的公式计算关联度系数,结果是一个大于0的数;反之,中药之间共现频率等于0时,按照下面的公式计算关联度系数,结果是一个小于0的数。
步骤3、依据中医学上用一组方药配伍共同发挥功效治疗症状的中医常识为支撑,在得到方药配伍结果的基础上,探索方药配伍与症状的对应关系,如果某组方药配伍与某个症状具有映射关系,则所有组成方药配伍的中药与此症状具有映射关系。操作流程如图4所示。具体步骤为:
步骤3.1、依据共现信息寻找可能与方药配伍存在映射关系的所有候选症状对象,如图5所示,只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系。
步骤3.2、为了在暂定症状中筛选与方药配伍真正存在映射关系的症状,设计了基于关联强度规则过滤症状的方法。首先对于每一个症状向量,根据公式(1)计算其与各个中药向量的关联度系数,并降序排列。这样各个中药向量有一个关于该症状向量的关联强度排名r1 hs。同样地,对于每一个中药向量,计算其与各个症状向量的关联度系数,各个症状向量也有一个关于该中药向量的关联强度排名r1 sh。任意一组症状向量与中药向量的关联程度可由r1 hs+r1 sh的大小决定。根据r1 hs+r1 sh重新调整基于关联度系数各症状向量与中药向量的关联强度排序rank1。然后,同理,通过统计中药与症状的共现频次,可以获得基于共现频次各症状向量与中药向量的关联强度排序rank2。那么,基于关联强度规则过滤候选症状的思路为:如果方药配伍中的所有中药Hi均满足与某个候选症状的关联强度排序rank1或rank2不大于K,即候选症状满足式子(2):
{((rank1 of Hi)≤K)OR((rank2 of Hi)≤K),Hi∈方药配伍} (2)则保留该症状,否则剔除,K取值为处方平均中药味数的二分之一。经过过滤步骤,最终获得符合临床认识的症状与中药的映射关系。
与现有技术相比,本发明具有以下明显优势:
1、本发明是医学与计算机科学跨学科结合的产物,从中医学理论指导出发,抓住中医医师开药的“方药配伍”精髓,在缜密的理论背景下设计了挖掘中药与症状映射关系的数据挖掘算法。
2、本发明挖掘方药配伍采用的改进熵聚类算法,动态选择中药向量的亲密变量个数,只考虑与目标中药的关联度系数非负的中药。改进后方法可以过滤掉临床上实际并未同时使用的中药药对,使挖掘结果更准确且更具实际意义。
3、本发明设计的关联强度规则体现了严格的逻辑运算,挖掘得到的中药-症状映射关系更准确,更符合临床认知,有效避免了对资历不深的临床医生的误导。
附图说明
图1为方症关系挖掘设计框图;
图2为数据预处理过程图;
图3为熵聚类方法挖掘方药配伍改进流程图;
图4为方症关系挖掘过程图;
图5为方药配伍的候选症状图;
图6为数据变换过程示例图;
图7为提取症状词和中药词的示例图;
具体实施方式
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
一种中药和症状关系的计算机数据挖掘方法的实施过程如图1所示。主要包括三大部分。第一部分是数据预处理模块,改模块实现了由病例文本数据到结构化向量数据的转换,得到可用于数据挖掘的实验数据集。第二部分以中药向量作为输入,采用熵聚类算法得到方药配伍结果。第三部分是中药-症状映射关系挖掘模块,设计了基于关联强度规则过滤症状的方法,以方药配伍、中药向量、症状向量为输入,经过多步操作得到了中药-症状的映射关系。本发明具体实施步骤叙述如下:
步骤1、搜集北京医院诊疗老年病的医案数据作为研究对象进行示范性说明。原始医案数据是文本格式,总共包含1295份病例。非结构化的文本病例转化成结构化的实验数据的示例过程如图2所示。各个步骤的详细操作示例如下:
步骤1.1、将文本解析成字符串,并进行字符串匹配、字符串分割操作,从中提取出症状词、中药词,如图7所示。
步骤1.2、对不规范的症状词、中药词进行数据清洗。针对一义多词、多词一义、复合表述的情况,基于设计聚合、拆分规则,纠正错误用语,保证症状词、中药词的唯一性和准确性。
步骤1.3、进行数据变换,根据症状词、中药词在就诊记录中存在与否,映射到对应的二进制值1、0。存在用1表示,不存在用0表示,如图6所示。每个症状词、中药词被转换为1295维度的向量。
步骤1.4、进行降维,统计各个症状词、中药词出现的频次,将频次不足样本量十分之一的词删除。最终获得64个症状向量,156个中药向量,每个向量的维度是1295。
步骤2、采用熵聚类算法,挖掘常用方药配伍,熵聚类算法的流程图如图3所示。具体步骤是:
步骤2.1、输入156个中药向量,根据公式(1)计算中药向量两两之间的关联度系数。关联度系数值为正表示两个中药向量是正相关的,有组成方药配伍的可能。反之,则为负相关,两个中药向量不曾出现在一剂处方中,不适合组成方药配伍。
步骤2.2、对于每一个中药向量,将所有其他中药向量按照与给定中药向量关联度系数的大小进行降序排列,规定排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量。为每个中药向量按照此规定寻找亲密变量。M的实际意义表示可组成方药配伍的中药个数,由于一剂处方至少与两个以上的症状相对应,M的取处方平均中药味数的二分之一较为合适,即M=7。
步骤2.3、如果某两个中药向量互为亲密变量,则将这两个中药组成二元组方药配伍。接着搜索下一个可能聚类的中药向量,即如果该中药向量能够与二元组方药配伍中的任意一个中药向量都互为亲密变量,则这三个中药聚为一类,形成三元组方药配伍。以此类推,直到饱和,即不能再往里添加任何一个中药向量才结束迭代过程。经过方药配伍生成过程,可得到二元组、三元组、四元组、五元组方药配伍。
步骤3、依据中医学开药的“君臣佐使”指导原则,得到了方药配伍组合,在此基础上,挖掘方药配伍与症状的对应关系,并由此得到单个中药与症状的映射关系,操作流程如图4所示。具体步骤为:
步骤3.1、遍历各组方药配伍,对于每个方药配伍组合,遍历每一个病历,只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系。
步骤3.2、由于老年病症状复杂多样的特点,得到的与方药配伍具有暂定映射关系的症状个数非常多。事实上,这些症状中很多都是与方药配伍没有直接关系的,需要审核每一个症状,计算该症状和方药配伍中所有中药的基于关联度系数的关联强度排序rank1和基于共现频次的关联强度排序rank2,只有当该症状满足式子(2)的情况下才通过审核,否则剔除。该症状与方药配伍中某个中药的rank1的计算方式是:根据公式(1)计算该症状与所有中药的关联度系数,并降序排列,查找当前中药的关联强度排名r1 hs。同样地,计算当前中药与所有症状向量的关联度系数,并降序排列,查找当前症状向量的关联强度排名r1 sh。那么当前症状与当前中药的关联程度可由r1 hs+r1 sh的大小决定,根据r1 hs+r1 sh重新调整当前中药向量的基于关联度系数的关联强度排序rank1。然后,同理,通过统计该症状与所有中药的共现频次,并降序排列,查找当前中药的关联强度排名r2 hs。同样地,计算当前中药与所有症状向量的共现频次,并降序排列,查找当前症状向量的关联强度排名r2 sh。那么当前症状与当前中药的关联程度可由r2 hs+r2 sh的大小决定,根据r2 hs+r2 sh重新调整当前中药向量的基于共现频次的关联强度排序rank2。那么,如果方药配伍中的所有中药与该症状的rank1或者rank2不大于7则保留该症状,得出方药配伍与该症状具有映射关系的结论,且方药配伍中的所有中药与该症状具有映射关系。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明为详细公开的部分属于本领域的公知技术,即本发明并不局限与上述特定实施方式,其中未尽详细描述的设备和结构应该理解为应用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,根据本发明的技术实质对以上实施例进行的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (4)
1.一种中药和症状关系的数据挖掘方法,其特征在于,该方法包括如下步骤,
步骤1、对中医诊疗老年病数据集进行相关预处理,输入数据为文本形式的医案数据,输出数据为向量形式:
步骤2、采用熵聚类算法挖掘方药配伍,输入是经过数据预处理后得到的所有中药向量,输出是方药配伍组合;具体步骤如下:
步骤3、依据中医学上用一组方药配伍共同发挥功效治疗症状的中医常识为支撑,在得到方药配伍结果的基础上,探索方药配伍与症状的对应关系,如果某组方药配伍与某个症状具有映射关系,则所有组成方药配伍的中药与此症状具有映射关系。
2.根据权利要求1所述的一种中药和症状关系的数据挖掘方法,其特征在于,步骤1的实施过程如下:
步骤1.1、将文本解析成字符串,并进行字符串匹配、字符串分割操作,从中提取出症状词、中药词;
步骤1.2、对不规范的症状词、中药词进行数据清洗;针对一义多词、多词一义、复合表述的情况,基于设计聚合、拆分规则,纠正错误用语,保证症状词、中药词的唯一性和准确性;
步骤1.3、进行数据变换,根据症状词、中药词在就诊记录中存在与否,映射到对应的二进制值1、0;存在用1表示,不存在用0表示;
步骤1.4、进行降维,统计各个症状词、中药词出现的频次,将频次不足样本量十分之一的词删除。
3.根据权利要求1所述的一种中药和症状关系的数据挖掘方法,其特征在于,步骤2的实施过程如下:
步骤2.1、输入N个中药向量,计算中药向量两两之间的关联度系数;
步骤2.2、规定与给定中药向量关联度系数大小排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量;为每个中药向量按照此规定寻找亲密变量;
步骤2.3、将两个互为亲密变量的中药向量组成二元组方药配伍;接着搜索下一个可能聚类的中药向量,如果该中药向量能够与二元组方药配伍中的任意一个中药互为亲密变量,则这三个中药向量聚为一类,形成三元组方药配伍;以此类推,直到饱和,即不能再往里添加任何一个中药向量才结束迭代过程;
动态地选择中药的亲密变量个数,只考虑与目标中药的关联度系数非负的中药,改进后方法过滤掉临床上实际并未同时使用的中药药对;
算法中关联度系数的公式如下:
其中H(Xi)表示中药向量Xi的自信息熵,p(i,j)表示两种中药在同一剂处方中同时出现的频率;两味中药共现频率大于0时,计算关联度系数,结果是一个大于0的数;反之,中药之间共现频率等于0时,计算关联度系数,结果是一个小于0的数。
4.根据权利要求3所述的一种中药和症状关系的数据挖掘方法,其特征在于,步骤3的实施过程如下:
步骤3.1、依据共现信息寻找可能与方药配伍存在映射关系的所有候选症状对象,只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系;
步骤3.2、为了在暂定症状中筛选与方药配伍真正存在映射关系的症状,设计了基于关联强度规则过滤症状的方法;首先对于每一个症状向量,根据关联度系数的公式计算其与各个中药向量的关联度系数,并降序排列;这样各个中药向量有一个关于该症状向量的关联强度排名r1 hs;对于每一个中药向量,计算其与各个症状向量的关联度系数,各个症状向量也有一个关于该中药向量的关联强度排名r1 sh;任意一组症状向量与中药向量的关联程度可由r1 hs+r1 sh的大小决定;根据r1 hs+r1 sh重新调整基于关联度系数各症状向量与中药向量的关联强度排序rank1;然后,通过统计中药与症状的共现频次,获得基于共现频次各症状向量与中药向量的关联强度排序rank2;那么,基于关联强度规则过滤候选症状的思路为:如果方药配伍中的所有中药Hi均满足与某个候选症状的关联强度排序rank1或rank2不大于K,即候选症状满足式子(2):
{((rank1of Hi)≤K)OR((rank2of Hi)≤K),Hi∈方药配伍} (2)
则保留该症状,否则剔除,K取值为处方平均中药味数的二分之一;经过过滤步骤,最终获得符合临床认识的症状与中药的映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010708196.5A CN111951971B (zh) | 2020-07-21 | 2020-07-21 | 一种中药和症状关系的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010708196.5A CN111951971B (zh) | 2020-07-21 | 2020-07-21 | 一种中药和症状关系的数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111951971A true CN111951971A (zh) | 2020-11-17 |
CN111951971B CN111951971B (zh) | 2024-04-19 |
Family
ID=73340754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010708196.5A Active CN111951971B (zh) | 2020-07-21 | 2020-07-21 | 一种中药和症状关系的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951971B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233804A (zh) * | 2020-09-25 | 2021-01-15 | 上海中医药大学 | 一种经方智能推荐方法及应用该方法的设备 |
CN112863694A (zh) * | 2021-02-08 | 2021-05-28 | 浙江中医药大学 | 一种信息推荐方法和装置 |
CN116631612A (zh) * | 2023-06-09 | 2023-08-22 | 广东工业大学 | 一种基于多图融合的图卷积草药推荐方法及计算机 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130070220A (ko) * | 2011-12-19 | 2013-06-27 | 이화여자대학교 산학협력단 | 데이터 마이닝 결과 연관규칙에 대한 상식 기반 후 처리방법 |
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能系统 |
CN107220484A (zh) * | 2017-05-10 | 2017-09-29 | 山东中医药大学 | 一种中医方药数据分析挖掘系统 |
-
2020
- 2020-07-21 CN CN202010708196.5A patent/CN111951971B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130070220A (ko) * | 2011-12-19 | 2013-06-27 | 이화여자대학교 산학협력단 | 데이터 마이닝 결과 연관규칙에 대한 상식 기반 후 처리방법 |
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能系统 |
CN107220484A (zh) * | 2017-05-10 | 2017-09-29 | 山东中医药大学 | 一种中医方药数据分析挖掘系统 |
Non-Patent Citations (4)
Title |
---|
唐仕欢 等: "基于复杂系统熵聚类方法的中药新药处方发现研究思路", 世界科学技术(中医药现代化), vol. 11, no. 2, pages 22 - 228 * |
唐仕欢 等: "证-熵-方——中医药研究的新领域", 中国中医基础医学杂志, vol. 16, no. 4, pages 267 - 270 * |
孟红梅: "基于数据挖掘的中医方剂分析技术研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 01, pages 138 - 197 * |
黄璐琦 等: "基于复杂系统熵方法的疫病防治用药规律研究", 经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第三卷), pages 1456 - 1463 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233804A (zh) * | 2020-09-25 | 2021-01-15 | 上海中医药大学 | 一种经方智能推荐方法及应用该方法的设备 |
CN112233804B (zh) * | 2020-09-25 | 2023-10-20 | 上海中医药大学 | 一种经方智能推荐方法及应用该方法的设备 |
CN112863694A (zh) * | 2021-02-08 | 2021-05-28 | 浙江中医药大学 | 一种信息推荐方法和装置 |
CN116631612A (zh) * | 2023-06-09 | 2023-08-22 | 广东工业大学 | 一种基于多图融合的图卷积草药推荐方法及计算机 |
CN116631612B (zh) * | 2023-06-09 | 2024-03-19 | 广东工业大学 | 一种基于多图融合的图卷积草药推荐方法及计算机 |
Also Published As
Publication number | Publication date |
---|---|
CN111951971B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951971A (zh) | 一种中药和症状关系的数据挖掘方法 | |
WO2021032220A2 (zh) | 一种基于证素的中医辅助诊断系统 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
Masarie Jr et al. | An interlingua for electronic interchange of medical information: using frames to map between clinical vocabularies | |
CN110929511A (zh) | 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 | |
CN111477295B (zh) | 一种基于隐语义模型的中医组方推荐方法及系统 | |
Guo et al. | Artificial intelligence meets Chinese medicine | |
CN103761437A (zh) | 一种基于临床数据的科研数据自动生成系统 | |
CN112466462B (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
CN106407650B (zh) | 一种中医数据处理装置和方法 | |
Zhang et al. | Information extraction from the text data on traditional Chinese medicine: a review on tasks, challenges, and methods from 2010 to 2021 | |
CN111599487B (zh) | 一种基于关联分析的中药配伍辅助决策方法 | |
CN112307216A (zh) | 药品知识图谱的构建方法和装置 | |
CN116910172A (zh) | 基于人工智能的随访量表生成方法及系统 | |
Ahmed et al. | Diagnosis recommendation using machine learning scientific workflows | |
Chen et al. | Extracting drug–drug interactions from no-blinding texts using key semantic sentences and GHM loss | |
CN118335292A (zh) | 一种中医专病专方交互辅助系统 | |
Li et al. | Text similarity measurement method and application of online medical community based on density peak clustering | |
Nguyen et al. | Mimic-iv-icd: A new benchmark for extreme multilabel classification | |
CN117727427A (zh) | 基于症状、主题模型与分类分析的中医方剂分析系统 | |
CN115171880A (zh) | 一种融合症状权重的疾病推荐系统 | |
CN110299206A (zh) | 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法 | |
CN113111048A (zh) | 一种基于大数据技术的临床科研专病库构建方法 | |
Alimova et al. | Entity-level Classification of Adverse Drug Reactions: a Comparison of Neural Network Models. | |
Zhou et al. | Convergent application of traditional Chinese medicine and gut microbiota in ameliorate of cirrhosis: a data mining and Mendelian randomization study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |