CN111951971A

CN111951971A - 一种中药和症状关系的数据挖掘方法

Info

Publication number: CN111951971A
Application number: CN202010708196.5A
Authority: CN
Inventors: 石东新; 李朝晖; 杨爽; 张远; 邱婉; 蔡德俊; 程博雅
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-11-17
Anticipated expiration: 2040-07-21
Also published as: CN111951971B

Abstract

本发明公开了一种中药和症状关系的数据挖掘方法，为挖掘中药对象与症状对象的准确对应关系，本发明先采用熵聚类算法从中药处方数据中挖掘常用方药配伍，然后以方药配伍为整体，依据共现信息寻找可能与方药配伍存在映射关系的候选症状对象。接着，为了从大量不确定的方药配伍与症状对象的映射关系中过滤不准确的结果，采用关联度系数分析法和共现频次分析法确定中药与症状的关联强度，筛除关联强度弱的候选症状对象。本发明挖掘方药配伍采用的改进熵聚类算法，动态选择中药向量的亲密变量个数，只考虑与目标中药的关联度系数非负的中药；改进后方法可以过滤掉临床上实际并未同时使用的中药药对，使挖掘结果更准确且更具实际意义。

Description

一种中药和症状关系的数据挖掘方法

技术领域

本发明涉及一种将中药和诊断症状进行匹配的方法，尤其涉及中药和症状关系的数据挖掘方法，属于数据挖掘技术领域。

背景技术

临床医案是名老中医临床实践经验及学术思想的载体，伴随大数据时代的到来，数据挖掘技术被广泛地应用于临床知识发现，有关方症关系挖掘的研究则较为稀少。

目前，具有中医学背景的医学研究者和拥有计算机专业背景的跨领域合作者在各自的知识背景下进行科研创作,为弘扬中医药助力。前者以分析名老中医治疗某疾病的遣方用药规律为研究重点，通常采用关联规则[1]、复杂网络[2]和聚类方法[3，4]挖掘处方中的核心药对和方药配伍。从中医药理知识出发，根据中药功效的基础理论，归纳总结治疗该疾病的用药思想。李[5]等人基于熵聚类算法挖掘出10组治疗血脂异常的常用药物组合，药物组合的特征反映出血脂异常用药的基本原则是益气健脾、燥湿化痰、活血化瘀。

后者以期运用数据挖掘的手段发现中药—症状之间的映射规律。Poon等人[6]将用于基因表达研究的双聚类算法运用在失眠症状-药物关系挖掘中，得到了症状子集与中药子集的关系。Li等人[7]通过χ²检验检测患者之间重叠部分症状与中药的相关性，该模型通过过滤掉无效的正相关关联，获得了有意义的症状-中药关系。Wang[8]等人提出用主题模型SHT对病例文本建模，以中医常识作为指导，认为症状与其对应的中药属于同一个“证候”主题，在挖掘症状与中药的相关关系上取得了较好的效果。上述方法在探索药物与症状的关系问题时，均没有考虑方药配伍原则。中医方药都是由两味及以上的中药组方来治疗临床症状或者疾病，中药“君臣佐使”的配伍原则在提高疗效的同时还能减少毒副作用。不考虑方药配伍原则的方药症状挖掘关系，其实际参考价值将大打折扣。

目前各大医院的电子病例系统还不完善，临床上积累了大量的非结构化病例数据。想要从这些原始病例数据中发现有价值的知识，首先要进行数据预处理，数据质量直接影响了数据挖掘结果的准确性。本文的研究数据来源于北京某医院某著名中医大夫的老年病医案数据。由于身体机能衰退，一个老年病患者往往同时患几种疾病，症状呈现多样化，中医医师在遣方时自然也兼顾多种疾病，综合治疗，这就导致了病例数据呈现出中药与症状之间复杂又不明确的关系，增加了数据挖掘难度。原始医案数据是文本格式，来源于临床实践的真实记录，内容仅在结构及要素上明确，包括患者症状、舌脉象体征以及医师所开处方。而对于症状术语、药物名称等内容却呈现一义多词、多词一义、冗余、复合表述的特点，这就为数据的预处理增加了难度，必须进行医案数据清洗和结构化，以适应数据挖掘算法的要求。结合本文的数据特点。

发明内容

本发明的目的是利用数据挖掘技术，提出一种查找存在于中药对象和症状对象之间的映射关系的方法，在临床应用上有利于医生为患者提供精准的治疗方案。

为实现上述目的，本发明采取的技术方案是：首先收集中医诊疗老年病的真实医案数据，分析数据特点并进行数据预处理，得到结构化数据。然后设计了基于方药配伍原则和关联强度规则的方法来挖掘中药对象和症状对象的映射关系。最终将结构化的实验数据集作为输入，得到了符合临床认知的中药-症状映射关系。

本发明主要面对的问题有如下几点：

1.中医医案是半结构化文本数据，且用语十分不规范，词义笼统模糊，低质量数据严重影响数据挖掘的效果，必须进行合适的预处理。

2.中医开方配药遵循“君臣佐使”的配伍原则，多味中药组合使用共同发挥疗效，挖掘中药-症状关系，不能忽略中药对象之间的联系。

3.老年病由于没有明显的症状与体征，临床表现初期不易察觉，症状出现后又呈多样化，中医诊疗老年病往往兼顾多症综合治疗，医案数据呈现症状对象与中药对象复杂又不明确的关系，要发现其一一对应关系，十分困难。

针对上述问题，本发明设计了数据预处理方案，解决了用语不规范影响数据挖掘质量的问题。中医学中，“君臣佐使”的方药配伍原则是中医医师开药的精髓，合适的中药组合不但能提高疗效还能减少毒副作用。结合方药配伍原则才能更准确地挖掘中药对象与症状对象的映射关系。为挖掘中药对象与症状对象的准确对应关系，本发明先采用熵聚类算法从中药处方数据中挖掘常用方药配伍，然后以方药配伍为整体，依据共现信息寻找可能与方药配伍存在映射关系的候选症状对象。接着，为了从大量不确定的方药配伍与症状对象的映射关系中过滤不准确的结果，采用关联度系数分析法和共现频次分析法确定中药与症状的关联强度，筛除关联强度弱的候选症状对象。

且本发明对熵聚类算法进行了改进，本发明动态地选择中药的亲密变量个数，只考虑与目标中药的关联度系数非负的中药。因为关联度系数为负值表示中药之间共现频次为0，即在实际处方中并未同时出现过，不应该组成方药配伍。所以，改进后方法可以过滤掉临床上实际并未同时使用的中药药对，使挖掘结果更准确且更具实际意义。

综上所述，依托于中医诊疗老年病真实医案数据的一种中药和症状关系的计算机数据挖掘方法步骤叙述如下：

步骤1、对中医诊疗老年病数据集进行相关预处理，输入数据为文本形式的医案数据，输出数据为向量形式，输入到输出的转换过程如图6所示，整个处理流程如图2所示；具体包括以下步骤：

步骤1.1、将文本解析成字符串，并进行字符串匹配、字符串分割操作，从中提取出症状词、中药词。

步骤1.2、对不规范的症状词、中药词进行数据清洗。针对一义多词、多词一义、复合表述的情况，基于设计聚合、拆分规则，纠正错误用语，保证症状词、中药词的唯一性和准确性。

步骤1.3、进行数据变换，根据症状词、中药词在就诊记录中存在与否，映射到对应的二进制值1、0。存在用1表示，不存在用0表示。

步骤1.4、进行降维，统计各个症状词、中药词出现的频次，将频次不足样本量十分之一的词删除。

步骤2、采用熵聚类算法挖掘方药配伍，输入是经过数据预处理后得到的所有中药向量，输出是方药配伍组合，熵聚类算法的流程图如图3所示。具体步骤是：

步骤2.1、输入N个中药向量，计算中药向量两两之间的关联度系数。

步骤2.2、规定与给定中药向量关联度系数大小排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量。为每个中药向量按照此规定寻找亲密变量。

步骤2.3、将两个互为亲密变量的中药向量组成二元组方药配伍。接着搜索下一个可能聚类的中药向量，如果该中药向量能够与二元组方药配伍中的任意一个中药互为亲密变量，则这三个中药向量聚为一类，形成三元组方药配伍。以此类推，直到饱和，即不能再往里添加任何一个中药向量才结束迭代过程。

图中加黑框图是本发明的改进之处。本发明动态地选择中药的亲密变量个数，只考虑与目标中药的关联度系数非负的中药。因为关联度系数为负值表示中药变量之间共现频次为0，即在实际处方中并未同时出现过，不应该组成方药配伍。所以，改进后方法可以过滤掉临床上实际并未同时使用的中药药对，使挖掘结果更准确且更具实际意义。

算法中关联度系数的公式如下：

其中H(Xi)表示中药向量Xi的自信息熵，p(i,j)表示两种中药在同一剂处方中同时出现的频率。两味中药共现频率大于0时，按照上面的公式计算关联度系数，结果是一个大于0的数；反之，中药之间共现频率等于0时，按照下面的公式计算关联度系数，结果是一个小于0的数。

步骤3、依据中医学上用一组方药配伍共同发挥功效治疗症状的中医常识为支撑，在得到方药配伍结果的基础上，探索方药配伍与症状的对应关系，如果某组方药配伍与某个症状具有映射关系，则所有组成方药配伍的中药与此症状具有映射关系。操作流程如图4所示。具体步骤为：

步骤3.1、依据共现信息寻找可能与方药配伍存在映射关系的所有候选症状对象，如图5所示，只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系。

步骤3.2、为了在暂定症状中筛选与方药配伍真正存在映射关系的症状，设计了基于关联强度规则过滤症状的方法。首先对于每一个症状向量，根据公式(1)计算其与各个中药向量的关联度系数，并降序排列。这样各个中药向量有一个关于该症状向量的关联强度排名r₁ ^hs。同样地，对于每一个中药向量，计算其与各个症状向量的关联度系数，各个症状向量也有一个关于该中药向量的关联强度排名r₁ ^sh。任意一组症状向量与中药向量的关联程度可由r₁ ^hs+r₁ ^sh的大小决定。根据r₁ ^hs+r₁ ^sh重新调整基于关联度系数各症状向量与中药向量的关联强度排序rank₁。然后，同理，通过统计中药与症状的共现频次，可以获得基于共现频次各症状向量与中药向量的关联强度排序rank₂。那么，基于关联强度规则过滤候选症状的思路为：如果方药配伍中的所有中药Hi均满足与某个候选症状的关联强度排序rank₁或rank₂不大于K，即候选症状满足式子(2)：

{((rank₁ of H_i)≤K)OR((rank₂ of H_i)≤K),H_i∈方药配伍} (2)则保留该症状，否则剔除，K取值为处方平均中药味数的二分之一。经过过滤步骤，最终获得符合临床认识的症状与中药的映射关系。

与现有技术相比，本发明具有以下明显优势：

1、本发明是医学与计算机科学跨学科结合的产物，从中医学理论指导出发，抓住中医医师开药的“方药配伍”精髓，在缜密的理论背景下设计了挖掘中药与症状映射关系的数据挖掘算法。

2、本发明挖掘方药配伍采用的改进熵聚类算法，动态选择中药向量的亲密变量个数，只考虑与目标中药的关联度系数非负的中药。改进后方法可以过滤掉临床上实际并未同时使用的中药药对，使挖掘结果更准确且更具实际意义。

3、本发明设计的关联强度规则体现了严格的逻辑运算，挖掘得到的中药-症状映射关系更准确，更符合临床认知，有效避免了对资历不深的临床医生的误导。

附图说明

图1为方症关系挖掘设计框图；

图2为数据预处理过程图；

图3为熵聚类方法挖掘方药配伍改进流程图；

图4为方症关系挖掘过程图；

图5为方药配伍的候选症状图；

图6为数据变换过程示例图；

图7为提取症状词和中药词的示例图；

具体实施方式

以下结合具体实施例，并参照附图，对本发明进一步详细说明。

一种中药和症状关系的计算机数据挖掘方法的实施过程如图1所示。主要包括三大部分。第一部分是数据预处理模块，改模块实现了由病例文本数据到结构化向量数据的转换，得到可用于数据挖掘的实验数据集。第二部分以中药向量作为输入，采用熵聚类算法得到方药配伍结果。第三部分是中药-症状映射关系挖掘模块，设计了基于关联强度规则过滤症状的方法，以方药配伍、中药向量、症状向量为输入，经过多步操作得到了中药-症状的映射关系。本发明具体实施步骤叙述如下：

步骤1、搜集北京医院诊疗老年病的医案数据作为研究对象进行示范性说明。原始医案数据是文本格式，总共包含1295份病例。非结构化的文本病例转化成结构化的实验数据的示例过程如图2所示。各个步骤的详细操作示例如下：

步骤1.1、将文本解析成字符串，并进行字符串匹配、字符串分割操作，从中提取出症状词、中药词，如图7所示。

步骤1.3、进行数据变换，根据症状词、中药词在就诊记录中存在与否，映射到对应的二进制值1、0。存在用1表示，不存在用0表示，如图6所示。每个症状词、中药词被转换为1295维度的向量。

步骤1.4、进行降维，统计各个症状词、中药词出现的频次，将频次不足样本量十分之一的词删除。最终获得64个症状向量，156个中药向量，每个向量的维度是1295。

步骤2、采用熵聚类算法，挖掘常用方药配伍，熵聚类算法的流程图如图3所示。具体步骤是：

步骤2.1、输入156个中药向量，根据公式(1)计算中药向量两两之间的关联度系数。关联度系数值为正表示两个中药向量是正相关的，有组成方药配伍的可能。反之，则为负相关，两个中药向量不曾出现在一剂处方中，不适合组成方药配伍。

步骤2.2、对于每一个中药向量，将所有其他中药向量按照与给定中药向量关联度系数的大小进行降序排列，规定排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量。为每个中药向量按照此规定寻找亲密变量。M的实际意义表示可组成方药配伍的中药个数，由于一剂处方至少与两个以上的症状相对应，M的取处方平均中药味数的二分之一较为合适，即M＝7。

步骤2.3、如果某两个中药向量互为亲密变量，则将这两个中药组成二元组方药配伍。接着搜索下一个可能聚类的中药向量，即如果该中药向量能够与二元组方药配伍中的任意一个中药向量都互为亲密变量，则这三个中药聚为一类，形成三元组方药配伍。以此类推，直到饱和，即不能再往里添加任何一个中药向量才结束迭代过程。经过方药配伍生成过程，可得到二元组、三元组、四元组、五元组方药配伍。

步骤3、依据中医学开药的“君臣佐使”指导原则，得到了方药配伍组合，在此基础上，挖掘方药配伍与症状的对应关系，并由此得到单个中药与症状的映射关系，操作流程如图4所示。具体步骤为：

步骤3.1、遍历各组方药配伍，对于每个方药配伍组合，遍历每一个病历，只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系。

步骤3.2、由于老年病症状复杂多样的特点，得到的与方药配伍具有暂定映射关系的症状个数非常多。事实上，这些症状中很多都是与方药配伍没有直接关系的，需要审核每一个症状，计算该症状和方药配伍中所有中药的基于关联度系数的关联强度排序rank₁和基于共现频次的关联强度排序rank₂，只有当该症状满足式子(2)的情况下才通过审核，否则剔除。该症状与方药配伍中某个中药的rank₁的计算方式是：根据公式(1)计算该症状与所有中药的关联度系数，并降序排列，查找当前中药的关联强度排名r₁ ^hs。同样地，计算当前中药与所有症状向量的关联度系数，并降序排列，查找当前症状向量的关联强度排名r₁ ^sh。那么当前症状与当前中药的关联程度可由r₁ ^hs+r₁ ^sh的大小决定，根据r₁ ^hs+r₁ ^sh重新调整当前中药向量的基于关联度系数的关联强度排序rank₁。然后，同理，通过统计该症状与所有中药的共现频次，并降序排列，查找当前中药的关联强度排名r₂ ^hs。同样地，计算当前中药与所有症状向量的共现频次，并降序排列，查找当前症状向量的关联强度排名r₂ ^sh。那么当前症状与当前中药的关联程度可由r₂ ^hs+r₂ ^sh的大小决定，根据r₂ ^hs+r₂ ^sh重新调整当前中药向量的基于共现频次的关联强度排序rank₂。那么，如果方药配伍中的所有中药与该症状的rank₁或者rank₂不大于7则保留该症状，得出方药配伍与该症状具有映射关系的结论，且方药配伍中的所有中药与该症状具有映射关系。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明为详细公开的部分属于本领域的公知技术，即本发明并不局限与上述特定实施方式，其中未尽详细描述的设备和结构应该理解为应用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，根据本发明的技术实质对以上实施例进行的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种中药和症状关系的数据挖掘方法，其特征在于，该方法包括如下步骤，

步骤1、对中医诊疗老年病数据集进行相关预处理，输入数据为文本形式的医案数据，输出数据为向量形式：

步骤2、采用熵聚类算法挖掘方药配伍，输入是经过数据预处理后得到的所有中药向量，输出是方药配伍组合；具体步骤如下：

步骤3、依据中医学上用一组方药配伍共同发挥功效治疗症状的中医常识为支撑，在得到方药配伍结果的基础上，探索方药配伍与症状的对应关系，如果某组方药配伍与某个症状具有映射关系，则所有组成方药配伍的中药与此症状具有映射关系。

2.根据权利要求1所述的一种中药和症状关系的数据挖掘方法，其特征在于，步骤1的实施过程如下：

步骤1.1、将文本解析成字符串，并进行字符串匹配、字符串分割操作，从中提取出症状词、中药词；

步骤1.2、对不规范的症状词、中药词进行数据清洗；针对一义多词、多词一义、复合表述的情况，基于设计聚合、拆分规则，纠正错误用语，保证症状词、中药词的唯一性和准确性；

步骤1.3、进行数据变换，根据症状词、中药词在就诊记录中存在与否，映射到对应的二进制值1、0；存在用1表示，不存在用0表示；

3.根据权利要求1所述的一种中药和症状关系的数据挖掘方法，其特征在于，步骤2的实施过程如下：

步骤2.1、输入N个中药向量，计算中药向量两两之间的关联度系数；

步骤2.2、规定与给定中药向量关联度系数大小排名位列前M位且关联度系数大于0的中药向量为该中药向量的亲密变量；为每个中药向量按照此规定寻找亲密变量；

步骤2.3、将两个互为亲密变量的中药向量组成二元组方药配伍；接着搜索下一个可能聚类的中药向量，如果该中药向量能够与二元组方药配伍中的任意一个中药互为亲密变量，则这三个中药向量聚为一类，形成三元组方药配伍；以此类推，直到饱和，即不能再往里添加任何一个中药向量才结束迭代过程；

动态地选择中药的亲密变量个数，只考虑与目标中药的关联度系数非负的中药，改进后方法过滤掉临床上实际并未同时使用的中药药对；

算法中关联度系数的公式如下：

其中H(Xi)表示中药向量Xi的自信息熵，p(i,j)表示两种中药在同一剂处方中同时出现的频率；两味中药共现频率大于0时，计算关联度系数，结果是一个大于0的数；反之，中药之间共现频率等于0时，计算关联度系数，结果是一个小于0的数。

4.根据权利要求3所述的一种中药和症状关系的数据挖掘方法，其特征在于，步骤3的实施过程如下：

步骤3.1、依据共现信息寻找可能与方药配伍存在映射关系的所有候选症状对象，只要在某个病历记录中与方药配伍同时存在的症状都暂定为与其具有映射关系；

步骤3.2、为了在暂定症状中筛选与方药配伍真正存在映射关系的症状，设计了基于关联强度规则过滤症状的方法；首先对于每一个症状向量，根据关联度系数的公式计算其与各个中药向量的关联度系数，并降序排列；这样各个中药向量有一个关于该症状向量的关联强度排名r₁ ^hs；对于每一个中药向量，计算其与各个症状向量的关联度系数，各个症状向量也有一个关于该中药向量的关联强度排名r₁ ^sh；任意一组症状向量与中药向量的关联程度可由r₁ ^hs+r₁ ^sh的大小决定；根据r₁ ^hs+r₁ ^sh重新调整基于关联度系数各症状向量与中药向量的关联强度排序rank₁；然后，通过统计中药与症状的共现频次，获得基于共现频次各症状向量与中药向量的关联强度排序rank₂；那么，基于关联强度规则过滤候选症状的思路为：如果方药配伍中的所有中药Hi均满足与某个候选症状的关联强度排序rank₁或rank₂不大于K，即候选症状满足式子(2)：

{((rank₁of H_i)≤K)OR((rank₂of H_i)≤K),H_i∈方药配伍} (2)

则保留该症状，否则剔除，K取值为处方平均中药味数的二分之一；经过过滤步骤，最终获得符合临床认识的症状与中药的映射关系。