CN117807534A

CN117807534A - 一种中医证候归属分类方法及其数据库系统

Info

Publication number: CN117807534A
Application number: CN202410003204.4A
Authority: CN
Inventors: 陈永君; 姚琳; 王泰一; 范梦月
Original assignee: Shandong University of Traditional Chinese Medicine
Current assignee: Shandong University of Traditional Chinese Medicine
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-04-02

Abstract

本发明公开了一种中医证候归属分类方法及其数据库系统。该分类方法采用无监督的K‑Means计算模型，收集和筛选某种疾病的症状/体征数据集及其对应的治疗中药数据集的MySQL数据库，将症状/体征信息向量化表示，基于MeSH的层次规则所隐含的关联，通过无监督聚类算法，对疾病进行不同亚型的重新分类。并进一步基于上述方法建立了数据库系统。本发明可用于挖掘临床文献研究中病人全部的症状和体征，对患者进行客观分型，从而科学分析该疾病的证候分类，挖掘目前尚未认知的证候类型及中药治疗的用药规律，为中医药领域的研究和数据化提供新的途径和方法。

Description

一种中医证候归属分类方法及其数据库系统

技术领域

本发明属于数字化医药技术，具体涉及一种中医证候归属分类方法及其数据库系统。

背景技术

个性化诊断和治疗在医学领域日益受到关注。而中医基于“证”的辨证论治代表着最古老的个性化医疗体系，侧重于根据个体因素进行诊断和治疗。中医的“证”是指在疾病不同阶段的病理生理差异的总结性理解，考虑了病性、病位等因素。根据每一患者所表现出的“证”来开具特定的中药处方。例如，根据中医理论，抑郁症可以根据患者症状/体征被分类为多个亚型(“证”)，包括肝气郁结型、肝郁脾虚型、气虚血瘀型等。然后根据患者的具体“证”提供不同的治疗策略，例如，肝气郁结亚型使用调理气的处方，气虚血瘀亚型使用益气活血处方。多项现代研究已证明中医辩证论治在疗效方面体现出优越性，然而，“证”的确定在很大程度上依赖于中医医师在提取和分析症状/体征中隐含信息方面的经验，这种主观方法可能缺乏足够的客观性和准确性最终导致人类在正确诊断和治疗方面的有限经验及认识的深度上限制了中医理论的个性化治疗的发展。因此，有必要找到一种能够促进中医“证”客观化和准确性的方法和范式。人工智能(AI)的迅速发展使得大数据集的训练和分析成为可能，从而推动了个性化医学的进展。目前AI已经应用于探索中药草性能与其作用之间的具体关系。但尚缺乏将AI应用于中医证候分类判断方面的研究。这种应用AI对中医临床的疾病个性化诊疗积累的大量经验和数据进行推算而得的方法和范式可以对疾病的不同证型进行诊断，并且确定相应最佳治疗方案，此方法的应用将推动中医临床应用的传承和发展。

发明内容

为克服以上技术缺陷，本发明提供了一种中医证候归属分类方法，该方法的主要构思：收集和筛选某种疾病的症状/体征数据集及其对应的治疗中药数据集，建立抑郁症病人症状/体征及所用方药的MySQL数据库，将症状/体征信息向量化表示，基于医学主题词(MeSH)和《中国中医药学主题词表》(CTMMMSH)的层次规则所隐含的关联，通过无监督聚类算法，对疾病进行了不同亚型的重新分类，从而科学分析该疾病的证候分类及挖掘目前尚未认知的证候类型。

具体技术方案包括以下步骤：

1.文献的收集和筛选：收集和筛选与疾病有关，具有明确治疗效果，并记载病例症状和体征信息的中药治疗临床文献；

2.文献信息的提取与标准化：将上述文献记载的每个病例的症状、体征和对应的用药信息进行提取和标准化；并对上述信息进行频率分析，创建疾病症状、体征数据集和用药信息数据集，导入MySQL数据库储存；

3.疾病患者聚类：根据上述疾病症状、体征数据集，采用无监督的K-Means计算模型，将疾病患者分为不同的组别；

4.对患者组别用药规律分析，推导对应组别的证候类别：根据上述用药信息数据集，组别中使用频率高的中药，推导出各个组别的用药核心配方及功效，由此推导对应组别的证候类别；

5.证候类别的验证：比较不同组别与传统中医同一证候的症状/体征相似性，对上述推导的证候类别进行验证。

其中，所述文献的来源包括中国知网、维普网、中国医学信息网、万方网、PubMed、Web of Science数据库。

所述文献的筛选优选方法：使用Knime 5.4处理收集到的文献，并以统一的列对数据表进行连接；按文献纳入标准，通过比较标题栏和摘要栏，剔除了冗余文献；将改进后的文献列表导入Zotero 6.0，并下载文章全文，以创建一个本地文献数据库，用于数据提取；

所述文献信息的优选标准化方法为：对于症状和体征的标准化，，ICD-11《国际疾病分类》第11次修订版、《中国中医药学主题词表》(CTMMMSH)和SymMap数据库中提供的分类标准,然后根据MeSH、CTMMMSH获取每个症状/体征的树形结构号；对于用药信息的标准化，以《中华人民共和国药典》和《中华本草》为依据，对用药信息的中药的名称进行标准化处理。

所述无监督的K-Means计算模型的优选建立方法，包括以下步骤：

1.症状或体征层次关系矩阵的建立：将树形结构号的从属关系转换为布尔从属关系，对于每种关系，根据以下公式进行计算，将其表示为"0"或"1"，

其中x和y是疾病症状或体征的树形结构号；其布尔值构成一个二维矩阵，代表疾病症状或体征的树形结构号的层次关系；通过该矩阵可以确定给定的x是否属于层次结构中的y；

2.患者指纹向量的构建：将每个疾病患者的症状/体征转化为表型向量，其中载体中的值表示为0或1，值1表示患者表现出特定的症状/体征，而值0表示没有该症状/体征；通过在表型向量和症状/体征分级关系矩阵之间进行点乘，捕获了单个疾病患者的所有分级信息，将得到的点积矩阵进行扁平化处理，并用值0修剪维度以创建指纹向量；

3.无监督机器学习：使用Python 3.9脚本中的sklearn.cluster.KMeans包实现了K-Means聚类算法，将指纹向量用作聚类算法的输入信息，在K-Means聚类过程中，计算余弦距离来测量指纹向量之间的相似性；无监督聚类的结果被可视化为3D散点图，选择轮廓系数作为聚类算法的评价指标，使用以下公式计算：

式中s:所有样本的平均轮廓系数；a:每个样本的平均簇内距离；b:样本和最近的不属于该样本的聚类之间的距离。

所述的患者组别用药规律分析的优选方法为：从用药信息数据集中检索与疾病患者相对应的处方，使用Knime 5.4分析每个患者组别中每种中药的类别和贡献；选择每个患者组别中使用频率最高的前20种中药，并参考《中医药学高级丛书：方剂学》确定核心方剂及中药的功效类别，由此推导对应组别的证候类别；

所述的证候类别的验证优选方法为：使用Knime 5.4计算步骤1.4所推导的对应组别的证候类别中症状/体征的贡献，其中，症状/体征的贡献被定义为该症状/体征发生的频率除以在某一组别中观察到的症状/体征总数；并计算传统中医同一证候与每个组别之间的症状/体征的值平方偏差VSD，平方偏差VSD根据以下方程式计算：

其中，A_i表示：传统中医同一证候的贡献，B_i表示：推导的对应组别的证候类别中症状/体征的贡献，最后依据平方偏差VSD验证步骤1.4所推导的对应组别的证候类别的正确性。

在上述分类方法的基础上，本发明进一步公开其数据库系统。

该数据库系统包括以下模块：

1.文献的收集和筛选模块：该模块与文献数据库或本地数据库关联，收

集和筛选其中与疾病有关，具有明确治疗效果，并记载病例症状/体征信息的中药治疗临床文献；

2.文献信息的提取与标准化处理模块：该模块将上述文献记载的每个病例的症状/体征和对应的用药信息进行提取并参考现行的标准分类指南给每个症状/体征分配树形结构号进行标准化；再对上述信息进行频率分析，分析后的数据以独立数据集的形式存储在MySQL数据库中，创建疾病症状/体征数据集和用药信息数据集；

3.疾病患者聚类分析处理模块：该处理模块根据上述疾病症状/体征数据集，将症状/体征分配树形结构号进行矢量化，构建疾病患者指纹向量，以指纹向量用作聚类算法的输入信息，采用上述分类方法所述的无监督K-Means计算模型，计算余弦距离来测量指纹向量之间的相似性，将疾病患者分为不同的组别；

4.患者组别用药规律分析模块：该模块从用药信息数据集中检索与疾病患者相对应的处方，使用Knime 5.4分析每个患者组别中每种中药的类别和贡献，根据贡献大小确定组别中使用频率高的中药，推导出各个组别的用药核心方剂及功效，由此推导对应组别的证候类别；

5.证候类别验证模块：该模块收集与上述推导对应组别的证候类别一致的传统中医证候的中医文献，进一步提取和标准化所述文献中的症状/体征名称，并对症状/体征进行频率分析，建立该传统中医证候的症状/体征数据集，与上述推导对应组别的证候类别的症状/体征的相似性，对上述推导的证候类别进行验证，并输出结果。

在现有技术中，AI诊断和治疗模型往往忽视了症状/体征之间的关系，导致数据来源不准确，限制了机器学习的深度。无监督聚类算法是一种经典的AI方法，不依赖预定义的标签，有潜力根据人体固有原则对症状/体征进行分类。通过消除分类过程中的人为偏见，这些算法能够更准确地建立疾病的客观亚型。在MeSH库和《中国中医药学主题词表》中，每个主题词都可以由一个或多个树形结构号来描述，从而标示它在层次树结构中的位置以及与其他主题词之间的相互关系。结合本发明，利用树形结构号可揭示症状/体征之间的潜在的深层关联关系，可满足将中医辨证理念应用于现代医学中疾病不同类型的要求。本发明建立特殊的AI计算模型，挖掘临床文献研究中病人全部的症状/体征，对患者进行客观分型，挖掘目前尚未认知的证候类型及中药治疗的用药规律，为中医药领域的研究和数据化提供新的途径和方法。进一步地，本发明还可为建立新型的数字化中医诊疗模式提供辅助作用，促进中医学的传承与发展。

附图说明

图1是本发明实施例抑郁症证候分类技术流程示意图；

图2是本发明实施例抑郁症文献筛选流程及分析结果示意图，其中A是抑郁症文献筛选流程图，B是抑郁症症状/体征数据集频率分析结果图，C是抑郁症用药频率分析结果图；

图3是本发明实施例抑郁症病人症状分类结果图，其中A是K-Means轮廓系数与聚类数的关系图示，B是抑郁病人无监督聚类后空间分布结果图，C是各类型抑郁病人症状特征图示；

图4是本发明实施例各类抑郁症病人用药规律分析结果图示，其中A是聚类-草药网络图，B是各类抑郁症病人证候分类示意图；

图5是本发明实施例气虚病人临床文献筛选流程图，及气虚患者症状/体征数据集频率分析结果图；

图6是本发明实施例9个抑郁亚型患者和气虚患者的症状/体征对比图示；

图7是本发明实施例Knime工作流程图；

图8是本发明实施例每个类群每种草药在治疗患者中的类别和贡献分析图示；

图9是本发明实施例计算症状/体征的贡献图示；

具体实施方式

下面以研究抑郁症的证候分类并验证气虚型抑郁症为例对本发明做进一步说明。本实施例不构成对本发明保护范围的限制。

为了深度挖掘临床诊断中的疾病分型，本发明开发了一个利用无监督聚类算法的综合工作流程数据库系统，该系统由以下五个功能模块组成。

1.文献收集和筛选模块：该模块可从各种数据库中收集并按预定标准筛选与抑郁症有关的临床文献。

2.症状和体征提取与标准化模块：该模块用于提取和标准化所选文献中记录的症状和体征。参考MeSH库和《中国中医药学主题词表》，为每个症状/体征分配适当的树形结构号。

3.抑郁症患者聚类模块：该模块采用了无监督的K-Means计算模型，将患者分为不同的组。

4.中药提取与标准化模块:该模块对文献中记载的治疗抑郁症的草药进行提取和标准化，编制分析每组患者对应的草药处方和用药规则。

5.每组患者与气虚患者的症状/体征比较模块:该模块用于将选择的聚类与传统中医诊断分型的相似性进行比较，验证方法的科学性和合理性，评估该系统的效能。

本系统采用特定的无监督聚类K-Means算法模型对文献信息进行学习和处理。建模的方法如下：

1、数据收集与筛选步骤

1.1.文献收集和数据清理

在中国知网、维普网、中国医学信息网、万方网、PubMed、Web of Science等数据库中

对抑郁症中医的临床文献进行全面检索。中文检索词为“抑郁”，英文检索词为：“depression”,“depressive disorders”,“single episode depressive disorder”,“current depressive disorder”,“dysthymic disorder”,“mixed depressive andanxiety disorder”and“premenstrual dysphoric disorder”。按以下标准纳入文章：

(1)研究类型：以中药治疗抑郁症为主题的临床研究；

(2)参与者：涉及任何年龄或性别的抑郁症患者；

(3)干预方法：单独使用中药或与西药联合使用的研究；

(4)结果：有明确治疗效果报告。

使用CNKI、VIP、Sino Med、Wangfang、PubMed和Web of Science等数据库对2023年4月之前发表的气虚文献进行检索。文献的纳入标准如下：

(1)研究类型：气虚相关的临床文献；

(2)参与者：涉及任何年龄或性别"气虚"患者；

(3)干预：无限制；

(4)结果：无限制。

使用Knime 5.4处理上述所得文献，并以统一的列对数据表进行连接。为确保数据的准确性，根据前面提到的纳入和排除标准，通过比较标题栏和摘要栏，剔除了冗余文献。在此过程中使用的Knime工作流程图如图7所示。将文献列表导入Zotero 6.0下载文章全文，以创建一个本地文献数据库，用于数据提取。

1.2.数据提取和标准化

将符合中医辨证论治的病例均视为独立样本，对其症状/体征和处方进行提取和标准化。在症状/体征标准化方面，参考ICD-11、《中国中医药学主题词表》(CTMMMSH)和SymMap数据库中提供的指南。从CTMMMSH和MeSH数据库中收集每个症状或体征的树形结构号。如果某个症状或体征没有指定的树形结构号，则根据以下规则做出最终决定：(1)如果有同义词或类似症状/体征，则用同义词或类似症状/体征的树形结构号代替；或(2)如果找不到替代词，则用树形结构中的上级树形结构号代替。对于处方中的草药名称，根据《中华人民共和国药典》和《中华本草》进行了标准化处理。上述所提到的数据提取和清理过程由两名研究人员独立完成，如有分歧，则与第三名研究人员协商解决。使用Knime 5.4对抑郁症和气虚样本中的症状/体征和草药进行频数分析。分析后的数据以独立数据集的形式存储在MySQL数据库中，建立抑郁症状/体征数据集、抑郁草药数据集和气虚症状/体征数据集。

1.3.症状/体征层次关系矩阵的建立

使用Python 3.9脚本根据树形结构号的从属关系转换为布尔从属关系，并根据以下公式进行计算，将其表示为"0"或"1"：

其中x和y是抑郁症症状/体征的树形结构号。

上述布尔值构成一个二维矩阵，代表抑郁症状/体征的树形结构号的层次关系。通过该矩阵可以确定给定的x是否属于层次结构中的y。

1.4.患者指纹向量的构建

将每个抑郁症患者(样本)的症状/体征转化为表型向量，其中向量中的值表示为0或1。值1表示患者表现出特定的症状/体征，而值0表示没有该症状/体征。通过在表型向量和症状/体征层级关系矩阵之间进行点积，捕获了单个抑郁症患者的所有层级信息。将得到的点积矩阵进一步扁平化降维以创建抑郁患者的指纹向量。

1.5.无监督机器学习

为了根据抑郁症患者的症状/体征和其他信息对其进行分类，使用Python3.9脚本中的sklearn.cluster.KMeans包实现了K-Means聚类算法,。指纹向量是通过对所有样本的每个点积矩阵进行扁平化并用值0修剪维度而获得的，被用作聚类算法的输入信息。在K-Means聚类过程中，计算余弦距离来测量指纹向量之间的相似性。无监督聚类的结果被可视化为3D散点图，允许形成的聚类的视觉表示。此外，使用Origin 2021软件分析了每个聚类中样本的比例。选择轮廓系数作为聚类算法的评价指标。使用以下公式计算：

式中s:

所有样本的平均轮廓系数；a:每个样本的平均簇内距离；b:样本和最近的不属于该样本的聚类之间的距离。

1.6抑郁症患者集群用药规律分析

从抑郁症草药数据集中检索与不同类群抑郁症患者相对应的处方。使用Knime5.4分析每一个类群中每种草药在治疗患者中的类别和贡献。为了确定核心方剂，选择了每个聚类中使用频率最高的前20种草药。这些核心方剂代表了根据中医理论治疗特定集群中表现出类似临床表现的患者的常用方剂。核心方剂的候选名单来自《中医药学高级丛书：方剂学》。核心方剂的筛选标准如下：(1)如果候选方剂由少于或等于4种草药组成，则所有草药必须与核心方剂的组成相匹配；(2)如果候选方剂由4种以上的草药组成，则至少80％的草药必须与核心方剂的组成相匹配。使用Knime 5.4计算草药和方剂的贡献(结果如图8所述)。一种草药的贡献被定义为该草药的频率除以用于治疗特定类群的草药总数。方剂的贡献被定义为方剂中每种草药的贡献之和。使用Cytoscape 3.8可视化患者类群与每个类群治疗中的草药/核心方剂之间的关系。此外，根据《中医药学高级丛书：中药学》中的定义，对这些草药的功效类别进行了分析。

1.7气虚与抑郁症症状/体征相似性的比较

使用Knime 5.4计算症状/体征的贡献(结果如图9)。症状/体征的贡献被定义为该症状/体征发生的频率除以在某一类群中观察到的症状/体征总数。为了计算气虚症状/体征数据集与每个抑郁聚类之间的值平方偏差(VSD)，使用了所有症状/体征的贡献值。VSD根据以下方程式计算：

A_i：气虚证候的贡献；B_i：在某一抑郁症类群中患者的症状/体征的贡献。

1.8医案验证

从医案云平台下载抑郁症病人相关的病例，并进行标准化的处理，然后输入模型进行训练。

具体归类方法的流程如图1所示，步骤如下：

1.收集并筛选与抑郁症相关的临床或实验文献

通过从中国知网、维普网、中国医学信息网、万方网、PubMed、Web of Science等数据库检索共获取2023年4月前发表的抑郁症相关文献685244篇。筛选过程如图2-A所示。根据纳入标准选择特定的关键词，根据所选关键词对文献的标题和摘要进行筛选，共筛选全文26684篇。经过全面评估，纳入3522篇中医药治疗抑郁症的优质临床文献进行进一步分析。为了分析数据，需提取并标准化了文献中提到的症状/体征和中药的名称。随后，对症状/体征和草药进行了频率分析，从而创建了抑郁症症状/体征数据集和抑郁症患者所用中药数据集。在经常观察到的抑郁症患者症状/体征中，确定了前30名，包括失眠、抑郁症、无聊、厌食、脉搏紧致、愤怒、情绪烦躁、焦虑、抑郁、胸痛等(图2-B所示)。治疗抑郁症最常用的30种中药是根据它们出现的频率确定的。这些草药包括柴胡、甘草、芍药、川芎、姜黄、当归、茯苓、半夏等(如图2-C所示)。

2.基于症状和体征的抑郁症患者无监督聚类

从文献中提取所有症状/体征信息，并分配树状结构形成表格，并将表中的每一行转换为布尔型数据，表示是否存在症状/体征。再通过计算症状/体征的层次关系矩阵的点积来整合症状/体征之间的关联信息。随后，点积矩阵被平面化并转换为每个抑郁症患者的指纹向量，再采用K-Means算法进行聚类分析。结果显示，K-Means轮廓系数与聚类数的关系如图3-A所示，轮廓系数在9个聚类处达到局部最大值，表明抑郁症患者的最佳亚型分类模式是将其分为9个亚型。这9种亚型抑郁症患者的三维空间分布如图3-B所示。图3-C显示了9个集群中每个集群观察到的前10个症状/体征。每个集群都表现出与其他集群的显著差异。例如，在第6类中，最常见的症状/体征是抑郁症、无聊、焦虑、睡眠觉醒障碍)、睡眠开始和维持障碍、厌食症、恶心、易怒情绪、悲观和抑郁。相反，cluster 7的症状/体征为出汗、失眠、心律失常、多梦、呼吸困难、虚弱、脉细、舌苔白、腹部和胸痛。

3.对9个亚型抑郁症患者用药规律进行分析，推导9个亚型所属的证候类型。

为了进一步检验每一类抑郁症患者的方药的异同，下一步将围绕核心方剂进行了分析。抑郁症患者的处方从抑郁症草药数据集中获得，并参考无监督聚类的结果，选择每个聚类中使用频率最高的20种草药，推导出每个聚类的核心公式。聚类-公式/草药网络如图4-A所示。分析结果显示，cluster1、cluster2、cluster4、cluster5、cluster6、cluster8、cluster9以当归芍药散(活血化瘀方)、六味地黄丸(补阴方)、四逆散(理气方)、六君子汤(补气方)为主。具体的加减草药在不同的病人之间是不同的。例如，四逆散被确定为cluster3的核心方剂，而六君子汤被确定为cluster7的核心方剂。进一步分析每类药材的功效，发现cluster1、cluster2和cluster6主要使用活血化瘀的药材。相比之下，cluster3、cluster4、cluster5、cluster8和cluster9主要使用具有理气作用的草药，而cluster7主要侧重于补气(如图4-B所示)。

4.以气虚为主要表现的抑郁症新亚型的发现

无监督聚类结果表明，cluster7患者最常使用补气方剂和补气中药，提示该亚型可能与中医气虚患者存在潜在关系。为了进一步探讨cluster7的医学意义，收集中医诊断为气虚的患者的症状/体征，并与cluster7的样本进行比较。从中国知网、维普网、中国医学信息网、万方网、PubMed、Web of Science等数据库中检索了98,819篇与气虚相关的文献记录，并进行了删减。筛选过程如图5的A部分所示。根据纳入标准选择筛选关键词，使用指定的关键词对文献的标题和摘要进行筛选，共获得5847篇符合全文筛选条件的文章。经过全面的全文筛选，确定了2,608项高质量与气虚相关的临床研究。进一步文献相关的症状/体征名称提取和标准化，并其进行频率分析，建立气虚患者的症状/体征数据集。从数据集中选择气虚患者最常见的30个症状/体征，包括虚弱、呼吸困难、脉细、舌白、WTC、厌食、心律失常、出汗，疲劳等(如图5，B部分所示)。

将9个抑郁亚型患者的所有症状和体征与气虚患者的前30个症状/体征进行比较，根据他们对聚类的贡献。9个聚类和气虚患者的症状/体征热图显示，cluster 7的症状/体征分布与气虚组相似(如图6的A部分所示)。此外，通过VSD值的统计分析显示，cluster 7与气虚患者之间的差异小于其他8类(cluster7为0.008，第1-6、8、9类为0.015、0.018、0.017、0.037、0.013、0.019、0.020、0.054)。这些结果表明，cluster 7可能代表了一种以气虚为主要表现的抑郁症亚型(如图6的B部分所示)。

5.个性化诊疗案例验证

从医案云平台共搜集36例抑郁症患者信息进行验证，诊疗信息如下表所示。病例的中医诊断的证候有心脾两虚等，症状有失眠、多梦等，西医诊断结果有抑郁症等。对抑郁症个性化中医诊疗信息进行的预处理主要包括统一医学术语名称、去除不必要的符号等，例如将“郁郁寡欢”和“情绪低落”统一为“情绪低落”等。结果，提取气虚组5位抑郁症病人中医诊疗信息后进行训练，有3位抑郁症病人的诊疗信息落入第7类病人，真阳率60％，非气虚组病人22例，有1例落入第7类病人，假阳率4.5％。

抑郁个性化中医诊疗信息表

Claims

1.一种中医证候归属分类方法，其特征在于,包括以下步骤：

1.1文献的收集和筛选：收集和筛选与疾病有关，具有明确治疗效果，并记载病例症状和体征信息的中药治疗临床或实验文献；

1.2文献信息的提取与标准化：将上述文献记载的每个病例的症状、体征和对应的用药信息进行提取和标准化；并对上述信息进行频率分析，创建疾病症状、体征数据集和用药信息数据集；

1.3疾病患者聚类：根据上述疾病症状、体征数据集，采用无监督的K-Means计算模型，将疾病患者分为不同的组别；

1.4对患者组别用药规律分析，推导对应组别的证候类别：根据上述用药信息数据集，组别中使用频率高的中药，推导出各个组别的用药核心配方及其加减药物，由此推导对应组别的证候类别；

1.5证候类别的验证：比较不同组别与传统中医同一证候的症状和体征相似性，对上述推导的证候类别进行验证。

2.如权利要求1所述的方法，其特征在于,步骤1.1所述文献的来源包括CNKI、VIP、SinoMed、Wangfang、PubMed、或Web of Science数据库。

3.如权利要求1所述的方法，其特征在于,步骤1.1所述文献的筛选方法为：使用Knime5.4处理收集到的文献，并以统一的列对数据表进行连接；按文献纳入标准，通过比较标题栏和摘要栏，剔除了冗余文献；将改进后的文献列表导入Zotero 6.0，并下载文章全文，以创建一个本地文献数据库，用于数据提取；

其中，所述文献纳入标准为：

3.1研究类型：以中药治疗抑郁症为主题的临床研究；

3.2参与者：涉及任何年龄或性别的患者；

3.3干预：单独使用中药或与西药联合使用的研究；

3.4结果：有明确治疗效果报告的研究文献。

4.如权利要求1所述的方法，其特征在于,步骤1.2所述文献信息的标准化方法为：对于用药信息的标准化，参考ICD-11、《中国中医药学主题词表》和SymMap数据库中提供的指南，从《中国中医药学主题词表》和医学主题词数据库中收集每个症状或体征的树形结构号，以《中华人民共和国药典》和《中华本草》为依据对用药信息的中药或草药的名称进行标准化处理。

5.如权利要求1所述的方法，其特征在于步骤1.3所述无监督的K-Means计算模型的建立方法包括以下步骤：

5.1症状或体征层次关系矩阵的建立：将MeSH树编号的从属关系转换为布尔从属关系，对于每种关系，根据以下公式进行计算，将其表示为"0"或"1"，

其中x和y是疾病症状或体征的MeSH树编号；其布尔值构成一个二维矩阵，代表疾病症状或体征的MeSH树编号的层次关系；通过该矩阵可以确定给定的x是否属于层次结构中的y；

5.2患者指纹向量的构建：将每个疾病患者的症状/体征转化为表型向量，其中向量的值表示为0或1，值1表示患者表现出特定的症状/体征，而值0表示没有该症状/体征；通过在表型向量和症状/体征分级关系矩阵之间进行点积，捕获了单个疾病患者的所有层级信息，将得到的点积矩阵进一步扁平化降维以创建抑郁患者的指纹向量；

5.3无监督机器学习：使用Python 3.9脚本中的sklearn.cluster.KMeans包实现了K-Means聚类算法，将指纹向量用作聚类算法的输入信息，在K-Means聚类过程中，计算余弦距离来测量指纹向量之间的相似性；无监督聚类的结果被可视化为3D散点图，允许形成的聚类的视觉表示；此外，使用Origin 2021软件分析了每个聚类中样本的比例，选择轮廓系数作为聚类算法的评价指标，使用以下公式计算：

6.如权利要求1所述的方法，其特征在于，步骤1.4所述的患者组别用药规律分析的具体方法为：从用药信息数据集中检索与疾病患者相对应的处方，使用Knime 5.4分析每个患者组别中每种中药的类别和贡献；选择每个患者组别中使用频率最高的前20种中药，并参考《中医药学高级丛书：方剂学》确定核心配方及中药的功效类别，由此推导对应组别的证候类别；

其中，核心配方的筛选标准如下：(1)如果候选方剂由少于或等于4种中药组成，则所有中药必须与核心方剂的成分相匹配；(2)如果候选方剂由4种以上的中药组成，则至少80％的中药必须与核心方剂的成分相匹配；使用Knime 5.4计算中药和方剂的贡献度，一种中药的贡献度被定义为该中药的频率除以用于治疗特定集群的中药总数；方剂的贡献被定义为配方中每种中药的贡献之和；使用Cytoscape 3.8可视化患者集群与每个患者组别治疗中的中药和核心方剂之间的关系。

7.如权利要求1所述的方法，其特征在于，步骤1.5所述的证候类别的验证方法具体为：使用Knime 5.4计算步骤1.4所推导的对应组别的证候类别中症状/体征的贡献，其中，症状/体征的贡献被定义为该症状/体征发生的频率除以在某一组别中观察到的症状/体征总数；并计算传统中医同一证候与每个组别之间的症状/体征的值平方偏差VSD，平方偏差VSD根据以下方程式计算：

8.一种中医证候归属分类数据库系统，其特征在于,所述数据库系统包括：

8.1文献的收集和筛选模块：该模块与文献数据库或本地数据库关联，收集和筛选其中与疾病有关，具有明确治疗效果，并记载病例症状/体征信息的中药治疗临床文献；

8.2文献信息的提取与标准化处理模块：该模块将上述文献记载的每个病例的症状/体征和对应的用药信息进行提取并参考现行的标准分类指南给每个症状/体征分配MeSH树编号进行标准化；再对上述信息进行频率分析，分析后的数据以独立数据集的形式存储在MySQL数据库中，创建疾病症状/体征数据集和用药信息数据集；

8.3疾病患者聚类分析处理模块：该处理模块根据上述疾病症状/体征数据集，将症状/体征分配MeSH树编号进行矢量化，构建疾病患者指纹向量，以指纹向量用作聚类算法的输入信息，采用无监督的K-Means计算模型，计算余弦距离来测量指纹向量之间的相似性，将疾病患者分为不同的组别；

8.4患者组别用药规律分析模块：该模块从用药信息数据集中检索与疾病患者相对应的处方，使用Knime 5.4分析每个患者组别中每种中药的类别和贡献，根据贡献大小确定组别中使用频率高的中药，推导出各个组别的用药核心方剂及功效，由此推导对应组别的证候类别；

8.5证候类别验证模块：该模块收集与上述推导对应组别的证候类别一致的传统中医证候的中医文献，进一步提取和标准化所述文献中的症状/体征名称，并对症状/体征进行频率分析，建立该传统中医证候的症状/体征数据集，与上述推导对应组别的证候类别的症状/体征的相似性，对上述推导的证候类别进行验证，并输出结果。

9.一种中医证候归属分类数据库系统，其特征在于,所述的无监督的K-Means计算模型的建立方法如权利要求5所述。