CN117766133A

CN117766133A - 一种基于智能算法的中医证候辨识方法及装置

Info

Publication number: CN117766133A
Application number: CN202410024978.5A
Authority: CN
Inventors: 商洪才; 赵晨; 魏旭煦; 陈智能; 蒋寅; 张心怡; 关之玥; 赵梦竹
Original assignee: Dongzhimen Hospital Of Beijing University Of Chinese Medicine
Current assignee: Dongzhimen Hospital Of Beijing University Of Chinese Medicine
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-03-26

Abstract

本发明公开了一种基于智能算法的中医证候辨识方法及装置。该基于智能算法的中医证候辨识方法，包括以下步骤：获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；基于证候训练集数据，构建证候辨证模型；基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数；建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。本发明通过自动学习框架自动得出证候辨证模型，设立多个接口，提高了证候辨识模型跨数据应用能力，解决目前模型跨数据应用能力较低的问题。

Description

一种基于智能算法的中医证候辨识方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于智能算法的中医证候辨识方法及装置。

背景技术

中医证候辨识方法是中医诊断的核心内容之一，旨在根据患者的症状、脉象、舌象等信息，准确判断疾病的中医证候。然而，由于中医的辨证需要综合考虑多个因素，其复杂性和主观性使得标准化和精准度的提高成为一个挑战。传统的中医诊断往往依赖于医生的经验和学识，这导致在不同医生之间存在辨证结果的差异性。因此，研究人员开始关注利用智能算法，如人工智能和机器学习，以提高中医证候辨识的客观性、准确性和一致性，从而推动中医诊疗的现代化和科学化。

现代中医证候辨识方法中，智能算法的应用成为一种前沿趋势。机器学习和人工智能技术通过分析大量患者数据和中医文献，能够从中提取模式和规律，以辅助医生进行中医证候的判定。其中，基于深度学习的方法，如卷积神经网络(CNN)和循环神经网络(RNN)，在中医证候辨识中取得了显著的成果。这些算法能够学习并理解患者的多模态信息，包括文字描述、图像(如舌象)和脉象数据。此外，亦有一些方法结合专家知识和大数据进行模型训练。

例如公开号为：CN113990493A的发明专利公开的一种用于中医疾病诊断与证候辨识的人机互动智能系统，包括：人机互动的信息收集单元、已收集信息的分时描述单元及诊断决策单元，其中：人机互动的信息收集单元为将与疾病诊断/证候辨识有关的表象信息，按照表象之间的从属关系，组织成多层级树状结构；已收集信息的分时描述单元为将所述人机互动的信息收集单元所收集的表象信息按照表象信息出现的时间顺序以二维表格的形式分序列描述并展示；诊断决策单元包括根据所述已收集信息的分时描述单元的二维表格内的信息得到的按时间划分的诊断决策结果，每一时间的诊断决策结果包括：任何诊断结果不成立、一种证候/疾病成立或一组证候/疾病成立。

例如公告号为：CN111768842A的发明专利公告的中医证素的辨识方法、系统、电子设备及可读存储介质，包括：从历史案例中提取中医辨识数据，中医辨识数据包括多个证素及每个证素对应的多个证候；对任一目标证素，分别对每个历史案例中与目标证素对应的多个证候的证候程度进行量化生成关系矩阵；基于灰色关联分析法对关系矩阵进行计算得到目标证素与对应的每个证候的灰色关联系数；基于模糊信息熵算法对灰色关联系数进行计算得到目标证素与对应的每个证候的信息熵；将信息熵作为目标证素与对应的每个证候的关联度。

但本申请在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中，不同医院病历数据存在异质性，存在模型跨数据应用能力较低的问题。

发明内容

本申请实施例通过提供一种基于智能算法的中医证候辨识方法及装置，解决了现有技术中存在模型跨数据应用能力较低的问题，实现了提高模型跨数据应用能力。

本申请实施例提供了一种基于智能算法的中医证候辨识方法，包括以下步骤：获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；基于证候训练集数据，构建证候辨证模型；基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数，所述证候辨识能力综合评估指数用于量化中医证候辨证模型的证候辨识能力；建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。

进一步的，所述对中医证候文本数据进行预处理的方法为：对中医证候文本数据进行数据清洗，所述中医证候文本数据包括自然语言文本症状和患者的基本人口学特征数据；对数据清洗后的中医证候文本数据使用中医数据提取模型提取症状术语文本字符串；对症状术语文本字符串进行文本向量化，将其转化为词向量矩阵，并进行特征筛选，去除长尾特征；使用TF-IDF编码计算加权词向量矩阵，将加权词向量矩阵与患者的基本人口学特征数据在患者个案水平上进行融合，得到融合数据的二维矩阵形式，所述二维矩阵形式的融合数据用于构建证候辨证模型；基于专家先验知识，对患者的证候诊断进行分解，得到证候诊断的证候分量，所述证候分量为向量形式，作为预测目标来构建证候辨证模型；如果证候分量阳性率小于阈值指标一或阳性例数小于阈值指标二，则记该证候分量不适用于建模预测，将不适用于建模预测的证候分量剔除。

进一步的，所述中医数据提取模型的构建方法为：利用电子文本标注工具，从中医学电子文本中标注并提取出“理法方药”数据，作为中医数据提取模型的建模数据；基于建模数据，结合神经网络语言模型、双向循环神经网络模型和卷积神经网络模型，构建出若干个初步中医数据提取模型；使各初步中医数据提取模型重复一定次数的建模，并选择评测指标，对建模数据进行统计分析；依据统计分析的结果，确定出评测指标最佳的初步中医数据提取模型模型作为中医数据提取模型。

进一步的，所述证候辨证模型的构建方法为：采用Autogluon自动学习框架对证候训练集数据进行训练，自动构建出若干个机器学习模型；基于Stacking集成学习技术对机器学习模型进行集成学习，得到证候辨证模型。

进一步的，所述中医证候辨证模型的确定方法为：基于证候辨证模型对证候测试集数据进行预测；根据证候辨证模型得出证候测试集数据中的证候分量预测结果，以及证候分量阳性率。

进一步的，所述智能辅助辨证的方法为：获取患者信息：对输入的证候数据进行预处理；加载模型预测：加载预训练的中医证候辨证模型对预处理的证候数据进行辨识预测，预测出患者的证候分量阳性率；输出结果：将患者的证候分量阳性率以字典形式存储并输出。

进一步的，所述中医证候辨证模型的证候辨识能力的获取方法为：采集中医证候辨证模型在证候测试集数据上的准确率和ROC曲线下面积，并据其分析得出证候辨识能力综合评估指数；当证候辨识能力综合评估指数高于阈值三时，则记中医证候辨证模型具有十分优秀的证候辨识能力；当证候辨识能力综合评估指数高于阈值四时，则记中医证候辨证模型具有一定证候辨识能力，所述阈值四小于阈值三；当证候辨识能力综合评估指数不高于阈值四时，则记中医证候辨识模型尚未达到可实用水平；输出对中医证候辨证模型的证候辨识能力的综合评价。

进一步的，所述证候辨识能力综合评估指数的分析方法为：根据中医证候辨证模型在证候测试集数据上的准确率和ROC曲线下面积，构建证候辨识能力综合评估模型；根据证候辨识能力综合评估模型，计算出证候辨识能力综合评估指数；所述证候辨识能力综合评估模型为：式中，/>为证候测试集数据中的证候数据对应的证候辨识能力综合评估指数，KA为准确性影响系数，γ1为准确性影响系数在证候辨识能力综合评估指数中的权重占比值，KR为中医证候辨证模型在证候测试集数据上的曲线面积影响系数，γ2为曲线面积影响系数在证候辨识能力综合评估指数中的权重占比值，KJ为证候阳性影响系数，γ3为证候阳性影响系数在证候辨识能力综合评估指数中的权重占比值，KT为中医数据提取准确率，γ4为中医数据提取准确率在证候辨识能力综合评估指数中的权重占比值，δ为证候辨识能力综合评估指数修正因子，e为自然常数；所述准确性影响系数的获取方法为：根据中医证候辨证模型在证候测试集数据上的准确率，构建准确性影响系数分析模型；根据准确性影响系数分析模型计算出准确性影响系数；所述准确性影响系数分析模型为：/>式中，ACC0为准确率阈值，ACC为准确率，/>为准确性影响系数的修正因子；所述曲线面积影响系数的获取方法为：根据中医证候辨证模型在证候测试集数据上的ROC曲线下面积，构建曲线面积影响系数分析模型；根据曲线面积影响系数分析模型计算出曲线面积影响系数；所述曲线面积影响系数分析模型为：/>式中，AUC0为ROC曲线下面积阈值，AUC为ROC曲线下面积，/>为曲线面积影响系数的修正因子；所述证候阳性影响系数的分析方法为：获取中医证候辨证模型在证候测试集数据上得出的证候阳性率和证候阳性例数；根据证候阳性率和证候阳性例数构建证候阳性影响系数分析模型；根据证候阳性影响系数分析模型，计算出证候阳性影响系数；所述证候阳性影响系数分析模型为：式中，θ0为证候阳性率阈值，θ为证候阳性率，Δθ为证候阳性率设定单位值，κ1为证候阳性率在证候阳性影响系数中的权重占比值，L0为证候阳性例数阈值，L为证候阳性例数，ΔL为证候阳性例数设定单位值，κ2为证候阳性例数在证候阳性影响系数中的权重占比值，/>为证候阳性影响系数的修正因子。

进一步的，所述中医数据提取准确率的分析方法为：获取中医数据提取模型的评测指标，所述评测指标包括F1分数；根据评测指标构建证中医数据提取准确率分析模型；根据中医数据提取准确率分析模型，计算出中医数据提取准确率；所述中医数据提取准确率分析模型为：式中，F为评测指标，F0为评测指标阈值，ΔF为评测指标设定单位值，/>为中医数据提取准确率的修正因子。

本申请实施例提供了一种基于智能算法的中医证候辨识装置，包括数据预处理模块、辨证模型构建模块、辨证模型测试模块、证候辨识能力评估模块和辅助辨证预测模块：所述数据预处理模块：用于获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；所述辨证模型构建模块：用于基于证候训练集数据，构建证候辨证模型；所述辨证模型测试模块：用于基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；所述证候辨识能力评估模块：用于对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数，所述证候辨识能力综合评估指数用于量化中医证候辨证模型的证候辨识能力；所述辅助辨证预测模块：用于建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、通过设置中医数据提取模型，并且利用自动学习框架自动学习得出性能较好的证候辨证模型，从而为各个模型设置对应的网络调用接口，进而实现了提高模型跨数据应用能力，有效解决了现有技术中存在模型跨数据应用能力较低的问题。

2、通过中医数据提取模型从使用的可及性、便利性，以及融合至其他应用中的集成性角度，以网络服务接口的模型调用形式，建立中医“理法方药”数据提取模型的网络调用接口，从而可及性高且使用方便，使用者无需添置所需硬件支撑，进而实现了节省经济成本。

3、通过建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果，从而不用下载复杂的程序文件，及进行繁琐的操作系统配置与环境搭建工作，进而实现了节省时间成本。

附图说明

图1为本申请实施例提供的基于智能算法的中医证候辨识方法流程图；

图2为本申请实施例提供的基于智能算法的中医证候辨识装置结构图。

具体实施方式

本申请实施例通过提供一种基于智能算法的中医证候辨识方法及装置，解决了现有技术中存在模型跨数据应用能力较低的问题，通过自动学习框架自动得出证候辨证模型，并为模型设立网络调用接口，实现了提高模型跨数据应用能力。

本申请实施例中的技术方案为解决上述存在模型跨数据应用能力较低的问题，总体思路如下：

获取中医证候文本数据，对其进行预处理后，按照一定比例划分为证候训练集和测试集。利用证候训练集构建证候辨证模型，然后用测试集评估模型性能，确定中医证候辨证模型。对模型的证候辨识能力进行分析，得出综合评估指数，用于量化模型的证候辨识能力。最后，建立智能辅助辨证接口，通过该接口输出中医证候的预测结果，达到了提高模型跨数据应用能力。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

如图1所示，为本申请实施例提供的基于智能算法的中医证候辨识方法流程图，该方法应用于基于智能算法的中医证候辨识装置中，该方法包括以下步骤：获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；基于证候训练集数据，构建证候辨证模型；基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数，证候辨识能力综合评估指数用于量化中医证候辨证模型的证候辨识能力；建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。

在本实施例中，以《伤寒论》“观其脉证，知犯何逆，随证治之”的“理法方药”结构体系为指导采集建模数据，借鉴NLP中的命名实体识别(Named entity recognition，NER)建模方法与基于变换器的双向编码表示(Bidirectional encoder representations fromtransformer，BERT)神经网络语言模型，获取中医“理法方药”数据提取模型的建模数据采集方案与提取模型的构建方法，并将研究成果进行转化，从可及性、便捷性与集成性的角度，通过网络接口的调用形式，为中医数据的自动化提取提供应用支持。

进一步的，对中医证候文本数据进行预处理的方法为：对中医证候文本数据进行数据清洗，中医证候文本数据包括自然语言文本症状和患者的基本人口学特征数据；对数据清洗后的中医证候文本数据使用中医数据提取模型提取症状术语文本字符串；对症状术语文本字符串进行文本向量化，将其转化为词向量矩阵，并进行特征筛选，去除长尾特征；使用TF-IDF编码计算加权词向量矩阵，将加权词向量矩阵与患者的基本人口学特征数据在患者个案水平上进行融合，得到融合数据的二维矩阵形式，二维矩阵形式的融合数据用于构建证候辨证模型；基于专家先验知识，对患者的证候诊断进行分解，得到证候诊断的证候分量，证候分量为向量形式，作为预测目标来构建证候辨证模型；如果证候分量阳性率小于阈值指标一或阳性例数小于阈值指标二，则记该证候分量不适用于建模预测，将不适用于建模预测的证候分量剔除。

在本实施例中，对于某一病种证候数据，将从该病种证候数据的所有可用数据中按证候类别进行分层随机抽样，70％作为证候训练集数据，30％作为证候测试集数据。证候测试集数据不参与模型训练的任一阶段，仅在模型训练完成后用于估计模型泛化性能使用。模型输入数据为多模态数据，由前述自然语言文本症状提取模块输出的术语化症状文本字符串(文本模态)和患者的基本人口学特征数据(矩阵模态)构成。模型训练采用多模态前融合方式进行：首先利用文本向量化技术将症状文本字符串转化为词向量矩阵，然后统计并筛去长尾特征(累积频率95-100％)。特征筛选后进行词频-逆文本频率(termfrequency-inverse document frequency,tf-idf)编码，计算加权词向量矩阵。将加权词向量矩阵与人口学特征数据在患者个案水平上进行融合，从而得到训练数据的二维矩阵形式。另一方面，将患者证候诊断基于专家先验知识进行分解，得到证候诊断的证候分量(向量形式)，作为预测目标来训练模型，如果证候分量阳性率小于1％或阳性例数小于10，则记该证候分量不适用于证候辨证模型的建模预测。

进一步的，中医数据提取模型的构建方法为：利用电子文本标注工具，从中医学电子文本中标注并提取出“理法方药”数据，作为中医数据提取模型的建模数据；基于建模数据，结合神经网络语言模型、双向循环神经网络模型和卷积神经网络模型，构建出若干个初步中医数据提取模型；使各初步中医数据提取模型重复一定次数的建模，并选择评测指标，对建模数据进行统计分析；依据统计分析的结果，确定出评测指标最佳的初步中医数据提取模型模型作为中医数据提取模型。

在本实施例中，选择富含“理法方药”数据的中医学教材、中医临床电子病历与名家医案为原始数据来源，并利用电子文本标注工具标注出电子文本中属于“理法方药”的文字及其对应的类别，作为智能提取模型的建模数据，为建立中医“理法方药”数据提取模型提供数据支撑，电子文本标注工具包括brat电子文本标注系统。中医学电子文本作为建模数据包括《伤寒论讲义》、《中医内科学》、《方剂学》三类教材的电子化文本。《伤寒论》是方书之祖，医方之经，是辨证论治的专著，《伤寒论讲义》从教学的角度，对其内容进行了解读，包含诸多经典的“理法方药”知识表述。《中医内科学》与《方剂学》则是贴近当代中医临床实践的教材，同样涵盖了“理法方药”的知识，中医的病、证、症、病因、病机、治法、方剂、药物、功效、剂量等内容在教材的各章节均全面涉及。因此，《伤寒论讲义》《中医内科学》《方剂学》三本书可作为建模数据，使模型模拟对中医基础理论知识的学习，赋予模型对“理法方药”的认知能力。中医“理法方药”数据是从连续的文字中提取，从擅长从文字序列中提取特定数据的NER模型建模思路出发，进行“理法方药”数据提取模型的建模设计，主要涉及：1、基于双向循环神经网络(Bidirectional recurrent neural network，Bi-RNN)结构的模型设计；2、基于Bi-RNN与卷积神经网络(Convolution neural network，CNN)联合的模型设计；3、以BERT神经网络语言模型为主体的模型设计，以及基于BERT神经网络语言模型与Bi-RNN结合的模型设计。以精确率、召回率与F1-score为评测指标，各模型重复10次建模，运用统计学的分析方法进行分析，并依据统计分析的结果，确定出效用最佳的模型以及建模数据对模型的贡献。基于NER模型建模思路，提出多种中医“理法方药”数据提取模型的建模方案，并进行建模测试，对比不同模型的表现。根据测试结果，得出效用最佳的中医“理法方药”数据提取模型，即中医数据提取模型。利用有益于模型表现的建模数据构建可提取10类中医“理法方药”数据的初步中医数据提取模型，并组建模型的网络调用接口，为中医“理法方药”数据的高效率自动提取提供智能工具。为实现中医“理法方药”数据提取模型的构建，形成可供应用的智能模型，通过制定中医“理法方药”数据提取模型的建模数据采集方案；中医“理法方药”数据提取模型的构建方案；以及模型测试与模型的应用方案。中医数据提取模型从使用的可及性、便利性，以及融合至其他应用中的集成性角度，以网络服务接口的模型调用形式，建立中医“理法方药”数据提取模型的网络调用接口。一方面基于网络端口，可及性高且使用方便，使用者无需添置所需硬件支撑，节省经济成本；不用下载复杂的程序文件，及进行繁琐的操作系统配置与环境搭建工作，避免因系统配置失败造成无法使用的问题，节省时间成本。另一方面，网络服务接口可便捷的被集成到不同的应用当中，为相关应用提供数据提取的支撑。

进一步的，证候辨证模型的构建方法为：采用Autogluon自动学习框架对证候训练集数据进行训练，自动构建出若干个机器学习模型；基于Stacking集成学习技术对机器学习模型进行集成学习，得到证候辨证模型。

在本实施例中，模型训练过程在Python环境下采用Autogluon 0.5.2进行。Autogluon是一个基于Stacking集成学习技术的自动机器学习框架，将从K-近邻、支持向量机、随机森林、CatBoost、XGBoost、不同结构的深度神经网络等多种机器学习模型中自动构建若干个机器学习模型(弱学习器)，然后通过Stacking进行集成学习，从而得到一个性能较好的最终模型。

进一步的，中医证候辨证模型的确定方法为：基于证候辨证模型对证候测试集数据进行预测；根据证候辨证模型得出证候测试集数据中的证候分量预测结果，以及证候分量阳性率。

在本实施例中，根据个体诊断和预后预测模型报告规范(Transparent Reportingof a multivariable prediction model for Individual Prognosis or Diagnosis，TRIPOD)，采用留出法进行模型测试，作为模型的内部验证过程。

进一步的，智能辅助辨证的方法为：获取患者信息：对输入的证候数据进行预处理；加载模型预测：加载预训练的中医证候辨证模型对预处理的证候数据进行辨识预测，预测出患者的证候分量阳性率；输出结果：将患者的证候分量阳性率以字典形式存储并输出。

在本实施例中，对输入的证候数据进行预处理包括从中提取患者的基本信息(id、疾病、性别、年龄)以及症状术语文本。

进一步的，中医证候辨证模型的证候辨识能力的获取方法为：采集中医证候辨证模型在证候测试集数据上的准确率和ROC曲线下面积，并据其分析得出证候辨识能力综合评估指数；当证候辨识能力综合评估指数高于阈值三时，则记中医证候辨证模型具有十分优秀的证候辨识能力；当证候辨识能力综合评估指数高于阈值四时，则记中医证候辨证模型具有一定证候辨识能力，阈值四小于阈值三；当证候辨识能力综合评估指数不高于阈值四时，则记中医证候辨识模型尚未达到可实用水平；输出对中医证候辨证模型的证候辨识能力的综合评价。

在本实施例中，模型评价采用模型在测试集上的准确率和ROC曲线下面积(AreaUnder the Receiver Operating Characteristic Curve，AUC)进行综合评价，以估计模型对未知患者进行证候辨识的能力。

进一步的，证候辨识能力综合评估指数的分析方法为：根据中医证候辨证模型在证候测试集数据上的准确率和ROC曲线下面积，构建证候辨识能力综合评估模型；根据证候辨识能力综合评估模型，计算出证候辨识能力综合评估指数；证候辨识能力综合评估模型为：式中，/>为证候测试集数据中的证候数据对应的证候辨识能力综合评估指数，KA为准确性影响系数，γ1为准确性影响系数在证候辨识能力综合评估指数中的权重占比值，KR为中医证候辨证模型在证候测试集数据上的曲线面积影响系数，γ2为曲线面积影响系数在证候辨识能力综合评估指数中的权重占比值，KJ为证候阳性影响系数，γ3为证候阳性影响系数在证候辨识能力综合评估指数中的权重占比值，KT为中医数据提取准确率，γ4为中医数据提取准确率在证候辨识能力综合评估指数中的权重占比值，δ为证候辨识能力综合评估指数修正因子，e为自然常数；准确性影响系数的获取方法为：根据中医证候辨证模型在证候测试集数据上的准确率，构建准确性影响系数分析模型；根据准确性影响系数分析模型计算出准确性影响系数；准确性影响系数分析模型为：/>式中，ACC0为准确率阈值，ACC为准确率，/>为准确性影响系数的修正因子；曲线面积影响系数的获取方法为：根据中医证候辨证模型在证候测试集数据上的ROC曲线下面积，构建曲线面积影响系数分析模型；根据曲线面积影响系数分析模型计算出曲线面积影响系数；曲线面积影响系数分析模型为：式中，AUC0为ROC曲线下面积阈值，AUC为ROC曲线下面积，/>为曲线面积影响系数的修正因子；证候阳性影响系数的分析方法为：获取中医证候辨证模型在证候测试集数据上得出的证候阳性率和证候阳性例数；根据证候阳性率和证候阳性例数构建证候阳性影响系数分析模型；根据证候阳性影响系数分析模型，计算出证候阳性影响系数；证候阳性影响系数分析模型为：/>式中，θ0为证候阳性率阈值，θ为证候阳性率，Δθ为证候阳性率设定单位值，κ1为证候阳性率在证候阳性影响系数中的权重占比值，L0为证候阳性例数阈值，L为证候阳性例数，ΔL为证候阳性例数设定单位值，κ2为证候阳性例数在证候阳性影响系数中的权重占比值，/>为证候阳性影响系数的修正因子。

在本实施例中，证候阳性率设定单位值为1％，证候阳性例数设定单位值为1。ROC曲线下面积(缩写为AUC)，AUC越接近1，说明模型在不同工作点下的性能越好。

进一步的，中医数据提取准确率的分析方法为：获取中医数据提取模型的评测指标，评测指标包括F1分数；根据评测指标构建证中医数据提取准确率分析模型；根据中医数据提取准确率分析模型，计算出中医数据提取准确率；中医数据提取准确率分析模型为：式中，F为评测指标，F0为评测指标阈值，ΔF为评测指标设定单位值，/>为中医数据提取准确率的修正因子。

在本实施例中，评测指标设定单位值为1％。F1分数越高越好，F1分数的取值范围在0到1之间，越接近1表示模型在精确率和召回率之间取得了更好的平衡，即在正例的预测准确性和对所有正例的覆盖率之间取得了较好的平衡。

如图2所示，为本申请实施例提供的基于智能算法的中医证候辨识装置结构图，本申请实施例提供的基于智能算法的中医证候辨识装置包括：数据预处理模块、辨证模型构建模块、辨证模型测试模块、证候辨识能力评估模块和辅助辨证预测模块：数据预处理模块：用于获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；辨证模型构建模块：用于基于证候训练集数据，构建证候辨证模型；辨证模型测试模块：用于基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；证候辨识能力评估模块：用于对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数，证候辨识能力综合评估指数用于量化中医证候辨证模型的证候辨识能力；辅助辨证预测模块：用于建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：相对于公开号为：CN113990493A的发明专利公开的一种用于中医疾病诊断与证候辨识的人机互动智能系统，本申请实施例通过设置中医数据提取模型，并且利用自动学习框架自动学习得出性能较好的证候辨证模型，从而为各个模型设置对应的网络调用接口，进而实现了提高模型跨数据应用能力；相对于公开号为：CN111768842A的发明专利公告的中医证素的辨识方法、系统、电子设备及可读存储介质，本申请实施例通过中医数据提取模型从使用的可及性、便利性，以及融合至其他应用中的集成性角度，以网络服务接口的模型调用形式，建立中医“理法方药”数据提取模型的网络调用接口，从而可及性高且使用方便，使用者无需添置所需硬件支撑，进而实现了节省经济成本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于智能算法的中医证候辨识方法，其特征在于，包括以下步骤：

获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；

基于证候训练集数据，构建证候辨证模型；

基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；

对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数，所述证候辨识能力综合评估指数用于量化中医证候辨证模型的证候辨识能力；

建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。

2.如权利要求1所述基于智能算法的中医证候辨识方法，其特征在于，所述对中医证候文本数据进行预处理的方法为：

对中医证候文本数据进行数据清洗，所述中医证候文本数据包括自然语言文本症状和患者的基本人口学特征数据；

对数据清洗后的中医证候文本数据使用中医数据提取模型提取症状术语文本字符串；

对症状术语文本字符串进行文本向量化，将其转化为词向量矩阵，并进行特征筛选，去除长尾特征；

使用TF-IDF编码计算加权词向量矩阵，将加权词向量矩阵与患者的基本人口学特征数据在患者个案水平上进行融合，得到融合数据的二维矩阵形式，所述二维矩阵形式的融合数据用于构建证候辨证模型；

基于专家先验知识，对患者的证候诊断进行分解，得到证候诊断的证候分量，所述证候分量为向量形式，作为预测目标来构建证候辨证模型；

如果证候分量阳性率小于阈值指标一或阳性例数小于阈值指标二，则记该证候分量不适用于建模预测，将不适用于建模预测的证候分量剔除。

3.如权利要求1所述基于智能算法的中医证候辨识方法，其特征在于，所述中医数据提取模型的构建方法为：

利用电子文本标注工具，从中医学电子文本中标注并提取出“理法方药”数据，作为中医数据提取模型的建模数据；

基于建模数据，结合神经网络语言模型、双向循环神经网络模型和卷积神经网络模型，构建出若干个初步中医数据提取模型；

使各初步中医数据提取模型重复一定次数的建模，并选择评测指标，对建模数据进行统计分析；

依据统计分析的结果，确定出评测指标最佳的初步中医数据提取模型模型作为中医数据提取模型。

4.如权利要求1所述基于智能算法的中医证候辨识方法，其特征在于，所述证候辨证模型的构建方法为：

采用Autogluon自动学习框架对证候训练集数据进行训练，自动构建出若干个机器学习模型；

基于Stacking集成学习技术对机器学习模型进行集成学习，得到证候辨证模型。

5.如权利要求1所述基于智能算法的中医证候辨识方法，其特征在于：所述中医证候辨证模型的确定方法为：

基于证候辨证模型对证候测试集数据进行预测；

根据证候辨证模型得出证候测试集数据中的证候分量预测结果，以及证候分量阳性率。

6.如权利要求1所述基于智能算法的中医证候辨识方法，其特征在于，所述智能辅助辨证的方法为：

获取患者信息：对输入的证候数据进行预处理；

加载模型预测：加载预训练的中医证候辨证模型对预处理的证候数据进行辨识预测，预测出患者的证候分量阳性率；

输出结果：将患者的证候分量阳性率以字典形式存储并输出。

7.如权利要求1所述基于智能算法的中医证候辨识方法，其特征在于，所述中医证候辨证模型的证候辨识能力的获取方法为：

采集中医证候辨证模型在证候测试集数据上的准确率和ROC曲线下面积，并据其分析得出证候辨识能力综合评估指数；

当证候辨识能力综合评估指数高于阈值三时，则记中医证候辨证模型具有十分优秀的证候辨识能力；

当证候辨识能力综合评估指数高于阈值四时，则记中医证候辨证模型具有一定证候辨识能力，所述阈值四小于阈值三；

当证候辨识能力综合评估指数不高于阈值四时，则记中医证候辨识模型尚未达到可实用水平；

输出对中医证候辨证模型的证候辨识能力的综合评价。

8.如权利要求7所述基于智能算法的中医证候辨识方法，其特征在于，所述证候辨识能力综合评估指数的分析方法为：

根据中医证候辨证模型在证候测试集数据上的准确率和ROC曲线下面积，构建证候辨识能力综合评估模型；

根据证候辨识能力综合评估模型，计算出证候辨识能力综合评估指数；

所述证候辨识能力综合评估模型为：

式中，为证候测试集数据中的证候数据对应的证候辨识能力综合评估指数，KA为准确性影响系数，γ₁为准确性影响系数在证候辨识能力综合评估指数中的权重占比值，KR为中医证候辨证模型在证候测试集数据上的曲线面积影响系数，γ₂为曲线面积影响系数在证候辨识能力综合评估指数中的权重占比值，KJ为证候阳性影响系数，γ₃为证候阳性影响系数在证候辨识能力综合评估指数中的权重占比值，KT为中医数据提取准确率，γ₄为中医数据提取准确率在证候辨识能力综合评估指数中的权重占比值，δ为证候辨识能力综合评估指数修正因子，e为自然常数；

所述准确性影响系数的获取方法为：

根据中医证候辨证模型在证候测试集数据上的准确率，构建准确性影响系数分析模型；

根据准确性影响系数分析模型计算出准确性影响系数；

所述准确性影响系数分析模型为：

式中，ACC₀为准确率阈值，ACC为准确率，为准确性影响系数的修正因子；

所述曲线面积影响系数的获取方法为：

根据中医证候辨证模型在证候测试集数据上的ROC曲线下面积，构建曲线面积影响系数分析模型；

根据曲线面积影响系数分析模型计算出曲线面积影响系数；

所述曲线面积影响系数分析模型为：

式中，AUC₀为ROC曲线下面积阈值，AUC为ROC曲线下面积，为曲线面积影响系数的修正因子；

所述证候阳性影响系数的分析方法为：

获取中医证候辨证模型在证候测试集数据上得出的证候阳性率和证候阳性例数；

根据证候阳性率和证候阳性例数构建证候阳性影响系数分析模型；

根据证候阳性影响系数分析模型，计算出证候阳性影响系数；

所述证候阳性影响系数分析模型为：

式中，θ₀为证候阳性率阈值，θ为证候阳性率，Δθ为证候阳性率设定单位值，κ₁为证候阳性率在证候阳性影响系数中的权重占比值，L₀为证候阳性例数阈值，L为证候阳性例数，ΔL为证候阳性例数设定单位值，κ₂为证候阳性例数在证候阳性影响系数中的权重占比值，为证候阳性影响系数的修正因子。

9.如权利要求8所述基于智能算法的中医证候辨识方法，其特征在于，所述中医数据提取准确率的分析方法为：

获取中医数据提取模型的评测指标，所述评测指标包括F1分数；

根据评测指标构建证中医数据提取准确率分析模型；

根据中医数据提取准确率分析模型，计算出中医数据提取准确率；

所述中医数据提取准确率分析模型为：

式中，F为评测指标，F₀为评测指标阈值，ΔF为评测指标设定单位值，为中医数据提取准确率的修正因子。

10.一种基于智能算法的中医证候辨识装置，其特征在于，包括数据预处理模块、辨证模型构建模块、辨证模型测试模块、证候辨识能力评估模块和辅助辨证预测模块：

所述数据预处理模块：用于获取的中医证候文本数据，对中医证候文本数据进行预处理，将预处理后的中医证候文本数据按照一定比例分为证候训练集数据和证候测试集数据；

所述辨证模型构建模块：用于基于证候训练集数据，构建证候辨证模型；

所述辨证模型测试模块：用于基于证候测试集数据，对证候辨证模型进行测试，确定出中医证候辨证模型；

所述证候辨识能力评估模块：用于对中医证候辨证模型的证候辨识能力进行分析，得出证候辨识能力综合评估指数，所述证候辨识能力综合评估指数用于量化中医证候辨证模型的证候辨识能力；

所述辅助辨证预测模块：用于建立智能辅助辨证接口，通过智能辅助辨证接口输出证候预测结果。