CN111834012A - 基于深度学习和注意力机制的中医证候诊断方法及装置 - Google Patents

基于深度学习和注意力机制的中医证候诊断方法及装置 Download PDF

Info

Publication number
CN111834012A
CN111834012A CN202010675770.1A CN202010675770A CN111834012A CN 111834012 A CN111834012 A CN 111834012A CN 202010675770 A CN202010675770 A CN 202010675770A CN 111834012 A CN111834012 A CN 111834012A
Authority
CN
China
Prior art keywords
chinese medicine
traditional chinese
medical record
model
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010675770.1A
Other languages
English (en)
Inventor
赵玉凤
庞华鑫
韦世奎
张进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Information On Traditional Chinese Medicine Cacms
Original Assignee
Institute Of Information On Traditional Chinese Medicine Cacms
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Information On Traditional Chinese Medicine Cacms filed Critical Institute Of Information On Traditional Chinese Medicine Cacms
Priority to CN202010675770.1A priority Critical patent/CN111834012A/zh
Publication of CN111834012A publication Critical patent/CN111834012A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/90ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Alternative & Traditional Medicine (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Preparation Storing Or Oral Administration Devices (AREA)

Abstract

本发明公开了一种基于深度学习和注意力机制的中医证候诊断方法及装置,该方法包括:获取待诊断患者带有症状的病历数据;将所述病历数据转换为向量数据;将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括:使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。该方法首先对患者带有症状的病历数据进行独热编码映射,转换为向量数据;采用深度学习和有监督学习的相结合的多层感知器的中医证候诊断模型对患者的证候进行诊断,从而能够提高对患者的中医证候的诊断预测准确率。

Description

基于深度学习和注意力机制的中医证候诊断方法及装置
技术领域
本发明涉及深度学习大数据医疗领域,特别涉及一种基于深度学习和注意力机制的中医证候诊断方法及装置。
背景技术
近年来,研究人员对中医药治疗各种复杂疾病的疗效进行了深入研究和探讨。许多临床实践和数据证明,中医药在降低疾病部位的细菌和病毒的活性和数量,同时改善患者临床症状和生活质量方面取得了惊人的进展。这些进展主要是因为中医将病症患者分类为证候,并采用中医治疗模式和方法进行治疗。中医证候的分类是中医诊断过程中的一个独特且重要的过程,旨在对每个人在这种疾病期间的临床症状概括的整体功能状态进行分类。辨证分型是中医证候研究的重要方面之一,在临床个体化诊断和中医辨证治疗中发挥着关键作用。
证候分化是中医的核心,也是保证疗效的前提。为了实现自动分类中医证候的目标,本研究领域引入了包括多变量统计方法,机器学习,神经网络在内的各种方法,从而产生了一系列广泛的方案。对于多变量统计方法组,聚类分析是最基本的统计方法之一。它被广泛用于对证候的无监督分类,因为它避免了个体主观性的负面影响。Martis,Roshan和Chakraborty等研究人员试图对心律失常疾病的原因进行分类和探索。作为机器学习算法的方法,支持向量机(SVM)是最常用的疾病诊断分类模型之一,例如Ekiz等研究人员使SVM诊断患者患有心脏病的概率;陈等人诊断患者肝炎的严重程度;Zeng等人依靠SVM算法研究出一套诊断65周岁老年人患有阿尔茨海默病的概率系统。Pang和Zhang等尝试使用朴素的贝叶斯网络来揭示特定人群中舌头异常和疾病之间的联系。在最近的研究中,深度学习模型已被广泛用于诊断疾病。一些模型,如嘈杂的深度字典学习,深度信念网络(DBN) 和长期短期记忆网络(LSTM)已经取得了更好的诊断结果。
尽管这些方法在综合征分类方面取得了显着进步,但仍然远远不能令人满意。首先,当所有症状同样用于诊断时,不相关的症状可能会产生过多的不良影响。在这种情况下,大多数算法无法弄清楚各种疾病的每种综合征的代表性症状。此外,由于疾病之间存在明显差异,因此没有针对所有疾病的独特分类模型。
由于复杂疾病的特殊性,大多数患者同时患有多种疾病,临床症状多种多样且复杂。这使得判断综合征和确定合适的治疗措施相对困难。
发明内容
本发明的目的在于克服现有技术中针对患有多种疾病、临床症状较多且复杂,不能准确判断综合征和确定合适的治疗措施带来的困难,针对提高智能化对中医证候诊断的能力,从而提出了一种基于深度学习和注意力机制的中医证候诊断方法及装置。
为了解决上述技术问题,第一方面,本发明实施例提供一种基于深度学习和注意力机制的中医证候诊断方法,包括:
获取待诊断患者带有症状的病历数据;
将所述病历数据转换为向量数据;
将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括:使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。
进一步地,所述训练完成的中医证候诊断模型通过下述方式训练得到:
采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;
使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块;使用多层感知器和激活函数sigmoid构建预测深度神经网络;将所述注意力机制模块和预测深度神经网络组合成中医证候诊断模型;
通过所述训练样本对所述中医证候诊断模型进行训练;训练完的所述中医证候诊断模型对所述测试样本检测,当输出诊断结果的准确率未到达预设阈值时,微调模型中的参数,直到诊断结果的准确率达到预设阈值时,得到所述训练完成的中医证候诊断模型。
进一步地,采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量;包括:
统计病历样本数据集中出现的所有的症状数目,将每个症状从0开始编号,并进行序列化排列,为1x N向量;
将所述病历样本数据集的症状群进行向量映射,向量维度为1xN,根据症状编号排列顺序;其中,映射规则为:对于每个患者存在的症状,其对应位置的数值置为1,没有症状对应位置的数值置为0;将病历样本数据集转化为M个1xN的向量集;M为所述病历样本的数量。
进一步地,使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块,包括:
随机初始化一个权重矩阵A,根据公式1),将权重矩阵A和所述样本向量进行相乘,通过tanh函数进行约束和转换,得到的向量结果记为Ens;公式1)为:
Ens=tanh(A·Pn)
1)
1)式中,Pn为某个患者映射后的样本向量;Ens为原始症状重要程度参数,取值范围[-1,1];
通过softmax函数对Ens进行转化,转化后的向量取值范围[0,1],转化公式为2);
Figure RE-GDA0002614443010000031
2)式中,ei为Ens的具体数值;wi为转化后的症状重要程度参数向量;M为病历样本的数量。
进一步地,对所述中医证候诊断模型进行训练,包括:
将wi和pn对应位置相乘,得到带有重要程度信息的症状向量
Figure RE-GDA0002614443010000032
采用两个隐层的神经网络的感知器,再结合softmax函数进行证候分类预测,每个隐层的神经单元的计算如下:
Figure RE-GDA0002614443010000033
3)式中,σ为标准的softmax函数,wij为隐层网络权重矩阵中的已优化的权重值,权重的初始化采用均值为0,标准差为sqrt(2/(input+output))正态分布中随机数;bij为偏置参数;prj为输入权重化症状值;
采用有监督学习方式进行训练,采用公式4)计算训练损失L;
Figure RE-GDA0002614443010000034
4)式中,y和
Figure RE-GDA0002614443010000035
分别为样本的标签数值和模型预测数值;log函数的基底为10;对训练集中的每个样本求损失差值,得到训练后的总损失L,再采用反向传播算法将损失在模型内传导,进而修正模型中的参数。
第二方面,本发明实施例提供一种基于深度学习和注意力机制的中医证候诊断装置,包括:
获取模块,用于获取待诊断患者带有症状的病历数据;
转换模块,用于将所述病历数据转换为向量数据;
诊断模块,用于将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括:使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。
进一步地,所述诊断模块中训练完成的中医证候诊断模型通过下述方式训练得到:
采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;
使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块;使用多层感知器和激活函数sigmoid构建预测深度神经网络;将所述注意力机制模块和预测深度神经网络组合成中医证候诊断模型;
通过所述训练样本对所述中医证候诊断模型进行训练;训练完的所述中医证候诊断模型对所述测试样本检测,当输出诊断结果的准确率未到达预设阈值时,微调模型中的参数,直到诊断结果的准确率达到预设阈值时,得到所述训练完成的中医证候诊断模型。
进一步地,采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量;包括:
统计病历样本数据集中出现的所有的症状数目,将每个症状从0开始编号,并进行序列化排列,为1x N向量;
将所述病历样本数据集的症状群进行向量映射,向量维度为1xN,根据症状编号排列顺序;其中,映射规则为:对于每个患者存在的症状,其对应位置的数值置为1,没有症状对应位置的数值置为0;将病历样本数据集转化为M个1xN的向量集;M为所述病历样本的数量。
进一步地,使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块,包括:
随机初始化一个权重矩阵A,根据公式1),将权重矩阵A和所述样本向量进行相乘,通过tanh函数进行约束和转换,得到的向量结果记为Ens;公式1)为:
Ens=tanh(A·Pn)
1)
1)式中,Pn为某个患者映射后的样本向量;Ens为原始症状重要程度参数,取值范围[-1,1];
通过softmax函数对Ens进行转化,转化后的向量取值范围[0,1],转化公式为2);
Figure RE-GDA0002614443010000041
Figure RE-GDA0002614443010000051
2)式中,ei为Ens的具体数值;wi为转化后的症状重要程度参数向量;M为病历样本的数量。
进一步地,对所述中医证候诊断模型进行训练,包括:
将wi和pn对应位置相乘,得到带有重要程度信息的症状向量
Figure RE-GDA0002614443010000052
采用两个隐层的神经网络的感知器,再结合softmax函数进行证候分类预测,每个隐层的神经单元的计算如下:
Figure RE-GDA0002614443010000053
3)式中,σ为标准的softmax函数,wij为隐层网络权重矩阵中的已优化的权重值,权重的初始化采用均值为0,标准差为sqrt(2/(input+output))正态分布中随机数;bij为偏置参数;prj为输入权重化症状值;
采用有监督学习方式进行训练,采用公式4)计算训练损失L;
Figure RE-GDA0002614443010000054
4)式中,y和
Figure RE-GDA0002614443010000055
分别为样本的标签数值和模型预测数值;log函数的基底为10;对训练集中的每个样本求损失差值,得到训练后的总损失L,再采用反向传播算法将损失在模型内传导,进而修正模型中的参数。
第三方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于深度学习和注意力机制的中医证候诊断方法。
本发明的优点在于,本发明的一种基于深度学习和注意力机制的中医证候诊断方法及装置,该方法首先对患者带有症状的病历数据进行独热编码映射,转换为向量数据;输入训练完成的中医证候诊断模型,输出诊断结果;其中,根据注意力架构对患者存在的症状进行相关性排序和打分,再采用深度学习和有监督学习的相结合的多层感知器预测模型对患者的证候进行诊断,从而能够提高对患者的中医证候的诊断预测准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的基于深度学习和注意力机制的中医证候诊断方法的流程图;
图2为本发明实施例提供的中医证候诊断模型的训练流程图;
图3为本发明实施例提供的基于注意力机制的中医证候诊断算法示意图;
图4为本发明实施例提供的针对某类复杂疾病,其模型的预测性能统计图;
图5为本发明实施例提供的某类复杂疾病中存在的证候与症状的相关性的热力图;
图6a为本发明实施例提供的某类复杂疾病中证候与对应的症状数量之间F1-score的关系图;
图6b为本发明实施例提供的某类复杂疾病中证候与对应的症状数量之间精准率的关系图;
图6c为本发明实施例提供的某类复杂疾病中证候与对应的症状数量之间召回率的关系图;
图7为本发明实施例提供的基于深度学习和注意力机制的中医证候诊断装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供了一种基于深度学习和注意力机制的中医证候诊断方法,包括:
S10、获取待诊断患者带有症状的病历数据;
S20、将所述病历数据转换为向量数据;
S30、将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括:使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。
通过上述步骤,首先获取待诊断患者带有症状描述的病历数据,将其转换为模型计算所需的向量数据,方便模型的计算。接着该向量数据,输入训练好的中医证候诊断模型,最终输出诊断结果。其中,中医证候诊断模型将深度学习和自监督学习思想结合,包括注意力机制模块和深度神经网络的多层感知器模型,经训练后,可用来预测患者的证候,大大提高了对中医证候诊断预测的准确率。
在一个实施例中,其中,步骤S30中训练完成的中医证候诊断模型通过下述方式训练得到,参照图2所示;
S301、采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;
S302、使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块;使用多层感知器和激活函数sigmoid构建预测深度神经网络;将所述注意力机制模块和预测深度神经网络组合成中医证候诊断模型;
S303、通过所述训练样本对所述中医证候诊断模型进行训练;训练完的所述中医证候诊断模型对所述测试样本检测,当输出诊断结果的准确率未到达预设阈值时,微调模型中的参数,直到诊断结果的准确率达到预设阈值时,得到所述训练完成的中医证候诊断模型。
本实施例中,通过3个步骤对中医证候诊断模型进行训练:收集不同疾病专科的带有症状和证候诊断的结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;比如将其中70%的病历样本作为训练样本,将另外30%的病历样本只包括不同疾病的症状数据。另外,可根据收集的病历样本建立具有证候诊断结果标签的患者症状序列数据库;
通过使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块,接下来使用多层感知器和激活函数sigmoid构建预测深度神经网络,最后组合成中医证候诊断模型;
使用训练样本或上述中准备的数据库去训练中医证候诊断模型,然后用训练好的中医证候诊断模型去测试一些新的数据或上述测试样本,根据测试情况,再设置新的迭代次数、学习率和训练总损失收敛阈值等超参数进行训练,微调模型中的注意力矩阵权重参数和偏置参数,以及多层感知器中的隐层网络参数,直到测试结果的准确率达到最佳。
在利用测试样本对中医证候诊断模型进行检测,得到诊断结果后,判断诊断结果的正确率是否达到预设阈值,其中,预设阈值可以根据实际情况进行相应的调整。如果判断出诊断结果的正确率达到预设阈值时,则说明中医证候诊断模型的识别精度满足要求,无需再继续对中医证候诊断模型进行调整;如果判断出诊断结果的正确率未达到预设阈值时,则说明中医证候诊断模型的识别精度不满足要求,需要对中医证候诊断模型的参数进行调整,直至中医证候诊断模型的识别精度满足要求,即诊断结果的正确率达到预设阈值。
具体地,上述训练过程进一步包括:
(1)规范数据库:统计病历样本数据集中出现的所有的症状数目,将每个症状从0开始编号,并进行序列化排列,为1x N向量。
(2)然后将病历样本数据集的症状群进行向量映射,向量维度为1xN,排列顺序为(1)中的症状排列顺序。映射规则为:对于每个患者存在的症状,其对应位置的数值置为 1,没有的症状对应位置的数值置为0;最后的将病历样本数据集(M个样本)转化为M 个1xN的向量集,这样便于进行数据计算。
上述(1)-(2)步骤通过采用独热编码模式对样本的中的症状进行规范化整理,方便模型的计算。
(3)接下来构建注意力机制架构和整体算法模型。将深度学习和自监督学习思想结合,构建基于深度神经网络的多层感知器模型,即中医证候诊断模型;可用来预测样本的证候,大大提高了模型对中医证候诊断预测的准确率。
(4)首先随机初始化一个权重矩阵A;然后根据公式1),将A和样本向量进行相乘,其结果在通过tanh(双曲正切)函数进行约束和转换,得到的向量结果记为Ens。公式1)为:
Ens=tanh(A·Pn)
1)
1)式中,Pn为代表某个患者映射后的样本向量;Ens为原始的症状重要程度打分,其值的取值范围为[-1,1]。为了以后对症状的重要程度进行排序,再softmax函数(归一化指数函数)对Ens进行转化。转化后的向量的取值范围为[0,1],转化公式为2):
Figure RE-GDA0002614443010000081
其中,ei为Ens的具体数值;转化后的症状重要程度打分向量记为wi,即:为模型对每个症状的所关注的重要度。
该步骤中,通过随机初始化权重矩阵,再通过公式1)和公式2)计算出样本每个症状的重要程度并进行排序打分。然后通过反向传播算法对权重矩阵进行优化,使得其计算出的结果更加符合实际规律。
(5)得到各个症状的分数权重后,将wi和pn对应位置相乘,得到带有重要度信息的症状向量
Figure RE-GDA0002614443010000082
为了预测患者样本的证候,采用多层感知器进行预测。
多层感知器以降噪神经网络为基础,再结合softmax函数进行证候分类预测。本实施例中,采用两个隐层的神经网络的感知器,每个隐层的神经单元的计算方法如下:
Figure RE-GDA0002614443010000083
3)式中,σ指代的是标准的softmax函数,wij为隐层网络权重矩阵中的已优化的权重值,权重的初始化采用均值为0,标准差为sqrt(2/(input+output))正态分布中随机数。input 为隐层网络的输入维度,为症状类别数和164,output为隐层网络的输出维度,为164和证候类别数。bij为偏置参数,避免在训练过程中梯度消失。其初始化也采用上述正态分布。 prj为输入权重化症状值。
此模型需要证候标签信息对模型中参数优化进行指导,所以属于有监督学习范畴。因此,采用有监督学习方式进行训练,采用公式4)计算训练损失L;
采用有监督学习方式进行训练,采用公式4)(交叉损失熵函数)计算训练损失L:
Figure RE-GDA0002614443010000091
4)式中,y和
Figure RE-GDA0002614443010000092
分别是样本的标签数值和模型预测数值;log函数的基底为10;对训练集中的每个样本求损失差值,得到训练后的总损失L,再采用反向传播算法将损失在模型内传导,进而修正模型中的参数。
得到训练后的损失L,再采用反向传播算法将损失在模型内传导,进而修正模型中的参数,使得模型的预测准确率不断提升。
本实施例中,中医证候诊断模型具有开放性,可通过学习大量的临床数据集,学习不同中医学派的证候诊断思想,并进行融合,使得模型预测的准确率能不断提高。
本发明实施例具有如下技术效果:
(1)本发明提出了基于深度学习和注意力机制的中医证候诊断方法,采用注意权重矩阵学习某一个证候和症状群之间的内在联系,然后依靠此矩阵对患者的症状进行相关度打分和排序,再借助基于深度神经网络的多层感知器模型对患者的证候进行预测,提高对患者证候诊断的能力和准确率。
(2)本发明首先采用独热编码模式对患者的症状进行编码映射,构建了规范化的样本数据集;接着将深度学习和有监督学习相结合构建了中医证候诊断模型,实现高效率的中医证候诊断。
下面通过一个具体实施例来说明本发明的技术方案,参照图3所示,模型主要包含三个模块:预处理模块、注意力机制模块和多层感知器分类模块。
预处理模块将原始病历数据进行清洗和转换,模块对病历中的症状信息进行删选和清洗,消除异常和残缺的样本,并对误填病患症状进行纠正和清洗。接着将病患的症状信息使用one-hot编码模式转换成症状向量,为下一步的模型训练和测试提供合适的数据。
注意力机制模块根据输入的症状向量,对患者的症状进行评价,为每一个赋予合适的注意力权重,此权重向量的维度和症状向量的相同。在输入到分类器之前,症状向量和权重向量采取点乘运算,得到权重化的症状向量。此外,借助注意力权重,模型通过设定合理的阈值(比如本方法的阈值T设为0.8),为证候选择出潜在对应的代表性症状群。
多层感知器分类模块将权重化向量输入到隐层神经网络中,对症状向量进行整合,抽取高层语义和证候鉴别信息,为患者诊断合适的证候类型。
下面通过算法比较,说明模块性能的高效性和稳定性,参照图4所示,
申明:(1)所有算法都是在同一中医证候数据集上进行测试,算法中的参数都进行了优化,记录最佳的实验成绩。(2)比较算法有:k-最近邻聚类(k-NN)、朴素贝叶斯(
Figure RE-GDA0002614443010000101
Bayes)、支持向量机(SVM)、多层感知器(MLP)。(3)评价指标有:精准率P、召回率R (敏感度)、F1成绩值。
基于注意力机制算法在3个指标上比其他算法具有明显的提升,其中,本发明实施例提出的模型在证候S7分类性能上取得了最好的成绩。在此任务中,SVM分类器有较差的性能,这是因为SVM使用患者所有症状做分类,没有考虑挑选患者的关键性症状,也不能提取出不同症状组合信息。与基线模型MLP算法相比,本发明实施例提出的基于注意力机制的MLP模型表现的更出色,这是足够地展示出注意力机制模块在抓取关键症状任务中发挥了重要作用。在不改变原始数据结构前提下,注意力机制对每个值赋权重的措施能帮助 MLP朝着正确的方向进行参数优化和分类预测。
下面通过权重热力图来说明本方法选择的症状群情况,参照图5所示,
图5展示出了每一个证候模型中归一化权重向量,热力图的行坐标为某数据集中7个证候,列坐标为数据集中出现的93个症状,每个方块单元颜色反映了权重值大小,颜色越亮,说明该症状的权重越高。
从图5的局部观察发现,对于不同的证候,模型关注的症状的类型和数量有明显地不同,例如与证候S3相关的症状数量是比S7的多。对于同一个症状,这个权重对不同证候是不同的,如症状舌红(2):与证候S6相比,在S1,S4和S5中具有更高的重要性,这验证了观点-同样的症状与不同证候的相关性是不同的。代表性的症状苔白(29)与证候S2和S5 有较紧密的相关度。还有症状少苔(36)与证候S1的相关度超过了0.9,这说明症状少苔对诊断成证候S1具有明显的导向作用。
下面通过不同症状数量预测证候实验说明选择的关键性症状的可靠性,参照图6a-6c所示。
具体流程介绍:(1)使用注意力机制模块对所有症状进行打分评价作证候分类,再划定相关度阈值为0.2,删除低于阈值的症状;(2)将保留下来的症状再重新打分去分类证候;(3)重复步骤(1)和(2),直到其剩余的症状数量少于14个。记录每次模型分类性能指标数据。
由图6a-6c可知,随着被选择的症状的数量减少,模型对某些证候分类性能没有明显的降低。比如证候S4和S7,随着选择的症状数量减少,模型预测性能评分依然保持高位,这表明它们的主要症状群保持稳定,模型能从有限的样本中高效地提取出核心症状。然而,从图6a-6c还可知,证候S1和S3的分类效果受到症状数量影响较大,三个指标的分数变化幅度超过10%,针对此现象比较有说服力的解释为:这两个证候的代表性症状群是多种多样的,症状之间的联系是复杂的。
基于同一发明构思,本发明实施例还提供了基于深度学习和注意力机制的中医证候诊断装置,由于该装置所解决问题的原理与前述基于深度学习和注意力机制的中医证候诊断方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
第二方面,本发明实施例提供一种基于深度学习和注意力机制的中医证候诊断装置,参照图7所示,包括:
获取模块71,用于获取待诊断患者带有症状的病历数据;
转换模块72,用于将所述病历数据转换为向量数据;
诊断模块73,用于将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括:使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。
在一个实施例中,所述诊断模块中训练完成的中医证候诊断模型通过下述方式训练得到:
采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;
使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块;使用多层感知器和激活函数sigmoid构建预测深度神经网络;将所述注意力机制模块和预测深度神经网络组合成中医证候诊断模型;
通过所述训练样本对所述中医证候诊断模型进行训练;训练完的所述中医证候诊断模型对所述测试样本检测,当输出诊断结果的准确率未到达预设阈值时,微调模型中的参数,直到诊断结果的准确率达到预设阈值时,得到所述训练完成的中医证候诊断模型。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于深度学习和注意力机制的中医证候诊断方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.基于深度学习和注意力机制的中医证候诊断方法,其特征在于,包括:
获取待诊断患者带有症状的病历数据;
将所述病历数据转换为向量数据;
将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。
2.如权利要求1所述的方法,其特征在于,所述训练完成的中医证候诊断模型通过下述方式训练得到:
采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;
使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块;使用多层感知器和激活函数sigmoid构建预测深度神经网络;将所述注意力机制模块和预测深度神经网络组合成中医证候诊断模型;
通过所述训练样本对所述中医证候诊断模型进行训练;训练完的所述中医证候诊断模型对所述测试样本检测,当输出诊断结果的准确率未到达预设阈值时,微调模型中的参数,直到诊断结果的准确率达到预设阈值时,得到所述训练完成的中医证候诊断模型。
3.如权利要求2所述的方法,其特征在于,采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量;包括:
统计病历样本数据集中出现的所有的症状数目,将每个症状从0开始编号,并进行序列化排列,为1x N向量;
将所述病历样本数据集的症状群进行向量映射,向量维度为1x N,根据症状编号排列顺序;其中,映射规则为:对于每个患者存在的症状,其对应位置的数值置为1,没有症状对应位置的数值置为0;将病历样本数据集转化为M个1x N的向量集;M为所述病历样本的数量。
4.如权利要求2所述的方法,其特征在于,使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块,包括:
随机初始化一个权重矩阵A,根据公式1),将权重矩阵A和所述样本向量进行相乘,通过tanh函数进行约束和转换,得到的向量结果记为Ens;公式1)为:
Ens=tanh(A·Pn)
1)
1)式中,Pn为某个患者映射后的样本向量;Ens为原始症状重要程度参数,取值范围[-1,1];
通过softmax函数对Ens进行转化,转化后的向量取值范围[0,1],转化公式为2);
Figure RE-FDA0002614441000000021
2)式中,ei为Ens的具体数值;wi为转化后的症状重要程度参数向量;M为病历样本的数量。
5.如权利要求4所述的方法,其特征在于,对所述中医证候诊断模型进行训练,包括:
将wi和pn对应位置相乘,得到带有重要程度信息的症状向量
Figure RE-FDA0002614441000000022
采用两个隐层的神经网络的感知器,再结合softmax函数进行证候分类预测,每个隐层的神经单元的计算如下:
Figure RE-FDA0002614441000000023
3)式中,σ为标准的softmax函数,wij为隐层网络权重矩阵中的已优化的权重值,权重的初始化采用均值为0,标准差为sqrt(2/(input+output))正态分布中随机数;bij为偏置参数;prj为输入权重化症状值;
采用有监督学习方式进行训练,采用公式4)计算训练损失L;
Figure RE-FDA0002614441000000024
4)式中,y和
Figure RE-FDA0002614441000000025
分别为样本的标签数值和模型预测数值;log函数的基底为10;对训练集中的每个样本求损失差值,得到训练后的总损失L,再采用反向传播算法将损失在模型内传导,进而修正模型中的参数。
6.基于深度学习和注意力机制的中医证候诊断装置,其特征在于,包括:
获取模块,用于获取待诊断患者带有症状的病历数据;
转换模块,用于将所述病历数据转换为向量数据;
诊断模块,用于将所述向量数据,输入训练完成的中医证候诊断模型,输出诊断结果;所述中医证候诊断模型包括使用矩阵映射层、激活函数tanh和softmax构建的注意力机制模块、以及使用多层感知器和激活函数sigmoid构建的预测深度神经网络。
7.如权利要求6所述的装置,其特征在于,所述诊断模块中训练完成的中医证候诊断模型通过下述方式训练得到:
采集不同疾病专科的带有症状和证候诊断结果的病历样本,转换为样本向量,根据预设比例分为作为训练样本和测试样本;
使用矩阵映射层、激活函数tanh和softmax构建注意力机制模块;使用多层感知器和激活函数sigmoid构建预测深度神经网络;将所述注意力机制模块和预测深度神经网络组合成中医证候诊断模型;
通过所述训练样本对所述中医证候诊断模型进行训练;训练完的所述中医证候诊断模型对所述测试样本检测,当输出诊断结果的准确率未到达预设阈值时,微调模型中的参数,直到诊断结果的准确率达到预设阈值时,得到所述训练完成的中医证候诊断模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5中任一项所述的基于深度学习和注意力机制的中医证候诊断方法。
CN202010675770.1A 2020-07-14 2020-07-14 基于深度学习和注意力机制的中医证候诊断方法及装置 Pending CN111834012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010675770.1A CN111834012A (zh) 2020-07-14 2020-07-14 基于深度学习和注意力机制的中医证候诊断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010675770.1A CN111834012A (zh) 2020-07-14 2020-07-14 基于深度学习和注意力机制的中医证候诊断方法及装置

Publications (1)

Publication Number Publication Date
CN111834012A true CN111834012A (zh) 2020-10-27

Family

ID=72923106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010675770.1A Pending CN111834012A (zh) 2020-07-14 2020-07-14 基于深度学习和注意力机制的中医证候诊断方法及装置

Country Status (1)

Country Link
CN (1) CN111834012A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113509185A (zh) * 2021-04-25 2021-10-19 安徽十锎信息科技有限公司 基于多模态病人信息注意力建模的心肌梗塞分类方法
CN113539520A (zh) * 2021-07-23 2021-10-22 平安科技(深圳)有限公司 实现问诊会话的方法、装置、计算机设备及存储介质
CN113555086A (zh) * 2021-07-26 2021-10-26 平安科技(深圳)有限公司 基于机器学习的辩证分析方法、装置、设备及介质
CN113555077A (zh) * 2021-09-18 2021-10-26 北京大学第三医院(北京大学第三临床医学院) 疑似传染病预测方法及装置
CN113593698A (zh) * 2021-08-03 2021-11-02 电子科技大学 一种基于图注意网络的中医证型识别方法
CN113724861A (zh) * 2021-09-06 2021-11-30 汤学民 基于深度学习的初步诊断生成方法、装置及计算机设备
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN114141361A (zh) * 2021-12-03 2022-03-04 北京交通大学 基于症状术语映射与深度学习的中医处方推荐方法
CN114139610A (zh) * 2021-11-15 2022-03-04 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN115440386A (zh) * 2022-09-30 2022-12-06 中国医学科学院北京协和医院 基于加权多病灶的影像组学特征预测晚期癌症患者免疫治疗效果
CN116525100A (zh) * 2023-04-26 2023-08-01 脉景(杭州)健康管理有限公司 一种基于标签系统的中医开方反向校验方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107887022A (zh) * 2017-11-09 2018-04-06 淮阴工学院 一种基于sstm的中医证候智能诊断方法
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107887022A (zh) * 2017-11-09 2018-04-06 淮阴工学院 一种基于sstm的中医证候智能诊断方法
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘雯雯: "中医诊断表型化分析方法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 1, 15 January 2019 (2019-01-15), pages 35 - 52 *
朱张莉等: "注意力机制在深度学习中的研究进展", 《中文信息学报》, vol. 33, no. 6, 30 June 2019 (2019-06-30) *
烟雨风渡: "基于注意力机制的多层感知机的实现", Retrieved from the Internet <URL:https://blog.csdn.net/tszupup/article/details/87287126> *
谢恩宁等: "基于注意力机制的深度协同过滤模型", 《中国计量大学学报》, vol. 30, no. 2, 30 June 2019 (2019-06-30), pages 219 - 225 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113509185A (zh) * 2021-04-25 2021-10-19 安徽十锎信息科技有限公司 基于多模态病人信息注意力建模的心肌梗塞分类方法
CN113539520A (zh) * 2021-07-23 2021-10-22 平安科技(深圳)有限公司 实现问诊会话的方法、装置、计算机设备及存储介质
CN113555086A (zh) * 2021-07-26 2021-10-26 平安科技(深圳)有限公司 基于机器学习的辩证分析方法、装置、设备及介质
CN113555086B (zh) * 2021-07-26 2024-05-10 平安科技(深圳)有限公司 基于机器学习的辩证分析方法、装置、设备及介质
CN113593698B (zh) * 2021-08-03 2023-04-18 电子科技大学 一种基于图注意网络的中医证型识别方法
CN113593698A (zh) * 2021-08-03 2021-11-02 电子科技大学 一种基于图注意网络的中医证型识别方法
CN113724861A (zh) * 2021-09-06 2021-11-30 汤学民 基于深度学习的初步诊断生成方法、装置及计算机设备
CN113555077A (zh) * 2021-09-18 2021-10-26 北京大学第三医院(北京大学第三临床医学院) 疑似传染病预测方法及装置
CN114139610A (zh) * 2021-11-15 2022-03-04 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN114139610B (zh) * 2021-11-15 2024-04-26 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN114141361A (zh) * 2021-12-03 2022-03-04 北京交通大学 基于症状术语映射与深度学习的中医处方推荐方法
CN114141361B (zh) * 2021-12-03 2022-12-06 北京交通大学 基于症状术语映射与深度学习的中医处方推荐方法
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN115440386A (zh) * 2022-09-30 2022-12-06 中国医学科学院北京协和医院 基于加权多病灶的影像组学特征预测晚期癌症患者免疫治疗效果
CN116525100A (zh) * 2023-04-26 2023-08-01 脉景(杭州)健康管理有限公司 一种基于标签系统的中医开方反向校验方法及系统

Similar Documents

Publication Publication Date Title
CN111834012A (zh) 基于深度学习和注意力机制的中医证候诊断方法及装置
Li et al. CANet: cross-disease attention network for joint diabetic retinopathy and diabetic macular edema grading
Xie et al. A neural architecture for automated ICD coding
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Darmawahyuni et al. Coronary heart disease interpretation based on deep neural network
CN111798954A (zh) 基于时间注意力机制和图卷积网络的药物组合推荐方法
CN116936108B (zh) 一种面向不平衡数据的疾病预测系统
Feng et al. A review of methods for classification and recognition of ASD using fMRI data
Ho et al. Predicting progression of Alzheimer’s disease using forward-to-backward bi-directional network with integrative imputation
CN115423052A (zh) 一种基于多图注意力的中医证型分类方法
Chen et al. Automatic ICD code assignment utilizing textual descriptions and hierarchical structure of ICD code
Sudharson et al. Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms
Idowu Classification techniques using EHG signals for detecting preterm births
CN112168142B (zh) 基于daela-lstm神经网络的痛经中医辨证系统
Chatzimichail et al. An evolutionary two-objective genetic algorithm for asthma prediction
Han et al. Research on Radial Basis Function Neural Network Based on Improved Hierarchical Genetic Algorithm in Early Diagnosis of Alzheimer’s Disease
Fachrel et al. A comparison between CNN and combined CNN-LSTM for chest X-ray based COVID-19 detection
Shi et al. AM-DenseNet: A novel DenseNet framework using attention mechanisms for COVID-19 CT image classification
Jiang et al. Covid-19 diagnosis by Gray-level cooccurrence matrix and genetic algorithm
Kryvenchuk et al. Random Forest as a Method of Predicting the Presence of Cardiovasculars Diseases.
He et al. Isolation Forest-Voting Fusion-Multioutput: A stroke risk classification method based on the multidimensional output of abnormal sample detection
Saleena Analysis of machine learning and deep learning prediction models for sepsis and neonatal sepsis: A systematic review
CN114550941B (zh) 基于狄克斯特拉算法的低冗余度动脉粥样硬化风险预测方法
Subramani et al. Gene-Based Predictive Modelling for Enhanced Detection of Systemic Lupus Erythematosus Using CNN-Based DL Algorithm
Jamshidnezhad et al. A computer based model in comparison with sonography imaging to diagnosis of acute appendicitis in Iran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination