CN110929511B - 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 - Google Patents

一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 Download PDF

Info

Publication number
CN110929511B
CN110929511B CN201811027747.0A CN201811027747A CN110929511B CN 110929511 B CN110929511 B CN 110929511B CN 201811027747 A CN201811027747 A CN 201811027747A CN 110929511 B CN110929511 B CN 110929511B
Authority
CN
China
Prior art keywords
information
chinese medicine
diagnosis
personalized
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811027747.0A
Other languages
English (en)
Other versions
CN110929511A (zh
Inventor
李梢
周武爱
赖新星
吴敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811027747.0A priority Critical patent/CN110929511B/zh
Publication of CN110929511A publication Critical patent/CN110929511A/zh
Application granted granted Critical
Publication of CN110929511B publication Critical patent/CN110929511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。本方法首先训练神经网络模型,提取出症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系。在此基础上,定义个性化中医诊疗信息和中药(中成药)适应症、禁忌症信息的匹配,其中诊疗信息和适应症的匹配包括适应症的语义相似性得分、关键动词匹配、关键证候术语匹配和关键疾病术语匹配,诊疗信息和禁忌症的匹配包括禁忌症术语匹配。本方法在语义关系的基础上,通过一系列关键术语匹配,放大正确的匹配结果、惩罚具有违禁用药风险的匹配结果,从而实现个性化中医诊疗信息和中药或中成药信息的智能匹配,有望降低临床上中药或中成药不合理使用率。

Description

一种基于语义相似性的个性化中医诊疗信息和中药信息智能 匹配方法
技术领域
本发明涉及一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。
背景技术
中医“四诊”是望、闻、问、切四种诊察疾病或证候方法的概括,体现了医者的思维过程,是医者主观思维对人体状态变化的综合识别。中医“四诊”信息反映人体的形、神内容,反映人体状态的变化,为辨证论治提供可靠依据。现代医学技术给人类健康事业带来巨大进步的同时,也为中医药从中医学与现代技术相结合、宏观与微观相结合、辨证与辨病相结合等方面进行诊断和治疗疾病提供了技术支持。例如,传统的舌诊、脉诊主要依赖于临床医师的主观判断和个人经验及环境等的束缚,而现代化的舌象、脉象信息的数字化分析能够为慢性胃炎等疾病的中医临床辨证分型和疗效评价提供客观依据。再例如,慢性胃炎辨病存在一定难度,故临床须结合胃镜的微观望诊,而在中医诊疗中,借助胃镜则能提高慢性胃炎辨证的准确性。因此,中医的发展也应吸收西医的优势,中医在诊疗病人的同时,也应适当应用西医诊疗信息,即获取病人的个性化中医诊疗信息是精确把握病人状态的关键。
中成药也是中药,中成药是在中医药理论指导下,以中药饮片为原料,按规定的处方和标准制成具有一定规格的剂型,可直接用于防治疾病的制剂[1]。中成药有着悠久的历史,应用广泛,在防病治病、保障健康方面发挥了重要作用。然而,目前临床上不合理使用中成药的现象较为突出。2012年4月13日,由人民政协报社主办的“中成药合理使用与上市后再评价”研讨会上指出,据不完全统计,我国约70%的中成药是综合医院的西医医师开出,临床中成药不合理使用率最高达四成[2]。不合理使用主要表现在辨证不准、用法用量不当、违禁用药、联合用药不合理、疗程不明确等方面[3]。中成药的处方是针对某种病证或症状,依据中医理论制定的,因此使用时要依据中医理论辨证选药,或辨病辨证结合选药。同时,中成药的使用也应充分重视药品说明书禁忌症信息,以期最大程度地减少因违反用药禁忌而导致的中成药不合理使用现象。因此,如何建立患者诊疗信息和中药或中成药信息之间的关系,实现二者的合理有效匹配,成为降低中成药不合理使用率的关键。
目前,在患者诊疗信息和药物信息的匹配方面已经取得了一定进展。刘振平[4]将患者诊疗信息和药物适应症信息中匹配上的病症特征个数定义为“匹配度”,从而初步实现药物的筛选,并在此基础上根据药物禁忌信息和副反应信息实现再次筛选。袁洪等[5]从特定疾病患者的临床数据出发,通过限定关键词建立与某一疾病患者相关的索引数据库,提取每个患者的编号、医生、科室、生命体征、诊断、药物、检验信息。同时建立衡量与所述某一疾病相关的药物有效性的数据指标。根据提取的信息和数据指标构建加权星型异构数据模型,对加权星型异构数据模型进行排序,获取适合某一疾病患者的药物的排名信息。李学明等[6]则从文献信息出发,通过限定医学主题词表来建立与高血压某一类特殊人群相关的文章的摘要数据库,提取每篇与高血压某一类特殊人群相关的文章中的文章、作者、期刊、出版物类型和各类降压药物的信息;建立衡量与高血压某一类特殊人群相关的文章质量的数据指标,根据提取的信息和数据指标构建加权异构图形,对加权异构图形排序,获取适合所述高血压某一类特殊人群的降压药物排名信息。曹庆恒[7]将患者的医学要素信息和药物的药学要素信息进行匹配比对,实现智能选药。以上匹配方法仍然是文字字符匹配,即在方法层面上,解决的仍然是“有或无”病症特征的问题,并没有从语义关系上进行匹配。
在语义关系的基础上进行个性化中医诊疗信息和中药信息的匹配,能够精准刻画患者状态,进而实现中药的智能匹配。就中成药信息里的适应症信息和禁忌症信息而言,考虑个性化中医诊疗信息和中成药适应症信息之间的语义关系,同时充分利用中成药禁忌症信息,从而合理有效地建立个性化中医诊疗信息和中成药适应症、禁忌症信息之间的关系,则有望能够实现个性化中医诊疗信息和中成药信息智能匹配。在临床应用中,个性化中医诊疗信息和中成药信息智能匹配有望为患者合理、有效、高效地推荐中成药,降低中成药不合理使用率。
本发明人认识到向量空间模型将词语表示为一个连续的词向量,并且语义接近的词语对应的词向量在空间上接近,从而把对文本内容的处理简化为向量空间中的向量运算。向量空间模型的基础为分布假说:如果两个词的上下文相同,那么这两个词所表达的语义也是一样的。进一步,词向量分布式表示的基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数),通过词之间的距离(比如余弦相似性、欧氏距离等)来判断它们之间的语义相似度。
本发明人进一步认识到神经网络是将词表征为实数值向量的高效工具。基于分布式表示思想,通过训练神经网络,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,训练神经网络输出的词向量可以被用来做很多自然语言处理相关的工作,比如聚类、找同义词、词性分析等等。基于目前的研究结果,可以通过神经网络提取中医术语的语义关系,从而在此基础上实现个性化中医诊疗信息和中药信息智能匹配。
综上所述,提出一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法是十分必须的。
发明内容
针对现有技术存在的不足,本发明的目的在于提出一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,从而在此基础上合理有效地建立个性化中医诊疗信息和中药信息之间的关系。
为实现上述目的,本发明提供如下技术方案:一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,包括如下步骤:
步骤一、建立中西医术语语料库。中西医术语语料库作为分词算法的语料来源。分词算法在该语料库的基础上,能够从输入信息中提取出有效的医学术语。
步骤二、建立中药相关术语语料库。中药相关术语语料库也作为分词算法的语料来源。分词算法在该语料库的基础上,能够从输入信息中提取出有效的药学术语。
步骤三、构建神经网络模型语料。神经网络模型语料主要作为神经网络模型训练的数据集。神经网络模型的训练的主要目的是提取出中医相关文字材料中词之间的语义关系,因此神经网络模型在训练时要求其输入数据格式为特定分隔符分割的词语,所以需要先将文字材料做分词处理,分词结果即为神经网络模型的语料。
步骤四、训练神经网络模型。症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间存在语义关系,通过神经网络模型的训练,提取出这些语义关系。
步骤五、基于语义相似性匹配个性化中医诊疗信息和中药信息。神经网络模型提取出出症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系。在此基础上,定义个性化中医诊疗信息和中药适应症、禁忌症信息的匹配,其中诊疗信息和适应症的匹配包括适应症语义相似性得分、适应症关键动词匹配、适应症关键证候术语匹配和适应症关键疾病术语匹配,诊疗信息和禁忌症的匹配包括禁忌症术语匹配。
通过采用上述技术方案,以上步骤的实施就可以快速有效的构建上述所说的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。
根据本发明的另一个方面,提供了一种面向个性化中医诊疗信息和中药信息智能匹配的神经网络模型的建模方法,其特征在于包括:
A)把神经网络模型的结构分为输入层、投影层和输出层,其中:
在输入层中,输入词w的上下文向量Context(w),Context(w)由词前后各c个,共2c个词向量组成,即输入层的大小为2c,
投影层用于将输入层的2c个向量累加求和,即
Figure BDA0001788959820000031
m为词向量维度
B)在输出层中:
B1)以神经网络模型语料中出现过的词语作为叶子节点,以各词在语料中出现过的次数作为权值构造出Huffman树,
B2)采用Hierarchical softmax技术,将计算单个词语概率值的过程被拆解为一系列的概率计算,从而避免对所有词语进行标准化计算,
B3)对于神经网络模型语料中的一个词w,Huffman树中比存在一条从根节点到词w对应节点的路径pw,且路径上存在lw-1个分支,将每个分支看作一次二分类,每一次二分类就产生一个概率,将这些概率乘起来,作为所需的条件概率,即:
Figure BDA0001788959820000041
其中
Figure BDA0001788959820000042
式中
pw:从根节点到w对应叶子节点的路径
lw:路径pw中包含的节点个数
Figure BDA0001788959820000043
路径pw中第j个非根节点对应的编码
Figure BDA0001788959820000044
路径pw中第j个非叶子节点对应的向量
σ(x)为sigmoid函数,即
Figure BDA0001788959820000045
-∞<x<+∞
损失函数定义为:
Figure BDA0001788959820000046
Figure BDA0001788959820000047
为词典记
Figure BDA0001788959820000048
则梯度下降的更新公式为:
Figure BDA0001788959820000049
式中w'∈Context(w),η表示学习率,v(w')是上下文中某一个单词的词向量
B4)使得Loss函数的值不断上升,当梯度小于指定阈值时,则认为Loss不再上升,结束此步骤,
B5)对神经网络模型语料中的所有词重复步骤B3)和B4),得到训练完善的神经网络模型,
其中神经网络模型语料是神经网络模型在训练时输入的数据集。
附图说明
图1为本发明实施例中基于语义相似性的个性化中医诊疗信息和中成药信息智能匹配方法建立的流程图;
图2为根据本发明的一个实施例的应用于个性化中医诊疗信息和中成药信息智能匹配的流程图;
具体实施方式
本发明实施例以慢性浅表性胃炎和慢性萎缩性胃炎的中成药治疗为背景,如图1所示,首先建立中西医术语语料库和中药相关术语语料库,基于两个语料库将需要用于训练的数据分词,从而构建神经网络模型的语料,最后通过神经网络模型语料训练神经网络模型,提取出症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系。在此基础上,定义个性化中医诊疗信息和中成药适应症、禁忌症信息的匹配,其中诊疗信息和适应症的匹配包括适应症语义相似性得分、适应症关键动词匹配、适应症关键证候术语匹配和适应症关键疾病术语匹配,诊疗信息和禁忌症的匹配包括禁忌症术语匹配。最终,对匹配结果进行打分排序,实现个性化中医诊疗信息和中成药信息智能匹配。
实施例:
一种基于语义相似性的个性化中医诊疗信息和中成药信息智能匹配方法,包括如下步骤:
一、建立中西医术语语料库
中西医术语语料库包含六个部分:(1)中医四诊名词术语(2)中医临床诊疗术语(3)慢性胃炎、慢性萎缩性胃炎和慢性浅表性胃炎中医诊疗专家共识意见里的相关术语(4)慢性胃炎临床诊疗指标术语(5)西医术语(6)中西医停用词。
需要特别指出的是,中医四诊名词术语不仅可以来自于传统的医生判断,也可以来自于个体化中西医信息采集的分析结果,例如舌诊仪采集的舌象信息的分析结果、脉诊仪采集的脉象信息的分析结果、智能问诊结果等。中西医术语语料库的具体内容如表1所示:
表1.中西医术语语料库所含信息
Figure BDA0001788959820000051
注:本文中的中西医停用词主要指常用于药品说明书或者临床诊断结果中、没有实际医学含义、对于本研究没有实际帮助的词,这些词在后续分析中被过滤掉。
二、建立中药相关术语语料库
中药相关术语语料库包含三个部分:(1)功效术语(2)主治术语(3)禁忌症术语。具体内容如表2所示:
表2.中药相关术语语料库所含信息
Figure BDA0001788959820000052
Figure BDA0001788959820000061
本实施例的分词算法采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS[12]。ICTCLAS支持自定义语料库,本发明所采用的语料库即为自定义的、具有以上的“建立中西医术语语料库”和“建立中药相关术语语料库”部分所说明的内容的语料库。
如表3所示,某中成药的适应症信息为“用于肝胃不和,瘀热阻络所致的胃脘疼痛、嗳气、吞酸、嘈杂、饮食不振、燥烦易怒等,以及胃溃疡、慢性浅表性胃炎见上述证候者”。在引入自定义语料库前,中医证候术语肝胃不和和瘀热阻络,中医症状术语胃脘疼痛、嗳气、吞酸、饮食不振和易怒,西医疾病术语慢性浅表性胃炎等均未被ICTCLAS识别出来,而在引入上述自定义的语料库之后,这些术语均被正确识别出来。
表3.中成药适应症信息在自定义语料库引入前后的分词效果对比
Figure BDA0001788959820000062
三、构建神经网络模型语料
神经网络模型语料是神经网络模型在训练时输入的数据集。本发明中,神经网络模型的训练主要是从大量具有特定语义的文字材料中提取出词语之间的关系,因此神经网络模型在训练时要求其输入数据格式为特定分隔符分割的词语,所以需要先将文字材料做分词处理。基于建立的“中西医术语语料库”和“中药相关术语语料库”,使用ICTCLAS将中医临床诊疗术语国家标准(证候部分)、中成药药品说明书里的适应症信息、胃炎相关中医专家共识意见里的辨证信息分词,分词结果作为神经网络模型训练的语料。神经网络模型语料实际上是由一个个词构成的,但是各个词之间仍然按照原始文字材料中的顺序排列,所以保留了原有的语义关系。将神经网络模型语料中的所有词去除重复之后便得到神经网络模型的词典,记为
Figure BDA0001788959820000063
通过训练神经网络模型,提取出这些材料里的症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系,从而在此基础上实现术语语义相似性的计算和胃炎个性化中医诊疗信息和中成药信息的智能匹配。
四、训练神经网络模型
神经网络模型的结构分为输入层、投影层和输出层,其中:
输入层:
输入层中,输入词w的上下文向量Context(w),Context(w)由词前后各c个,共 2c个词向量组成,即输入层的大小为2c。其中c需要根据实际情况进行确定,本发明的c取为8,即词w的上下文Context(w)的为16个词的词向量。这主要是考虑到神经网络模型语料具有以下两个特点:(1)中医临床诊疗术语国家标准(证候部分) 里的舌诊、脉诊信息距离其对应的中医证候术语一般较远。例如,证候肝胃不和证表述为“肝胃不和证肝气郁滞,横逆犯胃,胃失和降,以胃脘、胁肋胀满疼痛,嗳气、呃逆、吞酸,情绪抑郁,不欲食,苔薄黄,脉弦等为常见症的证候”,可以看出舌诊、脉诊信息“苔薄黄,脉弦”距离“肝胃不和”较远,而舌诊、脉诊信息在临床辨证中具有重要作用。(2)中成药适应症信息的关键词距离对其进行表述的词一般较远。例如中成药三九胃泰颗粒的适应症信息表述为“清热燥湿,行气活血,柔肝止痛,消炎止痛,理气健脾。用于肝胃不和气滞、湿热内蕴、气滞血瘀所致的胃痛,症见脘腹隐痛、饱胀反酸、恶心呕吐、嘈杂纳减;浅表性胃炎、糜烂性胃炎、萎缩性胃炎见上述证候者”,可以看出关键词“浅表性胃炎”距离对其进行描述的词“肝胃不和”、“气滞”、“湿热”、“胃痛”等较远,而这些症状的出现又和该疾病密切相关。
投影层:投影层用于将输入层的2c个向量累加求和,即
Figure BDA0001788959820000071
m为词向量维度,本发明中c=8,m=200
输出层:以神经网络模型语料中出现过的词语作为叶子节点,以各词在语料中出现过的次数作为权值构造出Huffman树。输出层采用Hierarchical softmax技术。Hierarchical softmax将计算单个词语概率值的过程被拆解为一系列的概率计算,从而避免对所有词语进行标准化计算,降低计算复杂度,提高预测速度。对于词典
Figure BDA0001788959820000072
中的任意词w,Huffman树中比存在一条从根节点到词w对应节点的路径pw,且路径上存在lw-1个分支,将每个分支看作一次二分类,每一次二分类就产生一个概率,将这些概率乘起来,就是所需的条件概率,即:
Figure BDA0001788959820000073
其中
Figure BDA0001788959820000074
式中
pw:从根节点到w对应叶子节点的路径
lw:路径pw中包含的节点个数
Figure BDA0001788959820000075
路径pw中第j个非根节点对应的编码
Figure BDA0001788959820000076
路径pw中第j个非叶子节点对应的向量
σ(x)为sigmoid函数,即
Figure BDA0001788959820000077
-∞<x<+∞
损失函数定义为:
Figure BDA0001788959820000078
Figure BDA0001788959820000079
为词典记
Figure BDA00017889598200000710
则梯度下降的更新公式为:
Figure BDA00017889598200000711
式中w'∈Context(w),η表示学习率,v(w')是上下文中某一个单词的词向量
使得Loss函数的值不断上升。当梯度小于指定阈值时,则认为Loss不再上升,则结束词w的训练。对
Figure BDA00017889598200000712
中的所有词重复以上训练过程,得到训练完善的神经网络模型。神经网络模型训练完成之后,
Figure BDA00017889598200000713
中的每个词都用一个维度为m=200的向量来表示,因而可以用高维向量空间上的相似度来表示词之间语义上的相似度。
五、基于语义相似性匹配个性化中医诊疗信息和中成药信息
1、基于中西医术语语料库和中药相关术语语料库,采用ICTCLAS分别将胃炎个性化中医诊疗信息、中成药适应症和禁忌症信息分词,分别得分词结果a、b和c。 a、b和c均过滤掉无关词,也即停用词;
2、首先,计算适应症匹配得分。基于上述训练完成的神经网络模型,计算a中每个词和b中每个词之间的相似性,累加相似性作为适应症语义相似性得分。相似性的定义为余弦相似性。在神经网络模型的训练过程中,词向量的维度为m=200,则两个词之间的相似性定义为词向量之间的夹角余弦值:
Figure BDA0001788959820000081
其中A、B都为词向量,维度都为200
3、如果b所含动词能够和a中的症状信息匹配,例如a中出现了症状“胃胀”字样,而b中包含了“消胀”字样,则匹配成功;将所有动词信息加权求和,作为适应症关键动词匹配得分;
4、如果b中直接包含了a中的关键证候术语,例如“肝胃不和”字样,则得分乘以关键证候术语出现之后的扩增权重;
5、如果b中直接包含了a中的关键疾病术语,例如“慢性浅表性胃炎”字样,则得分乘以关键疾病术语出现之后的扩增权重;
6、其次,计算禁忌症惩罚得分。计算a和c中词两两之间的相似性,得到相似性矩阵。相似性矩阵的行数为a的长度,列数为c的长度,相似性矩阵中的值表示词之间的相似性,相似性仍然采用余弦相似性计算。如果相似性矩阵里的最大值超过设定阈值,则乘以指定惩罚权重,作为禁忌症惩罚得分,否则不做更改。例如,a 为(“前列腺肥大”,“肝胃不和”),c为(“前列腺肥大”,“肝肾功能不全”,“脾胃湿热”),惩罚阈值为0.8,则相似性矩阵为
Figure BDA0001788959820000082
相似性矩阵里的最大值为1,超过了惩罚阈值0.8,即认为a出现了c里的某一条禁忌,在这里,矩阵里的最大值1指的就是第一行第一列的“前列腺肥大”,因此对该中成药得分进行惩罚;
7、根据匹配的打分规则计算最终的个性化中医诊疗信息和中成药信息的匹配得分Score,根据Score将所有中成药从高到低排序。
匹配的打分规则公式化表示如下:
Score=适应症匹配得分*禁忌症术语出现之后的惩罚权重
=(基于训练完成的神经网络模型的适应症语义相似性得分+适应症关键动词匹配得分)*关键证候术语出现之后的扩增权重*关键疾病术语出现之后的扩增权重*禁忌症术语出现之后的惩罚权重
Figure BDA0001788959820000083
其中,
a:胃炎个性化中医诊疗信息分词结果
b:中成药适应症信息分词结果
c:中成药禁忌症信息分词结果
Score:匹配得分
Figure BDA0001788959820000091
a和b在神经网络模型中的语义相似性得分之和
Figure BDA0001788959820000092
n是匹配上的动词的个数,vi是第i个匹配上的动词,wi是第i个动词的权重
Z:关键证候术语出现之后的扩增权重,Z>1
D:关键疾病术语出现之后的扩增权重,D>1
max(similaritymatrix(a,c)):a和c相似性矩阵中的最大值
J:禁忌症术语匹配成功与否的阈值
Jw:禁忌症术语出现之后的惩罚权重,Jw<1
δ(max(similaritymatrix(a,c)),J)*Jw:如果a和c的相似性矩阵中的最大值超过指定阈值,即认为胃炎个性化中医诊疗信息包含了中成药禁忌症里的某一条禁忌,则对该中成药的最终得分进行惩罚,否则不做更改,即
Figure BDA0001788959820000093
通过采用上述方法,可以快速有效地实现上述所说的基于语义相似性的个性化中医诊疗信息和中成药信息智能匹配。
图2是根据本发明的一个实施例的一个应用。首先建立中成药信息数据库、获取个性化中医诊疗信息并进行必要的预处理,然后基于训练好的神经网络模型计算适应症语义相似性得分。在此基础上,定义适应症关键动词匹配、适应症关键证候术语匹配、适应症关键疾病术语匹配和禁忌症术语匹配,从而实现胃炎个性化中医诊疗信息和中成药信息的智能匹配。内容包括:
中成药信息数据库包含的中成药信息有药品名称、药品类型、适应症、规格、用法用量、禁忌、不良反应、注意事项和药物相互作用信息。本发明使用的主要是中成药的适应症信息和禁忌症信息,如表4所示,中成药胃疡灵颗粒的适应症信息为“温中益气,缓急止痛。用于脘腹胀痛,喜温,喜按,食少,乏力,适用于慢性胃炎有上述症状者”,禁忌症信息为“胃部灼热,口苦反酸者忌用”。中成药信息来源为国家人口与健康科学数据共享平台药学数据中心3370个,胃炎相关中医诊疗专家共识意见21个。
表4.中成药信息数据库结构和举例
Figure BDA0001788959820000094
Figure BDA0001788959820000101
本发明人从皖南医学院附属弋矶山医院搜集临床中共113例胃炎患者个性化中医诊疗信息,其示例如表5所示。病例的中医诊断的证候有肝胃气滞等,症状有胃脘痛等,西医诊断结果有慢性浅表性胃炎等。特别地,中医诊疗的症状信息包含舌象和脉象信息。除此之外,病例信息中也可能包含胃炎相关临床诊疗指标信息,例如肠化、萎缩等。对胃炎个性化中医诊疗信息进行的预处理主要包括统一医学术语名称、去除不必要的符号等,例如将“胃脘痛病”和“胃脘痛”统一为“胃脘痛”、将多余的“;”去除。
表5.胃炎个性化中医诊疗信息示例表
Figure BDA0001788959820000102
针对每个胃炎病例,提取胃炎个性化中医诊疗信息,选取匹配得分最高的前10 位中成药作为最终的匹配中成药,且只要有一个确认正确匹配就认为是匹配成功。 113个病例中,共确认匹配成功的有96个,匹配成功的百分比为85%。匹配结果的判断标准为:先对胃炎个性化中医诊疗信息进行辨证,然后参考中成药药品说明书的功能主治和药物组成特点,同时参考《中成药临床应用指导原则》,慢性胃炎、慢性浅表性胃炎和慢性萎缩性胃炎的中医诊疗专家共识意见。表6是应用案例,包括病例信息、匹配结果和确认依据。
表6.根据本发明实施例的应用案例一
Figure BDA0001788959820000103
Figure BDA0001788959820000111
相比于传统的匹配方法,本发明的主要优势在于:(1)个性化中医诊疗信息和中药信息的匹配是建立在语义关系基础之上的。通过训练神经网络模型,提取出已有知识中症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系,在语义关系的基础上定义术语之间的语义相似性,从而实现个性化中医诊疗信息和中药信息的智能匹配,而不是直接地使用“有或无”的方法来进行文字字符匹配。(2)个性化中医诊疗信息既有中医诊断信息也有西医诊断信息,提高辨证辨病的把握。特别地,中医诊断信息包括舌脉等中医四诊信息,西医诊断结果还可能包含临床诊疗指标信息,因此本发明为舌诊仪、脉诊仪、胃镜等现代医学技术应用于个性化中医诊疗信息和中药信息的匹配、指导临床诊断和治疗提供了可能。(3)实现动词匹配,增加了匹配的方向性,例如个性化中医诊断信息包含“胃寒”,则匹配具有“温中”功效的中药。(4)在上述匹配的基础之上,通过关键证候术语匹配、关键疾病术语匹配和禁忌症术语匹配,进一步放大正确的匹配结果、惩罚具有违禁用药风险的匹配结果。
参考文献
[1]卫生部.中成药临床应用指导原则[Z][J].2010.
[2]李木元.“中成药合理使用与上市后再评价”研讨会举行[N].人民政协报,2012-04-14(A02).
[3]吕爱平,王丽颖.加强中成药合理使用的建议[J].中国中药杂志,2011, 36(20):2762-2763.
[4]刘振平.一种药品推荐方法[P].山东:CN106202893A,2016-12-07.
[5]袁洪,刘星,陈翎,李莹,贺婷,吴俏玉,李雪.基于文献数据的药物推荐方法、装置及服务器[P].湖南:CN106156482A,2016-11-23.
[6]李学明,邹林霖,刘星,贺婷,李莹,吴俏玉,徐娜娜,李雪,袁洪.基于临床数据的药物推荐方法、推荐装置及服务器[P].湖南:CN106919804A,2017-07-04.
[7]曹庆恒.一种智能选药的方法、系统和设备[P].北京:CN104584021A,2015-04-29.
[8]张声生,唐旭东,黄穗平,卞立群.慢性胃炎中医诊疗专家共识意见(2017)[J].中华中医药杂志,2017,32(07):3060-3064.
[9]张声生,李乾构,唐旭东,王萍,李振华.慢性萎缩性胃炎中医诊疗共识意见[J].中医杂志,2010,51(08):749-753.
[10]张声生,李乾构,黄穗平,黄绍刚.慢性浅表性胃炎中医诊疗共识意见(2009,深圳)[J].中国中西医结合消化杂志,2010,18(03):207-209.
[11]房静远,刘文忠,李兆申,杜亦奇,纪小龙,戈之铮,李延青,姒健敏,吕农华,吴开春,陈萦,萧树东.中国慢性胃炎共识意见(2012年,上海)[J].中国医学前沿杂志(电子版),2013,5(07):44-55.
[12]刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004(08):1421-1429.。

Claims (9)

1.一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于包括:
1)基于中西医术语语料库和中药相关术语语料库,采用ICTCLAS分别将胃炎个性化中医诊疗信息、中药的适应症和禁忌症信息分词,分别得分词结果a、b和c,
其中a、b和c均过滤掉无关词即停用词;
2)首先,计算适应症匹配得分,包括:基于训练完成的神经网络模型,计算a中每个词和b中每个词之间的相似性,累加相似性作为适应症语义相似性得分,相似性的定义为余弦相似性,在神经网络模型的训练过程中,词向量的维度为m=200,则两个词之间的相似性定义为词向量之间的夹角余弦值:
Figure FDA0003307845630000011
其中:
A、B都为词向量,维度都为200,
当b所含动词能够和a中的症状信息匹配时,则匹配成功;将所有动词信息加权求和,作为适应症关键动词匹配得分;
当b中直接包含了a中的关键证候术语时,则适应症匹配得分乘以关键证候术语出现之后的扩增权重;
当b中直接包含了a中的关键疾病术语时,则适应症匹配得分乘以关键疾病术语出现之后的扩增权重;
3)其次,计算禁忌症惩罚得分,包括:计算a中的词和c中的词两两之间的相似性,得到相似性矩阵,相似性矩阵的行数为a的长度,列数为c的长度,相似性矩阵中的值表示词之间的相似性,相似性仍然采用余弦相似性计算,
其中,当相似性矩阵的元素的最大值超过了一个预定的惩罚阈值时,即认为a出现了c里的某一条禁忌,把适应症匹配得分乘以一个预定的惩罚权重,否则不做更改;
4)根据匹配的打分规则计算最终的个性化中医诊疗信息和中药信息的匹配得分Score,根据Score将所有中药从高到低排序,包括:
令:
Figure FDA0003307845630000012
Figure FDA0003307845630000013
其中,
a:胃炎个性化中医诊疗信息分词结果,
b:中药适应症信息分词结果,
c:中药禁忌症信息分词结果,
Score:匹配得分,
Figure FDA0003307845630000021
a和b在神经网络模型中的语义相似性得分之和,
Figure FDA0003307845630000022
n是匹配上的动词的个数,vi是第i个匹配上的动词,wi是第i个动词的权重,
Z:关键证候术语出现之后的扩增权重,Z>1,
D:关键疾病术语出现之后的扩增权重,D>1,
max(similaritymatrix(a,c)):a和c相似性矩阵中的最大值,
J:禁忌症术语匹配成功与否的阈值,
Jw:禁忌症术语出现之后的惩罚权重,Jw<1,
δ(max(similaritymatrix(a,c)),J)*Jw:如果a和c的相似性矩阵中的最大值超过指定阈值,即认为胃炎个性化中医诊疗信息包含了中药禁忌症里的某一条禁忌,则对该中药的最终得分进行惩罚,否则不做更改,即:
Figure FDA0003307845630000023
2.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于神经网络模型结构如下:
A)把神经网络模型的结构分为输入层、投影层和输出层,其中:
在输入层中,输入词w的上下文向量Context(w),Context(w)由词前后各c1个,共2c1个词向量组成,即输入层的大小为2c1
投影层用于将输入层的2c1个向量累加求和,即
Figure FDA0003307845630000024
m为词向量维度,
B)在输出层中:
B1)以神经网络模型语料中出现过的词语作为叶子节点,以各词在语料中出现过的次数作为权值构造出Huffman树,
B2)采用Hierarchical softmax技术,将计算单个词语概率值的过程拆解为一系列的概率计算,从而避免对所有词语进行标准化计算,
B3)对于神经网络模型语料中的一个词w,Huffman树中必存在一条从根节点到词w对应节点的路径pw,且路径上存在lw-1个分支,将每个分支看作一次二分类,每一次二分类就产生一个概率,将这些概率乘起来,作为所需的条件概率,即:
Figure FDA0003307845630000031
其中
Figure FDA0003307845630000032
式中:
pw:从根节点到w对应叶子节点的路径,
lw:路径pw中包含的节点个数,
Figure FDA0003307845630000033
路径pw中第j个非根节点对应的编码,
Figure FDA0003307845630000034
路径pw中第j个非叶子节点对应的向量,
σ(x)为sigmoid函数,即
Figure FDA0003307845630000035
损失函数定义为:
Figure FDA0003307845630000036
C为词典,
Figure FDA0003307845630000037
则梯度下降的更新公式为:
Figure FDA0003307845630000038
式中w'∈Context(w),η表示学习率,v(w')是上下文中某一个单词的词向量,
B4)使得Loss函数的值不断上升,当梯度小于指定阈值时,则认为Loss不再上升,结束此步骤,
B5)对神经网络模型语料中的所有词重复步骤B3)和B4),得到训练完善的神经网络模型,
其中神经网络模型语料是神经网络模型在训练时输入的数据集。
3.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于中西医术语语料库包含如下内容:
中医四诊名词术语,其不仅可以来自于传统的医生判断,也可以来自于个体化中西医信息采集的分析结果,包括舌诊仪采集的舌象信息的分析结果、脉诊仪采集的脉象信息的分析结果、智能问诊结果,
中医临床诊疗术语,
慢性胃炎、慢性萎缩性胃炎和慢性浅表性胃炎中医诊疗专家共识意见里的相关术语,
慢性胃炎临床诊疗指标术语,
西医术语,
中西医停用词。
4.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于中药相关术语语料库包含如下内容:
功效术语,
主治术语,
禁忌症术语。
5.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于:
基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法能够提取出包括舌脉的中医四诊信息和其他中西医术语之间的语义关系,从而实现舌脉等中医四诊信息用于个性化中医诊疗信息和中药信息智能匹配。
6.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于:
基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法能够提取出临床诊疗指标信息和其他中西医术语之间的语义关系,从而实现临床诊疗指标信息用于个性化中医诊疗信息和中药信息智能匹配。
7.根据权利要求2所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于神经网络模型语料是以如下方式建立的:
基于预先建立的中西医术语语料库和中药相关术语语料库,使用分词算法ICTCLAS,将包括中医临床诊疗术语国家标准的证候部分、中成药药品说明书里的适应症信息、胃炎相关中医专家共识意见里的辨证信息分词,分词的结果作为神经网络模型训练的语料。
8.根据权利要求2所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法,其特征在于:
取c1=8,m=200。
9.存储有计算机程序的计算机可读存储介质,该计算机程序能使处理器执行根据权利要求1-8之一所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。
CN201811027747.0A 2018-09-04 2018-09-04 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 Active CN110929511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811027747.0A CN110929511B (zh) 2018-09-04 2018-09-04 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811027747.0A CN110929511B (zh) 2018-09-04 2018-09-04 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法

Publications (2)

Publication Number Publication Date
CN110929511A CN110929511A (zh) 2020-03-27
CN110929511B true CN110929511B (zh) 2021-12-17

Family

ID=69855821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811027747.0A Active CN110929511B (zh) 2018-09-04 2018-09-04 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法

Country Status (1)

Country Link
CN (1) CN110929511B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477295B (zh) * 2020-04-10 2022-06-03 电子科技大学 一种基于隐语义模型的中医组方推荐方法及系统
CN111653342A (zh) * 2020-04-10 2020-09-11 上海医修哥网络科技股份有限公司 一种新型冠状病毒肺炎的中医人工智能临床辅助诊疗系统
CN111785344A (zh) * 2020-06-04 2020-10-16 河南中医药大学 基于中医药领域专业词向量的中药处方用药安全检测方法
CN111667917A (zh) * 2020-06-10 2020-09-15 北京小白世纪网络科技有限公司 一种基于神经网络实现中医诊疗的方法、系统及设备
CN111643056B (zh) * 2020-06-11 2022-11-25 康键信息技术(深圳)有限公司 数据处理方法及系统
CN112022140B (zh) * 2020-07-03 2023-02-17 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及系统
CN112420192B (zh) * 2020-11-26 2023-12-15 清华大学 融合多维诊疗信息的疾病分型方法及相关设备
CN113486165A (zh) * 2021-07-08 2021-10-08 山东新一代信息产业技术研究院有限公司 一种用于云化机器人的faq自动问答方法、设备及介质
CN114171164A (zh) * 2021-07-14 2022-03-11 上海中医药大学附属岳阳中西医结合医院 一种早期乳腺癌化疗期中医辨证分型系统及其构建方法和应用
CN114283925B (zh) * 2022-01-17 2024-08-20 厦门大学 一种智能方剂推荐方法和存储介质
CN115455149B (zh) * 2022-09-20 2023-05-30 城云科技(中国)有限公司 基于编码查询方式的数据库构建方法及其应用
CN115631871B (zh) * 2022-12-22 2023-03-24 北京大学第三医院(北京大学第三临床医学院) 一种药物相互作用等级的确定方法和装置
CN117438104B (zh) * 2023-12-21 2024-03-22 成都市第一人民医院 一种智能药品预警方法、电子设备以及计算机存储介质
CN118430737B (zh) * 2024-07-04 2024-09-20 北京鹰之眼智能健康科技有限公司 一种基于偏序结构图的排序处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法
CN104572624A (zh) * 2015-01-20 2015-04-29 浙江大学 一种基于词向量发现单味药与疾病之间的治疗关系的方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107863147A (zh) * 2017-10-24 2018-03-30 清华大学 基于深度卷积神经网络的医疗诊断的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332395B2 (en) * 2010-02-25 2012-12-11 International Business Machines Corporation Graphically searching and displaying data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法
CN104572624A (zh) * 2015-01-20 2015-04-29 浙江大学 一种基于词向量发现单味药与疾病之间的治疗关系的方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107863147A (zh) * 2017-10-24 2018-03-30 清华大学 基于深度卷积神经网络的医疗诊断的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
海量医疗信息系统推荐技术研究;刘辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170515(第2017年5期);I138-1208 *

Also Published As

Publication number Publication date
CN110929511A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929511B (zh) 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN109299239B (zh) 一种基于es的电子病历检索方法
Zhang et al. Artificial intelligence–based traditional Chinese medicine assistive diagnostic system: validation study
Wang et al. A knowledge graph enhanced topic modeling approach for herb recommendation
CN117077786A (zh) 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法
CN112182168B (zh) 病历文本分析方法、装置、电子设备及存储介质
Kazemi et al. A comparative study on content-based paper-to-paper recommendation approaches in scientific literature
Zhang et al. Information extraction from the text data on traditional Chinese medicine: a review on tasks, challenges, and methods from 2010 to 2021
CN116092699A (zh) 一种基于预训练模型的癌症问答交互方法
Li et al. Text similarity measurement method and application of online medical community based on density peak clustering
Liu et al. Deep neural network-based recognition of entities in Chinese online medical inquiry texts
CN112635072A (zh) 基于相似度计算的icu相似病例检索方法、系统及存储介质
Feng et al. A Chinese question answering system in medical domain
Zhang et al. Transformer-and generative adversarial network–based inpatient traditional Chinese medicine prescription recommendation: development study
Saxena et al. Large-scale knowledge synthesis and complex information retrieval from biomedical documents
Yang et al. LMKG: A large-scale and multi-source medical knowledge graph for intelligent medicine applications
Jia et al. Traditional Chinese medicine symptom normalization approach leveraging hierarchical semantic information and text matching with attention mechanism
Gayathri et al. Ontology based Indian medical system
Noh et al. Document retrieval for biomedical question answering with neural sentence matching
Agarwal et al. Convtab: A context-preserving, convolutional model for ad-hoc table retrieval
Liu et al. A knowledge-based health question answering system
Du et al. Automatic extraction of clinical symptoms in traditional Chinese medicine for electronic medical records
CN115376658A (zh) 一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法
Wang et al. Extracting clinical entities and their assertions from chinese electronic medical records based on machine learning
Dasgupta et al. Extracting semantic aspects for structured representation of clinical trial eligibility criteria

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant