CN110929511B

CN110929511B - 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法

Info

Publication number: CN110929511B
Application number: CN201811027747.0A
Authority: CN
Inventors: 李梢; 周武爱; 赖新星; 吴敏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2021-12-17
Anticipated expiration: 2038-09-04
Also published as: CN110929511A

Abstract

本发明提供一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。本方法首先训练神经网络模型，提取出症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系。在此基础上，定义个性化中医诊疗信息和中药(中成药)适应症、禁忌症信息的匹配，其中诊疗信息和适应症的匹配包括适应症的语义相似性得分、关键动词匹配、关键证候术语匹配和关键疾病术语匹配，诊疗信息和禁忌症的匹配包括禁忌症术语匹配。本方法在语义关系的基础上，通过一系列关键术语匹配，放大正确的匹配结果、惩罚具有违禁用药风险的匹配结果，从而实现个性化中医诊疗信息和中药或中成药信息的智能匹配，有望降低临床上中药或中成药不合理使用率。

Description

一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法

技术领域

本发明涉及一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。

背景技术

中医“四诊”是望、闻、问、切四种诊察疾病或证候方法的概括，体现了医者的思维过程，是医者主观思维对人体状态变化的综合识别。中医“四诊”信息反映人体的形、神内容，反映人体状态的变化，为辨证论治提供可靠依据。现代医学技术给人类健康事业带来巨大进步的同时，也为中医药从中医学与现代技术相结合、宏观与微观相结合、辨证与辨病相结合等方面进行诊断和治疗疾病提供了技术支持。例如，传统的舌诊、脉诊主要依赖于临床医师的主观判断和个人经验及环境等的束缚，而现代化的舌象、脉象信息的数字化分析能够为慢性胃炎等疾病的中医临床辨证分型和疗效评价提供客观依据。再例如，慢性胃炎辨病存在一定难度，故临床须结合胃镜的微观望诊，而在中医诊疗中，借助胃镜则能提高慢性胃炎辨证的准确性。因此，中医的发展也应吸收西医的优势，中医在诊疗病人的同时，也应适当应用西医诊疗信息，即获取病人的个性化中医诊疗信息是精确把握病人状态的关键。

中成药也是中药，中成药是在中医药理论指导下，以中药饮片为原料，按规定的处方和标准制成具有一定规格的剂型，可直接用于防治疾病的制剂^[1]。中成药有着悠久的历史，应用广泛，在防病治病、保障健康方面发挥了重要作用。然而，目前临床上不合理使用中成药的现象较为突出。2012年4月13日，由人民政协报社主办的“中成药合理使用与上市后再评价”研讨会上指出，据不完全统计，我国约70％的中成药是综合医院的西医医师开出，临床中成药不合理使用率最高达四成^[2]。不合理使用主要表现在辨证不准、用法用量不当、违禁用药、联合用药不合理、疗程不明确等方面^[3]。中成药的处方是针对某种病证或症状，依据中医理论制定的，因此使用时要依据中医理论辨证选药，或辨病辨证结合选药。同时，中成药的使用也应充分重视药品说明书禁忌症信息，以期最大程度地减少因违反用药禁忌而导致的中成药不合理使用现象。因此，如何建立患者诊疗信息和中药或中成药信息之间的关系，实现二者的合理有效匹配，成为降低中成药不合理使用率的关键。

目前，在患者诊疗信息和药物信息的匹配方面已经取得了一定进展。刘振平^[4]将患者诊疗信息和药物适应症信息中匹配上的病症特征个数定义为“匹配度”，从而初步实现药物的筛选，并在此基础上根据药物禁忌信息和副反应信息实现再次筛选。袁洪等^[5]从特定疾病患者的临床数据出发，通过限定关键词建立与某一疾病患者相关的索引数据库，提取每个患者的编号、医生、科室、生命体征、诊断、药物、检验信息。同时建立衡量与所述某一疾病相关的药物有效性的数据指标。根据提取的信息和数据指标构建加权星型异构数据模型，对加权星型异构数据模型进行排序，获取适合某一疾病患者的药物的排名信息。李学明等^[6]则从文献信息出发，通过限定医学主题词表来建立与高血压某一类特殊人群相关的文章的摘要数据库，提取每篇与高血压某一类特殊人群相关的文章中的文章、作者、期刊、出版物类型和各类降压药物的信息；建立衡量与高血压某一类特殊人群相关的文章质量的数据指标，根据提取的信息和数据指标构建加权异构图形，对加权异构图形排序,获取适合所述高血压某一类特殊人群的降压药物排名信息。曹庆恒^[7]将患者的医学要素信息和药物的药学要素信息进行匹配比对，实现智能选药。以上匹配方法仍然是文字字符匹配，即在方法层面上，解决的仍然是“有或无”病症特征的问题，并没有从语义关系上进行匹配。

在语义关系的基础上进行个性化中医诊疗信息和中药信息的匹配，能够精准刻画患者状态，进而实现中药的智能匹配。就中成药信息里的适应症信息和禁忌症信息而言，考虑个性化中医诊疗信息和中成药适应症信息之间的语义关系，同时充分利用中成药禁忌症信息，从而合理有效地建立个性化中医诊疗信息和中成药适应症、禁忌症信息之间的关系，则有望能够实现个性化中医诊疗信息和中成药信息智能匹配。在临床应用中，个性化中医诊疗信息和中成药信息智能匹配有望为患者合理、有效、高效地推荐中成药，降低中成药不合理使用率。

本发明人认识到向量空间模型将词语表示为一个连续的词向量，并且语义接近的词语对应的词向量在空间上接近，从而把对文本内容的处理简化为向量空间中的向量运算。向量空间模型的基础为分布假说：如果两个词的上下文相同，那么这两个词所表达的语义也是一样的。进一步，词向量分布式表示的基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)，通过词之间的距离(比如余弦相似性、欧氏距离等)来判断它们之间的语义相似度。

本发明人进一步认识到神经网络是将词表征为实数值向量的高效工具。基于分布式表示思想，通过训练神经网络，可以把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。因此，训练神经网络输出的词向量可以被用来做很多自然语言处理相关的工作，比如聚类、找同义词、词性分析等等。基于目前的研究结果，可以通过神经网络提取中医术语的语义关系，从而在此基础上实现个性化中医诊疗信息和中药信息智能匹配。

综上所述，提出一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法是十分必须的。

发明内容

针对现有技术存在的不足，本发明的目的在于提出一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，从而在此基础上合理有效地建立个性化中医诊疗信息和中药信息之间的关系。

为实现上述目的，本发明提供如下技术方案：一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，包括如下步骤：

步骤一、建立中西医术语语料库。中西医术语语料库作为分词算法的语料来源。分词算法在该语料库的基础上，能够从输入信息中提取出有效的医学术语。

步骤二、建立中药相关术语语料库。中药相关术语语料库也作为分词算法的语料来源。分词算法在该语料库的基础上，能够从输入信息中提取出有效的药学术语。

步骤三、构建神经网络模型语料。神经网络模型语料主要作为神经网络模型训练的数据集。神经网络模型的训练的主要目的是提取出中医相关文字材料中词之间的语义关系，因此神经网络模型在训练时要求其输入数据格式为特定分隔符分割的词语，所以需要先将文字材料做分词处理，分词结果即为神经网络模型的语料。

步骤四、训练神经网络模型。症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间存在语义关系，通过神经网络模型的训练，提取出这些语义关系。

步骤五、基于语义相似性匹配个性化中医诊疗信息和中药信息。神经网络模型提取出出症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系。在此基础上，定义个性化中医诊疗信息和中药适应症、禁忌症信息的匹配，其中诊疗信息和适应症的匹配包括适应症语义相似性得分、适应症关键动词匹配、适应症关键证候术语匹配和适应症关键疾病术语匹配，诊疗信息和禁忌症的匹配包括禁忌症术语匹配。

通过采用上述技术方案，以上步骤的实施就可以快速有效的构建上述所说的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。

根据本发明的另一个方面，提供了一种面向个性化中医诊疗信息和中药信息智能匹配的神经网络模型的建模方法，其特征在于包括：

A)把神经网络模型的结构分为输入层、投影层和输出层，其中：

在输入层中，输入词w的上下文向量Context(w)，Context(w)由词前后各c个，共2c个词向量组成，即输入层的大小为2c，

投影层用于将输入层的2c个向量累加求和，即

m为词向量维度

B)在输出层中：

B1)以神经网络模型语料中出现过的词语作为叶子节点，以各词在语料中出现过的次数作为权值构造出Huffman树，

B2)采用Hierarchical softmax技术，将计算单个词语概率值的过程被拆解为一系列的概率计算，从而避免对所有词语进行标准化计算，

B3)对于神经网络模型语料中的一个词w，Huffman树中比存在一条从根节点到词w对应节点的路径p^w，且路径上存在l^w-1个分支，将每个分支看作一次二分类，每一次二分类就产生一个概率，将这些概率乘起来，作为所需的条件概率，即：

其中

式中

p^w：从根节点到w对应叶子节点的路径

l^w：路径p^w中包含的节点个数

路径p^w中第j个非根节点对应的编码

路径p^w中第j个非叶子节点对应的向量

σ(x)为sigmoid函数，即

-∞＜x＜+∞

损失函数定义为：

为词典记

则梯度下降的更新公式为：

式中w'∈Context(w)，η表示学习率，v(w')是上下文中某一个单词的词向量

B4)使得Loss函数的值不断上升，当梯度小于指定阈值时，则认为Loss不再上升，结束此步骤，

B5)对神经网络模型语料中的所有词重复步骤B3)和B4)，得到训练完善的神经网络模型，

其中神经网络模型语料是神经网络模型在训练时输入的数据集。

附图说明

图1为本发明实施例中基于语义相似性的个性化中医诊疗信息和中成药信息智能匹配方法建立的流程图；

图2为根据本发明的一个实施例的应用于个性化中医诊疗信息和中成药信息智能匹配的流程图；

具体实施方式

本发明实施例以慢性浅表性胃炎和慢性萎缩性胃炎的中成药治疗为背景，如图1所示，首先建立中西医术语语料库和中药相关术语语料库，基于两个语料库将需要用于训练的数据分词，从而构建神经网络模型的语料，最后通过神经网络模型语料训练神经网络模型，提取出症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系。在此基础上，定义个性化中医诊疗信息和中成药适应症、禁忌症信息的匹配，其中诊疗信息和适应症的匹配包括适应症语义相似性得分、适应症关键动词匹配、适应症关键证候术语匹配和适应症关键疾病术语匹配，诊疗信息和禁忌症的匹配包括禁忌症术语匹配。最终，对匹配结果进行打分排序，实现个性化中医诊疗信息和中成药信息智能匹配。

实施例：

一种基于语义相似性的个性化中医诊疗信息和中成药信息智能匹配方法，包括如下步骤：

一、建立中西医术语语料库

中西医术语语料库包含六个部分：(1)中医四诊名词术语(2)中医临床诊疗术语(3)慢性胃炎、慢性萎缩性胃炎和慢性浅表性胃炎中医诊疗专家共识意见里的相关术语(4)慢性胃炎临床诊疗指标术语(5)西医术语(6)中西医停用词。

需要特别指出的是，中医四诊名词术语不仅可以来自于传统的医生判断，也可以来自于个体化中西医信息采集的分析结果，例如舌诊仪采集的舌象信息的分析结果、脉诊仪采集的脉象信息的分析结果、智能问诊结果等。中西医术语语料库的具体内容如表1所示：

表1.中西医术语语料库所含信息

注：本文中的中西医停用词主要指常用于药品说明书或者临床诊断结果中、没有实际医学含义、对于本研究没有实际帮助的词，这些词在后续分析中被过滤掉。

二、建立中药相关术语语料库

中药相关术语语料库包含三个部分：(1)功效术语(2)主治术语(3)禁忌症术语。具体内容如表2所示：

表2.中药相关术语语料库所含信息

本实施例的分词算法采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS^[12]。ICTCLAS支持自定义语料库，本发明所采用的语料库即为自定义的、具有以上的“建立中西医术语语料库”和“建立中药相关术语语料库”部分所说明的内容的语料库。

如表3所示，某中成药的适应症信息为“用于肝胃不和，瘀热阻络所致的胃脘疼痛、嗳气、吞酸、嘈杂、饮食不振、燥烦易怒等，以及胃溃疡、慢性浅表性胃炎见上述证候者”。在引入自定义语料库前，中医证候术语肝胃不和和瘀热阻络，中医症状术语胃脘疼痛、嗳气、吞酸、饮食不振和易怒，西医疾病术语慢性浅表性胃炎等均未被ICTCLAS识别出来，而在引入上述自定义的语料库之后，这些术语均被正确识别出来。

表3.中成药适应症信息在自定义语料库引入前后的分词效果对比

三、构建神经网络模型语料

神经网络模型语料是神经网络模型在训练时输入的数据集。本发明中，神经网络模型的训练主要是从大量具有特定语义的文字材料中提取出词语之间的关系，因此神经网络模型在训练时要求其输入数据格式为特定分隔符分割的词语，所以需要先将文字材料做分词处理。基于建立的“中西医术语语料库”和“中药相关术语语料库”，使用ICTCLAS将中医临床诊疗术语国家标准(证候部分)、中成药药品说明书里的适应症信息、胃炎相关中医专家共识意见里的辨证信息分词，分词结果作为神经网络模型训练的语料。神经网络模型语料实际上是由一个个词构成的，但是各个词之间仍然按照原始文字材料中的顺序排列，所以保留了原有的语义关系。将神经网络模型语料中的所有词去除重复之后便得到神经网络模型的词典，记为

通过训练神经网络模型，提取出这些材料里的症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系，从而在此基础上实现术语语义相似性的计算和胃炎个性化中医诊疗信息和中成药信息的智能匹配。

四、训练神经网络模型

神经网络模型的结构分为输入层、投影层和输出层，其中：

输入层：

输入层中，输入词w的上下文向量Context(w)，Context(w)由词前后各c个，共 2c个词向量组成，即输入层的大小为2c。其中c需要根据实际情况进行确定，本发明的c取为8，即词w的上下文Context(w)的为16个词的词向量。这主要是考虑到神经网络模型语料具有以下两个特点：(1)中医临床诊疗术语国家标准(证候部分) 里的舌诊、脉诊信息距离其对应的中医证候术语一般较远。例如，证候肝胃不和证表述为“肝胃不和证肝气郁滞，横逆犯胃，胃失和降，以胃脘、胁肋胀满疼痛，嗳气、呃逆、吞酸，情绪抑郁，不欲食，苔薄黄，脉弦等为常见症的证候”，可以看出舌诊、脉诊信息“苔薄黄，脉弦”距离“肝胃不和”较远，而舌诊、脉诊信息在临床辨证中具有重要作用。(2)中成药适应症信息的关键词距离对其进行表述的词一般较远。例如中成药三九胃泰颗粒的适应症信息表述为“清热燥湿，行气活血，柔肝止痛，消炎止痛，理气健脾。用于肝胃不和气滞、湿热内蕴、气滞血瘀所致的胃痛，症见脘腹隐痛、饱胀反酸、恶心呕吐、嘈杂纳减；浅表性胃炎、糜烂性胃炎、萎缩性胃炎见上述证候者”，可以看出关键词“浅表性胃炎”距离对其进行描述的词“肝胃不和”、“气滞”、“湿热”、“胃痛”等较远，而这些症状的出现又和该疾病密切相关。

投影层：投影层用于将输入层的2c个向量累加求和，即

m为词向量维度，本发明中c＝8，m＝200

输出层：以神经网络模型语料中出现过的词语作为叶子节点，以各词在语料中出现过的次数作为权值构造出Huffman树。输出层采用Hierarchical softmax技术。Hierarchical softmax将计算单个词语概率值的过程被拆解为一系列的概率计算，从而避免对所有词语进行标准化计算，降低计算复杂度，提高预测速度。对于词典

中的任意词w，Huffman树中比存在一条从根节点到词w对应节点的路径p^w，且路径上存在l^w-1个分支，将每个分支看作一次二分类，每一次二分类就产生一个概率，将这些概率乘起来，就是所需的条件概率，即：

其中

式中

p^w：从根节点到w对应叶子节点的路径

l^w：路径p^w中包含的节点个数

路径p^w中第j个非根节点对应的编码

路径p^w中第j个非叶子节点对应的向量

σ(x)为sigmoid函数，即

-∞＜x＜+∞

损失函数定义为：

为词典记

则梯度下降的更新公式为：

使得Loss函数的值不断上升。当梯度小于指定阈值时，则认为Loss不再上升，则结束词w的训练。对

中的所有词重复以上训练过程，得到训练完善的神经网络模型。神经网络模型训练完成之后，

中的每个词都用一个维度为m＝200的向量来表示，因而可以用高维向量空间上的相似度来表示词之间语义上的相似度。

五、基于语义相似性匹配个性化中医诊疗信息和中成药信息

1、基于中西医术语语料库和中药相关术语语料库，采用ICTCLAS分别将胃炎个性化中医诊疗信息、中成药适应症和禁忌症信息分词，分别得分词结果a、b和c。 a、b和c均过滤掉无关词，也即停用词；

2、首先，计算适应症匹配得分。基于上述训练完成的神经网络模型，计算a中每个词和b中每个词之间的相似性，累加相似性作为适应症语义相似性得分。相似性的定义为余弦相似性。在神经网络模型的训练过程中，词向量的维度为m＝200，则两个词之间的相似性定义为词向量之间的夹角余弦值：

其中A、B都为词向量，维度都为200

3、如果b所含动词能够和a中的症状信息匹配，例如a中出现了症状“胃胀”字样，而b中包含了“消胀”字样，则匹配成功；将所有动词信息加权求和，作为适应症关键动词匹配得分；

4、如果b中直接包含了a中的关键证候术语，例如“肝胃不和”字样，则得分乘以关键证候术语出现之后的扩增权重；

5、如果b中直接包含了a中的关键疾病术语，例如“慢性浅表性胃炎”字样，则得分乘以关键疾病术语出现之后的扩增权重；

6、其次，计算禁忌症惩罚得分。计算a和c中词两两之间的相似性，得到相似性矩阵。相似性矩阵的行数为a的长度，列数为c的长度，相似性矩阵中的值表示词之间的相似性，相似性仍然采用余弦相似性计算。如果相似性矩阵里的最大值超过设定阈值，则乘以指定惩罚权重，作为禁忌症惩罚得分，否则不做更改。例如，a 为(“前列腺肥大”，“肝胃不和”)，c为(“前列腺肥大”，“肝肾功能不全”，“脾胃湿热”)，惩罚阈值为0.8，则相似性矩阵为

相似性矩阵里的最大值为1，超过了惩罚阈值0.8，即认为a出现了c里的某一条禁忌，在这里，矩阵里的最大值1指的就是第一行第一列的“前列腺肥大”，因此对该中成药得分进行惩罚；

7、根据匹配的打分规则计算最终的个性化中医诊疗信息和中成药信息的匹配得分Score，根据Score将所有中成药从高到低排序。

匹配的打分规则公式化表示如下：

Score＝适应症匹配得分*禁忌症术语出现之后的惩罚权重

＝(基于训练完成的神经网络模型的适应症语义相似性得分+适应症关键动词匹配得分)*关键证候术语出现之后的扩增权重*关键疾病术语出现之后的扩增权重*禁忌症术语出现之后的惩罚权重

其中，

a：胃炎个性化中医诊疗信息分词结果

b：中成药适应症信息分词结果

c：中成药禁忌症信息分词结果

Score：匹配得分

a和b在神经网络模型中的语义相似性得分之和

n是匹配上的动词的个数，v_i是第i个匹配上的动词，w_i是第i个动词的权重

Z：关键证候术语出现之后的扩增权重，Z＞1

D：关键疾病术语出现之后的扩增权重，D＞1

max(similaritymatrix(a,c))：a和c相似性矩阵中的最大值

J：禁忌症术语匹配成功与否的阈值

J_w：禁忌症术语出现之后的惩罚权重，J_w＜1

δ(max(similaritymatrix(a,c)),J)*J_w：如果a和c的相似性矩阵中的最大值超过指定阈值，即认为胃炎个性化中医诊疗信息包含了中成药禁忌症里的某一条禁忌，则对该中成药的最终得分进行惩罚，否则不做更改，即

通过采用上述方法，可以快速有效地实现上述所说的基于语义相似性的个性化中医诊疗信息和中成药信息智能匹配。

图2是根据本发明的一个实施例的一个应用。首先建立中成药信息数据库、获取个性化中医诊疗信息并进行必要的预处理，然后基于训练好的神经网络模型计算适应症语义相似性得分。在此基础上，定义适应症关键动词匹配、适应症关键证候术语匹配、适应症关键疾病术语匹配和禁忌症术语匹配，从而实现胃炎个性化中医诊疗信息和中成药信息的智能匹配。内容包括：

中成药信息数据库包含的中成药信息有药品名称、药品类型、适应症、规格、用法用量、禁忌、不良反应、注意事项和药物相互作用信息。本发明使用的主要是中成药的适应症信息和禁忌症信息，如表4所示，中成药胃疡灵颗粒的适应症信息为“温中益气，缓急止痛。用于脘腹胀痛，喜温，喜按，食少，乏力，适用于慢性胃炎有上述症状者”，禁忌症信息为“胃部灼热，口苦反酸者忌用”。中成药信息来源为国家人口与健康科学数据共享平台药学数据中心3370个，胃炎相关中医诊疗专家共识意见21个。

表4.中成药信息数据库结构和举例

本发明人从皖南医学院附属弋矶山医院搜集临床中共113例胃炎患者个性化中医诊疗信息，其示例如表5所示。病例的中医诊断的证候有肝胃气滞等，症状有胃脘痛等，西医诊断结果有慢性浅表性胃炎等。特别地，中医诊疗的症状信息包含舌象和脉象信息。除此之外，病例信息中也可能包含胃炎相关临床诊疗指标信息，例如肠化、萎缩等。对胃炎个性化中医诊疗信息进行的预处理主要包括统一医学术语名称、去除不必要的符号等，例如将“胃脘痛病”和“胃脘痛”统一为“胃脘痛”、将多余的“；”去除。

表5.胃炎个性化中医诊疗信息示例表

针对每个胃炎病例，提取胃炎个性化中医诊疗信息，选取匹配得分最高的前10 位中成药作为最终的匹配中成药，且只要有一个确认正确匹配就认为是匹配成功。 113个病例中，共确认匹配成功的有96个，匹配成功的百分比为85％。匹配结果的判断标准为：先对胃炎个性化中医诊疗信息进行辨证，然后参考中成药药品说明书的功能主治和药物组成特点，同时参考《中成药临床应用指导原则》，慢性胃炎、慢性浅表性胃炎和慢性萎缩性胃炎的中医诊疗专家共识意见。表6是应用案例，包括病例信息、匹配结果和确认依据。

表6.根据本发明实施例的应用案例一

相比于传统的匹配方法，本发明的主要优势在于：(1)个性化中医诊疗信息和中药信息的匹配是建立在语义关系基础之上的。通过训练神经网络模型，提取出已有知识中症状、舌脉等中医四诊信息、证候、疾病与中药或方剂的功效、治法等术语之间的语义关系，在语义关系的基础上定义术语之间的语义相似性，从而实现个性化中医诊疗信息和中药信息的智能匹配，而不是直接地使用“有或无”的方法来进行文字字符匹配。(2)个性化中医诊疗信息既有中医诊断信息也有西医诊断信息，提高辨证辨病的把握。特别地，中医诊断信息包括舌脉等中医四诊信息，西医诊断结果还可能包含临床诊疗指标信息，因此本发明为舌诊仪、脉诊仪、胃镜等现代医学技术应用于个性化中医诊疗信息和中药信息的匹配、指导临床诊断和治疗提供了可能。(3)实现动词匹配，增加了匹配的方向性，例如个性化中医诊断信息包含“胃寒”，则匹配具有“温中”功效的中药。(4)在上述匹配的基础之上，通过关键证候术语匹配、关键疾病术语匹配和禁忌症术语匹配，进一步放大正确的匹配结果、惩罚具有违禁用药风险的匹配结果。

参考文献

[1]卫生部.中成药临床应用指导原则[Z][J].2010.

[2]李木元.“中成药合理使用与上市后再评价”研讨会举行[N].人民政协报，2012-04-14(A02).

[3]吕爱平，王丽颖.加强中成药合理使用的建议[J].中国中药杂志，2011， 36(20):2762-2763.

[4]刘振平.一种药品推荐方法[P].山东：CN106202893A,2016-12-07.

[5]袁洪,刘星,陈翎,李莹,贺婷,吴俏玉,李雪.基于文献数据的药物推荐方法、装置及服务器[P].湖南：CN106156482A,2016-11-23.

[6]李学明,邹林霖,刘星,贺婷,李莹,吴俏玉,徐娜娜,李雪,袁洪.基于临床数据的药物推荐方法、推荐装置及服务器[P].湖南：CN106919804A,2017-07-04.

[7]曹庆恒.一种智能选药的方法、系统和设备[P].北京：CN104584021A,2015-04-29.

[8]张声生，唐旭东，黄穗平，卞立群.慢性胃炎中医诊疗专家共识意见(2017)[J].中华中医药杂志，2017，32(07):3060-3064.

[9]张声生，李乾构，唐旭东，王萍，李振华.慢性萎缩性胃炎中医诊疗共识意见[J].中医杂志，2010，51(08):749-753.

[10]张声生，李乾构，黄穗平，黄绍刚.慢性浅表性胃炎中医诊疗共识意见(2009，深圳)[J].中国中西医结合消化杂志，2010，18(03):207-209.

[11]房静远，刘文忠，李兆申，杜亦奇，纪小龙，戈之铮，李延青，姒健敏，吕农华，吴开春，陈萦，萧树东.中国慢性胃炎共识意见(2012年，上海)[J].中国医学前沿杂志(电子版)，2013，5(07):44-55.

[12]刘群，张华平，俞鸿魁，程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展，2004(08):1421-1429.。

Claims

1.一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于包括：

1)基于中西医术语语料库和中药相关术语语料库，采用ICTCLAS分别将胃炎个性化中医诊疗信息、中药的适应症和禁忌症信息分词，分别得分词结果a、b和c，

其中a、b和c均过滤掉无关词即停用词；

2)首先，计算适应症匹配得分，包括：基于训练完成的神经网络模型，计算a中每个词和b中每个词之间的相似性，累加相似性作为适应症语义相似性得分，相似性的定义为余弦相似性，在神经网络模型的训练过程中，词向量的维度为m＝200，则两个词之间的相似性定义为词向量之间的夹角余弦值：

其中：

A、B都为词向量，维度都为200，

当b所含动词能够和a中的症状信息匹配时，则匹配成功；将所有动词信息加权求和，作为适应症关键动词匹配得分；

当b中直接包含了a中的关键证候术语时，则适应症匹配得分乘以关键证候术语出现之后的扩增权重；

当b中直接包含了a中的关键疾病术语时，则适应症匹配得分乘以关键疾病术语出现之后的扩增权重；

3)其次，计算禁忌症惩罚得分，包括：计算a中的词和c中的词两两之间的相似性，得到相似性矩阵，相似性矩阵的行数为a的长度，列数为c的长度，相似性矩阵中的值表示词之间的相似性，相似性仍然采用余弦相似性计算，

其中，当相似性矩阵的元素的最大值超过了一个预定的惩罚阈值时，即认为a出现了c里的某一条禁忌，把适应症匹配得分乘以一个预定的惩罚权重，否则不做更改；

4)根据匹配的打分规则计算最终的个性化中医诊疗信息和中药信息的匹配得分Score，根据Score将所有中药从高到低排序，包括：

令：

其中，

a：胃炎个性化中医诊疗信息分词结果，

b：中药适应症信息分词结果，

c：中药禁忌症信息分词结果，

Score：匹配得分，

a和b在神经网络模型中的语义相似性得分之和，

n是匹配上的动词的个数，v_i是第i个匹配上的动词，w_i是第i个动词的权重，

Z：关键证候术语出现之后的扩增权重，Z>1，

D：关键疾病术语出现之后的扩增权重，D>1，

max(similaritymatrix(a,c))：a和c相似性矩阵中的最大值，

J：禁忌症术语匹配成功与否的阈值，

J_w：禁忌症术语出现之后的惩罚权重，J_w<1，

δ(max(similaritymatrix(a,c)),J)*J_w：如果a和c的相似性矩阵中的最大值超过指定阈值，即认为胃炎个性化中医诊疗信息包含了中药禁忌症里的某一条禁忌，则对该中药的最终得分进行惩罚，否则不做更改，即：

2.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于神经网络模型结构如下：

在输入层中，输入词w的上下文向量Context(w)，Context(w)由词前后各c₁个，共2c₁个词向量组成，即输入层的大小为2c₁，

投影层用于将输入层的2c₁个向量累加求和，即

m为词向量维度，

B)在输出层中：

B2)采用Hierarchical softmax技术，将计算单个词语概率值的过程拆解为一系列的概率计算，从而避免对所有词语进行标准化计算，

B3)对于神经网络模型语料中的一个词w，Huffman树中必存在一条从根节点到词w对应节点的路径p^w，且路径上存在l^w-1个分支，将每个分支看作一次二分类，每一次二分类就产生一个概率，将这些概率乘起来，作为所需的条件概率，即：

其中

式中：

p^w：从根节点到w对应叶子节点的路径，

l^w：路径p^w中包含的节点个数，

路径p^w中第j个非根节点对应的编码，

路径p^w中第j个非叶子节点对应的向量，

σ(x)为sigmoid函数，即

损失函数定义为：

C为词典，

记

则梯度下降的更新公式为：

式中w'∈Context(w)，η表示学习率，v(w')是上下文中某一个单词的词向量，

3.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于中西医术语语料库包含如下内容：

中医四诊名词术语，其不仅可以来自于传统的医生判断，也可以来自于个体化中西医信息采集的分析结果，包括舌诊仪采集的舌象信息的分析结果、脉诊仪采集的脉象信息的分析结果、智能问诊结果，

中医临床诊疗术语，

慢性胃炎、慢性萎缩性胃炎和慢性浅表性胃炎中医诊疗专家共识意见里的相关术语，

慢性胃炎临床诊疗指标术语，

西医术语，

中西医停用词。

4.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于中药相关术语语料库包含如下内容：

功效术语，

主治术语，

禁忌症术语。

5.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于：

基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法能够提取出包括舌脉的中医四诊信息和其他中西医术语之间的语义关系，从而实现舌脉等中医四诊信息用于个性化中医诊疗信息和中药信息智能匹配。

6.根据权利要求1所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于：

基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法能够提取出临床诊疗指标信息和其他中西医术语之间的语义关系，从而实现临床诊疗指标信息用于个性化中医诊疗信息和中药信息智能匹配。

7.根据权利要求2所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于神经网络模型语料是以如下方式建立的：

基于预先建立的中西医术语语料库和中药相关术语语料库，使用分词算法ICTCLAS，将包括中医临床诊疗术语国家标准的证候部分、中成药药品说明书里的适应症信息、胃炎相关中医专家共识意见里的辨证信息分词，分词的结果作为神经网络模型训练的语料。

8.根据权利要求2所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法，其特征在于：

取c₁＝8，m＝200。

9.存储有计算机程序的计算机可读存储介质，该计算机程序能使处理器执行根据权利要求1-8之一所述的基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法。