CN115376658A

CN115376658A - 一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法

Info

Publication number: CN115376658A
Application number: CN202110736888.5A
Authority: CN
Inventors: 李梢; 李艳; 周武爱; 杨扩; 王鑫; 吴敏
Original assignee: Tsinghua University; Yijishan Hospital of Wannan Medical College
Current assignee: Tsinghua University; Yijishan Hospital of Wannan Medical College
Priority date: 2021-03-02
Filing date: 2021-06-30
Publication date: 2022-11-22

Abstract

本发明提供了一种基于深度学习的融合表型与分子信息的中药处方人工智能评价方法。本方法首先构建基于卷积神经网络的诊断描述特征智能提取，基于网络嵌入的药物特征智能提取，同时在药物特征中融合了分子信息。进而，基于提取的诊断描述及中药处方特征，设计基于卷积神经网络的中药处方人工智能评价方法。同时，本方法还首次提出了一种基于中药处方相似性的分层采样策略。实验结果表明，我们的方法在中药处方评价性能上要优于基线方法，且优于未添加分子信息的模型，能较好地学习专家经验。我们的方法促进了基于经验的、宏观的传统中医药学走向基于数据的、宏微观结合现代科学，有助于减少中药处方的不合理使用情况，推动中医药的精准化和智能化。

Description

一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法

技术领域

本发明涉及一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法。

背景技术

中药在临床上使用广泛，然而其不合理使用情况也比较严重。一项针对北京市第一中西医结合医院2013年门诊不规范中药饮片处方的分析[1]表明，2400张处方中不规范处方177张，占所抽处方的7.38％。另外一项针对北京积水潭医院2011年1月－2013年5月药师在调配前不合理处方的研究表明[2]，663张不合理处方中共有709处不合理因素，其中以下3种情况居多：毒性饮片超量(73.76％)，处方开具配伍禁忌未签字(12.13％)，处方饮片输机错误(7.76％)。这些统计结果表明中药处方的不合理使用，除了常见的人工操作错误之外，主要是违法配伍禁忌、没有进行辨证论治、没有考虑不良反应等情况，而这些恰恰是比较严重的不合理使用情况。因此，准确地推荐中药处方、降低中药处方的不合理使用率是一个亟待解决的问题。

随着人工智能、大数据时代的到来，越来越多的研究关注于使用人工智能的方法挖掘名医经验，从而实现中药处方的人工智能评价。实际上，人工智能技术已经在中医药领域具有了一定的应用，例如基于人工智能的中医“四诊”信息标准化采集、处理与分析，中医体质辨析，中医名医经验的挖掘等等。这些应用在一定程度上促进了中医的客观化和标准化。因此，人工智能技术应用于中药处方的人工智能评价即是中药临床精准使用所需，也是人工智能、大数据时代下多学科交叉发展所孕育的一大趋势。人工智能技术应用于中药处方人工智能评价的优势主要体现在：一方面人工智能技术的使用能够实现已经数据化的历代中医病案资料以及名师的临床诊疗记录的挖掘，从而更好地总结和传承名医的用药经验；另外一方面，能够促进临床中药处方的合理使用，降低中药处方不合理使用率，提高诊疗效率。

目前，人工智能在医疗领域的应用较为广泛，包括医学影像处理、疾病诊断、药物推荐等。人工智能技术在中药处方人工智能评价方面的研究可以分为三类：第一类是基于中医药学积累的大量先验知识的数据挖掘，第二类是整合先验知识和临床信息的联合推荐；第三类是基于中药成分指纹图谱的中药活性鉴定和匹配。

在中医药学先验知识的数据挖掘方面，Liang Yao[3]等提出了一个从方剂文献中挖掘方剂关系的系统，包括基于Trie树建立的方剂组成成分的关系和以及基于主题模型建立的方剂功效关系。Wei Li[4]等人提出了一种具有覆盖机制和软损失函数的解码器。该研究从中药方剂数据库中抓取了85166张处方，获得82044个症状，验证得到准确率38.22％，召回率30.18％，F1值33.73％。根据中医专家的判断，生成的处方的正确率为73％。JinpengChen等[5]提出了一种基于三部图的症状-证候-中药关系推断方法。该方法首先构建了一个承载丰富信息的异构三部信息网络，后从该信息网络中系统地提取出基于路径的拓扑特征，最后用无监督的方法来学习与不同特征相关的最佳参数从而决定症状与中药的关系。在整合先验知识和临床信息的联合推荐方面，杨蕴[6]等使用基于高斯核的岭回归的算法，构建了中医药治疗肺癌处方系统。该处方系统利用2955例次中医肺癌门诊资料完成模型训练，使其能完成较高准确率的处方输出，并最终应用于临床治疗参考。通过专家评估实际的108病例来验证处方的准确率，发现出现频率次数高于300的药物，准确率达到62.9％，召回率80.2％，F1值为70.5％。Kuo,Yang等[7]提出一个多阶段的分析方法，整合倾向性病例配对、复杂网络分析和中药富集分析，以确定针对特定疾病(例如失眠)的有效药方。首先，应用倾向性病例匹配来匹配临床病例。然后，将核心网络提取和中药富集相结合，对核心有效中药处方进行检测。在基于中药成分指纹图谱的中药活性鉴定和匹配方面，Chen H等[8]从中药成分的化学色谱指纹图谱角度出发，通过建立叠加多元线性回归(SMLR)方法，从色谱指纹图谱预测中药的生物活性，相比于其他方法具有更好的通用性，能够为中药的精准使用提供支撑。

这些方法大多集中在表型层次，其主要特点在于挖掘“症状”和“中药”在文本层次上的关系，缺少分子层次信息。中药处方治疗疾病分子层次上的机制对于精准地推荐中药处方至关重要。因此，提出一种融合表型信息和分子信息的中药处方评价方法是十分必须的。

发明内容

针对现有技术存在的不足，本发明提出一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法，从而在此基础上合理有效地建立实现中医处方的高精度人工智能评价。

为实现上述目的，本发明提供了一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法，其特征在于包括如下步骤：

步骤一、通过数学建模实现了诊断描述的数字化和向量化表示，其中诊断描述包括主诉、现病史、舌象和脉象信息，

步骤二、通过构建融合分子信息的中药分子异构网络，使用网络嵌入表示实现对异构网络的特征智能提取，获得中药的低维向量特征，进而实现了中药处方的向量化表示，

步骤三、进行训练集和测试集的划分，其中训练集和测试集的划分遵循疾病内部相似性原则，既保证诊断描述的相似性也保证中药处方的相似性，

步骤四、训练集中药处方的分层采样，其中分层采样使得相似性较高尤其是排名靠前中药都相同但排名靠后中药略有差别的中药处方被纳入推荐范围，并以此在构建的深度神经网络模型中实现处方推荐的回归预测，

步骤五、构建神经网络模型并训练该神经网络模型，其中神经网络模型包括3部分：基于卷积神经网络的诊断描述信息的深度特征提取、基于网络嵌入表示的中药处方信息的深度特征提取、以及基于卷积神经网络的中药处方人工智能评价，通过训练神经网络模型使其达到最优，实现给定诊断描述，能够批量、智能地推荐最优中药处方，

步骤六、神经网络模型评价。模型评价包括：模型内部评价、和其他基线方法比较。评价指标包括但不限于Hit ratio(HR)、AUC和Spearman相关性等。

根据本发明的进一步的实施例的基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法的特征包括下列中的至少一种：

A)诊断描述主要包括主诉、现病史、舌象和脉象，使用长度不同的卷积核在文本上进行一维卷积，然后将不同长度的卷积核提取到的特征拼接在一起，作为一段文本的特征输入到神经网络模型中进行训练。

B)中药处方信息的深度特征提取所使用的方法主要包括低维嵌入表示(NetworkEmbedding)的方式，包括：从公开的数据库搜集中药、化合物、靶点信息，构建中药-化合物-靶点异构网络；使用低维嵌入表示方法对异构网络进行低维嵌入表示，提取中药、化合物、靶点的特征；在通过低维嵌入表示的方式度量了中药的特征之后，进一步度量中药处方的特征，其中，中药处方的特征被定义为该处方所含中药各个维度上值的均值，即：假设中药处方中含有m个中药，每个中药特征的维度为d，则中药处方的特征表示为：

C)所述训练集和测试集的划分遵循疾病内部相似性原则。每种疾病训练集占比0.9，测试集占比0.1。针对每一条测试集数据，保证在当前疾病的训练集中至少有一条数目满足诊断描述相似性大于等于0.7并且中药处方相似性大于等于0.7。

D)每一条训练集数据主要包含三方面信息：诊断描述，疾病和中药处方。我们将当前中药处方和当前疾病的其他中药处方计算Jaccard相似性。然后根据Jaccard值进行分层采样。Jaccard的值分布在0-1之间，我们将0-1切分为20等长小区间。在每个小区间上进行采样并且采样量和当前疾病的样本量占总样本量的比例成正比：即：

具体的采样规则为：K＝50，且设这个小区间上的中药处方量为X，如果X≥S，则不放回随机抽样S个中药处方；如果0<X<S，则X全部被采样，并且通过倒序依次删减当前中药处方尾部的中药产生新的S-X个中药处方。如果X＝0，则通过倒序依次删减当前中药处方尾部的中药产生新的S个中药处方。采样完成之后的训练集为635120。通过该策略，即实现了大幅度扩充训练样本，也能够捕捉同一电子病历的“次优”推荐中药处方信息。

E)所述神经网络模型包括3部分：基于卷积神经网络的诊断描述信息的深度特征提取，基于网络嵌入表示的中药处方信息的深度特征提取，以及基于卷积神经网络的中药处方人工智能评价。其中，根据本发明的一个实施例，(1)基于卷积神经网络的诊断描述信息的深度特征提取包括：诊断描述先经过一个嵌入层，嵌入层的维度为100，然后分别经过三个单元数各为16的一维卷积层，卷积核的长度分别为6，7，8，步长为10。每个卷积层后面连接一个一维MaxPooling层，这三个MaxPooling提取的特征拼接在一起作为诊断描述的特征；(2)基于网络嵌入表示的中药处方信息的深度特征提取包括：中药处方的特征经过网络嵌入方法提取特征后，长度归一化到256，依次经过两个长度分别为128，64的全连接层，激活函数都为Relu；(3)基于卷积神经网络的中药处方人工智能评价包括：诊断描述的特征和中药处方的特征拼接在一起之后，依次经过两个单元数为32一维卷积层和MaxPooling层，最后输出到两个单元数分别为32和16的全连接层，激活函数都为Relu，输出层单元数为1，

根据本发明的一个方面，提供了一种基于深度神经网络的融合表型与分子信息的中药处方人工智能评价方法，其特征在于包括如下步骤：

1)提取诊断描述的特征，其中：

诊断描述包括主诉、现病史、舌象和脉象，

诊断描述的特征提取采取是基于TextCNN，包括使用长度不同的卷积核在文本上进行一维卷积，然后将不同长度的卷积核提取到的特征拼接在一起，作为一段文本的特征输入到网络中进行训练，

2)提取中药处方信息的深度特征，包括：

从公开的数据库搜集中药、化合物、靶点信息，构建中药-化合物-靶点异构网络；使用低维嵌入表示方法对异构网络进行低维嵌入表示，提取中药、化合物、靶点的特征；在通过低维嵌入表示的方式度量了中药的特征之后，进一步度量中药处方的特征，其中，中药处方的特征被定义为该处方所含中药各个维度上值的均值，即：假设中药处方中含有m个中药，每个中药特征的维度为d，则中药处方的特征表示为：

3)划分训练集和测试集，其中：

训练集和测试集的划分遵循疾病内部相似性原则从而既保证诊断描述的相似性也保证中药处方的相似性，包括：首先使用Doc2Vec训练所有的诊断描述，从而能够度量任何两个诊断描述之间的相似性；然后，使用Jaccard度量任意两个中药处方之间的相似性；最后，设定每种疾病训练集占比0.9，测试集占比0.1，针对每一条测试集数据，保证在当前疾病的训练集中至少有一条数目满足诊断描述相似性大于等于0.7并且中药处方相似性大于等于0.7，

4)对训练集的中药处方进行分层采样，其中：

每一个样本包含三方面信息：诊断描述，疾病和中药处方，包括：将当前中药处方和当前疾病的其他中药处方计算Jaccard相似性；然后根据Jaccard的值进行分层采样，其中Jaccard的值分布在0-1之间；将该0-1切分为20等长小区间，在每个小区间上进行采样并且采样量和当前疾病的样本量占总样本量的比例成正比，即：

其中具体的采样规则为：K＝50，且设这个小区间上的中药处方量为X，如果X≥S，则不放回随机抽样S个中药处方；如果0<X<S，则X全部被采样，并且通过倒序依次删减当前中药处方尾部的中药产生新的S-X个中药处方，如果X＝0，则通过倒序依次删减当前中药处方尾部的中药产生新的S个中药处方；从而通过该策略即实现了大幅度扩充训练样本也能够捕捉同一诊断描述的“次优”中药处方信息，

5)构建神经网络模型并进行训练，其中：

神经网络模型分为3部分：

基于卷积神经网络的诊断描述信息的深度特征提取，其中：诊断描述先经过一个嵌入层，嵌入层的维度为100，然后分别经过三个单元数为16的一维卷积层，卷积核的长度分别为6，7，8，步长为10，每个卷积层后面连接一个一维MaxPooling层，三个MaxPooling提取的特征拼接在一起作为诊断描述的特征，

基于网络嵌入表示的中药处方信息的深度特征提取，其中：中药处方的特征经过网络嵌入方法提取特征后，长度归一化到256，依次经过两个长度分别为128，64的全连接层，激活函数都为Relu，

基于卷积神经网络的中药处方人工智能评价，其中：诊断描述的特征和中药处方的特征拼接在一起之后，依次经过两个单元数为32一维卷积层和MaxPooling层，最后输出到两个单元数分别为32和16的全连接层，激活函数都为Relu，输出层单元数为1，

6)确定神经网络模型评价指标并进行评价，其中：

评价指标包括命中率HR和接收者操作特征曲线ROC的曲线下方的面积大小AUC，包括：

按如下公式确定命中率HR：

其中，分母GT是所有的测试集合，分子NumberOfHits表示命中的样本个数，

接收者操作特征曲线ROC曲线的横轴为假正例率FPR，纵轴为真正例率TPR，其表达公式分别为：

其中，FP为假阳性率，TP为真阳性率，TN为真阴性率，

评价的方式为命中率HR和/或AUC越高则模型越好，评价过程包括：

按照上述的命中率HR公式直接计算命中率HR，

AUC的计算过程包括：

把每个诊断描述和当前诊断描述对应的疾病的所有中药处方进行预测，从而每个诊断描述都有一个已知标签向量，一个预测的分数向量，以及当前中药处方和当前诊断描述对应的疾病的所有中药处方的Jaccard相似性向量，按预测的分数对样本进行降序排序，

对于不设定Jaccard阈值的情况，直接依据已知标签向量和预测的分数向量计算TPR和FPR，对于设定Jaccard阈值的情况，将Jaccard相似性向量从上到下按照Jaccard阈值进行划分，把Jaccard相似性大于Jaccard阈值的样本归为预测正确的样本，把Jaccard相似性小于阈值的样本归为预测错误的样本，分别计算出此时的TPR和FPR，从而确定AUC。

附图说明

图1为中医专家评测的原理图；

图2为对采用本发明的基于深度神经网络的融合表型与分子信息的中药处方人工智能评价方法获得的处方进行的中医专家打分的均值分布图；

图3为对采用本发明的基于深度神经网络的融合表型与分子信息的中药处方人工智能评价方法获得的处方进行的中医专家打分的命中率图。

具体实施方式

本发明实施例以国医大师中药处方的人工智能评价为例，设计并实现了融合表型信息和分子信息的中药处方人工智能评价方法。我们收集了安徽皖南医学院弋矶山医院2013-2020年3月的超过20000个国医大师电子病历。通过定义一系列规则，精选出了10种疾病6393个国医大师电子病历作为原始数据。10种疾病包括月经过少，虚劳，内科癌病，胃脘痛，乳痈病，风湿痹病，胃痞，咳嗽，痹病，不寐。每个样本由诊断描述、疾病和对应的中药处方构成。大部分样本的诊断结果50到200个中文字符，大部分中药处方包括10-25个中药。国医大师诊疗处方信息主要包括三部分：诊断描述、疾病和中药处方。实施步骤主要包括：诊断描述的特征提取，中药处方的特征提取，训练集和测试集的划分，训练集中药处方的分层采样，构建神经网络模型并训练，神经网络模型评价。具体实施例对本发明进行详细说明。

实施例：

根据本发明的一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法包括如下步骤：

一、提取诊断描述的特征

诊断描述主要包括主诉、现病史、舌象和脉象。诊断描述的特征提取采取的思想是基于TextCNN[9]。主要是使用长度不同的卷积核在文本上进行一维卷积，然后将不同长度的卷积核提取到的特征拼接在一起，作为一段文本的特征输入到网络中进行训练。在输入到模型之前，需要提取诊断描述的特征，本实施例我们使用的是Keras自带的Tokenizer工具。Tokenizer可以将文本转换为序列，即单词在字典中的下标构成的列表，从而实现诊断描述的数字化表示。除此之外，Tokenizer还支持将不等长的多个诊断描述填充到等长，以便于模型的统一使用。本实施例中，诊断描述的最大长度为411，因此所有的诊断结果都在末尾填充0到411。

二、提取中药处方的特征

中药处方的特征提取使用的方法主要是低维嵌入表示(Network Embedding)的方式。中药处方由若干中药按照“君臣佐使”的配伍规律构成，并且每味中药都有特定含量。本实施例不考虑中药的用量信息，仅考虑中药处方包含了哪些中药，并重点纳入表型信息和分子信息。本实施例中，发明人从公开的数据库TCMID[10]、HIT[11]、SymMap[12]、组内自建数据库HerbBioMap[13]搜集了中药、化合物、靶点信息，分别构建了中药-化合物，化合物-靶点网络。使用课题组自主开发的方法构建了中药-中药网络[14]。从PubChem数据库提取了化合物相似性数据，设定化合物相似性阈值为大于等于90，从而构建了化合物-化合物网络。从蛋白质相互作用数据库HPRD(Release 9)[15],BioGRID(2019update)[16],IntAct[17],MINT(2012update Homo sapiens)[18]和STRING(V10.5)[19]提取数据，构建靶点-靶点网络。在以上数据收集的基础上构建了中药-化合物-靶点异构网络。使用Node2Vec[20]对异构网络进行低维嵌入表示，提取中药、化合物、靶点的特征。在通过低维嵌入表示的方式度量了中药的特征之后，便可以度量中药处方的特征。中药处方的特征定义为该处方所含中药各个维度上值的均值。即：假设中药处方中含有m个中药，每个中药特征的维度为d，则中药处方的特征表示为：

三、划分训练集和测试集

训练集和测试集的划分遵循疾病内部相似性原则，既保证诊断描述的相似性也保证中药处方的相似性。首先使用Doc2Vec[21]训练所有的诊断描述，从而能够度量任何两个诊断描述之间的相似性。然后，使用Jaccard度量任意两个中药处方之间的相似性。最后，设定每种疾病训练集占比0.9，测试集占比0.1，针对每一条测试集数据，保证在当前疾病的训练集中至少有一条数目满足诊断描述相似性大于等于0.7并且中药处方相似性大于等于0.7。总的样本量为6393条，划分测试集和训练集后，训练集5757条，测试集636条。

四、对训练集的中药处方进行分层采样

我们认为国医大师开具的中药处方是最优的，但是当前疾病的其他中药处方也不能完全排除。中药处方的开具遵循“君臣佐使”的配伍规律，且在中药处方中排序约靠后的中药，一般来说重要性越低。因此，我们希望设计一种规则，使得相似性较高尤其是排名靠前中药都相同但排名靠后中药略有差别的中药处方也纳入推荐范围，并给与这种中药处方一种特定的分数来进行度量。我们设计的规则称为“中药处方的分层采样”，主要针对训练集进行。每一个样本主要包含三方面信息：诊断描述，疾病和中药处方。我们将当前中药处方和当前疾病的其他中药处方计算Jaccard相似性。然后根据Jaccard值进行分层采样。Jaccard的值分布在0-1之间，我们将0-1切分为20等长小区间。在每个小区间上进行采样并且采样量和当前疾病的样本量占总样本量的比例成正比：即：

具体的采样规则为：K＝50，且设这个小区间上的中药处方量为X，如果X≥S，则不放回随机抽样S个中药处方；如果0<X<S，则X全部被采样，并且通过倒序依次删减当前中药处方尾部的中药产生新的S-X个中药处方。如果X＝0，则通过倒序依次删减当前中药处方尾部的中药产生新的S个中药处方。采样完成之后的训练集为635120。通过该策略，即实现了大幅度扩充训练样本，也能够捕捉同一诊断描述的“次优”中药处方信息。

五、构建神经网络模型并进行训练

神经网络模型主要分为3部分：基于卷积神经网络的诊断描述信息的深度特征提取，基于网络嵌入表示的中药处方信息的深度特征提取，以及基于卷积神经网络的中药处方人工智能评价。(1)基于卷积神经网络的诊断描述信息的深度特征提取：诊断描述先经过一个嵌入层，嵌入层的维度为100。然后分别经过三个单元数为16的一维卷积层，卷积核的长度分别为6，7，8，步长为10。每个卷积层后面连接一个一维MaxPooling层。三个MaxPooling提取的特征拼接在一起作为诊断描述的特征。(2)基于网络嵌入表示的中药处方信息的深度特征提取：中药处方的特征经过网络嵌入方法提取特征后，长度归一化到256，依次经过两个长度分别为128，64的全连接层，激活函数都为Relu。(3)基于卷积神经网络的中药处方人工智能评价：诊断描述的特征和中药处方的特征拼接在一起之后，依次经过两个单元数为32一维卷积层和MaxPooling层，最后输出到两个单元数分别为32和16的全连接层，激活函数都为Relu，输出层单元数为1。具体而言：

每个诊断描述都由若干个字符组成，经过Embedding层之后，每个字符的维度为D＝100，假设诊断描述包含的字符数为N，则每个诊断描述用一个随机初始化的D维向量表示：

S_i:j代表诊断描述中的第i个到第j个字符，即：

卷积层包括了不同尺寸的卷积核，每个尺寸都包含大量卷积核。卷积核的宽和S的宽相同，都为D＝100。假设第k个卷积核的高为H，则卷积核可以表示为W^k＝R^H×D，即：

卷积操作是对S的局部特征提取，我们举例说明卷积操作的过程。当

和s_1，1相遇，提取到的特征

为：

上式中，s_i,j是S的第i个字符的第j个维度上的值，

是s_i,j的权重，

为偏差项。Relu是非线性激活函数：

f(x)＝max(0，x)

卷积操作是W^k以一定的步长S_c从S的顶部滑动到底部，产生的特征组合为：

池化操作和卷积操作类似，唯一的区别是池化操作计算mean或者max值。我们使用max类型的池化操作MaxPooling。假设池化核的高度为H_p，步长为S_p，则池化操作的输出为：

其中，

诊断描述经过若干卷积-池化操作，所有卷积-池化操作结束之后，提取到的所有特征按照端到端的方式进行连接，得到：

其中，

中药处方的特征经过网络嵌入方法提取特征后，长度归一化到256，依次经过两个长度分别为32，64的全连接层，激活函数都为Relu。提取到的特征为：

将F^T和C^T进行拼接得到G，经过一系列卷积-池化操作之后，输入全连接层。全连接层的权复位义为W_F，偏差项为b_f，全连接层的输出为:

y＝W_F×G+b_f

若干全连接层之后是最后的输出层，输出层的单元数为1，激活函数为Sigmoid:

损失函数定义为：

损失函数包括两部分：误差项和正则项。λ为正则项系数。

为样本的均方误差MSE，定义为：

以上训练过程为一批次的样本，n为批次的大小。向量y_predicted为模型的输出，即诊断描述和中药处方的预测分数，

为第i个诊断描述-中药处方组合的值。y_real的结构和y_predicted相同，表示诊断描述和中药处方的关系强弱。

训练过程使用Adam算法，权重的更新规则为：

其中，t是训练步数，η为学习率，∈＝10e-8，β₁和β₂分别为梯度和二阶梯度的遗忘因子。全连接层的Dropout设置为0.0005。训练的Epoch为1500，学习率为1e-4，Batch size为256。

六、对神经网络模型进行评价

神经网络模型评价包括三部分：模型内部评价、和其他方法比较、专家评审。评价指标主要是命中率Hit ratio(HR)和接收者操作特征曲线Receiver OperatingCharacteristic Curve(ROC)曲线下方的面积大小Area Under Curve(AUC)。

其中，HR是一种常用的衡量召回率的指标，计算公式为：

分母是所有的测试集合，分子表示测试集合的个数。

ROC曲线的横轴为假正例率FPR，纵轴为真正例率TPR。

其中，FP为假阳性率，TP为真阳性率，TN为真阴性率，

按照上述的命中率HR公式直接计算命中率HR，

AUC的计算过程包括：

在模型内部评价方面，除了Node2Vec来融入分子信息之外，我们还尝试了其他方法，主要包括LINE[22]，SDNE[23]，以及不加分子信息。与不加分子信息的模型比，加入分子信息后，能够显著提升预测效果(表1)。通过比较FordNet_Node2Vec、FordNet_LINE、FordNet_SDNE以及FordNet_No _molecule四种模型的命中率和AUC发现，通过FordNet_LINE添加分子信息之后能够最大幅度地提高中药处方推荐的Top1，Top5,Top10和Top50。相比于FordNet_No _molecule，FordNet_LINE Top1提高24.24％，Top5提高20.40％，Top10提高17.28％，Top50提高了9.24％。

在和其他方法比较方面，我们比较了基线方法SVM，Random Forest,LinearRegression(表1)。在不设定FST的情况下，FordNet_LINE取得了最高的命中率，并且FordNet_LINE和FordNet_No _molecule均要高于基线方法SVM，Random Forest，LinearRegression。在不设定FST的情况下，FordNet_LINE也取得了最高的AUC(0.813)，同样地，FordNet_LINE和FordNet_No _molecule的AUC也都要高于基线方法SVM(AUC＝0.563)，RandomForest(AUC＝0.751)，Linear Regression(AUC＝0.513)。

表1.不同方法性能对比

在专家评测方面，本发明人选取了50个2020年3月以后的胃痞电子病历，用本发明的系统为每个电子病历推荐了10味中药处方。邀请来自皖南医学院弋矶山医院的3位中医专家对推荐结果进行评测打分，打分为1-5分，1分表示最不合适，5分表示最合适(图1)。评测结果显示，得分主要集中在4分以上(图2)。如何设定阈值为4.5时，Top5命中率近100％(图3)。以上结果表明我们的模型能够很好地挖掘国医大师经验，准确推荐中药处方。

参考文献：

[1]Min L.Analysis of Non-standard Prescription of TCM DecoctionPieces in Outpatient of Beijing First Hospital of Integrated Chinese andWestern Medicine in 2013[J].Chinese Journal of Information on TraditionalChinese Medicine,2015,22(6):125-127.

[2]Jingyan Chen,Jingqi Yang,Fangming He,et al.A Study on UnreasonablePrescriptions in Outpatient Department in Our Hospital[J].Chinese Journal ofInformation on Traditional Chinese Medicine,2015,22(1):122-123.

[3]Yao L,Zhang Y,Wei B.An Evolution System for Traditional ChineseMedicine Prescription,Berlin,Heidelberg,F,2014[C].Springer Berlin Heidelberg.

[4]Li W,Yang Z.Exploration on Generating Traditional Chinese MedicinePrescriptions from Symptoms with an End-to-End Approach；proceedings of theCCF International Conference on Natural Language Processing and ChineseComputing,F,2019[C].Springer.

[5]Jinpeng,Chen,Josiah,et al.Mining Symptom-Herb Patterns fromPatient Records Using Tripartite Graph[J].Evid-Based Compl Alt,2015,2015:1-14.

[6]杨蕴,阮春阳,裴朝翰,et al.引入人工智能构建肺癌中医处方系统探索[J].世界科学技术—中医药现代化,2019,21(5):977-982.

[7]Yang K,Zhang R,He L,et al.Multistage analysis method for detectionof effective herb prescription from clinical data[J].Front Med,2018,12(2):206-217.

[8]Chen H,Poon J,Poon S K,et al.Ensemble learning for prediction ofthe bioactivity capacity of herbal medicines from chromatographicfingerprints[J].Bmc Bioinformatics,2015,16(Suppl 12):S4.

[9]Kim Y.Convolutional neural networks for sentence classification[J].arXiv preprint arXiv:14085882,2014:

[10]Lin H,Xie D,Yu Y,et al.TCMID 2.0:a comprehensive resource for TCM[J].Nucleic Acids Research,2018,(D1):D1117-D1120.

[11]Hao Y,Li Y,Hong K,et al.HIT:linking herbal active ingredients totargets[J].Nucleic Acids Research,2011,39(suppl_1):D1055–D1059.

[12]Wu Y,Zhang F,Yang K,et al.SymMap:an integrative database oftraditional Chinese medicine enhanced by symptom mapping[J].Nucleic AcidsResearch,2018,47(D1):D1110–D1117.

[13]欧阳子博.HerbBioMap2.0数据库平台构建与挖掘[D]；清华大学.

[14]Li S,Zhang B,Jiang D,et al.Herb network construction and co-module analysis for uncovering the combination rule of traditional Chineseherbal formulae[J].BMC Bioinformatics,2010,11(Suppl 11):S6.

[15]Keshava Prasad T S,Goel R,Kandasamy K,et al.Human ProteinReference Database--2009update[J].Nucleic Acids Res,2009,37(suppl_1):D767-D772.

[16]Rose O,Chris S,Bobby-Joe B,et al.The BioGRID interactiondatabase:2019update[J].Nucleic Acids Res,2018,47(D1):D529–D541.

[17]Samuel K,Bruno A,Lionel B,et al.The IntAct molecular interactiondatabase in 2012[J].Nucleic Acids Res,2011,40(D1):D841–D846.

[18]Luana L,Leonardo B,Daniele P,et al.MINT,the molecular interactiondatabase:2012update[J].Nucleic Acids Res,2012,40(D1):D857–D861.

[19]Damian S,Morris J H,Helen C,et al.The STRING database in 2017:quality-controlled protein–protein association networks,made broadlyaccessible[J].Nucleic Acids Res,2016,45(D1):D362–D368.

[20]Grover A,Leskovec J.node2vec:Scalable Feature Learning forNetworks；proceedings of the the 22nd ACM SIGKDD International Conference,F,2016[C].

[21]Le Q,Mikolov T.Distributed representations of sentences anddocuments；proceedings of the International conference on machine learning,F,2014[C].

[22]Tang J,Qu M,Wang M,et al.Line:Large-scale information networkembedding；proceedings of the Proceedings of the 24th international conferenceon world wide web,F,2015[C].

[23]Wang D,Peng C,Zhu W.Structural Deep Network Embedding；proceedingsof the Acm Sigkdd International Conference on Knowledge Discovery&DataMining,F,2016[C].