CN111554360A

CN111554360A - 基于生物医学文献和领域知识数据的药物重定位预测方法

Info

Publication number: CN111554360A
Application number: CN202010344114.3A
Authority: CN
Inventors: 张益嘉; 于子洋; 熊振康; 杨宏伟; 王健
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-18

Abstract

本发明属于生物医学文献技术领域，具体涉及一种基于生物医学文献和领域知识数据的药物重定位预测方法。本发明基于深度学习模型和Attention机制，抽取生物医学文献中的药物重定位信息；基于异构网络模型，整合生物医学文献知识和领域数据；基于元路径模型和机器学习方法，在异构药物重定位关系网络中预测药物与疾病隐含作用关系。本发明解决了当前药物重定位预测中无法有效整合非结构化文本数据和结构化领域数据源的问题，能够充分利用生物医学文献和领域数据提升药物重定位预测的准确性。

Description

基于生物医学文献和领域知识数据的药物重定位预测方法

技术领域

本发明属于生物医学文献技术领域，具体涉及一种基于生物医学文献和领域知识数据的药物重定位预测方法。

背景技术

药物重定位是指利用相关技术方法从已有的药物挖掘其新适应症的过程。与传统的药物研发方法相比,药物重定位是基于已有药物的重新挖掘，因而能够有效地降低药物研发的周期、成本和风险，是突破新药开发高投入低产出困境的有效方法之一。

生物医学文献作为生物医学领域成果展示和学术交流的最主要方式，其数目之大，增长速度之快远远超过了其他学科领域。另一方面，以药物靶标数据、药物副作用数据为代表的领域数据，主要来自于医学实验测定和筛选，与生物医学文献知识存在较强的互补性。这些领域数据与药物重定位研究密切相关，能够从不同角度为药物与疾病的关系预测引入先验知识，提高药物重定位预测的准确性。

发明内容

为解决目前药物重定位预测方法无法有效整合非结构化文本数据和结构化领域数据源的主要问题，本发明提出融合生物医学文献数据和领域知识源的药物重定位预测方法。本发明基于自然语言处理技术、深度学习，通过整合生物医学知识和领域数据构建异构药物重定位网络，采用元路径模型和机器学习方法预测药物与疾病的未知作用关系，最终实现药物重定位预测。

本发明的技术方案：

一种基于生物医学文献和领域知识数据的药物重定位预测方法，具体步骤如下：

S1)使用分布式文本表示学习方法来学习词向量作为深度神经网络模型的输入，在双向LSTM模型的基础上结合CRF模型(BLSTM-CRF)，对生物医学数据库中的命名实体进行高精度识别，找到最佳标签序列。利用UMLS、MESH等生物医学语义资源，基于语义消歧等方法，实现生物医学实体名称标准化。

S2)在步骤S1)对生物医学数据库中的疾病、药物、基因实体名进行识别及其标准化的基础上，建立基于双路Attention机制的实体关系抽取模型，从生物医学数据库中抽取疾病、药物、基因之间的语义关系。

S3)通过构建异构网络来融合步骤S2)产生的多种类型的实体和实体关系。

S4)建立面向步骤S3)所构建的异构生物医学知识网络的元路径模型，将药物与疾病未知作用关系之间存在的元路径模式，表示为药物与疾病未知作用关系的特征，最终文献知识与领域数据有机融合为药物与疾病未知作用关系相应的特征向量。

S5)在步骤S4)得到药物与疾病关系的特征向量表示后，基于机器学习理论，使用现有的样本数据，训练得到药物重定位预测模型，对候选的药物与疾病未知作用关系进行二元分类，最终实现药物重定位的预测。

本发明的开发及部署端为Python平台。

本发明的实体识别模型为双向LSTM模型、CRF模型(BLSTM-CRF)。

本发明的生物医学语义资源和开源工具包括UMLS、MESH。

本发明使用的生物医学数据库包括MEDLINE、DRUGBANK、SIDER、Gene Ontology和KEGG。

本发明建立的模型为异构网络元路径模型、卷积神经网络模型、药物重定位预测模型。

所述的双向LSTM模型，用于对生物医学文献中的命名实体进行高精度识别，充分的利用句子上下文信息。

所述的CRF模型(BLSTM-CRF)，用于辅助双向LSTM模型，对生物医学文献中的命名实体进行高精度识别。

所述的UMLS，是一体化医学语言系统，生物医学领域中的实体如疾病、药物、基因等都可以借助UMLS的MetaMap工具映射成UMLS的超级叙词表(Metathesaurus)里的概念。

所述的MESH(Medical Subject Headings)，是美国国立医学图书馆编制的权威性医学主题词表，使用MESH词对生物医学数据库中的文献数据库建立索引。

所述的MEDLINE，是开源的生物医学文献数据库，用于抽取疾病、药物、基因之间的关系信息。

所述的DRUGBANK，是阿尔伯塔大学提供的生物信息学和化学信息学数据库，它提供了约4800种药物的详细资料，其中药物靶标数据是药物重定位研究的重要领域数据。基于药物靶标数据能够得到药物与基因(蛋白质)的作用关系，对于从生物医学文献中抽取的药物与基因关系信息是重要的补充。

所述的SIDER，是目前应用最广泛的药物副作用数据库，全面地记录了药物的副作用信息数据。相似的药物很可能会产生某种相同的药物副作用，因此，药物副作用数据对于药物之间的相似性具有很强的指示作用，已广泛应用于药物重定位研究中。整合药物副作用数据能够以副作用作为桥梁，建立药物之间的联系。

所述的Gene Ontology，是生物医学领域基因本体数据，包括三个子域：分子功能、生物进程和细胞组件，通过对基因(蛋白质)进行功能标注来描述其生物特性。整合基因本体数据能够以基因本体作为桥梁，建立基因(蛋白质)之间的联系。

所述的KEGG，是京都大学开发的生物信息数据库，整合了基因组、化学和系统功能信息数据，其中基因与通路关系数据是药物重定位研究的另一重要领域数据。整合基因与通路关系数据能够以通路作为桥梁，建立起基因(蛋白质)之的联系。

所述的异构网络元路径模型，用于实现文献知识与领域数据的有机融合。

所述的卷积神经网络模型，用于抽取药物重定位相关实体关系。

所述的药物重定位预测模型，对候选的药物与疾病未知作用关系进行二元分类，最终实现药物重定位的预测。

本发明的有益效果：

本发明提出了基于双路Attention机制的关系抽取方法，提升了药物重定位相关实体关系抽取的性能；提出了基于元路径模型的文献知识与领域数据融合方法，实现异构网络中文献知识与领域数据的有机融合；提出了基于半监督的药物重定位预测方法，实现了药物与疾病未知作用关系的有效预测。

本发明解决了当前药物重定位预测中无法有效整合非结构化文本数据和结构化领域数据源的问题，能够充分利用生物医学文献和领域数据提升药物重定位预测的准确性。

附图说明

图1为BLSTM-CRF模型结构示意图；

图2为句法依存图示例示意图；

图3为基于双路Attention机制的实体关系抽取模型示意图。

具体实施方式

下面将结合附图和技术方案给出本发明较好的实施方案，并给予详细说明。

本发明的一种基于生物医学文献和领域知识数据的药物重定位预测方法，具体步骤如下：

(1)生物医学领域命名实体识别及标准化

采用基于深度学习模型的命名实体识别方法，对生物医学文献中的药物、疾病、基因、表型实体名进行高精度的识别，在此基础上结合生物医学领域资源对识别得到的生物医学命名实体进行实体名称标准化。其中主要包括三个步骤：1)分布式文本表示学习；2)建立命名实体识别模型；3)实体名称标准化。

1、分布式文本表示学习

使用分布式文本表示学习方法来学习词向量作为深度神经网络模型的输入。从PubMed上下载海量生物医学文献，构建大规模的无标注语料集，作为词向量的训练集。将所有文本语料进行小写转化，然后基于word2vec工具从海量生物医学语料中，训练生成词向量矩阵W_V(维度为d_w×|V|)，其中|V|是字典的大小，d_w是词向量的维度。

2、基于BLSTM-CRF的命名实体识别模型

在双向LSTM模型的基础上结合CRF模型(BLSTM-CRF)，对生物医学文献中的命名实体进行高精度识别，模型结构如图1所示。

在BLSTM-CRF模型中，使用双向的LSTM结构，这样能够更充分的利用句子上下文信息。采用目前命名实体识别任务主流的BIO(Begin，Inside，Outside)标签机制。以一个句子为单位，将句子中的每个单词w_i使用前面训练得到的词向量矩阵W_V(维度为d_w×|V|)进行映射，这样句子中的每个词w_i∈V被映射为词向量

依次输入到双向LSTM网络中。由于原始的LSTM模型在输出标签时并没有考虑标签之间的转移信息，而在命名实体识别任务中，前一个词的输入标签对于后一个词的输出标签是有影响的，比如一个正确的实体标签中，I标签一般都是出现在B标签之后，而不会出现在O标签之后等等。为了进一步提高实体识别的准确性，这里借鉴了Collobert等人的工作，结合CRF模型考虑标签转移概率的优点，在原始的LSTM基础上加入整个句子的标签转移信息。

具体如下，定义一个标签转移矩阵A，这里A_i,j代表从标签i转移到标签j的得分，这是一个需要训练学习的参数。定义θ为双向LSTM模型需要学习的参数，那么

就是整个模型要学习的所有参数。给定一个句子

T为句子长度，定义[f_θ]_i,t是第t个词，第i个标签的双向LSTM模型输出分值，那么一个句子给定标签序列

的总得分计算公式如下：

在计算所有可能的标签序列后，使用公式(2)能够得到一个句子

中标签序列

的概率，其中

表示所有可能的标签序列。

使用最大似然估计来训练模型，如公式(3)所示。整个训练过程使用随机梯度下降法(stochastic gradientdescent，SGD)进行优化参数。

模型训练后，预测标签的任务就是要找到得分最高的标签序列作为预测标签序列。本实施例使用维特比算法找到最佳标签序列，实现对于药物、疾病、基因、表型实体的识别。

3、实体名称标准化

在生物医学命名实体识别后，还存在实体名称不统一的问题，需进行实体名标准化。在生物医学领域拥有相对完善的语义资源，如UMLS、MESH等。UMLS(Unified MedicalLanguage System)是一体化医学语言系统，生物医学领域中的实体如疾病、药物、基因等都可以借助UMLS的MetaMap工具映射成UMLS的超级叙词表(Metathesaurus)里的概念。MESH(Medical Subject Headings)是美国国立医学图书馆编制的权威性医学主题词表，使用MESH词对生物医学数据库中的文献数据库建立索引。利用UMLS、MESH等生物医学语义资源，基于语义消歧等方法能较好地实现生物医学实体名称标准化。

(2)基于双路Attention机制的实体关系抽取

在对MEDLINE文献中的疾病、药物、基因实体名进行识别及其标准化的基础上，建立高性能的关系抽取模型，从MEDLINE文献中抽取疾病、药物、基因之间的关系信息。

首先，使用句法分析器对句子进行句法分析。以句子“However,there has beenone report of prolonged prothrombin time when buspirone was added to theregimenof a patient treated with warfarin.”为例，本实施例使用生物医学领域广泛应用的句法分析器McClosky-Charniak Parser对其进行句法分析，得到其句法依存图(如图2所示)。例句中的“buspirone”(丁螺环酮)和“warfarin”(华法林)分别是两个药物实体，在图2中分别标注为“DRUG1”和“DRUG2”。从图2中，能够看到实体间最短依存路径(图2中用黑色加重表示)上的单词如“added”、“treated”等，对于判断实体“DRUG1”和“DRUG2”之间是否存在作用关系具有重要作用。

针对生物医学实体关系抽取任务的特点，本发明提出基于双路Attention机制的实体关系抽取模型，通过在CNN神经网络的输入层使用双路Attention机制重点强化与目标实体具有重要句法关系的单词的权重，使CNN模型能够更加有效地学习句子中对于实体关系抽取具有重要作用的信息。

具体方法如下：

1.在生物医学命名实体识别及标准化的基础上，筛选出包括两个或两个以上药物重定位相关实体(主要包括疾病实体、药物实体、基因实体)的句子。对于药物重定位任务需要抽取疾病、药物、基因之间的关系信息。

2.采用卷积神经网络模型抽取药物重定位相关实体关系，包括输入层、卷积层、池化层和输出层，如图3所示。首先使用前面训练好的词向量矩阵W_V(维度为d_w×|V|)，将句子中的每个词w_i∈V映射为d_w维的向量表示

目前的相关研究显示，每个词在句子中的位置信息对于单词的表示具有十分重要的作用，因此，在词向量表示的基础上，对于每个词分别使用两个位置特征向量

和

表示它与两个目标实体间的相对距离。这样每个词w_i∈V最终被映射为

为了充分表示每个词w_i的上下文信息，使用滑动窗口的方法将句子中w_i周围的连续的k个词表示为向量

3.在句法依存图中，实体间的最短路径上通常含有重要的句法依存信息，为了区分句法依存图中实体间最短路径和普通路径，在句法依存图邻接矩阵E基础上，对路径进行加权得到邻接权重矩阵A，其中最短路径权重设置为α，普通路径的权重设置为β，且满足0<β<α<1。在此基础上，构建句法Attention矩阵

其中

n表示句子中的单词数。通过路径加权的方式，使得句法Attention矩阵A^syn能够针对实体关系抽取的特点，有效区分不同单词之间句法依存关系的紧密程度。当权重设置满足0<β<α<1时，邻接权重矩阵A可收敛，因此，句法Attention矩阵A^syn能够通过公式(4)进行高效地计算，其时间复杂度为O(n³)。

生物医学实体关系抽取任务，重点关注在句法依存图中每个单词与目标实体之间句法依存关系的紧密程度。通过公式(5)能够计算句子中单词w_i与目标实体entity的相关度Score_syn(w_i,entity)，其中entity∈{entity₁,entity₂}，W_a为参数权重矩阵。对其进行归一化处理，得到句法Attention的概率分布，如公式(6)所示。

Score_syn(w_i,entity)＝[W_a·A^syn]_i,entity(5)

计算得到的

和

分别表示单词w_i与目标实体entity₁和entity₂之间的句法依存相关程度。使用公式(7)，将单词w_i的向量表示z_i映射为基于句法Attention的向量表示

(图3中用①表示)。

单词的词向量表示是基于大量生物医学领域语料进行训练生成的，其中蕴含着丰富语义信息。在句法Attention机制的基础上，基于词向量表示建立词向量Attention机制。通过计算单词目标实体entity与单词w_i之间的词向量相似度，得到词向量Attention矩阵

词向量Attention矩阵中的元素[A^e]_entity,i＝f(entity,w_i)表示目标实体entity与单词w_i的语义相关度，f函数计算目标实体entity与单词w_i的词向量的点积，其中entity∈{entity₁,entity₂}。相似的，使用公式(8)对其进行归一化处理，然后使用公式(9)将单词w_i的向量表示z_i映射为基于词向量Attention的向量表示r_i ^emb(图3中用②表示)。

最终将基于句法Attention机制的向量表示

和基于词向量Attention机制的向量表示

整合为基于双路Attention模型的卷积层输入向量表示

4.将基于双路Attention模型的向量映射作为卷积层的输入，卷积层中卷积核大小设置为h，使用tanh函数作为卷积层的激活函数，则卷积层的输出的新特征为c＝[c₁,c₂,…,c_n-h+1]，其中c_i＝tanh(W¹·z_i:i+h-1+b)。经过卷积层的非线性函数激活后，新的特征具有更泛化的表示能力。

在池化层使用最大池化方法对卷积层的输出特征进行处理，处理后的特征为f＝max(c)。将特征向量输入到最后的输出层，使用分类器进行分类预测，如公式10所示。

O＝W²·f(10)

最终，实现对生物医学文献语料中的抽取疾病、药物、基因间的语义关系。

(3)异构生物医学知识网络的构建

用实体关系表示文献知识与领域数据中的关系数据信息，因此将产生药物、疾病、基因、副作用、基因本体和通路6类实体类型以及10类实体关系，具体如表1所示。通过构建异构实体关系网络来融合多种类型的实体和实体关系。

表1多源生物医学领域知识数据对应的实体关系

实体类型1	实体类型2	关系类型	知识/数据类型	数据源
					药物	药物	文献关系	文献知识	MEDLINE
药物	疾病	文献关系	文献知识	MEDLINE
					药物	基因	文献关系	文献知识	MEDLINE
药物	基因	靶标关系	药物靶标数据	DRUGBANK
					药物	副作用	导致关系	药物副作用数据	SIDER
疾病	疾病	文献关系	文献知识	MEDLINE
					疾病	基因	文献关系	文献知识	MEDLINE
基因	基因	文献关系	文献知识	MEDLINE
					基因	通路	从属关系	基因与通路关系数据	KEGG
基因	基因本体	标注关系	基因本体数据	Gene Ontology

(4)文献知识与领域数据的融合

在异构网络中的文献知识与领域数据融合方面，针对药物重定位研究的特点，基于异构网络元路径理论将文献知识与领域数据统一抽象为药物与疾病间的元路径模式，建立面向异构生物医学知识网络的元路径模型，将药物与疾病候选关系之间存在的元路径模式，表示为药物与疾病候选关系的特征，最终文献知识与领域数据将有机融合为药物与疾病候选关系相应的特征向量。元路径实例上的节点连接度构成连接度集合Path_Degree，该元路径实例的权重Path_Weight可由公式(11)计算得到，其中w为衰减系数，可以通过初步实验选取w的最优值，在图3中w＝0.5。

Path_Weight(path)＝∏_{d∈Path_Degree}d^-w (11)

(5)基于半监督的药物重定位预测

在得到药物与疾病关系的特征向量表示后，基于机器学习理论，使用现有的样本数据，训练得到药物重定位预测模型，实现对药物与疾病候选关系的预测。

根据现有的正例样本集P和未标注样本集U，本发明提出基于半监督的药物重定位预测方法。为了更好地利用未标注样本集U，基于正例样本集P和未标注样本集U的分布情况，将未标注样本集U进一步划分为“可靠负例”样本集RN(Reliable Negatives)、“可能正例”样本集LP(Likely Positives)、“可能负例”样本集LN(Likely Negatives)以及“弱负例”样本集WN(Weak Negatives)。

1.首先使用公式(12)基于正例样本集P，计算得到正例样本特征向量的平均值Ave_VP。其中|P|为正例样本个数，VP_i表示第i个正例样本特征向量。分别计算未标注样本集U中的每个未标注样本特征向量与正例特征向量平均值Ave_VP的欧式距离(EuclideanDistance),用Dist(Ave_V,VU_i)表示，其中VU_i表示第i个未标注样本的特征向量。Dist(Ave_V,VU_i)能够区分未标注样本U_i与正例样本集P之间的相似程度。在此基础上，使用公式(13)计算未标注样本集U与正例样本集P之间的平均欧式距离Ave_Dist。Ave_Dist表示未标注样本集U和正例样本集P之间的平均欧式距离，对于一个未标注样本U_i，如果Dist(Ave_V,VU_i)>Ave_Dist，表明未标注样本U_i与正例样本集P之间的相似性较弱。因此，将这样的未标注样本U_i加入到“可靠负例”样本集RN。通过上述方法，将初始的未标注样本集U划分为“可靠负例”样本集RN和未标注样本集U-RN。

2.因为“可靠负例”样本集RN与正例样本集P之间存在较大的欧式距离，所以仅依靠“可靠负例”样本集RN和正例样本集P的分布仍然无法准确地估计分类超平面。为了进一步对未标注样本集U-RN进行区分，本发明构建一个样本相似性网络G_Sim(V_sim,E_sim)，样本相似性网络的节点集合V_sim为全体样本集合P∪U，样本相似性网络中的边表示两个样本之间的相似程度。样本相似性网络的相似性矩阵A_ij定义如下：

其中Dist(S_i,S_j)表示两个样本S_i和S_j之间的欧式距离。A_ij值越高，表示两个样本S_i和S_j之间的欧式距离越小，因此属于同一类别的可能性越大。在构建样本相似性网络的过程中，对于每个样本S_i，仅选取与S_i相似度排名最高的m个节点相连(m取值可以通过实验的方法设定)，以保证样本相似度网络中的边具有较高的置信度。

3.分别用P₀、RN₀和U₀来表示正例样本集P、“可靠负例”样本集RN和未标注样本集U-RN的先验初始向量。对于一个正例样本，先验概率设为1；对于一个“可靠负例”样本，先验概率设为-|P|/|RN|；对于一个未标注样本，先验概率设为0。这样能够得到全体样本集P∪U的初始向量G₀(P₀,U₀,RN₀)^T，并保证样本集的先验概率∑P₀+∑U₀+∑RN₀＝0。然后，基于随机游走模型，将样本的先验概率通过样本相似性网络进行传播，最终达到收敛的稳态。整个过程表示如公式(15)所示，其中G₁＝G₀，D为对角阵且D_ii＝∑_kA_ik。

G_r＝(1-α)D^-1AG_r-1+αG₀，(r≥2) (15)

在随机游走过程中，参数α可以通过初步实验选取最优值，一般当Dif＝|G_r-G_r-1|<10^-6时，认为随机游走过程达到稳态，迭代终止。系统达到稳态后，样本集的后验概率向量为G_r(P_r,U_r,RN_r)^T，相应的未标注的样本集U-RN后验概率为U_r。未标注样本的后验概率U_r是基于正例样本集P和“可靠负例”样本集RN的先验概率，利用随机游走模型通过样本相似性网络迭代计算生成，对于未标注样本具有很强的类别指示作用。按照公式(16)给出的分类标准，能够对于每个未标注样本S_i，基于其后验概率U_r(S_i)分配相应的类别标签，最终将未标注的样本集U-RN进一步划分为“可能正例”样本集LP、“可能负例”样本集LN以及“弱负例”样本集WN。

4.通过以上步骤，得到正例样本集P、“可靠负例”样本集RN、“可能正例”样本集LP、“可能负例”样本集LN以及“弱负例”样本集WN。这五个样本集具有不同的置信度，因此，在分类模型的构造上应为不同样本集设置不同的惩罚系数。基于权重支持向量机(WeightedSupport Vector Machine)模型，使用以上五个样本集训练生成药物重定位预测模型。权重支持向量机模型定义如公式(17)所示，其中δ_i为松弛变量，c′₊、c″₊、c′_-、c″_-、c″′_-分别为五个样本集P、LP、RN、LN、WN的惩罚系数。因为正例样本集P比“可能正例”样本集LP具有更高的置信度，因此，在公式(17)中设c′₊>c″₊。类似的c′_->c″_->c″′_-。

最后，使用训练得到的药物重定位预测模型，对候选的药物与疾病未知作用关系进行二元分类，最终实现药物重定位的有效预测。

Claims

1.一种基于生物医学文献和领域知识数据的药物重定位预测方法，其特征在于，具体步骤如下：

S1)使用分布式文本表示学习方法来学习词向量作为深度神经网络模型的输入，在双向LSTM模型的基础上结合CRF模型，即BLSTM-CRF模型，对生物医学数据库中的命名实体进行高精度识别，找到最佳标签序列；利用UMLS或MESH生物医学语义资源，基于语义消歧方法，实现生物医学实体名称标准化；

S2)在步骤S1)对生物医学数据库中的疾病、药物、基因实体名进行识别及其标准化的基础上，建立基于双路Attention机制的实体关系抽取模型，从生物医学数据库中抽取疾病、药物、基因之间的语义关系；

S3)通过构建异构网络来融合步骤S2)产生的多种类型的实体和实体关系；

S4)建立面向步骤S3)所构建的异构生物医学知识网络的元路径模型，将药物与疾病未知作用关系之间存在的元路径模式，表示为药物与疾病未知作用关系的特征，最终文献知识与领域数据有机融合为药物与疾病未知作用关系相应的特征向量；

S5)在步骤S4)得到药物与疾病未知作用关系的特征向量表示后，基于机器学习理论，使用现有的样本数据，训练得到药物重定位预测模型，对候选的药物与疾病未知作用关系进行二元分类，最终实现药物重定位的预测。

2.根据权利要求1所述的一种基于生物医学文献和领域知识数据的药物重定位预测方法，其特征在于：

所述的生物医学数据库包括MEDLINE、DRUGBANK、SIDER、Gene Ontology和KEGG；

所述的UMLS，是一体化医学语言系统，生物医学领域中的实体均可借助UMLS的MetaMap工具映射成UMLS的超级叙词表里的概念；

所述的MESH，是美国国立医学图书馆编制的权威性医学主题词表，使用MESH词对生物医学数据库中的文献数据库建立索引。

3.根据权利要求1或2所述的一种基于生物医学文献和领域知识数据的药物重定位预测方法，其特征在于，

所述的步骤S1)，具体如下：

(1.1)分布式文本表示学习

使用分布式文本表示学习方法来学习词向量作为深度神经网络模型的输入；下载生物医学文献，构建无标注语料集，作为词向量的训练集；将所有文本语料进行小写转化，然后基于word2vec工具从海量生物医学语料中，训练生成词向量矩阵W_V，维度为d_w×|V|，其中|V|是字典的大小，d_w是词向量的维度；

(1.2)基于BLSTM-CRF的命名实体识别模型

在BLSTM-CRF模型中，使用双向的LSTM结构，采用BI标签机制；以一个句子为单位，将句子中的每个单词w_i使用前面训练得到的词向量矩阵W_V进行映射，句子中的每个词w_i∈V被映射为词向量

依次输入到双向LSTM网络中；

为了进一步提高实体识别的准确性，在原始的LSTM基础上加入整个句子的标签转移信息，具体如下，定义一个标签转移矩阵A，A_i,j代表从标签i转移到标签j的得分；定义θ为双向LSTM模型需要学习的参数，那么

是整个模型要学习的所有参数；给定一个句子

T为句子长度，定义[f_θ]_i,t是第t个词，第i个标签的双向LSTM模型输出分值，则一个句子给定标签序列

的总得分计算公式如下：

在计算所有可能的标签序列后，使用公式(2)得到一个句子

中标签序列

的概率，其中

表示所有可能的标签序列：

使用最大似然估计来训练模型，如公式(3)所示；整个训练过程使用随机梯度下降法进行优化参数：

模型训练后，使用维特比算法找到最佳标签序列，实现对于药物、疾病、基因、表型实体的识别；

(1.3)实体名称标准化

利用UMLS或MESH的生物医学语义资源，基于语义消歧方法实现生物医学实体名称标准化；

所述的步骤S2)，具体如下：

首先，使用句法分析器对句子进行句法分析，使用句法分析器McClosky-CharniakParser对其进行句法分析，得到其句法依存图，得到实体间最短依存路径；然后针对生物医学实体关系抽取任务的特点，通过在CNN神经网络的输入层使用双路Attention机制强化与目标实体具有重要句法关系的单词的权重，使CNN模型有效地学习句子中对于实体关系抽取具有重要作用的信息；具体方法为：

(2.1)在生物医学命名实体识别及标准化的基础上，筛选出包括两个或两个以上药物重定位相关实体的句子，实体包括疾病实体、药物实体、基因实体；

(2.2)采用卷积神经网络模型抽取药物重定位相关实体关系，包括输入层、卷积层、池化层和输出层；首先使用训练好的词向量矩阵W_V，将句子中的每个词w_i∈V映射为d_w维的向量表示

对于每个词分别使用两个位置特征向量

和

表示它与两个目标实体间的相对距离，则每个词w_i∈V最终被映射为

(2.3)在句法依存图中，在句法依存图邻接矩阵E基础上，对路径进行加权得到邻接权重矩阵A，其中最短路径权重设置为α，普通路径的权重设置为β，且满足0<β<α<1；构建句法Attention矩阵

其中

n 表示句子中的单词数；通过路径加权的方式，使得句法Attention矩阵A^syn能够针对实体关系抽取的特点，区分不同单词之间句法依存关系的紧密程度；当权重设置满足0<β<α<1时，邻接权重矩阵A可收敛，因此，句法Attention矩阵A^syn能够通过公式(4)进行计算，其时间复杂度为O(n³)；

通过公式(5)计算句子中单词w_i与目标实体entity的相关度Score_syn(w_i,entity)，其中entity∈{entity₁,entity₂}，W_a为参数权重矩阵；对其进行归一化处理，得到句法Attention的概率分布，如公式(6)所示；

Score_syn(w_i,entity)＝[W_a·A^syn]_i,entity (5)

计算得到的

和

分别表示单词w_i与目标实体entity₁和entity₂之间的句法依存相关程度；使用公式(7)，将单词w_i的向量表示z_i映射为基于句法Attention的向量表示r_i ^syn：

通过计算单词目标实体entity与单词w_i之间的词向量相似度，得到词向量Attention矩阵

词向量Attention矩阵中的元素[A^e]_entity,i＝f(entity,w_i)表示目标实体entity与单词w_i的语义相关度，f函数计算目标实体entity与单词w_i的词向量的点积，其中entity∈{entity₁,entity₂}；使用公式(8)对其进行归一化处理，然后使用公式(9)将单词w_i的向量表示z_i映射为基于词向量Attention的向量表示r_i ^emb；

最终将基于句法Attention机制的向量表示r_i ^syn和基于词向量Attention机制的向量表示r_i ^emb整合为基于双路Attention模型的卷积层输入向量表示r_i＝[[r_i ^syn]^T,[r_i ^emb]^T]^T；

(2.4)将基于双路Attention模型的向量映射作为卷积层的输入，卷积层中卷积核大小设置为h，使用tanh函数作为卷积层的激活函数，则卷积层的输出的新特征为c＝[c₁,c₂,…,c_n-h+1]，其中c_i＝tanh(W¹·z_i:i+h-1+b)；

在池化层使用最大池化方法对卷积层的输出特征进行处理，处理后的特征为f＝max(c)；将特征向量输入到最后的输出层，使用分类器进行分类预测，如公式10所示；

O＝W²·f (10)

最终，实现对生物医学文献语料中的抽取疾病、药物、基因间的语义关系；

所述的步骤S3)，具体如下：

用实体关系表示文献知识与领域数据中的关系数据信息，将产生药物、疾病、基因、副作用、基因本体和通路6类实体类型以及10类实体关系，通过构建异构实体关系网络来融合多种类型的实体和实体关系；

所述的步骤S4)，具体如下：

基于异构网络元路径理论将文献知识与领域数据统一抽象为药物与疾病间的元路径模式，建立面向异构生物医学知识网络的元路径模型，将药物与疾病候选关系之间存在的元路径模式，表示为药物与疾病候选关系的特征，最终文献知识与领域数据将有机融合为药物与疾病候选关系相应的特征向量；元路径实例上的节点连接度构成连接度集合Path_Degree，该元路径实例的权重Path_Weight由公式(11)计算得到，其中w为衰减系数，通过初步实验选取w的最优值；

Path_Weight(path)＝∏_{d∈Path_Degree}d^-w (11)

所述的步骤S5)，具体如下：

(5.1)首先使用公式(12)基于正例样本集P，计算得到正例样本特征向量的平均值Ave_VP；其中|P|为正例样本个数，VP_i表示第i个正例样本特征向量；分别计算未标注样本集U中的每个未标注样本特征向量与正例特征向量平均值Ave_VP的欧式距离,用Dist(Ave_V,VU_i)表示，以区分未标注样本U_i与正例样本集P之间的相似程度，其中VU_i表示第i个未标注样本的特征向量；使用公式(13)计算未标注样本集U与正例样本集P之间的平均欧式距离Ave_Dist，Ave_Dist表示未标注样本集U和正例样本集P之间的平均欧式距离，对于一个未标注样本U_i，如果Dist(Ave_V,VU_i)>Ave_Dist，表明未标注样本U_i与正例样本集P之间的相似性较弱，则将未标注样本U_i加入到可靠负例样本集RN；依次将初始的未标注样本集U划分为可靠负例样本集RN和未标注样本集U-RN；

(5.2)构建样本相似性网络G_Sim(V_sim,E_sim)，样本相似性网络的节点集合V_sim为全体样本集合P∪U，样本相似性网络中的边表示两个样本之间的相似程度；样本相似性网络的相似性矩阵A_ij定义如下：

其中Dist(S_i,S_j)表示两个样本S_i和S_j之间的欧式距离；A_ij值越高，表示两个样本S_i和S_j之间的欧式距离越小，因此属于同一类别的可能性越大；在构建样本相似性网络的过程中，对于每个样本S_i，仅选取与S_i相似度排名最高的m个节点相连，以保证样本相似度网络中的边具有较高的置信度；

(5.3)分别用P₀、RN₀和U₀来表示正例样本集P、可靠负例样本集RN和未标注样本集U-RN的先验初始向量；对于一个正例样本，先验概率设为1；对于一个可靠负例样本，先验概率设为-|P|/|RN|；对于一个未标注样本，先验概率设为0；得到全体样本集P∪U的初始向量G₀(P₀,U₀,RN₀)^T，并保证样本集的先验概率∑P₀+∑U₀+∑RN₀＝0；然后，基于随机游走模型，将样本的先验概率通过样本相似性网络进行传播，最终达到收敛的稳态；整个过程表示如公式(15) 所示，其中G₁＝G₀，D为对角阵且D_ii＝∑_kA_ik；

G_r＝(1-α)D^-1AG_r-1+αG₀，(r≥2) (15)

在随机游走过程中，参数α通过初步实验选取最优值，当Dif＝|G_r-G_r-1|<10^-6时，认为随机游走过程达到稳态，迭代终止；系统达到稳态后，样本集的后验概率向量为G_r(P_r,U_r,RN_r)^T，相应的未标注的样本集U-RN后验概率为U_r；未标注样本的后验概率U_r是基于正例样本集P和可靠负例样本集RN的先验概率，利用随机游走模型通过样本相似性网络迭代计算生成，对于未标注样本具有很强的类别指示作用；按照公式(16)给出的分类标准，对于每个未标注样本S_i，基于其后验概率U_r(S_i)分配相应的类别标签，最终将未标注的样本集U-RN进一步划分为可能正例样本集LP、可能负例样本集LN以及弱负例样本集WN；

(4)通过步骤(1)～(3)，得到正例样本集P、可靠负例样本集RN、可能正例样本集LP、可能负例样本集LN以及弱负例样本集WN；在分类模型的构造上应为不同样本集设置不同的惩罚系数；基于权重支持向量机模型，使用以上五个样本集训练生成药物重定位预测模型；权重支持向量机模型定义如公式(17)所示，其中δ_i为松弛变量，c′₊、c″₊、c′_{_}、c″_-、c″′_-分别为五个样本集P、LP、RN、LN、WN的惩罚系数；正例样本集P比可能正例样本集LP具有更高的置信度，因此，在公式(17)中设c′₊>c″₊；类似的c′_{_}>c″_->c″_-；

Subject to∶y_i(W^Tx_i+b)≥1-δ_i，(i＝1,2,…,n) (17)

最后，使用训练得到的药物重定位预测模型，对候选药物与疾病关系进行二元分类，对候选的药物与疾病未知作用关系进行二元分类，最终实现药物重定位的有效预测。