CN110473592A

CN110473592A - 基于图卷积网络的有监督的多视角人类协同致死基因预测方法

Info

Publication number: CN110473592A
Application number: CN201910701944.4A
Authority: CN
Inventors: 郝志峰; 吴迪; 蔡瑞初; 温雯; 陈学信; 李梓健
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-19
Anticipated expiration: 2039-07-31
Also published as: CN110473592B

Abstract

本发明公开了一种基于图卷积网络的有监督多视角人类协同致死基因预测方法，包括以下步骤：以协同致死因数据集作为主视角，以u个基因本源相似度矩阵作为支撑视角；将协同致死基因对数据集划分训练集和测试集；将训练集转化为邻接矩阵A_mian，将每个相似度矩阵进行k‑最近邻筛选，保留相似度最高的k条边，得到邻接矩阵A_u；令X,Y＝A_mian；根据A_mian和A_u得到对应视角下的图卷积拉普拉斯矩阵构建包括图卷积网络编码层、基因关系解码层，基于注意力机制的多视角聚合层的预测模型；将输入预测模型，得到总的损失值；根据总的损失值计算梯度，利用梯度反向传播算法更新预测模型参数，直到预测模型收敛；将预测模型输出的预测分值输入激活函数，得到预测矩阵。

Description

基于图卷积网络的有监督的多视角人类协同致死基因预测方法

技术领域

本发明涉及神经网络技术领域，更具体的，涉及一种基于图卷积网络的有监督的多视角人类协同致死基因预测方法。

背景技术

随着近年来深度学习技术的快速发展，深度学习技术在各个领域中都有应用开花结果，在生物信息领域中就有大量的数据，为深度学习技术的落地生根提供了充分的生长空间。在人类基因中存在这么一种基因对，当这对基因中的其中的某一个发生突变时，对细胞不会有严重的影响；当这对基因都发生了突变，就会导致细胞的死亡。这种现象我们称其为协同致死，构成协同致死的基因对就被称为协同致死基因对。通过收集基因性质和协同致死基因对的数据，可以用深度学习模型判断基因之间是否存在协同致死关系，进而为靶向的抗癌药物做出指导，推动抗癌药物的研究与开发。

在使用传统的深度学习方法对人类基因数据进行建模的时候，往往会将来自不同视角下的基因数据进行简单的叠加或者拼接，之后用于基因之间协同致死关系进行预测。这样的做法实际上是不周到的，首先是因为在预测协同致死关系时，协同致死关系数据集必然是与目标相关性最强的数据集；其次是在其他数据集中包含的信息并不完全是与协同致死关系相关的，如果在建模的过程中简单进行叠加或拼接就会将无关信息引入最终的预测中，甚至会降低了模型性能。因此，在使用传统的深度学习技术去解决多视角下人类协同致死基因预测的问题时受到了比较大的限制。

考虑到基因数据都可以转化描述的是基因之间的关系的形式，例如，协同致死关系在基因甲和基因乙之间是否存在，基因本体属性可以表现为基因甲和基因乙的相似度是多少，这样的形式可以用图来表示，相比传统的深度学习的中用向量表示的样本，图包含了丰富的结构信息，而这些结构信息表示了基因之间的相互关系，对于我们的预测是有帮助的。图卷积网络是近年提出的深度学习模型，它能同时抽取图表示和向量表示的样本信息，从而获得比传统的深度学习模型更好的效果。图卷积网络是深度学习领域近年来较热门的研究问题，也有不少关于多视角任务的工作，但是在这些工作中多个视角间是相对平等的关系，在协同致死关系预测的任务中，是包含一个主视角和多个支撑视角任务。因此如何选取合适的技术去处理支撑视角的数据，如何抽取支撑视角中和主视角相关的信息，如何处理主视角和支撑视角之间的关系，建立一个带有主视角的多视角预测模型具有一定的研究意义。

发明内容

本发明为了解决使用传统的深度学习技术去解决多视角下人类协同致死基因预测的问题时受到了比较大的限制的问题，提供了一种基于图卷积网络的有监督多视角人类协同致死基因预测方法，其主要利用支撑视角信息补充主视角信息进行人类协同致死基因对进行预测，本发明能准确预测两个基因是否构成协同致死关系。

为实现上述本发明目的，采用的技术方案如下：一种基于图卷积网络的有监督多视角人类协同致死基因预测方法，所述该方法包括以下步骤：

S1：以协同致死因数据集作为主视角，以u个基因本源相似度矩阵作为支撑视角；

S2：将已知的协同致死基因对数据集取Q作为训练集，其中0<Q<1，用基因关系的全集减去训练集得到的子集作为测试集；

S3：将训练集的数据转化为邻接矩阵A_mian，并将每个支撑视角u的相似度矩阵进行k-最近邻筛选，对每个基因保留相似度最高的k条边，得到支撑视角的邻接矩阵A_u；令X,Y＝A_mian，其中X作为所有基因的特征矩阵；Y作为监督信号，是训练时重构的目标矩阵；

S4：根据主视角的A_mian和每个支撑视角u的邻接矩阵A_u计算每个视角的拉普拉斯矩阵，得到对应视角下的图卷积拉普拉斯矩阵

S5：构建包括图卷积网络编码层、基因关系解码层，基于注意力机制的多视角聚合层的预测模型；

S6：将每个视角对应的拉普拉斯矩阵输入预测模型，得到总的损失函数，从而得到总的损失值；

S7：根据总的损失值计算梯度，利用梯度反向传播算法更新预测模型参数；

S8：重复S6～S7直到得到新的总的损失值大于或等于前W次的总的损失值的均值，停止更新，得到收敛的预测模型，其中P为正整数；

S9：将得到收敛的预测模型输出的预测分值输入激活函数，得到模型对协同致死关系的预测矩阵完成预测。

优选地，所述邻接矩阵A_mian中的每一行或每一列都代表一个基因，邻接矩阵邻接中第i行第j列的数据称为边，代表基因i和基因j是否存在协同致死关系，若存在则为1，不存在则为0。

进一步地，所述步骤S4，将得到的A_u和A_main分别代入下式中的A，分别得到对应视角下的图卷积拉普拉斯矩阵

式中，I_N表示N阶单位阵；表示N阶对角阵，其对角线上的值为每一行的和，通称为度矩阵；I_N和都与邻接矩阵A维度相同。

再进一步地，步骤S5，所述图卷积网络编码层采用l层的图卷积网络来实现，其实现公式如下：

式中，l代表第l层图卷积网络；Z^l为第l层图卷积网络输出的基因嵌入表达，当l＝0时，Z^l为节点特征，即Z^l＝X；表示步骤S4中计算得到的拉普拉斯矩阵；W^l为第l层图卷积网络的可学习参数，σ(·)为激活函数。

再进一步地，所述图卷积网络编码层采用2层的图卷积网络来实现，并设置第一层图卷积网络为512维，第二层图卷积网络为256维。

再进一步地，所述基因关系解码层将分别每个视角下的节点嵌入表达转化为对应的预测分值其计算方法如下：

经过基因关系解码层，就能得到主视角的预测分值和各个支撑视角的预测分值

再进一步地，所述基于注意力机制的多视角聚合层将所有支撑视角的预测分值输入注意力层中加权叠加后得到融合所有支撑视角的预测分值其计算方法如下：

假设有u个支撑视角，每个支撑视角对应一个预测分值首先计算非标准化的注意力权重：

式中，表示N×N的矩阵，N为基因数目；W和b均表示1×N的向量，表示注意力层中可学习的参数；

然后对g^′u进行标准化处理，得到标准化的注意力权重g^u，处理方法如下：

其中，上标u代表总共的u个支撑视角，T代表第T个支撑视角，1≤T≤u；下标i代表注意力权重向量g中第i个位置的值；

再对所有支撑视角的预测分值进行加权后叠加，得到计算方法如下：

其中diag(·)表示将1×N的向量转化为N×N的矩阵，*表示矩阵乘法；

最后根据主视角的预测分值和支撑视角的预测分值计算预测模型最终的预测分值计算方法如下：

其中⊙为逐项元素相乘。

再进一步地，所述步骤S6具体训练如下所示：

将每个视角对应的拉普拉斯矩阵分别输入独立的图卷积网络，每个图卷积网络都共享一个特征矩阵X，主视角和每个支撑视角分别输出协同致死关系预测矩阵和将和输入基于注意力机制的多视角聚合层后得到模型最终的预测矩阵

然后根据监督信号Y，对每个视角和最终预测计算损失值；

其中支撑视角的损失计算方法如下：

其中主视角的损失计算方法如下：

最终预测的损失计算方式如下：

最后总的损失函数为：

loss_total＝loss_supp+loss_main+loss

其中：weight是根据A_mian计算得到的权重系数，设A_mian中节点总数为n，边总数为e，则

再进一步地，所述步骤S7，通过如下公式更新预测模型参数，

式中，θ表示预测模型中所有可学习的参数，包括图卷积网络中的W^l和多视角聚合层中的W和b；η表示学习率，表示梯度下降法中更新可学习参数时的步长，是人为设定的超参数。

再进一步地，将预测模型收敛后输出的预测分值输入激活函数，得到模型对协同致死关系的预测矩阵其计算方法如下：

本发明的有益效果如下：

1.本发明搭建了一个能够从人类协同致死基因数据和其他多个支撑视角的数据中抽取信息，并将多视角的信息进行聚合，再对人类协同致死基因进行预测的模型，并通过模型进行了训练，测试，最终生成一个训练好的人类协同致死基因预测模型，通过这个模型，可以准确预测两个基因是否构成协同致死关系。

2.本发明对每个视角的预测分值和支撑视角的注意力聚合机制都进行了带监督的训练，保证了每个视角抽取的信息都是与预测目标接近的。

3.本发明进行多视角融合时区分了主视角和支撑视角，将支撑视角的预测分值通过注意力机制叠加，然后与主视角的预测分值进行逐项元素相乘，最后再与主视角的预测分值相加得到最终的预测分值，从而提高预测精度。

附图说明

图1是本实施例所述预测方法的步骤流程图。

图2是本实施例对数据进行预处理的示意图。

图3是本实施例所述预测模型的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1、图2所示，一种基于图卷积网络的有监督的多视角人类协同致死基因预测方法，其包括如下步骤：

S1：为了方便本领域技术人员更好地理解本实施例的技术方案，下面以协同致死因数据集作为主视角，以两个基因本源相似度矩阵GO和CC作为支撑视角。

S2：将协同致死基因数据集取80％作为训练集，用基因关系的全集减去训练集得到的子集作为测试集，这样的测试集中会包含大量不构成协同致死关系的基因对，所述的测试集是作为真实的协同致死关系标签。所述的协同致死基因数据集是一个二元组的集合，每个二元组表示对应的基因对构成协同致死关系。

在实际真实数据集中有6000多个基因和大约14000对协同致死基因对，为了简化说明，本实施例假设现有包含十个基因的集合N＝{n₁,n₂,…,n₁₀}，且其中包含20对协同致死关系，则协同致死基因集形式如表1所示：

表1

序号	协同致死关系	序号	协同致死关系	序号	协同致死关系
						1	<n<sub>1</sub>,n<sub>3</sub>>	8	<n<sub>2</sub>,n<sub>7</sub>>	15	<n<sub>5</sub>,n<sub>10</sub>>
2	<n<sub>1</sub>,n<sub>5</sub>>	9	<n<sub>2</sub>,n<sub>8</sub>>	16	<n<sub>6</sub>,n<sub>8</sub>>
						3	<n<sub>1</sub>,n<sub>6</sub>>	10	<n<sub>3</sub>,n<sub>5</sub>>	17	<n<sub>6</sub>,n<sub>10</sub>>
4	<n<sub>1</sub>,n<sub>7</sub>>	11	<n<sub>3</sub>,n<sub>8</sub>>	18	<n<sub>7</sub>,n<sub>8</sub>>
						5	<n<sub>1</sub>,n<sub>10</sub>>	12	<n<sub>3</sub>,n<sub>10</sub>>	19	<n<sub>7</sub>,n<sub>9</sub>>
6	<n<sub>2</sub>,n<sub>3</sub>>	13	<n<sub>4</sub>,n<sub>5</sub>>	20	<n<sub>8</sub>,n<sub>9</sub>>
						7	<n<sub>2</sub>,n<sub>4</sub>>	14	<n<sub>4</sub>,n<sub>9</sub>>

假设现在前面80％的数据划分得到的训练集为

TrainingSet＝{1,2,3,…,16}，测试集则为TestSet＝U-TrainingSet，其中

U＝{<n_i,n_j>|1≤i<N,i<j≤N}

S3：根据图2所示，对上述数据集进行以下预处理：

S301：将训练集的数据转化为邻接矩阵A_mian，所述邻接矩阵A_mian中的每一行或每一列都代表一个基因，邻接矩阵邻接中第i行第j列的数据称为边，代表基因i和基因j是否存在协同致死关系，若存在则为1，不存在则为0。本实施例所述邻接矩阵A_mian表示如下：

令X,Y＝A_main，其中，X作为所有基因的特征矩阵，Y作为监督信号，是训练时重构的目标矩阵。

S302：GO和CC的是基因之间的相似度矩阵，每一行表示一个基因与其他基因的相似度。本实施例对相似度矩阵GO、相似度矩阵CC分别进行k-最近邻筛选，对每个基因保留相似度最高的k条边(也称k个基因的值)，将其他置为0，得到支撑视角的邻接矩阵A_GO和A_CC。这里的k是控制相似度矩阵的超参数，在本实施例中k＝45，假设有十个基因，其GO相似度矩阵如下：

若k＝3，则只保留每个基因中与其相似度最高的3个值，得到A_GO如下：

S4：将得到的A_u和A_main分别代入下列计算公式中的A，分别得到对应视角下的图卷积拉普拉斯矩阵计算公式如下：

本实施例以步骤S3中所得的A_main为例，则计算结果如下：

S5：构建包括图卷积网络编码层、基因关系解码层，基于注意力机制的多视角聚合层的预测模型，如图3所示，

本实施例所述的图卷积网络编码层采用两层的图卷积网络来实现，其实现公式如下：

其中，l代表第l层图卷积网络，在本实施例中，使用的是2层图卷积网络；Z^l为第l层图卷积输出的基因嵌入表达，当l＝0时，Z^l为节点特征，即Z^l＝X；为步骤S4中计算得到的拉普拉斯矩阵；W^l为第l层图卷积网络的可学习参数，在本实施例中第一层图卷积网络为512维，第二层图卷积网络为256维；σ(·)为激活函数，如ReLU(·)等。

所述基因关系解码层将分别每个视角下的节点嵌入表达转化为对应的预测分值其计算方法如下：

本实施例所述的基于注意力机制的多视角聚合层将所有支撑视角的预测分值输入注意力层中加权叠加后得到融合所有支撑视角的预测分值其计算方法如下：

其中，为N×N的矩阵，N为基因数目；W和b为1×N的向量，是注意力层中可学习的参数。

然后对g′^u进行标准化处理，得到标准化的注意力权重g^u，处理方法如下：

其中，上标u代表总共的u个支撑视角，T代表第T个支撑视角，1≤T≤u；下标i代表注意力权重向量g中第i个位置的值。

其中diag(·)表示将1×N的向量转化为N×N的矩阵，*表示矩阵乘法。

最后根据主视角的预测分值和支撑视角的预测分值计算模型最终的预测分值计算方法如下：

其中⊙为逐项元素相乘。

S6：对预测模型的训练，将每个视角对应的拉普拉斯矩阵输入预测模型进行以下步骤训练：

S601：将从数据集中提取每个视角对应的拉普拉斯矩阵分别输入独立的图卷积网络，每个图卷积网络都共享一个特征矩阵X，主视角和每个支撑视角分别得到协同致死关系预测矩阵和将和输入基于注意力机制的多视角聚合层后得到模型最终的预测矩阵

然后根据监督信号Y，对每个视角和最终预测计算损失值；

其中支撑视角GO的损失计算方法如下：

其中支撑视角CC的损失计算方法如下：

其中主视角的损失计算方法如下：

最终预测的损失计算方式如下：

最后总的损失函数为：

loss_total＝loss_supp+loss_main+loss

因此得到：

通过如下公式更新预测模型参数，

S8：重复S6～S7直到得到新的总的损失值大于或等于前30次总的损失值的均值，此时认为预测模型已经得到收敛，停止更新，得到收敛的预测模型；

S9：将得到收敛的预测模型输出的预测分值输入激活函数，得到模型对协同致死关系的预测矩阵其中完成预测。

本实施例将通过所述预测方法得到的预测结果和测试集的真实标签进行比较，计算AUC和AUPR值。AUC和AUPR都是衡量模型优劣的一种性能指标，其取值范围均为[0,1],数值越高，说明模型性能越好。其中AUC是ROC曲线下的面积，ROC曲线是受试者工作特征曲线，其纵坐标为真阳性率，横坐标为假阳性率；AUPR是PR曲线下的面积，PR曲线是精确率(precision)-召回率(recall)曲线，其纵坐标为精确率，横坐标为召回率。ROC和PR曲线都是根据一系列不同的二分类阈值划分绘制的曲线。

现有技术的方法取得的AUC值为83.3％，AUPR值为27.5％。利用本实施例所述的预测方法计算得出的AUC值为84.8％，AUPR值为40.1％，并且对于协同致死预测这种测试样本中正负样本比例非常不平衡的任务来说，AUPR值的提高更具有意义。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：所述该方法包括以下步骤：

S8：重复S6～S7直到得到新的总的损失值大于或等于前P次的总的损失值的均值，停止更新，得到收敛的预测模型，其中P为正整数；

2.根据权利要求1所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：所述邻接矩阵A_mian中的每一行或每一列都代表一个基因，邻接矩阵邻接中第i行第j列的数据称为边，代表基因i和基因j是否存在协同致死关系，若存在则为1，不存在则为0。

3.根据权利要求2所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：所述步骤S4，将得到的A_u和A_main分别代入下式中的A，分别得到对应视角下的图卷积拉普拉斯矩阵

4.根据权利要求3所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：步骤S5，所述图卷积网络编码层采用l层的图卷积网络来实现，其实现公式如下：

5.根据权利要求4所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：所述图卷积网络编码层采用2层的图卷积网络来实现，并设置第一层图卷积网络为512维，第二层图卷积网络为256维。

6.根据权利要求4所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：

7.根据权利要求6所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：

所述基于注意力机制的多视角聚合层将所有支撑视角的预测分值输入注意力层中加权叠加后得到融合所有支撑视角的预测分值其计算方法如下：

其中⊙为逐项元素相乘。

8.根据权利要求7所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：所述步骤S6具体训练如下所示：

然后根据监督信号Y，对每个视角和最终预测计算损失值；

其中支撑视角的损失计算方法如下：

其中主视角的损失计算方法如下：

最终预测的损失计算方式如下：

最后总的损失函数为：

loss_total＝loss_supp+loss_main+loss

9.根据权利要求8所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：

所述步骤S7，通过如下公式更新预测模型参数，

10.根据权利要求9所述的基于图卷积网络的有监督多视角人类协同致死基因预测方法，其特征在于：将预测模型收敛后输出的预测分值输入激活函数，得到模型对协同致死关系的预测矩阵其计算方法如下：