CN108595916A

CN108595916A - 基于生成对抗网络的基因表达全谱推断方法

Info

Publication number: CN108595916A
Application number: CN201810444012.1A
Authority: CN
Inventors: 陈晋音; 郑海斌; 王桢; 应时彦; 李南; 施朝霞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-09-28
Anticipated expiration: 2038-05-10
Also published as: CN108595916B

Abstract

本发明公开了一种基于生成式对抗网络的基因表达数据推断方法，包括以下步骤：1)基因表达数据预处理，由不同平台的高维度小样本基因表达数据经处理得到大样本量的尺度统一、格式相同的基因表达数据；2)基于生成式对抗网络设计基因生成模型与基因判别模型；3)设计网络的目标函数与训练策略，对已经经过预处理的基因表达数据进行分包循环训练，通过网络的不断调整与优化得到最优生成模型。本发明提供一种具有良好的实用性和精度，采用基因生成模型和基因判别模型构建以及生成式对抗网络训练实现基因表达数据推断的方法。

Description

基于生成对抗网络的基因表达全谱推断方法

技术领域

本发明属于生物信息技术领域，具体涉及一种基于生成对抗网络的基因表达全谱推断方法。

背景技术

如今，全基因表达谱的研究已经被广泛应用于疾病发现、遗传扰动、复杂疾病分类等领域。

基因表达谱可以描绘特定情况下组织、细胞中所表达的全套基因及其丰度，它从mRNA水平上反映出组织或细胞特异性表型和表达模式。通过对基因表达谱的生物信息学搜索、查询、比较和分析，可从中获取基因转录、基因调控、信号转导通路、核酸和蛋白质结构功能及其相互联系等相关信息。而基因表达全谱则包括了全基因组的表达数据，对其进行分析与特征发现对于生物信息领域以及医疗研究领域的发展都有着重要的影响与意义。

尽管全基因组表达谱的测量成本一直在下降，但是测定数千个样本的全基因表达谱仍然是非常昂贵的，目前只有少数资金充足的实验室能够进行大规模全基因表达谱分析。同时，大量数据表明，人体全基因组约22000个基因中的部分基因的表达谱之间存在高度关联。基于此假设，博德研究所的研究人员对于已测得的约1000个信息基因的表达谱，采用基于线性回归的计算模型对剩余约21000个目标基因的表达谱进行推断。由于基因表达谱之间存在广泛的非线性关联，该计算模型在推断精度上还受到一定限制。

生成式对抗网络(Generative Adversarial Networks，GAN)即一种概率生成模型。其目的为找出给定观测数据内部的统计规律，并且能够基于所得到的概率分布模型，产生全新的，与观测数据类似的数据。通过生成模型与判别模型的不断博弈与对抗达到网络的动态平衡，使生成模型能够生成接近真实样本的数据。

发明内容

本发明的目的是提供一种基于生成对抗网络的基因表达全谱推断方法，通过少量的信息基因数据经计算即可获得整条基因表达数据，该方法获取整条基因表达数据成本低、速度快、准确性高。

为实现上述发明目的，本发明提供以下技术方案：

一种基于生成对抗网络的基因表达数据推断方法，包括以下步骤：

(1)对高维度的基因表达数据进行去重、联合分位数归一化预处理，获得固定维度的基因表达数据，并将基因表达数据分成较小维度的信息基因数据和较大维度的目标基因数据；

(2)构建基因生成模型，所述基因生成模型包括依次连接的全链接层、交替的卷积层和反卷积层，利用所述全链接层对输入的信息基因数据转化为二维矩阵，利用卷积层和反卷积层分别对每层的输入矩阵进行降维特征提取和升维特征提取，并对最后反卷积层输出的输出矩阵进行sigmoid处理后，输出虚拟目标基因数据；

(3)构建基因判别模型，所述基因判别模型包括交替的卷积层和最大池化层、全链接层，利用所述的卷积层和最大池化层分别对每层的输入矩阵进行升维特征提取和降维特征提取，利用所述全链接层对最后最大池化层的输出矩阵进行全链接计算得到每条虚拟目标基因数据的概率值；

(4)对抗训练由所述基因生成模型和所述基因判别模型构成的生成对抗网络，具体地，每条包含信息基因数据和目标基因数据的基因表达数据作为一个训练样本，利用每个训练样本对所述生成对抗网络进行两阶段训练；

在第一训练阶段中，以最大化所述基因判别模型的准确率为目标，固定所述基因生成模型的权重矩阵，利用所述基因生成模型对输入的信息基因数据生成虚拟目标基因数据后，利用基因判别模型计算输入的虚拟目标基因数据和目标基因数据的概率值；

在第二训练阶段中，以最小化所述基因判别模型的准确率为目标，固定所述基因判别模型的权重矩阵，利用所述基因生成模型对输入的信息基因数据生成虚拟目标基因数据后，利用基因判别模型计算输入的虚拟目标基因数据和目标基因数据的概率值；

(5)所述生成对抗网络训练结束后，将待测样本的信息基因数据输入到训练好的基因生成模型中，经计算获得预测目标基因数据，所述信息基因数据与预测目标基因数据组成待测样本的基因表达数据。

基因表达数据高维度小样本特点，即来自于不同平台的多条基因表达数据的表达形式不同、数字尺度不同以及数学单位不同，因此需要对这些基因表达数据进行尺度、格式统一化处理，此外，由于具有数十万样本量的表达谱中的一些表达数据存在生物或技术上的重复，需要进行重复基因表达数据进行删除，以获得大样本量的基因表达数据。一条基因表达数据对应一个样本的。

其中，所述步骤(1)包括：

(1-1)采用k-means算法将基因表达数据聚类成多个集群，针对每个集群中的所有条基因表达数据，计算并判断任意两条基因表达数据之间的欧式距离，若该欧式距离小于1.0，则删除该两条基因表达数据中的其中一条，以实现对基因表达数据的去重；

(1-2)对去重处理后的基因表达数据进行分位数归一化处理后，再按照基因维度将所有基因表达数据归一化至[0,1]区间，再将基因表达数据分成较小维度的信息基因数据和较大维度的目标基因数据；

(1-3)按照基因的重要度，删除每条信息基因数据和目标基因数据中重要度排在靠后的基因，以实现将每条信息基因数据和目标基因数据均降至固定维度。

在对基因表达数据进行聚类时，保证每个集群中包括的基因表达数据条数固定相同，以实现并行对每个集群中基因表达数据进行去重处理。

在基因表达数据中，每个基因对表现现状起不同程度的作用，将对表现现状起的作用程度作为基因的重要度。

本发明利用生成对抗网络根据输入的信息基因预测目标基因以构成的整条基因表达数据，因此，在获得生成对抗网络时，需要利用信息基因和目标基因对构建的基因生成模型和基因判别模型进行训练，一般情况下，信息基因数据的维度小于目标基因数据的维度，固定维度根据实际应用情况而定，为最佳计算平方数。作为优选，所述信息基因数据的固定维度为900，所述目标基因数据的维度为8100。

优选地，所述基因生成模型包括一个全链接层、两组交替的卷积层和反卷积层，卷积层和反卷积层的卷积核为3*3矩阵，步长为1或2。

优选地，所述基因判别模型包括两组交替的卷积层和最大池化层、一个全链接层，卷积层的卷积核为5*5矩阵，步长为1或2，最大池化层的滑动窗口为3*3矩阵。

所述生成对抗网络的训练目标函数为：

其中，G表示基因生成模型，D表示基因判别模型，x表示目标基因数据，z表示信息基因数据，G(·)表示基因生成模型生成的虚拟目标基因数据，D(·)表示输入到基因判别模型的数据的真实性概率。

本发明的技术构思为：通过生成式对抗网络的训练与优化，得到最优生成模型。首先进行基因表达数据预处理，对不同平台得到的高维度小样本基因表达数据进行相似样本删除与联合分位数归一化，得到大样本量的尺度统一、格式相同的基因表达数据，并使其数据维度归一化至[0,1]区间，再基于生成式对抗网络设计生成模型与判别模型，以通过信息基因生成目标基因并计算相关概率。设计网络的目标函数与训练策略，对已经经过预处理的基因表达数据进行分包循环训练。通过目标函数反应生成的目标基因数据与真实目标基因数据的真实度概率，并不断调整网络的权重以得到最优的生成模型。

本发明的有益效果主要表现在：对基因表达数据的预处理实现了基因数据的跨平台应用，设计的生成式对抗网络有良好的结构与博弈效果，说明本发明具有较好的适用性。在真实数据上的实验结果表明，通过少量的信息基因数据经计算即可获得整条基因表达数据，且该方法获取整条基因表达数据成本低、速度快、准确性高，有助于基因推断数据在后续实验与研究中的应用，并为生物学领域的实验提供数据基础。

附图说明

图1是本发明基于生成对抗网络的基因表达数据推断方法的流程示意图；

图2是本实施例提供的基因表达数据预处理的流程示意图；

图3是本实施例提供的基因生成模型的结构示意图；

图4是本实施例提供的基因判别模型的结构示意图；

图5是本实施例提供的生成对抗网络的训练示意图；

图6是本实施例提供的不同训练代数的基因表达推断可视化结果；

图7是本实施例提供的训练过程中的损失函数变化情况；

图8是本实施例提供的训练过程的平均绝对误差计算结果。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

基因表达数据推断的过程与对缺损的图像进行填充的过程非常相似。鉴于生成式对抗网络(GAN)在缺损图像填充中表现良好，本发明将GAN应用到生物信息领域的基因表达推断中，以期能较准确的推断出剩余的目标基因的表达谱。

本实施例中的训练集中的基因表达数据来自于Broad Institute平台GEO表达数据和Illumina RNA-Seq平台的GTEx表达数据和1000G基因表达数据。

本实施例提供的基于生成对抗网络的基因表达数据推断方法的流程如图1所示，包括以下步骤：

S101，基因表达数据的预处理，具体如图2所示。

首先，采用k-means算法将基因表达数据聚类成多个集群，每个集群中包含100条基因表达数据，针对每个集群中的所有条基因表达数据，计算并判断任意两条基因表达数据之间的欧式距离，若该欧式距离小于1.0，表示该两条基因表达数据重复，则删除该两条基因表达数据中的其中一条，以实现对基因表达数据的去重，去重处理可以在一定程度上缩小训练样本规模。

然后，对去重处理后的基因表达数据进行分位数归一化处理后，再按照基因维度将所有基因表达数据归一化至[0,1]区间，再将基因表达数据分成较小维度的信息基因数据和较大维度的目标基因数据。

最后，按照基因的重要度，删除每条信息基因数据和目标基因数据中重要度排在靠后的基因，将每条信息基因数据降至30*30维，目标基因数据降至90*90维。

S102，构建基因生成模型G，具体如下：

本实施例基因卷积神经网络构建如图3所示的基因生成模型，该基因生成模型包括输入层、隐藏层和输出层，用于生成虚拟目标基因数据，过程如下：

首先，将预处理后的900维信息基因数据进行全链接处理，转化到2025维，再将2025维数据转化为45*45的二维矩阵；

然后，定义卷积操作，即通过卷积核在原输入矩阵上的滑动与计算得到输出矩阵，一般情况下可得到维度更小的输出矩阵，实现数据的特征提取；

其中，卷积核为一个维度较小的n*n矩阵(一般取3*3)，也称为权重矩阵，其矩阵元素的值可进行预设，滑动的步长可设置(一般为1)，输出矩阵中每一个元素值即为卷积核与其当前覆盖的原输入矩阵的乘积；

接下来，定义反卷积操作，其形式与卷积操作相似，即通过由卷积核得到的转置矩阵与输入矩阵相乘，转化得到输出矩阵，一般情况下可得到维度更大的矩阵，实现数据的扩充；

最后，将维度为45*45的二维矩阵进行3层不同结构的卷积处理，包括不同部长的卷积与反卷积，得到90*90维的数据，并对其进行sigmoid处理，输出90*90维的输出矩阵，该90*90维的输出矩阵构成虚拟目标基因数据集。

S103，构建基因判别模型D，具体如下：

本实施例构建的基因判别模型如图4所示。该基因判别模型用于对输入的虚拟目标基因数据和目标基因数据真实性进行判断。

将虚拟目标基因数据和目标基因数据作为基因判别模型的输入，定义最大池化层和卷积层，利用卷积层实现输入数据的扩维特征提取，卷积层的卷积核为5*5的矩阵，步长为1或2，最大池化层实现对输入数据的讲维特征提取，即通过窗口对具有较大维度的输入矩阵进行数值提取与降维，得到维度较小的输出矩阵，其中，窗口取3*3，数值提取即在该窗口在原数据矩阵上对应的每一个区域内选取最大的数值，作为输出矩阵的元素。

对维度为90*90的目标基因数据和虚拟目标基因数据进行不同结构的卷积与池化操作，并通过全链接处理计算得到概率值，其中，该概率值的范围为[0,1]，即当数据被判别为目标基因数据时，概率为1，被判别为虚拟目标基因数据时，概率为0。

S104，对抗训练由所述基因生成模型和所述基因判别模型构成的生成对抗网络，训练过程如图5所示。

通过交替训练的训练策略实现生成式对抗网络的对抗与优化。在训练的过程中，基因判别模型D的训练目的是尽量最大化自身的判别准确率，即当概率为1时，说明该数据被判别为来自目标基因数据，标注1，概率为0时，该数据被判别为来自于虚拟目标基因数据，即由基因生成模型G生成，标注为0。基因生成模型G的训练目标是是最小化基因判别模型D的判别准确率。

具体地，以公式(1)为训练目标，针对每个由信息基因数据和目标基因数据构成的训练样本，进行以下两个阶段训练：

阶段一：以最大化基因判别模型D的准确率为目标，固定基因生成模型G的权重矩阵，利用基因生成模型G对输入的信息基因数据生成虚拟目标基因数据后，利用基因判别模型D计算输入的虚拟目标基因数据和目标基因数据的概率值；

阶段二：以最小化基因判别模型D的准确率为目标，固定基因判别模型D的权重矩阵，利用基因生成模型G对输入的信息基因数据生成虚拟目标基因数据后，利用基因判别模型D计算输入的虚拟目标基因数据和目标基因数据的概率值；

由于x是真实的，所以对于基因判别模型D来说，这个值越大越好，同时基因生成模型G希望自身生成的基因表达数据越接近真实越好，因此基因生成模型G希望D(G(z))尽可能大，这时V(D,G)会变小，即式(1)中所对应的记号当基因判别模型D的能力越强，D(x)应该越大，D((G))应该越小，此时V(D,G)会变大，即对应于式(1)中的

在本实施例中，以50条基因表达数据为一组，对基因表达数据集进行分包，如图5所示，以10000组基因表达数据为例，将其以50条为一包分为200个包，从上到下循环取一个包进行训练；其中，已经经过预处理的基因表达数据包括900维信息基因与8100维目标基因，训练中将每个基因的900维信息基因输入基因生成模型G，生成8100维虚拟的目标基因，并将50条虚拟目标基因和50条目标基因输入基因判别模型D进行判别，观察目标函数，并取下一个包重新进行训练，直至得到最优目标函数，训练结束，得到最终的生成模型。

图6显示的是不同训练代数的基因表达推断可视化结果，其中，图6(a)表示随机初始化后的基因表达推断可视化结果，图6(b)表示迭代10次后的基因表达推断可视化结果，图6(c)表示迭代100次后的基因表达推断可视化结果，图6(d)表示迭代300次后的基因表达推断可视化结果，图6(e)表示迭代500次后的基因表达推断可视化结果，图6(f)表示迭代3000次后的基因表达推断可视化结果。从图6可知，当迭代次数达到3000次时，能够获得较多的基因表达推断可视化结果。

图7中显示的是训练过程中的损失变化，其中g_loss是固定判别器训练生成器时候的生成器的损失变化，d_loss是固定生成器训练判别器的时候，判别器的损失变化。可以看出，博弈训练过程中的损失都在稳定下降，逐渐趋向纳什均衡。

为提高训练的精度，还采用平均绝对误差(mean absolute error)来评估基因生成模型G对每个目标基因数据的推断性能。

其中，N'是用于测试的样本数量，是样本i的目标基因t由基因生成模型G生成的推断表达值，y_i(t)是样本i的目标基因t的真实表达值。

图8为训练过程的平均绝对误差计算结果，首先对平均绝对误差进行三次插值拟合得到光滑曲线a，然后根据拟合曲线设置上下限得到剔除上限(平滑曲线b)和剔除下限(平滑曲线c)，最后保留在剔除下限(曲线c)以下谷值处的模型(图8中标记为星号“*”)，分析图8可得，共有7个模型被保留作为候选模型，进行基因表达谱的推断，然后取均值。

S105，生成对抗网络训练结束后，将待测样本的信息基因数据输入到训练好的基因生成模型G中，经计算获得预测目标基因数据，信息基因数据与预测目标基因数据组成待测样本的基因表达数据。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的基因表达数据推断方法，包括以下步骤：

2.如权利要求1所述的基于生成对抗网络的基因表达全谱推断方法，其特征在于，所述步骤(1)包括：

3.如权利要求2所述的基于生成对抗网络的基因表达全谱推断方法，其特征在于，所述信息基因数据的固定维度为900，所述目标基因数据的维度为8100。

4.如权利要求1所述的基于生成对抗网络的基因表达全谱推断方法，其特征在于，所述基因生成模型包括一个全链接层、两组交替的卷积层和反卷积层，卷积层和反卷积层的卷积核为3*3矩阵，步长为1或2。

5.如权利要求1所述的基于生成对抗网络的基因表达全谱推断方法，其特征在于，所述基因判别模型包括两组交替的卷积层和最大池化层、一个全链接层，卷积层的卷积核为5*5矩阵，步长为1或2，最大池化层的滑动窗口为3*3矩阵。

6.如权利要求1所述的基于生成对抗网络的基因表达全谱推断方法，其特征在于，所述生成对抗网络的训练目标函数为：