CN110827922B

CN110827922B - 基于循环神经网络的羊水蛋白质的预测方法

Info

Publication number: CN110827922B
Application number: CN201911073779.9A
Authority: CN
Inventors: 王岩; 何凯; 邵丹; 黄岚; 王尧; 张睿
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2021-04-16
Anticipated expiration: 2039-11-06
Also published as: CN110827922A

Abstract

一种基于循环神经网络的羊水蛋白质的预测方法属于大数据、人工智能技术领域。本发明将现有文献和数据库的羊水中已经被生物实验验证的蛋白质列表作为模型训练的正样本；在Pfam蛋白质家族信息数据库中删除正样本对应的蛋白质家族信息，在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族，从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。将正样本和负样本数据分成训练集、验证集和测试集。对蛋白质特征进行特征选择，搭建模型，用训练集训练模型，验证集进行调参，测试集进行性能评价。输入为蛋白特征，输出为预测结果。提高了羊水预测的准确率，最终实现羊水蛋白的预测。

Description

基于循环神经网络的羊水蛋白质的预测方法

技术领域

本发明属于大数据、人工智能技术领域，特别是涉及到一种基于循环神经网络的羊水蛋白质的预测方法。

背景技术

羊水是无色透明的碱性液体，其中90％以上是水分，另外含有矿物质、尿素、尿酸、肌酐、胎脂和胎儿上皮细胞等。羊水中AFP量可作为监测胎儿有无畸形的指标，通过羊水中胎儿细胞染色体的检测，可对胎儿进行遗传性疾病的筛查。

在羊水中发现一些特异表达的蛋白质标记物,从而能早期诊断羊水栓塞等妊娠相关疾病。可以说,羊水中某些蛋白质的表达是很有意义的,它们反映了妊娠期生理上和病理上的状况,因此羊水的蛋白质组学分析对阐明妊娠期机体病理变化有着重要的意义。但是目前，公知的关于可计算的方法预测羊水蛋白质仍为空白。因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是：提供一种基于循环神经网络的羊水蛋白质的预测方法用于解决目前公知的关于可计算的方法预测羊水蛋白质仍为空白的技术问题。

基于循环神经网络的羊水蛋白质的预测方法，包括以下步骤，并且以下面步骤顺次进行，

步骤一、将羊水中已经被生物实验验证的蛋白质作为模型训练的正样本并存储正样本的蛋白质信息数据；

步骤二、在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息，在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族，从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本并存储负样本的蛋白质信息数据；

步骤三、将正样本和负样本数据均按照80％训练集、20％测试集进行分割；

步骤四、将蛋白质特征进行分类，初步获得蛋白质特征向量；

步骤五、用F得分(F score)方法过滤步骤四中初步获得的蛋白质特征向量，过滤后的蛋白质特征向量用支持向量机联合特征去除算法(SVM-RFE)进行特征选择，获得模型拟合训练用的蛋白质特征向量；

步骤六、通过循环神经网络(RNN)建立分类器模型，所述分类器模型的输入为步骤五中获得的特征向量，分类器模型的输出为是入羊水蛋白质或非入羊水蛋白质；

步骤七、用训练集采用softmax激活函数和交叉熵损失函数对分类器模型进行训练，获得训练后的分类器模型；

步骤八、对分类器模型进行评估

将验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特征向量输入步骤七训练后的分类器模型进行验证，输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthewscorrelation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)，作为评价模型验证效果的指标，

获得的AUC小于90％，重复步骤七重新拟合训练分类器模型直至AUC达到90％以上；

步骤九、用测试集对步骤八中验证后的分类器模型进行分类准确性验证，分类准确性小于90％，重复步骤七和步骤八直至分类准确性达到90％以上，分类器模型建立完成；

步骤十、将预测的蛋白质进行步骤四和步骤五，获得预测蛋白质的特征向量，向步骤九中建立完成的分类器模型中输入预测蛋白质的特征向量，通过输出的预测结果实现基于循环神经网络的羊水蛋白质的预测。

所述步骤四中蛋白质特征按照4个大类进行分类，分别为：1)序列性质，2)结构性质，3)域和基序性质，4)物理化学性质。

所述步骤五中F得分方法中采用均值作为阈值。

所述步骤五中支持向量机联合特征去除算法(SVM-RFE)的选择判断函数DJ(i)定义如下：

其中，y_i是样本x_i的标签，y_j是样本x_j的标签，K(x_i，x_j)是测试x_i和x_j相似度的核函数，α是通过SVM训练后得到的值，T代表矩阵的转置，H代表矩阵。

所述步骤六中循环神经网络的结构包括一层RNN层、一层全连接层和一层输出层；所述RNN层的神经元数量为100个，RNN层使用的激活函数为Tanh；所述全连接层的神经元数量为50个，全连接层使用的激活函数为Tanh；所述输出层的神经元数量为1，输出层使用的激活函数为Sigmoid。

所述全连接层的定义如下：

Y＝W·X+b

其中Y表示全连接层的输出，X表示全连接层的输入值，W表示全连接层和上一层输出之间的连接权重，b表示全连接层的偏置项。

所述激活函数Tanh和Sigmoid的定义分别如下：

其中z为神经元的权重和，e为自然常数。

所述步骤七中的交叉熵损失函数采用二分类交叉熵(binary cross entropy)，其定义如下：

其中y_i表示第i个样本的真实类别，

表示第i个样本的预测类别，log为对数函数，m为样本的个数。

所述步骤六中循环神经网络(RNN)建立的分类器模型定义如下：

其中Y_(t)代表t时刻当前层的输出值，φ为激活函数，X_(t)代表当前层的输出值，W_x代表当前输入值的权重，Y_(t-1)代表上一时刻当前层的输出，W_y代表上一时刻输出值的权重，b代表当前层的偏置项，W代表由W_x和W_y合并组成的矩阵。

所述步骤六中循环神经网络的结构定义如下：

Output＝Out(FC(RNN(X)))

其中RNN表示循环层，FC表示全连接层，Out表示输出层。

所述步骤八中敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为：

其中TP表示真阳性样本数量，TN表示真阴性样本数量，FP表示假阳性样本数量，FN表示假阴性样本数量，N表示所有训练样本数量。

通过上述设计方案，本发明可以带来如下有益效果：

本发明将现有文献和数据库的羊水中已经被生物实验验证的蛋白质列表作为模型训练的正样本；在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息，在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族，从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。利用F得分和SVM-RFE的方法对蛋白质特征进行特征选择，去掉噪音和无关的特征。搭建基于循环神经网络的模型，输入为蛋白特征，输出为预测结果，训练集训练模型和调参，测试集进行性能评价，提高了羊水预测的准确率，最终通过可计算的方法实现羊水中的蛋白质预测。

具体实施方式

基于循环神经网络的羊水蛋白质的预测方法，包括以下步骤：

1.数据集的建立

(1)正样本数据集收集

通过查找生物学相关文献和现有数据库获取将羊水中已经被生物实验验证的蛋白质信息作为模型训练的正样本录入计算机。

(2)负样本数据集收集

在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息，在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族，从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本录入计算机。

(3)模型训练数据集分割

将所有正样本和负样本的样本数据均按80％训练、20％测试集进行分割。

2.蛋白质特征选择

(1)特征收集

将蛋白质特征按照4个大类进行分类，可以得到接近3000个特征向量。如表1:

表1蛋白特征分类

(2)特征选择

首先用F得分方法中采用均值作为阈值；然后用支持向量机联合特征去除算法(SVM-RFE)进行特征选择，得到模型训练用的特征向量。

所述支持向量机联合特征去除算法(SVM-RFE)的选择判断函数DJ(i)定义如下：

3.基于循环神经网络分类器的训练

(1)神经网络模型拟合训练

通过循环神经网络建立分类器模型，用训练集训练模型，验证集进行调参，测试集进行性能评价。所述循环神经网络由一层RNN层、一层全连接层和一层输出层组成；所述RNN层的神经元数量为100个，RNN层使用的激活函数为Tanh；所述全连接层的神经元数量为50个，全连接层使用的激活函数为Tanh；所述输出层的神经元数量为1，输出层使用的激活函数为Sigmoid。

训练循环神经网络所采用的损失函数为二分类交叉熵(binary cross entropy)，定义如下：

其中y_i表示第i个样本的真实类别，

循环神经网络的结构定义如下：

Output＝Out(FC(RNN(X)))

其中RNN表示循环层，FC表示全连接层，Out表示输出层。

(2)模型性能评估

将验证集中正样本和负样本的蛋白质信息以及上述步骤中获得的模型训练用的特征向量输入训练后的分类器模型进行验证，输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under RocCurve)，作为评价模型验证效果的指标，获得的AUC小于90％，重新拟合训练分类器模型直至AUC达到90％以上。

其中，敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为：

其中，TP表示真阳性样本数量，TN标识真阴性样本数量，FP表示假阳性样本数量，FN表示假阴性样本数量，N表示所有训练样本数量。

最后，用测试集对验证后的分类器模型进行分类准确性验证，分类准确性小于90％，重新进行分类器拟合训练和模型验证，直至分类准确性达到90％以上，基于循环神经网络的羊水蛋白质的预测模型建立完成。

模型输入为蛋白特征向量，输出为预测结果。提高了羊水蛋白预测的准确率，最终实现羊水蛋白的预测。通过可计算的方法实现羊水中的蛋白质预测，并通过预测的蛋白质，找到与疾病相关的蛋白。

Claims

1.基于循环神经网络的羊水蛋白质的预测方法，其特征是：包括以下步骤，并且以下面步骤顺次进行，

步骤五、用F得分F score方法过滤步骤四中初步获得的蛋白质特征向量，过滤后的蛋白质特征向量用支持向量机联合特征去除算法SVM-RFE进行特征选择，获得模型拟合训练用的蛋白质特征向量；

步骤六、通过循环神经网络RNN建立分类器模型，所述分类器模型的输入为步骤五中获得的特征向量，分类器模型的输出为是入羊水蛋白质或非入羊水蛋白质；

步骤八、对分类器模型进行评估

将验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特征向量输入步骤七训练后的分类器模型进行验证，输出的验证结果使用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC Matthewscorrelation coefficient及ROC曲线下面的面积AUC Area Under Roc Curve，作为评价模型验证效果的指标，

2.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤四中蛋白质特征按照4个大类进行分类，分别为：1)序列性质，2)结构性质，3)域和基序性质，4)物理化学性质。

3.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤五中F得分方法中采用均值作为阈值。

4.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤五中支持向量机联合特征去除算法SVM-RFE的选择判断函数DJ(i)定义如下：

5.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤六中循环神经网络的结构包括一层RNN层、一层全连接层和一层输出层；所述RNN层的神经元数量为100个，RNN层使用的激活函数为Tanh；所述全连接层的神经元数量为50个，全连接层使用的激活函数为Tanh；所述输出层的神经元数量为1，输出层使用的激活函数为Sigmoid。

6.根据权利要求5所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述全连接层的定义如下：

Y＝W·X+b

其中Y表示全连接层的输出，X表示全连接层的输入值，W表示全连接层和上一层输出之间的连接权重，b表示全连接层的偏置项，

所述激活函数Tanh和Sigmoid的定义分别如下：

其中z为神经元的权重和，e为自然常数。

7.根据权利要求5所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤七中的交叉熵损失函数采用二分类交叉熵binary cross entropy，其定义如下：

其中y_i表示第i个样本的真实类别，

8.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤六中循环神经网络RNN建立的分类器模型定义如下：

9.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤六中循环神经网络的结构定义如下：

Output＝Out(FC(RNN(X)))

其中RNN表示循环层，FC表示全连接层，Out表示输出层。

10.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法，其特征是：所述步骤八中敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC Matthews correlation coefficient及ROC曲线下面的面积AUCArea Under Roc Curve公式分别为：