CN110827922B - 基于循环神经网络的羊水蛋白质的预测方法 - Google Patents

基于循环神经网络的羊水蛋白质的预测方法 Download PDF

Info

Publication number
CN110827922B
CN110827922B CN201911073779.9A CN201911073779A CN110827922B CN 110827922 B CN110827922 B CN 110827922B CN 201911073779 A CN201911073779 A CN 201911073779A CN 110827922 B CN110827922 B CN 110827922B
Authority
CN
China
Prior art keywords
protein
amniotic fluid
layer
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201911073779.9A
Other languages
English (en)
Other versions
CN110827922A (zh
Inventor
王岩
何凯
邵丹
黄岚
王尧
张睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201911073779.9A priority Critical patent/CN110827922B/zh
Publication of CN110827922A publication Critical patent/CN110827922A/zh
Application granted granted Critical
Publication of CN110827922B publication Critical patent/CN110827922B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于循环神经网络的羊水蛋白质的预测方法属于大数据、人工智能技术领域。本发明将现有文献和数据库的羊水中已经被生物实验验证的蛋白质列表作为模型训练的正样本;在Pfam蛋白质家族信息数据库中删除正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。将正样本和负样本数据分成训练集、验证集和测试集。对蛋白质特征进行特征选择,搭建模型,用训练集训练模型,验证集进行调参,测试集进行性能评价。输入为蛋白特征,输出为预测结果。提高了羊水预测的准确率,最终实现羊水蛋白的预测。

Description

基于循环神经网络的羊水蛋白质的预测方法
技术领域
本发明属于大数据、人工智能技术领域,特别是涉及到一种基于循环神经网络的羊水蛋白质的预测方法。
背景技术
羊水是无色透明的碱性液体,其中90%以上是水分,另外含有矿物质、尿素、尿酸、肌酐、胎脂和胎儿上皮细胞等。羊水中AFP量可作为监测胎儿有无畸形的指标,通过羊水中胎儿细胞染色体的检测,可对胎儿进行遗传性疾病的筛查。
在羊水中发现一些特异表达的蛋白质标记物,从而能早期诊断羊水栓塞等妊娠相关疾病。可以说,羊水中某些蛋白质的表达是很有意义的,它们反映了妊娠期生理上和病理上的状况,因此羊水的蛋白质组学分析对阐明妊娠期机体病理变化有着重要的意义。但是目前,公知的关于可计算的方法预测羊水蛋白质仍为空白。因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种基于循环神经网络的羊水蛋白质的预测方法用于解决目前公知的关于可计算的方法预测羊水蛋白质仍为空白的技术问题。
基于循环神经网络的羊水蛋白质的预测方法,包括以下步骤,并且以下面步骤顺次进行,
步骤一、将羊水中已经被生物实验验证的蛋白质作为模型训练的正样本并存储正样本的蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本并存储负样本的蛋白质信息数据;
步骤三、将正样本和负样本数据均按照80%训练集、20%测试集进行分割;
步骤四、将蛋白质特征进行分类,初步获得蛋白质特征向量;
步骤五、用F得分(F score)方法过滤步骤四中初步获得的蛋白质特征向量,过滤后的蛋白质特征向量用支持向量机联合特征去除算法(SVM-RFE)进行特征选择,获得模型拟合训练用的蛋白质特征向量;
步骤六、通过循环神经网络(RNN)建立分类器模型,所述分类器模型的输入为步骤五中获得的特征向量,分类器模型的输出为是入羊水蛋白质或非入羊水蛋白质;
步骤七、用训练集采用softmax激活函数和交叉熵损失函数对分类器模型进行训练,获得训练后的分类器模型;
步骤八、对分类器模型进行评估
将验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特征向量输入步骤七训练后的分类器模型进行验证,输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthewscorrelation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve),作为评价模型验证效果的指标,
获得的AUC小于90%,重复步骤七重新拟合训练分类器模型直至AUC达到90%以上;
步骤九、用测试集对步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复步骤七和步骤八直至分类准确性达到90%以上,分类器模型建立完成;
步骤十、将预测的蛋白质进行步骤四和步骤五,获得预测蛋白质的特征向量,向步骤九中建立完成的分类器模型中输入预测蛋白质的特征向量,通过输出的预测结果实现基于循环神经网络的羊水蛋白质的预测。
所述步骤四中蛋白质特征按照4个大类进行分类,分别为:1)序列性质,2)结构性质,3)域和基序性质,4)物理化学性质。
所述步骤五中F得分方法中采用均值作为阈值。
所述步骤五中支持向量机联合特征去除算法(SVM-RFE)的选择判断函数DJ(i)定义如下:
Figure GDA0002930486480000031
其中,yi是样本xi的标签,yj是样本xj的标签,K(xi,xj)是测试xi和xj相似度的核函数,α是通过SVM训练后得到的值,T代表矩阵的转置,H代表矩阵。
所述步骤六中循环神经网络的结构包括一层RNN层、一层全连接层和一层输出层;所述RNN层的神经元数量为100个,RNN层使用的激活函数为Tanh;所述全连接层的神经元数量为50个,全连接层使用的激活函数为Tanh;所述输出层的神经元数量为1,输出层使用的激活函数为Sigmoid。
所述全连接层的定义如下:
Y=W·X+b
其中Y表示全连接层的输出,X表示全连接层的输入值,W表示全连接层和上一层输出之间的连接权重,b表示全连接层的偏置项。
所述激活函数Tanh和Sigmoid的定义分别如下:
Figure GDA0002930486480000032
Figure GDA0002930486480000033
其中z为神经元的权重和,e为自然常数。
所述步骤七中的交叉熵损失函数采用二分类交叉熵(binary cross entropy),其定义如下:
Figure GDA0002930486480000034
Figure GDA0002930486480000035
其中yi表示第i个样本的真实类别,
Figure GDA0002930486480000036
表示第i个样本的预测类别,log为对数函数,m为样本的个数。
所述步骤六中循环神经网络(RNN)建立的分类器模型定义如下:
Figure GDA0002930486480000037
Figure GDA0002930486480000041
其中Y(t)代表t时刻当前层的输出值,φ为激活函数,X(t)代表当前层的输出值,Wx代表当前输入值的权重,Y(t-1)代表上一时刻当前层的输出,Wy代表上一时刻输出值的权重,b代表当前层的偏置项,W代表由Wx和Wy合并组成的矩阵。
所述步骤六中循环神经网络的结构定义如下:
Output=Out(FC(RNN(X)))
其中RNN表示循环层,FC表示全连接层,Out表示输出层。
所述步骤八中敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为:
Figure GDA0002930486480000042
Figure GDA0002930486480000043
Figure GDA0002930486480000044
Figure GDA0002930486480000045
Figure GDA0002930486480000046
其中TP表示真阳性样本数量,TN表示真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量,N表示所有训练样本数量。
通过上述设计方案,本发明可以带来如下有益效果:
本发明将现有文献和数据库的羊水中已经被生物实验验证的蛋白质列表作为模型训练的正样本;在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。利用F得分和SVM-RFE的方法对蛋白质特征进行特征选择,去掉噪音和无关的特征。搭建基于循环神经网络的模型,输入为蛋白特征,输出为预测结果,训练集训练模型和调参,测试集进行性能评价,提高了羊水预测的准确率,最终通过可计算的方法实现羊水中的蛋白质预测。
具体实施方式
基于循环神经网络的羊水蛋白质的预测方法,包括以下步骤:
1.数据集的建立
(1)正样本数据集收集
通过查找生物学相关文献和现有数据库获取将羊水中已经被生物实验验证的蛋白质信息作为模型训练的正样本录入计算机。
(2)负样本数据集收集
在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本录入计算机。
(3)模型训练数据集分割
将所有正样本和负样本的样本数据均按80%训练、20%测试集进行分割。
2.蛋白质特征选择
(1)特征收集
将蛋白质特征按照4个大类进行分类,可以得到接近3000个特征向量。如表1:
表1蛋白特征分类
Figure GDA0002930486480000051
Figure GDA0002930486480000061
Figure GDA0002930486480000071
(2)特征选择
首先用F得分方法中采用均值作为阈值;然后用支持向量机联合特征去除算法(SVM-RFE)进行特征选择,得到模型训练用的特征向量。
所述支持向量机联合特征去除算法(SVM-RFE)的选择判断函数DJ(i)定义如下:
Figure GDA0002930486480000072
其中,yi是样本xi的标签,yj是样本xj的标签,K(xi,xj)是测试xi和xj相似度的核函数,α是通过SVM训练后得到的值,T代表矩阵的转置,H代表矩阵。
3.基于循环神经网络分类器的训练
(1)神经网络模型拟合训练
通过循环神经网络建立分类器模型,用训练集训练模型,验证集进行调参,测试集进行性能评价。所述循环神经网络由一层RNN层、一层全连接层和一层输出层组成;所述RNN层的神经元数量为100个,RNN层使用的激活函数为Tanh;所述全连接层的神经元数量为50个,全连接层使用的激活函数为Tanh;所述输出层的神经元数量为1,输出层使用的激活函数为Sigmoid。
训练循环神经网络所采用的损失函数为二分类交叉熵(binary cross entropy),定义如下:
Figure GDA0002930486480000073
Figure GDA0002930486480000081
其中yi表示第i个样本的真实类别,
Figure GDA0002930486480000082
表示第i个样本的预测类别,log为对数函数,m为样本的个数。
循环神经网络的结构定义如下:
Output=Out(FC(RNN(X)))
其中RNN表示循环层,FC表示全连接层,Out表示输出层。
(2)模型性能评估
将验证集中正样本和负样本的蛋白质信息以及上述步骤中获得的模型训练用的特征向量输入训练后的分类器模型进行验证,输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under RocCurve),作为评价模型验证效果的指标,获得的AUC小于90%,重新拟合训练分类器模型直至AUC达到90%以上。
其中,敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为:
Figure GDA0002930486480000083
Figure GDA0002930486480000084
Figure GDA0002930486480000085
Figure GDA0002930486480000086
Figure GDA0002930486480000087
其中,TP表示真阳性样本数量,TN标识真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量,N表示所有训练样本数量。
最后,用测试集对验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重新进行分类器拟合训练和模型验证,直至分类准确性达到90%以上,基于循环神经网络的羊水蛋白质的预测模型建立完成。
模型输入为蛋白特征向量,输出为预测结果。提高了羊水蛋白预测的准确率,最终实现羊水蛋白的预测。通过可计算的方法实现羊水中的蛋白质预测,并通过预测的蛋白质,找到与疾病相关的蛋白。

Claims (10)

1.基于循环神经网络的羊水蛋白质的预测方法,其特征是:包括以下步骤,并且以下面步骤顺次进行,
步骤一、将羊水中已经被生物实验验证的蛋白质作为模型训练的正样本并存储正样本的蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本并存储负样本的蛋白质信息数据;
步骤三、将正样本和负样本数据均按照80%训练集、20%测试集进行分割;
步骤四、将蛋白质特征进行分类,初步获得蛋白质特征向量;
步骤五、用F得分F score方法过滤步骤四中初步获得的蛋白质特征向量,过滤后的蛋白质特征向量用支持向量机联合特征去除算法SVM-RFE进行特征选择,获得模型拟合训练用的蛋白质特征向量;
步骤六、通过循环神经网络RNN建立分类器模型,所述分类器模型的输入为步骤五中获得的特征向量,分类器模型的输出为是入羊水蛋白质或非入羊水蛋白质;
步骤七、用训练集采用softmax激活函数和交叉熵损失函数对分类器模型进行训练,获得训练后的分类器模型;
步骤八、对分类器模型进行评估
将验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特征向量输入步骤七训练后的分类器模型进行验证,输出的验证结果使用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC Matthewscorrelation coefficient及ROC曲线下面的面积AUC Area Under Roc Curve,作为评价模型验证效果的指标,
获得的AUC小于90%,重复步骤七重新拟合训练分类器模型直至AUC达到90%以上;
步骤九、用测试集对步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复步骤七和步骤八直至分类准确性达到90%以上,分类器模型建立完成;
步骤十、将预测的蛋白质进行步骤四和步骤五,获得预测蛋白质的特征向量,向步骤九中建立完成的分类器模型中输入预测蛋白质的特征向量,通过输出的预测结果实现基于循环神经网络的羊水蛋白质的预测。
2.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤四中蛋白质特征按照4个大类进行分类,分别为:1)序列性质,2)结构性质,3)域和基序性质,4)物理化学性质。
3.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤五中F得分方法中采用均值作为阈值。
4.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤五中支持向量机联合特征去除算法SVM-RFE的选择判断函数DJ(i)定义如下:
Figure FDA0002959137280000021
其中,yi是样本xi的标签,yj是样本xj的标签,K(xi,xj)是测试xi和xj相似度的核函数,α是通过SVM训练后得到的值,T代表矩阵的转置,H代表矩阵。
5.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤六中循环神经网络的结构包括一层RNN层、一层全连接层和一层输出层;所述RNN层的神经元数量为100个,RNN层使用的激活函数为Tanh;所述全连接层的神经元数量为50个,全连接层使用的激活函数为Tanh;所述输出层的神经元数量为1,输出层使用的激活函数为Sigmoid。
6.根据权利要求5所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述全连接层的定义如下:
Y=W·X+b
其中Y表示全连接层的输出,X表示全连接层的输入值,W表示全连接层和上一层输出之间的连接权重,b表示全连接层的偏置项,
所述激活函数Tanh和Sigmoid的定义分别如下:
Figure FDA0002959137280000022
Figure FDA0002959137280000031
其中z为神经元的权重和,e为自然常数。
7.根据权利要求5所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤七中的交叉熵损失函数采用二分类交叉熵binary cross entropy,其定义如下:
Figure FDA0002959137280000032
Figure FDA0002959137280000033
其中yi表示第i个样本的真实类别,
Figure FDA0002959137280000034
表示第i个样本的预测类别,log为对数函数,m为样本的个数。
8.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤六中循环神经网络RNN建立的分类器模型定义如下:
Figure FDA0002959137280000035
其中Y(t)代表t时刻当前层的输出值,φ为激活函数,X(t)代表当前层的输出值,Wx代表当前输入值的权重,Y(t-1)代表上一时刻当前层的输出,Wy代表上一时刻输出值的权重,b代表当前层的偏置项,W代表由Wx和Wy合并组成的矩阵。
9.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤六中循环神经网络的结构定义如下:
Output=Out(FC(RNN(X)))
其中RNN表示循环层,FC表示全连接层,Out表示输出层。
10.根据权利要求1所述的基于循环神经网络的羊水蛋白质的预测方法,其特征是:所述步骤八中敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC Matthews correlation coefficient及ROC曲线下面的面积AUCArea Under Roc Curve公式分别为:
Figure FDA0002959137280000041
Figure FDA0002959137280000042
Figure FDA0002959137280000043
Figure FDA0002959137280000044
Figure FDA0002959137280000045
其中TP表示真阳性样本数量,TN表示真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量,N表示所有训练样本数量。
CN201911073779.9A 2019-11-06 2019-11-06 基于循环神经网络的羊水蛋白质的预测方法 Expired - Fee Related CN110827922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911073779.9A CN110827922B (zh) 2019-11-06 2019-11-06 基于循环神经网络的羊水蛋白质的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911073779.9A CN110827922B (zh) 2019-11-06 2019-11-06 基于循环神经网络的羊水蛋白质的预测方法

Publications (2)

Publication Number Publication Date
CN110827922A CN110827922A (zh) 2020-02-21
CN110827922B true CN110827922B (zh) 2021-04-16

Family

ID=69552713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911073779.9A Expired - Fee Related CN110827922B (zh) 2019-11-06 2019-11-06 基于循环神经网络的羊水蛋白质的预测方法

Country Status (1)

Country Link
CN (1) CN110827922B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554348A (zh) * 2020-04-26 2020-08-18 长春大学 一种分泌入支气管肺泡灌洗液蛋白质预测方法
CN111737479B (zh) * 2020-08-28 2020-11-17 深圳追一科技有限公司 数据获取方法、装置、电子设备及存储介质
CN112587089B (zh) * 2020-11-19 2023-04-21 新希望六和股份有限公司 基于人工智能的妊娠检测方法、装置、计算机设备和介质
CN112309497B (zh) * 2020-12-28 2021-04-02 武汉金开瑞生物工程有限公司 一种基于Cycle-GAN的蛋白质结构预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273054A (zh) * 2018-08-31 2019-01-25 南京农业大学 基于关系图谱的蛋白质亚细胞区间预测方法
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
US10381105B1 (en) * 2017-01-24 2019-08-13 Bao Personalized beauty system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10381105B1 (en) * 2017-01-24 2019-08-13 Bao Personalized beauty system
CN109273054A (zh) * 2018-08-31 2019-01-25 南京农业大学 基于关系图谱的蛋白质亚细胞区间预测方法
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN与LSTM模型的蛋白质二级结构预测;王剑等;《生物信息学》;20180630;第16卷(第2期);全文 *

Also Published As

Publication number Publication date
CN110827922A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110827922B (zh) 基于循环神经网络的羊水蛋白质的预测方法
CN109300111B (zh) 一种基于深度学习的染色体识别方法
CN110827923B (zh) 基于卷积神经网络的精液蛋白质的预测方法
CN110797084B (zh) 基于深层神经网络的脑脊液蛋白质的预测方法
CN116153495A (zh) 一种食管癌患者免疫治疗预后生存预测方法
Elangovan et al. A novel shallow convnet-18 for malaria parasite detection in thin blood smear images: Cnn based malaria parasite detection
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
CN110265085A (zh) 一种蛋白质相互作用位点识别方法
CN118197434B (zh) 一种dna启动子及其强度的两阶段预测方法
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
CN116226629A (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN116130105A (zh) 一种基于神经网络的健康风险预测方法
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
Paylakhi et al. A novel gene selection method using GA/SVM and fisher criteria in Alzheimer's disease
CN115345248A (zh) 一种面向深度学习的数据去偏方法及装置
Yücel et al. Classification of tea leaves diseases by developed CNN, feature fusion, and classifier based model
CN115116619A (zh) 一种脑卒中数据分布规律智能分析方法及系统
CN115188475A (zh) 一种狼疮肾炎患者风险预测方法
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
CN114520031A (zh) 一种基于机器学习的化合物胎盘膜透过性的预测方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
CN111554348A (zh) 一种分泌入支气管肺泡灌洗液蛋白质预测方法
CN111402953A (zh) 基于层次注意力网络的蛋白质序列分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210416

Termination date: 20211106