CN111554348A - 一种分泌入支气管肺泡灌洗液蛋白质预测方法 - Google Patents

一种分泌入支气管肺泡灌洗液蛋白质预测方法 Download PDF

Info

Publication number
CN111554348A
CN111554348A CN202010337266.0A CN202010337266A CN111554348A CN 111554348 A CN111554348 A CN 111554348A CN 202010337266 A CN202010337266 A CN 202010337266A CN 111554348 A CN111554348 A CN 111554348A
Authority
CN
China
Prior art keywords
protein
model
classifier model
samples
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010337266.0A
Other languages
English (en)
Inventor
邵丹
黄岚
王岩
何凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Changchun University
Original Assignee
Jilin University
Changchun University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University, Changchun University filed Critical Jilin University
Priority to CN202010337266.0A priority Critical patent/CN111554348A/zh
Publication of CN111554348A publication Critical patent/CN111554348A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种分泌入支气管肺泡灌洗液蛋白质预测方法,属于人工智能检测技术领域,将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本,以蛋白质序列作为模型输入,利用RNN和LSTM构建运算模型,对入支气管肺泡灌洗液蛋白进行预测。本发明通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测,并通过预测的蛋白质,找到疾病相关蛋白进行病理分析,促进疾病的早期诊断。

Description

一种分泌入支气管肺泡灌洗液蛋白质预测方法
技术领域
本发明属于人工智能检测技术领域,特别是涉及到一种分泌入支气管肺泡灌洗液蛋白质预测方法。
背景技术
支气管肺泡灌洗液是应用纤维支气管镜对支气管以下肺段和亚肺段进行灌洗后,采集肺泡表面衬液来获得。临床用于诊断多种肺部疾病,如肺泡炎、肺纤维化、石棉肺、肺癌、肺囊虫病、肺泡蛋白沉积症等的临床诊断、鉴别诊断以及研究肺部疾病的病因、发病机制、评价疗效和预后等。
通过对支气管肺泡灌洗液中蛋白质标志物进行分析,达到肺部疾病进行早期诊断。但是目前,公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白。
因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种分泌入支气管肺泡灌洗液蛋白质预测方法,解决了目前公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白的技术问题。
一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将支气管肺泡灌洗液中被生物实验验证的蛋白质作为模型训练的正样本,并存储正样本蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除所述步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中提取家族中蛋白质数量超过5个的蛋白质家族,选取其中5个蛋白质信息作为模型训练负样本,并存储负样本的蛋白质信息数据;
步骤三、采用随机欠采样方法,对正样本和负样本数量进行均衡,获得均衡的正负样本;
步骤四、将正样本和负样本的蛋白质信息数据按照80%训练集、10%验证集、10%测试集随机进行分割;
步骤五、利用位置相关的迭代BLAST计算样本中蛋白的序列位置特异权重矩阵PSSM;
步骤六、通过卷积神经网络RNN结合长短期记忆LSTM建立分类器模型,所述分类器模型的输入为所述步骤五中获得的特异权重矩阵PSSM,分类器模型的输出为入脑脊髓蛋白质或非入脑脊髓蛋白质;
步骤七、所述步骤四中的训练集采用激活函数和交叉熵的损失函数拟合分类器模型,获得训练后的分类器模型;
步骤八、将所述步骤四验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特异权重矩阵PSSM输入步骤六训练后的分类器模型进行验证,获得验证后的分类器模型;输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标;
步骤九、采用所述步骤四中的测试集对所述步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复所述步骤六和步骤七至分类准确性达到90%以上,分类器模型建立完成;
步骤十、向所述步骤九中建立完成的分类器模型中输入独立的验证集蛋白序列,通过输出的预测结果实现分泌入支气管肺泡灌洗液蛋白质预测方法。
所述步骤六中的卷积神经网络RNN与长短期记忆LSTM结合建立分类器模型的方法为,
Figure BDA0002467136300000021
其中Y(t)为t时刻当前层的输出值,φ为激活函数,X(t)为当前层的输出值,Wx为当前输入值的权重,Y(t-1)为上一时刻当前层的输出,Wy为上一时刻输出值的权重,b为当前层的偏置项,W为由Wx和Wy合并组成的矩阵;
长短期记忆LSTM采用双向长短期记忆LSTM。
所述步骤七中激活函数包括Tanh和Sigmoid,其模型分别为,
Figure BDA0002467136300000031
Figure BDA0002467136300000032
其中z为神经元的权重和,e为自然常数;
所述步骤七中的交叉熵的损失函数模型L为,
Figure BDA0002467136300000033
Figure BDA0002467136300000034
其中yi表示第i个样本的真实类别,
Figure BDA0002467136300000035
表示第i个样本的预测类别,log为对数函数,m为样本的个数。
所述步骤八验证后的分类器模型输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标。
所述分类器模型输出的验证结果中
敏感性Sensitivity的模型为,
Figure BDA0002467136300000036
特异性Specificity的模型为,
Figure BDA0002467136300000037
准确率Precision的模型为,
Figure BDA0002467136300000041
查准率accuracy的模型为,
Figure BDA0002467136300000042
马修斯相关性系数MCC的模型为,
Figure BDA0002467136300000043
其中,TP为真阳性样本数量,TN为真阴性样本数量,FP为假阳性样本数量,FN为假阴性样本数量,N为所有训练样本数量。
通过上述设计方案,本发明可以带来如下有益效果:一种分泌入支气管肺泡灌洗液蛋白质预测方法,将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本,以蛋白质序列作为模型输入,利用RNN和LSTM构建运算模型,对入支气管肺泡灌洗液蛋白进行预测。通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测,并通过预测的蛋白质,找到疾病相关蛋白进行病理分析,促进疾病的早期诊断。
具体实施方式
以下结合具体实施方式对本发明作进一步的说明,一种分泌入支气管肺泡灌洗液蛋白质预测方法,包括以下步骤,
1.数据集的建立
(1)正样本数据集收集
通过查找生物学相关文献和现有数据库获取将支气管肺泡灌洗液中已经被生物实验验证的蛋白质信息作为模型训练的正样本录入计算机。
(2)负样本数据集收集
在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。
(3)模型训练数据集分割
将所有正样本和负样本的样本数据均按照80%训练集、10%验证集、10%测试集进行分割。
2.正负样本均衡
考虑到正负样本存在数量上的差异导致预测结果不准确的问题,拟采用随机欠采样(RU)方法,对正负样本的数量进行均衡,对样本数量过多的集合进行删除,得到均衡的正负样本。
3.计算蛋白序列的PSSM
利用位置相关的迭代BLAST(PSI-BLAST)计算样本中蛋白的序列位置特异权重矩阵(PSSM),作为模型运算的输入。
4.基于卷积神经网络结合长短期记忆建立分类器模型
(1)神经网络模型拟合训练
所述卷积神经网络由输入层、卷积层加LSTM层和输出层组成,其中输入层仅仅表示对数据的输出,卷积层的定义如下:
Figure BDA0002467136300000051
其中Y(t)代表t时刻当前层的输出值,φ为激活函数,X(t)代表当前层的输出值,Wx代表当前输入值的权重,Y(t-1)代表上一时刻当前层的输出,Wy代表上一时刻输出值的权重,b代表当前层的偏置项,W代表由Wx和Wy合并组成的矩阵。
LSTM采用双向LSTM。
激活函数Tanh和Sigmoid的定义分别如下
Figure BDA0002467136300000052
Figure BDA0002467136300000061
其中z为神经元的权重和,e为自然常数。
模型输出为二分类交叉熵(binary cross entropy),定义如下:
Figure BDA0002467136300000062
Figure BDA0002467136300000063
其中yi表示第i个样本的真实类别,
Figure BDA0002467136300000064
表示第i个样本的预测类别,log为对数函数,m为样本的个数。
5.模型性能评估
将验证集中正样本和负样本的蛋白质信息以及上述步骤中获得的模型训练用的特征向量输入训练后的分类器模型进行验证,输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under RocCurve),作为评价模型验证效果的指标,获得的AUC小于90%,重新拟合训练分类器模型直至AUC达到90%以上。
其中,敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为:
Figure BDA0002467136300000065
Figure BDA0002467136300000066
Figure BDA0002467136300000071
Figure BDA0002467136300000072
Figure BDA0002467136300000073
其中,TP表示真阳性样本数量,TN标识真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量。N表示所有训练样本数量。
最后,用测试集对验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重新进行分类器拟合训练和模型验证,直至分类准确性达到90%以上,分泌入支气管肺泡灌洗液蛋白质的预测模型建立完成。

Claims (5)

1.一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将支气管肺泡灌洗液中被生物实验验证的蛋白质作为模型训练的正样本,并存储正样本蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除所述步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中提取家族中蛋白质数量超过5个的蛋白质家族,选取其中5个蛋白质信息作为模型训练负样本,并存储负样本的蛋白质信息数据;
步骤三、采用随机欠采样方法,对正样本和负样本数量进行均衡,获得均衡的正负样本;
步骤四、将正样本和负样本的蛋白质信息数据按照80%训练集、10%验证集、10%测试集随机进行分割;
步骤五、利用位置相关的迭代BLAST计算样本中蛋白的序列位置特异权重矩阵PSSM;
步骤六、通过卷积神经网络RNN结合长短期记忆LSTM建立分类器模型,所述分类器模型的输入为所述步骤五中获得的特异权重矩阵PSSM,分类器模型的输出为入脑脊髓蛋白质或非入脑脊髓蛋白质;
步骤七、所述步骤四中的训练集采用激活函数和交叉熵的损失函数拟合分类器模型,获得训练后的分类器模型;
步骤八、将所述步骤四验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特异权重矩阵PSSM输入步骤六训练后的分类器模型进行验证,获得验证后的分类器模型;输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标;
步骤九、采用所述步骤四中的测试集对所述步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复所述步骤六和步骤七至分类准确性达到90%以上,分类器模型建立完成;
步骤十、向所述步骤九中建立完成的分类器模型中输入独立的验证集蛋白序列,通过输出的预测结果实现分泌入支气管肺泡灌洗液蛋白质预测方法。
2.根据权利要求1所述的一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:所述步骤六中的卷积神经网络RNN与长短期记忆LSTM结合建立分类器模型的方法为,
Figure FDA0002467136290000021
其中Y(t)为t时刻当前层的输出值,φ为激活函数,X(t)为当前层的输出值,Wx为当前输入值的权重,Y(t-1)为上一时刻当前层的输出,Wy为上一时刻输出值的权重,b为当前层的偏置项,W为由Wx和Wy合并组成的矩阵;
长短期记忆LSTM采用双向长短期记忆LSTM。
3.根据权利要求1所述的一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:所述步骤七中激活函数包括Tanh和Sigmoid,其模型分别为,
Figure FDA0002467136290000022
Figure FDA0002467136290000023
其中z为神经元的权重和,e为自然常数;
所述步骤七中的交叉熵的损失函数模型L为,
Figure FDA0002467136290000024
Figure FDA0002467136290000025
其中yi表示第i个样本的真实类别,
Figure FDA0002467136290000026
表示第i个样本的预测类别,log为对数函数,m为样本的个数。
4.根据权利要求1所述的一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:所述步骤八验证后的分类器模型输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标。
5.根据权利要求4所述的一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:所述分类器模型输出的验证结果中
敏感性Sensitivity的模型为,
Figure FDA0002467136290000031
特异性Specificity的模型为,
Figure FDA0002467136290000032
准确率Precision的模型为,
Figure FDA0002467136290000033
查准率accuracy的模型为,
Figure FDA0002467136290000034
马修斯相关性系数MCC的模型为,
Figure FDA0002467136290000035
其中,TP为真阳性样本数量,TN为真阴性样本数量,FP为假阳性样本数量,FN为假阴性样本数量,N为所有训练样本数量。
CN202010337266.0A 2020-04-26 2020-04-26 一种分泌入支气管肺泡灌洗液蛋白质预测方法 Pending CN111554348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010337266.0A CN111554348A (zh) 2020-04-26 2020-04-26 一种分泌入支气管肺泡灌洗液蛋白质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010337266.0A CN111554348A (zh) 2020-04-26 2020-04-26 一种分泌入支气管肺泡灌洗液蛋白质预测方法

Publications (1)

Publication Number Publication Date
CN111554348A true CN111554348A (zh) 2020-08-18

Family

ID=72007693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010337266.0A Pending CN111554348A (zh) 2020-04-26 2020-04-26 一种分泌入支气管肺泡灌洗液蛋白质预测方法

Country Status (1)

Country Link
CN (1) CN111554348A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114678063A (zh) * 2022-02-24 2022-06-28 华南理工大学 一种预测与新型冠状病毒蛋白质相互作用的药物的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200033351A1 (en) * 2017-03-30 2020-01-30 Tel Hashomer Medical Research Infrastructure And Service Ltd. Diagnostic methods and kits for early detection of ovarian cancer
CN110797084A (zh) * 2019-11-06 2020-02-14 吉林大学 基于深层神经网络的脑脊液蛋白质的预测方法
CN110827922A (zh) * 2019-11-06 2020-02-21 吉林大学 基于循环神经网络的羊水蛋白质的预测方法
CN110827923A (zh) * 2019-11-06 2020-02-21 吉林大学 基于卷积神经网络的精液蛋白质的预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200033351A1 (en) * 2017-03-30 2020-01-30 Tel Hashomer Medical Research Infrastructure And Service Ltd. Diagnostic methods and kits for early detection of ovarian cancer
CN110797084A (zh) * 2019-11-06 2020-02-14 吉林大学 基于深层神经网络的脑脊液蛋白质的预测方法
CN110827922A (zh) * 2019-11-06 2020-02-21 吉林大学 基于循环神经网络的羊水蛋白质的预测方法
CN110827923A (zh) * 2019-11-06 2020-02-21 吉林大学 基于卷积神经网络的精液蛋白质的预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114678063A (zh) * 2022-02-24 2022-06-28 华南理工大学 一种预测与新型冠状病毒蛋白质相互作用的药物的方法

Similar Documents

Publication Publication Date Title
CN111598881B (zh) 基于变分自编码器的图像异常检测方法
CN108095716B (zh) 一种基于置信规则库和深度神经网络的心电信号检测方法
CN112257341B (zh) 一种基于异源数据差补融合的定制产品性能预测方法
Kail et al. Recurrent convolutional neural networks help to predict location of earthquakes
CN111248913B (zh) 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质
CN110827922B (zh) 基于循环神经网络的羊水蛋白质的预测方法
CN114093425A (zh) 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN116959725A (zh) 一种多模态数据融合的疾病风险预测方法
CN107169264B (zh) 一种复杂疾病诊断系统
CN113643756A (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN115527608A (zh) 一种肠道年龄预测方法和系统
CN115537467A (zh) 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用
CN111554348A (zh) 一种分泌入支气管肺泡灌洗液蛋白质预测方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN115994713B (zh) 一种基于多源数据的操作训练效果评估方法及系统
CN115565669B (zh) 一种基于gan和多任务学习的癌症生存分析方法
CN115188475A (zh) 一种狼疮肾炎患者风险预测方法
CN115876467A (zh) 一种基于伪标签传递式两阶段领域自适应的滚动轴承故障诊断方法
CN113868597A (zh) 一种用于年龄估计的回归公平性度量方法
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN113476065A (zh) 一种多类肺炎诊断系统
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法
CN113096070A (zh) 一种基于MA-Unet的图像分割方法
Swarna et al. Detection of Colon Cancer Using Inception V3 and Ensembled CNN Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination