CN111554348A - 一种分泌入支气管肺泡灌洗液蛋白质预测方法 - Google Patents
一种分泌入支气管肺泡灌洗液蛋白质预测方法 Download PDFInfo
- Publication number
- CN111554348A CN111554348A CN202010337266.0A CN202010337266A CN111554348A CN 111554348 A CN111554348 A CN 111554348A CN 202010337266 A CN202010337266 A CN 202010337266A CN 111554348 A CN111554348 A CN 111554348A
- Authority
- CN
- China
- Prior art keywords
- protein
- model
- classifier model
- samples
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 68
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000012530 fluid Substances 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000002474 experimental method Methods 0.000 claims abstract description 5
- 238000012795 verification Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 15
- 230000035945 sensitivity Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 238000013399 early diagnosis Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000010827 pathological analysis Methods 0.000 abstract description 2
- 230000003248 secreting effect Effects 0.000 description 3
- 208000019693 Lung disease Diseases 0.000 description 2
- 206010001881 Alveolar proteinosis Diseases 0.000 description 1
- 206010001889 Alveolitis Diseases 0.000 description 1
- 208000033116 Asbestos intoxication Diseases 0.000 description 1
- 201000000077 Cysticercosis Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010003441 asbestosis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 201000003489 pulmonary alveolar proteinosis Diseases 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 208000005069 pulmonary fibrosis Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 208000004441 taeniasis Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种分泌入支气管肺泡灌洗液蛋白质预测方法,属于人工智能检测技术领域,将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本,以蛋白质序列作为模型输入,利用RNN和LSTM构建运算模型,对入支气管肺泡灌洗液蛋白进行预测。本发明通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测,并通过预测的蛋白质,找到疾病相关蛋白进行病理分析,促进疾病的早期诊断。
Description
技术领域
本发明属于人工智能检测技术领域,特别是涉及到一种分泌入支气管肺泡灌洗液蛋白质预测方法。
背景技术
支气管肺泡灌洗液是应用纤维支气管镜对支气管以下肺段和亚肺段进行灌洗后,采集肺泡表面衬液来获得。临床用于诊断多种肺部疾病,如肺泡炎、肺纤维化、石棉肺、肺癌、肺囊虫病、肺泡蛋白沉积症等的临床诊断、鉴别诊断以及研究肺部疾病的病因、发病机制、评价疗效和预后等。
通过对支气管肺泡灌洗液中蛋白质标志物进行分析,达到肺部疾病进行早期诊断。但是目前,公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白。
因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种分泌入支气管肺泡灌洗液蛋白质预测方法,解决了目前公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白的技术问题。
一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将支气管肺泡灌洗液中被生物实验验证的蛋白质作为模型训练的正样本,并存储正样本蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除所述步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中提取家族中蛋白质数量超过5个的蛋白质家族,选取其中5个蛋白质信息作为模型训练负样本,并存储负样本的蛋白质信息数据;
步骤三、采用随机欠采样方法,对正样本和负样本数量进行均衡,获得均衡的正负样本;
步骤四、将正样本和负样本的蛋白质信息数据按照80%训练集、10%验证集、10%测试集随机进行分割;
步骤五、利用位置相关的迭代BLAST计算样本中蛋白的序列位置特异权重矩阵PSSM;
步骤六、通过卷积神经网络RNN结合长短期记忆LSTM建立分类器模型,所述分类器模型的输入为所述步骤五中获得的特异权重矩阵PSSM,分类器模型的输出为入脑脊髓蛋白质或非入脑脊髓蛋白质;
步骤七、所述步骤四中的训练集采用激活函数和交叉熵的损失函数拟合分类器模型,获得训练后的分类器模型;
步骤八、将所述步骤四验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特异权重矩阵PSSM输入步骤六训练后的分类器模型进行验证,获得验证后的分类器模型;输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标;
步骤九、采用所述步骤四中的测试集对所述步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复所述步骤六和步骤七至分类准确性达到90%以上,分类器模型建立完成;
步骤十、向所述步骤九中建立完成的分类器模型中输入独立的验证集蛋白序列,通过输出的预测结果实现分泌入支气管肺泡灌洗液蛋白质预测方法。
所述步骤六中的卷积神经网络RNN与长短期记忆LSTM结合建立分类器模型的方法为,
其中Y(t)为t时刻当前层的输出值,φ为激活函数,X(t)为当前层的输出值,Wx为当前输入值的权重,Y(t-1)为上一时刻当前层的输出,Wy为上一时刻输出值的权重,b为当前层的偏置项,W为由Wx和Wy合并组成的矩阵;
长短期记忆LSTM采用双向长短期记忆LSTM。
所述步骤七中激活函数包括Tanh和Sigmoid,其模型分别为,
其中z为神经元的权重和,e为自然常数;
所述步骤七中的交叉熵的损失函数模型L为,
所述步骤八验证后的分类器模型输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标。
所述分类器模型输出的验证结果中
马修斯相关性系数MCC的模型为,
其中,TP为真阳性样本数量,TN为真阴性样本数量,FP为假阳性样本数量,FN为假阴性样本数量,N为所有训练样本数量。
通过上述设计方案,本发明可以带来如下有益效果:一种分泌入支气管肺泡灌洗液蛋白质预测方法,将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本,以蛋白质序列作为模型输入,利用RNN和LSTM构建运算模型,对入支气管肺泡灌洗液蛋白进行预测。通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测,并通过预测的蛋白质,找到疾病相关蛋白进行病理分析,促进疾病的早期诊断。
具体实施方式
以下结合具体实施方式对本发明作进一步的说明,一种分泌入支气管肺泡灌洗液蛋白质预测方法,包括以下步骤,
1.数据集的建立
(1)正样本数据集收集
通过查找生物学相关文献和现有数据库获取将支气管肺泡灌洗液中已经被生物实验验证的蛋白质信息作为模型训练的正样本录入计算机。
(2)负样本数据集收集
在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族,从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。
(3)模型训练数据集分割
将所有正样本和负样本的样本数据均按照80%训练集、10%验证集、10%测试集进行分割。
2.正负样本均衡
考虑到正负样本存在数量上的差异导致预测结果不准确的问题,拟采用随机欠采样(RU)方法,对正负样本的数量进行均衡,对样本数量过多的集合进行删除,得到均衡的正负样本。
3.计算蛋白序列的PSSM
利用位置相关的迭代BLAST(PSI-BLAST)计算样本中蛋白的序列位置特异权重矩阵(PSSM),作为模型运算的输入。
4.基于卷积神经网络结合长短期记忆建立分类器模型
(1)神经网络模型拟合训练
所述卷积神经网络由输入层、卷积层加LSTM层和输出层组成,其中输入层仅仅表示对数据的输出,卷积层的定义如下:
其中Y(t)代表t时刻当前层的输出值,φ为激活函数,X(t)代表当前层的输出值,Wx代表当前输入值的权重,Y(t-1)代表上一时刻当前层的输出,Wy代表上一时刻输出值的权重,b代表当前层的偏置项,W代表由Wx和Wy合并组成的矩阵。
LSTM采用双向LSTM。
激活函数Tanh和Sigmoid的定义分别如下
其中z为神经元的权重和,e为自然常数。
模型输出为二分类交叉熵(binary cross entropy),定义如下:
5.模型性能评估
将验证集中正样本和负样本的蛋白质信息以及上述步骤中获得的模型训练用的特征向量输入训练后的分类器模型进行验证,输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under RocCurve),作为评价模型验证效果的指标,获得的AUC小于90%,重新拟合训练分类器模型直至AUC达到90%以上。
其中,敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为:
其中,TP表示真阳性样本数量,TN标识真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量。N表示所有训练样本数量。
最后,用测试集对验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重新进行分类器拟合训练和模型验证,直至分类准确性达到90%以上,分泌入支气管肺泡灌洗液蛋白质的预测模型建立完成。
Claims (5)
1.一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将支气管肺泡灌洗液中被生物实验验证的蛋白质作为模型训练的正样本,并存储正样本蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除所述步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中提取家族中蛋白质数量超过5个的蛋白质家族,选取其中5个蛋白质信息作为模型训练负样本,并存储负样本的蛋白质信息数据;
步骤三、采用随机欠采样方法,对正样本和负样本数量进行均衡,获得均衡的正负样本;
步骤四、将正样本和负样本的蛋白质信息数据按照80%训练集、10%验证集、10%测试集随机进行分割;
步骤五、利用位置相关的迭代BLAST计算样本中蛋白的序列位置特异权重矩阵PSSM;
步骤六、通过卷积神经网络RNN结合长短期记忆LSTM建立分类器模型,所述分类器模型的输入为所述步骤五中获得的特异权重矩阵PSSM,分类器模型的输出为入脑脊髓蛋白质或非入脑脊髓蛋白质;
步骤七、所述步骤四中的训练集采用激活函数和交叉熵的损失函数拟合分类器模型,获得训练后的分类器模型;
步骤八、将所述步骤四验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特异权重矩阵PSSM输入步骤六训练后的分类器模型进行验证,获得验证后的分类器模型;输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标;
步骤九、采用所述步骤四中的测试集对所述步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复所述步骤六和步骤七至分类准确性达到90%以上,分类器模型建立完成;
步骤十、向所述步骤九中建立完成的分类器模型中输入独立的验证集蛋白序列,通过输出的预测结果实现分泌入支气管肺泡灌洗液蛋白质预测方法。
4.根据权利要求1所述的一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:所述步骤八验证后的分类器模型输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010337266.0A CN111554348A (zh) | 2020-04-26 | 2020-04-26 | 一种分泌入支气管肺泡灌洗液蛋白质预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010337266.0A CN111554348A (zh) | 2020-04-26 | 2020-04-26 | 一种分泌入支气管肺泡灌洗液蛋白质预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111554348A true CN111554348A (zh) | 2020-08-18 |
Family
ID=72007693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010337266.0A Pending CN111554348A (zh) | 2020-04-26 | 2020-04-26 | 一种分泌入支气管肺泡灌洗液蛋白质预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554348A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114678063A (zh) * | 2022-02-24 | 2022-06-28 | 华南理工大学 | 一种预测与新型冠状病毒蛋白质相互作用的药物的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200033351A1 (en) * | 2017-03-30 | 2020-01-30 | Tel Hashomer Medical Research Infrastructure And Service Ltd. | Diagnostic methods and kits for early detection of ovarian cancer |
CN110797084A (zh) * | 2019-11-06 | 2020-02-14 | 吉林大学 | 基于深层神经网络的脑脊液蛋白质的预测方法 |
CN110827922A (zh) * | 2019-11-06 | 2020-02-21 | 吉林大学 | 基于循环神经网络的羊水蛋白质的预测方法 |
CN110827923A (zh) * | 2019-11-06 | 2020-02-21 | 吉林大学 | 基于卷积神经网络的精液蛋白质的预测方法 |
-
2020
- 2020-04-26 CN CN202010337266.0A patent/CN111554348A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200033351A1 (en) * | 2017-03-30 | 2020-01-30 | Tel Hashomer Medical Research Infrastructure And Service Ltd. | Diagnostic methods and kits for early detection of ovarian cancer |
CN110797084A (zh) * | 2019-11-06 | 2020-02-14 | 吉林大学 | 基于深层神经网络的脑脊液蛋白质的预测方法 |
CN110827922A (zh) * | 2019-11-06 | 2020-02-21 | 吉林大学 | 基于循环神经网络的羊水蛋白质的预测方法 |
CN110827923A (zh) * | 2019-11-06 | 2020-02-21 | 吉林大学 | 基于卷积神经网络的精液蛋白质的预测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114678063A (zh) * | 2022-02-24 | 2022-06-28 | 华南理工大学 | 一种预测与新型冠状病毒蛋白质相互作用的药物的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598881B (zh) | 基于变分自编码器的图像异常检测方法 | |
CN112257341B (zh) | 一种基于异源数据差补融合的定制产品性能预测方法 | |
CN108095716B (zh) | 一种基于置信规则库和深度神经网络的心电信号检测方法 | |
Kail et al. | Recurrent convolutional neural networks help to predict location of earthquakes | |
CN112635056A (zh) | 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 | |
CN111248913B (zh) | 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质 | |
CN110444287A (zh) | 使用分类系统及其试剂盒识别和诊断肺部疾病的方法 | |
CN114093425A (zh) | 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 | |
CN110827922B (zh) | 基于循环神经网络的羊水蛋白质的预测方法 | |
CN113643756A (zh) | 一种基于深度学习的蛋白质相互作用位点预测方法 | |
CN115896242A (zh) | 一种基于外周血免疫特征的癌症智能筛查模型及方法 | |
CN116959725A (zh) | 一种多模态数据融合的疾病风险预测方法 | |
CN118116600B (zh) | 一种基于多组学和临床检验数据的结直肠癌预后方法 | |
CN113096070A (zh) | 一种基于MA-Unet的图像分割方法 | |
CN107169264B (zh) | 一种复杂疾病诊断系统 | |
CN115876467A (zh) | 一种基于伪标签传递式两阶段领域自适应的滚动轴承故障诊断方法 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN115527608A (zh) | 一种肠道年龄预测方法和系统 | |
CN115537467A (zh) | 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用 | |
CN111554348A (zh) | 一种分泌入支气管肺泡灌洗液蛋白质预测方法 | |
CN115994713B (zh) | 一种基于多源数据的操作训练效果评估方法及系统 | |
CN115565669B (zh) | 一种基于gan和多任务学习的癌症生存分析方法 | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN115188475A (zh) | 一种狼疮肾炎患者风险预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200818 |
|
RJ01 | Rejection of invention patent application after publication |