CN112365931B - 一种用于预测蛋白质功能的数据多标签分类方法 - Google Patents
一种用于预测蛋白质功能的数据多标签分类方法 Download PDFInfo
- Publication number
- CN112365931B CN112365931B CN202010984625.1A CN202010984625A CN112365931B CN 112365931 B CN112365931 B CN 112365931B CN 202010984625 A CN202010984625 A CN 202010984625A CN 112365931 B CN112365931 B CN 112365931B
- Authority
- CN
- China
- Prior art keywords
- tag
- protein
- biological data
- objective function
- protein sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004853 protein function Effects 0.000 title claims abstract description 17
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 64
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 64
- 238000013145 classification model Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 22
- 101710093543 Probable non-specific lipid-transfer protein Proteins 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 10
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。本发明包括步骤:把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;利用构建好的标签分类模型进行预测标签分类。本发明能够高效解决蛋白质标签缺失情况下的功能的预测问题,同时本方法可操作性强,实用性强,不仅在基本蛋白质功能预测问题上表现出了良好性能,也在其他蛋白质功能预测上表现出了良好的性能。
Description
技术领域
本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。
背景技术
随着生物信息领域研究的不断加深,蛋白质成为最炙手可热的研究领域之一。人类对DNA序列认知数量的与日俱增使得新发现的蛋白质序列也飞速增加。面对数量如此庞大的蛋白质序列,对其进行信息挖掘和分类研究是生物信息研究中不可或缺的工作。蛋白质功能预测本质上是一个多标签分类问题,其预测精度与分类器的性能密切相关。分类器是机器学习研究中的关键步骤,其运用统计理论对数据进行规律寻找,对样本未知的标签进行预测。
分类器的研究发展非常迅速,其与蛋白质研究的结合也越来越紧密。早在2003年张等人就使用贝叶斯分类器尝试对蛋白质高级结构进行预测研究。之后的2006年,Sudipto等人引入支持向量机(SVM)分类器进行蛋白质功能的预测。同时,K-近邻分类器(KNN)、决策树、贝叶斯分类器等机器学习方法很快就被研究者们所使用。近年来,较为流行的深度学习算法也得到蛋白质研究者的关注。
但是在研究中学者很快发现,由于样本数目的增大,单独使用某种分类器已经难以达到研究的需求,降维思想以及分类器等技术迅速与生物信息相结合。随着机器学习算法的不断更新完善,针对蛋白质序列的相关研究有着越来越大的发展空间。
发明内容
本发明提供了一种用于预测蛋白质功能的数据多标签分类方法,能对蛋白质序列生物数据进行预测标签分类,从而用于能够高效解决蛋白质标签缺失情况下的功能的预测问题。
本发明的技术方案是:一种用于预测蛋白质功能的数据多标签分类方法,所述方法包括:Step1、把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;
Step2、构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;
Step3、利用构建好的标签分类模型进行预测标签分类。
作为本发明的进一步方案,所述步骤Step1包括:
Step1.1、蛋白质序列生物数据用向量X表示,X=[x1,x2,…xn]T∈Rn×m,也用作蛋白质预测模型训练数据,并且训练数据对应的蛋白质标签被表示为Y=[y1,y2,…,yn]T∈{0,1}n×l,yi,j=1表示第i个蛋白质具有第j个标签yj,yi,j=0表示第i个蛋白质没有标签yj或者该值未被观测到,即丢失,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列,wi,j是矩阵中第(i,j)个元素;
Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征,用于得到一个简洁且有效的特征子空间。
作为本发明的进一步方案,所述Step2中,构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类,此二元分类器的目标函数的优化采用如下方式进行:
Step2.1、假设每个标签仅由来自给定蛋白质数据集的原始特征集的子集确定,为了防止预测蛋白质功能的多标签分类方法过拟合,将线性模型进行l1范数正则化;这些标签的功能由每个非零条目确定,即wi∈Rn,并且对相应的标签具有很强的可辨性,二元分类器的目标函数表示为:
将所有二元分类器组合在一起,目标函数写成如下:
其中任意非零的矩阵W=[w1,w2,…,wl]∈Rn×l是回归系数,λ3≥0是折中的参数;
Step2.2、利用标签相关性在目标函数中加入标签相关矩阵、l1范数正则项来优化目标函数表达式;
C∈Rl×l作为标签相关矩阵,Ci,j表示标签yi与yj的相关程度,注意Ci,j可能不等于Cj,i,假设能利用标签间相关性,根据已有标签的值来补全缺失标签。需要注意的是一类标签可能只有标签的一个子集相关联,因此,在C的基础上添加l1范数正则项来学习稀疏标签依赖,目标函数写成如下所示:
s.t.C≥0
Step2.3、如果标签yi和标签yj强相关,则它们具有类似的标签特定特征,相应的模型系数wi和wj将非常相似,并且它们之间的欧几里德距离很小,否则wi和wj将不同,并且它们之间的欧几里德距离很大,经过数学运算后,目标函数表达式能优化成如下所示:
s.t.C≥0
其中,λ1、λ2、λ3、λ4是折中的参数;X为蛋白质序列生物数据的向量表示,Y为蛋白质标签表示,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列;
Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C,求解除参数W、C之后,从而得到最终的目标函数。
本发明的有益效果是:
1、本发明有效地利用了标签间的关联,提升了蛋白质预测的精准度,本方法可操作性强,实用性强,不仅可以应用于基本蛋白质的功能预测,而且可以应用于其他类型的蛋白质功能预测中,是一种合理有效的预测方法,本发明的预测蛋白质功能的精度达到了63.8%,和SZM、LMKNN预测分类模型相比,预测精度提高了。
具体实施方式
实施例1:一种用于预测蛋白质功能的数据多标签分类方法,所述方法包括:
Step1、把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;
Step2、构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;
Step3、利用构建好的标签分类模型进行预测标签分类。
作为本发明的进一步方案,所述步骤Step1包括:
Step1.1、蛋白质序列生物数据用向量X表示,X=[x1,x2,…xn]T∈Rn×m,也用作蛋白质预测模型训练数据,并且训练数据对应的蛋白质标签被表示为Y=[y1,y2,…,yn]T∈{0,1}n×l,yi,j=1表示第i个蛋白质具有第j个标签yj,yi,j=0表示第i个蛋白质没有标签yj或者该值未被观测到,即丢失,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列,wi,j是矩阵中第(i,j)个元素;
Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征,用于得到一个简洁且有效的特征子空间。
作为本发明的进一步方案,所述Step2中,构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类,此二元分类器的目标函数的优化采用如下方式进行:
Step2.1、假设每个标签仅由来自给定蛋白质数据集的原始特征集的子集确定,为了防止预测蛋白质功能的多标签分类方法过拟合,将线性模型进行l1范数正则化;这些标签的功能由每个非零条目确定,即wi∈Rn,并且对相应的标签具有很强的可辨性,二元分类器的目标函数表示为:
将所有二元分类器组合在一起,目标函数写成如下:
其中任意非零的矩阵W=[w1,w2,…,wl]∈Rn×l是回归系数,λ3≥0是折中的参数;
Step2.2、利用标签相关性在目标函数中加入标签相关矩阵、l1范数正则项来优化目标函数表达式;
C∈Rl×l作为标签相关矩阵,Ci,j表示标签yi与yj的相关程度,注意Ci,j可能不等于Cj,i,假设能利用标签间相关性,根据已有标签的值来补全缺失标签。需要注意的是一类标签可能只有标签的一个子集相关联,因此,在C的基础上添加l1范数正则项来学习稀疏标签依赖,目标函数写成如下所示:
s.t.C≥0
Step2.3、如果标签yi和标签yj强相关,则它们具有类似的标签特定特征,相应的模型系数wi和wj将非常相似,并且它们之间的欧几里德距离很小,否则wi和wj将不同,并且它们之间的欧几里德距离很大,经过数学运算后,目标函数表达式能优化成如下所示:
s.t.C≥0
其中,λ1、λ2、λ3、λ4是折中的参数;X为蛋白质序列生物数据的向量表示,Y为蛋白质标签表示,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列;
Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C,求解除参数W、C之后,从而得到最终的目标函数。
所述步骤2.4中求解的具体步骤如下:
步骤2.4.1假设W不变,优化C:
步骤2.4.2假设C不变,优化W;
其中∈是步长,一旦W和C被确定,该算法就能用于预测新蛋白质实例的可能标签。
本实施例中对于每个蛋白质数据集,其中80%随机生成为训练数据集,而20%作为测试数据集,重复10次。每个蛋白质数据集的标签缺失率设置为10%至60%,步长设置为10%。根据预先设定的缺失率随机丢弃训练数据的标签。为避免空类或没有正标签的蛋白质,每个类标签至少保留一个蛋白质,并为每个蛋白质保留至少一个正标签。
标签的不完整性显著影响多标签分类器的性能,并且在大多数情况下,根据蛋白质数据集的每个评估度量,这些对缺失标签的建模方法比BR和ECC有更好的性能。同时,预测蛋白质功能的多标签分类方法明显优于BR和ECC,并且观察到这一发现是由于利用标签相关性对缺失标签进行建模。另一方面,标签不完整可能会恶化标签不平衡的问题。
上面对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种用于预测蛋白质功能的数据多标签分类方法,其特征在于,所述方法包括:
Step1、把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;
Step2、构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;
Step3、利用构建好的标签分类模型进行预测标签分类;
所述步骤Step1包括:
Step1.1、蛋白质序列生物数据用向量X表示,X=[x1,x2,…xn]T∈Rn×m,也用作蛋白质预测模型训练数据,并且训练数据对应的蛋白质标签被表示为Y=[y1,y2,…,yn]T∈{0,1}n×l,yi,j=1表示第i个蛋白质具有第j个标签yj,yi,j=0表示第i个蛋白质没有标签yj或者该值未被观测到,即丢失,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列,wi,j是矩阵中第(i,j)个元素;
Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征,用于得到一个简洁且有效的特征子空间;
所述Step2中,构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类,此二元分类器的目标函数的优化采用如下方式进行:
Step2.1、假设每个标签仅由来自给定蛋白质数据集的原始特征集的子集确定,为了防止预测蛋白质功能的多标签分类方法过拟合,将线性模型进行l1范数正则化;这些标签的功能由每个非零条目确定,即wi∈Rn,并且对相应的标签具有很强的可辨性,二元分类器的目标函数表示为:
将所有二元分类器组合在一起,目标函数写成如下:
其中任意非零的矩阵W=[w1,w2,…,wl]∈Rn×l是回归系数,λ3≥0是折中的参数;
Step2.2、利用标签相关性在目标函数中加入标签相关矩阵、l1范数正则项来优化目标函数表达式;
C∈Rl×l作为标签相关矩阵,Ci,j表示标签yi与yj的相关程度,在C的基础上添加l1范数正则项来学习稀疏标签依赖,目标函数写成如下所示:
s.t.C≥0
Step2.3、如果标签yi和标签yj强相关,则它们具有类似的标签特定特征,相应的模型系数wi和wj将非常相似,并且它们之间的欧几里德距离很小,否则wi和wj将不同,并且它们之间的欧几里德距离很大,经过数学运算后,目标函数表达式能优化成如下所示:
s.t.C≥0
其中,λ1、λ2、λ3、λ4是折中的参数;X为蛋白质序列生物数据的向量表示,Y为蛋白质标签表示,对任意非零的矩阵W,其中wi和wj分别代表第i行和第j列;
Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C,求解出参数W、C之后,从而得到最终的目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010984625.1A CN112365931B (zh) | 2020-09-18 | 2020-09-18 | 一种用于预测蛋白质功能的数据多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010984625.1A CN112365931B (zh) | 2020-09-18 | 2020-09-18 | 一种用于预测蛋白质功能的数据多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365931A CN112365931A (zh) | 2021-02-12 |
CN112365931B true CN112365931B (zh) | 2024-04-09 |
Family
ID=74516798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010984625.1A Active CN112365931B (zh) | 2020-09-18 | 2020-09-18 | 一种用于预测蛋白质功能的数据多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365931B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299388B (zh) * | 2021-05-12 | 2023-09-29 | 吾征智能技术(北京)有限公司 | 基于发热伴皮疹的跨模态医学生物特征认知疾病的系统 |
CN113724195B (zh) * | 2021-07-15 | 2023-06-02 | 南方医科大学 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126972A (zh) * | 2016-06-21 | 2016-11-16 | 哈尔滨工业大学 | 一种用于蛋白质功能预测的层级多标签分类方法 |
CN109754000A (zh) * | 2018-12-21 | 2019-05-14 | 昆明理工大学 | 一种基于依赖度的半监督多标签分类方法 |
WO2019100723A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924313B2 (en) * | 2010-06-03 | 2014-12-30 | Xerox Corporation | Multi-label classification using a learned combination of base classifiers |
WO2014210368A1 (en) * | 2013-06-28 | 2014-12-31 | D-Wave Systems Inc. | Systems and methods for quantum processing of data |
-
2020
- 2020-09-18 CN CN202010984625.1A patent/CN112365931B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126972A (zh) * | 2016-06-21 | 2016-11-16 | 哈尔滨工业大学 | 一种用于蛋白质功能预测的层级多标签分类方法 |
WO2019100723A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109754000A (zh) * | 2018-12-21 | 2019-05-14 | 昆明理工大学 | 一种基于依赖度的半监督多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
用于雷达方位超分辨的范数正则化方法;邹建武;系统工程与电子技术;第36卷(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112365931A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Asymmetric deep supervised hashing | |
Imani et al. | Hdna: Energy-efficient dna sequencing using hyperdimensional computing | |
CN107943856A (zh) | 一种基于扩充标记样本的文本分类方法及系统 | |
CN112365931B (zh) | 一种用于预测蛋白质功能的数据多标签分类方法 | |
CN107832830A (zh) | 基于改进型灰狼优化算法的入侵检测系统特征选择方法 | |
CN110941734A (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN116013428A (zh) | 基于自监督学习的药物靶标通用预测方法、设备及介质 | |
Cai et al. | Support vector machines for prediction of protein domain structural class | |
Sofi et al. | Protein secondary structure prediction using data-partitioning combined with stacked convolutional neural networks and bidirectional gated recurrent units | |
CN112241475B (zh) | 基于维度分析量化器哈希学习的数据检索方法 | |
WO2003058489A1 (en) | Discriminative feature selection for data sequences | |
Wu et al. | Massive-scale online feature selection for sparse ultra-high dimensional data | |
Li et al. | Using modified lasso regression to learn large undirected graphs in a probabilistic framework | |
Spalević et al. | Hierarchical protein function prediction with tail-GNNs | |
Kashef et al. | MLIFT: enhancing multi-label classifier with ensemble feature selection | |
Wali et al. | m-CALP–Yet another way of generating handwritten data through evolution for pattern recognition | |
CN111914108A (zh) | 基于语义保持的离散监督跨模态哈希检索方法 | |
Kuksa et al. | Fast kernel methods for SVM sequence classifiers | |
Li et al. | Reveal the cognitive process of deep learning during identifying nucleosome occupancy and histone modification | |
Padma et al. | A modified algorithm for clustering based on particle swarm optimization and K-means | |
TWI827181B (zh) | 以稀疏分散式表示學習空間型樣的人工智慧系統及其相關方法 | |
Wang et al. | Multi-label learning for protein subcellular location prediction | |
Fichte et al. | Deep Clustering for Metagenomic Binning | |
Bodén et al. | Improved access to sequential motifs: A note on the architectural bias of recurrent networks | |
Ramesh | Deep Learning for Taxonomy Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |