CN112365931B

CN112365931B - 一种用于预测蛋白质功能的数据多标签分类方法

Info

Publication number: CN112365931B
Application number: CN202010984625.1A
Authority: CN
Inventors: 丁家满; 李红磊
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2024-04-09
Anticipated expiration: 2040-09-18
Also published as: CN112365931A

Abstract

本发明涉及一种用于预测蛋白质功能的数据多标签分类方法，属于生物信息学及数据挖掘技术领域。本发明包括步骤：把蛋白质序列生物数据由字符转换成向量的形式，对高维的向量形式进行降维处理；构建用于进行蛋白质序列生物数据标签分类模型，具体的，采用二元分类器蛋白质序列生物数据进行标签分类；利用构建好的标签分类模型进行预测标签分类。本发明能够高效解决蛋白质标签缺失情况下的功能的预测问题，同时本方法可操作性强，实用性强，不仅在基本蛋白质功能预测问题上表现出了良好性能，也在其他蛋白质功能预测上表现出了良好的性能。

Description

一种用于预测蛋白质功能的数据多标签分类方法

技术领域

本发明涉及一种用于预测蛋白质功能的数据多标签分类方法，属于生物信息学及数据挖掘技术领域。

背景技术

随着生物信息领域研究的不断加深，蛋白质成为最炙手可热的研究领域之一。人类对DNA序列认知数量的与日俱增使得新发现的蛋白质序列也飞速增加。面对数量如此庞大的蛋白质序列，对其进行信息挖掘和分类研究是生物信息研究中不可或缺的工作。蛋白质功能预测本质上是一个多标签分类问题，其预测精度与分类器的性能密切相关。分类器是机器学习研究中的关键步骤，其运用统计理论对数据进行规律寻找，对样本未知的标签进行预测。

分类器的研究发展非常迅速，其与蛋白质研究的结合也越来越紧密。早在2003年张等人就使用贝叶斯分类器尝试对蛋白质高级结构进行预测研究。之后的2006年，Sudipto等人引入支持向量机(SVM)分类器进行蛋白质功能的预测。同时，K-近邻分类器(KNN)、决策树、贝叶斯分类器等机器学习方法很快就被研究者们所使用。近年来，较为流行的深度学习算法也得到蛋白质研究者的关注。

但是在研究中学者很快发现，由于样本数目的增大，单独使用某种分类器已经难以达到研究的需求，降维思想以及分类器等技术迅速与生物信息相结合。随着机器学习算法的不断更新完善，针对蛋白质序列的相关研究有着越来越大的发展空间。

发明内容

本发明提供了一种用于预测蛋白质功能的数据多标签分类方法，能对蛋白质序列生物数据进行预测标签分类，从而用于能够高效解决蛋白质标签缺失情况下的功能的预测问题。

本发明的技术方案是：一种用于预测蛋白质功能的数据多标签分类方法，所述方法包括：Step1、把蛋白质序列生物数据由字符转换成向量的形式，对高维的向量形式进行降维处理；

Step2、构建用于进行蛋白质序列生物数据标签分类模型，具体的，采用二元分类器蛋白质序列生物数据进行标签分类；

Step3、利用构建好的标签分类模型进行预测标签分类。

作为本发明的进一步方案，所述步骤Step1包括：

Step1.1、蛋白质序列生物数据用向量X表示，X＝[x₁,x₂,…x_n]^T∈R^n×m，也用作蛋白质预测模型训练数据，并且训练数据对应的蛋白质标签被表示为Y＝[y₁,y₂,…,y_n]^T∈{0,1}^n×l，y_i,j＝1表示第i个蛋白质具有第j个标签y_j，y_i,j＝0表示第i个蛋白质没有标签y_j或者该值未被观测到，即丢失，对任意非零的矩阵W，其中w_i和w^j分别代表第i行和第j列，w_i,j是矩阵中第(i,j)个元素；

Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征，用于得到一个简洁且有效的特征子空间。

作为本发明的进一步方案，所述Step2中，构建用于进行蛋白质序列生物数据标签分类模型，具体的，采用二元分类器蛋白质序列生物数据进行标签分类，此二元分类器的目标函数的优化采用如下方式进行：

Step2.1、假设每个标签仅由来自给定蛋白质数据集的原始特征集的子集确定，为了防止预测蛋白质功能的多标签分类方法过拟合，将线性模型进行l₁范数正则化；这些标签的功能由每个非零条目确定，即w_i∈Rⁿ,并且对相应的标签具有很强的可辨性，二元分类器的目标函数表示为:

将所有二元分类器组合在一起，目标函数写成如下：

其中任意非零的矩阵W＝[w₁,w₂,…,w_l]∈R^n×l是回归系数，λ₃≥0是折中的参数；

Step2.2、利用标签相关性在目标函数中加入标签相关矩阵、l₁范数正则项来优化目标函数表达式；

C∈R^l×l作为标签相关矩阵，C_i,j表示标签y_i与y_j的相关程度，注意C_i,j可能不等于C_j,i，假设能利用标签间相关性，根据已有标签的值来补全缺失标签。需要注意的是一类标签可能只有标签的一个子集相关联，因此，在C的基础上添加l₁范数正则项来学习稀疏标签依赖，目标函数写成如下所示：

s.t.C≥0

Step2.3、如果标签y_i和标签y_j强相关，则它们具有类似的标签特定特征，相应的模型系数w_i和w_j将非常相似，并且它们之间的欧几里德距离很小，否则w_i和w_j将不同，并且它们之间的欧几里德距离很大，经过数学运算后，目标函数表达式能优化成如下所示：

s.t.C≥0

其中，λ₁、λ₂、λ₃、λ₄是折中的参数；X为蛋白质序列生物数据的向量表示，Y为蛋白质标签表示，对任意非零的矩阵W，其中w_i和w^j分别代表第i行和第j列；

Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C，求解除参数W、C之后，从而得到最终的目标函数。

本发明的有益效果是：

1、本发明有效地利用了标签间的关联，提升了蛋白质预测的精准度，本方法可操作性强，实用性强，不仅可以应用于基本蛋白质的功能预测,而且可以应用于其他类型的蛋白质功能预测中，是一种合理有效的预测方法，本发明的预测蛋白质功能的精度达到了63.8％，和SZM、LMKNN预测分类模型相比，预测精度提高了。

具体实施方式

实施例1：一种用于预测蛋白质功能的数据多标签分类方法，所述方法包括：

Step1、把蛋白质序列生物数据由字符转换成向量的形式，对高维的向量形式进行降维处理；

Step3、利用构建好的标签分类模型进行预测标签分类。

作为本发明的进一步方案，所述步骤Step1包括：

将所有二元分类器组合在一起，目标函数写成如下：

C∈R^l×l作为标签相关矩阵，C_i,_j表示标签y_i与y_j的相关程度，注意C_i,_j可能不等于C_j,i，假设能利用标签间相关性，根据已有标签的值来补全缺失标签。需要注意的是一类标签可能只有标签的一个子集相关联，因此，在C的基础上添加l₁范数正则项来学习稀疏标签依赖，目标函数写成如下所示：

s.t.C≥0

所述步骤2.4中求解的具体步骤如下：

步骤2.4.1假设W不变，优化C:

步骤2.4.2假设C不变，优化W；

其中∈是步长，一旦W和C被确定，该算法就能用于预测新蛋白质实例的可能标签。

本实施例中对于每个蛋白质数据集，其中80％随机生成为训练数据集，而20％作为测试数据集，重复10次。每个蛋白质数据集的标签缺失率设置为10％至60％，步长设置为10％。根据预先设定的缺失率随机丢弃训练数据的标签。为避免空类或没有正标签的蛋白质，每个类标签至少保留一个蛋白质，并为每个蛋白质保留至少一个正标签。

标签的不完整性显著影响多标签分类器的性能，并且在大多数情况下，根据蛋白质数据集的每个评估度量，这些对缺失标签的建模方法比BR和ECC有更好的性能。同时，预测蛋白质功能的多标签分类方法明显优于BR和ECC，并且观察到这一发现是由于利用标签相关性对缺失标签进行建模。另一方面，标签不完整可能会恶化标签不平衡的问题。

上面对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种用于预测蛋白质功能的数据多标签分类方法，其特征在于，所述方法包括：

Step3、利用构建好的标签分类模型进行预测标签分类；

所述步骤Step1包括：

Step1.1、蛋白质序列生物数据用向量X表示，X＝[x₁,x₂,…x_n]^T∈R^n×m，也用作蛋白质预测模型训练数据，并且训练数据对应的蛋白质标签被表示为Y＝[y₁,y₂,…,y_n]^T∈{0,1}^n×l，y_i,j＝1表示第i个蛋白质具有第j个标签y_j，y_i,j＝0表示第i个蛋白质没有标签y_j或者该值未被观测到，即丢失，对任意非零的矩阵W，其中w_i和w_j分别代表第i行和第j列，w_i,j是矩阵中第(i,j)个元素；

Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征，用于得到一个简洁且有效的特征子空间；

所述Step2中，构建用于进行蛋白质序列生物数据标签分类模型，具体的，采用二元分类器蛋白质序列生物数据进行标签分类，此二元分类器的目标函数的优化采用如下方式进行：

将所有二元分类器组合在一起，目标函数写成如下：

C∈R^l×l作为标签相关矩阵，C_i,j表示标签y_i与y_j的相关程度，在C的基础上添加l₁范数正则项来学习稀疏标签依赖，目标函数写成如下所示：

s.t.C≥0

其中，λ₁、λ₂、λ₃、λ₄是折中的参数；X为蛋白质序列生物数据的向量表示，Y为蛋白质标签表示，对任意非零的矩阵W，其中w_i和w_j分别代表第i行和第j列；

Step2.4、利用最终优化后的目标函数表达式利用加速近端梯度法求解参数任意非零的矩阵W和标签相关矩阵C，求解出参数W、C之后，从而得到最终的目标函数。