CN108875310A

CN108875310A - Dna结合蛋白序列信息特征提取与分类方法及装置

Info

Publication number: CN108875310A
Application number: CN201710335862.3A
Authority: CN
Inventors: 王伟
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2018-11-23

Abstract

本发明涉及一种DNA结合蛋白序列信息特征提取与分类方法及装置，该方法首先进行理论论证，对收集的数据分析和整理，获得具有生物学意义和统计意义的可靠数据集，然后从复杂的蛋白三维结构中提取有效的蛋白质序列数据特征参数成为关键环节，也就是如何将序列字符信息转换为数字特征信息，对提取的特征数据，设计合理的分类算法，筛选有助于分类的特征以实现分类目标，最后对分类性能采用合理公正的评价体系，如测试方法、检验手段和评价指标选择等。本发明能满足对高通量的蛋白测序功能注释的需求，能够实现自动化的DNA结合蛋白序列的功能注释，同时提出的这些特征也能帮助生物学家对DNA结合蛋白序列进行实验分析研究。

Description

DNA结合蛋白序列信息特征提取与分类方法及装置

技术领域

本发明属于计算机生物技术领域，具体涉及DNA结合蛋白序列信息特征提取与分类方法及装置。

背景技术

随着生物数据的不断增长，如何从大量的数据中挖掘出有价值的知识是一项极具挑战性且十分有趣的工作，这也促使了数学、计算机科学和生物学的相互交叉融合，从而诞生了一个新兴研究领域—生物信息学。

随着蛋白质结构测定技术和高通量测序技术的不断发展，产生了大量的DNA 结合蛋白结构数据和序列数据，为计算方法研究DNA结合蛋白的功能奠定了数据基础。DNA结合蛋白分为单链DNA结合蛋白(Single-stranded DNA-binding Proteins，SSBs)和双链DNA结合蛋白(Double-stranded DNA-binding Proteins， DSBs)，SSBs主要参与了DNA复制、修复和重组等生物过程，DSBs参与了基因的表达与调控等一系列生命活动。

虽然已有一些DSBs和SSBs的研究，但对DSBs和SSBs的结合特异性研究仍然未完全清楚。目前DSBs主要从结构、进化和生物特征角度研究，对SSBs 主要通过分子生物学手段研究，仍然缺乏生物信息学手段对DSBs和SSBs的差异特征、结合特异性和结合机制研究，同时计算方法有助于实现快速高效的DNA 结合蛋白的功能注释，以缓解蛋白质的数据量庞大与功能信息贫乏的矛盾，并且有助于进一步理解蛋白质-DNA相互作用机制。

发明内容

本发明的目的在于提供一种DNA结合蛋白序列信息特征提取与分类方法及装置，用以解决现有技术中未解决的DNA结合蛋白序列数据的分类问题。

为解决上述技术问题，本发明的技术方案为：

本发明的一种DNA结合蛋白序列信息特征提取与分类方法，包括如下步骤：

1)选择蛋白质类数据库中的DNA结合蛋白，从中提取出蛋白质序列数据集；

2)提取蛋白质序列数据集中的蛋白质数据序列信息对应的不同类型的蛋白序列特征；

3)将不同类型的蛋白序列特征的序列特征矩阵进行统一维度，提取局部特征信息；

4)根据每类蛋白序列特征，将蛋白质数据序列进行分类，对分类结果进行特征分类性能评价。

进一步地，所述蛋白质类数据库包括PDB、NDB、ProNuc、SCOP、CATH、 SWISS-PROT、PIR、OWL、NRL3D、TrEMBL中的至少一种。

进一步地，还包括将未标注的DNA结合蛋白进行消除冗余预处理的步骤：筛选序列相似度大于30％的非同源DNA结合蛋白去除，并且，数据为分辨率大于的X-射线晶体衍射和NMR结构数据，同时蛋白序列长度大于40个氨基酸残基。

进一步地，所述蛋白序列特征包括全序列氨基酸组成特征、二肽组成特征、氨基酸理化属性特征和序列保守性特征。

进一步地，采用分隔氨基酸转换法将不同类型的蛋白序列特征的序列特征矩阵进行统一维度。

进一步地，采用支持向量机分类方法和10交叉检验方法来对分类结果进行特征分类性能评价。

本发明的一种DNA结合蛋白序列信息特征提取与分类装置，包括如下模块：

用于选择蛋白质类数据库中的DNA结合蛋白，从中提取出蛋白质序列数据集的模块；

用于提取蛋白质序列数据集中的蛋白质数据序列信息对应的不同类型的蛋白序列特征的模块；

用于将不同类型的蛋白序列特征的序列特征矩阵进行统一维度，提取局部特征信息的模块；

用于根据每类蛋白序列特征，将蛋白质数据序列进行分类，对分类结果进行特征分类性能评价的模块。

进一步地，所述蛋白质类数据库包括PDB、NDB、ProNuc、SCOP、CATH、SWISS-PROT、PIR、OWL、NRL3D、TrEMBL中的至少一种。

进一步地，还包括用于将未标注的DNA结合蛋白进行冗余预处理的模块：筛选序列相似度大于30％的非同源DNA结合蛋白去除，并且，要求数据为分辨率大于的X-射线晶体衍射和NMR结构数据，并且要求蛋白序列长度大于40 个氨基酸残基。

进一步地，所述蛋白特征包括全序列氨基酸组成特征、二肽组成特征、氨基酸理化属性特征和序列保守性特征。

本发明的有益效果：

本发明首先进行理论论证，对收集的数据分析和整理，获得具有生物学意义和统计意义的可靠数据集，然后从复杂的蛋白质结构数据中提取有效的序列数据特征参数成为关键环节，也就是如何将序列字符信息转换为数字特征信息，对提取的特征数据，设计合理的分类算法，筛选有助于分类的特征以实现分类目标，最后对分类性能采用合理公正的评价体系，如测试方法、检验手段和评价指标选择等。本发明能满足对高通量的蛋白测序功能注释的需求，能够实现自动化的 DNA结合蛋白序列的功能注释，同时提出的这些特征也能帮助生物学家对DNA 结合蛋白序列进行实验分析研究。

附图说明

图1是基于DNA结合蛋白序列的分类模型；

图2是三种二肽结构统计方法图；

图3是氨基酸序列转换为A,B两类的序列图；

图4-1是SAA方法中L≥4d_N+20+d_C时N-terminal、middle、C-terminal分隔示意图；

图4-2是SAA方法中4d_N+d_C<L<4d_N+20+d_C时N-terminal、middle、C-terminal 分隔示意图；

图4-3是SAA方法中L≤4d_N+d_C时N-terminal、middle、C-terminal分隔示意图；

图5是DSBs和SSBs氨基酸分布图；

图6是间隔为0的二肽统计分布图；

图7是间隔为1的二肽统计分布图；

图8是间隔为2的二肽统计分布图；

图9是不同区域的氨基酸理化属性显著性分布图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚，下面结合附图及实施例，对本发明作进一步的详细说明，但本发明的实施方式并不局限于此。

本发明的DNA结合蛋白序列信息特征提取与分类方法实施例：

本发明的整体方案如图1所示。

DNA结合蛋白常用的结构数据库有：蛋白质数据库(Protein Data Bank，PDB)NDB、ProNuc，及结构分类数据库SCOP和CATH等；常用的序列数据库有：SWISS-PROT，PIR，OWL，NRL3D，TrEMBL等。其中，蛋白质数据库建立于1971年，由Brookhaven国家实验室的WalterHamilton发起建立，现由结构生物学合作研究协会(RCSB)管理，并成为了国际性组织，该数据库是蛋白质、核酸等生物大分子的结构数据库，可以网络免费访问，是结构生物学研究中的重要资源。

在本实施例中，从PDB数据库中提取蛋白序列。PDB数据库收集到的DNA 结合蛋白共有3390个，其中标注为DSBs共1039个，包括DSBs与dsDNA复合物蛋白有890个，DSBs单体蛋白有149个；标注为SSBs共158个，其中SSBs 与ssDNA蛋白复合物有70个，SSBs单体蛋白有88个；其中未标注的DNA结合蛋白共2193个。

首先，在实验中消除序列相似的冗余同源蛋白，利用在线工具PISCES对数据进行消除冗余的预处理，主要的筛选条件为序列相似度低于30％的非同源DNA 结合蛋白。为获得精度较高的数据，选择的数据要求分辨率高于的X-射线晶体衍射和NMR结构数据，若分辨率低于则原子坐标位置误差较大，同时要求蛋白序列长度大于40个氨基酸残基，最后获得了一组非冗余的且具有代表性的分类数据集，并从蛋白质结构数据集中抽取的序列数据，共获得非冗余的DSBs 数据334个，SSBs数据65个。

接着，为开发一个高性能的DNA蛋白分类模型，需要对序列数据设计一套有效数学形式化表示形式，并且真实有效的反映DNA结合蛋白特征。为此评估了三种特征：组成信息(Overall Amino Acid Composition，OAAC)、理化属性 (Physicochemical properties)、进化信息(PSSM profiles)。这些特征向量的表达分为三种层次：全局序列描述、非局部描述、局部描述。全序列氨基酸组成特征表示全局标准，二肽氨基酸残基组成特征表示非局部描述，分离的氨基酸组成表示局部描述。具体选择全序列氨基酸组成特征、二肽组成特征、氨基酸理化属性特征和序列保守性特征。具体的：

1)对于全序列氨基酸组成特征，在DNA结合蛋白序列中，对每种蛋白分别计算氨基酸的频率分布P_i：

根据一些研究结果表明并对P_i值的平方根具有良好的分类性能，因此用每个蛋白来作为蛋白序列的组成特征：

2)二肽组成特征是指由两个相邻近的氨基酸组成的二联体结构，共有400 种分布模式。在本实施例中计算了三种二肽结构的统计方法，每种二肽分别间隔距离S为0、1、2的三种跳跃方式，如下式和图2所示：

然后计算三种方式的二肽结构的频率分布，生成一个400维特征向量，连接三种特征向量，最终获得1200维的二肽特征向量。

3)氨基酸的理化属性特征被广泛用在DNA结合蛋白的序列研究中，其具有定义明晰和较好的可解释性特点。在研究中，从AAindex数据库筛选了28种典型的数值属性来编码氨基酸，一个蛋白氨基酸序列可以表达为28×L维数值表示，其中每行表示L残基的属性值，选择的理化属性如下表1所示。

表1

4)实验选择位置特异性打分矩阵PSSM(Position-Specificsoring Matrix)描述序列的保守性进化信息，主要目标是探寻SSBs和DSBs各自数据集合的序列相似性特征，获得蛋白在进化序列上的同源性，从而构建两类蛋白的保守序列特征，其实际意义在于从两类蛋白序列中寻找到特定保守位置的保守性特征，以达到对两类蛋白分类的目标。实验中对每个蛋白分别用PSI-BLAST搜索NR (Non-Redundant)数据库计算PSSM矩阵，其中迭代次数设为3，多序列比对的 E-value域值设为0.001。最后每个蛋白获得一个20×L维PSSM打分矩阵(L为蛋白长度)。

然后，在蛋白质中，由于序列长度的不统一，需要对候选的一些特征描述统一序列长度。进化信息和氨基酸理化性质特征需要从矩阵形式转换为向量表示，这个过程采用分割氨基酸转换(Split Amino Acid，SAA)方法来统一特征矩阵，提取局部特征信息。

分隔氨基酸方法按照序列中的位置分布计算属性均值的方法，每条序列被分为三部分：N-terminal，middle和C-terminal。按照序列长度和位置将N-terminal 分为四个部分，然后用六个部分特征的平均值作为局部的特征数值。

定义N-terminal、middle、C-terminal部分的长度由序列长度L确定，当 L≥4d_N+20+d_C时，N-terminal的每个部分长度设d_N＝25，C-terminal的长度设d_C＝10，这时middle≥20，如图4-1所示；当4d_N+d_C<L<4d_N+20+d_C时，N-terminal的每个部分长度设d_N＝20，C-terminal的长度设d_C＝10，则middle部分的长度≥20，如图 4-2所示；当L≤4d_N+d_C时，C-terminal的长度设d_C＝10，N-terminal和middle分别取为(L-d_C)/2，如图4-3所示。图4-1、图4-2和图4-3序列中N-terminal的四个部分表示为：N1、N2、N3和N4，序列中middle部分表示M，序列中C-terminal 部分表示C。

另外，除了SAA转换法，通常使用的方法还有全局组成转换分布(OverallComposition Transition Distribution，OCTD)和自动协方差(Auto Cross-Covariance，ACC)转换。

OCTD方法是用来描述蛋白质全局序列预测蛋白折叠类型。其原理首先将序列按照氨基酸的理化属性进行描述，可获得转换后的序列，然后计算转换序列的氨基酸组成、转换和分布。组成(composition)是指转换后的等价序列的各类编码的频率。转换(transition)是指氨基酸序列中出现两类的转换，并计算该类的转换频率。分布(distribution)计算序列中出现的类别的含量为0％、25％、50％、 75％和100％时，在序列中的分布频率情况。

如下面举例说明三种描述特征的计算方法，如图3用(A,B)表示氨基酸序列，序列长度n＝26其中A类数量n1＝10，B类数量n2＝16，计算如下。

1)组成Composition：

CA＝n1*100/(n1+n2)＝38.5％，CB＝n2*100/(n1+n2)＝61.5％

2)转换Transition：在序列中发现AB或BA转化的次数为10次。

T＝(10/26)*100＝38.5％

3)分布Distribution：计算延序列包含A类的含量为0％、25％、50％、75％和100％时，序列长度占全部长度的百分比。从序列由左向右出现第一个A的位置(0％的位置)正好在第1个，则Da1＝0；在A含量25％的位置为10*25％≈2，则第2次出现A在第4个位置，则Da2＝(4/26)*100＝15.4％；在A含量50％的位置为10*50％＝5，则第5次出现A在第12个位置，则Da3＝(12/26)*100＝41％；在 A含量75％的位置为10*75％≈7，则第7次出现A在第17个位置，则 Da2＝(17/26)*100＝65.4％；在A含量100％的位置为10*100％＝10，则第10次出现 A在第26个位置，则Da2＝(26/26)*100＝100％。同理可计算出B的分布。

ACC方法是一种非局部序列向量统计工具，包含两类变量AC参数(同类描述符)和CC参数(不同的描述符)。常用具有较低维度的AC参数，AC参数描述了两个相隔lg距离的残基间的平均交互值。AC参数的计算如下式：

式中，i表示某种属性，j表示序列中的位置，lg表示两个相隔的残基间距离，L表示蛋白序列的长度，S_i,j表示在位置j的i特征的值，表示i特征在整个序列中的平均值：

其中，AC参数的数量为P*LG，P表示特征的数量，LG表示lg的最大值 (lg＝1,2,…,LG)。

下面具体对实验结果进行分析。

在提取序列组成特征之前，首先对序列氨基酸的组成进行分析比较，考察两类蛋白在序列统计中是否存在差异。统计结果如图5所示，DSBs和SSBs蛋白中氨基酸的分布频率存在微弱的差异，从图中可以看出DSBs的精氨酸R(+)、赖氨酸K(+)、谷氨酸E(-)、异亮氨酸I(疏)、亮氨酸L(疏)的比例明显高于SSBs，而 SSBs中的谷氨酰胺Q(极)、丝氨酸S(极)、甘氨酸G(疏)、苯丙氨酸F(疏)、脯氨酸P(疏)、缬氨酸(疏)分布频率高于DSBs。从总体的氨基酸分布可以看出DSBs 和SSBs的分布具有一定的差异性，其序列全局组成特征能够作为分类特征之一。因此分别对每个蛋白的序列进行了氨基酸统计，构造了一个20×N的矩阵(N表示蛋白数量)。

相邻近的二肽结构对蛋白质的二级结构形成具有重要影响，相邻残基间由肽键形成的二面角(ψ_i,φ_i+1)旋转结构连接，相邻的二面角的形成主要受到共价键和氢键的作用形成，同时二面角也决定了多肽键在空间的布局，也是形成蛋白构象的基础。因此对序列的二肽特征进行了统计，分别统计了间隔为0、1和2距离的相邻残基，其结果表明二肽结构中存在部分二肽呈现较大差异。其中在间隔为0 的图6中，DSBs和SSBs分布频率差P_ij>0.003(两类蛋白中二肽结构出现频率的差值)的有9种二肽蛋白结构分别为：RR、EG、GG、GS、LE、LL、KR、KK 和SG；间隔为1的分布频率如图7所示，分布频率差P_ij>0.003共有5种：EL、 GG、LE、LK和KL；其中在间隔为2的图8中，分布频率差P_ij>0.003的也有10 种二肽蛋白结构：EK、GG、IA、LI、LL、LK、KE、KK和SQ。

每种氨基酸的侧链在电荷、体积、形状和疏水性和酸碱性等理化属性存在显著的差别。因此正是由于不同氨基酸的侧链的差异，使不同氨基酸序列构造出不同的蛋白质结构，以实现特定的功能需求。在图9中显示出了28种氨基酸属性在六个区域中的显著性，其计算如下式：

其中，X表示两类蛋白的属性差异的显著性，和分别表示SSBs和DSBs 中全部蛋白的属性均值。

表2

从图9可知在不同的区域中属性差异在20％以上的属性，从中可以发现六个区域中均包含KLEP840101(Side chain interaction parameter)属性，这个属性是通过计算average hydrophobicity,net charge,sequence length和periodic variation inhydrophobic residues along the chain的均值获得；除D4区域外，四个区域中均包含NADH010106(二肽氨基酸亲水性，Hydropathy scale based on self-information valuesin the two-state model(36％accessibility))。使用上述特征采用SVM选取不同的特征分类，其分类结果如表3所示。其中除AAindex外其余的特征分类准确率均达到了70％以上，其中在二肽结构中间隔为1的Dipeptide＝1和Dipeptide＝2 特征分类准确率接近了80％，并且其MCC均达到了0.3以上；氨基酸组成特征 (OAAC)的MCC和AUC达到了0.36和0.80。

表3

OAAC：氨基酸全序列组成特征；Dipeptide＝0：间隔为0的二肽； Dipeptide＝1：间隔为1的二肽；Dipeptide＝2：间隔为2的二肽；AAindex：氨基酸理化属性特征；PSSM：特异性打分矩阵特征。

为获得好的分类模型，除了上述提到的支持向量机，许多机器学习算法被用来构建序列数据的分类模型，例如：神经网络(Neural Network)、随机森林 (Random Forest)、朴素贝叶斯(Bayes Classifiers)、最近邻算法(Nearest Neighbor)和集成分类器(Ensemble Classifiers)等。

整体来看，本发明将DNA结合蛋白序列数据作为研究对象，实现了对DNA 结合蛋白序列特征的分析和功能分类预测。实验中提取了全序列氨基酸组成特征、序列的二肽组成特征、氨基酸理化属性和位置特异性打分矩阵特征共四大类特征。同时为解决统一蛋白序列长度不同造成的序列特征矩阵维度不同的问题，应用分隔氨基酸转换法统一特征矩阵，提取局部特征信息。最后通过使用 SVM分类算法及10交叉检验等方法，对每类特征进行了特征分类性能评价。其中运用0，1和2间隔方法提取的二肽组成特征达到较好的分类性能，二肽组成特征在一定程序上反映了蛋白质二级结构差异，DSBs和SSBs二级结构组成存在显著的差异，同时其它两种特征：序列保守性PSSM矩阵和全序列组成OAAC特征也达到了较好的区分能力。但理化属性的分类性能不显著，这很可能由于 ssDNA和dsDNA具有十分相似的理化性质的缘故。本方法目标是研究DNA结合蛋白序列数据的分类预测方法，本方法能满足对高通量的蛋白测序功能注释的需求，能够实现自动化的DNA结合蛋白序列的功能注释，同时提出的这些特征也能帮助生物学家对DNA结合蛋白序列进行实验分析研究。

本发明的DNA结合蛋白序列信息特征提取与分类装置实施例：

该装置包括如下模块：用于选择DNA结合蛋白数据库中未标注的DNA结合蛋白序列，从中提取出数据集的模块；用于提取数据集中的数据序列对应的不同类型的蛋白特征的模块；用于将不同类型的蛋白特征的序列特征矩阵进行统一，提取局部特征信息的模块；用于根据每类特征，将数据序列进行分类，对分类结果进行特征分类性能评价的模块。

上述装置实际上是基于本发明对应方法流程的一种计算机解决方案，即一种软件构架，上述各种模块即为与方法流程相对应的各处理进程或程序。由于对上述方法的介绍已经足够清楚完整，故不再对该装置进行详细描述。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种DNA结合蛋白序列信息特征提取与分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的DNA结合蛋白序列信息特征提取与分类方法，其特征在于，所述蛋白质类数据库包括PDB、NDB、ProNuc、SCOP、CATH、SWISS-PROT、PIR、OWL、NRL3D、TrEMBL中的至少一种。

3.根据权利要求1所述的DNA结合蛋白序列信息特征提取与分类方法，其特征在于，还包括将未标注的DNA结合蛋白进行消除冗余预处理的步骤：筛选序列相似度大于30％的非同源DNA结合蛋白去除，并且，数据为分辨率大于的X-射线晶体衍射和NMR结构数据，同时蛋白序列长度大于40个氨基酸残基。

4.根据权利要求1所述的DNA结合蛋白序列信息特征提取与分类方法，其特征在于，所述蛋白序列特征包括全序列氨基酸组成特征、二肽组成特征、氨基酸理化属性特征和序列保守性特征。

5.根据权利要求1所述的DNA结合蛋白序列信息特征提取与分类方法，其特征在于，采用分隔氨基酸转换法将不同类型的蛋白序列特征的序列特征矩阵进行统一维度。

6.根据权利要求1所述的DNA结合蛋白序列信息特征提取与分类方法，其特征在于，采用支持向量机分类方法和10交叉检验方法来对分类结果进行特征分类性能评价。

7.一种DNA结合蛋白序列信息特征提取与分类装置，其特征在于，包括如下模块：

用于将不同类型的蛋白特征的序列特征矩阵进行统一维度，提取局部特征信息的模块；

用于根据每类特征，将蛋白质数据序列进行分类，对分类结果进行特征分类性能评价的模块。

8.根据权利要求7所述的DNA结合蛋白序列信息特征提取与分类装置，其特征在于，所述蛋白质类数据库包括PDB、NDB、ProNuc、SCOP、CATH、SWISS-PROT、PIR、OWL、NRL3D、TrEMBL中的至少一种。

9.根据权利要求7所述的DNA结合蛋白序列信息特征提取与分类装置，其特征在于，还包括用于将未标注的DNA结合蛋白进行冗余预处理的模块：筛选序列相似度大于30％的非同源DNA结合蛋白去除，并且，要求数据为分辨率大于的X-射线晶体衍射和NMR结构数据，并且要求蛋白序列长度大于40个氨基酸残基。

10.根据权利要求7所述的DNA结合蛋白序列信息特征提取与分类装置，其特征在于，所述蛋白序列特征包括全序列氨基酸组成特征、二肽组成特征、氨基酸理化属性特征和序列保守性特征。