CN114627964B

CN114627964B - 一种基于多核学习预测增强子及其强度分类方法及分类设备

Info

Publication number: CN114627964B
Application number: CN202111069507.9A
Authority: CN
Inventors: 汪国华; 李鸿飞; 邹权
Original assignee: Northeast Forestry University; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Northeast Forestry University; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-03-24
Anticipated expiration: 2041-09-13
Also published as: CN114627964A

Abstract

一种基于多核学习预测增强子及其强度分类方法及分类设备，本发明涉及基于多核学习预测增强子及其强度分类方法及分类设备。本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂，以及通过生物实验注释DNA片段功能，效率低的问题。过程为：获取带标签的DNA测序序列；使用三种特征描述符进行编码转换为向量；分别对得到的向量进行特征筛选获得各自的F值，分别进行降维排序，选出各自对应的最佳的特征子集；计算每个高斯函数对应的最佳权重；构建增强子预测模型；构建强弱增强子预测模型；通过构建好的增强子预测模型和强弱增强子预测模型对待测DNA测序序列进行判断。本发明用于生物信息技术领域。

Description

一种基于多核学习预测增强子及其强度分类方法及分类设备

技术领域

本申请属于生物信息技术领域，具体涉及基于多核学习预测增强子及其强度分类方法及分类设备。

背景技术

增强子是DNA序列中较短的一部分，其功能是结合特定的功能蛋白共同调控基因的表达。生物体中拥有相同遗传物质信息的细胞却在不同的组织中有着形态各异的形状并且行使着不同的生物功能，这是因为增强子在细胞分裂发育的过程中结合不同的调控蛋白使得细胞中的基因发生差异性表达。增强子与目标基因的相对位置不是固定的，而且无视染色体的方向。由于增强子的这种多变性，准确定位增强子成为了生物学中的一项挑战。在生化实验中，通过染色质免疫沉淀、高通量测序仪等方式来鉴定DNA序列中的增强子，但是这些方法需要花费大量的人力物力去制备实验所需的试剂。

随着三代测序技术的成熟，大量的DNA序列被测序，通过生物实验注释DNA片段功能已经很难匹配测序的速度。

综上，导致现有方法需要花费大量的人力物力去制备实验所需的试剂，以及通过生物实验注释DNA片段功能，效率低。

发明内容

本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂，以及通过生物实验注释DNA片段功能，效率低的问题，而提出一种基于多核学习预测增强子及其强度分类方法及分类设备。

一种基于多核学习预测增强子及其强度分类方法具体过程为：

步骤一、获取带标签的DNA测序序列，带标签的DNA测序序列为非增强子DNA测序序列、增强子DNA测序序列、强增强子DNA测序序列和弱增强子DNA测序序列；

将带标签的DNA测序序列分为训练集和验证集；

步骤二、使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；

步骤三、使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；

步骤四、使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；

步骤五、利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值，对获得的各自的F值分别进行降维排序，选出采用三种不同特征描述符各自对应的最佳的特征子集；

步骤六、将选出的采用三种不同特征描述符各自对应的最佳的特征子集分别通过高斯核函数映射到高维空间，得到三个高斯函数K₁，K₂，K₃，计算每个高斯函数对应的最佳权重；

步骤七、将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数，并使用支持向量机模型构建增强子预测模型；

步骤八、将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数，并使用支持向量机模型构建强弱增强子预测模型；

步骤九、通过步骤七构建好的增强子预测模型判断待测DNA测序序列是否为增强子，如果不是增强子结束，如果是增强子则将增强子输入步骤八构建好的强弱增强子预测模型，识别待测DNA测序序列为强增强子DNA测序序列还是弱增强子DNA测序序列。

一种基于多核学习预测增强子及其强度分类设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于多核学习预测增强子及其强度分类方法。

本发明的有益效果为：

基于计算模型的方法需要被开发去预测DNA序列的功能。计算模型通过收集已被实验证明的非增强子、强增强子和弱增强子序列，通过对数据进行清洗并将其转化成计算机可识别的数字特征，最终通过机器学习算法实现预测功能。这种计算模型无需大量的实验，而且可以大批量快速的识别DNA序列中的增强子，进而区分强弱启动子。

本发明的目的是开发一个准确，快速预测增强子及其强弱的分类方法，利用多种特征描述符表达样本序列，并通过比对算法将多种描述符信息有效的融合为一个函数，最终通过支持向量机算法实现准确分类。

本发明通过提取多种特征描述符，利用方差分析算法有效的降低了描述符中的冗余信息，通过均值、凸优化或二次规划等算法将三种高斯核函数通过各自权重整和为一个核函数。最后通过支持向量机分类算法可以快速准确的识别增强子及判断其强弱，有效的节省了生物实验所需的成本，并为后期增强子调控相关基因表达的相关研究有着重要意义，解决了现有方法需要花费大量的人力物力去制备实验所需的试剂，以及通过生物实验注释DNA片段功能，效率低的问题。

附图说明

图1为本发明预测增强子及其强弱总体流程图；

图2a为实施例例提供特征选择前后非增强子或增强子各特征描述占比图；

图2b为实施例例提供特征选择前后强增强子或弱增强子各特征描述占比图；

图3a为实施例提供了非增强子或增强子五折交叉评估参数图；

图3b为实施例提供了强增强子或弱增强子五折交叉评估参数图。

具体实施方式

具体实施方式一：本实施方式一种基于多核学习预测增强子及其强度分类方法具体过程为：

步骤一、获取公开的带标签的DNA测序序列，带标签的DNA测序序列为非增强子DNA测序序列、增强子DNA测序序列、强增强子DNA测序序列和弱增强子DNA测序序列；

将带标签的DNA测序序列分为训练集和验证集；

公开的带标签的DNA测序序列为通过CD-HIT方法进行去冗余处理后的，DNA测序序列一致性保持在80％；

在预测增强子模型中，非增强子为负样本，强弱增强子为正样本；

在预测增强子强弱模型中，弱增强子为负样本，强增强子为正样本；

模型使用到的DNA序列通过CD-HIT将序列一致性保持在80％；

非增强子、强增强子、弱增强子在训练集中的样本数为1482条、742条和742条，在验证集中的分布情况为非增强子200条，强弱增强子各100条。

步骤六、将选出的采用三种不同特征描述符各自对应的最佳的特征子集分别通过高斯核函数映射到高维空间(每种特征描述符对应的最佳的特征子集映射到一个高维空间，三种特征描述符对应的最佳的特征子集映射到三个高维空间)，得到三个高斯函数K₁，K₂，K₃，计算每个高斯函数对应的最佳权重；

步骤七、将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重，一共3个高斯函数乘以自身对应的权重，再相加)，并使用支持向量机模型构建增强子预测模型；

步骤八、将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重，一共3个高斯函数乘以自身对应的权重，再相加)，并使用支持向量机模型构建强弱增强子预测模型；

步骤九、通过步骤七构建好的增强子预测模型判断待测DNA测序序列(未注释的样本)是否为增强子，如果不是增强子结束，如果是增强子则将增强子输入步骤八构建好的强弱增强子预测模型，识别待测DNA测序序列为强增强子DNA测序序列还是弱增强子DNA测序序列。

增强子测试集：

>Chr11_6627824_6628024

ATGCTGCCAGAAGGAAAAGGGGTGGAATTAATGAAACTGGAAGGTTGTGGTGCTGGTTTGAGGAGTAAAGTATGGGGGCCAAAGTTGGCTATATGCTGGATATGAAGAGGGGGTTAATTCCTTGCAGGTCTTCTTGAGATAGAAGTCCAGGCCCTGAGGTGGCAGGCAGCCTGATAGTGAACAGAACCCTTGTGCCCATA

>Chr11_9587224_9587424

GGCATTTTTTAACCTGTGTTTCATTTTCATCTGTGAAATGTGAATAAAAATAACTCTCTTACAGAGTTCCCGTAAAGATTAAATAAGTATGTAAAGCATCTGGGTCAGTGCCTATCATATAGTTGGCACCAAAATATTCTCCCCTCTCCCAGCTCCTGCAAAGGCACCCCAGCTCTTTGCAGCACTTAGGGCCTTTCTCA

增强子训练集：

>chrX_48897056_48897256

CACAATGTAGAAGCAGAGACACAGGAACCAGGCTTGGTGATGGCTCTCAGGGGTCACAGTCTGATGGGGGACACACTGGAGGTCAGTCTGGTGGGGGAGTTTTAGCCTTTGGTCCTTATGGTGAAGCCTAGATTTGAGCCTGTTCACATATTAAGTGGAGATGCTATTGTTCAGCTCTGCAAGGGGGGGTTTGTCCTATT

>chr12_6444339_6444539

GCCCTCACATTCCCTGGCCCATCCCCTCCACCTCAAAATTTACAAACACCCGGGGTTGGCAAGGACAAATGGGGAGGAGAGTAAAAGGGAAAGGTTGGGGATCCTGCATGGGTAGACGGGGGACAAAGTTGAGACGGGGGCAGGAGTGGGCAAAGGTGTGCAGGACATAGGCAAATAGAGCTGGCCAAGGCTAGCGACCC

非增强子测试集：

>hg19_ct_UserTrack_3545_158range＝chr12:78319870-78393869

AATTTTCTCATTTTCTCATAAAGTTTAACAGTTGTTTATTTGAGTCAGAATTCAAATAAGCTTCTGTACATTACAATTGGTTTTAAGTTCTTATAAGACTCTATAGGTTTTCCCTTCATAATTTTTCTTGCAATTTATTTGTTAAAGAAATTGGGTCATTTGTCCTATTGAGTGCTCCACTGTCTGTTTTTATTATTGTA

>HG19_CT_USERTRACK_3545_57RANGE＝CHR7:10106276-10452075

ACTGGTTATCTTTTAGGACTAGTTAATATAACCCATTCTCTAACCAACAGATAACTCAACCAGGTTCAGCACCTGATGGGTTACTCTTCAAGGACTCCCTTCTAAATCTCACTTTGCTGTGTCCACAATTCTAAATTGCTATACAATAGCATTTTCTCACTCTCATTCAGTATTTTACACAGAAAGATATGCCTTGAACC

非增强子训练集：

>chrX_2970600_2970800

cagtcacatctgtaatcacaatacgttgggaggctgaggcaggaggatcacttgagtccaggagttgaggctgcagtgagctgtgatcacaccactgcactctagtgtgggtgacagtgagaccctgtctcaaaaaaaaaaaaaaaaagaTACATTCAAAGAAGTCAAAATAAAACAGTATAAAACCTATCTCCCTGATT

>chrX_6179400_6179600

actttgaagaagtcagtcatcaagatgagagacccaactgtcaagctgctaaggatgacctaggatgggggactggtcctcgtctggcagcaagaaatggccagaactctcagtgctacagccccaagtaacttaattctgcaacaacctggctaagcttagaaccagattcttccttttttgaatctccagataagaac

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；具体过程为：

步骤二一、收集若干公开的不参与增强子预测模型和强弱增强子预测模型训练的DNA测序序列(可带标签也可不带标签)，通过k-mer算法将DNA测序序列分割成k-mer词向量，例如当k＝3时，序列“AGCTACCT”将被转换为{AGC，GCT，CTA，TAC，ACC，CCT}，然后将分割的每个k-mer词向量输入python的“gensim”模型进行训练，直至收敛，获得每个k-mer词向量对应的训练好的python的“gensim”模型；

将每个k-mer词向量输入对应的训练好的python的“gensim”模型，将每个k-mer词向量转换为50维度的词向量特征；

所述k为k-mer的参数，2≤k≤10；

比如，2≤k≤10，将分割的2-mer词向量输入python的“gensim”模型进行训练，直至收敛获得2-mer词向量对应的训练好的python的“gensim”模型；

将分割的3-mer词向量输入python的“gensim”模型进行训练，直至收敛获得3-mer词向量对应的训练好的python的“gensim”模型；

将分割的4-mer词向量输入python的“gensim”模型进行训练，直至收敛获得4-mer词向量对应的训练好的python的“gensim”模型；

将分割的5-mer词向量输入python的“gensim”模型进行训练，直至收敛获得5-mer词向量对应的训练好的python的“gensim”模型；

将分割的6-mer词向量输入python的“gensim”模型进行训练，直至收敛获得6-mer词向量对应的训练好的python的“gensim”模型；

将分割的7-mer词向量输入python的“gensim”模型进行训练，直至收敛获得7-mer词向量对应的训练好的python的“gensim”模型；

将分割的8-mer词向量输入python的“gensim”模型进行训练，直至收敛获得8-mer词向量对应的训练好的python的“gensim”模型；

将分割的9-mer词向量输入python的“gensim”模型进行训练，直至收敛获得9-mer词向量对应的训练好的python的“gensim”模型；

将分割的10-mer词向量输入python的“gensim”模型进行训练，直至收敛获得10-mer词向量对应的训练好的python的“gensim”模型；

步骤二二、通过k-mer算法将步骤一获取的带标签的DNA测序序列分割成k-mer词向量(步骤二一分割成几个，这里就分割成几个)，将每个k-mer词向量输入对应的步骤二一训练好的python的“gensim”模型，将每个k-mer词向量转换成50维度的词向量形式；

对每个转换成50维度的词向量求均值；

步骤二一是训练出词向量，步骤二二是把步骤二二的数据用步骤二一的词向量表示；

例如3-mer词向量最终通过50维的数字特征编码；

3-mer为例：一个DNA序列可以分成多个3-mer，每个3-mer由50维度的词向量表示，最后将一条序列的中的所有3-mer的50维度向量相加得到50维，再除以3-mer的个数，得到50维的均值。其他k-mer类似。

步骤二三、将求均值后的词向量拼接成一个向量，最终步骤一获取的带标签的DNA测序序列被转换为(50×(k-mer个数))维的k-mer词向量特征。

例如3，4，5-mer拼接后的词向量为

D_3-mer＝[a₁,a₂,a₃,...,a₅₀]

D_4-mer＝[b₁,b₂,b₃,...,b₅₀]

D_5-mer＝[c₁,c₂,c₂,...,c₅₀]

D_3,4,5_-mer＝[a₁,a₂,a₃,...,a₅₀,b₁,b₂,b₃,...,b₅₀,c₁,c₂,c₂,...,c₅₀]

3-mer 50维的部分词向量：

ttt 0.21287881 1.6274717 0.75598913 1.0471324 0.5075208 0.26326321.0574397 -1.221269 -1.5562087 0.60077477 -1.0644029 0.6214464 0.0452140120.40453082 1.8523268 0.8405658 1.3642455 -0.49161983 -0.34360874 0.8223327 -0.26574597 -0.22942019 -2.1860745 -1.220031 0.4570144 0.21810026 0.24883498 -0.016625876 0.3256994 -0.695627 0.02514691 -0.32979012 -0.4269553 -1.2531667-0.009119195 0.9719196 0.6634598 0.5469655 -0.22711684 -1.0231297 -1.9928505-0.9326441 1.9028813 0.083628885 -0.8276239 -0.2874386 -0.205708830.019432807 -1.4446951 0.88406444

aaa -1.1976455 -0.25462207 -1.0552375 0.83634645 -0.108677011.5170169 -1.2639139 1.4886814 -0.1815881 -0.72351485 -0.23465684 0.44653234-1.6736203 0.023650182 0.22428393 -0.73183525 -0.3149114 1.5744864 0.13791892-0.13106501 0.8076029 -0.80638576 2.229148 0.38623068 -0.5324063 -0.110074220.45309737 -0.40490505 0.43696198 0.7905327 -0.7892759 -0.5500683 -0.120705760.10030488 -1.0652531 -1.5176727 -1.3996894 -0.72723305 -0.63041085 0.4240254-0.11514516 0.07434096 -0.7969917 -0.44255507 -0.9835906 -0.009022022 2.34755-0.28006005 0.29978716 0.617988

att 1.1862115 1.1866046 1.3925741 2.6559455 0.87643504 0.218253631.1970389 -1.3430582 -1.7101101 -0.5715452 -1.0759652 -1.0546306 -0.40625212-0.39329398 -1.2499739 0.88371456 -0.83765376 -1.0153837 -0.584990260.25324798 -0.96776396 1.3332026 0.4142629 -1.1245903 1.1940655 -0.32465622 -0.31203595 0.025283622 -0.60356367 0.13486147 -0.19924638 -0.25527424 -2.1077783 0.4007791 -2.096211 -0.24521026 -0.9623948 0.58863276 -0.14746606 -0.92521226 -1.0527309 0.09426114 0.16108932 0.033143662 0.8263472 -0.33957680.585088 0.209261 -3.0454135 1.4439343

aat -0.9765423 -0.13090418 0.11354126 0.18483552 0.0310981090.46837994 -2.0508068 -1.09901 1.5272001 -0.4287066 -0.36944136 1.2367282 -2.18736 -1.0077264 1.8386635 -0.9735787 -1.4377267 0.98549485 -0.23889460.92489135 0.8296508 0.60938835 0.6925306 -1.3001444 -0.1852028 -0.71565080.8592731 0.021727886 1.8731513 -0.33825457 -0.9045428 -1.4981855 -0.467685580.31557393 -0.79412735 -1.5204588 1.8023387 -1.3547901 -1.4144536 -0.08006946-0.21728642 1.4675844 -1.6511813 -0.4609445 0.30117124 -0.3100346 -0.88313854-0.36826026 -0.5064434 -0.04301391

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤三中使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；具体过程为：

融入了核苷酸的物理化学性质和k-mer的频率信息，可有效的丰富特征信息，其定义如下：

/>

其中，D表示DNA测序序列的特征形式，d_i为特征中的元素，k为k-mer的参数，k＝4；λ为核苷酸的物理化学性质的种类(例如，Slide、Rise、Tilt、Shift、Stability、Entropy、Free energy、Tip)，λ＝8；f_u为k-mer频率信息，w为权重，θ_j为核苷酸的某种物理化学性质的分值(核苷酸的物理化学性质的种类有8中，θ_j是其中每一种的分值)，u为k-mer的总个数；

最终步骤一获取的带标签的DNA测序序列被转换为4^k+λ(4⁴+8＝264)维的数字特征。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤四中使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；具体过程为：

chemical特征描述符包含了DNA特定的物理化学性质(环状结构、功能分类和氢键)和DNA序列中脱氧核糖核酸的位置信息；

其中脱氧核糖核酸A、G、C、T根据A、G、C、T的物理化学性质分别被转化为[1，1，0]，[1，0，0]，[0，1，0]，[0，0，1]；

脱氧核糖核酸A、G、C、T位置信息通过以下公式得到：

其中，αφ为第φ个位置处的核苷酸的位置信息，sφ为第φ个位置处的核苷酸，l为步骤一获取的带标签的DNA测序序列的长度，f(s_φ)为第φ个位置处的核苷酸类型，q为A、G、C或者T。

例如序列“AGCTACCT”将被转换为[1，1，0，1]，[1，0，0，0.5]，[0，1，0，0.33]，[0，0，1，0.25]，[1，1，0，0.4]，[0，1，0，0.33]，[0，1，0，0.429]，[0，0，1，0.25]。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤五中利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值，对获得的各自的F值分别进行降维排序，选出采用三种不同特征描述符各自对应的最佳的特征子集；具体过程为：

方差分析算法用于过滤步骤二、步骤三、步骤四得到的向量中的冗余信息，方差分析算法通过计算特征在组内和组间的比值F，通过F值降维排序选出最佳的特征子集；

方差分析的定义如下：

其中，F(λ)为F值，

为组间(比如强增强子一组，弱增强子一组，增强子一组，非增强子一组之间)差异，/>

为组内(比如强增强子组内的强增强子和强增强子)差异，SS_B为组间方差，df_B为组间自由度，SS_W为组内方差，df_W为组内由度，m_i′为各组中序列(步骤二、步骤三或步骤四得到的向量中的值)的数量(例如，增强子和非增强子各100条，则m₁＝m₂＝100)，K为序列(步骤二、步骤三或步骤四得到的向量中的值)类别的个数(K＝2，增强子和非增强子或强增强子弱增强子)，f(i′)为步骤二、步骤三或步骤四得到的向量中的特征值；

对获得的各自的F值进行降维排序，设置阈值(10％)选出采用三种不同特征描述符各自对应的三种最佳的特征子集(设置阈值选出每种特征描述符对应一种最佳的特征子集)。

在预测增强子模型中，PseKNC通过方差分析维度从264维降低了226维，chemical从800维减少到了106维，K-mer从250维降低到了191维；在预测增强子强弱的模型中，PseKNC从264维降到了32维，K-mer从250维降到了165维，chemical从800维降低到了66维。降维前后的不同描述符所占比例绘制成图2a、2b。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤六中计算每个高斯函数对应的最佳权重的具体过程为：

利用均值、凸优化或二次规划等算法计算每个高斯函数对应的最佳权重。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤七中将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重，一共3个高斯函数乘以自身对应的权重，再相加)，并使用支持向量机模型构建增强子预测模型；具体过程为：

将步骤一获取的训练集中带标签的非增强子DNA测序序列和增强子DNA测序序列输入支持向量机进行训练，合并后的核函数作为支持向量机核函数，通过Gridsearch调整支持向量机参数，直至收敛，获得增强子预测模型；

本发明在实施过程中，将合共后的核函数通过支持向量机模型构建增强子模型，通过Gridsearch调整模型参数，使模型性能达到最优。从图3a、3b可以看出在五折交叉过程中，模型每一次运行得到的评估参数差距不大，说明了模型性能稳定。在独立集测试过程中发现，本发明提出的增强子预测模型在总体性能上超越了其他模型，特异性(Sp)，准确度(ACC)和马修斯相关系数(MCC)分别为0.825，0.77，0.548。

将步骤一获取的验证集中带标签的非增强子DNA测序序列和增强子DNA测序序列输入增强子预测模型，若识别准确率达到要求则得到构建好的增强子预测模型，若识别准确率未达到要求则重新执行步骤一至步骤七，直至识别准确率达到要求，得到构建好的增强子预测模型。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述步骤八中将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重，一共3个高斯函数乘以自身对应的权重，再相加)，并使用支持向量机模型构建强弱增强子预测模型；具体过程为：

将步骤一获取的训练集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入支持向量机进行训练，合并后的核函数作为支持向量机核函数，通过Gridsearch调整支持向量机参数，直至收敛，获得强弱增强子预测模型；

将步骤一获取的将验证集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入强弱增强子预测模型，若识别准确率达到要求则得到构建好的强弱增强子预测模型，若识别准确率未达到要求则重新执行步骤一至步骤八，直至识别准确率达到要求，得到构建好的强弱增强子预测模型。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式一种基于多核学习预测增强子及其强度分类设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如具体实施方式一至具体实施方式八之一的一种基于多核学习预测增强子及其强度分类方法。

采用以下实施例验证本发明的有益效果：

本发明在实施过程中，同样与现有模型做了对比，并分析了五折交叉验证的的结果，从图3a、3b可以发现，在预测强弱增强子模型中，五折交叉要比增强子性能更稳定；在独立集测试中，评估参数Sp，ACC，MCC都超越了现有模型的结果。

最终通过四个评价指标评估模型的性能，具体定义如下：

/>

实施例一：

首先收集若干与增强子预测无关的DNA序列并训练成k-mer词向量。然后将非增强子、强增强子和弱增强子的DNA序列转化为3种特征描述符k-mer词向量、PseKNC和chemical；其次通过方差分析对增强子和非增强子的三种特征描述符进行降维，同样对强增强子和弱增强子进行降维处理，降维前后不同特征描述符的占比情况如图2a、2b所示；进一步地将降维后的3种特征描述符映射到高维空间，并通过中心对齐函数将三种空间合并为一个高斯空间，增强子模型和其强弱模型过程一致；最后通过支持向量机算法构建预测模型，模型性能指标图可参考图3a、3b，表1记录了本发明与已公开模型的比较结果。

表1与公开发表模型的评估参数对比结果

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

序列表

<110>东北林业大学电子科技大学长三角研究院（衢州）

<120>一种基于多核学习预测增强子及其强度分类方法及分类设备

<160> 8

<210> 1

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> Chr11_6627824_6628024的序列

<400> 1

atgctgccag aaggaaaagg ggtggaatta atgaaactgg aaggttgtgg tgctggtttg 60

aggagtaaag tatgggggcc aaagttggct atatgctgga tatgaagagg gggttaattc 120

cttgcaggtc ttcttgagat agaagtccag gccctgaggt ggcaggcagc ctgatagtga 180

acagaaccct tgtgcccata 200

<210> 2

<211> 201

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> Chr11_9587224_9587424的序列

<400> 2

cacaatgtag aagcagagac acaggaacca ggcttggtga tggctctcag gggtcacagt 60

ctgatggggg acacactgga ggtcagtctg gtgggggagt tttagccttt ggtccttatg 120

gtgaagccta gatttgagcc tgttcacata ttaagtggag atgctattgt tcagctctgc 180

aagggggggt ttgtcctatt 201

<210> 3

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> chrX_48897056_48897256的序列

<400> 3

cacaatgtag aagcagagac acaggaacca ggcttggtga tggctctcag gggtcacagt 60

ctgatggggg acacactgga ggtcagtctg gtgggggagt tttagccttt ggtccttatg 120

gtgaagccta gatttgagcc tgttcacata ttaagtggag atgctattgt tcagctctgc 180

aagggggggt ttgtcctatt 200

<210> 4

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> chr12_6444339_6444539的序列

<400> 4

gccctcacat tccctggccc atcccctcca cctcaaaatt tacaaacacc cggggttggc 60

aaggacaaat ggggaggaga gtaaaaggga aaggttgggg atcctgcatg ggtagacggg 120

ggacaaagtt gagacggggg caggagtggg caaaggtgtg caggacatag gcaaatagag 180

ctggccaagg ctagcgaccc 200

<210> 5

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> hg19_ct_UserTrack_3545_158 range=chr12:78319870-78393869的序列

<400> 5

aattttctca ttttctcata aagtttaaca gttgtttatt tgagtcagaa ttcaaataag 60

cttctgtaca ttacaattgg ttttaagttc ttataagact ctataggttt tcccttcata 120

atttttcttg caatttattt gttaaagaaa ttgggtcatt tgtcctattg agtgctccac 180

tgtctgtttt tattattgta 200

<210> 6

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> HG19_CT_USERTRACK_3545_57 RANGE=CHR7:10106276-10452075的序列

<400> 6

actggttatc ttttaggact agttaatata acccattctc taaccaacag ataactcaac 60

caggttcagc acctgatggg ttactcttca aggactccct tctaaatctc actttgctgt 120

gtccacaatt ctaaattgct atacaatagc attttctcac tctcattcag tattttacac 180

agaaagatat gccttgaacc 200

<210> 7

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> chrX_2970600_2970800的序列

<400> 7

cagtcacatc tgtaatcaca atacgttggg aggctgaggc aggaggatca cttgagtcca 60

ggagttgagg ctgcagtgag ctgtgatcac accactgcac tctagtgtgg gtgacagtga 120

gaccctgtct caaaaaaaaa aaaaaaaaga tacattcaaa gaagtcaaaa taaaacagta 180

taaaacctat ctccctgatt 200

<210> 8

<211> 200

<212> DNA

<213>人属（Homo sapiens）

<220>

<223> chrX_6179400_6179600的序列

<400> 8

actttgaaga agtcagtcat caagatgaga gacccaactg tcaagctgct aaggatgacc 60

taggatgggg gactggtcct cgtctggcag caagaaatgg ccagaactct cagtgctaca 120

gccccaagta acttaattct gcaacaacct ggctaagctt agaaccagat tcttcctttt 180

ttgaatctcc agataagaac 200

Claims

1.一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述方法具体过程为：

将带标签的DNA测序序列分为训练集和验证集；

2.根据权利要求1所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤二中使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；具体过程为：

步骤二一、收集DNA测序序列，通过k-mer算法将DNA测序序列分割成k-mer词向量，然后将分割的每个k-mer词向量输入python的“gensim”模型进行训练，直至收敛，获得每个k-mer词向量对应的训练好的python的“gensim”模型；

所述k为k-mer的参数，2≤k≤10；

步骤二二、通过k-mer算法将步骤一获取的带标签的DNA测序序列分割成k-mer词向量，将每个k-mer词向量输入对应的步骤二一训练好的python的“gensim”模型，将每个k-mer词向量转换成50维度的词向量形式；

对每个转换成50维度的词向量求均值；

3.根据权利要求2所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤三中使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；具体过程为：

其中，D表示DNA测序序列的特征形式，d_i为特征中的元素，k为k-mer的参数；λ为核苷酸的物理化学性质的种类；f_u为k-mer频率信息，w为权重，θ_j为核苷酸的某种物理化学性质的分值，u为k-mer的总个数；

所述核苷酸的物理化学性质的种类有8种，分别为Slide、Rise、Tilt、Shift、Stability、Entropy、Free energy、Tip，θ_j是其中每一种的分值；

最终步骤一获取的带标签的DNA测序序列被转换为4^k+λ维的数字特征。

4.根据权利要求3所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤四中使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码，将DNA测序序列转换为向量；具体过程为：

脱氧核糖核酸A、G、C、T位置信息通过以下公式得到：

5.根据权利要求4所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤五中利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值，对获得的各自的F值分别进行降维排序，选出采用三种不同特征描述符各自对应的最佳的特征子集；具体过程为：

方差分析的定义如下：

其中，F(λ)为F值，

为组间差异，

为组内差异，SS_B为组间方差，df_B为组间自由度，SS_W为组内方差，df_W为组内由度，m_i′为各组中序列，K为序列类别的个数，f(i′)为步骤二、步骤三或步骤四得到的向量中的特征值；

对获得的各自的F值进行降维排序，设置阈值选出采用三种不同特征描述符各自对应的三种最佳的特征子集。

6.根据权利要求5所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤六中计算每个高斯函数对应的最佳权重的具体过程为：

利用均值、凸优化或二次规划算法计算每个高斯函数对应的最佳权重。

7.根据权利要求6所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤七中将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数，并使用支持向量机模型构建增强子预测模型；具体过程为：

8.根据权利要求7所述一种基于多核学习预测增强子及其强度分类方法，其特征在于：所述步骤八中将高斯函数K₁，K₂，K₃根据各自权重合并为一个核函数，并使用支持向量机模型构建强弱增强子预测模型；具体过程为：

将步骤一获取的验证集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入强弱增强子预测模型，若识别准确率达到要求则得到构建好的强弱增强子预测模型，若识别准确率未达到要求则重新执行步骤一至步骤八，直至识别准确率达到要求，得到构建好的强弱增强子预测模型。

9.一种基于多核学习预测增强子及其强度分类设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求8之一的一种基于多核学习预测增强子及其强度分类方法。