CN114627964B - 一种基于多核学习预测增强子及其强度分类方法及分类设备 - Google Patents

一种基于多核学习预测增强子及其强度分类方法及分类设备 Download PDF

Info

Publication number
CN114627964B
CN114627964B CN202111069507.9A CN202111069507A CN114627964B CN 114627964 B CN114627964 B CN 114627964B CN 202111069507 A CN202111069507 A CN 202111069507A CN 114627964 B CN114627964 B CN 114627964B
Authority
CN
China
Prior art keywords
enhancer
dna sequencing
sequencing sequence
mer
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111069507.9A
Other languages
English (en)
Other versions
CN114627964A (zh
Inventor
汪国华
李鸿飞
邹权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Northeast Forestry University
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Northeast Forestry University
Priority to CN202111069507.9A priority Critical patent/CN114627964B/zh
Publication of CN114627964A publication Critical patent/CN114627964A/zh
Application granted granted Critical
Publication of CN114627964B publication Critical patent/CN114627964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于多核学习预测增强子及其强度分类方法及分类设备,本发明涉及基于多核学习预测增强子及其强度分类方法及分类设备。本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低的问题。过程为:获取带标签的DNA测序序列;使用三种特征描述符进行编码转换为向量;分别对得到的向量进行特征筛选获得各自的F值,分别进行降维排序,选出各自对应的最佳的特征子集;计算每个高斯函数对应的最佳权重;构建增强子预测模型;构建强弱增强子预测模型;通过构建好的增强子预测模型和强弱增强子预测模型对待测DNA测序序列进行判断。本发明用于生物信息技术领域。

Description

一种基于多核学习预测增强子及其强度分类方法及分类设备
技术领域
本申请属于生物信息技术领域,具体涉及基于多核学习预测增强子及其强度分类方法及分类设备。
背景技术
增强子是DNA序列中较短的一部分,其功能是结合特定的功能蛋白共同调控基因的表达。生物体中拥有相同遗传物质信息的细胞却在不同的组织中有着形态各异的形状并且行使着不同的生物功能,这是因为增强子在细胞分裂发育的过程中结合不同的调控蛋白使得细胞中的基因发生差异性表达。增强子与目标基因的相对位置不是固定的,而且无视染色体的方向。由于增强子的这种多变性,准确定位增强子成为了生物学中的一项挑战。在生化实验中,通过染色质免疫沉淀、高通量测序仪等方式来鉴定DNA序列中的增强子,但是这些方法需要花费大量的人力物力去制备实验所需的试剂。
随着三代测序技术的成熟,大量的DNA序列被测序,通过生物实验注释DNA片段功能已经很难匹配测序的速度。
综上,导致现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低。
发明内容
本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低的问题,而提出一种基于多核学习预测增强子及其强度分类方法及分类设备。
一种基于多核学习预测增强子及其强度分类方法具体过程为:
步骤一、获取带标签的DNA测序序列,带标签的DNA测序序列为非增强子DNA测序序列、增强子DNA测序序列、强增强子DNA测序序列和弱增强子DNA测序序列;
将带标签的DNA测序序列分为训练集和验证集;
步骤二、使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤三、使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤四、使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤五、利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值,对获得的各自的F值分别进行降维排序,选出采用三种不同特征描述符各自对应的最佳的特征子集;
步骤六、将选出的采用三种不同特征描述符各自对应的最佳的特征子集分别通过高斯核函数映射到高维空间,得到三个高斯函数K1,K2,K3,计算每个高斯函数对应的最佳权重;
步骤七、将高斯函数K1,K2,K3根据各自权重合并为一个核函数,并使用支持向量机模型构建增强子预测模型;
步骤八、将高斯函数K1,K2,K3根据各自权重合并为一个核函数,并使用支持向量机模型构建强弱增强子预测模型;
步骤九、通过步骤七构建好的增强子预测模型判断待测DNA测序序列是否为增强子,如果不是增强子结束,如果是增强子则将增强子输入步骤八构建好的强弱增强子预测模型,识别待测DNA测序序列为强增强子DNA测序序列还是弱增强子DNA测序序列。
一种基于多核学习预测增强子及其强度分类设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于多核学习预测增强子及其强度分类方法。
本发明的有益效果为:
基于计算模型的方法需要被开发去预测DNA序列的功能。计算模型通过收集已被实验证明的非增强子、强增强子和弱增强子序列,通过对数据进行清洗并将其转化成计算机可识别的数字特征,最终通过机器学习算法实现预测功能。这种计算模型无需大量的实验,而且可以大批量快速的识别DNA序列中的增强子,进而区分强弱启动子。
本发明的目的是开发一个准确,快速预测增强子及其强弱的分类方法,利用多种特征描述符表达样本序列,并通过比对算法将多种描述符信息有效的融合为一个函数,最终通过支持向量机算法实现准确分类。
本发明通过提取多种特征描述符,利用方差分析算法有效的降低了描述符中的冗余信息,通过均值、凸优化或二次规划等算法将三种高斯核函数通过各自权重整和为一个核函数。最后通过支持向量机分类算法可以快速准确的识别增强子及判断其强弱,有效的节省了生物实验所需的成本,并为后期增强子调控相关基因表达的相关研究有着重要意义,解决了现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低的问题。
附图说明
图1为本发明预测增强子及其强弱总体流程图;
图2a为实施例例提供特征选择前后非增强子或增强子各特征描述占比图;
图2b为实施例例提供特征选择前后强增强子或弱增强子各特征描述占比图;
图3a为实施例提供了非增强子或增强子五折交叉评估参数图;
图3b为实施例提供了强增强子或弱增强子五折交叉评估参数图。
具体实施方式
具体实施方式一:本实施方式一种基于多核学习预测增强子及其强度分类方法具体过程为:
步骤一、获取公开的带标签的DNA测序序列,带标签的DNA测序序列为非增强子DNA测序序列、增强子DNA测序序列、强增强子DNA测序序列和弱增强子DNA测序序列;
将带标签的DNA测序序列分为训练集和验证集;
公开的带标签的DNA测序序列为通过CD-HIT方法进行去冗余处理后的,DNA测序序列一致性保持在80%;
在预测增强子模型中,非增强子为负样本,强弱增强子为正样本;
在预测增强子强弱模型中,弱增强子为负样本,强增强子为正样本;
模型使用到的DNA序列通过CD-HIT将序列一致性保持在80%;
非增强子、强增强子、弱增强子在训练集中的样本数为1482条、742条和742条,在验证集中的分布情况为非增强子200条,强弱增强子各100条。
步骤二、使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤三、使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤四、使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤五、利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值,对获得的各自的F值分别进行降维排序,选出采用三种不同特征描述符各自对应的最佳的特征子集;
步骤六、将选出的采用三种不同特征描述符各自对应的最佳的特征子集分别通过高斯核函数映射到高维空间(每种特征描述符对应的最佳的特征子集映射到一个高维空间,三种特征描述符对应的最佳的特征子集映射到三个高维空间),得到三个高斯函数K1,K2,K3,计算每个高斯函数对应的最佳权重;
步骤七、将高斯函数K1,K2,K3根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重,一共3个高斯函数乘以自身对应的权重,再相加),并使用支持向量机模型构建增强子预测模型;
步骤八、将高斯函数K1,K2,K3根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重,一共3个高斯函数乘以自身对应的权重,再相加),并使用支持向量机模型构建强弱增强子预测模型;
步骤九、通过步骤七构建好的增强子预测模型判断待测DNA测序序列(未注释的样本)是否为增强子,如果不是增强子结束,如果是增强子则将增强子输入步骤八构建好的强弱增强子预测模型,识别待测DNA测序序列为强增强子DNA测序序列还是弱增强子DNA测序序列。
增强子测试集:
>Chr11_6627824_6628024
ATGCTGCCAGAAGGAAAAGGGGTGGAATTAATGAAACTGGAAGGTTGTGGTGCTGGTTTGAGGAGTAAAGTATGGGGGCCAAAGTTGGCTATATGCTGGATATGAAGAGGGGGTTAATTCCTTGCAGGTCTTCTTGAGATAGAAGTCCAGGCCCTGAGGTGGCAGGCAGCCTGATAGTGAACAGAACCCTTGTGCCCATA
>Chr11_9587224_9587424
GGCATTTTTTAACCTGTGTTTCATTTTCATCTGTGAAATGTGAATAAAAATAACTCTCTTACAGAGTTCCCGTAAAGATTAAATAAGTATGTAAAGCATCTGGGTCAGTGCCTATCATATAGTTGGCACCAAAATATTCTCCCCTCTCCCAGCTCCTGCAAAGGCACCCCAGCTCTTTGCAGCACTTAGGGCCTTTCTCA
增强子训练集:
>chrX_48897056_48897256
CACAATGTAGAAGCAGAGACACAGGAACCAGGCTTGGTGATGGCTCTCAGGGGTCACAGTCTGATGGGGGACACACTGGAGGTCAGTCTGGTGGGGGAGTTTTAGCCTTTGGTCCTTATGGTGAAGCCTAGATTTGAGCCTGTTCACATATTAAGTGGAGATGCTATTGTTCAGCTCTGCAAGGGGGGGTTTGTCCTATT
>chr12_6444339_6444539
GCCCTCACATTCCCTGGCCCATCCCCTCCACCTCAAAATTTACAAACACCCGGGGTTGGCAAGGACAAATGGGGAGGAGAGTAAAAGGGAAAGGTTGGGGATCCTGCATGGGTAGACGGGGGACAAAGTTGAGACGGGGGCAGGAGTGGGCAAAGGTGTGCAGGACATAGGCAAATAGAGCTGGCCAAGGCTAGCGACCC
非增强子测试集:
>hg19_ct_UserTrack_3545_158range=chr12:78319870-78393869
AATTTTCTCATTTTCTCATAAAGTTTAACAGTTGTTTATTTGAGTCAGAATTCAAATAAGCTTCTGTACATTACAATTGGTTTTAAGTTCTTATAAGACTCTATAGGTTTTCCCTTCATAATTTTTCTTGCAATTTATTTGTTAAAGAAATTGGGTCATTTGTCCTATTGAGTGCTCCACTGTCTGTTTTTATTATTGTA
>HG19_CT_USERTRACK_3545_57RANGE=CHR7:10106276-10452075
ACTGGTTATCTTTTAGGACTAGTTAATATAACCCATTCTCTAACCAACAGATAACTCAACCAGGTTCAGCACCTGATGGGTTACTCTTCAAGGACTCCCTTCTAAATCTCACTTTGCTGTGTCCACAATTCTAAATTGCTATACAATAGCATTTTCTCACTCTCATTCAGTATTTTACACAGAAAGATATGCCTTGAACC
非增强子训练集:
>chrX_2970600_2970800
cagtcacatctgtaatcacaatacgttgggaggctgaggcaggaggatcacttgagtccaggagttgaggctgcagtgagctgtgatcacaccactgcactctagtgtgggtgacagtgagaccctgtctcaaaaaaaaaaaaaaaaagaTACATTCAAAGAAGTCAAAATAAAACAGTATAAAACCTATCTCCCTGATT
>chrX_6179400_6179600
actttgaagaagtcagtcatcaagatgagagacccaactgtcaagctgctaaggatgacctaggatgggggactggtcctcgtctggcagcaagaaatggccagaactctcagtgctacagccccaagtaacttaattctgcaacaacctggctaagcttagaaccagattcttccttttttgaatctccagataagaac
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤二中使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;具体过程为:
步骤二一、收集若干公开的不参与增强子预测模型和强弱增强子预测模型训练的DNA测序序列(可带标签也可不带标签),通过k-mer算法将DNA测序序列分割成k-mer词向量,例如当k=3时,序列“AGCTACCT”将被转换为{AGC,GCT,CTA,TAC,ACC,CCT},然后将分割的每个k-mer词向量输入python的“gensim”模型进行训练,直至收敛,获得每个k-mer词向量对应的训练好的python的“gensim”模型;
将每个k-mer词向量输入对应的训练好的python的“gensim”模型,将每个k-mer词向量转换为50维度的词向量特征;
所述k为k-mer的参数,2≤k≤10;
比如,2≤k≤10,将分割的2-mer词向量输入python的“gensim”模型进行训练,直至收敛获得2-mer词向量对应的训练好的python的“gensim”模型;
将分割的3-mer词向量输入python的“gensim”模型进行训练,直至收敛获得3-mer词向量对应的训练好的python的“gensim”模型;
将分割的4-mer词向量输入python的“gensim”模型进行训练,直至收敛获得4-mer词向量对应的训练好的python的“gensim”模型;
将分割的5-mer词向量输入python的“gensim”模型进行训练,直至收敛获得5-mer词向量对应的训练好的python的“gensim”模型;
将分割的6-mer词向量输入python的“gensim”模型进行训练,直至收敛获得6-mer词向量对应的训练好的python的“gensim”模型;
将分割的7-mer词向量输入python的“gensim”模型进行训练,直至收敛获得7-mer词向量对应的训练好的python的“gensim”模型;
将分割的8-mer词向量输入python的“gensim”模型进行训练,直至收敛获得8-mer词向量对应的训练好的python的“gensim”模型;
将分割的9-mer词向量输入python的“gensim”模型进行训练,直至收敛获得9-mer词向量对应的训练好的python的“gensim”模型;
将分割的10-mer词向量输入python的“gensim”模型进行训练,直至收敛获得10-mer词向量对应的训练好的python的“gensim”模型;
步骤二二、通过k-mer算法将步骤一获取的带标签的DNA测序序列分割成k-mer词向量(步骤二一分割成几个,这里就分割成几个),将每个k-mer词向量输入对应的步骤二一训练好的python的“gensim”模型,将每个k-mer词向量转换成50维度的词向量形式;
对每个转换成50维度的词向量求均值;
步骤二一是训练出词向量,步骤二二是把步骤二二的数据用步骤二一的词向量表示;
例如3-mer词向量最终通过50维的数字特征编码;
3-mer为例:一个DNA序列可以分成多个3-mer,每个3-mer由50维度的词向量表示,最后将一条序列的中的所有3-mer的50维度向量相加得到50维,再除以3-mer的个数,得到50维的均值。其他k-mer类似。
步骤二三、将求均值后的词向量拼接成一个向量,最终步骤一获取的带标签的DNA测序序列被转换为(50×(k-mer个数))维的k-mer词向量特征。
例如3,4,5-mer拼接后的词向量为
D3-mer=[a1,a2,a3,...,a50]
D4-mer=[b1,b2,b3,...,b50]
D5-mer=[c1,c2,c2,...,c50]
D3,4,5-mer=[a1,a2,a3,...,a50,b1,b2,b3,...,b50,c1,c2,c2,...,c50]
3-mer 50维的部分词向量:
ttt 0.21287881 1.6274717 0.75598913 1.0471324 0.5075208 0.26326321.0574397 -1.221269 -1.5562087 0.60077477 -1.0644029 0.6214464 0.0452140120.40453082 1.8523268 0.8405658 1.3642455 -0.49161983 -0.34360874 0.8223327 -0.26574597 -0.22942019 -2.1860745 -1.220031 0.4570144 0.21810026 0.24883498 -0.016625876 0.3256994 -0.695627 0.02514691 -0.32979012 -0.4269553 -1.2531667-0.009119195 0.9719196 0.6634598 0.5469655 -0.22711684 -1.0231297 -1.9928505-0.9326441 1.9028813 0.083628885 -0.8276239 -0.2874386 -0.205708830.019432807 -1.4446951 0.88406444
aaa -1.1976455 -0.25462207 -1.0552375 0.83634645 -0.108677011.5170169 -1.2639139 1.4886814 -0.1815881 -0.72351485 -0.23465684 0.44653234-1.6736203 0.023650182 0.22428393 -0.73183525 -0.3149114 1.5744864 0.13791892-0.13106501 0.8076029 -0.80638576 2.229148 0.38623068 -0.5324063 -0.110074220.45309737 -0.40490505 0.43696198 0.7905327 -0.7892759 -0.5500683 -0.120705760.10030488 -1.0652531 -1.5176727 -1.3996894 -0.72723305 -0.63041085 0.4240254-0.11514516 0.07434096 -0.7969917 -0.44255507 -0.9835906 -0.009022022 2.34755-0.28006005 0.29978716 0.617988
att 1.1862115 1.1866046 1.3925741 2.6559455 0.87643504 0.218253631.1970389 -1.3430582 -1.7101101 -0.5715452 -1.0759652 -1.0546306 -0.40625212-0.39329398 -1.2499739 0.88371456 -0.83765376 -1.0153837 -0.584990260.25324798 -0.96776396 1.3332026 0.4142629 -1.1245903 1.1940655 -0.32465622 -0.31203595 0.025283622 -0.60356367 0.13486147 -0.19924638 -0.25527424 -2.1077783 0.4007791 -2.096211 -0.24521026 -0.9623948 0.58863276 -0.14746606 -0.92521226 -1.0527309 0.09426114 0.16108932 0.033143662 0.8263472 -0.33957680.585088 0.209261 -3.0454135 1.4439343
aat -0.9765423 -0.13090418 0.11354126 0.18483552 0.0310981090.46837994 -2.0508068 -1.09901 1.5272001 -0.4287066 -0.36944136 1.2367282 -2.18736 -1.0077264 1.8386635 -0.9735787 -1.4377267 0.98549485 -0.23889460.92489135 0.8296508 0.60938835 0.6925306 -1.3001444 -0.1852028 -0.71565080.8592731 0.021727886 1.8731513 -0.33825457 -0.9045428 -1.4981855 -0.467685580.31557393 -0.79412735 -1.5204588 1.8023387 -1.3547901 -1.4144536 -0.08006946-0.21728642 1.4675844 -1.6511813 -0.4609445 0.30117124 -0.3100346 -0.88313854-0.36826026 -0.5064434 -0.04301391
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤三中使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;具体过程为:
融入了核苷酸的物理化学性质和k-mer的频率信息,可有效的丰富特征信息,其定义如下:
Figure BDA0003259591510000083
/>
Figure BDA0003259591510000081
Figure BDA0003259591510000082
其中,D表示DNA测序序列的特征形式,di为特征中的元素,k为k-mer的参数,k=4;λ为核苷酸的物理化学性质的种类(例如,Slide、Rise、Tilt、Shift、Stability、Entropy、Free energy、Tip),λ=8;fu为k-mer频率信息,w为权重,θj为核苷酸的某种物理化学性质的分值(核苷酸的物理化学性质的种类有8中,θj是其中每一种的分值),u为k-mer的总个数;
最终步骤一获取的带标签的DNA测序序列被转换为4k+λ(44+8=264)维的数字特征。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤四中使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;具体过程为:
chemical特征描述符包含了DNA特定的物理化学性质(环状结构、功能分类和氢键)和DNA序列中脱氧核糖核酸的位置信息;
其中脱氧核糖核酸A、G、C、T根据A、G、C、T的物理化学性质分别被转化为[1,1,0],[1,0,0],[0,1,0],[0,0,1];
脱氧核糖核酸A、G、C、T位置信息通过以下公式得到:
Figure BDA0003259591510000091
Figure BDA0003259591510000092
其中,αφ为第φ个位置处的核苷酸的位置信息,sφ为第φ个位置处的核苷酸,l为步骤一获取的带标签的DNA测序序列的长度,f(sφ)为第φ个位置处的核苷酸类型,q为A、G、C或者T。
例如序列“AGCTACCT”将被转换为[1,1,0,1],[1,0,0,0.5],[0,1,0,0.33],[0,0,1,0.25],[1,1,0,0.4],[0,1,0,0.33],[0,1,0,0.429],[0,0,1,0.25]。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤五中利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值,对获得的各自的F值分别进行降维排序,选出采用三种不同特征描述符各自对应的最佳的特征子集;具体过程为:
方差分析算法用于过滤步骤二、步骤三、步骤四得到的向量中的冗余信息,方差分析算法通过计算特征在组内和组间的比值F,通过F值降维排序选出最佳的特征子集;
方差分析的定义如下:
Figure BDA0003259591510000101
Figure BDA0003259591510000106
Figure BDA0003259591510000107
Figure BDA0003259591510000102
Figure BDA0003259591510000103
其中,F(λ)为F值,
Figure BDA0003259591510000104
为组间(比如强增强子一组,弱增强子一组,增强子一组,非增强子一组之间)差异,/>
Figure BDA0003259591510000105
为组内(比如强增强子组内的强增强子和强增强子)差异,SSB为组间方差,dfB为组间自由度,SSW为组内方差,dfW为组内由度,mi′为各组中序列(步骤二、步骤三或步骤四得到的向量中的值)的数量(例如,增强子和非增强子各100条,则m1=m2=100),K为序列(步骤二、步骤三或步骤四得到的向量中的值)类别的个数(K=2,增强子和非增强子或强增强子弱增强子),f(i′)为步骤二、步骤三或步骤四得到的向量中的特征值;
对获得的各自的F值进行降维排序,设置阈值(10%)选出采用三种不同特征描述符各自对应的三种最佳的特征子集(设置阈值选出每种特征描述符对应一种最佳的特征子集)。
在预测增强子模型中,PseKNC通过方差分析维度从264维降低了226维,chemical从800维减少到了106维,K-mer从250维降低到了191维;在预测增强子强弱的模型中,PseKNC从264维降到了32维,K-mer从250维降到了165维,chemical从800维降低到了66维。降维前后的不同描述符所占比例绘制成图2a、2b。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤六中计算每个高斯函数对应的最佳权重的具体过程为:
利用均值、凸优化或二次规划等算法计算每个高斯函数对应的最佳权重。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述步骤七中将高斯函数K1,K2,K3根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重,一共3个高斯函数乘以自身对应的权重,再相加),并使用支持向量机模型构建增强子预测模型;具体过程为:
将步骤一获取的训练集中带标签的非增强子DNA测序序列和增强子DNA测序序列输入支持向量机进行训练,合并后的核函数作为支持向量机核函数,通过Gridsearch调整支持向量机参数,直至收敛,获得增强子预测模型;
本发明在实施过程中,将合共后的核函数通过支持向量机模型构建增强子模型,通过Gridsearch调整模型参数,使模型性能达到最优。从图3a、3b可以看出在五折交叉过程中,模型每一次运行得到的评估参数差距不大,说明了模型性能稳定。在独立集测试过程中发现,本发明提出的增强子预测模型在总体性能上超越了其他模型,特异性(Sp),准确度(ACC)和马修斯相关系数(MCC)分别为0.825,0.77,0.548。
将步骤一获取的验证集中带标签的非增强子DNA测序序列和增强子DNA测序序列输入增强子预测模型,若识别准确率达到要求则得到构建好的增强子预测模型,若识别准确率未达到要求则重新执行步骤一至步骤七,直至识别准确率达到要求,得到构建好的增强子预测模型。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述步骤八中将高斯函数K1,K2,K3根据各自权重合并为一个核函数(每个高斯函数乘以自身对应的权重,一共3个高斯函数乘以自身对应的权重,再相加),并使用支持向量机模型构建强弱增强子预测模型;具体过程为:
将步骤一获取的训练集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入支持向量机进行训练,合并后的核函数作为支持向量机核函数,通过Gridsearch调整支持向量机参数,直至收敛,获得强弱增强子预测模型;
将步骤一获取的将验证集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入强弱增强子预测模型,若识别准确率达到要求则得到构建好的强弱增强子预测模型,若识别准确率未达到要求则重新执行步骤一至步骤八,直至识别准确率达到要求,得到构建好的强弱增强子预测模型。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式一种基于多核学习预测增强子及其强度分类设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如具体实施方式一至具体实施方式八之一的一种基于多核学习预测增强子及其强度分类方法。
采用以下实施例验证本发明的有益效果:
本发明在实施过程中,同样与现有模型做了对比,并分析了五折交叉验证的的结果,从图3a、3b可以发现,在预测强弱增强子模型中,五折交叉要比增强子性能更稳定;在独立集测试中,评估参数Sp,ACC,MCC都超越了现有模型的结果。
最终通过四个评价指标评估模型的性能,具体定义如下:
Figure BDA0003259591510000121
Figure BDA0003259591510000122
Figure BDA0003259591510000123
/>
Figure BDA0003259591510000124
实施例一:
首先收集若干与增强子预测无关的DNA序列并训练成k-mer词向量。然后将非增强子、强增强子和弱增强子的DNA序列转化为3种特征描述符k-mer词向量、PseKNC和chemical;其次通过方差分析对增强子和非增强子的三种特征描述符进行降维,同样对强增强子和弱增强子进行降维处理,降维前后不同特征描述符的占比情况如图2a、2b所示;进一步地将降维后的3种特征描述符映射到高维空间,并通过中心对齐函数将三种空间合并为一个高斯空间,增强子模型和其强弱模型过程一致;最后通过支持向量机算法构建预测模型,模型性能指标图可参考图3a、3b,表1记录了本发明与已公开模型的比较结果。
表1与公开发表模型的评估参数对比结果
Figure BDA0003259591510000125
Figure BDA0003259591510000131
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
序 列 表
<110>东北林业大学 电子科技大学长三角研究院(衢州)
<120>一种基于多核学习预测增强子及其强度分类方法及分类设备
<160> 8
<210> 1
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> Chr11_6627824_6628024的序列
<400> 1
atgctgccag aaggaaaagg ggtggaatta atgaaactgg aaggttgtgg tgctggtttg 60
aggagtaaag tatgggggcc aaagttggct atatgctgga tatgaagagg gggttaattc 120
cttgcaggtc ttcttgagat agaagtccag gccctgaggt ggcaggcagc ctgatagtga 180
acagaaccct tgtgcccata 200
<210> 2
<211> 201
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> Chr11_9587224_9587424的序列
<400> 2
cacaatgtag aagcagagac acaggaacca ggcttggtga tggctctcag gggtcacagt 60
ctgatggggg acacactgga ggtcagtctg gtgggggagt tttagccttt ggtccttatg 120
gtgaagccta gatttgagcc tgttcacata ttaagtggag atgctattgt tcagctctgc 180
aagggggggt ttgtcctatt 201
<210> 3
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> chrX_48897056_48897256的序列
<400> 3
cacaatgtag aagcagagac acaggaacca ggcttggtga tggctctcag gggtcacagt 60
ctgatggggg acacactgga ggtcagtctg gtgggggagt tttagccttt ggtccttatg 120
gtgaagccta gatttgagcc tgttcacata ttaagtggag atgctattgt tcagctctgc 180
aagggggggt ttgtcctatt 200
<210> 4
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> chr12_6444339_6444539的序列
<400> 4
gccctcacat tccctggccc atcccctcca cctcaaaatt tacaaacacc cggggttggc 60
aaggacaaat ggggaggaga gtaaaaggga aaggttgggg atcctgcatg ggtagacggg 120
ggacaaagtt gagacggggg caggagtggg caaaggtgtg caggacatag gcaaatagag 180
ctggccaagg ctagcgaccc 200
<210> 5
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> hg19_ct_UserTrack_3545_158 range=chr12:78319870-78393869的序列
<400> 5
aattttctca ttttctcata aagtttaaca gttgtttatt tgagtcagaa ttcaaataag 60
cttctgtaca ttacaattgg ttttaagttc ttataagact ctataggttt tcccttcata 120
atttttcttg caatttattt gttaaagaaa ttgggtcatt tgtcctattg agtgctccac 180
tgtctgtttt tattattgta 200
<210> 6
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> HG19_CT_USERTRACK_3545_57 RANGE=CHR7:10106276-10452075的序列
<400> 6
actggttatc ttttaggact agttaatata acccattctc taaccaacag ataactcaac 60
caggttcagc acctgatggg ttactcttca aggactccct tctaaatctc actttgctgt 120
gtccacaatt ctaaattgct atacaatagc attttctcac tctcattcag tattttacac 180
agaaagatat gccttgaacc 200
<210> 7
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> chrX_2970600_2970800的序列
<400> 7
cagtcacatc tgtaatcaca atacgttggg aggctgaggc aggaggatca cttgagtcca 60
ggagttgagg ctgcagtgag ctgtgatcac accactgcac tctagtgtgg gtgacagtga 120
gaccctgtct caaaaaaaaa aaaaaaaaga tacattcaaa gaagtcaaaa taaaacagta 180
taaaacctat ctccctgatt 200
<210> 8
<211> 200
<212> DNA
<213>人属(Homo sapiens)
<220>
<223> chrX_6179400_6179600的序列
<400> 8
actttgaaga agtcagtcat caagatgaga gacccaactg tcaagctgct aaggatgacc 60
taggatgggg gactggtcct cgtctggcag caagaaatgg ccagaactct cagtgctaca 120
gccccaagta acttaattct gcaacaacct ggctaagctt agaaccagat tcttcctttt 180
ttgaatctcc agataagaac 200

Claims (9)

1.一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述方法具体过程为:
步骤一、获取带标签的DNA测序序列,带标签的DNA测序序列为非增强子DNA测序序列、增强子DNA测序序列、强增强子DNA测序序列和弱增强子DNA测序序列;
将带标签的DNA测序序列分为训练集和验证集;
步骤二、使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤三、使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤四、使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;
步骤五、利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值,对获得的各自的F值分别进行降维排序,选出采用三种不同特征描述符各自对应的最佳的特征子集;
步骤六、将选出的采用三种不同特征描述符各自对应的最佳的特征子集分别通过高斯核函数映射到高维空间,得到三个高斯函数K1,K2,K3,计算每个高斯函数对应的最佳权重;
步骤七、将高斯函数K1,K2,K3根据各自权重合并为一个核函数,并使用支持向量机模型构建增强子预测模型;
步骤八、将高斯函数K1,K2,K3根据各自权重合并为一个核函数,并使用支持向量机模型构建强弱增强子预测模型;
步骤九、通过步骤七构建好的增强子预测模型判断待测DNA测序序列是否为增强子,如果不是增强子结束,如果是增强子则将增强子输入步骤八构建好的强弱增强子预测模型,识别待测DNA测序序列为强增强子DNA测序序列还是弱增强子DNA测序序列。
2.根据权利要求1所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤二中使用K-mer特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;具体过程为:
步骤二一、收集DNA测序序列,通过k-mer算法将DNA测序序列分割成k-mer词向量,然后将分割的每个k-mer词向量输入python的“gensim”模型进行训练,直至收敛,获得每个k-mer词向量对应的训练好的python的“gensim”模型;
将每个k-mer词向量输入对应的训练好的python的“gensim”模型,将每个k-mer词向量转换为50维度的词向量特征;
所述k为k-mer的参数,2≤k≤10;
步骤二二、通过k-mer算法将步骤一获取的带标签的DNA测序序列分割成k-mer词向量,将每个k-mer词向量输入对应的步骤二一训练好的python的“gensim”模型,将每个k-mer词向量转换成50维度的词向量形式;
对每个转换成50维度的词向量求均值;
步骤二三、将求均值后的词向量拼接成一个向量,最终步骤一获取的带标签的DNA测序序列被转换为(50×(k-mer个数))维的k-mer词向量特征。
3.根据权利要求2所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤三中使用Pseknc特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;具体过程为:
Figure FDA0003847152310000021
Figure FDA0003847152310000022
Figure FDA0003847152310000023
其中,D表示DNA测序序列的特征形式,di为特征中的元素,k为k-mer的参数;λ为核苷酸的物理化学性质的种类;fu为k-mer频率信息,w为权重,θj为核苷酸的某种物理化学性质的分值,u为k-mer的总个数;
所述核苷酸的物理化学性质的种类有8种,分别为Slide、Rise、Tilt、Shift、Stability、Entropy、Free energy、Tip,θj是其中每一种的分值;
最终步骤一获取的带标签的DNA测序序列被转换为4k+λ维的数字特征。
4.根据权利要求3所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤四中使用chemical特征描述符对步骤一获取的带标签的DNA测序序列进行编码,将DNA测序序列转换为向量;具体过程为:
脱氧核糖核酸A、G、C、T位置信息通过以下公式得到:
Figure FDA0003847152310000031
Figure FDA0003847152310000032
其中,αφ为第φ个位置处的核苷酸的位置信息,sφ为第φ个位置处的核苷酸,l为步骤一获取的带标签的DNA测序序列的长度,f(sφ)为第φ个位置处的核苷酸类型,q为A、G、C或者T。
5.根据权利要求4所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤五中利用方差分析算法分别对步骤二、步骤三、步骤四得到的向量进行特征筛选获得各自的F值,对获得的各自的F值分别进行降维排序,选出采用三种不同特征描述符各自对应的最佳的特征子集;具体过程为:
方差分析的定义如下:
Figure FDA0003847152310000033
Figure FDA0003847152310000034
Figure FDA0003847152310000035
Figure FDA0003847152310000036
Figure FDA0003847152310000037
其中,F(λ)为F值,
Figure FDA0003847152310000038
为组间差异,
Figure FDA0003847152310000039
为组内差异,SSB为组间方差,dfB为组间自由度,SSW为组内方差,dfW为组内由度,mi′为各组中序列,K为序列类别的个数,f(i′)为步骤二、步骤三或步骤四得到的向量中的特征值;
对获得的各自的F值进行降维排序,设置阈值选出采用三种不同特征描述符各自对应的三种最佳的特征子集。
6.根据权利要求5所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤六中计算每个高斯函数对应的最佳权重的具体过程为:
利用均值、凸优化或二次规划算法计算每个高斯函数对应的最佳权重。
7.根据权利要求6所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤七中将高斯函数K1,K2,K3根据各自权重合并为一个核函数,并使用支持向量机模型构建增强子预测模型;具体过程为:
将步骤一获取的训练集中带标签的非增强子DNA测序序列和增强子DNA测序序列输入支持向量机进行训练,合并后的核函数作为支持向量机核函数,通过Gridsearch调整支持向量机参数,直至收敛,获得增强子预测模型;
将步骤一获取的验证集中带标签的非增强子DNA测序序列和增强子DNA测序序列输入增强子预测模型,若识别准确率达到要求则得到构建好的增强子预测模型,若识别准确率未达到要求则重新执行步骤一至步骤七,直至识别准确率达到要求,得到构建好的增强子预测模型。
8.根据权利要求7所述一种基于多核学习预测增强子及其强度分类方法,其特征在于:所述步骤八中将高斯函数K1,K2,K3根据各自权重合并为一个核函数,并使用支持向量机模型构建强弱增强子预测模型;具体过程为:
将步骤一获取的训练集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入支持向量机进行训练,合并后的核函数作为支持向量机核函数,通过Gridsearch调整支持向量机参数,直至收敛,获得强弱增强子预测模型;
将步骤一获取的验证集中带标签的强增强子DNA测序序列和弱增强子DNA测序序列输入强弱增强子预测模型,若识别准确率达到要求则得到构建好的强弱增强子预测模型,若识别准确率未达到要求则重新执行步骤一至步骤八,直至识别准确率达到要求,得到构建好的强弱增强子预测模型。
9.一种基于多核学习预测增强子及其强度分类设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求8之一的一种基于多核学习预测增强子及其强度分类方法。
CN202111069507.9A 2021-09-13 2021-09-13 一种基于多核学习预测增强子及其强度分类方法及分类设备 Active CN114627964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111069507.9A CN114627964B (zh) 2021-09-13 2021-09-13 一种基于多核学习预测增强子及其强度分类方法及分类设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111069507.9A CN114627964B (zh) 2021-09-13 2021-09-13 一种基于多核学习预测增强子及其强度分类方法及分类设备

Publications (2)

Publication Number Publication Date
CN114627964A CN114627964A (zh) 2022-06-14
CN114627964B true CN114627964B (zh) 2023-03-24

Family

ID=81896584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111069507.9A Active CN114627964B (zh) 2021-09-13 2021-09-13 一种基于多核学习预测增强子及其强度分类方法及分类设备

Country Status (1)

Country Link
CN (1) CN114627964B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343915B (zh) * 2023-03-15 2023-11-24 电子科技大学长三角研究院(衢州) 生物序列集成分类器的构建方法及生物序列预测分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583194B (zh) * 2020-04-22 2022-07-15 北方民族大学 基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法
CN113241123B (zh) * 2021-04-19 2024-02-02 西安电子科技大学 一种融合多种特征识别增强子及其强度的方法、系统

Also Published As

Publication number Publication date
CN114627964A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
US11620567B2 (en) Method, apparatus, device and storage medium for predicting protein binding site
Hua et al. A novel method of protein secondary structure prediction with high segment overlap measure: support vector machine approach
Jensen et al. Prediction of human protein function according to Gene Ontology categories
JP7490168B1 (ja) 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
US20020072887A1 (en) Interaction fingerprint annotations from protein structure models
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
Zeng et al. 4mCPred-MTL: accurate identification of DNA 4mC sites in multiple species using multi-task deep learning based on multi-head attention mechanism
EP2518656B1 (en) Taxonomic classification system
Patel et al. Protein secondary structure prediction using support vector machines (SVMs)
CN113823356A (zh) 一种甲基化位点识别方法及装置
Nabi et al. Discovering misannotated lncRNAs using deep learning training dynamics
Grinev et al. ORFhunteR: An accurate approach to the automatic identification and annotation of open reading frames in human mRNA molecules
Aydin et al. A signal processing application in genomic research: protein secondary structure prediction
Peris et al. Protein motif prediction by grammatical inference
Dotan et al. Effect of tokenization on transformers for biological sequences
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法
Chen et al. Learning position weight matrices from sequence and expression data
Filip et al. DeePSLiM: A Deep Learning Approach to Identify Predictive Short-linear Motifs for Protein Sequence Classification
Lalrinmawii et al. An Overview of the Workflow of Next-Generation Sequencing Data Analysis
Umarov Novel computational methods for promoter identification and analysis
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
Munteanu Computational models to investigate binding mechanisms of regulatory proteins
Zhang et al. Dna sequence feature selection for intrinsic nucleosome positioning signals using adaboost
Nabi Discovering coding LNCRNAS using deep learning training dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant