CN114639441A - 一种基于带权多粒度扫描的转录因子结合位点预测方法 - Google Patents

一种基于带权多粒度扫描的转录因子结合位点预测方法 Download PDF

Info

Publication number
CN114639441A
CN114639441A CN202210535743.3A CN202210535743A CN114639441A CN 114639441 A CN114639441 A CN 114639441A CN 202210535743 A CN202210535743 A CN 202210535743A CN 114639441 A CN114639441 A CN 114639441A
Authority
CN
China
Prior art keywords
feature
binding site
transcription factor
formula
factor binding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210535743.3A
Other languages
English (en)
Other versions
CN114639441B (zh
Inventor
刘振栋
李冬雁
戴琼海
胡国胜
陈曦
吕欣荣
秦梦颖
柏苛
李晓峰
季向阳
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202210535743.3A priority Critical patent/CN114639441B/zh
Publication of CN114639441A publication Critical patent/CN114639441A/zh
Application granted granted Critical
Publication of CN114639441B publication Critical patent/CN114639441B/zh
Priority to US18/305,365 priority patent/US20230386605A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于带权多粒度扫描的转录因子结合位点预测方法,该方法属于位点预测领域。该方法包含如下步骤:利用逆序列、互补序列和互补逆序列对初始数据集进行増广;使用独热编码和多碱基特征编码结合对DNA序列进行特征表示;划分训练集和测试集;计算特征的权重向量;进行带权的多粒度扫描;通过级联森林进行模型的训练得到转录因子结合位点分类预测模型;将测试集输入到该分类预测模型中,得到分类预测结果;构建评价指标对方法的性能进行评估。该方法克服了现有方法只注重单一碱基特征、训练耗时长、预测精度不高等问题,具有高度的鲁棒性和可移植性。

Description

一种基于带权多粒度扫描的转录因子结合位点预测方法
技术领域
本发明属于位点预测领域,主要是关于一种转录因子结合位点的预测方法,具体涉及到一种基于带权多粒度扫描的转录因子结合位点预测方法。
背景技术
在真核生物中,基因的表达是受很多调控因子调控的,我们把对生物体内基因的调节和控制称为基因表达调控。基因的表达调控对生物适应环境变化、实现自我调控具有极其深远的影响。在真核生物中,转录发生的时间以及转录过程的速率都可以控制基因表达,所以转录调控与基因表达的调控有着密不可分的关系。转录因子作为一种特殊的DNA结合蛋白,可以与DNA模板链结合,进而调控转录过程。转录因子参与了生命活动各个阶段的不同生物学过程,细胞的增殖、生长、分化、凋亡等过程都离不开转录因子的调控作用。转录因子功能异常会导致生命活动异常,进而导致多种疾病的发生。例如,常见的神经系统疾病、冠心病、糖尿病、高血压甚至癌症都与转录因子的变化密切相关。
转录因子结合位点是与转录因子相互结合的DNA序列上的位点,大部分位于DNA序列上游的启动子上。转录因子结合位点的研究有助于研究位点突变引起的一系列疾病,在一些癌症治疗中,转录因子结合位点也是常用的有效药物靶点,这对药物的研发和创新具有极其重要的意义。目前的转录因子结合位点预测方法普遍存在预测准确性不理想或虽然具有较高的精度,但预测实验耗时较长,并且准确度对于较小的数据集并不理想等缺陷,无法满足当前的位点预测需要。因此,我们需要对现有方法进行革新。
发明内容
针对现有转录因子结合位点预测方法的缺陷,本发明提供了一种基于带权多粒度扫描的转录因子结合位点预测方法TF_DF。TF_DF使用了组合特征表示方法来更好的表征DNA序列的潜在特征,结合带权的多粒度扫描方法和级联森林技术提升了预测结果的准确性,使得模型在训练时更加注重那些重要的特征。其目的在于解决当前转录因子结合位点预测方法中预测精度不高以及模型训练时间过长的问题。
包括如下步骤:
(1)对转录因子结合位点的初始数据集
Figure 979626DEST_PATH_IMAGE001
,进行数据増广,
Figure 365608DEST_PATH_IMAGE002
表示一段DNA序列片段,
Figure 4400DEST_PATH_IMAGE003
表示这段DNA序列是否为结合位点,取值为binding site或non-bindingsite,计算每条数据的逆序列、互补序列和互补逆序列,将数据集数量扩展到原始数量的4倍大小,得到数据集
Figure 196347DEST_PATH_IMAGE004
,并将数据集D*中的正负样本随机的进行混合;
(2)通过公式
Figure 745140DEST_PATH_IMAGE005
对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1,并结合多碱基特征编码进行特征表示得到特征向量F2,将特征向量F1与F2进行拼接得到组合特征表示F,通过公式
Figure 364340DEST_PATH_IMAGE006
对结果类进行编码;
(3)将步骤(2)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分,得到训练集Dtrain和测试集Dtest,其中Q为数据集D*中训练集的样本数量,R为数据集D*中测试集的样本数量;所述的Q的取值范围为2~5,R的取值为1;
(4)使用T个决策树对训练集Dtrain计算权值向量
Figure 496287DEST_PATH_IMAGE007
,所述d为特征长度,具体计算公式如下:
Figure 491925DEST_PATH_IMAGE008
式中d为特征的总数,
Figure 895224DEST_PATH_IMAGE009
为权值向量W中第i列特征的重要性得分,具体计算公式如下:
Figure 685326DEST_PATH_IMAGE010
式中
Figure 298710DEST_PATH_IMAGE011
为第t个决策树node节点的重要性得分,具体计算公式如下:
Figure 832459DEST_PATH_IMAGE012
式中
Figure 90265DEST_PATH_IMAGE013
Figure 316847DEST_PATH_IMAGE014
分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数;
Figure 417527DEST_PATH_IMAGE015
为每个节点的基尼指数,具体公式如下:
Figure 161492DEST_PATH_IMAGE016
式中 N为训练集Dtrain样本数量,
Figure 601701DEST_PATH_IMAGE017
为该node中类别为0的个数,
Figure 795922DEST_PATH_IMAGE018
为该node中类别为1的个数;
(5)对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为
Figure 321581DEST_PATH_IMAGE019
的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动,将窗口内的特征向量单独提取出来,得到长度为
Figure 134816DEST_PATH_IMAGE019
Figure 226269DEST_PATH_IMAGE020
Figure 794654DEST_PATH_IMAGE021
,u为滑动窗口滑动的次数,u的取值范围是
Figure 479713DEST_PATH_IMAGE022
根据公式
Figure 158956DEST_PATH_IMAGE023
计算加权多粒度扫描的特征,式中
Figure 370495DEST_PATH_IMAGE024
为向量
Figure 109780DEST_PATH_IMAGE025
的转置;将特征
Figure 282136DEST_PATH_IMAGE026
分别送入一个完全随机森林A和一个普通随机森林B,分别得到
Figure 499490DEST_PATH_IMAGE027
Figure 848693DEST_PATH_IMAGE028
;最后将
Figure 430984DEST_PATH_IMAGE027
Figure 152952DEST_PATH_IMAGE028
进行特征拼接得到特征F*;
(6)将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型,将测试集Dtest输入到该分类预测模型中,输出结果为1或0;1代表该DNA序列为转录因子结合位点,0代表该DNA序列为非转录因子结合位点。
优选的,所述多碱基特征编码方法,特征列的长度L可根据公式
Figure 970736DEST_PATH_IMAGE029
获得,其中m为多碱基中碱基长度,m取值为3,碱基A、T、C、G可以组成长度为3bp的序列集合C为:{'AAA', 'AAT', 'AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA', 'ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC', 'TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG', 'GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT', 'GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA', 'CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'},集合C中每个元素设置为一个特征列,共计64个特征列,其元素即为该特征列的特征名;
所述特征向量F2的计算方式为:从DNA序列样本的起始端,以步长为1,长度为3bp的窗口在DNA序列样本上进行滑动提取特征,该窗口中序列所对应的特征列取值为1,直至DNA序列样本末端,即特征向量F2的长度为64。
优选的,步骤(3)中Q的取值为4,R的取值为1。
优选的,步骤(4)中T的取值为462,树的最大深度为11。
优选的,步骤(5)中
Figure 94549DEST_PATH_IMAGE030
的取值为50,L取值为1。
优选的,步骤(7)中k的取值为5。
与现有技术方法相比,本发明的有益效果是:
本方法TF_DF实现了对转录因子结合位点的高精度预测,尤其是针对小数据集的位点预测。该方法摒弃了单一碱基特征的思想,结合了多碱基特征编码来提取每个碱基上下文的特征,提高了分类预测结果的准确率。同时,基于特征的重要性不同思想,对多粒度扫描进行优化,以获得更好的性能,并使用级联森林进行模型的训练和预测。与现有的转录因子结合位点预测方法相比,本发明具有更高的效率和准确度,且具有更好的鲁棒性和可移植性。
附图说明
图1为基于带权多粒度扫描的转录因子结合位点预测方法流程图;
图2为DNA序列扩展构建数据集示意图;
图3为DNA序列的独热编码规则示意图;
图4为DNA序列数据转换为结合独热编码和多碱基特征编码的特征表示示意图;
图5为DNA序列特征的权值计算结果图;
图6为带权的多粒度扫描方法流程图;
图7为使用组合特征表示方法与单一碱基特征表示方法预测转录因子结合位点类别精度结果对比图。
具体实施方式
为了清楚的阐明本发明的技术方案,下面结合附图1到附图7以及实例对本发明进行阐述,此处的实例仅用于解释本发明,并不限定本发明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语与本发明所属技术领域的普通技术人员的通常理解具有相同含义。
图1展示了使用TF_DF方法预测转录因子结合位点的流程步骤。在数据预处理阶段对初始数据集进行数据増广和特征提取,使用处理好的特征进行模型构建。以带权的多粒度扫描技术为基础,结合级联森林技术对模型进行训练,并使用测试集验证模型的性能。可以说明的是,该方法同样适用于其他DNA结合位点和基于序列特征的遗传元件。本实施例选取的数据集为人类1号染色体的转录因子SP1结合位点数据集。
TF_DF方法的输入文件包含一个CSV类型文件。Raw_data.csv文件为包含人类1号染色体的转录因子SP1结合位点的正样本和负样本各1200条,即原始数据集D。每条数据包含长度为14个碱基的DNA序列和其对应的类别(即结合位点和非结合位点),在该数据集基础上进行初始数据预处理;TF_DF方法的输出文件包含一个CSV类型文件和一个output类型文件。sequence_feature.csv文件为数据预处理得到的数据集D*;TF_classification.output文件为使用TF_DF方法输出的测试集中各位点的预测类别。TF_DF方法的输出为该方法预测的各DNA序列是否为转录因子结合位点。
TF_DF预测方法具体可分为以下步骤:
1、数据预处理
本实施例对人类1号染色体的转录因子SP1结合位点数据集D={D1, D2, ..., Dn}进行预处理。考虑到数据量较少,首先需要对数据集进行数据増广。根据DNA结合位点的序列特征,我们找到每个DNA序列的逆序列、互补序列和互补逆序列,将阳性和阴性样本的数量都扩大到4800条(图2);将阳性和阴性样本随机的混合。然后,通过公式
Figure 847742DEST_PATH_IMAGE005
对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1(图3)。最后,多碱基特征编码中设置序列片段长度为3bp,即由碱基A、T、C、G组成的3bp长度的序列集合C长度为64(64个特征列)。对于每条数据,如果包含某个序列特征,则将该数据对应的特征列记录为“1”,以此构成特征向量F2。最终获得的每条数据的特征F是一个独热编码和多碱基特征编码的组合,即特征向量F1和特征向量F2的拼接(图4)。数据预处理操作(以数据{‘ATCCGTTTCCGGGT’,‘binding site’}为例):
(1)根据DNA序列的逆序列、互补序列和互补逆序列扩充的3条数据分别为{‘TGGGCCTTTGCCTA’,‘binding site’},{‘TAGGAAAAGGCCCA’,‘binding site’},{‘ACCCGGAAACGGAT’,‘binding site’};
(2)以数据{‘ATCCGTTTCCGGGT’,‘binding site’}为例展示特征提取示例,对该DNA序列数据进行独热编码得到特征向量F1 为(1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1,0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1);
(3)结合多碱基特征编码对该DNA序列进行特征表示得到特征向量F2为 (0, 0,0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 0, 0, 0, 1, 0);
(4)对特征向量F1和特征向量F2进行拼接得到特征向量F为 (1, 0, 0, 0, 0, 0,0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 0, 0, 0, 1, 0);
(5)通过公式
Figure 119323DEST_PATH_IMAGE031
对结果类进行编码,即结果类为转录因子结合位点;
在本实施例中,数据预处理之后数据集D*包含正样本4800个,负样本4800个,每条样本数据包含120个特征项和1个结果特征类。将正负样本进行打乱混合。
2、划分训练集和测试集
将步骤(1)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为4:1进行划分,得到训练集Dtrain和测试集Dtest;该实例数据集划分后训练集Dtrain和测试集Dtest中的样本数量分别为7680个和1920个。
3、特征权重计算
使用462个决策树对训练集Dtrain进行权值向量W的计算。根据公式
Figure 616163DEST_PATH_IMAGE032
计算每个节点的基尼指数
Figure 860063DEST_PATH_IMAGE033
,式中N为训练集Dtrain样本数量,Nnode,0为该node中类别0的个数,Nnode,1为该node中类别1的个数。根据公式
Figure 643211DEST_PATH_IMAGE034
计算每个节点的重要性得分
Figure 339772DEST_PATH_IMAGE035
,式中
Figure 968199DEST_PATH_IMAGE036
Figure 4288DEST_PATH_IMAGE037
分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数。根据公式
Figure 161600DEST_PATH_IMAGE038
计算第i列特征的重要性得分
Figure 142195DEST_PATH_IMAGE039
,式中T为决策树的个数。根据公式
Figure 246417DEST_PATH_IMAGE040
进行每个特征的权值计算Wi,式中
Figure 933750DEST_PATH_IMAGE039
为第i列特征的重要性得分,d为特征的总数。
在本实例中,权值排名靠前的10个部分特征以及其对应的权值结果为:
Figure 793122DEST_PATH_IMAGE041
图5展示了DNA序列所有的特征以及其权值计算结果。
4、带权的多粒度扫描
如图6所示,对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为
Figure 261012DEST_PATH_IMAGE042
的滑动窗口分别在长度为120的特征向量F和权值向量W上滑动,得到
Figure 231242DEST_PATH_IMAGE043
Figure 976344DEST_PATH_IMAGE044
。根据公式
Figure 537776DEST_PATH_IMAGE045
计算加权多粒度扫描的特征,式中
Figure 702084DEST_PATH_IMAGE046
为向量
Figure 210426DEST_PATH_IMAGE047
的转置。将特征
Figure 810034DEST_PATH_IMAGE048
分别送入一个完全随机森林A和一个普通随机森林B,分别得到
Figure 745629DEST_PATH_IMAGE049
Figure 922533DEST_PATH_IMAGE050
。最后将
Figure 906669DEST_PATH_IMAGE049
Figure 688680DEST_PATH_IMAGE050
进行特征拼接得到特征F*。
5、转录因子结合位点的预测
将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型。将测试集Dtest分别输入到该分类预测模型中,以验证模型的性能。
以预测DNA序列“GGGGCGGGGCCGGC”为例。则该DNA序列的最终分类预测结果为‘1’,即为转录因子结合位点。
6、方法性能评估
根据5折交叉验证和三种评价指标对该方法的性能进行评估,分别通过公式
Figure 591914DEST_PATH_IMAGE051
,公式
Figure 397059DEST_PATH_IMAGE052
计算该方法的准确度和F1值,式中a为预测分类结果与实际分类结果一致的样本个数,b为测试集Dtest中样本个数,p值和r值分别通过公式
Figure 247204DEST_PATH_IMAGE053
和公式
Figure 680459DEST_PATH_IMAGE054
计算得到,式中TP为预测分类结果为转录因子结合位点且实际分类结果也为转录因子结合位点的数据点的个数,FP为预测分类结果为转录因子结合位点但实际分类结果为非转录因子结合位点的数据点的个数,FN为预测分类结果为非转录因子结合位点但实际分类结果为转录因子结合位点的数据点的个数;准确度可视为算法输出结果正确率的百分比,取值范围为[0,1]。准确度越接近1,正确预测的样本数越高,反之越接近0,正确分类结果的数量越少。F1值较高时,可以表明该算法更接近理想状态。AUC 值为ROC曲线下坐标轴所包围的面积,它更能客观地反映模型的能力。一般来说,AUC 值越高,算法的性能越强。通过上述计算公式可得测试集Dtest的准确度、F1值和AUC分别为0.8943、0.8920和0.9219。
不仅单个碱基的特征对于识别DNA序列中的TFBS很重要,每个碱基旁边的碱基也可能很重要。为了证实这个思想,我们在几个模型上比较了单一基础特征和结合多碱基特征编码方法组合表示的特征。
实验结果(图7)表明,在所有算法中,使用组合特征的分类预测结果的准确性都不同程度地优于使用单一特征的分类预测结果。使用Deep Forest和LightGBM算法后,预测结果的准确性得到有效提升,分别提高了1.75% 和2.54%。因此,我们可以得出结论,组合特征改进了DNA序列特征的提取。我们认为组合特征表示可以捕获DNA序列中的更多特征信息。在实验中,当特征序列的长度设置为3bp时获得了最佳结果,这可能与氨基酸是由三个碱基组成的事实有关。
将数据集D*进行划分后输入TF_DF方法进行模型训练;实现对预测集中各位点的高精度预测。我们对所有提出的分类算法进行了 15 次实验。为了保证公平的对比,每次试验都使用相同的训练数据和测试数据,并且每个模型的参数设置也相同。下表展示了KNN、Adaboost、随机森林、LightGBM、深度森林和TF_DF方法的 15 次实验的平均结果。
Figure 223436DEST_PATH_IMAGE055
相比之下,方法TF_DF的准确率、F1值和AUC分别为89.43%、89.20%和92.19%,都不同程度地高于其他分类算法。这表明方法TF_DF具有更高的预测能力。对比实验结果可以得出结论,本发明设计的TF_DF方法提高了分类器的准确度能力和性能。也就是说,TF_DF方法在转录因子结合位点的分类和预测领域比以往的分类算法的效果要强。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施案例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施案例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,包括如下步骤:
(1)对转录因子结合位点的初始数据集
Figure 389871DEST_PATH_IMAGE001
,进行数据増广,
Figure 864715DEST_PATH_IMAGE002
表示一段DNA序列片段,
Figure 971342DEST_PATH_IMAGE003
表示这段DNA序列是否为结合位点,取值为binding site或non-binding site,计算每条数据的逆序列、互补序列和互补逆序列,将数据集数量扩展到原始数量的4倍大小,得到数据集
Figure 480821DEST_PATH_IMAGE004
,并将数据集D*中的正负样本随机的进行混合;
(2)通过公式
Figure 873756DEST_PATH_IMAGE005
对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1,并结合多碱基特征编码进行特征表示得到特征向量F2,将特征向量F1与F2进行拼接得到组合特征表示F,通过公式
Figure 85164DEST_PATH_IMAGE006
对结果类进行编码;
(3)将步骤(2)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分,得到训练集Dtrain和测试集Dtest,其中Q为数据集D*中训练集的样本数量,R为数据集D*中测试集的样本数量;所述的Q的取值范围为2~5,R的取值为1;
(4)使用T个决策树对训练集Dtrain计算权值向量
Figure 713591DEST_PATH_IMAGE007
,所述d为特征长度,具体计算公式如下:
Figure 828309DEST_PATH_IMAGE008
式中d为特征的总数,
Figure 251200DEST_PATH_IMAGE009
为权值向量W中第i列特征的重要性得分,具体计算公式如下:
Figure 941114DEST_PATH_IMAGE010
式中
Figure 373233DEST_PATH_IMAGE011
为第t个决策树node节点的重要性得分,具体计算公式如下:
Figure 76878DEST_PATH_IMAGE012
式中
Figure 936249DEST_PATH_IMAGE013
Figure 856669DEST_PATH_IMAGE014
分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数;
Figure 358058DEST_PATH_IMAGE015
为每个节点的基尼指数,具体公式如下:
Figure 447368DEST_PATH_IMAGE016
式中 N为训练集Dtrain样本数量,
Figure 743220DEST_PATH_IMAGE017
为该node中类别为0的个数,
Figure 888287DEST_PATH_IMAGE018
为该node中类别为1的个数;
(5)对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为
Figure 927787DEST_PATH_IMAGE019
的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动,将窗口内的特征向量单独提取出来,得到长度为
Figure 606024DEST_PATH_IMAGE019
Figure 807198DEST_PATH_IMAGE020
Figure 593889DEST_PATH_IMAGE021
,u为滑动窗口滑动的次数,u的取值范围是
Figure 14244DEST_PATH_IMAGE022
根据公式
Figure 812566DEST_PATH_IMAGE023
计算加权多粒度扫描的特征,式中
Figure 184642DEST_PATH_IMAGE024
为向量
Figure 569880DEST_PATH_IMAGE025
的转置;将特征
Figure 826549DEST_PATH_IMAGE026
分别送入一个完全随机森林A和一个普通随机森林B,分别得到
Figure 728646DEST_PATH_IMAGE027
Figure 287935DEST_PATH_IMAGE028
;最后将
Figure 642693DEST_PATH_IMAGE027
Figure 811375DEST_PATH_IMAGE028
进行特征拼接得到特征F*;
(6)将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型,将测试集Dtest输入到该分类预测模型中,输出结果为1或0;1代表该DNA序列为转录因子结合位点,0代表该DNA序列为非转录因子结合位点。
2.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,所述多碱基特征编码方法,特征列的长度L可根据公式
Figure 567978DEST_PATH_IMAGE029
获得,其中m为多碱基中碱基长度,m取值为3,碱基A、T、C、G可以组成长度为3bp的序列集合C为:{'AAA', 'AAT', 'AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA', 'ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC', 'TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG', 'GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT', 'GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA', 'CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'},集合C中每个元素设置为一个特征列,共计64个特征列,其元素即为该特征列的特征名;
所述特征向量F2的计算方式为:从DNA序列样本的起始端,以步长为1,长度为3bp的窗口在DNA序列样本上进行滑动提取特征,该窗口中序列所对应的特征列取值为1,直至DNA序列样本末端,即特征向量F2的长度为64。
3.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(3)中Q的取值为4,R的取值为1。
4.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(4)中T的取值为462,树的最大深度为11。
5.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(5)中
Figure 298168DEST_PATH_IMAGE030
的取值为50,L取值为1。
6.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(7)中k的取值为5。
CN202210535743.3A 2022-05-18 2022-05-18 一种基于带权多粒度扫描的转录因子结合位点预测方法 Active CN114639441B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210535743.3A CN114639441B (zh) 2022-05-18 2022-05-18 一种基于带权多粒度扫描的转录因子结合位点预测方法
US18/305,365 US20230386605A1 (en) 2022-05-18 2023-04-23 Predicting method of transcription factor binding sites based on weighted multi-granularity scanning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535743.3A CN114639441B (zh) 2022-05-18 2022-05-18 一种基于带权多粒度扫描的转录因子结合位点预测方法

Publications (2)

Publication Number Publication Date
CN114639441A true CN114639441A (zh) 2022-06-17
CN114639441B CN114639441B (zh) 2022-08-05

Family

ID=81953275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535743.3A Active CN114639441B (zh) 2022-05-18 2022-05-18 一种基于带权多粒度扫描的转录因子结合位点预测方法

Country Status (2)

Country Link
US (1) US20230386605A1 (zh)
CN (1) CN114639441B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092680A (zh) * 2023-03-08 2023-05-09 成都工业学院 基于随机森林算法的腹主动脉瘤早期预测方法及系统
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370899B (zh) * 2023-12-08 2024-02-20 中国地质大学(武汉) 一种基于主成分-决策树模型的控矿因素权重确定方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083084A1 (en) * 2002-10-24 2004-04-29 Mike West Binary prediction tree modeling with many predictors
CN107533586A (zh) * 2015-03-23 2018-01-02 私有通道公司 用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备
CN110335639A (zh) * 2019-06-13 2019-10-15 哈尔滨工业大学(深圳) 一种跨转录因子的转录因子结合位点预测算法及装置
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN112116058A (zh) * 2020-09-16 2020-12-22 昆明理工大学 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法
CN112740239A (zh) * 2018-10-08 2021-04-30 福瑞诺姆控股公司 转录因子分析
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114093420A (zh) * 2022-01-11 2022-02-25 山东建筑大学 一种基于XGBoost的DNA重组位点预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083084A1 (en) * 2002-10-24 2004-04-29 Mike West Binary prediction tree modeling with many predictors
CN107533586A (zh) * 2015-03-23 2018-01-02 私有通道公司 用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备
CN112740239A (zh) * 2018-10-08 2021-04-30 福瑞诺姆控股公司 转录因子分析
CN110335639A (zh) * 2019-06-13 2019-10-15 哈尔滨工业大学(深圳) 一种跨转录因子的转录因子结合位点预测算法及装置
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN112116058A (zh) * 2020-09-16 2020-12-22 昆明理工大学 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114093420A (zh) * 2022-01-11 2022-02-25 山东建筑大学 一种基于XGBoost的DNA重组位点预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONGYAN LI 等: "Predicting Methods of Transcription Factor Binding Sites", 《2021 17TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY (CIS)》 *
刘晓燕 等: "基于组合模型的转录调控网络构建算法研究", 《计算机科学与探索》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN116403645B (zh) * 2023-03-03 2024-01-09 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN116092680A (zh) * 2023-03-08 2023-05-09 成都工业学院 基于随机森林算法的腹主动脉瘤早期预测方法及系统

Also Published As

Publication number Publication date
US20230386605A1 (en) 2023-11-30
CN114639441B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114639441B (zh) 一种基于带权多粒度扫描的转录因子结合位点预测方法
CN108595913B (zh) 鉴别mRNA和lncRNA的有监督学习方法
CN105844300A (zh) 一种基于随机森林算法的优化分类方法及装置
CN110428876B (zh) 一种基于物理指导的机器学习算法的钢铁材料设计方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN112669905B (zh) 基于数据增强的rna序列编码潜力预测方法及系统
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
Yu et al. Exploiting XG boost for predicting enhancer-promoter interactions
CN115240778A (zh) 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
CN113257359A (zh) 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
TWI709904B (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
CN113313167B (zh) 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
Sanabria et al. The human genome’s vocabulary as proposed by the DNA language model GROVER
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
Wali et al. m-CALP–Yet another way of generating handwritten data through evolution for pattern recognition
Nagda et al. promSEMBLE: Hard Pattern Mining and Ensemble Learning for Detecting DNA Promoter Sequences
US11566241B2 (en) Methods and systems for modeling of design representation in a library of editing cassettes
Li et al. High-Activity Enhancer Generation based on Feedback GAN with Domain Constraint and Curriculum Learning
Frasca et al. Modeling gene transcriptional regulation by means of hyperplanes genetic clustering
Wu et al. Multiple sequence alignment using ga and nn
Wingårdh et al. Predicting Antisense Oligonucleotide Thermodynamics using Deep Learning
Gouider et al. Extracting Gradual Rules to Reveal Regulation Between Genes
Abbas et al. 6mA Modification Identification in Rosaceae Genome using SpinalNet Architecture
Tross et al. Models trained to predict differential expression across plant organs identify distal and proximal regulatory regions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant