CN114639441A - 一种基于带权多粒度扫描的转录因子结合位点预测方法 - Google Patents
一种基于带权多粒度扫描的转录因子结合位点预测方法 Download PDFInfo
- Publication number
- CN114639441A CN114639441A CN202210535743.3A CN202210535743A CN114639441A CN 114639441 A CN114639441 A CN 114639441A CN 202210535743 A CN202210535743 A CN 202210535743A CN 114639441 A CN114639441 A CN 114639441A
- Authority
- CN
- China
- Prior art keywords
- feature
- binding site
- transcription factor
- formula
- factor binding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000027455 binding Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 54
- 108091023040 Transcription factor Proteins 0.000 title claims abstract description 50
- 102000040945 Transcription factor Human genes 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 38
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 230000000295 complement effect Effects 0.000 claims abstract description 10
- 230000002441 reversible effect Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000002245 particle Substances 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000003190 augmentative effect Effects 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 102100030246 Transcription factor Sp1 Human genes 0.000 description 3
- 101710085924 Transcription factor Sp1 Proteins 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 210000003917 human chromosome Anatomy 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 230000004568 DNA-binding Effects 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000014493 regulation of gene expression Effects 0.000 description 2
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 101710096438 DNA-binding protein Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Databases & Information Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于带权多粒度扫描的转录因子结合位点预测方法,该方法属于位点预测领域。该方法包含如下步骤:利用逆序列、互补序列和互补逆序列对初始数据集进行増广;使用独热编码和多碱基特征编码结合对DNA序列进行特征表示;划分训练集和测试集;计算特征的权重向量;进行带权的多粒度扫描;通过级联森林进行模型的训练得到转录因子结合位点分类预测模型;将测试集输入到该分类预测模型中,得到分类预测结果;构建评价指标对方法的性能进行评估。该方法克服了现有方法只注重单一碱基特征、训练耗时长、预测精度不高等问题,具有高度的鲁棒性和可移植性。
Description
技术领域
本发明属于位点预测领域,主要是关于一种转录因子结合位点的预测方法,具体涉及到一种基于带权多粒度扫描的转录因子结合位点预测方法。
背景技术
在真核生物中,基因的表达是受很多调控因子调控的,我们把对生物体内基因的调节和控制称为基因表达调控。基因的表达调控对生物适应环境变化、实现自我调控具有极其深远的影响。在真核生物中,转录发生的时间以及转录过程的速率都可以控制基因表达,所以转录调控与基因表达的调控有着密不可分的关系。转录因子作为一种特殊的DNA结合蛋白,可以与DNA模板链结合,进而调控转录过程。转录因子参与了生命活动各个阶段的不同生物学过程,细胞的增殖、生长、分化、凋亡等过程都离不开转录因子的调控作用。转录因子功能异常会导致生命活动异常,进而导致多种疾病的发生。例如,常见的神经系统疾病、冠心病、糖尿病、高血压甚至癌症都与转录因子的变化密切相关。
转录因子结合位点是与转录因子相互结合的DNA序列上的位点,大部分位于DNA序列上游的启动子上。转录因子结合位点的研究有助于研究位点突变引起的一系列疾病,在一些癌症治疗中,转录因子结合位点也是常用的有效药物靶点,这对药物的研发和创新具有极其重要的意义。目前的转录因子结合位点预测方法普遍存在预测准确性不理想或虽然具有较高的精度,但预测实验耗时较长,并且准确度对于较小的数据集并不理想等缺陷,无法满足当前的位点预测需要。因此,我们需要对现有方法进行革新。
发明内容
针对现有转录因子结合位点预测方法的缺陷,本发明提供了一种基于带权多粒度扫描的转录因子结合位点预测方法TF_DF。TF_DF使用了组合特征表示方法来更好的表征DNA序列的潜在特征,结合带权的多粒度扫描方法和级联森林技术提升了预测结果的准确性,使得模型在训练时更加注重那些重要的特征。其目的在于解决当前转录因子结合位点预测方法中预测精度不高以及模型训练时间过长的问题。
包括如下步骤:
(1)对转录因子结合位点的初始数据集,进行数据増广,表示一段DNA序列片段,表示这段DNA序列是否为结合位点,取值为binding site或non-bindingsite,计算每条数据的逆序列、互补序列和互补逆序列,将数据集数量扩展到原始数量的4倍大小,得到数据集,并将数据集D*中的正负样本随机的进行混合;
(2)通过公式对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1,并结合多碱基特征编码进行特征表示得到特征向量F2,将特征向量F1与F2进行拼接得到组合特征表示F,通过公式对结果类进行编码;
(3)将步骤(2)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分,得到训练集Dtrain和测试集Dtest,其中Q为数据集D*中训练集的样本数量,R为数据集D*中测试集的样本数量;所述的Q的取值范围为2~5,R的取值为1;
(5)对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动,将窗口内的特征向量单独提取出来,得到长度为的 和,u为滑动窗口滑动的次数,u的取值范围是;
(6)将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型,将测试集Dtest输入到该分类预测模型中,输出结果为1或0;1代表该DNA序列为转录因子结合位点,0代表该DNA序列为非转录因子结合位点。
优选的,所述多碱基特征编码方法,特征列的长度L可根据公式获得,其中m为多碱基中碱基长度,m取值为3,碱基A、T、C、G可以组成长度为3bp的序列集合C为:{'AAA', 'AAT', 'AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA', 'ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC', 'TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG', 'GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT', 'GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA', 'CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'},集合C中每个元素设置为一个特征列,共计64个特征列,其元素即为该特征列的特征名;
所述特征向量F2的计算方式为:从DNA序列样本的起始端,以步长为1,长度为3bp的窗口在DNA序列样本上进行滑动提取特征,该窗口中序列所对应的特征列取值为1,直至DNA序列样本末端,即特征向量F2的长度为64。
优选的,步骤(3)中Q的取值为4,R的取值为1。
优选的,步骤(4)中T的取值为462,树的最大深度为11。
优选的,步骤(7)中k的取值为5。
与现有技术方法相比,本发明的有益效果是:
本方法TF_DF实现了对转录因子结合位点的高精度预测,尤其是针对小数据集的位点预测。该方法摒弃了单一碱基特征的思想,结合了多碱基特征编码来提取每个碱基上下文的特征,提高了分类预测结果的准确率。同时,基于特征的重要性不同思想,对多粒度扫描进行优化,以获得更好的性能,并使用级联森林进行模型的训练和预测。与现有的转录因子结合位点预测方法相比,本发明具有更高的效率和准确度,且具有更好的鲁棒性和可移植性。
附图说明
图1为基于带权多粒度扫描的转录因子结合位点预测方法流程图;
图2为DNA序列扩展构建数据集示意图;
图3为DNA序列的独热编码规则示意图;
图4为DNA序列数据转换为结合独热编码和多碱基特征编码的特征表示示意图;
图5为DNA序列特征的权值计算结果图;
图6为带权的多粒度扫描方法流程图;
图7为使用组合特征表示方法与单一碱基特征表示方法预测转录因子结合位点类别精度结果对比图。
具体实施方式
为了清楚的阐明本发明的技术方案,下面结合附图1到附图7以及实例对本发明进行阐述,此处的实例仅用于解释本发明,并不限定本发明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语与本发明所属技术领域的普通技术人员的通常理解具有相同含义。
图1展示了使用TF_DF方法预测转录因子结合位点的流程步骤。在数据预处理阶段对初始数据集进行数据増广和特征提取,使用处理好的特征进行模型构建。以带权的多粒度扫描技术为基础,结合级联森林技术对模型进行训练,并使用测试集验证模型的性能。可以说明的是,该方法同样适用于其他DNA结合位点和基于序列特征的遗传元件。本实施例选取的数据集为人类1号染色体的转录因子SP1结合位点数据集。
TF_DF方法的输入文件包含一个CSV类型文件。Raw_data.csv文件为包含人类1号染色体的转录因子SP1结合位点的正样本和负样本各1200条,即原始数据集D。每条数据包含长度为14个碱基的DNA序列和其对应的类别(即结合位点和非结合位点),在该数据集基础上进行初始数据预处理;TF_DF方法的输出文件包含一个CSV类型文件和一个output类型文件。sequence_feature.csv文件为数据预处理得到的数据集D*;TF_classification.output文件为使用TF_DF方法输出的测试集中各位点的预测类别。TF_DF方法的输出为该方法预测的各DNA序列是否为转录因子结合位点。
TF_DF预测方法具体可分为以下步骤:
1、数据预处理
本实施例对人类1号染色体的转录因子SP1结合位点数据集D={D1, D2, ..., Dn}进行预处理。考虑到数据量较少,首先需要对数据集进行数据増广。根据DNA结合位点的序列特征,我们找到每个DNA序列的逆序列、互补序列和互补逆序列,将阳性和阴性样本的数量都扩大到4800条(图2);将阳性和阴性样本随机的混合。然后,通过公式对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1(图3)。最后,多碱基特征编码中设置序列片段长度为3bp,即由碱基A、T、C、G组成的3bp长度的序列集合C长度为64(64个特征列)。对于每条数据,如果包含某个序列特征,则将该数据对应的特征列记录为“1”,以此构成特征向量F2。最终获得的每条数据的特征F是一个独热编码和多碱基特征编码的组合,即特征向量F1和特征向量F2的拼接(图4)。数据预处理操作(以数据{‘ATCCGTTTCCGGGT’,‘binding site’}为例):
(1)根据DNA序列的逆序列、互补序列和互补逆序列扩充的3条数据分别为{‘TGGGCCTTTGCCTA’,‘binding site’},{‘TAGGAAAAGGCCCA’,‘binding site’},{‘ACCCGGAAACGGAT’,‘binding site’};
(2)以数据{‘ATCCGTTTCCGGGT’,‘binding site’}为例展示特征提取示例,对该DNA序列数据进行独热编码得到特征向量F1 为(1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1,0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1);
(3)结合多碱基特征编码对该DNA序列进行特征表示得到特征向量F2为 (0, 0,0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 0, 0, 0, 1, 0);
(4)对特征向量F1和特征向量F2进行拼接得到特征向量F为 (1, 0, 0, 0, 0, 0,0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 0, 0, 0, 1, 0);
在本实施例中,数据预处理之后数据集D*包含正样本4800个,负样本4800个,每条样本数据包含120个特征项和1个结果特征类。将正负样本进行打乱混合。
2、划分训练集和测试集
将步骤(1)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为4:1进行划分,得到训练集Dtrain和测试集Dtest;该实例数据集划分后训练集Dtrain和测试集Dtest中的样本数量分别为7680个和1920个。
3、特征权重计算
使用462个决策树对训练集Dtrain进行权值向量W的计算。根据公式计算每个节点的基尼指数,式中N为训练集Dtrain样本数量,Nnode,0为该node中类别0的个数,Nnode,1为该node中类别1的个数。根据公式计算每个节点的重要性得分,式中和分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数。根据公式 计算第i列特征的重要性得分,式中T为决策树的个数。根据公式进行每个特征的权值计算Wi,式中为第i列特征的重要性得分,d为特征的总数。
在本实例中,权值排名靠前的10个部分特征以及其对应的权值结果为:
图5展示了DNA序列所有的特征以及其权值计算结果。
4、带权的多粒度扫描
如图6所示,对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为的滑动窗口分别在长度为120的特征向量F和权值向量W上滑动,得到和 。根据公式计算加权多粒度扫描的特征,式中为向量的转置。将特征分别送入一个完全随机森林A和一个普通随机森林B,分别得到和。最后将和进行特征拼接得到特征F*。
5、转录因子结合位点的预测
将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型。将测试集Dtest分别输入到该分类预测模型中,以验证模型的性能。
以预测DNA序列“GGGGCGGGGCCGGC”为例。则该DNA序列的最终分类预测结果为‘1’,即为转录因子结合位点。
6、方法性能评估
根据5折交叉验证和三种评价指标对该方法的性能进行评估,分别通过公式,公式计算该方法的准确度和F1值,式中a为预测分类结果与实际分类结果一致的样本个数,b为测试集Dtest中样本个数,p值和r值分别通过公式和公式计算得到,式中TP为预测分类结果为转录因子结合位点且实际分类结果也为转录因子结合位点的数据点的个数,FP为预测分类结果为转录因子结合位点但实际分类结果为非转录因子结合位点的数据点的个数,FN为预测分类结果为非转录因子结合位点但实际分类结果为转录因子结合位点的数据点的个数;准确度可视为算法输出结果正确率的百分比,取值范围为[0,1]。准确度越接近1,正确预测的样本数越高,反之越接近0,正确分类结果的数量越少。F1值较高时,可以表明该算法更接近理想状态。AUC 值为ROC曲线下坐标轴所包围的面积,它更能客观地反映模型的能力。一般来说,AUC 值越高,算法的性能越强。通过上述计算公式可得测试集Dtest的准确度、F1值和AUC分别为0.8943、0.8920和0.9219。
不仅单个碱基的特征对于识别DNA序列中的TFBS很重要,每个碱基旁边的碱基也可能很重要。为了证实这个思想,我们在几个模型上比较了单一基础特征和结合多碱基特征编码方法组合表示的特征。
实验结果(图7)表明,在所有算法中,使用组合特征的分类预测结果的准确性都不同程度地优于使用单一特征的分类预测结果。使用Deep Forest和LightGBM算法后,预测结果的准确性得到有效提升,分别提高了1.75% 和2.54%。因此,我们可以得出结论,组合特征改进了DNA序列特征的提取。我们认为组合特征表示可以捕获DNA序列中的更多特征信息。在实验中,当特征序列的长度设置为3bp时获得了最佳结果,这可能与氨基酸是由三个碱基组成的事实有关。
将数据集D*进行划分后输入TF_DF方法进行模型训练;实现对预测集中各位点的高精度预测。我们对所有提出的分类算法进行了 15 次实验。为了保证公平的对比,每次试验都使用相同的训练数据和测试数据,并且每个模型的参数设置也相同。下表展示了KNN、Adaboost、随机森林、LightGBM、深度森林和TF_DF方法的 15 次实验的平均结果。
相比之下,方法TF_DF的准确率、F1值和AUC分别为89.43%、89.20%和92.19%,都不同程度地高于其他分类算法。这表明方法TF_DF具有更高的预测能力。对比实验结果可以得出结论,本发明设计的TF_DF方法提高了分类器的准确度能力和性能。也就是说,TF_DF方法在转录因子结合位点的分类和预测领域比以往的分类算法的效果要强。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施案例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施案例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,包括如下步骤:
(1)对转录因子结合位点的初始数据集,进行数据増广,表示一段DNA序列片段,表示这段DNA序列是否为结合位点,取值为binding site或non-binding site,计算每条数据的逆序列、互补序列和互补逆序列,将数据集数量扩展到原始数量的4倍大小,得到数据集,并将数据集D*中的正负样本随机的进行混合;
(2)通过公式对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1,并结合多碱基特征编码进行特征表示得到特征向量F2,将特征向量F1与F2进行拼接得到组合特征表示F,通过公式对结果类进行编码;
(3)将步骤(2)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分,得到训练集Dtrain和测试集Dtest,其中Q为数据集D*中训练集的样本数量,R为数据集D*中测试集的样本数量;所述的Q的取值范围为2~5,R的取值为1;
(5)对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动,将窗口内的特征向量单独提取出来,得到长度为的 和,u为滑动窗口滑动的次数,u的取值范围是;
(6)将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型,将测试集Dtest输入到该分类预测模型中,输出结果为1或0;1代表该DNA序列为转录因子结合位点,0代表该DNA序列为非转录因子结合位点。
2.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,所述多碱基特征编码方法,特征列的长度L可根据公式获得,其中m为多碱基中碱基长度,m取值为3,碱基A、T、C、G可以组成长度为3bp的序列集合C为:{'AAA', 'AAT', 'AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA', 'ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC', 'TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG', 'GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT', 'GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA', 'CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'},集合C中每个元素设置为一个特征列,共计64个特征列,其元素即为该特征列的特征名;
所述特征向量F2的计算方式为:从DNA序列样本的起始端,以步长为1,长度为3bp的窗口在DNA序列样本上进行滑动提取特征,该窗口中序列所对应的特征列取值为1,直至DNA序列样本末端,即特征向量F2的长度为64。
3.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(3)中Q的取值为4,R的取值为1。
4.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(4)中T的取值为462,树的最大深度为11。
6.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,步骤(7)中k的取值为5。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535743.3A CN114639441B (zh) | 2022-05-18 | 2022-05-18 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
US18/305,365 US20230386605A1 (en) | 2022-05-18 | 2023-04-23 | Predicting method of transcription factor binding sites based on weighted multi-granularity scanning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535743.3A CN114639441B (zh) | 2022-05-18 | 2022-05-18 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114639441A true CN114639441A (zh) | 2022-06-17 |
CN114639441B CN114639441B (zh) | 2022-08-05 |
Family
ID=81953275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210535743.3A Active CN114639441B (zh) | 2022-05-18 | 2022-05-18 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230386605A1 (zh) |
CN (1) | CN114639441B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092680A (zh) * | 2023-03-08 | 2023-05-09 | 成都工业学院 | 基于随机森林算法的腹主动脉瘤早期预测方法及系统 |
CN116403645A (zh) * | 2023-03-03 | 2023-07-07 | 阿里巴巴(中国)有限公司 | 转录因子结合位点的预测方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370899B (zh) * | 2023-12-08 | 2024-02-20 | 中国地质大学(武汉) | 一种基于主成分-决策树模型的控矿因素权重确定方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040083084A1 (en) * | 2002-10-24 | 2004-04-29 | Mike West | Binary prediction tree modeling with many predictors |
CN107533586A (zh) * | 2015-03-23 | 2018-01-02 | 私有通道公司 | 用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备 |
CN110335639A (zh) * | 2019-06-13 | 2019-10-15 | 哈尔滨工业大学(深圳) | 一种跨转录因子的转录因子结合位点预测算法及装置 |
CN111312329A (zh) * | 2020-02-25 | 2020-06-19 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
CN112116058A (zh) * | 2020-09-16 | 2020-12-22 | 昆明理工大学 | 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法 |
CN112740239A (zh) * | 2018-10-08 | 2021-04-30 | 福瑞诺姆控股公司 | 转录因子分析 |
CN113593634A (zh) * | 2021-08-06 | 2021-11-02 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN114093420A (zh) * | 2022-01-11 | 2022-02-25 | 山东建筑大学 | 一种基于XGBoost的DNA重组位点预测方法 |
-
2022
- 2022-05-18 CN CN202210535743.3A patent/CN114639441B/zh active Active
-
2023
- 2023-04-23 US US18/305,365 patent/US20230386605A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040083084A1 (en) * | 2002-10-24 | 2004-04-29 | Mike West | Binary prediction tree modeling with many predictors |
CN107533586A (zh) * | 2015-03-23 | 2018-01-02 | 私有通道公司 | 用于加强生物信息学数据隐私和实现生物信息学数据广泛共享的系统、方法和设备 |
CN112740239A (zh) * | 2018-10-08 | 2021-04-30 | 福瑞诺姆控股公司 | 转录因子分析 |
CN110335639A (zh) * | 2019-06-13 | 2019-10-15 | 哈尔滨工业大学(深圳) | 一种跨转录因子的转录因子结合位点预测算法及装置 |
CN111312329A (zh) * | 2020-02-25 | 2020-06-19 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
CN112116058A (zh) * | 2020-09-16 | 2020-12-22 | 昆明理工大学 | 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法 |
CN113593634A (zh) * | 2021-08-06 | 2021-11-02 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN114093420A (zh) * | 2022-01-11 | 2022-02-25 | 山东建筑大学 | 一种基于XGBoost的DNA重组位点预测方法 |
Non-Patent Citations (2)
Title |
---|
DONGYAN LI 等: "Predicting Methods of Transcription Factor Binding Sites", 《2021 17TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY (CIS)》 * |
刘晓燕 等: "基于组合模型的转录调控网络构建算法研究", 《计算机科学与探索》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403645A (zh) * | 2023-03-03 | 2023-07-07 | 阿里巴巴(中国)有限公司 | 转录因子结合位点的预测方法及装置 |
CN116403645B (zh) * | 2023-03-03 | 2024-01-09 | 阿里巴巴(中国)有限公司 | 转录因子结合位点的预测方法及装置 |
CN116092680A (zh) * | 2023-03-08 | 2023-05-09 | 成都工业学院 | 基于随机森林算法的腹主动脉瘤早期预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20230386605A1 (en) | 2023-11-30 |
CN114639441B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114639441B (zh) | 一种基于带权多粒度扫描的转录因子结合位点预测方法 | |
CN108595913B (zh) | 鉴别mRNA和lncRNA的有监督学习方法 | |
CN105844300A (zh) | 一种基于随机森林算法的优化分类方法及装置 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN112669905B (zh) | 基于数据增强的rna序列编码潜力预测方法及系统 | |
Yu et al. | Exploiting XG boost for predicting enhancer-promoter interactions | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN113257359A (zh) | 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法 | |
TWI709904B (zh) | 訓練類神經網路以預測個體基因表現特徵的方法及系統 | |
Sanabria et al. | The human genome’s vocabulary as proposed by the DNA language model GROVER | |
Chen et al. | Multiple DNA sequence alignment based on genetic algorithms and divide-and-conquer techniques | |
CN113313167B (zh) | 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
Wali et al. | m-CALP–Yet another way of generating handwritten data through evolution for pattern recognition | |
Wang et al. | DeepCBA: a deep learning framework for gene expression prediction in maize based on DNA sequence and chromatin interaction | |
CN108182347B (zh) | 一种大规模跨平台基因表达数据分类方法 | |
Frasca et al. | Modeling gene transcriptional regulation by means of hyperplanes genetic clustering | |
US11566241B2 (en) | Methods and systems for modeling of design representation in a library of editing cassettes | |
Nagda et al. | promSEMBLE: Hard Pattern Mining and Ensemble Learning for Detecting DNA Promoter Sequences | |
Li et al. | High-Activity Enhancer Generation based on Feedback GAN with Domain Constraint and Curriculum Learning | |
Wu et al. | Multiple sequence alignment using ga and nn | |
Wingårdh et al. | Predicting Antisense Oligonucleotide Thermodynamics using Deep Learning | |
Gouider et al. | Extracting Gradual Rules to Reveal Regulation Between Genes | |
Tross et al. | Models trained to predict differential expression across plant organs identify distal and proximal regulatory regions | |
Abbas et al. | 6mA Modification Identification in Rosaceae Genome using SpinalNet Architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |