CN111933215A - 一种转录因子结合位点搜索方法、系统、存储介质、终端 - Google Patents

一种转录因子结合位点搜索方法、系统、存储介质、终端 Download PDF

Info

Publication number
CN111933215A
CN111933215A CN202010510662.9A CN202010510662A CN111933215A CN 111933215 A CN111933215 A CN 111933215A CN 202010510662 A CN202010510662 A CN 202010510662A CN 111933215 A CN111933215 A CN 111933215A
Authority
CN
China
Prior art keywords
tfbs
sequence
sequences
searching method
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010510662.9A
Other languages
English (en)
Other versions
CN111933215B (zh
Inventor
于强
胡雅娜
张晓�
张瑞燊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010510662.9A priority Critical patent/CN111933215B/zh
Publication of CN111933215A publication Critical patent/CN111933215A/zh
Application granted granted Critical
Publication of CN111933215B publication Critical patent/CN111933215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于高通量测序技术领域,公开了一种转录因子结合位点搜索方法、系统、存储介质、终端,基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。本发明提出了新的搜索算法SCPD,该算法融合了基于位置权值矩阵的TFBS搜索算法和基于深度学习的TFBS搜索算法,实现在保证良好准确率的前提下,更加高效的搜索TFBS。

Description

一种转录因子结合位点搜索方法、系统、存储介质、终端
技术领域
本发明属于高通量测序技术领域,尤其涉及一种转录因子结合位点搜索方法TFBS搜索方法、系统、存储介质、终端。
背景技术
目前,基因表达是受到调控的,转录水平上的调控对基因表达起着至关重要的作用。转录因子结合到DNA序列影响着转录的时间、位置和效率。与转录因子结合的DNA序列位点称为转录因子结合位点(Transcription factor binding sites,TFBS)。搜索TFBS对研究基因的转录调控有着重要意义。如果某一序列中含有某个转录因子的结合位点,那么称这条序列对这个转录因子是特异的。已知某转录因子的结合位点信息,在给定的DNA序列数据集中,搜索该转录因子的结合位点,称为TFBS搜索。随着高通量测序技术的不断发展,高通量测序数据集已成为基因组水平搜索TFBS的重要数据来源。当前要处理规模庞大的高通量测序数据集,使得研究者面临着计算性能和搜索准确率等多方面的挑战。
在DNA序列中搜索TFBS是计算生物学中的热点问题,在过去的二十多年时间里,涌现了大量的研究工作。因为当前的TFBS数据库主要使用位置权值矩阵(Position weightmatrix,PWM)表示TFBS信息,所以大多数TFBS搜索算法是基于PWM的,并将序列集合Dt中p-value小于等于一个阈值α的位点作为TFBS。根据搜索策略,基于PWM的TFBS搜索算法主要包含两类算法:基于索引的算法和在线算法。基于索引的算法构建Dt的索引结构,比如后缀树和后缀数组等,然后在索引结构上逐个搜索PWM的各个可能的显著位点;构建索引结构的时间是O(||Dt||),其中||Dt||是Dt中的字符个数,搜索特定显著位点的时间是O(l),其中l是位点的长度。在线算法通过使用滑动窗口、确定的有限自动机(DeterministicFiniteAutomaton,DFA)、矩阵相乘等方法从前向后扫描一遍Dt来找出PWM的显著位点,其中同济大学的Gao等人通过使用k近邻方法加速了扫描过程中的矩阵相乘计算。虽然PWM易于解释,并且基于PWM的搜索算法运行效率高,但由于TFBS结合的亲密度有时较低,并且侧翼序列也会在搜索TFBS时产生干扰,所以用PWM表示TFBS信息存在缺陷。越来越多的证据表明,TFBS可以由更复杂的技术进行更为精准的刻画。其中,最成功有效的是深度学习方法,该方法针对某一特定转录因子的结合位点训练大量的DNA序列数据,得出此转录因子的特异性序列分类器,能够很精准地判别输入的测试序列中是否含有此转录因子的结合位点。Alipanahi等人于2015年基于卷积神经网络提出了第一个用于TFBS搜索的深度学习方法DeepBind,随后又涌现了一系列的相关研究工作。国内同济大学的黄德双教授团队提出了一种基于弱监督卷积神经网络的深度学习方法和一种基于高阶卷积神经网络结构的深度学习方法。中科院张世华教授团队使用了几种技巧进一步改进了基于卷积神经网络的深度学习方法。
现有TFBS搜索算法还存在以下问题,基于PWM的TFBS搜索方法虽然可以在短时间内高效的搜索TFBS,但是当阈值较小时,只能搜索出一小部分的TFBS,而当阈值较大时,会将DNA序列中随机出现的位点误判成TFBS,导致准确率下降。基于深度学习的TFBS搜索方法可以更为精准的刻画TFBS信息,但是由于判别时的卷积操作较为复杂,相对于PWM搜索会产生相对较大的时间开销,并且网络模型越复杂时间开销越大。
在DNA序列中搜索TFBS等调控元件是构建基因调控网络的基础。随着高通量测序技术的不断发展,当前要处理规模庞大的高通量测序数据集,使得研究者面临着计算性能和搜索准确率等多方面的挑战。当前TFBS数据库主要使用PWM存储TFBS信息,所以大多数TFBS搜索算法是基于PWM展开的,这类算法搜索效率很高,但可能会搜索出大量随机出现的位点。近年来研究者使用更为复杂的方法搜索TFBS,其中最为有效的是深度学习方法,它的搜索准确率高,但执行时间相对较长,特别是模型结构很复杂的时候。
通过上述分析,现有技术存在的问题及缺陷为:
(1)基于PWM的TFBS搜索算法,当阈值较小时,只能搜索出一小部分的TFBS;当阈值较大时,将DNA序列中随机出现的位点误判成TFBS,导致准确率下降。
(2)基于深度学习的TFBS搜索方法由于判别时的卷积操作较为复杂,相对于PWM搜索会产生相对较大的时间开销,并且网络模型越复杂时间开销越大。
解决以上问题及缺陷的难度为:
通常只使用基于PWM的方法来搜索TFBS普遍存在假阳性率偏高的情况,因为很多非结合位点也会存在和PWM匹配的情况。这个是基于PWM的TFBS搜索算法固有的问题。
基于深度学习的TFBS搜索方法采用卷积神经网络来判别一个DNA序列是否含有某转录因子的结合位点。因为卷积操作计算过程复杂,故在识别的过程中会有较大的时间开销,并且网络模型越复杂时间开销越大。所以,只用基于深度学习的方法搜索TFBS,时间开销较大。
解决以上问题及缺陷的意义为:
通过融合基于PWM的TFBS搜索方法和基于深度学习的TFBS搜索方法形成一种新的算法。相对于基于PWM的TFBS搜索方法,新算法提高了判别的准确率,减少了搜索出假阳性数据的数量。相对于基于深度学习的TFBS搜索算法,新算法减少了运行时间。当搜索单个转录因子的结合位点时,所提算法在保证搜索准确率良好的情况下使用尽可能少的运行时间;当搜索多个转录因子的结合位点时,所提算法使用很少的运行时间即可高精准地搜索出特异的TFBS。
发明内容
针对现有技术存在的问题,本发明提供了一种TFBS搜索方法、系统、存储介质、终端。
本发明是这样实现的,一种TFBS搜索方法,所述TFBS搜索方法包括:
基于PWM的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合。序列第一集合是输入的DNA序列数据集Dt,包含t条DNA序列,分别为S1,S2,...,St。首先,计算特定PWM下所有位点的p-value值,将p-value值小于等于阈值α的位点作为潜在的TFBS。然后用字符串匹配算法扫描序列第一集合中的每条序列Si(1≤i≤t),如果序列Si中含有潜在的TFBS,则将此TFBS信息添加到TFBS集合中;如果序列Si不含有TFBS,则将序列Si存入序列第二集合。
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中。序列第二集合是基于PWM的TFBS搜索方法没有搜索出TFBS的序列的集合。用大量含有特定转录因子的结合位点的DNA序列训练序列分类器,然后用该分类器识别序列第二集合中的每条序列,如果判断一条序列含有TFBS,将该序列存入序列第三集合中。
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。序列第三集合是基于深度学习的TFBS搜索方法判断出的含有TFBS的序列的集合,但序列中TFBS的具体出现位置有待进一步确定。对于序列第三集合中的每条序列,将此序列中得分最高的位点作为TFBS,并将其信息添加到TFBS集合中。如下式所示,每个位点的分数Score(u)等于在每个位置出现该碱基的概率比上背景序列中该碱基出现的概率取对数后累加的和,其中m(j,uj)表示位置j上碱基uj出现的概率,b(uj)表示碱基uj在背景序列中出现的概率。
Figure BDA0002528271160000041
进一步,所述TFBS搜索方法的阈值α确定,引入限制条件:基于PWM的TFBS搜索方法的准确率Acc,包含p-value≤α的位点的正样本序列和负样本序列的个数分别为x和y,准确率Acc的计算公式:
Figure BDA0002528271160000051
求解的阈值α对应于一个最大的数值x,并且满足Acc大于等于深度学习的准确率AccDB。
进一步,所述TFBS搜索方法的阈值α确定包括:
(1)确定采样区间[a,b];
(2)在给定的采样区间中均匀的采集包括a和b在内的n个数,将采样区间分成n-1等份,将这n个数依次赋值给阈值α,输出对应的准确率Acc,找到满足Acc大于等于AccDB的最大阈值,如果没有满足Acc大于等于AccDB的阈值,则找到最高准确率所对应的阈值;
(3)在n个数中找到和过程(2)确定的阈值相邻的数,将较小的相邻的数赋值给a,较大的相邻的数赋值给b,生成新的采样区间[a,b];
(4)重复执行采样过程(2)~(3),直到采样区间小于0.000001,输出最佳阈值。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
基于PWM的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
基于PWM的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。
本发明的另一目的在于提供一种实施所述TFBS搜索方法的TFBS搜索系统,所述TFBS搜索系统包括:
TFBS集合处理模块,用于实现基于PWM的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
TFBS序列处理模块,用于实现基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
TFBS集合输出模块,用于计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并将其添加到TFBS集合中,输出TFBS集合。
本发明的另一目的在于提供一种高通量测序终端,所述高通量测序终端搭载所述的TFBS搜索系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:因为深度学习方法对某一特定转录因子的结合位点进行判别,本发明将特异性序列分类器看作一种TFBS表示,称为深度学习表示。本发明提出了新的搜索算法,称为SCPD(Searching TFBS byCombining PWM based method and Deep learning based method),该算法融合了基于PWM的TFBS搜索算法和基于深度学习的TFBS搜索算法,实现在保证良好准确率的前提下,更加高效的搜索TFBS。SCPD算法的基本思路是为每个转录因子精心地确定出一个统计显著性阈值,使得基于PWM的搜索算法按此阈值可以高精准地搜索出尽可能多的位点,然后用基于深度学习的搜索算法处理按此阈值未搜索出位点的序列。将基于PWM的TFBS搜索算法和基于深度学习的TFBS搜索方法相融合形成了一种新的TFBS搜索算法SCPD,实现在保证良好准确率的前提下,更加高效的搜索TFBS。基本思路是为每个转录因子精心地确定出一个统计显著性阈值,使得基于PWM的搜索算法按此阈值可以高精准地搜索出尽可能多的位点,然后用基于深度学习的搜索算法处理按此阈值未搜索出位点的序列。实验结果表明,当搜索某个特定的转录因子的结合位点时,SCPD在保证搜索准确率高的情况下使用尽可能少的运行时间。当SCPD应用于搜索多个转录因子的结合位点时,可以使用很少的运行时间高精准地搜索出特异的TFBS。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的TFBS搜索方法流程图。
图2是本发明实施例提供的TFBS搜索系统的结构示意图;
图中:1、TFBS集合处理模块;2、TFBS序列处理模块;3、TFBS集合输出模块。
图3是本发明实施例提供的搜索特定转录因子的结合位点的流程图。
图4是本发明实施例提供的确定阈值α的流程图。
图5是本发明实施例提供的moods算法中x随阈值α变化趋势图。
图6是本发明实施例提供的moods算法准确率随阈值α变化趋势图。
图7是本发明实施例提供的准确率对比图。
图8是本发明实施例提供的运行时间对比图。
图9是本发明实施例提供的多个转录因子的结合位点在其特异性序列中的阈值β示意图。
图10是本发明实施例提供的搜索多个转录因子的结合位点运行时间对比图。
图11是本发明实施例提供的两种算法运行时间与转录因子个数关系图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种TFBS搜索方法、系统、存储介质、终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的TFBS搜索方法包括以下步骤:
S101:基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
S102:基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
S103:计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并将其添加到TFBS集合中,输出TFBS集合。
本发明提供的TFBS搜索方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的TFBS搜索方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的TFBS搜索系统包括:
TFBS集合处理模块1,用于实现基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合。
TFBS序列处理模块2,用于实现基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中。
TFBS集合输出模块3,用于计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并将其添加到TFBS集合中,输出TFBS集合。
下面结合附图对本发明的技术方案作进一步的描述。
本发明提供的TFBS搜索方法。基于PWM的TFBS搜索方法可以在短时间内搜索TFBS,当阈值α较小时,结果的准确率较高,但准确率随着阈值α的增大呈下降趋势。这样,如果使用一个合适的阈值α,使得基于PWM的方法在此阈值下的准确率大于等于深度学习的准确率,那么就可以保证搜索出的TFBS有良好准确率。基于深度学习的TFBS搜索方法运行速度相对较慢,但准确率相对较高,特别是其准确率受序列的影响很小。这样,可以使用基于深度学习的方法判别基于PWM的方法未搜索出TFBS的序列,从而保证整体的良好准确率。
基于以上考虑,SCPD算法融合基于PWM的TFBS搜索方法和基于深度学习的TFBS搜索方法。确定合适的阈值α是一个关键点。假定已知道合适的阈值α的情况下,SCPD的基本流程如图3所示。
首先,用基于PWM的TFBS搜索方法扫描输入的DNA序列数据集(序列第一集合),将找到的TFBS的信息存入TFBS集合,将没有找到TFBS的序列存入序列第二集合中。本发明实验过程中采用的基于PWM的TFBS搜索方法是moods算法。
其次,用基于深度学习的TFBS搜索方法扫描第二集合中的序列,将判断含有TFBS的序列存入序列第三集合。本发明实验过程中采用的基于深度学习的TFBS搜索方法是DeepBind算法。
最后,计算序列第三集合中每条序列中各个位点的分数,将每条序列中分数最高的位点作为TFBS并将其添加到TFBS集合中。找到每条序列中的TFBS后,输出TFBS集合。
本发明提供的TFBS搜索方法的阈值α确定:因为基于深度学习的TFBS搜索方法的运行时间和待扫描序列数量呈线性增长关系,所以为了提高SCPD算法搜索TFBS的速度,本发明希望基于PWM的TFBS搜索算法判别出尽可能多的序列。但是,当阈值α增大时,在负样本序列中找到p-value≤α位点的概率也增大,从而会造成误判。为了降低这种误判的概率,本发明引入另一个限制条件:基于PWM的TFBS搜索方法的准确率Acc。令包含p-value≤α的位点的正样本序列和负样本序列的个数分别为x和y。那么准确率Acc的计算公式如下:
Figure BDA0002528271160000101
这样,求解的阈值α是一个尽可能大的p-value值,其对应于一个最大的数值x,并且满足Acc大于等于深度学习的准确率AccDB。需要注意的是,根据实验观察,当阈值α增大时,基于PWM的TFBS搜索算法的准确率Acc会整体呈下降趋势,但局部有所波动。
基于这些考虑,本发明基于采样的方式来确定阈值α,流程如图4所示。首先,确定采样区间[a,b]。根据实验数据可知,当阈值等于0.000001时,只能搜索出很少的TFBS或者搜索不到TFBS。当阈值等于0.01时,基本上可以在所有的DNA序列中搜索出TFBS。所以选定的初始采样区间为[0.000001,0.01]。其次,在给定的采样区间中均匀的采集包括a和b在内的n个数,将采样区间分成n-1等份。将这n个数依次赋值给阈值α,进行实验,输出对应的准确率Acc,找到满足Acc大于等于AccDB的最大阈值,如果没有满足Acc大于等于AccDB的阈值,则找到最高准确率所对应的阈值。然后,在n个数中找到和确定的阈值相邻的数,将较小的相邻的数赋值给a,较大的相邻的数赋值给b,生成新的采样区间[a,b],重复执行上述采样过程,直到采样区间小于0.000001,输出最佳阈值。
下面结合实验对本发明的技术效果作详细的描述。
1、实验设定
就本课题的开展,用到的实验环境是1.6GHz的单核处理器、4GB内存,64位操作系统、15.5.1.50853版的VMware Workstation和Ubuntu16.0.4。
PWM表示下的模体是从Jaspar数据库中下载。Jaspar数据库网址为http://jaspar.genereg.net/。DNA数据集是从UCSC网站中下载。网站下载地址为http://hgdownload.soe.ucsc.edu/。
本实验是在Ubuntu系统中完成的。在计算机上安装了VMware Workstation软件,然后在该软件中安装了Ubuntu系统。然后在Ubuntu系统中运行的实验数据。
验证算法的准确率,准确率Accuracy的含义是每种算法判断正确的序列个数RN和序列总个数的比值。其中判断正确的序列包含在特异性序列中找到TFBS的序列和在非特异性序列中没找到TFBS的序列,序列总个数表示待扫描数据集中序列的总数||Dt||。计算公式如下:
Figure BDA0002528271160000111
2、观察与分析
通过实验数据可知随着阈值α的变化,moods算法识别出正序列的总数x是在不断增加的。以以下六组数据为例,实验结果如图5所示。
在阈值α不断增加的过程中,找到的p-value值小于等于阈值α的位点也在不断的增加,所以找到含有p-value值小于等于阈值α位点的序列总数会增加。找到的位点一部分出现在正数据中的序列上,一部分存在于负数据的序列上。随着阈值α增加,正数据中找到的含有p-value值小于等于阈值α位点的序列总数x在不断地增加。
通过实验数据还可以知道随着阈值α的变化,moods算法的搜索准确率呈现下降趋势,局部会存在波动。如图6所示。
随着阈值α的增大,moods算法识别出含有TFBS序列的总数目会不断的增加。这些识别出来含有TFBS的序列一部分是正数据中的序列,一部分是负数据中的序列。当阈值α较小时,只有p-value值较小的结合位点才能被找到,正数据中被特定表达出来的结合位点的p-value值比随机表达的结合位点的p-value值小,所以正数据中的结合位点更容易被找到。所以当阈值α较小时,moods算法的准确率相对较高。随着阈值α的不断增大,正数据中找到含有TFBS的序列总数不断增加,但因为负数据中也存在随机表达的结合位点,负数据中被找到含有随机表达的结合位点的序列总数也会不断增加。因为待扫描DNA数据集中包含一半的正数据和一半的负数据,所以当阈值α足够大的情况下,moods算法的准确率为0.5。由此可知,随着阈值α的增大,moods的准确率总体呈现下降趋势。但是在阈值α不断增大的过程中,可能会出现正数据中新增的含有TFBS的序列总数大于负数据中新增的含有TFBS序列总数的情况,此时moods算法的准确率会上升。例如,当α=0.0001时,正数据中发现含有TFBS的序列总数为300,负数据中发现含有TFBS序列总数为100。当α=0.0002时,正数据中发现含有TFBS的序列总数为400,负数据中发现含有TFBS的序列总数仍为100。根据公式(1)可知,当α=0.0001时,moods算法的准确率为0.75;当α=0.0002时,moods算法的准确率为0.8。当α=0.0002时,moods算法的准确率会向上浮动。所以说,随着阈值α的增加,moods算法的准确率整体是呈现下降趋势,但局部有波动。
3、搜索特定转录因子的结合位点算法性能验证
使用20组人类DNA数据集和其对应的转录因子的结合位点信息做为测试数据,测试数据分别为转录因子Zbtb33、Pou2f2、Gata1、Hnf4g、Prdm1、Gata3、Erg1、Sp4、Tcf3、Foxa2、Foxp2、Irf1、Mef2c、Pax5、Runx3、Stat3、Yy1、Znf43、Ets1、Cebpb的结合位点信息和其所对应的DNA数据集,DNA数据集中特异性序列和非特性序列的条数是1:1。通过以上提到的20组数据测试新算法的准确率和运行时间。新算法融合了moods算法和DeepBind算法,因为moods算法的准确率受阈值α的影响,在前一节已展示了具体关系,在此就不在赘述。所以将比较新算法和DeepBind算法的运行时间和准确率。
3.1验证搜索准确率
将20组人类DNA数据集作为SCPD算法和DeepBind算法的输入项,输入数据经过两种算法的处理,分别输出对应的准确率。两种算法的准确率对比图如图7所示。由图7可知,SCPD算法的准确率和DeepBind算法准确率相当。在设计SCPD算法的时候,为了提高算法的准确率,引入了阈值α。通过控制阈值α的大小,使得SCPD算法的准确率不低于DeepBind算法的准确率,从而保证SCPD算法有良好的的准确率。虽然SCPD算法的准确率和DeepBind算法的准确率相当,但是SCPD算法的运行时间更短。
3.2验证运行时间
用20组人类DNA数据集测试SCPD算法和DeepBind算法的运行时间。两种算法的运行时间对比图如图8所示,运行时间的单位是秒(s)。
由图可知SCPD算法的运行时间明显低于DeepBind算法运行时间。相比于DeepBind算法,SCPD算法在保证较高准确率的情况下缩短了运行时间。
运行时间受待扫描序列的长度影响。DeepBind算法的运行时间和待扫描序列长度呈现线性关系,待扫描序列长度越长,运行时间较长。SCPD算法的运行时间也受到待扫描序列长度的影响,当待扫描序列长度较长时,SCPD算法的运行时间相对较长。所以图8中,由于20组待扫描序列的长度不同,所以他们的运行时间不同。
在最佳阈值α的情况下,SCPD算法使用AC自动机搜索出来序列的数目会影响运行时间。因为待扫描数据集中序列的数目是一定的,当AC自动机搜索出来的序列数目越多,特异性序列分类器扫描的序列数目就越少。相比于特异性序列分类器扫描待测序列集的时间,AC自动机扫描时间较短,所以SCPD算法运行时间主要受到特异性序列分类器影响。当输入特异性序列分类器的待扫描序列数量较少时,特异性序列分类器运行时间也较短。所以当AC自动机搜索出来的序列越多时,输入特异性序列分类器的序列越少,特异性序列分类器运行时间越短,SCPD算法的运行时间也越短。对于同一个转录因子的结合位点,因为输入DeepBind算法的待扫描序列总数目大于输入SCPD算法中特异性序列分类器中的序列总数目,所以相比于DeepBind算法,SCPD算法的运行时间较短。
由图7和图8可知,相对于DeepBind算法,新算法表现出更好的时间性能并且实现了高精准的搜索TFBS。
3.4 SCPD算法应用于搜索多个转录因子的结合位点性能验证
一组待扫描数据集只含有一种或者少数几种转录因子的结合位点。SCPD算法可以在短时间内确定待扫描序列含有哪些转录因子的结合位点,并输出该转录因子的结合位点在待扫描序列上出现的位置。
3.4.1验证运行时间
选取了五组实验数据来测试SCPD算法搜索多个转录因子的结合位点的运行速度。选取了五组分别对Cebpb、Foxa2、Zbtb33、Prdm1和Hnf4g转录因子的结合位点特异的人类DNA数据集作为待扫描序列。测试该待扫描序列是否对Zbtb33、Pou2f2、Gata1、Hnf4g、Prdm1、Gata3、Erg1、Sp4、Tcf3、Foxa2、Foxp2、Irf1、Mef2c、Pax5、Runx3、Stat3、Yy1、Znf43、Ets1、Cebpb这20个转录因子的结合位点特异。
当阈值α=0.0001时,上述二十个转录因子的结合位点在其对应的特异性序列中出现的阈值β如图9所示,阈值β是用来判断一个DNA序列数据集是否含有某个转录因子的结合位点的标准,如果一个DNA序列数据集中搜索出含有该转录因子的结合位点的序列数目占总数的比例超过阈值β,即认为该DNA序列数据集含有该转录因子的结合位点。在每条都含有该转录因子的结合位点的1000条序列中,统计在固定阈值下搜索出含有该转录因子的序列数目,从而求出所占比例,然后求出在20组数据中所占比例的平均值和标准差。阈值β等于平均值减标准差。
当阈值α=0.0001时,分别测试用SCPD算法和DeepBind算法来搜索五组待扫描序列中多个转录因子的结合位点的运行时间,运行时间如表1所示,其中加速比表示的是Deepbind算法运行时间和SCPD算法运行时间的比,运行时间对比图如图10所示。
搜索多个转录因子的结合位点时,相比于DeepBind算法,SCPD算法极大的缩短了运行时间。由表1可知,在搜索多个转录因子的结合位点时,DeepBind算法的运行时间远长于新算法。SCPD算法先通过AC自动机扫描待扫描序列,缩小转录因子的范围,再用SCPD算法来搜索一个或几个转录因子的结合位点出现位置,相比于DeepBind算法只能搜索特定的转录因子的结合位点,需要进行多次搜索,极大的减少了运行时间。
表1两种算法搜索多个转录因子的结合位点运行时间表
TFBS名称 SCPD算法运行时间(s) DeepBind算法运行时间(s) 加速比
Cebpb 35.8604 1507.9832 42.0515
Foxa2 84.2413 1638.5524 19.4507
Zbtb33 12.5863 158.7863 12.6158
Prdm1 7.6430 186.8185 24.4431
Hnf4g 23.1197 753.8766 32.6076
3.4.2验证转录因子个数对运行时间的影响
在待扫描转录因子数量逐步增加的情况下,测试两种算法的运行时间随转录因子数量的变化。用上述提到的20个转录因子的结合位点信息和Cebpb的特异性序列数据集作为测试数据,数据集对其他转录因子的结合位点是非特异性的。首先在待扫描序列中搜索Cebpb的结合位点,输出运行时间,然后增加一个需要搜索的转录因子的结合位点信息,输出运行时间,直到搜索的转录因子的总数达到二十个。两种算法的运行时间和搜索转录因子个数之间的关系如图11所示。由图可知,Deepbind算法的运行时间随着转录因子的数量增加而增加的。因为DeepBind算法只能搜索特定转录因子的结合位点,在搜索多个转录因子的结合位点时,需要重复执行多次,所以DeepBind算法的运行时间随着转录因子数量的增加而增加。SCPD算法在搜索多个转录因子的结合位点的时,运行时间会随着找到的待扫描序列含有的转录因子的个数增加而增加。一组待扫描序列数据集只含有少数的转录因子的结合位点,所以相比于基于深度学习的TFBS搜索算法,SCPD算法缩短了搜索TFBS的运行时间。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种TFBS搜索方法,其特征在于,所述TFBS搜索方法包括:
基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入第三集合中;
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。
2.如权利要求1所述的TFBS搜索方法,其特征在于,所述TFBS搜索方法的阈值α确定,引入限制条件:基于位置权值矩阵的TFBS搜索算法的准确率Acc,包含p-value≤α的位点的正样本序列和负样本序列的个数分别为x和y,准确率Acc的计算公式:
Figure FDA0002528271150000011
求解的阈值α对应于一个最大的数值x,并且满足Acc大于等于深度学习的准确率AccDB。
3.如权利要求1所述的TFBS搜索方法,其特征在于,所述TFBS搜索方法的阈值α确定包括:
(1)确定采样区间[a,b];
(2)在给定的采样区间中均匀的采集包括a和b在内的n个数,将采样区间分成n-1等份,将这n个数依次赋值给阈值α,输出对应的准确率Acc,找到满足Acc大于等于AccDB的最大阈值,如果没有满足Acc大于等于AccDB的阈值,则找到最高准确率所对应的阈值;
(3)在n个数中找到和过程(2)确定的阈值相邻的数,将较小的相邻的数赋值给a,较大的相邻的数赋值给b,生成新的采样区间[a,b];
(4)重复执行采样过程(2)~(3),直到采样区间小于0.000001,输出最佳阈值。
4.如权利要求1所述的TFBS搜索方法,其特征在于,所述序列第一集合是输入的DNA序列数据集Dt,包含t条DNA序列,分别为S1,S2,...,St;首先,计算特定PWM下所有位点的p-value值,将p-value值小于等于阈值α的位点作为潜在的TFBS;然后用字符串匹配算法扫描序列第一集合中的每条序列Si(1≤i≤t),如果序列Si中含有潜在的TFBS,则将此TFBS信息添加到TFBS集合中;如果序列Si不含有TFBS,则将序列Si存入序列第二集合。
5.如权利要求1所述的TFBS搜索方法,其特征在于,所述序列第二集合是基于PWM的TFBS搜索方法没有搜索出TFBS的序列的集合。用大量含有特定转录因子的结合位点的DNA序列训练序列分类器,然后用该分类器识别序列第二集合中的每条序列,如果判断一条序列含有TFBS,将该序列存入序列第三集合中。
6.如权利要求1所述的TFBS搜索方法,其特征在于,所述序列第三集合是基于深度学习的TFBS搜索方法判断出的含有TFBS的序列的集合,但序列中TFBS的具体出现位置有待进一步确定;对于序列第三集合中的每条序列,将此序列中得分最高的位点作为TFBS,并将其信息添加到TFBS集合中,如式所示,
Figure FDA0002528271150000021
每个位点的分数Score(u)等于在每个位置出现该碱基的概率比上背景序列中该碱基出现的概率取对数后累加的和,其中m(j,uj)表示位置j上碱基uj出现的概率,b(uj)表示碱基uj在背景序列中出现的概率。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。
9.一种实施权利要求1~3任意一项所述TFBS搜索方法的TFBS搜索系统,其特征在于,所述TFBS搜索系统包括:
TFBS集合处理模块,用于实现基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
TFBS序列处理模块,用于实现基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入序列第三集合中;
TFBS集合输出模块,用于计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并将其添加到TFBS集合中,输出TFBS集合。
10.一种高通量测序终端,其特征在于,所述高通量测序终端搭载权利要求7所述的TFBS搜索系统。
CN202010510662.9A 2020-06-08 2020-06-08 一种转录因子结合位点搜索方法、系统、存储介质、终端 Active CN111933215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010510662.9A CN111933215B (zh) 2020-06-08 2020-06-08 一种转录因子结合位点搜索方法、系统、存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010510662.9A CN111933215B (zh) 2020-06-08 2020-06-08 一种转录因子结合位点搜索方法、系统、存储介质、终端

Publications (2)

Publication Number Publication Date
CN111933215A true CN111933215A (zh) 2020-11-13
CN111933215B CN111933215B (zh) 2024-04-05

Family

ID=73317149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010510662.9A Active CN111933215B (zh) 2020-06-08 2020-06-08 一种转录因子结合位点搜索方法、系统、存储介质、终端

Country Status (1)

Country Link
CN (1) CN111933215B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362892A (zh) * 2021-06-16 2021-09-07 北京阅微基因技术股份有限公司 一种短串联重复序列重复数的检测和分型方法
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001085915A2 (en) * 2000-05-11 2001-11-15 Washington University Identifying clusters of transcription factor binding sites
CN102231178A (zh) * 2011-05-18 2011-11-02 天津大学 基因组织特异性序列模式元搜索方法及搜索结果评价方法
CN107516020A (zh) * 2017-08-17 2017-12-26 中国科学院深圳先进技术研究院 序列位点重要度的确定方法、装置、设备及存储介质
CN110059228A (zh) * 2019-03-11 2019-07-26 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110070908A (zh) * 2019-03-11 2019-07-30 西安电子科技大学 一种二项树模型的模体搜索方法、装置、设备与存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001085915A2 (en) * 2000-05-11 2001-11-15 Washington University Identifying clusters of transcription factor binding sites
CN102231178A (zh) * 2011-05-18 2011-11-02 天津大学 基因组织特异性序列模式元搜索方法及搜索结果评价方法
CN107516020A (zh) * 2017-08-17 2017-12-26 中国科学院深圳先进技术研究院 序列位点重要度的确定方法、装置、设备及存储介质
CN110059228A (zh) * 2019-03-11 2019-07-26 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110070908A (zh) * 2019-03-11 2019-07-30 西安电子科技大学 一种二项树模型的模体搜索方法、装置、设备与存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯琳;钱敏平;朱云平;邓明华;: "转录因子结合位点生物信息学研究进展", 遗传, no. 04 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362892A (zh) * 2021-06-16 2021-09-07 北京阅微基因技术股份有限公司 一种短串联重复序列重复数的检测和分型方法
CN113362892B (zh) * 2021-06-16 2021-12-17 北京阅微基因技术股份有限公司 一种短串联重复序列重复数的检测和分型方法
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN116403645B (zh) * 2023-03-03 2024-01-09 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置

Also Published As

Publication number Publication date
CN111933215B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
US20130318076A1 (en) Refining a dictionary for information extraction
CN111933215A (zh) 一种转录因子结合位点搜索方法、系统、存储介质、终端
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN110556184A (zh) 基于Hessian正则非负矩阵分解的非编码RNA与疾病关系预测方法
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
Hu et al. Combinatorial motif analysis and hypothesis generation on a genomic scale
Tadesse et al. Identification of DNA regulatory motifs using Bayesian variable selection
Roux de Bézieux et al. CALDERA: finding all significant de Bruijn subgraphs for bacterial GWAS
Dotan et al. Effect of tokenization on transformers for biological sequences
CN113539479A (zh) 一种基于相似性约束的miRNA-疾病关联预测方法及系统
Bickmann et al. TEclass2: Classification of transposable elements using Transformers
Middendorf et al. Motif discovery through predictive modeling of gene regulation
Sinha et al. GenSeg and MR-GenSeg: A novel segmentation algorithm and its parallel MapReduce based approach for identifying genomic regions with copy number variations
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
Gustafsson et al. Fast parallel construction of variable-length Markov chains
Scharl et al. The stochastic QT-clust algorithm: evaluation of stability and variance on time-course microarray data
Ali et al. Pareto Optimization Technique for Protein Motif Detection in Genomic Data Set
CN111261228B (zh) 计算保守核酸序列的方法及系统
CN114999566A (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN108897990B (zh) 面向大规模高维序列数据的交互特征并行选择方法
CN109686400B (zh) 一种富集程度检验方法、装置及可读介质、存储控制器
Böer Multiple alignment using hidden Markov models
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
Bhartiya et al. NNFSRR: Nearest Neighbor Feature Selection and Redundancy Removal Method for Nearest Neighbor Search in Microarray Gene Expression Data
CN117170686B (zh) 用于神经网络编译优化的方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant