CN105046107A

CN105046107A - 一种限定性模体的发现方法

Info

Publication number: CN105046107A
Application number: CN201510555372.5A
Authority: CN
Inventors: 吴刚; 王国仁; 林克青; 李梁; 刘洪伟
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2015-11-11
Anticipated expiration: 2035-08-28
Also published as: CN105046107B

Abstract

本发明公开了一种限定性模体的发现方法，涉及生物信息领域，包括以下步骤：1)构建字典表，所构述字典表用于存储指定模式P的模式实例；2)在字典表中以字典顺序列出指定模式P的所有实例集合I＝{I₁…I_N}，其中，I_i为模体实例；3)对每个模体实例I_i与待检测的核苷酸序列进行比较验证，若第i个实例满足只出现在待检测的核苷酸正例序列集合中，而不出现在反例序列集合中，则该实例作为最终满足条件的模体输出。本发明以简单的方法解决了限定性模体发现问题，最后的实验证明，在合理的时间内，倒排索引算法总是可以找到所有满足条件的模体，从而保证了算法的有效性。

Description

一种限定性模体的发现方法

技术领域

本发明涉及生物信息技术领域，尤其涉及一种限定性模体的发现方法。

背景技术

模体(Motif)是指一组序列中局部的保守区域，或者是一组序列中共有的一小段序列模式。更多的时候是指有可能具有与分子功能、结构性质或家族成员相关的任何序列模式，其主要存在于蛋白质、DNA、RNA等序列中。模体的发现对研究基因表达意义重大，是后基因时代生物信息学中的一个主要研究方向。目前模体发现问题研究主要集中于转录因子结合位点，即在DNA序列中具有特定功能并且保守的序列片段。而对限制性内切酶结合位点的发现问题同样是模体发现研究领域中的一个重要研究点。与前者不同，后者则是加入了一些限定条件。限制性内切酶结合位点挖掘问题是指给定正例和反例核苷酸序列集合，并指定模式P，要求找到符合模式P的模体m，且只在正例序列集合中有模体实例存在，而在反例序列集合中不能出现模体m的实例。在这个过程中核苷酸序列的反向互补序列也要考虑进去，因此这类问题可以看作是一种带有限定性条件的模体发现问题。此类带限定性条件的模体的发现可以推断出新的限制性内切酶，进而可以针对不同外源DNA使用相应的内切酶破坏其DNA结构以限制其侵入，从而起到了保护细胞原有的遗传信息的作用。

虽然目前在转录因子结合位点研究领域已经出现了很多算法和相应的软件，如MEME、AlignACE、GibbsSampler、PMS系列等。这些算法中，多数算法及其改进算法可以很好地解决模体发现问题，但这些算法并不能直接用于寻找带有限定性的模体发现问题。

发明内容

针对上述缺陷或不足，本发明的目的在于提供一种限定性模体的发现方法，能够获取带有限定性的模体。

为达到以上目的，本发明的技术方案为：

一种限定性模体的发现方法，包括以下步骤：

1)构建字典表，所述字典表用以存储指定模式P的所有模式实例；

2)在字典列中以字典顺序列出指定模式P的所有实例集合I＝{I₁…I_N}，其中，I_i为模体实例；

3)对每个模体实例I_i(1≤i≤N)与待检测的核苷酸序列进行比较验证，若第i个实例满足只出现在待检测的核苷酸正例序列集合中，而不出现在反例序列集合中，则该实例作为最终所要得到的模体输出。

所述对每个模体实例I_i与待检测的正例和反例核苷酸序列进行比较验证时，分别设置针对正例和反例不同的比例阈值，以使得在正例序列集合中有大于或等于正例比例阈值的序列包含符合实例I_i的l-mer，而在反例序列集合中有小于或等于反例比例阈值的序列包含该实例I_i的l-mer，则I_i即为符合条件的模体。

所述步骤1)的具体过程为：

1.1、构建字典表，字典表的每行对应指定模式P的一个模式实例；

1.2、对字典表中每一个模式实例设置一个指针，所述指针指向一个倒排索引表，所述倒排索引表存储了所有符合项该模式实例的序列。

所述步骤3)具体包括：

3.1、设核苷酸的序列的长度为m，指定模式P的长度为l，所述核苷酸序列中正向序列包含m-l+1个l-mer，考虑到给定核苷酸序列的双链结构，所述核苷酸序列包含的l-mer数为2*(m-l+1)个；

3.2、设序列集合S_P＝{S_P1…S_Pn}，其中一条序列S_Pi对应2*(m_i-l+1)个l-mer，M_Pi＝(I_i1，…}为S_Pi包含的模式P的实例集合，且反例序列集合S_N＝{S_N1…S_Nn}，序列S_Nj包含的l-mer数为2*(m_j-l+1)个，其中M_Nj＝{I_j1，…}为S_Nj中包含的模式P的实例集合；

3.3、设给定序列集合S_P＝{S_P1…S_Pn}和S_N＝{S_N1…S_Nn}，运行后找到符合模式P的模体集合为M＝(M_P1∩…∩M_Pm)-(M_N1U…UM_Nn)。

所述步骤3)后还包括步骤4)：

应用打分函数对所获得的模体进行评分，找到得分最高的模体，并将其输出。

所述评分过程中设置highestscore和motif两个参数，分别表示进程得到的最优模体及其相对熵分数，在最后的输出过程中输出所有结果中得分最高的模体。

与现有技术比较，本发明的有益效果为：

本发明提供了一种限定性模体的发现方法，针对正反例问题和指定模式P问题，采用倒排索引算法。首先构造字典列表，并针对字典中的每一项列出其在输入序列中的位置信，以简单的方法解决了限定性模体发现问题。最后的实验证明，在合理的时间内，倒排索引算法总是可以找到所有满足条件的模体，从而保证了算法的有效性。该方法计算方便，准确性高，从所得到的具有限定性的模体可以推断出新的限制性内切酶，进而可以针对不同外源DNA使用相应的内切酶破坏其DNA结构以限制其侵入，从而起到了保护细胞原有的遗传信息的作用。

附图说明

图1是本发明的限定性模体的发现方法流程框图；

图2是本发明的模式NNN：5：NNNXN的倒排索引列结构图；

图3是本发明的不同植入实例下的三种算法正确率图；

图4是本发明的不同植入实例情况下的三种算法运行时间图。

具体实施方式：

下面结合附图对本发明做详细描述。

实施例一

限制性内切酶在DNA序列的酶切位点通常包含三部分，即头部(3-4个核苷酸)，主体部分(4-8个核苷酸)，尾部(3-5个核苷酸)。一般输入模式为NNN：4：NNXNNN，NNNN：3：XNNNN等。输入的模式P统一表示表示如下：

PATTERN：＝HEAD′：′BODY′：′TAIL

HEAD：＝[3-4]*′N′

BODY：＝[4-8]

TAIL：＝[3-5]*(′N′|′X′)

模式P对应的模式实例如下：

PATTERN_INSTANCE：＝HEAD_INSTANCE：BODY_INSTANCE：TAIL_INSTANCEHEAD_INSTANCE：＝[3-4]*BASE_CODE

BODY_INSTANCE：＝[4-8]*′N′

TAIL_INSTANCE：＝[3-4]*IUPAC_CODE

BASE_CODE：＝′A′|′C′|′G′|′T′

IUPAC_CODE：＝BASE_CODE|′R′|′Y′|′S′|′W′|′K′|′M′|′B′|′D′|′H′|′V′|′N′

如果有I_P：

＝I._{HEAD_}I_NSTANCE：I._{BoDY_INSTANCE}：I._{TAIL_INSTANCE}，其中I._{HEAD_INSTANCE}包含长度为|P._HEAD|个基本类型核苷酸，I._{TAIL_INSTANCE}包含长度为|P._TAIL|个IUPAC类型核苷酸，并且I._{BODY_INSTANCE}部分核苷酸数等于P._BODY声明的核苷酸数，则有实例I_P是指定模式P的实例。其中′A′、′C′、′G′、′T′四个字符代表基本类型字符，其他的IUPAC通配符则包括′R′、′Y′、′S′、′W′、′K′、′M′、′B′、′D′、′H′、′V′等，也称为退化的基本类型字符，其中′N′为不确定的基本类型核苷酸代码。IUPAC通配符表如表1所示。

表1IUPAC通配符

识别出来的模体可以分为三部分，即头部，主体部分，尾部。头部为包含3-4个基础核苷酸字符，主体部分可以是任何核苷酸，长度为4-8，尾部包括3-5个IUPAC核苷酸字符，字符X对应于一个IUPAC核苷酸字符。例如，识别模式NNN：4：XNNNN代表此模式头部长度为3，主体长度为4，尾部长度为5，且尾部的第一个字符为IUPAC核苷酸字符。

如图1所示，本发明提供了一种限定性模体的发现方法，包括以下步骤：

1)构建字典表，所述字典表中以字典顺序存储指定模式P的所有模式实例；

所述步骤1)的具体过程为：

1.2、对字典表中每一个模式实例设置一个指针，所述指针指向一个倒排索引表，所述倒排索引表存储了所有符合该项模式实例的序列。

为了提高算法的运行效率，首先构建一个字典表，里面以字典顺序存储了模式P的所有模式实例，字典表的每行对应模式P的一个模式实例。例如，图2中字典表显示了指定模式“NNN：5：NNNXN”的其中两个实例：“CCANNNNNTTTAA”和“TTGNNNNNACCRG”。接下来，字典表中每一项都会有一个指针指向一个倒排索引表，该表存储了所有符合该项模式实例的序列。通过计算包含模式实例I的倒排索引表I._list中的序列数，可以判断I是否满足阈值要求。对于正例阈值θ_P，需要满足条件。类似的，对于反例阈值θ_N也需要满足。为了用倒排索引算法找到序列中的模体，针对正反两个序列集合，这里需要对指定模式P构造两组模式实例的字典列表，每个字典列表分别指向对应正例和反例序列的倒排索引。L_P代表模式P对应正例中不同实例的倒排索引结构，L_N代表模式P对应反例中不同实例的倒排索引结构。

2)以字典顺序列出需要查找的指定模式P的所有实例集合I＝{I₁…I_N}，其中，I_i为模体实例；

3)对每个模体实例I_i与待检测的核苷酸序列进行比较验证。若模体实例Ii满足只出现在待检测的核苷酸正例序列集合中，而不出现在反例序列集合中，则该实例作为最终所要得到的模体输出；

所述步骤3)具体包括：

3.1、设核苷酸的序列的长度为m，指定模式P的长度为l，所述核苷酸序列包中正向序列含m-l+1个l-mer，核苷酸序列所有的l-mer数为2*(m-l+1)个；

3.2、设序列集合S_P＝{S_P1…S_Pm}，其中一条序列S_Pi对应2*(m_i-l+1)个l-mer，M_Pi＝{I_i1，…}为S_Pi包含的模式P的实例集合，且反例序列集合S_N＝{S_N1…S_Nn}，序列S_Nj包含的l-mer数为2*(m_j-l+1)个，其中M_Nj＝{I_j1，…}为S_Nj中包含的模式P的实例集合；

4)应用打分函数对所获得的模体进行评分，找到得分最高的模体，并将其输出。在算法寻找模体过程中由于最终满足条件的结果数不定，可能会有很多不同的符合限定条件的模体。因此，如何有效的在多个结果中找出最符合条件的模体以减少人工判断的工作量则至关重要。

因此，应用打分函数对模体发现过程中找到的模体进行评分，进而找到得分最高的模体并将其输出。评分过程中设置highestscore和motif两个参数，分别表示此进程得到的最优模体及其相对熵分数。在最后的输出过程中输出所有结果中得分最高的模体。

进一步的，为了获取所需的模体，添加阈值限定条件为在输入的正例和反例两个序列集合中寻找符合条件的模体。对于给定的正例序列集合S_P＝{S_P1…S_Pm}，设置对应正例的阈值θ_P(0＜θ_P＜1)，要求在正例序列集合S_P中至少有比例为θ_P的序列有对应模体的实例出现。而在反例序列集合S_N＝{S_N1…S_Nm}中，则设置对应反例的阈值θ_N(0＜θ_N＜1)，要求在反例集合S_N中最多有比例为θ_N条序列有对应模体实例出现。

如图3所示，倒排索引算法流程图如图3所示，给出一个长为m的核苷酸序列m和长为l的识别模式P，该序列包含m-l+1个l-mer，同样，包含其反向互补序列，一条核苷酸序列所有的l-mer数为2*(m-l+1)个。假设序列集合S_P＝{S_P1…S_Pm}，其中一条序列S_Pi对应2*(m_i-l+1)个l-mer，M_Pi＝{I_i1，…}为这些S_Pi包含的模式P的实例集合。对于反例序列集合S_N＝{S_N1…S_Nn}，序列S_Nj包含的l-mer数为2*(m_j-l+1)个，其中M_Nj＝{I_j1，…}为这些S_Nj中包含的模式P的实例集合。因此，运用该思想运行后的最终找到的符合模式P的模体集合为M＝(M_P1∩…∩M_Pm)-(M_N1U…UM_Nn)。而此，找出的所有符合模式P的实例，需要满足在M_Pi(1≤i≤m)中存在与模式实例符合的序列，而不在M_Nj(1≤j≤n)中出现与模式实例符合的序列，就是本文提出的倒排索引算法的核心思想。

在倒排索引算法中，引入了阈值条件，在计算过程中去除了不必要的子序列，有效的减少了内存空间的使用。接下来给出倒排索引算法的具体描述。设定指定模式P为NNN：5：NNNXN，为了提高算法的运行效率，首先构建一个字典表，里面以字典顺序存储了模式P的所有模式实例，字典表的每行对应模式P的一个模式实例。例如，图4.2中字典表显示了指定模式“NNN：5：NNNXN”的其中两个实例：“CCANNNNNTTTAA”和“TTGNNNNNACCRG”。接下来，字典表中每一项都会有一个指针指向一个倒排索引表，该表存储了所有符合该项模式实例的序列。通过计算包含模式实例I的倒排索引表I.list中的序列数，可以判断I是否满足阈值要求。对于正例阈值θ_P，需要满足至少有比例为θ_P的序列中包含符合实例I的子序列条件，I才为符合条件实例以进行进一步验证。构造两个指定模式P实例的字典列表，每个字典列表分别指向对应正例和反例序列的倒排索引。L_P代表模式P对应正例中的不同实例的倒排索引结构，L_N代表模式P对应反例中的不同实例的倒排索引结构。因此所有的模体可以在倒排索引的帮助下以公式L_P(≥θ_P)-L_N(≥θ_N)的形式获得。为此，首先移除L_P中不满足正例阈值条件的模式实例，即I_P＝{I|θ_P＞(|S_P|-|I.list|)/|S_P|}。其次若L_P中有模式实例出现在L_N中，且该实例不满足反例阈值条件即I_N＝{I|θ_N＜(|G_N|-|I.list|)/|G_N|}，则从L_P中移除该实例，最终的满足正例和反例阈值条件的实例即为最终模体。

本发明的实验仿真过程：

软硬件环境如下：

1.硬件环境

(a)处理器：Intel(R)Core(TM)i5-34703.20GHz

(b)内存：8G

(c)硬盘：500G，7200RPM，16M缓存

2.软件环境

(a)操作系统：Window7，64位

(b)开发语言：java

(c)集成环境：eclipse

为了对算法进行比较充分的测试，本节主要介绍两组数据对算法进行测试，其中一组为模拟生物序列集合，另外一组为真实生物序列集合。

1.模拟生物序列：保证A、C、G、T四种碱基每种碱基等概率出现的情况下，根据独立同分布原则，生成20条随机序列，每条序列包含600个碱基。同时随机构造一个长为l的模体m；对于每条测试序列，随机生成一个与模体m汉明距为d的实例m’并将其植入到该序列中的随机位置，每个模体实例m’都需要尽可能不同。前面提到的l和d为不定值，不同的(l，d)植入实例决定了模体发现问题的难度。这里，实验时需要生成两个序列集合，正例序列集合和反例序列集合，每个序列集合分别各20条序列集合，其中正例集合中包含植入模体而反例中不包含植入模体。

2.真实生物序列：在实验中，将生物序列作为第一组数据，分别对L-PMS算法和倒排索引算法进行测试。由于以实验方法进行行模体的发现难度很大，因此，用两种算法来对已发现的模体进行验证，从而验证算法的有效性，为以后进一步应用到序列集合中其他模体的发现奠定基础。对于这组真实的生物序列，在运行时间合理的范围内主要关注其结果的正确性。真实生物序列数据信息如表2所示。

表2实际生物序列信息

实验结果判断方法

模体发现算法的性能有多种评价方法，其中最常用的评价标准有两种：核苷

酸水平(nucleotidelevel，简称n)和位点水平(sitelevel，简称s)。通常使用的

参数包括敏感性(sensitivity)、特异性(specificity)、性能系数(performancecoefficient)和相关系数(correlationcoefficient)。

通过分析实验结果可以直接获得的统计值包括：nTP/sTP(truepositive)；nFN/sFN(falsenegative)；nFP/sFP(falsepositive)；nTN(truenegative)。其中nTP/sTP表示正确预测核苷位置或结合位点的个数；nFN/sFN(假阴性)表示存在于真实位点中但未被正确预测的核苷位置个数或真实存在但未被预测覆盖的位点个数；nFP/sFP(假阳性)表示真实位点中不存在却被错误预测到的核苷位置个数或未被真实位点覆盖的预测位点数。其中，nTP表示检测出的模体与真实模体重合的碱基的位数；nFN表示真实模体中未被检测出的碱基的位数；nFP表示真实模体中不包含但被检测出模体所包含的碱基的位数。nTN表示真实位点和预测位点均不出现的核苷个数，位点水平上没有对应TN值，这里需要说明的是当两个位点至少有1/4以上重合时认为真实位点被预测位点覆盖。

敏感性(xSn)指在所有真实存在的位点(位点包含核苷)中被正确预测的百分比；正确预测值(xPPV)指所有预测到的位点(位点包含核苷)中正确预测的百分比；特异性(nSP)指不在位点中的核苷位置被正确预测出的百分比(只有核酸水平存在特异性)；一般的预测方法很难三者兼顾，因此在核苷水平上使用性能系数(nPC)和相关系数(nCC)平均衡量。具体计算公式如下：

xSn = \frac{xTP}{xTP + xFN} - - - (1)

xPPV = \frac{xTP}{xTP + xFP} - - - (2)

nsP = \frac{xTN}{nTN + nFP} - - - (3)

nPC = \frac{nTP}{nTP + nFN + nFP} - - - (4)

nCC = \frac{nTP * nTN - nFN * nFP}{\sqrt{(nTP + nFN) * (nTN + nTP) * (nTP + nFP) * (nTN + nFN)}} - - - (5)

其中，x＝n或s表示核苷水平或位点水平。由以上可以看出nPC(performancecoefficient，性能系数)是一种简单明了的评价方法，它主要是用于在单个碱基水平上去评价检测结果的特异性及敏感性。由式(4)的计算过程可以看出，它的取值范围在0～1之间，其值越高，则表明结果的准确度越高。这里本文选择nPC来计算所得结果的准确性。

实验结果与分析模拟数据部分引入了MEME算法和倒排索引算法、L-PMS算法进行比较，并以表格和折线图的形式在实验结果部分给出了几种算法的运行时间和最后结果正确率的比较，结果显示显示出了本文算法在效率上的的优势，并分析了结果出现的原因。

真实数据部分则给出了倒排索引算法和L-PMS算法对真实数据处理的结果和正确率，并以logo图的形式显示了真实数据中得到的模体，进而证明了文中所提算法在限定性模体发现问题中的实用性。

模拟数据测试结果

1.MEME算法、倒排索引算法和L-PMS算法结果的准确度

在已有算法中，MEME算法可以解决正反例序列集合问题，在模体发现过程中同样会考虑DNA序列的双螺旋结构，并最终发现符合指定模式的模。接下来的三种算法，分别利用打分函数给所有与指定模式P和植入实例(l，d)相符的候选模体进行评分，找出得分最高的候选模体作为最终模体，并对最终模体进行nPC评分。

接下来，对应不同的挑战实例(l，d)，生成长度为l的模体，对每个模体随机构造一个模式P，给定并随机生成该模体不同的实例，要求实例满足首尾与P首尾字符相同。将上面得到的实例植入到正例序列集合中，并保证反例集合中不会有该模体的实例存在。对不同序列集合植入不同模式的模体，计算三种算法在不同挑战实例下对植入模体的识别率。

对不同算法的比较如表3所示。

表3不同植入实例下的三种算法的正确率

表3对应折线图如图3所示。由图3可以看出，以上三种算法都可以有效的找到序列集合中植入的模体，倒排索引算法和L-PMS算法相较于MEME算法在各个不同植入模体实例的情况下的识别效率都会比较高，而由于前两种算法都是对序列进行遍历，因此两种算法识别效率整体相近。

2.MEME算法、倒排索引算法和L-PMS算法运行时间

表4给出了三种算法在不同植入不同挑战实例情况下的运行时间，单位为分钟。

表4不同植入实例情况下的算法运行时间

图4为表4的折线图显示形式。因为MEME算法为近似算法，而近似算法的运行时间因为采用启发式算法，找到得分最高的位点即为最优模体，所以其花费的时间往往比较短。

而精确算法需要列举出大量的候选序列，进而一一验证，所以这种算法在运行时间上往往比近似算法时间长。对于L-PMS，由于算法引入了植入实例(l，d)问题，又同时继承了原有PMS8算法的后缀树、剪枝，并行等一系列提高算法效率的方法，相比倒排索引算法中依次遍历字典列表的每一项模体实例，使得L-PMS算法整体的运行效率得到了提高。

Claims

1.一种限定性模体的发现方法，其特征在于，包括以下步骤：

2)在字典列中以字典顺序列出指定模式P的所有实例集合I＝{I₁…I_N)，其中，I_i为模体实例；

2.根据权利要求1所述的限定性模体的发现方法，其特征在于，所述对每个模体实例I_i与待检测的正例和反例核苷酸序列进行比较验证时，分别设置针对正例和反例不同的比例阈值，以使得在正例序列集合中有大于或等于正例比例阈值的序列包含符合实例I_i的l-mer，而在反例序列集合中有小于或等于反例比例阈值的序列包含该实例I_i的l-mer，则I_i即为符合条件的模体。

3.根据权利要求1所述的限定性模体的发现方法，其特征在于，所述步骤1)的具体过程为：

4.根据权利要求3所述的限定性模体的发现方法，其特征在于，所述步骤3)具体包括：

3.2、设序列集合S_P＝{S_P1...S_Pn)，其中一条序列S_Pi对应2*(m_i-l+1)个l-mer，M_Pi＝{I_iI，…)为S_Pi包含的模式P的实例集合，且反例序列集合S_N＝{S_N1...S_Nn)，序列S_Nj包含的l-mer数为2*(m_j-l+1)个，其中M_Nj＝{I_j1，…)为S_Nj中包含的模式P的实例集合；

3.3、设给定序列集合S_P＝{S_P1...S_Pn)和S_N＝{S_N1...S_Nn)，运行后找到符合模式P的模体集合为M＝(M_P1∩...∩M_Pm)-(M_N1∪...∪M_Nn)。

5.根据权利要求1所述的限定性模体的发现方法，其特征在于，所述步骤3)后还包括步骤4)：

6.根据权利要求5所述的限定性模体的发现方法，其特征在于，所述评分过程中设置highestscore和motif两个参数，分别表示进程得到的最优模体及其相对熵分数，在最后的输出过程中输出所有结果中得分最高的模体。