CN102231178A

CN102231178A - 基因组织特异性序列模式元搜索方法及搜索结果评价方法

Info

Publication number: CN102231178A
Application number: CN2011101286568A
Authority: CN
Inventors: 许华琳; 宫秀军
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2011-05-18
Filing date: 2011-05-18
Publication date: 2011-11-02

Abstract

本发明公开了一种基因组织特异性序列模式元搜索方法及搜索结果评价方法，涉及生物信息科学领域，搜索方法：从生物信息学数据库中提取组织特异性基因和HK基因启动子序列为输入的初始数据；对输入的初始数据分别执行局部搜索算法和穷尽式搜索算法；然后将各模式搜索算法运行的结果组织存储到过滤矩阵中，利用过滤矩阵中的数据来估计模式的概率，再对各模式进行归并；评价方法：利用贝叶斯因子分析评价统计得到的基因组织特异性模式搜索结果的重要性。与现有技术相比，本发明的元搜索框架融合了多种算法，符合生物信息学提倡的“平均结果优于单一选择”的原则，提高了结果的鲁棒性和可信性，提高搜索结果的可信性，避免模式的过份估计或低估计。

Description

基因组织特异性序列模式元搜索方法及搜索结果评价方法

技术领域

本发明涉及生物信息科学领域，特别是涉及基因组织特异性序列模式元的搜索方法。

背景技术

组织特异性基因（tissue-specific genes），是指不同的细胞类型进行特异性表达的基因。组织特异性基因表达包括转录因子与基因启动子序列绑定位点、基因启动子区域的序列特征、选择性剪接（Alternative Splice）、表观遗传学特征等信息。其中：

转录因子(transcription factor)是一群能与基因5’端上有特定序列专一性结合，从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。转录因子又称为序列特异性DNA绑定因子（sequence-specific DNA-binding factor）,绑定到特定的DNA序列，从而控制着遗传信息从DNA向mRNA的传递。转录因子独立或者与其它蛋白质以一种复杂的模式发挥作用，对特定基因向RNA聚合酶的转录起到增强或者抑制的作用。转录因子绑定到 DNA 序列的增强子（enhancer）区域或者启动子(promoter)区域。

基因启动子(promoter)是一段位于结构基因5’上游区的DNA序列，能活化RNA聚合酶，使之与模板DNA准确的结合并具有转录起始的特异性，从而影响了基因表达的水平。

选择性剪接是指同一基因的转录产物由于不同的剪接方式形成不同的mRNA的工程。

表观遗传学是研究没有DNA序列变化的可以遗传的表达改变，表观遗传学修饰包括DNA特定碱基的修饰（如胞嘧啶甲基化）和染色质构型重塑（组蛋白的乙酰化、甲基化）。

如何从以上这些信息发现及评价组织特异性的模式正在成为生物信息的挑战之一。近年来，针对不同的生物和不同特点的模式，出现了很多算法和模型。当前主要的模式发现算法分为两大类：一类是穷尽式搜索算法（CONSENSUS，PROJECTION，PDEM），另一类属于局部式搜索算法（MEME，AlignCE等）。

这两种现有算法的优缺点分别描述如下：

1）穷尽式搜索算法的优点是算法设计简单，可以搜索到最优解；缺点是它一般适合于搜索短的模式并且具有复杂的计算复杂度。

2）局部式搜索算法是一种近似算法，这类算法首先对调控元件的信息进行某种近似描述，然后通过不断迭代的过程对调控元件信息进行调整优化，直至满足迭代终止条件。它的优点是具有较低的计算复杂度，计算速度快，适合在大空间中搜索解；缺点是不能保证得到问题的最优解，只能得到类似于最优解的次优解。

目前在国际上存在着一些与基因组织特异性模式发现领域相关的的专利。

PARIDA【US】的专利名称“最大无冗余和多余模式的发现方法”，专利申请号：US20090533233，优先权：US20090533233，US20020081834，US20010292241P。该发明首先利用输入的数据产生小的可靠的但是包含着“不关心”因素的motif，然后将小的motif连结起来产生大的motif作为下一次迭代的输入，这样逐次迭代，并且每次迭代中可以去掉冗余的motif以及不满足要求的motif，最后直到不再产生新的motif为止，这样就求得基本的motif集。

SCHWARTZ DANIEL【US】的专利名称“对大型序列数据的模式提取”，专利申请号：US20050130310，优先权：US20050130310。该发明提出了一个从大型自然存在的数据集中提取具有统计上显著的模式。主要思想是通过将数据反复与动态的统计背景相比较来提取模式。该发明的具体化是用一系列的统计相关性来决定最有效的具有相互关系的剩余物，从这些剩余物中识别模式。然后将这些识别出的模式从这些剩余物中去除，再用剩余物来提取模式，直到找不到任何模式为止。这些模式是在一个与用户选择的背景相关的核心剩余物中提取的。

发明内容

基于上述现有技术，本发明提出一种基因组织特异性序列模式元搜索方法及搜索结果评价方法，通过所建立的融合穷尽式搜索算法和启发类算法的基因组织特异性模式元搜索框架，发现基因启动子序列、顺势调控元件（Cis-module）、核小体定位位点及甲基化位点等组织特异性模式；同时，提出基于贝叶斯理论的贝叶斯因子分析的方法实现前面所述的搜索结果的评价方法。

本发明提出的一种基因组织特异性序列模式元搜索方法，该方法包括以下步骤：

步骤一，从生物信息学数据库中提取组织特异性基因和HK基因启动子序列

为输入的初始数据；其中，生物信息学数据库包括真核生物启动子数据库EPD，基因调控转录因子数据库Transfac，储存核小体位置区域的数据库NPRD，储存DNA甲基化信息的数据库MethDB；

步骤二，执行组织特异性基因元搜索流程，对作为本步骤输入的所述初始数据分别执行局部搜索算法和穷尽式搜索算法；然后将各模式搜索算法运行的结果组织存储到过滤矩阵FilterMatrix中，利用过滤矩阵FilterMatrix中的数据来估计模式的概率，再对各模式进行归并，在对各模式进行归并的过程中，采用贝叶斯似然比的方法计算motif之间的相似性，假设有两个motif 和

，公式如下：

(1)

其中，

表示

与

来自相同分布源的概率，类似的，

则表示

与

来自不同分布源的概率，

则表示

与

都来自背景分布的概率。，该基于似然比的评分标准计算的是在给定源分布的情况下基因在不同位置上的概率；根据上述的相似性计算结果，得到模式搜索结果；所述局部搜索算法包括MEME算法和AlignCE算法；所述穷尽式搜索算法包括CONSENSUS算法、PROJECTION算法和PDEM算法；

本发明还提出一种基因组织特异性模式搜索结果的评价方法，利用贝叶斯因子分析评价统计得到的基因组织特异性模式搜索结果的重要性，该方法包括以下步骤：对统计得到的模式，利用贝叶斯因子分析评价其重要性，建立贝叶斯因子为：

(2)

其中

为空模型，

为观测模型，

是目标模式。

是目标模式

在

模型下的似然，

是目标模式

_在

_{模型下的似然。}

与现有技术相比，而本发明提出的元搜索框架融合了多种算法，其中包括了穷尽式搜索算法和启发类算法。该框架的融合思想符合生物信息学提倡的“平均结果优于单一选择”的原则，提高了结果的鲁棒性和可信性，本发明提高了搜索结果的可信性，并且本发明所提出的评价方法，则避免了导致模式的过份估计（over-estimation）或者低估计(low-estimation)。

附图说明

图1为基于贝叶斯理论的组织特异性模式元搜索算法架构示意图。

具体实施方式

本发明针对每一具体组织类族（包括HK基因集合），模拟产生模式的均匀分布集合，并关联其分布密度。对已知的组织特异性模式及其含有组织特异性调控因子绑定的模式，通过计算关联强度来增强其分布密度，从而构造空模型的数据集合，进而估计其分布参数，得出较好并较为精确的评价。

本发明主要包括三个步骤：首先从现有生物数据库（真核生物启动子数据库EPD，核小体位置区域数据库NPRD，基因调控转录因子数据库Transfac，DNA甲基化信息数据库MethDB）中提取所需要的组织特异性基因，即TS基因Tissue Specific genes和HK基因Housekeeping genes的启动子序列（promoter sequence）、转录因子绑定位点、核小体定位位点及甲基化位点数据；其次基于贝叶斯理论，设计一种融合现有模式发现方法的元搜索算法，发现基因组织特异性模式；最后对获取的组织特异性模式，利用贝叶斯因子分析方法评价其统计重要性。该融合思想符合生物信息学提倡的“平均结果优于单一选择”的原则

步骤1、初始数据获取本发明从生物信息学数据库（EPD，NPRD，Transfac，MethDB）中提取实验

需要的TS基因（组织特异性基因，Tissue Specific genes）和HK基因Housekeeping genes启动子序列。所需基因从数据库中已有的数据中提取，需要什么组织的基因就提取什么组织的基因。其中，EPD为真核生物启动子数据库，Transfac为基因调控转录因子数据库，NPRD为储存核小体位置区域的数据库，MethDB为储存DNA甲基化信息的数据库。

步骤2、执行元搜索流程：

根据“平均结果优于单一选择”的原则，本发明提出一种贝叶斯理论的元搜索架构，其主要流程如图1所示。它集成了几种现有模式发现方法，包括局部搜索算法（MEME，AlignCE）和穷尽式搜索算法（CONSENSUS,PROJECTION，PDEM）。该元搜索流程包括以下步骤：将步骤1提取的数据作为步骤2的输入，对该输入的初始数据分别执行行局部搜索算法（MEME，AlignCE）和穷尽式搜索算法（CONSENSUS,PROJECTION，PDEM）。同时执行局部搜索算法和穷尽式搜索算法，执行后后将结果综合到一起。然后将各模式发现算法运行的结果组织存储到过滤矩阵FilterMatrix中，然后利用过滤矩阵FilterMatrix中的数据来估计模式的概率，再对各模式进行归并。在对各模式进行归并的过程中，首先需要度量模式发现算法的运行结果motif（模式）之间的相似性。本发明采用贝叶斯似然比的方法来计算。具体地说，假设有两个motif

和

，其中的每个元素可能来自于同一源（如同一转录因子绑定的），也可能来自于不同的源；同时，可能依赖于某个固定的背景知识（如某一具体的组织中获取的Motif）。为此我们将这些因素集成统一的公式，公式内容如下：

(1)

其中，表示

与

来自相同分布源的概率，类似的，则表示

与

来自不同分布源的概率，

则表示

与

都来自背景分布的概率。上面公式有一个重要的假设，那就是所有的分布的计算都是基于位置独立性的。更确切的说，该基于似然比的评分标准计算的是在给定源分布的情况下基因在不同位置上的概率。根据上述的相似性计算结果，得到模式统计结果。

步骤3、.组织特异性模式评价

对于统计得到的模式，本发明利用贝叶斯因子分析评价其重要性。

传统的模式发现假设检验中，空假设假定分布是均匀的，通过计算p-value判断拒绝或接受空假设的程度，评价模式的重要性（显著性）。然而当存在大量先验知识可用时，模式均匀分布的假定是不合理的。

本发明针对每一具体组织类族（包括HK基因集合），模拟产生模式的均匀分布集合，并关联其分布密度。对已知的组织特异性模式及其含有组织特异性调控因子绑定的模式，通过计算关联强度来增强其分布密度，从而构造空模型的数据集合，进而估计其分布参数。下面通过具体实施例进一步说明该步骤的具体操作：

利用贝叶斯因子分析评价模式的重要性

对统计得到的模式，本发明利用贝叶斯因子分析评价其重要性（significance）。其中贝叶斯因子定义为：

(2)

其中作为空模型，

是观测模型，

是目标模式。

是目标模式

在模型下的似然，

是目标模式 _在

_{模型下的似然。}

本发明的有益效果体现在以下三方面：

1.当前存在的很多模式发现算法都有各自的缺陷, 例如穷尽式搜索类算法虽然具有复杂的计算复杂度，但是算法设计简单，可以搜索到最优解，只适合搜索短的模式。启发式类算法是一种近似算法，这类算法首先对调控元件的信息进行某种近似描述，然后通过不断迭代的过程对调控元件信息进行调整优化，直至满足迭代终止条件。虽具有较低的计算复杂度，适合在大空间中搜索解，但是不能保证得到问题的最优解。

而本发明提出的元搜索框架融合了多种算法，其中包括了穷尽式搜索算法和启发类算法。该框架的融合思想符合生物信息学提倡的“平均结果优于单一选择”的原则，提高了结果的鲁棒性和可信性。

2.在模式进行归并过程中，需要度量模式之间的相似性，本发明采用贝叶斯似然比的方法，在提出的公式中既考虑到来自同源或者不同源的模式，也考虑到了不同背景对模式产生的影响，这样也提高了结果的可信性。度量相似性的公式会在最佳实施方式第1部分详细阐述。

3.针对得到的结果，当前的组织特异性基因序列模式发现方法大部分基于经典统计学原理（如统计特征模式的分布，然后计算p-Value评价其重要性），不能有效利用已知的先验知识，如模式绑定位点的特征及绑定位点的转录因子的特征，从而导致模式的过份估计（over-estimation）或者低估计(low-estimation)。

本发明提出利用贝叶斯因子分析来分析发现的模式，可以直观地把先验信息和后验信息组合起来。

Claims

1.一种基因组织特异性序列模式元搜索方法，其特征在于，该方法包括以下步骤：

步骤二，执行组织特异性基因元搜索流程，对作为本步骤输入的所述初始数据分别执行局部搜索算法和穷尽式搜索算法；然后将各模式搜索算法运行的结果组织存储到过滤矩阵FilterMatrix中，利用过滤矩阵FilterMatrix中的数据来估计模式的概率，再对各模式进行归并，在对各模式进行归并的过程中，采用贝叶斯似然比的方法计算motif之间的相似性，假设有两个motif