CN117746997B

CN117746997B - 一种基于多模态先验信息的顺式调控模体识别方法

Info

Publication number: CN117746997B
Application number: CN202311829307.8A
Authority: CN
Inventors: 吴响; 王换换; 王丽丽; 鹿川川
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-06-11
Anticipated expiration: 2043-12-28
Also published as: CN117746997A

Abstract

本发明涉及一种基于多模态先验信息的顺式调控模体识别方法，该方法包括如下步骤：首先，构建直系同源保守性、核小体定位、DNA双链体稳定性和转录因子结构类别先验信息子库，并转化为对应的知识图谱；接着，基于多种知识图谱生成模体识别的最优路径；最后，对得到的路径对应的特征采用模型融合的方法进行挖掘，得到最终的顺式调控模块；本发明通过从不同维度进行精准定位和识别，解决了现有技术方案顺式调控模体识别中存在的距离未知、顺序未知以及个数未知的问题。

Description

一种基于多模态先验信息的顺式调控模体识别方法

技术领域

本发明涉及一种基于多模态先验信息的顺式调控模体识别方法。

背景技术

DNA顺式调控模体是基因表达调控及重大疾病致病机理的重要研究基础。目前顺式调控模体识别算法在类型确定、数量有限、标注充分的小样本集约式封闭数据集上的识别性能已经到上限，而高度复杂的内部基因调控机制及规律尚未清楚。随着超高通量测序技术的发展，顺式调控模体识别正逐渐面临来自真实的大规模超高通量异步多方识别的挑战。在进行生物信息学、模体识别研究的中、外文献检索与阅读中发现，寻找顺式调控模体依赖单模体信号的集合以及这些信号集合之间的时空关系，真核生物基因组的长度通常在几千万碱基对到几亿碱基对之间，其调控区域一般很长，而顺式调控模体只有几十个碱基对到几千个碱基对的长度，其识别难度非常大。现有技术中的顺式调控模体识别存在的距离未知、顺序未知以及个数未知的问题。

发明内容

本发明的目的在于克服现有技术中的不足之处，提供一种基于多模态先验信息的顺式调控模体识别方法。

为了实现本发明的目的，我们将采用如下所述的技术方案加以实施。

一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，该方法包括以下步骤：

S1、采集跨源数据，并对跨源数据进行分类、整合、分析得到包括直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的先验信息表，并集中保存在多模态先验信息库中，以形成直系同源保守性先验信息子库、核小体定位先验信息子库、DNA双链体稳定性能量先验信息子库以及转录因子结构类别先验信息子库；

S2、对多模态先验信息库的实体及实体关系进行抽取，获取直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的结构化的先验信息表，生成直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱；

S3、对直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱进行知识图谱对齐操作，得到多模态知识图谱；

S4、确定待识别顺式调控模体数据的特征，根据多模态知识图谱对所述的特征进行判断：

条件1：是否是已知直系同源的分类；

条件2：是否是已知核小体定位信息；

条件3：是否是已知DNA双链体自由能；

条件4：是否是已知转录因子结构类别；

若满足条件数=4，则直接将所述的特征输入CNN分类器中实现模体序列的识别；

若满足条件数<4，则采用并行模型融合方法对顺式调控模体数据进行识别；

其中，所述的核小体定位模态先验信息表的建立方法，包括如下步骤：

S11、采用基于哈希表结构的比对算法对收集的相关物种或群体的遗传序列数据进行读长定位，即将测序片段比对到参考基因组上，得到核小体测序数据在基因组上的位置分布；

S12、根据比对后的片段位置信息识别核小体在染色体上的位置，即＂峰＂寻找：

S121、先将比对后的tag片段由25bp向3’端粒延长至150bp；

S122、将对每一个片段取中间的75bp长度构建核小体信号；

S123、在得到完整的核小体信号后，采用小波变换的信号处理方法对信号做平滑处理；

S124、使用Laplacian of Gaussian边缘检测方法识别定位核小体的“峰”，并结合分布对每个测的“峰”计算显性P值；

S125、设定显著性阈值，对P值进行阈值过滤得到最终的“峰”。

作为本发明的具体方案，所述的跨源数据包括数据库数据、文本文献数据、社交媒体数据以及传感器数据。

作为本发明的具体方案，所述的跨源数据是通过网络爬虫、API接口、数据挖掘的方法和技术进行采集的。

作为本发明的具体方案，所述先验信息表结构设计如下：

直系同源保守性模态先验信息表包括：

根节点，以0，1表示，0表示当前序列属于该根节点，1表示当前序列不属于该根节点；

多个节点序列，以0，1表示，0表示当前序列与该节点不具有物种或基因的演化路径，1表示当前序列与该节点不具有物种或基因的演化路径。

核小体定位模态先验信息表包括：

核小体定位信号，以数字0,1,2...n表示，表示当前序列所属的氨基酸序列或结构，具体类别根据收集到的核小体数据进行划分；

核小体定位蛋白质，以0，1表示，0表示当前序列没有核小体定位蛋白质，1表示有核小体定位蛋白质。

DNA双链体稳定性能量模态先验信息表包括：

最高自由能，以具体测到的当前序列的自由能值表示；

最高自由能对应位置，以具体位置表示。

转录因子结构类别模态先验信息表包括：

识别出的转录因子类别，以数字0,1,2...n表示，表示当前序列所属的转录因子类别，具体类别根据收集到的转录因子类别数据进行划分。

作为本发明的具体方案，建立直系同源保守性模态先验信息表的方法，包括如下步骤：

S1、收集相关物种或群体的遗传序列数据；

S2、采用BLAST序列比对工具对收集到的数据进行序列比对；

S3、采用距离法构建进化模型，以描述遗传或形态数据的变化规律；

S4、使用所选的进化模型，通过计算或优化方法来构建系统发育树的拓扑结构；

S5、通过引入贝叶斯推断方法来实现系统发育树的可靠性评估；

S6、根据构建的系统发育树结果，解释不同物种或群体之间的关系和演化历史，并根据需要进行修正和调整。

建立DNA双链体稳定性能量模态先验信息表的方法，包括如下步骤：

S1、使用在线工具WebSIDD6来计算相关物种或群体的遗传序列TF结合数据中所有DNA探针的不稳定谱；

S2、建立一组高可信度的TF结合位点的能量直方图，将这些值归一化以得到有效的概率分布；

S3、用移动平均法得到能量值的平滑分布，对于每一个能量值e，这个分布表示一个DNA位点S具有该能量的概率。

建立转录因子结构类别模态先验信息表的方法，是从现在已知的结合位点中提取大量序列特征，训练基于逻辑回归的稀疏贝叶斯分类器。

作为本发明的具体方案，知识图谱对齐操作：使用TransE模型对知识图谱进行嵌入学习，将知识图谱中的实体和关系映射到低维向量空间中的点，得到初始实体和关系的嵌入向量；计算实体及关系之间的相似度，得到每个实体和关系的注意力权重；按照注意力权重对初始嵌入向量进行加权平均，获得新的实体和关系的嵌入向量表示；对得到的实体和关系嵌入向量再次进行相似度计算，通过计算实体向量之间的相似度，进行实体对齐任务；通过计算关系向量之间的相似度，进行链接预测任务；最终得到多模态知识图谱。

作为本发明的具体方案，所述的并行模型融合方法如下：

待识别顺式调控模体数据的特征输入预训练的直系同源保守性模型，输出保守性区域；

待识别顺式调控模体数据的特征输入预训练的核小体定位模型，输出核小体位置；

待识别顺式调控模体数据的特征输入预训练的DNA双链体稳定性模型，输出稳定性位置；

待识别顺式调控模体数据的特征输入预训练的转录因子结构类别模型，输出类别位置；

将上述模型输出结果作为训练特征输入CNN模型进行训练，并采用Logits函数进行处理，得到训练完成的模型。

有益效果

通过跨源获取现有顺势调控模体相关数据，进行分类、整理获得四个常用先验知识库，实现顺式调控模体识别的全面性，解决现有技术存在的距离未知、顺序未知以及个数未知等识别问题；此外构建多模态顺式调控模体知识图谱，基于注意力机制的知识图谱对齐方法，增强了知识图谱嵌入的表达能力，使其更好地捕捉多模态先验数据库之间的关联，提高顺式调控模体识别准确性；并行模型融合方法，进一步提高模型识别准确率。

附图说明

图1为本发明的整体流程图；

图2为本发明的直系同源保守性先验信息表示意图；

图3为本发明的核小体定位先验信息表示意图；

图4为本发明的DNA双链体稳定性先验信息表示意图；

图5为本发明的转录因子结构类别先验信息表示意图；

图6为本发明的基于注意力机制的知识图谱对齐方法示意图；

图7为本发明的并行模型融合方法示意图。

具体实施方式

作为本发明的实施例，如图1所示，建立多模态先验信息表。

直系同源保守性数据处理及分析，无论模体正向还是逆向识别均具有较高的准确性，可解决顺式调控模体内顺序未知的问题。首先，收集相关物种或群体的遗传序列数据；然后，采用BLAST序列比对工具对收集到的数据进行序列比对；接着，采用距离法构建进化模型，以描述遗传或形态数据的变化规律；其次，使用所选的进化模型，通过计算或优化方法来构建系统发育树的拓扑结构；通过引入贝叶斯推断方法来实现系统发育树的可靠性评估；最后，根据构建的系统发育树结果，解释不同物种或群体之间的关系和演化历史，并根据需要进行修正和调整。

核小体定位数据处理及分析，聚焦顺式调控模块的模体组合。首先，采用基于哈希表结构的比对算法对收集的相关物种或群体的遗传序列数据进行读长定位，即将测序片段比对到参考基因组上，得到核小体测序数据在基因组上的位置分布；接下来，需要根据比对后的片段位置信息识别核小体在染色体上的位置，即＂峰＂寻找：先将比对后的tag片段由25bp(Solexa)向3’端粒延长至 150bp；然后，将对每一个片段取中间的75bp长度构建核小体信号，以提高信噪比，提高信号分辨率；在得到完整的核小体信号后，采用小波变换的信号处理方法对信号做平滑处理；接着使用Laplacian of Gaussian边缘检测方法识别定位核小体的“峰”，并结合分布对每个测的“峰”计算显性P值；设定显著性阈值，对P值进行阈值过滤得到最终的“峰”。

DNA双链体稳定性能量数据处理及分析，定位结合位点。首先，使用在线工具WebSIDD6来计算相关物种或群体的遗传序列TF结合数据中所有DNA探针的不稳定谱；然后，建立一组高可信度的TF结合位点的能量直方图，将这些值归一化以得到有效的概率分布，然后用移动平均法得到能量值的平滑分布，对于每一个能量值e，这个分布表示一个DNA位点S具有该能量的概率。

转录因子结构类别数据处理及分析，快速、敏感地捕获TF的“真正的”主题。从现在已知的结合位点中提取大量序列特征，训练基于逻辑回归的稀疏贝叶斯分类器。

通过上述方法，得到如图2-5所示的先验信息表，存入多模态先验信息库中。

作为本发明的实施例，构建多模态知识图谱。

根据先验信息表结构确定知识图谱实体节点及实体间的关系链接，再加上基本属性即可生成多个对应的模态知识图谱。如图6所示，再采用基于注意力机制的知识图谱对齐方法实现多个模态知识图谱的实体对齐：使用TransE模型对知识图谱进行嵌入学习，将知识图谱中的实体和关系映射到低维向量空间中的点，得到初始实体和关系的嵌入向量；计算实体及关系之间的相似度，得到每个实体和关系的注意力权重；按照注意力权重对初始嵌入向量进行加权平均，获得新的实体和关系的嵌入向量表示；对得到的实体和关系嵌入向量再次进行相似度计算，通过计算实体向量之间的相似度，进行实体对齐任务。通过计算关系向量之间的相似度，进行链接预测任务；最终得到顺式调控模体多模态先验知识图谱。常用的相似度计算方法包括余弦相似度、欧氏距离、马氏距离等。

作为本发明的实施例，最优路径查找，首先，确定待识别顺式调控模体数据特征；接着，根据多模态知识图谱对所述特征进行判断：

条件1：是否已知直系同源的分类；

条件2：是否已知核小体定位信息；

条件3：是否已知DNA双链体自由能；

条件4：是否已知转录因子结构类别；

若满足条件数=4，则直接将上述特征输入CNN分类器中实现模体序列的识别；

若满足条件数<4，则采用并行模型融合方法对顺式调控模体数据进行识别。

如图7所示，并行模型融合方法：待识别顺式调控模体数据输入预训练的直系同源保守性模型，定位模体查找范围；待识别顺式调控模体数据输入预训练的核小体定位模型，定位模体组合；待识别顺式调控模体数据输入预训练的DNA双链体稳定性模型，定位结合位点；待识别顺式调控模体数据输入预训练的转录因子结构类别模型，定位真正模体；将上述模型输出结果作为训练特征输入CNN模型进行训练，并采用Logits函数进行处理，得到训练完成的模型。

最后应说明的是，以上仅用以说明本发明的技术方案而非限制，尽管参照较佳布置方案对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，该方法包括以下步骤：

S1、采集跨源数据，并对跨源数据进行比对分析、整理得到包括直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的先验信息表，并集中保存在多模态先验信息库中，以形成直系同源保守性先验信息子库、核小体定位先验信息子库、DNA双链体稳定性能量先验信息子库以及转录因子结构类别先验信息子库；

S2、对多模态先验信息库的实体及实体关系进行抽取，获取直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的结构化先验信息表，生成直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱；

条件1：是否是已知直系同源的分类；

条件2：是否是已知核小体定位信息；

条件3：是否是已知DNA双链体自由能；

条件4：是否是已知转录因子结构类别；

其中，所述的核小体定位模态的先验信息表的建立方法，包括如下步骤：

S121、先将比对后的tag片段由25bp向3’端粒延长至150bp；

S122、将对每一个片段取中间的75bp长度构建核小体信号；

2.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的跨源数据包括数据库数据、文本文献数据、社交媒体数据以及传感器数据。

3.根据权利要求1或2所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的跨源数据是通过网络爬虫、API接口、数据挖掘的方法和技术进行采集的。

4.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的直系同源保守性模态的先验信息表的建立方法，包括如下步骤：

S1、收集相关物种或群体的遗传序列数据；

S2、采用BLAST序列比对工具对收集到的数据进行序列比对；

5.根据权利要求1或4所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的直系同源保守性模态先验信息表包括：

6.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的核小体定位模态先验信息表包括：

7.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的DNA双链体稳定性能量模态先验信息表的建立方法，包括如下步骤：

8.根据权利要求1或7所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的DNA双链体稳定性能量模态先验信息表包括：

最高自由能，以具体测到的当前序列的自由能值表示；

最高自由能对应位置，以具体位置表示。

9.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的转录因子结构类别模态先验信息表的建立方法，该方法是从现在已知的结合位点中提取大量序列特征，训练基于逻辑回归的稀疏贝叶斯分类器。

10.根据权利要求1或9所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的转录因子结构类别模态先验信息表包括：

11.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的知识图谱对齐操作包括如下步骤：

S1、使用TransE模型对知识图谱进行嵌入学习，将知识图谱中的实体和关系映射到低维向量空间中的点，得到初始实体和关系的嵌入向量；

S2、计算实体及关系之间的相似度，得到每个实体和关系的注意力权重；

S3、按照注意力权重对初始嵌入向量进行加权平均，获得新的实体和关系的嵌入向量表示；

S4、对得到的实体和关系嵌入向量再次进行相似度计算，通过计算实体向量之间的相似度，进行实体对齐任务；

S5、通过计算关系向量之间的相似度，进行链接预测任务；

S6、最终得到多模态先验知识图谱。

12.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法，其特征在于，所述的并行模型融合方法如下：