CN117746997B - 一种基于多模态先验信息的顺式调控模体识别方法 - Google Patents
一种基于多模态先验信息的顺式调控模体识别方法 Download PDFInfo
- Publication number
- CN117746997B CN117746997B CN202311829307.8A CN202311829307A CN117746997B CN 117746997 B CN117746997 B CN 117746997B CN 202311829307 A CN202311829307 A CN 202311829307A CN 117746997 B CN117746997 B CN 117746997B
- Authority
- CN
- China
- Prior art keywords
- cis
- data
- mode
- nucleosome
- regulatory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 108010047956 Nucleosomes Proteins 0.000 claims abstract description 49
- 210000001623 nucleosome Anatomy 0.000 claims abstract description 49
- 108091023040 Transcription factor Proteins 0.000 claims abstract description 29
- 102000040945 Transcription factor Human genes 0.000 claims abstract description 29
- 108020004414 DNA Proteins 0.000 claims abstract description 27
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 21
- 238000009739 binding Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 6
- 239000003298 DNA probe Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 108091035539 telomere Proteins 0.000 claims description 3
- 210000003411 telomere Anatomy 0.000 claims description 3
- 102000055501 telomere Human genes 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多模态先验信息的顺式调控模体识别方法,该方法包括如下步骤:首先,构建直系同源保守性、核小体定位、DNA双链体稳定性和转录因子结构类别先验信息子库,并转化为对应的知识图谱;接着,基于多种知识图谱生成模体识别的最优路径;最后,对得到的路径对应的特征采用模型融合的方法进行挖掘,得到最终的顺式调控模块;本发明通过从不同维度进行精准定位和识别,解决了现有技术方案顺式调控模体识别中存在的距离未知、顺序未知以及个数未知的问题。
Description
技术领域
本发明涉及一种基于多模态先验信息的顺式调控模体识别方法。
背景技术
DNA顺式调控模体是基因表达调控及重大疾病致病机理的重要研究基础。目前顺式调控模体识别算法在类型确定、数量有限、标注充分的小样本集约式封闭数据集上的识别性能已经到上限,而高度复杂的内部基因调控机制及规律尚未清楚。随着超高通量测序技术的发展,顺式调控模体识别正逐渐面临来自真实的大规模超高通量异步多方识别的挑战。在进行生物信息学、模体识别研究的中、外文献检索与阅读中发现,寻找顺式调控模体依赖单模体信号的集合以及这些信号集合之间的时空关系,真核生物基因组的长度通常在几千万碱基对到几亿碱基对之间,其调控区域一般很长,而顺式调控模体只有几十个碱基对到几千个碱基对的长度,其识别难度非常大。现有技术中的顺式调控模体识别存在的距离未知、顺序未知以及个数未知的问题。
发明内容
本发明的目的在于克服现有技术中的不足之处,提供一种基于多模态先验信息的顺式调控模体识别方法。
为了实现本发明的目的,我们将采用如下所述的技术方案加以实施。
一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,该方法包括以下步骤:
S1、采集跨源数据,并对跨源数据进行分类、整合、分析得到包括直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的先验信息表,并集中保存在多模态先验信息库中,以形成直系同源保守性先验信息子库、核小体定位先验信息子库、DNA双链体稳定性能量先验信息子库以及转录因子结构类别先验信息子库;
S2、对多模态先验信息库的实体及实体关系进行抽取,获取直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的结构化的先验信息表,生成直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱;
S3、对直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱进行知识图谱对齐操作,得到多模态知识图谱;
S4、确定待识别顺式调控模体数据的特征,根据多模态知识图谱对所述的特征进行判断:
条件1:是否是已知直系同源的分类;
条件2:是否是已知核小体定位信息;
条件3:是否是已知DNA双链体自由能;
条件4:是否是已知转录因子结构类别;
若满足条件数=4,则直接将所述的特征输入CNN分类器中实现模体序列的识别;
若满足条件数<4,则采用并行模型融合方法对顺式调控模体数据进行识别;
其中,所述的核小体定位模态先验信息表的建立方法,包括如下步骤:
S11、采用基于哈希表结构的比对算法对收集的相关物种或群体的遗传序列数据进行读长定位,即将测序片段比对到参考基因组上,得到核小体测序数据在基因组上的位置分布;
S12、根据比对后的片段位置信息识别核小体在染色体上的位置,即"峰"寻找:
S121、先将比对后的tag片段由25bp向3’端粒延长至150bp;
S122、将对每一个片段取中间的75bp长度构建核小体信号;
S123、在得到完整的核小体信号后,采用小波变换的信号处理方法对信号做平滑处理;
S124、使用Laplacian of Gaussian边缘检测方法识别定位核小体的“峰”,并结合分布对每个测的“峰”计算显性P值;
S125、设定显著性阈值,对P值进行阈值过滤得到最终的“峰”。
作为本发明的具体方案,所述的跨源数据包括数据库数据、文本文献数据、社交媒体数据以及传感器数据。
作为本发明的具体方案,所述的跨源数据是通过网络爬虫、API接口、数据挖掘的方法和技术进行采集的。
作为本发明的具体方案,所述先验信息表结构设计如下:
直系同源保守性模态先验信息表包括:
根节点,以0,1表示,0表示当前序列属于该根节点,1表示当前序列不属于该根节点;
多个节点序列,以0,1表示,0表示当前序列与该节点不具有物种或基因的演化路径,1表示当前序列与该节点不具有物种或基因的演化路径。
核小体定位模态先验信息表包括:
核小体定位信号,以数字0,1,2...n表示,表示当前序列所属的氨基酸序列或结构,具体类别根据收集到的核小体数据进行划分;
核小体定位蛋白质,以0,1表示,0表示当前序列没有核小体定位蛋白质,1表示有核小体定位蛋白质。
DNA双链体稳定性能量模态先验信息表包括:
最高自由能,以具体测到的当前序列的自由能值表示;
最高自由能对应位置,以具体位置表示。
转录因子结构类别模态先验信息表包括:
识别出的转录因子类别,以数字0,1,2...n表示,表示当前序列所属的转录因子类别,具体类别根据收集到的转录因子类别数据进行划分。
作为本发明的具体方案,建立直系同源保守性模态先验信息表的方法,包括如下步骤:
S1、收集相关物种或群体的遗传序列数据;
S2、采用BLAST序列比对工具对收集到的数据进行序列比对;
S3、采用距离法构建进化模型,以描述遗传或形态数据的变化规律;
S4、使用所选的进化模型,通过计算或优化方法来构建系统发育树的拓扑结构;
S5、通过引入贝叶斯推断方法来实现系统发育树的可靠性评估;
S6、根据构建的系统发育树结果,解释不同物种或群体之间的关系和演化历史,并根据需要进行修正和调整。
建立DNA双链体稳定性能量模态先验信息表的方法,包括如下步骤:
S1、使用在线工具WebSIDD6来计算相关物种或群体的遗传序列TF结合数据中所有DNA探针的不稳定谱;
S2、建立一组高可信度的TF结合位点的能量直方图,将这些值归一化以得到有效的概率分布;
S3、用移动平均法得到能量值的平滑分布,对于每一个能量值e,这个分布表示一个DNA位点S具有该能量的概率。
建立转录因子结构类别模态先验信息表的方法,是从现在已知的结合位点中提取大量序列特征,训练基于逻辑回归的稀疏贝叶斯分类器。
作为本发明的具体方案,知识图谱对齐操作:使用TransE模型对知识图谱进行嵌入学习,将知识图谱中的实体和关系映射到低维向量空间中的点,得到初始实体和关系的嵌入向量;计算实体及关系之间的相似度,得到每个实体和关系的注意力权重;按照注意力权重对初始嵌入向量进行加权平均,获得新的实体和关系的嵌入向量表示;对得到的实体和关系嵌入向量再次进行相似度计算,通过计算实体向量之间的相似度,进行实体对齐任务;通过计算关系向量之间的相似度,进行链接预测任务;最终得到多模态知识图谱。
作为本发明的具体方案,所述的并行模型融合方法如下:
待识别顺式调控模体数据的特征输入预训练的直系同源保守性模型,输出保守性区域;
待识别顺式调控模体数据的特征输入预训练的核小体定位模型,输出核小体位置;
待识别顺式调控模体数据的特征输入预训练的DNA双链体稳定性模型,输出稳定性位置;
待识别顺式调控模体数据的特征输入预训练的转录因子结构类别模型,输出类别位置;
将上述模型输出结果作为训练特征输入CNN模型进行训练,并采用Logits函数进行处理,得到训练完成的模型。
有益效果
通过跨源获取现有顺势调控模体相关数据,进行分类、整理获得四个常用先验知识库,实现顺式调控模体识别的全面性,解决现有技术存在的距离未知、顺序未知以及个数未知等识别问题;此外构建多模态顺式调控模体知识图谱,基于注意力机制的知识图谱对齐方法,增强了知识图谱嵌入的表达能力,使其更好地捕捉多模态先验数据库之间的关联,提高顺式调控模体识别准确性;并行模型融合方法,进一步提高模型识别准确率。
附图说明
图1为本发明的整体流程图;
图2为本发明的直系同源保守性先验信息表示意图;
图3为本发明的核小体定位先验信息表示意图;
图4为本发明的DNA双链体稳定性先验信息表示意图;
图5为本发明的转录因子结构类别先验信息表示意图;
图6为本发明的基于注意力机制的知识图谱对齐方法示意图;
图7为本发明的并行模型融合方法示意图。
具体实施方式
作为本发明的实施例,如图1所示,建立多模态先验信息表。
直系同源保守性数据处理及分析,无论模体正向还是逆向识别均具有较高的准确性,可解决顺式调控模体内顺序未知的问题。首先,收集相关物种或群体的遗传序列数据;然后,采用BLAST序列比对工具对收集到的数据进行序列比对;接着,采用距离法构建进化模型,以描述遗传或形态数据的变化规律;其次,使用所选的进化模型,通过计算或优化方法来构建系统发育树的拓扑结构;通过引入贝叶斯推断方法来实现系统发育树的可靠性评估;最后,根据构建的系统发育树结果,解释不同物种或群体之间的关系和演化历史,并根据需要进行修正和调整。
核小体定位数据处理及分析,聚焦顺式调控模块的模体组合。首先,采用基于哈希表结构的比对算法对收集的相关物种或群体的遗传序列数据进行读长定位,即将测序片段比对到参考基因组上,得到核小体测序数据在基因组上的位置分布;接下来,需要根据比对后的片段位置信息识别核小体在染色体上的位置,即"峰"寻找:先将比对后的tag片段由25bp(Solexa)向3’端粒延长至 150bp;然后,将对每一个片段取中间的75bp长度构建核小体信号,以提高信噪比,提高信号分辨率;在得到完整的核小体信号后,采用小波变换的信号处理方法对信号做平滑处理;接着使用Laplacian of Gaussian边缘检测方法识别定位核小体的“峰”,并结合分布对每个测的“峰”计算显性P值;设定显著性阈值,对P值进行阈值过滤得到最终的“峰”。
DNA双链体稳定性能量数据处理及分析,定位结合位点。首先,使用在线工具WebSIDD6来计算相关物种或群体的遗传序列TF结合数据中所有DNA探针的不稳定谱;然后,建立一组高可信度的TF结合位点的能量直方图,将这些值归一化以得到有效的概率分布,然后用移动平均法得到能量值的平滑分布,对于每一个能量值e,这个分布表示一个DNA位点S具有该能量的概率。
转录因子结构类别数据处理及分析,快速、敏感地捕获TF的“真正的”主题。从现在已知的结合位点中提取大量序列特征,训练基于逻辑回归的稀疏贝叶斯分类器。
通过上述方法,得到如图2-5所示的先验信息表,存入多模态先验信息库中。
作为本发明的实施例,构建多模态知识图谱。
根据先验信息表结构确定知识图谱实体节点及实体间的关系链接,再加上基本属性即可生成多个对应的模态知识图谱。如图6所示,再采用基于注意力机制的知识图谱对齐方法实现多个模态知识图谱的实体对齐:使用TransE模型对知识图谱进行嵌入学习,将知识图谱中的实体和关系映射到低维向量空间中的点,得到初始实体和关系的嵌入向量;计算实体及关系之间的相似度,得到每个实体和关系的注意力权重;按照注意力权重对初始嵌入向量进行加权平均,获得新的实体和关系的嵌入向量表示;对得到的实体和关系嵌入向量再次进行相似度计算,通过计算实体向量之间的相似度,进行实体对齐任务。通过计算关系向量之间的相似度,进行链接预测任务;最终得到顺式调控模体多模态先验知识图谱。常用的相似度计算方法包括余弦相似度、欧氏距离、马氏距离等。
作为本发明的实施例,最优路径查找,首先,确定待识别顺式调控模体数据特征;接着,根据多模态知识图谱对所述特征进行判断:
条件1:是否已知直系同源的分类;
条件2:是否已知核小体定位信息;
条件3:是否已知DNA双链体自由能;
条件4:是否已知转录因子结构类别;
若满足条件数=4,则直接将上述特征输入CNN分类器中实现模体序列的识别;
若满足条件数<4,则采用并行模型融合方法对顺式调控模体数据进行识别。
如图7所示,并行模型融合方法:待识别顺式调控模体数据输入预训练的直系同源保守性模型,定位模体查找范围;待识别顺式调控模体数据输入预训练的核小体定位模型,定位模体组合;待识别顺式调控模体数据输入预训练的DNA双链体稳定性模型,定位结合位点;待识别顺式调控模体数据输入预训练的转录因子结构类别模型,定位真正模体;将上述模型输出结果作为训练特征输入CNN模型进行训练,并采用Logits函数进行处理,得到训练完成的模型。
最后应说明的是,以上仅用以说明本发明的技术方案而非限制,尽管参照较佳布置方案对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (12)
1.一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,该方法包括以下步骤:
S1、采集跨源数据,并对跨源数据进行比对分析、整理得到包括直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的先验信息表,并集中保存在多模态先验信息库中,以形成直系同源保守性先验信息子库、核小体定位先验信息子库、DNA双链体稳定性能量先验信息子库以及转录因子结构类别先验信息子库;
S2、对多模态先验信息库的实体及实体关系进行抽取,获取直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的结构化先验信息表,生成直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱;
S3、对直系同源保守性模态、核小体定位模态、DNA双链体稳定性能量模态以及转录因子结构类别模态的知识图谱进行知识图谱对齐操作,得到多模态知识图谱;
S4、确定待识别顺式调控模体数据的特征,根据多模态知识图谱对所述的特征进行判断:
条件1:是否是已知直系同源的分类;
条件2:是否是已知核小体定位信息;
条件3:是否是已知DNA双链体自由能;
条件4:是否是已知转录因子结构类别;
若满足条件数=4,则直接将所述的特征输入CNN分类器中实现模体序列的识别;
若满足条件数<4,则采用并行模型融合方法对顺式调控模体数据进行识别;
其中,所述的核小体定位模态的先验信息表的建立方法,包括如下步骤:
S11、采用基于哈希表结构的比对算法对收集的相关物种或群体的遗传序列数据进行读长定位,即将测序片段比对到参考基因组上,得到核小体测序数据在基因组上的位置分布;
S12、根据比对后的片段位置信息识别核小体在染色体上的位置,即"峰"寻找:
S121、先将比对后的tag片段由25bp向3’端粒延长至150bp;
S122、将对每一个片段取中间的75bp长度构建核小体信号;
S123、在得到完整的核小体信号后,采用小波变换的信号处理方法对信号做平滑处理;
S124、使用Laplacian of Gaussian边缘检测方法识别定位核小体的“峰”,并结合分布对每个测的“峰”计算显性P值;
S125、设定显著性阈值,对P值进行阈值过滤得到最终的“峰”。
2.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的跨源数据包括数据库数据、文本文献数据、社交媒体数据以及传感器数据。
3.根据权利要求1或2所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的跨源数据是通过网络爬虫、API接口、数据挖掘的方法和技术进行采集的。
4.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的直系同源保守性模态的先验信息表的建立方法,包括如下步骤:
S1、收集相关物种或群体的遗传序列数据;
S2、采用BLAST序列比对工具对收集到的数据进行序列比对;
S3、采用距离法构建进化模型,以描述遗传或形态数据的变化规律;
S4、使用所选的进化模型,通过计算或优化方法来构建系统发育树的拓扑结构;
S5、通过引入贝叶斯推断方法来实现系统发育树的可靠性评估;
S6、根据构建的系统发育树结果,解释不同物种或群体之间的关系和演化历史,并根据需要进行修正和调整。
5.根据权利要求1或4所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的直系同源保守性模态先验信息表包括:
根节点,以0,1表示,0表示当前序列属于该根节点,1表示当前序列不属于该根节点;
多个节点序列,以0,1表示,0表示当前序列与该节点不具有物种或基因的演化路径,1表示当前序列与该节点不具有物种或基因的演化路径。
6.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的核小体定位模态先验信息表包括:
核小体定位信号,以数字0,1,2...n表示,表示当前序列所属的氨基酸序列或结构,具体类别根据收集到的核小体数据进行划分;
核小体定位蛋白质,以0,1表示,0表示当前序列没有核小体定位蛋白质,1表示有核小体定位蛋白质。
7.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的DNA双链体稳定性能量模态先验信息表的建立方法,包括如下步骤:
S1、使用在线工具WebSIDD6来计算相关物种或群体的遗传序列TF结合数据中所有DNA探针的不稳定谱;
S2、建立一组高可信度的TF结合位点的能量直方图,将这些值归一化以得到有效的概率分布;
S3、用移动平均法得到能量值的平滑分布,对于每一个能量值e,这个分布表示一个DNA位点S具有该能量的概率。
8.根据权利要求1或7所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的DNA双链体稳定性能量模态先验信息表包括:
最高自由能,以具体测到的当前序列的自由能值表示;
最高自由能对应位置,以具体位置表示。
9.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的转录因子结构类别模态先验信息表的建立方法,该方法是从现在已知的结合位点中提取大量序列特征,训练基于逻辑回归的稀疏贝叶斯分类器。
10.根据权利要求1或9所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的转录因子结构类别模态先验信息表包括:
识别出的转录因子类别,以数字0,1,2...n表示,表示当前序列所属的转录因子类别,具体类别根据收集到的转录因子类别数据进行划分。
11.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的知识图谱对齐操作包括如下步骤:
S1、使用TransE模型对知识图谱进行嵌入学习,将知识图谱中的实体和关系映射到低维向量空间中的点,得到初始实体和关系的嵌入向量;
S2、计算实体及关系之间的相似度,得到每个实体和关系的注意力权重;
S3、按照注意力权重对初始嵌入向量进行加权平均,获得新的实体和关系的嵌入向量表示;
S4、对得到的实体和关系嵌入向量再次进行相似度计算,通过计算实体向量之间的相似度,进行实体对齐任务;
S5、通过计算关系向量之间的相似度,进行链接预测任务;
S6、最终得到多模态先验知识图谱。
12.根据权利要求1所述的一种基于多模态先验信息的顺式调控模体识别方法,其特征在于,所述的并行模型融合方法如下:
待识别顺式调控模体数据的特征输入预训练的直系同源保守性模型,输出保守性区域;
待识别顺式调控模体数据的特征输入预训练的核小体定位模型,输出核小体位置;
待识别顺式调控模体数据的特征输入预训练的DNA双链体稳定性模型,输出稳定性位置;
待识别顺式调控模体数据的特征输入预训练的转录因子结构类别模型,输出类别位置;
将上述模型输出结果作为训练特征输入CNN模型进行训练,并采用Logits函数进行处理,得到训练完成的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311829307.8A CN117746997B (zh) | 2023-12-28 | 2023-12-28 | 一种基于多模态先验信息的顺式调控模体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311829307.8A CN117746997B (zh) | 2023-12-28 | 2023-12-28 | 一种基于多模态先验信息的顺式调控模体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117746997A CN117746997A (zh) | 2024-03-22 |
CN117746997B true CN117746997B (zh) | 2024-06-11 |
Family
ID=90254490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311829307.8A Active CN117746997B (zh) | 2023-12-28 | 2023-12-28 | 一种基于多模态先验信息的顺式调控模体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746997B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6623922B1 (en) * | 1997-02-14 | 2003-09-23 | Deltagen Proteomics | Methods for identifying, characterizing, and evolving cell-type specific CIS regulatory elements |
CN112651445A (zh) * | 2020-12-29 | 2021-04-13 | 广州中医药大学(广州中医药研究院) | 基于深度网络多模态信息融合的生物信息识别方法和装置 |
CN114613426A (zh) * | 2022-01-26 | 2022-06-10 | 西北大学 | 一种基于动态多目标优化的系统发育树构建方法 |
CN116129996A (zh) * | 2023-01-16 | 2023-05-16 | 安徽医科大学 | 一种基于增强子和启动子数据预测关键转录因子的方法 |
-
2023
- 2023-12-28 CN CN202311829307.8A patent/CN117746997B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6623922B1 (en) * | 1997-02-14 | 2003-09-23 | Deltagen Proteomics | Methods for identifying, characterizing, and evolving cell-type specific CIS regulatory elements |
CN112651445A (zh) * | 2020-12-29 | 2021-04-13 | 广州中医药大学(广州中医药研究院) | 基于深度网络多模态信息融合的生物信息识别方法和装置 |
CN114613426A (zh) * | 2022-01-26 | 2022-06-10 | 西北大学 | 一种基于动态多目标优化的系统发育树构建方法 |
CN116129996A (zh) * | 2023-01-16 | 2023-05-16 | 安徽医科大学 | 一种基于增强子和启动子数据预测关键转录因子的方法 |
Non-Patent Citations (1)
Title |
---|
SegHMC: 一种基于Segmental HMM模型的顺式;郭海涛;《自动化学报》;20161130;第第42卷卷(第第11 期期);1719-1729 * |
Also Published As
Publication number | Publication date |
---|---|
CN117746997A (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110289050B (zh) | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 | |
CN103415825A (zh) | 用于手势识别的系统和方法 | |
Liu et al. | Towards optimal binary code learning via ordinal embedding | |
CN111833310B (zh) | 一种基于神经网络架构搜索的表面缺陷分类方法 | |
KR102362872B1 (ko) | 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 | |
CN108710784A (zh) | 一种基因转录变异几率及变异方向的算法 | |
CN110265085A (zh) | 一种蛋白质相互作用位点识别方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN113823356B (zh) | 一种甲基化位点识别方法及装置 | |
Muzakir et al. | Model for Identification and Prediction of Leaf Patterns: Preliminary Study for Improvement | |
CN113723558A (zh) | 基于注意力机制的遥感图像小样本舰船检测方法 | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
Dhyaram et al. | RANDOM SUBSET FEATURE SELECTION FOR CLASSIFICATION. | |
CN117746997B (zh) | 一种基于多模态先验信息的顺式调控模体识别方法 | |
Bai et al. | A unified deep learning model for protein structure prediction | |
CN115713970A (zh) | 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法 | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN108388774A (zh) | 一种多肽谱匹配数据的在线分析方法 | |
CN110348323B (zh) | 一种基于神经网络优化的穿戴式设备手势识别方法 | |
Yao et al. | A two-stage multi-fidelity design optimization for K-mer-based pattern recognition (KPR) in image processing | |
CN113724779A (zh) | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 | |
CN113257341A (zh) | 一种基于深度残差网络的蛋白质残基间距离分布预测方法 | |
CN111383710A (zh) | 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法 | |
CN111310712B (zh) | 一种基于指纹词袋特征的快速搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |