CN116994645A - 基于交互式推理网络的piRNA与mRNA靶标对的预测方法 - Google Patents

基于交互式推理网络的piRNA与mRNA靶标对的预测方法 Download PDF

Info

Publication number
CN116994645A
CN116994645A CN202310955332.4A CN202310955332A CN116994645A CN 116994645 A CN116994645 A CN 116994645A CN 202310955332 A CN202310955332 A CN 202310955332A CN 116994645 A CN116994645 A CN 116994645A
Authority
CN
China
Prior art keywords
pirna
mrna
layer
mrna target
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310955332.4A
Other languages
English (en)
Other versions
CN116994645B (zh
Inventor
刘雅君
李茹
李爱民
费蓉
黑新宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202310955332.4A priority Critical patent/CN116994645B/zh
Publication of CN116994645A publication Critical patent/CN116994645A/zh
Application granted granted Critical
Publication of CN116994645B publication Critical patent/CN116994645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于交互式推理网络的piRNA与mRNA靶标对的预测方法,步骤S1:构建小鼠piRNA与mRNA靶标对预测研究的基准数据集;步骤S2:构建piRNA与mRNA靶标对预测研究的可靠负集;步骤S3:对前序步骤得到的序列对进行预处理操作;步骤S4:构建用于预测的交互式推理网络模型;步骤S5:对该发明所涉及模型中的超参数进行优化,具体参数包含学习率、批次大小、优化器、epoch等,以寻求最优的超参数组合;步骤S6:实现piRNA与mRNA靶标对的二分类判定。本发明可用于鉴定小鼠中piRNA与mRNA靶标对,基于正未学习构建可靠的负样本集、交互式推理网络有效编码和特征提取等处理步骤使得预测结果具有较高的准确率和可靠性。

Description

基于交互式推理网络的piRNA与mRNA靶标对的预测方法
技术领域
本发明属于piRNA功能鉴定技术领域,尤其涉及一种有效的基于神经网络鉴定piRNA和mRNA靶标对的预测方法。
背景技术
根据能否行使指导蛋白质合成,生物体内RNA被分为了编码RNA和非编码RNA两大类,常见的非编码RNA包括lncRNA,circRNA,miRNA,siRNA,piRNA(Piwi-interacting RNA)等。其中piRNA的发现开拓了非编码RNA研究的全新领域,被《Science》杂志评为2006年十大科技进展之一。piRNA是一类长度在24~32nt之间的小RNA,主要存在与哺乳动物的生殖细胞和干细胞中,通过与PIWI蛋白家族结合形成piRNA复合物(piRC)来调控基因沉默。
基因之间通常具有相互作用关系,作为一种非编码基因,piRNA也不例外,最熟知的piRNA交互作用是piRNA可以介导转座子切割,其中转座子为跳跃基因,类似于内源性病毒。除此之外,piRNA交互作用还体现调控各种内源性转录本,包括编码蛋白质的mRNA以及lncRNA等。2015年,耶鲁大学的林海帆研究团队在《Genome Research》杂志上发表文章指出,衍生自转座子和假基因的piRNA在小鼠的晚期精母细胞中介导大量mRNA和lncRNA的降解,此外,假基因通过piRNA途径调节mRNA稳定性;2017年,上海生命科学院刘默芳研究员课题组首次证明人类PIWI基因突变导致男性不育,随后也进一步发现了PIWI/piRNA调控作用广泛参与精子细胞中的mRNA翻译激活;同时,吉林大学第一医院彭丽萍等人发现piR-55490通过与mTOR基因的mRNA的3’UTR区域结合可以抑制肺癌细胞转移生长,诱导mTOR基因降解。总之,上述研究均表明了piRNA对mRNA存在调控作用,这提示通过科学手段可以推导出piRNA与mRNA相互作用的规律,进而预测piRNA与mRNA是否具有靶向关系。
尽管piRNA靶向规则与miRNA(microRNA,微小RNA)靶向规则有相似之处,但大量可用于miRNA靶标预测的工具不足以成功预测piRNA靶向位点。现有的研究piRNA与mRNA靶标对的预测算法数量较少,计算性能和泛化性有待提高。台湾省成功大学吴等人开发了一种名为pirScan模式搜索工具,使用既定靶向规则识别秀丽隐杆线虫在给定序列mRNA或剪接DNA序列中的piRNA靶向位点,该方法限制了在小鼠等其他模式生物中的推广。中科院动物所何等人开发了一种基于手工制作、位置衍生和MiwiCLIP-seq(交联免疫沉淀与深度测序结合)衍生特征的组合来训练SVM分类器,用于提取小鼠mRNA上的piRNA靶点。然而,该方法在数据集上使用基于突变表达式推断出的负集样本而不是验证的负集样本。为了避免未经验证的低质量负集所引起的高假阳性问题,台湾省成功大学杨等人从杂交体交联、连接和测序的CLASH实验数据中将嵌合体划分成piRNA-mRNA片段对,选取严格的数据准备步骤来识别真正的piRNA-mRNA靶标对和可信的piRNA-mRNA负集样本,也提出了第一个基于深度多头注意力网络用于鉴定线虫mRNA上的piRNA靶标。实验表明,在独立测试集上获得了AUC=93.3%的预测性能,并成功提取了线虫中合成piRNA的验证结合模式。然而,该方法是在线虫固有特性上选择严格的条件来获取可信的piRNA-mRNA负集样本,应用到其他动物物种上存在准确性低等问题。总体而言,对于piRNA与mRNA是否具有靶向关系的技术目前仍处于探索阶段。
发明内容
为克服上述现有技术的不足,本发明的目的是提供一种基于交互式推理网络的piRNA与mRNA靶标对的预测方法,旨在使用正未学习构建可靠负样本和交互式推理网络模型进行分类预测,使得输出结果更为可靠和可信,提高系统预测性能和泛化性;通过构建用于预测的交互式推理网络将piRNA与mRNA序列信息进行交互,可更好捕捉相互作用特征,增强模型的表达能力使模型更具有解释性;预测piRNA和mRNA靶标对,该方法可用于分析生物分子间的靶向关系,有助于理解piRNA在调控mRNA表达中发挥的作用。
为实现上述目的,本发明采用的技术方案是:一种基于交互式推理网络预测piRNA与mRNA靶标对的方法,包括以下步骤:
步骤S1,构建小鼠piRNA与mRNA靶标对预测研究的基准数据集;
步骤S2,构建piRNA与mRNA靶标对预测研究的可靠负集;
步骤S3,对前序步骤得到的序列对进行预处理操作;
步骤S4,构建用于预测的交互式推理网络模型;
步骤S5,对该发明所涉及模型中的超参数进行优化;
步骤S6,实现piRNA与mRNA靶标对的二分类判定。
进一步的,步骤S1包括:
S11:下载piRNA靶向mRNA数据,通过去除重复记录,得到了3133条piRNA与mRNA靶标对记录;
S12:根据mRNA靶点片段定位信息,从UCSC数据库获取了1513条mRNA序列片段;
S13:通过公式1表示出正集数据、未标记数据集和总样本集三者之间的关系;piRNA-mRNA靶向数据库构建如下所示:
Dall=DP∪DU公式1
其中,D表示piRNA-mRNA靶向数据库,Dall表示piRNA-mRNA靶向数据库内总样本集,DP表示piRNA-mRNA靶向数据库中正集数据,DU表示piRNA-mRNA靶向数据库中未标记样本集。
进一步的,步骤S2包括:
步骤S21:基于正未学习构建预测研究的可靠负集方法,主要使用了袋外估计的集成学习方法和K-means算法,对正集数据和未标记数据集进行独热编码操作;
步骤S22:构建正未学习模型,通过训练不同分类器得到未标记样本最终的关联分数;
步骤S23:根据预测分数降序排序,使用聚类划分不同的簇来选取可靠负集样本。
进一步的,步骤S23包括:
S231:使用K-means算法将排序后的预测分数聚类成具有相似特征的簇,设置n_clusters为3,即将预测分数划分成3个簇;
S232:从第二个簇的样本中,随机选取3133条piRNA与mRNA靶标对为预测研究的可靠负集。
进一步的,步骤S3包括:
S31:在原始RNA序列输入到模型之前,采用独热编码将序列编码为数值向量作为模型的输入;
在piRNA与mRNA靶标对中,piRNA和mRNA的长度分别被固定为35nt和21nt(nt,nucleotide核苷酸);
依据互补DNA的形式,基因序列由“A”、“G”、“C”、“T”和“N”组成;其中,“T”对应于RNA中的“U”,“N”表示不确定;
S32:当序列长度不足35nt或21nt时,使用字母“N”填充缺失的部分;
S33:确定不同碱基和字母“N”的编码形式;
S34:基于二进制表示方法对piRNA与mRNA靶标对的标签做编码处理。
进一步的,步骤S4包括:
S41:交互式推理网络模型设置输入层,编码层,交互层,特征提取层和输出层;
S42:在步骤S33和S34中,将piRNA和mRNA序列对进行独热编码形成的离散式向量表示,作为模型的输入;
S43:在编码层中,通过两层神经网络结构,自注意力层和语义融合操作可实现对独热向量的编码和特征融合,获取更加丰富的序列信息;
S44:在交互层中,将上层得到的piRNA编码表示和mRNA编码表示采用逐元素乘法进行信息交互,用于提取序列之间的相关性;
S45:特征提取层是有FirstScaleDown、DenseNet网络和展平操作三部分组成;
S46:输出层包括DecayingDropout丢失层和Dense全连接层两部分组成,在丢失层中通过设置不同的参数减轻过拟合的问题,在全连接层使用softmax对特征表示归一化操作,得到每一个样本对应类别的预测概率。
进一步的,步骤S46包括:
S461:DecayingDropout丢失层通过设置初始丢弃保留率initial_keep_rate为1.0,丢弃衰减间隔decay_interval设置为10000,丢弃衰减率decay_rate为0.977等参数来创建该层,使得丢弃神经元的比例随着训练的进行而逐渐减小,从而减轻过拟合的问题;
S462:在Dense全连接层中设置units=2为输出层的神经元数量,选取softmax作为该层的激活函数,对特征表示进行归一化操作,最终得到每一个样本对应类别的预测概率。
进一步的,步骤S6包括:
步骤S61:训练好的模型使用softmax函数对piRNA和mRNA靶标对进行分类预测,返回一个二元类别的概率y_pred,其中每个元素表示对应着样本标签的置信度;
步骤S62:通过比较y_pred[:,1]与0.5之间的关系,确定该样本的预测标签和靶向关系;
步骤S63:输出模型预测的二分类结果。
本发明的有益效果是:
本发明采用了目前最权威的piRNA专用数据库piRBaseV3.0构建了基准数据集,数据可靠性高;基于正未学习构建预测研究的可靠负集,能够有效提高负集样本质量;首次采用一种基于交互式推理网络模型预测piRNA与mRNA靶向关系,可更好地捕捉相互作用特征,实验证明预测效果优异;总之,从数据集构建,可靠负集选取和模型整体设计三个角度分析,本发明具有方案创新,结果准确的优点。
本发明中,使用piRBase和UCSC两个权威数据库下载了piRNA与mRNA靶向关系数据。其中,从piRBase库获取了piRNA-mRNA靶标对信息和piRNA序列信息;根据mRNA靶点片段定位信息,从UCSC数据库获取了靶基因mRNA序列片段。通过去重预处理操作,该数据集不存在冗余的小鼠piRNA和mRNA靶标对信息,有助于提高模型的泛化能力,促进对piRNA功能和调控机制的研究。
本发明也考虑了负集样本质量对模型预测性能的影响,基于正未学习构建的可靠负集替代从未标记样本集中随机选取构建负集的传统方法。实验结果表明,相比于随机选取的负集对,可靠负集的选取可以更好地提高模型的精确率,降低预测piRNA与mRNA靶标对的假阳性。
本发明设计了一种基于交互式推理网络模型的预测方法,该方法可系统地应用于跨物种预测piRNA-mRNA靶标对。该方法和结果能够更好地揭示piRNA在多物种调控过程中的作用机制。同时,本发明提供的方法和资源有助于揭示piRNA潜在功能,发现新的疾病相关piRNA标志物。
本发明可用于鉴定小鼠中piRNA与mRNA靶标对,基于正未学习构建可靠的负样本集、交互式推理网络有效编码和特征提取等处理步骤使得预测结果具有较高的准确率和可靠性,对于进一步研究piRNA的功能和调控机制具有重要意义,有助于发现新的早期诊断和预测疗效及患者预后的生物标志物。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。其中:
图1是本发明的交互式推理网络的piRNA与mRNA靶标对的预测方法的流程图;
图2是本发明的交互式推理网络的piRNA与mRNA靶标对的预测方法所使用的基于正未学习的可靠负集数据构建示意图;
图3是本发明的交互式推理网络的piRNA与mRNA靶标对的预测方法所使用的交互式推理网络模型结构图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
本发明的目的为了解决上述背景中存在的不足,而提出的一种交互式推理网络的piRNA与mRNA靶标对的预测方法。为实现上述目的,本发明提供了以下技术方案,下面结合附图和实例对本发明作进一步详细说明。
本发明提供了一种基于交互式推理网络的piRNA与mRNA靶标对的预测方法,该方法包括以下步骤:
步骤S1,构建小鼠piRNA与mRNA靶标对预测研究的基准数据集:
本发明中,主要使用piRBase和UCSC两个权威数据库下载相关数据,构建了piRNA与mRNA靶向关系预测的基准数据。该步骤具体可以包括:
步骤S11,下载piRNA靶向mRNA数据,通过去除重复记录,得到了3133条piRNA与mRNA靶标对记录。
从piRBase数据库获得3133条小鼠piRNA靶向mRNA数据。piRBase数据库(http://bigdata.ibp.ac.cn/piRBase/)是由中国科学院生物物理研究所健康大数据研究中心构建的,它收集和整理了3240条piRNA靶标对相关数据,为本研究提供了数据源。通过去重预处理步骤,得到了3133条piRNA与mRNA靶标对记录。每条记录包含piRNA名称、piRNA序列、piRNA靶向mRNA序列编号、piRNA与mRNA之间的相互作用机制、piRNA与mRNA之间的靶向位置等多种信息。
步骤S12,根据mRNA靶点片段定位信息,从UCSC数据库(https://genome.ucsc.edu/cgi-bin/hgCustom)获取了1513条mRNA序列片段。
具体地说,在UCSC网站中,根据piRBase数据库中mRNA序列片段位置信息,来构建bed文件;批量下载得到1513条mRNA序列,版本为mm9;其中,正集数据有3133条,共涉及1513条唯一的mRNA序列和2090条唯一的piRNA序列,总样本集为3162170条,未标记数据集为3159037条。
步骤S13:通过公式1表示出正集数据、未标记数据集和总样本集三者之间的关系;piRNA-mRNA靶向数据构建如下所示:
Dall=DP∪DU公式1
其中,D表示piRNA-mRNA靶向数据库,Dall表示piRNA-mRNA靶向数据库内总样本集,DP表示piRNA-mRNA靶向数据库中正集数据,DU表示piRNA-mRNA靶向数据库中未标记样本集。
步骤S2,构建piRNA与mRNA靶标对预测研究的可靠负集:
本发明选择基于正未学习构建预测研究的可靠负集方法,主要使用了袋外估计的集成学习方法和K-means算法。由于决策树可以评估某特征在划分样本时的重要性,因此本发明使用决策树作为集成学习的基学习器来确定潜在的piRNA与mRNA靶标对的关联性。具体包括:
S21:对3133条piRNA靶向mRNA的正集数据和3159037条未标记数据集进行独热编码操作;
S22:构建正未学习模型,通过训练不同分类器得到未标记样本最终的关联分数;具体包括以下步骤:
S221:创建一个包含6266个元素的一维数组作为训练数据的标签,前3133个元素被设置为1.0,其余元素保持为默认的零值;从未标记数据集有放回地抽取与正集数量相同的piRNA与mRNA靶标对来构建一个自助样本集,将这个数据集和正集数据进行合并得到一个新的数据集;
S222:使用新数据集和标签训练一个决策树分类器,通过训练所得的弱分类器预测未被包含在自助样本集的未标记样本的类别概率,这些样本被称为OOB(outofthebag)样本;
S223:重复上述步骤S221和S222为1000次,在集成学习后,计算未标记样本集的平均预测概率值;
S23:根据预测分数降序排序,使用聚类划分不同的簇来选取可靠负集样本;
步骤S23具体包括以下步骤:
S231:使用K-means算法将排序后的预测分数聚类成具有相似特征的簇,设置n_clusters为3,即将预测分数划分成3个簇。
其中,第一个簇包含着预测关联分数较低的样本,被视为低质量的负样本集;第二个簇中的样本与正集在特征空间中离得更近,被视为高质量的负样本集;第三个簇包含着预测关联分数较大的样本,有可能是假负例,即分类器错误地将其标记为负的实际正例;
S232:从第二个簇的样本中,随机选取3133条piRNA与mRNA靶标对为预测研究的可靠负集。
步骤S3,对前序步骤得到的序列对进行预处理操作,包括:
步骤S31:在原始RNA序列输入到模型之前,采用独热编码将序列编码为数值向量。在piRNA与mRNA靶标对中,piRNA和mRNA的长度分别被固定为35nt和21nt(nt,nucleotide核苷酸),以便为了最大程度保留序列信息;
依据cDNA(complementaryDNA,互补DNA)的形式,基因序列由“A”、“G”、“C”、“T”和“N”(表示不确定)组成;其中,“T”对应于RNA中的“U”(尿嘧啶),“N”表示不确定;
步骤S32:当序列长度不足35nt或21nt时,使用字母“N”填充缺失的部分;
通过统计piRNA和mRNA序列长度范围为21~35nt和20~21nt,为了最大程度保留序列信息,选取35和21作为输入大小的阈值,长度不足的使用字母“N”补全,例如piRNA为TGAGTTCAAGGCCAGCATGGTCTACATAGA,补全后结果为TGAGTTCAAGGCCAGCATGGTCTACATAGANNNNN,mRNA为TTCGTGTTTTATAGTTCAGG,补全后序列为TTCGTGTTTTATAGTTCAGGN;
步骤S33:确定不同碱基和字母“N”的编码形式;
使用独热方式编码碱基,即A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)和字母“N”分别为(1,0,0,0)、(0,1,0,0)、(0,0,1,0)、(0,0,0,1)和(0,0,0,0);
步骤S34:基于二进制表示方法对piRNA靶向mRNA序列对的标签做编码处理;
当piRNA和mRNA存在靶向关系时,标签设置为1,编码形式为(0,1),当piRNA和mRNA没有靶向关系时,标签设置为0,编码形式为(1,0)。
步骤S4,构建用于预测的交互式推理网络模型;
图3是本发明的交互式推理网络的piRNA与mRNA靶标对的预测方法所使用的交互式推理网络模型结构图。如图3所示,交互式推理网络模型有输入层,编码层,交互层,特征提取层和输出层这五部分组成。
步骤S4包括:
S41:交互式推理网络模型设置输入层,编码层,交互层,特征提取层和输出层;
S42:在步骤S33和S34中,将piRNA和mRNA序列对进行独热编码形成的离散式向量表示,作为模型的输入。
piRNA编码为mRNA编码为/>其中P表示piRNA独热编码后的向量表示,M表示mRNA独热编码后的向量表示,p代表piRNA序列的最大长度为35,m代表靶标mRNA的靶定序列片段的最大长度为21,d代表每个碱基向量的长度为4,因此P和M的维度分别为(35,4)和(21,4)。
S43:在编码层中,通过两层神经网络结构,自注意力层和语义融合操作可实现对独热向量的编码和特征融合,获取更加丰富的序列信息;
编码层主要目的是对独热向量进行编码和特征融合;具体包括以下步骤,
S431:P和M会经过一个两层神经网络,得到编码表示和/>
S432:通过自注意力层处理,获取该序列的上下文信息。
以P的处理为例,自注意力层处理过程如下所示:
在公式2中,Aij表示piRNA序列中第i行和第j行编码表示的关系值; 是一个可训练权重,°为逐元素乘法,[;]为跨行的向量连接;
在公式3中,是/>加权和,表示序列上下文较为重要的部分;
S433:经过上述步骤处理后,将和/>输入到语义融合门,实现不同特征向量逐元素的加权融合,可提取更丰富的序列特征表示,具体实现公式如下所示:
在上述4个公式中,为piRNA的编码表示其中,W1,W2,/>和b1,b2是可训练权重,σ是sigmod非线性运算;对mRNA序列表示M做相同处理步骤,最终获得/>
S44:在交互层中,将上层得到的piRNA编码表示和mRNA编码表示采用逐元素乘法进行信息交互,用于提取序列之间的相关性。
在交互层,将和/>进行信息交互,计算出一个相似度矩阵,提取出两个序列之间相关性,具体操作式采用逐元素乘法进行计算,如公式8所示,
在公式8中,为向量a和b进行逐元素乘法计算;Iij为/>与/>之间的相关性;/>为/>的第i行向量;/>为/>的第j行向量。
S45:特征提取层是由FirstScaleDown、DenseNet网络和展平操作三部分组成。
特征提取层主要目的为提取特征,采用CNN模型DenseNet网络实现。将交互层的输出向量I作为特征提取层的输入,其中I的维度为(35,21,4);该层是由FirstScaleDown、DenseNet网络和展平操作三部分组成,
FirstScaleDown层用来缩小数据的通道数,提取更具有代表性的特征;DenseNet可以通过特征在通道上的连接实现特征重用;展平操作用于实现数据维度变换。
S451:在FirstScaleDown层中使用一个1×1的卷积核和缩小比例0.3来缩小数据的维度;经过计算现有4层通道被缩减为1层,其中输出该层张量维度为(35,21,1);
S452:将缩小后的张量传入到DenseNet中,其中DenseNet是由三层完全相同结构组成,其中每层有一对密集块和过渡块,可以实现特征在通道上的重用,具体包括以下步骤,
S4521:在每一层的密集块设置8个3×3的卷积层,每个卷积层的通道数设置为20,用于实现特征重用;在每一层的过渡块中包括Conv2D和MaxPooling2D两个操作,Conv2D用于缩小前一个密集块输出张量的通道数,缩小比例compression为0.5,MaxPooling2D用于降低张量的空间维度和减少参数,窗口每次滑动的距离stride被设置为(2,2);
S4522:经过第一层密集块中8个卷积层处理后,得到的张量维度为(35,21,160),再传入到过渡块后得到的张量维度为(17,10,80);
S4523:依次类推,在第二层中密集块处理得到的张量维度为(17,10,240),过渡块处理后张量维度为(8,5,120),第三层中密集块和过渡块的处理后张量形状分别为(8,5,280)和(4,2,140);
S453:对第三层过渡块输出的张量进行展平操作,将三维数据转换为全连接层所需的一维向量,维度为1120;
S46:输出层包括DecayingDropout丢失层和Dense全连接层两部分组成,在丢失层中通过设置不同的参数减轻过拟合的问题,在全连接层使用softmax对特征表示归一化操作,得到每一个样本对应类别的预测概率;
在输出层中,
S461:DecayingDropout丢失层通过设置初始丢弃保留率initial_keep_rate为1.0,丢弃衰减间隔decay_interval设置为10000,丢弃衰减率decay_rate为0.977等参数来创建该层,使得丢弃神经元的比例随着训练的进行而逐渐减小,从而减轻过拟合的问题;
S462:在Dense全连接层中设置units=2为输出层的神经元数量,选取softmax作为该层的激活函数,对特征表示进行归一化操作,最终得到每一个样本对应类别的预测概率。
步骤S5,对该发明所涉及模型中的超参数进行优化;
具体参数包含学习率、批次大小、优化器、epoch(epoch表示训练过程中数据集被完整遍历的次数)等,以寻求最优的超参数组合,从而提高模型的精度。
在构建可靠负集和构建用于预测的交互式推理网络模型过程中,超参数的不同取值可能会对模型的性能产生重要影响。在构建可靠负集时,通过优化决策树的数量T,未标记样本中有放回地随机选择样本的数量,决策树划分过程中的划分准则,样本权重等超参数,可以提高对未标记样本预测分数的准确性。在构建预测模型时采用网格搜索方法进行超参数优化,通过优化epoch,批次大小batch size,优化器,学习率等超参数,可以提高模型性能和泛化效果。
步骤S5具体包括:
S51:在可靠负集构建步骤中,决策树的数量T被设置为1000;考虑到数据集的平衡性,参考正集数据集数量,未标记样本中有放回地随机选择样本数量被设置为3133;决策树中分割标准被设置为基尼系数,用于度量在给定节点上随机选择样本时错误分类的概率;class_weight样本权重被设置为balanced,模型会根据训练数据中每个类别的样本权重自动调整每个类别的权重;通过设置上述超参数,可以增加模型的多样性评估、优化决策树的分割策略,提高对未标记样本的预测分数;
S52,在构建用于预测piRNA和mRNA靶标对模型中采用网格搜索方法进行超参数优化;
通过验证集的性能评估来选择最佳超参数组合如表1所示;其中,epoch表示训练过程中数据集被完整遍历的次数,在[5,10,15]区间中,选取10作为模型的评估次数;batchsize表示控制每一次参数更新时使用的样本数量,在[16,32,64]区间中,选取32作为批次大小;优化器表示控制模型中参数更新的方式,在sgd(StochasticGradientDescent,随机梯度下降)和Adam(Adaptive MomentEstimation,自适应矩估计)中,选择sgd作为优化器;学习率表示控制每一次参数更新的步长,在[0.003,0.01,0.1]区间中,选取0.003作为学习率;上述最佳超参数组合可以提高模型性能和训练效率,使模型更好地泛化到新数据;
表1最佳超参数组合
步骤S6,实现piRNA与mRNA靶标对的二分类判定,具体包括:
步骤S61:训练好的模型使用softmax函数对piRNA和mRNA靶标对进行分类预测,返回一个二元类别的概率y_pred,其中每个元素表示对应着样本标签的置信度;
步骤S62:通过比较y_pred[:,1]与0.5之间的关系,确定该样本的预测标签和靶向关系;
y_pred[:,1]大于0.5时,表示模型预测属于第二个类别的概率较大,设置其预测标签为1,则将该样本判定为正集,表示piRNA与mRNA序列对具有靶向关系;y_pred[:,1]小于等于0.5时,表示模型预测属于第二个类别的概率较小,设置其预测标签为0,则将该样本判定为负集,表示piRNA与mRNA序列对没有靶向关系;
步骤S63:输出模型预测的二分类结果。
输出交互式推理网络对piRNA和mRNA序列对预测二分类结果0或1。
本发明的有益效果是:
本发明采用了目前最权威的piRNA专用数据库piRBaseV3.0构建了基准数据集,数据可靠性高;基于正未学习构建预测研究的可靠负集,能够有效提高负集样本质量;首次采用一种基于交互式推理网络模型预测piRNA与mRNA靶向关系,可更好地捕捉相互作用特征,实验证明预测效果优异;总之,从数据集构建,可靠负集选取和模型整体设计三个角度分析,本发明具有方案创新,结果准确的优点。
本发明中,使用piRBase和UCSC两个权威数据库下载了piRNA与mRNA靶向关系数据。其中,从piRBase库获取了piRNA-mRNA靶标对信息和piRNA序列信息;根据mRNA靶点片段定位信息,从UCSC数据库获取了靶基因mRNA序列片段。通过去重预处理操作,该数据集不存在冗余的小鼠piRNA和mRNA靶标对信息,有助于提高模型的泛化能力,促进对piRNA功能和调控机制的研究。
本发明也考虑了负集样本质量对模型预测性能的影响,基于正未学习构建的可靠负集替代从未标记样本集中随机选取构建负集的传统方法。实验结果表明,相比于随机选取的负集对,可靠负集的选取可以更好地提高模型的精确率,降低预测piRNA与mRNA靶标对的假阳性。
本发明设计了一种基于交互式推理网络模型的预测方法,该方法可系统地应用于跨物种预测piRNA-mRNA靶标对。该方法和结果能够更好地揭示piRNA在多物种调控过程中的作用机制。同时,本发明提供的方法和资源有助于揭示piRNA潜在功能,发现新的疾病相关piRNA标志物。
本发明可用于鉴定小鼠中piRNA与mRNA靶标对,基于正未学习构建可靠的负样本集、交互式推理网络有效编码和特征提取等处理步骤使得预测结果具有较高的准确率和可靠性,对于进一步研究piRNA的功能和调控机制具有重要意义,有助于发现新的早期诊断和预测疗效及患者预后的生物标志物。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,包括以下步骤:
步骤S1,构建小鼠piRNA与mRNA靶标对预测研究的基准数据集;
步骤S2,构建piRNA与mRNA靶标对预测研究的可靠负集;
步骤S3,对前序步骤得到的序列对进行预处理操作;
步骤S4,构建用于预测的交互式推理网络模型;
步骤S5,对该发明所涉及模型中的超参数进行优化;
步骤S6,实现piRNA与mRNA靶标对的二分类判定。
2.根据权利要求1所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S1包括:
S11:下载piRNA靶向mRNA数据,通过去除重复记录,得到了3133条piRNA与mRNA靶标对记录;
S12:根据mRNA靶点片段定位信息,从UCSC数据库获取了1513条mRNA序列片段;
S13:通过公式1表示出正集数据、未标记数据集和总样本集三者之间的关系;piRNA-mRNA靶向数据库构建如下所示:
Dall=DP∪DU 公式1
其中,D表示piRNA-mRNA靶向数据库,Dall表示piRNA-mRNA靶向数据库内总样本集,DP表示piRNA-mRNA靶向数据库中正集数据,DU表示piRNA-mRNA靶向数据库中未标记样本集。
3.根据权利要求2所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S2包括:
步骤S21:基于正未学习构建预测研究的可靠负集方法,主要使用了袋外估计的集成学习方法和K-means算法,对正集数据和未标记数据集进行独热编码操作;
步骤S22:构建正未学习模型,通过训练不同分类器得到未标记样本最终的关联分数;
步骤S23:根据预测分数降序排序,使用聚类划分不同的簇来选取可靠负集样本。
4.根据权利要求3所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S23包括:
S231:使用K-means算法将排序后的预测分数聚类成具有相似特征的簇,设置n_clusters为3,即将预测分数划分成3个簇;
S232:从第二个簇的样本中,随机选取3133条piRNA与mRNA靶标对为预测研究的可靠负集。
5.根据权利要求3所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S3包括:
S31:在原始RNA序列输入到模型之前,采用独热编码将序列编码为数值向量作为模型的输入;
在piRNA与mRNA靶标对中,piRNA和mRNA的长度分别被固定为35nt和21nt(nt,nucleotide核苷酸);
依据互补DNA的形式,基因序列由“A”、“G”、“C”、“T”和“N”组成;其中,“T”对应于RNA中的“U”,“N”表示不确定;
S32:当序列长度不足35nt或21nt时,使用字母“N”填充缺失的部分;
S33:确定不同碱基和字母“N”的编码形式;
S34:基于二进制表示方法对piRNA与mRNA靶标对的标签做编码处理。
6.根据权利要求5所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S4包括:
S41:交互式推理网络模型设置输入层,编码层,交互层,特征提取层和输出层;
S42:在步骤S33和S34中,将piRNA和mRNA序列对进行独热编码形成的离散式向量表示,作为模型的输入;
S43:在编码层中,通过两层神经网络结构,自注意力层和语义融合操作可实现对独热向量的编码和特征融合,获取更加丰富的序列信息;
S44:在交互层中,将上层得到的piRNA编码表示和mRNA编码表示采用逐元素乘法进行信息交互,用于提取序列之间的相关性;
S45:特征提取层是有FirstScaleDown、DenseNet网络和展平操作三部分组成;
S46:输出层包括DecayingDropout丢失层和Dense全连接层两部分组成,在丢失层中通过设置不同的参数减轻过拟合的问题,在全连接层使用softmax对特征表示归一化操作,得到每一个样本对应类别的预测概率。
7.根据权利要求6所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S46包括:
S461:DecayingDropout丢失层通过设置初始丢弃保留率initial_keep_rate为1.0,丢弃衰减间隔decay_interval设置为10000,丢弃衰减率decay_rate为0.977等参数来创建该层,使得丢弃神经元的比例随着训练的进行而逐渐减小,从而减轻过拟合的问题;
S462:在Dense全连接层中设置units=2为输出层的神经元数量,选取softmax作为该层的激活函数,对特征表示进行归一化操作,最终得到每一个样本对应类别的预测概率。
8.根据权利要求6所述的基于交互式推理网络的piRNA与mRNA靶标对的预测方法,其特征在于,步骤S6包括:
步骤S61:训练好的模型使用softmax函数对piRNA和mRNA靶标对进行分类预测,返回一个二元类别的概率y_pred,其中每个元素表示对应着样本标签的置信度;
步骤S62:通过比较y_pred[:,1]与0.5之间的关系,确定该样本的预测标签和靶向关系;
步骤S63:输出模型预测的二分类结果。
CN202310955332.4A 2023-08-01 2023-08-01 基于交互式推理网络的piRNA与mRNA靶标对的预测方法 Active CN116994645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310955332.4A CN116994645B (zh) 2023-08-01 2023-08-01 基于交互式推理网络的piRNA与mRNA靶标对的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310955332.4A CN116994645B (zh) 2023-08-01 2023-08-01 基于交互式推理网络的piRNA与mRNA靶标对的预测方法

Publications (2)

Publication Number Publication Date
CN116994645A true CN116994645A (zh) 2023-11-03
CN116994645B CN116994645B (zh) 2024-04-09

Family

ID=88527817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310955332.4A Active CN116994645B (zh) 2023-08-01 2023-08-01 基于交互式推理网络的piRNA与mRNA靶标对的预测方法

Country Status (1)

Country Link
CN (1) CN116994645B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223522A (zh) * 2020-01-06 2020-06-02 西安理工大学 一种基于模糊k-mer使用率鉴定lncRNA的方法
CN111881342A (zh) * 2020-06-23 2020-11-03 北京工业大学 一种基于图孪生网络的推荐方法
CN112652355A (zh) * 2020-12-08 2021-04-13 湖南工业大学 一种基于深度森林和pu学习的药物-靶标关系预测方法
CN114944191A (zh) * 2022-06-21 2022-08-26 湖南中医药大学 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法
CN116391046A (zh) * 2020-10-22 2023-07-04 马克思-德布鲁克-分子医学中心亥姆霍兹联合会 通过寡杂交和基于pcr扩增进行核酸检测的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223522A (zh) * 2020-01-06 2020-06-02 西安理工大学 一种基于模糊k-mer使用率鉴定lncRNA的方法
CN111881342A (zh) * 2020-06-23 2020-11-03 北京工业大学 一种基于图孪生网络的推荐方法
CN116391046A (zh) * 2020-10-22 2023-07-04 马克思-德布鲁克-分子医学中心亥姆霍兹联合会 通过寡杂交和基于pcr扩增进行核酸检测的方法
CN112652355A (zh) * 2020-12-08 2021-04-13 湖南工业大学 一种基于深度森林和pu学习的药物-靶标关系预测方法
CN114944191A (zh) * 2022-06-21 2022-08-26 湖南中医药大学 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YICHEN GONG ET AL.: "NATURAL LANGUAGE INFERENCE OVER INTERACTION SPACE", 《ARXIV:1709.04348V2》, 26 May 2018 (2018-05-26) *

Also Published As

Publication number Publication date
CN116994645B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
EP2449510B1 (en) Application of machine learning methods for mining association rules in plant and animal data sets containing molecular genetic markers, followed by classification or prediction utilizing features created from these association rules
CN107025386B (zh) 一种基于深度学习算法进行基因关联分析的方法
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN115019891B (zh) 一种基于半监督图神经网络的个体驱动基因预测方法
Han et al. Heuristic hyperparameter optimization of deep learning models for genomic prediction
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN115280415A (zh) 致病性模型的应用和其训练
Binder et al. Cluster-localized sparse logistic regression for SNP data
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN113257359A (zh) 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
CN114566215B (zh) 一种双端成对的剪接位点预测方法
CN116343927A (zh) 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
Maulik et al. Finding multiple coherent biclusters in microarray data using variable string length multiobjective genetic algorithm
CN113313167B (zh) 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
Ullah et al. Crow-ENN: An Optimized Elman Neural Network with Crow Search Algorithm for Leukemia DNA Sequence Classification
CN115691817A (zh) 一种基于融合神经网络的LncRNA-疾病关联预测方法
CN115019876A (zh) 一种基因表达预测方法及装置
Abass et al. Analysis of Prostate Cancer DNA Sequences Using Bi-direction Long Short Term Memory Model
Kihel et al. A novel genetic grey wolf optimizer for global optimization and feature selection
Sudha et al. Recurrrent neural network based model for autism spectrum disorder prediction using codon encoding
CN116631572B (zh) 基于人工智能的急性心肌梗死临床决策支持系统及设备
CN118114125B (zh) 基于增量学习的miRNA及其异构体家族信息识别方法
CN118351943A (zh) 一种基于全连接神经网络的阿尔茨海默症基因预测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant