CN116453599B - 开放阅读框预测方法、设备及存储介质 - Google Patents

开放阅读框预测方法、设备及存储介质 Download PDF

Info

Publication number
CN116453599B
CN116453599B CN202310722247.3A CN202310722247A CN116453599B CN 116453599 B CN116453599 B CN 116453599B CN 202310722247 A CN202310722247 A CN 202310722247A CN 116453599 B CN116453599 B CN 116453599B
Authority
CN
China
Prior art keywords
sample
open reading
reading frame
samples
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310722247.3A
Other languages
English (en)
Other versions
CN116453599A (zh
Inventor
李坚强
陈杰
廖文斌
温度
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202310722247.3A priority Critical patent/CN116453599B/zh
Publication of CN116453599A publication Critical patent/CN116453599A/zh
Application granted granted Critical
Publication of CN116453599B publication Critical patent/CN116453599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理领域,公开一种开放阅读框预测方法、设备及存储介质。由于本发明基于对抗训练和正样本‑未知样本学习创建了改进的开放阅读框预测模型,通过模型中的生成模块进行数据增强获得生成样本,利用数据生成的方式来缓解数据不平衡,相比现有方法采用加权损失方式,避免可能因权重设置不合理造成模型学习偏差的问题,从而提升预测准确率。且通过模型中的辨别模块与生成模块进行对抗训练,基于未知样本学习实现分类任务,考虑未知样本的存在,能够合理利用和挖掘未知样本,有效地避免了现有方法把未知样本当成负样本处理而产生的假阴性问题。综上本发明能够预测出更为高质量可实验性的开放阅读框,极大地提升了预测效果。

Description

开放阅读框预测方法、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种开放阅读框预测方法、设备及存储介质。
背景技术
开放阅读框(Open Reading Frame,ORF)是从起始密码子到终止密码子的一段DNA序列。其中,微小开放阅读框(Small Open Reading Frame,sORF)长度更短,小于300个碱基大小的序列,它们所编码的微肽在生命过程中发挥着重要的调节作用。为了能够明确划分表达基因的具体区域,实现正确的基因注释,开放阅读框的预测即是要预测DNA序列中的某一段是否为开放阅读框,得出判别结果并获得能够应用于生物实验的开放阅读框集合。
现有的开放阅读框预测模型只能依赖核糖体图谱技术(Ribosome Profiling,Ribo-seq)的信号分布情况以及DNA序列的特征来识别。目前仅有两个是专门为预测原核设计的模型,分别是REPARATION和DeepRibo,相较于前者,后者对于特征的提取更为自动化,且可以挖掘数据中存在的潜在特征。
但由于开放阅读框的正样本和负样本数目严重不均衡,正样本明显较少。而DeepRibo模型简单采用加权损失函数,在数据不平衡的情况下权重设置不合理很容易造成学习上的偏差,从而使得预测准确率不高,且由于还存在假阴性等缺陷,因此现有模型对原核生物的开放阅读框预测性能不佳,导致预测出的开放阅读框质量较低、可实验性不强。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种开放阅读框预测方法、设备及存储介质,旨在解决现有模型预测出的开放阅读框质量较低、可实验性不强的技术问题。
为实现上述目的,本发明提供一种开放阅读框预测方法,所述方法包括以下步骤:
获取开放阅读框的数据集,所述数据集包括正样本和未知样本;
通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果,所述开放阅读框预测模型包括生成模块和辨别模块,所述生成模块与所述辨别模块之间以对抗训练的方式进行学习,所述生成模块用于学习所述数据集中的样本以进行数据增强获得生成样本,所述辨别模块用于根据所述数据集中的样本以及所述生成样本进行未知样本学习,并对所述数据集中的样本进行分类;
根据所述分类结果获得预测为正样本的开放阅读框集合。
可选地,所述通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果的步骤,包括:
通过所述生成模块学习所述数据集中的样本以进行数据增强获得生成样本;
通过所述辨别模块对所述数据集中的样本和所述生成样本进行未知样本学习;
通过所述辨别模块与所述生成模块进行对抗训练,并由所述辨别模块将所述数据集分类,获得所述数据集的分类结果。
可选地,所述正样本具有正样本标签,所述未知样本和所述生成样本均具有未知样本标签;
所述辨别模块还用于根据所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习;
所述通过所述辨别模块对所述数据集中的样本和所述生成样本进行未知样本学习的步骤,包括:
通过所述辨别模块对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。
可选地,所述辨别模块还用于加入生物的先验知识进行学习;
所述通过所述辨别模块对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习的步骤,包括:
通过所述辨别模块加入所述生物的先验知识,并根据所述先验知识对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。
可选地,所述生成模块采用基于多模态的变分自编码器,包括编码器和生成器;
所述通过所述生成模块学习所述数据集中的样本以进行数据增强获得生成样本的步骤,包括:
通过所述编码器对所述数据集中的样本的各个模态进行映射,并通过所述生成器根据映射的结果进行重构,获得所述生成样本。
可选地,所述数据集包括训练集;
所述通过改进的开放阅读框预测模型对所述数据集进行分类的步骤之前,还包括:
获取预设的初始预测模型,所述初始预测模型包括初始生成模块和初始辨别模块,所述初始生成模块与所述初始辨别模块之间以对抗训练的方式进行学习,所述初始生成模块用于学习所述训练集中的样本以进行数据增强获得训练生成样本,所述初始辨别模块用于根据所述训练集中的样本以及所述训练生成样本进行未知样本学习;
根据所述训练集对所述初始预测模型进行预训练,并将预训练后获得的模型作为改进的开放阅读框预测模型。
可选地,所述数据集包括测试集;
所述通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果的步骤,包括:
通过所述测试集对所述开放阅读框预测模型进行微调;
基于微调后的开放阅读框预测模型对所述测试集进行分类,获得所述测试集的分类结果。
可选地,所述根据所述分类结果获得预测为正样本的开放阅读框集合的步骤之后,还包括:
对所述分类结果进行后处理,并根据所述后处理的结果对所述开放阅读框集合进行筛选,获得开放阅读框优选集。
此外,为实现上述目的,本发明还提出一种开放阅读框预测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的开放阅读框预测程序,所述开放阅读框预测程序配置为实现如上文所述的开放阅读框预测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有开放阅读框预测程序,所述开放阅读框预测程序被处理器执行时实现如上文所述的开放阅读框预测方法的步骤。
本发明公开了一种开放阅读框预测方法、设备及存储介质,该方法包括:获取开放阅读框的数据集,所述数据集包括正样本和未知样本;通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果,所述开放阅读框预测模型包括生成模块和辨别模块,所述生成模块与所述辨别模块之间以对抗训练的方式进行学习,所述生成模块用于学习所述数据集中的样本以进行数据增强获得生成样本,所述辨别模块用于根据所述数据集中的样本以及所述生成样本进行未知样本学习,并对所述数据集中的样本进行分类;根据所述分类结果获得预测为正样本的开放阅读框集合。由于本发明基于对抗训练和正样本-未知样本学习(Positive-Unlabeled,PU)创建了改进的开放阅读框预测模型,通过模型中的生成模块学习开放阅读框数据集中的样本,进行数据增强获得生成样本,即利用数据生成的方式来缓解数据不平衡,相比于现有的预测模型采用加权损失的方式,避免了可能因权重设置不合理造成模型学习偏差的问题,从而提升了预测准确率。并且通过模型中的辨别模块与生成模块进行对抗训练,基于未知样本学习实现分类任务,由于考虑了未知样本的存在,能够合理利用和挖掘未知样本,有效地避免了现有方法把未知样本当成负样本处理而产生的假阴性问题。因此能够预测出更为高质量可实验性的开放阅读框,极大地提升了开放阅读框的预测效果。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的开放阅读框预测设备的结构示意图;
图2为本发明开放阅读框预测方法第一实施例的流程示意图;
图3为本发明开放阅读框预测方法第一实施例的模态展示图;
图4为本发明开放阅读框预测方法第一实施例的后处理展示图;
图5为本发明开放阅读框预测方法第二实施例的流程示意图;
图6为本发明开放阅读框预测方法第二实施例的模型架构图;
图7为本发明开放阅读框预测方法第三实施例的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的开放阅读框预测设备的结构示意图。
如图1所示,该设备可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及开放阅读框预测程序。
在图1所示的设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明开放阅读框预测设备中的处理器1001、存储器1005可以设置在所述设备中,所述设备通过处理器1001调用存储器1005中存储的开放阅读框预测程序,并执行本发明下述实施例提供的开放阅读框预测方法。
本发明实施例提供了一种开放阅读框预测方法,参照图2,图2为本发明开放阅读框预测方法第一实施例的流程示意图。
本实施例中,所述开放阅读框预测方法包括以下步骤:
步骤S201:获取开放阅读框的数据集,所述数据集包括正样本和未知样本。
需要说明的是,本实施例的执行主体可以是一种具有数据处理及程序运行功能的计算服务设备,例如个人电脑等,还可以是能够实现相同或相似功能的其他电子设备,例如开放阅读框预测设备,本实施例对此不加以限制。此处将以开放阅读框预测设备(以下简称预测设备)为例,对本实施例及下述各实施例进行举例说明。
值得说明的是,上述开放阅读框的数据集可以是不同物种的开放阅读框的样本数据所组成的集合,其中,上述不同物种可以是原核生物,例如蓝细菌、沙门氏菌、大肠杆菌、新月体等。上述正样本应当是上述数据集中已经确认是开放阅读框的样本;上述未知样本应当是上述数据集中还无法确认是否为开放阅读框的样本。
应当理解的是,上述数据集可以表示为;
其中,可以表示有下述三种不同模态的样本空间,分别是DNA、Ribo-seq-c和Ribo-seq-p,即DNA序列、基因表达量和核糖体位置。在数据集D中,样本Xi=(/>,/>,/>)i表示第i个样本,而/>是它所对应的标签,其中可以用-1作为未知样本XU的标签,1作为正样本XP的标签。在只有少量XP和大量XU下,目标是训练一个二分类模型/>来预测没有见过的样本Xnew,其中0表示负样本XN的标签,负样本应当是通过预测确认为不是开放阅读框的样本。为了表示方便,本实施例以下内容及下述各实施例可能会省略掉i。
为了便于理解,参照图3进行说明,图3为本发明开放阅读框预测方法第一实施例的模态展示图。如图3所示,PU-Data为数据集中部分正样本和未知样本,其中“▲”表示正样本(Positive Sample)、“●”表示未知样本(Unlabeled Sample),每个样本均具有其对应的三种模态。
可以理解的是,上述三种模态中DNA序列可以采用独热编码的形式表示,例如采用1000代表A、0100代表T、0010代表C以及0001代表G,继续参照图3进行说明,独热编码100000001、010000100、001001010和000110000可以代表ATCGGCTCA的碱基序列;模态Ribo-seq-c可以是图3中视图B的形式,模态Ribo-seq-p可以是图3中视图A中的形式。
在具体实现中,预测设备获取开放阅读框的数据集中的正样本和未知样本将其作为后续步骤中模型的输入。
步骤S202:通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果,所述开放阅读框预测模型包括生成模块和辨别模块,所述生成模块与所述辨别模块之间以对抗训练的方式进行学习,所述生成模块用于学习所述数据集中的样本以进行数据增强获得生成样本,所述辨别模块用于根据所述数据集中的样本以及所述生成样本进行未知样本学习,并对所述数据集中的样本进行分类。
需要说明的是,上述改进的开放阅读框预测模型可以是基于正样本-未知样本学习(Positive-Unlabeled,PU)改进的、且能够应用于开放阅读框预测的一种生成对抗模型。
可以理解的是,上述分类结果可以是数据集中全部样本对应的预测值,其中每个样本的预测值可以是在[0,1]之间的数值。由于要实现二分类判别数据集中的每个样本是否是开放阅读框,需要把数据集中的样本分类为正或负样本,因此上述判别结果可以是接近1的数值,也可以是接近0的数值。例如数据集中的某样本,对应的判别结果为0.85,接近于1则意味着该样本预测为正样本,可以用1作为其标签;反之,若接近于0则意味着该样本预测为负样本,可以用0作为其标签。
应当理解的是,上述生成模块可以是生成器,上述辨别模块可以是辨别器或分类器。上述对抗训练应当是生成模块和辨别模块之间的对抗学习,辨别模块尽可能对样本进行分类,而生成模块则尽可能生成辨别模块无法识别的样本。
可以理解的是,上述生成样本可以是接近正样本的高质量样本,也可以是接近负样本的低质量的样本。
在具体实现中,预测设备将开放阅读框的数据集中样本输入生成模块中,使得生成模块学习数据集中的样本以进行数据增强获得生成样本,然后将数据集中的全部样本和生成样本输入辨别模块,辨别模块通过进行未知样本学习,将数据集中的样本和生成样本进行分类来与生成模块实现对抗,在经过对抗训练后,最终由辨别模块得到数据集的分类结果。
步骤S203:根据所述分类结果获得预测为正样本的开放阅读框集合。
在具体实现中,可以根据分类结果进行排序,筛选预测值最接近1的前k个样本组成开放阅读框集合,其中k可根据实际情况和需求进行设定。
进一步地,考虑到实际情况下,由于上述模型预测出来候选的开放阅读框集合成百上千,如果全部都进行生物实验上的验证,那么可能需要大量的人力物力和时间,故而需要一种后处理筛选的机制,筛选出高质量的样本,进一步提升预测效果。因此,本实施例中所述步骤S203之后,所述方法还包括:
步骤S204:对所述分类结果进行后处理,并根据所述后处理的结果对所述开放阅读框集合进行筛选,获得开放阅读框优选集。
需要说明的是,上述开放阅读框集合中的样本可以作为进行生物实验验证的候选者。
应当理解的是,上述后处理可以利用加抗生素的Ribo-seq数据对模型的预测结果进行处理,此时数据集中样本的起始密码子以及起始密码子前后一个密码子可能会出现信号。为了便于理解,参照图4进行说明,图4为本发明开放阅读框预测方法第一实施例的后处理展示图。如图4所示,在利用了加抗生素的Ribo-seq数据进行后处理之后,样本的起始点可能会聚集信号。例如,开放阅读框集合中若有两个样本,其中“候选01”对应的预测值为0.85,“候选02”对应的预测值为0.90,在利用了加抗生素的Ribo-seq数据进行后处理之后,候选01有信号,而候选02无信号,此时,则判别候选01为真阳,而候选02为假阳,虽然候选02的预测值相比于候选01更高,但由于后处理无信号,故而候选02预测为正样本但实际上可能是负样本。
值得说明的是,在进行上述后处理的操作之后,出现的信号大于5即匹配的片段大于5,则为高质量候选者。
在具体实现中,利用加抗生素的Ribo-seq数据对模型的预测结果进行后处理,统计上述开放阅读框集合中各样本的起始密码子以及它前后一个密码子的匹配情况,筛选出匹配的片段大于5的样本,将这些高质量、可实验性的样本整理为开放阅读框优选集。
由于本实施例基于对抗训练和正样本-未知样本学习创建了改进的开放阅读框预测模型,通过模型中的生成模块学习开放阅读框数据集中的样本,进行数据增强获得生成样本,即利用数据生成的方式来缓解数据不平衡,相比于现有的预测模型采用加权损失的方式,避免了可能因权重设置不合理造成模型学习偏差的问题,从而提升了预测准确率。并且通过模型中的辨别模块与生成模块进行对抗训练,基于未知样本学习实现分类任务,预测出开放阅读框数据集中的正样本,由于考虑了未知样本的存在,能够合理利用和挖掘未知样本,有效地避免了现有方法把未知样本当成负样本处理而产生的假阴性问题。此外,本实施例利用加抗生素的Ribo-seq数据进行后处理,能够筛选出高质量的样本,进一步提升预测效果。因此本实施例中的开放阅读框预测方法能够预测出更为高质量可实验性的开放阅读框,极大地提升了开放阅读框的预测效果。
参考图5,图5为本发明开放阅读框预测方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S202具体包括:
步骤S501:通过所述生成模块学习所述数据集中的样本以进行数据增强获得生成样本。
步骤S502:通过所述辨别模块对所述数据集中的样本和所述生成样本进行未知样本学习。
步骤S503:通过所述辨别模块与所述生成模块进行对抗训练,并由所述辨别模块将所述数据集分类,获得所述数据集的分类结果。
在具体实现中,预测设备将开放阅读框的数据集中样本输入生成模块中,使得生成模块学习数据集中的样本以进行数据增强获得生成样本,然后将数据集中的样本和生成样本输入辨别模块,辨别模块根据全部样本和样本对应的标签进行未知样本学习,通过对样本空间的各模态进行解码和重构尽可能地将数据集中的样本和生成样本进行分类,与所述生成模块进行对抗训练,在对抗训练结束后最终由辨别模块得出数据集的分类结果。
进一步地,由于考虑到生成样本的质量无法保证,因此将生成样本当作未知样本处理,本实施例中,所述正样本具有正样本标签,所述未知样本和所述生成样本均具有未知样本标签;所述辨别模块还用于根据所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习;所述步骤S502具体包括:
步骤S504:通过所述辨别模块对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。
需要说明的是,上述正样本标签可以为1,上述未知样本标签可以为-1,上述生成样本X'可能像正样本,也可能像负样本,将生成样本当作未知样本处理,意味其标签应当也设置为-1。参照图6进行说明,图6为本发明开放阅读框预测方法第二实施例的模型架构图。如图6所示,可以用“▲”表示正样本、用“■”表示负样本、用“●”表示未知样本以及用“”表示生成样本,PU-Data为输入模型的数据集中部分正样本和未知样本,图6中①为生成模块,②为辨别模块,将通过生成模块获得的生成样本均当作未知样本。
在具体实现中,预测设备将所述正样本、所述未知样本以及所述生成样本输入所述辨别模块,其中正样本标签为1,未知样本和生成样本的标签均为-1,通过辨别模块对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。在进行未知样本学习时,通过辨别模块对预设的期望风险函数进行最小化,所述预设的期望风险函数的公式为:
其中,为阳性样本占所有可能样本中的百分比,/>为辨别模块预测正样本为阳性的期望风险,/>为将真实的未知样本预测为阴性的期望风险,/>为将未标记的生成样本/>预测为阴性的期望风险,/>为将正样本预测为阴性的期望风险。其中为反向传播。
进一步地,为了能够在潜在空间上全面评估样本之间的差异,并更好地探索和挖掘未知样本,本实施例中,所述辨别模块可以由多模态变分自编码器和若干全连接层网络组成,其中,包括编码器和解码器。
进一步地,由于开放阅读框若能够进行编码,那么Ribo-seq的信号在起始和终止区域会有明显的强信号,而中间则是一些杂乱无序的信号,为了减少其信号噪声的干扰,使得学习更快拟合并提高分类效果,因此本实施例中,所述辨别模块还用于加入生物的先验知识进行学习;所述步骤S504具体包括:
步骤S505:通过所述辨别模块加入所述生物的先验知识,并根据所述先验知识对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。
在具体实现中,预测设备将所述正样本、所述未知样本以及所述生成样本输入所述辨别模块,通过辨别模块的编码器对所述正样本、所述未知样本以及所述生成样本的各模态进行映射,得到的映射结果可以是一个由均值和方差组成的高斯分布,通过对该分布随机采样一个向量,再将采样的向量通过解码器进行重构以实现分类。其中,在对集合ribo={ribo-c,ribo-p}进行重构时,引入先验知识,所述集合ribo={ribo-c,ribo-p}为Ribo-seq序列的两个视图。
进一步地,为了增加对起始区域和终止区域的重构权重,减少其它区域的重构,同时防止过度重构影响分类性能,本实施例中,上述引入的先验知识可以为Mask向量,所述Mask向量为遵循二元高斯混合分布的向量。
可以理解的是,参照图6进行说明,如图6中②所示,由所述辨别模块的编码器将数据集中的样本X的各模态分别通过NN(神经网络)映射到联合的共享表示μ和中,图6中样本X的样本空间包括DNA序列以及Ribo-seq-c,Ribo-seq-p在内共三种模态,在图6中“+”表示合并,“-”表示拆分。映射结果可以是一个由均值和方差组成的高斯分布,通过对该分布随机采样一个向量,再将采样的向量,通过前向传播至解码器进行重构以实现分类。其中,在对集合ribo={ribo-c,ribo-p}进行重构时,引入先验知识Mask向量。
此时,将预设的第一损失函数作为辨别模块中多模态变分自编码器的损失函数,所述第一损失函数的公式为:
其中,为辨别模块的重构误差损失;/>为后验分布/>和先验分布的KL散度;I为输入样本,可以是真实样本X或者生成样本X';/>为辨别模块中多模态的联合潜在向量;Ω为所述辨别模块中多模态编码器的参数集合;/>为所述辨别模块中多模态解码器的参数集合;/>为对应模态解码器的参数;Mask为先验知识Mask向量。如图6所示,上述/>和/>均为反向传播。
此时,若干全连接层网络利用联合潜在向量/>进行分类,并最小化,/>中每一项具体定义的公式为:
其中,表示分类器的预测函数,/>表示当真实标签为t时,预测/>的损失函数。
进一步地,为了生成更具有多样性的数据,本实施例中,所述生成模块可以采用基于多模态的变分自编码器,包括编码器和生成器;所述步骤S501,具体包括:
步骤506:通过所述编码器对所述数据集中的样本的各个模态进行映射,并通过所述生成器根据映射的结果进行重构,获得所述生成样本。
在具体实现中,预测设备将数据集中的样本输入所述生成模块,生成模块的编码器E和生成器G如图6中①所示,通过生成模块的编码器E将数据集中的样本的各个模态映射到联合的共享表示中,再根据映射的结果采样一个潜在向量,输入到生成器G进行重构获得生成样本。此时,将预设的第二损失函数作为生成模块完整的损失函数,所述第二损失函数的公式为:
其中,为生成模块的重构误差损失;/>为后验分布/>和先验分布的KL散度;/>为生成模块中多模态的联合潜在向量;/>为所述生成模块中多模态编码器的参数集合;Θ为所述生成模块中多模态生成器的参数集合;/>为采样的潜在向量。如图6所示,上述/>和/>均为反向传播。
进一步地,为了提升分类性能,在本实施例中,所述步骤S503包括:通过所述辨别模块尽可能分类样本,生成模块则尽可能生成辨别器无法识别的样本进行对抗训练,并由所述辨别模块将所述数据集分类,获得所述数据集的分类结果。
在具体实现中,通过生成模块对预设的风险函数进行最大化,通过上述生成模块和上述辨别模块对预设的第三损失函数进行最大最小化,并结合上述第一损失函数、第二损失函数和第三损失函数,得到开放阅读框预测模型的最终损失函数。其中,所述预设的风险函数的公式为:
所述第三损失函数的公式为:
所述最终损失函数的公式为:
由于本实施例基于对抗训练和正样本-未知样本学习创建了改进的开放阅读框预测模型,通过模型中的生成模块对数据集中的正样本进行增强,获得生成样本,即利用数据生成的方式来缓解数据不平衡,提升了预测准确率。其中,生成模块采用基于多模态的变分自编码器,能够实现生成更具多样性的数据。然后,通过模型中的辨别模块,基于未知样本学习实现分类任务,由于考虑了未知样本的存在,可以合理利用和挖掘未知样本,有效地避免了现有的模型把未知样本当成负样本处理产生的假阴性问题。同时,考虑到生成样本的质量无法保证,所以将生成样本当作未知样本处理,能够进一步挖掘未知样本。再者,辨别模块采用多模态变分自编码器和若干全连接层网络组成,能够在潜在空间上全面评估样本之间的差异,并更好地探索和挖掘未知样本。此外,加入生物的先验知识进行学习,使得学习更快拟合并提高分类效果,其中,引入先验知识Mask向量,对损失函数进行了改造,增加对起始区域和终止区域的重构权重,减少其它区域的重构,同时防止了过度重构影响分类性能,相较于目前的方法未加入先验知识到模型中,本实施例中模型的拟合速度和分类精度均得到了提升。因此能够预测出更为高质量可实验性的开放阅读框,进一步提升了开放阅读框预测模型的预测效果。
参考图7,图7为本发明开放阅读框预测方法第三实施例的流程示意图。
基于上述第一实施例,为了保证改进的开放阅读框预测模型,能够初步具备根据物种间的共同模式进行预测的能力,在本实施例中,所述数据集包括训练集;所述步骤S202之前,还包括:
步骤S701:获取预设的初始预测模型,所述初始预测模型包括初始生成模块和初始辨别模块,所述初始生成模块与所述初始辨别模块之间以对抗训练的方式进行学习,所述初始生成模块用于学习所述训练集中的样本以进行数据增强获得训练生成样本,所述初始辨别模块用于根据所述训练集中的样本以及所述训练生成样本进行未知样本学习。
可以理解的是,上述训练集可以是上述数据集中某个或某一些公开的物种开放阅读框样本数据所组成的集合,训练集中也包括有相应的正样本和未知样本。例如,若数据集包括物种A、物种B和物种C的开放阅读框样本,训练集可以是其中物种A和物种B的样本数据。
需要说明的是,上述预设的初始预测模型可以是基于正样本-未知样本学习(Positive-Unlabeled,PU)改进的生成对抗模型,能够通过上述训练集的预训练使得其应用于开放阅读框预测。
应当理解的是,上述对抗训练应当是使初始辨别模块尽可能对开放阅读框进行分类,而初始生成模块则是尽可能生成初始辨别模块无法识别的样本来进行对抗。
可以理解的是,上述训练生成样本可以是接近正样本的高质量样本,也可以是接近负样本的低质量的样本。
在具体实现中,获取基于正样本-未知样本学习和生成对抗模型建立的预设的初始预测模型。
步骤S702:根据所述训练集对所述初始预测模型进行预训练,并将预训练后获得的模型作为改进的开放阅读框预测模型。
可以理解的是,预训练可以是利用训练集进行模型的训练。
在具体实现中,预测设备将训练集中的样本输入初始生成模块中,使得所述初始生成模块学习训练集中的样本以进行数据增强获得训练生成样本,将训练生成样本设置为未知样本标签,然后将训练集中的全部样本和训练生成样本输入初始辨别模块,通过初始辨别模块进行未知样本学习,对输入的样本空间的各模态进行解码、重构,以尽可能地将训练集中的样本和训练生成样本进行分类,在与初始生成模块的对抗训练结束时则完成模型的预训练,将预训练后获得的模型作为改进的开放阅读框预测模型。
进一步地,由于不同物种的基因表达具有特异性,为了使得改进的开放阅读框预测模型能保证适配新的测试物种,本实施例中,所述数据集包括测试集,所述步骤S202具体包括:
步骤S703:通过所述测试集对所述开放阅读框预测模型进行微调;
步骤S704:基于微调后的开放阅读框预测模型对所述测试集进行分类,获得所述测试集的分类结果。
需要说明的是,上述测试集也可以是上述数据集中某个或某一些公开的物种开放阅读框样本数据所组成的集合,测试集中可以包括有相应的正样本和未知样本。例如,若数据集包括物种A、物种B和物种C的开放阅读框样本,训练集可以是其中物种A和物种B的样本数据,测试集则可以是物种C的样本数据。
应当理解的是,上述微调一般也是模型的训练,与上述预训练类似,预训练利用的是训练集进行模型的训练,而微调应当是在对新的测试物种进行开放阅读框预测时,先利用测试集进行模型的训练。
可以理解的是,上述分类结果可以是测试集中全部样本对应的预测值,其中每个样本的预测值可以是在[0,1]之间的数值。由于需要实现的是二分类,即判别该样本是否为开放阅读框,把测试集中的样本分类为正或负样本,对应的标签分别是1或0,因此上述判别结果可以是接近1的数值,也可以是接近0的数值,例如测试集中的某样本,对应的判别结果为0.90,接近于1则意味着该样本预测为正样本;反之,接近于0则意味着该样本预测为负样本。
在具体实现中,预测设备将待分类的测试集中的样本输入生成模块中,使得所述生成模块对测试集中的样本进行增强获得测试生成样本,然后将测试集中的全部样本和测试生成样本输入辨别模块,辨别模块通过进行未知样本学习,将测试集中的样本和测试生成样本进行分类来与生成模块进行对抗训练,即进行模型的微调,当微调结束时最终由辨别模块得到测试集的分类结果。
由于本实施例基于对抗训练和正样本-未知样本学习创建了改进的开放阅读框预测模型,在此基础上,考虑到不同物种间的表达是存在差异的,也就是说模型在训练集中虽然有较好的效果,但是在测试集中可能表现并不佳,本实施例中通过对预设的初始预测模型进行预训练,学习训练集中物种间的共同模式,然后,利用测试集对模型进行微调,使模型具备了适配测试物种的能力,能够适应新物种的特异性并利用此来挖掘未知的正样本,相比于现有技术没有考虑不同物种的特异性,本实施例中模型的泛化性显著提高。因此能够预测出更为高质量可实验性的开放阅读框,更进一步地提升了开放阅读框预测模型的预测效果。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有开放阅读框预测程序,所述开放阅读框预测程序被处理器执行时实现如上文所述的开放阅读框预测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体,意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种开放阅读框预测方法,其特征在于,所述方法包括以下步骤:
获取开放阅读框的数据集,所述数据集包括正样本和未知样本,所述正样本为所述数据集中已经确认是所述开放阅读框的样本,所述未知样本为所述数据集中无法确认是所述开放阅读框的样本;
通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果,所述开放阅读框预测模型包括生成模块和辨别模块,所述生成模块与所述辨别模块之间以对抗训练的方式进行学习,所述生成模块用于学习所述数据集中的样本以进行数据增强获得生成样本,所述辨别模块用于根据所述数据集中的样本以及所述生成样本进行未知样本学习,并对所述数据集中的样本进行分类,所述生成样本为所述辨别模块无法识别的样本;
根据所述分类结果获得预测为正样本的开放阅读框集合;
其中,所述根据所述分类结果获得预测为正样本的开放阅读框集合的步骤之后,还包括:
利用加抗生素的Ribo-seq数据对所述开放阅读框集合进行后处理,获得所述开放阅读框集合中各样本相邻密码子的匹配情况;
筛选出各所述样本中相邻密码子相互匹配片段大于预设次数的目标样本,并将所述目标样本整理为开放阅读框优选集。
2.如权利要求1所述的开放阅读框预测方法,其特征在于,所述通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果的步骤,包括:
通过所述生成模块学习所述数据集中的样本以进行数据增强获得生成样本;
通过所述辨别模块对所述数据集中的样本和所述生成样本进行未知样本学习;
通过所述辨别模块与所述生成模块进行对抗训练,并由所述辨别模块将所述数据集分类,获得所述数据集的分类结果。
3.如权利要求2所述的开放阅读框预测方法,其特征在于,所述正样本具有正样本标签,所述未知样本和所述生成样本均具有未知样本标签;
所述辨别模块还用于根据所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习;
所述通过所述辨别模块对所述数据集中的样本和所述生成样本进行未知样本学习的步骤,包括:
通过所述辨别模块对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。
4.如权利要求3所述的开放阅读框预测方法,其特征在于,所述辨别模块还用于加入生物的先验知识进行学习;
所述通过所述辨别模块对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习的步骤,包括:
通过所述辨别模块加入所述生物的先验知识,并根据所述先验知识对所述正样本、所述未知样本、所述生成样本以及各自对应的标签进行未知样本学习。
5.如权利要求2所述的开放阅读框预测方法,其特征在于,所述生成模块采用基于多模态的变分自编码器,包括编码器和生成器;
所述通过所述生成模块学习所述数据集中的样本以进行数据增强获得生成样本的步骤,包括:
通过所述编码器对所述数据集中的样本的各个模态进行映射,并通过所述生成器根据映射的结果进行重构,获得所述生成样本。
6.如权利要求1所述的开放阅读框预测方法,其特征在于,所述数据集包括训练集;
所述通过改进的开放阅读框预测模型对所述数据集进行分类的步骤之前,还包括:
获取预设的初始预测模型,所述初始预测模型包括初始生成模块和初始辨别模块,所述初始生成模块与所述初始辨别模块之间以对抗训练的方式进行学习,所述初始生成模块用于学习所述训练集中的样本以进行数据增强获得训练生成样本,所述初始辨别模块用于根据所述训练集中的样本以及所述训练生成样本进行未知样本学习;
根据所述训练集对所述初始预测模型进行预训练,并将预训练后获得的模型作为改进的开放阅读框预测模型。
7.如权利要求6所述的开放阅读框预测方法,其特征在于,所述数据集包括测试集;
所述通过改进的开放阅读框预测模型对所述数据集进行分类,获得所述数据集的分类结果的步骤,包括:
通过所述测试集对所述开放阅读框预测模型进行微调;
基于微调后的开放阅读框预测模型对所述测试集进行分类,获得所述测试集的分类结果。
8.一种开放阅读框预测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的开放阅读框预测程序,所述开放阅读框预测程序配置为实现如权利要求1至7中任一项所述的开放阅读框预测方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有开放阅读框预测程序,所述开放阅读框预测程序被处理器执行时实现如权利要求1至7中任一项所述的开放阅读框预测方法的步骤。
CN202310722247.3A 2023-06-19 2023-06-19 开放阅读框预测方法、设备及存储介质 Active CN116453599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310722247.3A CN116453599B (zh) 2023-06-19 2023-06-19 开放阅读框预测方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310722247.3A CN116453599B (zh) 2023-06-19 2023-06-19 开放阅读框预测方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116453599A CN116453599A (zh) 2023-07-18
CN116453599B true CN116453599B (zh) 2024-03-19

Family

ID=87127759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310722247.3A Active CN116453599B (zh) 2023-06-19 2023-06-19 开放阅读框预测方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116453599B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104871164A (zh) * 2012-10-24 2015-08-26 考利达基因组股份有限公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
CN111899792A (zh) * 2020-08-05 2020-11-06 南京邮电大学 一种筛选具有肽编码能力小开放阅读框的方法
CN112669905A (zh) * 2020-12-31 2021-04-16 中南民族大学 基于数据增强的rna序列编码潜力预测方法及系统
CN114154396A (zh) * 2021-11-05 2022-03-08 南京邮电大学 一种跨物种编码多肽sORF的预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019227813A1 (en) * 2018-02-27 2020-10-01 Gritstone Bio, Inc. Neoantigen identification with pan-allele models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104871164A (zh) * 2012-10-24 2015-08-26 考利达基因组股份有限公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
CN111899792A (zh) * 2020-08-05 2020-11-06 南京邮电大学 一种筛选具有肽编码能力小开放阅读框的方法
CN112669905A (zh) * 2020-12-31 2021-04-16 中南民族大学 基于数据增强的rna序列编码潜力预测方法及系统
CN114154396A (zh) * 2021-11-05 2022-03-08 南京邮电大学 一种跨物种编码多肽sORF的预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Positive-Unlabeled Learning with Adversarial Data Augmentation for Knowledge Graph Completion;Zhenwei Tang.et al;arXiv;第1-9页 *

Also Published As

Publication number Publication date
CN116453599A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US11120337B2 (en) Self-training method and system for semi-supervised learning with generative adversarial networks
Singh et al. Feature wise normalization: An effective way of normalizing data
Nalepa et al. A memetic algorithm to select training data for support vector machines
JP7414901B2 (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN114787876A (zh) 用于图像预处理的系统和方法
Almomani et al. An automated vision-based deep learning model for efficient detection of android malware attacks
EP3317823A1 (en) Method and apparatus for large scale machine learning
CN114283888A (zh) 基于分层自注意力机制的差异表达基因预测系统
CN111062036A (zh) 恶意软件识别模型构建、识别方法及介质和设备
Cuevas et al. Multithreshold segmentation based on artificial immune systems.
Chouaib et al. Feature selection combining genetic algorithm and adaboost classifiers
Zhang et al. The classification and detection of malware using soft relevance evaluation
Chinbat et al. Ga3n: Generative adversarial autoaugment network
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
Vidovic et al. Opening the black box: Revealing interpretable sequence motifs in kernel-based learning algorithms
CN116453599B (zh) 开放阅读框预测方法、设备及存储介质
CN115713669B (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN111753546A (zh) 文书信息抽取方法、装置、计算机设备及存储介质
CN117037917A (zh) 细胞类型预测模型训练方法、细胞类型预测方法和装置
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
CN111523308B (zh) 中文分词的方法、装置及计算机设备
Soliman et al. Hybrid Approach for Taxonomic Classification Based on Deep Learning
CN113436682B (zh) 风险人群的预测方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant