CN113823356A - 一种甲基化位点识别方法及装置 - Google Patents

一种甲基化位点识别方法及装置 Download PDF

Info

Publication number
CN113823356A
CN113823356A CN202111136225.6A CN202111136225A CN113823356A CN 113823356 A CN113823356 A CN 113823356A CN 202111136225 A CN202111136225 A CN 202111136225A CN 113823356 A CN113823356 A CN 113823356A
Authority
CN
China
Prior art keywords
features
methylation site
feature
data
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111136225.6A
Other languages
English (en)
Inventor
邹权
李静
杜军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202111136225.6A priority Critical patent/CN113823356A/zh
Publication of CN113823356A publication Critical patent/CN113823356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种甲基化位点识别方法及装置,方法包括:导入甲基化位点识别序列数据文件,并从甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;从原始甲基化位点数据集中提取数据特征,得到特征矩阵;对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据多个特征和与其关联的实例类别得到特征子集基于所述特征子集中的多个目标特征分别生成对应的基分类器;将多个基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。本发明能够实现对甲基化位点的准确识别,为相应药物开发提供了理论基础,通过对基分类器进行集成进而构建甲基化位点识别模型,提升了甲基化位点识别精度。

Description

一种甲基化位点识别方法及装置
技术领域
本发明主要涉及基因数据处理技术领域,具体涉及一种甲基化位点识别方法及装置。
背景技术
DNA甲基化是一种重要的表观遗传修饰,与癌症的发生发展密切相关。DNA甲基化位点作为一种癌症相关的生物标志物,其有效识别对于了解癌症的发病机制、癌症分析判断和药物开发具有较高的指导意义。目前,在基因组、表观基因组、转录组等不同组学的研究中,利用计算机生物工具识别甲基化位点的研究成果不断涌现。但目前的处理模型存在偏差,将位点粗略地确定为甲基化位点,存在不够精确的情况。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种甲基化位点识别方法及装置。
本发明解决上述技术问题的技术方案如下:一种甲基化位点识别方法,包括如下步骤:
S1、导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
S2、根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
S3、根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
S4、根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
S5、将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
所述S2中,根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
基于序列特征的特征提取算法从所述原始甲基化位点数据集中提取Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatch组成,得到第一类数据特征;
基于物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
采用上述进一步技术方案的有益效果是:利用核苷酸的组成来表达甲基化位点序列的特征,能够实现对甲基化位点的准确识别。
进一步,所述S3中,根据MRMD算法对所述特征矩阵进行特征选择的过程包括:
根据max(MRi+MDi)对所述特征矩阵进行特征选择,其中,MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例类别之间的欧式距离,并通过第一公式计算maxMRi值,所述第一公式为:
Figure BDA0003282516590000031
并通过第二公式计算maxMDi值,所述第二公式为:
Figure BDA0003282516590000032
其中,PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例类别的特征向量,Ci表示第i个circRNA实例类别的类别向量,M表示circRNA实例类别的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N表示Fi和Ci中的元素数量,
Figure BDA0003282516590000033
表示Fi中所有元素的平均值,
Figure BDA0003282516590000034
表示Ci中所有元素的平均值,EDi表示第i个circRNA实例类别之间的Euclidean距离,COSi表示第i个circRNA实例类别之间的Cosine距离,TCi表示第i个circRNA实例类别之间的Tanimoto系数。
采用上述进一步技术方案的有益效果是:通过MRMD算法对高维特征进行排序来过滤无信息数据,能够平衡特征排序和预测的准确性和稳定性。
进一步,还包括步骤,将所述原始甲基化位点数据集划分为正例数据集和反例数据集,所述正例数据集包括甲基化位点识别序列,所述反例数据集包括非甲基化位点识别序列。
进一步,所述将所述原始甲基化位点数据集划分为正例数据集和反例数据集的过程包括:
通过第三公式计算分类精度,所述第三公式为:
Figure BDA0003282516590000041
其中,ACC表示使用极限学习机算法对甲基化位点进行分类得到的分类精度,TP表示预测正确的甲基化位点数量,FP表示预测正确的非甲基化位点数量,TN表示预测错误的甲基化位点数量,FN表示预测错误的非甲基化位点数量;
本发明解决上述技术问题的另一技术方案如下:一种甲基化位点识别装置,包括:
获取模块,用于导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
处理模块,用于根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
集成模块,用于将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
本发明解决上述技术问题的另一技术方案如下:一种甲基化位点识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的甲基化位点识别方法。
本发明的有益效果是:本发明提出了一种全新的甲基化位点识别方法,从原始甲基化位点数据集中提取数据特征,对数据特征进行特征选择,得到多个特征和与其关联的实例类别,能够实现对甲基化位点的准确识别,为相应药物开发提供了理论基础,通过对基分类器进行集成进而构建甲基化位点识别模型,提升了甲基化位点识别精度。
附图说明
图1所示为本发明实施例提供的甲基化位点识别方法的流程示意图;
图2所示为本发明实施例提供的甲基化位点识别装置的功能模块示意图;
图3所示为本发明实施例提供的甲基化位点识别方法的数据性流程示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1所示,一种甲基化位点识别方法,包括如下步骤:
S1、导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
S2、根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
S3、根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
S4、根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
S5、将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
如图3所示,步骤S1中,原始甲基化位点数据集中分为两类数据,第一种来自于WHISLE,它包含两种模式(Full Transcript和mature MRNA)的数据。每一种模式包含6个训练数据集和6个独立数据集,每次取一个单基分辨率作为独立数据集,其余5个自动作为训练集。以A549为例进行详细说明。如果独立数据集为A549,则CD8T、HEK298_abacm、HEK298_sysy、HeLa和MOLM13构成训练数据集。所有完全转录的独立数据集和成熟mRNA统称为独立数据集1。所有训练数据集和独立数据集1的基本分辨率数据都直接从GEO(GeneExpression Omnibus)下载。根据不同的单基分辨率对同一地点的不同判断,对样本赋予不同的权重(负样本的权重为1,正样本的权重根据具体情况分为2、3、4、5),可以保证建立更可信的模型。在每次实验中,对负样本(原始正样本与负样本之比为1:10)进行相同程度的整合、聚类和随机抽样,这对提高模型的泛化能力非常有意义。第二类数据来自人类A549细胞,称为独立数据集2。
在获取待处理的原始甲基化位点数据集之前,需要对导入的甲基化位点识别序列数据文件进行格式判断和内容判断;格式判断的具体方法为:当读入的甲基化位点序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;内容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。
具体地,将所述原始甲基化位点数据集划分为正例数据集和反例数据集,所述正例数据集包括甲基化位点识别序列,所述反例数据集包括非甲基化位点识别序列。
具体地,所述将所述原始甲基化位点数据集划分为正例数据集和反例数据集的过程包括:
通过第三公式计算分类精度,所述第三公式为:
Figure BDA0003282516590000071
其中,ACC表示使用极限学习机算法对甲基化位点进行分类得到的分类精度,TP表示预测正确的甲基化位点数量,FP表示预测正确的非甲基化位点数量,TN表示预测错误的甲基化位点数量,FN表示预测错误的非甲基化位点数量;
上述实施例中,提出了一种全新的甲基化位点识别方法,从原始甲基化位点数据集中提取数据特征,对数据特征进行特征选择,得到多个特征和与其关联的实例类别,能够实现对甲基化位点的准确识别,为相应药物开发提供了理论基础,通过对基分类器进行集成进而构建甲基化位点识别模型,提升了甲基化位点识别精度。
具体地,所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
所述S2中,根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
基于序列特征的特征提取算法对所述原始甲基化位点数据集中的Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatch组成,得到第一类数据特征;
基于物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据物化性质的特征提取算法对所述原始甲基化位点数据集中的并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
应理解地,考虑到单一的特征提取方法很难准确识别站点。从整个序列、理化性质和基因信息中提取特征,综合评价模型的性能。
如图3所示,核苷酸之间的差异可以通过序列直接反映出来。因此,有四种基于序列的特性:Kmer,组成的k间隔核苷酸对(CKSNAP),二核苷酸组成(DNC),Mismatch。Kmer通过表征k个相邻核酸的出现频率,生成一个255维的特征向量,CKSNAP通过计算任何k个核酸分隔的核酸对的频率来生成一个400维的特征向量,而Mismatch通过计算相邻的k个长度的核酸的出现频率来生成一个64维的特征向量,这些核酸最多相差m个错匹配。在这一过程中,AAAT、AACC、AACG、gac、TAGC、AG、CG、GA、GC、CG的间隙在确定位点的类别中起着至关重要的作用。
物化性质已广泛并成功地应用于DNA和RNA属性的预测任务中。如图3所示,本实验采用五种基于理化性质的特征来描述基因序列中核酸性质的整体组成:平行相关伪三核苷酸组成(PCPseTNC)、序列相关伪二核苷酸组成(SCPseDNC),和序列相关伪三核苷酸组成(SCPseTNC)。所有的特征编码方法根据具体的物理化学性质类型将4种主要的核酸分类为大类,分别根据不同的公式得到123-、18-、66-、28-、68维特征向量。NCP通过对腺嘌呤(a)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(U)设置不同的编码,生成123维特征向量,其中a、G、C、U四种不同类型的特征向量具有不同的化学结构和化学结合。根据化学性质,A、G、C、U分别表示为(1,1,1)、(0,1,0)、(1,0,0)、(0,0,1)。
几乎所有现有的预测算法都只包含序列派生的特征。在某种程度上,单序列特征几乎不可能捕获完整的站点信息。因此,本发明使用了14种基因特征提取方法来预测位点,这些位点可通过MRMD算法进行特征选择和排序。所选的64个特征表明,该位点是否与主RNA转录本的拓扑区域重叠,区域上的相对位置,区域长度(bp),与进化保守相关的得分,RNA二级结构,基因或转录本的属性,与生物学相关的RNA注释,rna结合蛋白注释、核苷酸距离剪接点或最近的核苷酸距离以及该位点是否为特殊基序对甲基化位点的识别有重要影响。
具体地,步骤S2中的特征提取算法包括基于序列特征的特征提取算法,基于物化性质的特征提取算法和基因衍生特征。所述的基于序列的特征提取算法包括但不仅限于Kmer,k间隔核苷酸对的组成(CKSNAP),Di核苷酸组成(DNC)和Mismatch。所述的基于物化性质的特征提取算法包括但不仅限于并行相关伪三核苷酸组成(PCPseTNC)系列相关伪二核苷酸组成(SCPseDNC)和序列相关伪三核苷酸组成(SCPseTNC)。所述的基因衍生特征为直接根据基因位点数据提取而得。
具体地,所述S3中,根据MRMD算法对所述特征矩阵进行特征选择的过程包括:
根据max(MRi+MDi)对所述特征矩阵进行特征选择,其中,MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例类别之间的欧式距离,并通过第一公式计算maxMRi值,所述第一公式为:
Figure BDA0003282516590000101
并通过第二公式计算maxMDi值,所述第二公式为:
Figure BDA0003282516590000102
其中,PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例类别的特征向量,Ci表示第i个circRNA实例类别的类别向量,M表示circRNA实例类别的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N表示Fi和Ci中的元素数量,
Figure BDA0003282516590000103
表示Fi中所有元素的平均值,
Figure BDA0003282516590000104
表示Ci中所有元素的平均值,EDi表示第i个circRNA实例类别之间的Euclidean距离,COSi表示第i个circRNA实例类别之间的Cosine距离,TCi表示第i个circRNA实例类别之间的Tanimoto系数。
应理解地,在MRMD算法中,特征与实例类别之间的相关性用皮尔逊系数表征,皮尔逊系数越大说明特征与实例类别之间的相关性越强,关系越紧密;特征之间的冗余性用欧式距离表征,欧式距离又与Euclidean距离ED,Cosine距离COS和Tanimoto系数TC相关,欧式距离越大说明特征之间的冗余性越低。
相对而言,特征选择的本质是用特定的评价标准来衡量给定特征子集的优势。表1为关键性特征示意,如表1所示,通过特征选择,去除原始集合中的名誉特征和无关特征,保留有用的特征。训练集的数量和特征提取方法的多样性,特征选择是必要的。在选择特征选择方法时,预测效果的稳定性是最重要的指标。综上所述,MRMD算法通过对高维特征进行排序来过滤无信息数据,能够平衡特征排序和预测的准确性和稳定性。与其他特征选择算法相比,MRMD算法最大的优点是可以兼顾特征选择和降维后的稳定性,可以保证降维后的特征仍然具有良好的性能。优秀的特征表示可以提升模型的性能,更容易理解数据的特征和底层结构,更方便地改进模型和算法。
表1
Figure BDA0003282516590000121
具体地,步骤S4引入了Xgboost算法。目前大多数用于站点识别的分类方法都是随机森林或者支持向量机(SVM),一个更强大的分类算法被期待。作为一个升序树模型,Xgboost算法是集成了许多树模型(树模型是CART回归树模型)的一个强大分类器。
作为一个升序树模型,Xgboost算法是集成了许多树模型(树模型是CART回归树模型)的一个强大分类器。Xgboost算法被设计为通过添加越来越多的树和分割特性来生长树。实际上,当添加一棵树时,就学习了一个新的函数,用来拟合上次预测的残差。训练完成后,得到K棵树。根据样本的特征,在每棵树中找到相应的叶节点和预测得分。最后,每棵树的预测得分之和就是样本的预测值。
Figure BDA0003282516590000131
F={f(x)=wq(x)}(q:Rm→T,w∈RT)
式中,w_q(x)是叶子节点q的得分,f(x)是一棵回归树。使用Xgboost进行站点识别有几个原因。
(1)Xgboost算法中使用了多种过拟合预防策略。如果模型过度学习了训练集的特征,很可能是模型将训练样本的某些特征作为了一般属性,导致泛化能力下降。对于机器学习算法来说,过拟合是不能完全避免的,这意味着使用防止过拟合策略在机器学习中具有重要意义。(2)通过对样本设置不同的权重,可以使重要的样本得到更多的关注。为了在训练数据集中获得更准确的模型,对不同的样本赋予不同的权值,进一步提高了效果。
将步骤S3生成的选择后的特征矩阵与Xgboost算法进行结合以生成基分类器。
步骤S5对步骤S4所生成的基分类器进行了集成,集成策略的选取应根据数据特征,物种特性和时间复杂度进行选取。
下面通过实验对本发明进行论述:
在本实验中,两种模式(full transcript和mature mRNA)的数据分别由6个训练数据集和6个独立数据集组成。如图3所示,模型的构建过程详细如下:数据处理。序列数据的生成。本实验从原始基因组坐标数据(原始数据中仅包含基因组坐标数据)中提取相应的序列数据,利用序列数据和基因组数据对甲基化位点进行识别。一组样本权重。由于每个训练集的正样本由5个单基分辨率组成,不同的单基分辨率对同一个站点有不同的标签。因此,根据不同的单碱基分辨率在同一位点的表现,为每个样本分配不同的权重(阳性样本为2,3,4,5,阴性样本为1)。阴性样本的生成。考虑到染色体上非甲基化位点的数量远大于甲基化位点的数量,实验选择阴性样本(阳性:阴性=1:10)。为了保证模型具有更好的预测性能和更强的泛化能力,利用GMM收集所有的负样本进行聚类,并聚为5类负样本。5个类别中采样数量相同且采样程度相同的阳性样本。
特征提取。基于序列的特征、理化性质和基因衍生特征,包括NCP、CKSNAP、DNC、Mismatch、PC-PseDNC、PC-PseTNC、SC-PseDNC、SC-PseTNC等14种基因特征提取方法。
特征选择和特征拼接。除NCP外的所有特征都使用MRMD进行选择,拼接在一起生成最终的特征向量。相对于单一特征的训练,特征的选择和拼接在原则上可以显著提高模型的性能。本文采用了三种特征提取方法进行特征提取。
使用XGBoost的训练模型。基于样本的权重信息和高级分类能力,XGBoost被认为是一种合适的分类算法。在此过程中,采用5倍交叉验证的方法进行模型的培养和构建。利用独立数据集1和2进一步证明了模型的分类能力和泛化能力。
对可识别甲基化位点的甲基化位点识别模型的性能评估。
交叉验证是机器学习中常用的模型验证方法,能够准确调整模型的超参数,有效防止模型过复杂度导致的过拟合。交叉验证被用来评价模型的预测性能,特别是新数据的预测性能,可以在一定程度上减少过拟合。交叉验证可以从有限的数据中提取尽可能多的有效信息。所有模型训练均采用5倍交叉验证。表2为HSM6AP在独立数据集1上的性能,如表2所示,在全转录本中,交叉验证的准确率超过96%,而在成熟mRNA中,所有交叉验证的准确率都超过89%。全转录本和成熟mRNA的性能意味着HSM6AP不仅具有强大的预测功能;而且泛化能力强,能有效防止过拟合。
表2
Figure BDA0003282516590000151
表3为本发明实施例HSM6AP在独立数据集2上的性能,表4为本发明实施例HSM6AP在独立数据集3上的性能。如表3和表4所示,在独立测试集1中,A549、CD8T、HEK293_abacm、HeLa、MOLM13各项指标均表现良好,SN、SP、F_score、ACC、AUC均超过了0.9。HEK_293sysy的效果不符合预期,AUC为0.937。全转录本的平均AUC为0.976,而成熟mRNA的平均AUC为0.899。独立数据集2的正样本量为40742,负样本量为3575,AUC作为综合评价标准更加合理。在独立数据集2中,全转录本的平均AUC为0.981,且几乎所有值相对较高。相反,成熟的mRNA的平均AUC是0.914。在独立数据集3中,全转录本的平均AUC为0.967,且几乎所有值相对较高。相反,成熟的mRNA的平均AUC是0.890。
表3
Figure BDA0003282516590000152
表4
Figure BDA0003282516590000153
本实施例甲基化位点识别模型与目前先进的甲基化位点识别模型的性能对比。
将基因特征和序列特征融合,并与支持向量机(SVM)相结合,构建了WHISLE模型。随着大数据时代的到来,深度学习被广泛应用于数据挖掘领域。DeepM6ASeq可以利用序列信息预测甲基化位点,这是甲基化位点识别领域的新加入。作为甲基化位点预测领域的先驱,SRAMP通过对三种碱基分类器进行投票来识别甲基化位点。
为了进一步证明HSM6AP的优越性,将WHISLE、DeepM6ASeq和SRAMP应用于对比实验。表5为HSM6AP与目前先进的甲基化位点识别方法的对比。这些方法的结果如表5所示。对于独立数据集1,HSM6AP的全转录模式AUC比WHISLE、DeepM6ASeq和SRAMP比WHISLE高0.028、0.277和0.301,成熟mRNA的AUC比WHISLE、DeepM6ASeq和SRAMP高0.019、0.266和0.117,如表5。对于独立数据集2,HSM6AP的AUC比WHISLE、DeepM6ASeq和SRAMP高0.019、0.266和0.117。HSM6AP对完整转录本和成熟mRNA的AUC值为0.981,比WHISLE高0.001,比DeepM6ASeq高0.307,比SRAMP高0.285。HSM6AP在成熟mRNA中的表现也更好,其AUC分别为0.01、0.281和0.132,优于WHISLE、DeepM6ASeq和SRAMP。实验结果表明,HSM6AP在预测人类甲基化位点方面优于目前最先进的方法。
表5
Figure BDA0003282516590000161
实施例2:
如图2所示,一种甲基化位点识别装置,包括:
获取模块,用于导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
处理模块,用于根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
集成模块,用于将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
具体地,所述处理模块具体用于:
所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
基于序列特征的特征提取算法从所述原始甲基化位点数据集中提取Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatch组成,得到第一类数据特征;
基于物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
实施例3:
一种甲基化位点识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的甲基化位点识别方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种甲基化位点识别方法,其特征在于,包括如下步骤:
S1、导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
S2、根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
S3、根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
S4、根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
S5、将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
2.根据权利要求1所述的甲基化位点识别方法,其特征在于,所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
所述S2中,根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
根据序列特征的特征提取算法从所述原始甲基化位点数据集中提取Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatc特征,得到第一类数据特征;
根据物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
3.根据权利要求1所述的甲基化位点识别方法,其特征在于,所述S3中,根据MRMD算法对所述特征矩阵进行特征选择的过程包括:
根据max(MRi+MDi)对所述特征矩阵进行特征选择,其中,MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例类别之间的欧式距离,并通过第一公式计算maxMRi值,所述第一公式为:
Figure FDA0003282516580000021
并通过第二公式计算maxMDi值,所述第二公式为:
Figure FDA0003282516580000022
其中,PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例类别的特征向量,Ci表示第i个circRNA实例类别的类别向量,M表示circRNA实例类别的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N表示Fi和Ci中的元素数量,
Figure FDA0003282516580000031
表示Fi中所有元素的平均值,
Figure FDA0003282516580000032
表示Ci中所有元素的平均值,EDi表示第i个circRNA实例类别之间的Euclidean距离,COSi表示第i个circRNA实例类别之间的Cosine距离,TCi表示第i个circRNA实例类别之间的Tanimoto系数。
4.根据权利要求1所述的甲基化位点识别方法,其特征在于,还包括步骤,将所述原始甲基化位点数据集划分为正例数据集和反例数据集,所述正例数据集包括甲基化位点识别序列,所述反例数据集包括非甲基化位点识别序列。
5.根据权利要求4所述的甲基化位点识别方法,其特征在于,所述将所述原始甲基化位点数据集划分为正例数据集和反例数据集的过程包括:
通过第三公式计算分类精度,所述第三公式为:
Figure FDA0003282516580000033
其中,ACC表示使用极限学习机算法对甲基化位点进行分类得到的分类精度,TP表示预测正确的甲基化位点数量,FP表示预测正确的非甲基化位点数量,TN表示预测错误的甲基化位点数量,FN表示预测错误的非甲基化位点数量。
6.一种甲基化位点识别装置,其特征在于,包括:
获取模块,用于导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
处理模块,用于根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
集成模块,用于将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
7.根据权利要求6所述的甲基化位点识别装置,其特征在于,所述处理模块具体用于:
所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
根据序列特征的特征提取算法从所述原始甲基化位点数据集中提取Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatc特征提取算法组成,得到第一类数据特征;
根据物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
8.一种甲基化位点识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述的甲基化位点识别方法。
CN202111136225.6A 2021-09-27 2021-09-27 一种甲基化位点识别方法及装置 Pending CN113823356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136225.6A CN113823356A (zh) 2021-09-27 2021-09-27 一种甲基化位点识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136225.6A CN113823356A (zh) 2021-09-27 2021-09-27 一种甲基化位点识别方法及装置

Publications (1)

Publication Number Publication Date
CN113823356A true CN113823356A (zh) 2021-12-21

Family

ID=78915630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136225.6A Pending CN113823356A (zh) 2021-09-27 2021-09-27 一种甲基化位点识别方法及装置

Country Status (1)

Country Link
CN (1) CN113823356A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN116070157A (zh) * 2023-01-13 2023-05-05 东北林业大学 基于级联森林和双流结构的circRNA识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3095056A1 (en) * 2018-04-13 2019-10-17 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN113344076A (zh) * 2021-06-08 2021-09-03 汕头大学 一种基于集成学习的circRNA-miRNA相互作用关系预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3095056A1 (en) * 2018-04-13 2019-10-17 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN113344076A (zh) * 2021-06-08 2021-09-03 汕头大学 一种基于集成学习的circRNA-miRNA相互作用关系预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN111599409B (zh) * 2020-05-20 2022-05-20 电子科技大学 基于MapReduce并行的circRNA识别方法
CN116070157A (zh) * 2023-01-13 2023-05-05 东北林业大学 基于级联森林和双流结构的circRNA识别方法
CN116070157B (zh) * 2023-01-13 2024-04-16 东北林业大学 基于级联森林和双流结构的circRNA识别方法

Similar Documents

Publication Publication Date Title
Barash et al. A simple hyper-geometric approach for discovering putative transcription factor binding sites
CN111276252B (zh) 一种肿瘤良恶性鉴别模型的构建方法及装置
CN110084314B (zh) 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN113823356A (zh) 一种甲基化位点识别方法及装置
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
Yang et al. i2OM: Toward a better prediction of 2′-O-methylation in human RNA
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
Zintzaras et al. Forest classification trees and forest support vector machines algorithms: Demonstration using microarray data
US20040153307A1 (en) Discriminative feature selection for data sequences
Liu et al. Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle
US20190108311A1 (en) Site-specific noise model for targeted sequencing
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN115394348A (zh) 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
Sharan et al. A motif-based framework for recognizing sequence families
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
Wang et al. Prediction of transcription start sites based on feature selection using AMOSA
Grinev et al. ORFhunteR: an accurate approach for the automatic identification and annotation of open reading frames in human mRNA molecules
Sun et al. Enhancer recognition and prediction during spermatogenesis based on deep convolutional neural networks
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
Wang et al. Computational discovery of motifs using hierarchical clustering techniques
Chegrane et al. Motif selection enables efficient sequence-based classification of non-coding RNA
Abid et al. Discriminant analysis for the eigenvalues of variance covariance matrix of FFT scaling of DNA sequences: an empirical study of some organisms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination