CN115620812B - 基于重采样的特征选择方法、装置、电子设备和存储介质 - Google Patents

基于重采样的特征选择方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115620812B
CN115620812B CN202211644944.3A CN202211644944A CN115620812B CN 115620812 B CN115620812 B CN 115620812B CN 202211644944 A CN202211644944 A CN 202211644944A CN 115620812 B CN115620812 B CN 115620812B
Authority
CN
China
Prior art keywords
methylation
data
sample
sites
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211644944.3A
Other languages
English (en)
Other versions
CN115620812A (zh
Inventor
吕行
邝英兰
叶莘
黄萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Livzon Cynvenio Diagnostics Ltd
Original Assignee
Zhuhai Livzon Cynvenio Diagnostics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Livzon Cynvenio Diagnostics Ltd filed Critical Zhuhai Livzon Cynvenio Diagnostics Ltd
Priority to CN202211644944.3A priority Critical patent/CN115620812B/zh
Publication of CN115620812A publication Critical patent/CN115620812A/zh
Application granted granted Critical
Publication of CN115620812B publication Critical patent/CN115620812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于重采样的特征选择方法、装置、电子设备和存储介质,其中方法包括:数据获取步骤:获取多个样本甲基化数据;特征选择步骤:采用有放回的重采样方式从多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对采样甲基化数据进行统计分析,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合采样甲基化数据对多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将多个候选甲基化位点置于特征池中;特征确认步骤:重复执行特征选择步骤预设次数后,基于特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。本发明增加了特征选择的鲁棒性和下游任务的性能。

Description

基于重采样的特征选择方法、装置、电子设备和存储介质
技术领域
本发明涉及生物数据处理技术领域,尤其涉及一种基于重采样的特征选择方法、装置、电子设备和存储介质。
背景技术
随着计算机和测序技术的发展,产生了越来越多的大规模生物学数据,DNA甲基化作为一种广泛研究的表观遗传标记,在肿瘤发现中起着至关重要的作用。在此基础上,如何鉴别在正常和癌症样本中具有差异化表达的位点并且借此区分癌症和正常人的表观遗传差异能够提升人类对癌症早期的发现和预防。
然而,目前能够获得的甲基化数据存在样本量和甲基化位点数量极不均衡的情况,尤其是甲基化位点数量数以几十万计,而样本数量的数量级仅在百例,导致过多的甲基化位点的位点数据扰乱了分类模型的训练方向,分类模型无从从众多的甲基化位点中学习对于区分癌症样本和正常样本的关键特征。因此,对众多的甲基化位点进行特征选择,剔除不相关或冗余的甲基化位点,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。可惜的是,对于生物信息学领域的甲基化数据而言,存在小样本而特征量特别大的情况,在这种情况下,单纯的统计学方法或模型方法往往会存在一定的过拟合,从而难以获取泛化性良好的特征。
发明内容
本发明提供一种基于重采样的特征选择方法、装置、电子设备和存储介质,用以解决现有技术中存在过拟合现象,从而难以获取泛化性良好的甲基化位点的缺陷。
本发明提供一种基于重采样的特征选择方法,包括:
数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;
特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;
特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
根据本发明提供的一种基于重采样的特征选择方法,所述基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点,具体包括:
针对任一甲基化位点,将所述采样甲基化数据中所述任一甲基化位点对应的位点数据划分为正样本组和负样本组;其中,所述正样本组由所述采样甲基化数据中的正样本数据中所述任一甲基化位点对应的位点数据构成,所述负样本组由所述采样甲基化数据中的负样本数据中所述任一甲基化位点对应的位点数据构成;
计算所述任一甲基化位点的正样本组和负样本组对应的组间方差和组内方差;
若所述任一甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,则确定所述任一甲基化位点为初筛甲基化位点。
根据本发明提供的一种基于重采样的特征选择方法,所述基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,具体包括:
获取所述采样甲基化数据中所述初筛甲基化位点对应的位点数据;
对所述采样甲基化数据中所述初筛甲基化位点对应的位点数据进行Lasso回归分析,构建特征选择模型;
基于构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定所述候选甲基化位点。
根据本发明提供的一种基于重采样的特征选择方法,所述获取多个样本甲基化数据,具体包括:
获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;
对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。
根据本发明提供的一种基于重采样的特征选择方法,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,具体包括:
基于所述预处理甲基化数据中各个甲基化位点对应的位点数据,分别计算各个甲基化位点对应的绝对中位差;
对所述各个甲基化位点对应的绝对中位差排序后,筛选预设个数的绝对中位差最小的甲基化位点,并从所述预处理甲基化数据中删除所述预设个数的绝对中位差最小的甲基化位点及其对应的位点数据,得到多个样本甲基化数据。
根据本发明提供的一种基于重采样的特征选择方法,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,之后还包括:
从所述多个样本甲基化数据中随机划分出特征选择数据集、训练数据集、测试数据集;
其中,所述特征选择数据集中的样本甲基化数据用于执行所述特征选择步骤;所述训练数据集中的样本甲基化数据及其对应的分类标签用于在所述特征确认步骤之后训练分类模型;所述测试数据集中的样本甲基化数据及其对应的分类标签用于评估所述分类模型的性能指标,并基于所述分类模型的性能指标确定所述靶点甲基化位点的有效性。
根据本发明提供的一种基于重采样的特征选择方法,所述重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点,之后还包括:
对待分类目标的所述靶点甲基化位点进行聚合酶链式反应或者靶向测序,得到所述待分类目标对应所述靶点甲基化位点的位点数据。
本发明还提供一种基于重采样的特征选择装置,包括:
数据获取单元,用于执行数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;
特征选择单元,用于执行特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;
特征确认单元,用于执行特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于重采样的特征选择方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于重采样的特征选择方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于重采样的特征选择方法。
本发明提供的基于重采样的特征选择方法、装置、电子设备和存储介质,通过在特征选择步骤中采用有放回的重采样技术,每次采样后利用统计学方式可以快速滤除区分性不强的甲基化位点,实现甲基化位点的初筛,然后进一步利用与统计学方式角度不同的特征选择模型进行甲基化位点的选择,可以更精确地评估各甲基化位点的区分能力,从而选择出对于正负样本数据区分性更强、辨别能力更强的甲基化位点,初步提升特征选择的准确性以及效率,待重复执行特征选择步骤预设次数后,基于特征池中各个甲基化位点的出现频率,确定其中出现频率较高的甲基化位点作为靶点甲基化位点,可以减轻对于部分甲基化位点的过拟合问题,从而增加特征选择的鲁棒性和下游任务的性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于重采样的特征选择方法的流程示意图之一;
图2是本发明提供的基于重采样的特征选择方法的流程示意图之二;
图3是本发明提供的甲基化数据集划分的示意图;
图4是本发明提供的基于重采样的特征选择装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的基于重采样的特征选择方法的流程示意图,如图1所示,该方法包括:
数据获取步骤110:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;
特征选择步骤120:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;
特征确认步骤130:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
具体地,在进行特征选择之前可以获取相应的样本甲基化数据,其中多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据。此处,可以从公开数据集The Cancer Genome Atlas(TCGA)中获取甲基化数据。例如,如图2所示,可以从TCGA项目通过GDC数据传输工具下载所有的LUAD(肺腺癌)和LUSC(肺鳞癌)样本的DNA甲基化数据集,作为初始甲基化数据,并对初始甲基化数据进行数据清理,得到用于进行特征选择的样本甲基化数据。其中LUAD样本的DNA甲基化数据集包含507个LUAD样本,其中有32个与肿瘤相邻的正常样本(即正样本数据)和475个肺腺癌肿瘤样本(即负样本数据);LUSC样本的DNA甲基化数据集包含了412个样本,其中有42个与肿瘤相邻的正常样本(即正样本数据)和370个肺鳞癌肿瘤样本(即负样本数据)。
由于可获取的样本甲基化数据的样本数较少而甲基化位点的位点数非常多,因此样本甲基化数据不可避免地存在一定的数据偏差。若直接对样本甲基化数据进行特征选择,则选择出的甲基化位点将很大程度地受到上述数据偏差的影响,导致特征选择的准确性欠佳。另外,也正是由于样本数量较少而甲基化位点的数量较大,单纯的统计学方法或模型方法往往会存在一定的过拟合,忽略了真正关键的甲基化位点。对此,本发明实施例采用有放回的重采样技术,且每次采样后可以结合基于统计学的特征分析方法和基于特征选择模型的特征分析方法进行特征选择,从而选择出更符合甲基化数据分布特征、更能区分正负样本的具有差异化表达的甲基化位点。
具体而言,在特征选择步骤中,每次采样时可以采用有放回的重采样方式从多个样本甲基化数据中抽取多个采样甲基化数据,例如从多个样本甲基化数据中抽取80%的数据作为采样甲基化数据。需要说明的是,此轮特征选择完毕后,上述采样甲基化数据将放回至原有数据集中以供下次采样。随后,基于统计学方法,对采样甲基化数据进行统计分析,检验上述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点。其中,甲基化位点在正样本数据和负样本数据中的数值差异可以体现该甲基化位点对于正负样本数据的差异化表达程度,该数据差异越大表明正负样本数据在该甲基化位点处的区分性越强,因此可以选取数值差异较大的多个甲基化位点作为初筛甲基化位点。在此基础上,可以基于特征选择模型,结合采样甲基化数据对多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将上述多个候选甲基化位点置于特征池中。此处,利用统计学方式可以快速滤除区分性不强的甲基化位点,实现甲基化位点的初筛,然后进一步利用与统计学方式角度不同的特征选择模型进行甲基化位点的选择,可以更精确地评估各甲基化位点的区分能力,从而选择出对于正负样本数据区分性更强、辨别能力更强的甲基化位点,初步提升特征选择的准确性以及效率。
为了降低样本数量较少甲基化位点较多所带来的数据偏差问题从而进一步提升特征选择的准确性,可以将特征选择步骤选取的候选甲基化位点置于特征池中,并且重复执行上述特征选择步骤预设次数(例如100次)。重复执行完毕后,可以基于特征池中各个甲基化位点的出现频率,确定其中出现频率较高的甲基化位点作为靶点甲基化位点。由于不同样本甲基化数据存在的数据偏差不同,而每次随机采样的样本甲基化数据不同,因此每次执行特征选择步骤时出现的数据偏差也不同。通过重复多次执行特征选择步骤,可以减轻对于部分甲基化位点的过拟合问题,从而增加特征选择的鲁棒性和下游任务的性能。此处,选取的靶点甲基化位点的数量可以根据下游任务确定。例如为建立低成本、低灵敏度、高特异性的无症状人群筛查分子靶点组合,适用于PCR技术平台,可以选取10个以下的靶点甲基化位点;为建立中等成本、中灵敏度、中特异性的高风险人群辅助诊断分子靶点组合,适用于靶向测序,可以选取几百或者几千个靶点甲基化位点。 对于选择出的靶点甲基化位点,可以对待分类目标的各个靶点甲基化位点进行聚合酶链式反应或者靶向测序,得到该待分类目标对应上述靶点甲基化位点的位点数据。基于该位点数据,可以对该待分类目标进行分类,确定其是正常样本或是肿瘤样本。
本发明实施例提供的方法,通过在特征选择步骤中采用有放回的重采样技术,每次采样后利用统计学方式可以快速滤除区分性不强的甲基化位点,实现甲基化位点的初筛,然后进一步利用与统计学方式角度不同的特征选择模型进行甲基化位点的选择,可以更精确地评估各甲基化位点的区分能力,从而选择出对于正负样本数据区分性更强、辨别能力更强的甲基化位点,初步提升特征选择的准确性以及效率,待重复执行特征选择步骤预设次数后,基于特征池中各个甲基化位点的出现频率,确定其中出现频率较高的甲基化位点作为靶点甲基化位点,可以减轻对于部分甲基化位点的过拟合问题,从而增加特征选择的鲁棒性和下游任务的性能。
基于上述实施例,所述基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点,具体包括:
针对任一甲基化位点,将所述采样甲基化数据中所述任一甲基化位点对应的位点数据划分为正样本组和负样本组;其中,所述正样本组由所述采样甲基化数据中的正样本数据中所述任一甲基化位点对应的位点数据构成,所述负样本组由所述采样甲基化数据中的负样本数据中所述任一甲基化位点对应的位点数据构成;
计算所述任一甲基化位点的正样本组和负样本组对应的组间方差和组内方差;
若所述任一甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,则确定所述任一甲基化位点为初筛甲基化位点。
具体地,针对任一甲基化位点,可以将所有正样本数据中该甲基化位点对应的位点数据划分为一组,作为正样本组,将所有负样本数据中该甲基化位点对应的位点数据划分为另一组,作为负样本组。随后,可以计算该甲基化位点的正样本组与负样本组对应的组间方差和组内方差。其中,可以基于正样本组和负样本组中的位点数据求取整体平均值,计算正负样本组中各位点数据与该整体平均值之间的差值平方和,作为整体偏差。另外,分别基于正样本组和负样本组中的位点数据求取正样本组的平均值和负样本组的平均值,并计算正样本组中各位点数据与该组的平均值之间的差值平方和,作为该组的组内偏差,计算负样本组中各位点数据与该组的平均值之间的差值平方和,作为该组的组内偏差,从而将正负样本组的组内偏差求和,得到组内方差。求取上述整体偏差和组内方差的差值,作为组间方差。其中,组内偏差表征了正样本组或负样本组组内数据之间的差异,而组间方差表征了正样本组和负样本组之间的数据差异。若该甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,说明存在至少一个分布相对于其他分布较远,从而判定正负样本数据在该甲基化位点上存在显著性差异。此外,对于由连续变量和分类变量之间的特征选择,还可以采用Kendall方法。
基于上述任一实施例,所述基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,具体包括:
获取所述采样甲基化数据中所述初筛甲基化位点对应的位点数据;
对所述采样甲基化数据中所述初筛甲基化位点对应的位点数据进行Lasso回归分析,构建特征选择模型;
基于构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定所述候选甲基化位点。
具体地,获取采样甲基化数据中各个初筛甲基化位点对应的位点数据之后,可以利用Lasso回归分析方式,对初筛甲基化位点对应的位点数据进行回归分析,得到相应的回归模型,即特征选择模型。其中,回归分析时的因变量为各个采样甲基化数据的分类标签(即正样本或负样本),而自变量则为各个初筛甲基化位点。通过在拟合广义线性模型的同时进行变量筛选和复杂度调整,可以将部分回归系数压缩到零,从而实现特征的筛选,具体可以通过筛选构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定候选甲基化位点。
基于上述任一实施例,所述获取多个样本甲基化数据,具体包括:
获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;
对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。
具体地,如图2所示,从TCGA项目中获取多个初始甲基化数据后,可以对上述初始甲基化数据进行数据预处理,去除多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据。例如,所有的数据下载后可以首先提取各初始甲基化数据中各甲基化位点的位点数据组成一个919*485577的数据矩阵,而后滤除掉其中单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,形成一个919*372090的数据矩阵,该数据矩阵中的每一行对应一个预处理甲基化数据。由于目前的预处理甲基化数据中包含的甲基化位点数量仍然及其庞大,为了提升特征提取的效率和准确率,可以对多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度明显不满足预设条件的甲基化位点,快速滤除部分对于样本正常与否的辨别任务帮助不大的甲基化位点,得到多个样本甲基化数据;其中,样本甲基化数据中不包含上述辨别度不满足预设条件的甲基化位点对应的位点数据。
基于上述任一实施例,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,具体包括:
基于所述预处理甲基化数据中各个甲基化位点对应的位点数据,分别计算各个甲基化位点对应的绝对中位差;
对所述各个甲基化位点对应的绝对中位差排序后,筛选预设个数的绝对中位差最小的甲基化位点,并从所述预处理甲基化数据中删除所述预设个数的绝对中位差最小的甲基化位点及其对应的位点数据,得到多个样本甲基化数据。
具体地,在初筛时,为了快速确认辨别度较低的甲基化位点,可以利用绝对中位差算法计算各个甲基化位点对应的位点数据的绝对中位差。其中,针对任一甲基化位点,可以获取预处理甲基化数据中该甲基化位点对应的位点数据,并计算该甲基化位点对应的位点数据的绝对中位差。对各个甲基化位点对应的绝对中位差进行排序后,可以筛选预设个数(例如72090)的绝对中位差最小的甲基化位点,并从预处理甲基化数据中删除上述预设个数的绝对中位差最小的甲基化位点及其对应的位点数据,得到多个样本甲基化数据。
基于上述任一实施例,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,之后还包括:
从所述多个样本甲基化数据中随机划分出特征选择数据集、训练数据集、测试数据集;
其中,所述特征选择数据集中的样本甲基化数据用于执行所述特征选择步骤;所述训练数据集中的样本甲基化数据及其对应的分类标签用于在所述特征确认步骤之后训练分类模型;所述测试数据集中的样本甲基化数据及其对应的分类标签用于评估所述分类模型的性能指标,并基于所述分类模型的性能指标确定所述靶点甲基化位点的有效性。
具体地,在对预处理甲基化数据进行初筛得到样本甲基化数据之后,可以将如图3所示,将多个样本甲基化数据中随机划分出特征选择数据集、训练数据集、测试数据集。其中,特征选择数据集中的样本甲基化数据将用于执行特征选择步骤,包括重采样、基于统计学方法确定初筛甲基化位点以及基于特征选择模型进行特征选择确定候选甲基化位点并置于特征池,从而选择出最终的靶点甲基化位点。训练数据集中的样本甲基化数据及其对应的分类标签用于在特征确认步骤之后训练分类模型。其中,分类模型可以是随机森林模型。测试数据集中的样本甲基化数据及其对应的分类标签用于评估分类模型的AUC性能指标,并基于分类模型的性能指标确定靶点甲基化位点的有效性。
下面对本发明提供的基于重采样的特征选择装置进行描述,下文描述的基于重采样的特征选择装置与上文描述的基于重采样的特征选择方法可相互对应参照。
基于上述任一实施例,图4是本发明提供的基于重采样的特征选择装置的结构示意图,如图4所示,该装置包括:数据获取单元410、特征选择单元420和特征确认单元430。
其中,数据获取单元410用于执行数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;
特征选择单元420用于执行特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;
特征确认单元430用于执行特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
本发明实施例提供的装置,通过在特征选择步骤中采用有放回的重采样技术,每次采样后利用统计学方式可以快速滤除区分性不强的甲基化位点,实现甲基化位点的初筛,然后进一步利用与统计学方式角度不同的特征选择模型进行甲基化位点的选择,可以更精确地评估各甲基化位点的区分能力,从而选择出对于正负样本数据区分性更强、辨别能力更强的甲基化位点,初步提升特征选择的准确性以及效率,待重复执行特征选择步骤预设次数后,基于特征池中各个甲基化位点的出现频率,确定其中出现频率较高的甲基化位点作为靶点甲基化位点,可以减轻对于部分甲基化位点的过拟合问题,从而增加特征选择的鲁棒性和下游任务的性能。
基于上述任一实施例,所述基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点,具体包括:
针对任一甲基化位点,将所述采样甲基化数据中所述任一甲基化位点对应的位点数据划分为正样本组和负样本组;其中,所述正样本组由所述采样甲基化数据中的正样本数据中所述任一甲基化位点对应的位点数据构成,所述负样本组由所述采样甲基化数据中的负样本数据中所述任一甲基化位点对应的位点数据构成;
计算所述任一甲基化位点的正样本组和负样本组对应的组间方差和组内方差;
若所述任一甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,则确定所述任一甲基化位点为初筛甲基化位点。
基于上述任一实施例,所述基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,具体包括:
获取所述采样甲基化数据中所述初筛甲基化位点对应的位点数据;
对所述采样甲基化数据中所述初筛甲基化位点对应的位点数据进行Lasso回归分析,构建特征选择模型;
基于构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定所述候选甲基化位点。
基于上述任一实施例,所述获取多个样本甲基化数据,具体包括:
获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;
对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。
基于上述任一实施例,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,具体包括:
基于所述预处理甲基化数据中各个甲基化位点对应的位点数据,分别计算各个甲基化位点对应的绝对中位差;
对所述各个甲基化位点对应的绝对中位差排序后,筛选预设个数的绝对中位差最小的甲基化位点,并从所述预处理甲基化数据中删除所述预设个数的绝对中位差最小的甲基化位点及其对应的位点数据,得到多个样本甲基化数据。
基于上述任一实施例,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,之后还包括:
从所述多个样本甲基化数据中随机划分出特征选择数据集、训练数据集、测试数据集;
其中,所述特征选择数据集中的样本甲基化数据用于执行所述特征选择步骤;所述训练数据集中的样本甲基化数据及其对应的分类标签用于在所述特征确认步骤之后训练分类模型;所述测试数据集中的样本甲基化数据及其对应的分类标签用于评估所述分类模型的性能指标,并基于所述分类模型的性能指标确定所述靶点甲基化位点的有效性。
基于上述任一实施例,所述重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点,之后还包括:
对待分类目标的所述靶点甲基化位点进行聚合酶链式反应或者靶向测序,得到所述待分类目标对应所述靶点甲基化位点的位点数据。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540,其中,处理器510,存储器520,通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令,以执行基于重采样的特征选择方法,该方法包括:数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
此外,上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于重采样的特征选择方法,该方法包括:数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于重采样的特征选择方法,该方法包括:数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于重采样的特征选择方法,其特征在于,包括:
数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;
特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;
特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点;
所述获取多个样本甲基化数据,具体包括:
获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;
对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。
2.根据权利要求1所述的基于重采样的特征选择方法,其特征在于,所述基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点,具体包括:
针对任一甲基化位点,将所述采样甲基化数据中所述任一甲基化位点对应的位点数据划分为正样本组和负样本组;其中,所述正样本组由所述采样甲基化数据中的正样本数据中所述任一甲基化位点对应的位点数据构成,所述负样本组由所述采样甲基化数据中的负样本数据中所述任一甲基化位点对应的位点数据构成;
计算所述任一甲基化位点的正样本组和负样本组对应的组间方差和组内方差;
若所述任一甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,则确定所述任一甲基化位点为初筛甲基化位点。
3.根据权利要求1所述的基于重采样的特征选择方法,其特征在于,所述基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,具体包括:
获取所述采样甲基化数据中所述初筛甲基化位点对应的位点数据;
对所述采样甲基化数据中所述初筛甲基化位点对应的位点数据进行Lasso回归分析,构建特征选择模型;
基于构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定所述候选甲基化位点。
4.根据权利要求1所述的基于重采样的特征选择方法,其特征在于,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,具体包括:
基于所述预处理甲基化数据中各个甲基化位点对应的位点数据,分别计算各个甲基化位点对应的绝对中位差;
对所述各个甲基化位点对应的绝对中位差排序后,筛选预设个数的绝对中位差最小的甲基化位点,并从所述预处理甲基化数据中删除所述预设个数的绝对中位差最小的甲基化位点及其对应的位点数据,得到多个样本甲基化数据。
5.根据权利要求1所述的基于重采样的特征选择方法,其特征在于,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,之后还包括:
从所述多个样本甲基化数据中随机划分出特征选择数据集、训练数据集、测试数据集;
其中,所述特征选择数据集中的样本甲基化数据用于执行所述特征选择步骤;所述训练数据集中的样本甲基化数据及其对应的分类标签用于在所述特征确认步骤之后训练分类模型;所述测试数据集中的样本甲基化数据及其对应的分类标签用于评估所述分类模型的性能指标,并基于所述分类模型的性能指标确定所述靶点甲基化位点的有效性。
6.根据权利要求1至3任一项所述的基于重采样的特征选择方法,其特征在于,所述重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点,之后还包括:
对待分类目标的所述靶点甲基化位点进行聚合酶链式反应或者靶向测序,得到所述待分类目标对应所述靶点甲基化位点的位点数据。
7.一种基于重采样的特征选择装置,其特征在于,包括:
数据获取单元,用于执行数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;
特征选择单元,用于执行特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;
特征确认单元,用于执行特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点;
所述获取多个样本甲基化数据,具体包括:
获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;
对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于重采样的特征选择方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于重采样的特征选择方法。
CN202211644944.3A 2022-12-21 2022-12-21 基于重采样的特征选择方法、装置、电子设备和存储介质 Active CN115620812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211644944.3A CN115620812B (zh) 2022-12-21 2022-12-21 基于重采样的特征选择方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211644944.3A CN115620812B (zh) 2022-12-21 2022-12-21 基于重采样的特征选择方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115620812A CN115620812A (zh) 2023-01-17
CN115620812B true CN115620812B (zh) 2023-03-10

Family

ID=84880933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211644944.3A Active CN115620812B (zh) 2022-12-21 2022-12-21 基于重采样的特征选择方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115620812B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153417B (zh) * 2023-04-18 2023-06-30 珠海圣美生物诊断技术有限公司 甲基化特征筛选方法及装置
CN116597902B (zh) * 2023-04-24 2023-12-01 浙江大学 基于药物敏感性数据的多组学生物标志物筛选方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808081A (zh) * 2019-09-29 2020-02-18 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018008153A1 (ja) * 2016-07-08 2018-01-11 有限会社ハヌマット 大腸癌発症可能性の判定方法
US20220262462A1 (en) * 2019-04-10 2022-08-18 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Computational filtering of methylated sequence data for predictive modeling
US20210358626A1 (en) * 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
CN111440869A (zh) * 2020-03-16 2020-07-24 武汉百药联科科技有限公司 一种用于预测原发性乳腺癌发生风险的dna甲基化标记物及其筛选方法和应用
CN112242180A (zh) * 2020-09-25 2021-01-19 天津大学 识别4-甲基胞嘧啶位点的预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808081A (zh) * 2019-09-29 2020-02-18 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用

Also Published As

Publication number Publication date
CN115620812A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN115620812B (zh) 基于重采样的特征选择方法、装置、电子设备和存储介质
Gower et al. Detecting adaptive introgression in human evolution using convolutional neural networks
McKELVEY et al. Genetic errors associated with population estimation using non‐invasive molecular tagging: problems and new solutions
CN107229841B (zh) 一种基因变异评估方法及系统
Reif et al. Feature selection using a random forests classifier for the integrated analysis of multiple data types
CN111428231A (zh) 基于用户行为的安全处理方法、装置及设备
JP6066924B2 (ja) Dna配列のデータ解析法
CN113298373B (zh) 一种金融风险评估方法、装置、存储介质和设备
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN114566211A (zh) 基于生物网络与机器学习的合成致死基因组合预测系统
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN107025387B (zh) 一种用于癌症生物标志物识别的方法
CN116298735A (zh) 一种低压配电网交流电弧故障检测方法及相关装置
CN111370055B (zh) 内含子保留预测模型建立方法及其预测方法
CN114694752B (zh) 预测同源重组修复缺陷的方法、计算设备和介质
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN115881218A (zh) 用于全基因组关联分析的基因自动选择方法
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
KR20220085139A (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
CN117789823B (zh) 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备
CN115662519B (zh) 一种基于机器学习预测癌症的cfDNA片段特征组合及系统
CN117577179B (zh) 一种基于转录组和dna甲基化组的基因挖掘方法及系统
CN116346453A (zh) 异常信息识别方法和装置、电子设备、计算机可读介质
CN114970731A (zh) 一种基于电量数据污染源排放监测方法及系统
CN114141305A (zh) 基于随机丢弃的肿瘤分子分型方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant