CN116994650A - 弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质 - Google Patents

弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质 Download PDF

Info

Publication number
CN116994650A
CN116994650A CN202310196894.5A CN202310196894A CN116994650A CN 116994650 A CN116994650 A CN 116994650A CN 202310196894 A CN202310196894 A CN 202310196894A CN 116994650 A CN116994650 A CN 116994650A
Authority
CN
China
Prior art keywords
genotype
feature
classification
classification model
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310196894.5A
Other languages
English (en)
Inventor
谭洁
颜呈呈
朱敏
屈文萍
周剑峰
何闻达
李冬梅
韩晓雪
熊炜
梁小丹
李映华
梁耀铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kingmed Diagnostics Group Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Original Assignee
Guangzhou Kingmed Diagnostics Group Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kingmed Diagnostics Group Co ltd, Guangzhou Kingmed Diagnostics Central Co Ltd filed Critical Guangzhou Kingmed Diagnostics Group Co ltd
Priority to CN202310196894.5A priority Critical patent/CN116994650A/zh
Publication of CN116994650A publication Critical patent/CN116994650A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请实施例公开了一种弥漫大B细胞淋巴瘤基因型分类方法、计算机设备和计算机可读存储介质。其中,方法包括如下步骤:根据预设的特定基因集合对样本进行检测,以获得变异检测数据;对变异检测数据进行预处理,以得到变异信息;根据变异信息生成初始特征矩阵,对初始特征矩阵进行筛选,以得到特征矩阵,特征矩阵用于表征对应样本存在特定基因集合所包含的基因变异情况;获取第一基因型标签和重要特征集,根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型;获取分类模型输出的第二基因型标签,根据第二基因型标签确定基因型分类报告。因此,本申请能够降低检测成本,能够有效对病患的基因型做预测,具有较高的临床应用价值。

Description

弥漫大B细胞淋巴瘤基因型分类方法、设备和存储介质
技术领域
本申请属于生物检测技术领域,特别是涉及一种弥漫大B细胞淋巴瘤基因型分类方法、计算机设备和计算机可读存储介质。
背景技术
弥漫大B细胞淋巴瘤(Diffuse Large B Cell Lymphoma,DLBCL)是一种最常见的非霍奇金淋巴瘤(Non-Hodgkin’s Lymphoma,NHL)亚型,在NHL中约占30%~50%。在世界范围内,每年约有150,000新增DLBCL病例并呈现出增长趋势。研究表明,DLBCL具有高度遗传和表型异质性,这些差异与患者临床特征、治疗后反应以及总生存期等相关。因此,从分子生物学机制出发探索DLBCL异质性的根源并据此实现精准分型诊断具有重要的临床意义。
现有技术中,利用全外显子测序、转录组测序、DNA拷贝数变异分析及372个基因的靶向扩增子重测序结果确定了多种具有不同预后和治疗缺陷的DLBCL基因型,并进一步基于聚类分析和朴素贝叶斯算法开发了DLBCL基因型概率分类工具。然而该工具获得可靠预测结果所需的基因检测项目繁杂,成本较高。如何精准、高效地对基因检测分类,是本领域技术人员亟待解决的技术问题。
前面的叙述在于提供一般的背景信息,并不一定构成现有技术。
发明内容
基于此,针对上述问题,提出了一种弥漫大B细胞淋巴瘤基因型分类方法、计算机设备和计算机可读存储介质,能够有效地对DLBCL患者根据基因型进行分类。
本申请解决其技术问题是采用以下的技术方案来实现的:
本申请提供了一种弥漫大B细胞淋巴瘤基因型分类方法,包括如下步骤:根据预设的特定基因集合对样本进行检测,以获得变异检测数据;对变异检测数据进行预处理,以得到变异信息;根据变异信息生成初始特征矩阵,对初始特征矩阵进行筛选,以得到特征矩阵,特征矩阵用于表征对应样本存在特定基因集合所包含的基因变异情况;获取第一基因型标签和重要特征集,根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型;获取分类模型输出的第二基因型标签,根据第二基因型标签确定基因型分类报告。
在本申请一可选实施例中,变异检测数据包括测序数据和荧光原位杂交检测数据;根据预设的特定基因集合对样本进行检测,以获得变异检测数据,包括:根据特定基因集合对样本进行高通量测序,以获得测序数据;根据特定基因集合设计重排探针,利用荧光原位杂交技术获取样本的荧光原位杂交检测数据。
在本申请一可选实施例中,变异信息包括:基因突变信息、拷贝数变异信息和基因重排信息;对变异检测数据进行预处理,以得到变异信息,包括:对测序数据分别执行第一预处理以得到基因突变信息和拷贝数变异信息;对荧光原位杂交检测数据执行第二预处理,以得到能够用于建模的基因重排信息。
在本申请一可选实施例中,获取重要特征集,包括:获取预设特征数据,根据预设特征数据、第一基因型标签和特征矩阵生成数据集,数据集包括训练集;根据基因变异类型集合对训练集的初始特征进行筛选以获取得到第一特征,基因变异类型集合包括MUTATION、TRUNC、HOMDEL、AMP、GAIN、HETLOSS、CompUp和FUSION的基因变异类型;根据特定基因集合对第一特征进行筛选,得到第二特征;获取第一基因型集合,根据第一基因型集合构建特征细筛模型,根据特征细筛模型对第二特征筛选以得到第三特征;获取辅助特征,根据第三特征和辅助特征生成重要特征集。
在本申请一可选实施例中,特征细筛模型包括至少两个二分类模型;根据特征细筛模型对第二特征筛选以得到第三特征,包括:根据第一基因型集合内记载的基因型,分别构建对应的二分类模型;将第二特征分别输入二分类模型中以得到特征重要性分数,并重复预设次数;取每个二分类模型每一次特征重要性分数都大于稳定阈值的特征的并集,确定为第三特征。
在本申请一可选实施例中,根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型,包括:根据重要特征集和第一基因型标签建立第一分类模型,第一分类模型能够完成第一基因型集合内记载的基因型的分类;获取预设特征集,根据辅助特征、预设特征集和第一基因型标签建立第二分类模型,第二分类模型能够完成第二基因型集合内记载的基因型的分类;根据训练集分别对第一分类模型和第二分类模型进行训练,通过交叉验证集迭代调参;整合训练后的第一分类模型和第二分类模型以完成分类模型的构建。
在本申请一可选实施例中,数据集中还包括有测试集,获取分类模型输出的第二基因型标签,包括:将根据测试集生成的特征矩阵输入第二分类模型中以进行基因型分类;若根据第二分类模型能够确定样本的基因型分类,则根据第二分类模型的分类结果生成对应的第二基因型标签;若根据第二分类模型不能够确定样本的基因型分类,则将特征矩阵输入第一分类模型中,以做进一步分类;根据第一分类模型的分类结果生成对应的第二基因型标签。
在本申请一可选实施例中,第一基因型集合包括ST2和A53;第二基因型集合包括MCD、BN2、EZB和N1。
本申请还提供了一种计算机设备,包括处理器和存储器:处理器用于执行存储器中存储的计算机程序以实现如前述的方法。
本申请还提供了一种计算机可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现如前述的方法。
采用本申请实施例,具有如下有益效果:
本申请能够通过预设的特定基因集合,有指向性地对样本的基因组进行基因变异检测,从而显著降低检测成本。利用层层筛选确定的重要特征集,可以避免繁杂人工特征选择过程。利用特征矩阵、第一基因型标签和重要特征集构建数据集并训练得到的分类模型可以挖掘出各分型的驱动基因,使得模型具有良好的可解释性,能够有效对病患的基因型做预测,提高DLBCL基因型分类正确率,具有较高的临床应用价值。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为实施例一提供的一种弥漫大B细胞淋巴瘤基因型分类方法的流程示意图;
图2为实施例二提供的重要特征集获取流程示意图;
图3为实施例三提供的DLBCL基因分类方法应用流程示意图;
图4为实施例四提供的一种计算机设备的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
随着基因表达谱的出现,DLBCL亚型的分子诊断取得了初步进展。基于基因表达谱的差异,两种主要的“细胞起源(Cell of Origin,COO)”类型被定义出来,包括生发中心B细胞样(Germinal Center B-cell-like,GCB)、活化B细胞样(Activated B-cell-like,ABC),其余的则被归为“未分类”。然而,COO类型并不能完全解释DLBCL患者在R-CHOP治疗或靶向治疗后的异质反应和预后。这可能是因为基因表达谱提供了癌症的表型描述,而不是更直接地涵盖肿瘤发病机制的遗传描述。现有技术开发出的分类工具LymphGen,作为目前国际上最权威的DLBCL基因型模型,在免责声明中提出该模型工具不能用于商业用途,阻碍了其对临床DLBCL精准治疗的指导作用。此外,研究表明,DLBCL患者在特征、发病率和生存率方面存在差异,该差异具体体现在地理区域人类种群(后简称人群)之间的差异,例如非中国区的人群所采用的标准不适用于中国人群。LymphGen工具基于非中国区人群DLBCL患者开发,在基因型中的关键变异基因也由这些病例通过Fisher检验确定。考虑到DLBCL基因型存在人群差异。因此由于人群差异,现有技术开发的LymphGen,所依据的数据集多收集自长期居住于非中国区域的人群,其所得结果不能完全适用于中国人群。基于以上,亟需开发一种新的DLBCL基因型预测方法,其所依赖的基因检测项目相对成本较低,且其可利用机器学习算法探索在分型中发挥关键作用的变异基因及其变异类型,并借助机器学习算法强大的特征整合和分类能力获得令人满意的分型效果,以满足临床对于中国DLBCL患者基因型结论的强烈需求。基于此,提出了本申请所提供的弥漫大B细胞淋巴瘤基因型分类方法,包括有步骤S110~步骤S150。为了清楚描述本实施例提供的一种弥漫大B细胞淋巴瘤基因型分类方法,请参考图1。
步骤S110:根据预设的特定基因集合对样本进行检测,以获得变异检测数据。
步骤S120:对变异检测数据进行预处理,以得到变异信息。
在一实施方式中,变异检测数据包括测序数据和荧光原位杂交检测数据;根据预设的特定基因集合对样本进行检测,以获得变异检测数据,包括:根据特定基因集合对样本进行高通量测序,以获得测序数据;根据特定基因集合设计重排探针,利用荧光原位杂交技术获取样本的荧光原位杂交检测数据。
在一实施方式中,变异信息包括:基因突变信息、拷贝数变异信息和基因重排信息;对变异检测数据进行预处理,以得到变异信息,包括:对测序数据分别执行第一预处理以得到基因突变信息和拷贝数变异信息;对荧光原位杂交检测数据执行第二预处理,以得到能够用于建模的基因重排信息。
在一实施方式中,如前文所述,DLBCL具有高度遗传和表型异质性,根据查阅DLBCL相关的权威指南和文献,如NCCN指南,WHO2016造血与淋巴组织肿瘤分型指南,以及相关的领域的权威杂志文献如Blood,新英格兰医学杂志,Cell,Cancer Cell等,在本申请较佳实施例当中确定了多个与DLBCL肿瘤发生、发展以及分型密切相关的基因(具体可以包括有125个),也即特定基因集合(Panel)内所记载的基因,以用于DLBCL基因型结果的预测。因此,本申请通过预设好的Panel一次性对样本进行检测,以获得变异检测数据并用于后续分析和建模,减少了额外通过比较基因组杂交(Comparative genomic hybridization,CGH)技术检测CNV(Copy number variation,CNV,拷贝数变异)的环节。在保证检测信息充足的前提下,大大降低了患者的检测费用。具体的变异检测数据包括测序数据和荧光原位杂交检测数据,因此分别需要就两类变异检测数据做相应的检测以获取。具体而言,对于测序数据可以通过高通量测序技术进行获取;对于荧光原位杂交检测数据则可以利用荧光原位杂交技术(Fluorescence in Situ Hybridization,FISH)获取。其中测序采用二代测序技术(next generation sequencing,NGS),通过设定好Panel以限制检测检测的范围,从而实现不检测整个基因组上全部基因的变异情况,而是检测一个基因Panel里的变异情况,实现检测成本的降低。
在一实施方式中,变异检测数据即是通过基因变异检测获取得到的数据。可以理解的是,经过初步检测得到的变异检测数据整体是较为粗糙的:信息冗余、复杂、原始,使得难以进行分析、处理。对此需要将变异检测数据处理为能够支持用于建模的形式,也即根据预处理得到变异信息。以基因突变信息为例,其预处理过程可以参考如下说明。对于基因突变信息,检测过程则可以为检测到套餐内基因的全外显子区域及附近第一预设长度内发生的单核苷酸变异(Single Nucleotide Variant,SNV)和小片段插入/缺失(InDel),在较佳实施例中第一预设长度可以为10bp。对于拷贝数变异信息,则可以利用检测拷贝数变化的SNP探针(Single Nucleotide Polymorphism,单核苷酸多态性)检测大于第二预设长度的拷贝数变异和第一预设数量的基因外显子级别的拷贝数变异。其中在较佳实施例中,第二预设长度可以为5Mbp,也即检测大于5Mbp的基因组大片段的CNV;对于第一预设数量则可以与特定基因集合所记载的基因的数量相关,也即在较佳实施例中第一预设数量可以为特定基因集合所记载的基因的数量相同,具体可以为125个。采用Novaseq测序平台的双端测序(2×150bp)模式对样本进行高通量测序,测序数据需要经过第一预处理以提取基因突变信息和拷贝数变异信息。对于第一预处理可以包括但不限于有:(1)质量控制,去除低质量的reads;(2)数据比对,将过滤后的reads与参考基因组进行比对;(3)排序及去重,去除建库过程中PCR产生的重复序列;(4)碱基质量重校正;(5)变异位点检测;(6)变异结果质控和过滤;(7)变异结果注释以获得后续建模可用的基因突变信息;(8)使用CNV Radar进行检测以获得建模可用的拷贝数变异信息。而对于荧光原位杂交检测数据所执行的第二预处理,具体过程可以为基于荧光信号和参考阈值来直观判断某个基因是否存在重排变异,从而获得能够用于建模的基因重排信息。并且值得注意的是不论是检测以获得变异检测数据,还是分析得到能够用于建模的变异信息,整体流程都是较为现有且固定,重点在于根据设定的Panel,也即根据特定基因集合对样本进行一次性的检测,从而最终获取得到所需要的变异信息,从而降低检测成本。
步骤S130:根据变异信息生成初始特征矩阵,对初始特征矩阵进行筛选,以得到特征矩阵,特征矩阵用于表征对应样本存在特定基因集合所包含的基因变异情况。
步骤S140:获取第一基因型标签和重要特征集,根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型。
在一实施方式中,首先将变异信息编码成模型易于处理的格式,例如可以基于LymphGen的特征构建方法将变异信息转换为初始特征向量。则初始特征矩阵的x轴对应着各个样本,y轴则对应着基因组上不同基因的不同变异形式。初始特征矩阵的取值表示了某个样本的某个基因是否存在某种特定形式的变异,有0、1和-1三种值,分别对应着没有该变异、有该变异、未检测该变异。之后再对初始特征矩阵进行筛选从而得到特征矩阵,特征矩阵是用于输入分类模型的,且用于表征对应样本存在特定基因集合所包含的基因变异情况。具体筛选情况需要通过对应的特征集进行筛选,具体步骤将会在后文中详述,此处暂不展开。
在一实施方式中,步骤S140:获取重要特征集,包括:获取预设特征数据,根据预设特征数据、第一基因型标签和特征矩阵生成数据集,数据集包括训练集;根据基因变异类型集合对训练集的初始特征进行筛选以获取得到第一特征,基因变异类型集合包括MUTATION、TRUNC、HOMDEL、AMP、GAIN、HETLOSS、CompUp和FUSION的基因变异类型;根据特定基因集合对第一特征进行筛选,得到第二特征;获取第一基因型集合,根据第一基因型集合构建特征细筛模型,根据特征细筛模型对第二特征筛选以得到第三特征;获取辅助特征,根据第三特征和辅助特征生成重要特征集。
在一实施方式中,特征细筛模型包括至少两个二分类模型;根据特征细筛模型对第二特征筛选以得到第三特征,包括:根据第一基因型集合内记载的基因型,分别构建对应的二分类模型;将第二特征分别输入二分类模型中以得到特征重要性分数,并重复预设次数;取每个二分类模型每一次特征重要性分数都大于稳定阈值的特征的并集,确定为第三特征。
在一实施方式中,第一基因型集合包括ST2和A53;第二基因型集合包括MCD、BN2、EZB和N1。
在一实施方式中,第一基因型标签是用于建立模型的参考标签,对于本实施例所提及的第一基因型标签可以由LymphGen预测而来。其可以通过以下六个输入文件获取得到:(1)样本注释文件,包含样本名、是否有CNV数据、是否有BCL2以及BCL6异位信息;(2)突变信息文件,包含样本名、基因ID、突变类型和染色体位置信息;(3)突变检测基因列表文件,包含所有做了靶向测序的基因ID;(4)拷贝数变异信息文件,包含样本名、基因ID和拷贝数变异类型;(5)拷贝数变异检测基因列表文件,包含所有拷贝数变异检测区域中的基因ID;(6)染色体臂变异信息文件,包含样本名、染色体臂名称和拷贝数变异类型。这一部分信息是对拷贝数变异以染色体臂为单位进行统计并定义其具体变异类型。步骤S110中得到的变异检测数据根据步骤S120进行预处理后可得到能够用于分析的变异信息以构建上述六个输入文件,之后则可利用LymphGen为这些病例赋予基因分型标签,也即第一基因型标签。具体而言,第一基因型标签可以为第一基因型集合和第二基因型集合内所记载的基因型标签之一。其中将第一基因型集合和第二基因型集以第一、第二做区分,是因为二者中所记载的基因型在重要基因特征是否有显著人群差异上有别:对于第一基因型集合内记载的基因,在不同人群中有显著差异;而对于第二基因型集合内所记载的基因型,则是在不同人群中未有显著差异。在本申请交加的实施方式中,第一基因型集合可以包括有ST2和A53;第二基因型集合可以包括有MCD、BN2、EZB和N1。此外可以理解的是,随着研究的深入,未来还会有其他新基因型被定义出来,因此第一基因型标签可以包括有MCD、BN2、EZB、N1、ST2、A53和Other,Other也即是尚无法进行精准分型的样本类别。LymphGen的输出文件包含了每个病例属于MCD、BN2、EZB、N1、ST2、A53分型的置信度以及最终的分型预测结果。由于LymphGen的概率模型是对前述六个特定的基因分型分别构建的,存在某一病例被标记为这六种分型中的两种及以上的可能性。对于这种多标签的情况,在本申请中只取该病例最大置信度对应的分型作为标签。
在一实施方式中,重要特征集则是构建分类模型必需的,需要预先进行获取。将特征矩阵和第一基因型标签生成数据集,再按照预设的比例划分为训练集和测试集,例如可以按照6:4的比例进行划分。此外,再将LymphGen使用的非中国人群DLBCL病例也作为辅助数据添加到训练集中以增强模型的分型能力和鲁棒性,从而得到可以用作模型训练的训练集。前文即使经过预处理后的变异信息实际都是相对繁杂且冗余的。因此,从繁杂的基因变异信息中识别并筛选出对于DLBCL基因分型最为关键的特征是模型构建的重要前提。对此,需要对训练集的初始特征进行一系列筛选,确定最后构建模型所需要的重要特征集。
在一实施方式中,步骤S140:根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型,包括:根据重要特征集和第一基因型标签建立第一分类模型,第一分类模型能够完成第一基因型集合内记载的基因型的分类;获取预设特征集,根据辅助特征、预设特征集和第一基因型标签建立第二分类模型,第二分类模型能够完成第二基因型集合内记载的基因型的分类;根据训练集分别对第一分类模型和第二分类模型进行训练,通过交叉验证集迭代调参;整合训练后的第一分类模型和第二分类模型以完成分类模型的构建。
在一实施方式中,为了避免数据泄露,在特征选择、模型训练和交叉验证过程中测试集均不应被接触到,因此,只有训练集中的数据被用于特征筛选。LymphGen在构建特征矩阵时引入了较多冗余信息,例如将MUTATION简单映射为多种不同的变异类型。因此,首先根据基因变异类型集合对训练集的初始特征进行预筛选以获取得到第一特征,从而去除简单映射增加的冗余信息。具体地,在较佳实施例中基因变异类型集合包括MUTATION、TRUNC、HOMDEL、AMP、GAIN、HETLOSS、CompUp和FUSION的基因变异类型。之后,再做进一步地粗筛选,根据特定基因集合对第一特征进行筛选,得到第二特征。其中特定基因集合则可以为靶向检测Panel设定的与DLBCL肿瘤发生、发展以及分型密切相关的基因。第一特征中只有属于Panel内设定的基因的特征才会被保留,被保留的也即第二特征。并且更进一步的,如前文所述,部分基因型的重要特征在不同人群中存在显著差异,也即第一基因型集合内记载的基因型;部分则在不同人群中未有显著差异,也即第二基因型集合内记载的基因型。基于此,可以根据第一基因型集合构建特征细筛模型,根据特征细筛模型对第二特征筛选以得到第三特征。最后再获取辅助特征,根据第三特征和辅助特征生成重要特征集。其中,对于辅助特征可以包括有:有无拷贝数变异检测结果、有无BCL2重排检测结果和有无BCL6重排检测结果。
在一实施方式中,步骤S140:根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型,包括:根据重要特征集和第一基因型标签建立第一分类模型,第一分类模型能够完成第一基因型集合内记载的基因型的分类;获取预设特征集,根据辅助特征、预设特征集和第一基因型标签建立第二分类模型,第二分类模型能够完成第二基因型集合内记载的基因型的分类;根据训练集分别对第一分类模型和第二分类模型进行训练,通过交叉验证集迭代调参;整合训练后的第一分类模型和第二分类模型以完成分类模型的构建。
在一实施方式中,极端梯度提升树(eXtreme Gradient Boosting,XGBoost)是梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的改进形式,具有更高的训练效率和更多的可控参数。为此,在本申请较佳实施例中,本申请可以基于XGBoost构建分类模型。对于具有人群差异的第一基因型集合内记载的基因型,以及没有表现出人群差异的第二基因型集合内记载的基因型,分别使用不同的特征构建了各自的分类模型:能够完成第一基因型集合内记载的基因型的分类的第一分类模型和能够完成第二基因型集合内记载的基因型的分类的第二分类模型。其中对于第一分类模型则需要利用重要特征集和第一基因型标签进行建立;对于第二模型则需要辅助特征、预设特征集和第一基因型标签完成建立,其中对于辅助特征则可以包括有:有无拷贝数变异检测结果、有无BCL2重排检测结果和有无BCL6重排检测结果;对于预设特征集可参考前文中的描述,具体而言则可以为LymphGen筛选出的97个特征。也即第二分类模型使用共计100个特征表征每个病例样本,以完成第二基因型集合的分类。构建后,则可利用训练集对第一分类模型和第二分类模型分别进行训练。训练过程则可以为:根据重要特征集筛选得到特征矩阵后,利用第一基因型标签和特征矩阵对分类模型进行训练,并通过交叉验证集对模型迭代调参。在第一分类模型和第二分类模型分别完成训练后,合并完成分类模型的构建。
步骤S150:获取分类模型输出的第二基因型标签,根据第二基因型标签确定基因型分类报告。
在一实施方式中,数据集中还包括有测试集,步骤S150:获取分类模型输出的第二基因型标签,包括:将根据测试集生成的特征矩阵输入第二分类模型中以进行基因型分类;若根据第二分类模型能够确定样本的基因型分类,则根据第二分类模型的分类结果生成对应的第二基因型标签;若根据第二分类模型不能够确定样本的基因型分类,则将特征矩阵输入第一分类模型中,以做进一步分类;根据第一分类模型的分类结果生成对应的第二基因型标签。
在一实施方式中,分类模型实际包括有第一分类模型和第二分类模型,因此在分类过程中,二者可以是按照次序进行分类的。在测试过程,则需要用到前文生成的数据集所包括的测试集进行测试。也即获取分类模型输出的第二基因型标签,需要向第一分类模型和第二分类模型输入测试集经过前文所述重要特征集筛选所得到的特征矩阵。在较佳实施例中,可以先将根据测试集生成的特征矩阵输入第二分类模型中,确定样本是否为第二基因型集合内记载的其中一项基因型。若根据第二分类模型能够完成分类,则根据第二分类模型的分类结果生成对应的第二基因型标签;如果不能完成分类,或不能确定的,分类结果为Other的,则将特征矩阵输入第一分类模型中做进一步分类。根据第一分类模型的分类结果生成对应的第二基因型标签,具体则可以确定样本是否为第一基因型集合中记载的基因型。例如以第一基因型集合包括有ST2和A53,分类结果则可以包括有ST2、A53和Other中的一项。根据第一分类模型或第二分类模型输出的第二基因型标签则确定基因型分类报告。值得注意的是,与第一基因型标签用于训练分类模型作用不同的是,第二基因型标签是分类模型输出的结果。也即,可以根据模型输出的第二基因型标签确定基因型分类报告。
因此,本申请能够通过预设的特定基因集合,有指向性地对样本的基因组进行基因变异检测,从而显著降低检测成本。利用层层筛选确定的重要特征集,可以避免繁杂人工特征选择过程。利用特征矩阵、第一基因型标签和重要特征集构建数据集并训练得到的分类模型可以挖掘出各分型的驱动基因,使得模型具有良好的可解释性,能够有效对病患的基因型做预测,提高DLBCL基因型分类正确率,具有较高的临床应用价值。
实施例二
重要特征集是构建分类模型的重要组成部分,其需要经过预先获取,获取过程可以参考图2,图2为实施例二提供的重要特征集获取流程示意图,包括有步骤S210~步骤S270。
步骤S210:获取预设特征数据,根据预设特征数据、第一基因型标签和特征矩阵生成数据集,数据集包括训练集。
在一实施方式中,为了评估将要构建的分类模型在中国人群上的表现,可以将特征信息生成数据集,并将数据集按照6:4的比例分成训练集和测试集。此外,LymphGen使用的非中国人群DLBCL病例也作为辅助数据被添加到训练集中以增强分类模型的分型能力和鲁棒性。其中主要通过训练集的初始特征进行筛选,为了避免数据泄露,在特征选择、模型训练和交叉验证过程中测试集均不应被接触到,故后续步骤不对测试集的应用做说明。
步骤S220:根据基因变异类型集合对训练集的初始特征进行筛选以获取得到第一特征。
步骤S230:根据特定基因集合对第一特征进行筛选,得到第二特征。
在一实施方式中,LymphGen在构建特征矩阵时引入了较多冗余信息,例如将MUTATION简单映射为多种不同的变异类型。因此,首先根据基因变异类型集合对训练集的初始特征进行预筛选以获取得到第一特征,从而去除简单映射增加的冗余信息。具体地,在较佳实施例中基因变异类型集合包括MUTATION、TRUNC、HOMDEL、AMP、GAIN、HETLOSS、CompUp和FUSION的基因变异类型。
在一实施方式中,特定基因集合则可以为靶向检测Panel设定的与DLBCL肿瘤发生、发展以及分型密切相关的基因。第一特征中只有属于Panel内设定的基因的特征才会被保留,被保留的也即第二特征。
步骤S240:根据第一基因型集合内记载的基因型,分别构建对应的二分类模型。
步骤S250:将第二特征分别输入二分类模型中进行训练以得到特征重要性分数,并重复预设次数。
步骤S260:取每个二分类模型每一次特征重要性分数都大于稳定阈值的特征的并集,确定为第三特征。
在一实施方式中,第一基因型集合内记载的基因型在不同人群中存在显著差异,可以包括有多个基因型。因此在筛选过程中,可以分别根据第一基因型集合内记载的基因型建立二分类模型。可以为,对每个二分类使用不同的随机种子重复进行了预设次数特征重要性打分,并对每次得分超过预设阈值的特征取交集以获取稳定且关键的特征。具体而言,例如第一基因型集合内记载的基因型标签可以包括有ST2,为此则可以将其他所有非ST2的基因型标签归为一类并根据第二特征建立对应的ST2/非ST2二分类模型。该二分类模型基于树模型构建,可在训练结束后对输入第二特征进行特征重要性打分,并重复五次。将五次得分都超过0.01的特征进行保留,并结合其他二分类模型保留的特征,取交集得到第三特征。
步骤S270:获取辅助特征,根据第三特征和辅助特征生成重要特征集。
在一实施方式中,对于辅助特征可以包括有:有无拷贝数变异检测结果、有无BCL2重排检测结果和有无BCL6重排检测结果。整合辅助特征和第三特征,完成重要特征集的构建。
因此基于本申请实施例三的方法,可以完成关键基因特征的获取,保证所构建的分类模型稳定、高效、具有良好的分类预测性能。
实施例三
本申请所提出的弥漫大B细胞淋巴瘤基因型分类方法是用于确定患者的基因型类型,然而基因型之间同时也存在明显差异:有的在不同人群中存在显著差异,有的则在不同人群中未有显著差异。根据不同的基因型集合,分别建立有第一分类模型和第二分类模型:第一分类模型能够完成第一基因型集合内记载的基因型的分类;第二分类模型能够完成第二基因型集合内记载的基因型的分类。因此在分类过程中,二者可以是按照次序进行分类的,具体的分类过程,可以参考图3,图3为实施例三提供的DLBCL基因分类方法应用流程示意图,包括有步骤S310~S360。
步骤S310:将根据测试集生成的特征矩阵输入第二分类模型中以进行基因型分类。
在一实施方式中,值得注意的是对于待分类样本的特征矩阵,是通过测试集所生成的。测试集的生成,以及根据测试集筛选生成特征矩阵的方法,已经在前文实施例中有了详细描述,具体可参考前文,在此便不做赘述。
步骤S320:判断根据第二分类模型是否能够确定样本的基因型分类。
若根据第二分类模型能够确定样本的基因型分类,则执行步骤S330:根据第二分类模型的分类结果生成对应的第二基因型标签。
若根据第二分类模型不能够确定样本的基因型分类,则执行步骤S340:将特征矩阵输入第一分类模型中,以做进一步分类。
在一实施方式中,可以首先将根据测试集生成的特征矩阵输入第二分类模型中,第二分类模型能够完成对于第二基因型集合内记载的基因型的分类。如果分类结果能够确定样本的基因型,则对应生成相应的第二基因型标签。如果第二分类模型不能够确定样本的基因型分类,也即分类结果为Other的情况,则将特征矩阵输入第一分类模型做进一步分类。
步骤S350:根据第一分类模型的分类结果生成对应的第二基因型标签。
在一实施方式中,第一分类模型对输入的特征矩阵进行分类,以确定样本是否属于第一基因型集合内的基因型,或是不能完成分类。根据第一分类模型的分类结果生成对应的第二基因型标签。值得注意的是,不论是第一分类模型或是第二分类模型,所能确定的基因型都有且仅有一种。
步骤S360:获取分类模型输出的第二基因型标签,根据第二基因型标签确定基因型分类报告。
在一实施方式中,分类模型包括有第一分类模型和第二分类模型,一个样本输入的特征向量,仅会输出一个第二基因型标签,利用该第二基因型标签确定基因型分类报告,以用于辅助治疗或诊断。
因此,在两个模型的配合下,本申请提供弥漫大B细胞淋巴瘤基因型分类方法在六类基因分型和Other类均获得了令人满意的预测性能,更适用于异质性强的DLBCL中国人群的临床精准分型诊断。
实施例四
图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现弥漫大B细胞淋巴瘤基因型分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄识别方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:步骤S110:根据预设的特定基因集合对样本进行检测,以获得变异检测数据。步骤S120:对变异检测数据进行预处理,以得到变异信息。步骤S130:根据变异信息生成初始特征矩阵,对初始特征矩阵进行筛选,以得到特征矩阵,特征矩阵用于表征对应样本存在特定基因集合所包含的基因变异情况。步骤S140:获取第一基因型标签和重要特征集,根据特征矩阵、第一基因型标签和重要特征集构建数据集并训练分类模型。步骤S150:获取分类模型输出的第二基因型标签,根据第二基因型标签确定基因型分类报告。
在一个实施例中,本申请还提出了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如前述方法的步骤,
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,包括如下步骤:
根据预设的特定基因集合对样本进行检测,以获得变异检测数据;
对所述变异检测数据进行预处理,以得到变异信息;
根据所述变异信息生成初始特征矩阵,对所述初始特征矩阵进行筛选,以得到特征矩阵,所述特征矩阵用于表征对应样本存在所述特定基因集合所包含的基因变异情况;
获取第一基因型标签和重要特征集,根据所述特征矩阵、所述第一基因型标签和所述重要特征集构建数据集并训练分类模型;
获取分类模型输出的第二基因型标签,根据第二基因型标签确定基因型分类报告。
2.如权利要求1所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述变异检测数据包括测序数据和荧光原位杂交检测数据;
所述根据预设的特定基因集合对样本进行检测,以获得变异检测数据,包括:
根据所述特定基因集合对所述样本进行高通量测序,以获得所述测序数据;
根据所述特定基因集合设计重排探针,利用荧光原位杂交技术获取所述样本的所述荧光原位杂交检测数据。
3.如权利要求2所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述变异信息包括:基因突变信息、拷贝数变异信息和基因重排信息;
所述对所述变异检测数据进行预处理,以得到变异信息,包括:
对所述测序数据执行第一预处理以得到所述基因突变信息和拷贝数变异信息;
对所述荧光原位杂交检测数据执行第二预处理,以得到能够用于建模的所述基因重排信息。
4.如权利要求1所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述获取重要特征集,包括:
获取预设特征数据,根据所述预设特征数据、所述第一基因型标签和所述特征矩阵生成所述数据集,所述数据集包括训练集;
根据基因变异类型集合对所述训练集的初始特征进行筛选以获取得到第一特征,所述基因变异类型集合包括MUTATION、TRUNC、HOMDEL、AMP、GAIN、HETLOSS、CompUp和FUSION的基因变异类型;
根据所述特定基因集合对所述第一特征进行筛选,得到第二特征;
获取第一基因型集合,根据所述第一基因型集合构建特征细筛模型,根据所述特征细筛模型对所述第二特征筛选以得到第三特征;
获取辅助特征,根据所述第三特征和辅助特征生成所述重要特征集。
5.如权利要求4所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述特征细筛模型包括至少两个二分类模型;
所述根据所述特征细筛模型对所述第二特征筛选以得到第三特征,包括:
根据所述第一基因型集合内记载的基因型,分别构建对应的二分类模型;
将所述第二特征分别输入所述二分类模型中以得到特征重要性分数,并重复预设次数;
取每个所述二分类模型每一次特征重要性分数都大于稳定阈值的特征的并集,确定为所述第三特征。
6.如权利要求4所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述根据所述特征矩阵、所述第一基因型标签和所述重要特征集构建数据集并训练分类模型,包括:
根据所述重要特征集和所述第一基因型标签建立第一分类模型,所述第一分类模型能够完成所述第一基因型集合内记载的基因型的分类;
获取预设特征集,根据所述辅助特征、所述预设特征集和所述第一基因型标签建立第二分类模型,所述第二分类模型能够完成第二基因型集合内记载的基因型的分类;
根据所述训练集分别对所述第一分类模型和所述第二分类模型进行训练,通过交叉验证集迭代调参;
整合训练后的所述第一分类模型和所述第二分类模型以完成所述分类模型的构建。
7.如权利要求6所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述数据集中还包括有测试集,
所述获取分类模型输出的第二基因型标签,包括:
将根据所述测试集生成的特征矩阵输入所述第二分类模型中以进行基因型分类;
若根据所述第二分类模型能够确定所述样本的基因型分类,则根据所述第二分类模型的分类结果生成对应的第二基因型标签;
若根据所述第二分类模型不能够确定所述样本的基因型分类,则将所述特征矩阵输入所述第一分类模型中,以做进一步分类;根据所述第一分类模型的分类结果生成对应的第二基因型标签。
8.如权利要求6所述的弥漫大B细胞淋巴瘤基因型分类方法,其特征在于,所述第一基因型集合包括ST2和A53;所述第二基因型集合包括MCD、BN2、EZB和N1。
9.一种计算机设备,其特征在于,包括处理器和存储器;
所述处理器用于执行所述存储器中存储的计算机程序以实现如权利要求1到8中任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到8中任一项所述方法。
CN202310196894.5A 2023-03-02 2023-03-02 弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质 Pending CN116994650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310196894.5A CN116994650A (zh) 2023-03-02 2023-03-02 弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310196894.5A CN116994650A (zh) 2023-03-02 2023-03-02 弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116994650A true CN116994650A (zh) 2023-11-03

Family

ID=88525433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310196894.5A Pending CN116994650A (zh) 2023-03-02 2023-03-02 弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116994650A (zh)

Similar Documents

Publication Publication Date Title
KR102433458B1 (ko) 심층 컨볼루션 신경망의 앙상블을 트레이닝하기 위한 반감독 학습
KR102273717B1 (ko) 심층 학습 기반 변이체 분류자
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
CN110832597A (zh) 基于深度神经网络的变体分类器
Schrider Background selection does not mimic the patterns of genetic diversity produced by selective sweeps
US11804285B2 (en) Hilbert-cnn: ai-driven convolutional neural networks with conversion data of genome for biomarker discovery
CN109686439B (zh) 遗传病基因检测的数据分析方法、系统及存储介质
CN110892484B (zh) 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
CN112669903B (zh) 基于Sanger测序的HLA分型方法及设备
CN111139291A (zh) 一种单基因遗传性疾病高通量测序分析方法
JP2021509572A (ja) 標的核酸のシークエンシングデータをアライメントする方法
EP4016533B1 (en) Method and apparatus for machine learning based identification of structural variants in cancer genomes
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN111180013B (zh) 检测血液病融合基因的装置
WO2024187890A1 (zh) 基于snp数据的预测方法、装置、设备及存储介质
CN113808665A (zh) 全基因组致病snp精细定位的因果关联分析方法
CN110164504B (zh) 二代测序数据的处理方法、装置及电子设备
KR102404947B1 (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN116994650A (zh) 弥漫大b细胞淋巴瘤基因型分类方法、设备和存储介质
CN113889188A (zh) 一种疾病预测方法、系统、计算机设备及介质
CN115066503A (zh) 使用批量测序数据指导单细胞测序数据的分析
WO2023136297A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
WO2023136296A1 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination