发明内容
本申请的目的是提供一种新的判别淋巴瘤分子亚型的方法、装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种判别淋巴瘤分子亚型的方法,包括以下步骤:
体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;
基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;
染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;
基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;
待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型;
其中,淋巴瘤分子亚型显著突变特征数据库,是以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
需要说明的是,本申请判别淋巴瘤分子亚型的方法,利用待测肿瘤样本四个维度突变信息,即待测肿瘤样本可信的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,能够准确、灵敏的获得待测肿瘤样本的淋巴瘤分子亚型;并且,本申请的方法所能够分析的亚型不受限于GCB和nonGCB,本申请的一种实现方式中,能够实现对MCD亚型、BN2亚型、N1亚型、EZB亚型、A53亚型、ST2亚型六种亚型的准确、灵敏分型。
本申请的一种实现方式中,基因层面拷贝数变异检测步骤,包括使用cnvkit软件析待测肿瘤样本发生CNV突变的区段,具体的,将基线文件作为cnvkit软件的输入文件,同时使用待测肿瘤样本的比对结果文件作为cnvkit软件的输入文件,进行待测肿瘤样本发生CNV突变区段的分析;其中,基线文件为待测肿瘤样本同批次的若干个血细胞样本的比对结果文件。例如,本申请的一种实现方式中,采用了30个血细胞样本的比对结果文件作为基线文件。
需要说明的是,为了确保基线的准确性,CNV的基线文件可以是动态基线,即随着实验批次构建,也可以是固定基线。
本申请的一种实现方式中,染色体臂层面拷贝数变异检测步骤,具体包括对待测肿瘤样本的所有染色体进行CNVLOH分析,检测获得染色体臂层面拷贝数变异信息。
本申请的一种实现方式中,待测肿瘤样本所属亚型判别步骤,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型,具体包括,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型,
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
需要说明的是,最大似然估计方法只是本申请的一种实现方式中具体采用的算法,不排除还可以采用其他算法分析获得待测肿瘤样本所属的淋巴瘤分子亚型。
本申请判别淋巴瘤分子亚型的方法中,其中一个关键因素是淋巴瘤分子亚型显著突变特征数据库的构建。因此,本申请的第二方面公开了一种淋巴瘤分子亚型显著突变特征数据库的构建方法,包括以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;其中,四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;基因层面拷贝数变异信息包括可信CNV突变区域集;染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
需要说明的是,本申请的淋巴瘤分子亚型显著突变特征数据库构建方法,实际上就是本申请判别淋巴瘤分子亚型的方法中关于淋巴瘤分子亚型显著突变特征数据库的技术步骤。可以理解,淋巴瘤样本的四个维度突变信息的检测或获取方法与本申请判别淋巴瘤分子亚型的方法中待测肿瘤样本四个维度突变信息的检测或获取方法相同,在此不累述。
本申请的第三方面公开了本申请的淋巴瘤分子亚型显著突变特征数据库构建方法获得的淋巴瘤分子亚型显著突变特征数据库。
可以理解,本申请的淋巴瘤分子亚型显著突变特征数据库,在采用足够多的训练样本获得足够准确和完整的淋巴瘤分子亚型显著突变特征的情况下,可以作为一个单独产品直接用于淋巴瘤分子亚型判别,例如在获得待测肿瘤样本的四个维度突变信息的情况下,直接利用本申请的淋巴瘤分子亚型显著突变特征数据库进行最大似然估计方法计算待测肿瘤样本的淋巴瘤分子亚型。
本申请的第四方面公开了一种存储有本申请的淋巴瘤分子亚型显著突变特征数据库的计算机可读存储介质。
可以理解,本申请的淋巴瘤分子亚型显著突变特征数据库作为一个独立产品时,可以存储于各种计算机可读存储介质中,以便于读取或下载。
本申请的第五方面公开了一种判别淋巴瘤分子亚型的装置,包括体系SNV突变位点集获取模块、基因层面拷贝数变异检测模块、染色体臂层面拷贝数变异检测模块、基因层面结构变异检测模块、淋巴瘤分子亚型显著突变特征数据库构建模块和待测肿瘤样本所属亚型判别模块;体系SNV突变位点集获取模块,包括用于获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;基因层面拷贝数变异检测模块,包括用于根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gainratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;染色体臂层面拷贝数变异检测模块,包括用于分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;基因层面结构变异检测模块,包括用于获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;淋巴瘤分子亚型显著突变特征数据库构建模块,包括采用若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,获得淋巴瘤分子亚型显著突变特征数据库;四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;待测肿瘤样本所属亚型判别模块,包括用于根据待测样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测样本所属的淋巴瘤分子亚型。
需要说明的是,本申请判别淋巴瘤分子亚型的装置,实际上就是通过各模块分别实现本申请判别淋巴瘤分子亚型的方法中的各步骤;因此,各模块的具体限定可以参考本申请判别淋巴瘤分子亚型的方法,在此不累述。
还需要说明的是,本申请判别淋巴瘤分子亚型的装置中,淋巴瘤分子亚型显著突变特征数据库构建模块可以根据需求使用或者不使用,例如在已经构建完成淋巴瘤分子亚型显著突变特征数据库的情况下,其他模块可以直接调用淋巴瘤分子亚型显著突变特征数据库,不需要每次进行淋巴瘤分子亚型检测都重新构建淋巴瘤分子亚型显著突变特征数据库。
本申请的第六方面公开了一种判别淋巴瘤分子亚型的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请判别淋巴瘤分子亚型的方法,或者本申请的淋巴瘤分子亚型显著突变特征数据库的构建方法。
本申请的第七方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请判别淋巴瘤分子亚型的方法,或者本申请的淋巴瘤分子亚型显著突变特征数据库的构建方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请判别淋巴瘤分子亚型的方法和装置,结合待测肿瘤样本可信的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息、基因层面结构变异信息和淋巴瘤分子亚型显著突变特征数据库,能够准确、灵敏的获得待测肿瘤样本的淋巴瘤分子亚型,为淋巴瘤分子分型判别提供了一种新的方案和途径。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他装置、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
目前传统的淋巴瘤分子亚型分型方法,普遍存在操作繁琐、准确度、灵敏度低等问题,无法满足精准分型的临床需求。弥漫性大B细胞淋巴瘤(DLBCL)是一组生物学高度异质的肿瘤,可以基于生物学、特别是遗传学特点对这类肿瘤合理区分亚型。研究表明在DLBCL根据其基因突变、易位以及拷贝数异常等特点,根据分子特征可以分为不同的遗传学亚型,包括MCD、BN2、EZB、ST2、N1、A53。其中,MCD亚型是以MYD88L265P和CD79B共突变为常见特征,BN2亚型是以BCL6融合及NOTCH2突变为主要突变特征,EZB亚型是以BCL2易位、EZH2突变和REL扩增为主要突变特征,ST2亚型的特征为具有SGK1和TET2突变,N1亚型是以NOTCH1突变为主效特征,A53亚型则具有TP53失活的非整倍体的突变特征。借助每个亚型常见的突变特征,包括SNV突变、基因层面结构变异、基因层面的拷贝数变异、染色体层面的拷贝数变异,构建每个亚型的特征集,根据待测肿瘤样本的四个维度高频出现突变特征在某个亚型特征集占比较高时,区分待测样本所属的亚型。
基于以上研究和认识,本申请创造性的提出了一种新的判别淋巴瘤分子亚型的方法,如图1所示,包括体系SNV突变位点集获取步骤11、基因层面拷贝数变异检测步骤12、染色体臂层面拷贝数变异检测步骤13、基因层面结构变异检测步骤14和待测肿瘤样本所属亚型判别步骤15。
其中,体系SNV突变位点集获取步骤11,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。
本申请的一种实现方式中,具体的,检测待测肿瘤样本的SNV突变,以及各突变位点包含的突变频率、突变位点深度等信息,输出vcf文件,对体系突变位点进行各个数据库的注释,利用人群数据库过滤掉常见胚系SNV突变,获得可信的体系SNV突变位点集。例如,采用Mutect软件进行体系SNV突变位点检测,采用ANNOVAR软件进行注释、过滤获得可信体系SNV突变位点集。
基因层面拷贝数变异检测步骤12,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变:即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息。
本申请的一种实现方式中,具体的,利用cnvkit软件建立基线输入文件,利用待测肿瘤样本的bam文件作为检测拷贝数变异的输入文件,输出发生拷贝数变异的区域等信息,然后根据检测到的突变区域输出可信度较高的CNV突变区域。
染色体臂层面拷贝数变异检测步骤13,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息。
本申请的一种实现方式中,具体的,对待测肿瘤样本的所有染色体进行CNVLOH分析,输出所有染色体在臂层面发生拷贝数变异的区域起始位置、终止位置、状态(LOH、polysomy)等信息。
基因层面结构变异检测步骤14,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置。
待测肿瘤样本所属亚型判别步骤15,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
本申请的一种实现方式中,具体的,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型,
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
本申请中,淋巴瘤分子亚型显著突变特征数据库,是以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
本申请的一种实现方式中,具体的,以196例淋巴瘤样本作为确定突变特征集的人群,根据四个维度突变信息人工判断每个样本所属的亚型,统计亚型人群中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的人群数进行Fisher检验,筛选显著的突变特征且该突变特征人群频率大于20%,构建每个亚型的显著突变特征集库。四个维度突变信息即淋巴瘤样本的可信体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,这四个维度的突变信息获得方法与待测肿瘤样本相同。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的方法,本申请提出了一种判别淋巴瘤分子亚型的装置,包括体系SNV突变位点集获取模块21、基因层面拷贝数变异检测模块22、染色体臂层面拷贝数变异检测模块23、基因层面结构变异检测模块24、淋巴瘤分子亚型显著突变特征数据库构建模块25和待测肿瘤样本所属亚型判别模块26。
其中,体系SNV突变位点集获取模块21,包括用于获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。例如参考Mutect软件进行体系SNV突变位点检测,参考ANNOVAR软件进行注释、过滤获得可信体系SNV突变位点集。
基因层面拷贝数变异检测模块22,包括用于根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息。
染色体臂层面拷贝数变异检测模块23,包括用于分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息。例如参考CNVLOH方法进行染色体在臂层面发生拷贝数变异的区域起始位置、终止位置、状态(LOH、polysomy)等信息的输出。
基因层面结构变异检测模块24,包括用于获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置。
淋巴瘤分子亚型显著突变特征数据库构建模块25,包括采用若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
待测肿瘤样本所属亚型判别模块26,包括用于根据待测样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测样本所属的淋巴瘤分子亚型。
本申请的另一实现方式中还提供了一种判别淋巴瘤分子亚型的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
或者,以上处理器用于通过执行存储器存储的程序以实现以下方法:以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;基因层面拷贝数变异信息包括可信CNV突变区域集;染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
此时,本申请判别淋巴瘤分子亚型的装置实际上主要用于构建本申请的淋巴瘤分子亚型显著突变特征数据库,该数据库可以用于判别淋巴瘤分子亚型。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
或者,以上存储介质中的程序能够被处理器执行以实现如下方法:以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;基因层面拷贝数变异信息包括可信CNV突变区域集;染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
此时,本申请的计算机可读存储介质实际上就是存储本申请淋巴瘤分子亚型显著突变特征数据库构建方法程序的存储介质,通过其存储的程序可以实现本申请淋巴瘤分子亚型显著突变特征数据库的构建方法,最终输出获得本申请的淋巴瘤分子亚型显著突变特征数据库。这不同于本申请第三方面请求保护的直接存储淋巴瘤分子亚型显著突变特征数据库的存储介质。
可以理解,基于本申请判别淋巴瘤分子亚型的方法和装置,可以将其中的淋巴瘤分子亚型显著突变特征数据库的构建方案独立出来,例如,单独提供一种淋巴瘤分子亚型显著突变特征数据库的构建方法,或者单独提供一种淋巴瘤分子亚型显著突变特征数据库的构建装置。当然,本申请构建的淋巴瘤分子亚型显著突变特征数据库也可以作为一个独立的产品供下载使用。
本申请判别淋巴瘤分子亚型的方法和装置,主要包括:1.获取待测肿瘤样本的bam文件;2.利用SNV检测软件检测肿瘤样本的体系SNV突变位点,输出SNV突变位点位置、突变频率等信息;3.利用注释软件对体系SNV突变位点进行注释,结合注释信息进行过滤,输出可信的体系SNV突变位点;4.利用cnvkit软件检测肿瘤样本发生拷贝数变异的区域,对其做注释过滤分析,输出CNV区域的起始位置、终止位置、基因、转录本等信息;5.分析CNVLOH以检测染色体臂层面的拷贝数变异结果;6.利用SV分析软件,对待检测肿瘤样本分析基因层面结构变异,以获得发生结构变异的基因、基因起始终止位置等信息;7.确定每个亚型的显著的突变特征集,即淋巴瘤分子亚型显著突变特征数据库;8.结合淋巴瘤分子亚型显著突变特征数据库、肿瘤样本的四个维度突变特征两方面的信息,利用似然概率模型判断待测肿瘤样本所属亚型。
本申请的输入文件包括:待测肿瘤样本检出的体系SNV突变位点、基因层面结构变异、基因层面的拷贝数变异、染色体层面的拷贝数变异四个维度的突变信息文件。
本申请的输出文件包括:待测肿瘤样本在每个亚型的似然概率值、所属亚型类型。
本申请提供拷贝数检测运行模式:自动化鉴定待测样本所属亚型的模块,单线程运行,一次可鉴定一个待测样本。
本申请判别淋巴瘤分子亚型的方法和装置,其关键技术包括:
每个亚型突变特征集的筛选:淋巴瘤的发生发展过程涉及基因突变、染色体异位、基因缺失和基因扩增等基因组改变,每个亚型在基因组变异层面有特定的突变类型,借助亚型特定突变类型区分样本所属的亚型,进而能够辅助临床诊断预后判断及选择有效的靶向治疗方案。本申请利用196例淋巴瘤样本作为突变特征集筛选的训练集,检测每个样本的体系SNV突变、基因层面结构变异、基因层面拷贝数变异、臂层面的拷贝数变异四个维度的突变特征,首先,结合每个样本所有突变特征通过人工判读判断所属的亚型,然后统计每一类别亚型包含的样本集统计人群突变频率,过滤人群频率小于20%突变特征,接着对每个突变特征根据在亚型人群数及其他亚型中人群数进行Fisher检验,保留显著的突变特征纳入到该亚型的突变特征集中,即获得本申请的淋巴瘤分子亚型显著突变特征数据库。
可以理解,本申请具体采用的是196例淋巴瘤样本作为突变特征集筛选的训练集,在条件允许的情况下,还可以采集更多的淋巴瘤样本作为训练集,进一步优化每个亚型的突变特征集,提高临床预后的显著性。
根据似然概率模型判断待测样本所属亚型:不同亚型是预测弥漫性大B细胞淋巴瘤患者预后的主要指,每个亚型预后的结果是不一致的,明确待测样本所属亚型对临床预后有重要意义。本申请利用已确定的每个亚型显著突变特征集及每个突变特征在每一类别亚型人群数信息应用到似然概率模型中,获取待测样本在每个亚型的似然概率值,根据判断规则,输出待测样本所属亚型。
本申请的术语及其缩写含义如下:
CNV:全称Copy number variations,即基因拷贝数变异。
LOH:全称Loss of heterozygosity,即杂合性缺失。
Polysomy:多体性。
IHC:全称Immunohistochemistry,即免疫组化。
COO:全称Cell of Origin,即细胞起源。
Fisher检验:全称Fisher's precision probability test,即费希尔精确概率检验,基于超几何分布计算的。
实施例
本例判别淋巴瘤分子亚型的方法,包括以下步骤:
体系SNV突变位点集获取步骤:包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。
本例具体分析SNV突变,检测肿瘤样本的突变位点包含的突变频率、突变位点深度等信息,输出vcf文件,对体系突变位点进行注释,例如,利用人群数据库过滤掉常见胚系SNV突变,获得可信的体系SNV突变位点集。例如,采用Mutect软件进行体系SNV突变位点检测,采用ANNOVAR软件进行注释、过滤获得可信体系SNV突变位点集。
基因层面拷贝数变异检测步骤:包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变:即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息。
本例具体的利用cnvkit软件建立基线输入文件,将基线文件和待测肿瘤样本的bam文件作为检测拷贝数变异的输入文件,输出发生拷贝数变异的区域等信息,输出可信度较高的CNV突变区域。其中,基线文件可以是动态基线,即随着实验批次构建,也可以是固定基线。本例具体的,采用了30个血细胞样本的比对结果文件作为基线文件。
染色体臂层面拷贝数变异检测步骤:包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息。
本例具体包括检测染色体臂层面拷贝数变异的CNVLOH,输出所有染色体在臂层面发生拷贝数变异的区域起始位置、终止位置、状态(LOH、polysomy)等信息。
基因层面结构变异检测步骤:包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置。
本例具体通过检测基因结构变异的输入文件-比对结果文件,输出所有发生结构变异的基因及结构变异的位置信息。
待测肿瘤样本所属亚型判别步骤:包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
本例具体的,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型:
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
本例的淋巴瘤分子亚型显著突变特征数据库,采用以下方法构建获得:
包括以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;其中,四个维度突变信息包括淋巴瘤样本的可信体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。淋巴瘤样本的四个维度突变信息的检测或获取方法与本例判别淋巴瘤分子亚型的方法中待测肿瘤样本四个维度突变信息的检测或获取方法相同。
按照以上方法,本例首先分析了196例淋巴瘤样本的可信体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息四个维度包含的分子特征,以训练集包含的所有分子特征作为筛选每个亚型显著突变特征集。将已确定每个亚型相关的显著突变特征集及196例淋巴瘤样本的基因组包含的分子特征应用到似然概率模型中,根据每个亚型的似然概率值,输出每个样本所属亚型。对比分析本例方法获得的每个样本的亚型与人工判断的各样本的真实亚型,部分结果如表1所示。
表1淋巴瘤样本分子亚型判别结果
表1的结果显示,本例判别淋巴瘤分子亚型的方法与人工判断一致性达到65%;同时,本例判别淋巴瘤分子分型的分型率达到78%,显著优于七分型文章中的57.4%的分型率,本例判别淋巴瘤分型结果中other亚型(无法分型)比例为7%,显著优于七分型文章中的36.9%。本例的判别方法可以判别待测肿瘤样本所属的亚型,再结合待测肿瘤样本的临床信息,能够获得与GCB和nonGCB样本集有显著的预后差异。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。