CN112509636B

CN112509636B - 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用

Info

Publication number: CN112509636B
Application number: CN202011516653.7A
Authority: CN
Inventors: 刘雪松; 王诗翔
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-03-15
Anticipated expiration: 2040-12-21
Also published as: CN112509636A

Abstract

本发明涉及的是一种肿瘤基因组拷贝数变异特征模式识别方法及其应用，属于基因诊断技术领域。本发明对肿瘤基因组拷贝数变异的特征进行了系统的分类，具体提取了8类肿瘤基因组拷贝数变异特征的80个数值，利用非负矩阵分解算法抽取肿瘤样本的拷贝数变异特征模式，然后依据拷贝数变异特征模式对肿瘤进行分型，从而能够实现对肿瘤临床预后的精准预测。

Description

一种肿瘤基因组拷贝数变异特征模式识别方法及其应用

技术领域

本发明涉及一种肿瘤基因组拷贝数变异特征模式识别方法及其应用，属于基因诊断技术领域。

背景技术

癌症主要是由体细胞基因组DNA的变异引起的。根据基因组变异的大小和特征，这些与癌症相关的DNA变异可分为以下四种类型：单碱基取代(single base substitution，SBS)，小片段插入和缺失(insertion/deletion，INDEL)，结构改变(包括易位/倒位)以及拷贝数变异(copy number alteration)。体细胞DNA的拷贝数变异在癌症中极为普遍，并且报道是多种类型癌症进展的重要驱动力。基因组DNA变异的特征模式是重复出现的基因组模式，是癌细胞发展过程中积累的诱变过程的印记。拷贝数变异特征模式反映了，在癌症发展过程中特异性内源或外源性突变事件引起的重复拷贝数变异模式。单碱基变异的特征模式已在不同类型的癌症中有着广泛的研究。拷贝数变异是多种癌症发生发展的重要驱动力，但是，研究拷贝数变异特征模式的实用工具依然缺乏，目前也没有通过研究拷贝数变异特征模式对肿瘤进行精准分型和预后预测的报道。恶性肿瘤的分型以及预后的精准预测依然是目前未解决的医学难题。

发明内容

本发明所要解决的技术问题是：怎样识别肿瘤基因组拷贝数变异特征模式及其应用的技术问题。

为了解决上述问题，本发明提供了一种肿瘤基因组拷贝数变异特征模式识别方法，包括如下步骤：

步骤1：提取肿瘤样本以及正常对照组织的基因组DNA并测序；

步骤2：分析上述测序的数据，获得肿瘤样本的绝对拷贝数信息；

步骤3：记录肿瘤样本的拷贝数变异特征的数值；

步骤4：利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。

优选地，所述步骤1中测序的方法为高通量全外显子组测序、全基因组测序或SNP芯片分析。

优选地，所述步骤2中分析的方法为采用Facet分析软件或Sequenza软件。

优选地，所述步骤3中的拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50％的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr；所述拷贝数变异特征的数值为80个。

本发明还提供了所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用。

优选地，所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用包括在肿瘤预后预测中的应用。

基于上述的肿瘤基因组拷贝数变异特征模式识别方法从肿瘤样本中提取到的拷贝数变异特征模式，采用聚类分析，对肿瘤样本进行分型；利用Cox生存分析，对不同的肿瘤类型进行预后预测。

本发明还提供了一种计算机程序产品，包含存储计算机程序的非暂时性可读存储器，所述计算机程序在计算机上运行时执行以下步骤：

步骤1：分析肿瘤样本以及正常对照组织的DNA测序结果，获得肿瘤样本的绝对拷贝数信息；

步骤2：记录肿瘤样本的拷贝数变异特征的数值；

步骤3：利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。

优选地，上述计算机程序产品的计算机程序在执行完步骤3之后，继续执行以下步骤：

步骤4：利用聚类分析，依据所述步骤3中抽取到的肿瘤样本的具体拷贝数变异特征模式，对肿瘤进行分型；

步骤5：利用Cox生存分析，对不同的肿瘤类型进行预后预测。

本发明还提供了一种具有处理器的计算机，所述处理器配置成：

分析肿瘤样本以及正常对照组织的DNA测序结果，获得肿瘤样本的绝对拷贝数信息；记录肿瘤样本的拷贝数变异特征的数值；利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式。

优选地，上述具有处理器的计算机的处理器配置成：

分析肿瘤样本以及正常对照组织的DNA测序结果，获得肿瘤样本的绝对拷贝数信息；记录肿瘤样本的拷贝数变异特征的数值；利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式；利用聚类分析，依据肿瘤样本的具体拷贝数变异特征模式，对肿瘤进行分型；利用Cox生存分析，对不同的肿瘤类型进行预后预测。

与现有技术相比，本发明的有益效果在于：

1.本发明的一种肿瘤基因组拷贝数变异特征模式识别方法可以提取到肿瘤病人基因组的拷贝数变异(copy number alteration)特征模式，从而提取到肿瘤预后预测的基因组学标志物，其在肿瘤的早期筛查、辅助诊断、预后判断、疗效评价、复发和转移监测中具有重要意义；

2.依据本发明的一种肿瘤基因组拷贝数变异特征模式识别方法可以对肿瘤进行分型，从而实现对肿瘤临床预后的精准预测，为临床上开发新的治疗手段和新药研发提供了参考依据。

附图说明

图1为前列腺癌拷贝数变异特征识别流程；

图2中的a为前列腺癌中提取的5种拷贝数变异特征模式，b为前列腺癌中代表性肿瘤样本的基因组拷贝数图谱；

图3为前列腺癌依据拷贝数变异特征模式分为5种类型，每种类型富集一种拷贝数变异特征模式；

图4为前列腺癌拷贝数变异特征模式与病人临床预后预测的结果示意图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

本发明提供了一种肿瘤基因组拷贝数变异特征模式识别方法，包括如下步骤：

步骤1：提取肿瘤样本以及正常对照组织的基因组DNA并测序；

步骤2：分析上述测序结果，获得肿瘤样本的绝对拷贝数信息；

步骤3：记录肿瘤样本的拷贝数变异特征的数值；

本发明所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用。

步骤2：记录肿瘤样本的拷贝数变异特征的数值；

步骤5：利用Cox生存分析，对不同的肿瘤类型进行预后预测。

优选地，上述具有处理器的计算机的处理器配置成：

实施例1

前列腺癌基因组拷贝数变异特征模式识别方法，包括如下步骤：

1)从dbGap公共数据库提取前列腺癌基因组的高通量全外显子组测序(WholeExome Sequencing，WES)结果,总共有937对肿瘤和正常对照组织；

2)利用Sequenza软件，从上述WES测序结果中提取每个肿瘤样本的绝对拷贝数信息；

3)记录拷贝数变异特征的数值，拷贝数变异特征识别流程如图1所示。每个肿瘤计算了8类拷贝数变异特征：每10Mb的断点数(命名为BP10MB)；每个染色体臂的断点数(称为BPArm)；DNA片段的绝对拷贝数(名为CN)；相邻DNA片段之间的拷贝数差异(称为CNCP)；震荡拷贝数片段的长度(称为OsCN)；基于log10的拷贝数片段大小(名为SS)；占拷贝数变异50％的最小染色体数(称为NC50)；每条染色体的拷贝数变异程度(称为BoChr)。拷贝数变异的特征数值大部分是离散值，其余是范围值，总共有80个拷贝数变异特征数值，如表1所示。根据上述拷贝数变异特征的定义，对每个肿瘤样本生成一个拷贝数变异成分矩阵，该矩阵有80行，每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值；

表1拷贝数变异特征的数值

4)提取每个肿瘤样本的拷贝数变异特征模式，利用非负矩阵分解(non-negativematrix factorization，NMF)算法抽取每个肿瘤样本的具体拷贝数变异特征模式。NMF算法将步骤3得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵，和样本变异特征模式活性矩阵的乘积，样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。从973对前列腺癌组织中共提取到5个拷贝数变异特征模式，如图2所示。

前列腺癌基因组拷贝数变异特征模式识别方法在前列腺癌预后预测中的应用，具体方法为：

1)利用聚类分析，依据上述提取到的5个拷贝数变异特征模式，将前列腺癌分为5种类型，每种类型的前列腺癌选择性地富集一种拷贝数变异特征模式，分型结果如图3所示。

2)利用Cox生存分析，检测不同拷贝数变异特征模式的肿瘤类型(CN-Sig1，CN-Sig2，CN-Sig3，CN-Sig4，CN-Sig5)对前列腺癌预后的影响，发现CN-sig 2与较差的生存预后显著相关，而CN-sig5与改进的生存预后显著，详细结果如图4所示。

实施例1的前列腺癌基因组拷贝数变异特征模式识别方法及其前列腺癌预后预测的方法可以在计算机系统中实现，所述计算机系统包括用于实现所述实施例1的方法的硬件、软件和数据存储器。例如，计算机系统包括处理器，输入装置，输出装置和数据存储器。所述处理器配置成实现实施例1的前列腺癌基因组拷贝数变异特征模式识别方法或前列腺癌预后预测的方法。计算机系统具有监视器以提供视觉输出显示(例如，在处理过程中显示输出结果)。数据存储器可以包括RAM，磁盘驱动器或其他计算机可读介质。计算机系统可以包括通过网络连接并且能够通过该网络彼此通信的多个计算设备。

实施例1的前列腺癌基因组拷贝数变异特征模式识别方法及其前列腺癌预后预测的方法还可以作为计算机程序或承载计算机程序的计算机程序产品或计算机可读介质提供，该计算机程序在计算机上运行时被安排来执行所述实施例1的前列腺癌基因组拷贝数变异特征模式识别方法或前列腺癌预后预测的方法。所述计算机可读介质包括但不限于可由计算机或计算机系统直接读取和访问的任何非暂时性媒介或介质。所述介质可以包括但不限于磁存储介质，例如软盘、硬盘存储介质和磁带；光存储介质，如光盘或CD-ROM；电子存储介质如存储器，包括RAM、ROM和闪存；以及上述的存储介质的组合，例如磁/光存储介质。

以上实施例仅为本发明的优选实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种肿瘤基因组拷贝数变异特征模式识别方法，其特征在于，包括如下步骤：

步骤1：提取肿瘤样本以及正常对照组织的基因组DNA并测序；

步骤3：记录肿瘤样本的拷贝数变异特征的数值；所述拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50％的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr；根据所述拷贝数变异特征的定义，对每个肿瘤样本生成一个拷贝数变异成分矩阵，该矩阵有80行，每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值；

步骤4：利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式；非负矩阵分解算法将步骤3得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵，和样本变异特征模式活性矩阵的乘积，样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。

2.如权利要求1所述的一种肿瘤基因组拷贝数变异特征模式识别方法，其特征在于，所述步骤1中测序的方法为高通量全外显子组测序、全基因组测序或SNP芯片分析。

3.如权利要求1所述的一种肿瘤基因组拷贝数变异特征模式识别方法，其特征在于，所述步骤2中分析的方法为采用Facet分析软件或Sequenza软件。

4.权利要求1~3中任意一项所述的一种肿瘤基因组拷贝数变异特征模式识别方法的应用，其特征在于，包括在肿瘤预后预测中的应用。

5.一种计算机存储介质，其包含计算机程序，所述计算机程序在计算机上运行时执行以下步骤：

步骤2：记录肿瘤样本的拷贝数变异特征的数值；所述拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50％的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr；根据所述拷贝数变异特征的定义，对每个肿瘤样本生成一个拷贝数变异成分矩阵，该矩阵有80行，每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值；

步骤3：利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式；非负矩阵分解算法将步骤3得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵，和样本变异特征模式活性矩阵的乘积，样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。

6.如权利要求5所述的一种计算机存储介质，其特征在于，所述计算机程序在执行完步骤3之后，继续执行以下步骤：

步骤5：利用Cox生存分析，对不同的肿瘤类型进行预后预测。

7.一种具有处理器的计算机，其特征在于，所述处理器配置成：

分析肿瘤样本以及正常对照组织的DNA测序结果，获得肿瘤样本的绝对拷贝数信息；

记录肿瘤样本的拷贝数变异特征的数值；其中，所述拷贝数变异特征包括每10Mb的断点数BP10MB、每个染色体臂的断点数BPArm、DNA片段的绝对拷贝数CN、相邻DNA片段之间的拷贝数差异CNCP、震荡拷贝数片段的长度OsCN、基于log10的拷贝数片段大小SS、占拷贝数变异50％的最小染色体数NC50和每条染色体的拷贝数变异程度BoChr；根据所述拷贝数变异特征的定义，对每个肿瘤样本生成一个拷贝数变异成分矩阵，该矩阵有80行，每行代表一个拷贝数变异特征在每个具体肿瘤里面的数值；

利用非负矩阵分解算法抽取肿瘤样本的具体拷贝数变异特征模式；非负矩阵分解算法将上述得到的样本拷贝数变异特征矩阵分解为拷贝数变异特征模式矩阵，和样本变异特征模式活性矩阵的乘积，样本变异特征模式的活性表示具体拷贝数变异特征模式相对其他变异模式在肿瘤中的贡献比例。

8.如权利要求7所述的一种具有处理器的计算机，其特征在于，所述处理器配置成：