CN113823353B

CN113823353B - 基因拷贝数扩增检测方法、装置及可读介质

Info

Publication number: CN113823353B
Application number: CN202110925893.0A
Authority: CN
Inventors: 王剑青; 杨爽; 石银; 陈学俊; 董华; 郑方克; 郑立谋
Original assignee: Shanghai Xiawei Medical Laboratory Co ltd
Current assignee: Shanghai Xiawei Medical Laboratory Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2024-02-09
Anticipated expiration: 2041-08-12
Also published as: CN113823353A

Abstract

本发明公开了一种基因拷贝数扩增检测方法、装置及可读介质，采用扩增阴性样本集合和扩增阳性样本集合作为训练集，以第二种独立检测方法的结果为标准，小panel的数据统计结果作为特征值，构建XGBOOST模型，并进行基因扩增状态预测。对于预测为扩增的基因进行拷贝数矫正，采用线性回归方法建立基因原始拷贝数和第二种独立检测方法结果的函数关系，然后将扩增基因的原始拷贝数代入上述函数关系，并计算出矫正后的拷贝数。本发明充分考虑了多基因共扩增的情形和可能存在的实验偏差，本发明能有效地检测出基因拷贝数扩增的情况，能显著降低成本和提高临床实用性，并且有效提高检测的准确度。

Description

基因拷贝数扩增检测方法、装置及可读介质

技术领域

本发明涉及生物信息处理领域，具体涉及一种基因拷贝数扩增检测方法、装置及可读介质。

背景技术

拷贝数变异是指与参考基因组相比，在其基因组上存在一定大小的DNA序列的缺失或者扩增，长度一般从几十bp到几Mb。驱动基因的拷贝数变异和肿瘤的形成、发展、扩散相关。在肿瘤的发展过程中，由于驱动基因扩增导致其过表达，最后细胞生长出现会不受调控的现象，导致肿瘤细胞的无限分裂、迁移。目前市场上已经有一些针对驱动基因扩增设计的临床药物，比如针对MET扩增设计的阿法替尼、克唑替尼、达克替尼等TKI药物；针对ERBB2扩增设计的单克隆抗体帕妥珠单抗(Pertuzumab)和曲妥珠单抗(Trastuzumab)。这种精准治疗方案的实施需要有对应配套的精准检测方案。目前市场上检测基因拷贝数扩增的方法主要有三种：

1.荧光原位杂交，利用杂交的原理，采用荧光染料标记探针DNA，变性成单链后与变性后的染色体或细胞核特定靶DNA序列杂交，然后通过荧光显微镜观测荧光信号位置、大小及数量来判断待测序列的缺失、扩增及易位等情况。这种方法的局限性在于灵敏度不够。

2.微阵列比较基因组杂交芯片技术，采用不同荧光探针标记测试和参照样本DNA，然后让两者竞争性地结合DNA芯片上的互补探针，并采集对应的荧光信号，最后将荧光信号归一化后，计算log2Ratio(测试/参照)信号比值，根据比值去评估该区域是否存在拷贝数变异。这种方法的局限性在于其要求有配对的正常对照样本，且样本量一般要求较高，临床上有时候很难满足。

3.二代测序技术，随着测序技术的发展和测序成本的降低，基于二代测序数据进行CNV分析的方法有更高的分辨率和经济性。其原理主要是利用配对的全基因组测序(WGS)或者全外显子测序(WES)在靶向区域的覆盖度进行统计分析，比较检测样本和配对对照样本在该靶向区域的归一化深度是否存在显著性差异，从而判定该靶向区域是否存在拷贝数变化。这种方法的局限性在于，要求有配对的正常对照样本，不利于临床推广。要求测序范围大，一般全基因组或者全外显子范围，使用成本高。另外，市面上有一些基于NGS小panel检测基因拷贝数变化的产品，其局限性在于未考虑到多基因共扩增对小panel的影响，灵敏度较低。

发明内容

针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基因拷贝数扩增检测方法、装置及可读介质，来解决以上背景技术部分提到的技术问题。

第一方面，本申请的实施例提供了一种基因拷贝数扩增检测方法，包括以下步骤：

获取待测样本的基因测序数据，根据测序数据计算出每个区域的原始拷贝数，基于原始拷贝数构建特征值；

根据特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果；

对预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

在一些实施例中，还包括：

根据第二种独立检测方法结果判断的阴性扩增样本集合和阳性扩增样本集合构建训练集和测试集；

构建XGBOOST模型，并通过训练集对XGBOOST模型进行训练；

通过测试集对训练后的XGBOOST模型进行校验，若校验通过，则将训练后的XGBOOST模型作为用于预测基因拷贝数扩增状态的扩增预测模型。

在一些实施例中，以原始拷贝数及其相应的统计数据作为特征值，构成特征矩阵输入扩增预测模型。

在一些实施例中，统计数据包括原始拷贝数的最大值、原始拷贝数的最小值、原始拷贝数最大值的占比，原始拷贝数最小值的占比、每个区域杂合SNP位点的偏移、杂合SNP位点占总SNP位点比例、原始拷贝数的标准差。

在一些实施例中，对预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数具体包括以下步骤：

采用线性回归方法建立阳性扩增的基因的原始拷贝数和第二种独立检测方法结果的函数关系；

将阳性扩增的基因的原始拷贝数代入函数关系，并计算出矫正后的拷贝数。

在一些实施例中，获取基因测序数据，根据测序数据计算出每个区域的原始拷贝数具体包括以下步骤：

对待测样本进行DNA抽提，采用常规的DNA建库方法得到待测文库，并通过高通量测序技术对待测文库进行测序，得到测序数据；

将测序数据进行前处理；

根据前处理后的阴性样本的测序数据建立基线，对待测样本进行基线矫正，得到每个区域的log2Ratio；

根据人类基因组的序列计算每个区域的GC含量，并和对应的log2Ratio作线性回归，根据线性回归结果矫正得到的GC含量偏差计算出每个区域的拷贝数。

在一些实施例中，前处理具体包括：

将测序数据进行基因组比对，去除PCR扩增引入的重复序列；

统计每个区域中每个碱基的去重后的深度信息，并估计每个目标区域的期望深度。

在一些实施例中，估计每个目标区域的期望深度具体包括：将每个区域中每个碱基的去重后的深度信息进行正态分布拟合，采用最大似然估计法估计该区域的期望深度。

在一些实施例中，根据前处理后的阴性样本的测序数据建立基线，对待测样本进行基线矫正，得到每个区域的log2Ratio具体包括：

根据正常细胞系以及待测样本的测序数据估算出每个区域的期望深度，基于文库大小进行文库归一化，将与正常细胞系相关性最高的待测样本作为阴性样本建立基线，根据基线计算每个目标区域的log2Ratio。

在一些实施例中，根据基线计算每个目标区域的log2Ratio具体采用以下公式：

其中，baseline和tumor中的target分别表示阴性样本和待测样本的具体区域的期望深度，baseline和tumor中的targets分别表示阴性样本和待测样本的所有目标区域的期望深度集合。

在一些实施例中，根据线性回归结果矫正得到的GC含量偏差计算出每个区域的拷贝数具体采用以下公式：

correct_log2Ratio＝log2Ratio-log2Ratio(GC bais)；

raw_copynumber＝2^{(correct_log2Ratio+1)}；

其中，log2Ratio(GC bais)为GC含量偏差，raw_copynumber为原始拷贝数。

第二方面，本申请的实施例提供了一种基因拷贝数扩增检测装置，包括：

原始拷贝数计算模块，被配置为获取待测样本的基因测序数据，根据测序数据计算出每个区域的原始拷贝数，基于原始拷贝数构建特征值；

预测模块，被配置为根据特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果；

矫正模块，被配置为对预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

第三方面，本申请的实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

与现有技术相比，本发明具有以下有益效果：

(1)本发明利用建立阴性样本基线的方法进行文库归一化，无需源自自体的正常组织对照，更符合临床实际使用的取样需求。另外，同时也省去了对照样本的实验成本，节约了更多的经济成本。

(2)本发明适用于NGS小panel，由于其目标区域较小，使用成本较低。

(3)本发明通过正态分布拟合区域的期望深度，PON归一化，GC含量矫正等降噪处理，能有效地降低实验因素导致的偏差。本发明充分考虑了多基因共扩增的情形和可能存在的实验偏差，能有效地检测出基因拷贝数扩增的情况，能显著降低成本和提高临床实用性。

(4)本发明将探针在小panel可能存在的竞争性捕获关系考虑到算法中，能有效地提高检测的灵敏度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本发明的实施例的基因拷贝数扩增检测方法的流程示意图；

图3为本发明的实施例的基因拷贝数扩增检测方法的步骤S1的流程示意图；

图4为本发明的实施例的基因拷贝数扩增检测方法的步骤S12的流程示意图；

图5为本发明的实施例的基因拷贝数扩增检测方法的扩增预测模型的训练及构建过程的流程示意图；

图6为本发明的实施例的基因拷贝数扩增检测方法的步骤S3的流程示意图；

图7为本发明的实施例的基因拷贝数扩增检测装置的示意图；

图8为本发明的实施例与对比例的结果图，其中图8(a)为本申请的实施例的拷贝数与ddPCR的相关性结果图，图8(b)为本申请的对比例的拷贝数与ddPCR的相关性结果图；

图9是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的基因拷贝数扩增检测方法或基因拷贝数扩增检测装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的基因拷贝数扩增检测方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基因拷贝数扩增检测装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

图2示出了本申请的实施例提供的一种基因拷贝数扩增检测方法，包括以下步骤：

S1，获取待测样本的基因测序数据，根据测序数据计算出每个区域的原始拷贝数，基于原始拷贝数构建特征值。

在具体的实施例中，如图3所示，步骤S1具体包括以下步骤：

S11，对待测样本进行DNA抽提，采用常规的DNA建库方法得到待测文库，并通过高通量测序技术对待测文库进行测序，得到测序数据；

S12，将测序数据进行前处理；如图4所示，步骤S12具体包括：

S121，将测序数据进行基因组比对，去除PCR扩增引入的重复序列；

S122，统计每个区域中每个碱基的去重后的深度信息，并估计每个目标区域的期望深度。其中将每个区域范围内的碱基的深度信息进行正态分布拟合，采用最大似然估计法估计该区域的期望深度。

S13，根据前处理后的阴性样本的测序数据建立基线，对待测样本进行基线矫正，得到每个区域的log2Ratio；具体包括：

根据正常细胞系以及待测样本的测序数据估算出每个区域的期望深度，基于文库大小进行文库归一化，将与正常细胞系相关性最高的待测样本作为阴性样本建立基线，根据基线计算每个目标区域的log2Ratio。在具体的实施例中，可选用皮尔森相关系数作为阴性样本的判定依据。例如可以选择皮尔森相关系数>0.9的待测样本作为阴性样本。

在具体的实施例中，根据基线计算每个目标区域的log2Ratio具体采用以下公式：

S14，根据人类基因组的序列计算每个区域的GC含量，并和对应的log2Ratio作线性回归，根据线性回归结果矫正得到的GC含量偏差计算出每个区域的拷贝数。

具体地，计算每个目标区域的GC含量，并采用对应的log2Ratio进行线性回归。然后根据回归结果矫正由于GC含量引起的偏差(log2Ratio(GC bais))，计算出每个区域的拷贝数。基因的拷贝数＝在该基因范围内的区域拷贝数的中位数。

在具体的实施例中，根据线性回归结果矫正得到的GC含量偏差计算出每个区域的拷贝数具体采用以下公式：

correct_log2Ratio＝log2Ratio-log2Ratio(GC bais)；

raw_copynumber＝2^{(correct_log2Ratio+1)}；

由于某些样本存在小panel范围内多个基因的共同扩增，这些发生扩增的区域会对未发生扩增的区域的结合形成干扰，造成测序深度以及CNV统计的偏差。为了评估和矫正这种干扰的影响，采用以下扩增预测模型对基因拷贝数扩增状态进行预测，并对扩增的基因拷贝数进行矫正。

S2，根据特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果。

在具体的实施例中，如图5所示，扩增预测模型的训练及构建过程包括以下步骤：

S21，根据第二种独立检测方法结果判断的阴性扩增样本集合和阳性扩增样本集合构建训练集和测试集；

S22，构建XGBOOST模型，并通过训练集对XGBOOST模型进行训练；

S23，通过测试集对训练后的XGBOOST模型进行校验，若校验通过，则将训练后的XGBOOST模型作为用于预测基因拷贝数扩增状态的扩增预测模型。

在具体的实施例中，待测样本包括训练集和测试集，训练集包括阴性扩增样本集合和阳性扩增样本集合。第二种独立检测方法包括数字PCR、CGH芯片、SNP芯片、NGS-WES、FISH等。在本申请的实施例中以数字PCR的检测结果作为示例，当然也可以采用其他第二种独立检测方法结果判断阴性扩增样本集合和阳性扩增样本集合，对训练集和测试集进行标引。以原始拷贝数及其相应的统计数据作为特征值，构成特征矩阵输入扩增预测模型。统计数据包括原始拷贝数的最大值、原始拷贝数的最小值、原始拷贝数最大值的占比，原始拷贝数最小值的占比、每个区域杂合SNP位点的偏移、杂合SNP位点占总SNP位点比例、原始拷贝数的标准差。通过训练集对XGBOOST模型进行训练，并通过测试集对训练得到的XGBOOST模型进行校验，最终得到训练好的XGBOOST模型作为扩增预测模型。再将扩增状态未知的待测样本的原始拷贝数及其相应的统计数据作为特征值输入扩增预测模型中，输出预测结果，预测结果包括待测样本为阳性扩增或阴性扩增。阳性扩增即为存在基因拷贝数扩增，阴性扩增则为不存在基因拷贝数扩增。

S3，对预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

在具体的实施例中，如图6所示，步骤S3包括以下步骤：

S31，采用线性回归方法建立阳性扩增的基因的原始拷贝数和第二种独立检测方法结果的函数关系；

S32，将阳性扩增的基因的原始拷贝数代入函数关系，并计算出矫正后的拷贝数。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种基因拷贝数扩增检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请实施例提供了一种基因拷贝数扩增检测装置，包括：

原始拷贝数计算模块1，被配置为获取待测样本的基因测序数据，根据测序数据计算出每个区域的原始拷贝数，基于原始拷贝数构建特征值；

预测模块2，被配置为根据特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果；

矫正模块3，被配置为对预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

在具体的实施例中，原始拷贝数计算模块1具体包括：

测序模块，被配置为对待测样本进行DNA抽提，采用常规的DNA建库方法得到待测文库，并通过高通量测序技术对待测文库进行测序，得到测序数据；

前处理模块，被配置为将测序数据进行前处理；前处理模块具体包括：

比对模块，被配置为将测序数据进行基因组比对，去除PCR扩增引入的重复序列；

期望深度估计模块，被配置为统计每个区域中每个碱基的去重后的深度信息，并估计每个目标区域的期望深度。其中将每个区域范围内的碱基的深度信息进行正态分布拟合，采用最大似然估计法估计该区域的期望深度。

基线矫正模块，被配置为根据前处理后的阴性样本的测序数据建立基线，对待测样本进行基线矫正，得到每个区域的log2Ratio；具体包括：

GC含量矫正模块，被配置为根据人类基因组的序列计算每个区域的GC含量，并和对应的log2Ratio作线性回归，根据线性回归结果矫正得到的GC含量偏差计算出每个区域的拷贝数。

correct_log2Ratio＝log2Ratio-log2Ratio(GC bais)；

raw_copynumber＝2^{(correct_log2Ratio+1)}；

在具体的实施例中，扩增预测模型的训练及构建具体包括：

集合构建模块，被配置为根据第二种独立检测方法结果判断的阴性扩增样本集合和阳性扩增样本集合构建训练集和测试集；

模型训练模块，被配置为构建XGBOOST模型，并根据训练集对XGBOOST模型进行训练；

模型测试模块，被配置为根据测试集对训练后的XGBOOST模型进行校验，若校验通过，则将训练后的XGBOOST模型作为用于预测基因拷贝数扩增状态的扩增预测模型。

在具体的实施例中，待测样本包括训练集和测试集，训练集包括阴性扩增样本集合和阳性扩增样本集合。以原始拷贝数及其相应的统计数据作为特征值，构成特征矩阵输入扩增预测模型。统计数据包括原始拷贝数的最大值、原始拷贝数的最小值、原始拷贝数最大值的占比，原始拷贝数最小值的占比、每个区域杂合SNP位点的偏移、杂合SNP位点占总SNP位点比例、原始拷贝数的标准差。通过训练集对XGBOOST模型进行训练，并通过测试集对训练得到的XGBOOST模型进行校验，最终得到训练好的XGBOOST模型作为扩增预测模型。再将扩增状态未知的待测样本的原始拷贝数及其相应的统计数据作为特征值输入扩增预测模型中，输出预测结果，预测结果包括待测样本为阳性扩增或阴性扩增。阳性扩增即为存在基因拷贝数扩增，阴性扩增则为不存在基因拷贝数扩增。

在具体的实施例中，矫正模块3包括以下步骤：

线性回归模块，被配置为采用线性回归方法建立阳性扩增的基因的原始拷贝数和第二种独立检测方法结果的函数关系；

拷贝数矫正模块，被配置为将阳性扩增的基因的原始拷贝数代入函数关系，并计算出矫正后的拷贝数。

下面以捕获方法的NGS小panel(10个基因)检测MET拷贝数扩增作为示例进行解释。

分别以70例临床样本和40例临床样本作为本实例的训练集和测试集。根据艾德生物有限公司的人类10基因突变检测试剂盒(注册号：国械注准20183400507)的说明书进行建库、捕获，然后在Novaseq上测序。同时用数字PCR方法(ddPCR)检测训练集和测试集的MET基因的拷贝数，作为第二种独立检测方法的结果。

在数据的前期处理过程中，采用艾德生物有限公司的人类12基因突变分析软件(注册编号：闽械注准20192210052)分析测序数据，并得到矫正后的bam文件。然后用开源软件samtools计算靶向区域的位点深度，对每个靶向区域进行正态拟合，求出期望深度。最后利用靶向区域的中位深度进行文库归一化。

在确定阴性样本和建立基线过程中，对正常细胞系293T(CRL-3216^TM)和艾德生物有限公司的NGS10临床样本同步进行数据的前期处理，然后计算这些临床样本和NC293的皮尔森相关系数，选取皮尔森相关系数大于0.9的样本作为阴性样本。最后，采用阴性样本的中位数作为该靶向区域的基线。

对训练集和测试集进行基线矫正，得到每个靶向区域的log2Ratio。根据人类基因组的序列计算每个靶向区域的GC含量，并和对应的log2Ratio作线性回归，将GC含量引起的偏差矫正到同一水平。计算每个靶向区域的拷贝数(CN)，CN＝2^(log2Ratio+1)。然后计算基因的原始拷贝数＝在该基因范围内的靶向区域拷贝数的中位数。

利用训练集的10个基因的原始拷贝数及其相应的统计参数作为特征，ddPCR的MET拷贝数作为结果，来评估共扩增的影响。主要包括两个步骤：步骤1，判定MET基因的扩增状态。以MET原始拷贝数，10基因原始拷贝数的最大值，10基因原始拷贝数的最小值，10基因原始拷贝数最大值的占比，10基因原始拷贝数最小值的占比，MET区域杂合SNP位点的偏移，杂合SNP位点占总SNP位点比例，10个基因原始拷贝数的标准差等作为XGBOOST模型的特征值，以ddPCR判断的MET扩增阴阳性作为结果(本实施例中以ddPCR>3.5为MET扩增阳性阈值)，共同建立MET扩增预测模型。步骤2，对MET阳性扩增样本进行拷贝数矫正。根据阳性扩增样本的MET原始拷贝数和ddPCR拷贝数建立线性回归，找到两者对应的函数关系，建立MET扩增拷贝数矫正模型。对于MET扩增预测阳性扩增的样本，将进入MET扩增拷贝数矫正模型进行MET拷贝数矫正。

采用上述的方法计算测试集的MET拷贝数。作为对比例，采用开源软件cnvkit评估临床样本的MET拷贝数。如图8(a)所示，在MET拷贝数的估算方面，本发明的拷贝数扩增结果和ddPCR的相关性更高，spearman-corr达到0.86。如图8(b)所示，对比例的拷贝数扩增结果和ddPCR的相关性较低，其spearman-corr只有0.45。由此可见，本发明能有效地降低实验因素导致的偏差，提高检测的灵敏度。

下面参考图9，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置900的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机装置900包括中央处理单元(CPU)901和图形处理器(GPU)902，其可以根据存储在只读存储器(ROM)903中的程序或者从存储部分909加载到随机访问存储器(RAM)904中的程序而执行各种适当的动作和处理。在RAM 904中，还存储有装置900操作所需的各种程序和数据。CPU 901、GPU902、ROM 903以及RAM904通过总线905彼此相连。输入/输出(I/O)接口906也连接至总线905。

以下部件连接至I/O接口906：包括键盘、鼠标等的输入部分907；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分908；包括硬盘等的存储部分909；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分910。通信部分910经由诸如因特网的网络执行通信处理。驱动器911也可以根据需要连接至I/O接口906。可拆卸介质912，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器911上，以便于从其上读出的计算机程序根据需要被安装入存储部分909。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分910从网络上被下载和安装，和/或从可拆卸介质912被安装。在该计算机程序被中央处理单元(CPU)901和图形处理器(GPU)902执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待测样本的基因测序数据，根据测序数据计算出每个区域的原始拷贝数，基于原始拷贝数构建特征值；根据特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果；对预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基因拷贝数扩增检测方法，其特征在于，包括以下步骤：

获取待测样本的基因测序数据，根据所述测序数据计算出每个区域的原始拷贝数，具体包括以下步骤：

对待测样本进行DNA抽提，采用常规的DNA建库方法得到待测文库，并通过高通量测序技术对所述待测文库进行测序，得到测序数据；

将所述测序数据进行前处理；

根据前处理后的阴性样本的所述测序数据建立基线，对待测样本进行基线矫正，得到每个区域的log2Ratio；

根据人类基因组的序列计算每个区域的GC含量，并和对应的log2Ratio作线性回归，根据线性回归结果矫正得到的GC含量偏差计算出每个区域的原始拷贝数，基于所述原始拷贝数构建特征值；

根据所述特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果；

对所述预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

2.根据权利要求1所述的基因拷贝数扩增检测方法，其特征在于，还包括：

构建XGBOOST模型，并通过所述训练集对所述XGBOOST模型进行训练；

通过所述测试集对训练后的所述XGBOOST模型进行校验，若校验通过，则将训练后的所述XGBOOST模型作为用于预测基因拷贝数扩增状态的扩增预测模型。

3.根据权利要求1所述的基因拷贝数扩增检测方法，其特征在于，以所述原始拷贝数及其相应的统计数据作为特征值，构成特征矩阵输入所述扩增预测模型。

4.根据权利要求3所述的基因拷贝数扩增检测方法，其特征在于，所述统计数据包括原始拷贝数的最大值、原始拷贝数的最小值、原始拷贝数最大值的占比，原始拷贝数最小值的占比、每个区域杂合SNP位点的偏移、杂合SNP位点占总SNP位点比例、原始拷贝数的标准差。

5.根据权利要求1所述的基因拷贝数扩增检测方法，其特征在于，所述对所述预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数具体包括以下步骤：

采用线性回归方法建立所述阳性扩增的基因的原始拷贝数和第二种独立检测方法结果的函数关系；

将所述阳性扩增的基因的原始拷贝数代入所述函数关系，并计算出矫正后的拷贝数。

6.根据权利要求1所述的基因拷贝数扩增检测方法，其特征在于，所述前处理具体包括：

将所述测序数据进行基因组比对，去除PCR扩增引入的重复序列；

7.根据权利要求6所述的基因拷贝数扩增检测方法，其特征在于，所述估计每个目标区域的期望深度具体包括：将每个区域中每个碱基的去重后的深度信息进行正态分布拟合，采用最大似然估计法估计该区域的期望深度。

8.根据权利要求1所述的基因拷贝数扩增检测方法，其特征在于，所述根据前处理后的阴性样本的所述测序数据建立基线，对待测样本进行基线矫正，得到每个区域的log2Ratio具体包括：

根据正常细胞系以及待测样本的测序数据估算出每个区域的期望深度，基于文库大小进行文库归一化，将与正常细胞系相关性最高的所述待测样本作为阴性样本建立基线，根据所述基线计算每个目标区域的log2Ratio。

9.根据权利要求8所述的基因拷贝数扩增检测方法，其特征在于，所述根据所述基线计算每个目标区域的log2Ratio具体采用以下公式：

其中，baseline和tumor中的target分别表示所述阴性样本和待测样本的具体区域的期望深度，baseline和tumor中的targets分别表示所述阴性样本和待测样本的所有目标区域的期望深度集合。

10.根据权利要求9所述的基因拷贝数扩增检测方法，其特征在于，所述根据线性回归结果矫正得到的GC含量偏差计算出每个区域的拷贝数具体采用以下公式：

correct_log2Ratio＝log2Ratio log2Ratio(CC bais)；

raw_copynumber＝2^{(correot log2Ratio+1)}；

其中，log2Ratio(CC bais)为GC含量偏差，raw_copynumber为原始拷贝数。

11.一种基因拷贝数扩增检测装置，其特征在于，包括：

原始拷贝数计算模块，被配置为获取待测样本的基因测序数据，根据所述测序数据计算出每个区域的原始拷贝数，具体包括以下步骤：

将所述测序数据进行前处理；

预测模块，被配置为根据所述特征值采用基于XGBOOST算法的扩增预测模型对每个基因进行基因拷贝数扩增预测，得到预测结果；

矫正模块，被配置为对所述预测结果为阳性扩增的基因进行拷贝数矫正，计算出矫正后的拷贝数。

12.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。