CN111627498B

CN111627498B - 一种测序数据gc偏向性校正的方法及其装置

Info

Publication number: CN111627498B
Application number: CN202010436420.XA
Authority: CN
Inventors: 林浩翔; 况霓; 黄毅; 易鑫; 杨玲; 吴玲清
Original assignee: Shenzhen Guiinga Medical Laboratory; Beijing Jiyinjia Medical Laboratory Co ltd
Current assignee: Shenzhen Guiinga Medical Laboratory; Beijing Jiyinjia Medical Laboratory Co ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2022-10-04
Anticipated expiration: 2040-05-21
Also published as: CN111627498A

Abstract

一种测序数据GC偏向性校正的方法，包括如下步骤：获取基因组的测序数据比对数据可供计算分析区间R；从可供计算分析区间R中获取最高频率片段长度数F；通过对区间R进行不重复的抽样，抽样数N小于或等于区间R的总长度；计算每一个抽出的位置P对应的如下A)‑B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；汇总每一个位置上述的数值，对每一个Gp值进行分层统计，最终计算每一个Gp值对应的GC片段比例；将测序深度除以Rgc进行测序深度计算修正。本发明的GC偏向性校正方法构建的模型，修正效果好。

Description

一种测序数据GC偏向性校正的方法及其装置

技术领域

本发明涉及测序数据分析领域，特别是涉及一种测序数据GC偏向性校正的方法及其装置。

背景技术

现代的测序包含了多个不同的步骤。第一步是样品遗传物质的收集，例如DNA从血液中的提取。建库，对DNA等遗传物质进行打断处理，对目标长度的DNA碎片进行筛选并进行PCR的扩增。最后是测序仪对建库后的DNA进行基因测序，并通过生物信息学的方法对测序仪下机的数据进行分析处理。但在PCR扩增的过程中往往会引入GC偏向性。基因组上G碱基和C碱基含量较低和较高的区域，测序的片段覆盖得更少。通过观察不同GC含量上面测序深度的分布，呈现单峰分布。而人类基因组大部分区域是低GC的区域，这些区域的测序深度都会偏低。而少部分GC偏向性较高的基因组区域又会出现偏高深度的情况。

GC偏向性导致测序深度在基因组区域上面的覆盖度不均匀。这导致后续的各种生物信息学分析出现各种问题，例如基因组拷贝数分析会出现错误的拷贝数扩增或者减少，进而导致肿瘤含量估计出现错误以及SNP频率估计有偏等。而目前，也有很多针对GC偏向性校正的方法(1、Yoon S,Xuan Z,Makarov V,Ye K,Sebat J.Sensitive and accuratedetection of copy number variants using read depth of coverage.GenomeRes.2009；19:1586；2、Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization.Bioinformatics.2011；27:268.A；3、ReadDepth:a Parallel R Package for detecting copy number alterations fromshort sequencing reads.PLoS One.2011；6:e16327.)。大部分都是通过设置一个较大的窗口例如几十K到几十M，统计每一个窗口上面的测序读长(read)数目(count)或者测序片段(fragment)数目。并对每一个窗口进行GC含量的统计。使用LOESS等方法对GC含量/count的数据进行拟合，并通过read count减去拟合值或者除拟合值的方法进行校正。但该方法对于偏向性较严重的测序数据，校正效果并不理想。而且对于窗口大小的选取往往会遇到挑战，窗口大小往往受后续分析所约束，对于低深度的测序数据，过小的窗口会导致readcount的波动过大，而窗口过大又会减弱校正的能力，目前还没有一个比较好的方法去辅助决定窗口的大小，对于不同的数据选用不同的窗口参数又会为后续的分析带来干扰。而且该方法并没有考虑到基因组的拷贝数变异会影响read count这个因素。

发明内容

本发明要解决的技术问题在于克服现有技术中的GC偏向性会导致测序深度在基因组区域上面的覆盖度不均，这导致后续的各种生物信息学分析出现各种问题缺陷，从而提供一种测序数据GC偏向性校正的方法及其装置。

为此，本发明提供了如下的技术方案：

本发明提供了一种测序数据GC偏向性校正的方法，包括如下步骤：获取基因组的测序数据比对数据可供计算分析区间R；

从可供计算分析区间R中获取最高频率片段长度数F；

通过对区间R进行不重复的抽样，抽样数N小于或等于区间R的总长度；计算每一个抽出的位置P对应的如下A)-B)的参数:

A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；

B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；

汇总每一个位置上述的数值，对每一个Gp值进行分层统计，得到每一个Gp值对应的所有位置的总数Ngc，每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc，分别计算所有Fgc和Ngc的总和，得到SumFgc和sumNgc；计算放大系数z＝sumNgc/sumFgc，最终计算每一个Gp值对应的GC片段比例Rgc＝Fgc*z/Ngc；

将测序深度除以Rgc进行测序深度计算修正。

进一步地，

对Rgc进行校正处理得到R’gc；

将测序深度除以R’gc进行测序深度计算修正。

进一步地，

获取最高频率片段长度数F的方法为：对基因组测序数据的比对数据进行小于或等于总片段数的抽样，统计片段长度并记数，找到最高频数对应的片段长度数F。

进一步地，

对Rgc进行校正处理步骤中，若Gp/F小于或等于最低限度或高于或等于最高限度，则所述Gp值对应的Rgc设置成为1；

所述最低限度为0.15；

所述最高限度为0.85。

进一步地，

若Gp/F位于最低限度和最高限度之间，则对Rgc进行数据平滑处理。

进一步地，

在获取基因组的测序数据比对数据可供计算分析区间R步骤中，包括排除基因组组装缺失区间、基因组多变区域和/或发生拷贝数变化的区域。

本申请还提供一种测序数据GC偏向性校正的装置，其特征在于，包括：

获取基因组的测序数据比对数据可供计算分析区间R单元，用于获取基因组可供计算分析区间R；

获取最高频率片段长度数F单元，用于从基因组测序数据的比对数据中获取最高频率片段长度数F；

GC片段比例Rgc计算单元，通过对区间R进行不重复的抽样，抽样数N小于或等于区间R的总长度；计算每一个抽出的位置P对应的如下A)-B)的参数:

A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；

B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；

测序深度计算修正单元，将测序深度除以Rgc进行测序深度计算修正。

进一步地，

还包括Rgc校正处理单元，用于对Rgc进行校正处理得到R’gc；相应的测序深度计算修正单元为测序深度除以R’gc；

和/或；

在获取最高频率片段长度数F单元中包括：

抽样单元，用于对基因组测序数据的比对数据进行小于或等于总片段数的抽样；

统计单元，用于统计所述抽样单元中抽取的片段长度并记数，找到最高频数对应的片段长度数F。

进一步地，

在Rgc校正处理单元中包括：

第一Rgc校正处理单元，用于在Gp/F值小于或等于最低限度或高于或等于最高限度时，将所述Gp值对应的Rgc设置成为1；

第二Rgc校正处理单元，用于在Gp/F值位于最低限度和最高限度之间时，将Rgc进行数据平滑处理；

所述最低限度为0.15；所述最高限度为0.85。

进一步地，

在获取基因组的测序数据比对数据可供计算分析区间R单元中，包括排除基因组组装缺失区间单元、排除基因组多变区域单元和/或排除发生拷贝数变化的区域单元。

本发明技术方案，具有如下优点：

1、本发明的一种测序数据GC偏向性校正的方法，包括如下步骤：获取基因组的测序数据比对数据可供计算分析区间R；从基因组测序数据的比对数据中获取最高频率片段长度数F；通过对区间R进行不重复的抽样，抽样数N小于或等于区间R的总长度；计算每一个抽出的位置P对应的如下A)-B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；汇总每一个位置上述的数值，对每一个Gp值进行分层统计，得到每一个Gp值对应的所有位置的总数Ngc，每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc，分别计算所有Fgc和Ngc的总和，得到SumFgc和sumNgc；计算放大系数z＝sumNgc/sumFgc，最终计算每一个Gp值对应的GC片段比例Rgc＝Fgc*z/Ngc；将测序深度除以Rgc进行测序深度计算修正；上述的测序数据GC偏向性校正方法方法，不会因为某个片段的GC的观察数过少导致波动过大影响后续修正，GC偏向性比较高的样本，修正效果更好，可以适用于各种深度的全基因组数据，且由于校正的时候是对于每一个reads或者fragment进行校正的，后续分析不像其他通过窗口统计窗口深度方法那样受到窗口大小的限制。

2、本发明的一种测序数据GC偏向性校正的方法，若Gp/F位于最低限度和最高限度之间，则对Rgc进行数据平滑处理，通过对Rgc进行了平滑处理，使得数据波动比较稳健，不会因为某个GC的观察数过少导致波动过大影响后续修正。

3、本发明的一种测序数据GC偏向性校正的方法，在获取基因组的测序数据比对数据可供计算分析区间R步骤中，包括排除基因组组装缺失区间、基因组多变区域和/或发生拷贝数变化的区域的步骤，采样的时候对采样区域的CNV进行了判断，不会因为数据的CNV对深度校正产生太大的影响。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例2中步骤3中的方法示例图。

图2是本发明实施例2中修正前的GC片段比例和GC值之间的关系图，纵坐标表示每一个GC值对应的Rgc值；GC值＝Gp/F值；

图3是本发明实施例2中修正后的GC片段比例和GC值之间的关系图，横坐标表示GC值，纵坐标表示每一个GC值对应的R’gc值；GC值＝Gp/F值。

图4是测序数据GC偏向性校正的装置示意图。

具体实施方式

为了便于理解本发明的目的、技术方案和要点，下面将对本发明的实施方式作进一步详细描述。本发明可以多种不同的形式实施，而不应该被理解为仅限于在此阐述的实施例。相反，提供此实施例，使得本发明将是彻底的和完整的，并且将把本发明的构思充分传达给本领域技术人员，本发明将仅由权利要求来限定。

实施例1、全基因组测序数据GC偏向性校正方法的建立

(1)对样本的全基因组cfDNA测序。使用BWA软件对测序数据进行比对，先使用MEM(maximal exact matches)进行seeding alignments，再使用SW(affine-gap Smith-Waterman)算法进行seeds的延伸，产生比对文件BAM。其中BWA软件使用方法及参数为“bwamem-Y-M-t 24比对参考文件fq1 fq2”，进而对生成的BAM文件进行分析。

(2)获取基因组的测序数据比对数据即BAM文件中可供计算分析区间R，排除基因组组装缺失区间，排除基因组多变区域和发生拷贝数变化的区域。其中，组装缺失区间和基因组多变区域，来自网上公共数据库encode和NCBI(Igor,Dolgalev,Fritz,等.DangerTrack:A scoring system to detect difficult-to-assess regions.[J].F1000research,2017)。样本发生拷贝数变化的区域计算方法，选取1Mb的窗口对测序深度进行统计，排除偏离超过平均值+/-3个标准差的窗口。

(3)获取最高频率片段长度数F，具体为在步骤(2)得到的可供计算分析区间R内进行小于或等于总片段数的抽样，统计片段长度并记数，找到最高频数(mode值)对应的片段长度数。

(4)通过对区间R进行不重复的抽样，抽样数N小于或等于R总长度。计算每一个位置P对应的如下几个参数:

A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp。

B)位置P上比对片段数Fp，片段的起始位置为位置P。

汇总每一个位置上述的数值，对每一个Gp值进行分层统计，得到每一个Gp值对应的所有位置的总数Ngc，例如有100个位置Gp为10,Ngc为100,有200个位置Gp为20，Ngc为200,如此类推。每一个Gp值对应的所有位置的Fp的总数，Fgc。计算每一个Gp值对应的Ngc和Fgc的比例,以及所有Fgc和Ngc的总和，得到SumFgc和sumNgc。计算放大系数z＝sumNgc/sumFgc。最终计算得到Fgc和Ngc之间的片段比例Rgc＝Fgc*z/Ngc。

(5)对Rgc进行校正处理。对于某些Gp的抽样数会偏少，特别是高GC和低GC的区域。对于低深度的测序数据，例如1x～2x的数据，某些Gp的抽样数容易波动。所以需要对其进行处理。如果Gp/F的值小于等于0.15或者大于等于0.85，Rgc设置成为1，因为这些区域Gp/F值较为低或者高，采样数往往非常少，会导致计算偏差较大，而且占基因组的区域非常小，设置为1意味着不对Gp/F进行校正。Gp/F值在0.15至0.85之间的片段使用数据平滑的方法-高斯核密度平滑，对数据进行平滑。Rgc经过处理后得到R’gc。

(6)窗口深度计算修正。对于每一条reads或者fragment，在计算比对窗口深度时使用测序深度/R’gc进行窗口深度计算修正。

实施例2、全基因组测序数据GC偏向性校正方法的验证

1、取一个正常男性且无疾病史的样本，使用外周血进行低深度(深度为1X)全基因组cfDNA测序。测序产生1.03X的数据，按照实施例1的方法对数据进行比对产生比对文件BAM，比对的参考基因组是hs37d5.fa，对BAM文件进行分析。按照实施例1的方法获得基因组组装缺失区间、基因组多变区域和样本的拷贝数变化的区域后，将基因组的BAM文件中的组装缺失区间，基因组多变区域和样本发生拷贝数变化的区域排除，获得基因组的测序数据比对数据可供计算分析区间R。

2、获取最高频率片段长度数F，可供计算分析区间R内进行小于或等于总片段数的抽样，统计片段长度并记数，找到最高频数(mode值)对应的片段长度数，计算得到fragment的mode值为167。

3、通过对区间R进行不重复的抽样，抽样数N小于或等于R总长度，有效基因组采样范围总长度为2048390499。计算每一个位置P对应以下几个参数：

A)位置P到P+F的GC碱基的个数Gp；

B)位置P上比对片段数Fp，需要片段的起始位置等于位置P；

汇总每一个位置上述的数值，对每一个Gp值进行分层统计，得到每一个Gp值对应位置的总数Ngc，例如有100个位置Gp为10,Ngc为100,有200个位置Gp为20，Ngc为200,如此类推。计算每一个Gp值对应位置的Fp的总数Fgc。分别计算所有Fgc和Ngc的总和，得到SumFgc和sumNgc；计算放大系数z＝sumNgc/sumFgc，最终计算每一个Gp值对应的GC片段比例Rgc＝Fgc*z/Ngc；

4、对Rgc进行校正处理。对于某些Gp的抽样数会偏少，特别是高GC和低GC的区域。样本的测序深度为1X，某些Gp/F值的抽样数容易波动，所以需要对其进行处理。如果Gp/F小于0.15或者大于0.85，Rgc设置成为1，因为这些区域Gp/F值较为低或者高，抽样数往往非常少，会导致计算偏差较大，而且占基因组的区域非常小，设置为1意味着不对GC进行矫正。GC占总碱基的比例在0.15至0.85之间的GC片段比例Rgc使用数据平滑的方法-高斯核密度平滑，对数据进行平滑。Rgc经过处理后得到R’gc。

5、窗口深度计算修正。对于每一条reads或者fragment，在计算比对窗口深度时将测序深度除以R’gc进行测序深度计算修正。

上述方案中得到的数据见表1。

表1各指标数据

表1中修正前后的GC片段比例和GC值之间的关系图见图2和图3。GC值＝Gp/F值。

使用GC片段比例对窗口深度进行修正，并通过窗口深度和GC片段比例的一致性和窗口深度的标准差作为评估标准。一致性越低，说明GC校正效果越好，G和C碱基总个数跟窗口深度没有关系。标准差越低说明窗口深度波动越低。

最终通过以100kb作为单位对窗口深度进行计算。修正之前窗口深度和GC片段比例(表1中Rgc)的一致性为0.49273123917792，窗口深度的标准差为0.115875354092984；修正过后窗口深度和GC片段比例(表1中R’gc)的一致性为0.114780441572064，窗口深度的标准差为0.0955236592393503。具体的计算过程为：

窗口深度和GC片段比例的一致性＝窗口深度跟GC片段比例值的皮尔森相关系数；

上述实验证明，本发明的GC偏向性校正方法构建的模型，不会因为某个片段的GC的观察数过少导致波动过大影响后续修正，GC偏向性比较高的样本，修正效果更好，且不像其他通过窗口统计窗口深度方法那样受到窗口大小的限制。

实施例3一种测序数据GC偏向性校正的装置

一种测序数据GC偏向性校正的装置，见图4，包括：获取基因组的测序数据比对数据可供计算分析区间R单元、获取最高频率片段长度数F单元、GC片段比例Rgc计算单元，Rgc校正处理单元，测序深度计算修正单元；

在获取基因组的测序数据比对数据可供计算分析区间R单元中，包括排除基因组组装缺失区间单元、排除基因组多变区域单元和/或排除发生拷贝数变化的区域单元。获取基因组的测序数据比对数据可供计算分析区间R单元用于获取基因组可供计算分析区间R。

在获取最高频率片段长度数F单元中包括：

A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；

B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；

在Rgc校正处理单元中包括：

第一Rgc校正处理单元，用于在Gp/F小于或等于最低限度或高于或等于最高限度时，将所述Gp值对应的Rgc设置成为1；

第二Rgc校正处理单元，用于在Gp/F位于最低限度和最高限度之间时，将Rgc进行数据平滑处理；

所述最低限度为0.15；所述最高限度为0.85。

Rgc经过Rgc校正处理单元处理后，得到R’gc；

测序深度计算修正单元为，将测序深度除以R’gc进行测序深度计算修正。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种测序数据GC偏向性校正的方法，其特征在于，包括如下步骤：获取基因组的测序数据比对数据可供计算分析区间R；

从可供计算分析区间R获取最高频率片段长度数F；

通过对可供计算分析区间R进行不重复的抽样，抽样数N小于或等于可供计算分析区间R的总长度；计算每一个抽出的位置P对应的如下A)-B）的参数:

A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；

B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；

汇总每一个位置上述的数值，对每一个Gp值进行分层统计，得到每一个Gp值对应的所有位置的总数Ngc，每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc，分别计算所有Fgc和Ngc的总和，得到SumFgc和sumNgc；计算放大系数z = sumNgc/sumFgc，最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc；

对Rgc进行校正处理得到R’gc；

将测序深度除以R’gc进行测序深度计算修正；

Rgc进行校正处理步骤中，若Gp/F小于或等于最低限度或高于或等于最高限度，则所述Gp值对应的Rgc设置成为1；

所述最低限度为0.15；

所述最高限度为0.85；

2.根据权利要求1项所述的测序数据GC偏向性校正的方法，其特征在于：获取最高频率片段长度数F的方法为：对基因组测序数据的比对数据进行小于或等于总片段数的抽样，统计片段长度并记数，找到最高频数对应的片段长度数F。

3.根据权利要求1-2任一项所述的测序数据GC偏向性校正的方法，其特征在于：在获取基因组的测序数据比对数据可供计算分析区间R步骤中，包括排除基因组组装缺失区间、基因组多变区域和/或发生拷贝数变化的区域的步骤。

4.一种测序数据GC偏向性校正的装置，其特征在于，包括：

GC片段比例Rgc计算单元，通过对可供计算分析区间R进行不重复的抽样，抽样数N小于或等于可供计算分析区间R的总长度；计算每一个抽出的位置P对应的如下A)-B）的参数:

A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp；

B)位置P上比对片段数Fp，所述比对片段的起始位置为位置P；

测序深度计算修正单元，将测序深度除以Rgc进行测序深度计算修正；

Rgc校正处理单元，用于对Rgc进行校正处理得到R’gc；相应的测序深度计算修正单元为测序深度除以R’gc；

在Rgc校正处理单元中包括：

所述最低限度为0.15；所述最高限度为0.85。

5.根据权利要求4所述的测序数据GC偏向性校正的装置，其特征在于，

在获取最高频率片段长度数F单元中包括：

6.根据权利要求4-5任一项所述的测序数据GC偏向性校正的装置，其特征在于，在获取基因组的测序数据比对数据可供计算分析区间R单元中，包括排除基因组组装缺失区间单元、排除基因组多变区域单元和/或排除发生拷贝数变化的区域单元。