CN111627498B - 一种测序数据gc偏向性校正的方法及其装置 - Google Patents

一种测序数据gc偏向性校正的方法及其装置 Download PDF

Info

Publication number
CN111627498B
CN111627498B CN202010436420.XA CN202010436420A CN111627498B CN 111627498 B CN111627498 B CN 111627498B CN 202010436420 A CN202010436420 A CN 202010436420A CN 111627498 B CN111627498 B CN 111627498B
Authority
CN
China
Prior art keywords
fragment
rgc
calculating
data
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010436420.XA
Other languages
English (en)
Other versions
CN111627498A (zh
Inventor
林浩翔
况霓
黄毅
易鑫
杨玲
吴玲清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Guiinga Medical Laboratory
Beijing Jiyinjia Medical Laboratory Co ltd
Original Assignee
Shenzhen Guiinga Medical Laboratory
Beijing Jiyinjia Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Guiinga Medical Laboratory, Beijing Jiyinjia Medical Laboratory Co ltd filed Critical Shenzhen Guiinga Medical Laboratory
Priority to CN202010436420.XA priority Critical patent/CN111627498B/zh
Publication of CN111627498A publication Critical patent/CN111627498A/zh
Application granted granted Critical
Publication of CN111627498B publication Critical patent/CN111627498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;从可供计算分析区间R中获取最高频率片段长度数F;通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)‑B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;汇总每一个位置上述的数值,对每一个Gp值进行分层统计,最终计算每一个Gp值对应的GC片段比例;将测序深度除以Rgc进行测序深度计算修正。本发明的GC偏向性校正方法构建的模型,修正效果好。

Description

一种测序数据GC偏向性校正的方法及其装置
技术领域
本发明涉及测序数据分析领域,特别是涉及一种测序数据GC偏向性校正的方法及其装置。
背景技术
现代的测序包含了多个不同的步骤。第一步是样品遗传物质的收集,例如DNA从血液中的提取。建库,对DNA等遗传物质进行打断处理,对目标长度的DNA碎片进行筛选并进行PCR的扩增。最后是测序仪对建库后的DNA进行基因测序,并通过生物信息学的方法对测序仪下机的数据进行分析处理。但在PCR扩增的过程中往往会引入GC偏向性。基因组上G碱基和C碱基含量较低和较高的区域,测序的片段覆盖得更少。通过观察不同GC含量上面测序深度的分布,呈现单峰分布。而人类基因组大部分区域是低GC的区域,这些区域的测序深度都会偏低。而少部分GC偏向性较高的基因组区域又会出现偏高深度的情况。
GC偏向性导致测序深度在基因组区域上面的覆盖度不均匀。这导致后续的各种生物信息学分析出现各种问题,例如基因组拷贝数分析会出现错误的拷贝数扩增或者减少,进而导致肿瘤含量估计出现错误以及SNP频率估计有偏等。而目前,也有很多针对GC偏向性校正的方法(1、Yoon S,Xuan Z,Makarov V,Ye K,Sebat J.Sensitive and accuratedetection of copy number variants using read depth of coverage.GenomeRes.2009;19:1586;2、Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization.Bioinformatics.2011;27:268.A;3、ReadDepth:a Parallel R Package for detecting copy number alterations fromshort sequencing reads.PLoS One.2011;6:e16327.)。大部分都是通过设置一个较大的窗口例如几十K到几十M,统计每一个窗口上面的测序读长(read)数目(count)或者测序片段(fragment)数目。并对每一个窗口进行GC含量的统计。使用LOESS等方法对GC含量/count的数据进行拟合,并通过read count减去拟合值或者除拟合值的方法进行校正。但该方法对于偏向性较严重的测序数据,校正效果并不理想。而且对于窗口大小的选取往往会遇到挑战,窗口大小往往受后续分析所约束,对于低深度的测序数据,过小的窗口会导致readcount的波动过大,而窗口过大又会减弱校正的能力,目前还没有一个比较好的方法去辅助决定窗口的大小,对于不同的数据选用不同的窗口参数又会为后续的分析带来干扰。而且该方法并没有考虑到基因组的拷贝数变异会影响read count这个因素。
发明内容
本发明要解决的技术问题在于克服现有技术中的GC偏向性会导致测序深度在基因组区域上面的覆盖度不均,这导致后续的各种生物信息学分析出现各种问题缺陷,从而提供一种测序数据GC偏向性校正的方法及其装置。
为此,本发明提供了如下的技术方案:
本发明提供了一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;
从可供计算分析区间R中获取最高频率片段长度数F;
通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:
A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;
B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc,分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z=sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;
将测序深度除以Rgc进行测序深度计算修正。
进一步地,
对Rgc进行校正处理得到R’gc;
将测序深度除以R’gc进行测序深度计算修正。
进一步地,
获取最高频率片段长度数F的方法为:对基因组测序数据的比对数据进行小于或等于总片段数的抽样,统计片段长度并记数,找到最高频数对应的片段长度数F。
进一步地,
对Rgc进行校正处理步骤中,若Gp/F小于或等于最低限度或高于或等于最高限度,则所述Gp值对应的Rgc设置成为1;
所述最低限度为0.15;
所述最高限度为0.85。
进一步地,
若Gp/F位于最低限度和最高限度之间,则对Rgc进行数据平滑处理。
进一步地,
在获取基因组的测序数据比对数据可供计算分析区间R步骤中,包括排除基因组组装缺失区间、基因组多变区域和/或发生拷贝数变化的区域。
本申请还提供一种测序数据GC偏向性校正的装置,其特征在于,包括:
获取基因组的测序数据比对数据可供计算分析区间R单元,用于获取基因组可供计算分析区间R;
获取最高频率片段长度数F单元,用于从基因组测序数据的比对数据中获取最高频率片段长度数F;
GC片段比例Rgc计算单元,通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:
A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;
B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc,分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z=sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;
测序深度计算修正单元,将测序深度除以Rgc进行测序深度计算修正。
进一步地,
还包括Rgc校正处理单元,用于对Rgc进行校正处理得到R’gc;相应的测序深度计算修正单元为测序深度除以R’gc;
和/或;
在获取最高频率片段长度数F单元中包括:
抽样单元,用于对基因组测序数据的比对数据进行小于或等于总片段数的抽样;
统计单元,用于统计所述抽样单元中抽取的片段长度并记数,找到最高频数对应的片段长度数F。
进一步地,
在Rgc校正处理单元中包括:
第一Rgc校正处理单元,用于在Gp/F值小于或等于最低限度或高于或等于最高限度时,将所述Gp值对应的Rgc设置成为1;
第二Rgc校正处理单元,用于在Gp/F值位于最低限度和最高限度之间时,将Rgc进行数据平滑处理;
所述最低限度为0.15;所述最高限度为0.85。
进一步地,
在获取基因组的测序数据比对数据可供计算分析区间R单元中,包括排除基因组组装缺失区间单元、排除基因组多变区域单元和/或排除发生拷贝数变化的区域单元。
本发明技术方案,具有如下优点:
1、本发明的一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;从基因组测序数据的比对数据中获取最高频率片段长度数F;通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc,分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z=sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;将测序深度除以Rgc进行测序深度计算修正;上述的测序数据GC偏向性校正方法方法,不会因为某个片段的GC的观察数过少导致波动过大影响后续修正,GC偏向性比较高的样本,修正效果更好,可以适用于各种深度的全基因组数据,且由于校正的时候是对于每一个reads或者fragment进行校正的,后续分析不像其他通过窗口统计窗口深度方法那样受到窗口大小的限制。
2、本发明的一种测序数据GC偏向性校正的方法,若Gp/F位于最低限度和最高限度之间,则对Rgc进行数据平滑处理,通过对Rgc进行了平滑处理,使得数据波动比较稳健,不会因为某个GC的观察数过少导致波动过大影响后续修正。
3、本发明的一种测序数据GC偏向性校正的方法,在获取基因组的测序数据比对数据可供计算分析区间R步骤中,包括排除基因组组装缺失区间、基因组多变区域和/或发生拷贝数变化的区域的步骤,采样的时候对采样区域的CNV进行了判断,不会因为数据的CNV对深度校正产生太大的影响。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例2中步骤3中的方法示例图。
图2是本发明实施例2中修正前的GC片段比例和GC值之间的关系图,纵坐标表示每一个GC值对应的Rgc值;GC值=Gp/F值;
图3是本发明实施例2中修正后的GC片段比例和GC值之间的关系图,横坐标表示GC值,纵坐标表示每一个GC值对应的R’gc值;GC值=Gp/F值。
图4是测序数据GC偏向性校正的装置示意图。
具体实施方式
为了便于理解本发明的目的、技术方案和要点,下面将对本发明的实施方式作进一步详细描述。本发明可以多种不同的形式实施,而不应该被理解为仅限于在此阐述的实施例。相反,提供此实施例,使得本发明将是彻底的和完整的,并且将把本发明的构思充分传达给本领域技术人员,本发明将仅由权利要求来限定。
实施例1、全基因组测序数据GC偏向性校正方法的建立
(1)对样本的全基因组cfDNA测序。使用BWA软件对测序数据进行比对,先使用MEM(maximal exact matches)进行seeding alignments,再使用SW(affine-gap Smith-Waterman)算法进行seeds的延伸,产生比对文件BAM。其中BWA软件使用方法及参数为“bwamem-Y-M-t 24比对参考文件fq1 fq2”,进而对生成的BAM文件进行分析。
(2)获取基因组的测序数据比对数据即BAM文件中可供计算分析区间R,排除基因组组装缺失区间,排除基因组多变区域和发生拷贝数变化的区域。其中,组装缺失区间和基因组多变区域,来自网上公共数据库encode和NCBI(Igor,Dolgalev,Fritz,等.DangerTrack:A scoring system to detect difficult-to-assess regions.[J].F1000research,2017)。样本发生拷贝数变化的区域计算方法,选取1Mb的窗口对测序深度进行统计,排除偏离超过平均值+/-3个标准差的窗口。
(3)获取最高频率片段长度数F,具体为在步骤(2)得到的可供计算分析区间R内进行小于或等于总片段数的抽样,统计片段长度并记数,找到最高频数(mode值)对应的片段长度数。
(4)通过对区间R进行不重复的抽样,抽样数N小于或等于R总长度。计算每一个位置P对应的如下几个参数:
A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp。
B)位置P上比对片段数Fp,片段的起始位置为位置P。
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,例如有100个位置Gp为10,Ngc为100,有200个位置Gp为20,Ngc为200,如此类推。每一个Gp值对应的所有位置的Fp的总数,Fgc。计算每一个Gp值对应的Ngc和Fgc的比例,以及所有Fgc和Ngc的总和,得到SumFgc和sumNgc。计算放大系数z=sumNgc/sumFgc。最终计算得到Fgc和Ngc之间的片段比例Rgc=Fgc*z/Ngc。
(5)对Rgc进行校正处理。对于某些Gp的抽样数会偏少,特别是高GC和低GC的区域。对于低深度的测序数据,例如1x~2x的数据,某些Gp的抽样数容易波动。所以需要对其进行处理。如果Gp/F的值小于等于0.15或者大于等于0.85,Rgc设置成为1,因为这些区域Gp/F值较为低或者高,采样数往往非常少,会导致计算偏差较大,而且占基因组的区域非常小,设置为1意味着不对Gp/F进行校正。Gp/F值在0.15至0.85之间的片段使用数据平滑的方法-高斯核密度平滑,对数据进行平滑。Rgc经过处理后得到R’gc。
(6)窗口深度计算修正。对于每一条reads或者fragment,在计算比对窗口深度时使用测序深度/R’gc进行窗口深度计算修正。
实施例2、全基因组测序数据GC偏向性校正方法的验证
1、取一个正常男性且无疾病史的样本,使用外周血进行低深度(深度为1X)全基因组cfDNA测序。测序产生1.03X的数据,按照实施例1的方法对数据进行比对产生比对文件BAM,比对的参考基因组是hs37d5.fa,对BAM文件进行分析。按照实施例1的方法获得基因组组装缺失区间、基因组多变区域和样本的拷贝数变化的区域后,将基因组的BAM文件中的组装缺失区间,基因组多变区域和样本发生拷贝数变化的区域排除,获得基因组的测序数据比对数据可供计算分析区间R。
2、获取最高频率片段长度数F,可供计算分析区间R内进行小于或等于总片段数的抽样,统计片段长度并记数,找到最高频数(mode值)对应的片段长度数,计算得到fragment的mode值为167。
3、通过对区间R进行不重复的抽样,抽样数N小于或等于R总长度,有效基因组采样范围总长度为2048390499。计算每一个位置P对应以下几个参数:
A)位置P到P+F的GC碱基的个数Gp;
B)位置P上比对片段数Fp,需要片段的起始位置等于位置P;
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应位置的总数Ngc,例如有100个位置Gp为10,Ngc为100,有200个位置Gp为20,Ngc为200,如此类推。计算每一个Gp值对应位置的Fp的总数Fgc。分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z=sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;
4、对Rgc进行校正处理。对于某些Gp的抽样数会偏少,特别是高GC和低GC的区域。样本的测序深度为1X,某些Gp/F值的抽样数容易波动,所以需要对其进行处理。如果Gp/F小于0.15或者大于0.85,Rgc设置成为1,因为这些区域Gp/F值较为低或者高,抽样数往往非常少,会导致计算偏差较大,而且占基因组的区域非常小,设置为1意味着不对GC进行矫正。GC占总碱基的比例在0.15至0.85之间的GC片段比例Rgc使用数据平滑的方法-高斯核密度平滑,对数据进行平滑。Rgc经过处理后得到R’gc。
5、窗口深度计算修正。对于每一条reads或者fragment,在计算比对窗口深度时将测序深度除以R’gc进行测序深度计算修正。
上述方案中得到的数据见表1。
表1各指标数据
Figure BDA0002502439720000081
Figure BDA0002502439720000091
Figure BDA0002502439720000101
Figure BDA0002502439720000111
Figure BDA0002502439720000121
表1中修正前后的GC片段比例和GC值之间的关系图见图2和图3。GC值=Gp/F值。
使用GC片段比例对窗口深度进行修正,并通过窗口深度和GC片段比例的一致性和窗口深度的标准差作为评估标准。一致性越低,说明GC校正效果越好,G和C碱基总个数跟窗口深度没有关系。标准差越低说明窗口深度波动越低。
最终通过以100kb作为单位对窗口深度进行计算。修正之前窗口深度和GC片段比例(表1中Rgc)的一致性为0.49273123917792,窗口深度的标准差为0.115875354092984;修正过后窗口深度和GC片段比例(表1中R’gc)的一致性为0.114780441572064,窗口深度的标准差为0.0955236592393503。具体的计算过程为:
窗口深度和GC片段比例的一致性=窗口深度跟GC片段比例值的皮尔森相关系数;
上述实验证明,本发明的GC偏向性校正方法构建的模型,不会因为某个片段的GC的观察数过少导致波动过大影响后续修正,GC偏向性比较高的样本,修正效果更好,且不像其他通过窗口统计窗口深度方法那样受到窗口大小的限制。
实施例3一种测序数据GC偏向性校正的装置
一种测序数据GC偏向性校正的装置,见图4,包括:获取基因组的测序数据比对数据可供计算分析区间R单元、获取最高频率片段长度数F单元、GC片段比例Rgc计算单元,Rgc校正处理单元,测序深度计算修正单元;
在获取基因组的测序数据比对数据可供计算分析区间R单元中,包括排除基因组组装缺失区间单元、排除基因组多变区域单元和/或排除发生拷贝数变化的区域单元。获取基因组的测序数据比对数据可供计算分析区间R单元用于获取基因组可供计算分析区间R。
在获取最高频率片段长度数F单元中包括:
抽样单元,用于对基因组测序数据的比对数据进行小于或等于总片段数的抽样;
统计单元,用于统计所述抽样单元中抽取的片段长度并记数,找到最高频数对应的片段长度数F。
GC片段比例Rgc计算单元,通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:
A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;
B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc,分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z=sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;
在Rgc校正处理单元中包括:
第一Rgc校正处理单元,用于在Gp/F小于或等于最低限度或高于或等于最高限度时,将所述Gp值对应的Rgc设置成为1;
第二Rgc校正处理单元,用于在Gp/F位于最低限度和最高限度之间时,将Rgc进行数据平滑处理;
所述最低限度为0.15;所述最高限度为0.85。
Rgc经过Rgc校正处理单元处理后,得到R’gc;
测序深度计算修正单元为,将测序深度除以R’gc进行测序深度计算修正。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (6)

1.一种测序数据GC偏向性校正的方法,其特征在于,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;
从可供计算分析区间R获取最高频率片段长度数F;
通过对可供计算分析区间R进行不重复的抽样,抽样数N小于或等于可供计算分析区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:
A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;
B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc,分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z = sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;
对Rgc进行校正处理得到R’gc;
将测序深度除以R’gc进行测序深度计算修正;
Rgc进行校正处理步骤中,若Gp/F小于或等于最低限度或高于或等于最高限度,则所述Gp值对应的Rgc设置成为1;
所述最低限度为0.15;
所述最高限度为0.85;
若Gp/F位于最低限度和最高限度之间,则对Rgc进行数据平滑处理。
2.根据权利要求1项所述的测序数据GC偏向性校正的方法,其特征在于:获取最高频率片段长度数F的方法为:对基因组测序数据的比对数据进行小于或等于总片段数的抽样,统计片段长度并记数,找到最高频数对应的片段长度数F。
3.根据权利要求1-2任一项所述的测序数据GC偏向性校正的方法,其特征在于:在获取基因组的测序数据比对数据可供计算分析区间R步骤中,包括排除基因组组装缺失区间、基因组多变区域和/或发生拷贝数变化的区域的步骤。
4.一种测序数据GC偏向性校正的装置,其特征在于,包括:
获取基因组的测序数据比对数据可供计算分析区间R单元,用于获取基因组可供计算分析区间R;
获取最高频率片段长度数F单元,用于从基因组测序数据的比对数据中获取最高频率片段长度数F;
GC片段比例Rgc计算单元,通过对可供计算分析区间R进行不重复的抽样,抽样数N小于或等于可供计算分析区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:
A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;
B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;
汇总每一个位置上述的数值,对每一个Gp值进行分层统计,得到每一个Gp值对应的所有位置的总数Ngc,每一个Gp值对应的所有位置上比对片段数Fp的总数Fgc,分别计算所有Fgc和Ngc的总和,得到SumFgc和sumNgc;计算放大系数z = sumNgc/sumFgc,最终计算每一个Gp值对应的GC片段比例Rgc=Fgc*z/Ngc;
测序深度计算修正单元,将测序深度除以Rgc进行测序深度计算修正;
Rgc校正处理单元,用于对Rgc进行校正处理得到R’gc;相应的测序深度计算修正单元为测序深度除以R’gc;
在Rgc校正处理单元中包括:
第一Rgc校正处理单元,用于在Gp/F小于或等于最低限度或高于或等于最高限度时,将所述Gp值对应的Rgc设置成为1;
第二Rgc校正处理单元,用于在Gp/F位于最低限度和最高限度之间时,将Rgc进行数据平滑处理;
所述最低限度为0.15;所述最高限度为0.85。
5.根据权利要求4所述的测序数据GC偏向性校正的装置,其特征在于,
在获取最高频率片段长度数F单元中包括:
抽样单元,用于对基因组测序数据的比对数据进行小于或等于总片段数的抽样;
统计单元,用于统计所述抽样单元中抽取的片段长度并记数,找到最高频数对应的片段长度数F。
6.根据权利要求4-5任一项所述的测序数据GC偏向性校正的装置,其特征在于,在获取基因组的测序数据比对数据可供计算分析区间R单元中,包括排除基因组组装缺失区间单元、排除基因组多变区域单元和/或排除发生拷贝数变化的区域单元。
CN202010436420.XA 2020-05-21 2020-05-21 一种测序数据gc偏向性校正的方法及其装置 Active CN111627498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010436420.XA CN111627498B (zh) 2020-05-21 2020-05-21 一种测序数据gc偏向性校正的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010436420.XA CN111627498B (zh) 2020-05-21 2020-05-21 一种测序数据gc偏向性校正的方法及其装置

Publications (2)

Publication Number Publication Date
CN111627498A CN111627498A (zh) 2020-09-04
CN111627498B true CN111627498B (zh) 2022-10-04

Family

ID=72272526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010436420.XA Active CN111627498B (zh) 2020-05-21 2020-05-21 一种测序数据gc偏向性校正的方法及其装置

Country Status (1)

Country Link
CN (1) CN111627498B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103403183A (zh) * 2011-06-29 2013-11-20 深圳华大基因健康科技有限公司 胎儿遗传异常的无创性检测
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN104156631A (zh) * 2014-07-14 2014-11-19 天津华大基因科技有限公司 染色体三倍体检验方法
CN105760712A (zh) * 2016-03-01 2016-07-13 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN106156543A (zh) * 2016-06-22 2016-11-23 厦门艾德生物医药科技股份有限公司 一种肿瘤ctDNA信息统计方法
CN108804876A (zh) * 2017-05-05 2018-11-13 中国科学院上海药物研究所 用于计算癌症样本纯度和染色体倍性的方法和装置
CN109182526A (zh) * 2018-10-10 2019-01-11 杭州翱锐生物科技有限公司 用于早期肝癌辅助诊断的试剂盒及其检测方法
CN110970089A (zh) * 2019-11-29 2020-04-07 北京优迅医疗器械有限公司 胎儿浓度计算的预处理方法、预处理装置及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2952589B1 (en) * 2008-09-20 2018-02-14 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103403183A (zh) * 2011-06-29 2013-11-20 深圳华大基因健康科技有限公司 胎儿遗传异常的无创性检测
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置
CN104156631A (zh) * 2014-07-14 2014-11-19 天津华大基因科技有限公司 染色体三倍体检验方法
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN105760712A (zh) * 2016-03-01 2016-07-13 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN106156543A (zh) * 2016-06-22 2016-11-23 厦门艾德生物医药科技股份有限公司 一种肿瘤ctDNA信息统计方法
CN108804876A (zh) * 2017-05-05 2018-11-13 中国科学院上海药物研究所 用于计算癌症样本纯度和染色体倍性的方法和装置
CN109182526A (zh) * 2018-10-10 2019-01-11 杭州翱锐生物科技有限公司 用于早期肝癌辅助诊断的试剂盒及其检测方法
CN110970089A (zh) * 2019-11-29 2020-04-07 北京优迅医疗器械有限公司 胎儿浓度计算的预处理方法、预处理装置及其应用

Also Published As

Publication number Publication date
CN111627498A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
Ewing et al. Base-calling of automated sequencer traces using phred. II. Error probabilities
CN109767810B (zh) 高通量测序数据分析方法及装置
CN110910957B (zh) 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法
US20090318310A1 (en) DNA Sequence Assembly Methods of Short Reads
CN108920899B (zh) 一种基于目标区域测序的单个外显子拷贝数变异预测方法
AU2015374344A1 (en) Method for determining genotypes in regions of high homology
CN113160889B (zh) 一种基于cfDNA组学特性的癌症无创早筛方法
CN108804876B (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
KR102381252B1 (ko) 혈중 무세포 dna 기반 간암 치료 예후예측 방법
CN111462816B (zh) 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质
WO2014041380A1 (en) Method and computer program product for detecting mutation in a nucleotide sequence
CN111968701A (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
Muller et al. OutLyzer: software for extracting low-allele-frequency tumor mutations from sequencing background noise in clinical practice
CN110895959B (zh) 基因拷贝数评估方法、装置、系统以及计算机可读介质
CN115064209A (zh) 一种恶性细胞鉴定方法及系统
US20060052946A1 (en) Display method and display apparatus of gene information
CN111627498B (zh) 一种测序数据gc偏向性校正的方法及其装置
CN111696622B (zh) 一种校正和评估变异检测软件检测结果的方法
Wang et al. Both size and GC-content of minimal introns are selected in human populations
CN109712671B (zh) 基于ctDNA的基因检测装置、存储介质及计算机系统
JP2004527728A (ja) ベースコーリング装置及びプロトコル
CN115565606B (zh) 一种自动筛选突变子集的检测方法、设备和计算机可读存储介质
EP1798651B1 (en) Gene information display method and apparatus
CN110853705B (zh) 肿瘤细胞含量评估方法、装置、系统以及计算机可读介质
CN114566214A (zh) 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant