CN105825076B - 消除常染色体内和染色体间gc偏好的方法及检测系统 - Google Patents

消除常染色体内和染色体间gc偏好的方法及检测系统 Download PDF

Info

Publication number
CN105825076B
CN105825076B CN201510009648.XA CN201510009648A CN105825076B CN 105825076 B CN105825076 B CN 105825076B CN 201510009648 A CN201510009648 A CN 201510009648A CN 105825076 B CN105825076 B CN 105825076B
Authority
CN
China
Prior art keywords
chromosome
reads
value
sample
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510009648.XA
Other languages
English (en)
Other versions
CN105825076A (zh
Inventor
牟晓威
陈帼婧
屠勇军
陈贤丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou sky Translation Technology Co., Ltd.
Original Assignee
Hangzhou Sky Translation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Sky Translation Technology Co Ltd filed Critical Hangzhou Sky Translation Technology Co Ltd
Priority to CN201510009648.XA priority Critical patent/CN105825076B/zh
Publication of CN105825076A publication Critical patent/CN105825076A/zh
Application granted granted Critical
Publication of CN105825076B publication Critical patent/CN105825076B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种消除常染色体内和染色体间GC偏好的方法及检测系统,该检测系统包括:(1)用于通过高通量测序获得样本全基因组序列的高通量测序仪;(2)用于执行以下步骤的多条指令的计算机可读介质,包括:a、用于构建一种消除GC偏差的系统,b、用于构建另一种消除GC偏差的系统,c、用于构建检测样本中非整倍体与正常样本的检测系统。最终根据两种不同矫正获得的Z值判断是否为非整倍体。采用本发明的检测系统,去除GC偏差,在避免数据的失真的同时还获得更高敏感性的胎儿遗传异常检测。本发明的检测系统根据GC含量定义用于统计检验的参数。另外,通过Z值统计的方法根据大批量的数据得出统计意义上的参数,从而得到更高的精确度。

Description

消除常染色体内和染色体间GC偏好的方法及检测系统
技术领域
本发明涉及生物检测领域,具体涉及一种消除常染色体内和染色体间GC偏好的方法及检测系统。
背景技术
染色体非整倍体病变是胎儿最常见的染色体畸形,依据染色体类别不同可分为常染色体非整倍体和性染色体非整倍体。常染色体非整倍体包括21-三体(唐氏综合症)、18-三体(爱德华氏综合症)和13-三体(帕陶氏综合征),其中以21-三体最常见,发病率约为1/800。性染色体非整倍体主要包括Klinefelter综合症(47,XXY)、XXY综合症、特纳氏综合症(45,X)和超雌综合征(47,XXX),男性发病率约为1/500,女性发病率约为1/850。对胎儿染色体非整倍体病变的产前诊断是降低出生缺陷、提高出生人口素质的重要手段。
目前,染色体异常的产前诊断技术是通过侵入性方式获取胎儿组织,如羊膜腔穿刺、绒毛活检、脐静脉穿刺等,进行FISH(荧光现场合成)分析或者染色体核型分析。这些技术均为有创性的,可能引起流产、胎儿损伤、出血、感染等。因此,开发一种准确且灵敏度高的无创产前检测方法。是一项迫切且意义深远的工作。
作为一项应用于临床检测的基因组新技术,无创产前DNA检测,主要是通过孕期母体的外周血,对其中的游离DNA(含有胎儿来源的DNA)进行测序,来判断胎儿是否患有某些遗传病,如21-三体综合征、18三体综合征以及13-三体综合征。无创产前检测的英文是Non-invasive Prenatal Testing,取几个英文单词的首字母,简称NIPT。
过去数十年,在母体血液中发现胎儿细胞和无细胞胎儿核酸以及对母体血浆无细胞DNA应用高通量测序和鸟枪测序,如下是可行的:检测母体血浆样品中由非整倍体胎儿造成的染色体呈现的小变化。无创检测13-三体、18-三体和21-三体妊娠已经实现。
但是,如一些研究显示的,通过扩增和测序引入的GC偏差对非整倍体性检测的敏感性产生了操作限制。在不同条件例如试剂组成、簇密度和温度下,GC偏差可能在样品制备和测序过程中引入,这造成对不同GC组成的DNA分子的差异取样和富含GC或少含GC的染色体的测序数据的显著偏差。
为了提高敏感性,已经开发了用于去除GC偏差效应的方法。Fan and Quake开发了一种通过计算去除GC偏差的方法,该方法通过基于局部基因组GC含量对每个GC密度给予权重以计算去除GC偏差,从而通过乘以相应权重改善映射到每一区段(bin)中的读段(read)数目。然而,该方法在处理性染色体病症特别是Y染色体相关病症方面有困难,原因是该方法可能造成数据轻微失真,这会干扰检测的准确性。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明实施例的目的是针对上述现有技术的缺陷,提供一种检测精确度高的消除常染色体内和染色体间GC偏好的方法及检测系统。
为了实现上述目的,本发明采取的技术方案是:
本发明提供一种消除常染色体内和染色体间GC偏差的方法,包含以下步骤:
1)通过高通量测序获得样本全基因组序列;
2)将测序得到的序列与人类基因组hg19进行比对;比对结果去除比对到重复序列和比对到多个位置上的序列,去除非完全比对的序列;
3)统计Unique Reads(唯一匹配的reads)数量,计算每条染色体比对上的UniqueReads数量,计算每条染色体的Unique reads数占该样本1-22号染色体的总数的百分比;
4)根据GC偏好性优化1-22号染色体的Unique Reads数:对步骤3中的UniqueReads进行排序,按照比对上染色体的位置进行排序,对排序后的reads根据50kb大小的非重叠区域进行分组;
5)对步骤4中分组后的reads统计每组的reads数,并给每组进行编号;
6)计算步骤5中每组长度的参考序列的碱基GC百分比;
7)将步骤5、6中算出的每组reads根据GC百分比进行归类、以0.1%作为单位;每0.1%划分为一组;去掉reads数为0的区域、gc含量为0的区域、reads数大于10000的区域;并统计每组中有多少个50kb分组及每50kb分组的reads数;
8)将步骤7中根据GC分组的数据对每组求其平均值Mi。求所有GC分组中每个50kb组的平均reads数
9)根据步骤8中的数据求每个GC分组的权重
10)根据步骤9中得到的权重计算每组的reads数;加权的reads数定义为每个区域分得的权重与该区域原来统计的reads数的乘积;
11)将步骤10中得到的reads数记为Nk,其中k为每条染色体的第k个位置;
12)每个样本所有常染色体的reads数均值为即Nk的均值;
13)对染色体间进行标准化
14)所有样本的每条染色体的reads数均值为
15)根据步骤11、12、13、14对所有样本进行标准化
16)根据步骤15得到数据,重新计算每条染色体的reads数;
17)计算每条染色体的reads数占该样本所有常染色体reads数的百分比,
对每一个样本进行步骤16的操作。
本发明又提供一种消除常染色体内和染色体间GC偏差的方法,包括以下步骤:
通过高通量测序获得样本全基因组序列;
将测序得到的序列与人类基因组标准序列hg19进行比对,比对的结果去除duplicate,选出唯一匹配的读段,重复序列不用于下游的分析;
将步骤2结果进行统计;分多个非重叠区域区域,每个区域选定长度为50kb,进而统计区域内的读段数(UR),统计对应区域的读段的GC含量(GCbin%);
将统计的GC含量和reads数进行拟合回归矫正,获得回归值;URloess=f(GCbin);
根据步骤3中的UR和步骤4中的回归值URloess进行以下计算:URcorrect ion=UR-(URloess-URmean);
根据回归校正值统计对应区域染色体的读段数(CR),统计对应染色体的GC含量(GCchr%);
进行样本内和样本间的标准化,根据均值标准化;URbmean=(1/N)ΣNb URi,b。CRimean=(1/N)ΣNi CRi,j;
其中i代表样本数,b是bin,j代表染色体,URbmean和Crimean分别表示bin的均值和染色体间reads的均值;
根据染色体读段数比例标准化的值计算对应的相关系数,即计算前染色体读段数占整体染色体的比例;根据下列公式:
RRi,j=(1/22)ΣNj CRi,j;
RR’i,j=α×GCj+β;
其中i代表样本数,j代表染色体。RRi,j是每条常染色体的比值;
根据染色体的读段数的相关系数和对应的GC含量的线性回归模型,算出回归值和回归方程的α和β值;
根据步骤7、8、9、10、11计算出理论值RR’i,j;
根据染色体读段数的比值和回归值计算残差:e=RRi,j-RR’i,j。
本发明还提供一种胎儿常染色体非整倍体无创检测系统,包括:
(1)用于通过高通量测序获得样本全基因组序列的高通量测序仪;
(2)用于执行以下步骤的多条指令的计算机可读介质:
a、用于构建一种消除GC偏差的系统,包括:
1.1)将测序得到的序列与人类基因组标准序列进行比对,去除比对结果中比对到重复序列、比对到多个位置上的序列及非完全比对的序列;
1.2)统计Unique Reads数量,计算每条染色体比对上的Unique Reads数量,计算每条染色体的Unique reads数占样本1-22号染色体的总数的百分比;
1.3)根据GC偏好性优化样本1-22号染色体的Unique Reads数;
1.4)对步骤1.3)中分组后的reads统计每组的reads数,并给每组进行编号;
1.5)计算步骤1.4)中每组长度的参考序列的碱基GC百分比;
1.6)将步骤1.4)中算出的每组reads根据步骤1.5)中算出的GC百分比进行归类、以0.1%作为单位;每0.1%划分为一组;去掉reads数为0的区域、GC含量为0的区域、reads数大于10000的区域;并统计每组中有多少个50kb分组及每50kb分组的reads数;
1.7)将步骤1.6)中根据GC分组的数据对每组求其平均值Mi;求所有GC分组中每个50kb组的平均reads数
1.8)根据步骤1.7)中的数据求每个GC分组的权重
1.9)根据步骤1.8)中得到的权重计算每组的reads数;加权的reads数定义为每个区域分得的权重与该区域原来统计的reads数的乘积;
1.10)将步骤1.9)中得到的reads数记为Nk;其中k为每条染色体的第k个位置;
1.11)每个样本所有常染色体的reads数均值为对染色体间进行标准化将所有样本的每条染色体的reads数均值为
1.12)根据步骤1.10)、1.11)对所有样本进行标准化
1.13)根据步骤1.12)得到数据,重新计算每条染色体的reads数;
1.14)计算每条染色体的reads数占该样本所有常染色体reads数的百分比;
1.15)对每一个样本进行步骤1.14)的操作;
1.16)根据数据库中之前测的样本作为参考样本;对步骤1.15)中获得的每一个样本的每条染色体的reads百分比进行以下操作:
其中:j:染色体标号;
xj:待测样本中第j号染色体的unique reads碱基百分比;
μj:参考样本中第j号染色体的unique reads碱基百分比的均值;
σj:参考样本中第j号染色体的unique reads碱基百分比的标准误差;
b、用于构建另一种消除GC偏差的系统,包括:
2.1)将要求1.1)的比对的结果去除重复序列(duplicate),选出唯一匹配的读段,重复序列不用于下游的分析;
2.2)将步骤2.1)结果进行统计;分多个非重叠区域区域,每个区域选定长度为50kb,进而统计区域内的读段数(UR),统计对应区域的读段的GC含量(GCbin%);
2.3)将统计的GC含量和reads数进行拟合回归矫正,获得回归值;URloess=f(GCbin);
2.4)根据步骤2.1)中的UR和步骤2.3)中的回归值URloess进行以下计算:URcorrection=UR-(URloess–URmean);
2.5)根据回归校正值统计对应区域染色体的读段数(CR);统计对应染色体的GC含量(GCchr%);
2.6)进行样本内和样本间的标准化,根据均值标准化,URbmean=(1/N)ΣNbURi,b,CRimean=(1/N)ΣNiCRi,j;
其中i代表样本数,b是bin,j代表染色体,URbmean和CRimean分
别表示bin的均值和染色体间reads的均值;
2.7)根据染色体读段数比例标准化的值计算对应的相关系数,即计算前染色体读段数占整体染色体的比例,公式如下:
RRi,j=(1/22)ΣNjCRi,j;
RR’i,j=α×GCj+β;
其中i代表样本数,j代表染色体,RRi,j是每条常染色体的比值;
2.8)根据染色体的读段数的相关系数和对应的GC含量的线性回归模
型,算出回归值和回归方程的α和β值;
2.9)根据步骤2.6)、2.7)、2.8)计算出理论值RR’i,j;
2.10)根据染色体读段数的比值和回归值计算残差:e=RRi,j-RR’i,j;
c、用于构建检测样本中非整倍体与正常样本的检测系统,包括:
3.1)对数据库中所有待测样本进行步骤2.1)到步骤2.10)的操作,得出残差;
3.2)计算步骤3.1)中数据库的均值和方差:
Z=(esample-ereference-mean)/sdreference
其中,esample是对应样本的残差,ereference是参照库的残差均值,sdreference是参照库残差的标准差;mean是参照库的平均值;
3.3)用于根据两种不同矫正获得的Z值判断是否为非整倍体:
若步骤1.16)中Z值为-3~3且步骤3.2)中Z值为-3~3,则判定为非整倍体样本;
若步骤1.16)中Z值小于-3且步骤3.2)中Z值小于-3,则判定为染色体缺失;
若步骤1.16)中Z值大于3且步骤3.2)中Z值大于3,则判定为染色体多倍体;
若步骤1.16)中Z值和步骤3.2)中Z值不在上述情况中,则判定为检测异常。
与现有技术相比,本发明的有益效果是:
采用本发明的检测系统,去除GC偏差,在避免数据的失真的同时还获得更高敏感性的胎儿遗传异常检测。本发明的检测系统根据GC含量定义用于统计检验的参数。另外,通过Z值统计的方法根据大批量的数据得出统计意义上的参数,从而得到更高的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a-图1d为GC含量和reads分布图;
图2a-图2e为平均权重和GC含量分布图;
图3a-图3d为染色体GC含量和权重分布图;
图4a-图4h为每条染色体矫正前后每个位置上的比对上的reads数;
图5a-图5d为每条染色体的参考样本和测试样本的Q-Q作图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种胎儿常染色体非整倍体无创检测系统,包括:
(1)用于通过高通量测序获得样本全基因组序列的高通量测序仪;
(2)用于执行以下步骤的多条指令的计算机可读介质:
a、用于构建一种消除GC偏差的系统,包括:
1.1)将测序得到的序列与人类基因组标准序列进行比对,去除比对结果中比对到重复序列、比对到多个位置上的序列及非完全比对的序列;
1.2)统计Unique Reads(唯一匹配的reads)数量,计算每条染色体比对上的Unique Reads数量,计算每条染色体的Unique reads数占样本1-22号染色体的总数的百分比;
1.3)根据GC偏好性优化样本1-22号染色体的Unique Reads数;具体包括:对步骤1.2)中的Unique Reads进行排序,按照比对上染色体的位置进行排序,对排序后的reads根据50kb大小的非重叠区域进行分组;
1.4)对步骤1.3)中分组后的reads统计每组的reads数,并给每组进行编号;
1.5)计算步骤1.4)中每组长度的参考序列的碱基GC百分比;
1.6)将步骤1.4)中算出的每组reads根据步骤1.5)中算出的GC百分比进行归类、以0.1%作为单位;每0.1%划分为一组;去掉reads数为0的区域、GC含量为0的区域、reads数大于10000的区域;并统计每组中有多少个50kb分组及每50kb分组的reads数;
1.7)将步骤1.6)中根据GC分组的数据对每组求其平均值Mi;求所有GC分组中每个50kb组的平均reads数
1.8)根据步骤1.7)中的数据求每个GC分组的权重
1.9)根据步骤1.8)中得到的权重计算每组的reads数;加权的reads数定义为每个区域分得的权重与该区域原来统计的reads数的乘积;
1.10)将步骤1.9)中得到的reads数记为Nk;其中k为每条染色体的第k个位置;
1.11)每个样本所有常染色体的reads数均值为对染色体间进行
标准化将所有样本的每条染色体的reads数均值为
1.12)根据步骤1.10)、1.11)对所有样本进行标准化
1.13)根据步骤1.12)得到数据,重新计算每条染色体的reads数;
1.14)计算每条染色体的reads数占该样本所有常染色体reads数的百分比;
1.15)对每一个样本进行步骤1.14)的操作;
1.16)根据数据库中之前测的样本作为参考样本;对步骤1.15)中获得的每一个样本的每条染色体的reads百分比进行以下操作:
其中:j:染色体标号;
xj:待测样本中第j号染色体的unique reads碱基百分比;
μj:参考样本中第j号染色体的unique reads碱基百分比的均值;
σj:参考样本中第j号染色体的unique reads碱基百分比的标准误差;
b、用于构建另一种消除GC偏差的系统,包括:
2.1)将要求1.1)的比对的结果去除重复序列(duplicate),选出唯一匹配的读段,重复序列不用于下游的分析;
2.2)将步骤2.1)结果进行统计;分多个非重叠区域区域,每个区域选定长度为50kb,进而统计区域内的读段数(UR),统计对应区域的读段的GC含量(GCbin%);
2.3)将统计的GC含量和reads数进行拟合回归矫正,获得回归值;URloess=f(GCbin);
2.4)根据步骤2.1)中的UR和步骤2.3)中的回归值URloess进行以下计算:URcorrection=UR-(URloess–URmean);
2.5)根据回归校正值统计对应区域染色体的读段数(CR);统计对应染色体的GC含量(GCchr%);
2.6)进行样本内和样本间的标准化,根据均值标准化,URbmean=(1/N)ΣNbURi,b,CRimean=(1/N)ΣNiCRi,j;
其中i代表样本数,b是bin,j代表染色体,URbmean和CRimean分
别表示bin的均值和染色体间reads的均值;
2.7)根据染色体读段数比例标准化的值计算对应的相关系数,即计算前染色体读段数占整体染色体的比例,公式如下:
RRi,j=(1/22)ΣNjCRi,j;
RR’i,j=α×GCj+β;
其中i代表样本数,j代表染色体,RRi,j是每条常染色体的比值;
2.8)根据染色体的读段数的相关系数和对应的GC含量的线性回归模
型,算出回归值和回归方程的α和β值;
2.9)根据步骤2.6)、2.7)、2.8)计算出理论值RR’i,j;
2.10)根据染色体读段数的比值和回归值计算残差:e=RRi,j-RR’i,j;
c、用于构建检测样本中非整倍体与正常样本的检测系统,包括:
3.1)对数据库中所有待测样本进行步骤2.1)到步骤2.10)的操作,得出残差;
3.2)计算步骤3.1)中数据库的均值和方差:
Z=(esample-ereference-mean)/sdreference
其中,esample是对应样本的残差,ereference是参照库的残差均值,sdreference是参照库残差的标准差;mean是参照库的平均值;
3.3)用于根据两种不同矫正获得的Z值判断是否为非整倍体:
若步骤1.16)中Z值为-3~3且步骤3.2)中Z值为-3~3,则判定为非整倍体样本;
若步骤1.16)中Z值小于-3且步骤3.2)中Z值小于-3,则判定为染色体缺失;
若步骤1.16)中Z值大于3且步骤3.2)中Z值大于3,则判定为染色体多倍体;
若步骤1.16)中Z值和步骤3.2)中Z值不在上述情况中,则判定为检测异常。需要重新检测或者使用其他检测方法。
具体地,所述步骤1.3)包括:对步骤1.2)中的Unique Reads进行排序,按照比对上染色体的位置进行排序,对排序后的reads根据50kb大小的非重叠区域进行分组。
参见图1a-图1d,每条染色体以50kb分组,以每组的GC含量作为横坐标,纵坐标为每组的reads数;显示每条染色体每50kb的reads的数量在每一个GC含量上的reads的分布情况,查看染色体在GC含量较高和GC含量较低的区域的reads的分布情况。
参见图2a-图2e,显示每条染色体每50kb的reads的数量在每一个GC含量上的reads均值的分布情况,查看染色体的平均reads数量在不同GC含量区域的分布情况。
参见图3a-图3d,显示每组中根据50kb分组,每个GC含量的权重,即对应的每个GC含量上reads的所占有的权重,查看不同GC含量区域上的reads的比重。看GC含量对reads数量的影响。
参见图4a-图4h,显示每条染色体矫正前后每个位置上的比对上的reads数;通过对不同GC含量区域的对每个GC含量区域的reads进行矫正,去除GC含量对reads扩增的影响。查看矫正前后染色体上的reads的分布情况,是否去除了由于GC含量导致出现偏差的reads。
参见图5a-图5d,显示测试样本的每条染色体上reads和泊松分布之间的关系,查看所测的reads是否符合泊松分布。
图1a-图3d中横坐标为GC百分含量;ch及chr均代表为染色体,in groups代表以小组为单位。
图1a-图1d中纵坐标为每50kb的所有序列数目。
图2a-图2e中The Average reads of ch为染色体的均值。
图3a-图3d的横坐标代表重量,the weight of in groups(每组染色体权重)。
图4a-图4h中的before代表处理前,after代表处理后。
图5a-图5d的横坐标代表理论区间,纵坐标代表样本区间。Normal Q-Q plot(正态Q-Q图)。
下面通过具体的实施例对本发明做进一步的说明:
实施例1
一种无创检测胎儿常染色体非整倍体的检测方法,包括:
1.样本来源:孕期为17周的孕妇外周血。
2.检测方法:对孕妇外周血样本使用Illumina Hiseq 2500进行测序得到以BCL格式的测序文件。将数据从测序仪中导出到计算服务器,将数据格式从BCL转换成fastq格式。再使用本发明的检测系统进行检测计算。得到如下检测数据:
最终检测结果为13号染色体、18号染色体、21号染色体的Z值结果均小于3,本实施例的检测结果为非整倍体样本。
实施例2
1.样本来源:孕期为17周的孕妇外周血。
2.检测方法:对孕妇外周血样本使用Illumina Hiseq 2500进行测序得到以BCL格式的测序文件。将数据从测序仪中导出到计算服务器,将数据格式从BCL转换成fastq格式。再使用本发明的检测系统进行检测计算。得到如下检测数据:
最终检测结果为13号染色体、18号染色体Z值结果均小于3,检测结果为非整倍体样本。21号染色体Z值结果为3.961616543大于3,检测结果为21号染色体为染色体多倍体。
实施例3
样本来源:孕期为17周的孕妇外周血。
2.检测方法:对孕妇外周血样本使用Illumina Hiseq 2500进行测序得到以BCL格式的测序文件。将数据从测序仪中导出到计算服务器,将数据格式从BCL转换成fastq格式。再使用本发明的检测系统进行检测计算。得到如下检测数据:
本实施例的结果检测异常,需要重新测序检测。
以上实施例仅用以说明本发明的技术方案,而非对其限制;本领域的普通技术人员对前述各实施例的部分技术特征进行等同替换,都应包括在本发明的保护范围内。

Claims (2)

1.一种消除常染色体内和染色体间GC偏差的方法,其特征在于,包括以下步骤:
1)通过高通量测序获得样本全基因组序列;
2)将测序得到的序列与人类基因组标准序列hg19进行比对,比对的结果去除重复序列,选出唯一匹配的读段,重复序列不用于下游的分析;
3)将步骤2结果进行统计;分多个非重叠区域,每个区域选定长度为50kb,进而统计区域内的读段数UR,统计对应区域的读段的GC含量GCbin
4)将统计的GC含量和reads数进行拟合回归矫正,获得回归值;URloess=f(GCbin);
5)根据步骤3中的UR和步骤4中的回归值URloess进行以下计算:URcorrection=UR-(URloess-URmean);
6)根据回归校正值统计对应区域染色体的读段数CR,统计对应染色体的GC含量GCchr
7)进行样本内和样本间的标准化,根据均值标准化;URbmean=(1/N)ΣN bURi,b,CRimean=(1/N)ΣN iCRi,j
其中i代表样本数,b是bin,j代表染色体,URbmean和CRimean分别表示bin的均值和染色体间reads的均值;
8)根据染色体读段数比例标准化的值计算对应的相关系数,即计算染色体读段数比值;根据下列公式:
RRi,j=(1/22)ΣN jCRi,j
9)根据染色体的读段数的相关系数和对应的GC含量的线性回归模型,算出回归值和回归方程的α和β值;
10)根据步骤7、8、9计算出回归值RR’i,j
RR’i,j=α×GCi+β;
11)根据染色体读段数的比值和回归值计算残差:e=RRi,j-RR’i,j
2.一种胎儿常染色体非整倍体无创检测系统,其特征在于,包括:
(1)用于通过高通量测序获得样本全基因组序列的高通量测序仪;
(2)计算机可读介质,用于存储多条指令,处理器用于执行以下步骤的多条指令:
a、用于构建一种消除GC偏差的系统,包括:
1.1)将测序得到的序列与人类基因组标准序列进行比对,去除比对结果中比对到的重复序列、比对到多个位置上的序列及非完全比对的序列;
1.2)统计唯一匹配的reads数量,计算每条染色体比对上的Unique Reads数量,计算每条染色体的Unique reads数占样本1-22号染色体的总数的百分比;
1.3)根据GC偏好性优化样本1-22号染色体的Unique Reads数;
所述步骤1.3)包括:对步骤1.2)中的Unique Reads进行排序,按照比对上染色体的位置进行排序,对排序后的reads根据50kb大小的非重叠区域进行分组;
1.4)对步骤1.3)中分组后的reads统计每组的reads数,并给每组进行编号;
1.5)计算步骤1.4)中每组长度的参考序列的碱基GC百分比;
1.6)将步骤1.4)中算出的每组reads根据步骤1.5)中算出的GC百分比进行归类:以0.1%作为单位;每0.1%划分为一组;去掉reads数为0的区域、GC含量为0的区域和reads数大于10000的区域;并统计每组中有多少个50kb分组及每50kb分组的reads数;
1.7)将步骤1.6)中根据GC分组的数据对每组求其平均值Mi;求所有GC分组中每个50kb组的平均reads数
1.8)根据步骤1.7)中的数据求每个GC分组的权重
1.9)根据步骤1.8)中得到的权重计算每组的reads数;加权的reads数定义为每个区域分得的权重与该区域原来统计的reads数的乘积;
1.10)将步骤1.9)中得到的reads数记为Nk;其中k为每条染色体的第k个位置;
1.11)每个样本所有常染色体的reads数均值为对染色体间进行标准化将所有样本的每条染色体的reads数均值为
1.12)根据步骤1.10)、1.11)对所有样本进行标准化
1.13)根据步骤1.12)得到数据,重新计算每条染色体的reads数;
1.14)计算每条染色体的reads数占该样本所有常染色体reads数的百分比;
1.15)对每一个样本进行步骤1.14)的操作;
1.16)根据数据库中之前测的样本作为参考样本;对步骤1.15)中获得的每一个样本的每条染色体的reads百分比进行以下操作:
其中:j:染色体标号;
xj:待测样本中第j号染色体的unique reads碱基百分比;
μj:参考样本中第j号染色体的unique reads碱基百分比的均值;
σj:参考样本中第j号染色体的unique reads碱基百分比的标准误差;
b、用于构建另一种消除GC偏差的系统,包括:
2.1)将要求1.1)的比对的结果去除重复序列,选出唯一匹配的读段,重复序列不用于下游的分析;
2.2)将步骤2.1)结果进行统计;分多个非重叠区域,每个区域选定长度为50kb,进而统计区域内的读段数UR,统计对应区域的读段的GC含量GCbin
2.3)将统计的GC含量和reads数进行拟合回归矫正,获得回归值;URloess=f(GCbin);
2.4)根据步骤2.1)中的UR和步骤2.3)中的回归值URloess进行以下计算:URcorrection=UR-(URloess–URmean);
2.5)根据回归校正值统计对应区域染色体的读段数CR;统计对应染色体的GC含量GCchr
2.6)进行样本内和样本间的标准化,根据均值标准化,URbmean=(1/N)ΣN bURi,b,CRimean=(1/N)ΣN iCRi,j
其中i代表样本数,b是bin,URbmean和CRimean分别表示bin的均值和染色体间reads的均值;
2.7)根据染色体读段数比例标准化的值计算对应的相关系数,即计算染色体读段数比值,公式如下:
RRi,j=(1/22)ΣN jCRi,j
2.8)根据染色体的读段数的相关系数和对应的GC含量的线性回归模型,算出回归值和回归方程的α和β值;
2.9)根据步骤2.6)、2.7)、2.8)计算出回归值RR’i,j;RR’i,j=α×GCi+β;
2.10)根据染色体读段数的比值和回归值计算残差:e=RRi,j-RR’i,j
c、用于构建检测样本中非整倍体与正常样本的检测系统,包括:
3.1)对数据库中所有待测样本进行步骤2.1)到步骤2.10)的操作,得出残差;
3.2)计算步骤3.1)中数据库的均值和方差:
Z=(esample-ereference-mean)/sdreference
其中,esample是对应样本的残差,ereference是参照库的残差均值,sdreference是参照库残差的标准差;mean是参照库的平均值;
3.3)用于根据两种不同矫正获得的Z值判断是否为非整倍体:
若步骤1.16)中Z值为-3~3且步骤3.2)中Z值为-3~3,则判定为非整倍体样本;
若步骤1.16)中Z值小于-3且步骤3.2)中Z值小于-3,则判定为染色体缺失;
若步骤1.16)中Z值大于3且步骤3.2)中Z值大于3,则判定为染色体多倍体;
若步骤1.16)中Z值和步骤3.2)中Z值不在上述情况中,则判定为检测异常;需要重新检测或者使用其他检测方法。
CN201510009648.XA 2015-01-08 2015-01-08 消除常染色体内和染色体间gc偏好的方法及检测系统 Expired - Fee Related CN105825076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510009648.XA CN105825076B (zh) 2015-01-08 2015-01-08 消除常染色体内和染色体间gc偏好的方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510009648.XA CN105825076B (zh) 2015-01-08 2015-01-08 消除常染色体内和染色体间gc偏好的方法及检测系统

Publications (2)

Publication Number Publication Date
CN105825076A CN105825076A (zh) 2016-08-03
CN105825076B true CN105825076B (zh) 2018-12-14

Family

ID=56514909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510009648.XA Expired - Fee Related CN105825076B (zh) 2015-01-08 2015-01-08 消除常染色体内和染色体间gc偏好的方法及检测系统

Country Status (1)

Country Link
CN (1) CN105825076B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN107133495B (zh) * 2017-05-04 2018-07-13 北京医院 一种非整倍性生物信息的分析方法和分析系统
CN108733984B (zh) * 2017-10-30 2021-09-03 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
CN117766020A (zh) * 2018-05-07 2024-03-26 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
WO2019213811A1 (zh) * 2018-05-07 2019-11-14 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN108763859B (zh) * 2018-05-17 2020-11-24 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
WO2019227420A1 (zh) * 2018-05-31 2019-12-05 深圳华大临床检验中心 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质
CN110993029B (zh) * 2019-12-26 2023-09-05 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
WO2014019180A1 (zh) * 2012-08-01 2014-02-06 深圳华大基因研究院 确定异常状态生物标记物的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sensitivity of Noninvasive Prenatal Detection of Fetal Aneuploidy from Maternal Plasma Using Shotgun Sequencing Is Limited Only by Counting Statistics;H. Christina Fan等;《Plos One》;20100331;第5卷;第1-7页 *

Also Published As

Publication number Publication date
CN105825076A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测系统
Spencer Chapman et al. Lineage tracing of human development through somatic mutations
CN108573125A (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN103525939B (zh) 无创检测胎儿染色体非整倍体的方法和系统
CN105844116B (zh) 测序数据的处理方法和处理装置
CN105483229B (zh) 一种检测胎儿染色体非整倍体的方法及系统
CN104120181B (zh) 对染色体测序结果进行gc校正的方法及装置
CN108256296B (zh) 数据处理装置
CN104169929B (zh) 用于确定胎儿是否存在性染色体数目异常的系统和装置
KR20170036734A (ko) 생물학적 샘플 중의 무세포 핵산의 분획을 결정하기 위한 방법 및 장치 및 이의 용도
CN105986008A (zh) Cnv检测方法和装置
CN104156631B (zh) 染色体三倍体检验方法
CN106096330B (zh) 一种无创产前生物信息检测分析方法
CN104520437B (zh) 一种染色体非整倍性检测方法及装置
CN107622183B (zh) 一种基于多重指标的胎儿染色体倍性检测分析方法
KR101678962B1 (ko) 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
CN104951671A (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
CN114592074A (zh) 一种与胎龄相关的靶标基因组合及其应用
CN106778069A (zh) 确定胎儿染色体中微缺失微重复的方法及设备
Srebniak et al. P16. 04: Prevalence of submicroscopic chromosome aberrations in pregnancies without increased risk for structural chromosome aberrations: a systematic review of the literature
CN108229099B (zh) 数据处理方法、装置、存储介质及处理器
CN107239676B (zh) 一种针对胚胎染色体的序列数据处理装置
KR101881098B1 (ko) 태아의 염색체이수성을 검출하는 방법
TWI485254B (zh) 以全基因體趨勢記分為基礎之非侵入性產前檢測方法
KR101618032B1 (ko) 비침습적 태아 염색체 이상 검출방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181016

Address after: 310015 1209, room 2, Yuhang tanglu 478, Gongshu District, Hangzhou, Zhejiang.

Applicant after: Hangzhou sky Translation Technology Co., Ltd.

Address before: 100000 Beijing, Haidian District, Shanghai 26 Road, 07 floor, 0722 room.

Applicant before: Beijing ShengTing Biotech Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181214

Termination date: 20200108