CN111899789B - 二代测序鉴定brca1/2大片段重排的方法及系统 - Google Patents

二代测序鉴定brca1/2大片段重排的方法及系统 Download PDF

Info

Publication number
CN111899789B
CN111899789B CN202010765735.9A CN202010765735A CN111899789B CN 111899789 B CN111899789 B CN 111899789B CN 202010765735 A CN202010765735 A CN 202010765735A CN 111899789 B CN111899789 B CN 111899789B
Authority
CN
China
Prior art keywords
data
sample
detected
brca1
negative control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010765735.9A
Other languages
English (en)
Other versions
CN111899789A (zh
Inventor
解云涛
胡丽
苏丽明
付龙飞
白健
茹兰兰
孟昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Herui Gene Technology Co ltd
Beijing Institute for Cancer Research
Original Assignee
Fujian Herui Gene Technology Co ltd
Beijing Institute for Cancer Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Herui Gene Technology Co ltd, Beijing Institute for Cancer Research filed Critical Fujian Herui Gene Technology Co ltd
Priority to CN202010765735.9A priority Critical patent/CN111899789B/zh
Publication of CN111899789A publication Critical patent/CN111899789A/zh
Application granted granted Critical
Publication of CN111899789B publication Critical patent/CN111899789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种二代测序鉴定BRCA1/2大片段重排的方法及系统。本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排的方法包括:获取待检测样本BRCA1/2基因的二代测序数据;匹配阴性对照数据;对待检测样本二代测序数据进行质控过滤;以易感基因外显子为单位,分析待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度,以判断外显子是否发生拷贝数缺失从而鉴定BRCA1/2胚系大片段重排情况。本发明的技术适用于家族遗传性乳腺癌卵巢癌患者及家属的基因检测,具有快速、低成本、高通量和不依赖实验条件的优点。

Description

二代测序鉴定BRCA1/2大片段重排的方法及系统
技术领域
本发明涉及二代测序鉴定BRCA1/2大片段重排的方法及系统,特别是一种基于二代测序技术检测分析肿瘤易感基因BRCA1/2胚系大片段重排变异的方法以及由此衍生的检测系统,属于基因检测技术领域。
背景技术
肿瘤是全球范围内影响人类健康的重要疾病,并且肿瘤发病率呈上升趋势。肿瘤中一部分为家族遗传性肿瘤,表现为家族中肿瘤患者聚集的现象,家族遗传性肿瘤的发生与特定肿瘤易感基因的胚系致病性突变相关。肿瘤易感基因是指胚系致病性突变可以增加肿瘤发病风险的基因。BRCA1和BRCA2基因是家族遗传性乳腺癌和卵巢癌最主要的易感基因。携带BRCA1基因胚系致病性突变的女性80岁时乳腺癌和卵巢癌的累积发病风险分别高达72%和44%,携带BRCA2基因胚系致病性突变的女性80岁时乳腺癌和卵巢癌的累积发病风险分别高达69%和17%。目前临床上对于携带BRCA1/2突变的乳腺癌卵巢癌患者的治疗方案与非携带者不同,并且对于携带BRCA1/2突变的健康女性也有系统性的监测、早诊和预防方案。因此对于有乳腺癌卵巢癌家族史的家系来说,通过基因检测明确家系中BRCA1/2的突变状态,对于家系中肿瘤患者的治疗及健康携带者的肿瘤预防和筛查至关重要。
BRCA1/2基因的致病性突变形式有两种,一种表现为单个或数个碱基改变引起的移码突变、无义突变和错义突变,二代测序(即高通量测序技术,High-throughputSequencing)能快速、准确、直接地检测到这类突变。另一种致病性突变形式涉及数百个至数百万个碱基对的改变,往往是一个或以上的外显子的改变,包括碱基缺失、重复、插入、倒位、异位等,称为大片段重排(large genomic rearrangements,LGRs)。北京大学肿瘤医院乳腺中心实验室前期研究发现,中国家族性乳腺癌患者BRCA1/2基因LGRs发生频率为2.2%,占BRCA1/2全部致病性基因突变的10.8%。尽管发生频率相对较低,但是LGRs可导致突变的肽链结构及蛋白功能异常,一旦发生LGRs通常都是致病性的,并且BRCA1/2胚系LGRs会在家系中代代相传,导致家系中不断出现乳腺癌卵巢癌患者,危害极大,可参见图1,该家系中BRCA2基因发生了17-18号外显子的缺失,使家系第三代所有女性携带者患上乳腺癌(6、10、12、14号),第四代中有至少1例女性携带者(8号),也面临极高的乳腺癌卵巢癌患病风险。故为全面真实反映肿瘤易感基因状态,LGRs检测是必不可少的。
目前BRCA1/2基因LGRs的检测方法主要包括以下几种:
1、Southern Blotting技术:是早期的检测基因片段的拷贝数变化的方法,但由于费力、耗时、消耗DNA量大、可能出现假阳性结果等原因,现已不常用。
2、实时荧光定量PCR(real-time PCR):该方法可同时扩增和定量目的DNA片段,但通量过低,不适用于筛查整个基因。
3、双色荧光原位杂交(dual-color FISH)可以检测染色体内的插入、缺失、扩增、倒置和染色易位,仅适用于大片段的染色体异常。
4、比较基因组杂交技术(comparative genomic hybridization,CGH)是检测DNA拷贝数的分子细胞遗传学方法,是检测整个基因重排情况的有效方法,但对于基因内LGRs的灵敏性不够。
5、多重链接依赖探针扩增技术(multiplex ligation-dependent drobeamplification,MLPA)是目前应用最广泛的检测基因DNA序列拷贝数异常的方法,也是是目前检测BRCA1/2大片段重排最常用的方法。MLPA法敏感、可靠、DNA用量少。然而,该方法的缺陷在于通量较低,一次只能检测一个基因,并且探针试剂盒昂贵,对实验条件要求高。我国家族遗传性乳腺癌卵巢癌患者基数庞大,随着测序技术的进步和观念的普及,临床上对于BRCA1/2基因突变检测的需求日益增长。二代测序技术凭借快速、准确、高通量、价格低等优势成为检测BRCA1/2基因胚系突变的主流方法,但这种技术只能检测到单个或数个碱基的改变,无法直接检测LGRs。而上述检测LGRs的实验方法由于通量低、周期长、成本高和实验条件要求高等缺陷,难以在临床应用中普及。目前发现的绝大多数BRCA1/2基因胚系LGRs为一个或者多个外显子的缺失,二代测序虽不能直接检测到LGRs,但理论上可通过数据中测序深度的变化来间接反映外显子的缺失,这种基于二代测序数据分析BRCA1/2基因LGRs的方法具有快速、通量高、零成本和不依赖实验条件的优势。因此,开发一套基于二代测序数据检测BRCA1/2基因胚系LGRs的分析流程是极有必要的。
CN 105525009 B公开了一种检测杂合性BRCA1/2基因缺失的技术,其中采用特殊引物,所述引物是针对BRCA1/2基因的49个外显子区域设计的产物为370~400bp的特异性引物,每对特异性引物至少有20bp的重叠区,在特异性引物的5’端,设计一段通用序列以及5个连续的N碱基,称为标签。该技术利用二代测序技术,能对杂合型的BRCA1/2基因大片段缺失进行检测,从而找到BRCA1/2疾病的高危人群。然而,这种分析方法仅适用于与之配套的特殊引物,不适合分析常规的二代测序数据。并且每次检测仅采用1例正常女性样本作为对照,难以保证这例正常对照测的数据质量和待检测者数据质量是匹配的,会给结果带来很大偏差。
CN110997944A公开了一种用于检测BRCA1和BRCA2基因中的大片段重排的方法,其包括在引物池的存在下扩增核酸样品以产生扩增子,其中所述引物池包括靶向BRCA1和BRCA2基因的外显子区域的目标特异性引物。所述方法还包括对扩增子进行测序以产生多个读段,将读段映射到参考序列,测定与BRCA1和BRCA2基因的外显子相关联的扩增子中每个扩增子的读段数目,基于每个扩增子的读段数目测定BRCA1和BRCA2基因的外显子的外显子拷贝数目,基于外显子拷贝数目检测外显子缺失或复制,以及基于与BRCA1和BRCA2基因的外显子相关联的每个扩增子的读段数目检测BRCA1或BRCA2基因的全基因缺失。该方法中利用待检测样本数据多个外显子的中位值作为对照,由于每个外显子引物的扩增效率差异很大,用中位值做参照会产生大量的假阳性重排结果。
发明内容
本发明的一个目的在于提供一种可快速低成本检测BRCA1/2胚系大片段重排的方法。
本发明的一个目的在于提供一种可快速低成本检测BRCA1/2胚系大片段重排的检测系统。
一方面,本发明提供了一种检测肿瘤易感基因BRCA1/2胚系大片段重排的方法,其包括:
获取待检测样本BRCA1/2基因的二代测序数据;
匹配阴性对照数据;
对待检测样本二代测序数据进行质控过滤;
以易感基因外显子为单位,分析待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度,以判断外显子是否发生拷贝数缺失从而鉴定BRCA1/2胚系大片段重排情况。
大片段重排分析对二代测序数据的质量要求较高,要求BRCA1/2各个外显子区域有足够的覆盖度和测序深度,否则分析过程中极易出现假阳性和假阴性。本发明中,通过合理匹配阴性对照数据,并设立质控标准,质控合格的数据才能用于后续的重排分析鉴定。
根据本发明的具体实施方案,本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排的方法中,采用二代测序技术对待检测样本进行BRCA1/2基因检测,获得二代测序数据。本发明中对二代测序技术所用引物试剂无特殊要求,所有类型的二代测序数据,包括panel测序、全外显子组测序或是全基因组测序数据等,只要检测了BRCA1/2基因,经本发明的质控过滤检测合格即可采用本发明的方法鉴定BRCA1/2胚系大片段重排情况。
根据本发明的具体实施方案,本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排的方法中,匹配阴性对照数据时,从阴性对照数据库中选择与待检测样本的二代测序数据相关系数最接近的N例数据作为阴性对照数据。优选地,所述阴性对照数据库至少包括100例数据,所述N例≥50例。进一步优选地,N例为60~200例,或者,N例占阴性对照数据库总例数的10%~40%。最优选地,所述阴性对照数据库至少包括500-1000例数据,并且N例为80~200例。在本发明一个具体实施例中,阴性对照数据库至少包括600例数据,N例为100例。
本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排的方法,通过采用动态选择阴性对照的方式,能够大大提升检测敏感度和特异度。
根据本发明的具体实施方案,本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排的方法中,设立的质控参数包括三项:平均测序深度,sample_CV和target_CV,经过反复的分析和调试,最终确立了所述三项质控参数的阈值,从而确立了如下三项质控标准,全部满足三项质控标准的二代测序数据为质控合格,能用于后续的重排分析鉴定:
质控标准1:平均测序深度>=200X
本发明中,平均测序深度“200X”,是指待检测样本中所有常染色体上的target的平均测序深度。可表示如下:
平均测序深度=sum_of_target_depth_in_autosomes/target_number_in_autosomes
其中,sum_of_target_depth_in_autosomes指待检测样本中常染色体(chr1-chr22)上所有target的深度的和;target_number_in_autosomes指待检测样本中常染色体(chr1-chr22)上target的个数。该参数平均测序深度用于衡量测序覆盖度。
即,本发明中,一项质控标准为:“待检测样本的平均测序深度大于等于200X”。
质控标准2:待检测样本捕获区域的深度变异系数sample_CV<=0.15
本发明中,待检测样本捕获区域的深度变异系数“sample_CV”,是指待检测样本所有target的标准化测序深度,与该样本所有阴性对照的所有target的标准化测序深度的中位值的比值的变异系数。表示如下:
CNR=depth_of_all_case_targets/median_depth_of_all_selected_reference_targets
sample_CV=sd(CNR)/mean(CNR)
其中,depth_of_all_case_targets指待检测样本所有target的标准化测序深度,median_depth_of_all_selected_reference_targets指待检测样本所有匹配的阴性参考样本所有target的标准化测序深度的中位值。该参数CNR(copy number ratio)用于衡量样本的测序深度的均一性。
其中,sd(CNR)指CNR的标准差,mean(CNR)指CNR的平均值。该参数sample_CV用于衡量待检测样本捕获区域的深度的波动程度,深度波动太大则该样本被过滤掉。
即,本发明中,另一项质控标准为:“待检测样本每一target的标准化测序深度”与“该样本所有匹配的样本的每一target的标准化测序深度的中位值”的比值的变异系数”,小于等于0.15。
质控标准3:target的变异系数target_CV<=0.15
本发明中,target的变异系数“target_CV”,是指“待检测样本所匹配的所有阴性对照样本的该target的标准化测序深度的变异系数”。表示如下:
targetCV=sd(all_depth_in_N_negative_control_of_this_target)/mean(all_depth_in_N_negative_control_of_this_target)
其中,sd(all_depth_in_N_negative_control_of_this_target)为某一个target在该待测样本所匹配的所有阴性对照样本中相同target的所有标准化测序深度的标准差,mean(all_depth_in_N_negative_control_of_this_target)为某一个target在该待测样本所匹配的所有阴性对照样本中相同target的所有标准化测序深度的平均值。该参数target_CV用于衡量某一个target在阴性对照样本中测序深度的波动情况,如果波动太大,则认为该target的捕获质量不高,该target在待分析的case中将被过滤掉。
即,本实施例中,另一项质控标准为:“待检测样本所匹配的所有阴性对照样本的该target的标准化测序深度的变异系数”,小于等于0.15。
本发明中,平均测序深度和sample_CV是对样本测序深度和测序深度变异程度的质控,本发明中通过比对上千例乳腺癌二代测序数据分析结果和MLPA检测结果,经过反复的的分析和试验,确定了本发明中这两项参数的阈值,实际临床应用中个体基因检测数据质量基本能100%达标。
本发明中,target_CV是以外显子为单位进行质控。BRCA1/2两个基因一共有48个需要检测的外显子,外显子序列的差异导致每个外显子的扩增效率差别很大,扩增效率的差异使得分析过程中容易出现假阳性和假阴性,非常影响方法的准确性。而仅用平均测序深度和sample_CV两个参数没办法排查整体质量合格的样本中测序质量较差的外显子。本发明中创造性地设立了“target_CV”这项质控参数,通过设立“target_CV≤0.15”可以有效排查上述情况。
根据本发明的具体实施方案,本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排的方法中,质控合格的二代测序数据进一步进行外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度的分析。
BRCA1/2LGRs绝大部分为一个或多个外显子的杂合性拷贝数缺失,即受影响的外显子拷贝数由正常的2个拷贝变为1个拷贝,理论上测序数据中受影响的外显子深度降低为正常的0.5。经过对阳性对照样本和阴性对照的反复分析,最终本发明确立了如下两项外显子缺失检出阈值标准,质控合格的待检测样本中同时满足以下两条标准的外显子即被认为发生了缺失:
检出标准1:外显子拷贝数变异的比例ratio≤0.65
本发明中,外显子拷贝数变异的比例“ratio”,是指待检测样本的一个target的标准化测序深度,与该target在所匹配的阴性对照数据(即阴性对照数据库中相关系数最接近的N例样本)中同样target的标准化测序深度的中位数的比值。表示如下:
ratio=case_target_depth/median_target_depth_from_N_negtive_control
其中,case_target_depth指待检测样本的一个target的标准化测序深度,median_target_depth_from_N_negtive_control指该target在所匹配的阴性对照数据(即阴性对照数据库中相关系数最接近的N例样本)中相关系数最接近的N例样本同样target的标准化测序深度的中位数。该参数用于衡量外显子拷贝数变异的比例。
即,本发明中,一项检出标准为:“待检测样本的target的标准化测序深度”与“该target在所匹配的阴性对照数据中同样target的标准化测序深度的中位数”的比值,在0.65以下。
检出标准2:外显子拷贝数变异的可靠程度|z-score|≥2.6
本发明中,外显子拷贝数变异的可靠程度“|z-score|”,是指待检测样本的一个target的标准化测序深度与该target在所匹配的阴性对照数据(即阴性对照数据库中相关系数最接近的N例样本)中同样target的标准化测序深度的中位数的差值,与该target在所匹配的阴性对照数据(即阴性对照数据库中相关系数最接近的N例样本)的标准化测序深度的标准差的比值的绝对值。表示如下:
|z-score|=(case_target_depth-median_target_depth_from_100_negtive_control)/sd(target_depth_in_100_negtive_control)
其中,case_target_depth指待检测样本的一个target的标准化测序深度,median_target_depth_from_N_negtive_control指该target在所匹配的阴性对照数据(即阴性对照数据库中相关系数最接近的N例样本)中同样target的标准化测序深度的中位数,sd(target_depth_in_N_negtive_control)为该target在所匹配的阴性对照数据(即阴性对照数据库中相关系数最接近的N例样本)的标准化测序深度的标准差。该参数用于衡量外显子拷贝数变异的可靠程度,绝对值越大可靠性越高。
即,本发明中,另一项检出标准为:“待检测样本的target的标准化测序深度与该target在所匹配的阴性对照数据中同样target的标准化测序深度的中位数的差值”与“待检测样本的该target与所匹配的阴性对照数据中同样target的标准化测序深度的标准差”的比值的绝对值,在2.6以上。
另一方面,本发明还提供了一种检测肿瘤易感基因BRCA1/2胚系大片段重排过程中建立阴性对照数据库的方法,该方法包括:
获取BRCA1/2大片段重排明确为阴性(MLPA验证为阴性)的M例个体的外周血二代测序数据;
分析每例二代测试数据的质量,该过程包括:
首先去除测序深度不合格的样本;
针对每一待分析二代测试数据,从上述M例数据中选择与待分析数据的二代测序数据相关系数最接近的N’例数据作为阴性对照数据;
对每一待分析二代测试数据进行质控过滤时,满足以下条件的二代测序数据为质控合格:待检测样本的平均测序深度大于等于200X;“待检测样本每一target的标准化测序深度”与“该样本所有匹配的样本的每一target的标准化测序深度的中位值”的比值的变异系数,小于等于0.15;“待检测样本所匹配的所有阴性对照样本的该target的标准化深度的变异系数”,小于等于0.15。
以经上述质控过滤后合格的二代测序数据建立检测肿瘤易感基因BRCA1/2胚系大片段重排用的阴性对照数据库。
根据本发明的具体实施方案,本发明的检测肿瘤易感基因BRCA1/2胚系大片段重排过程中建立阴性对照数据库的方法中,所述阴性对照数据数量N’取值原则与前述对待测样本数据进行分析鉴定时匹配阴性对照数据N的取值相同,质控过滤的标准与前述对待测样本数据进行分析鉴定时相同。具体而言,本发明所建立的阴性对照数据库即是用于前述检测肿瘤易感基因BRCA1/2胚系大片段重排的方法,所述阴性对照数据库至少包括100例数据,优选至少包括500-1000例数据。N’例≥50例;优选地,N’例为60~200例,或者,N’例占M例数量的10%~40%。进一步优选地,N’例为80~200例。在本发明一个具体实施例中,阴性对照数据库至少包括600例数据,N例为100例。
另一方面,本发明还提供了一种检测肿瘤易感基因BRCA1/2胚系大片段重排的检测系统,其包括检测数据获取单元和数据分析单元,其中:
所述检测数据获取单元用于获取待检测样本BRCA1/2基因的二代测序数据;优选地,所述检测数据获取单元用于采用二代测序技术对待检测样本进行BRCA1/2基因检测以获得二代测序数据;
所述数据分析单元包括用于对获取的待检测样本BRCA1/2基因的二代测序数据进行分析处理的处理单元;优选地,所述数据分析单元按照以下操作对待检测样本的二代测序数据进行分析处理:
基于待检测样本BRCA1/2基因的二代测序数据,匹配阴性对照数据;
对待检测样本二代测序数据进行质控过滤;
以易感基因外显子为单位,分析待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度。
本发明所述的检测肿瘤易感基因BRCA1/2胚系大片段重排的检测系统,可以是虚拟装置,只要能实现所述检测数据获取单元和数据分析单元的功能即可。所述的检测数据获取单元可以是包括各种检测试剂材料和/或检测仪器设备等。所述的数据分析单元可以是任何可以实现对检测单元的检测结果进行分析处理而得出待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度的分析预判结果的运算仪器、模块或是虚拟设备,例如可以是预先存储有基于算法模型的运算程序指令的运算仪器,将检测数据获取单元的检测数据输入该运算仪器能得出待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度的分析预判结果。
另一方面,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:
基于待检测样本BRCA1/2基因的二代测序数据,匹配阴性对照数据;
对待检测样本二代测序数据进行质控过滤;
以易感基因外显子为单位,分析待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度。
如前所述,本发明中,待检测样本的外显子拷贝数变异的比例ratio≤0.65并且外显子拷贝数变异的可靠程度|z-score|≥2.6可判断外显子发生了缺失,从而可以鉴定出待检测样本的BRCA1/2胚系大片段重排情况。
根据本发明的一些具体实施方案,本发明的方法经过了两个独立大样本的验证(实施案例1和实施案例2),具有较高的敏感度和特异度。
综上所述,本发明提供了一整套基于二代测序数据检测BRCA1/2胚系大片段重排的生物信息分析方法及检测系统,适用于家族遗传性乳腺癌卵巢癌患者及家属的基因检测。相比于现有技术如panelcn.MOPS和CoNVaDIING中的方法,本发明的技术能够避免在分析过程中出现假阳性和假阴性,具有较高的敏感度和特异度,并且,本发明的技术具有快速、低成本、高通量和不依赖实验条件等优点。
附图说明
图1为一个携带BRCA2基因LGRs家系的家谱图。
图2显示待检测样本BRCA1/2基因各外显子target_cv结果。
图3显示待检测样本BRCA1/2基因各外显子ratio。
图4显示待检测样本BRCA1/2基因各外显子z-score。
图5显示本发明的检测方法与另外两种基于二代测序分析重排方法的优劣对比结果。
具体实施方式
以下给出的是本发明的一些具体实施例,这些实施例只是说明而不表示本发明的所有可能性,本发明并不局限于这些实施例中提到的条件及参数,任何在相关领域具备经验的人,都可以按照本发明的方法,利用其中的条件及参数实现本发明所描述的检测基因胚系重排的目的。这些并不脱离本发明所描述的基本概念。
实施例1
基于本发明所述方法分析21例明确携带BRCA1/2基因胚系LGRs和822例明确不携带BRCA1/2基因胚系LGRs的中国女性二代测序数据。
操作方法如下:
1、获取BRCA1/2基因LGRs明确阳性及明确阴性患者二代测序数据
1)阳性队列:21例明确携带BRCA1/2基因胚系LGRs的中国女性二代测序数据,二代测序的具体方法为利用患者外周血DNA样本来检测BRCA1/2基因外显子区域序列。通过MLPA方法明确这21例患者携带BRCA1/2基因胚系LGRs。
2)阴性队列:822例明确不携带BRCA1/2基因胚系LGRs的中国女性二代测序数据,检测方法同上。
2、质控过滤
本实施例中,阳性队列及阴性队列的二代测序数据均基于科研目的建立,不用于临床,其数据质量差于临床基因检测数据。通过对阴性对照进行选择(针对每例数据,从阴性队列中选择与该例数据的target的测序深度最接近的100例数据作为阴性对照数据)及三条质控参数(平均测序深度≥200X;target_CV≤0.15;sample_CV≤0.15)的过滤。本实施例中阳性队列中17例质控合格(17/21,81%),阴性队列中670例质控合格(670/822,81.5%)。
3、检测缺失外显子
根据本发明所述阈值(ratio≤0.65;|z-score|≥2.6检测质控合格的17例阳性样本670例阴性队列样本中发生缺失的外显子。有任一BRCA1/2基因的外显子发生拷贝数丢失即被判定为数据分析重排阳性。分析结果见下表1。以MLPA结果为金标准,本发明所述方法检测687例训练集样本BRCA1/2基因LGRs的敏感度为100%,特异度为97.8%。
表1、本发明所述方法检测训练集样本LGRs情况
总数 MLPA阳性 MLPA阴性
总数 687 17 670
数据分析阳性 32 17 15
数据分析阴性 656 0 655
实施例2.独立样本验证本发明所述方法检测BRCA1/2基因LGRs的敏感度和特异度
本实施例纳入614例重排状态未知的中国女性家族性乳腺癌患者外周血DNA二代测序数据,该614例与实施例1中的687例是完全独立的样本。根据实施例1所述方法(从所述670例阴性数据库中选择相关系数最接近的100例数据作为阴性对照数据;根据三条质控参数(平均测序深度≥200X;target_CV≤0.15;sample_CV≤0.15)和外显子检出阈值ratio≤0.65,|z-score|≥2.6)检测614例样本BRCA1/2基因LGRs情况,用MLPA方法进行验证。结果如表2所示,以MLPA结果为金标准,本发明实施例1所述方法检测614例验证集样本BRCA1/2基因LGRs的敏感度为100%,特异度为97.9%。
表2、本发明所述方法分析验证集样本LGRs情况
总数 MLPA阳性 MLPA阴性
总数 614 5 609
数据分析阳性 18 5 13
数据分析阴性 596 0 596
实施例3.本发明所述方法检测BRCA1/2基因LGRs位点的准确性验证
训练集和验证集中一共检测到22例重排真阳性患者,MLPA方法和根据本发明实施例1所述数据分析方法检测22例真阳性样本重排位点如下表3所示,其中2例重排位点稍差别,其余20例两种方法检测位点完全一致。
表3、本发明所述方法检测BRCA1/2基因LGRs位点的准确性
样本名称 MLPA检测结果 本发明方法检测结果
RZA06760 BRCA1:E8-E10 del BRCA1:E7-E9 del
RZA02871 BRCA1:E18-20del BRCA1:E20 del
RZA03399 BRCA1:E3 del BRCA1:E3 del
RZA02486 BRCA1: E24 del BRCA1:E24 del
RZA02146 BRCA1:E1-E2 del BRCA1:E2 del
RZA01944 BRCA1:E1-E12 del BRCA1:E2-E12 del
RZA01478 BRCA1:E1-E2 del BRCA1:E2 del
RZA01403 BRCA1:E23-E24 del BRCA1:E23-E24 del
RZA01228 BRCA1:E1-E2 del BRCA1:E2 del
RZA01227 BRCA1:E1-E2 del BRCA1:E2 del
RZA00515 BRCA1:E3 del BRCA1:E3 del
RZA00150 BRCA1:E23-E24 del BRCA1:E23-E24 del
RZA00134 BRCA1: E16 del BRCA1:E16 del
RZA02961 BRCA1: E23 del BRCA1:E23 del
RZA02961 BRCA1: E23 del BRCA1:E23 del
RZA09105 BRCA2:E14-18 del BRCA2:E14-18 del
RZA01556 BRCA2:E14-18 del BRCA2:E14-18 del
RZA01407 BRCA2:E15-16 del BRCA2:E15-16 del
RZA00149 BRCA2:E14-20 del BRCA2:E14-20 del
RZA00131 BRCA2:E14-18 del BRCA2:E14-18 del
RZA00063 BRCA2:E17-18 del BRCA2:E17-18 del
RZA03260 BRCA2:E16-24 del BRCA2:E16-24 del
另,本发明的检测方法与另外两种基于二代测序分析重排方法的优劣对比结果见图5。
实施例4.对临床基因检测的个体进行BRCA1/2基因LGRs检测分析
本实施例中,采用实施例1所述方法对个体进行BRCA1/2基因LGRs检测分析。
张某某,女性,31岁,患左乳癌,母亲40岁患乳腺癌,小姨39岁患乳腺癌。鉴于张某某乳腺癌发病年龄早、乳腺癌家族史明确,遗传门诊医师建议张某某进行BRCA1/2基因检测,包含BRCA1/2基因的panel测序结果报告张某某无BRCA1/2基因胚系致病性点突变,建议进行BRCA1/2基因胚系LGRs的检测。
本实施例中,对张某某二代测序数据的LGRs分析按如下步骤进行:
1、统计各外显子标准化测序深度:
基于张某某二代测序后产生的bam文件统计BRCA1/2各个外显子的标准化测序深度。测序过程中探针共捕获BRCA1的23个外显子(exon2-exon24)和BRCA2的26个外显子(exon2-exon27),其余未捕获的外显子不参与形成BRCA1/2最重要的转录本。
2、动态选择阴性对照:
在前述670例质控合格的阴性对照数据库选择与待检测样本相关系数最高的100例作为样本的阴性对照(如该检测样本的标准化测序深度值为300X,则应在阴性对照数据库中挑选标准化测序深度值最接近300X的100例样本作为待检测样本的阴性对照)。
3、计算质控参数,判定是否达标
将待检测样本和100例阴性对照样本按照本发明实施例1所述方法计算如下三个质控参数:平均测序深度;target_CV;sample_CV。计算结果为平均测序深度=300X,target_CV结果见图2,sample_CV=0.08。三个质控参数均合格。
4、计算ratio和z-score
将待检测样本和100例阴性对照样本按照本发明实施例1所述方法计算ratio和z-score,结果如下图3和图4所示,BRCA1各个外显子未发现拷贝数变异,BRCA2基因E14-E18发生了一个拷贝的丢失。
5、结果解读及建议
利用本发明的方法,检测到张某某携带BRCA2胚系大片段重排突变,具体为BRCA2E14-E18 del。建议张某某在独立检测机构验证该重排位点,验证成功后建议患者对对侧乳腺及卵巢进行相应的严密监测和影像学筛查、化学药物预防或预防性手术切除。并建议张某某的患病亲属和家系中适龄健康女性进行该重排位点的检测。对于尚未患病但携带致病突变的亲属,属于高危人群,推荐进行严密监测和影像学筛查。

Claims (15)

1.一种检测肿瘤易感基因BRCA1/2胚系大片段重排的方法,其包括:
获取待检测样本BRCA1/2基因的二代测序数据;
匹配阴性对照数据;其中,匹配阴性对照数据时,从阴性对照数据库中选择与待检测样本的二代测序数据相关系数最接近的N例数据作为阴性对照数据;所述阴性对照数据库至少包括100例数据,所述N例≥50例;
对待检测样本二代测序数据进行质控过滤;
以易感基因外显子为单位,分析质控合格的待检测样本二代测序数据的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度,以判断外显子是否发生拷贝数缺失从而鉴定BRCA1/2胚系大片段重排情况。
2.根据权利要求1所述的方法,其中,采用二代测序技术对待检测样本进行BRCA1/2基因检测,获得二代测序数据。
3.根据权利要求1所述的方法,其中,
N例为60~200例,或者,N例占阴性对照数据库总例数的10%~40%。
4.根据权利要求3所述的方法,其中,所述阴性对照数据库至少包括500-1000例数据,并且N例为80~200例。
5.根据权利要求1所述的方法,其中,所述相关系数为待测样本标准化测序深度与阴性对照数据库中每例样本标准化测序深度值的相似性。
6.根据权利要求1所述的方法,其中,对待检测样本二代测序数据进行质控过滤时,满足以下条件的二代测序数据为质控合格:
待检测样本的平均测序深度大于等于200X;
“待检测样本每一target的标准化测序深度”与“该样本所有匹配的阴性对照样本的每一target的标准化测序深度的中位值”的比值的变异系数,小于等于0.15;
“待检测样本所匹配的所有阴性对照样本的该target的标准化深度的变异系数”,小于等于0.15。
7.根据权利要求1~6任一项所述的方法,其中,待检测样本的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度满足以下条件,判断外显子发生了缺失:
“待检测样本的target的标准化测序深度”与“该target在所匹配的阴性对照数据中同样target的标准化测序深度的中位数”的比值,在0.65以下;以及
“待检测样本的target的标准化测序深度与该target在所匹配的阴性对照数据中同样target的标准化测序深度的中位数的差值”与“待检测样本的所有匹配的阴性对照样本中该target的标准化测序深度的标准差”的比值的绝对值,在2.6以上。
8.一种检测肿瘤易感基因BRCA1/2胚系大片段重排过程中建立阴性对照数据库的方法,该方法包括:
获取BRCA1/2大片段重排明确为阴性的M例个体的外周血二代测序数据;
分析每例二代测试数据的质量,该过程包括:
去除平均测序深度小于200X的样本;
针对每一待分析二代测试数据,从上述M例数据中选择与待分析数据的二代测序数据相关系数最接近的N’例数据作为阴性对照数据;
对每一待分析二代测试数据进行质控过滤时,满足以下条件的二代测序数据为质控合格:待检测样本的平均测序深度大于等于200X;“待检测样本每一target的标准化测序深度”与“该样本所有匹配的样本的每一target的标准化测序深度的中位值”的比值的变异系数,小于等于0.15;“待检测样本所匹配的所有阴性对照样本的该target的标准化深度的变异系数”,小于等于0.15;
以经上述质控过滤后合格的二代测序数据建立检测肿瘤易感基因BRCA1/2胚系大片段重排用的阴性对照数据库。
9.根据权利要求8所述的方法,其中,所述阴性对照数据库至少包括100例数据。
10.根据权利要求9所述的方法,其中,所述阴性对照数据库至少包括500-1000例数据。
11.根据权利要求9所述的方法,其中,N’例≥50例。
12.根据权利要求11所述的方法,其中,N’例为60~200例,或者,N’例占M例数量的10%~40%。
13.一种检测肿瘤易感基因BRCA1/2胚系大片段重排的检测系统,其包括检测数据获取单元和数据分析单元,其中:
所述检测数据获取单元用于获取待检测样本BRCA1/2基因的二代测序数据;
所述数据分析单元包括用于对获取的待检测样本BRCA1/2基因的二代测序数据进行分析处理的处理单元;并且,所述数据分析单元按照以下操作对待检测样本的二代测序数据进行分析处理:
基于待检测样本BRCA1/2基因的二代测序数据,匹配阴性对照数据;其中,匹配阴性对照数据时,从阴性对照数据库中选择与待检测样本的二代测序数据相关系数最接近的N例数据作为阴性对照数据;所述阴性对照数据库至少包括100例数据,所述N例≥50例;
对待检测样本二代测序数据进行质控过滤;
以易感基因外显子为单位,分析质控合格的待检测样本二代测序数据的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度。
14.根据权利要求13所述的检测系统,其中,所述检测数据获取单元用于采用二代测序技术对待检测样本进行BRCA1/2基因检测以获得二代测序数据。
15.一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现:
基于待检测样本BRCA1/2基因的二代测序数据,匹配阴性对照数据;其中,匹配阴性对照数据时,从阴性对照数据库中选择与待检测样本的二代测序数据相关系数最接近的N例数据作为阴性对照数据;所述阴性对照数据库至少包括100例数据,所述N例≥50例;
对待检测样本二代测序数据进行质控过滤;
以易感基因外显子为单位,分析质控合格的待检测样本二代测序数据的外显子拷贝数变异的比例和外显子拷贝数变异的可靠程度。
CN202010765735.9A 2020-08-03 2020-08-03 二代测序鉴定brca1/2大片段重排的方法及系统 Active CN111899789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010765735.9A CN111899789B (zh) 2020-08-03 2020-08-03 二代测序鉴定brca1/2大片段重排的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010765735.9A CN111899789B (zh) 2020-08-03 2020-08-03 二代测序鉴定brca1/2大片段重排的方法及系统

Publications (2)

Publication Number Publication Date
CN111899789A CN111899789A (zh) 2020-11-06
CN111899789B true CN111899789B (zh) 2021-05-25

Family

ID=73183015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010765735.9A Active CN111899789B (zh) 2020-08-03 2020-08-03 二代测序鉴定brca1/2大片段重排的方法及系统

Country Status (1)

Country Link
CN (1) CN111899789B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114540488B (zh) * 2020-11-26 2024-04-30 福建和瑞基因科技有限公司 一种用于高通量靶向测序检测肿瘤突变负荷的基因组合、检测装置、检测试剂盒及应用
CN112562787B (zh) * 2020-12-03 2021-09-07 江苏先声医学诊断有限公司 一种基于ngs平台的基因大片段重排检测方法
CN117265069B (zh) * 2023-09-21 2024-05-14 北京安智因生物技术有限公司 基于半导体测序平台检测brca1/2基因拷贝数变异

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10446261B1 (en) * 2008-01-06 2019-10-15 Biotailor, Inc. System and method for analyzing splicing codes of spliceosomal introns
WO2009108917A2 (en) * 2008-02-29 2009-09-03 Oncomethylome Sciences, S.A. Markers for improved detection of breast cancer
CN102533985B (zh) * 2011-12-19 2014-08-06 深圳华大基因科技有限公司 一种检测dmd基因外显子缺失和/或重复的方法
US10655187B2 (en) * 2013-04-18 2020-05-19 Gencurix Inc. Genetic marker for early breast cancer prognosis prediction and diagnosis, and use thereof
CN106372459B (zh) * 2016-08-30 2019-03-15 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
CN110997944A (zh) * 2017-05-26 2020-04-10 生命科技股份有限公司 用于检测brca1/2中的大片段重排方法和系统
CN111349699A (zh) * 2018-12-24 2020-06-30 深圳华大智造科技有限公司 试剂盒及从宫颈分泌物中检测brca基因突变的方法

Also Published As

Publication number Publication date
CN111899789A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111899789B (zh) 二代测序鉴定brca1/2大片段重排的方法及系统
Li et al. A rapid and sensitive next-generation sequencing method to detect RB1 mutations improves care for retinoblastoma patients and their families
CN112088220B (zh) 替代标志物及用于肿瘤突变负荷测定的方法
CN111091868B (zh) 一种染色体非整倍体的分析方法及系统
CN112768000B (zh) 一种预测met基因拷贝数变化类型的方法及装置
CN108470114A (zh) 基于单样本的二代测序数据分析肿瘤突变负荷的方法
CN113450871A (zh) 基于低深度测序的鉴定样本同一性的方法
Brewer et al. The value of parental testing by next-generation sequencing includes the detection of germline mosaicism
CN111105844A (zh) 体细胞变异分类方法、装置、设备及可读存储介质
CN112592976B (zh) 一种检测met基因扩增的方法及装置
US20210102199A1 (en) Fragment size characterization of cell-free dna mutations from clonal hematopoiesis
Gerrie et al. Population-based characterization of the genetic landscape of chronic lymphocytic leukemia patients referred for cytogenetic testing in British Columbia, Canada: the role of provincial laboratory standardization
CN114708908B (zh) 检测实体瘤微小残留病灶的方法、计算设备和存储介质
Dewald Interphase FISH studies of chronic myeloid leukemia
CN107239676B (zh) 一种针对胚胎染色体的序列数据处理装置
CN105442053A (zh) 一种检测诊断离子通道病致病基因的dna文库及其应用
JP4922778B2 (ja) 遺伝子検査結果判定法およびプログラムおよびその装置
CN115198011A (zh) 静脉血栓栓塞症多基因检测试剂盒及其应用
KR102010899B1 (ko) 차세대서열분석 스크리닝을 통해 발굴한 단일염기다형성에 의한 염증성 장질환의 예측 또는 진단에 관한 정보 제공 방법
CN108342483B (zh) 一组用于非超突变型结直肠癌分子分型的基因及其应用
CN107312867B (zh) 诊断甲状腺功能减退的snp及其应用
Sharifi et al. Constraints of carrier screening in spinal muscular atrophy: Co-existence of deletion and duplication in SMN1 gene and false negative MLPA result
WO2018025521A1 (ja) 落屑症候群又は落屑緑内障の発症リスクの判定方法
KR102010897B1 (ko) 차세대서열분석 스크리닝을 통해 발굴한 단일염기다형성에 의한 염증성 장질환의 예측 또는 진단에 관한 정보 제공 방법
KR20100090702A (ko) 암의 검출에 사용하기 위한 약 12317-16254 잔기의 미토콘드리아 dna 결손

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant