CN107526941A - 拷贝数变异检测预处理装置、检测装置、判定装置和系统 - Google Patents

拷贝数变异检测预处理装置、检测装置、判定装置和系统 Download PDF

Info

Publication number
CN107526941A
CN107526941A CN201710866321.3A CN201710866321A CN107526941A CN 107526941 A CN107526941 A CN 107526941A CN 201710866321 A CN201710866321 A CN 201710866321A CN 107526941 A CN107526941 A CN 107526941A
Authority
CN
China
Prior art keywords
gene
sample
extron
copy number
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710866321.3A
Other languages
English (en)
Other versions
CN107526941B (zh
Inventor
姚继成
秦公炜
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
To Medical Science And Technology (shanghai) Co Ltd
Original Assignee
To Medical Science And Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by To Medical Science And Technology (shanghai) Co Ltd filed Critical To Medical Science And Technology (shanghai) Co Ltd
Priority to CN201710866321.3A priority Critical patent/CN107526941B/zh
Publication of CN107526941A publication Critical patent/CN107526941A/zh
Application granted granted Critical
Publication of CN107526941B publication Critical patent/CN107526941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提供了一种用于对捕获的目标区域上的基因进行拷贝数变异检测的预处理装置、检测装置、真伪判定装置以及系统,其中的预处理装置,其特征在于,包括:数据标准化部、基因相对拷贝数参数计算部以及外显子相对拷贝数参数计算部,其中,数据标准化部对正确比对数据进行标准化处理得到标准化数据;基因相对拷贝数参数计算部基于标准化数据并根据基因预定计算规则,计算得到基因的基因相对拷贝数参数;外显子相对拷贝数参数计算部基于标准化数据并根据外显子预定计算规则,逐一对一个基因的各个外显子计算得到与该基因相应的各个外显子相对拷贝数参数。

Description

拷贝数变异检测预处理装置、检测装置、判定装置和系统
技术领域
本发明属于生物信息领域,具体涉及一种用于对捕获的目标区域上的基因进行拷贝数变异检测的预处理装置、检测装置、真伪判定装置以及系统。
背景技术
伴随人类基因组数据的不断完善和二代测序成本的降低,与此同时,针对肿瘤治疗的靶向药物也越来越多,二代测序技术也随着精准医疗的推广和肿瘤治疗结合越来越紧密。
目前,基于二代测序的研究主要集中在实体肿瘤组织测序、循环肿瘤DNA测序以及单细胞测序等技术,而实体肿瘤组织测序通过设计针对性的探针捕获目的区域(小片段/小panel)测序,是当前使用最广、精确度最好的技术,也被称作针对肿瘤测序的金标准,该方法为患者提供了高效精准的靶向药物选择方案,可使患者在更快获得靶向药物治疗的同时既赢得了时间也降低了不同种类靶向药之间选择的经济压力,可使患者更快更精准更便宜的获益,显著提高相关受益患者生存率。
而在实体肿瘤组织测序中,拷贝数变异(Copy Number Variants,CNV)扮演了很重要的角色。CNV一般指染色体上大于1Kb的片段发生丢失或重复的现象。CNV是一种广泛存在动植物基因组中的遗传多态,它的突变频率远高于SNP。
然而,现有的CNV检测方法大多是针对全基因组或者全外显子组测序数据的,如CNV-seq,CNVnator,EXCAVATOR和Contra等。但是,上述方法均要做片段化处理,通过特定的统计学算法将拷贝数相似且相邻的区间合并成一个大片段,对该大片段进行检测,但是小panel测序的基因太少,且在染色体上的距离都很远,直接使用上述的方法会把距离很远的两个基因合并到一个片段,这种处理之后对小panel内各基因的特征显著性会大大降低,影响检出效率,所以不能适用上述方法进行CNV的检测。
发明内容
本发明提供一种用于对捕获的目标区域上的基因进行拷贝数变异检测的预处理装置、检测装置、真伪判定装置以及系统。
为了实现上述目的,本发明采用了如下技术方案:
本发明提供了一种拷贝数变异检测的预处理装置,对采用多个探针捕获样本得到的目标区域进行基因测序后并比对到参考基因组得到的正确比对数据进行处理得到能用于拷贝数变异检测得到检测结果或能用于对该检测结果进行真伪判定的数据或参数,其特征在于,包括:数据标准化部、基因相对拷贝数参数计算部以及外显子相对拷贝数参数计算部,其中,数据标准化部根据分别与探针分别对应的预定区间对正确比对数据进行标准化处理得到至少包括分别与不同的预定探针区间分别对应的探针测序深度值的与样本相应的标准化数据,预定区间为根据与不同探针分别对应的测序后得到的原始探针区间整理得到的相互之间没有重叠的区间;基因相对拷贝数参数计算部基于标准化数据,根据采用基因深度设定规则设定的与目标区域上的一个样本基因相应的基因测序深度、采用样本深度设定规则设定的与样本对应的样本测序深度,并根据基因预定计算规则,计算得到基因的基因相对拷贝数参数;外显子相对拷贝数参数计算部基于标准化数据,根据采用外显子深度设定规则设定的与外显子对应的外显子测序深度以及样本测序深度,并根据外显子预定计算规则,逐一对一个基因的各个外显子计算得到与该基因相应的各个外显子相对拷贝数参数。
本发明提供的预处理装置,还具有这样的特征:其中,基因深度设定规则为:将属于同一个基因的所有探针测序深度值中为中位数的探针测序深度值设定为该基因的基因测序深度。
本发明提供的预处理装置,还具有这样的特征:其中,样本深度设定规则为:将对目标区域测序得到的所有探针测序深度值中为中位数的探针测序深度设定为样本的样本测序深度。
本发明提供的预处理装置,还具有这样的特征:其中,外显子深度设定规则为:将一个外显子的所有探针测序深度值中为中位数的探针测序深度值设定为相应外显子的外显子测序深度。
本发明提供的预处理装置,还具有这样的特征:其中,基因预定计算规则为:当基因测序深度大于等于样本测序深度时,采用预定第一基因拷贝数公式计算基因相对拷贝数参数;当基因当基因测序深度小于样本测序深度时,采用预定第二基因拷贝数公式计算基因相对拷贝数参数。
本发明提供的预处理装置,还具有这样的特征:其中,预定第一基因拷贝数公式为:
gene_1copies=2×(1+(gene_depth-sample_depth)÷(sample_depth÷2))
式中,gene_1copies表示第一基因相对拷贝数参数,
gene_depth表示基因测序深度,
sample_depth表示样本测序深度。
本发明提供的预处理装置,还具有这样的特征:其中,预定第二基因拷贝数公式为:
gene_2copies=2×(gene_depth÷sample_depth)
式中,gene_2copies表示第二基因相对拷贝数参数,
gene_depth表示基因测序深度,
sample_depth表示样本测序深度。
本发明提供的预处理装置,还具有这样的特征:其中,外显子预定计算规则为:当外显子测序深度大于等于样本测序深度时,采用预定第一外显子拷贝数公式计算外显子相对拷贝数参数;当外显子测序深度小于样本测序深度时,采用预定第二外显子拷贝数公式计算外显子相对拷贝数参数。
本发明提供的预处理装置,还具有这样的特征:其中,预定第一外显子拷贝数公式为:
exon_1copies=2×(1+(exon_depth-sample_depth)÷(sample_depth÷2))
式中,exon_1copies表示第一外显子相对拷贝数参数,
exon_depth表示外显子测序深度,
sample_depth表示样本测序深度。
本发明提供的预处理装置,还具有这样的特征:其中,预定第二外显子拷贝数公式为:
exon_2copies=2×(exon_depth÷sample_depth)
式中,exon_2copies表示第二外显子相对拷贝数参数,
exon_depth表示外显子测序深度,
sample_depth表示样本测序深度。
本发明还提供一种检测装置,对捕获待测样本得到的样本目标区域上的样本基因进行拷贝数变异检测得到检测结果,其特征在于,包括:检测侧通信部、显著性检验计算部、显著性判断部、异常设定部、第一检测判断部、第一检测设定部、第二检测判断部、第二检测设定部、第三检测判断部、第三检测设定部、第四检测判断部、第四检测设定部以及检测结果判定部,检测侧通信部接收由预处理装置基于样本目标区域的样本正确比对数据处理得到的与所待测样本相应的至少含有不同样本探针测序深度值的样本标准化数据、与样本基因相应的样本基因相对拷贝数参数和各个样本外显子相对拷贝数参数;显著性检验计算部基于样本标准化数据,将属于同一个样本基因的所有探针测序深度值形成的基因集合,与不属于该样本基因的其它所有探针测序深度值形成的剩余深度集合之间做显著性检验计算得到与该样本基因相对应的检验结果;显著性判断部判断显著性检验结果是否满足大于等于0.05的显著条件;当判断满足显著条件时,异常设定部设定相应的样本基因为拷贝数异常基因;第一检测判断部判断一个样本基因的样本基因相对拷贝数参数是否满足大于等于3的第一变异条件;当判断满足第一变异条件时,第一检测设定部将相应的样本基因设定为第一变异条件基因;当判断不满足第一变异条件时,第二检测判断部判断样本基因相对拷贝数参数是否满足小于等于1的第二变异条件;当判断满足第二变异条件时,第检测二设定部将相应的样本基因设定为第二变异条件基因;第三检测判断部根据一个样本基因的各个样本外显子在染色体上的顺序,并判断是否满足该样本基因的所有样本外显子拷贝数大于等于3对应的所有样本外显子中在染色体上的顺序为连续的所有样本外显子的数量大于等于该样本基因的所有样本外显子的总个数的三分之二的第三变异条件;当满足第三变异条件时,第三检测设定部将相应的样本基因设定为第三变异条件基因;当第三检测判断部判断不满足第三变异条件时,第四检测判断部根据各个样本外显子在染色体上的顺序,判断是否满足样本基因的所有样本外显子相对拷贝数参数小于等于1对应的所有样本外显子在染色体上的顺序为连续的所有样本外显子的数量大于等于该基因的所有样本外显子的总个数的三分之一的第四变异条件;当判断满足第四变异条件时,第四检测设定部将基因设定为第四变异条件基因;检测结果判定部,当一个样本基因同时被设定为拷贝数异常基因、第一变异条件基因以及第三变异条件基因时,判定检测结果为样本基因为拷贝数扩增的扩增结果,当一个样本基因同时被设定为拷贝数异常基因、第二变异条件基因以及第四变异条件基因时,判定检测结果为样本基因为拷贝数缺失的缺失结果,当一个样本基因被设定为拷贝数异常基因,但不被同时设定第二变异条件基因和第四变异条件基因时,判定检测结果为样本基因为拷贝数变异待定的变异待定结果,当样本基因不被设定为拷贝数异常基因时,判定检测结果为样本基因为拷贝数正常基因的正常结果,预处理装置为上述的预处理装置。
本发明还提供一种真伪判定装置,采用捕获对照样本得到的对照目标区域上的与样本目标区域上的样本基因相应的对照基因判定该样本基因的检测结果的真伪,其特征在于,包括:判定侧通信部以及真伪判定部,判定侧通信部接收由预处理装置分别基于样本目标区域的样本正确比对数据和对照目标区域的对照正确比对数据处理得到的分别与所样本基因相应的样本基因相对拷贝数参数、所有样本外显子相对拷贝数参数和与对照基因相应的对照相对拷贝数参数、所有对照外显子相对拷贝数参数,并接收由检测装置检测得到的样本基因的检测结果,真伪判定部基于样本基因相对拷贝数参数、样本外显子相对拷贝数参数、对照相对拷贝数参数以及对照外显子拷贝数,判定检测结果的真伪,其中,预处理装置为上述的预处理装置,检测装置为上述的检测装置,真伪判定部具有:基因对数计算单元、外显子对数计算单元、第一真伪判断单元、第一真伪设定单元、第二真伪判断单元、第二真伪设定单元、第三真伪判断单元、第三真伪设定单元、第四真伪判断单元、第四真伪设定单元以及真伪判定单元,基因对数计算单元根据样本基因相对拷贝数参数和对照基因相对拷贝数参数,采用预定基因对数计算公式,计算得到与样本基因相应的基因对数值;外显子对数计算单元根据一个样本基因的所有样本外显子拷贝参数和相应的对照基因的所有对照外显子相对拷贝数参数,采用预定外显子对数计算公式,逐一计算得到与该样本基因相应的各个外显子对数值;第一真伪判断单元判断基因对数值是否满足大于等于0.5的第一条件,当判断满足第一条件时,第一真伪设定单元将相应的样本基因设定为第一条件基因;当判断不满足第一条件时,第二真伪判断单元判断基因对数值是否满足小于等于-1的第二条件;当判断满足第二条件时,第二真伪设定单元将相应的样本基因设定为第二条件基因;第三真伪判断单元根据一个样本基因的各个样本外显子在染色体上的顺序,并判断是否满足该样本基因的所有外显子对数值大于等于0.5对应的所有样本外显子中在染色体上的顺序为连续的所有样本外显子的数量大于等于该样本基因的所有样本外显子的总个数的三分之二的第三条件;当判断满足第三条件时,第三真伪设定单元将相应的样本基因设定为第三条件基因;当判断不满足第三条件时,第四真伪判断单元根据各个样本外显子在染色体上的顺序,判断是否满足样本基因的所有外显子对数值小于等于-1对应的所有样本外显子在染色体上的顺序为连续的所有样本外显子的数量大于等于该样本基因的所有样本外显子的总个数的三分之一的第四条件;当判断满足第四变件时,第四真伪设定单元将相应的样本基因设定为第四条件基因;真伪判定单元,当一个样本基因被同时设定为第一条件基因和第三条件基因时,判定该样本基因的检测结果为扩增结果或正常结果的检测结果为真,当一个样本基因被同时设定为第二条件基因和第四条件基因时,判定该样本基因的检测结果为缺失结果、变异待定结果或正常结果的检测结果为真。
本发明提供的真伪判定装置,还具有这样的特征:其中,预定基因对数计算公式为:
logR_gene=log2×(Tumor_gene_copies÷Blood_gene_copies)
式中,logR_gene表示样本基因的基因对数值,
Tumor_gene_copies表示样本基因的样本基因相对拷贝参数,
Blood_gene_copies表示与样本基因相应的对照基因的对照基因相对拷贝参数。
本发明提供的真伪判定装置,还具有这样的特征:其中,预定外显子对数计算公式为:
logR_exon=log2×(Tumor_exon_copies÷Blood_exon_copies)
式中,logR_exon表示外显子对数值,
Tumor_exon_copies表示样本外显子拷贝参数,
Blood_exon_copies表示相应的对照外显子相对拷贝数参数。
本发明还提供一种拷贝数变异检测判定系统,其特征在于,包括:拷贝数变异检测的预处理装置,对采用多个探针捕获样本得到的目标区域进行基因测序后并比对到参考基因组得到的正确比对数据进行处理得到能用于拷贝数变异检测或真伪判定的数据或参数;拷贝数变异检测的检测装置,基于预处理装置得到的待测样本的相关所述数据或所述参数,对样本目标区域上的样本基因进行拷贝数变异检测得到检测结果;拷贝数变异检测的真伪判定装置,基于所述预处理装置分别得到的待测样本和对照样本的相关数据和参数,并基于所述检测装置得到的所述检测结果,采用对照目标区域上的与样本目标区域上的样本基因相应的对照基因判定该样本基因的检测结果的真伪,其中,所述预处理装置为上述的预处理装置,所述检测装置为上述的检测装置,所述真伪判定装置为上述的判定装置。
发明作用与效果
本发明提供的拷贝数变异检测的预处理装置、检测装置、真伪判定装置以及包括上述装置的拷贝数变异检测判定系统,由于预处理装置具有的数据标准化部能对目标区域测序后得到的正确比对数据进行相应的处理得到标准化数据,同时其具有的基因相对拷贝数参数计算部、外显子相对拷贝数计算部分别基于标准化数据计算得到基因相对拷贝数参数和外显子相对拷贝数参数,而检测装置能基于来自预处理装置的待测样本的样本标准化数据进行显著性判断,同时能基于相应的样本基因相对拷贝数参数进行第一变异条件和第二变异条件判断,并同时能基于相应的各个样本外显子相对拷贝进行第三变异条件和第四变异条件判断,由此就能检测出基因是否为拷贝数异常的基因,并且是为扩增异常还是缺失异常的基因,并给出相应的检测结果,而真伪判定装置基于来自预处理装置的待测样本的样本基因相对拷贝数参数和各个样本外显子相对拷贝数、对照样本的对照基因相对拷贝数参数和各个对照外显子相对拷贝数,就能对检测装置的检测结果真伪进行判定,实现了不需要片段合并,并基于少量数据就能对小片段的拷贝数变异进行精确检测以及判定。
附图说明
图1为实施例涉及的拷贝数变异检测系统的结构框图;
图2为实施例涉及的预处理装置的结构框图;
图3为实施例涉及的检测装置的结构框图;
图4为实施例涉及的真伪判定装置的结构框图;
图5为实施例所涉及的拷贝数变异检测系统的动作流程图;
图6为实施例所涉及的预处理装置的动作流程图;
图7为实施例所涉及的检测装置的动作流程图;
图8为实施例所涉及的真伪判定装置的动作流程图。
具体实施方式
以下以个体的肿瘤组织为待测样本,来自与肿瘤组织对应的血液样本为对照样本为例,结合附图来说明本发明的具体实施方式。
以下实施例中,在进行之前,先采用多个样本探针捕获待测样本得到样本目标区域,进行基因测序,然后将测序结果比对到参考基因组上得到的样本正确比对数据,同时还采用与样本探针相同的多个对照探针捕获对照样本得到与样本目标区域相应的对照目标区域,之后在和样本目标区域相同的实验和测序条件进行基因测序后,再比对到相同的参考基因组上得到对照正确比对数据。
以下实施例中,提及的拷贝数变异检测,都说的是针对多个样本探针捕获待测样本得到的样本目标区域上的样本基因进行检测,提及的检测结果的真伪判定,都说的是采用与样本目标区域相应的对照目标区域的、与样本基因相应的对照基因,对该样本基因的拷贝数变异检测的检测结果进行真伪判定,也即判定检测结果是真阳性还是假阳性,是真阴性,还是假阴性。
实施例
图1为实施例涉及的拷贝数变异检测系统的结构框图。
本实施例中针对待测样本只进行拷贝数变异检测。
如图1所示,拷贝数变异检测系统100,包括拷贝数变异检测的预处理装置10、拷贝数变异检测的检测装置20以及拷贝数变异检测的真伪判定装置40,预处理装置10和检测装置20以及真伪判定装置40分别通过通信网络60和通信网络70相通信连接,检测装置20和真伪判定装置40通过通信网络80相通信连接。
图2为本实施例涉及的预处理检测装置的结构框图。
如图2所示,预处理装置10包括数据标准化部11、基因相对拷贝数计算部12、外显子相对拷贝数计算部13、处理侧暂存部14、处理则通信部15以及处理侧控制部16。
数据标准化部11根据分别与探针分别对应的预定探针区间对正确比对数据进行标准化处理得到至少包括分别与不同的预定探针区间分别对应的探针测序深度值的标准化数据,预定探针区间为根据与不同探针分别对应的测序后得到的原始探针区间整理得到的相互之间没有重叠的区间。另外,在本实施例中,由于针对待测样先进行拷贝数变异检测得到检测结果,再采用对照样本对该检测结果的真伪进行判定,所以分别得到待测样本的含有不同样本探针测序深度值的样本标准化数据、对照样本的含有不同对照探针测序深度值的对照标准化数据。
基因相对拷贝数计算部12基于上述标准化数据,根据采用基因深度设定规则设定的与目标区域上的一个样本基因相应的基因测序深度、采用样本深度设定规则设定的与样本对应的样本测序深度,并根据基因预定计算规则,计算得到基因的基因相对拷贝数参数。本实施例中,要分别计算得到样本基因的样本基因相对拷贝数参数、相应的对照基因的对照基因相对拷贝数参数。
具体地,基因深度设定规则为:将属于同一个基因的所有探针测序深度值中为中位数的探针测序深度值设定为该基因的基因测序深度。本实施例中,将属于同一个样本基因的所有样本探针测序深度值中为中位数的样本探针测序深度值设定为该样本基因的样本基因测序深度,同样地,设定一个对照基因中为中位数的对照探针测序深度值为该对照基因的对照测序深度。
样本深度设定规则为:将对目标区域测序得到的所有探针测序深度值中为中位数的探针测序深度值设定为样本的样本测序深度。本实施例中,将对待测样本的样本目标区域测序得到的所有样本探针测序深度值中为中位数的样本探针测序深度值设定为待测样本的待测样本测序深度,同样地,将对照目标区域测序得到的所有对照探针测序深度值中为中位数的对照探针测序深度值设定为对照样本的对照样本测序深度。
基因预定计算规则为:当基因测序深度大于等于样本测序深度时,采用预定第一基因拷贝数公式计算基因相对拷贝数参数;当基因当基因测序深度小于样本测序深度时,采用预定第二基因拷贝数公式计算基因相对拷贝数参数。比如,将样本基因的样本基因测序深度和相应的待测样本测序深度进行大小的比较,如果样本基因测序深度大于待测样本测序深度,则采用预定第一基因拷贝数公式计算得到样本基因的样本基因相对拷贝数参数,反之,则采用预定第二基因拷贝数公式计算得到样本基因相对拷贝数参数,对对照基因的对照基因相对拷贝数参数,也是同样计算得到。
本实施例中,预定第一基因拷贝数公式为:
gene_1copies=2×(1+(gene_depth-sample_depth)÷(sample_depth÷2))
在预定第一基因拷贝数公式中,gene_1copies表示第一基因相对拷贝数参数,gene_depth表示基因测序深度,sample_depth表示样本测序深度。
预定第二基因拷贝数公式为:
gene_2copies=2×(gene_depth÷sample_depth)
在预定第二基因拷贝数公式为式中,gene_2copies表示第二基因相对拷贝数参数,gene_depth表示基因测序深度,sample_depth表示样本测序深度。
外显子相对拷贝数计算部13基于标准化数据,根据采用外显子深度设定规则设定的与外显子对应的外显子测序深度以及上述样本测序深度,并根据外显子预定计算规则,逐一对一个基因的各个外显子计算得到与该基因相应的各个外显子相对拷贝数参数。本实施例中,要分别计算得到样本基因的各个外显子的样本外显子相对拷贝数参数、相应的对照基因的各个外显子的对照外显子相对拷贝数参数。
外显子深度设定规则为:将一个外显子的所有探针测序深度值中为中位数的探针测序深度值设定为相应外显子的外显子测序深度。本实施例中,将一个样本外显子的所有探针测序深度值中为中位数的样本探针测序深度值设定为相应样本外显子的样本外显子测序深度,同样地,设定一个对照外显子中为中位数的对照探针测序深度值为该对照外显子的对照外显子测序深度。
外显子预定计算规则为:当外显子测序深度大于等于样本测序深度时,采用预定第一外显子拷贝数公式计算外显子相对拷贝数参数;当外显子测序深度小于样本测序深度时,采用预定第二外显子拷贝数公式计算外显子相对拷贝数参数。比如,将一个样本基因中的一个样本外显子的样本外显子测速深度与相应的样本测序深度进行大小对比,如果样本外显子测序深度大于待测样本测序深度,则采用预定第一外显子拷贝数公式计算得到样本外显子的样本外显子相对拷贝数参数,反之,则采用预定第二外显子拷贝数公式计算得到样本外显子相对拷贝数参数,对对照基因的对照外显子相对拷贝数参数,也是同样计算得到。计算出每个外显子的外显子相对拷贝数则是目前技术所忽略的,本发明在检测扩增或缺失时通过这个值可以在外显子的水平观察基因扩增或缺失情况,如果扩增或缺失的是关键功能域的外显子,则该基因同样丢失了基本功能。
本实施例中,预定第一外显子拷贝数公式为:
gene_1copies=2×(1+(gene_depth-sample_depth)÷(sample_depth÷2))
在预定第一外显子拷贝数公式中,gene_1copies表示基因相对拷贝数参数,
gene_depth表示基因测序深度,
sample_depth表示样本测序深度。
预定第二基因拷贝数公式为:
gene_2copies=2×(gene_depth÷sample_depth)
在预定第二外显子拷贝数公式中,gene_2copies表示基因相对拷贝数参数,gene_depth表示基因测序深度,sample_depth表示样本测序深度。
在基因深度、样本深度以及外显子深度设定中,均利用中位数,相比现有方法使用平均数的方式,更能准确的代表某一样本、某一外显子或者某一基因的深度,可以有效排出因实验或者其他误差造成的平均数假阳或者假阴。
现有技术全基因类成对样本测序时,也即对待测样本和对照样本测序时,待测样本测序深度和对照样本测序深度往往都比较一致,因此可以直接拿待测样本测序深度比上对照样本测序深度,但是在临床的小panel测序时,往往待测样本测序深度要远大于对照的测序深度,所以不能直接使用现有的计算方法,因此需要利用公式先计算待测样本和对照样本的外显子和基因的相对拷贝数,通过这个计算可以消除不同测序深度的影响。
处理则暂存部14对预处理装置10运行产生的相关数据或参数进行暂时存储。
处理侧通信部15通过通信网络60,从其它系统分别接收样本正确比对数据和对照正确比对数据,并将对样本正确比对数据处理得到的与待测样本相应的样本标准化数据、与样本基因相对应的样本基因相对拷贝数参数以及该样本基因中各个样本外显子的样本外显子相对拷贝数向检测装置20发送,同时通过通信网络70将样本基因相对拷贝数参数和与相应的对照基因相对应的对照基因相对拷贝数参数、相应的各个样本外显子相对拷贝数与相应的对照外显子相对拷贝数向真伪判定装置40发送。
处理侧控制部16包含控制数据标准化部11、基因相对拷贝数计算部12、外显子相对拷贝数计算部13、处理侧暂存部14以及处理则通信部15运行的计算机程序。
图3为实施例涉及的检测装置的结构框图。
如图3所示,检测装置20用于对待检测样本的样本目标区域上的样本基因的拷贝数变异进行检测,包括检测侧通信部21、显著性检验计算部22、显著性判断部23、异常设定部24、第一检测判断部25、第一检测设定部26、第二检测判断部27、第二检测设定部28、第三检测判断部29、第三检测设定部30、第四检测判断部31、第四检测设定部32、检测结果判定部33、检测侧暂存部34以及检测侧控制部35。
检测侧通信部21通过通信网络60,接收预处理装置10发送过来的样本标准化数据、与样本基因相对应的样本基因相对拷贝数参数以及该样本基因中各个样本外显子的样本外显子相对拷贝数对样本目标区域上的样本基因进行拷贝数变异检测,并将检测得到的检测结果通过通信网络80发送给真伪判定装置40进行真伪的判定。
显著性检验计算部22基于样本标准化数据,将属于同一个样本基因的所有样本探针测序深度值形成的基因集合,与不属于该样本基因的其它所有样本探针测序深度值形成的剩余深度集合之间做显著性检验计算得到与该样本基因相对应的检验结果。本实施例中显著性检验采用的是T检验。
显著性判断部23用于判断性检验结果是否满足大于等于显著阈值的显著条件。本实施例中,显著阈值为0.05。
当判断满足显著条件时,异常设定部24设定相应的基因为拷贝数异常基因。
引入T检验可以对一个基因的拷贝数增加在整体水平上与该样本其他基因进行显著性差异比较,可以更加准确的排除因某个基因小部分扩增而导致的假阳性出现,现有方法没有做这一步处理。
第一检测判断部25用于判断一个样本基因的样本基因相对拷贝数参数是否满足大于等于3的第一变异条件3。
当第一检测判断部25判断满足第一变异条件时,第一检测设定部26用于将相应的样本基因设定为第一变异条件基因。
当第一检测判断部25判断不满足该第一变异条件时,第二检测判断部27继续判断样本基因相对拷贝数参数是否满足小于等于1的第二变异条件。
当第二检测判断部27判断满足第二变异条件时,第二检测设定部28将样本基因设定为第二变异条件基因。
第三检测判断部29根据一个样本基因的各个样本外显子在染色体上的顺序,并判断是否满足该样本基因的所有样本外显子拷贝数大于等于3对应的所有样本外显子中在染色体上的顺序为连续的所有样本外显子的数量大于等于该样本基因的所有样本外显子的总个数的三分之二的第三变异条件,比如,一个样本基因包括的样本外显子总个数为200,而其中样本外显子拷贝数大于等于3对应的样本外显子的数量为180,而这180个样本外显子中,在染色体上的顺序为连续的样本外显子的数量又为165,也即大于等于200的三分之二,也即134,那么就表面满足第三变异条件。
当第三检测判断部29判断满足第三变异条件时,第三检测设定部30将相应的样本基因设定为第三变异条件基因;
当第三检测判断部29判断不满足第三变异条件时,第四检测判断部31根据各个样本外显子在染色体上的顺序,判断是否满足样本基因的所有样本外显子相对拷贝数参数小于等于1对应的所有样本外显子在染色体上的顺序为连续的所有样本外显子的数量大于等于该基因的所有样本外显子的总个数的三分之一的第四变异条件。比如,一个样本基因包括的样本外显子总个数为200,而其中样本外显子拷贝数小于等于1对应的样本外显子的数量为100,而这100个样本外显子中,在染色体上的顺序为连续的样本外显子的数量又为80,也即大于等于200的三分之一,也即67,那么就表面满足第四变异条件。
对于基因扩增,只有当连续的全部或者大部分的外显子都扩增,才可能表达出有功能的蛋白,因此需要查看扩增的外显子比例和连续性;而相对于基因缺失只需要缺失个别关键的外显子或者部分外显子即可能导致整个基因的功能丧失,通过相对拷贝数来看可以排除因对照测序异常引起的假阳性。
当第四检测判断部31判断满足第四变异条件时,第四检测设定部32将基因设定为第四变异条件基因。
最后,检测结果判定部33根据不同设定结果进行判定:当一个样本基因同时被设定为拷贝数异常基因、第一变异条件基因以及第三变异条件基因时,判定检测结果为样本基因为拷贝数扩增的扩增结果,当一个样本基因同时被设定为拷贝数异常基因、第二变异条件基因以及第四变异条件基因时,判定检测结果为样本基因为拷贝数缺失的缺失结果,当一个样本基因被设定为拷贝数异常基因,但不被同时设定第二变异条件基因和第四变异条件基因时,判定检测结果为样本基因为拷贝数变异待定的变异待定结果,当样本基因不被设定为拷贝数异常基因时,判定检测结果为样本基因为拷贝数正常基因的正常结果。
检测侧控制部35包含控制检测侧通信部21、显著性检验计算部22、显著性判断部23、异常设定部24、第一检测判断部25、第一检测设定部26、第二检测判断部27、第二检测设定部28、第三检测判断部29、第三检测设定部30、第四检测判断部31、第四检测设定部32、检测结果判定部33以及检测侧暂存部34运行的计算机程序。
图4为实施例所涉及的真伪判定装置的结构框图。
如图4所示,真伪判定装置40用于对待检测样本的样本目标区域上的样本基因的拷贝数变异进行检测,包括判定侧通信部41、判定侧暂存部42、真伪判定部43以及判定侧控制部55。
判定侧通信部41通过通信网络60,接收预处理装置10发送过来的与所样本基因相应的样本基因相对拷贝数参数、所有样本外显子相对拷贝数参数,与对照基因相应的对照相对拷贝数、所有对照外显子相对拷贝数参数,并接收由检测装置20发来的样本基因的检测结果,对该检测结果进行真伪的判定,也即是否是真阳性或真阴性的判定,真阳性即指拷贝数变异检测确实为扩增变异或缺失变异,真阴性即指拷贝数变异检测确实正常,判定结果为真就表明检测结果为真阳性或真阴性时,判定结果为假就表明检测结果为假阳性或假阴性。
真伪判定部42具有基因对数计算单元44、外显子对数计算单元45、第一真伪判断单元46、第一真伪设定单元47、第二真伪判断单元48、第二真伪设定单元49、第三真伪判断单元50、第三真伪设定单元51、第四真伪判断单元52、第四真伪设定单元53以及真伪判定单元54。
基因对数计算单元44根据样本基因相对拷贝数参数和对照基因相对拷贝数参数,采用预定基因对数计算公式,计算得到与样本基因相应的基因对数值。
本实施例中,预定基因对数计算公式为:
logR_gene=log2×(Tumor_gene_copies÷Blood_gene_copies)
式中,logR_gene表示样本基因的基因对数值,
Tumor_gene_copies表示样本基因的样本基因相对拷贝参数,
Blood_gene_copies表示与样本基因相应的对照基因的对照基因相对拷贝参数。
外显子对数计算单元根据一个样本基因的所有样本外显子拷贝数和相应的对照基因的所有对照外显子相对拷贝数参数,采用预定外显子对数计算公式,逐一计算得到与该样本基因相应的各个外显子对数值。
本实施例中,预定外显子对数计算公式为:
logR_exon=log2×(Tumor_exon_copies÷Blood_exon_copies)
式中,logR_exon表示外显子对数值,
Tumor_exon_copies表示样本外显子拷贝参数,
Blood_exon_copies表示相应的对照外显子相对拷贝数参数。
第一真伪判断单元46判断基因对数值是否满足大于等于0.5的第一条件。
当第一真伪判断单元46判断满足第一条件时,第一真伪设定单元47将相应的样本基因设定为第一条件基因。
当第一真伪判断单元46判断不满足第一条件时,第二真伪判断单元48判断基因对数值是否满足小于等于-1的第二条件。
当第一真伪判断单元46判断满足第二条件时,第二真伪设定单元49将相应的样本基因设定为第二条件基因。
第三真伪判断单元50根据一个样本基因的各个样本外显子在染色体上的顺序,并判断是否满足该样本基因的所有外显子对数值大于等于0.5对应的所有样本外显子中在染色体上的顺序为连续的所有样本外显子的数量大于等于该样本基因的所有样本外显子的总个数的三分之二的第三条件。比如,一个样本基因包括的样本外显子总个数为200,而其中外显子对数值大于等于0.5对应的样本外显子的数量为160,而这160个样本外显子中,在染色体上的顺序为连续的样本外显子的数量又为145,也即大于等于200的三分之二,也即134,那么就表面满足第三条件。
当第三真伪判断单元50判断满足第三条件时,第三真伪设定单元51将相应的样本基因设定为第三条件基因。
当第三真伪判断单元50判断不满足第三条件时,第四真伪判断单元52根据各个样本外显子在染色体上的顺序,判断是否满足样本基因的所有外显子对数值小于等于-1对应的所有样本外显子在染色体上的顺序为连续的所有样本外显子的数量大于等于该样本基因的所有样本外显子的总个数的三分之一的第四条件。比如,一个样本基因包括的样本外显子总个数为200,而其中外显子对数值小于等于-1对应的样本外显子的数量为80,而这80个样本外显子中,在染色体上的顺序为连续的样本外显子的数量又为75,也即大于等于200的三分之二,也即67,那么就表面满足第四条件。
当第四真伪判断单元52判断满足第四变件时,第四真伪设定单元53将基因设定为第四条件基因。
真伪判定单元54根据各个设定结果,做出真伪判定:当一个样本基因被同时设定为第一条件基因和第三条件基因时,判定该样本基因的检测结果为扩增结果或正常结果中的一种的检测结果为真,当一个样本基因被同时设定为第二条件基因和第四条件基因时,判定该样本基因的检测结果为缺失结果、变异待定结果或正常结果中的一种的检测结果为真。
判定侧控制部55包含控制判定侧通信部41、判定侧暂存部42以及真伪判定部43运行的计算机程序。
图5为实施例所涉及的拷贝数变异检测系统的动作流程图。
如图5所示,在本实施例中,拷贝数变异检测系统100的动作流程包含以下步骤:
步骤S1,预处理装置10接收并对接收的样本正确比对数据和对照正确比对数据进行预处理得到待测样本的样本标准化数据、待测样本上的样本基因的相关参数、对照样本的对照标准化数据、对照样本上与样本基因相应的对照基因的相关参数,并将上述数据和参数向外发送,然后进入步骤S2;
步骤S2,检测装置20接收并基于待样本标准化数据和样本基因的相关参数,对待测样本上的样本基因进行拷贝数变异检测得到检测结果,并将检测结果发送给真伪判定装置40,然后进入步骤S3;
步骤S3,真伪判定装置40接收并基于样本基因的相关参数、对照基因的相关参数以及样本基因的检测结果,对该检测结果的真伪进行判定。
图6为实施例所涉及的预处理装置的动作流程图。
如图6所示,在本实施例中,预处理装置10的动作流程包含以下步骤:
步骤S1-1,处理侧通信部15通过通信网络60,从其它系统分别接收样本正确比对数据和对照正确比对数据并存储到处理侧暂存部14中,然后进入步骤S1-2;
步骤S1-2,数据标准化部11分别对样本正确比对数据和对照正确比对数据标准化分别得到样本标准化数据和对照标准化数据,并存储到处理侧暂存部14中,然后进入步骤S1-3;
步骤S1-3,基因相对拷贝数计算部12分别基于样本标准化数据和对照标准化数据,分别计算得到样本基因的样本基因相对拷贝数参数和相应的对照基因的对照基因相对拷贝数参数,并存储到处理侧暂存部14中,然后进入步骤S1-4;
步骤S1-4,外显子相对拷贝数计算部13分别基于样本标准化数据和对照标准化数据,分别计算得到样本基因的各个样本外显子相对拷贝数参数和相应的对照基因的各个对照外显子相对拷贝数参数,并存储到处理侧暂存部14中,然后进入步骤S1-5;
步骤S1-5,处理侧通信部15通过通信网络60将与待测样本相应的样本标准化数据、与样本基因相对应的样本基因相对拷贝数参数以及该样本基因中各个样本外显子的样本外显子相对拷贝数向检测装置20发送,同时将样本基因相对拷贝数参数和相应的对照基因相对拷贝数参数、相应的各个样本外显子相对拷贝数与相应的各个对照外显子相对拷贝数向真伪判定装置40发送。
图7为实施例所涉及的检测装置的动作流程图。
如图7所示,在本实施例中,检测装置20的动作流程包含以下步骤:
步骤S2-1,检测侧通信部21通过通信网络60,接收预处理装置10发送过来的样本标准化数据、与样本基因相对应的样本基因相对拷贝数参数以及该样本基因中各个样本外显子的样本外显子相对拷贝数,然后同时进入步骤S2-2、S2-5和S2-9;
步骤S2-2,显著性检验计算部22基于样本标准化数据进行显著性检验得到检验结果,然后进入步骤S2-3;
步骤S2-3,显著性判断部23判断检验结果是否满足大于等于0.05的显著条件,当判断为满足时,进入步骤S2-4,当判断为不满足时,进入步骤S2-13;
步骤S2-4,异常设定部24设定相应的样本基因为拷贝数异常基因,然后进入步骤S2-13;
步骤S2-5,第一检测判断部25判断一个样本基因的样本基因相对拷贝数参数是否满足大于等于3的第一变异条件,当判断满足时,进入步骤S2-6,当判断不满足时,进入步骤S2-7;
步骤S2-6,第一检测设定部26将相应的样本基因设定为第一变异条件基因,然后进入步骤S2-13;
步骤S2-7,第二检测判断部27继续判断样本基因相对拷贝数参数是否满足小于等于1的第二变异条件,当判断满足时,进入步骤S2-8,当判断不满足时,进入步骤S2-13;
步骤S2-8,第二检测设定部28将样本基因设定为第二变异条件基因,然后进入步骤S2-13;
步骤S2-9,第三检测判断部29判断一个样本基因是否满足第三变异条件,当判断满足时,进入步骤S2-10,当判断不满足时,进入步骤S2-11;
步骤S2-10,第三检测设定部30将相应的样本基因设定为第三变异条件基因,然后进入步骤S2-13;
步骤S2-11,第四检测判断部31继续判断是否满足第四变异条件,当判断满足时,进入步骤S2-12,当判断不满足时,进入步骤S2-13;
步骤S2-12,第四检测设定部32将基因设定为第四变异条件基因,然后进入步骤S18;
步骤S2-13,检测结果判定部33判断一个样本基因是否同时被设定为拷贝数异常基因、第一变异条件基因以及第三变异条件基因,当判断为是,进入步骤S2-14,当判断为不是,进入步骤S2-15;
步骤S2-14,检测结果判定部33判定检测结果为样本基因为拷贝数扩增的扩增基因的扩增结果,然后进入步骤S2-20;
步骤S2-15,检测结果判定部33继续判断样本基因是否同时被设定为拷贝数异常基因、第二变异条件基因以及第四变异条件基因,当判断为是,进入步骤S2-16,当判断为不是,进入步骤S2-17;
步骤S2-16,检测结果判定部33判定检测结果为样本基因为拷贝数缺失的缺失基因的缺失结果,然后进入步骤S2-20;
步骤S2-17,检测结果判定部33继续判断样本基因是否被设定为拷贝数异常基因,当判断为是,进入步骤S2-18,当判断为不是,进入步骤S2-19;
步骤S2-18,检测结果判定部33判定检测结果为样本基因为变异待定基因的变异待定结果,然后进入步骤S2-20;
步骤S2-19,检测结果判定部33判定检测结果为样本基因为拷贝数正常基因的正常结果,然后进入步骤S2-20
步骤S2-20,检测侧通信部21通过通信网络80将检测结果向真伪判定装置40发送。
图8为实施例所涉及的真伪判定装置的动作流程图。
如图8所示,在本实施例中,真伪判定装置40的动作流程包含以下步骤:
步骤S3-1,判定侧通信部55通过通信网络70接收处理装置10发送过来的样本基因相对拷贝数参数、样本外显子相对拷贝数参数、对照相对拷贝数以及对照外显子拷贝数,通过通信网络80接收检测装置20发送过来的检测结果,然后同时进入步骤S3-2和步骤S3-7;
步骤S3-2,基因对数计算单元44计算得到与一个样本基因相应的基因对数值,然后进入步骤S3-3;
步骤S3-3,第一真伪判断单元46判断基因对数值是否满足大于等于0.5的第一条件,当满足时,进入步骤S3-4,当不满足时,进入步骤S3-5;
步骤S3-4,第一真伪设定单元47将相应的样本基因设定为第一条件基因,然后进入步骤S3-12;
步骤S3-5,第二真伪判断单元48判断基因对数值是否满足小于等于-1的第二条件,当判断满足时,进入步骤S3-6,当判断不满足时,进入步骤S3-12;
步骤S3-6,第二真伪设定单元49将相应的样本基因设定为第二条件基因,然后进入步骤S3-12;
步骤S3-7,外显子对数计算单元45计算得到与一个样本基因相应的各个外显子对数值,然后进入步骤S3-8;
步骤S3-8,第三真伪判断单元50判断一个样本基因的各个外显子对数值是否满足第三条件,当判断满足时,进入步骤S3-9,当判断不满足时,进入步骤S3-10;
步骤S3-9,第三真伪设定单元51将相应的样本基因设定为第三条件基因,然后进入步骤S3-12;
步骤S3-10,第四真伪判断单元52判断一个样本基因的各个外显子对数值是否满足第四条件,当判断满足时,进入步骤S3-11,当判断不满足时,进入步骤S3-12;
步骤S3-11,第四真伪设定单元53将相应的样本基因设定为第四条件基因,然后进入步骤S3-12;
步骤S3-12,真伪判定单元54判断一个样本基因是否被同时设定为第一条件基因和第三条件基因,当判断为是时,进入步骤S3-13,当判断为不是时,进入步骤S3-14;
步骤S-13,真伪判定单元54判定检测结果为扩增结果或正常结果的检测结果为真,然后进入结束;
步骤S3-14,真伪判定单元54判断一个样本基因是否被同时设定为第二条件基因和第四条件基因,当判断为是,进入步骤S3-15,当判断为不是,进入步骤S3-15;
步骤S3-15,真伪判定单元54判定样本基因的检测结果为缺失结果、变异待定结果或正常结果的检测结果为真,然后进入结束;
步骤S3-16,真伪判定单元54判定检测结果为假,然后进入结束。
实施例的作用与效果
本实施例提供的拷贝数变异检测的预处理装置、检测装置、真伪判定装置以及包括上述装置的拷贝数变异检测判定系统,由于预处理装置具有的数据标准化部能对目标区域测序后得到的正确比对数据进行相应的处理得到标准化数据,同时其具有的基因相对拷贝数参数计算部、外显子相对拷贝数计算部分别基于标准化数据计算得到基因相对拷贝数参数和外显子相对拷贝数参数,而检测装置能基于来自预处理装置的待测样本的样本标准化数据进行显著性判断,同时能基于相应的样本基因相对拷贝数参数进行第一变异条件和第二变异条件判断,并同时能基于相应的各个样本外显子相对拷贝进行第三变异条件和第四变异条件判断,由此就能检测出基因是否为拷贝数异常的基因,并且是为扩增异常还是缺失异常的基因,并给出相应的检测结果,而真伪判定装置基于来自预处理装置的待测样本的样本基因相对拷贝数参数和各个样本外显子相对拷贝数、对照样本的对照基因相对拷贝数参数和各个对照外显子相对拷贝数,就能对检测装置的检测结果真伪进行判定,实现了不需要片段合并,并基于少量数据就能对小片段的拷贝数变异进行精确检测以及判定;
进一步地,又由于计算出每个样本基因的样本外显子的相对拷贝数参数,使得在检测时通过这个值可以在外显子的水平观察基因拷贝数变异的情况,从而使得最后的检测结果更加准确;
进一步地,又由于对于样本基因为扩增变异的情况,只有当连续的全部或者大部分的样本外显子都扩增,才可能表达出有功能的蛋白,因此通过满足一定值的样本外显子相对拷贝数以及外显子对数值的比例和连续性,可以使得检测结果更加准确;而对于样本基因为缺失变异的情况,只需要缺失很少部分的样本外显子,就可能导致整个基因的功能丧失,缺失的这部分样本外显子的比例虽然较低,但为确保结果可靠,也需要有连续性,因此通过满足一定值的样本外显子相对拷贝数以及样本外显子对数值的比例和连续性,可以使得检测结果更加准确。
另外,本实施例中,预处理装置、检测装置以及真伪判定装置之间通过相应的通信部通信连接,以进行上述数据、参数或检测结果之间的传输,作为本发明,预处理装置、检测装置以及真伪判定装置之间的数据、参数或检测结果之间的传输,还可以通过数据读取设备或读取装置进行相应的输出或输入。

Claims (15)

1.一种拷贝数变异检测的预处理装置,对采用多个探针捕获样本得到的目标区域进行基因测序后并比对到参考基因组得到的正确比对数据进行处理得到能用于拷贝数变异检测得到检测结果或能用于对该检测结果进行真伪判定的数据或参数,其特征在于,包括:
数据标准化部、基因相对拷贝数参数计算部以及外显子相对拷贝数参数计算部,
其中,所述数据标准化部根据分别与所述探针分别对应的预定区间对所述正确比对数据进行标准化处理得到至少包括分别与不同的所述预定探针区间分别对应的探针测序深度值的与所述样本相应的标准化数据,所述预定区间为根据与不同所述探针分别对应的测序后得到的原始探针区间整理得到的相互之间没有重叠的区间;
所述基因相对拷贝数参数计算部基于所述标准化数据,根据采用基因深度设定规则设定的与所述目标区域上的一个样本基因相应的基因测序深度、采用样本深度设定规则设定的与所述样本对应的样本测序深度,并根据基因预定计算规则,计算得到所述基因的基因相对拷贝数参数;
所述外显子相对拷贝数参数计算部基于所述标准化数据,根据采用外显子深度设定规则设定的与外显子对应的外显子测序深度以及所述样本测序深度,并根据外显子预定计算规则,逐一对一个所述基因的各个所述外显子计算得到与该基因相应的各个外显子相对拷贝数参数。
2.根据权利要求1所述的预处理装置,其特征在于:
其中,所述基因深度设定规则为:
将属于同一个基因的所有探针测序深度值中为中位数的所述探针测序深度值设定为该基因的基因测序深度。
3.根据权利要求1所述的预处理装置,其特征在于:
其中,所述样本深度设定规则为:
将对所述目标区域测序得到的所有所述探针测序深度值中为中位数的所述探针测序深度值设定为所述样本的样本测序深度。
4.根据权利要求1所述的预处理装置,其特征在于:
其中,所述外显子深度设定规则为:
将一个外显子的所有探针测序深度值中为中位数的所述探针测序深度值设定为相应外显子的外显子测序深度。
5.根据权利要求1所述的预处理装置,其特征在于:
其中,所述基因预定计算规则为:
当所述基因测序深度大于等于所述样本测序深度时,采用预定第一基因拷贝数公式计算所述基因相对拷贝数参数;
当所述基因当所述基因测序深度小于所述样本测序深度时,采用预定第二基因拷贝数公式计算所述基因相对拷贝数参数。
6.根据权利要求5所述的预处理装置,其特征在于:
其中,所述预定第一基因拷贝数公式为:
gene_1copies=2×(1+(gene_depth-sample_depth)÷(sample_depth÷2))
式中,gene_1copies表示基因相对拷贝数参数,
gene_depth表示基因测序深度,
sample_depth表示样本测序深度。
7.根据权利要求5所述的预处理装置,其特征在于:
其中,所述预定第二基因拷贝数公式为:
gene_2copies=2×(gene_depth÷sample_depth)
式中,gene_2copies表示基因相对拷贝数参数,
gene_depth表示基因测序深度,
sample_depth表示样本测序深度。
8.根据权利要求1所述的预处理装置,其特征在于:
其中,所述外显子预定计算规则为:
当所述外显子测序深度大于等于所述样本测序深度时,采用预定第一外显子拷贝数公式计算所述外显子相对拷贝数参数;
当所述外显子测序深度小于所述样本测序深度时,采用预定第二外显子拷贝数公式计算所述外显子相对拷贝数参数。
9.根据权利要求8所述的预处理装置,其特征在于:
其中,所述预定第一外显子拷贝数公式为:
exon_1copies=2×(1+(exon_depth-sample_depth)÷(sample_depth÷2))
式中,exon_1copies表示第一外显子相对拷贝数参数,
exon_depth表示外显子测序深度,
sample_depth表示样本测序深度。
10.根据权利要求8所述的预处理装置,其特征在于:
其中,所述预定第二外显子拷贝数公式为:
exon_2copies=2×(exon_depth÷sample_depth)
式中,exon_2copies表示第二外显子相对拷贝数参数,
exon_depth表示外显子测序深度,
sample_depth表示样本测序深度。
11.一种拷贝数变异检测的检测装置,对捕获待测样本得到的样本目标区域上的样本基因进行拷贝数变异检测得到检测结果,其特征在于,包括:
检测侧通信部、显著性检验计算部、显著性判断部、异常设定部、第一检测判断部、第一检测设定部、第二检测判断部、第二检测设定部、第三检测判断部、第三检测设定部、第四检测判断部、第四检测设定部以及检测结果判定部,
所述检测侧通信部接收由预处理装置基于所述样本目标区域的样本正确比对数据处理得到的与所待测样本相应的至少含有不同样本探针测序深度值的样本标准化数据、与所述样本基因相应的样本基因相对拷贝数参数和各个样本外显子相对拷贝数参数;
所述显著性检验计算部基于所述样本标准化数据,将属于同一个所述样本基因的所有所述探针测序深度值形成的基因集合,与不属于该样本基因的其它所有所述探针测序深度值形成的剩余深度集合之间做显著性检验计算得到与该样本基因相对应的检验结果;
所述显著性判断部判断所述显著性检验结果是否满足大于等于0.05的显著条件;
当判断满足所述显著条件时,所述异常设定部设定相应的所述样本基因为拷贝数异常基因;
所述第一检测判断部判断一个所述样本基因的样本基因相对拷贝数参数是否满足大于等于3的第一变异条件;
当判断满足所述第一变异条件时,所述第一检测设定部将相应的所述样本基因设定为第一变异条件基因;
当判断不满足所述第一变异条件时,所述第二检测判断部判断所述样本基因相对拷贝数参数是否满足小于等于1的第二变异条件;
当判断满足所述第二变异条件时,所述第检测二设定部将相应的所述样本基因设定为第二变异条件基因;
第三检测判断部根据一个所述样本基因的各个所述样本外显子在染色体上的顺序,并判断是否满足该样本基因的所有样本外显子拷贝数大于等于3对应的所有所述样本外显子中在所述染色体上的顺序为连续的所有所述样本外显子的数量大于等于该样本基因的所有所述样本外显子的总个数的三分之二的第三变异条件;
当满足所述第三变异条件时,所述第三检测设定部将相应的所述样本基因设定为第三变异条件基因;
当所述第三检测判断部判断不满足所述第三变异条件时,所述第四检测判断部根据各个所述样本外显子在染色体上的顺序,判断是否满足所述样本基因的所有所述样本外显子相对拷贝数参数小于等于1对应的所有所述样本外显子在所述染色体上的顺序为连续的所有所述样本外显子的数量大于等于该基因的所有所述样本外显子的总个数的三分之一的第四变异条件;
当判断满足所述第四变异条件时,所述第四检测设定部将所述基因设定为第四变异条件基因;
所述检测结果判定部,当一个所述样本基因同时被设定为所述拷贝数异常基因、所述第一变异条件基因以及所述第三变异条件基因时,判定所述检测结果为所述样本基因为拷贝数扩增的扩增结果,当一个所述样本基因同时被设定为所述拷贝数异常基因、所述第二变异条件基因以及所述第四变异条件基因时,判定所述检测结果为所述样本基因为拷贝数缺失的缺失结果,当一个所述样本基因被设定为所述拷贝数异常基因,但不被同时设定所述第二变异条件基因和所述第四变异条件基因时,判定所述检测结果为所述样本基因为拷贝数变异待定的变异待定结果,当所述样本基因不被设定为所述拷贝数异常基因时,判定所述检测结果为样本基因为拷贝数正常基因的正常结果,
所述预处理装置为权利要求1-10任意一项所述的预处理装置。
12.一种拷贝数变异检测的真伪判定装置,采用捕获对照样本得到的对照目标区域上的与样本目标区域上的样本基因相应的对照基因判定该样本基因的检测结果的真伪,其特征在于,包括:
判定侧通信部以及真伪判定部,
所述判定侧通信部接收由预处理装置分别基于所述样本目标区域的样本正确比对数据和所述对照目标区域的对照正确比对数据处理得到的分别与所样本基因相应的样本基因相对拷贝数参数、所有样本外显子相对拷贝数参数和与所述对照基因相应的对照相对拷贝数参数、所有对照外显子相对拷贝数参数,并接收由检测装置检测得到的所述样本基因的检测结果,
所述真伪判定部基于所述样本基因相对拷贝数参数、样本外显子相对拷贝数参数、对照相对拷贝数参数以及对照外显子拷贝数,判定所述检测结果的真伪,
其中,所述预处理装置为权利要求1至10任意一项所述的预处理装置,
所述检测装置为权利要求11所述的检测装置,
所述真伪判定部具有:基因对数计算单元、外显子对数计算单元、第一真伪判断单元、第一真伪设定单元、第二真伪判断单元、第二真伪设定单元、第三真伪判断单元、第三真伪设定单元、第四真伪判断单元、第四真伪设定单元以及真伪判定单元,
所述基因对数计算单元根据所述样本基因相对拷贝数参数和所述对照基因相对拷贝数参数,采用预定基因对数计算公式,计算得到与所述样本基因相应的基因对数值;
所述外显子对数计算单元根据一个所述样本基因的所有所述样本外显子拷贝参数和相应的所述对照基因的所有所述对照外显子相对拷贝数参数,采用预定外显子对数计算公式,逐一计算得到与该样本基因相应的各个外显子对数值;
所述第一真伪判断单元判断所述基因对数值是否满足大于等于0.5的第一条件;
当判断满足所述第一条件时,所述第一真伪设定单元将相应的所述样本基因设定为第一条件基因;
当判断不满足所述第一条件时,所述第二真伪判断单元判断所述基因对数值是否满足小于等于-1的第二条件;
当判断满足所述第二条件时,所述第二真伪设定单元将相应的所述样本基因设定为第二条件基因;
所述第三真伪判断单元根据一个所述样本基因的各个所述样本外显子在染色体上的顺序,并判断是否满足该样本基因的所有所述外显子对数值大于等于0.5对应的所有所述样本外显子中在所述染色体上的顺序为连续的所有所述样本外显子的数量大于等于该样本基因的所有所述样本外显子的总个数的三分之二的第三条件;
当判断满足所述第三条件时,所述第三真伪设定单元将相应的所述样本基因设定为第三条件基因;
当判断不满足所述第三条件时,所述第四真伪判断单元根据各个所述样本外显子在染色体上的顺序,判断是否满足所述样本基因的所有所述外显子对数值小于等于-1对应的所有所述样本外显子在所述染色体上的顺序为连续的所有所述样本外显子的数量大于等于该样本基因的所有所述样本外显子的总个数的三分之一的第四条件;
当判断满足所述第四变件时,所述第四真伪设定单元将相应的所述样本基因设定为第四条件基因;
真伪判定单元,当一个所述样本基因被同时设定为所述第一条件基因和第三条件基因时,判定该所述样本基因的所述检测结果为所述扩增结果或所述正常结果的所述检测结果为真,当一个所述样本基因被同时设定为所述第二条件基因和第四条件基因时,判定该所述样本基因的所述检测结果为所述缺失结果、所述变异待定结果或所述正常结果的所述检测结果为真。
13.根据权利要求12所述的真伪判定装置,其特征在于:
其中,所述预定基因对数计算公式为:
logR_gene=log2×(Tumor_gene_copies÷Blood_gene_copies)
式中,logR_gene表示所述样本基因的基因对数值,
Tumor_gene_copies表示所述样本基因的所述样本基因相对拷贝参数,
Blood_gene_copies表示与所述样本基因相应的所述对照基因的对照基因相对拷贝参数。
14.根据权利要求12所述的真伪判定装置,其特征在于:
其中,所述预定外显子对数计算公式为:
logR_exon=log2×(Tumor_exon_copies÷Blood_exon_copies)
式中,logR_exon表示所述外显子对数值,
Tumor_exon_copies表示所述样本外显子拷贝参数,
Blood_exon_copies表示相应的所述对照外显子相对拷贝数参数。
15.一种拷贝数变异检测判定系统,其特征在于,包括:
拷贝数变异检测的预处理装置,对采用多个探针捕获样本得到的目标区域进行基因测序后并比对到参考基因组得到的正确比对数据进行处理得到能用于拷贝数变异检测或真伪判定的数据或参数;
拷贝数变异检测的检测装置,基于预处理装置得到的待测样本的相关所述数据或所述参数,对样本目标区域上的样本基因进行拷贝数变异检测得到检测结果;
拷贝数变异检测的真伪判定装置,基于所述预处理装置分别得到的待测样本和对照样本的相关数据和参数,并基于所述检测装置得到的所述检测结果,采用对照目标区域上的与样本目标区域上的样本基因相应的对照基因判定该样本基因的检测结果的真伪,
其中,所述预处理装置为权利要求1至10中任意一项所述的预处理装置,
所述检测装置为权利要求11所述的检测装置,
所述真伪判定装置为权利要求12至14中任意一项所述的判定装置。
CN201710866321.3A 2017-09-22 2017-09-22 拷贝数变异检测预处理装置、检测装置、判定装置和系统 Active CN107526941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710866321.3A CN107526941B (zh) 2017-09-22 2017-09-22 拷贝数变异检测预处理装置、检测装置、判定装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710866321.3A CN107526941B (zh) 2017-09-22 2017-09-22 拷贝数变异检测预处理装置、检测装置、判定装置和系统

Publications (2)

Publication Number Publication Date
CN107526941A true CN107526941A (zh) 2017-12-29
CN107526941B CN107526941B (zh) 2020-12-18

Family

ID=60736133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710866321.3A Active CN107526941B (zh) 2017-09-22 2017-09-22 拷贝数变异检测预处理装置、检测装置、判定装置和系统

Country Status (1)

Country Link
CN (1) CN107526941B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648721A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 针对外显子捕获技术检测拷贝数变异的方法及装置
CN110699436A (zh) * 2018-07-10 2020-01-17 天津华大医学检验所有限公司 确定待测样本的smn1基因是否存在七号外显子缺失的方法和系统
CN112592976A (zh) * 2020-12-30 2021-04-02 深圳市海普洛斯生物科技有限公司 一种检测met基因扩增的方法及装置
CN114400046A (zh) * 2022-03-08 2022-04-26 北京吉因加医学检验实验室有限公司 一种基于探针叠加检测基因拷贝数变异的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140051154A1 (en) * 2010-07-06 2014-02-20 Life Technologies Corporation Systems and methods to detect copy number variation
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN105930690A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140051154A1 (en) * 2010-07-06 2014-02-20 Life Technologies Corporation Systems and methods to detect copy number variation
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN105930690A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110699436A (zh) * 2018-07-10 2020-01-17 天津华大医学检验所有限公司 确定待测样本的smn1基因是否存在七号外显子缺失的方法和系统
CN110699436B (zh) * 2018-07-10 2023-07-21 天津华大医学检验所有限公司 确定待测样本的smn1基因是否存在七号外显子缺失的方法和系统
CN110648721A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 针对外显子捕获技术检测拷贝数变异的方法及装置
CN110648721B (zh) * 2019-09-19 2022-04-12 首都医科大学附属北京儿童医院 针对外显子捕获技术检测拷贝数变异的方法及装置
CN112592976A (zh) * 2020-12-30 2021-04-02 深圳市海普洛斯生物科技有限公司 一种检测met基因扩增的方法及装置
CN112592976B (zh) * 2020-12-30 2021-09-21 深圳市海普洛斯生物科技有限公司 一种检测met基因扩增的方法及装置
CN114400046A (zh) * 2022-03-08 2022-04-26 北京吉因加医学检验实验室有限公司 一种基于探针叠加检测基因拷贝数变异的方法及装置

Also Published As

Publication number Publication date
CN107526941B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN107526941A (zh) 拷贝数变异检测预处理装置、检测装置、判定装置和系统
US7239986B2 (en) Methods for classifying samples and ascertaining previously unknown classes
Qin et al. Comparison of non-parametric confidence intervals for the area under the ROC curve of a continuous-scale diagnostic test
CN101996329B (zh) 一种对血管形变区域的检测装置和方法
CN105986008A (zh) Cnv检测方法和装置
Liu et al. Testing statistical significance of the area under a receiving operating characteristics curve for repeated measures design with bootstrapping
JP2015527057A5 (zh)
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
Mi et al. Predictive models of response to neoadjuvant chemotherapy in muscle-invasive bladder cancer using nuclear morphology and tissue architecture
CN109979529A (zh) Cnv检测装置
Wang et al. Parametric methods for confidence interval estimation of overlap coefficients
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
Husmeier et al. Probabilistic divergence measures for detecting interspecies recombination
CN107437002A (zh) 一种快速检测融合基因的方法
CN112102879A (zh) 一种晚期肺癌化疗疗效预测系统及方法
CN104678091B (zh) 尿液分析仪的阈值设定方法和系统
WO2012149107A2 (en) Stratifying patient populations through characterization of disease-driving signaling
CN109102889A (zh) 疾病检测方法、检测服务器及计算机可读存储介质
CN105177130B (zh) 用来评估艾滋病人发生免疫重建炎性综合症的标志物
CN114220484A (zh) 一种个体差异表达蛋白质的识别方法
CN109754843A (zh) 一种探测基因组小片段插入缺失的方法及装置
Patel et al. Predicting Mutation Status and Recurrence Free Survival in Non-Small Cell Lung Cancer: A Hierarchical ct Radiomics–Deep Learning Approach
Kutalik et al. Advanced significance analysis of microarray data based on weighted resampling: a comparative study and application to gene deletions in Mycobacterium bovis
Kumar et al. APT: An Automated Probe Tracker from gene expression data
CN115472226B (zh) 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant