CN105969656B - 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台 - Google Patents

一种单细胞外显子测序肿瘤体细胞突变检测及分析平台 Download PDF

Info

Publication number
CN105969656B
CN105969656B CN201610319411.6A CN201610319411A CN105969656B CN 105969656 B CN105969656 B CN 105969656B CN 201610319411 A CN201610319411 A CN 201610319411A CN 105969656 B CN105969656 B CN 105969656B
Authority
CN
China
Prior art keywords
unicellular
mutation
module
false positive
somatic mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610319411.6A
Other languages
English (en)
Other versions
CN105969656A (zh
Inventor
薛成海
李阳
张广发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wankangyuan (tianjin) Gene Technology Co Ltd
Original Assignee
Wankangyuan (tianjin) Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wankangyuan (tianjin) Gene Technology Co Ltd filed Critical Wankangyuan (tianjin) Gene Technology Co Ltd
Priority to CN201610319411.6A priority Critical patent/CN105969656B/zh
Publication of CN105969656A publication Critical patent/CN105969656A/zh
Application granted granted Critical
Publication of CN105969656B publication Critical patent/CN105969656B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Hospice & Palliative Care (AREA)
  • Theoretical Computer Science (AREA)
  • Oncology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明创造提供了一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,包括假阳性分析模块、等位基因丢失率分析模块、过滤体细胞突变模块和体细胞突变筛选模块、单细胞异质性分析模块;所述假阳性分析模块、等位基因丢失率分析模块与过滤筛选体细胞突变模块连接,所述过滤筛选体细胞突变模块与所述单细胞异质性分析模块连接。本发明通过对单细胞突变位点假阳性率、等位基因丢失率的计算,过滤肿瘤中的体细胞突变,并分析单细胞之间的异质性,本发明根据单细胞基因组突变的假阳性情况论证测序结果的可靠性,能够检测单细胞实验技术的可靠性,能够对后续结果进行多功能分析。

Description

一种单细胞外显子测序肿瘤体细胞突变检测及分析平台
技术领域
本发明创造属于基因测序领域,尤其是涉及一种单细胞外显子测序肿瘤体细胞突变检测及分析平台。
背景技术
在过去的基因组学研究中我们只能关注一块组织整体的基因组情况,但是成千上万个细胞混在一起进行研究,会模糊我们对大脑、血液系统、免疫系统,及其组成这些系统的细胞之间异质性(heterogeneity)的认识。可对于每个细胞的基因组情况的研究进展缓慢,这是由于一个细胞里的DNA仅仅处在皮克(picograms)级的水平,这么少的量远远达不到现有测序仪的最低上样需求。从2013年至今,多种单细胞测序扩增技术(例如:多重置换扩增技术MDA、多重退火环状扩增循环技术MALBAC)的逐渐完善得以让我们对一个细胞的基因组进行系统的分析。通过单细胞扩增技术结合已有的外显子测序,深入到一个肿瘤细胞的层面进行疾病的致病变异检测,挖掘不同细胞间的关系是今后的一个热点方向。在此基础上的体细胞突变分析的设计是一个非常关键的问题。
现有的突变检测系统可以检测到所有样本中的突变位点,但是这些位点的可靠性分析却很少针对单细胞数据进行优化。在单细胞突变位点检测中主要面对的两个问题,一个是假阳性结果,另一个是等位基因丢失。假阳性结果是指在组织混合测序中无法检测到的位点,在单细胞中确检测到了,这种结果可能是由于测序时的误差导致。等位基因丢失是在单细胞扩增时只对于等位基因中的一条进行了扩增,对另一条没有扩增,从而导致一个突变位点的纯合、杂合情况改变。根据不同数据的假阳性和等位基因丢失情况,单细胞突变结果的筛选条件要适当变化,以确保其准确性。为此,我们设计开发了单细胞外显子测序肿瘤体细胞突变检测平台,根据MuTect提供的体细胞突变结果和GATK的突变检测结果,着重分析单细胞突变位点的假阳性、等位基因丢失率,采用针对单细胞的筛选条件过滤肿瘤中的体细胞突变。
发明内容
有鉴于此,本发明创造旨在提出一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,以实现获得高可靠性的体细胞突变。
为达到上述目的,本发明创造的技术方案是这样实现的:
一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,包括
假阳性分析模块,用于计算单细胞基因组突变的假阳性率,单细胞假阳性越高,突变位点的可靠性越低;
等位基因丢失率分析模块,用于计算单细胞基因组突变的等位基因丢失率,等位基因丢失率越高,突变位点的可靠性越低;
过滤筛选体细胞突变模块,用于过滤肿瘤中的体细胞突变,并根据假阳性率、等位基因丢失率筛选可信度高的体细胞突变;
单细胞异质性分析模块,用于分析单细胞的组内异质性;
所述假阳性分析模块、等位基因丢失率分析模块与过滤筛选体细胞突变模块连接,所述过滤筛选体细胞突变模块与所述单细胞异质性分析模块连接。
进一步的,所述等位基因丢失率分析模块包括杂合性突变位点检测模块、纯合性突变位点检测模块。
进一步的,所述过滤筛选体细胞突变模块包括条件判断模块、Fisher精确性检验模块。
进一步的,所述单细胞异质性分析模块包括雅克比距离计算模块、主成分分析模块。
相对于现有技术,本发明创造所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台具有以下优势:本发明创造首先根据单细胞基因组突变的假阳性情况论证测序结果的可靠性。单细胞测序由于技术的有限性,通常都会比组织测序结果的假阳性高。我们已知整体数据的假阳性越高,突变位点的可靠性越低,需要综合多个细胞的结果来筛选可靠的体细胞突变位点。现有的突变检测平台可以检测到所有样本中的突变位点,但不提供假阳性情况的分析,无法掌握数据的整体质量情况。
其次,本发明能够检测单细胞实验技术的可靠性,在单细胞扩增时等位基因丢失会导致突变位点的基因型(纯合、杂合)发生改变,这会导致将一些杂合性突变误判成纯合性突变,造成对突变危害的误判。
第三,体细胞突变在所有突变中的比例较少,在单细胞中由于每个样本的测序数据量比组织测序要小,精筛时要通过假设检验来排除不可信的位点。并根据假阳性和等位基因丢失率来确定在几个单细胞重复中出现的体细胞突变是可靠的体细胞突变。在单细胞包个数较少的情况下,默认突变位点至少要在2个细胞中重复出现。
最后对于多组织单细胞数据的进行异质性分析,本发明不仅能够筛选体细胞突变,而是能够对后续研究分析结果进行一定的多功能分析。
附图说明
构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解,本发明创造的示意性实施例及其说明用于解释本发明创造,并不构成对本发明创造的不当限定。在附图中:
图1为本发明创造实施例所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台的结构示意图;
图2为本发明实施例所述的不同组织样本中单细胞的假阳性率;
图3为本发明实施例所述的不同组织样本中单细胞的等位基因丢失率;
图4为本发明实施例所述的每个样本中单细胞同义突变以及非同义突变的数目;
图5为本发明实施例所述的不同组织样本中单细胞间的基因型距离分布图;
图6为本发明实施例所述的不同组织样本中单细胞间PCA分析结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
在本发明创造的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。
下面将参考附图并结合实施例来详细说明本发明创造。
如图1所示,一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,包括
假阳性分析模块,用于计算单细胞基因组突变的假阳性率,首先定义在组织测序和单细胞测序中都发现的突变为真阳性突变(TP mutation),在组织测序中发现但是在单细胞中没有发现的突变是假阴性突变(FN mutation),在单细胞中发现但是没有在组织测序中发现的突变是假阳性突变(FP mutation),在组织测序中没有被识别成突变的位点为真阴性突变(TN mutation),根据上述数据计算假阳性率FPR=FP/(FP+TN)单细胞假阳性越高,突变位点的可靠性越低;
假阳性分析模块对应的程序为:
FDR_calculator.R:过滤GATK输出的变异vcf提取readsdepth信息,计算单细胞数据的假阳性,输出每个分组中的假阳性比例,以及pdf格式图片;FDR_calculator.R用来对样本突变进行假阳性分析,该模块包含四个函数:
1.GATK_filter用于过滤vcf文件:
函数中共有4个参数:
(1).path用来指定输出输出文件的路径,在本软件所有函数中,输入和输出文件都在同个路径下。
(2).input_extension用来指定输入文件的后缀,以免读取路径下的所有文件时出错。
(3).output_extension用来指定输出文件后缀。
该函数根据vcf文件中的AD,DP标签计算位点突变频率并输出每个文件的结果。
输入文件表头如下所示:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT HUMdcpXAFWBAAPEI-21
chr1 866462 . T C 450.77 PASS AC=1;AF=0.500 GT:AD:DP:GQ:PL 0/1:7,15:22:99:479,0,209
chr1 871215 . C G 1341.8 PASS AC=1;AF=0.500 GT:AD:DP:GQ:PL 0/1:21,43:64:99:1370,0,552
chr1 876499 . A G 53.74 PASS AC=2;AF=1.00; GT:AD:DP:GQ:PL 1/1:0,2:2:6:81,6,0
输出文件表头如下所示:
chr1 866462 T C 0/1:7,15:22:99:479,0,209
chr1 871215 C G 0/1:21,43:64:99:1370,0,552
chr1 876499 A G 1/1:0,2:2:6:81,6,0
chr1 877782 C G 0/1:1,3:4:28:89,0,28
chr1 877831 T C 1/1:0,3:3:9:123,9,0
chr1 881627 G A 0/1:27,19:46:99:643,0,958
2.calculate_fn_fp用于统计单细胞中假阳和假阴结果:
函数中共有5个参数:
(1).array用来指定样本分组名称。
(2).input_extension用来指定输入文件的后缀。
(3).output_filename用来指定输出文件名称。此函数将所有统计样本的结果列表输出到一个文件中。
(4).bulkfile_flag用来识别输入文件名中的组织测序结果,是区别组织测序的样本和单细胞测序的样本名的关键词。
(5).path用来指定输出输出文件的路径。
此函数会根据肿瘤数据和对照数据,计算并输出每个样本中突变的假阳性和假阴性数目。
3.get_bulk_readsdetph用于统计组织数据所有位点:
函数中共有4个参数:
(1).input_extension用来指定输入文件的后缀。输入文件为组织测序的位点深度统计结果。
(2).output_filename用来指定输出文件名称。此函数将所有统计样本的结果列表输出到一个文件中。
(3).bulkfile_flag用来识别输入文件名中的组织测序结果,是区别组织测序的样本和单细胞测序的样本名的关键词。
(4).path用来指定输出输出文件的路径。
此函数会根据组织测序的位点深度统计结果结算覆盖深度达到5X以上的位点总个数。
4.FDR用于计算假阳率并画图:
函数中共有3个参数:
(1).bulk_data用来指定get_bulk_readsdetph函数中输出文件的名称。
(2).fnfp_data用来指定calculate_fn_fp函数中输出文件的名称。
(3).figure用来指定输出图像的名称。
本函数会根据上面步骤的数据结果计算每个单细胞样本的假阳性。
等位基因丢失率分析模块,用于计算单细胞基因组突变的等位基因丢失率,等位基因丢失率越高,突变位点的可靠性越低;所述等位基因丢失率分析模块包括杂合性突变位点检测模块、纯合性突变位点检测模块,首先定义在组织数据中突变频率小于95%的位点是杂合性突变,通过杂合性突变位点检测模块提取的杂合性突变位点,并通过纯合性突变位点检测模块找其对应的单细胞中是否变为纯合性突变(突变频率大于或等于95%),并计算在单细胞中变为纯合型突变的比例,该比例即为等位基因丢失率,等位基因丢失率越高,突变位点的可靠性越低。
等位基因丢失率分析模块对应的程序为:
ADO_calculator.R:根据GATK输出SNV数据结果,统计在单细胞样本测序中的等位基因丢失情况,输出每个分组的等位基因丢失比例。
ADO_calculator.R用于统计单细胞样本中的等位基因丢失情况,该模块包含一个函数calculate_ado。函数中一共包含5个输入参数:
(1).path用来指定输出输出文件的路径。
(2).input_extension用来指定输入文件的后缀,以免读取路径下的所有文件时出错。输入文件是每个单细胞样本中在组织测序中出现的位点的突变情况。
(3).output_extension用来指定输出文件后缀。
(4).readsdepth用于指定短序列覆盖深度,设置不同的短序列覆盖深度,统计的位点会有差异。
(5).figure用来指定输出图像的名称。
本函数会输出每个单细胞样本的等为基因丢失比例到文件中,并对所有样本的结果根据组别绘制直方图展示。
输入数据表头如下所示:
chr n_base ref_base read.depth A C G T strand
chr1 865694 C 8 0 4 0 4 0:1:0:1
chr1 866462 T 21 0 11 0 10 0:2:0:3
chr1 871215 C 44 0 26 18 0 0:4:4:0
输出文件如下所示:
number name freq
1 tissue1_s1 0.534191
2 tissue1_s2 0.457739
3 tissue1_s3 0.809878
4 tissue1_s4 0.619965
5 tissue2_s1 0.307548
过滤筛选体细胞突变模块,用于过滤筛选肿瘤中的体细胞突变;所述过滤筛选体细胞突变模块包括条件判断、Fisher精确性检验,根据假阳性率、等位基因丢失率筛选可信度高的体细胞突变。细胞突变在所有突变中的比例较少,在单细胞中由于每个样本的测序数据量比组织测序要小,精筛时要通过假设检验来排除不可信的位点。
条件如下:
1.在肿瘤样本和对照样本中的测序短序列覆盖深度要大于等于5。
2.在对照样本中的突变位点频率小于等于5%。
3.在肿瘤样本中的突变位点频率大于等于10%。
4.通过Fisher精确性检验模块来判断在肿瘤样本和对照样本中突变位点的频率有的差异性,并对假设检验的p值进行矫正。
体细胞突变过滤筛选模块对应的程序为:
Somatic_filter.R:过滤MuTect输出的vcf文件中的突变位点,筛选可信度高的突变,程序输出每个样本的体细胞突变,统计每个样本非同义突变个数和总个数。
Somatic_filter.R函数根据上游软件MuTect提供的候选体细胞突变列表,对每个样本中的体细胞突变进行筛选。此模块一共包含五个函数:
1.fish用于计算Fisher精确性检验,此函数只有一个输入参数即整理好的体细胞突变信息,函数计算并返回每个体细胞突变Fisher精确性检验的P值。该函数为内部调用函数。
2.extract_somatic用于从MuTect输出的vcf文件中过滤符合条件的体细胞突变:
函数中共有5个参数:
(1).path用来指定输出输出文件的路径。
(2).input_extension用来指定输入文件的后缀。输入文件是上游软件MuTect输出的vcf文件。
(3).output_extension用来指定输出文件后缀。此函数输出所有符合条件的体细胞突变位点。
(4).bulkfile_flag用来识别输入文件名中的组织测序结果。
(5).min_readsdepth用来指定输出图像的名称。
该函数通过我们自己定义的严格条件(具体参见3.方法原理部分的描述)来筛选每个输入样本的体细胞突变位点,并统计每个样本的突变总数到somatic.list文件中。
输入文件表头如下所示:
#CHRM POS dbSNP158 Ref Alt Qual filter Info1 Info2 tumor normal
chr1 663097 rs142727405 G C . REJECT DB GT:AD:BQ:DP:FA 0/1:7,3:32:10:0.300 0:6,5:.:11:0.455
chr1 808922 rs6594027 G A . REJECT DB GT:AD:BQ:DP:FA 0/1:0,4:34:4:1.00 0:0,229:.:229:1.00
chr1 1310074 rs2765035 C G . REJECT DB GT:AD:BQ:DP:FA 0/1:0,1:37:1:1.00 0:0,2:.:2:1.00
输出文件表头包含以下内容:
Chr,pos,name,ref,alt,type,V7,V8,normal.GT,normal.DP,normal.AD,normal.FREQ,cancer.GT,cancer.DP,cancer.AD,cancer.FREQ,p.value,fdr
3.nonsynonymous用于过滤非同义突变:
函数中包含2个参数:
(1).path用来指定输出输出文件的路径。
(2).input_extension用来指定输入文件的后缀。输入文件是上游软件Annovar注释信息文件。
此函数统计并过滤所有样本的非同义突变,返回非同义突变位点。此函数为内部调用函数。
注释信息文件表头包含以下内容:
Chr,Start,End,Ref,Alt,phastConsElements46way,
Func.refGeneGene.refGene,GeneDetail.refGene,ExonicFunc.refGene,
AAChange.refGene,cytoBand,genomicSuperDups,esp6500siv2_all,
1000g2014oct_all,snp138,SIFT_score,SIFT_pred,Polyphen2_HDIV_score,
Polyphen2_HDIV_pred,Polyphen2_HVAR_score,Polyphen2_HVAR_pred,
LRT_score,LRT_pred,MutationTaster_score,MutationTaster_pred,
MutationAssessor_score,MutationAssessor_pred,FATHMM_score,
FATHMM_pred,RadialSVM_score,RadialSVM_pred,LR_score,LR_pred,
VEST3_score,CADD_raw,CADD_phred,GERP++_RS,
phyloP46way_placental,phyloP100way_vertebrate,SiPhy_29way_logOdds
4.extract_nonsynonymous用于在体细胞突变中标注非同义属性:
此函数中共有2个参数:
(1).path用来指定输出输出文件的路径。
(2).input_extension用来指定输入文件的后缀。输入文件是extract_somatic函数中输出的体细胞突变。
此函数根据上游函数extract_somatic和nonsynonymous的结果,来标注体细胞突变中的非同义突变。输出结果后缀是固定后缀somatic.list.nonsynonymous。
5.plot_somatic根据统计的非同义突变和总体细胞突变个数绘图:
函数中共有2个参数:
(1).path用来指定输出输出文件的路径。
(2).figure用来指定输出图像的名称。
单细胞异质性分析模块,用于分析单细胞的组内异质性;所述单细胞异质性分析模块包括雅克比距离计算模块、主成分分析模块,通过雅克比距离计算模块及时两两细胞间的雅克比距离,细胞间距离大的异质性强,反之异质性弱;通过主成分分析模块计算单细胞在第一主成分和第二主成分所组成的平面上的位置,位置近的细胞间突变情况相似,异质性弱,反之,突变情况差异大异质性强。
单细胞异质性分析模块对应的程序为:
cellular_heterozygosity_analysis.R:针对前一步结果,分析单细胞的组内异质性,输出单细胞组内距离提琴图,以及单细胞在主成分分析中第一主成分和第二主成分所组成的平面上的位置。
cellular_heterozygosity_analysis.R函数分析每个样本中突变基因型之间的差异性,并绘制组内细胞间距离分布图和主成分分析图。此模块包含两个函数:
1.extract_allSNV用于计算所有样本的基因型结果:
此函数包含四个参数:
(1).array用来指定样本分组名称。
(2).input_extension用来指定输入文件的后缀。
(3).output_filename用来指定输出文件名称。
(4).path用来指定输出输出文件的路径。
本函数根据输入的已筛选好的突变位点文件计算基因型,其中突变频率小于95%的为杂合突变,突变频率大于等于95%的为纯合突变。
2.heter用于分析组内异质性,计算细胞间的Jaccard距离和主成分分析:
此函数共有三个参数:
(1).array用来指定样本分组名称。
(2).input_extension用来指定输入文件的后缀。输入文件是上游函数extract_allSNV的输出结果。
(3).path用来指定输出输出文件的路径。
本函数根据上游文件的输出结果来计算细胞间距离并绘制图像。
实际应用举例
通过单细胞MDA方法扩增后的全外显子组测序数据为例,展示软件分析结果。该数据是在3个肿瘤组织(Tissue1,Tissue2,Tissue3)中分别做了组织测序和单细胞测序,并用血样作为正常对照。外显子组测序流程处理结果统计如下表所示。经过GATK和MuTect分析的突变结果文件各43个,其中单细胞文件40个(Tissue1中15个,Tissue2中15个,Tissue3中10个),组织测序3个。
测序流程处理结果共包含43个文件,依次运行FDR_calculator.R,ADO_calculator.R,Somatic_filter.R和cellular_heterozygosity_analysis.R,即可得到如下结果。
(1)单细胞突变的假阳性,图2展示了三个肿瘤组织中单细胞突变的假阳性比例大约在万分之二到万分之五之间。也就是说一个单细胞的所有突变位点中有万分之二到万分之五是假突变。
(2)单细胞的等位基因丢失率,图3展示了三个肿瘤样本中的单细胞等位基因丢失率在20%到60%之间,这说明所有的单细胞纯合突变中有20%到60%是假纯合。如果需要排除假纯合情况需要统计至少三个单细胞中都出现的体细胞突变位点,在三个细胞都出现的体细胞突变位点中,假纯合的情况降到了0.8%到21.6%。
(3)每个样本中的同义突变和非同义突变比例。从图4中可以看到每个单细胞样本中找到的体细胞突变的比例在20个左右,其中同义突变总数要高于非同义突变。
(4)根据上述三步分析,可以看出该样本中的等位基因丢失率较高,在确定可靠的体细胞突变时,要保证这个突变至少在3到4个单细胞中都出现。那么接下来根据最后确定的体细胞突变结果,本软件可以分析组织内部的细胞异质性情况。图5是组织内部两两细胞间基因型距离分布情况。图6是细胞间基因型的组成分析结果,可以发现这三类细胞的突变位点有很大差异。
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。

Claims (3)

1.一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其特征在于:包括
假阳性分析模块,用于计算单细胞基因组突变的假阳性率,单细胞假阳性越高,突变位点的可靠性越低;首先定义在组织测序和单细胞测序中都发现的突变为真阳性突变(TPmutation),在组织测序中发现但是在单细胞中没有发现的突变是假阴性突变(FNmutation),在单细胞中发现但是没有在组织测序中发现的突变是假阳性突变(FPmutation),在组织测序中没有被识别成突变的位点为真阴性突变(TN mutation),根据上述数据计算假阳性率FPR=FP/(FP+TN)单细胞假阳性越高,突变位点的可靠性越低;
等位基因丢失率分析模块,包括杂合性突变位点检测模块、纯合性突变位点检测模块,等位基因丢失率分析模块用于计算单细胞基因组突变的等位基因丢失率,等位基因丢失率越高,突变位点的可靠性越低;首先定义在组织数据中突变频率小于95%的位点是杂合性突变,若杂合性突变位点的突变频率大于或等于95%则为纯合性突变,通过杂合性突变位点检测模块提取杂合性突变位点,并通过纯合性突变位点检测模块找其对应的单细胞中是否变为纯合性突变,并计算在单细胞中变为纯合性突变的比例,该比例即为等位基因丢失率,等位基因丢失率越高,突变位点的可靠性越低;
过滤筛选体细胞突变模块,用于过滤筛选肿瘤中的体细胞突变,并根据假阳性率、等位基因丢失率筛选可信度高的体细胞突变;
单细胞异质性分析模块,用于分析单细胞的组内异质性;
所述假阳性分析模块、等位基因丢失率分析模块与过滤筛选体细胞突变模块连接,所述过滤筛选体细胞突变模块与所述单细胞异质性分析模块连接。
2.根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其特征在于:所述过滤筛选体细胞突变模块包括条件判断模块、Fisher精确性检验模块。
3.根据权利要求1所述的一种单细胞外显子测序肿瘤体细胞突变检测及分析平台,其特征在于:所述单细胞异质性分析模块包括雅克比距离计算模块、主成分分析模块。
CN201610319411.6A 2016-05-13 2016-05-13 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台 Expired - Fee Related CN105969656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319411.6A CN105969656B (zh) 2016-05-13 2016-05-13 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319411.6A CN105969656B (zh) 2016-05-13 2016-05-13 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台

Publications (2)

Publication Number Publication Date
CN105969656A CN105969656A (zh) 2016-09-28
CN105969656B true CN105969656B (zh) 2019-09-10

Family

ID=56992493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319411.6A Expired - Fee Related CN105969656B (zh) 2016-05-13 2016-05-13 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台

Country Status (1)

Country Link
CN (1) CN105969656B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778075A (zh) * 2016-12-29 2017-05-31 安诺优达基因科技(北京)有限公司 一种用于检测血液病相关体细胞突变的装置
CN108304694B (zh) * 2018-01-30 2021-08-31 元码基因科技(北京)股份有限公司 基于二代测序数据分析基因突变的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5955557B2 (ja) * 2008-09-03 2016-07-20 ザ・ジョンズ・ホプキンス・ユニバーシティー 膵臓腫瘍形成の根底にある経路および遺伝性の膵癌遺伝子
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA

Also Published As

Publication number Publication date
CN105969656A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
Shah et al. Identification of misclassified ClinVar variants via disease population prevalence
Monaco et al. flowAI: automatic and interactive anomaly discerning tools for flow cytometry data
Delaney et al. Combinatorial prediction of marker panels from single‐cell transcriptomic data
Baccini et al. Platelet counting: ugly traps and good advice. Proposals from the French-Speaking Cellular Hematology Group (GFHC)
Fortino et al. Machine-learning–driven biomarker discovery for the discrimination between allergic and irritant contact dermatitis
CN105969856B (zh) 一种单细胞外显子测序肿瘤体细胞突变检测方法
CN107423578B (zh) 检测体细胞突变的装置
Shim et al. Monoclonal B-cell lymphocytosis in healthy blood donors: an unexpectedly common finding
Kumar et al. Automated analysis of immunohistochemistry images identifies candidate location biomarkers for cancers
US20150119289A1 (en) Methods to determine candidate biomarker panels for a phenotypic condition of interest
Bastida et al. Molecular diagnosis of inherited coagulation and bleeding disorders
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
Natri et al. Genome-wide DNA methylation and gene expression patterns reflect genetic ancestry and environmental differences across the Indonesian archipelago
CN115428088A (zh) 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法
Toledo et al. Next-generation sequencing for the diagnosis of hereditary pheochromocytoma and paraganglioma syndromes
CN108130372A (zh) 一种用于急性髓系白血病药物指示的方法及装置
CN105969656B (zh) 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台
CN112735606B (zh) 结直肠癌风险预测方法、设备及存储介质
CN106021994A (zh) 一种肿瘤突变位点筛选及互斥基因挖掘的方法
Huang et al. Predicting colorectal cancer tumor mutational burden from histopathological images and clinical information using multi-modal deep learning
KR101839572B1 (ko) 질병 관련 유전자 관계 분석 장치 및 방법
US20130058863A1 (en) 4-Protein Biomarker Panel for the Diagnosis of Lymphoma from Biospecimen
CN117079717A (zh) 一种细胞亚型的鉴定方法、装置、设备及介质
Mulligan et al. Monoclonal B-lymphocytosis: demographics, nature and subclassification in 414 community patients
CN108172296A (zh) 一种数据库的建立方法和遗传疾病的风险预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190910