CN106282320B - 检测体细胞突变的方法和装置 - Google Patents

检测体细胞突变的方法和装置 Download PDF

Info

Publication number
CN106282320B
CN106282320B CN201510260305.0A CN201510260305A CN106282320B CN 106282320 B CN106282320 B CN 106282320B CN 201510260305 A CN201510260305 A CN 201510260305A CN 106282320 B CN106282320 B CN 106282320B
Authority
CN
China
Prior art keywords
read
mutational site
normal control
sample
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510260305.0A
Other languages
English (en)
Other versions
CN106282320A (zh
Inventor
张纪斌
曾柳红
杨青
叶明芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huada Gene Medical Laboratory Co Ltd
BGI Shenzhen Co Ltd
Original Assignee
Guangzhou Huada Gene Medical Laboratory Co Ltd
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huada Gene Medical Laboratory Co Ltd, BGI Shenzhen Co Ltd filed Critical Guangzhou Huada Gene Medical Laboratory Co Ltd
Priority to CN201510260305.0A priority Critical patent/CN106282320B/zh
Publication of CN106282320A publication Critical patent/CN106282320A/zh
Application granted granted Critical
Publication of CN106282320B publication Critical patent/CN106282320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Abstract

本发明公开了一种检测体细胞突变的方法,该方法包括:获取第一测序数据,第一测序数据为待测样本的核酸序列的测定数据;将第一测序数据与参考序列比对,获得第一比对结果;基于所述第一比对结果,识别出突变位点,所述突变位点包括SNP和INDEL中的至少之一;比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,所述差异显著的突变位点包括差异具有统计意义的突变位点。本发明还公开一种检测体细胞突变的装置。利用本发明的方法和/或装置,检测出的体细胞突变准确性和灵敏性都高。

Description

检测体细胞突变的方法和装置
技术领域
本发明涉及生物信息领域,具体的,本发明涉及一种检测体细胞突变的方法和一种检测体细胞突变的装置。
背景技术
目前,临床上肿瘤诊断以组织细胞学检查作为金标准,生物化学检查方法及物理学检查(X光,B超,CT,MRI,PET-CT等)作为辅助手段,但这些肿瘤诊断方法存在现实局限性,即仅能发现0.5cm以上的肿块。当肿块无症状而渐渐长到为自身所觉察的大小时,部分肿瘤已经处于中晚期,有的肿瘤已经发生了转移,很多病人已经丧失了最佳的治疗时期。由于基因编码区的变异是导致疾病的主要原因,因此将个体基因组的某些特定基因编码区即特定外显子区域提取出来进行测序就可以很好的了解该个体基因组特定基因的变异信息,进而评估该个体的患病风险。该技术的基本原理是使用寡核苷酸探针捕获技术或PCR多重扩增的方式来获取基因组上的目标序列,对目标序列产物进行高通量测序,从而识别DNA样品中的碱基序列及变异信息。
随着基于目标区域捕获(target capture)的新一代测序(next generationsequencing,NGS)方法的出现,市面上已出现不少基于该技术、针对特定疾病的基因检测产品,如Life Technologies公司的Ion AmpliSeq Cancer panel,Illumina公司的TruSightOne NGS panel及QIAGEN公司的GeneRead DNAseq V2panels等。
发明内容
依据本发明的一方面,本发明提供一种检测体细胞突变的方法,该方法包括:获取第一测序数据,所述第一测序数据包括多个第一读段,所述第一测序数据为待测样本的核酸序列的测定数据;将所述第一测序数据与参考序列比对,获得第一比对结果;基于所述第一比对结果,识别出突变位点,所述突变位点包括SNP和INDEL中的至少之一;比较所述突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,所述差异显著的突变位点包括差异具有统计意义的突变位点。
所说的测定数据通过对核酸序列进行测序文库制备、上机测序获得,在本发明的一个实施例中,获取所述测定数据,包括:获取待测样本中的核酸,制备所述核酸的测序文库,对所述测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行,测序方法依据所选的测序平台的不同,可选择但不限于Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台和单分子测序平台,测序方式可以选择单端测序,也可以选择双末端测序,获得的下机数据是测读出来的片段,称为读段(reads)。在本发明的一个实施例中,所称第一测序数据中的读段的长度不相同,例如测序数据是利用Life Technologies公司的Ion Torrent系列中的Proton测序平台进行测序获得的。
所称的比对可以利用已知比对软件进行,例如SOAP、BWA和TeraMap等。
所称的参考序列指预先确定的序列,可以是预先获得的待测样本所属生物类别的任意参考模板,例如,若待测样本来源的为人类个体,参考序列可选择NCBI数据库提供的HG19,进一步地,也可以预先配置包含更多参考序列的资源库,例如依据待测样本来源个体的状态、地域等因素选择或是测定组装出更接近的序列作为参考序列。
在本发明的一个实施例中,所称的突变位点包括SNP(SNV)和INDEL。SNP的识别可以通过运行已知软件进行,可使用的SNP检测软件包括但不限于SomaticSniper、CaVEMan、SAMtools和MuTect。INDEL的识别可以通过运行已知软件进行,INDEL检测可选择的软件包括但不限于Dindel、Pindel、TVC和SOAPindel。
在本发明的一个实施例中,去除所述第一比对结果中的重复的第一读段,例如去除由于测序文库构建过程中的扩增而带来的重复片段。减小后续处理依据的数据量,利于基于比对结果进行快速检测。
所称的正常对照样本的相应突变位点为与待测样本的突变位点相同的位点。正常对照样本的突变位点,例如SNP和/或INDEL,可以在进行目标样本/个体/群体检测时同时测序检测获得,也可以预先确定保存备用。在本发明的一个实施例中,正常对照样本的SNP与待测样本的同时确定,确定所述正常对照样本的SNP包括:获取第二测序数据,所述第二测序数据包括多个第二读段,所述第二测序数据为正常对照样本的核酸序列的测定数据,所述第二测序数据与所述第一测序数据等量,任选的,所述第一测序数据和所述第二测序数据都大于100X;将所述第二测序数据与参考序列比对,获得第二比对结果;基于所述第二比对结果,识别出所述正常对照样本的相应SNP位点。
正常对照样本的INDEL可以同待检样本的同时获得,也可以预先检测确定保存备用。在本发明的一个实施例中,正常对照样本的INDEL所述获取正常对照样本的INDEL包括:获取第二测序数据,所述第二测序数据包括多个第二读段,所述第二测序数据为正常对照样本的核酸序列的测定数据,所述第二测序数据与所述第一测序数据等量,任选的,所述第一测序数据和所述第二测序数据都大于100X;将所述第二测序数据与参考序列比对,获得第二比对结果;基于所述第二比对结果,检测正常对照样本的INDEL。同样的,INDEL检测可选择的软件包括但不限于Dindel、Pindel、TVC和/或SOAPindel。
所称的差异显著包括统计学上的差异具有显著性和临床或实际中的差异很大,对于前者,例如在本发明的一个实施例中,所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括过滤掉符合以下(a)-(d)任意之一的SNP:(a)在正常对照样本中没有第二读段比对上,或者比对上的第二读段数目少于10条,(b)在正常对照样本中的支持读段数不少于5,(c)在待测样本中的支持读段数少于5,(d)在正常对照样本中的支持读段数为1-4条,并且与在待测样本中的支持读段数的差异不具统计意义(P>0.005)。在比对过程中,一般对比对参数进行设置,设置一条reads最多允许有s个碱基错配(mismatch),s优选为1或2,若reads中有超过s个碱基发生错配,则视为该reads无法比对到(比对上)参考序列。所称的支持读段,即支持某个SNP的读段指比对上该SNP的读段的相应位置的碱基与该SNP位点一致的读段。
对于后者,例如在本发明的一个实施例中,所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,还包括过滤符合以下(e)-(h)任意之一的SNP:(e)两个相邻SNP之间的距离不超过5bp,(f)其支持读段中的低比对质量读段的比例超过50%,任选的,低比对质量读段为比对质量小于30的读段,(g)其位于其支持读段的末端的读段的比例超过50%,任选的,所述读段的末端为从读段的一端的起始核苷酸开始到不大于该读段长度5%的核苷酸的范围,(h)在距其不大于5bp的范围内其支持读段中包含的同时支持其它类型突变或者存在错配的读段的比例超过50%。这里,所称的两个SNP或者两个位点之间的距离指着两位点在参考序列上的距离。所称的比对质量是一般对比软件都有的参数,该实施例是利用BWA软件进行比对,本领域技术人员能够理解,利用不同的比对软件,可能由于计分方式的不同,需要调整设置以达到同该实施例的目的,即该实施例的满足(f)条件的读段。
在本发明的一个实施例中,所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括过滤掉检出的INDEL中符合以下(i)-(k)任意之一的INDEL:(i)其支持读段同时支持其它一种或多种变异类型,(j)其支持读段中的低比对质量的读段的比例超过50%,任选的,所述低比对质量读段为比对质量小于30的读段,(k)其位于其支持读段的末端的读段的比例超过50%,任选的,读段的末端为从该读段的一端的起始核苷酸开始到不大于该读段长度10%的核苷酸的范围。
在本发明的一个实施例中,所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括对位于非同聚体并且符合以下(l)-(o)任意之一的INDEL进行过滤:(l)在正常对照样本中没有第二读段比对上,或者比对上的第二读段数目少于10,(m)在正常对照样本中的支持读段数不少于5,(n)在待测样本中的支持读段数少于5,(o)在正常对照样本中的支持读段数为1-4,并且与在待测样本中的支持读段数的差异不具统计意义(P>0.005)。INDEL的支持读段指比对上该INDEL的且相应位置与该INDEL的相同的读段。同聚体或者同聚物(homopolymer)一般指一段DNA中含有多个连续相同的碱基,在本发明的一个实施例中,定义相同连续的碱基不少于5个的那段序列为同聚物。
在本发明的一个实施例中,所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括比较待测样本和正常对照样本中的位于同聚体的INDEL的频率的差异,保留待测样本中的频率显著大于正常对照样本的频率的INDEL。在本发明的一个实施例中,要求P<=0.005。
依据本发明的另一方面,提供一种检测体细胞突变的装置,该装置能够实施本发明一方面或者上述任一实施例中的检测突变体细胞的全部或部分步骤,该装置包括:数据输入单元,用以输入数据;数据输出单元,用以输出数据;处理器,用以执行可执行程序,执行所述可执行程序包括完成本发明一方面或者任一实施例中的检测体细胞突变的方法;以及存储单元,与所述数据输入单元、数据输出单元和处理器连接,用以存储数据,其中包括所述可执行程序。本领域技术人员能够理解,所说的计算机可执行程序可以保存在存储介质中,所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。在本发明的一个实施例中,将能够实现本发明检测方法整合成一软件,命名为Oseq-T,能够全过程半自动化实现本发明的检测方法,对计算机I/O资源,内存资源有较好控制,而且该流程用perl、C、Python和/或Java等语言编译,可移植性强;该软件可独立部署、高效运行,不影响以后加入其它类型突变检测分析操作。
本发明一方面提供的体细胞突变(Somatic mutation)检测方法算法和/或装置,旨在解决针对somatic mutation检测方法和工具不完善的问题。本发明的检测算法同时能够整合其他分析模块以形成更完整的肿瘤个体化检测技术方案。该方法和/或装置的检测结果作为中间数据或者辅助结果能够应用于肿瘤个体化检测(Cancer Panel)。该方法算法或者装置包含的计算机可执行程序严格,能够保证Somatic SNV及Indel检测的准确性。可检测突变频率≥3.5%的Somatic SNV突变,测试数据的准确性和敏感性均高于95%;可检测突变频率≥10%的Somatic indel变异,测试数据显示极高的准确性(100%),同时homopolymer区域有较好的敏感性(56%)。该somatic mutation检测算法适用于各种测序平台,包括BGISEQ-100测序平台,该平台具有灵活、操作简便、省时、成本低、可扩展等优势,方便在移植操作,可以用于临床诊断和指导治疗的基因检测平台。本检测方法/装置系统能够应用于肿瘤个体化检测Cancer Panel,例如用以一次性检测多个肿瘤相关基因,解读注释药物与基因的关系等,利于辅助为个体化用药提供全面解决方案,利于辅助指导临床尽可能多的找到个体化用药依据,利于辅助指导临床正确选择个体化用药,利于辅助指导临床尽可能多的找到靶向药物,根据个体基因的个体差异性辅助或协助医生选择合适的药物和治疗方案,真正实现个体化医疗。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的一个实施例中的体细胞突变检测方法的步骤示意图。
图2是本发明的一个实施例中的体细胞突变检测装置的结构示意图。
图3是本发明的一个实施例中的肿瘤个体化检测软件(Oseq-T)的流程图。
图4是本发明的一个实施例中的目标区域深度分布直方图。
图5是本发明的一个实施例中的目标区域深度累积分布图。
具体实施方式
如图1所示,根据本发明的一个实施例,提供一种检测体细胞突变的方法,该方法包括步骤:S10获取第一测序数据,所述第一测序数据包括多个第一读段,所述第一测序数据为待测样本的核酸序列的测定数据;S20将所述第一测序数据与参考序列比对,获得第一比对结果;S30基于所述第一比对结果,识别出突变位点,所述突变位点包括SNP和INDEL中的至少之一;S40比较所述突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,所述差异显著的突变位点包括差异具有统计意义的突变位点。所说的测定数据通过对核酸序列进行测序文库制备、上机测序获得,在本发明的一个实施例中,获取所述测定数据,包括:获取待测样本中的核酸,制备所述核酸的测序文库,对所述测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行,测序方法依据所选的测序平台的不同,可选择但不限于Illumina公司的Hisq2000/2500测序平台、LifeTechnologies公司的Ion Torrent平台和单分子测序平台,测序方式可以选择单端测序,也可以选择双末端测序,获得的下机数据是测读出来的片段,称为读段(reads)。在本发明的一个实施例中,所称第一测序数据中的读段的长度不相同,例如测序数据是利用LifeTechnologies公司的Ion Torrent系列中的Proton测序平台进行测序获得的。所称的比对可以利用已知比对软件进行,例如SOAP、BWA和TeraMap等。所称的参考序列指预先确定的序列,可以是预先获得的待测样本所属生物类别的任意参考模板,例如,若待测样本来源的为人类个体,参考序列可选择NCBI数据库提供的HG19,进一步地,也可以预先配置包含更多参考序列的资源库,例如依据待测样本来源个体的状态、地域等因素选择或是测定组装出更接近的序列作为参考序列。SNP的识别可以通过运行已知软件进行,可使用的SNP检测软件包括但不限于SomaticSniper、CaVEMan、SAMtools和MuTect。INDEL的识别可以通过运行已知软件进行,INDEL检测可选择的软件包括但不限于Dindel、Pindel、TVC和/或SOAPindel。
根据本发明的一个实施例中,去除所述第一比对结果中的重复的第一读段,例如去除由于测序文库构建过程中的扩增而带来的重复片段。减小后续处理依据的数据量,利于基于比对结果进行快速检测。
所称的正常对照样本的相应突变位点为与待测样本的突变位点相同的位点。正常对照样本的突变位点,例如SNP和/或INDEL,可以在进行目标样本/个体/群体检测时同时测序检测获得,也可以预先确定保存备用。在本发明的一个实施例中,正常对照样本的SNP与待测样本的同时确定,确定所述正常对照样本的SNP包括:获取第二测序数据,所述第二测序数据包括多个第二读段,所述第二测序数据为正常对照样本的核酸序列的测定数据,所述第二测序数据与所述第一测序数据等量,任选的,所述第一测序数据和所述第二测序数据都大于100X;将所述第二测序数据与参考序列比对,获得第二比对结果;基于所述第二比对结果,识别出所述正常对照样本的SNP。
正常对照样本的INDEL可以同待检样本的同时获得,也可以预先检测确定保存备用。在本发明的一个实施例中,正常对照样本的INDEL所述获取正常对照样本的INDEL包括:获取第二测序数据,所述第二测序数据包括多个第二读段,所述第二测序数据为正常对照样本的核酸序列的测定数据,所述第二测序数据与所述第一测序数据等量,任选的,所述第一测序数据和所述第二测序数据都大于100X;将所述第二测序数据与参考序列比对,获得第二比对结果;基于所述第二比对结果,检测正常对照样本的INDEL。同样的,INDEL检测可选择的软件包括但不限于Dindel、Pindel、TVC和/或SOAPindel。
所称的差异显著可以指统计学上的差异具有显著性,也可以指临床或实际中的差异很大。在本发明的一个实施例中,S40包括过滤掉符合以下(a)-(d)任意之一的SNP:(a)在正常对照样本中没有第二读段比对上,或者比对上的第二读段数目少于10条,(b)在正常对照样本中的支持读段数不少于5,(c)在待测样本中的支持读段数少于5,(d)在正常对照样本中的支持读段数为1-4条,并且与在待测样本中的支持读段数的差异不具统计意义(P>0.005)。在比对过程中,一般对比对参数进行设置,设置一条reads最多允许有s个碱基错配(mismatch),s优选为1或2,若reads中有超过s个碱基发生错配,则视为该reads无法比对到(比对上)参考序列。所称的支持读段,即支持某个SNP的读段指比对上该SNP的读段的相应位置的碱基与该SNP位点一致的读段。将符合(a)-(d)任意之一的SNP过滤掉,利于获得有意义的SNP,且能够使获得的体细胞SNP突变准确性和敏感性高。其中的(d)条件即属于统计学上的差异无显著性。
而在本发明的一个实施例中,S40包括过滤符合以下(e)-(h)任意之一的SNP:(e)两个相邻SNP之间的距离不超过5bp,(f)其支持读段中的低比对质量读段的比例超过50%,任选的,低比对质量读段为比对质量小于30的读段,(g)其位于其支持读段的末端的读段的比例超过50%,任选的,所述读段的末端为从读段的一端的起始核苷酸开始到不大于该读段长度5%的核苷酸的范围,(h)在距其不大于5bp的范围内其支持读段中包含的同时支持其它类型突变或者存在错配的读段的比例超过50%。这里,所称的两个SNP或者两个位点之间的距离指着两位点在参考序列上的距离。所称的比对质量是一般对比软件都有的参数,该实施例是利用BWA软件进行比对,本领域技术人员能够理解,利用不同的比对软件,可能由于计分方式的不同,需要调整设置以达到同该实施例的目的,即该实施例的满足(f)条件的读段。以上(e)-(h)任一条件去除掉的SNP都使得剩余的SNP差异显著,符合(e)-(h)任一条件的SNP都属于临床或实际中的差异不大的情形。将符合(e)-(h)任意之一的SNP过滤掉,有利于获得有意义的体细胞SNP突变,且准确性和敏感性高。
根据本发明的一个实施例,S40包括过滤掉检出的INDEL中符合以下(i)-(k)任意之一的INDEL:(i)其支持读段同时支持其它一种或多种变异类型,(j)其支持读段中的低比对质量的读段的比例超过50%,任选的,所述低比对质量读段为比对质量小于30的读段,(k)其位于其支持读段的末端的读段的比例超过50%,任选的,读段的末端为从该读段的一端的起始核苷酸开始到不大于该读段长度10%的核苷酸的范围。将符合以上(i)-(k)任意之一的INDEL过滤掉,有利于获得有意义的体细胞INDEL突变,且准确性和敏感性高。
根据本发明的一个实施例,S40包括对位于非同聚体并且符合以下(l)-(o)任意之一的INDEL进行过滤:(l)在正常对照样本中没有第二读段比对上,或者比对上的第二读段数目少于10,(m)在正常对照样本中的支持读段数不少于5,(n)在待测样本中的支持读段数少于5,(o)在正常对照样本中的支持读段数为1-4,并且与在待测样本中的支持读段数的差异不具统计意义(P>0.005)。INDEL的支持读段指比对上该INDEL的且相应位置与该INDEL的相同的读段。同聚体或者同聚物(homopolymer)一般指一段DNA中含有多个连续相同的碱基,在本发明的一个实施例中,定义相同连续的碱基不少于5个为同聚物。
在本发明的一个实施例中,S40包括比较待测样本和正常对照样本中的位于同聚体的INDEL的频率的差异,保留待测样本中的频率显著大于正常对照样本的频率的INDEL。在本发明的一个实施例中,要求P<=0.005。这样,对位于homopolymer和非homopolymer中的INDEL进行不同条件的筛选过滤,使体细胞INDEL检测的准确度和灵敏度提高。
如图2,根据本发明的一个实施例,提供一种检测体细胞突变的装置100,该装置100能够实施本发明一方面或者上述任一实施例中的检测突变体细胞的全部或部分步骤,该装置100包括:数据输入单元110,用以输入数据;数据输出单元120,用以输出数据;处理器130,用以执行可执行程序,执行所述可执行程序包括完成本发明一方面或者任一实施例中的检测体细胞突变的方法;以及存储单元140,与所述数据输入单元110、数据输出单元120和处理器130连接,用以存储数据,其中包括所述可执行程序。本领域技术人员能够理解,所说的计算机可执行程序可以保存在存储介质中,所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。在本发明的一个实施例中,将能够实现本发明检测方法整合成一软件,命名为Oseq-T,能够全过程半自动化实现本发明的检测方法,对计算机I/O资源,内存资源有较好控制,而且该流程用perl、C、Python和/或Java等语言编译,可移植性强;该软件可独立部署、高效运行,不影响以后加入其它类型突变检测分析操作。
本发明一方面提供的体细胞突变(Somatic mutation)检测方法算法和/或装置,旨在解决针对somatic mutation检测方法和工具不完善的问题,该方法和/或装置的检测结果作为中间数据或者辅助结果能够应用于肿瘤个体化检测(Cancer Panel)。该方法算法或者装置包含的计算机可执行程序严格,能够保证Somatic SNV及Indel检测的准确性。可检测突变频率≥3.5%的Somatic SNV突变,测试数据的准确性和敏感性均高于95%;可检测突变频率≥10%的Somatic indel变异,测试数据显示极高的准确性(100%),同时homopolymer区域有较好的敏感性(56%)。该somatic mutation检测算法适用于各种测序平台,包括BGISEQ-100测序平台,该平台具有灵活、操作简便、省时、成本低、可扩展等优势,方便在移植操作,可以用于临床诊断和指导治疗的基因检测平台。本检测方法/装置系统能够应用于肿瘤个体化检测Cancer Panel,例如用以一次性检测多个肿瘤相关基因,解读注释药物与基因的关系等,利于辅助为个体化用药提供全面解决方案,利于辅助指导临床尽可能多的找到个体化用药依据,利于辅助指导临床正确选择个体化用药,利于辅助指导临床尽可能多的找到靶向药物,根据个体基因的个体差异性辅助或协助医生选择合适的药物和治疗方案,真正实现个体化医疗。
以下结合附图和具体实施例对本发明的体细胞突变检测方法和/或装置进行详细的描述。下面示例,仅用于解释本发明,而不能理解为对本发明的限制。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
除另有交待,以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器,都是常规市售产品或者开源的,比如购自Life Technologies等。
实施例一
在获得BGISEQ-100测序下机数据后,如图3所示,一般包括如下步骤:
1.与参考基因组比对
对测序数据使用tmap工具比对到参考基因组上,得到精确的比对结果。其中tmap工具源自:https://github.com/iontorrent/TS/tree/master/Analysis/TMAP
2.去除比对结果中的PCR重复片段
对tmap工具比对后的结果(bam格式)使用BamDuplicates工具去除PCR重复片段。其中,BamDuplicates工具源自Ion Torrent Systems,Inc.
3.统计及质量控制
统计目标区域数据量占总数据量的比例、目标区域的平均测序深度、目标区域的覆盖率等,生成一系列质控指标用于判断测序数据的质量情况。
4.Somatic变异检测,主要包括Somatic SNV及indel的检测
1)使用TVC工具进行Somatic SNV检测使用TVC工具
使用TVC工具
(http://ioncommunity.lifetechnologies.com/community/products/torrent-variant-caller),使用其默认参数json文件检测肿瘤相关的SNP,对正常组织突变位点进行堆积(Pile Up),采用统计学的显著性检验方法-P值检验检测肿瘤显著高于正常对照的somatic SNV,满足以下A-D任何一个条件,将被从肿瘤SNV中过滤掉:
A.若SNV位点在正常组织样本中没有reads覆盖或有reads覆盖但深度<10,
B.正常组织样本变异位点支持数>=5,
C.肿瘤组织样本变异位点支持数<5,
D.在正常组织样本变异位点支持数为1至4,且P值>0.005。
进一步针对BGISEQ-100数据特征设计了假阳性过滤方法,满足以下任何一个条件,将被从肿瘤SNV中过滤掉:
A.过滤掉两个相邻5bp之内的SNV,
B.变异位点支持reads中低质量(比对质量<30)比例>50%,
C.变异位点支持reads中突变位点位于reads首末端(5%read长度)比例>50%,
D.变异位点支持reads中突变位点相邻5bp内有突变或mismatch比例>50%。
2)使用TVC工具检测Somatic indel
使用TVC工具,调整其参数json文件,参数data_quality_stringency由8.5改为6,参数filter_unusual_predictions由0.25改为0.3,检测肿瘤组织indel,对检测到的Indel进行假阳性过滤。满足以下任何一个条件TVC检出的肿瘤组织Indel,将被过滤掉:
A.该处有多种变异类型,
B.变异区域支持reads中低质量(比对质量<30)比例>50%,
C.变异区域支持reads中突变位点位于reads首末端(10%read长度)比例>50%。
标记位于homopolymer(长度>=5)的Indel。对正常组织突变位点进行Pile Up,对满足条件的Somatic indel采用统计学的显著性检验方法-P值检验检测肿瘤显著高于正常对照的somatic Indel。对非homopolymer区域(长度>=5)和homopolymer区域的indel差别处理:非homopolymer区域严格筛选以保证准确性——满足以下任何一个条件,将被过滤掉肿瘤组织样品TVC检测的Indel:
A.Indel位点在正常组织样本中没有reads覆盖或有reads覆盖但深度<10,
B.正常组织样本变异位点读段支持数>=5,
C.肿瘤组织样本变异位点读段支持数<5,
D.在正常组织样本变异位点读段支持数为1至4,且P值>0.005;
homopolymer区域适当放松标准——要求肿瘤组织Indel频率大于正常组织Indel频率,并进行统计学的显著性检验-P值检验(满足P值<=0.005),保证准确性的同时很好地提升了敏感性。
5.可选择的,进行Somatic变异注释
对Somatic SNV及Indel进行注释,对预设置的质控位点进行检测,进行Annovar、Cosmic等数据库注释,同时鉴定样本的疾病来源或可能疾病来源,解读相关化疗药物和靶向药物与基因的关系等。
6.可选择的,生成Excel报告
对质控(QC),21个高频寡核酸多态性位点质控(QC21),疾病来源(Signatures),变异列表及变异注释(Variations),FDA临床药物(FDA),其他临床化疗药物(CtDrug)等进行汇总生成一张Excel表,数据解读人员在此Excel表格基础上对数据进行解读。例如包括解读88种肿瘤药物(42种FDA批准靶药,29种临床三、四期药物及17种化疗药物)与基因的关系,为解决个体化用药辅助提供全面解决方案,指导临床尽可能多的找到个体化用药依据,指导临床正确选择个体化用药,避免肿瘤患者选错药,指导临床尽可能多的找到靶向药物,根据患者基因的个体差异性协助医生选择合适的药物和治疗方案,助于真正实现个体化医疗。
实施例二
从医院获得1名结直肠癌女性患者的癌组织样本及血细胞样本(样品名:TJ0002)分别进行目标区域捕获及BGISEQ-100平台测序,按照上述实施例一,对测序有效数据通过tmap比对、BamDuplicates去重、质量控制(QC)、Somatic变异检测、变异注释、报告生成步骤,最终获得该患者的肿瘤个体化检测报告。
将实施例一包含的流程方法整合为软件Oseq-T,该软件的运行环境为Unix/Linux操作系统,通过Unix/Linux命令行运行。
具体操作步骤如下:
在LINUX操作系统计算机终端中输入以下命令以调用该软件:
perl Oseq_chip_proton.pl–c cancer.list–n normol.list,
Oseq-T命令行参数见表1参数说明。
表1
以下为分析结果:
其中,表2为部分的统计及质控分析结果,图4和图5分别为目标区域深度分布直方图和目标区域深度累积分布图。图4中的横坐标为测序深度,纵坐标为目标区域碱基数比例,理论上应呈正态分布。图5中的横坐标为累计测序深度,纵坐标为目标区域碱基数比例。表3显示21个质控位点,21个高频寡核酸多态性列表,理论上第三、四列SNP类型应相同,与顺序无关(比如,20号染色体(chr20)位置(50238545)GA与AG的SNP类型相同,都表示A/G或G/A类型),可评估该批次测序质量及可行性。
表2
表3
表4显示判断疾病来源(Signatures)的部分结果,第一列为疾病来源标记(Signature ID),第二列表示协方差,第三列表示疾病来源信息。表5显示部分Somatic变异及其注释结果。表6显示部分FDA药物注释结果。表7显示部分其他临床化疗药物注释结果,药物包括铂类化合物Cisplatin(顺铂),Antineoplastic agents(抗肿瘤药)、cisplatin(顺铂)、cyclophosphamide(环磷酰胺)、fluorouracil(氟二氧嘧啶)和paclitaxel(紫杉醇)。
表4
表5
表6
表7

Claims (6)

1.一种检测体细胞突变的方法,其特征在于,包括,
获取第一测序数据,所述第一测序数据包括多个第一读段,所述第一测序数据为待测样本的核酸序列的测定数据;
将所述第一测序数据与参考序列比对,获得第一比对结果;
基于所述第一比对结果,识别出突变位点,所述突变位点包括SNP和INDEL中的至少之一;
比较所述突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,所述差异显著的突变位点包括差异具有统计意义的突变位点;
其中,确定所述正常对照样本的相应突变位点,包括,
获取第二测序数据,所述第二测序数据包括多个第二读段,所述第二测序数据为正常对照样本的核酸序列的测定数据,所述第二测序数据与所述第一测序数据等量;
将所述第二测序数据与参考序列比对,获得第二比对结果;
基于所述第二比对结果,识别出所述正常对照样本的相应突变位点;
所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括过滤掉符合以下(a)-(h)任意之一的SNP,
(a)在正常对照样本中没有第二读段比对上,或者比对上的第二读段数目少于10条,
(b)在正常对照样本中的支持读段数不少于5,
(c)在待测样本中的支持读段数少于5,
(d)在正常对照样本中的支持读段数为1-4条,并且与在待测样本中的支持读段数的差异不具统计意义(P>0.005),
(e)两个相邻SNP之间的距离不超过5bp,
(f)其支持读段中的低比对质量读段的比例超过50%,低比对质量读段为比对质量小于30的读段,
(g)其位于其支持读段的末端的读段的比例超过50%,所述读段的末端为从读段的一端的起始核苷酸开始到不大于该读段长度5%的核苷酸的范围,
(h)在距其不大于5bp的范围内其支持读段中包含的同时支持其它类型突变或者存在错配的读段的比例超过50%;
所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括过滤掉符合以下(i)-(k)任意之一的INDEL,
(i)其支持读段同时支持其它一种或多种变异类型,
(j)其支持读段中的低比对质量的读段的比例超过50%,所述低比对质量读段为比对质量小于30的读段,
(k)其位于其支持读段的末端的读段的比例超过50%,读段的末端为从该读段的一端的起始核苷酸开始到不大于该读段长度10%的核苷酸的范围;
所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括对位于非同聚体并且符合以下(l)-(o)任意之一的INDEL进行过滤,
(l)在正常对照样本中没有第二读段比对上,或者比对上的第二读段数目少于10,
(m)在正常对照样本中的支持读段数不少于5,
(n)在待测样本中的支持读段数少于5,
(o)在正常对照样本中的支持读段数为1-4,并且与在待测样本中的支持读段数的差异不具统计意义(P>0.005);
所述比较突变位点与正常对照样本的相应突变位点的支持读段数的差异,获得差异显著的突变位点,包括比较待测样本和正常对照样本中的位于同聚体的INDEL的频率的差异,保留待测样本中的频率显著大于正常对照样本的频率的INDEL。
2.权利要求1的方法,其特征在于,所述突变位点包括SNP和INDEL。
3.权利要求1或2的方法,其特征在于,所述第一测序数据中的读段的长度不相同。
4.权利要求1或2的方法,其特征在于,去除所述第一比对结果中的重复的第一读段。
5.权利要求1或2的方法,其特征在于,所述第一测序数据和所述第二测序数据都大于100X。
6.一种检测体细胞突变的装置,其特征在于,包括,
数据输入单元,用以输入数据;
数据输出单元,用以输出数据;
处理器,用以执行可执行程序,执行所述可执行程序包括完成权利要求1-5任一方法;以及
存储单元,与所述数据输入单元、数据输出单元和处理器连接,用以存储数据,其中包括所述可执行程序。
CN201510260305.0A 2015-05-20 2015-05-20 检测体细胞突变的方法和装置 Active CN106282320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510260305.0A CN106282320B (zh) 2015-05-20 2015-05-20 检测体细胞突变的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510260305.0A CN106282320B (zh) 2015-05-20 2015-05-20 检测体细胞突变的方法和装置

Publications (2)

Publication Number Publication Date
CN106282320A CN106282320A (zh) 2017-01-04
CN106282320B true CN106282320B (zh) 2019-10-18

Family

ID=57634095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510260305.0A Active CN106282320B (zh) 2015-05-20 2015-05-20 检测体细胞突变的方法和装置

Country Status (1)

Country Link
CN (1) CN106282320B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107267613B (zh) * 2017-06-28 2020-10-27 安吉康尔(深圳)科技有限公司 测序数据处理系统和smn基因检测系统
CN107491666B (zh) * 2017-09-01 2020-11-10 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN108021789B (zh) * 2017-12-16 2022-06-07 普瑞基准生物医药(苏州)有限公司 一种鉴定体细胞突变的综合策略
CN108690871B (zh) * 2018-03-29 2022-05-20 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
JP7166434B2 (ja) * 2018-08-13 2022-11-07 エフ.ホフマン-ラ ロシュ アーゲー 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法
CN109411015B (zh) * 2018-09-28 2020-12-22 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN110310699A (zh) * 2019-07-01 2019-10-08 江苏里下河地区农业科学研究所 基于全基因组序列挖掘目标基因序列的分析工具及应用
CN110729025B (zh) * 2019-12-17 2020-05-08 北京吉因加科技有限公司 基于二代测序的石蜡切片样本体细胞突变检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN103290137A (zh) * 2013-06-26 2013-09-11 北京迈基诺基因科技有限责任公司 一种肿瘤易感基因的筛查方法
CN104059966A (zh) * 2014-05-20 2014-09-24 吴松 Stag2基因突变序列、其检测方法以及stag2基因突变在检测膀胱癌中的应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN103290137A (zh) * 2013-06-26 2013-09-11 北京迈基诺基因科技有限责任公司 一种肿瘤易感基因的筛查方法
CN104059966A (zh) * 2014-05-20 2014-09-24 吴松 Stag2基因突变序列、其检测方法以及stag2基因突变在检测膀胱癌中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Whole-exome sequencing reveals recurrent somatic mutation networks in cancer;LIU X et al.;《Cancer Lett》;20131231;270-276 *
第二代测序技术对于肝细胞癌的研究;刘元;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20130315;E072-227 *

Also Published As

Publication number Publication date
CN106282320A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106282320B (zh) 检测体细胞突变的方法和装置
JP7145907B2 (ja) 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法
JP7448310B2 (ja) セルフリー核酸のフラグメントームプロファイリングのための方法
JP2022521492A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
JP2022028907A (ja) がんの進化の検出および診断
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
US10774384B2 (en) MDM2-containing double minute chromosomes and methods therefore
WO2021207684A1 (en) Predicting likelihood and site of metastasis from patient records
CA2973025A1 (en) Using size and number aberrations in plasma dna for detecting cancer
JP2003021630A (ja) 臨床診断サービスを提供するための方法
US20190352695A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
CA3167253A1 (en) Methods and systems for a liquid biopsy assay
CN105779435A (zh) 试剂盒及其用途
WO2019178563A1 (en) Methods using nucleic acid signals for revealing biological attributes
Shao et al. Predicting gene mutation status via artificial intelligence technologies based on multimodal integration (MMI) to advance precision oncology
Gendoo et al. Personalized diagnosis of medulloblastoma subtypes across patients and model systems
Pan et al. Analyzing DNA methylation patterns during tumor evolution
KR102161511B1 (ko) 담도암 진단용 바이오마커의 추출 방법, 이를 위한 컴퓨팅 장치, 담도암 진단용 바이오마커 및 이를 포함하는 담도암 진단 장치
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
CN112837749B (zh) 一种癌症筛查用基因芯片探针的优选方法
Moore et al. Clinical interpretation
KR20230134491A (ko) 미생물 핵산 및 체세포 돌연변이를 이용한 택소노미독립적 암 진단 및 분류
CN114155911A (zh) 一种矫正肿瘤突变负荷的方法及系统
WO2010131162A2 (en) Device and method for comparing molecular signatures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1229389

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant