CN105420351A

CN105420351A - 确定个体基因突变的方法和系统

Info

Publication number: CN105420351A
Application number: CN201510677607.8A
Authority: CN
Inventors: 叶晓飞; 朱师达; 叶明芝
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2015-10-16
Filing date: 2015-10-16
Publication date: 2016-03-23

Abstract

本发明公开了确定个体基因突变的方法和系统。其中，确定个体基因突变的方法包括：(1)从个体的患病组织获取患病组织核酸样本，以及从个体的正常组织获得正常组织核酸样本；(2)利用探针对患病组织核酸样本以及任选的正常组织核酸样本进行筛选并构建测序文库，其中，探针特异性识别疾病相关的靶基因；(3)对步骤(2)中所构建的测序文库进行测序，以便获得患病组织核酸测序结果以及任选的正常组织核酸测序结果；(4)基于患病组织核酸测序结果，确定与疾病相关的基因突变。利用该方法可以用少量的样本得到更多的肿瘤相关的基因信息，能够准确快捷的对疾病相关基因突变进行分型，从而给出可靠的个体疾病尤其是肿瘤遗传信息。

Description

确定个体基因突变的方法和系统

技术领域

本发明涉及生物医学领域。具体而言，涉及确定个体基因突变的方法和系统。

背景技术

随着现代工业的发展，环境污染及不良生活习惯导致的肿瘤发生率逐步上升，已成为影响人类健康寿命的第一大因素。据国际癌症研究机构公布的数据显示，每年全球约800万人死于癌症。据推断，目前我国的癌症治疗市场规模大约每年新增1800-3600亿元。由于肿瘤的异质性及人群间的个体差异，不同种群、不同性别，甚至不同生活环境下不同个体间同一组织的肿瘤样本都会呈现不同遗传背景，如果简单对所有个体都采用同一个用药及治疗方案，就很容易产生治疗不当或治疗过度的问题，因此获得个体遗传信息就显得尤为必要。伴随着测序技术的发展，遗传分子水平的检测技术已可以区分不同个体间基因差别，越来越多的肿瘤相关的基因突变标记被发现，通过寻找到个体肿瘤特异性突变标记，可以进而有针对性的指导靶向用药及治疗。

然而，目前普遍的检测方法是，对病人数个热点基因，如EGFR，KRAS等进行sanger测序，得到其突变信息。对大多数癌种，这样的检测能在一定程度上获得个体遗传信息帮助治疗，但同时存在三个问题：1)少数基因检测的指导意义有限，不能综合反映病人实际的病理特征；2)样本多次消耗，需求量大；3)很多癌种仅通过数个基因的测序，不可能确定其癌症的分子突变分型种类，因此无法给出可靠信息辅助后续治疗。

而在国外，目前最先进的手段是通过综合性Panel进行关键位点的捕获测序，这也是这类技术在实践范围内的发展趋势，但是存在价格过高以及参考数据库多为白人，与黄种人突变频谱存在差异的问题。因此，这类产品在中国今后的发展趋势势必是：1)丰富的检测位点(综合Panel及基因组测序)；2)合理的价格；3)基于黄种人特有的基因频谱。其市场容量按上述估计，约10亿。

然而，目前肿瘤基因检测技术仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个方面提出了一种能够有效确定个体基因突变的方法。另一个方面提供了一种能够有效实施该方法的有效确定个体基因突变的系统。

根据本发明的实施例，提出了一种确定个体基因突变的方法，所述基因突变与预定的疾病相关，该方法包括：

(1)从所述个体的患病组织获取患病组织核酸样本，以及任选地从个体的正常组织获得正常组织核酸样本；

(2)利用探针对所述患病组织核酸样本以及任选的正常组织核酸样本进行筛选并构建测序文库，其中，所述探针特异性识别所述疾病相关的靶基因；

(3)对步骤(2)中所构建的测序文库进行测序，以便获得患病组织核酸测序结果以及任选的正常组织核酸测序结果；以及

(4)基于所述患病组织核酸测序结果，确定与所述疾病相关的基因突变。

根据本发明的实施例，通过采用特异性识别靶基因的探针，能够从完整基因组中提取自定义的基因组区域，富集目的基因组区域进行测序，捕获区域可以是连续或非连续的基因组长片段、全外显组或其他任何区域，所以可以一次性富集所有感兴趣基因组区域，从而大幅度降低测序所需样品量及测序费用。进而，根据本发明的实施例，为可以疾病的基因检测，尤其是癌症基因检测提供更精确、有效、快捷并价格合理的方案，并且根据本发明的实施例，可以用少量的样本得到更多的肿瘤相关的基因信息，能够准确快捷的对疾病相关基因突变尤其是癌症分子突变进行分型，从而给出可靠的个体疾病尤其是肿瘤遗传信息。

根据本发明的实施例上述确定个体基因突变的方法还可以具有下列附加技术特征：

根据本发明的一个实施例，所述个体为哺乳动物。

根据本发明的一个实施例，所述个体为人。

根据本发明的一个实施例，所述疾病为癌症。

根据本发明的一个实施例，所述疾病为肝中分化胆管细胞癌，并且所述靶基因为选自下表的至少之一。

表1靶基因列表

根据本发明的一个实施例，所述患病组织是以石蜡切片形式提供的。

根据本发明的一个实施例，所述正常组织为血液。

根据本发明的一个实施例，所述探针是以固相芯片的形式提供的。

根据本发明的一个实施例，所述核酸样本包括DNA样本和RNA样本。

根据本发明的一个实施例，在步骤(2)中，针对所述DNA样本，通过下列步骤构建所述测序文库：

(a)对所述DNA样本进行片段化，以便获得DNA片段；

(b)将所述DNA片段进行末端修复，以便获得经过末端修复的DNA片段；

(c)将所述经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段；

(d)将所述具有粘性末端A的DNA片段与接头相连，以便获得连接产物；

(e)将所述连接产物进行PCR扩增，以便获得第二扩增产物；以及

(f)将所述第二扩增产物进行纯化回收，以便获得回收产物，所述回收产物构成所述测序文库，

其中，

在进行步骤(e)之前，利用所述探针对所述连接产物进行筛选。

根据本发明的一个实施例，在步骤(2)中，针对所述RNA样本，通过下列步骤构建所述测序文库：

(a)对所述RNA样本进行反转录PCR，以便获得cDNA片段；

(b)对所述cDNA样本进行末端修复，以便获得经过末端修复的cDNA片段；

(c)将所述经过末端修复的cDNA片段的3’末端添加碱基A，以便获得具有粘性末端A的cDNA片段；

(e)将所述连接产物进行PCR扩增，以便获得cDNA扩增产物；以及

(f)基于所述cDNA扩增产物，建立所述RNA样本的测序文库，

其中，

根据本发明的一个实施例，步骤(f)进一步包括：

利用双链特异性核酸酶，对所述cDNA扩增产物进行均一化处理，以便得到均一化的cDNA扩增产物；

对所述均一化的cDNA扩增产物进行二次扩增，以便获得二次扩增产物，所述二次扩增产物构成所述RNA样本的测序文库。

根据本发明的一个实施例，与所述疾病相关的基因突变包括下列至少之一：SNV、SomaticIndel、SomaticSV、SomaticCNV以及在正常组织和肿瘤组织之间存在表达差异的基因，

其中，任选的，在正常组织和肿瘤组织之间存在表达差异的基因是通过下列步骤确定的：

将所述患病组织的RNA样本测序数据和所述正常组织的RNA样本测序数据分别比对到全基因组和基因区域；

基于能够比对到所述基因区域的测序数据的量，分别计算每个基因在正常组织和肿瘤组织中的RPKM值；

基于所述RPKM值，确定所述在正常组织和肿瘤组织之间存在表达差异的基因。

根据本发明的一个实施例，所述靶基因包括选自下列的至少之一：靶向药物相关基因、化疗药物相关基因、药物代谢相关基因、放疗相关基因、激素药物相关基因、抗体药物相关基因和疫苗相关基因。

根据本发明的一个实施例，在步骤(4)中，

用Varscan进行SNV的查找；

用GATK进行SomaticIndel的查找；

用CREST进行SomaticSV的查找；

用CONTRA或ExomeCNV进行SomaticCNV的查找；或

用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定。

根据本发明的一个实施例，利用选自Hiseq2000、SOLiD、454、和单分子测序装置的至少一种进行所述测序。

在本发明的又一方面，本发明提出了一种确定个体基因突变的系统，所述基因突变与预定的疾病相关，该系统包括：

核酸样本获取装置，所述核酸样本获取装置用于从所述个体的患病组织获取患病组织核酸样本，以及任选地从个体的正常组织获得正常组织核酸样本；

文库构建装置，所述文库构建装置与所述核酸样本获取装置相连，并且用于利用探针对所述患病组织核酸样本以及任选的正常组织核酸样本进行筛选并构建测序文库，其中，所述探针特异性识别所述疾病相关的靶基因

测序装置，所述测序装置与所述文库构建装置相连，并且用于所述文库构建装置构建的测序文库进行测序，以便获得患病组织核酸测序结果以及任选的正常组织核酸测序结果；

基因突变确定装置，所述基因突变确定装置与所述测序装置相连，并且用于基于所述患病组织核酸测序结果，确定与所述疾病相关的基因突变。

由此，利用根据本发明的系统能够有效地实施前面所描述的确定个体基因突变的方法。关于该方法前面所描述的特征和优点，均使用该系统，不再赘述。

根据根据本发明的实施例，本发明的用于确定个体基因突变的系统还可以具有下列附加技术特征：

根据本发明的一个实施例，所述个体为哺乳动物。

根据本发明的一个实施例，所述个体为人。

根据本发明的一个实施例，所述疾病为癌症。

根据本发明的一个实施例，所述疾病为肝中分化胆管细胞癌，并且所述靶基因为选自表1的至少之一。

根据本发明的一个实施例，所述正常组织为血液。

根据本发明的一个实施例，所述文库构建装置适于针对所述DNA样本，通过下列步骤构建所述测序文库：

(a)对所述DNA样本进行片段化，以便获得DNA片段；

其中，

根据本发明的一个实施例，所述文库构建装置适于针对所述RNA样本，通过下列步骤构建所述测序文库：

(a)对所述RNA样本进行反转录PCR，以便获得cDNA片段；

(e)将所述连接产物进行PCR扩增，以便获得cDNA扩增产物；以及

(f)基于所述cDNA扩增产物，建立所述RNA样本的测序文库，

其中，

根据本发明的一个实施例，步骤(f)进一步包括：

根据本发明的一个实施例，所述基因突变确定装置：

用Varscan进行SNV的查找；

用GATK进行SomaticIndel的查找；

用CREST进行SomaticSV的查找；

用CONTRA或ExomeCNV进行SomaticCNV的查找；或

用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定。

根据本发明的一个实施例，所述测序装置为选自Hiseq2000、SOLiD、454、和单分子测序装置的至少一种。

根据本发明的一些实施例，在数以千记的已报道疾病例如肿瘤相关基因中，根据针对性选择相关基因，设计捕获芯片，利用DNA芯片捕获技术进行疾病例如肿瘤病人个体化基因检测，配合个体转录组测序得到的转录表达数据，可以有方向性地以最低的成本获得疾病例如肿瘤病人个体遗传信息，建立个体化的疾病例如肿瘤遗传信息模型，为后续的研究和治疗提供数据基础。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明一个实施例的确定个体基因突变的方法的流程示意图。

图2显示了根据本发明一个实施例的用于确定个体基因突变的方法的系统的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明的一个方面提出了一种确定个体基因突的方法。参考图1，根据本发明的实施例，该方法包括以下步骤：

S100：获取核酸样本。

根据本发明的实施例，在该步骤中，从个体的患病组织获取患病组织核酸样本。根据本发明的实施例，还可以从个体的正常组织获得正常组织核酸样本。

根据本发明的实施例，个体的类型并不受特别限制。根据本发明的一个实施例，所述个体为哺乳动物。根据本发明的一个实施例，所述个体为人。根据本发明的一个实施例，所述疾病为癌症。根据本发明的一个实施例，所述患病组织是以石蜡切片形式提供的。根据本发明的一个实施例，所述正常组织为血液。根据本发明的一个实施例，所述核酸样本包括DNA样本和RNA样本。

S200：探针筛选及文库构建。

根据本发明的实施例，在获取核酸样本之后，利用探针对所述患病组织核酸样本以及任选的正常组织核酸样本进行筛选并构建测序文库，其中，所述探针特异性识别所述疾病相关的靶基因。根据本发明的一个实施例，所述探针是以固相芯片的形式提供的。根据本发明的一个实施例，所述靶基因包括选自下列的至少之一：靶向药物相关基因、化疗药物相关基因、药物代谢相关基因、放疗相关基因、激素药物相关基因、抗体药物相关基因和疫苗相关基因。

(a)对所述DNA样本进行片段化，以便获得DNA片段；

其中，

(a)对所述RNA样本进行反转录PCR，以便获得cDNA片段；

(e)将所述连接产物进行PCR扩增，以便获得cDNA扩增产物；以及

(f)基于所述cDNA扩增产物，建立所述RNA样本的测序文库，

其中，

根据本发明的一个实施例，步骤(f)进一步包括：

根据本发明的实施例，根据本发明的实施例，将所得的DNA进行片段化的方法不受特别限制，根据一些具体示例，可以通过选自雾化、超声打断法、HydroShear以及酶切处理的至少一种进行片段化，优选使用ovaris超声打断仪将经过DNA进行片段化。根据本发明的实施例，片段化处理后所得的DNA片段的长度为200-400bp，优选350bp。发明人发现，通过采用所获得的该长度的DNA片段能够有效地用于核酸文库的构建及后续处理。

根据本发明的实施例，可以利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶将DNA片段进行末端修复，其中，该Klenow片段具有5’→3’聚合酶活性和3’→5’外切酶活性，但缺少5’→3’外切酶活性，由此，能够有效地将DNA片段进行末端修复。

根据本发明的一些具体示例，可以利用Klenow片段(3’-5’exo-)，即缺失了3’→5’外切酶活性的Klenow片段，将经过末端修复的DNA片段的3’末端添加碱基A，由此，能够有效地获得具有粘性末端A的DNA片段。

根据本发明的实施例，可以利用T4DNA连接酶将具有粘性末端A的DNA片段与接头相连，由此，能够有效地获得连接产物。根据本发明的实施例，该接头中可以进一步包含标签，由此可以方便地同时构建多个样本的测序文库，对多个样本的测序文库进行组合，同时进行测序。由此，能够充分地利用高通量测序平台，有效地节省时间、降低测序成本。

S300测序

在构建了测序文库后，根据本发明的实施例，可以对所述测序文库进行测序。当然，本领域技术人员能够理解的是本发明的测序步骤可通过任何测序方法进行，包括但不限于双脱氧链终止法；优选高通量的测序方法，由此，能够利用这些测序装置的高通量、深度测序的特点，进一步提高了确定有核红细胞染色体非整倍性的效率。所述高通量的测序方法包括但不限于第二代测序技术或者是单分子测序技术。

所述第二代测序平台(MetzkerML.Sequencingtechnologies-thenextgeneration.NatRevGenet.2010Jan；11(1):31-46)包括但不限于Illumina-Solexa(GA^TM,HiSeq2000^TM等)、ABI-Solid和Roche-454(焦磷酸测序)测序平台；单分子测序平台(技术)包括但不限于Helicos公司的真实单分子测序技术(TrueSingleMoleculeDNAsequencing),PacificBiosciences公司单分子实时测序(singlemoleculereal-time(SMRT^TM))，以及OxfordNanoporeTechnologies公司的纳米孔测序技术等(Rusk,Nicole(2009-04-01).CheapThird-GenerationSequencing.NatureMethods6(4):244–245)。

随着测序技术的不断进化，本领域技术人员能够理解的是还可以采用其他的测序方法和装置进行测序。根据本发明的实施例，通过测序所得到的测序数据的长度不受特别限制。根据本发明的一个具体示例，所述多个测序数据的平均长度为约50bp。发明人发现，当测序数据的平均长度为约50bp时，能够极大地方便对测序数据进行分析，提高分析效率，同时能够显著降低分析的成本。这里所使用的术语“平均长度”是指各个测序数据长度数值的平均值。

S400：确定所述疾病相关的基因突变

根据本发明的实施例，在对核酸测序文库进行测序获得测序结果之后，基于所述患病组织核酸测序结果，确定与所述疾病相关的基因突变。在本文中所使用的术语“基因突变”应做广义理解，其可以是指的是基因组序列的任何变化，例如染色体非整倍性，结构变异，单核苷酸突变等遗传变异(http://en.wikipedia.org/wiki/Genetic_variation)；也可以是基因组修饰位点的变化例如甲基化水平等。根据本发明的实施例，所研究的基因组异常为选自染色体的非整倍型、和预定区域的突变至少一种。在本发明的实施例中预定区域的突变是指结构变异(http://en.wikipedia.org/wiki/Structural_variation)或单核苷酸突变(SNP,http://en.wikipedia.org/wiki/Single-nucleotide_polymorphism)。根据本发明的一个实施例，与所述疾病相关的基因突变包括下列至少之一：SNV、SomaticIndel、SomaticSV、SomaticCNV以及在正常组织和肿瘤组织之间存在表达差异的基因。

根据本发明的一个实施例，在该步骤中，

用Varscan进行SNV的查找；

用GATK进行SomaticIndel的查找；

用CREST进行SomaticSV的查找；

用CONTRA或ExomeCNV进行SomaticCNV的查找；或

用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定。

根据本发明的实施例，本发明提出的技术方案结合目前最先进的第二代测序手段，通过芯片捕获结合全基因高通量二代测序，针对性地检测肿瘤病人个体遗传信息，例如，与常用靶向药物药效相关的突变信息、与化疗相关的突变信息或药物代谢信息等，经过突变解读，建立单个病人个体化肿瘤遗传信息数学模型，为后续专业医生的设定治疗方法提供数据基础。主要技术路线包括：1、建立肿瘤基因数据库；2、通过石蜡/冰冻肿瘤组织/血液样本获取DNA及RNA；3、通过高通量液相捕获技术对DNA及RNA进行富集；4、通过高通量测序平台及生物信息平台获得病人个体肿瘤的突变列表，建立个人肿瘤遗传信息模型。

根据具体的实施例，

(1)预定肿瘤基因数据库建立：通过调研确定肿瘤相关基因范围，收集基因突变、对应药物及治疗、治疗效果等信息，建立一个包含肿瘤基因变异、药物治疗、代谢、生存等信息的肿瘤遗传信息数据库。数据库具体包含基因名、基因描述、基因突变信息(包括突变类型、突变位置及突变信息、基因表达量变化、融合基因)、癌肿、所用疗法或药物、基因突变与用药关系判断、实验样本类型、实验样本数量、生存统计。例如，可以按照下表统计相关基因的信息。

肿瘤基因数据库项目内容

Gene：基因名

Drug:药物名称。

Genedescription:基因描述。

MutationInformation:突变信息.

Refgenomedatabase/databaseversionnum：基因组版本

Reftranscriptdatabase/databaseversionnum：基因的转录ID

SNV

Nt(g):在基因组上的核苷酸的突变位置及突变信息

Nt：在基因中的核苷酸的位置及突变信息，如c.52G>A

AA：在基因中的核苷酸的氨基酸位置及突变信息，如p.A18T

Indel

Nt(g):在基因组上的核苷酸的位置及突变信息

Nt：在基因中的核苷酸的位置及突变信息，如c.405_406insT，c.424delG，c.341_342insCCTCAA

AA：在基因中的核苷酸的氨基酸位置及突变信息，如p.V137fs，p.N114_R115insLN

CNV：基因拷贝数的变化

Expression:基因表达量的变化

Fusion：融合基因。如ABL与BCR基因融合，填写为ABL-BCR

DrugInformation：药物信息。

Cancer：癌种。

Phase：药物的临床信息。

Effect：根据文章中药物与基因突变的关系判断的药效

Originaldescription：判断药效或是治疗效果的资料依据。

SampleInformation：样本信息

CA/RA：资料结果是来自于临床试验(CA)还是科研试验(RA)。临床试验(ClinicalTrial)，指任何在人体(病人或健康志愿者)进行药物的系统性研究，以证实或揭示试验药物的作用、不良反应及/或试验药物的吸收、分布、代谢和排泄，目的是确定试验药物的疗效与安全性。临床试验一般分为I、II、III和IV期临床试验。其余为科研试验。

Sampletype：样本类型。

Number：实验样本的数量，分为case和control.Case是观测的样本数量，Control是对照样本数量。

Survivalrates(PFS)：无进展生存率统计

Time(Year)：实验观测的时间。

Case和Control：Case和Control的存活率。

Survivaltime(PFS)：无进展生存时间统计。

Case和Control：Case和Control的存活率。

Survivalrates(OS)&&Survivaltime(OS)：OS是指OveralSurvival,生存率和生存时间的另一种统计方法。

Other:其他的生存率，生存时间或药效的统计方法及结果。

ReferenceInformation:参考文献信息

(2)从肿瘤病人正常组织样本及肿瘤组织样本(包括石蜡、冰冻组织、血液等样本类型)中提取达到检测要求的DNA及RNA。所获得的DNA和RNA需要满足下列要求：

检测所需DNA和RNA样品要求

*m：总量(TotalMass)，DNA/RNA总量。c：浓度(Concentration)，DNA/RNA浓度。RIN：RNAIntegrityNumber，RNA分子完整性指数。28S/18S：28S/18S比值，真核生物rRNA中28S与18S比值，反映真核RNA完整性

(3)芯片捕获靶向基因测序：通过步骤(2)所建立的预定肿瘤基因数据库，根据需要对癌肿、基因突变与用药关系、生存统计等项目对所有基因进行评估，有针对性地挑选目的基因，设计定制化基因捕获芯片(AgilentSureSelect)，对步骤(1)所得的样本DNA进行目的基因的外显子部分及挑选部分基因的融合部分捕获，对获得的DNA片段建库并用IlluminaHiseq测序系统进行500x深度的测序。DNA建库流程如下：

a.将1-3μgDNA样品打断成200-300bp的片段并进行纯化。

b.对打断后的样品分别进行末端修复及末端加“A”并纯化。

c.将步骤b中得到的产物与Illumina测序接头相连接并纯化。

d.以步骤c中得到的产物为模板，以IlluminaIndexP1及IlluminaIndexN为引物进行PCR，反应条件为：94℃2min；94℃20s,62℃40s,72℃40s,7cycles；72℃10min。纯化PCR产物并质控产物主带处于250-450bp之间，总量大于500ng。

e.按照AgilentSureSelect说明流程对步骤d所得产物进行捕获杂交并洗脱。

f.以步骤e中得到的产物为模板，以HS-EXON-FC-1.1(10μM)及HS-EXON-FC-1.2(10μM)为引物进行PCR，反应条件为：98℃2min；98℃20s,60℃30s,72℃30s,10cycles；72℃5min；4℃hold。纯化PCR产物。

g.将步骤f所得文库送检并进行Hiseq2000平台测序。

(4)RNA测序：对步骤(1)中所得的样本RNA进行RNA-seq建库并采用IlluminaHiseq测序系统进行SE50测序，通过步骤(2)所建立的预定肿瘤基因数据库提供的信息，针对性关注相关的基因的表达量变化。RNA建库流程如下：

a.取200ng-2μg样品TotalRNA加DNaseI进行DNA消化，并纯化。

b.反转录第一链的合成。

c.反转录第二链合成，并对产物进行纯化。

d.对步骤c中得到的二链合成后DNA产物进行末端修复与纯化。

e.对步骤d中得到的产物进行3’末端加“A”碱基。

f.将步骤e中得到的产物与Illumina测序接头相连接并纯化。

g.以步骤f中得到的产物为模板，以IlluminaIndexP1及IlluminaIndexN为引物进行PCR，反应条件为：94℃2min；94℃15s,62℃30s,72℃30s,15cycles；72℃10min；16℃hold。并对PCR产物进行纯化。

h.将步骤g所得文库送检并进行IlluminaHiseqSE50测序。

i.若样品为石蜡包埋样品提取的RNA，应按照DSNNormalizationprotocol.Illumina.Part#15014673Rev.C.流程对步骤g所得产物进行DSN均一化处理后再进行二次PCR并纯化，之后送检进行测序。

(5)得到靶向基因DNA重测序原始下机数据后，进行以下方面的信息分析：

a.输入原始数据进行过滤；过滤后数据进行比对，去重，重比对。

b.输入重比对后的数据进行深度和覆盖度计算。

c.输入重比对后的数据用Varscan进行SNV的查找。

d.输入重比对后的数据用GATK进行SomaticIndel的查找。

e.输入重比对后的数据用CREST进行SomaticSV的查找。

f.输入重比对后的数据用CONTRA或ExomeCNV进行SomaticCNV的查找。

g.输入重比对后的数据用GATK进行特殊位点SNP和基因型的判定。

(6)得到RNA测序原始下机数据后，进行以下方面的信息分析：

a.输入原始数据进行过滤；过滤后数据分别比对到全基因组和基因区域。

b.输入比对到基因区域的数据，计算每个基因的RPKM值，并计算normal-tumor的差异表达基因。

c.输入比对到全基因组的数据，利用SOAPfuse查找融合基因。

(7)整合步骤(5)、(6)分析结果，结合病人目的基因的DNA重测序突变检测结果和相关表达量的变化，获得病人个体肿瘤的突变列表。

(8)通过预定数据库，根据对病人基因的分析突变分型及病理学特征，建立个体肿瘤遗传信息模型。

根据本发明的实施例，建立了一个肿瘤个体化遗传信息数据库，可在数据库的基础上有针对性地挑选待检测基因，一次性定制化设计相关基因位点捕获芯片。

根据本发明的实施例，通过对病人肿瘤相关基因DNA进行SNV、SomaticIndel、SomaticSV、SomaticCNV查找，综合对某些基因正常组织-患病组织的差异表达进行比较，并寻找融合基因，综合性的对病人癌症分子突变分型进行定位，结合数据库中的各种基因变异对应的疗法及疗效信息，建立个体化肿瘤遗传信息数学模型。

根据本发明的实施例，可以一次性综合检测数百个基因，有效地减少样本消耗，降低检测成本。

根据本发明的实施例，形成适合国人的癌症基因数据库及模型。

确定个体基因突变的系统

核酸样本获取装置100、文库构建装置200、测序装置300和基因突变确定装置400。根据本发明的实施例，核酸样本获取装置100用于从所述个体的患病组织获取患病组织核酸样本，以及任选地从个体的正常组织获得正常组织核酸样本。根据本发明的实施例，文库构建装置200与核酸样本获取装置100相连，并且用于利用探针对所述患病组织核酸样本以及任选的正常组织核酸样本进行筛选并构建测序文库，其中，所述探针特异性识别所述疾病相关的靶基因。根据本发明的实施例，测序装置300与文库构建装置200相连，并且用于所述文库构建装置构建的测序文库进行测序，以便获得患病组织核酸测序结果以及任选的正常组织核酸测序结果。根据本发明的实施例，基因突变确定装置400与测序装置300相连，并且用于基于所述患病组织核酸测序结果，确定与所述疾病相关的基因突变。

根据本发明的一个实施例，所述个体为哺乳动物。根据本发明的一个实施例，所述个体为人。根据本发明的一个实施例，所述疾病为癌症。根据本发明的一个实施例，所述疾病为肝中分化胆管细胞癌，并且所述靶基因为选自表1的至少之一。根据本发明的一个实施例，所述患病组织是以石蜡切片形式提供的。根据本发明的一个实施例，所述正常组织为血液。根据本发明的一个实施例，所述探针是以固相芯片的形式提供的。

(a)对所述DNA样本进行片段化，以便获得DNA片段；

其中，

(a)对所述RNA样本进行反转录PCR，以便获得cDNA片段；

(e)将所述连接产物进行PCR扩增，以便获得cDNA扩增产物；以及

(f)基于所述cDNA扩增产物，建立所述RNA样本的测序文库，

其中，

根据本发明的一个实施例，步骤(f)进一步包括：

根据本发明的一个实施例，所述基因突变确定装置：

用Varscan进行SNV的查找；

用GATK进行SomaticIndel的查找；

用CREST进行SomaticSV的查找；

用CONTRA或ExomeCNV进行SomaticCNV的查找；或

用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定。

实施例1

(1)肿瘤病人T30，诊断为肝中分化胆管细胞癌，分别从肿瘤病人T30肿瘤组织石蜡切片和冻存血液(正常组织)中提取DNA、RNA，并检测合格。

(2)芯片捕获靶向基因测序：从肿瘤基因数据库中挑选出对治疗敏感性高的基因共434个并设计其基因捕获芯片(AgilentSureSelect)，对步骤(1)所得的样本DNA进行这434个基因的外显子部分及21个基因的融合部分捕获，对获得的DNA片段建库并用IlluminaHiseq测序系统进行500x深度的测序，单个样本测序量约为4.4G。

a.将3μgDNA样品打断成200-300bp的片段并进行纯化。

b.对打断后的样品分别进行末端修复及末端加“A”并纯化。

c.将步骤b中得到的产物与Illumina测序接头相连接并纯化。

g.将步骤f所得文库送检并进行Hiseq2000平台测序。

(3)RNA测序：对步骤(1)中所得的样本RNA进行RNA-seq建库并采用IlluminaHiseq测序系统进行SE50测序，通过华大基因内部肿瘤基因数据库提供的信息，针对性关注242个与疗效相关的基因的表达量变化，单个样本的测序量为20Mreads。

a.取2μg血液样品提取TotalRNA/取200ng石蜡样品TotalRNA加DNaseI进行DNA消化，并纯化。

b.反转录第一链的合成。

c.反转录第二链合成，并对产物进行纯化。

d.对步骤c中得到的二链合成后DNA产物进行末端修复与纯化。

e.对步骤d中得到的产物进行3’末端加“A”碱基。

f.将步骤e中得到的产物与Illumina测序接头相连接并纯化。

h.样品为血液提取RNA，将步骤g所得文库送检并进行IlluminaHiseqSE50测序。

i.样品为石蜡包埋样品提取的RNA，按照DSNNormalizationprotocol.Illumina.Part#15014673Rev.C.流程对步骤g所得产物进行DSN均一化处理后再进行二次PCR，反应条件为：94℃2min；94℃15s,62℃30s,72℃30s,12cycles；72℃10min；16℃hold。并对PCR产物进行纯化。再将所得文库送检并进行IlluminaHiseqSE50测序。

(4)得到靶向基因DNA重测序原始下机数据后，进行以下方面的信息分析：

b.输入重比对后的数据进行深度和覆盖度计算。

c.输入重比对后的数据用Varscan进行SNV的查找。

d.输入重比对后的数据用GATK进行SomaticIndel的查找。

e.输入重比对后的数据用CREST进行SomaticSV的查找。

f.输入重比对后的数据用CONTRA或ExomeCNV进行SomaticCNV的查找。

g.输入重比对后的数据用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定。

(5)得到RNA测序原始下机数据后，进行以下方面的信息分析：

c.输入比对到全基因组的数据，利用SOAPfuse查找融合基因。

(6)整合步骤(4)、(5)分析结果，结合病人目的基因的DNA重测序突变检测结果和相关表达量的变化，获得病人个体肿瘤的突变列表。详细突变列表见附图3、附图4。

(7)根据对病人基因的分析突变分型及病理学特征，建立个体肿瘤遗传信息模型。此实施例可解读517个肿瘤相关基因，其中可确定的靶向药物相关基因96个、化疗药物相关基因148个、药物代谢相关基因22个、放疗相关基因23个、激素药物相关基因17个、抗体药物相关基因26个、疫苗相关基因6个。为后续医生的治疗提供了大量的数据参考基础。

结果：

肿瘤病人T30突变信息总述

下面提供了肿瘤病人T30的突变信息列表，需要说明的是，在下面的列表中，

第一部分：体细胞单核苷酸变异，每列的含义分别为基因，碱基突变，氨基酸突变，突变类型，突变频率；这部分内容是根据芯片区域来检测SNV突变，然后注释到基因组上；

第二部分：体细胞插入缺失突变，每列的含义分别为基因，碱基突变，氨基酸突变，突变类型，突变频率；这部分内容是根据芯片区域来检测somaticindel突变，然后注释到基因组上；

第三部分：重要基因拷贝数变异，每列的含义分别为基因，是否发生拷贝数变化；这部分内容是根据芯片区域来检测somaticCNV突变，然后注释到基因组上,最后根据给定重要基因列出是否发生拷贝数变化；

第四部分：表达量-升高最显著的基因(5％)，表格内容都是显著升高的基因；首先对转录组数据进行分析算出表达量，然后计算出差异表达基因，最后筛选出top5％Up的基因最为最显著的升高基因；

第五部分：表达量-下降最显著的基因(5％)，表格内容都是显著升高下降基因；首先对转录组数据进行分析算出表达量，然后计算出差异表达基因，最后筛选出top5％Down的基因最为最显著的下降达基因。

说明：

(1)基因名称均采用UCSC网站中的Refgene；

(2)同义突变：指由于某个碱基的改变使代表某种氨基酸的密码子突变为其他密码子，但是仍然编码同一个氨基酸；

(3)非同义突变：编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子，从而使多肽链的氨基酸种类和序列发生改变；

(4)终止密码子获得突变：指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子，从而使肽链合成提前终止；

(5)终止密码子丧失突变：指由于某个碱基的改变使终止密码子突变未其他密码子，从而使肽链合成无法正常终止；

移框突变、非移框突变：DNA损伤可以分为四种类型：错配、缺失、插入和重排。缺失或插入都可导致移框突变，移框突变是指三联体密码的阅读方式改变，造成蛋白质氨基酸排列顺序发生改变，其后果是翻译出的蛋白质可能完全不同；3个或3n个核苷酸的插入或缺失，不一定引起框移突变。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。另外，需要说明的是，本领域技术人员能够理解，在本发明所提出的方案中所包含的步骤顺序，本领域技术人员可以进行调整，这也将包括在本发明的范围内。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种确定个体基因突变的方法，所述基因突变与预定的疾病相关，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述个体为哺乳动物，

任选地，所述个体为人，

任选地，所述疾病为癌症，

任选地，所述疾病为肝中分化胆管细胞癌，并且所述靶基因为选自表1的至少之一，

任选地，所述患病组织是以石蜡切片形式提供的，

任选地，所述正常组织为血液，

任选地，所述探针是以固相芯片的形式提供的，

任选地，所述核酸样本包括DNA样本和RNA样本。

3.根据权利要求2所述的方法，其特征在于，在步骤(2)中，针对所述DNA样本，通过下列步骤构建所述测序文库：

(a)对所述DNA样本进行片段化，以便获得DNA片段；

其中，

在进行步骤(e)之前，利用所述探针对所述连接产物进行筛选，

任选地，在步骤(2)中，针对所述RNA样本，通过下列步骤构建所述测序文库：

(a)对所述RNA样本进行反转录PCR，以便获得cDNA片段；

(e)将所述连接产物进行PCR扩增，以便获得cDNA扩增产物；以及

(f)基于所述cDNA扩增产物，建立所述RNA样本的测序文库，

其中，

任选地，步骤(f)进一步包括：

4.根据权利要求1所述的方法，其特征在于，与所述疾病相关的基因突变包括下列至少之一：SNV、SomaticIndel、SomaticSV、SomaticCNV以及在正常组织和肿瘤组织之间存在表达差异的基因，

基于所述RPKM值，确定所述在正常组织和肿瘤组织之间存在表达差异的基因，

任选地，所述靶基因包括选自下列的至少之一：靶向药物相关基因、化疗药物相关基因、药物代谢相关基因、放疗相关基因、激素药物相关基因、抗体药物相关基因和疫苗相关基因。

5.根据权利要求1所述的方法，其特征在于，在步骤(4)中，

用Varscan进行SNV的查找；

用GATK进行SomaticIndel的查找；

用CREST进行SomaticSV的查找；

用CONTRA或ExomeCNV进行SomaticCNV的查找；或

用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定，

任选地，利用选自Hiseq2000、SOLiD、454、和单分子测序装置的至少一种进行所述测序。

6.一种确定个体基因突变的系统，所述基因突变与预定的疾病相关，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述个体为哺乳动物，

任选地，所述个体为人，

任选地，所述疾病为癌症，

任选地，所述患病组织是以石蜡切片形式提供的，

任选地，所述正常组织为血液，

任选地，所述探针是以固相芯片的形式提供的，

任选地，所述核酸样本包括DNA样本和RNA样本。

8.根据权利要求7所述的系统，其特征在于，所述文库构建装置适于针对所述DNA样本，通过下列步骤构建所述测序文库：

(a)对所述DNA样本进行片段化，以便获得DNA片段；

其中，

任选地，所述文库构建装置适于针对所述RNA样本，通过下列步骤构建所述测序文库：

(a)对所述RNA样本进行反转录PCR，以便获得cDNA片段；

(e)将所述连接产物进行PCR扩增，以便获得cDNA扩增产物；以及

(f)基于所述cDNA扩增产物，建立所述RNA样本的测序文库，

其中，

任选地，步骤(f)进一步包括：

9.根据权利要求6所述的系统，其特征在于，与所述疾病相关的基因突变包括下列至少之一：SNV、SomaticIndel、SomaticSV、SomaticCNV以及在正常组织和肿瘤组织之间存在表达差异的基因，

10.根据权利要求6所述的系统，其特征在于，所述基因突变确定装置：

用Varscan进行SNV的查找；

用GATK进行SomaticIndel的查找；

用CREST进行SomaticSV的查找；

用CONTRA或ExomeCNV进行SomaticCNV的查找；或

用GATK进行化疗、放疗、代谢特殊位点SNP和基因型的判定，

任选地，所述测序装置为选自Hiseq2000、SOLiD、454、和单分子测序装置的至少一种。