CN116864000A

CN116864000A - 一种基于高通量靶向测序分析的肿瘤化疗分型系统

Info

Publication number: CN116864000A
Application number: CN202310904723.3A
Authority: CN
Inventors: 李天一; 柳佳琦
Original assignee: Shanghai Xinnuo Baishi Medical Laboratory Co ltd
Current assignee: Shanghai Xinnuo Baishi Medical Laboratory Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-10
Anticipated expiration: 2043-07-21
Also published as: CN116864000B

Abstract

本发明公开了一种基于高通量靶向测序分析的肿瘤化疗分型系统，所述分型系统包括检测模块和分型模块；检测模块用于将基因组测序数据比对到人类参考基因组得到含有变异位点信息的文件；分型模块用于对含有变异位点信息的文件进行数据清洗，并结合单位点判型表得到单位点分型结果，再结合已知分型类型和化疗位点进行判型，判型结果包括杂合突变型、纯合突变型及未知类型；所述肿瘤化疗分型系统可以在进行分子生物学诊断时预测患者的化疗位点分型，可分型的点高达99％，准确率高，解决了肿瘤患者在进行化疗用药前缺少患者化疗位点分型结果，进而导致用药不明确的问题。

Description

一种基于高通量靶向测序分析的肿瘤化疗分型系统

技术领域

本发明涉及肿瘤分型技术领域，具体为一种基于高通量靶向测序分析的肿瘤化疗分型系统。

背景技术

化疗是一种广泛应用于肿瘤治疗的方法，通过使用化学药物抑制癌细胞的生长和分裂，从而控制和缓解肿瘤。主要适用于癌症局部进展或者转移后的治疗，并且具有以下优点：

1.强力杀灭癌细胞：化疗可以通过杀死癌细胞来控制和缓解肿瘤，适用于大多数癌症的治疗；

2.改善患者症状：肿瘤患者常伴随着许多不良症状，如疼痛、恶心、虚弱等。化疗可以通过控制肿瘤的生长和缓解症状来提高患者的生活质量；

3.预防复发和转移：化疗可以消灭癌症残留细胞，预防癌症的复发和转移，减少病情的危险性和风险。

化疗也会带来一定的副作用，如脱发、口腔溃疡、恶心、呕吐、免疫系统下降等，对患者身体健康造成一定的影响。

化疗分型是一种基于肿瘤个体化特征的治疗策略，通过高通量基因组测序和分析来确定肿瘤患者化疗基因的个体化特征，并根据分析结果来制定个性化化疗治疗方案。针对不同的分型结果，可以采用不同的化疗药物、剂量和方案，从而提高化疗的疗效和生存率。

具体来说，化疗分型主要有以下作用：

1.提高化疗疗效：不同的肿瘤患者对于化疗药物的反应并不相同，分型可以帮助医生更加确切地预测患者对化疗药物的敏感性和耐受性，从而制定出最合适的化疗治疗方案，提高化疗疗效；

2.降低毒副作用：针对不同的化疗分型结果，可以针对性地选用化疗药物、剂量和方案，从而减少化疗过程中的毒副作用，提高化疗质量和生活质量；

3.节省治疗时间：针对不同的化疗分型结果，可以制定个体化、最优化的治疗方案，同时也减少了不必要的药物使用和治疗时间，从而提高化疗的治疗效果和生存率。

临床诊断中一般使用WHO 2016诊断标准。临床常根据经验确定较为普适性的化疗用药方案。但实际上，患者的遗传背景，发病原因，发病时间，恶化程度可能存在较大差异；同一肿瘤在同一个患者身上，也可能由于肿瘤浸润导致不同部位的肿瘤组织存在高异质性。此外参考药物基因组学知识库(PharmGKB)记录了更为全面精准的分析患者遗传事件和化疗分型，也介绍了遗传变异如何导致药物反应变异，注释内容涵盖了1761种药物，227个基因，165个疾病，784个临床指南和9000个药物标签。

由此可见，为解决肿瘤患者在进行化疗用药前缺少患者化疗位点分型结果，进而导致用药不明确的问题，针对肿瘤化疗分型十分有必要。

发明内容

本发明提供了一种基于高通量靶向测序分析的肿瘤化疗分型系统，为肿瘤患者提供用药指导，解决肿瘤患者在进行化疗用药前缺少患者化疗位点分型结果，进而导致用药不明确的问题。

一种基于高通量靶向测序分析的肿瘤化疗分型系统，包括检测模块和分型模块；

检测模块用于将基因组测序数据比对到人类参考基因组得到含有变异位点信息的文件；

分型模块用于对含有变异位点信息的文件进行数据清洗，并结合单位点判型表得到单位点分型结果，再结合已知分型类型和化疗位点进行判型，判型结果包括杂合突变型、纯合突变型及未知类型；所述数据清洗过程根据等位基因频率大小确定纯合野生型、纯合突变型和杂合突变型。

进一步地，所述数据清洗过程将等位基因频率小于10％的位点调整为纯合野生型，等位基因频率大于90％的化疗位点调整为纯合突变型，等位基因频率在10％-90％之间的定义为杂合突变型。

进一步地，所述判型过程先得到单位点分型类型0/1矩阵，再根据矩阵中符合分型的数量确定判型结果。

进一步地，所述检测模块还包括预处理模块，用于将基因组测序数据拆分成fastq格式数据，并去除低质量数据。

优选地，所述低质量数据包括未去干净的接头序列，连续的低质量碱基序列，低质量的序列或长度过短的序列。

进一步地，所述含有变异位点信息的文件为VCF格式的变异注释文件。

本发明另一个目的在于提供一种用药提醒装置，包括以上所述的分型系统，及用药指导系统；所述用药指导系统基于分型结果给出建议用药临床指导信息；所述分型结果包括单位点分型结果和最终判型结果。

进一步地，所述用药指导系统调用药物基因组学数据库比对所述分型结果得到建议用药临床指导信息。

相比现有技术，本发明的有益效果包括但不限于：

1.本发明提供的肿瘤化疗分型系统解决了肿瘤患者在进行化疗用药前缺少患者化疗位点分型结果，进而导致用药不明确的问题；可以在进行分子生物学诊断时预测患者的化疗位点分型，可分型的点高达99％，准确率高。

2.本发明提供的肿瘤化疗分型系统通过等位基因频率结合单位点判型表将VCF格式转化成易分析的化疗单位点分型结果，提高了数据处理效率。通过构建分型0/1矩阵实现标签化，使得判型结果具有可追溯性。

附图说明

图1为本发明提供的肿瘤化疗分型系统执行的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的实施例中，相关术语解释如下：

VCF：VCF(Variant Call Format)格式是一种常见的DNA序列变异记录格式，常用于基因组学研究和遗传变异分析。它是一种文本格式，主要用于存储和描述单个或多个样本中的SNPs(单核苷酸多态性)、Indels(插入或缺失)，以及其他类型的DNA序列变异信息。VCF格式通常由以下几个部分组成：元数据(metadata)：包括文件格式版本、样本信息、参考基因组等信息；表头(header)：由一系列以“#”开头的注释行组成，描述VCF文件的各个列的含义；变异信息(variant information)：按列排列而成，包括染色体位置、参考序列、变异序列、质量得分、过滤状态、注释信息等。VCF格式的优点在于它可以同时记录多个样本的DNA序列变异信息，并且支持对不同样本间变异位点的比对和统计分析。此外，VCF格式也为基因组学研究提供了一种标准的文件格式，方便数据共享和处理。VCF格式是一种重要的DNA序列变异记录格式，被广泛应用于基因组学研究、遗传变异分析和生物信息学领域。

PharmGKB数据库：参考药物基因组学知识库。记录了更为全面精准的分析患者遗传事件和化疗分型。

化疗位点的分子分型系统分为数据的统一前处理和分子分型两部分。其中分子分型的位点均来自于基因组学知识库(PharmGKB)。化疗分子分型有两种较为不同的模式：一种是对一些基因的化疗位点按照SNP变异突变位点进行分型，这种分型较为简单，只需要对化疗基因上指定的位点按照突变类型进行注释即可，在这种模式下一个基因的每个化疗位点都会有一个独立的分型，会出现一个基因下多个位点有多个分型的情况；另一种则是对某种基因按照数据库规定的多位点分型进行联合判型，同一个基因只会有一种分型，在一个实施例中联合多个化疗位点的单位点分型结果进行联合分析，从而把一个基因映射到一个固定的分型上面去。

在一个实施例中，检测化疗位点分子分型的系统分为两个模块：检测模块和分型预测模块。步骤分别如下：

1.检测模块

(1)基因组测序数据预处理

使用bcl2fastq软件，提供测序前各个样本的index序列信息，将原始下机数据拆分成fastq格式数据。

(2)原始数据处理

原始的基因组Fastq数据中含有一部分低质量数据，会影响到后续分析，因此这里需要去除低质量数据。使用软件fastp进行数据质量处理，切除未去干净的接头序列，切除连续的低质量碱基序列，丢弃低质量的序列，丢弃长度过短的序列。

(3)fastq序列与参考基因组比对

根据碱基序列与人类参考基因组hg19的一致性，将序列对应到参考基因组上，生成比对结果bam文件。

2.化疗分型模块

(4)计算所有化疗单位点的分型结果

为了避免有些情况下患者的样本质量不佳，且存复合杂合位点的情况，继续对每个变异位点的变异进行了标准化。根据VCF文件和数据库中记录的变异可能，将VCF格式转化成易分析的化疗单位点分型结果。

得到标准化的变异注释文件后(VCF格式)，首先需要将数据进行清洗，将等位基因频率低于10％的位点调整为纯合野生型，等位基因频率高于90％的化疗位点调整为纯合突变型，等位基因频率在10％-90％之间的(包括边界值)定义为杂合突变型，然后按照单位点判型表进行判型(表1)。当一个位点存在多种分型的情况下，我们首先会按照上述方法进行清洗，然后对比AF的大小(注：AF的大小一定是可以比较的，因为一个位点的等位基因频率之和一定等于1)。大多数情况下，这种多态性位点(复合杂合位点)描述的多种变异类型中往往只有一个变异类型的等位基因频率是大于10％的，这种情况下可较容易地判断其为这种突变型；仅有少数的情况下存在多个变异类型的等位基因频率均大于10％(或者均不大于10％)，则全部输出(或全部不输出)。

当我们使用如上方式获得了所有需要分型化疗位点的单位点分型结果后，我们需要知道哪些基因需要联合判型(因为往往不需要所有基因都进行联合判型)，并需要知道这些基因有哪些已经文章报告或者指南声明的分型类型(如表3)，以及这些分型类型是根据哪些化疗位点定义的(如表2)。所以，在开始判别分型之前，我们需要对这些整个信息汇总成数据库和参数列表，以便在分型时作为关键参考。

表1：单位点判型表(部分)

表2：单基因多位点判型表(UGT1A1基因)

表3：单基因多位点分型可能

基因名称	待分型可能
		CYP3A4	1,18,*22
CYP3A5	1,3
		NUDT15	1,2,*3
TPMT	1,2,3A,3B,3C,4
		TPMT&NUDT15	1,2,3A,3B,3C,4&1,2,*3
UGT1A1	1,28

(5)根据需要化疗联合判型表和单位点分型结果计算分型0/1矩阵

根据如下逻辑进行计算0/1矩阵：a.每个*1，但凡有一个点是NA就是NA；b.如果不是NA，每个*1都是纯合，就输出纯合野生型；如果不是a和b，就继续c和d规则，如果是的话就结束判型；c.判断是不是突变型A，如果不是，判断是不是突变型B，直到是某个突变型。都不是的话，就给NA；d.是其中一种突变型的情况下，判断是纯合还是杂合，都是纯合为纯合突变型，但凡有一个是杂合就是杂合突变型。其中，NA代表非已知的判型。

(6)输出化疗联合判型结果

根据第(5)步的0/1矩阵进行判断，首先判断“符合本型”的true的数目，分成三种情况进行处理：1.大于等于2种，则判断为复合杂合突变型(这种情况下不可能是纯合型，实际上是野生型完全变成了另一种突变型，然后进行了2次突变的结果)；2.等于1种，继续判断是否是纯合突变，如果是纯合突变则输出“纯合突变型”，如果不是则出输出“杂合突变型”；3.等于0种，则判断为NA，这是一种无法被归类的突变型，即数据库中尚未收录，或者研究不明确的分型；

在以上的规则中，但凡有一种“待分型可能”的化疗位点测序深度为0，则将其判断为NA；这种情况下的NA是表示现在的测序数据覆盖位点不足以分型成目前“待分型可能”的任何一种。

(7)用药提示

根据第(6)步的基因的单位点分型结果和联合判型结果，调用PharmGKB数据库(参考药物基因组学知识库)，输出位点分级及建议用药等关键临床指导信息。

以下以一例肿瘤患者DNA测序数据后，进行如下操作：

(1)基因组测序数据预处理

得到原始数据统计如表4所示。

表4：

Sample	Raw_reads	Raw_bases
			Test1	476,167,398	71,901,277,098

(2)原始数据处理

经过质控后，得到高质量的序列，数据统计如表5。

表5：

Samples	Clean_reads	Clean_bases	Q20(％)	Q30(％)	clean Bases％
						Test1	472,340,740	68,300,636,660	98.28％	95.06％	95.34

(3)fastq与参考基因组比对

序列数据与人类参考基因组hg19的比对情况如表6所示。

表6：

(4)计算所有化疗单位点的分型结果

根据VCF文件和数据库，将变异结果整合如表7所示。

表7：

“-”表示纯合野生型缺少此信息；

(5)根据需要化疗联合判型表和单位点分型结果计算分型0/1矩阵分别计算所有基因的待分型可能(表8)。

表8：

(6)输出化疗联合判型结果

整合0/1矩阵输出结果，如表9所示。

表9：

待分型可能	基因名称	分型结果
			1,18,*22	CYP3A4	1/1
1,3	CYP3A5	1/1
			1,2,*3	NUDT15	NA
1,2,3A,3B,3C,4	TPMT	1/1
			1,2,3A,3B,3C,4&1,2,*3	TPMT&NUDT15	1/1&NA
1,28	UGT1A1	1/1

“NA”表示分型结果未知；”&”表示该分型涉及到多个基因，而不仅是一个基因的多个位点。

(7)用药提示，如表10所示。

表10：

证据等级：是指来源于PharmGKB数据库(http://www.pharmgkb.org/page/clinAnnLevels)，共分为1A、1B、2A、2B、3、4共六个等级，证据等级从1到4依次降低。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于高通量靶向测序分析的肿瘤化疗分型系统，其特征在于，包括检测模块和分型模块；

2.根据权利要求1所述的分型系统，其特征在于，所述数据清洗过程将等位基因频率小于10％的位点调整为纯合野生型，等位基因频率大于90％的化疗位点调整为纯合突变型，等位基因频率在10％-90％之间的定义为杂合突变型。

3.根据权利要求1所述的分型系统，其特征在于，所述判型过程先得到单位点分型类型0/1矩阵，再根据矩阵中符合分型的数量确定判型结果。

4.根据权利要求1所述的分型系统，其特征在于，所述检测模块还包括预处理模块，用于将基因组测序数据拆分成fastq格式数据，并去除低质量数据。

5.根据权利要求4所述的分型系统，其特征在于，所述低质量数据包括未去干净的接头序列，连续的低质量碱基序列，低质量的序列或长度过短的序列。

6.根据权利要求1所述的分型系统，其特征在于，所述含有变异位点信息的文件为VCF格式的变异注释文件。

7.一种用药提醒装置，其特征在于，包括权利要求1-6任意一项所述的分型系统，及用药指导系统；所述用药指导系统基于分型结果给出建议用药临床指导信息；所述分型结果包括单位点分型结果和最终判型结果。

8.根据权利要求7所述的装置，其特征在于，所述用药指导系统调用药物基因组学数据库比对所述分型结果得到建议用药临床指导信息。