CN114882943B

CN114882943B - 一种分析体细胞变异的方法及装置

Info

Publication number: CN114882943B
Application number: CN202210325324.7A
Authority: CN
Inventors: 杨露; 吴东方; 杨洁; 唐启覃; 陈龙昀; 陈丽; 王鹏; 邓乙晓; 徐嵘; 吴旭君; 许淑兰
Original assignee: Shenzhen Yukang Medical Laboratory
Current assignee: Shenzhen Yukang Medical Laboratory
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-04-18
Anticipated expiration: 2042-03-29
Also published as: CN114882943A

Abstract

一种分析体细胞变异的方法及装置，该方法包括：变异所属基因分析步骤，包括确定目标变异所属基因类型以及基因分类，输出相关信息；变异生物学意义和/或致癌性预测步骤，包括根据目标变异在数据库中的信息，进行综合分析，输出生物学意义和/或致癌性信息。本发明方便体细胞变异解读工作人员快速检索查询、核对目标变异的相关信息，可以快速预测目标变异的生物学意义和/或致癌性，极大地提高了体细胞变异解读的效率和准确性，同时也为后续个体化肿瘤精准用药相关报告的体细胞变异自动化解读提供了强大的技术支持。

Description

一种分析体细胞变异的方法及装置

技术领域

本发明涉及生物信息学领域，具体涉及一种分析体细胞变异的方法及装置。

背景技术

随着人类基因组计划的完成，近些年来测序行业发展迅猛，测序成本呈超摩尔定律下降，中国正逐步迈进精准医疗的时代。随着科研的进步，科学家们发现肿瘤是一种由于基因突变导致的恶性疾病，肿瘤体细胞变异对于临床管理具有较强指导意义，如非小细胞肺癌EGFR突变的患者可通过针对EGFR靶向药物延长生存期等。因此越来越多的肿瘤患者开始通过接受基因检测来辅助临床医生对其进行临床管理决策。对于检测公司来说，在快速完成基因检测试验和分析操作的同时，如何加快对肿瘤变异对于临床指导意义的解读开始变得越来越重要。

2017年ASCO/AMP/CAP联合发布的《Standards and Guidelines for theInterpretation and Reporting of Sequence Variants in Cancer》(恶性肿瘤序列变异解释和报告指南，后文简称AMP共识)基于变异是否具有临床指导意义(包含治疗、预后、诊断、预防四个方面)，将变异划分为Tier1(具有强临床指导意义)、Tier2(具有潜在临床指导意义)、Tier3(临床指导意义未明)、Tier4(良性或可能良性)四个等级。

尽管有基于AMP的共识做指导，但是其执行细节缺乏共识，不够明确，导致不同人员或实验室根据共识容易出现对相同体细胞变异解读结果不一致。其次，由于体细胞变异检出通常是新发的，无规律的，导致体细胞的检出数目非常巨大，对临床进行体细胞变异分析解读带来巨大的工作量。目前常用的对体细胞变异解读的方法是人工解读，由于肿瘤体细胞变异数量非常庞大，尽管不同的数据库或文献可能对体细胞变异的功能或临床意义有所阐述，但是因为生物学的复杂性，试验方法不一样等多个因素可能导致不同研究对变异注释不一致的情况，且数据库和文献无法适应实际工作中遇到大量新发或未记载或报道变异的需求。因此，如果对样本中检出的变异在不同数据库或文献中进行检索以及阅读，最后依靠人工分析肿瘤体细胞变异的临床指导意义往往存在工作量难度系数高，涉及细节维度多，且时间成本非常高等问题，导致非常容易出现不同的人员对其进行分析，查找资料不一致或操作不规范而引起变异分析结果不一致的现象。综上，如何准确、快速地对肿瘤体细胞变异进行分析，对于检测机构来说是实现为客户进行精准化治疗指导的最关键的步骤之一。而现有的变异分析工具无法对未被数据库公开收录及未被报道的体细胞变异进行准确的解读。

发明内容

根据第一方面，在一实施例中，提供一种分析体细胞变异的方法，包括：

变异所属基因分析步骤，包括确定目标变异所属基因类型以及基因分类，输出相关信息；

变异生物学意义和/或致癌性预测步骤，包括根据目标变异在数据库中的信息，输出生物学意义和/或致癌性信息。

根据第二方面，在一实施例中，提供一种分析体细胞变异的装置，包括：

变异所属基因分析模块，用于确定目标变异所属基因类型以及基因分类，输出相关信息；

变异生物学意义和/或致癌性预测模块，用于根据目标变异在数据库中的信息，输出生物学意义和/或致癌性信息。

根据第三方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第四方面，在一实施例中，提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

依据上述实施例的一种分析体细胞变异的方法及装置，本发明方便体细胞变异解读工作人员快速检索查询、核对目标变异的相关信息，可以快速预测目标变异的生物学意义和/或致癌性，极大地提高了体细胞变异解读的效率和准确性，同时也为后续个体化肿瘤精准用药相关报告的体细胞变异自动化解读提供了强大的技术支持。

附图说明

图1示意性显示了实施例1中的体细胞变异自动化判级方法搭建和查询流程图。

图2示意性显示了实施例1中的体细胞变异判定方法四个主要执行步骤和输出结果示意图。

图3为实施例1中根据非特定肿瘤类型进行体细胞变异判定方法结果示意图。

图4为实施例1中根据特定肿瘤类型进行体细胞变异判定方法结果示意图。

图5为实施例1中目标变异的解析界面图。

图6为实施例1中目标变异的生物学意义模型分析结果显示界面图。

图7为实施例1中目标变异的致病性分析结果显示界面图。

图8为实施例1中目标变异的特殊变异类型查询结果显示界面图。

图9为实施例1中目标变异所属基因查询结果显示界面图。

图10为实施例1中目标变异所属基因结构域分析结果界面图。

图11为实施例1中目标变异的热点变异查询结果图。

图12为实施例1中目标变异周围区域查询结果图。

图13为实施例1中软件预测的目标变异有害性结果图。

图14为实施例1中的判级证据界面图。

图15为实施例1中的变异判级结果界面图。

图16为实施例1中的评论界面图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

如本文所用，“体细胞变异”又称“体细胞突变”，是指除生殖细胞外的体细胞发生的突变。本文的体细胞变异主要包括肿瘤细胞发生的体细胞变异。本文中，“突变”与“变异”可互换使用。

如本文所用，“数据库”是指计算机应用系统中的一种专门管理数据资源的系统。

如本文所用，“知识库”(knowledge base)是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对某一(或某些)领域问题求解的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。本文中，肿瘤变异知识数据库亦称肿瘤变异知识库。

变异生物学意义和/或致癌性预测步骤，包括根据目标变异在数据库中的信息，输出生物学意义和/或致癌性信息。该方法实现对目标变异的快速查询，并快速预测目标变异的生物学意义和/或致癌性，极大地提高了体细胞变异解读的效率和准确性。

在一实施例中，变异生物学意义和/或致癌性预测步骤包括如下步骤中的至少一种：

A.根据目标变异在数据库中记载的信息，输出相关信息；

B.根据目标变异是否为定义的特殊变异类型，输出相关信息；

C.根据所述目标变异所属基因分析步骤获得的目标变异所属基因，以及目标变异类型，输出相关信息；

D.根据目标变异所属基因结构域，判断是否为重要结构域，并输出相关信息；

E.根据目标变异是否为热点变异，并输出相关信息分值V5；

F.根据目标变异周围区域变异或者同位点氨基酸变异的信息，输出相关信息分值V6；

G.使用至少一种软件预测目标变异的有害性情况，并输出相关信息分值V7。

在一实施例中，步骤A中，所述数据库包括但不限于常见人群数据库、肿瘤变异数据库、肿瘤变异知识数据库中的至少一种。基于各数据库的查询无先后顺序之分，可以先基于任意一种数据库进行查询。

在一实施例中，步骤A中，查询目标变异在至少一种常见人群数据库中的信息，对于在常见人群数据库中高频的变异位点，通常对蛋白功能无影响，与肿瘤发展无关，将该类变异的生物学意义和致癌性分别标记为：生物学意义：Benign(不致病)/Likely Benign(可能不致病)，致癌性：No。

在一实施例中，所述高频的变异位点包括突变频率≥频率阈值的变异位点。

在一实施例中，步骤A中，如果目标变异在常见人群数据库中的突变频率＜频率阈值，则查询目标变异在至少一种肿瘤变异数据库中的信息，获得目标变异在该类不同数据库中的突变频率以及携带该目标变异的样本数，根据不同的值，分别赋予不同的分值。

在一实施例中，所述频率阈值可以为1％。

在一实施例中，步骤A中，根据突变频率赋予分值计数为V1，根据携带所述目标变异的样本数赋予分值V2。

在一实施例中，步骤A中，查询目标变异在至少一种肿瘤变异知识数据库中记载的信息，将所述目标变异在不同的肿瘤变异知识数据库中记载的信息进行比较，如果目标变异在不同数据库中均有记载，且结论一致，则直接输出目标变异在肿瘤变异知识数据库中的生物学意义和/或致癌性信息，并提供具体的肿瘤变异知识数据库信息。

在一实施例中，所述常见人群数据库包括但不限于gnomAD、ExAC、1000genomes中的至少一种。

在一实施例中，所述肿瘤变异数据库包括但不限于TCGA、MyCancerGenomer、COSMIC中的至少一种。

在一实施例中，所述肿瘤变异知识数据库包括但不限于OncokB、PMKB、CIViC、ClinVar中的至少一种。

在一实施例中，步骤A中，直接输出的肿瘤变异知识数据库中的信息为生物学意义和/或致癌性信息。

在一实施例中，步骤B中，确定目标变异是否为定义的特殊变异类型，对特殊变异列表区间内的目标变异，直接输出结果。

在一实施例中，步骤B中，对于特殊变异列表区间内的目标变异，直接输出如下结果：生物学意义为GOF(Gain of function，功能获得型)或LOF(Loss of function，功能缺失型)，致癌性为Yes。

在一实施例中，步骤C中，若目标变异所属基因为GUS(临床意义未明基因)，则直接输出生物学意义为VUS(没有显著意义的突变，variants of unknown significance)，致癌性为Unkonw(未知)；

若目标变异所属基因为AG(临床可操作性基因)或CG(肿瘤相关基因)，目标变异类型为如下变异中的至少一种：无义突变、移码突变、经典+/-1或2剪接突变位点突变、起始密码子上的突变、拷贝数缺失、单个或多个外显子的缺失的变异，且目标变异所属基因分类为抑癌基因，则直接输出生物学意义为LOF，致癌性为Yes；若目标变异所属基因为原癌基因，则直接输出生物学意义为LOF，致癌性为Unknown；若目标变异所属基因为抑癌基因，则输出生物学意义为LOF，致癌性为Yes；若变异所属基因分类为Unknown，则需要进行其他判断，具体是根据步骤D、E、F、G进行判断；若目标变异均不符合上述情况，目标变异类型为框内移码突变或stop-loss突变，则输出分值V3。

在一实施例中，步骤C中，如果目标变异所属基因最后产生的蛋白终止在基因倒数第二个外显子50bp内，则排除目标变异的生物学意义为LOF，输出生物学意义为VUS，致癌性为Unknown。

在一实施例中，步骤D中，根据文献记载的基因重要结构域，确定结构域的染色体坐标区间，供后续查询目标变异是否落在重要结构域，并输出具体分值V4。

在一实施例中，步骤D中，确定结构域的染色体坐标区间所用的数据库包括但不限于Pfarm数据库。根据该判断输出分值V5。

在一实施例中，步骤E中，确定变异是否为热点变异所用的数据库包括但不限于CancerHotspot数据库。

在一实施例中，步骤F中，根据目标变异周围区域变异或者同位点氨基酸变异的报道情况，并输出相关具体分值V6。

在一实施例中，步骤G中，根据不同的软件预测目标变异有害性的结果，分别赋予不同分值V7。

在一实施例中，步骤A～G中各分值的赋值规则如下：

在一实施例中，变异生物学意义和/或致癌性预测步骤中，如果步骤A～G中没有直接输出目标变异的生物学意义和/或致癌性信息，则根据步骤A～G输出的分值V1～V7，或者分值V1～V7中至少两个分值的加和，预测目标变异的生物学意义和/或致癌性。

在一实施例中，变异生物学意义和/或致癌性预测步骤中，根据(V1+V3+V4+V5+V6+V7)值预测目标变异的生物学意义。

在一实施例中，变异生物学意义和/或致癌性预测步骤中，根据(V2+V3+V6+V7)值预测目标变异的致癌性。

在一实施例中，根据分值预测目标变异的生物学意义的方法具体如下：如果V1+V3+V4+V5+V6+V7≥阈值，则预测目标变异的生物学意义为GOF或LOF，如果V1+V3+V4+V5+V6+V7＜阈值，则预测目标变异的生物学意义为Unknown。

在一实施例中，根据分值预测目标变异的致癌性的方法具体如下：如果V2+V3+V6+V7≥阈值，则预测目标变异的致癌性为Yes，如果V2+V3+V6+V7＜阈值，则预测目标变异的致癌性为No。

在一实施例中，用于根据分值预测目标变异的生物学意义和/或致癌性的阈值可以为100。此处的阈值仅仅是示例性的，也可以是其他阈值。

在一实施例中，变异生物学意义和/或致癌性预测步骤中，如果目标变异所属基因为原癌基因，当预测得到的目标变异的生物学意义为Likely GOF(可能功能获得性的)时，或如果目标变异所属基因为抑癌基因，当预测得到的目标变异的生物学意义为Likely LOF(可能功能缺失性的)时，不进行致癌性分值求和，直接推断目标变异的致癌性为Yes。

在一实施例中，还包括变异临床指导意义判断步骤，包括根据所述变异生物学意义和/或致癌性预测步骤故意的的目标变异的生物学意义和/或致癌性信息，预测目标变异对于肿瘤的临床指导意义。

在一实施例中，临床指导意义判断步骤包括：

1)结合靶向药物、免疫药物、临床试验，确定目标变异对于临床治疗中的指导意义；

2)根据目标变异对应临床指导意义等级，对证据等级进行排列。

在一实施例中，还包括变异等级判断步骤，包括根据所述临床指导意义判断步骤获得的结果，预测目标变异在非特定癌种和特定癌种中的变异等级。

在一实施例中，所述非特定癌种包括实体瘤。

在一实施例中，所述目标变异为体细胞变异。

在一实施例中，所述目标变异包括SNV(单核苷酸位点变异，single nucleotidevariants)、InDel(insertion-deletion)中的至少一种。

在一实施例中，所述目标变异是由待测样本的测序数据比对到人类参考基因组而得到。

在一实施例中，所述人类参考基因组包括hg19、hg38中的任意一种。

在一实施例中，待测样本包括肿瘤组织样本、体液样本中的至少一种。

在一实施例中，所述待测样本的测序数据包括但不限于一代测序数据、二代测序数据、三代测序数据。

根据第三方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

在一实施例中，本发明的目的在于提供一种基于体细胞变异进行解读分析和判级的自动化方法及装置，值得注意的是，该方法及装置基于内核算法的同时，以常见人群数据库和肿瘤数据库信息为数据基础，分别与自建数据库模块进行关联，达到最后对变异进行自动化解读和分析的效果。该方法及装置方便变异解读工作人员快速检索查询，以及核对目标变异的相关信息、该变异所对应的临床证据，同时也为后续个体化肿瘤精准用药相关报告体细胞变异自动化解读提供了强大的技术支持。

在一实施例中，本发明提供一种肿瘤变异自动化解读的方法及装置，以解决现有技术中人工解读差异较大以及耗时较长的技术问题。此方法更贴近临床需求，更易于对高通量分析样本获得大量体细胞变异的解读，尤其适合未被数据库公开收录及未被报道的体细胞变异的解读。

在一实施例中，本发明是基于2017ASCO/AMP/CAP联合发布的《Standards andGuidelines for the Interpretation and Reporting of Sequence Variants inCancer》(恶性肿瘤序列变异解释和报告指南，后文简称AMP共识)为基础。通过利用国际公认数据库、软件预测工具、变异类型、变异所属结构域等信息，构建体细胞变异分析模型，从分析变异致癌性和生物学意义两个维度评估变异对肿瘤的影响。进一步地，可以以本发明获得的生物学意义信息、致癌性信息为基础，结合临床证据、临床试验、肿瘤类型等数据库模块进行关联，实现自动化分析体细胞变异临床意义等级。

在一实施例中，本发明提供的方法及装置方便体细胞变异解读工作人员快速检索查询以及核对目标变异的相关信息以及该变异所对应的临床证据，极大地提高了体细胞变异解读的效率和准确性，同时也为后续个体化肿瘤精准用药相关报告的体细胞变异自动化解读提供了强大的技术支持。

在一实施例中，提供一种基于肿瘤体细胞变异自动化判级工具建立的分析方法，包括以下步骤：

1.数据查询收集：

全面检索下载国际国内公认的肿瘤变异知识数据库(如Oncokb、CKb、CIVIC等6款知识库)、肿瘤变异数据库(COSMIC、TCGA等三款数据库)及常见人群数据库(如gnomAD、ExAC、1000genomes等数据库)，从中获取相关资料，为后续目标变异信息查询做准备。

2.数据抽提筛选：

对收集的资料进行初步整理，筛选和分类，对SNV以及indel类型变异按照统一格式(hg19，HGVS)进行注释和转化、整理。方便后续目标变异信息查询，提高准确性。

3.体细胞变异等级判定：

3.1变异所属基因分析：确定目标变异所属基因类型(肿瘤相关基因CG，具有临床可操作性基因AG，临床意义未明基因GUS)；以及基因分类(原癌基因，抑癌基因，或原癌/抑癌基因，unknown)，输出相关信息，为后续变异生物学意义和致癌性判断做准备。

3.2变异生物学意义和致癌性确定

A.确定目标变异在常见人群数据库与肿瘤变异数据库和肿瘤变异知识数据库中的报道情况(包括人群频率，变异功能注释结果：生物学意义，致癌性)，输出相关信息；

B.确定变异是否为自建定义的特殊变异类型(例如EGFR exon 19delins，Exon20delins等)，输出相关信息；

C.根据步骤3.1分析得到的变异所属基因，以及变异类型输出相关信息；

D.确定变异所属基因结构域，判断是否为重要结构域，并输出相关信息；

E.确定变异是否为热点变异(基于Cancerhotspot数据库进行判断)，并输出相关信息；

F.确定变异周围区域变异的报道情况，并输出相关信息；

G.确定变异利用软件预测有害性情况，并输出相关信息。

3.3根据步骤3.2的方法，进一步确定变异对于肿瘤的临床指导意义

A.确定变异对于临床治疗中的指导意义，结合靶向药物、免疫药物、临床试验；

B.梳理变异对应临床指导意义等级，对证据等级进行排列；

3.4根据步骤3.3的方法，进一步地确定变异在非特定癌种(目前采集了实体瘤相关信息)和特定癌种中的变异等级。

在一实施例中，本发明的肿瘤体细胞变异自动化判级工具以网站页面的形式展示，能够实现线上的查改及评论分析等功能。

在一实施例中，本发明提供的体细胞变异分析方法及装置可以用于：对目标信息进行查询；工具搜索框：获取目标需要自动化分析变异信息(支持单个点和以Fasq文件为模板的大量点变异)，支持对目标查询变异中间结果：生物学意义，致癌性；和最终结果：体细胞变异等级的查询，并对预测的结果提供相关依据来源。

以下实施例是以非小细胞肺癌中，hg19注释变异信息为：chr7:55259515:T/G的目标变异为例，通过具体实施例详细说明本发明的技术方案，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例1

本实施例提供一种体细胞变异自动化判级工具的构建方法，如图1所示为体细胞变异自动化判级方法搭建和查询流程图。

1.数据查询收集：

全面检索下载国际国内公认的肿瘤变异知识数据库(如Oncokb、CKb、CIVIC等6款肿瘤变异知识数据库)、肿瘤变异数据库(COSMIC、TCGA等三款数据库)及常见人群数据库(gnomAD、ExAC、1000genomes)，从中获取相关资料，为后续目标变异信息查询做准备。

具体的，包括三类数据库，第一类为公认的肿瘤变异知识数据库，如OncokB、Ckb等，从中提取基因变异的组学属性及变异功能注释或其对应临床意义指导等；第二类为肿瘤变异数据库，包括Cosmic、TCGA等，从中提取基因变异的组学属性及在不同癌种中的变异流行率和携带患者个数等信息；第三类为常见人群数据库，如gnomAD、ExAC、1000genomes，从中提取基因变异的组学属性及在健康人群中的变异流行率和携带样本个数等信息。

2.数据整理：

对收集的资料进行初步整理、筛选和分类，对SNV以及indel类型变异按照统一格式(hg19，HGVS)进行注释和转化、整理。方便后续目标变异信息查询，提高准确性。

具体的，关于数据抽提筛选，其中不同的数据库，存储的变异注释参考基因组不一样，首先统一参考基因组，均按照hg19进行注释；同时对于只含有氨基酸，无特定基因组注释信息的变异，根据注释工具自动对该类变异进行信息补全；对于功能注释数据库，仅含有生物学意义注释信息的，根据变异所属基因分类等规则，统一推测补全致癌性信息；对于常见肿瘤数据库，根据计算方法，统一计算变异在肿瘤数据库中的发生频率(变异检出样本数/所有检测该基因样本数)。

对于目标查询变异，如图5所示，hg19注释变异信息为：chr7:55259515:T/G。

根据该信息，补充基因、氨基酸、核苷酸、变异类型等信息，具体表1所示。

表1

3.目标体细胞变异等级判定：

如图2所示为体细胞变异判定方法中的四个主要执行步骤和输出结果示意图。

3.1变异所属基因分析

确定目标变异所属基因类型(肿瘤相关基因CG，具有临床可操作性基因AG，临床意义未明基因GUS)；以及基因分类(原癌基因、抑癌基因或原癌/抑癌基因、unknown)，输出相关信息，为后续变异生物学意义和致癌性判断做准备。

具体的，通过查询目标变异所属基因在自建基因数据库中的记录情况，获取目标查询变异基因类型和基因分类结果，该类信息来源在肿瘤知识信息库以及文献的基础上，进行总结和分类。

对于注释出来的EGFR基因发生的变异，确定变异所属基因为CG和AG。

3.2变异生物学意义和致癌性确定

以下步骤中，如果某一步骤获得了目标变异的生物学意义和致癌性信息，则不再进行其他步骤。

A.确定目标变异在常见人群数据库、肿瘤变异数据库和肿瘤变异知识数据库中的报道情况(包括人群频率，变异功能注释结果：生物学意义、致癌性)，输出相关信息。

具体的，通过查询目标变异在常见人群数据库中的报道情况，对于在常见人群数据库中高频的变异位点(突变频率≥1％)，通常对蛋白功能无影响，与肿瘤发展无关，程序标记该类变异的生物学意义和致癌性分别为：生物学意义为Benign(不致病)/LikelyBenign(可能不致病)，致癌性为No；反之，则需要根据后续步骤进行其他判断。

对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，确定在常见人群数据库中暂无记载，不属于突变频率≥1％的变异，则进行如下判断：

通过查询目标变异在不同的肿瘤变异数据库(即图2中类型所在列的肿瘤体细胞突变数据库)中的报道情况，确定目标变异在该类不同数据库中的突变频率以及携带该体细胞变异的样本数，根据不同的值，分别赋予不同的分值，具体的，根据突变频率赋予分值计数为V1，根据携带该体细胞变异的样本数赋予分值计数为V2。

如图6所示为生物学意义模型分析结果显示界面，如图7所示为致病性分析结果显示界面。可见，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，查询其在肿瘤常见人群数据库中记载的突变频率和病例数分别为：TCGA：0.30％(38例)；MyCancerGenomer：1.12％；COSMIC:1.36％(2592例)，记载的突变频率≥1％(只要有一个数据库中突变频率≥1％，即赋予分值V1为45分)，赋予分值V1为45分，记载的携带目标变异人数≥50例(只要有一个数据库中携带目标变异人数≥50例，即赋予分值V1为70分)，赋予分值V2为70分。携带目标变异人数即为肿瘤变异数据库中检出目标变异的样本数。

通过查询目标变异在肿瘤变异知识数据库中的记载情况，并进行比较：如果变异在不同知识库中均有记载，且结论一致，则直接输出肿瘤变异知识数据库中的情况(生物学意义或致癌性)，并提供具体数据库信息，如果结论不一致或者无记载，则需要根据后续步骤的方法进行其他判断。

对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，查询其在肿瘤变异知识数据库中的记载情况，查询结果如表2所示，大于3个数据库中有记载，且结果一致，直接输出如下结果：生物学意义为GOF，致癌性为Yes。

表2

表2中，OncoKB是由Memorial Sloan Kettering癌症中心(MSK)维护的全面的精准肿瘤学知识库，包含来自FDA、NCCN或ASCO，http://ClinicalTrials.gov和科学文献的专业指导方针和建议、治疗策略、肿瘤专家或肿瘤协会共识、参考文献等信息。

OncoKB目前包含有关554种癌症基因特定改变的详细信息，还有1级(FDA批准)、2级(标准护理)的治疗信息，3级临床证据和生物学证据。

PMKB为基于癌症基因组特征(CGFs)的精准治疗知识库。

CIViC为精准医学开源知识库。

ClinVar是一个公开的数据库，其中收集了与疾病相关的遗传变异。这一数据库由美国国立卫生研究院2013年为了生物技术信息开发而构建，来自美国联盟医疗体系(Partners Healthcare)的临床遗传学家Heidi Rehm表示，到目前为止，已经从研究人员和其它数据库中获得了包含超过125,000份独特突变的临床注释。

CKB数据库的英文全称为The Clinical Knowledgebase。

Fasmic数据库是由MD Anderson Cancer Center开发的用于分析突变数据的网络平台。

B.预测目标变异是否为定义的特殊变异类型(例如EGFR exon 19delins、Exon20delins等)，输出相关信息。

具体的，由于该工具对于delins、剪切突变等的预测有限，为了优化这类变异判级结果，制定特殊变异列表，对于该列表区间内的变异直接进行结果输出，例如，对于MET(chr7:116411852-116411903)，直接输出生物学意义为GOF(Gain of function)，致癌性为Yes。

如图8所示，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，不符合该变异类型，无结果输出。

C.根据步骤3.1获得的目标变异所属基因以及变异类型，输出相关信息。

具体地，若目标变异所属基因为GUS，直接输出生物学意义为VUS，致癌性为Unkonw；

若目标变异所属基因为AG或CG，变异类型为：无义，移码经典+/-1或2剪切突变位点突变，或者起始密码子上的突变，拷贝数缺失，单个或多个外显子的缺失(如果最后产生的蛋白终止在倒数第二个外显子50bp内，则需要排除该类情况)，且目标变异所属基因分类为抑癌基因，则直接输出生物学意义为LOF，致癌性为Yes；如果目标变异所属基因最后产生的蛋白终止在基因倒数第二个外显子50bp内，则排除目标变异的生物学意义为LOF，输出生物学意义为VUS，致癌性为Unknown；若目标变异所属基因为原癌基因，则直接输出生物学意义为LOF，致癌性为Unknown；若目标变异所属基因分类为Unknown，则进行其他预测(具体是进入步骤D、E、F、G进行其他预测)；若目标变异均不符合上述情况，变异类型为框内移码突变或stop-loss，则输出分值V3为50。

如果目标变异所属基因最后产生的蛋白终止在倒数第二个外显子50bp内，则排除目标变异的生物学意义为LOF，输出生物学意义为VUS，致癌性为Unknown。

如图9所示为目标变异类型查询结果图。可见，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，不符合该变异类型，无结果输出。

D.确定目标变异所属基因结构域，判断是否为重要结构域，并输出相关信息。

具体的，根据文献记载的基因重要结构域，利用Pfarm数据库确定结构域的染色体坐标区间，供后续变异查询是否落在重要结构域，并输出具体分值V4。

如图10所示为目标变异所属基因结构域分析结果界面图。可见，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，确定该变异位于EGFR重要结构域：PK_Tyr_Ser-Thr，赋予分值V4为30。

E.如果目标变异所属基因不是位于EGFR重要结构域，则赋予分值V4为0。确定目标变异是否为热点变异(基于Cancer Hotspot数据库进行判断)，并输出相关具体分值V5。

如图11所示，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，确定该变异为热点变异，赋予分值V5为50。

F.确定目标变异周围区域变异或者同位点氨基酸变异的报道情况，并输出相关具体分值V6。

如图12所示，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，确定该变异等位基因上已有一个变异被确定是GOF，赋予分值V6为20。

G.确定变异利用软件预测有害性情况，并输出相关信息

具体的，根据11款软件(MetaSVM、SIFT、FATHMM等)预测目标查询变异有害性的结果，分别赋予不同分值V7。

如图13所示，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，确定该变异在11款软件(具体为Polyphen2_HDIV、Polyphen2_HVAR、MutationTaster、SIFT、MetaSVM、MetaLR、MutationAssessor、PROVEAN、FATHMM、CADD、GERP++)中的预测结果为有害，赋予分值V7为55。

分值V1～V7的赋值规则具体表3所示。

表3

如果步骤A～G中没有直接输出目标变异的生物学意义和/或致癌性信息，则根据步骤A～G输出的分值V1～V7，或者分值V1～V7中对应分值的加和，预测目标变异的生物学意义和/或致癌性。

进一步地，根据上述输出的具体值，或者每个分值的V1～V7加和，进行生物学意义和致癌性预测，具体地，根据(V1+V3+V4+V5+V6+V7)值预测生物学意义，根据(V2+V3+V6+V7)值预测致癌性。

进一步地，如果目标变异所属基因为原癌基因，当预测得到的目标变异的生物学意义为Likely GOF时，或者如果目标变异所属基因为抑癌基因，当预测得到的目标变异的生物学意义为Likely LOF时，可不进行致癌性分值求和，直接推断致癌性为Yes。

根据分值预测目标变异的生物学意义的方法具体如下：如果V1+V3+V4+V5+V6+V7≥100，则预测目标变异的生物学意义为GOF或LOF，如果V1+V3+V4+V5+V6+V7＜100，则预测目标变异的生物学意义为Unknown。

根据分值预测目标变异的致癌性的方法具体如下：如果V2+V3+V6+V7≥100，则预测目标变异的致癌性为Yes，如果V2+V3+V6+V7＜100，则预测目标变异的致癌性为No。

对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，确定该变异生物学意义：200分，赋予生物学意义为Likely GOF，同时EGFR属于原癌基因，推断致癌性为，无需根据致癌性(V2+V3+V6+V7)值(195分)以及推测致癌性Yes进行判断。

3.3根据步骤3.2的方法，进一步确定目标变异对于肿瘤的临床指导意义

A.确定目标变异对于临床治疗中的指导意义，结合靶向药物、免疫药物、临床试验。

如图14所示为判级证据界面图，可见，根据该变异在数据库中的匹配关系(根据变异生物学意义和致癌性与临床证据中的标志物影响对应关系)，检索到匹配靶向证据78条，免疫证据3条，临床试验143条。

B.梳理目标变异对应的临床指导意义等级，对证据等级进行排列。

根据上述匹配的结果，确定匹配到的临床证据最高等级为Level1级别。

3.4根据步骤3.3的方法，进一步确定目标变异在非特定癌种(实体瘤)和特定癌种中的变异等级

2017年ASCO/AMP/CAP联合发布的《Standards and Guidelines for theInterpretation and Reporting of Sequence Variants in Cancer》(恶性肿瘤序列变异解释和报告指南，后文简称AMP共识)基于变异是否具有临床指导意义(包含治疗、预后、诊断、预防四个方面)，将变异划分为Tier1(具有强临床指导意义)、Tier2(具有潜在临床指导意义)、Tier3(临床指导意义未明)、Tier4(良性或可能良性)四个等级。本实施例依据该指南判定变异等级。

图3为根据非特定肿瘤类型进行体细胞变异判定方法结果示意图。

图4为根据特定肿瘤类型进行体细胞变异判定方法结果示意图。

图15为变异判级结果界面图。可见，对于目标查询变异：EGFR,c.2573T>G,p.Leu858Arg，以及所处肿瘤：非小细胞肺癌，确定在该癌种中最高证据等级为Level1，推断变异的等级为Tier 1(具有强临床指导意义)。

图16为评论界面图，用户可以在该界面进行评价。

该工具的构建，以网站页面的形式进行查询和结果展示，能够实现线上的查改及评论分析等功能。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种分析体细胞变异的方法，其特征在于，包括：

变异生物学意义和/或致癌性预测步骤，包括根据目标变异在数据库中的信息，输出生物学意义和/或致癌性信息；

变异生物学意义和/或致癌性预测步骤包括如下步骤中的至少一种：

A.根据目标变异在数据库中的信息，输出相关信息，具体地，查询目标变异在至少一种常见人群数据库中的信息，对于在常见人群数据库中高频的变异位点，将该类变异的生物学意义和致癌性分别标记为：生物学意义为Benign或Likely Benign，致癌性为No；如果目标变异在常见人群数据库中的突变频率＜频率阈值，则查询目标变异在至少一种肿瘤变异数据库中的信息，获得目标变异在该类不同数据库中的突变频率以及携带该目标变异的样本数，根据不同的值，分别赋予不同的分值；根据突变频率赋予分值V1，根据携带所述目标变异的样本数赋予分值计数为V2；

B.根据目标变异是否为定义的特殊变异类型，输出相关信息，具体地，确定目标变异是否为定义的特殊变异类型，对特殊变异列表区间内的目标变异，直接输出结果；对于特殊变异列表区间内的目标变异，直接输出如下结果：生物学意义为GOF或LOF，致癌性为Yes；

C.根据变异所属基因分析步骤获得的目标变异所属基因，以及目标变异类型，输出相关信息；若目标变异所属基因为GUS，则直接输出生物学意义为VUS，致癌性为Unkonw；若目标变异所属基因为AG或CG，目标变异类型为如下变异中的至少一种：无义突变、移码突变、经典+/-1 或 2剪接突变位点突变、起始密码子上的突变、拷贝数缺失、单个或多个外显子的缺失的变异，且目标变异所属基因分类为抑癌基因，则直接输出生物学意义为LOF，致癌性为Yes；若目标变异所属基因为原癌基因，则输出生物学意义为LOF，致癌性为Unknown；若目标变异所属基因分类为Unknown，则进入步骤D、E、F、G进行预测；若目标变异均不符合上述情况，目标变异类型为框内移码突变或stop-loss突变，则根据变异类型输出分值V3；

D.根据目标变异所属基因结构域，判断是否为重要结构域，并根据所属基因功能结构域位置输出分值V4；

E.根据目标变异是否为热点变异，输出分值V5；

F.根据目标变异周围区域变异或者同位点氨基酸变异的信息，输出分值V6；

G.使用至少一种软件预测目标变异的有害性，并根据软件预测得到的结果输出分值V7；

变异生物学意义和/或致癌性预测步骤中，如果步骤A~G中没有直接输出目标变异的生物学意义和/或致癌性信息，则根据步骤A~G输出的分值V1~V7，或者分值V1~V7中对应分值的加和，预测目标变异的生物学意义和/或致癌性。

2.如权利要求1所述的方法，其特征在于，步骤A中，所述数据库包括常见人群数据库、肿瘤变异数据库、肿瘤变异知识数据库中的至少一种。

3.如权利要求1所述的方法，其特征在于，所述高频的变异位点包括突变频率≥频率阈值的变异位点。

4.如权利要求1所述的方法，其特征在于，所述频率阈值为1%。

5.如权利要求1所述的方法，其特征在于，步骤A中，查询目标变异在至少一种肿瘤变异知识数据库中记载的信息，将所述目标变异在不同的肿瘤变异知识数据库中记载的信息进行比较，如果目标变异在不同数据库中均有记载，且结论一致，则直接输出目标变异在肿瘤变异知识数据库中的生物学意义和/或致癌性信息，并提供具体的肿瘤变异知识数据库信息。

6.如权利要求1所述的方法，其特征在于，步骤C中，如果目标变异所属基因最后产生的蛋白终止在倒数第二个外显子50bp内，则排除目标变异的生物学意义为LOF，输出生物学意义为VUS，致癌性为Unknown。

7.如权利要求1所述的方法，其特征在于，步骤D中，根据文献记载的基因重要结构域，确定结构域的染色体坐标区间，供后续查询目标变异是否落在重要结构域，并输出具体分值V4。

8.如权利要求7所述的方法，其特征在于，步骤D中，确定结构域的染色体坐标区间所用的数据库包括Pfarm数据库。

9.如权利要求1所述的方法，其特征在于，步骤E中，确定变异是否为热点变异所用的数据库包括Cancer Hotspot数据库。

10.如权利要求1所述的方法，其特征在于，步骤G中，根据不同的软件预测目标变异有害性的结果，分别赋予不同分值V7。

11.如权利要求1所述的方法，其特征在于，步骤A~G中各分值的赋值规则如下：

。

12.如权利要求1所述的方法，其特征在于，变异生物学意义和/或致癌性预测步骤中，根据（V1+V3+V4+V5+V6+V7）值预测目标变异的生物学意义。

13.如权利要求1所述的方法，其特征在于，变异生物学意义和/或致癌性预测步骤中，根据（V2+V3+V6+V7）值预测目标变异的致癌性。

14.如权利要求1所述的方法，其特征在于，根据分值预测目标变异的生物学意义的方法具体如下：如果V1+V3+V4+V5+V6+V7≥阈值，则预测目标变异的生物学意义为GOF或LOF，如果V1+V3+V4+V5+V6+V7＜阈值，则预测目标变异的生物学意义为Unknown。

15.如权利要求1所述的方法，其特征在于，根据分值预测目标变异的致癌性的方法具体如下：如果V2+V3+V6+V7≥阈值，则预测目标变异的致癌性为Yes，如果V2+V3+V6+V7＜阈值，则预测目标变异的致癌性为No。

16.如权利要求1所述的方法，其特征在于，用于根据分值预测目标变异的生物学意义和/或致癌性的阈值为100。

17.如权利要求1所述的方法，其特征在于，变异生物学意义和/或致癌性预测步骤中，如果目标变异所属基因为原癌基因，当预测得到的目标变异的生物学意义为Likely GOF时，或如果目标变异所属基因为抑癌基因，当预测得到的目标变异的生物学意义为LikelyLOF时，不进行致癌性分值求和，直接推断目标变异的致癌性为Yes。

18.如权利要求1所述的方法，其特征在于，还包括临床指导意义判断步骤，包括根据所述变异生物学意义和/或致癌性预测步骤获得的目标变异的生物学意义和/或致癌性信息，预测目标变异对于肿瘤的临床指导意义。

19.如权利要求18所述的方法，其特征在于，临床指导意义判断步骤包括：

1）结合靶向药物、免疫药物、临床试验，预测目标变异对于临床治疗中的指导意义；

2）根据目标变异对应的临床指导意义等级，对证据等级进行排列。

20.如权利要求18或19所述的方法，其特征在于，还包括变异等级判断步骤，包括根据所述临床指导意义判断步骤获得的结果，预测目标变异在非特定癌种和特定癌种中的变异等级。

21.如权利要求20所述的方法，其特征在于，所述非特定癌种包括实体瘤。

22.如权利要求20所述的方法，其特征在于，所述目标变异为体细胞变异。

23.如权利要求20所述的方法，其特征在于，所述目标变异包括SNV、InDel中的至少一种。

24.如权利要求19所述的方法，其特征在于，所述目标变异是由待测样本的测序数据比对到人类参考基因组而得到。

25.一种分析体细胞变异的装置，其特征在于，包括：

变异生物学意义和/或致癌性预测模块，用于根据目标变异在数据库中的信息，输出生物学意义和/或致癌性信息；

变异生物学意义和/或致癌性预测模块用于执行如下步骤中的至少一种：

E.根据目标变异是否为热点变异，输出分值V5；

26.一种分析体细胞变异的装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1~24任意一项所述的方法。

27.一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1~24任意一项所述的方法。