CN114708906B

CN114708906B - 用于预测体细胞变异真假的方法、电子设备和存储介质

Info

Publication number: CN114708906B
Application number: CN202210243842.4A
Authority: CN
Inventors: 董筱微; 柳文进; 车月
Original assignee: Shanghai Zhiben Medical Laboratory Co ltd; Origimed Technology Shanghai Co ltd
Current assignee: Shanghai Zhiben Medical Laboratory Co ltd; Origimed Technology Shanghai Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2023-05-09
Anticipated expiration: 2042-03-11
Also published as: CN114708906A

Abstract

本公开涉及一种用于预测体细胞变异真假的方法、计算设备和存储介质。该方法包括：获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据；获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长；针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和插入缺失变异的特征信息；基于所提取的特征信息，生成预测模型的输入数据；以及基于经由多样本训练的预测模型，提取所述输入数据的特征，以便基于所提取的特征预测体细胞变异的真假。本公开能够自动、快速并准确地判断体细胞变异真假。

Description

用于预测体细胞变异真假的方法、电子设备和存储介质

技术领域

本公开总体上涉及生物信息处理，并且具体地，涉及用于预测预测体细胞变异真假的方法、电子设备和计算机存储介质。

背景技术

对于癌症的发生、演变、治疗来说，体细胞突变是个关键辅助信息。但精确的体细胞变异的检测存在难度。传统的检测体细胞变异的方案，例如包括：针对特定的肿瘤样本的测序数据，利用MuTect，MuSE， VarDict, VarScan2, Strelka2等软件生成关于体细胞变异的检测结果。但是，上述传统的检测体细胞变异的方案（例如，利用一般的软件）的检测结果通常存在一定的假阳性，难以应用于临床应用，需要辅以人工判断以及过滤假阳性检测结果。因此，传统的检测体细胞变异的方案需要消耗大量人力和时间，检测效率低下；另外，由于人工判断结果具有一定的主观性，因此，检测结果不够准确。

综上，传统的检测体细胞变异真假的方案存在的不足之处在于：难以自动、快速并准确地判定体细胞变异真假。

发明内容

本公开提供一种预测体细胞变异真假的方法、电子设备和计算机存储介质，能够自动、快速并准确地判断体细胞变异真假。

根据本公开的第一方面，提供了一种用于预测体细胞变异真假的方法。该方法包括：获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据；获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长；针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息；基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息，生成预测模型的输入数据；以及基于经由多样本训练的预测模型，提取输入数据的特征，以便基于所提取的特征预测体细胞变异的真假，预测模型是基于神经网络模型所构建的。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：存储器，被配置为存储一个或多个计算机程序；以及处理器，耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。

在一些实施例中，肿瘤样本读长包括：支持体细胞变异位点的肿瘤样本支持读长和不支持体细胞变异位点的肿瘤样本不支持读长，对照样本读长包括：支持体细胞变异位点的对照样本支持读长和不支持体细胞变异位点的对照样本不支持读长。

在一些实施例中，基于肿瘤样本的比对结果数据、对照样本的比对结果数据，确定每条读长的起始位置和读长长度；基于每条读长的起始位置、读长长度，确定经过体细胞变异位点所在基因组位置的所有读长；在经过体细胞变异位点所在基因组位置的所有读长中，获取体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长。

在一些实施例中，获取体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长包括：获取体细胞变异位点所在基因组位置前后预定范围内的、关于肿瘤样本的肿瘤样本支持读长和肿瘤样本不支持读长；以及获取体细胞变异位点所在基因组位置前后预定范围内的、关于对照样本的对照样本支持读长和对照样本不支持读长。

在一些实施例中，其中针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息还包括：针对体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长中的每个基因组位置，提取以下各项中的多项：所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量、平均碱基质量、平均比对质量、正链比对上对照样本的读长数量、读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量、比对评分的平均值，完全比对上的读长数量。

在一些实施例中，对比评估数据的平均值包括：最优比对评分的平均值和第二比对评分的平均值。。

在一些实施例中，针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取以下各项中的多项包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置和最优对比评分；针对每条读长，计算读长长度；基于起始位置和所计算的读长长度，确定经过当前基因组位置的读长；获取经过当前基因组位置的读长所对应的最优对比评分，以便计算关于当前基因组位置的最优比对评分的平均值。

在一些实施例中，针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取以下各项中的多项包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置；确认读长是否存在失配序列；响应于确认读长存在失配序列，获取与读长相关联的失配序列的位置信息；计算读长长度；基于起始位置和所计算的读长长度，确定经过当前基因组位置的读长；基于与经过当前基因组位置的读长相关联的失配序列的位置信息，计算读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量。

在一些实施例中，基于测序读长长度，确定预定范围。

在一些实施例中，预测模型是基于包括10个残差块的二分类卷积残差网络所构建的，预定范围为151bp或者76bp。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于实施预测体细胞变异真假的方法的系统的示意图。

图2示出了根据本公开的实施例的用于预测体细胞变异真假的方法的流程图。

图3示出了根据本公开的实施例的用于预测体细胞变异真假的方法的效果示意图。

图4示出了根据本公开的实施例的用于获取肿瘤样本读长和对照样本读长的方法的流程图。

图5示出了根据本公开的实施例的用于计算最优比对评分的平均值的方法的流程图。

图6示出了根据本公开的实施例的用于提取读长包含失配序列的读长数量的方法的流程图。

图7示意性示出了适于用来实现本公开实施例的电子设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文所描述，利用传统的一般的软件检测体细胞变异的结果中通常存在一定的假阳性变异，难以应用于临床应用，需要辅以人工判断以及过滤假阳性检测结果。因此，传统的检测体细胞变异的方案存在的不足之处在于：难以自动、快速并准确地判定体细胞变异的真假。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于预测体细胞变异真假的方案。该方案包括：获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据，并获取经过体细胞变异位点所在基因组位置的肿瘤样本读长以及对照样本读长；提取肿瘤样本读长和对照样本读长中的每个基因组位置上关于A、C、G、T四种碱基和del变异的特征信息，以便生成输入数据。本公开本能够获取体细胞变异位点本身及其周围位置的肿瘤样本读长和对照样本读长中关于体细胞变异的更丰富而全面的特征信息。另外，通过经由预测模型，提取输入数据的特征，以便基于所提取的特征预测体细胞变异的真假；本公开能够基于经训练的预测模型自动地从关于体细胞变异的更丰富而全面的输入信息中更为快速和准确地判断体细胞变异的真假，解决了传统软件需要人工辅助判断体细胞变异真假的问题。因此，本公开能够自动、快速并准确地判断体细胞变异真假。

图1示出了根据本公开的实施例的用于实施预测体细胞变异真假的方法的系统100的示意图。如图1所示，系统100包括：计算设备110、服务器130、测序设备140、网络150。在一些实施例中，计算设备110、服务器130、测序设备140经由网络150进行数据交互。

关于测序设备140，其例如用于针对关于待测对象的肿瘤样本和对照样本进行测序；以及将所生成的肿瘤样本的比对结果数据、对照样本的比对结果数据和关于肿瘤样本的体细胞变异位点的数据发送给计算设备110。在一些实施例中，也可以由服务器130将关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据发送至计算设备110。

关于计算设备110，其例如用于预测体细胞变异真假。具体而言，计算设备110可以获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据；获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长。计算设备110还可以针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息；基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息，生成预测模型的输入数据；以及基于经由多样本训练的预测模型，提取输入数据的特征，以便基于所提取的特征预测体细胞变异的真假。

在一些实施例中，计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包括：比对结果数据和变异位点数据获取单元112、肿瘤样本读长和对照样本读长获取单元114、特征信息提取单元116、输入数据生成单元118、体细胞变异位真假预测单元120。上述比对结果数据和变异位点数据获取单元112、肿瘤样本读长和对照样本读长获取单元114、特征信息提取单元116、输入数据生成单元118、体细胞变异位真假预测单元120可以配置在一个或者多个计算设备110上。

关于比对结果数据和异位点数据获取单元112，其用于获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据。例如，计算设备110的比对结果数据和异位点数据获取单元112可以获取计算设备110本地生成的关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据；或者获取来自其他设备（例如而不限于服务器130）的关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据。

关于肿瘤样本读长和对照样本读长获取单元114，其用于获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长。关于特征信息提取单元116，其用于针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息

关于输入数据生成单元118，其用于基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息，生成预测模型的输入数据。

关于体细胞变异位真假预测单元120，其用于基于经由多样本训练的预测模型，提取输入数据的特征，以便基于所提取的特征预测体细胞变异的真假，预测模型是基于神经网络模型所构建的。

以下将结合图2描述根据本公开的实施例的用于预测体细胞变异真假的方法。图2示出了根据本公开的实施例的用于预测体细胞变异真假的方法200的流程图。应当理解，方法200例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤202处，计算设备110获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据。关于肿瘤样本的比对结果数据，其例如是关于待测对象的肿瘤组织样本的测序数据与参考基因组序列的比对而生成的BAM文件。关于对照样本的比对结果数据，其例如是关于待测对象的正常组织样本的测序数据与参考基因组序列的比对而生成的BAM文件。

关于肿瘤样本的体细胞变异位点的数据，其例如而不限于包括：肿瘤样本的ID、染色体号、变异位点比对到参考基因组的起始位置和/或变异位点比对到参考基因组的终止位置、变异碱基、参考基因组上的碱基。

关于体细胞变异位点，其例如是基于体细胞变异位点的点突变（SNV）和短的插入缺失(insertion-deletion，Indel)变异，其中，Indel代表其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。

在步骤204处，计算设备110获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长。

例如，计算设备110基于肿瘤样本的比对结果数据、对照样本的比对结果数据，确定每条读长的起始位置和读长长度；基于每条读长的起始位置、读长长度，确定经过体细胞变异位点所在基因组位置的所有读长；在经过体细胞变异位点所在基因组位置的所有读长中，获取体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长。

关于肿瘤样本读长，其例如包括：支持体细胞变异位点的肿瘤样本支持读长和不支持体细胞变异位点的肿瘤样本不支持读长。关于对照样本读长，其例如包括：支持体细胞变异位点的对照样本支持读长和不支持体细胞变异位点的对照样本不支持读长。下文将结合图4具体说明用于获取肿瘤样本读长和对照样本读长的方法400，在此，不再赘述。

关于预定范围，其例如是测序读长长度。例如，在一些实施例中，测序读长长度为151bp，体细胞变异位点前后预定范围例如为体细胞变异位点所在基因组位置前后151bp范围内。在一些实施例中，测序读长长度为76bp，体细胞变异位点所在基因组位置前后预定范围例如是体细胞变异位点前后76bp范围内。

在步骤206处，计算设备110针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息。

在一些实施例中，计算设备110针对肿瘤样本支持读长、肿瘤样本不支持读长、对照样本支持读长和对照样本不支持读长这四种读长中的每个读长上的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息（即，ATCG和del 5种特征信息）。

例如，对照样本读长的某个基因组位置上为A碱基。实际测量的肿瘤样本读长中，20%的肿瘤样本读长的对应基因组位置上为T碱基，60%的肿瘤样本读长的对应基因组位置上为A碱基。则20%的肿瘤样本读长为关于以该基因组位置的体细胞变异位点的支持读长，即肿瘤样本支持读长；60%的肿瘤样本读长为关于以该基因组位置为体细胞变异位点的不支持读长，即，肿瘤样本不支持读长。

再例如，如果30%的对照样本读长的对应基因组位置上存在缺失变异，70%的对照样本读长的对应基因组位置上不存在缺失变异。则30%的对照样本读长为关于该基因组位置相关联的缺失变异的支持读长，即，对照样本支持读长。70%的对照样本读长为关于该基因组位置相关联的缺失变异的不支持读长，即，对照样本不支持读长。在一些实施例中，如果肿瘤样本读长的某个基因组位置上存在插入变异类型，则映射为参考基因组该位置存在缺失。相应的，计算设备110可以确定肿瘤样本不支持读长在该基因组位置上存缺失变异，以及肿瘤样本支持读长在该基因组位置上不存在缺失变异。

关于A、C、G、T四种碱基和缺失变异的特征信息，其例如而不限于包括以下各项中的多项：所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量、平均碱基质量、平均比对质量、正链比对上对照样本的读长数量、读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量、比对评分的平均值（对比评估数据的平均值例如包括：最优比对评分的平均值和第二比对评分的平均值），完全比对上的读长数量。

在一些实施例中。关于A、C、G、T四种碱基和缺失变异类型的特征信息包括上述10维度数据中的全部或者部分。例如，计算设备110针对体细胞变异位点所在基因组位置前后151bp范围内的四种读长（即，肿瘤样本支持读长、肿瘤样本不支持读长、对照样本支持读长和对照样本不支持读长）中的每个读长上的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异5种特征信息的10个维度的特征，该特征信息例如是151*5*40的三维特征。

关于提取所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量的方法，其例如包括：基于比对结果数据（例如BAM文件）获取每条读长（reads）比对到对照样本的起始位置；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过体细胞变异位点所在基因组位置；统计总共经过该体细胞变异位点所在基因组位置的reads数量，以便确定所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量。

关于提取平均碱基质量的方法，其例如包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长和read上每个碱基质量；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；统计总共经过当前基因组位置的reads数量，以便提取经过当前基因组位置的reads中该位置的碱基质量；计算关于当前基因组位置的碱基质量的平均值，以便获得关于肿瘤样本读长或对照样本读长中的每个基因组位置的平均碱基质量。

平均比对质量是指：经过该基因位置的reads比对质量的平均值。关于提取平均比对质量的方法，其例如包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长和read比对到参考基因组的比对质量；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；获取所有经过当前基因组位置的reads，以便获取经过当前基因组位置的reads的比对质量，计算比对质量的平均值，以便获得关于当前基因组位置的平均比对质量。

正链比对上对照样本的读长数量是指：经过该基因位置的reads正链的数目。关于提取正链比对上对照样本的读长数量的方法，其例如包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长和read比对到参考基因组的是正链还是负链的信息；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；获取所有经过当前基因组位置的、并且比对到对照样本是正链的读长的数量。

读长左端包含失配序列（clipped）的读长数量指示：经过该基因位置的reads的左端存在clipped的reads数目。应当理解，clipped表示一条read的序列被分开，之所以被分开，是因为read的一部分序列能匹配到对照样本的最优比对位置上，而被分开的那部分不能匹配到对照样本的最优比对序列上，其中，比对不上的序列为clipped。

读长右端包含失配序列（clipped）的读长数量指示：经过该基因位置的reads的右端存在clipped的reads数目。

读长双端包含失配序列（clipped）的读长数量指示：经过该基因位置的reads的双端存在clipped的reads数目。

关于提取读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量的方式，其例如包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置；确认读长是否存在clipped ；如果确定读长存在clipped，则获取clipped的位置信息；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；获取所有经过当前基因组位置的读长，并且统计经过当前基因组位置的读长中clipped在read左端的reads数目、读长中clipped在read右端的reads数目、以及读长中clipped在read右端的reads数目。

关于提取读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量的方法600，下文将结合图6进行说明，在此，不再赘述。

最优比对评分的平均值，即，Alignment score的平均值，或称为“AS平均值”。针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置和最优对比评分；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；获取所有经过当前基因组位置的读长；基于所有经过当前基因组位置的读长的Alignment score和读长的数量，计算关于当前基因组位置的最优比对评分的平均值。

第二比对评分的平均值，即Second alignment score的平均值，或简称为“XS平均值”。关于提取第二比对评分的平均值的方式，其例如包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置和第二比对评分（Second alignmentscore）；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；获取所有经过当前基因组位置的读长；基于所有经过当前基因组位置的读长的Second alignment score和读长的数量，计算关于当前基因组位置的第二比对评分的平均值。

完全比对上的读长数量，即properly aligned reads数量，或者称为“Readmapped in proper pair”的数量。关于提取完全比对上的读长数量的方式，其例如包括：针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置和Readmapped in proper pair信息；计算reads长度，以便基于起始位置和read长度（例如，基于起始位置+read长度）确定read是否经过当前基因组位置；获取所有经过当前基因组位置的读长的Read mapped in proper pair信息，以便获得关于当前基因组位置的完全比对上的读长数量。

在步骤208处，计算设备110基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息，生成预测模型的输入数据。

例如，计算设备110针对经过体细胞变异位点所在对照样本位置周围的151bp中的4种reads（肿瘤样本/对照样本中支持所检测变异的reads，肿瘤样本/对照样本中不支持所检测变异的reads）中的每个基因组位置，生成关于A、C、G、T四种碱基和缺失变异的特征信息，从而合成151x5x40三维的特征，以作为预测模型的输入特征。

在步骤210处，计算设备110基于经由多样本训练的预测模型，提取输入数据的特征，以便基于所提取的特征预测体细胞变异的真假，预测模型是基于神经网络模型所构建的。

关于预测模型，其例如是基于深度学习神经网络模型所构建，例如而不限于是基于CNN模型而构建的。在一些实施例中，预测模型是基于包括10个残差块的二分类卷积残差网络所构建的。本公开通过采用基于包括10个残差块的二分类卷积残差网络所构建的预测模型来生成关于体细胞变异的阳性体细胞变异位点的预测结果，能够更为高效率和可靠地预测关于体细胞变异的真假。

关于预测模型的损失函数，其例如是binary_crossentropy二值交叉熵损失函数。以下结合公式（1）说明预测模型的损失函数：

在上述公式（1）中，代表n个样本的总的损失函数。代表第i个真实样本标签。代表第i个样本的预测输出。例如是 Sigmoid 函数的输出，其表征了当前样本标签为1 的概率。

图3示出了根据本公开的实施例的用于预测体细胞变异真假的方法的效果示意图。图3中示出了用于评估本公开预测模型关于体细胞变异的阳性变异位点的排序能力的AUC（Area Under Curve，即ROC曲线下的面积）。AUC所评估的是随机给定一个关于体细胞变异位点阳性样本和一个阴性样本，模型对阳性样本的预测概率大于模型对于阴性样本预测概率的概率。由图3可知，本公开预测模型的AUC可达0.997。

在上述方案中，通过获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据，并获取经过体细胞变异位点所在基因组位置的肿瘤样本读长以及对照样本读长；提取肿瘤样本读长和对照样本读长中的每个基因组位置上关于A、C、G、T四种碱基和del变异的特征信息，以便生成输入数据。本公开本能够获取体细胞变异位点本身及其周围位置的肿瘤样本读长和对照样本读长中关于体细胞变异的更丰富而全面的特征信息。另外，通过经由预测模型，提取输入数据的特征，以便基于所提取的特征预测体细胞变异的真假；本公开能够基于经训练的预测模型自动地从关于体细胞变异的更丰富而全面的输入信息中更为快速和准确地判断体细胞变异的真假，解决了传统软件需要人工辅助判断体细胞变异真假的问题。因此，本公开能够自动、快速并准确地判断体细胞变异真假。

以下将结合图4描述根据本公开的实施例的用于获取肿瘤样本读长和对照样本读长的方法。图4示出了根据本公开的实施例的用于获取肿瘤样本读长和对照样本读长的方法400的流程图。应当理解，方法400例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤402处，计算设备110获取体细胞变异位点所在基因组位置前后预定范围内的、关于肿瘤样本的肿瘤样本支持读长和肿瘤样本不支持读长。

在步骤404处，计算设备110获取体细胞变异位点所在基因组位置前后预定范围内的、关于对照样本的对照样本支持读长和对照样本不支持读长。

例如，计算设备110获取体细胞变异位点所在基因组位置前后151bp或者76bp范围内的四类读长，该四类读长分别包括：肿瘤样本中支持所检测到的体细胞变异位点的reads、肿瘤样本中不支持所检测到的体细胞变异位点的reads、对照样本中支持所检测到的体细胞变异位点的reads和对照样本中不支持所检测到的体细胞变异位点的reads。

通过采用上述手段，本公开可以获得所检测变异周围的多种reads上的特征信息，因此能够获取用于判断变异真假的更丰富与全面的信息。

以下将结合图5描述根据本公开的实施例的用于计算最优比对评分的平均值的方法。图5示出了根据本公开的实施例的用于计算最优比对评分的平均值的方法500的流程图。应当理解，方法500例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法500还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤502处，计算设备110针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置和最优对比评分。

在步骤504处，计算设备110针对每条读长，计算读长长度。

在步骤506处，计算设备110基于起始位置和所计算的读长长度，确定经过当前基因组位置的读长。

在步骤508处，计算设备110获取经过当前基因组位置的读长所对应的最优对比评分，以便计算关于当前基因组位置的最优比对评分的平均值。

在上述方案中，本公开能够准确地提取经过体细胞变异位点的读长的最优比对评分的综合信息。

以下将结合图6描述根据本公开的实施例的用于提取读长左端、有段、双端包含失配序列的读长数量的方法。图6示出了根据本公开的实施例的用于提取读长包含失配序列的读长数量的方法600的流程图。应当理解，方法600例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法600还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤602处，计算设备110针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长或对照样本读长中的每条读长比对到参考基因组的起始位置。

在步骤604处，计算设备110确认读长是否存在失配序列。如果计算设备110确认读长不存在失配序列，跳转至步骤608处。

在步骤606处，如果计算设备110确认读长存在失配序列，获取与读长相关联的失配序列的位置信息。

在步骤608处，计算设备110计算读长长度。

在步骤610处，计算设备110基于起始位置和所计算的读长长度，确定经过当前基因组位置的读长。

在步骤612处，计算设备110基于与经过当前基因组位置的读长相关联的失配序列的位置信息，计算读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量。

通过采取上述方案，本公开能够快速并准确提取读长双端包含失配序列的读长特征，并将该特征用于体细胞变异真假的判断。

图7示意性示出了适于用来实现本公开实施例的电子设备700的框图。设备700可以是用于实现执行图2、图4至图6所示的方法200、400至600，以及图4所示预测模型300的设备。如图7所示，设备700包括中央处理单元（CPU）701，其可以根据存储在只读存储器（ROM）702中的计算机程序指令或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708，处理单元701执行上文所描述的各个方法和处理，例如执行方法200、400至600。例如，在一些实施例中，方法200、400至600可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU701执行时，可以执行上文描述的方法200、400至600的一个或多个操作。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法200、400至600的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于预测体细胞变异真假的方法，包括：

获取关于待测对象的肿瘤样本的比对结果数据、对照样本的比对结果数据、以及关于肿瘤样本的体细胞变异位点的数据；

获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长；

针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息；

基于所提取的关于A、C、G、T四种碱基和缺失变异的特征信息，生成预测模型的输入数据；以及

基于经由多样本训练的预测模型，提取所述输入数据的特征，以便基于所提取的特征预测体细胞变异的真假，所述预测模型是基于神经网络模型所构建的，

其中针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取关于A、C、G、T四种碱基和缺失变异的特征信息还包括：

针对所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长中的每个基因组位置，提取以下各项中的多项：所测到的关于A、C、G、T四种碱基和缺失变异的碱基数量、平均碱基质量、平均比对质量、正链比对上对照样本的读长数量、读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量、比对评分的平均值，完全比对上的读长数量，

其中针对所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长中的每个基因组位置，提取以下各项中的多项包括：

针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长中的每条读长比对到参考基因组的起始位置和最优对比评分，或获取体细胞变异位点前后预定范围的对照样本读长中的每条读长比对到参考基因组的起始位置和最优对比评分；

针对每条读长，计算读长长度；

基于起始位置和所计算的读长长度，确定经过当前基因组位置的读长；

获取经过当前基因组位置的读长所对应的最优对比评分，以便计算关于当前基因组位置的最优比对评分的平均值。

2.根据权利要求1所述的方法，其中所述肿瘤样本读长包括：支持所述体细胞变异位点的肿瘤样本支持读长和不支持所述体细胞变异位点的肿瘤样本不支持读长，所述对照样本读长包括：支持所述体细胞变异位点的对照样本支持读长和不支持所述体细胞变异位点的对照样本不支持读长。

3.根据权利要求1所述的方法，其中获取经过体细胞变异位点所在基因组位置的、关于肿瘤样本的肿瘤样本读长以及关于对照样本的对照样本读长包括：

基于肿瘤样本的比对结果数据、对照样本的比对结果数据，确定每条读长的起始位置和读长长度；

基于每条读长的起始位置、读长长度，确定经过所述体细胞变异位点所在基因组位置的所有读长；

在经过所述变异位点所在基因组位置的所有读长中，获取所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长。

4.根据权利要求3所述的方法，其中获取所述体细胞变异位点所在基因组位置前后预定范围内的肿瘤样本读长和对照样本读长包括：

获取所述体细胞变异位点所在基因组位置前后预定范围内的、关于肿瘤样本的肿瘤样本支持读长和肿瘤样本不支持读长；以及

获取所述体细胞变异位点所在基因组位置前后预定范围内的、关于对照样本的对照样本支持读长和对照样本不支持读长。

5.根据权利要求1所述的方法，其中对比评估数据的平均值包括：最优比对评分的平均值和第二比对评分的平均值。

6.根据权利要求1所述的方法，其中所述特征信息是三维特征。

7.根据权利要求1所述的方法，其中针对肿瘤样本读长和对照样本读长中的每个基因组位置，提取以下各项中的多项包括：

针对关于肿瘤样本读长和对照样本读长中的每个基因组位置，获取体细胞变异位点前后预定范围的肿瘤样本读长中的每条读长比对到参考基因组的起始位置，或获取体细胞变异位点前后预定范围的对照样本读长中的每条读长比对到参考基因组的起始位置；

确认所述读长是否存在失配序列；

响应于确认所述读长存在失配序列，获取与所述读长相关联的失配序列的位置信息；

计算读长长度；

基于与经过当前基因组位置的读长相关联的失配序列的位置信息，计算读长左端包含失配序列的读长数量、读长右端包含失配序列的读长数量、读长双端包含失配序列的读长数量。

8.根据权利要求1所述的方法，还包括：

基于测序读长长度，确定所述预定范围。

9.根据权利要求1所述的方法，其中所述预测模型是基于包括10个残差块的二分类卷积残差网络所构建的，所述预定范围为151bp或者76bp。

10.一种计算设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行根据权利要求1至9任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被机器执行时实现根据权利要求1至9中任一项所述的方法。