CN116030884B

CN116030884B - 基于分段标注的肿瘤免疫靶点确定方法

Info

Publication number: CN116030884B
Application number: CN202211095883.XA
Authority: CN
Inventors: 袁红; 陈俊; 郭凌敏; 李春; 杨华丽; 金佳丽
Original assignee: Hangzhou Meisai Biomedical Technology Co ltd
Current assignee: Hangzhou Meisai Biomedical Technology Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-08-22
Anticipated expiration: 2042-09-08
Also published as: CN116030884A

Abstract

本申请公开了一种基于分段标注的肿瘤免疫靶点确定方法，其通过基于自然语义理解的人工智能模型，将基因序列看作为文本序列，通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率，以确定基因序列中的肿瘤免疫靶点。

Description

基于分段标注的肿瘤免疫靶点确定方法

技术领域

本申请涉及计算生物领域领域，且更为具体地，涉及一种基于分段标注的肿瘤免疫靶点确定方法。

技术背景

近年来，随着抗体制备等相关技术的成熟，免疫肿瘤（immuno-oncology, I-O）治疗发展迅速，已经成为继手术、放疗、化疗、靶向治疗后癌症的另一有效治疗手段。I-O治疗的目标是启动或重启患者的癌症-肿瘤循环，放大免疫效应，但不造成无限制的自身免疫应答。最有效的I-O治疗方案可能是选择性针对每例患者的限速步骤进行治疗。

在对患者进行治疗时，前提条件是在基因层面确定肿瘤免疫靶点，也就是，在分子层面确定细胞的基因序列中的肿瘤免疫靶点。传统的方法是通过大量的临床试验来进行肿瘤免疫靶点确定，但这种方法不仅耗时耗力，而且会耗费巨量的经济成本，一般消费者无法承受。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展为肿瘤免疫靶点确定提供了新的解决思路和方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于分段标注的肿瘤免疫靶点确定方法，其通过基于自然语义理解的人工智能模型，将基因序列看作为文本序列，通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率，以确定基因序列中的肿瘤免疫靶点。

根据本申请的一个方面，提供了一种基于分段标注的肿瘤免疫靶点确定方法，其包括：

获取待确定肿瘤免疫靶点的基因序列；

将所述基因序列划分为多个分段以获得多个基因读段数据；

将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量；

分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量；

计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵；

将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵；

将所述多个校正后基因读段特征向量排列为基因读段特征矩阵；

将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵；

将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量；以及

将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量，包括：分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码，以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列；以及，使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

在上述基于分段标注的肿瘤免疫靶点确定方法中，所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量，包括：以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量；其中，所述公式为：

其中，表示所述多个基因读段特征向量中各个基因读段特征向量，/>和/>分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差，且/>是所述多个基因读段特征向量中各个基因读段特征向量的长度，/>是以2为底的对数，且/>是权重超参数。

在上述基于分段标注的肿瘤免疫靶点确定方法中，所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵，包括：以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性；其中，所述公式为：

其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量，/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值，/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性；以及，将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。

在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵，包括：使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵；以及，对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵；其中，所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量，包括：将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，包括：使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果，其中，所述公式为：

其中，到/>为权重矩阵，/>到/>为偏置向量，/>为所述基因语义拓扑特征向量。

根据本申请的另一方面，提供了一种基于分段标注的肿瘤免疫靶点确定系统，包括：

基因序列获取单元，用于获取待确定肿瘤免疫靶点的基因序列；

分段单元，用于将所述基因序列划分为多个分段以获得多个基因读段数据；

全局特征提取单元，用于将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量；

特征值校正单元，用于分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量；

余弦相似性矩阵生成单元，用于计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵；

余弦相似性特征矩阵生成单元，用于将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵；

节点排列单元，用于将所述多个校正后基因读段特征向量排列为基因读段特征矩阵；

基因语义拓扑特征矩阵生成单元，用于将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵；

基因语义拓扑特征向量拆分单元，用于将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量；以及

肿瘤免疫靶点分类单元，用于将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

在上述基于分段标注的肿瘤免疫靶点确定系统中，所述全局特征提取单元，进一步用于：分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码，以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列；以及，使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

在上述基于分段标注的肿瘤免疫靶点确定系统中，所述特征值校正单元，进一步用于：以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量；其中，所述公式为：

在上述基于分段标注的肿瘤免疫靶点确定系统中，所述余弦相似性矩阵生成单元，进一步用于：以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性；其中，所述公式为：

在上述基于分段标注的肿瘤免疫靶点确定系统中，所述余弦相似性特征矩阵生成单元，进一步用于：使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵；以及，对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵；其中，所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

在上述基于分段标注的肿瘤免疫靶点确定系统中，所述基因语义拓扑特征向量拆分单元，进一步用于：将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

在上述基于分段标注的肿瘤免疫靶点确定系统中，所述肿瘤免疫靶点分类单元，进一步用于：使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果，其中，所述公式为：

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于分段标注的肿瘤免疫靶点确定系统方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于分段标注的肿瘤免疫靶点确定系统方法。

与现有技术相比，本申请提供的基于分段标注的肿瘤免疫靶点确定方法，其通过基于自然语义理解的人工智能模型，将基因序列看作为文本序列，通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率，以确定基因序列中的肿瘤免疫靶点。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的流程图。

图2图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的架构示意图。

图3图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法中将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量的流程图。

图4图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统的框图。

图5图示了根据本申请实施例的基因敲除EL4细胞的流式细胞术检测结果图。

图6图示了根据本申请实施例的CRISPR-Cas9技术敲除Y基因的剪切位点示意图。

图7图示了根据本申请实施例的MC38细胞皮下移植瘤肿瘤生长曲线和生存曲线。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

应可以理解，在对患者进行治疗时，需要在基因层面确定肿瘤免疫靶点，而现有的方法大部分是通过临床试验来获取，这样不仅费时费力，而且效果较差。因此，在本申请的技术方案中，期望通过基于自然语义理解的人工智能模型，将基因序列看作为文本序列，通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率，以确定基因序列中的肿瘤免疫靶点。

具体地，在本申请的技术方案中，首先，获取待确定肿瘤免疫靶点的基因序列。然后，将所述基因序列划分为多个分段以得到多个基因读段数据。这样，再利用深度神经网络模型对于分段标注的每个基因读段数据进行特征挖掘，以判断其是否属于肿瘤免疫靶点。

应可以理解，由于基因是由很多的碱基组成的，碱基就是位点，在DNA中是ATCG这四个碱基。因此在所述多个基因读段数据中，存在有多个ATCG碱基构成的ATCG碱基序列，因此，在本申请的技术方案中，进一步利用独热编码来对于所述多个基因读段数据中的ATCG碱基序列进行处理，以将所述多个基因读段数据中的ATCG碱基序列转化为输入向量后，通过基于转换器的上下文编码器中进行上下文编码，进而提取出所述多个基因读段数据的基于全局的高维语义特征，以得到多个基因读段特征向量。

特别地，在本申请的技术方案中，这里，对于得到的每个所述基因读段特征向量，由于其后续需要计算特征向量之间的余弦相似性，并通过卷积神经网络和图神经网络的特征提取和特征编码，因此如果在基因读段特征向量内存在由于上下文编码的随机扰动导致的特殊分布，将可能后续过程中通过模型参数的前向传播而放大，影响最终的分类准确性。

因此，优选地对每个基因读段特征向量，例如记为进行自适应实例的信息统计归一化，具体为：

和/>是特征集合/>的均值和方差，且/>是所述基因读段特征向量/>的长度，/>是以2为底的对数，且/>是权重超参数。

这里，所述自适应实例的信息统计归一化将每个基因读段特征向量的特征值集合作为自适应实例，利用其统计特征的本质内在先验信息来对单个特征值进行动态生成式的信息归一化，同时以特征集合的归一化模长信息作为偏置来作为集合分布域内的不变性描述，这样，就实现了尽可能屏蔽特殊实例的扰动分布的特征优化，以提高后续分类的准确性。

然后，就可以将所述多个校正后基因读段特征向量排列为基因读段特征矩阵，以整合优化后的所述各个基因读段数据的全局性高维语义特征。

进一步地，考虑到所述待确定肿瘤免疫靶点的基因序列中的多个基因读段数据之间具有着隐含的关联性特征，因此计算每两个所述校正后基因读段特征向量之间的余弦相似性作为其语义相似性构成矩阵，以得到用于表示所述多个基因读段数据的全局语义相似性关系拓扑的余弦相似性矩阵。然后，再通过在隐含关联特征提取方面具有优异表现的作为特征提取器的卷积神经网络对于所述余弦相似性矩阵进行特征提取，以提取出所述多个基因读段数据的全局语义相似性关系拓扑的隐含关联特征，从而得到余弦相似性特征矩阵。

这样，以所述校正后基因读段特征向量作为节点，以两个特征向量之间的余弦相似性作为节点与节点之间的关联，利用图神经网络来融合所述余弦相似性特征矩阵与所述基因读段特征矩阵中的特征信息以获得基因语义拓扑特征矩阵。这样，通过图神经网络能够从全局语义相似性拓扑的维度来对每个所述基因读段数据的特征向量进行编码，以提高分类器的分类结果的准确性。

进一步地，再将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量。并将每个所述基因语义拓扑特征向量分别通过分类器以获得用于表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值的分类结果。这样，就能够利用基于分段的全局语义相似性拓扑来进行编码的方式，可以与具体某个分段的序列表征无关地进行分段标注，从而避免了对于基因序列的分段长度和分段位置的敏感性，提高了肿瘤免疫靶点确定的准确性。

基于此，本申请提出了一种基于分段标注的肿瘤免疫靶点确定方法，其包括：获取待确定肿瘤免疫靶点的基因序列；将所述基因序列划分为多个分段以获得多个基因读段数据；将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量；分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量；计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵；将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵；将所述多个校正后基因读段特征向量排列为基因读段特征矩阵；将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵；将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量；以及，将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的流程图。如图1所示，根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法，包括：S110，获取待确定肿瘤免疫靶点的基因序列；S120，将所述基因序列划分为多个分段以获得多个基因读段数据；S130，将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量；S140，分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量；S150，计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵；S160，将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵；S170，将所述多个校正后基因读段特征向量排列为基因读段特征矩阵；S180，将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵；S190，将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量；以及，S200，将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

图2图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的架构示意图。如图2所示，在该网络架构中，首先获取待确定肿瘤免疫靶点的基因序列。接着，将所述基因序列划分为多个分段以获得多个基因读段数据。然后，将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量。进而，分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量。接着，计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵。然后，将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵。进而，将所述多个校正后基因读段特征向量排列为基因读段特征矩阵。接着，将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵。然后，将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量。进而，将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

在步骤S110中，获取待确定肿瘤免疫靶点的基因序列。应可以理解，在对患者进行治疗时，需要在基因层面确定肿瘤免疫靶点，而现有的方法大部分是通过临床试验来获取，这样不仅费时费力，而且效果较差。因此，在本申请的技术方案中，期望通过基于自然语义理解的人工智能模型，将基因序列看作为文本序列，通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率，以确定基因序列中的肿瘤免疫靶点。具体地，在本申请的技术方案中，首先，获取待确定肿瘤免疫靶点的基因序列。其中，所述基因序列可以是来自基因组序列数据库。

在步骤S120中，将所述基因序列划分为多个分段以获得多个基因读段数据。应可以理解，由于基因是由很多的碱基组成的，碱基就是位点，在DNA中是ATCG这四个碱基。因此在所述多个基因读段数据中，存在有多个ATCG碱基构成的ATCG碱基序列。

在步骤S130中，将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量。由于在所述多个基因读段数据中，存在有多个ATCG碱基构成的ATCG碱基序列，在本申请的技术方案中，进一步利用独热编码来对于所述多个基因读段数据中的ATCG碱基序列进行处理，以将所述多个基因读段数据中的ATCG碱基序列转化为输入向量后，通过基于转换器的上下文编码器中进行上下文编码，进而提取出所述多个基因读段数据的基于全局的高维语义特征，以得到多个基因读段特征向量。

图3图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法中将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量的流程图。如图3所示，在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量，包括：S210，分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码，以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列；以及，S220，使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

在步骤S140中，分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量。特别地，在本申请的技术方案中，这里，对于得到的每个所述基因读段特征向量，由于其后续需要计算特征向量之间的余弦相似性，并通过卷积神经网络和图神经网络的特征提取和特征编码，因此如果在基因读段特征向量内存在由于上下文编码的随机扰动导致的特殊分布，将可能后续过程中通过模型参数的前向传播而放大，影响最终的分类准确性。因此，优选地对每个基因读段特征向量。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定方法中，所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量，包括：以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量；其中，所述公式为：

在步骤S150中，计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵。进一步地，考虑到所述待确定肿瘤免疫靶点的基因序列中的多个基因读段数据之间具有着隐含的关联性特征，因此计算每两个所述校正后基因读段特征向量之间的余弦相似性作为其语义相似性构成矩阵，以得到用于表示所述多个基因读段数据的全局语义相似性关系拓扑的余弦相似性矩阵。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定方法中，所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵，包括：以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性；其中，所述公式为：

在步骤S160中，将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵。也就是，通过在隐含关联特征提取方面具有优异表现的作为特征提取器的卷积神经网络对于所述余弦相似性矩阵进行特征提取，以提取出所述多个基因读段数据的全局语义相似性关系拓扑的隐含关联特征，从而得到余弦相似性特征矩阵。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵，包括：使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵；以及，对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵；其中，所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

在步骤S170中，将所述多个校正后基因读段特征向量排列为基因读段特征矩阵。也就是，将所述多个校正后基因读段特征向量排列为基因读段特征矩阵，以整合优化后的所述各个基因读段数据的全局性高维语义特征。

在步骤S180中，将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵。这样，以所述校正后基因读段特征向量作为节点，以两个特征向量之间的余弦相似性作为节点与节点之间的关联，利用图神经网络来融合所述余弦相似性特征矩阵与所述基因读段特征矩阵中的特征信息以获得基因语义拓扑特征矩阵。这样，通过图神经网络能够从全局语义相似性拓扑的维度来对每个所述基因读段数据的特征向量进行编码，以提高分类器的分类结果的准确性。

在步骤S190中，将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量。由于后续通过分类器要计算所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值，因此将它们拆分。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量，包括：将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

在步骤S200中，将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。这样，利用基于分段的全局语义相似性拓扑来进行编码，可以与具体某个分段的序列表征无关地进行分段标注，从而避免了对于基因序列的分段长度和分段位置的敏感性，提高了肿瘤免疫靶点确定的准确性。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定方法中，所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，包括：使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果，其中，所述公式为：

综上，基于本申请实施例的基于分段标注的肿瘤免疫靶点确定方法被阐明，其通过基于自然语义理解的人工智能模型，将基因序列看作为文本序列，通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率，以确定基因序列中的肿瘤免疫靶点。

示例性系统

图4图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统的框图。如图4所示，根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统100，包括：基因序列获取单元110，用于获取待确定肿瘤免疫靶点的基因序列；分段单元120，用于将所述基因序列划分为多个分段以获得多个基因读段数据；全局特征提取单元130，用于将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量；特征值校正单元140，用于分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量；余弦相似性矩阵生成单元150，用于计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵；余弦相似性特征矩阵生成单元160，用于将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵；节点排列单元170，用于将所述多个校正后基因读段特征向量排列为基因读段特征矩阵；基因语义拓扑特征矩阵生成单元180，用于将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵；基因语义拓扑特征向量拆分单元190，用于将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量；以及，肿瘤免疫靶点分类单元200，用于将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定系统100中，所述全局特征提取单元130，进一步用于：分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码，以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列；以及，使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定系统100中，所述特征值校正单元140，进一步用于：以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量；其中，所述公式为：

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定系统100中，所述余弦相似性矩阵生成单元150，进一步用于：以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性；其中，所述公式为：

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定系统100中，所述余弦相似性特征矩阵生成单元160，进一步用于：使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵；以及，对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵；其中，所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定系统100中，所述基因语义拓扑特征向量拆分单元190，进一步用于：将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

在一个示例中，在上述基于分段标注的肿瘤免疫靶点确定系统100中，所述肿瘤免疫靶点分类单元200，进一步用于：使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果，其中，所述公式为：

这里，本领域技术人员可以理解，上述基于分段标注的肿瘤免疫靶点确定系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的基于分段标注的肿瘤免疫靶点确定方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统 100可以实现在各种终端设备中，例如用于基于分段标注的肿瘤免疫靶点确定的服务器等。在一个示例中，根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统 100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于分段标注的肿瘤免疫靶点确定系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于分段标注的肿瘤免疫靶点确定系统 100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于分段标注的肿瘤免疫靶点确定系统 100与该终端设备也可以是分立的设备，并且该基于分段标注的肿瘤免疫靶点确定系统 100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性应用

在基于如上所述的基于分段标注的肿瘤免疫靶点确定方法确定肿瘤免疫靶点后，进行肿瘤细胞靶点敲除

所述肿瘤细胞靶点敲的过程，包括如下步骤：

sgRNA设计，根据CRISPR Design在线工具，在目的基因（X）靠前外显子区域设计并挑选出3个综合得分最高的guideRNA（gRNA）序列，然后在设计好的gRNA序列两端加上Bpil酶切位点，合成gRNA序列；

载体构建，用ddH2O将合成的gRNA序列稀释成100μM的浓度，然后经聚合酶链反应（PCR）仪退火形成双链，退火产物使用ddH2O进行250倍稀释后，通过PCR将其连接到pX458载体上；

质粒转化和提取，将构建好的质粒转化到大肠杆菌DH5α感受态细胞中，并挑选单克隆进行测序鉴定，将鉴定的含有目的基因gRNA的单克隆菌株接种到新鲜含有氨苄抗生素的LB培养基中进行扩增，然后使用无内毒素质粒大提试剂盒（TIANGEN）进行质粒提取，质粒溶液经0.22 μm滤器过滤后，使用NanoDrop测定浓度，然后保存用于后续细胞转染实验；以及

细胞转染敲除目的基因，将上述质粒经脂质体转染试剂Lipofectamine 3000（Invitrogen）转染肿瘤细胞，如：小鼠结肠癌细胞MC38，小鼠肝细胞癌细胞Hepa1-6，小鼠T细胞淋巴瘤细胞EL4，小鼠肺癌细胞LLC等。转染细胞培养36-48小时后，通过流式细胞仪分选目的细胞，且在扩大培养后提取细胞的基因组进行测序，同时结合流式细胞术检测或WB检测，挑选目的基因有效敲除的细胞株进行细胞冻存，用于后续体内外实验研究。图5图示了根据本申请实施例的基因敲除EL4细胞的流式细胞术检测结果图。

进一步地，在所述基于分段标注的肿瘤免疫靶点确定方法确定肿瘤免疫靶点后，还可以进行CRISPR基因敲除小鼠构建。

所述CRISPR基因敲除小鼠构建的过程，包括如下步骤：

首先针对靶基因Y的不同位点设计并构建相应的一对gRNA质粒（如图6所示），体外转录为RNA后，与Cas9 mRNA一起通过原核显微注射获得测序鉴定为阳性的F0代阳性小鼠，然后将其与野生型小鼠进行交配，获得PCR和测序鉴定为目的基因敲除阳性的F1代杂合子小鼠。此后，选择来自同一只F0代小鼠，基因型一致的F1代小鼠，达到性成熟后进行互配，可获得F2代小鼠。对获得的F2代小鼠进行PCR及测序鉴定，理论上，F2代小鼠中25%为纯合子，50%为杂合子，25%为野生小鼠。得到的纯合子小鼠为目的基因Y完全敲除小鼠，筛选出来后用于繁殖和动物实验。

根据本申请的技术方案，一种基于分段标注的肿瘤免疫靶点确定方法的应用可以是动物肿瘤模型建立。所述动物肿瘤模型建立，包括：

1、皮下移植瘤模型：选取6-8周龄野生型C57BL/6小鼠（WT）和Y基因敲除C57BL/6小鼠（Ygene-/-），通过皮下接种2×106 MC38 cells（结肠癌）、1×106 Hepa1-6 cells（肝癌）和1×106 LLC cells（肺癌）等建立多种实体瘤皮下移植小鼠模型。并从第6天开始，每隔3天测量皮下肿瘤的长径（a mm）、短径（bmm）和高度（c mm），通过abc/2公式计算肿瘤的大小（mm3），监测肿瘤进展。此外，当满足小鼠自然死亡、肿瘤大小超过2000 mm3或体重减轻达20-25%任一条件时，视小鼠死亡，记录实验过程中每只小鼠的生存情况。图7图示了根据本申请实施例的MC38细胞皮下移植瘤肿瘤生长曲线和生存曲线。

2、转移瘤模型：选取6-8周龄野生型C57BL/6小鼠（WT）和Y基因敲除C57BL/6小鼠（Ygene-/-），通过尾静脉注射1×106 MC38-Luciferase cells或1×106 EL4-Luciferasecells，每周通过IVIS活体成像系统监测肿瘤在体内的转移情况，并记录小鼠的生存情况。

3、化学诱导原发结直肠癌模型：选取6周龄野生型C57BL/6小鼠（WT）和Y基因敲除C57BL/6小鼠（Ygene-/-），在第0天腹腔注射8.5 mg/kg AOM，同时在第2、5和8周饲喂含有2.5% DSS的特殊饮用水，动态监测小鼠的体重变化情况和生存情况，直至第70天，杀鼠解剖小鼠的结直肠，观察肿瘤的发生发展情况，并留取组织样本用于后续病理、分子和免疫等分析。

4、高压尾静脉肝癌模型：选取6-8周龄、体重20 g左右的野生型C57BL/6小鼠（WT）和Y基因敲除C57BL/6小鼠（Ygene-/-），按照每2 ml生理盐水中溶解20 μg pT3-EF1α-HA-myr-AKT1、20 μg pT2-Caggs-NRasV12和1.6 μg pCM/SB三种质粒的计量配制质粒混合物，然后根据每克小鼠注射100 μl质粒混合物的计量（体重小于20g的小鼠按照20 g的计算），通过高压尾静脉注射的方式注射质粒混合物。此后，每周对小鼠进行称重，并记录其生存情况。

Claims

1.一种基于分段标注的肿瘤免疫靶点确定方法，其特征在于，包括：

获取待确定肿瘤免疫靶点的基因序列；

将所述基因序列划分为多个分段以获得多个基因读段数据；

将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值；

其中，所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量，包括：

以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量；

其中，所述公式为：

2.根据权利要求1所述的基于分段标注的肿瘤免疫靶点确定方法，其特征在于，所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量，包括：

分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码，以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列；以及

使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

3.根据权利要求2所述的基于分段标注的肿瘤免疫靶点确定方法，其特征在于，所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵，包括：

以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性；

其中，所述公式为：

其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量，/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值，/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性；以及

将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。

4.根据权利要求3所述的基于分段标注的肿瘤免疫靶点确定方法，其特征在于，所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵，包括：

使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行：

对所述输入数据进行卷积处理以得到卷积特征图；

对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵；以及

对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵；

其中，深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

5.根据权利要求4所述的基于分段标注的肿瘤免疫靶点确定方法，其特征在于，所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量，包括：

将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

6.根据权利要求5所述的基于分段标注的肿瘤免疫靶点确定方法，其特征在于，所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果，包括：使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果，其中，所述公式为：