CN117976045A

CN117976045A - 一种基于基因突变数据的癌症转移相关基因预测方法

Info

Publication number: CN117976045A
Application number: CN202410373339.XA
Authority: CN
Inventors: 刘峻江; 周树森; 柳婵娟; 王庆军; 臧睦君; 刘通
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-05-03
Anticipated expiration: 2044-03-29
Also published as: CN117976045B

Abstract

本发明属于生物信息学领域，涉及一种基于基因突变数据的癌症转移相关基因预测方法。使用多种基因的突变数据来预测癌症是否发生转移并计算各个基因对于最终预测结果的贡献度，旨在提高癌症转移相关基因的预测能力。该方法使用了一种新型的基因贡献度计算方法，通过计算各个基因在模型预测过程中对预测结果产生的影响来提取其中的关键基因。该方法包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤，可以根据基因突变数据对癌症是否发生转移进行有效的预测，并根据预测结果推断出与癌症相关的基因。本发明对癌症临床治疗和癌症转移过程的研究具有重要意义。

Description

一种基于基因突变数据的癌症转移相关基因预测方法

技术领域

本发明属于生物信息学领域，涉及一种基于基因突变数据的癌症转移相关基因预测方法。

背景技术

当患者的癌症发生转移后，生存率将会降低，而癌症的转移与患者自身的基因突变相关。通过分析哪些基因突变会导致癌症更容易发生转移，将会为癌症转移的相关研究以及患者的个性化治疗提供帮助。

目前大多数的癌症转移相关基因预测方法是通过高可解释性的方法，这些方法在预测癌症转移的过程中对关键的基因进行提取。但这些方法为了保持高可解释性而降低了对癌症是否转移的预测效果。因此，如何同时拥有较高的癌症转移预测效果和相关基因的提取能力，是当前面临的主要困难。

发明内容

为了克服上述困难，本发明提出了一种基于基因突变数据的癌症转移相关基因预测方法，本方法使用卷积神经网络来预测癌症的转移，并通过计算各类基因对最终预测结果的贡献度来提取相关基因。本方法在提高癌症转移预测效果的同时，可以提取癌症相关基因。

一种基于基因突变数据的癌症转移相关基因预测方法，包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤，其具体步骤如下：

步骤 1、将基因突变数据分为，基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量，将每一个基因的突变数据合并得到基因突变矩阵；

步骤2、构建一个由两个卷积模块和一个全连接层组成的预测模型，以步骤1得到的基因突变矩阵作为输入来预测癌症是否会发生转移；

步骤3、计算每种基因对预测结果的贡献度，贡献度越大的基因与癌症转移越相关。

一种基于基因突变数据的癌症转移相关基因预测方法，步骤1实现过程如下：

将基因突变数据分为基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量，将每一个基因的突变数据合并得到基因突变矩阵。在基因突变矩阵中，每一行都代表一种基因的突变数据，第一列为该行所对应基因是否发生突变，第二列为该行所对应基因的拷贝数增加数，第三列为该行所对应基因的拷贝数减少数。

一种基于基因突变数据的癌症转移相关基因预测方法，步骤2实现过程如下：

使用pytorch框架的nn.Conv2d函数和nn.Linear函数构建两个卷积模块和一个全连接层，两个卷积模块除卷积核数量不同外，其余参数相同。两个卷积模块的输出合并到一起后作为全连接层的输入，全连接层根据卷积模块提取的特征对癌症是否转移进行预测。

一种基于基因突变数据的癌症转移相关基因预测方法，步骤3实现过程如下：

根据预测模型的权重计算出每一种基因对最终预测结果的贡献度，根据基因的贡献度对基因进行降序排序，排名越靠前的基因与癌症转移的相关性越大。

附图说明

图1是一种基于基因突变数据的癌症转移相关基因预测方法流程图。

图2是基因突变数据的预处理流程图。

图3是预测模型流程图。

图4是基因贡献度的计算流程图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明提出一种基于基因突变数据的癌症转移相关基因预测方法，特别地，用于癌症转移相关基因的预测。

一种基于基因突变数据的癌症转移相关基因预测方法，图1是一种基于基因突变数据的癌症转移相关基因预测方法流程图，包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤，其具体实施方式如下：

步骤1：基因突变数据的预处理，图 2为基因突变数据的预处理流程图，包括以下内容：

将基因突变数据分为，基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量，其中基因是否发生突变用0或1表示，0代表该基因未发生突变，1表示该基因发生突变。如果一个基因的拷贝数增加了10，则将该基因的拷贝数增加量设为10，拷贝数减少量设为0。如果一个基因的拷贝数减少了10，则将该基因的拷贝数增加量设为0，拷贝数减少量设为10。对所有的相关基因数据均做此处理，得到各个基因的突变特征，将所有的突变特征合并到一起得到基因突变矩阵，该矩阵的每一行都表示一种基因的突变特征，最终矩阵的大小为基因数×3。

步骤2：预测模型的构建，图3为预测模型流程图，包括以下内容：

使用pytorch框架的nn.Conv1d函数构建两个卷积模块，这两个卷积模块都由卷积层、激活函数、归一化函数组成。两个卷积层的卷积核大小都为3，用于提取每一个基因的突变特征。两个卷积层的输入通道数都为基因数。第一个卷积层的卷积核数量为2000，第二个卷积层的卷积核数量为1900，通过使用大量的卷积核可以在保证特征被充分提取的前提下，减少卷积层的数量，简化基因贡献度的计算过程。以步骤1中的基因突变矩阵作为输入，分别输入到两个卷积模块中进行特征提取。使用pytorch框架的nn.Linear函构建一个全连接层，该全连接层的输入维度为3900，输出维度为2。将两个卷积模块的输出拼接后输入到全连接层中进行分类。全连接层的输出分为两个维度，第一个维度为癌症不发生转移即原发性癌症，第二个维度为癌症会发生转移即转移性癌症。

步骤3：基因贡献度的计算，图4为基因贡献度的计算流程图，包括以下内容：

预测结果是将卷积中提取的特征乘以全连接层的权重得到的。对预测结果进行拆分，可以得到每个卷积特征对不同分类结果的权重，由此可以计算出每个卷积特征对预测结果的贡献，如公式1、2所示：

（1）

（2）

其中表示第f个卷积特征对预测结果的贡献，表示第f个卷积特征，/>表示转移性前列腺癌预测结果中第f个卷积在全连接层中的权重，/>则根据x，y改变正负号，每个卷积特征对应一个卷积核，每个卷积特征都是将每个通道的卷积结果累积到对应的卷积核下的结果，如公式3所示：

（3）

其中表示第i个基因的突变数据，/>表示第f个卷积中第i个通道的卷积核，因此每个卷积特征都可以拆分为卷积中每个通道提取到的特征，每个通道提取到的特征都对应一种基因数据，从通道中提取的特征是将基因的特征乘以卷积核的结果，因此可以计算出每个基因对每个卷积特征的贡献，如公式4所示：

（4）

其中表示第i个基因对第f个卷积特征的贡献，将各基因对各卷积特征的贡献乘以各卷积特征对预测结果的贡献，即可得到各基因对预测结果的贡献，且基因的贡献越大，在预测过程中越重要，计算基因贡献度的过程如公式5所示：

（5）

其中，表示第i个基因的贡献度，计算每一个基因的贡献度，贡献度越大的基因对于癌症的转移就越相关。

将本发明所提出方法应用到对癌症是否发生转移的预测时，在转移性前列腺癌数据集上测试得到的AUC为0.961，优于P-NET、MOMA在本数据集上的表现，其中P-NET的AUC为0.930，MOMA的AUC为0.942。本发明能在保证较高预测效果的前提下，提取相关的基因，因此性能高于其它现有方法。

最优模型参数如下表所示。

表1 最优模型参数

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于基因突变数据的癌症转移相关基因预测方法，其特征在于，使用了一种新型的基因突变数据预处理方式和基因贡献度计算方法，通过计算各个基因在模型预测过程中对预测结果产生的影响来提取其中的关键基因，包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤，其具体步骤如下：

步骤 1、一种基于基因突变数据的癌症转移相关基因预测方法，步骤1实现过程如下：

将基因突变数据分为基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量，将每一个基因的突变数据合并得到基因突变矩阵，在基因突变矩阵中，每一行都代表一种基因的突变数据，第一列为该行所对应基因是否发生突变，第二列为该行所对应基因的拷贝数增加数，第三列为该行所对应基因的拷贝数减少数；

步骤2、一种基于基因突变数据的癌症转移相关基因预测方法，步骤2实现过程如下：

使用pytorch框架的nn.Conv2d函数和nn.Linear函数构建两个卷积模块和一个全连接层，两个卷积模块除卷积核数量不同外，其余参数相同，两个卷积模块的输出合并到一起后作为全连接层的输入，全连接层根据卷积模块提取的特征对癌症是否转移进行预测；

步骤3、一种基于基因突变数据的癌症转移相关基因预测方法，步骤3实现过程如下：

根据预测模型的权重来计算出每一种基因对最终预测结果的贡献度，根据基因的贡献度对基因进行降序排序，排名越靠前的基因与癌症转移的相关性越大。

2.根据权利要求1所述的一种基于基因突变数据的癌症转移相关基因预测方法，其特征在于，根据预测模型的权重来计算出每一种基因对最终预测结果的贡献度，基因贡献度的计算的实现过程如下：

预测结果是将卷积中提取的特征乘以全连接层的权重得到的，对预测结果进行拆分，可以得到每个卷积特征对不同分类结果的权重，由此可以计算出每个卷积特征对预测结果的贡献，如公式1、2所示：

（1）

（2）

其中表示第f个卷积特征对预测结果的贡献，/>表示第f个卷积特征，/>表示转移性前列腺癌预测结果中第f个卷积在全连接层中的权重，/>则根据x，y改变正负号，每个卷积特征对应一个卷积核，每个卷积特征都是将每个通道的卷积结果累积到对应的卷积核下的结果，如公式3所示：

（3）

（4）

（5）