CN117976045A - 一种基于基因突变数据的癌症转移相关基因预测方法 - Google Patents

一种基于基因突变数据的癌症转移相关基因预测方法 Download PDF

Info

Publication number
CN117976045A
CN117976045A CN202410373339.XA CN202410373339A CN117976045A CN 117976045 A CN117976045 A CN 117976045A CN 202410373339 A CN202410373339 A CN 202410373339A CN 117976045 A CN117976045 A CN 117976045A
Authority
CN
China
Prior art keywords
gene
convolution
prediction
mutation data
contribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410373339.XA
Other languages
English (en)
Other versions
CN117976045B (zh
Inventor
刘峻江
周树森
柳婵娟
王庆军
臧睦君
刘通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN202410373339.XA priority Critical patent/CN117976045B/zh
Publication of CN117976045A publication Critical patent/CN117976045A/zh
Application granted granted Critical
Publication of CN117976045B publication Critical patent/CN117976045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生物信息学领域,涉及一种基于基因突变数据的癌症转移相关基因预测方法。使用多种基因的突变数据来预测癌症是否发生转移并计算各个基因对于最终预测结果的贡献度,旨在提高癌症转移相关基因的预测能力。该方法使用了一种新型的基因贡献度计算方法,通过计算各个基因在模型预测过程中对预测结果产生的影响来提取其中的关键基因。该方法包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤,可以根据基因突变数据对癌症是否发生转移进行有效的预测,并根据预测结果推断出与癌症相关的基因。本发明对癌症临床治疗和癌症转移过程的研究具有重要意义。

Description

一种基于基因突变数据的癌症转移相关基因预测方法
技术领域
本发明属于生物信息学领域,涉及一种基于基因突变数据的癌症转移相关基因预测方法。
背景技术
当患者的癌症发生转移后,生存率将会降低,而癌症的转移与患者自身的基因突变相关。通过分析哪些基因突变会导致癌症更容易发生转移,将会为癌症转移的相关研究以及患者的个性化治疗提供帮助。
目前大多数的癌症转移相关基因预测方法是通过高可解释性的方法,这些方法在预测癌症转移的过程中对关键的基因进行提取。但这些方法为了保持高可解释性而降低了对癌症是否转移的预测效果。因此,如何同时拥有较高的癌症转移预测效果和相关基因的提取能力,是当前面临的主要困难。
发明内容
为了克服上述困难,本发明提出了一种基于基因突变数据的癌症转移相关基因预测方法,本方法使用卷积神经网络来预测癌症的转移,并通过计算各类基因对最终预测结果的贡献度来提取相关基因。本方法在提高癌症转移预测效果的同时,可以提取癌症相关基因。
一种基于基因突变数据的癌症转移相关基因预测方法,包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤,其具体步骤如下:
步骤 1、将基因突变数据分为,基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量,将每一个基因的突变数据合并得到基因突变矩阵;
步骤2、构建一个由两个卷积模块和一个全连接层组成的预测模型,以步骤1得到的基因突变矩阵作为输入来预测癌症是否会发生转移;
步骤3、计算每种基因对预测结果的贡献度,贡献度越大的基因与癌症转移越相关。
一种基于基因突变数据的癌症转移相关基因预测方法,步骤1实现过程如下:
将基因突变数据分为基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量,将每一个基因的突变数据合并得到基因突变矩阵。在基因突变矩阵中,每一行都代表一种基因的突变数据,第一列为该行所对应基因是否发生突变,第二列为该行所对应基因的拷贝数增加数,第三列为该行所对应基因的拷贝数减少数。
一种基于基因突变数据的癌症转移相关基因预测方法,步骤2实现过程如下:
使用pytorch框架的nn.Conv2d函数和nn.Linear函数构建两个卷积模块和一个全连接层,两个卷积模块除卷积核数量不同外,其余参数相同。两个卷积模块的输出合并到一起后作为全连接层的输入,全连接层根据卷积模块提取的特征对癌症是否转移进行预测。
一种基于基因突变数据的癌症转移相关基因预测方法,步骤3实现过程如下:
根据预测模型的权重计算出每一种基因对最终预测结果的贡献度,根据基因的贡献度对基因进行降序排序,排名越靠前的基因与癌症转移的相关性越大。
附图说明
图1是一种基于基因突变数据的癌症转移相关基因预测方法流程图。
图2是基因突变数据的预处理流程图。
图3是预测模型流程图。
图4是基因贡献度的计算流程图。
具体实施方式
以下结合附图和实例对本发明进行详细说明。
本发明提出一种基于基因突变数据的癌症转移相关基因预测方法,特别地,用于癌症转移相关基因的预测。
一种基于基因突变数据的癌症转移相关基因预测方法,图1是一种基于基因突变数据的癌症转移相关基因预测方法流程图,包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤,其具体实施方式如下:
步骤1:基因突变数据的预处理,图 2为基因突变数据的预处理流程图,包括以下内容:
将基因突变数据分为,基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量,其中基因是否发生突变用0或1表示,0代表该基因未发生突变,1表示该基因发生突变。如果一个基因的拷贝数增加了10,则将该基因的拷贝数增加量设为10,拷贝数减少量设为0。如果一个基因的拷贝数减少了10,则将该基因的拷贝数增加量设为0,拷贝数减少量设为10。对所有的相关基因数据均做此处理,得到各个基因的突变特征,将所有的突变特征合并到一起得到基因突变矩阵,该矩阵的每一行都表示一种基因的突变特征,最终矩阵的大小为基因数×3。
步骤2:预测模型的构建,图3为预测模型流程图,包括以下内容:
使用pytorch框架的nn.Conv1d函数构建两个卷积模块,这两个卷积模块都由卷积层、激活函数、归一化函数组成。两个卷积层的卷积核大小都为3,用于提取每一个基因的突变特征。两个卷积层的输入通道数都为基因数。第一个卷积层的卷积核数量为2000,第二个卷积层的卷积核数量为1900,通过使用大量的卷积核可以在保证特征被充分提取的前提下,减少卷积层的数量,简化基因贡献度的计算过程。以步骤1中的基因突变矩阵作为输入,分别输入到两个卷积模块中进行特征提取。使用pytorch框架的nn.Linear函构建一个全连接层,该全连接层的输入维度为3900,输出维度为2。将两个卷积模块的输出拼接后输入到全连接层中进行分类。全连接层的输出分为两个维度,第一个维度为癌症不发生转移即原发性癌症,第二个维度为癌症会发生转移即转移性癌症。
步骤3:基因贡献度的计算,图4为基因贡献度的计算流程图,包括以下内容:
预测结果是将卷积中提取的特征乘以全连接层的权重得到的。对预测结果进行拆分,可以得到每个卷积特征对不同分类结果的权重,由此可以计算出每个卷积特征对预测结果的贡献,如公式1、2所示:
(1)
(2)
其中表示第f个卷积特征对预测结果的贡献,表示第f个卷积特征,/>表示转移性前列腺癌预测结果中第f个卷积在全连接层中的权重,/>则根据xy改变正负号,每个卷积特征对应一个卷积核,每个卷积特征都是将每个通道的卷积结果累积到对应的卷积核下的结果,如公式3所示:
(3)
其中表示第i个基因的突变数据,/>表示第f个卷积中第i个通道的卷积核,因此每个卷积特征都可以拆分为卷积中每个通道提取到的特征,每个通道提取到的特征都对应一种基因数据,从通道中提取的特征是将基因的特征乘以卷积核的结果,因此可以计算出每个基因对每个卷积特征的贡献,如公式4所示:
(4)
其中表示第i个基因对第f个卷积特征的贡献,将各基因对各卷积特征的贡献乘以各卷积特征对预测结果的贡献,即可得到各基因对预测结果的贡献,且基因的贡献越大,在预测过程中越重要,计算基因贡献度的过程如公式5所示:
(5)
其中,表示第i个基因的贡献度,计算每一个基因的贡献度,贡献度越大的基因对于癌症的转移就越相关。
将本发明所提出方法应用到对癌症是否发生转移的预测时,在转移性前列腺癌数据集上测试得到的AUC为0.961,优于P-NET、MOMA在本数据集上的表现,其中P-NET的AUC为0.930,MOMA的AUC为0.942。本发明能在保证较高预测效果的前提下,提取相关的基因,因此性能高于其它现有方法。
最优模型参数如下表所示。
表1 最优模型参数
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (2)

1.一种基于基因突变数据的癌症转移相关基因预测方法,其特征在于,使用了一种新型的基因突变数据预处理方式和基因贡献度计算方法,通过计算各个基因在模型预测过程中对预测结果产生的影响来提取其中的关键基因,包括基因突变数据的预处理、预测模型的构建、基因贡献度的计算三个步骤,其具体步骤如下:
步骤 1、一种基于基因突变数据的癌症转移相关基因预测方法,步骤1实现过程如下:
将基因突变数据分为基因是否发生突变、基因拷贝数增加量、基因拷贝数减少量,将每一个基因的突变数据合并得到基因突变矩阵,在基因突变矩阵中,每一行都代表一种基因的突变数据,第一列为该行所对应基因是否发生突变,第二列为该行所对应基因的拷贝数增加数,第三列为该行所对应基因的拷贝数减少数;
步骤2、一种基于基因突变数据的癌症转移相关基因预测方法,步骤2实现过程如下:
使用pytorch框架的nn.Conv2d函数和nn.Linear函数构建两个卷积模块和一个全连接层,两个卷积模块除卷积核数量不同外,其余参数相同,两个卷积模块的输出合并到一起后作为全连接层的输入,全连接层根据卷积模块提取的特征对癌症是否转移进行预测;
步骤3、一种基于基因突变数据的癌症转移相关基因预测方法,步骤3实现过程如下:
根据预测模型的权重来计算出每一种基因对最终预测结果的贡献度,根据基因的贡献度对基因进行降序排序,排名越靠前的基因与癌症转移的相关性越大。
2.根据权利要求1所述的一种基于基因突变数据的癌症转移相关基因预测方法,其特征在于,根据预测模型的权重来计算出每一种基因对最终预测结果的贡献度,基因贡献度的计算的实现过程如下:
预测结果是将卷积中提取的特征乘以全连接层的权重得到的,对预测结果进行拆分,可以得到每个卷积特征对不同分类结果的权重,由此可以计算出每个卷积特征对预测结果的贡献,如公式1、2所示:
(1)
(2)
其中表示第f个卷积特征对预测结果的贡献,/>表示第f个卷积特征,/>表示转移性前列腺癌预测结果中第f个卷积在全连接层中的权重,/>则根据xy改变正负号,每个卷积特征对应一个卷积核,每个卷积特征都是将每个通道的卷积结果累积到对应的卷积核下的结果,如公式3所示:
(3)
其中表示第i个基因的突变数据,/>表示第f个卷积中第i个通道的卷积核,因此每个卷积特征都可以拆分为卷积中每个通道提取到的特征,每个通道提取到的特征都对应一种基因数据,从通道中提取的特征是将基因的特征乘以卷积核的结果,因此可以计算出每个基因对每个卷积特征的贡献,如公式4所示:
(4)
其中表示第i个基因对第f个卷积特征的贡献,将各基因对各卷积特征的贡献乘以各卷积特征对预测结果的贡献,即可得到各基因对预测结果的贡献,且基因的贡献越大,在预测过程中越重要,计算基因贡献度的过程如公式5所示:
(5)
其中,表示第i个基因的贡献度,计算每一个基因的贡献度,贡献度越大的基因对于癌症的转移就越相关。
CN202410373339.XA 2024-03-29 2024-03-29 一种基于基因突变数据的癌症转移相关基因预测方法 Active CN117976045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410373339.XA CN117976045B (zh) 2024-03-29 2024-03-29 一种基于基因突变数据的癌症转移相关基因预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410373339.XA CN117976045B (zh) 2024-03-29 2024-03-29 一种基于基因突变数据的癌症转移相关基因预测方法

Publications (2)

Publication Number Publication Date
CN117976045A true CN117976045A (zh) 2024-05-03
CN117976045B CN117976045B (zh) 2024-06-14

Family

ID=90862988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410373339.XA Active CN117976045B (zh) 2024-03-29 2024-03-29 一种基于基因突变数据的癌症转移相关基因预测方法

Country Status (1)

Country Link
CN (1) CN117976045B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170017284A (ko) * 2015-08-06 2017-02-15 광주과학기술원 부분 공분산 선택 기반의 암 유발 유전자의 식별방법
KR20200074555A (ko) * 2018-12-17 2020-06-25 연세대학교 산학협력단 암의 진단을 위한 정보를 제공하는 방법
KR20200111941A (ko) * 2019-03-20 2020-10-05 인천대학교 산학협력단 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법
CN111753925A (zh) * 2020-07-02 2020-10-09 广东技术师范大学 一种多模型融合医学图像分类方法及设备
US20210043275A1 (en) * 2018-02-27 2021-02-11 Cornell University Ultra-sensitive detection of circulating tumor dna through genome-wide integration
US20210090694A1 (en) * 2019-09-19 2021-03-25 Tempus Labs Data based cancer research and treatment systems and methods
CN115274136A (zh) * 2022-08-26 2022-11-01 上海交通大学 整合多组学与必需基因的肿瘤细胞系药物响应预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170017284A (ko) * 2015-08-06 2017-02-15 광주과학기술원 부분 공분산 선택 기반의 암 유발 유전자의 식별방법
US20210043275A1 (en) * 2018-02-27 2021-02-11 Cornell University Ultra-sensitive detection of circulating tumor dna through genome-wide integration
KR20200074555A (ko) * 2018-12-17 2020-06-25 연세대학교 산학협력단 암의 진단을 위한 정보를 제공하는 방법
KR20200111941A (ko) * 2019-03-20 2020-10-05 인천대학교 산학협력단 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법
US20210090694A1 (en) * 2019-09-19 2021-03-25 Tempus Labs Data based cancer research and treatment systems and methods
CN111753925A (zh) * 2020-07-02 2020-10-09 广东技术师范大学 一种多模型融合医学图像分类方法及设备
CN115274136A (zh) * 2022-08-26 2022-11-01 上海交通大学 整合多组学与必需基因的肿瘤细胞系药物响应预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANTONIO COLAPRICO ETAL.: "Interpreting pathways to discover cancer driver genes with Moonlight", 《NATURE COMMUNICATIONS》, vol. 69, 31 December 2020 (2020-12-31) *
邝浩发等: "基于共表达网络挖掘不同前列腺特异抗原水平下的前列腺癌发展相关基因", 《蛇志》, vol. 30, no. 2, 31 December 2018 (2018-12-31) *

Also Published As

Publication number Publication date
CN117976045B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN107577924B (zh) 一种基于深度学习的长链非编码rna亚细胞位置预测方法
Suo et al. Application of clustering analysis in brain gene data based on deep learning
CN115985503B (zh) 基于集成学习的癌症预测系统
CN113486922A (zh) 基于栈式自编码器的数据融合优化方法及其系统
CN116564421A (zh) 一种急性髓系白血病患者铜死亡相关预后模型构建方法
CN103793600A (zh) 结合独立分量分析和线性判别分析的癌症预测方法
CN115358448A (zh) 乡村资源环境综合承载力测算模型
CN117976045B (zh) 一种基于基因突变数据的癌症转移相关基因预测方法
Dass et al. A proficient two stage model for identification of promising gene subset and accurate cancer classification
Liu et al. Multi-modal fusion network with intra-and inter-modality attention for prognosis prediction in breast cancer
CN113870951A (zh) 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统
Khani et al. Phase diagram and ridge logistic regression in stable gene selection
Chen et al. ncDENSE: a novel computational method based on a deep learning framework for non-coding RNAs family prediction
CN114141306B (zh) 基于基因相互作用模式优化图表示的远处转移识别方法
CN115691680A (zh) 基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用
CN113657419A (zh) 基于动态k近邻代表点的密度峰值聚类算法
Ji et al. A data dimensionality reduction method based on mRMR and genetic algorithm for high-dimensional small sample data
Cai et al. Application and research progress of machine learning in Bioinformatics
CN115083519B (zh) 一种基于多来源基因数据库的基因相关特征融合预测方法
Mukherjee et al. A theoretical analysis of the selection of differentially expressed genes
CN111553071B (zh) 一种基于随机嵌入辅助模型的高维多目标演化优化方法
Shen et al. A Regularized Cox Hierarchical Model for Incorporating Annotation Information in Predictive Omic Studies
Boratyn et al. Incorporation of biological knowledge into distance for clustering genes
Bazzoli et al. Classification using LS-PLS with logistic regression based on both clinical and gene expression variables
Babu et al. IMPROVED FEATURE SET EXTRACTION FROM DOCUMENTS USING MODIFIED BAG OF WORDS.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant