CN114255886B - 基于多组学相似度引导的药物敏感性预测方法和装置 - Google Patents

基于多组学相似度引导的药物敏感性预测方法和装置 Download PDF

Info

Publication number
CN114255886B
CN114255886B CN202210184839.XA CN202210184839A CN114255886B CN 114255886 B CN114255886 B CN 114255886B CN 202210184839 A CN202210184839 A CN 202210184839A CN 114255886 B CN114255886 B CN 114255886B
Authority
CN
China
Prior art keywords
cell line
drug
similarity
feature extraction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210184839.XA
Other languages
English (en)
Other versions
CN114255886A (zh
Inventor
吴健
冯芮苇
谢雨峰
郭越
曹戟
何俏军
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210184839.XA priority Critical patent/CN114255886B/zh
Publication of CN114255886A publication Critical patent/CN114255886A/zh
Application granted granted Critical
Publication of CN114255886B publication Critical patent/CN114255886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Toxicology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多组学相似度引导的药物敏感性预测方法和装置,包括:基于细胞系的多组学数据构建的细胞系图能够充分整合个体细胞系的基因组学数据、转录组学数据、蛋白组学数据、代谢组学数据这四类多组学信息,相比现有的细胞系表征方式,能够容纳更多种类的组学信息,同时也充分考虑细胞系在多组学层面其表达的产物之间的潜在联系;在此基础上,基于细胞系图进行药物敏感性预测的药物敏感性预测模型,采用多组学相似度引导方式,在高效提取个体特异性的多组学信息的同时,能够充分考虑个体之间的多组学相似性,能够提供巨大的生物学先验知识,从而实现更加精准的药物敏感性预测。

Description

基于多组学相似度引导的药物敏感性预测方法和装置
技术领域
本发明属于药物敏感性检测与评价技术领域,具体涉及一种基于多组学相似度引导的药物敏感性预测方法和装置。
背景技术
药物敏感性预测是癌症精准治疗中的一个巨大挑战。不少研究者在这一问题上做出了很多努力和贡献,尝试运用个体的基因组学数据对患者进行个性化诊断和用药推荐。然而,现有研究仍然面临一个重要的问题,如何充分利用每个个体复杂多样的多种组学数据,充分利用个体之间相似性和差异性来实现更高效的特征提取,从而能够实现更加精准的药物药效预测和用药推荐。
随着人们对基因组学研究的深入,一些公开数据集开始被越来越广地应用于生物信息学研究,例如抗癌药物敏感性基因组学数据集(Cancer Cell Line Encyclopedia ,CCLE)和(Genomics of Drug Sensitivity in Cancer,GDSC),癌症基因组图谱(TheCancer Genome Atlas,TCGA)等数据集,以及研究人类基因/蛋白之间相互作用的蛋白组学数据集(STRING database)、研究人类信息通路的代谢组学数据集(GSEA dataset)等。
以上数据集仍然在不断地扩充和发展,为研究疾病的发生、发展、预后和转归等提供了丰富的样本数据基础。然而,现有的数据很少能够被充分地利用,从而解决药物敏感性预测和药物推荐的问题。例如,现有的方法只使用CCLE和GDSC数据库中提供的个体基因组学数据,通过对基因组学的分析来实现半抑制浓度的预测,然而,这样的方法往往忽略掉个体基因在其他组学层面上可能存在的联系。因此,这样的方法虽然取得了一定的进展,但是对于药物敏感性的预测准确率仍然不够。
同时,现有的方法很少考虑药物敏感性预测过程中存在的先验知识,即相似的细胞系往往可能对同一种药物产生相似的反应。因此,目前尚未有比较好的模型能够充分考虑个体的多组学信息之间的相似性,从而对药物敏感性(是否敏感)进行更加准确的预测。
专利文献CN113782089A公开了一种基于多组学数据融合的药物敏感性预测方法和装置,通过细胞系图表征模块整合个体细胞系的基因组学数据、蛋白组学数据、代谢组学数据这三类多组学信息得到细胞系多边图,该细胞系多边图充分考虑细胞系的多组学信息,以及基因在多组学层面其表达的产物之间的潜在联系,然后通过细胞系图特征提取模块对细胞系多边图进行特征提取,以充分提取细胞系多边图中的节点特征和边特征作为细胞系特征,最后采用药物敏感性预测模块根据细胞系特征和基于药物特征提取模块提取的药物特征预测药物的半抑制浓度,该方式虽然整合了个体的多组学信息,但是忽略了个体之间相似性可能产生相似药物敏感性反应这一先验知识,可能会导致预测不准确。
发明内容
鉴于上述,本发明的目的是提供一种基于多组学相似度引导的药物敏感性预测方法和装置,以解决因为忽略个体多组学数据及个体之间相似性可能产生相似药物敏感性反应这一先验知识而导致药物敏感性预测准确性差的问题。
为实现上述发明目的,本发明提供以下技术方案:
第一方面,实施例提供的基于多组学相似度引导的药物敏感性预测方法,包括以下步骤:
获取细胞系的多组学数据、药物数据、细胞系对药物的敏感性数据,将细胞系的多组学数据表征成细胞系图,将药物数据表征成药物分子图;
构建药物敏感性预测模型,包括第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块,其中,第一细胞系特征提取模块和第二细胞系特征提取模块结构相同,均包括多个依次连接的特征提取单元,用于分别对来自于同癌种的细胞系图进行特征提取,以得到第一细胞系特征和第二细胞系特征;相似度引导模块包含多个相似度引导单元,每个相似度引导单元用于对第一细胞系特征提取模块和第二细胞系特征提取模块的相同位置的特征提取单元输出的两个特征图进行相似度计算,得到的相似度矩阵作为权重对输出的两个特征图分别进行加权以实现对特征提取的多组学相似度引导,加权的特征图输入到下一个特征提取单元以再次进行特征提取;药物特征提取模块用于提取输入药物分子图的药物特征;药物敏感性预测模块用于对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果,其中,第一细胞系特征与药物特征拼接得到第一拼接特征,第二细胞系特征与药物特征拼接得到第二拼接特征;
以细胞系图、药物分子图作为样本数据,以细胞系对药物的敏感性数据作为真值标签,对药物敏感性预测模型进行参数优化;
利用参数优化后的药物敏感性预测模型对待预测细胞系进行药物敏感性预测,同时采用与待预测细胞系属于同癌种的细胞系作多组学相似度引导,以得到待预测细胞系在多组学相似度引导下的药物敏感性预测结果。
在一个实施例中,特征提取单元的个数为N,则相似度引导单元的个数为N-1,N-1个相似度引导单元分别对第一细胞系特征提取模块和第二细胞系特征提取模块按照数据流方向的前N-1个特征提取单元输出的特征图进行相似度计算。
在一个实施例中,每个相似度引导单元在计算两个特征图的相似度时,采用余弦相似度、皮尔逊相关系数、欧几里德距离、斯皮尔曼相关系数、杰卡德相似系数或曼哈顿距离来衡量两个特征图的相似度。
在一个实施例中,每个特征提取单元采用1个图同构网络结构,每个图同构网络结构包括卷积层、批归一化层以及ReLU激活层,输入的特征图经过卷积层进行图卷积操作后,再经过批归一化层以及ReLU激活层进行特征平滑后输出。
在一个实施例中,药物特征提取模块采用多层图卷积神经网络,利用多层图卷积神经网络提取药物分子的药物特征。
在一个实施例中,药物敏感性预测模块采用全连接神经网络,利用全连接神经网络对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果。
在一个实施例中,对药物敏感性预测模型进行参数优化时,采用的总损失函数包括第一损失函数、第二损失函数,其中,第一损失函数为第一细胞系对药物分子的敏感性预测结果与真值标签的交叉熵损失,第二损失函数为第二细胞系对药物分子的敏感性预测结果与真值标签的交叉熵损失,第一损失函数与第二损失函数的加权求和结果为总损失函数。
在一个实施例中,所述细胞系的多组学数据包括基因组学数据、转录组学数据、蛋白组学数据、代谢组学数据;所述将细胞系的多组学数据表征成细胞系图,包括:
将基因作为细胞系图的节点,并将基因组学数据包含的基因表达量、基因突变情况和拷贝数变异情况作为节点特征,同时将转录组学数据包含的基因转录组表达量作为节点特征,以根据基因表达量确定的基因之间的相关性、根据蛋白组学数据确定的基因之间的蛋白相互作用、根据代谢组学数据确定的基因之间的代谢通路信息构建节点之间的连边;
所述将药物数据表征成药物分子图,包括:采用开源库RDKit将药物数据编码成药物分子图。
在一个实施例中,在构建节点之间的连边时,计算两个基因的基因表达量之间的皮尔森相关系数以确定基因之间的相关性,当皮尔森相关系数大于设定阈值时,构建两个基因对应节点之间的连边;
根据蛋白组学数据获取两个基因之间的相互作用作为蛋白相互作用,在存在蛋白相互作用的两个基因对应节点之间构建连边,同时将相互作用的交互分数作为连边权重;
根据代谢组学数据获取基因之间的代谢通路信息,当多种基因同时出现在某一条代谢通路时,对这些基因对应节点之间构建一条超边作为连边。
第二方面,实施例提供的基于多组学相似度引导的药物敏感性预测装置,包括:
获取并表征单元,用于获取细胞系的多组学数据、药物数据、细胞系对药物的敏感性数据,将细胞系的多组学数据表征成细胞系图,将药物数据表征成药物分子图;
模型构建单元,用于构建药物敏感性预测模型,包括第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块,其中,第一细胞系特征提取模块和第二细胞系特征提取模块结构相同,均包括多个依次连接的特征提取单元,用于分别对来自于同癌种的细胞系图进行特征提取,以得到第一细胞系特征和第二细胞系特征;相似度引导模块包含多个相似度引导单元,每个相似度引导单元用于对第一细胞系特征提取模块和第二细胞系特征提取模块的相同位置的特征提取单元输出的两个特征图进行相似度计算,得到的相似度矩阵作为权重对输出的两个特征图分别进行加权以实现对对特征提取的多组学相似度引导,加权的特征图输入到下一个特征提取单元以再次进行特征提取;药物特征提取模块用于提取输入药物分子图的药物特征;药物敏感性预测模块用于对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果,其中,第一细胞系特征与药物特征拼接得到第一拼接特征,第二细胞系特征与药物特征拼接得到第二拼接特征;
参数优化单元,用于以细胞系图、药物分子图作为样本数据,以细胞系对药物的敏感性数据作为真值标签,对药物敏感性预测模型进行参数优化;
预测单元,用于利用参数优化后的药物敏感性预测模型对待预测细胞系进行药物敏感性预测,同时采用与待预测细胞系属于同癌种的细胞系作多组学相似度引导,以得到待预测细胞系在多组学相似度引导下的药物敏感性预测结果。
第三方面,实施例提供的基于多组学相似度引导的药物敏感性预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述基于多组学相似度引导的药物敏感性预测方法的步骤。
与现有技术相比,本发明具有的有益效果至少包括:
基于细胞系的多组学数据构建的细胞系图能够充分整合个体细胞系的基因组学数据、转录组学数据、蛋白组学数据、代谢组学数据这四类多组学信息,相比现有的细胞系表征方式,能够容纳更多种类的组学信息,同时也充分考虑细胞系在多组学层面其表达的产物之间的潜在联系;在此基础上,基于细胞系图进行药物敏感性预测的药物敏感性预测模型,采用多组学相似度引导方式,在高效提取个体特异性的多组学信息的同时,能够充分考虑个体之间的多组学相似性,能够提供巨大的生物学先验知识,从而实现更加精准的药物敏感性预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于多组学相似度引导的药物敏感性预测方法的流程图;
图2是实施例提供的药物敏感性预测模型的结构示意图;
图3是实施例提供的多组学相似度引导原理图;
图4是实施例提供的基于多组学相似度引导的药物敏感性预测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了解决因为忽略个体多组学数据及个体之间相似性可能产生相似药物敏感性反应这一先验知识而导致药物敏感性预测准确性差的问题。实施例提供了一种基于多组学相似度引导的药物敏感性预测方法和装置,通过同癌种的细胞系特征提取过程中引入多组学相似度引导,进而引入巨大的生物学先验知识,从而实现更加精准的药物敏感性预测。
图1是实施例提供的基于多组学相似度引导的药物敏感性预测方法的流程图。如图1所示,实施例提供的基于多组学相似度引导的药物敏感性预测方法,包括以下步骤:
110,获取细胞系的多组学数据、药物数据、细胞系对药物的敏感性数据,并构建训练样本。
实施例中,获取来自于同癌种的不同细胞系的多组学数据,其中,多组学数据包括基因组学数据、转录组学数据、蛋白组学数据、代谢组学数据。这些多组学数据可以来自多组学数据集,例如:TCGA数据集记载细胞系的基因组学数据和转录组学数据,其中基因组学数据包括基因表达量、拷贝数变异情况和基因突变情况,转录组学数据包括基因的转录组表达量;STRING数据集记录人类基因/蛋白之间相互作用,GSEA数据集记录人类代谢组学信息通路的代谢组学信息,同时,TCGA数据集记载细胞系对某个药物的敏感/不敏感。
在获得这些多组学数据后,将多组学数据表征成药物敏感性预测模型可以处理的多边形图结构形式,即表征成细胞系图。具体表征过程包括:
将基因作为细胞系图的节点,并将基因组学数据包含的基因表达量、基因突变情况和拷贝数变异情况作为节点特征,同时将转录组学数据包含的基因转录组表达量作为节点特征,以根据基因表达量确定的基因之间的相关性、根据蛋白组学数据确定的基因之间的蛋白相互作用、根据代谢组学数据确定的基因之间的代谢通路信息构建节点之间的连边。
具体地,在构建节点之间的连边时,计算两个基因的基因表达量之间的皮尔森相关系数以确定基因之间的相关性,当皮尔森相关系数大于设定阈值时,构建两个基因对应节点之间的连边;根据蛋白组学数据获取两个基因之间的相互作用作为蛋白相互作用,在存在蛋白相互作用的两个基因对应节点之间构建连边,同时将相互作用的交互分数作为连边权重;根据代谢组学数据获取基因之间的代谢通路信息,当多种基因同时出现在某一条代谢通路时,对这些基因对应节点之间构建一条超边作为连边。
实施例中,获取的药物数据同样来自于多组学数据集,由于药物数据一般以名称的形式存在于多组学数据集,药物名称并不利于药物敏感性预测模型处理,因此,需要将药物数据表征成分子图,其中的原子表征为图的节点,原子间的键表征为边。实施例中,为了方便提取药物分子图,还需要从数据库(例如PubChem数据库)中获取药物分子式作为药物研究对象,或者采用开源库RDKit将药物数据编码成药物分子图。
实施例中,提取基于细胞系的多组学数据构建的细胞系图、药物分子图作为训练样本,并以细胞系对药物的敏感性数据(敏感/不敏感)作为训练样本的真值标签。
120,构建药物敏感性预测模型。
图2是实施例提供的药物敏感性预测模型的结构示意图。如图2所示,实施例提供的药物敏感性预测模型包括第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块。
第一细胞系特征提取模块和第二细胞系特征提取模块结构相同,同时接收来自于同癌种的细胞系图A和细胞系图B,并对细胞系图A和细胞系图B分别进行特征提取,以得到细胞系图A对应的第一细胞系特征,细胞系图B对应的第二细胞系特征。
实施例中,第一细胞系特征提取模块和第二细胞系特征提取模块均包括多个依次连接的特征提取单元,用于分阶段特征提取,在每阶段特征提取时,引入基于上一阶段特征提取输出的特征图通过相似度计算引入的多组学相似度引导,以使特征提取过程中充分考虑个体之间的多组学相似性,即引入巨大的生物学先验知识。
在一个可能的实施方式中,每个特征提取单元采用1个图同构网络(GraphIsomorphism Network,GIN)结构,每个图同构网络结构包括卷积层(GINConv)、批归一化层(BN)以及ReLU激活层(ReLU)。每一层图同构网络结构都包含一个图卷积操作,对细胞系图对应的多种节点特征、多种边组成的矩阵进行卷积运算,再通过一个BN、ReLU操作进行特征平滑。
输入的特征图经过多层图卷积神经网络进行图卷积操作后,再经过BN层以及ReLU层进行特征平滑后输出。
相似度引导模块用于计算相同结构位置的特征提取单元输出的特征之间的相似度,并为特征图添加相似度,从而实现对下一次特征提取进行引导。图3是实施例提供的多组学相似度引导原理图。如图3所示,实施例提供的相似度引导模块包含多个相似度引导单元,每个相似度引导单元用于对第一细胞系特征提取模块和第二细胞系特征提取模块的相同位置的特征提取单元输出的两个特征图L A L B 进行相似度计算,得到的相似度矩阵作为权重对输出的两个特征图L A L B 分别进行加权以实现对特征提取的多组学相似度引导,加权的特征图L A ’和L B ’分别输入到下一个特征提取单元以再次进行特征提取。
实施例中,每个相似度引导单元在计算两个特征图L A L B 的相似度时,可以采用余弦相似度(Cosine Similarity)、皮尔逊相关系数(Pearson Correlation Coefficient)、欧几里德距离(Euclidean Distance)、斯皮尔曼相关系数(Spearman CorrelationCoefficient)、杰卡德相似系数(Jaccard similarity coefficient)或曼哈顿距离(Manhattan Distance)来衡量两个特征图的相似度。优选地,采用余弦相似度(CosineSimilarity)计算两个特征图L A L B 的相似度。
实施例中,采用点乘的方式将相似度矩阵作为权重对两个特征图L A L B 分别进行加权以实现对特征提取的多组学相似度引导。
在一个可能的实施方式中,特征提取单元的个数为N,则相似度引导单元的个数为N-1,N-1个相似度引导单元分别对第一细胞系特征提取模块和第二细胞系特征提取模块按照数据流方向的前N-1个特征提取单元输出的特征图进行相似度计算。优选地,第一细胞系特征提取模块和第二细胞系特征提取模块均包括4个特征提取单元,相似度引导模块包括3个相似度引导单元。这样,除第一个特征提取单元外的所有特征提取单元的输入特征图均被引入了相似度信息,在进行特征提取时,考虑了个体之间的多组学相似性。
药物特征提取模块用于提取输入药物分子图D的药物特征L D 。实施例中,药物特征提取模块采用基于图同构原理构建的多层图卷积神经网络进行特征提取,其中,图神经网络包含多个GIN结构,每个GIN结构包括卷积层(GINConv)、批归一化层(BN)以及ReLU激活层(ReLU),利用多个GIN结构实现对药物分子图D的药物特征的提取。
药物敏感性预测模块用于预测细胞系对药物分子的敏感性。具体地,细胞系图A对应的第一细胞系特征与药物特征拼接得到第一拼接特征,细胞系图B对应的第二细胞系特征与药物特征拼接得到第二拼接特征,这两个拼接特征输入至药物敏感性预测模块,药物敏感性预测模块对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果。
实施例中,药物敏感性预测模块可以采用全连接神经网络,利用全连接神经网络对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果。
130,利用训练样本对药物敏感性预测模型进行参数优化。
实施例中,以多组学数据对应的细胞系图、药物数据对应的药物分子图作为训练样本,并以细胞系对药物的敏感性数据(敏感/不敏感)作为训练样本的真值标签,对药物敏感性预测模型进行参数优化。参数优化时,采用的总损失函数包括第一损失函数、第二损失函数,其中,第一损失函数为第一细胞系对药物分子的敏感性预测结果y A 与真值标签Y A 的交叉熵损失,第二损失函数为第二细胞系对药物分子的敏感性预测结果y B 与真值标签Y B 的交叉熵损失,第一损失函数与第二损失函数的加权求和结果为总损失函数,利用该总损失函数来优化药物敏感性预测模型的网络参数,即优化第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块的网络参数。
140,利用参数优化的药物敏感性预测模型对待预测细胞系进行药物敏感性预测。
实施例中,利用参数优化后的药物敏感性预测模型对待预测细胞系进行药物敏感性预测,将待预测细胞系C对应的细胞系图输入至药物敏感性预测模型的第一细胞系特征提取模块,并同时将与待预测细胞系属于同癌种的细胞系对应的细胞系图输入至药物敏感性预测模型的第二细胞系特征提取模块,利用两个细胞系特征提取模块进行特征提取,同时利用相似度引导模块计算特征图的相似度并添加到特征图,以对特征提取进行多组学相似度引导,以得到多组学相似度引导下,待预测细胞系C对应的细胞系特征;
被预测药物数据D对应的药物分子图输入至药物特征提取模块,经计算得到预测药物数据的药物特征,该药物特征与待预测细胞系C对应的细胞系特征拼接后输入至药物敏感性预测模块,经计算,得到预测细胞系C对预测药物数据D的药物敏感性预测结果。
实施例中,利用药物敏感性预测模型在胰腺癌的130个细胞系的多组学数据和10种药物上的训练和测试,发现测试集上的预测准确率ACC达到86%,远好于现有的各类模型。
图4是实施例提供的基于多组学相似度引导的药物敏感性预测装置的结构示意图。如图4所示,实施例提供的药物敏感性预测装置400包括:
获取并表征单元410,用于获取细胞系的多组学数据、药物数据、细胞系对药物的敏感性数据,将细胞系的多组学数据表征成细胞系图,将药物数据表征成药物分子图;
模型构建单元420,用于构建药物敏感性预测模型,包括第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块,其中,第一细胞系特征提取模块和第二细胞系特征提取模块结构相同,均包括多个依次连接的特征提取单元,用于分别对来自于同癌种的细胞系图进行特征提取,以得到第一细胞系特征和第二细胞系特征;相似度引导模块包含多个相似度引导单元,每个相似度引导单元用于对第一细胞系特征提取模块和第二细胞系特征提取模块的相同位置的特征提取单元输出的两个特征图进行相似度计算,得到的相似度矩阵作为权重对输出的两个特征图分别进行加权以实现对对特征提取的多组学相似度引导,加权的特征图输入到下一个特征提取单元以再次进行特征提取;药物特征提取模块用于提取输入药物分子图的药物特征;药物敏感性预测模块用于对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果,其中,第一细胞系特征与药物特征拼接得到第一拼接特征,第二细胞系特征与药物特征拼接得到第二拼接特征;
参数优化单元430,用于以细胞系图、药物分子图作为样本数据,以细胞系对药物的敏感性数据作为真值标签,对药物敏感性预测模型进行参数优化;
预测单元440,用于利用参数优化后的药物敏感性预测模型对待预测细胞系进行药物敏感性预测,同时采用与待预测细胞系属于同癌种的细胞系作多组学相似度引导,以得到待预测细胞系在多组学相似度引导下的药物敏感性预测结果。
需要说明的是,上述实施例提供的基于多组学相似度引导的药物敏感性预测装置在进行药物敏感性预测时,应以上述各功能单元的划分进行举例说明,可以根据需要将上述功能分配由不同的功能单元完成,即在终端或服务器的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于多组学相似度引导的药物敏感性预测装置与基于多组学相似度引导的药物敏感性预测方法实施例属于同一构思,其具体实现过程详见基于多组学相似度引导的药物敏感性预测方法实施例,这里不再赘述。
实施例还提供了一种基于多组学相似度引导的药物敏感性预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述基于多组学相似度引导的药物敏感性预测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时, 可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多组学相似度引导的药物敏感性预测方法,其特征在于,包括以下步骤:
获取细胞系的多组学数据、药物数据、细胞系对药物的敏感性数据,将细胞系的多组学数据表征成细胞系图,将药物数据表征成药物分子图;
构建药物敏感性预测模型,包括第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块,其中,第一细胞系特征提取模块和第二细胞系特征提取模块结构相同,均包括多个依次连接的特征提取单元,用于分别对来自于同癌种的细胞系图进行特征提取,以得到第一细胞系特征和第二细胞系特征;相似度引导模块包含多个相似度引导单元,每个相似度引导单元用于对第一细胞系特征提取模块和第二细胞系特征提取模块的相同位置的特征提取单元输出的两个特征图进行相似度计算,得到的相似度矩阵作为权重对输出的两个特征图分别进行加权以实现对特征提取的多组学相似度引导,加权的特征图输入到下一个特征提取单元以再次进行特征提取;药物特征提取模块用于提取输入药物分子图的药物特征;药物敏感性预测模块用于对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果,其中,第一细胞系特征与药物特征拼接得到第一拼接特征,第二细胞系特征与药物特征拼接得到第二拼接特征;
以细胞系图、药物分子图作为样本数据,以细胞系对药物的敏感性数据作为真值标签,对药物敏感性预测模型进行参数优化,优化时,采用的总损失函数包括第一损失函数、第二损失函数,其中,第一损失函数为第一细胞系对药物分子的敏感性预测结果与真值标签的交叉熵损失,第二损失函数为第二细胞系对药物分子的敏感性预测结果与真值标签的交叉熵损失,第一损失函数与第二损失函数的加权求和结果为总损失函数;
利用参数优化后的药物敏感性预测模型对待预测细胞系进行药物敏感性预测,将待预测细胞系对应的细胞系图输入至药物敏感性预测模型的第一细胞系特征提取模块,并同时将与待预测细胞系属于同癌种的细胞系对应的细胞系图输入至药物敏感性预测模型的第二细胞系特征提取模块,利用两个细胞系特征提取模块进行特征提取,同时利用相似度引导模块计算特征图的相似度并添加到特征图,以对特征提取进行多组学相似度引导,以得到多组学相似度引导下,待预测细胞系对应的细胞系特征;
被预测药物数据对应的药物分子图输入至药物特征提取模块,经计算得到预测药物数据的药物特征,该药物特征与待预测细胞系对应的细胞系特征拼接后输入至药物敏感性预测模块,经计算,得到待 预测细胞系对预测药物数据的药物敏感性预测结果。
2.根据权利要求1所述的基于多组学相似度引导的药物敏感性预测方法,其特征在于,特征提取单元的个数为N,则相似度引导单元的个数为N-1,N-1个相似度引导单元分别对第一细胞系特征提取模块和第二细胞系特征提取模块按照数据流方向的前N-1个特征提取单元输出的特征图进行相似度计算。
3.根据权利要求1或2所述的基于多组学相似度引导的药物敏感性预测方法,其特征在于,每个相似度引导单元在计算两个特征图的相似度时,采用余弦相似度、皮尔逊相关系数、欧几里德距离、斯皮尔曼相关系数、杰卡德相似系数或曼哈顿距离来衡量两个特征图的相似度。
4.根据权利要求1所述的基于多组学相似度引导的药物敏感性预测方法,其特征在于,每个特征提取单元采用1个图同构网络结构,每个图同构网络结构包括卷积层、批归一化层以及ReLU激活层,输入的特征图经过卷积层进行图卷积操作后,再经过批归一化层以及ReLU激活层进行特征平滑后输出。
5.根据权利要求1所述的基于多组学相似度引导的药物敏感性预测方法,其特征在于,药物特征提取模块采用多层图卷积神经网络,利用多层图卷积神经网络提取药物分子的药物特征;
药物敏感性预测模块采用全连接神经网络,利用全连接神经网络对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果。
6.根据权利要求1所述的基于多组学相似度引导的药物敏感性预测方法,其特征在于,所述细胞系的多组学数据包括基因组学数据、转录组学数据、蛋白组学数据、代谢组学数据;所述将细胞系的多组学数据表征成细胞系图,包括:
将基因作为细胞系图的节点,并将基因组学数据包含的基因表达量、基因突变情况和拷贝数变异情况作为节点特征,同时将转录组学数据包含的基因转录组表达量作为节点特征,以根据基因表达量确定的基因之间的相关性、根据蛋白组学数据确定的基因之间的蛋白相互作用、根据代谢组学数据确定的基因之间的代谢通路信息构建节点之间的连边;
所述将药物数据表征成药物分子图,包括:采用开源库RDKit将药物数据编码成药物分子图。
7.根据权利要求6所述的基于多组学相似度引导的药物敏感性预测方法,其特征在于,在构建节点之间的连边时,计算两个基因的基因表达量之间的皮尔森相关系数以确定基因之间的相关性,当皮尔森相关系数大于设定阈值时,构建两个基因对应节点之间的连边;
根据蛋白组学数据获取两个基因之间的相互作用作为蛋白相互作用,在存在蛋白相互作用的两个基因对应节点之间构建连边,同时将相互作用的交互分数作为连边权重;
根据代谢组学数据获取基因之间的代谢通路信息,当多种基因同时出现在某一条代谢通路时,对这些基因对应节点之间构建一条超边作为连边。
8.一种基于多组学相似度引导的药物敏感性预测装置,其特征在于,包括:
获取并表征单元,用于获取细胞系的多组学数据、药物数据、细胞系对药物的敏感性数据,将细胞系的多组学数据表征成细胞系图,将药物数据表征成药物分子图;
模型构建单元,用于构建药物敏感性预测模型,包括第一细胞系特征提取模块、第二细胞系特征提取模块、相似度引导模块、药物特征提取模块以及药物敏感性预测模块,其中,第一细胞系特征提取模块和第二细胞系特征提取模块结构相同,均包括多个依次连接的特征提取单元,用于分别对来自于同癌种的细胞系图进行特征提取,以得到第一细胞系特征和第二细胞系特征;相似度引导模块包含多个相似度引导单元,每个相似度引导单元用于对第一细胞系特征提取模块和第二细胞系特征提取模块的相同位置的特征提取单元输出的两个特征图进行相似度计算,得到的相似度矩阵作为权重对输出的两个特征图分别进行加权以实现对特征提取的多组学相似度引导,加权的特征图输入到下一个特征提取单元以再次进行特征提取;药物特征提取模块用于提取输入药物分子图的药物特征;药物敏感性预测模块用于对输入的第一拼接特征和第二拼接特征分别进行预测以得到两个细胞系分别对药物分子的敏感性预测结果,其中,第一细胞系特征与药物特征拼接得到第一拼接特征,第二细胞系特征与药物特征拼接得到第二拼接特征;
参数优化单元,用于以细胞系图、药物分子图作为样本数据,以细胞系对药物的敏感性数据作为真值标签,对药物敏感性预测模型进行参数优化,优化时,采用的总损失函数包括第一损失函数、第二损失函数,其中,第一损失函数为第一细胞系对药物分子的敏感性预测结果与真值标签的交叉熵损失,第二损失函数为第二细胞系对药物分子的敏感性预测结果与真值标签的交叉熵损失,第一损失函数与第二损失函数的加权求和结果为总损失函数;
预测单元,用于利用参数优化后的药物敏感性预测模型对待预测细胞系进行药物敏感性预测,将待预测细胞系对应的细胞系图输入至药物敏感性预测模型的第一细胞系特征提取模块,并同时将与待预测细胞系属于同癌种的细胞系对应的细胞系图输入至药物敏感性预测模型的第二细胞系特征提取模块,利用两个细胞系特征提取模块进行特征提取,同时利用相似度引导模块计算特征图的相似度并添加到特征图,以对特征提取进行多组学相似度引导,以得到多组学相似度引导下,待预测细胞系对应的细胞系特征;
被预测药物数据对应的药物分子图输入至药物特征提取模块,经计算得到预测药物数据的药物特征,该药物特征与待预测细胞系对应的细胞系特征拼接后输入至药物敏感性预测模块,经计算,得到待 预测细胞系对预测药物数据的药物敏感性预测结果。
9.一种基于多组学相似度引导的药物敏感性预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1-7任一项所述的基于多组学相似度引导的药物敏感性预测方法的步骤。
CN202210184839.XA 2022-02-28 2022-02-28 基于多组学相似度引导的药物敏感性预测方法和装置 Active CN114255886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210184839.XA CN114255886B (zh) 2022-02-28 2022-02-28 基于多组学相似度引导的药物敏感性预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210184839.XA CN114255886B (zh) 2022-02-28 2022-02-28 基于多组学相似度引导的药物敏感性预测方法和装置

Publications (2)

Publication Number Publication Date
CN114255886A CN114255886A (zh) 2022-03-29
CN114255886B true CN114255886B (zh) 2022-06-14

Family

ID=80800018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210184839.XA Active CN114255886B (zh) 2022-02-28 2022-02-28 基于多组学相似度引导的药物敏感性预测方法和装置

Country Status (1)

Country Link
CN (1) CN114255886B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114664382B (zh) * 2022-04-28 2023-01-31 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN114678069B (zh) * 2022-05-27 2022-09-06 浙江大学 器官移植的免疫排斥预测及信号通路确定装置
WO2023231203A1 (zh) * 2022-05-31 2023-12-07 医渡云(北京)技术有限公司 基于数字细胞模型的药物疗效预测方法及装置、介质、设备
CN116110509B (zh) * 2022-11-15 2023-08-04 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置
CN116597902B (zh) * 2023-04-24 2023-12-01 浙江大学 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN117524346B (zh) * 2023-11-20 2024-07-05 东北林业大学 一种多视图癌症药物反应预测系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609326A (zh) * 2017-07-26 2018-01-19 同济大学 癌症精准医疗中的药物敏感性预测方法
CN108830040A (zh) * 2018-06-07 2018-11-16 中南大学 一种基于细胞系和药物相似性网络的药物敏感性预测方法
CN108877953A (zh) * 2018-06-06 2018-11-23 中南大学 一种基于多相似性网络的药物敏感性预测方法
CN109599157A (zh) * 2018-11-29 2019-04-09 同济大学 一种精准智能诊疗大数据系统
CN113707217A (zh) * 2021-08-27 2021-11-26 上海商汤智能科技有限公司 药物与细胞系反应预测方法及相关装置
CN113782089A (zh) * 2021-11-15 2021-12-10 浙江大学 基于多组学数据融合的药物敏感性预测方法和装置
CN113889217A (zh) * 2021-10-19 2022-01-04 天津大学 基于孪生神经网络和深度因子分解机的药物推荐方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101953762B1 (ko) * 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
CN110232978B (zh) * 2019-06-14 2022-05-17 西安电子科技大学 基于多维网络的癌症细胞系治疗药物预测方法
CN112599218B (zh) * 2020-12-16 2024-06-18 北京深度制耀科技有限公司 药物敏感预测模型的训练方法、预测方法及相关装置
CN112863696B (zh) * 2021-04-25 2021-09-07 浙江大学 基于迁移学习和图神经网络的药物敏感性预测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609326A (zh) * 2017-07-26 2018-01-19 同济大学 癌症精准医疗中的药物敏感性预测方法
CN108877953A (zh) * 2018-06-06 2018-11-23 中南大学 一种基于多相似性网络的药物敏感性预测方法
CN108830040A (zh) * 2018-06-07 2018-11-16 中南大学 一种基于细胞系和药物相似性网络的药物敏感性预测方法
CN109599157A (zh) * 2018-11-29 2019-04-09 同济大学 一种精准智能诊疗大数据系统
CN113707217A (zh) * 2021-08-27 2021-11-26 上海商汤智能科技有限公司 药物与细胞系反应预测方法及相关装置
CN113889217A (zh) * 2021-10-19 2022-01-04 天津大学 基于孪生神经网络和深度因子分解机的药物推荐方法
CN113782089A (zh) * 2021-11-15 2021-12-10 浙江大学 基于多组学数据融合的药物敏感性预测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting Drug Response Based on Multi-Omics Fusion and Graph Convolution;Wei Peng等;《IEEE Xplore》;20210804;全文 *
整合多组学数据的抗癌药物敏感性预测方法研究;赵文娅;《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》;20200715;全文 *

Also Published As

Publication number Publication date
CN114255886A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN114255886B (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
CN113782089B (zh) 基于多组学数据融合的药物敏感性预测方法和装置
CN112863696B (zh) 基于迁移学习和图神经网络的药物敏感性预测方法和装置
Zeng et al. Review of statistical learning methods in integrated omics studies (an integrated information science)
Chindelevitch et al. Causal reasoning on biological networks: interpreting transcriptional changes
Sun et al. DIMM-SC: a Dirichlet mixture model for clustering droplet-based single cell transcriptomic data
US11651860B2 (en) Drug efficacy prediction for treatment of genetic disease
Woolf et al. A fuzzy logic approach to analyzing gene expression data
Li et al. Network neighborhood analysis with the multi-node topological overlap measure
Zhu et al. Increasing the power to detect causal associations by combining genotypic and expression data in segregating populations
Butte The use and analysis of microarray data
Liu et al. Probe-level measurement error improves accuracy in detecting differential gene expression
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
WO2018067595A1 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
Giecold et al. Robust lineage reconstruction from high-dimensional single-cell data
Planet et al. Systematic analysis of DNA microarray data: ordering and interpreting patterns of gene expression
Kaur et al. BSense: A parallel Bayesian hyperparameter optimized Stacked ensemble model for breast cancer survival prediction
CN116110509B (zh) 基于组学一致性预训练的药物敏感性预测方法和装置
Kour et al. Artificial intelligence and its application in animal disease diagnosis
Liu et al. puma 3.0: improved uncertainty propagation methods for gene and transcript expression analysis
Stojmirović et al. Robust and accurate data enrichment statistics via distribution function of sum of weights
Chen et al. Bubble: a fast single-cell RNA-seq imputation using an autoencoder constrained by bulk RNA-seq data
CN116758993A (zh) 一种集成多组学特征的dna甲基化预测方法
CN116721699A (zh) 一种基于肿瘤基因检测结果的智能推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant