CN116313148A - 一种药物敏感性的预测方法、装置、终端设备及介质 - Google Patents
一种药物敏感性的预测方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN116313148A CN116313148A CN202310211704.2A CN202310211704A CN116313148A CN 116313148 A CN116313148 A CN 116313148A CN 202310211704 A CN202310211704 A CN 202310211704A CN 116313148 A CN116313148 A CN 116313148A
- Authority
- CN
- China
- Prior art keywords
- drug
- vector
- cell line
- representing
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 228
- 229940079593 drug Drugs 0.000 title claims abstract description 220
- 230000035945 sensitivity Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 220
- 230000014509 gene expression Effects 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 230000005540 biological transmission Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 19
- 239000000126 substance Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 206010028980 Neoplasm Diseases 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001678559 COVID-19 virus Species 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000002380 cytological effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Pharmacology & Pharmacy (AREA)
- Data Mining & Analysis (AREA)
- Toxicology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请适用于生物信息技术领域,提供了一种药物敏感性的预测方法、装置、终端设备及介质。该预测方法通过在待测药物的分子结构内进行有向消息传递,得到结构特征,并利用编码神经网络模型对结构特征进行编码,得到第一药物特征向量;对目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量;对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量;利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型;利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。本申请能够提高药物敏感性的预测方法的准确性。
Description
技术领域
本申请属于生物信息技术领域,尤其涉及一种药物敏感性的预测方法、装置、终端设备及介质。
背景技术
目前,药物敏感性的预测研究主要集中在药物再利用方面。传统的药物再利用方法依赖于湿实验室(Wet Lab,是一个科学概念,与“干实验室”(Dry Lab)相对。湿实验室相比干实验室,在进行实验时,需要用到较多的化学试剂)实验,但湿实验室实验的成本十分昂贵且耗时严重。因此,相关领域技术人员提出通过构建新的计算方法来对药物敏感性进行预测,现行的药物敏感性的预测方法主要分为网络驱动方法和机器学习方法,然而,这两种方法都不能准确的预测出药物对于病毒寄主细胞系的敏感性,因而无法准确筛选出治疗特定疾病的药物。
发明内容
本申请实施例提供了一种药物敏感性的预测方法、装置、终端设备及介质,可以解决目前药物敏感性的预测方法准确性不高的问题。
第一方面,本申请实施例提供了一种药物敏感性的预测方法,包括:
在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量;
对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量;
对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量;
利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型;
利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。
可选的,结构特征包括待测药物的原子特征和化学键特征。
可选的,在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量,包括:
通过计算公式得到化学键的初始隐藏向量/>其中,Wi表示一可训练的参数,/>na表示第a个原子特征,eab表示化学键ab的化学键特征,f(·)表示ReLU激活函数,R表示实数域,hc表示原子向量与键向量的维度的和,h表示隐藏向量的维度;
通过计算公式
得到结构特征hd;其中,表示分子结构的第i个原子的原子特征,ha∈Rn×h,/>表示第t+1步的消息传递向量,/>表示第t+1步的分子结构的隐藏向量,t=1,2,...,T,T表示分子结构的消息传递的总步数;/>表示第t步时原子a和原子i直接键的隐藏向量,Wm和Wo表示两个不同的可训练的参数,Wm∈Rh×h,ma表示原子a的消息向量;
通过计算公式
MultiHead(hd)=concat(head1,...,headu)WT
可选的,对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量,包括:
通过计算公式
可选的,对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量,包括:
通过计算公式
得到融合查询向量QF、融合目标向量KF和融合值向量VF;其中,QD表示待测药物第二查询向量,QC表示目标细胞系查询向量,KD表示待测药物第二目标向量,KC表示目标细胞系目标向量,VD表示待测药物第二值向量,VC表示目标细胞系值向量;
通过计算公式
得到第二药物特征向量和第二细胞系特征向量/>其中,/>表示多头注意力机制第t个注意力头输出的待测药物的特征向量,/>表示多头注意力机制第t个注意力头输出的目标细胞系的特征向量,/>Wd fusion,Wc fusion,/>均表示可学习参数,/> Wd fusion,Wc fusion∈Ruz×o,/> 表示所述待测药物第二目标向量的转置向量,/>表示所述目标细胞系目标向量的转置向量。
可选的,利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型,包括:
通过计算公式
根据联合信息表达,构建药物敏感性预测模型。
可选的,药物敏感性预测模型的表达式如下:
可选的,利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性,包括:
利用最终的敏感性数值,预测待测药物对目标细胞系的敏感性。
第二方面,本申请实施例提供了一种药物敏感性的预测装置,包括:
药物特征模块,用于在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量;
细胞系特征模块,用于对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量;
融合特征模块,用于对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量;
预测模型构建模块,用于利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型;
预测模块,用于利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的药物敏感性的预测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的药物敏感性的预测方法。
本申请的上述方案有如下的有益效果:
在本申请的一些实施例中,通过在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量,然后对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量,再对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量,再然后利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型,最后利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。其中,对结构特征和基因表达信息进行交叉融合,再基于多头注意力机制,能够获取包含目标细胞系基因表达信息的第二药物特征向量和包含待测药物结构特征的第二细胞系特征向量,挖掘了药物和细胞系的深层次关联,从而提高了药物敏感性的预测的准确性。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的药物敏感性的预测方法的流程图;
图2本申请一实施例提供的药物敏感性的预测方法在目标细胞系数据稀缺的情况下的实施流程图;
图3为本申请一实施例提供的药物敏感性的预测装置的结构示意图;
图4为本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对目前药物敏感性的预测方法准确性不高的问题,本申请提供了一种药物敏感性的预测方法、装置、终端设备及介质,该方法通过在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量,然后对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量,再对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量,再然后利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型,最后利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。其中,对结构特征和基因表达信息进行交叉融合,再基于多头注意力机制,能够获取包含目标细胞系基因表达信息的第二药物特征向量和包含待测药物结构特征的第二细胞系特征向量,挖掘了药物和细胞系的深层次关联,从而提高了药物敏感性的预测的准确性。
如图1所示,本申请提供的药物敏感性的预测方法主要包括以下步骤:
步骤11,在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量。
上述有向消息传递是利用消息传递神经网络来实现的,在本申请的一些实施例中,消息传递神经网络可以是变换神经网络。
上述结构特征包括待测药物的原子特征和化学键特征。在本申请的一些实施例中,可以使用RDKit将待测药物的分子线性输入规范(SMILES,Simplified molecularinput line entry system)转换成具有原子特征和化学键特征的化学分子结构,RDKit是一个用于化学信息学的开源工具包,基于对化合物2D和3D分子操作,利用机器学习方法进行化合物描述符Molecular fingerprint(分子指纹),生成、化合物结构相似性计算、2D和3D分子展示等。
值得一提的是,步骤11提取了待测药物的结构特征(原子特征和化学键特征),这能够让获取的待测药物的有关特征信息更加准确,从而提高药物敏感性的预测的准确性。
步骤12,对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量。
在本申请的一些实施例中,对目标细胞系的基因表达信息进行特征提取,利用的是前馈神经网络层。
具体的,通过计算公式
值得一提的是,步骤12通过建立适应组学信息空间维度的前馈神经网络层,由浅到深地逐层挖掘(目标细胞系)基因表达数据的特征,能够获取高拟合性的目标细胞系基因表达的特征向量(第一细胞系特征向量)。
步骤13,对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量。
具体的,将待测药物的结构特征和目标细胞系的基因表达信息堆叠在一个交融向量中,并借助多头注意力机制,获取待测药物包含目标细胞系基因表达信息的第二药物特征向量,以及目标细胞系包含待测药物结构特征的第二细胞系特征向量。
步骤14,利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型。
步骤15,利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。
示例性的,药物敏感性预测模型输出敏感性数值越大,则表示待测药物对目标细胞系的敏感性越高,否则敏感性越低。
下面对步骤11(在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量)的具体过程做示例性说明。
步骤11.2,通过计算公式
得到结构特征hd。
其中,表示分子结构的第i个原子的原子特征,ha∈Rn×h,/>表示第t+1步的消息传递向量,/>表示第t+1步的分子结构的隐藏向量,t=1,2,...,T,T表示分子结构的消息传递的总步数;/>表示第t步时原子a和原子i直接键的隐藏向量,Wm和Wo表示两个不同的可训练的参数,Wm∈Rh×h,ma表示原子a的消息向量。
步骤11.4,通过计算公式
MultiHead(hd)=concat(head1,..,headu)WT
下面对步骤13(对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量)的具体过程做示例性说明。
步骤13.1,通过计算公式
得到融合查询向量QF、融合目标向量KF和融合值向量VF。
其中,QD表示待测药物第二查询向量,QC表示目标细胞系查询向量,KD表示待测药物第二目标向量,KC表示目标细胞系目标向量,VD表示待测药物第二值向量,VC表示目标细胞系值向量。
具体的,在本申请的实施例中,上述融合查询向量QF由待测药物第二查询向量和目标细胞系查询向量融合构成,上述融合目标向量KF由待测药物第二目标向量和目标细胞系目标向量融合构成,上述融合值向量由待测药物第二值向量和目标细胞系值向量融合构成。
步骤13.2,通过计算公式
其中,表示多头注意力机制第t个注意力头输出的待测药物的特征向量,/>表示多头注意力机制第t个注意力头输出的目标细胞系的特征向量,/>Wd fusion,Wc fusion,/>均表示可学习参数,/> Wd fusion,Wd fusion∈Ruz×o, 表示待测药物第二目标向量的转置向量,/>表示目标细胞系目标向量的转置向量。
下面对步骤14(利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型)的具体过程做示例性说明。
步骤14.1,通过计算公式
步骤14.3,结合联合信息表达,构建药物敏感性预测模型。
具体的,上述向量表示经过前馈神经网络模型的融合,会将融合后的特征向量映射到药物敏感性特征空间中(将多维特征向量转换成一维特征向量,即敏感性数值)。
示例性的,药物敏感性预测模型的表达式如下:
下面对步骤15(利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性)的具体过程做示例性说明。
步骤15.2,利用最终的敏感性数值,预测待测药物对目标细胞系的敏感性。
需要说明的是,在本申请的一些实施例中,可能会遇到目标细胞系数据不足的情况,例如,当要预测某药物与新冠细胞系(SARS-CoV-2病毒的寄主细胞)的敏感性的时候,由于药物的抗SARS-CoV-2敏感性实验数据稀缺,可以利用数目较多的癌症细胞系的数据预先构建初始预测模型,再借鉴迁移学习的思想,利用新冠细胞系的数据对初始预测模型进行微调,以达到预测某药物与新冠细胞系的敏感性的效果。
以癌症为例,可以从肿瘤药物敏感性基因组学数据库(GDSC2,Genomics ofDrugSensitivity in Cancer)中获得药物和细胞系的敏感性值以及对应细胞系的基因表达值。
以新冠病毒为例,可以从阿里安尼(Zaliani)等人的研究中获取了相应的敏感性值,对应的细胞系组学数据来自里瓦(Riva)等人的研究。除此之外,所有的SMILES都来自于PubChem数据库(存储有机小分子生物活性数据,是一种化学模组的数据库)。
由于该情况下执行的方法步骤流程与上述步骤一致,因此不再对其进行赘述,具体步骤如图2所示。
在本申请的一些实施例中,为了验证本申请提供的药物敏感性的预测方法的准确性,对数据集进行了5次五折交叉验证,在每次的五折验证中,把所有药物敏感性数据随机分成5份,每次取其中的一份作为测试集,4份为作训练集。通过皮尔森系数和斯皮尔曼系数来评估方法的好坏。参与比较的方法包括:支持向量机方法、随机森林方法、XGBoost方法、前馈神经网络方法、图卷积神经网络方法和图注意力神经网络方法。最终得到的结果如下表所示:
方法 | 皮尔森系数 | 斯皮尔曼系数 |
支持向量机 | 0.47 | 0.438 |
随机森林 | 0.81 | 0.730 |
XGBoost | 0.847 | 0.783 |
前馈神经网络 | 0.887 | 0.798 |
图卷积神经网络 | 0.878 | 0.805 |
图注意力神经网络 | 0.829 | 0.733 |
本发明的提出的方法 | 0.942 | 0.881 |
表中,皮尔森系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient),是一种线性相关系数;斯皮尔曼系数是衡量两个变量的依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。
从上表可以看出,在所有参与评估的方法中,本申请提出的药物敏感性的预测方法的性能优于其他方法,是当前性能最先进的方法。
下面对本申请提供的一种药物敏感性的预测装置进行示例性说明。
如图3所示,该药物敏感性的预测装置300包括:
药物特征模块301,用于在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量;
细胞系特征模块302,用于对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量;
融合特征模块303,用于对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量;
预测模型构建模块304,用于利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型;
预测模块305,用于利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图4所示,本申请的实施例提供了一种终端设备,如图4所示,该实施例的终端设备D10包括:至少一个处理器D100(图4中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。
具体的,所述处理器D100执行所述计算机程序D102时,通过在待测药物的分子结构内进行有向消息传递,得到待测药物的结构特征,并利用预先训练后的编码神经网络模型对结构特征进行编码,得到第一药物特征向量,然后对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量,再对结构特征和基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量,再然后利用第一药物特征向量、第一细胞系特征向量、第二药物特征向量以及第二细胞系特征向量,构建药物敏感性预测模型,最后利用药物敏感性预测模型,预测待测药物对目标细胞系的敏感性。其中,对结构特征和基因表达信息进行交叉融合,再基于多头注意力机制,能够获取包含目标细胞系基因表达信息的第二药物特征向量和包含待测药物结构特征的第二细胞系特征向量,挖掘了药物和细胞系的深层次关联,从而提高了药物敏感性的预测的准确性。
所称处理器D100可以是中央处理单元(CPU,Central Processing Unit),该处理器D100还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable GateArray)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元,例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备,例如所述终端设备D10上配备的插接式硬盘,智能存储卡(SMC,SmartMedia Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到药物敏感性的预测装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本申请的优点为:提出了一种药物敏感性预测的通用计算框架,本框架构造图级变换神经网络和适应组学信息空间维度的多层前馈神经网络,可以有效提取药物和细胞系的高阶隐藏信息并通过异质特征交融模块获取药物和细胞系的融合信息向量。在当前关于药物的敏感性实验数据稀缺的情况下,能够通过知识迁移合理地将数量多的的药物敏感性数据作为先验知识,加强模型对目标细胞系的预测性能。同时,本方法中训练好的模型也可以应用于在大规模化合物数据库中搜索潜在的与目标细胞系存在关联的药物。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种药物敏感性的预测方法,其特征在于,包括:
在待测药物的分子结构内进行有向消息传递,得到所述待测药物的结构特征,并利用预先训练后的编码神经网络模型对所述结构特征进行编码,得到第一药物特征向量;
对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量;
对所述结构特征和所述基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量;
利用所述第一药物特征向量、所述第一细胞系特征向量、所述第二药物特征向量以及所述第二细胞系特征向量,构建药物敏感性预测模型;
利用所述药物敏感性预测模型,预测所述待测药物对所述目标细胞系的敏感性。
2.根据权利要求1所述的预测方法,其特征在于,所述结构特征包括所述待测药物的原子特征和化学键特征;
所述在待测药物的分子结构内进行有向消息传递,得到所述待测药物的结构特征,并利用预先训练后的编码神经网络模型对所述结构特征进行编码,得到第一药物特征向量,包括:
通过计算公式得到化学键的初始隐藏向量/>其中,Wi表示一可训练的参数,/>na表示第a个原子特征,eab表示化学键ab的化学键特征,f(·)表示ReLU激活函数,R表示实数域,hc表示原子向量与键向量的维度的和,h表示隐藏向量的维度;
通过计算公式
得到所述结构特征hd;其中,表示所述分子结构的第i个原子的原子特征,ha∈Rn×h,表示第t+1步的消息传递向量,/>表示第t+1步的所述分子结构的隐藏向量,t=1,2,...,T,T表示所述分子结构的消息传递的总步数;/>表示第t步时原子a和原子i直接键的隐藏向量,Wm和Wo表示两个不同的可训练的参数,Wm∈Rh×h,Wo∈Rh×h,ma表示原子a的消息向量;
通过计算公式
MultiHead(hd)=concat(head1,...,headu)WT
4.根据权利要求3所述的预测方法,其特征在于,所对所述结构特征和所述基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量,包括:
通过计算公式
得到融合查询向量QF、融合目标向量KF和融合值向量VF;其中,QD表示待测药物第二查询向量,QC表示目标细胞系查询向量,KD表示待测药物第二目标向量,KC表示目标细胞系目标向量,VD表示待测药物第二值向量,VC表示目标细胞系值向量;
通过计算公式
8.一种药物敏感性的预测装置,其特征在于,包括:
药物特征模块,用于在待测药物的分子结构内进行有向消息传递,得到所述待测药物的结构特征,并利用预先训练后的编码神经网络模型对所述结构特征进行编码,得到第一药物特征向量;
细胞系特征模块,用于对预先获取的目标细胞系的基因表达信息进行特征提取,得到第一细胞系特征向量;
融合特征模块,用于对所述结构特征和所述基因表达信息进行交叉融合,基于多头注意力机制,得到第二药物特征向量和第二细胞系特征向量;
预测模型构建模块,用于利用所述第一药物特征向量、所述第一细胞系特征向量、所述第二药物特征向量以及所述第二细胞系特征向量,构建药物敏感性预测模型;
预测模块,用于利用所述药物敏感性预测模型,预测所述待测药物对所述目标细胞系的敏感性。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的药物敏感性的预测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的药物敏感性的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310211704.2A CN116313148A (zh) | 2023-03-07 | 2023-03-07 | 一种药物敏感性的预测方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310211704.2A CN116313148A (zh) | 2023-03-07 | 2023-03-07 | 一种药物敏感性的预测方法、装置、终端设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116313148A true CN116313148A (zh) | 2023-06-23 |
Family
ID=86782890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310211704.2A Pending CN116313148A (zh) | 2023-03-07 | 2023-03-07 | 一种药物敏感性的预测方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116313148A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275608A (zh) * | 2023-09-08 | 2023-12-22 | 浙江大学 | 基于协同注意力的可解释性抗癌药物协同预测方法及装置 |
-
2023
- 2023-03-07 CN CN202310211704.2A patent/CN116313148A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275608A (zh) * | 2023-09-08 | 2023-12-22 | 浙江大学 | 基于协同注意力的可解释性抗癌药物协同预测方法及装置 |
CN117275608B (zh) * | 2023-09-08 | 2024-04-26 | 浙江大学 | 基于协同注意力的可解释性抗癌药物协同预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lopez et al. | Enhancing scientific discoveries in molecular biology with deep generative models | |
Mohammadpour et al. | A survey of CNN-based network intrusion detection | |
Yang | Machine learning approaches to bioinformatics | |
US10593422B2 (en) | Interaction network inference from vector representation of words | |
WO2016205286A1 (en) | Automatic entity resolution with rules detection and generation system | |
Li et al. | Protein contact map prediction based on ResNet and DenseNet | |
CN111461168A (zh) | 训练样本扩充方法、装置、电子设备及存储介质 | |
EP3916597B1 (en) | Detecting malware with deep generative models | |
CN111640471A (zh) | 基于双向长短记忆模型的药物小分子活性预测的方法和系统 | |
Neekhara et al. | Cross-modal adversarial reprogramming | |
Wang et al. | Machine learning-based methods for prediction of linear B-cell epitopes | |
Zhang et al. | A Robust k‐Means Clustering Algorithm Based on Observation Point Mechanism | |
Wang et al. | Predicting Protein Interactions Using a Deep Learning Method‐Stacked Sparse Autoencoder Combined with a Probabilistic Classification Vector Machine | |
Zhu et al. | Task-Aware Meta Learning-Based Siamese Neural Network for Classifying Control Flow Obfuscated Malware | |
Ali et al. | DBP‐iDWT: Improving DNA‐Binding Proteins Prediction Using Multi‐Perspective Evolutionary Profile and Discrete Wavelet Transform | |
CN116313148A (zh) | 一种药物敏感性的预测方法、装置、终端设备及介质 | |
Yang et al. | Decoding the link of microbiome niches with homologous sequences enables accurately targeted protein structure prediction | |
Huang et al. | Deep learning methods for omics data imputation | |
Queyrel et al. | Towards end-to-end disease prediction from raw metagenomic data | |
CN111783088B (zh) | 一种恶意代码家族聚类方法、装置和计算机设备 | |
Haraksim et al. | Validation of likelihood ratio methods for forensic evidence evaluation handling multimodal score distributions | |
Carrillo-Perez et al. | Synthetic whole-slide image tile generation with gene expression profile-infused deep generative models | |
Ehiro | Feature importance‐based interpretation of UMAP‐visualized polymer space | |
CN111368552A (zh) | 一种面向特定领域的网络用户群组划分方法及装置 | |
CN116777646A (zh) | 基于人工智能的风险识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |