CN113948160A - 一种药物筛选方法、设备及存储介质 - Google Patents

一种药物筛选方法、设备及存储介质 Download PDF

Info

Publication number
CN113948160A
CN113948160A CN202010679265.4A CN202010679265A CN113948160A CN 113948160 A CN113948160 A CN 113948160A CN 202010679265 A CN202010679265 A CN 202010679265A CN 113948160 A CN113948160 A CN 113948160A
Authority
CN
China
Prior art keywords
drug
training
virus
model
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010679265.4A
Other languages
English (en)
Inventor
张高升
刘阳兴
李成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan TCL Group Industrial Research Institute Co Ltd
Original Assignee
Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan TCL Group Industrial Research Institute Co Ltd filed Critical Wuhan TCL Group Industrial Research Institute Co Ltd
Priority to CN202010679265.4A priority Critical patent/CN113948160A/zh
Publication of CN113948160A publication Critical patent/CN113948160A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种药物筛选方法、设备及存储介质,该方法包括获取待测病毒对应的若干药物;对于若干药物中的每个药物,将该药物的药物分子以及所述待测病毒的碱基数字序列输入经过训练的药物筛选模型,通过所述药物筛选模型确定该药物对应的有效值;根据所述有效值确定待测病毒对应的目标药物,其中,所述目标药物为若干药物中的一种或多种。本发明旨在基于药物‑病毒对集进行深度学习的到已训练的药物筛选模型进行筛选,这样可以提高药物筛选模型的运算性能,极大地缩减药物筛查的周期,进而缩短针对病毒感染疾病的药物的研发周期,从而提高了药物筛选的效率。

Description

一种药物筛选方法、设备及存储介质
技术领域
本发明涉及辅助药物技术领域,具体涉及一种药物筛选方法、设 备及存储介质。
背景技术
对新型病毒的药物研发是一个周期很长且耗资巨大的过程,早期 的药物筛选一般采用人工筛选,需要耗费大量的人力物力,存在着实 验周期长等一系列的缺点。近年来随着科技地不断发展,人工智能技 术应运而生,在药物的筛选和挖掘过程中起到关键作用,但是人工智 能技术筛选和挖掘药物的相关研究尚处于起步阶段,其在筛选过程中 需要大量的运算,操作繁琐,从而使得药物筛选周期长,极大影响了 缓解病毒感染疾病的效率。
因此,现有技术有待于改进和发展。
发明内容
基于此,本发明提供一种药物筛选方法、设备及存储介质,以解 决药物筛选方法存在的耗时长的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种药物筛选方法,所述药物筛选方法包括以下步骤:
获取待测病毒对应的若干药物;
对于若干药物中的每个药物,将该药物的药物分子以及所述待测 病毒的碱基数字序列输入经过训练的药物筛选模型,通过所述药物筛 选模型确定该药物对应的有效值;
根据所述有效值确定待测病毒对应的目标药物,其中,所述目标 药物为若干药物中的一种或多种。
可选的,所述药物筛选模型基于训练集训练得到,所述训练集包 括多组训练数据对,每组训练数据对包括训练药物的药物分子和训练 病毒的碱基数字序列,不同组训练数据具有相同的训练病毒。
可选的,所述药物筛选模型的训练过程包括:
针对多组训练数据对中每一组训练数据对,将所述训练药物的药 物分子和训练病毒的碱基数字序列输入至所述药物筛选模型,通过所 述药物筛选模型输出所述训练药物-训练病毒的预测值;其中,所述 预测值用于指示所述训练药物是否对训练病毒有效抑制;
根据所述预测值对所述药物筛选模型的参数进行修正,直至通过 所述药物筛选模型所输出的预测值达到期望值停止训练,以得到经训 练的药物筛选模型。
可选的,所述药物筛选模型包括长短期记忆网络模型、图卷积神 经网络模型、特征融合单元以及多层感知器模型,所述针对多组训练 药物-训练病毒对中每一组训练药物-训练病毒对,将所述训练药物的 药物分子和训练病毒的碱基数字序列输入至所述药物筛选模型,通过 所述药物筛选模型输出所述训练药物-训练病毒的预测值具体包括:
将训练病毒的碱基数字序列输入至长短期记忆网络模型,通过所 述长短期记忆网络模型输出所述训练病毒的病毒基因序列特征;
将训练药物的药物分子图输入至图卷积神经网络模型,通过所述 图卷积神经网络模型输出所述训练药物的药物分子特征;
将所述药物分子特征与所述病毒基因序列特征输入至特征融合 单元,通过所述特征融合单元输出所述训练药物-训练病毒对的融合 特征;
将所述融合特征输入至多层感知器模型,通过所述多层感知器模 型输出所述训练药物-训练病毒的预测值。
可选的,所述长短期记忆网络模型包括多个依次连接的长短期记 忆网络单元,所述将训练病毒的碱基数字序列输入至长短期记忆网络 模型,通过所述长短期记忆网络模型输出所述训练病毒的病毒基因序 列特征具体包括:
将碱基数字序列中第一个数字作为目标数字,输入至第一个长短 期记忆网络单元,通过所述第一个长短期记忆网络单元输出中间病毒 基因序列特征,将所述中间病毒基因序列特征作为目标基因序列特 征;
将第一个数字的下一个数字作为目标数字与所述目标基因序列 特征输入至第一个长短期记忆网络单元的下一个长短期记忆网络单 元,通过所述下一个长短期记忆网络单元得到下一个目标基因特征;
重复步骤直至将碱基数字序列的最后一个数字作为目标数字与 上一个目标基因序列特征输入至最后一个长短期记忆网络单元,通过 最后一个长短期记忆网络单元输出将第一个数字的下一个数字作为 目标数字与第一个目标基因特征输入至所述训练病毒的病毒基因序 列特征。
可选的,每次将目标数字输入至长短期记忆网络单元的间隔时间 相同。
可选的,所述图卷积神经网络模型包括输入层、多级联隐藏层以 及输出层,所述将训练药物的药物分子输入至图卷积神经网络模型, 通过所述图卷积神经网络模型输出所述训练药物的药物分子特征具 体包括:
将训练药物的药物分子输入至所述输入层,通过所述输入层得到 药物分子图;
将所述药物分子图输入至第一级隐藏层,通过所述第一级隐藏层 输出后经激活函数得到第一药物分子特征图;
将所述第一药物分子特征图作为目标药物分子图输入至第一级 隐藏层的下一级隐藏层,通过所述下一级隐藏层输出后经相同的激活 函数后得到下一药物分子特征图,直至将前一个药物分子特征图作为 目标药物分子图输入至最后一级隐藏层,通过最后一级隐藏层输出最 后一药物分子特征图;
将所述最后一药物分子特征图输入至所述输出层,通过所述输出 层输出所述训练药物的药物分子特征。
可选的,所述多层感知器模型包括输入层、多级联隐藏层以及输 出层,所述将所述融合特征输入至多层感知器模型,通过所述多层感 知器模型输出所述训练药物-训练病毒的预测值具体包括:
将融合特征输入至所述输入层,通过所述输入层得到初始融合特 征;
将所述初始融合特征输入至第一级隐藏层,通过所述第一级隐藏 层输出第一目标特征;
将所述第一目标特征作为目标输入至第一级隐藏层的下一级隐 藏层,通过所述下一级隐藏层输出下一目标特征,直至将前一个目标 特征作为目标输入至最后一级隐藏层,通过最后一级隐藏层输出最后 一目标特征;
将所述最后一目标特征输入至所述输出层,通过所述输入层输出 所述训练药物-训练病毒的预测值。
可选地,所述经过训练的药物筛选模型包括长短期记忆网络模 型、图卷积神经网络模型、特征融合单元以及多层感知器模型,所述 对于若干药物中的每个药物,将该药物的药物分子以及所述待测病毒 的碱基数字序列输入经过训练的药物筛选模型,通过所述药物筛选模 型确定该药物对应的有效值具体包括:
获取每组中每个所述药物的药物分子以及所述待测病毒的碱基 数字序列;其中,同一组的每个药物对应相同的待测病毒;
将每个所述药物分子依次输入至所述图卷积神经网络模型,同时 将待测病毒的碱基数字序列输入至所述长短期记忆网络模型;
通过所述图卷积神经网络模型和所述长短期记忆网络模型的处 理后共同输出至所述特征融合单元,经所述特征融合单元处理后,所 述特征融合单元输出至搜索多层感知器模型,通过所述多层感知器模 型处理后依次输出每个所述药物对应的有效值。
可选地,所述获取所述待测病毒的碱基数字序列具体包括:
获取待测病毒的碱基字母序列;
将所述碱基字母序列映射成碱基数字序列,其中,相同字母转换 为同一数字。
基于上述方法,本发明还提供一种药物筛选设备,包括存储器和 处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机 程序时实现上述所述的药物筛选方法的步骤。
基于上述方法,本发明还提供一种计算机可读存储介质,所述计 算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序 可被一个或者多个处理器执行,以实现上述所述的药物筛选方法的步 骤。
有益效果:
相对于现有技术,本发明提供了一种药物筛选方法、设备及存储 介质,该方法包括获取待测病毒对应的若干药物;对于若干药物中的 每个药物,将该药物的药物分子以及所述待测病毒的碱基数字序列输 入经过训练的药物筛选模型,通过所述药物筛选模型确定该药物对应 的有效值;根据所述有效值确定待测病毒对应的目标药物,其中,所 述目标药物为若干药物中的一种或多种。本发明旨在基于药物-病毒 对集进行深度学习的到已训练的药物筛选模型进行筛选,这样可以提 高药物筛选模型的运算性能,极大地缩减药物筛查的周期,进而缩短 针对病毒感染疾病的药物的研发周期,从而提高了药物筛选的效率。
附图说明
图1为本发明提供的一种药物筛选方法的流程图。
图2为本发明提供的所述药物筛选模型的结构框图。
图3为本发明提供的药物筛选模型中长短期记忆网络模型的结 构框图。
图4为本发明提供的药物筛选模型中长短期记忆网络模型的状 态运算示意图。
图5为本发明提供的长短期记忆网络模型中长短期记忆网络单 元中遗忘门的内部结构图。
图6为本发明提供的长短期记忆网络模型中长短期记忆网络单 元中输入门的内部结构框图。
图7为本发明提供的长短期记忆网络模型中长短期记忆网络单 元中输出门的内部结构框图。
图8为本发明提供的药物筛选模型中图卷积神经网络模型的结 构示意图。
图9为本发明提供的药物筛选模型中多层感知器模型的结构示 意图。
图10为本发明提供的一种药物筛选设备的结构框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照 附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的 具体实施例仅用以解释本发明,并不用于限定本发明。
先对本发明相关名词进行解释说明,以便于理解本发明的技术方 案。
神经网络中最基本的成分是神经元,一般称作节点或单元。节点 从其他节点接收输入,或从外部源接收输入,然后计算输出,每个输 入都辅助有权重(weight,即w),权重取决于其他输入的相对重要 性。
激活函数的作用是将非线性引入神经元的输出,使得神经元学习 非线性的函数表示。每个激活函数都接收一个数字,并进行特定、固 定的数学计算,本实施例中所运用到的几个激活函数如下:
Sigmoid(S型激活函数):输入一个实值,输出一个0至1间 的值;
Tanh(双曲正切函数):输入一个实值,输出一个[-1,1]的值;
ReLu:代表修正线性单元。输出一个实值,并设定0的阈值,即 函数会将负值变为零。
长短期记忆网络模型(Long Short-Term Memory,LSTM)是一种 时间递归神经网络(RNN),主要是为了解决长序列训练过程中的梯 度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够 在更长的序列中有更好的表现。基于LSTM的系统可以学习翻译语 言、控制机器人、图像分析、文档摘要、语音识别、图像识别、手写 识别、控制聊天机器人、预测疾病、合成音乐等任务。
图卷积神经网络模型(Graph Convolutional networks,GCN) 即提取具有点和边的图的特征,简单说,就是对图数据进行节点分类 (node classification)、图分类(graphclassification)、边 预测(link prediction),还可以得到图的嵌入表示(graphembedding)。
多层感知器模型(Multilayer Perceptron,MLP)又称为多层感知 器,是一种前馈人工神经网络模型,其将输入的多个数据集映射到单 一的输出的数据集上。其包括至少一个隐藏层(除了一个输入层和一 个输出层以外)。单层感知器只能学习线性函数,而多层感知器不仅 仅可以学习线性函数,也可学习非线性函数。
输入节点称为输入层,在输入节点中不进行任何计算,仅向隐藏 节点传递信息。
隐藏节点需要进行计算,并将信息从输入节点传递到输出节点, 又成为隐藏层。
输出节点又成为输出层,负责计算,并从网络向外传递信息。
过拟合即为了得到一致假设而使假设变得过度严格,简单来说, 一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训 练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现 了过拟合的现象。
损失函数是指模型预测出的结果和真实值差的平方和求平均,预 测越准确,损失函数就越小。
下面结合附图,详细说明本发明的技术方案,具体如下:
请参阅图1,图1是本发明提供的一种药物筛选方法的流程图, 应该说明的是,本发明实施方式的药物筛选方法并不限于图1所示的 流程图中的步骤及顺序,根据不同的需求,流程图中的步骤可以增加、 移除或者改变顺序。
如图1所示,本发明提供的药物筛选方法包括以下步骤:
S10、获取待测病毒对应的若干药物。
在本实施例中,该若干药物是从一大规模药物数据库中搜索认为 可治疗待测病毒的一种或多种药物,若干药物中每一个药物可能是有 效抑制,即该药物能有效抑制该待测病毒,也可能是无效抑制,即该 药物不能抑制该待测病毒,因此,所获取的若干药物是否对同一待测 病毒为有效抑制则需要通过经过训练的药物筛选模型来确定。
为了筛选出对待测病毒具有有效抑制的药物,需要获取样本对, 即将若干药物中每一药物与该待测病毒组合进行测试。
S20、对于若干药物中的每个药物,将该药物的药物分子以及所 述待测病毒的碱基数字序列输入经过训练的药物筛选模型,通过所述 药物筛选模型确定该药物对应的有效值。
在本实施例中,所述药物筛选模型指的是具有泛化能力的药物筛 选模型。所述有效值指的是该药物对待测病毒有效抑制的程度,也就 是说,通过所述有效值可确定该药物对待测病毒是有效抑制还是无效 抑制。
所述药物筛选模型能够快速初次筛选出对该待测病毒有效抑制 的药物,然后再对所有初次筛选出的药物进行二次筛选,最终确定对 待测病毒具有有效抑制的一种或多种药物。这样,通过所述药物筛选 模型初次筛选极大缩短药物筛选和研发周期,极大减小目标药物在收 集药物数据阶段被遗漏的概率,提高药物筛选和研发的成功率。
进一步地,所述药物筛选模型基于训练集训练得到,所述训练集 包括多组训练数据对,每组训练数据对包括训练药物的药物分子和训 练病毒的碱基数字序列,不同组训练数据具有相同的训练病毒。所述 训练药物即为大规模药物数据库中用于可能对同一待测病毒有效抑 制的若干药物,所述训练病毒即病原体。为了提高效率,降低复杂性, 输入至待训练的药物筛选模型的数据是原数据即训练病毒及与所述 训练病毒对应的训练药物经过处理后的训练病毒的碱基数字序列及 训练药物的药物分子。
例如:训练病毒为Ribonucleoside-diphosphate reductase large subunit,其碱基字母序列为:
ATGCATGTGATCAAGCGAGATGGCCGCCAAGAACGAGTCATGTTTGACAAAATTA CATCTCGAATCCAGAAGCTTTGTTATGGACTCAATATGGATTTTGTTGATCCTGCTCAG ATCACCATGAAAGTAATCCAAGGCTTGTACAGTGGGGTCACCACAGTGGAACTAGATAC TTTGGCTGCTGAAACAGCTGCAACCTTGACTACTAAGCACCCTGACTATGCTATCCTGG CAGCCAGGATCGCTGTCTCTAACTTGCACAAAGAAACAAAGAAAGTGTTCAGTGATGTGATGGAAGACCTCTATAACTACATAAATCCACATAATGGCAAACACTCTCCCATGGTGGC CAAGTCAACATTGGATATTGTTCTGGCCAATAAAGATCGCCTGAATTCTGCTATTATCT ATGACCGAGATTTCTCTTACAATTACTTCGGCTTTAAGACGCTAGAGCGGTCTTATTTG TTGAAGATCAATGGAAAAGTGGCTGAAAGACCACAACATATGTTGATGAGAGTATCTGT TGGGATCCACAAAGAAGACATTGATGCAGCAATTGAAACATATAATCTTCTTTCTGAGA GGTGGTTTACTCATGCTTCGCCCACTCTCTTCAATGCTGGTACCAACCGCCCACAACTT TCTAGCTGTTTTCTTCTGAGTATGAAAGATGACAGCATTGAAGGCATTTATGACACTCT AAAGCAATGTGCATTGATTTCTAAGTCTGCTGGAGGAATTGGTGTTGCTGTGAGTTGTA TTCGGGCTACTGGCAGCTACATTGCTGGGACTAATGGCAATTCCAATGGCCTTGTACCG ATGCTGAGAGTATATAACAACACAGCTCGATATGTGGATCAAGGTGGGAACAAGCGTCC TGGGGCATTTGCTATTTACCTGGAGCCTTGGCATTTAGACATCTTTGAATTCCTTGATT TAAAGAAGAACACAGGAAAGGAAGAGCAGCGTGCCAGAGATCTTTTCTTTGCTCTTTGG ATTCCGGATCTCTTCATGAAACGAGTGGAGACTAATCAGGACTGGTCTTTGATGTGTCC AAATGAGTGTCCTGGTCTGGATGAGGTTTGGGGAGAGGAATTTGAGAAACTATATGCAA GTTATGAGAAACAAGGTCGTGTCCGCAAAGTTGTAAAAGCTCAGCAGCTTTGGTATGCC ATCATTGAGTCTCAGACGGAAACAGGCACCCCGTATATGCTCTACAAAGATTCCTGTAA TCGAAAGAGCAACCAGCAGAACCTGGGAACCATCAAATGCAGCAACCTGTGCACAGAAA TAGTGGAGTACACCAGCAAAGATGAGGTTGCTGTTTGTAATTTGGCTTCCCTGGCCCTG AATATGTATGTCACATCAGAACACACATACGACTTTAAGAAGTTGGCTGAAGTCACTAAAGTCGTTGTCCGAAACTTGAATAAAATTATTGATATAAACTACTATCCTGTACCAGAGG CATGCCTATCAAATAAACGCCATCGCCCCATTGGAATTGGGGTACAAGGTCTGGCAGAT GCTTTTATCCTGATGAGATACCCTTTTGAGAGTGCAGAAGCCCAGTTACTGAATAAGCA GATCTTTGAAACTATTTATTATGGTGCTCTGGAAGCCAGCTGTGACCTTGCCAAGGAGC AGGGCCCATACGAAACCTATGAGGGCTCTCCAGTTAGCAAAGGAATTCTTCAGTATGAT ATGTGGAATGTTACTCCTACAGACCTATGGGACTGGAAGGTTCTCAAGGAGAAGATTGC AAAGTATGGTATAAGAAACAGTTTACTTATTGCCCCGATGCCTACAGCTTCCACTGCTC AGATCCTGGGGAATAATGAGTCCATTGAACCTTACACCAGCAACATCTATACTCGCAGA GTCTTGTCAGGAGAATTTCAGATTGTAAATCCTCACTTATTGAAAGATCTTACCGAGCG GGGCCTATGGCATGAAGAGATGAAAAACCAGATTATTGCATGCAATGGCTCTATTCAGA GCATACCAGAAATTCCTGATGACCTGAAGCAACTTTATAAAACTGTGTGGGAAATCTCT CAGAAAACTGTTCTCAAGATGGCAGCTGAGAGAGGTGCTTTCATTGATCAAAGCCAATC TTTGAACATCCACATTGCTGAGCCTAACTATGGCAAACTCACTAGTATGCACTTCTACG GCTGGAAGCAGGGTTTGAAGACTGGGATGTATTATTTAAGGACAAGACCAGCGGCTAAT CCAATCCAGTTCACTCTAAATAAGGAGAAGCTAAAAGATAAAGAAAAGGTATCAAAAGA GGAAGAAGAGAAGGAGAGGAACACAGCAGCCATGGTGTGCTCTTTGGAGAATAGAGATG AATGTCTGATGTGTGGATCCTGA
转换后的碱基数字序列(其中,将碱基字母序列中字母A映射成 数字1,字母T映射成数字2,字母G映射成数字3,字母C映射成 数字4)为:
12341232312411343131233443441131143132412322231411112214124 24311244131134222322123314241121233122223223124423424131241 44123111321124411334223214132333324144141323311421312142223 34234231114134234114422314214211341444231421234212442334134 41331243423242421142234141113111411131113232241323123231233 11314424212114214121112441412112334111414242444123323344113 24114122331212232242334411211131243442311224234212212421231 44313122242422141122142243342221131434213134332422122232231 13124112331111323342311131441411412123223123131321242322333 1244141113113141223123413411223111412121124224222423131332332221424123422434441424242241123423321441144344414114222421 34232222422423132123111312314134122311334122212314142421113 41123234122312224211324234233133112233232234232313223212243 33421423341342141223423331421123341122441123344223214431234 23131321212114114141342431212323312411332333114113432442333 34122234212221442331344223341222131412422231122442231222111 31131141413311133113134134323441313124222242223424222331224 43312424224123111431323313142112413314233242223123232441112 31323244233242331231332223333131331122231311142121234113221 23131114113324323244341113223211113424134134222332123441241 22313242413143311141334144443212123424214111312244232112431 11313411441341311442333114412411123413411442323414131112132 33132141441341113123133223423222321122233422444233444231121 23212324141241311414141214314222113113223342311324142111324 32232443111422311211112212231212111421421244232144131334123 44212411121114344124344441223311223333214113324233413123422 22124423123131214442222313132341311344413221423112113413124 22231114212221221233234242331134413423231442234411331341333 4441214311144212313334242441322134111331122422413212312123233112322142442141314421233314233113322424113313113122341113 21233212113111413222142212234444312344214134224414234241312 44233331121123132441223114422141441341141242121424341313242 23241331311222413122321112442414221223111312422144313433334 42123341231131312311111441312212234123411233424212241313412 14413111224423123144231134114222121111423232333111242424131 11142322424113123341342313131332342224122312411134411242223 11412441412234231344211421233411142414213212341422421433423 31134133322231131423331232122122211331411314413433421124411 24413224142421112113313113421111312111311113321241111313311 31131311331313311414134134412332323424222331311213131231123 2423123232331244231
对训练病毒治疗的其中一种训练药物为ID:DB00441,名称为: Gemcitabine,其药物分子为:
Figure BDA0002585237920000141
下面详细描述所述药物筛选模型的训练过程。
请参阅图2,图2示例了所述药物筛选模型的结构框图,
所述药物筛选模型的训练过程是:
M10,针对多组训练数据对中每一组训练数据对,将所述训练药 物的药物分子和训练病毒的碱基数字序列输入至所述药物筛选模型, 通过所述药物筛选模型输出所述训练药物-训练病毒的预测值;其中, 所述预测值用于指示所述训练药物是否对训练病毒有效;
在本实施例中,预先构建所述药物筛选模型。如图2所示,所述 药物筛选模型包括长短期记忆网络模型、图卷积神经网络模型、特征 融合单元以及多层感知器模型,其中,所述长短期记忆网络模型的输 出端和所述图卷积神经网络模型的输出端与所述特征融合单元的输 入端连接,所述特征融合单元的输出端连接所述多层感知器模型的输 入端。
所述长短期记忆网络模型和图卷积神经网络模型分别用于提取 训练病毒和训练药物的特征,所述特征融合单元用于将训练病毒的特 征以及训练药物的特征融合处理;所述多层感知器模型用于对融合后 的特征进行筛选计算,以通过输出该训练药物对所述训练病毒是否有 效的预测值。该预测值分为有效预测值和无效预测值,有效预测值与 无效预测值的比例用于测试所述药物筛选模型的训练是否满足要求。
(一)具体实施时,在特征提取过程中,针对训练病毒:
将训练病毒的碱基数字序列输入至所述药物筛选模型中的长短 期记忆网络模型,通过所述长短期记忆网络模型输出所述训练病毒的 病毒基因序列特征。
在本实施例中,经研究发现,病毒的基因是单链(RNA病毒)或 双链(DNA病毒)的碱基序列,其碱基序列是由A G C T字母多种组 合而成,即又称碱基字母序列。由于病毒种类的不同,其长度可以从 几千到几十万不等。例如:某训练病毒的碱基字母序列可用GATAAAAACCATGTGG...表示。这样,通过将复杂的训练病毒的结构以 字母组合序列表示,不仅提高训练计算速度,而且将复杂结构简单化, 节省空间占用,极大降低计算复杂度。
为了更进一步简化操作,提高筛选速度,将训练病毒的碱基字母 序列映射成碱基数字序列,即将所述碱基字母序列中每个字母转换为 数字,相同字母转换为同一数字,以得到所述训练病毒的碱基数字序 列。因此,通过对碱基数字序列进行特征提取,即可获取该训练病毒 的病毒基因序列特征。
进一步地,本实施例中,所述长短期记忆网络模型为LSTM模型, 其包括多个依次连接的长短期记忆网络单元,每个长短期记忆网络单 元的参数和结构均相同。
具体地,所述所述将训练病毒的碱基数字序列输入至长短期记忆 网络模型,通过所述长短期记忆网络模型输出所述训练病毒的病毒基 因序列特征具体包括:
将碱基数字序列中第一个数字作为目标数字,输入至第一个长短 期记忆网络单元,通过所述第一个长短期记忆网络单元输出中间病毒 基因序列特征,将所述中间病毒基因序列特征作为目标基因序列特 征;
将第一个数字的下一个数字作为目标数字与所述目标基因序列 特征输入至第一个长短期记忆网络单元的下一个长短期记忆网络单 元,通过所述下一个长短期记忆网络单元得到下一个目标基因特征;
重复步骤直至将碱基数字序列的最后一个数字作为目标数字与 上一个目标基因序列特征输入至最后一个长短期记忆网络单元,通过 最后一个长短期记忆网络单元输出将第一个数字的下一个数字作为 目标数字与第一个目标基因特征输入至所述训练病毒的病毒基因序 列特征。
进一步地,每次将目标数字输入至长短期记忆网络单元的间隔时 间相同。
也就是说,碱基数字序列中的数字用X表示,每一个时间t对应 一个数字Xt。将当前时间t对应的数字Xt与上一个长短期记忆网络 单元的输出项作为下一个长短期记忆网络单元的输入项,直至最后一 个长短期记忆网络的输出项作为训练病毒最终的病毒基因序列特征。
其具体运算过程如图4所示,当前时刻t对应的数字Xt和上一 个状态传递下来的Ht-1拼接训练,得到四个状态Zf,Zi,Z,Z0,其 中,Zf,Zi,Z0是由拼接向量乘以权重矩阵之后,再通过一个sigmoid 激活函数转换成0到1之间的数值,来作为一种门控状态。Z表示 将结果通过一个tanh激活函数以转换成-1到1之间的值。
其中,图4中⊙用于表示操作矩阵中对应的元素相乘;
Figure BDA0002585237920000161
用于 表示矩阵加法;W表示模型的参数,采用随机初始化,根据模型训练 过程而更新。
其所涉及到的公式如下:
ct=zf⊙ct-1+zi⊙z
ht=z0⊙tanh(ct)
yt=σ(W′ht)
进一步地,每个长短期记忆网络单元的内部结构如图3所示,图 3中仅示例了3个依次连接的长短期记忆网络单元,A用于表示一个 长短期记忆网络单元,Ht用于表示每个长短期记忆网络单元所输出 的中间病毒基因序列特征,σ用于表示非线性激活函数。
所述长短期记忆网络单元属于门结构,其内部结构包括输入门、 输出门以及遗忘门。请参阅图4-图6,图4示例了所述长短期记忆网 络单元中的遗忘门结构示意图,图5示例了所述长短期记忆网络单元 中的的输入门结构示意图,图6示例了所述长短期记忆网络单元中 的输出门结构示意图。
如图4所示,所述遗忘门用于决定上一时刻中哪些信息从单元状 态中抛弃,即根据当前的输入Xt和上一时刻输出ht-1计算出一个向 量ft,其在每一维度上的值都在(0,1)范围内,再将上一时刻的Ct-1 与ft向量按位相乘,那么ft取值接近于0的维度上信息就会被忘记, 而ft取值接近于1的维度上的信息会被保留。
如图5所示,所述输入门用于决定单元状态中保存哪些新信息。 输入门会根据xt和ht-1决定哪些信息加入到Ct-1中生成新的状态 Ct。
输入门一共有两步:
第一步(图6中左图):sigmoid激活函数决定哪些信息需要更 新;tanh激活函数生成一个向量,将值映射到(-1,1),也就是备选 的用来更新的内容,两部分结合共同构成输入门:
第二步(图6中右图):将旧状态与新状态进行叠加(+),就得到 了新的状态(忘记决定要忘记的,加入新的状态)。
如图7所示,所述输出门用于决定输出什么。
这样,针对病毒基因的碱基序列过长而导致不易提取特征的问 题,使用专门处理序列数据的长短期记忆网络LSTM对病毒基因序列 进行建模,从而有效的提取病毒特征。
(二)在特征提取过程中,针对药物分子:
经研究发现,药物分子可以图数据的形式表示,图数据的节点表 示所述药物分子的每个原子,所述图数据的连边表示连接每个原子的 化学键。具体地,用N表示节点的数量,每个节点都有自己的特征, 用D表示特征的维度。所以节点的特征组成一个N×D维的矩阵X。 各个节点之间的关系也会形成一个N×N维的矩阵A,也称为邻接矩 阵(adjacencymatrix),这样简化结构,便于后续计算,降低计算 复杂度,从而提高特征提取效率。因此,将训练药物转换为药物分子 图作为输入数据。
具体实施时,将训练药物的药物分子图输入至图卷积神经网络模 型,通过所述图卷积神经网络模型输出所述训练药物的药物分子特 征。
本发明所构建的图卷积神经网络模型是GCN模型,其包括输入 层、多级联隐藏层以及输出层,如图8所示。
其所述将训练药物的药物分子图输入至图卷积神经网络模型,通 过所述图卷积神经网络模型输出所述训练药物的药物分子特征具体 包括:
将训练药物的药物分子输入至所述输入层,通过所述输入层得到 药物分子图;
将所述药物分子图输入至第一级隐藏层,通过所述第一级隐藏层 输出后经激活函数得到第一药物分子特征图;
将所述第一药物分子特征图作为目标药物分子图输入至第一级 隐藏层的下一级隐藏层,通过所述下一级隐藏层输出后经相同的激活 函数后得到下一药物分子特征图,直至将前一个药物分子特征图作为 目标药物分子图输入至最后一级隐藏层,通过最后一级隐藏层输出最 后一药物分子特征图;
将所述最后一药物分子特征图输入至所述输出层,通过所述输出 层输出所述训练药物的药物分子特征。
简单来说,如图8中所示例的2级联隐藏层,将药物分子图输入 至输入层,通过所述输入层输出至第1隐藏层(hidden),通过所述 第1隐藏层输出第1药物分子特征图,将第1药物分子特征图通过 ReLU函数后输入至第2隐藏层,通过所述第2隐藏层输出第2药物 分子特征图,再次经过ReLU函数后输入至输出层(output),通过 所述输出层所输出的数据还需经过一个线性变化,从而得到药物分子 特征,即为训练药物最终的药物分子特征。
本实施例中采用ReLU函数作为激活函数,是为了将隐藏层所输 出的数据中负值转换为0,但正值不变,从而实现了单侧抑制,使得 神经网络中的数据也具有了稀疏激活性,从而极大降低误差。
所述图卷积神经网络模型之间涉及到的传播公式为:
Figure BDA0002585237920000191
Figure BDA0002585237920000192
让邻接矩阵A与单位矩阵I相加,就引入了节点自连 接的特征。
矩阵D的定义如下:
Figure BDA0002585237920000201
矩阵D是一个对角线矩阵,其对角线位置上的值也 就是相应节点的度。
Figure BDA0002585237920000202
Figure BDA0002585237920000203
的度矩阵(degree matrix)。H是每一 层的特征,对于输入层的话,H就是X;σ是非线性激活函数。
这样,针对大分子、复杂结构的药物分子的特征难以学习的问题, 采用图网络,能够有效分析和获取其内在特征。
(三)特征融合处理
在提取到药物分子特征以及病毒基因序列特征后,需要将所述药 物分子特征与所述病毒基因序列特征输入至特征融合单元,通过所述 特征融合单元输出所述训练药物-训练病毒对的融合特征;也就是说,
(四)训练融合后的特征
将所述融合特征输入至多层感知器模型,通过所述多层感知器模 型输出所述训练药物-训练病毒的预测值。
在本实施例中,所述多层感知器模型为MLP模型,其包括输入层、 多级联隐藏层以及输出层,每个隐藏层的维度可以相同,也可以不同, 根据实际需求进行设定。当然,其隐藏层的个数也根据实际需求进行 设定。所述将所述融合特征输入至多层感知器模型,通过所述多层感 知器模型输出所述训练药物-训练病毒的预测值具体包括:
将融合特征输入至所述输入层,通过所述输入层得到初始融合特 征;
将所述初始融合特征输入至第一级隐藏层,通过所述第一级隐藏 层输出第一目标特征;
将所述第一目标特征作为目标输入至第一级隐藏层的下一级隐 藏层,通过所述下一级隐藏层输出下一目标特征,直至将前一个目标 特征作为目标输入至最后一级隐藏层,通过最后一级隐藏层输出最后 一目标特征;
将所述最后一目标特征输入至所述输出层,通过所述输入层输出 所述训练药物-训练病毒的预测值。
简单来说,如图9所示,第一层为输入测,维度是128。图中 为了简化,只画了6个节点表示;第二层为第1隐藏层,维度是(128, 256);第三层为第2隐藏层,维度是(256,5);第四层是输出层, 维度是(5,2)。其训练过程是:
将融合特征输入至输入层,通过所述输出层输出至第1隐藏层, 进行筛选运算后输出至第2隐藏层,再次进行筛选运算,最后通过所 述输出层输出预测值,其预测值只留下01、10的类别值,其中,01 表示该训练药物对训练病毒有效,10表示训练药物对训练病毒无效。 在筛选过程中的第1隐藏层以及第2隐藏层通过计算以筛除11,00的 融合特征,只留下01,10输出,从而根据预测值统计出有效概率和 无效概率,进而将预测值与期望值比较以修正药物筛选模型的参数, 使得其训练后的药物筛选模型所输出的预测值达到期望值。
M11,根据所述预测值对所述药物筛选模型的参数进行修正,直 至通过所述药物筛选模型所输出的预测值达到期望值停止训练,以得 到具备泛化能力的药物筛选模型。
在本实施例中,为了保证已训练好的药物筛选模型具备泛化能 力,即经过训练的药物筛选模型处于适度拟合,不出现过拟合现象。 也就是说,通过预测值来调整整个药物筛选模型的参数,然后在调整 过后通过测试集验证该调整后的药物筛选模型对测试集中的每组测 试药物-测试病毒对所输出的预测值是否均确定为有效的预测值,当 其所述测试集中每组测试药物-测试病毒对通过所述药物筛选模型所 输出的预测值均指示测试药物对测试病毒有效,这该药物筛选模型即 为已训练好的药物筛选模型。当然,若其所述测试集中每组测试药物 -测试病毒对通过所述药物筛选模型所输出的预测值中测试药物对测 试病毒有效概率不能达到期望值(即错误概率),则继续进行训练。
一旦训练的所述药物筛选模型具有泛化能力,则说明该药物筛选 模型满足需求。此时,所述经过训练的药物筛选模型包括长短期记忆 网络模型、图卷积神经网络模型、特征融合单元以及多层感知器模型, 所述对于若干药物中的每个药物,将该药物的药物分子以及所述待测 病毒的碱基数字序列输入经过训练的药物筛选模型,通过所述药物筛 选模型确定该药物对应的有效值具体包括:
S21,获取每组中每个所述药物的药物分子以及所述待测病毒的 碱基数字序列;其中,同一组的每个药物对应相同的待测病毒;
其中,所述获取所述待测病毒的碱基数字序列具体包括:
S211,获取待测病毒的碱基字母序列;
S212,将所述碱基字母序列映射成碱基数字序列,其中,相同字 母转换为同一数字。
S22,将每个所述药物分子依次输入至所述图卷积神经网络模型, 同时将待测病毒的碱基数字序列输入至所述长短期记忆网络模型;
S23,通过所述图卷积神经网络模型和所述长短期记忆网络模型 的处理后共同输出至所述特征融合单元,经所述特征融合单元处理 后,所述特征融合单元输出至搜索多层感知器模型,通过所述多层感 知器模型处理后依次输出每个所述药物对应的有效值。
所述有效值指的是待筛选药物对待测病毒有效与否的指示。
这样,通过训练集不断训练药物筛选模型,从而得到具备泛化能 力的模型,使得在新型病毒出现后,能够使用该训练好的药物筛选模 型,从大量药物库中快速筛除出对该新型病毒有效的候选药物集,从 而提高药物筛查速度,极大缩短药物筛查的时间。
实验数据:
样本数据:药物-病毒对,正样本(相关联的样本)1200和负样 本(不相关联的样本)5000
对筛选药物模型进行多轮训练和评测。采用多折交叉验证的方 法,进行多次训练,训练轮数和测试集错误率的关系如下:
训练轮数 测试集错误率
30epoch 35.2%
70epoch 16.3%
120epoch 10.2%
180epoch 5.6%
230epoch 8.4%
在训练轮数为180epoch时,测试集错误率为最低点5.6%,这时 的模型具备较好的泛化能力。
S30、根据所述有效值确定待测病毒对应的目标药物,其中,所 述目标药物为若干药物中的一种或多种。
在本实施例中,有效值指的是待筛选药物对待测病毒有效与否的 指示。当新型病毒出现时,结合新发现病毒的基因序列,对大规模候 选药物数据库初步地筛选出可能有效的药物,该筛选过程在计算机上 自动地快速地完成,筛选完成后产生一个小规模的候选药物集,然后 由专业人士对该小规模的候选药物集进行二次筛选,以得到对所述待 测病毒有效的药物。这样,极大地缩减药物筛查的周期,进而缩短针 对病毒感染疾病的药物的研发周期。
这样,基于步骤S10-S30,本发明使用人工智能技术直接挖掘病 原体基因序列和药物分子式之间的内在关联关系;在计算上快速地自 动地初步筛选药物,大幅缩小需要专业人士筛选的候选药物数据库的 规模,从而可以大幅缩减药物筛选的时间;用由计算机检索的更大规 模的药物数据库用以初步筛选,能够更全面地覆盖各种药物,减小了 目标药物在收集药物数据阶段被遗漏的概率,提高病毒感染疾病的药 物的筛选和研发的成功率,提高了筛选效率,极大方便用户。
基于上述方法,本发明还提供一种药物筛选设备,如图10所示, 所述设备100包括处理器11以及与所述处理器11连接的存储器22, 图10仅示出了设备100的部分组件,但是应理解的是,并不要求实 施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器22在一些实施例中可以是所述设备100的内部存储 单元,例如设备100的内存。所述存储器22在另一些实施例中也可 以是所述设备100的外部存储设备,例如所述设备100上配备的插接 式U盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储 器22还可以既包括所述设备100的内部存储单元也包括外部存储设 备。所述存储器22用于存储安装于所述设备100的应用软件及各类 数据,例如所述药物筛选程序代码等。所述存储器22还可以用于暂 时地存储已经输出或者将要输出的数据。在一实施例中,存储器22 上存储有药物筛选程序,该药物筛选程序可被处理器11所执行,从 而实现本申请中药物筛选方法,具体如上述方法所述。
所述处理器11在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器,手机基带处理器或其他数据处 理芯片,用于运行所述存储器22中存储的程序代码或处理数据,例 如执行所述药物筛选方法等,具体如上述方法所述。
基于上述方法,本发明还提供了一种计算机可读存储介质,所述 计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程 序可被一个或者多个处理器执行,以实现上述所述的药物筛选方法的 步骤。
本领域技术人员可以理解,图3所示的仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设 备的限定,具体的智能终端可以包括比图中所示更多或更少的部件, 或者组合某些部件,或者具有不同的部件布置。所述处理器执行所述 计算机程序时实现上述所述的药物筛选方法的步骤,具体如上所述。
综上,本发明公开了一种药物筛选方法、设备及存储介质,该方 法包括获取待测病毒对应的若干药物;对于若干药物中的每个药物, 将该药物的药物分子以及所述待测病毒的碱基数字序列输入经过训 练的药物筛选模型,通过所述药物筛选模型确定该药物对应的有效 值;根据所述有效值确定待测病毒对应的目标药物,其中,所述目标 药物为若干药物中的一种或多种。本发明旨在基于药物-病毒对集进 行深度学习的到已训练的药物筛选模型进行筛选,这样可以提高药物 筛选模型的运算性能,极大地缩减药物筛查的周期,进而缩短针对病 毒感染疾病的药物的研发周期,从而提高了药物筛选的效率。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全 部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器, 控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质 中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的 存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通 技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和 变换都应属于本发明所附权利要求的保护范围。

Claims (12)

1.一种药物筛选方法,其特征在于,所述药物筛选方法包括以下步骤:
获取待测病毒对应的若干药物;
对于若干药物中的每个药物,将该药物的药物分子以及所述待测病毒的碱基数字序列输入经过训练的药物筛选模型,通过所述药物筛选模型确定该药物对应的有效值;
根据所述有效值确定待测病毒对应的目标药物,其中,所述目标药物为若干药物中的一种或多种。
2.根据权利要求1所述的药物筛选方法,其特征在于,所述药物筛选模型基于训练集训练得到,所述训练集包括多组训练数据对,每组训练数据对包括训练药物的药物分子和训练病毒的碱基数字序列,不同组训练数据具有相同的训练病毒。
3.根据权利要求2所述的药物筛选方法,其特征在于,所述药物筛选模型的训练过程包括:
针对多组训练数据对中每一组训练数据对,将所述训练药物的药物分子和训练病毒的碱基数字序列输入至所述药物筛选模型,通过所述药物筛选模型输出所述训练药物-训练病毒的预测值;其中,所述预测值用于指示所述训练药物是否对训练病毒的抑制效果;
根据所述预测值对所述药物筛选模型的参数进行修正,直至通过所述药物筛选模型所输出的预测值达到期望值停止训练,以得到经训练的药物筛选模型。
4.根据权利要求3所述的药物筛选方法,其特征在于,所述药物筛选模型包括长短期记忆网络模型、图卷积神经网络模型、特征融合单元以及多层感知器模型,所述针对多组训练药物-训练病毒对中每一组训练药物-训练病毒对,将所述训练药物的药物分子和训练病毒的碱基数字序列输入至所述药物筛选模型,通过所述药物筛选模型输出所述训练药物-训练病毒的预测值具体包括:
将训练病毒的碱基数字序列输入至长短期记忆网络模型,通过所述长短期记忆网络模型输出所述训练病毒的病毒基因序列特征;
将训练药物的药物分子输入至图卷积神经网络模型,通过所述图卷积神经网络模型输出所述训练药物的药物分子特征;
将所述药物分子特征与所述病毒基因序列特征输入至特征融合单元,通过所述特征融合单元输出所述训练药物-训练病毒对的融合特征;
将所述融合特征输入至多层感知器模型,通过所述多层感知器模型输出所述训练药物-训练病毒的预测值。
5.根据权利要求4所述的药物筛选方法,其特征在于,所述长短期记忆网络模型包括多个依次连接的长短期记忆网络单元,所述将训练病毒的碱基数字序列输入至长短期记忆网络模型,通过所述长短期记忆网络模型输出所述训练病毒的病毒基因序列特征具体包括:
将碱基数字序列中第一个数字作为目标数字,输入至第一个长短期记忆网络单元,通过所述第一个长短期记忆网络单元输出中间病毒基因序列特征,将所述中间病毒基因序列特征作为目标基因序列特征;
将第一个数字的下一个数字作为目标数字与所述目标基因序列特征输入至第一个长短期记忆网络单元的下一个长短期记忆网络单元,通过所述下一个长短期记忆网络单元得到下一个目标基因特征;
重复步骤直至将碱基数字序列的最后一个数字作为目标数字与上一个目标基因序列特征输入至最后一个长短期记忆网络单元,通过最后一个长短期记忆网络单元输出将第一个数字的下一个数字作为目标数字与第一个目标基因特征输入至所述训练病毒的病毒基因序列特征。
6.根据权利要求5所述的药物筛选方法,其特征在于,每次将目标数字输入至长短期记忆网络单元的间隔时间相同。
7.根据权利要求4所述的药物筛选方法,其特征在于,所述图卷积神经网络模型包括输入层、多级联隐藏层以及输出层,所述将训练药物的药物分子输入至图卷积神经网络模型,通过所述图卷积神经网络模型输出所述训练药物的药物分子特征具体包括:
将训练药物的药物分子输入至所述输入层,通过所述输入层得到药物分子图;
将所述药物分子图输入至第一级隐藏层,通过所述第一级隐藏层输出后经激活函数得到第一药物分子特征图;
将所述第一药物分子特征图作为目标药物分子图输入至第一级隐藏层的下一级隐藏层,通过所述下一级隐藏层输出后经相同的激活函数后得到下一药物分子特征图,直至将前一个药物分子特征图作为目标药物分子图输入至最后一级隐藏层,通过最后一级隐藏层输出最后一药物分子特征图;
将所述最后一药物分子特征图输入至所述输出层,通过所述输出层输出所述训练药物的药物分子特征。
8.根据权利要求4所述的药物筛选方法,其特征在于,所述多层感知器模型包括输入层、多级联隐藏层以及输出层,所述将所述融合特征输入至多层感知器模型,通过所述多层感知器模型输出所述训练药物-训练病毒的预测值具体包括:
将融合特征输入至所述输入层,通过所述输入层得到初始融合特征;
将所述初始融合特征输入至第一级隐藏层,通过所述第一级隐藏层输出第一目标特征;
将所述第一目标特征作为目标输入至第一级隐藏层的下一级隐藏层,通过所述下一级隐藏层输出下一目标特征,直至将前一个目标特征作为目标输入至最后一级隐藏层,通过最后一级隐藏层输出最后一目标特征;
将所述最后一目标特征输入至所述输出层,通过所述输入层输出所述训练药物-训练病毒的预测值。
9.根据权利要求1所述的药物筛选方法,其特征在于,所述经过训练的药物筛选模型包括长短期记忆网络模型、图卷积神经网络模型、特征融合单元以及多层感知器模型,所述对于若干药物中的每个药物,将该药物的药物分子以及所述待测病毒的碱基数字序列输入经过训练的药物筛选模型,通过所述药物筛选模型确定该药物对应的有效值具体包括:
获取每组中每个所述药物的药物分子以及所述待测病毒的碱基数字序列;其中,同一组的每个药物对应相同的待测病毒;
将每个所述药物分子依次输入至所述图卷积神经网络模型,同时将待测病毒的碱基数字序列输入至所述长短期记忆网络模型;
通过所述图卷积神经网络模型和所述长短期记忆网络模型的处理后共同输出至所述特征融合单元,经所述特征融合单元处理后,所述特征融合单元输出至搜索多层感知器模型,通过所述多层感知器模型处理后依次输出每个所述药物对应的有效值。
10.根据权利要求9所述的药物筛选方法,其特征在于,所述获取所述待测病毒的碱基数字序列具体包括:
获取待测病毒的碱基字母序列;
将所述碱基字母序列映射成碱基数字序列,其中,相同字母转换为同一数字。
11.一种药物筛选设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的药物筛选方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至10中任一项所述的药物筛选方法的步骤。
CN202010679265.4A 2020-07-15 2020-07-15 一种药物筛选方法、设备及存储介质 Pending CN113948160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010679265.4A CN113948160A (zh) 2020-07-15 2020-07-15 一种药物筛选方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010679265.4A CN113948160A (zh) 2020-07-15 2020-07-15 一种药物筛选方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113948160A true CN113948160A (zh) 2022-01-18

Family

ID=79326016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010679265.4A Pending CN113948160A (zh) 2020-07-15 2020-07-15 一种药物筛选方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113948160A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842914A (zh) * 2022-04-24 2022-08-02 山东大学 一种基于深度学习的染色质环预测方法及系统
CN114974406A (zh) * 2022-05-11 2022-08-30 中国人民解放军总医院 抗病毒药物重定位模型的训练方法、系统、装置及产品
CN117708679A (zh) * 2024-02-04 2024-03-15 西北工业大学 一种基于神经网络的药物筛选方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842914A (zh) * 2022-04-24 2022-08-02 山东大学 一种基于深度学习的染色质环预测方法及系统
CN114842914B (zh) * 2022-04-24 2024-04-05 山东大学 一种基于深度学习的染色质环预测方法及系统
CN114974406A (zh) * 2022-05-11 2022-08-30 中国人民解放军总医院 抗病毒药物重定位模型的训练方法、系统、装置及产品
CN117708679A (zh) * 2024-02-04 2024-03-15 西北工业大学 一种基于神经网络的药物筛选方法及装置
CN117708679B (zh) * 2024-02-04 2024-04-26 西北工业大学 一种基于神经网络的药物筛选方法及装置

Similar Documents

Publication Publication Date Title
Torralba et al. Contextual models for object detection using boosted random fields
US20220188568A1 (en) Methods and systems for mining minority-class data samples for training a neural network
CN113948160A (zh) 一种药物筛选方法、设备及存储介质
CN110866530A (zh) 一种字符图像识别方法、装置及电子设备
CN111341386A (zh) 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法
CN111292195A (zh) 风险账户的识别方法及装置
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
Rahman et al. Prediction of brain stroke using machine learning algorithms and deep neural network techniques
TW202125340A (zh) 神經網路運算裝置及方法
CN110335160B (zh) 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统
CN114613437A (zh) 一种基于异构图的miRNA与疾病关联预测方法及系统
Betechuoh et al. Using inverse neural networks for HIV adaptive control
CN114065307A (zh) 一种基于双向图卷积神经网络的硬件木马检测方法与系统
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法
Livieris et al. An advanced conjugate gradient training algorithm based on a modified secant equation
CN116453585A (zh) mRNA和药物关联的预测方法、装置、终端设备及介质
CN116312856A (zh) 基于子结构的药物相互作用预测方法及系统
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
Ali et al. Character Recogntion System: Performance Comparison of Neural Networks and Genetic Algorithm
CN113409139B (zh) 信贷风险识别方法、装置、设备及程序
Upadhyayula et al. Mathematical methods in deep learning
Telec et al. Comparison of evolving fuzzy systems with an ensemble approach to predict from a data stream
Bidve et al. Enhancing Ayurvedic Diagnosis using Multinomial Naive Bayes and K-modes Clustering: An Investigation into Prakriti Types and Dosha Overlapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination