CN113436689B - 药物分子结构预测方法、装置、设备及存储介质 - Google Patents

药物分子结构预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113436689B
CN113436689B CN202110716346.1A CN202110716346A CN113436689B CN 113436689 B CN113436689 B CN 113436689B CN 202110716346 A CN202110716346 A CN 202110716346A CN 113436689 B CN113436689 B CN 113436689B
Authority
CN
China
Prior art keywords
drug
node sequence
molecular structure
node
functional groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110716346.1A
Other languages
English (en)
Other versions
CN113436689A (zh
Inventor
洪振厚
王健宗
瞿晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110716346.1A priority Critical patent/CN113436689B/zh
Publication of CN113436689A publication Critical patent/CN113436689A/zh
Application granted granted Critical
Publication of CN113436689B publication Critical patent/CN113436689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例公开了一种药物分子结构预测方法、装置、设备及存储介质,涉及人工智能领域。方法包括:从预设的药物数据库中获取样本药物的分子结构信息;根据样本药物的分子结构信息构建药物结构知识图谱;接收用户输入的药物设计要素,药物设计要素包括功能官能团以及官能团的数量范围;根据药物设计要素在药物结构知识图谱中获取节点序列;获取节点序列的节点向量,并将节点向量输入到预训练的文本分类模型中以得到节点序列的标签;若节点序列的标签为预设的目标标签,向用户输出节点序列。节点序列代表了一种包含了功能官能团的药物结构,可供用户在药物研发中做参考,从而减少了用户在药物分子设计上的耗时,极大地提高了新药物研发的效率。

Description

药物分子结构预测方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种药物分子结构预测方法、装置、设备及存储介质。
背景技术
随着现代医学的发展,药物正朝着精细化方向发展。近年来,新药物的研发成为了现代医学中一个重要且火热的领域。
目前,药物研发主要依靠人工进行药物分子设计。
药物分子设计过程中,需要考虑的因素十分繁多,采用人工设计的方式,首先,设计工程师根据药物的所需的功能预测药物的结构,再对药物结构的稳定性进行计算,倘若采用人工涉及与计算的方式,通常效率十分低下。
发明内容
本发明实施例提供了一种药物分子结构预测方法、装置、设备及存储介质,旨在解决现有药物研发方式效率低下的问题。
第一方面,本发明实施例提供了一种药物分子结构预测方法,其包括:
从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
第二方面,本发明实施例还提供了一种药物分子结构预测装置,其包括:
第一获取单元,用于从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
构建单元,用于根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收单元,用于接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
第二获取单元,用于根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
第三获取单元,用于获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
输出单元,用于若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种药物分子结构预测方法、装置、设备及存储介质。其中,所述方法包括:从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。节点序列代表了一种包含了功能官能团的药物结构,可供用户在药物研发中做参考,从而减少了用户在药物分子设计上的耗时,极大地提高了新药物研发的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种药物分子结构预测方法的流程示意图;
图2为本发明实施例提供的一种药物分子结构预测方法的子流程示意图;
图3为本发明实施例提供的一种药物分子结构预测方法的子流程示意图;
图4为本发明另一实施例提供的一种药物分子结构预测方法的流程示意图;
图5为本发明实施例提供的一种药物分子结构预测装置的示意性框图;
图6为本发明另一实施例提供的一种药物分子结构预测装置的示意性框图;
图7为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的一种药物分子结构预测方法的流程示意图。本发明可应用于智慧医疗场景中,从而推动智慧城市的建设。如图所示,该方法包括以下步骤S1-S6。
S1,从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团。
具体实施中,药物数据库是指记录了现有药物信息的数据库。样本药物是指现有的药物。可以理解地,药物数据库可以通过采集现有公开的药物信息得到,同时,药物数据库是预先构建得到的。
本发明实施例中,从药物数据库中获取样本药物的分子结构信息,分子结构信息包括所述样本药物的官能团。
例如,一样本药物A,其分子结构信息包括:样本药物A总共包括3个官能团,该三个官能团分别为官能团a、官能团b以及官能团c,其中,官能团b与官能团a和官能团c之间存在化学键。
S2,根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团。
具体实施中,以样本药物的官能团为节点构建药物结构知识图谱,其中,若样本药物的两个官能团之间存在化学键,则在该两个官能团之间建立边。
样本药物的数量越多,所能够得到的药物结构知识图谱的复杂度就更高。通过药物结构知识图谱能够反应样本药物的官能团之间的连接关系。
需要说明的是,知识图谱是图的一种。图(Graph)是由节点的有穷非空集合和节点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中节点的集合,E是图G中边的集合。
图是一种比线性表和树更复杂的数据结构。在图中,节点之间的关系是任意的,任意两个节点之间都可能相关。
图是一种多对多的数据结构。它包含节点集合和边集合两部分,边反映了节点之间的关系。若图的两个节点之间存在关联,则该两个节点之间存在边;若图的两个节点之间不存在关联,则该两个节点之间不存在边。
参见图2,在一实施例中,以上步骤S2具体包括如下步骤:
S21,将所述样本药物的官能团作为所述药物结构知识图谱的节点添加到所述药物结构知识图谱的节点集合中。
具体实施中,预先建立所述药物结构知识图谱的节点集合,之后将所述样本药物的官能团作为所述药物结构知识图谱的节点添加到所述药物结构知识图谱的节点集合中。
S22,逐一判断所述样本药物的任意两个官能团之间是否存在化学键。
具体实施中,样本药物的分子结构信息包括所述样本药物化学式,根据所述样本药物化学式逐一判断所述样本药物的任意两个官能团之间是否存在化学键。
S23,若所述样本药物的两个官能团之间存在化学键,则在该两个官能团之间建立边,并将该两个官能团的边添加到所述药物结构知识图谱的边集合中。
具体实施中,预先建立所述药物结构知识图谱的边集合。如果所述样本药物的两个官能团之间是否存在化学键,则在该两个官能团之间建立边,并将该两个官能团的边添加到所述药物结构知识图谱的边集合中。
同时,还可以进一步将该两个官能团之间的边的权重设定为该两个官能团之间的化学键的键能。
S3,接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围。
具体实施中,药物的功能主要由药物包含的官能团实现,例如,羟基具有亲水性,因此羟基经常出现在亲水性的药物中。进一步地,药物的合成难度与其包含的官能团数量密切相关,通常而言,官能团的数量越多,合成难度越大。
本发明实施例中,接收用户输入的药物设计要素,所述药物设计要素包括功能官能团以及官能团的数量范围。其中,功能官能团用于实现药物的功能,官能团的数量范围用于限定药物的合成难度。
S4,根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内。
具体实施中,节点序列通过在所述药物结构知识图谱的节点之间沿着边游走后得到,因此,节点序列相邻的两个节点之间必然存在边。
本发明实施例中,在确定了药物设计要素(即功能官能团以及官能团的数量范围)后,从所述药物结构知识图谱中获取节点序列,并且所述节点序列包含所述功能官能团,同时所述节点序列包含的官能团(节点)的数量在所述数量范围内。
本发明中,节点序列对应药物分子结构。具体地,将节点序列包含的各官能团按照各官能团之间的边进行连接,即可得到节点序列对应药物分子结构。
在一实施例中,以上步骤S4具体包括如下步骤:在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行随机游走,得到节点序列;其中,随机游走的次数在所述官能团的数量范围内。
在本实施例中,采用随机游走的方式来获取节点序列,具体地,在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行随机游走,并且游走的次数在所述官能团的数量范围内,得到节点序列。
需要说明的是,游走时的可以沿着一条边或者同时沿着多条边进行游走,以此来模拟药物的分子结构。
例如,在一实施例中,与官能团A存在边的官能团为官能团B以及官能团C官,则在从官能团A出发游走时,可游走到官能团B或者官能团C或者同时游走到官能团B以及官能团C。
在一实施例中,以上步骤S4具体包括如下步骤:在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行游走,得到节点序列;其中,游走的次数在所述官能团的数量范围内,在游走过程中,返回到原来节点的概率为预设的返回概率参数,不返回到原来节点的概率为预设的离开概率参数。
在本实施例中,采用限定概率游走的方式来获取节点序列,具体地,在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行游走,并且游走的次数在所述官能团的数量范围内,得到节点序列。其中,在游走过程中,返回到原来节点的概率为预设的返回概率参数,不返回到原来节点的概率为预设的离开概率参数。
需要说明的是,游走时的可以沿着一条边或者同时沿着多条边进行游走,以此来模拟药物的分子结构。
例如,在一实施例中,与官能团A存在边的官能团为官能团B以及官能团C官,则在从官能团A出发游走时,可游走到官能团B或者官能团C或者同时游走到官能团B以及官能团C。
S5,获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性。
具体实施中,文本分类模型可具体为CNN或者BERT等模型,本发明对此不作具体限定。
首先通过大量批注了标签的样本数据来对文本分类模型进行训练。样本数据包括正样本以及负样本,正样本可具体为现有结构稳定的药物的官能团序列,负样本可具体由用户输入的结构不稳定的官能团序列。根据样本的结构稳定性标定样本的标签,即,标签用于指示所述节点序列对应的药物分子结构的稳定性。标签可具体包括稳定以及不稳定。经过预训练的文本分类模型具有识别分子结构稳定性的能力。
本发明实施例中,获取所述节点序列的节点向量,节点向量为文本分类模型能够识别的数据。将节点向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述节点序列的标签。标签可具体包括稳定以及不稳定。
需要说明的是,节点序列为官能团组成的序列,每一节点序列可以代表一种药物的分子结构。
若标签为稳定,则说明该节点序列所代表的药物的分子结构是稳定的,即该药物有可能制备出来,可作为用户在药物设计时的参考;若标签为不稳定,则说明该节点序列所代表的药物的分子结构是不稳定的,即该药物不可能制备出来,因此可以直接排除。
参见图3,在一实施例中,以上步骤:获取所述节点序列的节点向量,具体包括如下步骤:
S51,对所述节点序列进行分词处理以得到分词集合。
具体实施中,分词处理指的是将节点序列切分成一个一个单独的词语。具体地,可通过分词工具对所述节点序列进行分词处理以得到分词集合,常用的分词工具为结巴分词工具。
例如,在一实施例中,节点序列为:羟基-苯环-羧基。则对所述节点序列进行分词处理得到的分词集合为(羟基,苯环,羧基)。
S52,对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量。
具体实施中,采用word2vec来对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量。word2vec是一种自然语言处理工具,其作用就是将自然语言中的字词转为计算机可以理解的词向量。
传统的词向量容易受维数灾难的困扰,且任意两个词之间都是孤立的,不能体现词和词之间的关系,因此本实施例采用word2vec来得到词向量,其可通过计算向量之间的距离来体现词与词之间的相似性。
或者,在其他实施例中,可采用其他词向量工具进行词向量训练,本发明对此不作具体限定。
S53,将所述分词集合的词语的词向量输入到预设的RNN模型中进行编码,以输出所述节点序列的节点向量。
具体实施中,将所述分词集合的词语的词向量输入到预设的RNN模型中,并通过预设的RNN模型来对所述分词集合的词语的词向量进行编码以得到所述节点序列的节点向量。
S6,若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
具体实施中,目标标签可具体为稳定。若所述节点序列的标签为目标标签,则说明该该节点序列所代表的药物的分子结构是稳定的,即该药物有可能制备出来,因此向用户输出所述节点序列。
节点序列所代表的药物的分子结构可供用户在药物研发中做参考,减少了用户在药物分子设计上的耗时,极大地提高了效率。
通过应用本发明实施例的技术方案,从预设的药物数据库中获取样本药物的分子结构信息;根据所述样本药物的分子结构信息构建药物结构知识图谱;接收用户输入的药物设计要素,所述药物设计要素包括功能官能团以及官能团的数量范围;根据所述药物设计要素在所述药物结构知识图谱中获取节点序列;获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。节点序列代表了一种包含了功能官能团的药物结构,可供用户在药物研发中做参考,从而减少了用户在药物分子设计上的耗时,极大地提高了新药物研发的效率。
图4是本发明另一实施例提供的一种药物分子结构预测方法的流程示意图。如图4所示,本实施例的药物分子结构预测方法包括步骤S41-S48。其中步骤S41、S43-S47与上述实施例中的步骤S1-S6类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S42以及S48。
S41,从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团。
S42,对所述样本药物的分子结构信息进行数据清洗处理,以得到所述样本药物数据清洗后的分子结构信息。
具体实施中,数据清洗处理(Data cleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通过数据清洗能够提高后续文本分类模型计算的准确性。
具体地,逐一对各样本药物的分子结构信息进行数据清洗处理,以得到所述样本药物数据清洗后的分子结构信息。清洗过程包括剔除标注错误,例如,官能团的连接错误,或者官能团化学名称的错误。可以理解地,后续步骤S43中,根据所述样本药物数据清洗后的分子结构信息来构建知识图谱。
S43,根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团。
S44,接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围。
S45,根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内。
S46,获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性。
S47,若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
S48,若所述节点序列的标签不是预设的目标标签,返回步骤S45。
具体实施中,如果所述节点序列的标签不是预设的目标标签,则说明该节点序列所代表的药物的分子结构是不稳定的,即该药物不可能制备出来。
因此,返回步骤S45,循环执行步骤S45-S46,直到所述节点序列的标签为预设的目标标签为止。
参见图5,图5是本发明实施例提供的一种药物分子结构预测装置70的示意性框图。对应于以上药物分子结构预测方法,本发明还提供一种药物分子结构预测装置70。该药物分子结构预测装置70包括用于执行上述药物分子结构预测方法的单元,该药物分子结构预测装置70可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,该药物分子结构预测装置70包括第一获取单元71、构建单元72、接收单元73、第二获取单元74、第三获取单元75以及输出单元76。
第一获取单元71,用于从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
构建单元72,用于根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收单元73,用于接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
第二获取单元74,用于根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
第三获取单元75,用于获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
输出单元76,用于若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
在一实施例中,所述根据所述样本药物的分子结构信息构建药物结构知识图谱,包括:
将所述样本药物的官能团作为所述药物结构知识图谱的节点添加到所述药物结构知识图谱的节点集合中;
逐一判断所述样本药物的任意两个官能团之间是否存在化学键;
若所述样本药物的两个官能团之间存在化学键,则在该两个官能团之间建立边,并将该两个官能团的边添加到所述药物结构知识图谱的边集合中。
在一实施例中,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行随机游走,得到节点序列;其中,随机游走的次数在所述官能团的数量范围内。
在一实施例中,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行游走,得到节点序列;其中,游走的次数在所述官能团的数量范围内,在游走过程中,返回到原来节点的概率为预设的返回概率参数,不返回到原来节点的概率为预设的离开概率参数。
在一实施例中,所述获取所述节点序列的节点向量,包括:
对所述节点序列进行分词处理以得到分词集合;
对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量;
将所述分词集合的词语的词向量输入到预设的RNN模型中进行编码,以输出所述节点序列的节点向量。
图6是本发明另一实施例提供的一种药物分子结构预测装置70的示意性框图。如图6所示,本实施例的药物分子结构预测装置70是上述实施例的基础上增加了数据清洗单元77以及返回单元78。
数据清洗单元77,用于对所述样本药物的分子结构信息进行数据清洗处理,以得到所述样本药物数据清洗后的分子结构信息。
返回单元78,用于若所述节点序列的标签不是预设的目标标签,返回所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列的步骤,直到所述节点序列的标签为预设的目标标签为止。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述药物分子结构预测装置70和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述药物分子结构预测装置70可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种药物分子结构预测方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种药物分子结构预测方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,上述结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
在一实施例中,所述根据所述样本药物的分子结构信息构建药物结构知识图谱,包括:
将所述样本药物的官能团作为所述药物结构知识图谱的节点添加到所述药物结构知识图谱的节点集合中;
逐一判断所述样本药物的任意两个官能团之间是否存在化学键;
若所述样本药物的两个官能团之间存在化学键,则在该两个官能团之间建立边,并将该两个官能团的边添加到所述药物结构知识图谱的边集合中。
在一实施例中,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行随机游走,得到节点序列;其中,随机游走的次数在所述官能团的数量范围内。
在一实施例中,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行游走,得到节点序列;其中,游走的次数在所述官能团的数量范围内,在游走过程中,返回到原来节点的概率为预设的返回概率参数,不返回到原来节点的概率为预设的离开概率参数。
在一实施例中,所述获取所述节点序列的节点向量,包括:
对所述节点序列进行分词处理以得到分词集合;
对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量;
将所述分词集合的词语的词向量输入到预设的RNN模型中进行编码,以输出所述节点序列的节点向量。
在一实施例中,处理器502在实现所述根据所述样本药物的分子结构信息构建药物结构知识图谱步骤之前,还实现如下步骤:
对所述样本药物的分子结构信息进行数据清洗处理,以得到所述样本药物数据清洗后的分子结构信息。
在一实施例中,处理器502还实现如下步骤:
若所述节点序列的标签不是预设的目标标签,返回所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列的步骤,直到所述节点序列的标签为预设的目标标签为止。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
在一实施例中,所述根据所述样本药物的分子结构信息构建药物结构知识图谱,包括:
将所述样本药物的官能团作为所述药物结构知识图谱的节点添加到所述药物结构知识图谱的节点集合中;
逐一判断所述样本药物的任意两个官能团之间是否存在化学键;
若所述样本药物的两个官能团之间存在化学键,则在该两个官能团之间建立边,并将该两个官能团的边添加到所述药物结构知识图谱的边集合中。
在一实施例中,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行随机游走,得到节点序列;其中,随机游走的次数在所述官能团的数量范围内。
在一实施例中,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行游走,得到节点序列;其中,游走的次数在所述官能团的数量范围内,在游走过程中,返回到原来节点的概率为预设的返回概率参数,不返回到原来节点的概率为预设的离开概率参数。
在一实施例中,所述获取所述节点序列的节点向量,包括:
对所述节点序列进行分词处理以得到分词集合;
对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量;
将所述分词集合的词语的词向量输入到预设的RNN模型中进行编码,以输出所述节点序列的节点向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述样本药物的分子结构信息构建药物结构知识图谱步骤之前,还实现如下步骤:
对所述样本药物的分子结构信息进行数据清洗处理,以得到所述样本药物数据清洗后的分子结构信息。
在一实施例中,所述处理器在执行所述计算机程序还实现如下步骤:
若所述节点序列的标签不是预设的目标标签,返回所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列的步骤,直到所述节点序列的标签为预设的目标标签为止。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。所述计算机可读存储介质可以是非易失性,也可以是易失性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种药物分子结构预测方法,其特征在于,包括:
从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
2.根据权利要求1所述的药物分子结构预测方法,其特征在于,所述根据所述样本药物的分子结构信息构建药物结构知识图谱,包括:
将所述样本药物的官能团作为所述药物结构知识图谱的节点添加到所述药物结构知识图谱的节点集合中;
逐一判断所述样本药物的任意两个官能团之间是否存在化学键;
若所述样本药物的两个官能团之间存在化学键,则在该两个官能团之间建立边,并将该两个官能团的边添加到所述药物结构知识图谱的边集合中。
3.根据权利要求2所述的药物分子结构预测方法,其特征在于,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行随机游走,得到节点序列;其中,随机游走的次数在所述官能团的数量范围内。
4.根据权利要求2所述的药物分子结构预测方法,其特征在于,所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,包括:
在所述药物结构知识图谱中,从所述功能官能团出发,沿着所述功能官能团与其它节点之间的边进行游走,得到节点序列;其中,游走的次数在所述官能团的数量范围内,在游走过程中,返回到原来节点的概率为预设的返回概率参数,不返回到原来节点的概率为预设的离开概率参数。
5.根据权利要求3或4任一项所述的药物分子结构预测方法,其特征在于,所述获取所述节点序列的节点向量,包括:
对所述节点序列进行分词处理以得到分词集合;
对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量;
将所述分词集合的词语的词向量输入到预设的RNN模型中进行编码,以输出所述节点序列的节点向量。
6.根据权利要求1所述的药物分子结构预测方法,其特征在于,所述方法还包括:
若所述节点序列的标签不是预设的目标标签,返回所述根据所述药物设计要素在所述药物结构知识图谱中获取节点序列的步骤,直到所述节点序列的标签为预设的目标标签为止。
7.根据权利要求1所述的药物分子结构预测方法,其特征在于,所述根据所述样本药物的分子结构信息构建药物结构知识图谱之前,所述方法还包括:
对所述样本药物的分子结构信息进行数据清洗处理,以得到所述样本药物数据清洗后的分子结构信息。
8.一种药物分子结构预测装置,其特征在于,包括:
第一获取单元,用于从预设的药物数据库中获取样本药物的分子结构信息,其中,所述分子结构信息包括所述样本药物的官能团;
构建单元,用于根据所述样本药物的分子结构信息构建药物结构知识图谱,其中,所述药物结构知识图谱的节点为所述样本药物的官能团;
接收单元,用于接收用户输入的药物设计要素,其中,所述药物设计要素包括功能官能团以及官能团的数量范围;
第二获取单元,用于根据所述药物设计要素在所述药物结构知识图谱中获取节点序列,其中,所述节点序列包含所述功能官能团,所述节点序列包含的官能团的数量在所述官能团的数量范围内;
第三获取单元,用于获取所述节点序列的节点向量,并将所述节点向量输入到预训练的文本分类模型中以得到所述节点序列的标签,所述标签用于指示所述节点序列对应的药物分子结构的稳定性;
输出单元,用于若所述节点序列的标签为预设的目标标签,向用户输出所述节点序列对应的药物分子结构。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
CN202110716346.1A 2021-06-25 2021-06-25 药物分子结构预测方法、装置、设备及存储介质 Active CN113436689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110716346.1A CN113436689B (zh) 2021-06-25 2021-06-25 药物分子结构预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110716346.1A CN113436689B (zh) 2021-06-25 2021-06-25 药物分子结构预测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113436689A CN113436689A (zh) 2021-09-24
CN113436689B true CN113436689B (zh) 2022-04-29

Family

ID=77755232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110716346.1A Active CN113436689B (zh) 2021-06-25 2021-06-25 药物分子结构预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113436689B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002055550A2 (en) * 2000-08-17 2002-07-18 Upjohn Co Crystallization and structure determination of fema and/or fema-like proteins
CN103923067B (zh) * 2014-04-29 2016-08-24 湖北工业大学 一种MdmX/Mdm2的小分子抑制剂及制备方法和应用
US20180357363A1 (en) * 2015-11-10 2018-12-13 Ofek - Eshkolot Research And Development Ltd Protein design method and system
CN108694469A (zh) * 2018-06-08 2018-10-23 哈尔滨工程大学 一种基于知识图谱的关系预测方法
CN109575284A (zh) * 2018-12-11 2019-04-05 常州大学 一类含不对称甲基和间位苯环结构的聚酰亚胺树脂及其制备方法
US11455440B2 (en) * 2019-02-25 2022-09-27 International Business Machines Corporation Graphic user interface assisted chemical structure generation
EP4008006A1 (en) * 2019-08-02 2022-06-08 Flagship Pioneering Innovations VI, LLC Machine learning guided polypeptide design
CN110851617B (zh) * 2019-10-10 2022-09-16 中国海洋大学 一种基于知识图谱的多源信息药物筛选方法
CN112562791A (zh) * 2020-12-08 2021-03-26 中国石油大学(华东) 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质
CN112669916B (zh) * 2020-12-25 2022-03-15 浙江大学 一种基于对比学习的分子图表示学习方法

Also Published As

Publication number Publication date
CN113436689A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN110457682B (zh) 电子病历词性标注方法、模型训练方法及相关装置
JP2018181318A (ja) ソフトウェア欠陥報告を分類するシステム及び方法
CN110609902A (zh) 一种基于融合知识图谱的文本处理方法及装置
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN111008272A (zh) 基于知识图谱的问答方法、装置、计算机设备及存储介质
CN109858528B (zh) 推荐系统训练方法、装置、计算机设备及存储介质
CN111461168A (zh) 训练样本扩充方法、装置、电子设备及存储介质
CN111340054A (zh) 数据标注方法、装置及数据处理设备
US10755028B2 (en) Analysis method and analysis device
Wang et al. AUC-maximized deep convolutional neural fields for protein sequence labeling
CN111613341A (zh) 基于语义成分的实体链接方法及装置
CN113535986A (zh) 一种应用于医学知识图谱的数据融合方法及装置
Sarkar et al. An algorithm for DNA read alignment on quantum accelerators
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN113096756A (zh) 病情演变分类方法、装置、电子设备和存储介质
CN113436689B (zh) 药物分子结构预测方法、装置、设备及存储介质
CN112100378A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN111475736A (zh) 社区挖掘的方法、装置和服务器
CN111709475A (zh) 一种基于N-grams的多标签分类方法及装置
CN113792132B (zh) 一种目标答案确定方法、装置、设备及介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
CN114115878A (zh) 一种工作流节点推荐方法及装置
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant