CN118098435B - 一种用于药物功效预测的方法及系统 - Google Patents
一种用于药物功效预测的方法及系统 Download PDFInfo
- Publication number
- CN118098435B CN118098435B CN202410155879.0A CN202410155879A CN118098435B CN 118098435 B CN118098435 B CN 118098435B CN 202410155879 A CN202410155879 A CN 202410155879A CN 118098435 B CN118098435 B CN 118098435B
- Authority
- CN
- China
- Prior art keywords
- efficacy
- node
- medicine
- medicinal material
- drug
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000000463 material Substances 0.000 claims abstract description 94
- 239000013598 vector Substances 0.000 claims abstract description 68
- 229940079593 drug Drugs 0.000 claims abstract description 50
- 238000010586 diagram Methods 0.000 claims abstract description 39
- 238000005295 random walk Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000001174 ascending effect Effects 0.000 claims description 10
- 238000013508 migration Methods 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 3
- 238000012827 research and development Methods 0.000 abstract description 2
- 229940126680 traditional chinese medicines Drugs 0.000 abstract description 2
- 239000002547 new drug Substances 0.000 abstract 1
- 230000036039 immunity Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 230000003647 oxidation Effects 0.000 description 4
- 238000007254 oxidation reaction Methods 0.000 description 4
- WVXRAFOPTSTNLL-NKWVEPMBSA-N 2',3'-dideoxyadenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1CC[C@@H](CO)O1 WVXRAFOPTSTNLL-NKWVEPMBSA-N 0.000 description 3
- 241001116389 Aloe Species 0.000 description 3
- 240000003394 Malpighia glabra Species 0.000 description 3
- 235000014837 Malpighia glabra Nutrition 0.000 description 3
- 235000011399 aloe vera Nutrition 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 235000000832 Ayote Nutrition 0.000 description 2
- 241000167550 Centella Species 0.000 description 2
- 235000009854 Cucurbita moschata Nutrition 0.000 description 2
- 240000001980 Cucurbita pepo Species 0.000 description 2
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 235000015136 pumpkin Nutrition 0.000 description 2
- 235000011437 Amygdalus communis Nutrition 0.000 description 1
- 244000144725 Amygdalus communis Species 0.000 description 1
- 241000605445 Anemarrhena asphodeloides Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 244000146462 Centella asiatica Species 0.000 description 1
- 235000004032 Centella asiatica Nutrition 0.000 description 1
- 241000207199 Citrus Species 0.000 description 1
- 241000756943 Codonopsis Species 0.000 description 1
- 241000612118 Samolus valerandi Species 0.000 description 1
- 239000003963 antioxidant agent Substances 0.000 description 1
- 230000003078 antioxidant effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000020971 citrus fruits Nutrition 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 235000013402 health food Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 235000021095 non-nutrients Nutrition 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种用于药物功效预测的方法及系统,涉及中医药领域,该方法包括:构建药材‑功效异构网络图;基于构建的药材‑功效异构网络图,通过Metapath2vec算法进行基于元路径的随机游走,并生成节点游走序列;进行模型训练,通过Word2vec模型学习药材和功效之间的语义关系信息;预测与分析。本发明通过使用Metapath2vec算法,可以有效地从大量数据中学习中药材的功效信息;本发明通过计算药材节点和功效节点的向量表示的相似度,可以预测新药物或新药方的功效;本发明可以辅助中医进行药材和药性的功效理解,助力中医进行处方药材的选择和新药方的研究;本发明极大地助力了新药方的研发和效率。
Description
技术领域
本发明涉及中医药领域,尤其涉及一种用于药物功效预测的方法及系统。
背景技术
在中医药领域,对药材的功效理解和预测是一项重要且复杂的工作。传统的药材功效研究通常依赖于经验丰富的中医师的判断,但这种方法受到主观因素影响较大,且对中医师的经验要求较高。此外,对于新研发的药物或未知的复方,缺乏有效的预测方法对其进行功效的预先认知,这极大地阻碍了新药方的研发效率。
而现有技术在处理这类异质数据的能力上又相对有限:对于每种药材,现有技术未提供一种有效的方法来确定其主要功效,这限制了中医对药材和药性的全面理解;针对新研发或未知的药物药方,现有技术无法提供对其功效的准确预测,这影响了新药方的高效研发。
因此,开发一种客观、有效的药物功效预测方法显得尤为重要。
发明内容
本发明的目的是提出一种用于药物功效预测的方法及系统。
为了实现上述目的,本发明提供如下技术方案:
第一方面,本发明提供了一种用于药物功效预测的方法,包括以下步骤:
步骤S1、采用自定义元路径方法构建药材-功效异构网络图,所构建的药材-功效异构网络图中,所有药材和功效作为节点,它们之间的边表示该药材曾经出现在治疗该功效的药方中;
步骤S2、基于构建的药材-功效异构网络图,通过Metapath2vec算法进行基于元路径的随机游走,并生成节点游走序列;通过Word2vec模型训练,学习药材和功效之间的语义关系信息,将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,得到药材和功效的节点向量表示;
步骤S3、通过计算药材节点向量表示与数据集中每种功效节点的向量表示之间的相似度,预测含有多种药材的药物或药方的功效。
进一步地,步骤S1的具体操作如下:
首先收集用于构建药材-功效异构网络图的数据,然后对收集到的数据进行分析得到药材组成成分与对应功效之间的数据信息;利用这些药材组成成分与对应功效之间的数据信息构建药材-功效异构网络图。
进一步地,步骤S2中,基于元路径的随机游走的第i步的转移概率公式为:
其中,表示顶点,vi+1表示顶点的邻居顶点,Vt表示药材类型的顶点集合,表示顶点的Vt+1类型的领域顶点,领域顶点为与该顶点直接相连接的顶点集合,换言之vi+1∈Vt+1,Vt+1表示功效类型的顶点集合。
进一步地,步骤S2中,基于元路径的随机游走的具体操作步骤如下:
(1)起始节点选择:从药材-功效异构网络图中随机选择一个节点作为起始节点;
(2)随机移动:从所选取的当前节点按照一定的策略选择下一个节点;
(3)重复步骤(2)的随机移动过程,直到达到预定的游走长度或其他终止条件结束。
进一步地,步骤S2中,所述Word2vec模型选用Skip-Gram模型。
进一步地,步骤S3中,对于待预测的药物,首先获取药物中每种药材的节点向量表示,对其组成药材的节点向量表示进行平均池化。
进一步地,步骤S3的具体步骤如下:
S31、使用欧氏距离法计算待预测药物节点向量表示与数据集中每种功效节点向量表示的相似度;
S32、将计算得到的欧氏距离按照升序排列;
S33、根据S32欧氏距离升序排列所得结果,分析待预测药物与各功效间的相关关系,若药物的向量表示与某功效的向量表示之间的欧氏距离越小,则说明药物和功效节点之间的向量表征越接近,两者关联性越强,即该药物具有此功效的可能性越大。
第二方面,本发明提供了一种用于药物功效预测的系统,包括以下模块以实现上述任一项所述的用于药物功效预测的方法:
异构网络图构建模块,用于构建药材-功效异构网络图;
Metapath2vec算法模块,用于按照基于元路径的随机游走方式生成节点游走序列;
模型训练模块,用于学习药材和功效之间的语义关系信息,将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,并输出每个节点的向量表示;
预测与分析模块,用于对待预测药物进行功效预测,根据药物和功效欧氏距离升序排列所得结果,分析待预测药物与各功效间的相关关系。
与现有技术相比,本发明的有益效果为:
本发明提供的一种用于药物功效预测的方法,核心思想是结合药材-功效异构网络图和Metapath2vec算法,通过Meta-path(元路径)的随机游走得到节点游走序列,通过Word2vec模型对节点游走序列进行训练学习,可以充分学习到节点之间通过游走序列进行传递和汇聚的信息,即可以分别得到药材节点和功效节点的节点向量表示(embedding)。后续的任何研究和计算都可以用每个节点各自的节点向量表示作为节点本身的代表,通过欧氏距离法计算药材节点和功效节点的向量表示的相似度,以此实现对待预测药物可能具有的功效的预测和分析,并输出药物和各功效的向量表示的欧氏距离大小(欧氏距离越小,相似度越大,关联越强)结果。本发明可以辅助中医进行药材和药性的功效理解,助力中医进行处方药材的选择和新药方的研究,极大地助力了新药方的研发和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用于药物功效预测的方法流程图。
图2为本发明实施例提供的基于Meta-path(元路径)的Random walks(随机游走)方式生成节点游走序列。
图3为本发明实施例提供的Skip-Gram模型示意图。
图4为本发明实施例提供的异构网络图示例。
图5为本发明实施例提供的生成的节点游走序列示例图。
图6为本发明实施例提供的待预测药物的专利信息说明。
图7为本发明实施例提供的待预测药物应具有的功效信息。
图8为本发明实施例提供的Skip—gram模型神经网络结构。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
参见图1进行说明,本发明的一种用于药物功效预测的方法,其具体包括以下步骤:
步骤S1、数据准备:构建药材-功效异构网络图。
在真实世界中,很多图都包含了多种类别节点和边,这类图被称之为异构网络图。显然,同构网络图是异构网络图中的一个特例,其节点和边的种类都是1。
本方案中,构建药材-功效异构网络图具体操作步骤如下:
首先收集用于构建药材-功效异构网络图的数据,数据来源可以为专利数据。例如采用incoPat(https://wwwincopat.com)库对全球专利进行部分采集。对初步采集数据进行去重去噪、人工筛选后得到最终数据。检索时间范围为1995年1月-2021年11月。整理数据如表1所示。
表1
然后对收集到的数据进行分析从而得到药材组成成分与对应功效之间的数据信息;利用这些药材组成成分与对应功效之间的数据信息,采用自定义元路径(Meta-path)方法构建药材-功效异构网络图。
通过自定义节点和边的类型来构建异构图、从关系数据库中提取(如果数据存储在关系数据库中,可以通过查询数据库并将表连接起来来构建异构图)、知识图谱(从知识图谱中抽取信息来构建异构图)、深度学习方法(一些深度学习方法,如图神经网络(GNN)、异构图神经网络(Heterogeneous Graph Neural Network,HIN-GNN)等,可以通过学习节点嵌入来隐式地构建异构图)等。本发明采用自定义元路径(meta-paths)方法来构建异构图。
步骤S2、模型训练:基于构建的药材-功效异构网络图,通过Metapath2vec算法进行基于元路径的随机游走(Random walks),并生成节点游走序列;通过Word2vec模型训练,学习药材和功效之间的语义关系信息,将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,得到药材和功效的节点向量表示。
Metapath2vec算法是一种用于异构信息网络(Heterogeneous InformationNetwork,HIN)的图嵌入方法。Metapath2vec使用基于Meta-path(元路径)的Random walks(随机游走)来构建每个顶点的异构邻域,然后用Word2vec模型来完成顶点的嵌入。
Meta-path(元路径)是在图数据中的一种结构化表达方式,通过指定节点之间的边的类型和顺序,形成一个节点序列,这个节点序列可以用于表示特定的语义关系或结构模式。在本发明中,定义的节点序列是药材-功效,药材和功效节点之间的边表示该药材曾经出现在治疗该功效的药方中,即药材和功效节点之间的边的含义是将有直接关系的药材和功效连接起来。
基于元路径的随机游走具体操作步骤如下:
在同构信息网络中,DeepWalk和node2vec等算法通过随机游走的方式来构建Skip-Gram模型的上下文语料库。在不考虑顶点类型和边类型的情况下,表示从顶点向其邻居顶点vi+1的转移概率。然而已有研究证明异构信息网络上的随机游走会偏向于某些高度可见的类型的顶点,这些顶点的路径在异构信息网络中具有一定的统治地位,而这些有一定比例的路径指向一小部分节点的集合。
鉴于此,本发明采用了基于Meta-path(元路径)的随机游走方式来生成Skip-Gram模型的邻域上下文。该随机游走方式可以同时捕获不同类型顶点之间的语义关系和结构关系,促进了异构信息网络向Metapath2vec的Skip-Gram模型的转换。具体的,对于药材-功效异构网络图G=(V,E,T),其中每个节点和边分别对应一个映射∮(v):V->TV和∮(e):E->TE;其中TV和TE分别表示节点的类型集合以及关系的类型集合,∮(v)表示将节点映射到其对应的类型,例如将某种药材映射为“药材”类型,将某种功效映射为“功效”类型,∮(e)表示将边(节点之间连接的边代表的是两种节点之间的关联关系)映射到其对应的类型。v和e分别表示具体某一个节点和具体某一条边,V和E分别表示整个异构图的节点集合和边集合。因此,基于Meta-path(元路径)的随机游走的第i步的转移概率公式如下所示:
其中,表示顶点,vi+1表示顶点的邻居顶点,表示顶点的Vt+1类型的领域顶点(领域顶点为与该顶点直接相连接的顶点)集合,换言之vi+1∈Vt+1。在此研究中,Vt表示药材类型的顶点集合,Vt+1表示功效类型的顶点集合。
其中,Random walks(随机游走)的具体操作步骤如下:
(1)起始节点选择:从药材-功效异构网络图中随机选择一个节点作为起始节点;
(2)随机移动:从所选取的当前节点按照一定的策略选择下一个节点;
(3)重复步骤(2)的随机移动过程,直到达到预定的游走长度或其他终止条件结束。
通过上述操作所获取的节点游走序列如图2所示,d1-d4均表示药材节点,i1-i5均表示功效节点,生成的节点游走序列有d2-i2-d3和d1-i3-d2-i5-d4。
上述得到的节点游走序列可以类比为自然语言处理中的词序列,都可以通过Word2vec模型学习其节点的表达或者词表达(节点向量表示)。其中,Word2vec模型包含两种模型,一种是CBOW模型,一种是Skip-Gram模型。本发明中采用Skip-Gram模型,Skip-Gram模型的简单示意图如图3所示。Word2vec算法模型已较为成熟,所以在使用此算法时,只需要调用其封装好的包即可。Skip—gram模型是Word2vec的核心之一,在此解释一下其机理:
假设随机游走的序列步长为7,通过对药材-功效异构图进行游走步长为7的操作,得到了其中一个游走序列为:红枣、改善皮肤/油分、芦荟、增强免疫力、南瓜、抗氧化、党参。在此假设“增强免疫力”为中心词,设置滑动窗口为2(滑动窗口是人为定义的,如果滑窗大小为2,那么以“增强免疫力”为中心的左右两个单词都可以通过“增强免疫力”来预测得到,以此类推。当然在模型训练的过程中,滑动窗口在整个语料库中是不断的滚动的,所以每一个词都会成为中心词汇),那么在滑动窗口滑的过程中,当“增强免疫力”为中心词时,就可以通过“增强免疫力”去预测周围四个词(改善皮肤/油分、芦荟、南瓜、抗氧化)。
所以在此图中W(t)表示为输入层中的中心词“增强免疫力”,W(t-2)、W(t-1)、W(t+1)、W(t+2)分别表示输出层中需要预测的词改善皮肤/油分、芦荟、南瓜、抗氧化,中间无文字部分为隐含层。
为方便理解,附加了模型的神经网络结构。Skip—gram模型神经网络结构如图8所示。其中,V表示特征词词典的大小,N表示隐含层的大小,相邻两层的神经元之间为全连接。输入层{x1,x2...xv}为one-hot编码的向量,即其中仅仅有某一单元的值为1,而其它单元全为0,为1的单元所在的位置,即代表该特征词在词典中的位置。
输入层与隐含层之间的权值表示为一个V*N的矩阵W,W中的每一行是个N维的向量,它与输入层中相应的特征词相联系,词典V中第i个特征词Wi与W中相联系的向量表示为Vwi。假设输入层有一个输入x∈Rv,其中xk=1(表示输入的特征词为Wk),而xk’=0,x≠x’,则隐含层可以表示为:
此时,输出层共有C个V维的向量,第c个向量的第i个特征词用wc,j表示。
针对生成的节点游走序列,通过Skip-Gram模型的训练学习,不仅能够聚合节点自身和邻居节点的信息,还能聚合不存在邻接关系的节点之间的信息(某些不存在邻接关系的节点之间也可能存在特征相似性)。如图2所示,在节点游走序列d2-i2-d3和d1-i3-d2-i5-d4中,在不同节点游走序列的同一节点d2之后分别有序列i2-d3和i5-d4,则表明序列i2-d3和序列i5-d4之间的关系相近或者存在一定联系信息。最终模型可以分别得到药材节点和功效节点的节点向量表示,后续的任何研究和计算都可以用每个节点各自的节点向量表示作为节点本身的代表。
步骤S3、预测分析:通过计算药材节点和功效节点的向量表示的相似度,预测含有多种药材的药物或药方的功效。
对于待预测的药物(由多种药材所组成),首先获取药物中每种药材的节点向量表示,对其组成药材的节点向量表示进行平均池化(average pooling)操作,得到药物的节点向量表示,即将每种药材各个向量维度的数值取平均。如果一个药物中有n种药材,每个药材的节点向量表示为d维向量(功效节点的向量表示也是d维向量),那么平均池化的结果将是一个d维的向量,即药物每个向量维度的值是所对应此n种药材向量维度的平均值。这一步主要目的是基于药材节点的向量表示去计算处方节点的向量表示。
预测分析的具体步骤如下:
S31、计算待预测药物节点向量表示与数据集中每种功效节点向量表示的相似度;
使用欧氏距离法或其他相似度度量方法计算待预测药物节点向量表示与数据集中每种功效节点向量表示的相似度(在本发明中采用的是欧氏距离法计算相似度,欧氏距离越小、则相似度越大)。具体可通过遍历所有功效的节点向量表示并计算相似度来实现。
S32、排序功效:
将计算得到的欧氏距离按照升序排列;
S33、结果解释与分析:
根据S32排序所得结果,分析待预测药物与各功效间的关系。若药物与某功效之间的欧氏距离越小,则说明药物和该功效节点之间的向量表征相似度越大、药物和该功效相关性越强,即该药物具有此功效的可能性越大。
另外,本发明还提供一种用于药物功效预测的系统,包括以下模块以实现上述的用于药物功效预测的方法:
异构网络图构建模块,用于构建药材-功效异构网络图;
Metapath2vec算法模块,用于按照基于元路径的随机游走方式生成节点游走序列;
模型训练模块,用于学习药材和功效之间的语义关系信息,将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,并输出每个节点的向量表示;
预测与分析模块,用于对药物进行功效预测,根据药物和功效的向量表示的欧氏距离,升序排列得到结果,分析待预测药物与各功效间的关系。
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明的一种用于药物功效预测的方法,其具体包括以下步骤:
步骤S1、构建药材-功效异构网络图;
(1)数据收集;
首先收集用于构建药材-功效异构网络图的数据。本实施例中,根据国家市场监管总局、国家卫生健康委、国家中医药局联合发布《允许保健食品声称的保健功能目录非营养素补充剂(2023年版)》,收集了近1000种国家批准的保健品专利数据信息,并按照国家颁发的保健品功能标准,然后通过分析其专利数据信息得到了其药材组成成分和对应功效之间的数据信息。
(2)利用这些药材组成成分与对应功效之间的数据信息,采用自定义元路径方法构建药材-功效异构网络图。所构建的药材-功效异构网络图如图4所示,其中,所有药材和功效作为节点,它们之间的边表示该药材曾经出现在治疗该功效的药方中。例如,针叶樱桃、知母和积雪草都曾经出现在改善皮肤水分/油分的药方中,柑橘和积雪草都曾经出现在增强免疫力的药方中。
步骤S2、基于构建的药材-功效异构网络图,通过Metapath2vec算法进行基于Meta-path(元路径)的Random walks(随机游走),并生成节点游走序列,以捕获药材和功效之间的语义关系信息。如图5所示,共生成了四条节点游走序列,分别为:针叶樱桃-改善皮肤水分/油分-知母,针叶樱桃-改善皮肤水分/油分-积雪草,柑橘-增强免疫力-积雪草,知母-改善皮肤水分/油分-积雪草。
使用Word2vec中的Skip-Gram模型,通过训练节点游走序列来学习节点的表征(节点向量表示),旨在将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,最终输出每个节点的节点向量表示。
步骤S3、预测与分析;
现对以下如图6所示的待预测药物进行功效预测,已知其药材组成成分为积雪草、知母和杏仁。
其具体预测过程如下:
(1)获取待预测药物的节点表征:
对于待预测功效的药物,首先需要获取其在训练过程中学习到的节点表征,即通过Metapath2vec和Word2vec模型训练学习到的表征(节点向量表示)。
(2)计算待预测药物节点向量表示与数据集中每种功效节点向量表示之间的相似度:
本实施例采用欧氏距离法(欧氏距离越小、则说明相似度越大),计算待预测药物的节点向量表示与数据集中每种功效(如图7所示)节点向量表示之间的欧氏距离。这可以通过遍历所有功效节点的向量表示并计算其欧氏距离来实现。
(3)排序功效:
将计算得到的欧氏距离按照升序排列。
(4)结果解释与分析:
根据S32欧氏距离升序排列所得结果,分析药物与各功效间的相关关系。若药物与某功效之间的向量表示欧氏距离越小,则说明药物和功效节点之间的相关性越强,即该药物具有此功效的可能性越大。
由预测结果可知,药材和功效节点欧氏距离排序:('增强免疫力',1.5735210518427214)>('改善皮肤水分/油分',1.8882511327422213)>('抗氧化',2.108717804076667)>('改善睡眠',2.144220935380183)>('缓解体力疲劳',2.200526451034306)>('辅助降血脂',2.251899167473264),即与待预测药物密切的功效有“增强免疫力”、“改善皮肤水分/油分”、“抗氧化”等,该结果与待预测药物应具有的功效信息一致,证明本方法的有效性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种用于药物功效预测的方法,其特征在于,包括以下步骤:
步骤S1、采用自定义元路径方法构建药材-功效异构网络图,所构建的药材-功效异构网络图中,所有药材和功效作为节点,它们之间的边表示该药材曾经出现在治疗该功效的药方中;
步骤S2、基于构建的药材-功效异构网络图,通过Metapath2vec算法进行基于元路径的随机游走,并生成节点游走序列;
基于元路径的随机游走具体操作步骤如下:
(1)起始节点选择:从药材-功效异构网络图中随机选择一个节点作为起始节点;
(2)随机移动:从所选取的当前节点按照一定的策略选择下一个节点;
(3)重复步骤(2)的随机移动过程,直到达到预定的游走长度或其他终止条件结束;
通过Word2vec模型训练,学习药材和功效之间的语义关系信息,将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,得到药材和功效的节点向量表示;所述Word2vec模型选用Skip-Gram模型;
步骤S3、对于待预测的药物,首先获取药物中每种药材的节点向量表示,对其组成药材的节点向量表示进行平均池化;通过计算药材节点向量表示与数据集中每种功效节点的向量表示之间的相似度,预测含有多种药材的药物或药方的功效;
步骤S3的具体步骤如下:
S31、使用欧氏距离法计算待预测药物节点向量表示与数据集中每种功效节点向量表示的相似度;
S32、将计算得到的欧氏距离按照升序排列;
S33、根据S32欧氏距离升序排列所得结果,分析待预测药物与各功效间的相关关系,若药物的向量表示与某功效的向量表示之间的欧氏距离越小,则说明药物和功效节点之间的向量表征越接近,两者关联性越强,即该药物具有此功效的可能性越大。
2.根据权利要求1所述的用于药物功效预测的方法,其特征在于,步骤S1的具体操作如下:
首先收集用于构建药材-功效异构网络图的数据,然后对收集到的数据进行分析得到药材组成成分与对应功效之间的数据信息;利用这些药材组成成分与对应功效之间的数据信息构建药材-功效异构网络图。
3.根据权利要求1所述的用于药物功效预测的方法,其特征在于,步骤S2中,基于元路径的随机游走的第i步的转移概率公式为:
其中,表示顶点,vi+1表示顶点的邻居顶点,Vt表示药材类型的顶点集合,表示顶点的Vt+1类型的领域顶点,领域顶点为与该顶点直接相连接的顶点集合,换言之vi+1∈Vt+1,Vt+1表示功效类型的顶点集合。
4.一种用于药物功效预测的系统,其特征在于,包括以下模块以实现权利要求1-3任一项所述的用于药物功效预测的方法:
异构网络图构建模块,用于构建药材-功效异构网络图;
Metapath2vec算法模块,用于按照基于元路径的随机游走方式生成节点游走序列;
模型训练模块,用于学习药材和功效之间的语义关系信息,将药材和功效的语义关系信息通过节点游走序列的传递和汇聚,并输出每个节点的向量表示;
预测与分析模块,用于对药物进行功效预测,根据药物和功效的向量表示的欧氏距离,升序排列所得结果,分析待预测药物与各功效间的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155879.0A CN118098435B (zh) | 2024-02-04 | 2024-02-04 | 一种用于药物功效预测的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155879.0A CN118098435B (zh) | 2024-02-04 | 2024-02-04 | 一种用于药物功效预测的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118098435A CN118098435A (zh) | 2024-05-28 |
CN118098435B true CN118098435B (zh) | 2024-09-20 |
Family
ID=91146896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410155879.0A Active CN118098435B (zh) | 2024-02-04 | 2024-02-04 | 一种用于药物功效预测的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118098435B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
CN112382411A (zh) * | 2020-11-13 | 2021-02-19 | 大连理工大学 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656604B (zh) * | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN115050481B (zh) * | 2022-06-17 | 2023-10-31 | 湖南中医药大学 | 一种基于图卷积神经网络的中医方剂功效预测方法 |
CN116434977A (zh) * | 2023-03-31 | 2023-07-14 | 电子科技大学 | 一种基于方剂-症状异构图的中医方剂功效预测方法 |
CN116825384A (zh) * | 2023-06-28 | 2023-09-29 | 东北大学 | 基于异构图卷积神经网络预测协同药物组合方法 |
-
2024
- 2024-02-04 CN CN202410155879.0A patent/CN118098435B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
CN112382411A (zh) * | 2020-11-13 | 2021-02-19 | 大连理工大学 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118098435A (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016438B (zh) | 一种基于中医辨证人工神经网络算法模型的系统 | |
CN110297908A (zh) | 诊疗方案预测方法及装置 | |
Peng et al. | Unsupervised cross-media retrieval using domain adaptation with scene graph | |
CN108986908A (zh) | 问诊数据处理方法、装置、计算机设备和存储介质 | |
Zhao et al. | TCM herbal prescription recommendation model based on multi-graph convolutional network | |
Bu | Human motion gesture recognition algorithm in video based on convolutional neural features of training images | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
CN111340187B (zh) | 基于对抗注意力机制的网络表征方法 | |
CN109102899A (zh) | 基于机器学习与大数据的中医智能辅助系统及方法 | |
CN110175286A (zh) | 结合成对优化和矩阵分解的产品推荐方法及系统 | |
CN114822874B (zh) | 一种基于特征偏差对齐的方剂功效分类方法 | |
CN115050481B (zh) | 一种基于图卷积神经网络的中医方剂功效预测方法 | |
Liu et al. | A novel transfer learning model for traditional herbal medicine prescription generation from unstructured resources and knowledge | |
Kazemi et al. | A comparative study on content-based paper-to-paper recommendation approaches in scientific literature | |
Wang et al. | ODP-Transformer: Interpretation of pest classification results using image caption generation techniques | |
CN116417115A (zh) | 妊娠期糖尿病患者个性化营养方案推荐方法及系统 | |
CN114255851A (zh) | 基于超图神经网络的中草药方剂推荐方法 | |
CN118098435B (zh) | 一种用于药物功效预测的方法及系统 | |
CN114141361A (zh) | 基于症状术语映射与深度学习的中医处方推荐方法 | |
CN111241372B (zh) | 根据用户偏好学习预测颜色和谐程度的方法 | |
Zhao et al. | A Dynamic Optimization-Based Ensemble Learning Method for Traditional Chinese Medicine Named Entity Recognition | |
CN114580430B (zh) | 一种基于神经网络的鱼病描述情感词的提取方法 | |
Jang et al. | Paraphrase thought: Sentence embedding module imitating human language recognition | |
Zou et al. | CREAMY: Cross-Modal Recipe Retrieval By Avoiding Matching Imperfectly | |
CN112287665A (zh) | 基于自然语言处理和集成训练的慢病数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |