CN108647484A - 一种基于多元信息集成和最小二乘法的药物关系预测方法 - Google Patents
一种基于多元信息集成和最小二乘法的药物关系预测方法 Download PDFInfo
- Publication number
- CN108647484A CN108647484A CN201810472698.5A CN201810472698A CN108647484A CN 108647484 A CN108647484 A CN 108647484A CN 201810472698 A CN201810472698 A CN 201810472698A CN 108647484 A CN108647484 A CN 108647484A
- Authority
- CN
- China
- Prior art keywords
- drug
- matrix
- relationship
- information
- indication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于多元信息集成和最小二乘法的药物关系预测方法,包括步骤1:获取待研究的药物集合的药物关系矩阵;步骤2:计算每个药物与其余药物的高斯核相似性;步骤3:根据药物集合中所有药物的特征信息采用余弦角相似性方法计算每个药物与其余药物的特征相似性;特征信息包括化学信息、生物信息以及表征信息;步骤4:计算每两个药物之间的高斯核相似性和特征相似性的均值得到每两个药物之间的药物相似性,并基于每两个药物之间的药物相似性构成出药物集合的药物相似性矩阵;步骤5:基于药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵。
Description
技术领域
本发明属于系统生物学领域,具体涉及一种基于多元信息集成和最小二乘法的药物关系预测方法。
背景技术
药物-药物关系(DDIs)被定义为在多种药物同时治疗一个病人的过程中,一种药物的效果被另一种药物所影响,即药物之间的关系。从目前临床的诊断情况来看,DDIs有着积极的作用提高治疗效果和病人的生活质量,但是其不利的效果也会导致药物退市甚至病人死亡等严重的后果。随着医疗技术的发展,目前采用多种药物同时治疗的方式非常普遍,特别是治疗癌症之类的复杂疾病。所以,现在越来越多的研究表明DDIs中的不良反应随着多种药物复合治疗已经变成了沉重的经济负担和严重的疾病治疗包袱。因此,现在对DDIs的发现已经变得非常紧迫和重要。
目前从生物医学实验上来说,DDIs的确认包括体外和体内两种测试方法。但是由于其固有的耗时和费力的缺点,使得其严重影响药物的开发过程。目前通过大量研究人员的努力,药物类基础信息数据库得到了飞速发展。比如,在PubChem数据库中提供了药物的PubChem化学子结构信息。DrugBank数据库从大量的文献和报到中收集到了药物的靶标(target)、转运(transporter)、酶(enzymes)和DDIs等信息。此外,药物的代谢(pathway)信息在KEGG数据库中得到了提供。SIDER数据库中提供了药物的适应症(indication)和副作用(side effect)信息。OFFSIDES提供了药物的隔离副作用信息(off side effect)。此外,TWOSIDES数据库目前提供了包括645种药物及其之间63473条关系的信息。
以上药物相关的数据库的建立为通过计算模型对DDIs进行关系预测提供了重要的基础。此外,通过计算方法能够对DDIs进行合理的预测和克服传统的生物医学实验的不足。目前已知出现了大量的通过药物化学结构进行DDIs预测的方法,其不但利用了已知2D结构,也使用了3D结构进行进一步的补充。药物靶标关系作为药物功能的基本信息,也在预测DDIs的过程得到来了相关的应用。并且,有的方法在药物靶标关系的基础上进一步集成蛋白质网络(protein-protein interaction network)信息,也取得了不错的预测效果。此外,基于邻居推荐和随机游走的预测方法也通过药物化学、生物和表征信息在DDIs预测中得到了应用。此外,在基于各种药物信息的邻居推荐、随机游走等模型上的集成方法也得到了发展,包括权重集成、基于L1范式正则化和L2范式正则化的分类集成方法,其DDI预测效率得到了进一步的提高。然而,上述当前DDIs在计算方面的研究,对药物化学、生物、表征和已知的关系的利用都是只利用了其中的部分信息来进行预测或者先通过各个部分的信息进行预测后再对各类预测结果进行集成,没有在预测之前将其作为一个整体进行利用,进而影响预测效果。同样,对已知的DDIs的利用上,也需要更好的融合方式来进行利用。
因此,由于传统生物医学实验的成本和效率的缺点,以及当前计算模型在药物化学、生物和表征方面的信息合理利用不足的问题,当前对药物-药物关联关系还有待进一步发展。目前随着多种药物同时治疗某种疾病的情况越来越多,以及患者同时患有多种疾病的情况也需要多种药物同时共同治疗,都对DDIs的辨认提出了更高的要求。同时,新的药物的DDIs预测也是药物开发过程中的一个重要主题。所以,为了给后续的药物开发过程提供重要指导和研究基础,迫切需要提出一种更有效的方法来预测DDIs。
发明内容
本发明的目的是提供一种基于多元信息集成和最小二乘法的药物关系预测方法能够克服当前计算模型中在药物化学、生物和表征方面的信息合理利用不足以及对已知的DDIs融合不够的问题,进而提高预测效果。
一种基于多元信息集成和最小二乘法的药物关系预测方法,包括如下步骤:
步骤1:获取待研究的药物集合的药物关系矩阵;
所述药物关系矩阵为N*N矩阵,每一行或每一列的元素构成一个药物的关系向量,所述关系向量表示药物与所述药物集合中其余药物的关系,其中,第i个药物di关系向量ydi如下所示:
ydi={yi1,yi2,...,yij,...,yiN},1≤j≤N
i=j,yij=0
式中,yij为第i个药物di与第j个药物dj的关系值,N为所述药物集合中药物的种类数量且N为正整数;
步骤2:基于所述药物集合的药物关系矩阵计算所述药物集合中每个药物与其余每个药物的高斯核相似性;
步骤3:根据所述药物集合中所有药物的特征信息采用余弦角相似性方法计算所述药物集合中每个药物与其余每个药物的特征相似性;
其中,依据所述药物集合中所有药物的特征信息构建每个药物的特征向量,再依据每个药物的特征向量计算出每个药物与其余每个药物的特征相似性;
所述特征向量的维度为其余药物的所有特征信息的维度值之和,每个药物di的特征向量中每个元素对应一个特征,特征向量的元素值依据药物是否包含对应特征或者与对应特征是否存在药物关联关系而定;
所述特征信息包括化学信息、生物信息以及表征信息,所述化学信息为化学子结构,所述生物信息包括靶标、转运、酶、代谢中的任意一类或多类特征,所述表征信息包括适应症、副作用、隔离副作用信息中的任意一类或多类特征;
步骤4:计算每两个药物之间的高斯核相似性和特征相似性的均值得到每两个药物之间的药物相似性,并基于每两个药物之间的药物相似性构成出所述药物集合的药物相似性矩阵;
步骤5:基于所述药物集合的药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵;
其中,药物关系预测矩阵的计算公式如下:
式中,为所述药物集合的药物关系预测矩阵,为矩阵Yp的转置矩阵,Sd为所述药物集合的药物相似性矩阵,YT为所述药物集合的药物关系矩阵Y的转置矩阵,σ为正则化参数,I为单位矩阵。
本发明利用药物化学、生物和表征信息通过余弦夹角相似性计算方式得到药物的特征相似性,该方法相对之前的单个信息处理预测后再合成的方法更合理的融合了多种已知的药物特征信息,且在预测过程中使得各种特征信息同时作为一个整体来考虑;然后对药物高斯核相似性和表征相似性通过均值的方式得到最终的药物相似性,更好的融合利用了已知的药物-药物关系信息和药物特征信息,根据药物的相似性采取最小二乘法方法对药物对的关联关系分数进行计算,进而可以根据关联关系分数得出药物之间的关联关系排名、紧密程度,能够有效的对药物之间的关联关系进行预测,并能够为后续的验证药物-药物关系的生物医学实验提供基本的指导作用和加快药物开发流程,节省其人力物力成本。
进一步优选,步骤1的执行过程如下:
首先,基于预存的药物-药物关系数据库识别所述药物集合中是否存在与其余药物没有任何关系信息的新药物;
若存在,基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系,再基于预存的药物-药物关系数据库、新药物与其余药物之间的关系构建所述药物集合的药物关系矩阵;
若不存在,则基于预存的药物-药物关系数据库构建所述药物集合的药物关系矩阵。
所谓没有任何关系信息的新药物是指在预存的药物-药物关系数据库中,新药物与其他药物没有DDIs关系。本发明对全新的药物的DDIs预测问题给予充分的关注,并基于结点的网络扩散法给新药物与其余药物的关系进行预测,所选用的基于结点的网络扩散方法中的网络相较于基于相似性的网络更稀疏,特别是在一个药物可能只关联很少数量的靶标,且与其共享这个靶标的药物数量众多的情况下时,结点的网络扩散方法比传统的相似性的网络更稀疏,引入的噪声更少,提高预测结果的可靠性。
进一步优选,所述基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系的执行过程如下:
S1:获取所述药物集合的药物关系初始矩阵Y'、药物靶标关系矩阵Mdt、药物适应症关系矩阵Mdc;
其中,所述药物关系初始矩阵Y'是基于预存的药物-药物关系数据库构建的N*N矩阵,每一行或每一列的元素构成一个药物的关系初始向量,所述关系初始向量表示药物与所述药物集合中其余药物的初始关系,其中,第i个药物di的关系初始向量ydi'如下所示:
ydi'={y′i1,y′i2,...,y′ij,...,y′iN},1≤j≤N
i=j,y′ij=0
式中,y′ij为第i个药物di与第j个药物dj的关系初始值;
所述药物靶标关系矩阵Mdt是基于靶标集合T构建的N*Ni矩阵,Nt为靶标集合T中靶标种类数量,所述药物靶标关系矩阵Mdt的元素表示所述药物集合中药物与所述靶标集合T中靶标的关系;
所述药物适应症关系矩阵Mdc是基于适应症集合C构建的N*Nc矩阵,Nc为所述适应症集合C中适应症种类数量,所述药物适应症关系矩阵Mdc的元素表示所述药物集合中药物与所述适应症集合C中适应症的关系;
S2:将所述药物关系初始矩阵Y'、药物靶标关系矩阵Mdt、药物适应症关系矩阵Mdc进行集成得到邻接矩阵A;
S3:对所述邻接矩阵A进行归一化处理得到转换矩阵W;
其中,转换矩阵W中第i行第j列元素A(i,j)的计算公式如下:
式中,A(i,l)为所述邻接矩阵A中第i行第l列的元素;
S4:对所述转换矩阵W采用基于结点的网络扩散方法得到结果矩阵R;
R=A*Wk
式中,k网络扩散的次数,k为偶数;
S5:基于结果矩阵R获取每个新药物的关系向量;
其中,新药物di的关系向量ydi如下所示:
式中,R'(i,1:N)为矩阵R(i,1:N)放大后的矩阵,R(i,1:N)为结果矩阵R中第i行前N列元素构成的矩阵,α为放大系数;
S6:基于每个新药物的关系向量将所述药物关系初始矩阵Y'中新药物的对应元素进行替换得到所述药物关系矩阵;
其中,将所述药物关系初始矩阵Y'中每个新药物di对应元素的替换过程如下:
Y'(i,1:N)=R'(i,1:N)
Y'(1:N,i)=R'(i,1:N)T
式中,Y'(i,1:N)和Y'(1:N,i)分别为所述药物关系初始矩阵Y'中新药物di对应的前N列矩阵、前N行矩阵,R'(i,1:N)T为矩阵R'(i,1:N)的转置矩阵。
本发明中基于结点的网络扩散法给新药物与其余药物的关系进行预测的过程,本方法主要增加了靶标、适应症信息的网络结点以及药物与他们之间的关联关系边,并且这些边都是通过生物医学实验验证的有效边,且相对比传统的相似性计算药物相似性是大大减少了网络中总的边的数量,该方法相对传统的相似性计算方法更加有效的利用了药物靶标和药物适应症信息,避免了传统方法因其相似性边过多而引入噪声的缺陷进而弱化了真正的关联关系分数,特别是针对那种一个靶标或者适应症信息被多个药物共享的情况,其计算的药物相似性边数量是巨大,此时传统的相似性计算相较于本发明基于结点的网络扩散法的可靠性低,采用本发明所述方法可以得到了更合理新药物与其余药物关系的预测值。
进一步优选,所述药物关系初始矩阵Y'中两个药物之间存在药物关联关系时,所述两个药物的关系初始值为1,否则为0;
所述药物靶标关系矩阵Mdt中一个药物与一个靶标存在药物关联关系时,所述药物靶标关系矩阵Mdt中对应元素为1,否则为0;
所述药物适应症关系矩阵Mdc中一个药物与一个适应症存在药物关联关系时,所述药物适应症关系矩阵Mdc中对应元素为1,否则为0。
进步优选,所述一网络扩散的次数k为2,所述放大系数α为0.5。
进一步优选,两个药物之间的高斯核相似性的计算公式如下:
Gd(di,dj)=exp(-γd||ydi-ydj||2).
式中,Gd(di,dj)为第i个药物di和第j个药物dj的高斯核相似性,N为药物的种类数量,γd为控制核宽度的调节参数,调节参数γd的计算公式如下:
式中,γ'd为经验系数。
进一步优选,所述经验系数γ'd为1。
进一步优选,两个药物之间的特征相似性的计算公式如下:
式中,Simd(di,dj)为第i个药物di和第j个药物dj的特征相似性,di(l)和dj(l)分别对应药物di和药物dj的特征向量中第l个的元素,M为特征向量的维度;
其中,每个药物的特征向量中的元素表示所述药物与元素对应的特征是否存在药物关联关系或者所述药物是否包含元素对应的特征信息。
进一步优选,药物与元素对应的特征存在药物关联关系或者药物包含元素对应的特征信息时,所述药物的特征向量中所述元素为1,否则为0。
进一步优选,所述生物信息包括靶标、转运、酶、代谢,所述表征信息包括适应症、副作用、隔离副作用信息。
有益效果
与现有技术相比,本发明的优点有:
1、本发明充分利用药物关系矩阵,即药物-药物关系信息,并据此计算出药物之间的高斯核相似性。同时还利用药物化学、生物和表征信息通过余弦夹角相似性计算方式得到药物的特征相似性,然后对药物高斯核相似性和表征相似性通过均值的方式得到最终的药物相似性,更好的融合了药物-药物关系信息和药物特征信息,再根据药物的相似性采取最小二乘法方法对药物对的关联关系分数进行计算,能够有效的对药物之间的关联关系进行预测。本发明通过5倍交叉、10倍交叉验证表明,本发明能够有效的对药物之间的关联关系进行预测。并能够为后续的验证药物-药物关系的生物医学实验提供基本的指导作用和加快药物开发流程,节省其人力物力成本。
2、本发明在计算药物特征相似性的过程中,对已知的药物特征信息采取全张量表示的方法来计算其余弦夹角相似性,该方法合理的融合了药物的特征信息,相比药物单个特征信息计算了更加有效的相似性,并使得各种特征信息作为一个整体在预测过程中得到了同时考虑。
3、面对全新的药物没有已知的药物关系时,本发明通过利用药物靶标和药物适应症信息的网络结点扩散方法对其药物关系进行了预测,该方法增加了靶标、适应症信息的网络结点以及药物与他们之间的关联关系边,并且这些边都是通过生物医学实验验证的有效边,相较于计算药物相似性是大大减少了网络中总的边的数量。该方法相对传统的相似性计算方法更加有效的利用了药物靶标和药物适应症信息,避免了传统方法因其相似性边过多而引入噪声的缺陷进而弱化了真正的关联靶标分数,特别是针对那种一个靶标或者适应症信息被多个药物共享的情况,其计算的药物相似性边数量巨大,从而得到了更合理的预测值。
附图说明
图1是本发明提供的一种基于多元信息集成和最小二乘法的药物关系预测方法的流程图。
具体实施方式
下面将结合实施例对本发明做进一步的说明。
本发明所利用的已知的药物-药物关系数据来自于TOWSIDES数据库。药物化学信息来自于PubChem数据库。药物靶标、药物转运和酶的生物信息来自于DrugBank数据库。药物代谢信息来自于KEGG数据库。药物表征信息包括药物适应症、药物副作用和药物隔离副作用信息,其中药物适应症、药物副作用来自于SIDER数据库,后一个药物隔离副作用信息来自于OFFSIDES数据库。通过对从TOWSIDES数据库获取到的药物集合到其余数据库中获取的数据中进行映射处理,最终得到一个包括548种药物和48584条药物-药物关系的基准数据集。
实施例1:
本发明实施例首先查找当前待研究的药物集合中是否存在不和任何其余药物存在关系信息的新药物,如果存在的话,利用已知的药物-药物关系,药物靶标关系和药物适应症关系信息通过基于结点的网络扩散方法对新药物的药物-药物关系进行合理的预测。并对预测结果依据数据特点进行了放大化处理;然后依据药物集合中药物-药物关系计算出药物的高斯核相似性;接下来将药物的化学、生物和表征信息集成到一个张量中,采用余弦夹角的计算方式得到药物的特征相似性;并将药物的特征相似性和高斯核相似性通过均值的方式进行集成;基于相似性的候选药物也作用于相似性的其余药物的特点,采用最小二乘法对药物对的关联关系分数进行计算。具体的执行过程如下:
步骤1:获取待研究的药物集合的药物关系矩阵Y。
其过程为:首先,基于预存的药物-药物关系数据库识别所述药物集合中是否存在与其余药物没有任何关系信息的新药物;
若存在,基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系,再基于预存的药物-药物关系数据库、新药物与其余药物之间的关系构建所述药物集合的药物关系矩阵;若不存在,则基于预存的药物-药物关系数据库构建所述药物集合的药物关系矩阵。
其中,对新药物与所述药物集合中其余药物之间的关系的预测过程如下:
S1:获取所述药物集合的药物关系初始矩阵Y'、药物靶标关系矩阵Mdt、药物适应症关系矩阵Mdc。
1、先定义D={d1,d2,···,dN}为待研究的药物集合,N为药物集合的种类数量。药物关系初始矩阵Y'中每一行和每一列的元素构成一个药物的关系初始向量,第i个药物di的关系初始向量ydi'如下所示:
ydi'={y′i1,y′i2,...,y′ij,...,y′iN},1≤j≤N
i=j,yij=0
式中,y′ij为第i个药物di与第j个药物dj的关系初始值。如果药物di、dj之间存在已知的药物关联关系,则y′ij为1,否则y′ij为0。如果药物di是全新的药物,则其关系初始向量yd′i={y′i1,y′i2,...,y′ij,...,y′iN}中的元素全为0。
2、定义靶标集合其中,为靶标集合中第Nt个靶标,药物靶标关系矩阵Mdt中药物di和靶标tj对应的元素为第i行第j列元素Mdt(i,j),若药物di和靶标tj存在药物关联关系,则Mdt(i,j)为1,否则为0。
3、定义适应症集合其中,为适应症集合中第Nc个适应症,药物适应症关系矩阵Mdc中药物di和适应症Cj存在药物关联关系时,则Mdc(i,j)为1,否则为0。
所谓药物关联关系为药物与特征或其他药物之间存在联系。
S2:将所述药物关系初始矩阵Y'、药物靶标关系矩阵Mdt、药物适应症关系矩阵Mdc进行集成得到邻接矩阵A;
故邻接矩阵A为(N+Nt+Nc)*(N+Nt+Nc)的矩阵。
S3:对所述邻接矩阵A进行归一化处理得到转换矩阵W。
其中,转换矩阵W中第i行第j列元素A(i,j)的计算公式如下:
式中,A(i,l)为所述邻接矩阵A中第i行第l列的元素。
S4:对所述转换矩阵W采用基于结点的网络扩散处理得到结果矩阵R。
R=A*Wk
其中,k网络扩散的次数,在基于结点的网络扩散中,k必须为偶数,根据实际的验证测试结果我们设置其值为2。
S5:基于结果矩阵R获取每个新药物的关系向量。
其中,新药物di的关系向量ydi如下所示:
其中扩散结果矩阵R中提取的前N行和N列矩阵R(1:N,1:N)为扩散方式得到的药物-药物关系矩阵,对于新药物di,则第i行中的前N列R(i,1:N)为此新药物di的药物-药物关系预测值。但是,通过网络扩散的值相对于原有的已知药物关系初始矩阵Y'中的值来说(已知关系值为1),都比较小,因此通过一个放大处理方式来得到一个相对更合理的预测值。
因此,R'(i,1:N)为矩阵R(i,1:N)放大后的矩阵,R(i,1:N)为结果矩阵R中第i行前N列元素构成的矩阵,α为放大系数,α为di与其余药物的关系值中的最大值应该放大到的具体值,其具体值通过验证方式设置,本实施例中设为0.5。新药物di的关系初始向量ydi'={y′i1,y′i2,...,y′ij,...,y′iN}中的元素全为0,通过上述计算得到新药物di的关系向量ydi={yi1,yi2,...,yij,...,yiN}中的元素与关系初始向量中的元素的值不同,因此需要将新药物di的原关系初始向量进行替换。
S6:基于每个新药物的关系向量将所述药物关系初始矩阵Y'中新药物对应元素进行替换得到所述药物关系矩阵;
其中,将所述药物关系初始矩阵Y'中每个新药物di对应元素的替换过程如下:
Y'(i,1:N)=R'(i,1:N)
Y'(1:N,i)=R'(i,1:N)T
式中,Y'(i,1:N)和Y'(1:N,i)分别为所述药物关系初始矩阵Y'中新药物di对应的前N列矩阵、前N行矩阵,R'(i,1:N)T为矩阵R'(i,1:N)的转置矩阵。具体是将药物关系初始矩阵Y'中新药物对应的元素进行替换得到药物关系矩阵Y,药物关系矩阵Y中每一行或每一列的元素构成一个药物的关系向量,其中,第i个药物di与所述药物集合中所有药物的关系向量ydi={yi1,yi2,...,yij,...,yiN}。其中,如果药物di为新药物,则关系向量ydi={yi1,yi2,...,yij,...,yiN}为基于结点的网络扩散预测而来,如果药物di不是新药物,则关系向量ydi={yi1,yi2,...,yij,...,yiN}为药物di在药物关系初始矩阵Y'中的关系初始向量ydi'={y′i1,y′i2,...,y′ij,...,y′iN}。
在全新的药物DB00945(阿司匹林)验证测试中,经过预测处理后其与药物DB00443(倍他米松)的关联关系分数最高,而从实际的生物医学实验验证结果来看也是存在关系的,故上述预测处理结果能够为后续的预测进一步提高其预测效率。
步骤2:基于所述药物集合的药物关系矩阵计算所述药物集合中每个药物与其余药物的高斯核相似性。
第i个药物di和第j个药物dj的高斯核相似性计算公式如下:
Gd(di,dj)=exp(-γd||ydi-ydj||2)
式中,Gd(di,dj)为第i个药物di和第j个药物dj的高斯核相似性,N为药物的种类数量,γd为控制核宽度的调节参数,γ'd为经验系数,本实施例中选γ'd为1。
依据上述计算公式,药物DB00526(奥沙利铂(抗肿瘤药))和DB00458(丙咪嗪)的高斯核相似性值为0.5347。
步骤3:根据所述药物集合中所有药物的特征信息采用余弦角相似性方法计算所述药物集合中每个药物与其余药物的特征相似性。
本实施例中,特征信息包括化学信息、生物信息以及表征信息,其中,所述化学信息为化学子结构(化学子结构),所述生物信息包括靶标(target)、转运(transport)、酶(enzyme)、代谢(pathway),所述表征信息包括适应症(indication)、副作用(sideeffect)、隔离副作用信息(off side effect)。
首先,将药物的这8种信息集成到一个高维的向量空间,其维度为所有信息的维度值之和。每个药物的特征信息向量中的值对应于此药物是否具体该特征信息或者与该特征存在关联关系,比如药物di与靶标tj存在关联关系则值为1,否则值为0,同样的,药物di包含化学子结构Ck,则其值为1,否则为0。对药物之间的特征相似性计算采用余弦夹角相似性计算方式进行计算,针对药物di和dj的计算过程如下:
其中,di(l)和dj(l)分别对应药物di和dj的特征向量中的元素,另外参数M为整个向量的维度值。计算后的药物特征相似性值为0到1之间。
步骤4:计算每两个药物之间的高斯核相似性和特征相似性的均值得到每两个药物之间的药物相似性,并基于每两个药物之间的药物相似性构成出所述药物集合的药物相似性矩阵;
式中,Sd为药物相似性矩阵,Gd为由所述药物集合中每两个药物之间的高斯核相似性构成的药物高斯核相似性矩阵,Simd为所述药物集合中每两个药物之间的特征相似性构成的特征相似性矩阵。
步骤5:基于所述药物集合的药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵。
其中,药物关系预测矩阵的计算公式如下:
式中,为所述药物集合的药物关系预测矩阵,为矩阵Yp的转置矩阵,Sd为所述药物集合的药物相似性矩阵,YT为所述药物集合的药物关系矩阵Y的转置矩阵,σ为正则化参数,I为单位矩阵。
在对已知药物集合中的新的药物-药物关系进行预测后,药物DB00213(泮托拉唑)和DB00333(美沙酮)的预测关联关系分数为0.6055。
为了验证本发明的有效性,我们参考其他算法的验证标准,采用了三种验证方式:(1)5倍交叉验证;(2)10倍交叉验证;(3)de novo药物验证。在五倍交叉验证中,将已知的药物-药物关系随机分成5份,依次轮流选择1份为测试集,剩下的4份为训练集,其测试验证次数为10次。同样在10倍交叉验证测试中,对已知的药物-药物关系随机分成10份,依次轮询1份为测试集,剩下的9份为训练集,验证次数也为10次。在de novo药物验证测试中,依次将每一个药物的已知关系为测试集,剩下的其余药物的关系为训练集,其余药物依次执行一次。AUC(the areas under ROC curves:ROC曲线面积)值作为其评价和与其他方法比较的指标。
表1描述了本发明DDIRLS和其他方法在5倍交叉验证上的性能比较结果。从图中可以看出本发明DDIRLS的AUC值为0.9691,是高于其他4个方法的AUC值:WAE(Weight averageensemble method:权重集成方法)的AUC值0.9502,L1E(Classifier ensemble methd(L1):L1范式集成方法)的AUC值0.9570,L2E(Classifier ensemble methd(L2):L2范式集成方法)的AUC值0.9561和LP(Lable Poropagation:标签传递)的AUC值0.9374。
表1:本发明DDIRLS和其余方法在5倍交叉验证上的性能比较表
序号 | 方法 | AUC |
1 | WAE | 0.9502 |
2 | L1E | 0.9570 |
3 | L2E | 0.9561 |
4 | LP | 0.9502 |
5 | DDIRLS | 0.9691 |
表2给出了本发明DDIRLS和其他方法在10倍交叉验证上的预测性能。同样依照AUC值,本发明DDIRLS的预测性能也由于其他方法,其AUC值到了0.9745,其他方法为:WAE的AUC值为0.9530,L1E的AUC值为0.9599,L2E的AUC值为0.9594和LP的AUC值为0.9378。并且相对5倍交叉验证的结果,本发明DDIRLS方法在10倍交叉验证上的优势更高。
表2:本发明DDIRLS和其他方法在10倍交叉验证上的性能比较表
序号 | 方法 | AUC |
1 | WAE | 0.9530 |
2 | L1E | 0.9599 |
3 | L2E | 0.9594 |
4 | LP | 0.9378 |
5 | DDIRLS | 0.9745 |
表3描述的是本发明和其他方法在全新的药物验证上的性能比较。由于L1E和L2E在预测全新的药物方面的限制,我们只比较了WAE和LP方法。同样本发明的预测性能也是最优,其AUC值达到了0.9292,而另外两个方法的AUC值为:WAEAUC值为0.9073,LPAUC值为0.8997。
表3::本发明DDIRLS和其他方法在全新的药物验证上的性能比较表
通过上述应用案例的表现,本发明能够较准确的预测新的药物-药物关系,能够减少后续生物实验中的候选药物范围,对其提供基本的指导作用,并进一步提高药物开发流程和疾病治疗效率。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
Claims (10)
1.一种基于多元信息集成和最小二乘法的药物关系预测方法,其特征在于:包括如下步骤:
步骤1:获取待研究的药物集合的药物关系矩阵;
所述药物关系矩阵为N*N矩阵,每一行或每一列的元素构成一个药物的关系向量,所述关系向量表示药物与所述药物集合中其余药物的关系,其中,第i个药物di关系向量ydi如下所示:
ydi={yi1,yi2,...,yij,...,yiN},1≤j≤N
i=j,yij=0
式中,yij为第i个药物di与第j个药物dj的关系值,N为所述药物集合中药物的种类数量且N为正整数;
步骤2:基于所述药物集合的药物关系矩阵计算所述药物集合中每个药物与其余每个药物的高斯核相似性;
步骤3:根据所述药物集合中所有药物的特征信息采用余弦角相似性方法计算所述药物集合中每个药物与其余每个药物的特征相似性;
其中,依据所述药物集合中所有药物的特征信息构建每个药物的特征向量,再依据每个药物的特征向量计算出每个药物与其余每个药物的特征相似性;
所述特征向量的维度为所有药物的所有特征信息的维度值之和,每个药物di的特征向量中每个元素对应一个特征,特征向量的元素值依据药物是否包含对应特征或者与对应特征是否存在药物关联关系而定;
所述特征信息包括化学信息、生物信息以及表征信息,所述化学信息为化学子结构,所述生物信息包括靶标、转运、酶、代谢中的任意一类或多类特征,所述表征信息包括适应症、副作用、隔离副作用信息中的任意一类或多类特征;
步骤4:计算每两个药物之间的高斯核相似性和特征相似性的均值得到每两个药物之间的药物相似性,并基于每两个药物之间的药物相似性构成出所述药物集合的药物相似性矩阵;
步骤5:基于所述药物集合的药物相似性矩阵以及药物关系矩阵采用最小二乘法进行药物对的关联关系分数计算得到药物关系预测矩阵;
其中,药物关系预测矩阵的计算公式如下:
式中,为所述药物集合的药物关系预测矩阵,为矩阵Yp的转置矩阵,Sd为所述药物集合的药物相似性矩阵,YT为所述药物集合的药物关系矩阵Y的转置矩阵,σ为正则化参数,I为单位矩阵。
2.根据权利要求1所述的方法,其特征在于:步骤1的执行过程如下:
首先,基于预存的药物-药物关系数据库识别所述药物集合中是否存在与其余药物没有任何关系信息的新药物;
若存在,基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系,再基于预存的药物-药物关系数据库、新药物与其余药物之间的关系构建所述药物集合的药物关系矩阵;
若不存在,则基于预存的药物-药物关系数据库构建所述药物集合的药物关系矩阵。
3.根据权利要求2所述的方法,其特征在于:所述基于结点的网络扩散法预测每个新药物与所述药物集合中其余药物之间的关系的执行过程如下:
S1:获取所述药物集合的药物关系初始矩阵Y'、药物靶标关系矩阵Mdt、药物适应症关系矩阵Mdc;
其中,所述药物关系初始矩阵Y'是基于预存的药物-药物关系数据库构建的N*N矩阵,每一行或每一列的元素构成一个药物的关系初始向量,所述关系初始向量表示药物与所述药物集合中其余药物的初始关系,其中,第i个药物di的关系初始向量ydi'如下所示:
ydi'={y′i1,y′i2,...,y′ij,...,y′iN},1≤j≤N
i=j,y′ij=0
式中,y′ij为第i个药物di与第j个药物dj的关系初始值;
所述药物靶标关系矩阵Mdt是基于靶标集合T构建的N*Ni矩阵,Nt为靶标集合T中靶标种类数量,所述药物靶标关系矩阵Mdt的元素表示所述药物集合中药物与所述靶标集合T中靶标的关系;
所述药物适应症关系矩阵Mdc是基于适应症集合C构建的N*Nc矩阵,Nc为所述适应症集合C中适应症种类数量,所述药物适应症关系矩阵Mdc的元素表示所述药物集合中药物与所述适应症集合C中适应症的关系;
S2:将所述药物关系初始矩阵Y'、药物靶标关系矩阵Mdt、药物适应症关系矩阵Mdc进行集成得到邻接矩阵A;
S3:对所述邻接矩阵A进行归一化处理得到转换矩阵W;
其中,转换矩阵W中第i行第j列元素A(i,j)的计算公式如下:
式中,A(i,l)为所述邻接矩阵A中第i行第l列的元素;
S4:对所述转换矩阵W采用基于结点的网络扩散方法得到结果矩阵R;
R=A*Wk
式中,k网络扩散的次数,k为偶数;
S5:基于结果矩阵R获取每个新药物的关系向量;
其中,新药物di的关系向量ydi如下所示:
式中,R'(i,1:N)为矩阵R(i,1:N)放大后的矩阵,R(i,1:N)为结果矩阵R中第i行前N列元素构成的矩阵,α为放大系数;
S6:基于每个新药物的关系向量将所述药物关系初始矩阵Y'中新药物的对应元素进行替换得到所述药物关系矩阵;
其中,将所述药物关系初始矩阵Y'中每个新药物di对应元素的替换过程如下:
Y'(i,1:N)=R'(i,1:N)
Y'(1:N,i)=R'(i,1:N)T
式中,Y'(i,1:N)和Y'(1:N,i)分别为所述药物关系初始矩阵Y'中新药物di对应的前N列矩阵、前N行矩阵,R'(i,1:N)T为矩阵R'(i,1:N)的转置矩阵。
4.根据权利要求3所述的方法,其特征在于:所述药物关系初始矩阵Y'中两个药物之间存在药物关联关系时,所述两个药物的关系初始值为1,否则为0;
所述药物靶标关系矩阵Mdt中一个药物与一个靶标存在药物关联关系时,所述药物靶标关系矩阵Mdt中对应元素为1,否则为0;
所述药物适应症关系矩阵Mdc中一个药物与一个适应症存在药物关联关系时,所述药物适应症关系矩阵Mdc中对应元素为1,否则为0。
5.根据权利要求3所述的方法,其特征在于:所述网络扩散的次数k为2,所述放大系数α为0.5。
6.根据权利要求1所述的方法,其特征在于:两个药物之间的高斯核相似性的计算公式如下:
Gd(di,dj)=exp(-γd||ydi-ydj||2).
式中,Gd(di,dj)为第i个药物di和第j个药物dj的高斯核相似性,N为药物的种类数量,γd为控制核宽度的调节参数,调节参数γd的计算公式如下:
式中,γ'd为经验系数。
7.根据权利要求6所述的方法,其特征在于:所述经验系数γ'd为1。
8.根据权利要求1所述的方法,其特征在于:两个药物之间的特征相似性的计算公式如下:
式中,Simd(di,dj)为第i个药物di和第j个药物dj的特征相似性,di(l)和dj(l)分别对应药物di和药物dj的特征向量中第l个的元素,M为特征向量的维度;
其中,每个药物的特征向量中的元素表示所述药物与元素对应的特征是否存在药物关联关系或者所述药物是否包含元素对应的特征信息。
9.根据权利要求8所述的方法,其特征在于:药物与元素对应的特征存在药物关联关系或者药物包含元素对应的特征信息时,所述药物的特征向量中所述元素为1,否则为0。
10.根据权利要求1所述的方法,其特征在于:所述生物信息包括靶标、转运、酶、代谢,所述表征信息包括适应症、副作用、隔离副作用信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810472698.5A CN108647484B (zh) | 2018-05-17 | 2018-05-17 | 一种基于多元信息集成和最小二乘法的药物关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810472698.5A CN108647484B (zh) | 2018-05-17 | 2018-05-17 | 一种基于多元信息集成和最小二乘法的药物关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108647484A true CN108647484A (zh) | 2018-10-12 |
CN108647484B CN108647484B (zh) | 2020-10-23 |
Family
ID=63756414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810472698.5A Active CN108647484B (zh) | 2018-05-17 | 2018-05-17 | 一种基于多元信息集成和最小二乘法的药物关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647484B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712678A (zh) * | 2018-12-12 | 2019-05-03 | 中国人民解放军军事科学院军事医学研究院 | 关系预测方法、装置及电子设备 |
CN110223786A (zh) * | 2019-06-13 | 2019-09-10 | 重庆亿创西北工业技术研究院有限公司 | 基于非负张量分解的药物-药物相互作用预测方法及系统 |
CN111477344A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于自加权多核学习的药物副作用识别方法 |
CN112216353A (zh) * | 2020-11-02 | 2021-01-12 | 长沙理工大学 | 一种用于预测药物-靶标相互作用关系的方法和设备 |
CN113140327A (zh) * | 2021-04-15 | 2021-07-20 | 广东工业大学 | 药物-疾病关联预测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
US20150324693A1 (en) * | 2014-05-06 | 2015-11-12 | International Business Machines Corporation | Predicting drug-drug interactions based on clinical side effects |
CN105653846A (zh) * | 2015-12-25 | 2016-06-08 | 中南大学 | 基于集成的相似性度量和双向随机游走的药物重定位方法 |
CN106126649A (zh) * | 2016-06-24 | 2016-11-16 | 北京千安哲信息技术有限公司 | 一种相似中药材挖掘方法及装置 |
KR20160149624A (ko) * | 2015-06-18 | 2016-12-28 | 재단법인 전통천연물기반 유전자동의보감 사업단 | 약물 사이의 공통성에 기반한 약력학적 약물 상호 작용 예측 방법 및 장치 |
CN106529205A (zh) * | 2016-11-03 | 2017-03-22 | 中南大学 | 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法 |
CN107610784A (zh) * | 2017-09-15 | 2018-01-19 | 中南大学 | 一种预测微生物和疾病关系的方法 |
CN107887023A (zh) * | 2017-12-08 | 2018-04-06 | 中南大学 | 一种基于相似性和双随机游走的微生物‑疾病关系预测方法 |
-
2018
- 2018-05-17 CN CN201810472698.5A patent/CN108647484B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
US20150324693A1 (en) * | 2014-05-06 | 2015-11-12 | International Business Machines Corporation | Predicting drug-drug interactions based on clinical side effects |
KR20160149624A (ko) * | 2015-06-18 | 2016-12-28 | 재단법인 전통천연물기반 유전자동의보감 사업단 | 약물 사이의 공통성에 기반한 약력학적 약물 상호 작용 예측 방법 및 장치 |
CN105653846A (zh) * | 2015-12-25 | 2016-06-08 | 中南大学 | 基于集成的相似性度量和双向随机游走的药物重定位方法 |
CN106126649A (zh) * | 2016-06-24 | 2016-11-16 | 北京千安哲信息技术有限公司 | 一种相似中药材挖掘方法及装置 |
CN106529205A (zh) * | 2016-11-03 | 2017-03-22 | 中南大学 | 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法 |
CN107610784A (zh) * | 2017-09-15 | 2018-01-19 | 中南大学 | 一种预测微生物和疾病关系的方法 |
CN107887023A (zh) * | 2017-12-08 | 2018-04-06 | 中南大学 | 一种基于相似性和双随机游走的微生物‑疾病关系预测方法 |
Non-Patent Citations (3)
Title |
---|
CHENG YAN ET AL.: "SDTRLS: Predicting Drug-Target Interactions for Complex Diseases Based on Chemical Substructures", 《HINDAWI BIOMOLECULAR NETWORKS FOR COMPLEX DISEASES》 * |
ZENGRUI WU ET AL.: "SDTNBI: an integrated network and chemoinformatics tool for systematic prediction of drug-target interactions and drug repositioning", 《BRIEFINGS IN BIOINFORMATICS》 * |
田欣: "基于数据挖掘的乳腺癌基因筛选与药物重定位方法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712678A (zh) * | 2018-12-12 | 2019-05-03 | 中国人民解放军军事科学院军事医学研究院 | 关系预测方法、装置及电子设备 |
CN110223786A (zh) * | 2019-06-13 | 2019-09-10 | 重庆亿创西北工业技术研究院有限公司 | 基于非负张量分解的药物-药物相互作用预测方法及系统 |
CN111477344A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于自加权多核学习的药物副作用识别方法 |
CN111477344B (zh) * | 2020-04-10 | 2023-06-09 | 电子科技大学 | 一种基于自加权多核学习的药物副作用识别方法 |
CN112216353A (zh) * | 2020-11-02 | 2021-01-12 | 长沙理工大学 | 一种用于预测药物-靶标相互作用关系的方法和设备 |
CN112216353B (zh) * | 2020-11-02 | 2024-04-02 | 长沙理工大学 | 一种用于预测药物-靶标相互作用关系的方法和设备 |
CN113140327A (zh) * | 2021-04-15 | 2021-07-20 | 广东工业大学 | 药物-疾病关联预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108647484B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647484A (zh) | 一种基于多元信息集成和最小二乘法的药物关系预测方法 | |
CN106683081B (zh) | 基于影像组学的脑胶质瘤分子标记物无损预测方法和预测系统 | |
Su et al. | An artificial neural network for predicting the incidence of radiation pneumonitis | |
CN105512477B (zh) | 基于降维组合分类算法非计划性再入院风险评估预测模型 | |
WO2019143737A1 (en) | Systems and methods for modeling probability distributions | |
CN112233810B (zh) | 一种基于真实世界临床数据的治疗方案综合疗效评估方法 | |
CN107887023A (zh) | 一种基于相似性和双随机游走的微生物‑疾病关系预测方法 | |
CN107609326A (zh) | 癌症精准医疗中的药物敏感性预测方法 | |
CN107545151A (zh) | 一种基于低秩矩阵填充的药物重定位方法 | |
CN107403069A (zh) | 一种药物‑疾病关联关系分析系统及方法 | |
CN116092598B (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
CN107194203A (zh) | 基于miRNA数据和组织特异性网络的药物重定位方法 | |
CN109411033A (zh) | 一种基于复杂网络的药物疗效筛选方法 | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
CN109935337A (zh) | 一种基于相似性度量的病案查找方法及系统 | |
CN106815486A (zh) | 一种个性化用药的系统药理学方法 | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
Chen et al. | A flexible and robust multi-source learning algorithm for drug repositioning | |
CN110993113A (zh) | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 | |
Jerez et al. | Missing data imputation in breast cancer prognosis | |
CN110400605A (zh) | 一种gpcr药物靶标的配体生物活性预测方法及其应用 | |
Tanwar et al. | An improved deep learning model for classification of the multiple paddy disease | |
Lufkin et al. | A bayesian model to analyze the association of rheumatoid arthritis with risk factors and their interactions | |
CN110838342B (zh) | 基于相似性的病毒-受体相互作用关系预测方法和装置 | |
US20130253892A1 (en) | Creating synthetic events using genetic surprisal data representing a genetic sequence of an organism with an addition of context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210204 Address after: 518000 a1002 Tian'an innovation and Technology Plaza, chegong temple, Shatou street, Futian District, Shenzhen City, Guangdong Province Patentee after: SHENZHEN ZAOZHIDAO TECHNOLOGY Co.,Ltd. Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932 Patentee before: CENTRAL SOUTH University |
|
TR01 | Transfer of patent right |