CN106777986B - 药物筛选中基于深度哈希的配体分子指纹生成方法 - Google Patents

药物筛选中基于深度哈希的配体分子指纹生成方法 Download PDF

Info

Publication number
CN106777986B
CN106777986B CN201611178270.7A CN201611178270A CN106777986B CN 106777986 B CN106777986 B CN 106777986B CN 201611178270 A CN201611178270 A CN 201611178270A CN 106777986 B CN106777986 B CN 106777986B
Authority
CN
China
Prior art keywords
molecular
ligand
fingerprint
ligand molecular
depth hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611178270.7A
Other languages
English (en)
Other versions
CN106777986A (zh
Inventor
吴建盛
尹新宇
胡海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201611178270.7A priority Critical patent/CN106777986B/zh
Publication of CN106777986A publication Critical patent/CN106777986A/zh
Application granted granted Critical
Publication of CN106777986B publication Critical patent/CN106777986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本发明公开了一种药物筛选中基于深度哈希的配体分子指纹生成方法,首先生成分子结构式图像文件,然后定义配体分子对的配对标记,训练DPSH深度哈希学习模型,最后预测新配体分子的分子指纹。本发明将配体分子结构式转换成图像文件,利用深度哈希算法,优化目标损失函数,自动生成分子指纹。本发明将实现第一个“端到端”的分子指纹生成框架,无需手工提取特征,解决了分子指纹生成方法需要开发者对领域知识有较深了解的难题。本发明从全新的角度提供分子指纹生成的通用框架,为现有分子指纹生成方法的重要补充,将会推动分子指纹在药物筛选中更广泛的应用。

Description

药物筛选中基于深度哈希的配体分子指纹生成方法
技术领域
本发明涉及一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,属于计算机辅助药物设计的技术领域。
背景技术
分子指纹(Molecular Fingerprint)将化学分子表示成“位串”(bit string),用于刻画化学分子的结构或功能相似性,由于其使用的简便性以及在子结构和相似性搜索中的高效性,在药物发现和虚拟筛选中得到了广泛应用。
目前,已经提出了很多的分子指纹生成方法,不同的方法反映了分子不同方面的信息。分子指纹生成方法主要包括:基于关键子结构的分子指纹生成方法、基于路径的分子指纹生成方法、环形指纹生成方法、药效团指纹生成方法和混合指纹生成方法等。基于关键子结构的分子指纹生成方法根据是否存在给定列表中的子结构将化学分子表示成位串,如MACCS、PubChem等。基于路径的分子指纹生成方法根据分子的拓扑结构,顺着分子化学键的不同路径产生子结构,并哈希产生分子位串,其长度可变,可用于快速子结构搜索,如Daylight指纹和OpenEye树形指纹。环形指纹生成方法利用分子的拓扑结构,考虑每个原子的周边原子和键的信息生成位串,已为广泛应用于分子的整体结构相似性搜索,如Molprint2D、ECFP、FCFP等。药效团指纹生成方法,它与基于关键子结构的指纹相似,但它除了考虑与药效相关的关键子结构,还考虑了这些子结构间的距离因素。混合指纹生成方法同时结合上述多种分子指纹信息,如UNITY 2G同时考虑了关键子结构和子结构连接路径信息。除了上述分子指纹生成方法,最近还有不少全新的方法涌现。例如,LINGO为基于文本的分子指纹工具,PLIF分子指纹生成方法主要考虑蛋白质-配体相互作用信息,包括氢键、离子键等,SIFt分子指纹生成方法主要考虑分子结构间的相互作用信息。
现有的分子指纹生成方法依赖于开发者的手工特征提取,这对开发者提出了很高的要求,开发者需要对领域知识有很深的了解。同时发现分子结构式的可视化显示是了解分子性质最直观的方式,可以将其结构图转化成图像格式,使用成熟的图像处理技术来生成分子指纹。深度哈希将特征自动生成和哈希编码学习通过深度学习框架结合到一起,凭借其强大的特征学习能力和标记监督信息,迅速超越了基于手工设计特征的传统哈希方法。
发明内容
本发明的目的在于解决传统分子指纹技术需要开发者对领域知识有较深了解,技术门槛较高的难题。本发明将分子结构式转换成图像文件,采用DPSH深度哈希算法自动学习分子指纹。本发明从全新的角度设计第一个“端到端”的分子指纹生成框架,开发者无需手工设计特征,模型将自动生成分子指纹。
为达到上述目的,本发明的技术方案为一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,包括如下步骤:
步骤1:生成分子结构式图像文件;
步骤2:定义配体分子对的配对标记;
步骤3:训练DPSH深度哈希学习模型;
步骤4:预测新配体分子的分子指纹。
进一步,步骤1通过现有分子软件读取配体分子SMILES,并调用软件中的构图函数,生成固定尺寸为300*300像素的配体分子结构式图像文件,用于表示配体分子的结构特征。
如果两配体分子与共同的药物靶标作用,则两分子之间的配对标记为1;若两分子分别与不同的药物靶标作用,则两分子之间的配对标记为0,DPSH深度哈希分子指纹生成模型的目的在于:配对标记为1的两个配体分子,通过模型生成的分子指纹尽可能相似;配对标记为0的两分子,其分子指纹之间差距较大。
步骤3将步骤1得到的配体分子结构式图像进行预处理,转换成像素大小为224*224的图像形式,并结合步骤2生成的配对标记,一同输入DPSH深度哈希学习模型,提取配体分子结构深层次的特征,进行配体分子指纹自动编码,更新网络参数。
步骤4中当要预测新的配体分子的哈希指纹时,只需将配体分子的结构式图像输入DPSH深度哈希学习模型处理,就能在输出端得到指定长度的指纹向量。
本发明的有益效果:
1、本发明提出的方法将实现第一个“端到端”、自动的分子指纹生成框架,开发者无需手工设计特征,解决了“开发者需要对领域知识有较深的了解”的难题。
2、本发明从一个全新的角度来生成分子指纹,将捕获不同的分子信息,可作为现有分子指纹生成方法的重要补充,也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。
附图说明
图1为本发明基于深度哈希的分子指纹生成系统的架构图。
图2为本发明基于深度哈希的分子指纹生成方法流程图。
具体实施方式
下面结合附图和实例对本发明做进一步的说明。
本发明提出的方法只需要输入分子结构式文件,它将被转换成图像文件,利用DPSH深度哈希算法,通过优化目标损失函数来自动生成最优的分子指纹。本发明提出的方法将实现第一个“端到端”的分子指纹生成框架,开发者无需手工设计特征,解决了“开发者需要对领域知识有较深的了解”的难题。本发明从一个全新的角度来提供分子指纹生成的通用框架,可以作为现有的分子指纹生成方法重要的补充,也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。
本发明主要包含两部分内容:分子的图像文件生成和分子指纹自动生成。
分子的图像文件生成:结构式是用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的式子,是一简单描述分子式的方法。本发明通过现有的软件,例如RDkit,将分子结构式转换成图像格式的文件。
分子指纹自动生成:上面得到的图像作为DPSH深度哈希模型的输入,通过优化目标损失函数来生成最优的分子指纹。
方法流程:
步骤1:将配体化学分子式(SMILES格式)输入RDkit工具,转换为300*300像素的图像;
步骤2:定义配体分子对的配对标记(pairwise label)。如果两个配体分子与同一个药物靶标作用,则这两个配体分子的配对标记为1,否则为0;
步骤3:训练DPSH深度哈希学习模型。将配体分子对的两个配体分子的图像文件(由步骤1产生)和配对标记作为DPSH深度哈希模型的输入,训练DPSH深度哈希学习模型,使得相似的配体分子的哈希码(配体标记为1)尽量相似,不同的配体分子的哈希码(配体标记为0)尽量不同;
步骤4:应用训练好的DPSH深度哈希模型,预测新的配体分子的分子指纹。
本发明的具体实施步骤,如图2所示,包括:
1、配体分子图像文件生成
已知与疾病相关、具有特定药效功能的药物靶标和与之作用的配体分子(SMILES格式)。SMILES(Simplified molecular input line entry specification),简化分子线性输入规范,是一种用字符串明确描述分子结构的规范。SMILES用一串字符来描述一个三维化学结构,SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。
调用RDkit中的Draw.MolToFile函数,可根据配体分子SMILES产生结构式图像,大小为300*300像素。
2、基于DPSH深度学习模型的配体分子指纹自动生成
2.1、定义属性
如果两配体分子与共同的药物靶标作用,则两配体分子之间的配对标记为1;若两配体分子分别与不同的药物靶标作用,则两配体分子之间的配对标记为0。指纹生成模型的目的在于:配对标记为1的两个配体分子,生成的分子指纹尽可能相似;配对标记为0的两配体分子,其分子指纹之间差距较大。
2.2、建模与训练
在这个步骤中,本发明将特征学习和目标函数学习两部分融合到统一的框架之中。图1为哈希指纹生成的完整模型。模型的特征学习部分采用预训练过的卷积神经网络VGG-F,如图1所示,上下两个卷积神经网络具有相同的结构并且权值共享。这意味着:系统的输入和损失函数的计算是基于成对的配体分子结构式图像。
2.2.1、特征学习部分
将步骤1中得到的分子结构式图像使用Matlab预处理,转换成224*224像素的图像形式,输入卷积神经网络,经过卷积、池化、激活等处理,在全连接层输出固定长度(4096维)的特征向量。
2.2.2、目标函数学习部分
在步骤3中,DPSH深度哈希学习模型提出一个函数将特征学习部分和目标函数部分结合到统一框架。如下所示:
公式(1)中,θ代表神经网络中所有层的参数;表示第i个分子结构式图片输入卷积神经网络产生的向量;W为一个4096*n维的权重矩阵,将全连接层输出的4096维向量转化为长度为n的分子指纹编码;v代表偏移向量。
现已知每个配体分子的指纹编码ui,以及配体分子对之间的配对标记sij,根据步骤2提出的目标:配对标记为1的两个分子通过编码后的指纹之间的汉明距离尽可能小;配对标记为0的两分子编码指纹的汉明距离大。构造如下函数:
其中
Ωij是两编码的点乘,即对应位相乘再相加,代表指纹编码之间的汉明距离;σ是一个限制函数,使输出值在0,1范围之间,且单调递增。当两分子配对标记为1时,Ωij值较大,σ值较大;两分子配对标记为0时,σ值较小,则1-σ值越大。结果使p(sij|U)在两种不同的相似性条件下总能得到较大值。于是DPSH深度哈希学习模型使用的损失函数为:
式中即利用已知的样本分布,找到最大概率导致这种分布的参数值。由于log函数单调递增,因而log p(sij|U)会达到最大值,因此添加负号之后,最大化p(sij|U)等价于最小化J。
2.2.3、优化损失函数
本发明中DPSH深度学习模型采用mini-batch方法对损失函数(3)进行优化求导,如下所示:
式中对于其他三个参数W,v,使用后向传播(BP)算法,对J求导进行更新。BP算法实质是求取误差函数的最小值,把误差信号按原来传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,使得误差信号趋向最小。公式如下:
2.2.4、使用模型进行预测
当特征学习部分和目标函数学习部分参数全部优化结束,基于DPSH深度哈希的分子指纹生成模型便构建完成。预测某一配体分子的哈希指纹,只需要将分子结构式图像输入模型进行处理,输出端就得到指定长度的指纹向量。
本发明提出的方法将实现第一个“端到端”、自动的分子指纹生成框架。大部分传统分子指纹生成方法依赖于开发者的手工特征提取,这意味着,生成准确的分子指纹,需要开发者对分子特征领域的相关信息有很深的了解。本发明使用较为成熟的卷积神经网络技术,提取分子结构内部深层次的特征信息,比手工设计的特征更加全面和准确。因此开发者无需手工设计特征,解决了“开发者需要对领域知识有较深的了解”的难题。
本发明从一个全新的角度即以输入分子结构式图像,来生成分子指纹。这是传统指纹生成方法所不具备,这种方法将捕获更多不同的分子的结构信息,既可作为现有分子指纹生成方法的重要补充,也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。基于DPSH深度哈希方法生成的指纹,可用于海量分子数据库中的快速近似搜索,大大降低了药物设计前期工作的成本与时间。

Claims (4)

1.一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,所述方法包括如下步骤:
步骤1:生成分子结构式图像文件;
步骤2:定义配体分子对的配对标记,即如果两配体分子与共同的药物靶标作用,则两分子之间的配对标记为1;若两分子分别与不同的药物靶标作用,则两分子之间的配对标记为0,
步骤3:训练DPSH深度哈希学习模型,包括:将配体分子对的两个配体分子的图像文件和配对标记作为DPSH深度哈希模型的输入,提取配体分子对的两个配体分子的图像文件和配对标记作为DPSH深度哈希学习模型,包括:将配体分子对的两个配体分子的图像文件和配对标记作为DPSH深度哈希模型的输入,提取配体分子结构深层次的特征,进行配体分子指纹自动编码,更新网络参数,训练DPSH深度哈希学习模型,使得配对标记为1的两个配体分子,通过模型生成的分子指纹尽可能相似;配对标记为0的两分子,其分子指纹之间差距较大;
步骤4:预测新配体分子的分子指纹。
2.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,步骤1通过现有分子软件读取配体分子SMILES,并调用软件中的构图函数,生成固定尺寸为300*300像素的配体分子结构式图像文件,用于表示配体分子的结构特征。
3.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,步骤3将步骤1得到的配体分子结构式图像进行预处理,转换成像素大小为224*224的图像形式,并结合步骤2生成的配对标记,一同输入DPSH深度哈希学习模型,提取配体分子结构深层次的特征,进行配体分子指纹自动编码,更新网络参数。
4.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法,其特征在于,步骤4中当要预测新的配体分子的哈希指纹时,只需将配体分子的结构式图像输入DPSH深度哈希学习模型处理,就能在输出端得到指定长度的指纹向量。
CN201611178270.7A 2016-12-19 2016-12-19 药物筛选中基于深度哈希的配体分子指纹生成方法 Active CN106777986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611178270.7A CN106777986B (zh) 2016-12-19 2016-12-19 药物筛选中基于深度哈希的配体分子指纹生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611178270.7A CN106777986B (zh) 2016-12-19 2016-12-19 药物筛选中基于深度哈希的配体分子指纹生成方法

Publications (2)

Publication Number Publication Date
CN106777986A CN106777986A (zh) 2017-05-31
CN106777986B true CN106777986B (zh) 2019-05-21

Family

ID=58890310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611178270.7A Active CN106777986B (zh) 2016-12-19 2016-12-19 药物筛选中基于深度哈希的配体分子指纹生成方法

Country Status (1)

Country Link
CN (1) CN106777986B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126554A (zh) * 2018-10-31 2020-05-08 深圳市云网拜特科技有限公司 一种基于生成对抗网络的药物先导化合物筛选方法和系统
JP7168979B2 (ja) * 2019-01-31 2022-11-10 国立大学法人東京工業大学 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
CN111798935A (zh) * 2019-04-09 2020-10-20 南京药石科技股份有限公司 基于神经网络的普适性化合物结构-性质相关性预测方法
CN110534164A (zh) * 2019-09-26 2019-12-03 广州费米子科技有限责任公司 基于深度学习的药物分子生成方法
CN111402966B (zh) * 2020-03-06 2022-08-19 华东师范大学 一种基于小分子三维结构描述小分子片段属性的指纹设计方法
CN111477287B (zh) * 2020-06-28 2020-11-20 天云融创数据科技(北京)有限公司 一种药物靶点预测方法、装置、设备及介质
CN111860507B (zh) * 2020-07-20 2022-09-20 中国科学院重庆绿色智能技术研究院 基于对抗学习的化合物图像分子结构式提取方法
CN112201314B (zh) * 2020-09-18 2024-05-03 北京望石智慧科技有限公司 分子指纹的提取及基于其的相关度的计算的方法及装置
CN112331277B (zh) * 2020-10-28 2022-06-21 星药科技(北京)有限公司 一种基于强化学习的路径可控的药物分子生成方法
CN112466410B (zh) * 2020-11-24 2024-02-20 江苏理工学院 蛋白质与配体分子结合自由能的预测方法及装置
CN113674807A (zh) * 2021-08-10 2021-11-19 南京工业大学 一种基于深度学习技术定性定量模型的分子筛选方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715021A (zh) * 2015-02-27 2015-06-17 南京邮电大学 一种基于哈希方法的多标记学习的设计方法
CN105760890A (zh) * 2016-03-01 2016-07-13 南京邮电大学 多示例多标记中基于样本特征分布的主动学习设计方法
CN105825511A (zh) * 2016-03-18 2016-08-03 南京邮电大学 一种基于深度学习的图片背景清晰度检测方法
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715021A (zh) * 2015-02-27 2015-06-17 南京邮电大学 一种基于哈希方法的多标记学习的设计方法
CN106033426A (zh) * 2015-03-11 2016-10-19 中国科学院西安光学精密机械研究所 一种基于潜在语义最小哈希的图像检索方法
CN105760890A (zh) * 2016-03-01 2016-07-13 南京邮电大学 多示例多标记中基于样本特征分布的主动学习设计方法
CN105825511A (zh) * 2016-03-18 2016-08-03 南京邮电大学 一种基于深度学习的图片背景清晰度检测方法

Also Published As

Publication number Publication date
CN106777986A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106777986B (zh) 药物筛选中基于深度哈希的配体分子指纹生成方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
US20220197272A1 (en) Automatic Extraction of Assets Data from Engineering Data Sources for Generating an HMI
US11195007B2 (en) Classification of piping and instrumental diagram information using machine-learning
JP2022056316A (ja) 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11782928B2 (en) Computerized information extraction from tables
CN109408058B (zh) 基于机器学习的前端辅助开发方法和装置
CN110647632B (zh) 基于机器学习的图像与文本映射技术
CN105393264A (zh) 人机交互学习中的交互区段提取
Zhou et al. Reverse-engineering bar charts using neural networks
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
He et al. Context-aware mathematical expression recognition: An end-to-end framework and a benchmark
KR20220034076A (ko) 문자부호 생성 모델의 훈련 방법, 문자부호 생성 방법, 장치 및 설비
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
Zhang et al. A symbol dominance based formulae recognition approach for pdf documents
Hu et al. On-line handwritten mathematical expression recognition method based on statistical and semantic analysis
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
Li et al. Locally-enriched cross-reconstruction for few-shot fine-grained image classification
CN111638926A (zh) 人工智能在Django框架中的一种实现方法
Pawade et al. Automatic HTML code generation from Graphical User Interface image
CN112395834A (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN117370578A (zh) 一种基于多模态信息进行食品安全知识图谱补全的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant