CN112151127A - 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 - Google Patents
基于分子语义向量的无监督学习药物虚拟筛选方法和系统 Download PDFInfo
- Publication number
- CN112151127A CN112151127A CN202010920613.2A CN202010920613A CN112151127A CN 112151127 A CN112151127 A CN 112151127A CN 202010920613 A CN202010920613 A CN 202010920613A CN 112151127 A CN112151127 A CN 112151127A
- Authority
- CN
- China
- Prior art keywords
- database
- candidate set
- target compound
- matrix
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000003814 drug Substances 0.000 title claims abstract description 27
- 229940079593 drug Drugs 0.000 title claims abstract description 27
- 238000003041 virtual screening Methods 0.000 title claims abstract description 26
- 150000001875 compounds Chemical class 0.000 claims abstract description 142
- 239000011159 matrix material Substances 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000013139 quantization Methods 0.000 claims abstract description 55
- 238000011002 quantification Methods 0.000 claims abstract description 26
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 150000003384 small molecules Chemical class 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- -1 small molecule compound Chemical class 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 239000000126 substance Substances 0.000 description 11
- 238000002790 cross-validation Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012216 screening Methods 0.000 description 5
- 238000003042 ligand based virtual screening Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004071 biological effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000007877 drug screening Methods 0.000 description 3
- 239000003446 ligand Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000002547 new drug Substances 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000003033 structure based virtual screening Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 150000002611 lead compounds Chemical class 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 229930014626 natural product Natural products 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102000014914 Carrier Proteins Human genes 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Evolutionary Biology (AREA)
Abstract
本发明公开了一种基于分子语义向量的无监督学习药物虚拟筛选方法,包括:建立预训练数据库;构建候选集数据库D1;构建目标化合物库D2;对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
Description
技术领域
本发明涉及化学信息学和生物信息学领域。具体而言,本发明涉及基于分子语义向量的无监督学习药物虚拟筛选方法和系统。
背景技术
药物筛选指的是采用适当的方法,对可能作为药物使用的物质(采样)进行生物活性、药理作用及药用价值的评估过程。药物筛选是生化水平和细胞水平的筛选。随着计算机技术的更新以及大数据技术的发展,应用虚拟筛选策略进行药物筛选逐渐成为主流。虚拟筛选,即在进行生物活性筛选之前,利用计算机算法模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。分子对接是一种计算方法,试图预测配体与蛋白质结合的最可能的位置、方向和构象,以不同方式预测配体与蛋白质的结合自由能,就是找到配体与受体在其活性区域相结合时能量最低的构象,从而达到从几十到上百万个分子中,发现具有药性的先导化合物的目的。
在新药发现过程中,虚拟筛选的应用可以提高活性分子的富集,降低筛选的成本。近年来已引起科研机构和制药公司的高度重视。常用的虚拟筛选方法可以分为基于结构的虚拟筛选(SBVS)和基于配体的虚拟筛选(LBVS)。基于结构的虚拟筛选虽然结合蛋白靶标信息有利于全新药物的发现,但其强烈依赖于蛋白靶标三维结构,这使得基于结构的筛选常常难以展开。基于配体的虚拟筛选的主要科研精力放在各种分子描述符的产生、相似性的比较。基于配体的虚拟筛选的优势在于速度更快,一般可作为虚拟筛选的最初阶段,劣势在于很难找到不同于已知分子的新的骨架。
发明内容
本发明公开了一种基于分子语义向量的无监督学习药物虚拟筛选方法。该方法通过无监督深度学算法进行分子量化的建模并通过空间相似度计算算法进行小分子化合物虚拟筛选。
本发明通过优化算法使其缩短寻找候选化合物数据集与目标化合物集中活性相似化合物的过程,提高了小分子数据库的基于该方法的虚拟筛选的效果和效率。
根据本发明的一个方面,提供一种基于分子语义向量的无监督学习药物虚拟筛选方法,包括:
建立预训练数据库;
构建候选集数据库D1;
构建目标化合物库D2;
对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;
建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;
利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;
利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及
通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
在本发明的一个实施例中,所述经训练的量化模型包括一个化合物子结构向量矩阵,所述化合物子结构向量矩阵是预训练数据库中所有化合物子结构的向量矩阵,所述化合物子结构向量矩阵的大小是(M,300),其中M是指预训练数据库中不重复的子结构的数量,300是每个子结构的向量维度。
在本发明的一个实施例中,利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb包括:
利用化合物子结构向量矩阵得到候选集数据库D1和目标化合物库D2中每个分子的子结构向量,若每一个分子存在多个子结构,则将该分子所有子结构的向量和作为该分子的向量。
在本发明的一个实施例中,所述预训练数据库由150万CHEMBL小分子化合物库构成;所述候选集数据库D1包括各种类型的化合物;所述目标化合物库D2可以包括已知的目标活性化合物。
在本发明的一个实施例中,对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理包括:
将预训练数据库、候选集数据库D1和目标化合物库D2中的所有化合物分子用SMILES表示;
从SMILES转换成RDKIT中的MOL对象,并去除无法转换的数据;
通过摩根指纹分别对预训练数据库、候选集数据库D1和目标化合物库D2中的化合物进行分解,得到化合物子结构。
在本发明的一个实施例中,相似度得分矩阵R为:
在本发明的一个实施例中,对相似度得分矩阵R中的结果进行综合排序包括:
计算对应的得分和排序的最大值Smax、最小值Smin、均值Smean、方差Sstd:
Smax=max{S1,S2,...,Sn},
Smin=min{S1,S2,...,Sn},
根据本发明的另一个实施例中,提供一种基于双向长短记忆模型的药物小分子活性预测的系统,包括:
数据预处理单元,所述数据预处理单元接收预训练数据库、候选集数据库D1和目标化合物库D2并对其进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;
量化模型建立单元建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;
数据量化单元利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;
相似度计算单元利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及
排序和输出单元通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
在本发明的另一个实施例中,相似度得分矩阵R为:
在本发明的另一个实施例中,所述排序和输出单元计算对应的得分和排序的最大值Smax、最小值Smin、均值Smean、方差Sstd:
Smax=max{S1,S2,...,Sn},
Smin=min{S1,S2,...,Sn},
附图说明
为了进一步阐明本发明的各实施例的以上和其它优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出根据本发明的一个实施例的基于分子语义向量的无监督学习药物虚拟筛选方法。
图2示出根据本发明的一个实施例的使用半径为2的摩根指纹对化合物进行分解的示意图。
图3示出根据本发明的一个实施例的基于分子语义向量的无监督学习药物虚拟筛选系统。
具体实施方式
在以下的描述中,参考各实施例对本发明进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构、材料或操作以免使本发明的各实施例的诸方面晦涩。类似地,为了解释的目的,阐述了特定数量、材料和配置,以便提供对本发明的实施例的全面理解。然而,本发明可在没有特定细节的情况下实施。此外,应理解附图中示出的各实施例是说明性表示且不一定按比例绘制。
在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
本发明采用独创的一种基于分子语义向量的无监督学习药物虚拟筛选方法,借鉴自然语言处理中的序列学习方法,以获得方便的建模以及可观的预测性能。利用该算法进行预测的准确性和适用范围将会得到很大的提高。本发明基于深度学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律,提供更精准的预测结果。
通过无监督深度学习方法构建一个化合物量化模型,可达到高质量的分子嵌入式量化。在本发明中,通过使用摩根(Morgan)算法提取了子结构,在NLP的上下文中,子结构代表单词,而完整的分子则是句子。最终,可以通过对从预训练的模型中检索到的子结构向量求和来描述新化合物。
由于代表相似分子的向量也最终在向量空间附近结束,常见子结构以及氨基酸的结果很好地说明了化学相关子结构和化合物的衍生子结构向量占据了相似的向量空间,因此可以简单地将子结构向量求和以获得复合向量,该复合向量可用于计算复合相似度任务中用作特征。
图1示出根据本发明的一个实施例的基于分子语义向量的无监督学习药物虚拟筛选方法。
首先,在步骤110,建立预训练数据库。
在本发明的实施例中,预训练数据库可以是由150万CHEMBL小分子化合物库构成。CHEMBL小分子化合物库是由欧洲生物信息研究所EMBL-EBI数据库运营维护的子库,主要为管理编辑具有药物性质的生物活性分子,它汇集了化学、生物活性和基因组数据,帮助用户将基因组信息翻译成有效的新药。本领域的技术人员应该理解,预训练数据库不限于上述CHEMBL小分子化合物库,在本发明的其他实施例中,预训练数据库还可以是其他化合物数据库。
在步骤120,构建候选集数据库D1。
在本发明的实施例中,候选集数据库D1可以包括各种类型的化合物,诸如,天然化合物、合成化合物、常规化合物和/或新化合物等等。在本发明的一个具体实施例中,候选集数据库D1可以由4000种天然化合物构成。
在步骤130,构建目标化合物库D2。
在本发明的实施例中,目标化合物库D2可以包括已知的目标活性化合物。在本发明的一个具体实施例中,目标化合物库D2可以由14种已知的目标活性化合物构成。
在步骤140,对预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理。
在本发明的实施例中,对整个数据集进行预处理包括标准化处理和去重复化处理。
首先,将预训练数据库、候选集数据库D1和目标化合物库D2中的所有化合物分子用SMILES(Simplified molecular-input line-entry system简化分子线性输入规范)表示,以便后续开展分析。每个数据集的分子用特定的线性SMILES表示,先依据图论思想,借助开源化学信息学工具RDkit和开源数据处理工具KNIME,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序。这一操作是保证所有的分子都使用的是统一的表示形式。接着,将利用分子的InChIKey(一个由27个字符组成的InChI压缩哈希版本,常用于互联网和数据库搜索/索引),进行去重复化处理。一方面是为了去除冗余,另一方面是为了保证验证集和测试集的数据是训练集中从未出现过的数据,用以提高模型的泛化能力和结果的可靠性,为了提高该操作的准确性,我们将SMILES表达式转化成每个分子特有的InChIKey,该操作可以直接通过比对InChIKey实现,完全一致的InChIKey对应的SMILES可直接去除。
在本发明的实施例中,对预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理还包括将预训练数据库、候选集数据库D1和目标化合物库D2中的数据从SMILES转换成RDKIT中的MOL对象,并去除无法转换的数据。RDKIT是一个化学信息学的开源工具包,主要用于操作化学分子(SMILES和SMARTS),通过RDKIT可生成适合机器学习的化学分子特征,也就是说,通过RDKIT生成的MOL对象是一种适合机器学习的文件储存格式。
分子单元包括获得已知活性的分子及其对应的分子的信息,所述分子的信息包括分子的指纹、描述符和SMILES信息,最终都将转换为RDKIT中的MOL对象。
举例而言,在本发明的一个具体实施例中,可以使用半径为2的摩根指纹将预训练数据库中的所有化合物进行分解,最终得到19831个不重复的子结构。图2示出根据本发明的一个实施例的使用半径为2的摩根指纹对化合物进行分解的示意图。首先为每个核心原子分配一个整数标识符;迭代更新,以每个核心原子为中心,将周围一圈的重原子合并进来,直到到达指定半径;特征生成,对子结构进行运算,并生成特征列表。如图2所示灰色部分所示,每个灰色部分为化合物一个子结构,用一串哈希识别符表示。其中每个子结构是词汇,整个化合物则是句子,整个化合物数据集是文本集。在文本集里面出现次数少于三次的稀有子结构会被字节′UNSEEN′所代替,这样的词语很大几率对整体集合影响不大。处理之后的数据集会被用作后续模型的输入。同样,使用摩根指纹将候选集数据库D1和目标化合物库D2中的所有化合物进行分解,得到这些化合物的子结构。
在步骤150,建立一个无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到量化模型M。
在本发明的实施例中,利用Skip-gram模型进行训练,以便获取量化模型M。
Skip-Gram模型是以当前词x(即,化合物中某个子结构)作为输入,输出化合物中可能出现的其他子结构以及他们的概率(下为得分向量)。
在本发明的实施例中,首选,选取中心词x,生成词向量vc=vx,v为输入词矩阵,输入词矩阵最初为随机矩阵,通过后续训练过程,不断更新。接下来,选取距离m,通过u=uvc生成2m个得分向量uc-nv,...,uc-1,uc+1,...,uc+m,其中u是输出词矩阵,输出词矩阵最初为随机矩阵,通过后续训练过程,不断更新。将每个得分向量转化为概率值y=softmax(u),计算sofmax(ui)公式如下:
最终的目标函数表示如下,其中|V|为词汇表的大小,P(A|B)代表条件概率,uT代表转置操作:
该模型有两个参数需要在训练前进行设置,一个是窗口尺寸(window size)还有一个是嵌入维度(dimensional embeddings)是用来调整转化出来的文本向量的。窗口尺寸控制的是上下文的尺寸,在训练skip-gram时,本发明将这个参数设置为10。此外,摩根分子指纹如果把半径设定为2的话,那它会包含有半径0和1的两套分子指纹,目前本发明的量化模型设置的摩根分子指纹半径是1。
经过迭代更新,得到一个化合物子结构向量矩阵该矩阵是训练集中所有化合物子结构的向量矩阵。矩阵的大小是(M,300),其中M是指训练集中19831个不重复的子结构(由于本发明中将训练集中出现次数少于三次的稀有子结构用字节′UNSEEN′所代替,所以M会小于19831),300是每个子结构的向量维度。
在本发明的一个实施例中,基于分子语义向量的无监督学习模型评估策略采用交叉验证。
交叉验证(Cross Validation),有的时候也称作循环估计(RotationEstimation),是一种统计学上将数据样本切割成较小子集的实用方法。交叉验证的基本思想是把在某种意义下将原始数据进行分组,一部分做为训练集,另一部分做为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。
K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。
在本次模型训练中,本发明可以用5折交叉验证,训练到收敛(损失函数200轮次内变化小于10-6)。
本发明提出的无监督深度学习量化方法,最初会在大量未标记数据上进行训练,以获得分子子结构的特征向量,可以将这些特征向量相加以获得复合向量。与稀疏指纹识别向量相比,我们的模型记录了每个子结构的“语义相似性”,其中化学相关子结构的向量占据了向量空间的同一部分,因此它具有更多的信息丰富性和表达能力。
在步骤160,利用量化模型M对候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb。通过对已知分子及其对应的分子信息进行量化,获得已知分子及其对应的分子的特征向量。
在本发明的具体实施例中,利用子结构词矩阵可以得到每个分子的子结构向量,若每一个分子存在多个子结构我们则将该分子所有子结构的向量和作为该分子的向量,即如果一个分子有10个子结构,则将10个子结构的向量相加作为最后这一个分子的向量。
最终,通过化合物嵌入式量化模型可以将化合物的SMILES字符串量化成一个300维的向量。
通过预训练的无监督深度学习量化模型对已知分子及其对应的分子子结构信息进行量化,获得已知分子及其对应的分子结构的特征向量,为后面的相似度打分计算做准备。
在步骤170,利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R:
通过构建的打分函数进行相似度计算,得出候选集分子化合物库与目标分子化合物的相似度得分矩阵。
在步骤180,通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
在得出候选集分子化合物库与目标分子化合物的相似度得分矩阵后,可以对相似度得分矩阵进行综合排序,计算对应的得分和排序的最大值Smax、最小值Smin、均值Smean、方差Sstd:
Smax=max{S1,S2,...,Sn},
Smin=min{S1,S2,...,Sn},
最后得出与目标化合物综合打分最相似的前K个候选集分子化合物。
本发明提出使用无监督深度学习量化方法解析、量化SMILES表达式,该量化模型记录了每个子结构的“语义相似性”,因此它具有更多的信息丰富性和表达能力。
本发明使用基于无监督深度学习量化方法的综合打分函数对候选化合物集和目标活性化合物集进行打分、排序并做筛选,取得超越其它现有模型的精准度。
本发明通用性更强,此外端对端的模型方式,更加方便用户使用。
可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品,这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时,可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,可以作为计算机程序产品下载各实施例,其中,可以经由通信链路(例如,调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如,服务器)传输给请求计算机(例如,客户机)。因此,在此所使用的机器可读介质可以包括这样的载波,但对此不作要求。
图3示出根据本发明的一个实施例的基于分子语义向量的无监督学习药物虚拟筛选系统。如图3所示,该系统包括数据预处理单元310、量化模型建立单元320、数据量化单元330、相似度计算单元340以及排序和输出单元350。
数据预处理单元310接收预训练数据库、候选集数据库D1和目标化合物库D2并对其进行数据预处理。
在本发明的实施例中,对整个数据集进行预处理包括标准化处理和去重复化处理。
首先,将预训练数据库、候选集数据库D1和目标化合物库D2中的所有化合物分子用SMILES(Simplified molecular-input line-entry system简化分子线性输入规范)表示,以便后续开展分析。每个数据集的分子用特定的线性SMILES表示,先依据图论思想,借助开源化学信息学工具RDkit和开源数据处理工具KNIME,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序。这一操作是保证所有的分子都使用的是统一的表示形式。接着,将利用分子的InChIKey(一个由27个字符组成的InChI压缩哈希版本,常用于互联网和数据库搜索/索引),进行去重复化处理。一方面是为了去除冗余,另一方面是为了保证验证集和测试集的数据是训练集中从未出现过的数据,用以提高模型的泛化能力和结果的可靠性,为了提高该操作的准确性,我们将SMILES表达式转化成每个分子特有的InChIKey,该操作可以直接通过比对InChIKey实现,完全一致的InChIKey对应的SMILES可直接去除。
在本发明的实施例中,对预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理还包括将预训练数据库、候选集数据库D1和目标化合物库D2中的数据从SMILES转换成RDKIT中的MOL对象,并去除无法转换的数据。RDKIT是一个化学信息学的开源工具包,主要用于操作化学分子(SMILES和SMARTS),通过RDKIT可生成适合机器学习的化学分子特征,也就是说,通过RDKIT生成的MOL对象是一种适合机器学习的文件储存格式。
分子单元包括获得已知活性的分子及其对应的分子的信息,所述分子的信息包括分子的指纹、描述符和SMILES信息,最终都将转换为RDKIT中的MOL对象。
举例而言,在本发明的一个具体实施例中,可以使用半径为2的摩根指纹将预训练数据库进行分解,最终得到19831个不重复的子结构。
量化模型建立单元320建立一个无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到量化模型M。
在本发明的实施例中,利用Skip-gram模型进行训练,以便获取量化模型M。
Skip-Gram模型是以当前词x(即,化合物中某个子结构)作为输入,输出化合物中可能出现的其他子结构以及他们的概率(下为得分向量)。
在本发明的实施例中,首选,选取中心词x,生成词向量vc=vx,v为输入词矩阵,输入词矩阵最初为随机矩阵,通过后续训练过程,不断更新。接下来,选取距离m,通过u=uvc生成2m个得分向量uc-mv,…,uc-1,uc+1,...,uc+m,其中u是输出词矩阵,输出词矩阵最初为随机矩阵,通过后续训练过程,不断更新。将每个得分向量转化为概率值y=softmax(u),计算softmax(ui)公式如下:
最终的目标函数表示如下,其中|V|为词汇表的大小,P(A|B)代表条件概率,uT代表转置操作:
该模型有两个参数需要在训练前进行设置,一个是窗口尺寸(window size)还有一个是嵌入维度(dimensional embeddings)是用来调整转化出来的文本向量的。窗口尺寸控制的是上下文的尺寸,在训练skip-gram时,本发明将这个参数设置为10。此外,摩根分子指纹如果把半径设定为2的话,那它会包含有半径0和1的两套分子指纹,目前本发明的量化模型设置的摩根分子指纹半径是1。
经过迭代更新,得到一个化合物子结构向量矩阵该矩阵是训练集中所有化合物子结构的向量矩阵。矩阵的大小是(M,300),其中M是指训练集中19831个不重复的子结构(由于本发明中将训练集中出现次数少于三次的稀有子结构用字节′UNSEEN′所代替,所以M会小于19831),300是每个子结构的向量维度。
在本次模型训练中,本发明可以用5折交叉验证,训练到收敛(损失函数200轮次内变化小于10-6)。
数据量化单元330利用量化模型M对候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb。通过对已知分子及其对应的分子信息进行量化,获得已知分子及其对应的分子的特征向量。
在本发明的具体实施例中,数据量化单元330利用子结构词矩阵可以得到每个分子的子结构向量,若每一个分子存在多个子结构我们则将该分子所有子结构的向量和作为该分子的向量,即如果一个分子有10个子结构,则将10个子结构的向量相加作为最后这一个分子的向量。
最终,通过化合物嵌入式量化模型可以将化合物的SMILES字符串量化成一个300维的向量。
数据量化单元330通过预训练的无监督深度学习量化模型对已知分子及其对应的分子子结构信息进行量化,获得已知分子及其对应的分子结构的特征向量,为后面的相似度打分计算做准备。
相似度计算单元340利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R:
通过构建的打分函数进行相似度计算,得出候选集分子化合物库与目标分子化合物的相似度得分矩阵。
排序和输出单元350通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
在得出候选集分子化合物库与目标分子化合物的相似度得分矩阵后,排序和输出单元350可以对相似度得分矩阵进行综合排序,计算对应的得分和排序的最大值Smax、最小值Smin、均值Smean、方差Sstd:
Smax=max{S1,S2,...,Sn},
Smin=min{S1,S2,...,Sn},
最后得出与目标化合物综合打分最相似的前K个候选集分子化合物。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。
Claims (10)
1.一种基于分子语义向量的无监督学习药物虚拟筛选方法,包括:
建立预训练数据库;
构建候选集数据库D1;
构建目标化合物库D2;
对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;
建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;
利用经训练的量化模型分别对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;
利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及
通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
2.如权利要求1所述的基于分子语义向量的无监督学习药物虚拟筛选方法,其特征在于,所述经训练的量化模型包括化合物子结构向量矩阵,所述化合物子结构向量矩阵是预训练数据库中所有化合物子结构的向量矩阵,所述化合物子结构向量矩阵的大小是(M,300),其中M是指预训练数据库中不重复的子结构的数量,300是每个子结构的向量维度。
3.如权利要求2所述的基于分子语义向量的无监督学习药物虚拟筛选方法,其特征在于,利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb包括:
利用化合物子结构向量矩阵得到候选集数据库D1和目标化合物库D2中每个分子的子结构向量,若每一个分子存在多个子结构,则将该分子所有子结构的向量和作为该分子的向量。
4.如权利要求1所述的基于分子语义向量的无监督学习药物虚拟筛选方法,其特征在于,所述预训练数据库由150万CHEMBL小分子化合物库构成;所述候选集数据库D1包括各种类型的化合物;所述目标化合物库D2可以包括已知的目标活性化合物。
5.如权利要求1所述的基于分子语义向量的无监督学习药物虚拟筛选方法,其特征在于,对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理包括:
将预训练数据库、候选集数据库D1和目标化合物库D2中的所有化合物分子用SMILES表示;
从SMILES转换成RDKIT中的MOL对象,并去除无法转换的数据;
通过摩根指纹分别对预训练数据库、候选集数据库D1和目标化合物库D2中的化合物进行分解,得到化合物子结构。
8.一种基于双向长短记忆模型的药物小分子活性预测的系统,包括:
数据预处理单元,所述数据预处理单元接收预训练数据库、候选集数据库D1和目标化合物库D2并对其进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;
量化模型建立单元建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;
数据量化单元利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;
相似度计算单元利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及
排序和输出单元通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010920613.2A CN112151127A (zh) | 2020-09-04 | 2020-09-04 | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010920613.2A CN112151127A (zh) | 2020-09-04 | 2020-09-04 | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151127A true CN112151127A (zh) | 2020-12-29 |
Family
ID=73890966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010920613.2A Pending CN112151127A (zh) | 2020-09-04 | 2020-09-04 | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151127A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113655111A (zh) * | 2021-08-17 | 2021-11-16 | 北京雪迪龙科技股份有限公司 | 基于走航监测的大气挥发性有机物溯源方法 |
WO2023123149A1 (zh) * | 2021-12-30 | 2023-07-06 | 深圳晶泰科技有限公司 | 虚拟分子筛选系统、方法、电子设备及计算机可读存储介质 |
WO2024016376A1 (zh) * | 2022-07-18 | 2024-01-25 | 慧壹科技(上海)有限公司 | 一种清洗小分子化合物的数据预处理系统及其方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110459274A (zh) * | 2019-08-01 | 2019-11-15 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
WO2019231624A2 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
US20200168302A1 (en) * | 2017-07-20 | 2020-05-28 | The University Of North Carolina At Chapel Hill | Methods, systems and non-transitory computer readable media for automated design of molecules with desired properties using artificial intelligence |
-
2020
- 2020-09-04 CN CN202010920613.2A patent/CN112151127A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200168302A1 (en) * | 2017-07-20 | 2020-05-28 | The University Of North Carolina At Chapel Hill | Methods, systems and non-transitory computer readable media for automated design of molecules with desired properties using artificial intelligence |
WO2019231624A2 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CN110459274A (zh) * | 2019-08-01 | 2019-11-15 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113241128B (zh) * | 2021-04-29 | 2022-05-13 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113655111A (zh) * | 2021-08-17 | 2021-11-16 | 北京雪迪龙科技股份有限公司 | 基于走航监测的大气挥发性有机物溯源方法 |
WO2023123149A1 (zh) * | 2021-12-30 | 2023-07-06 | 深圳晶泰科技有限公司 | 虚拟分子筛选系统、方法、电子设备及计算机可读存储介质 |
WO2024016376A1 (zh) * | 2022-07-18 | 2024-01-25 | 慧壹科技(上海)有限公司 | 一种清洗小分子化合物的数据预处理系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900225B2 (en) | Generating information regarding chemical compound based on latent representation | |
CN112151127A (zh) | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 | |
JP6265921B2 (ja) | テキストの意味的処理のための方法、装置および製品 | |
CN113707235A (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
Douze et al. | The faiss library | |
CN113393911B (zh) | 一种基于深度学习的配体化合物快速预筛选方法 | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
CN109241298B (zh) | 语义数据存储调度方法 | |
CN112232087A (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
WO2023226351A1 (zh) | 一种基于药效团模型的小分子生成方法、设备及介质 | |
CN112732864A (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
Ding et al. | Dance: A deep learning library and benchmark for single-cell analysis | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN112086133A (zh) | 一种基于文本隐含信息的药物靶标特征学习方法及装置 | |
CN111782818A (zh) | 生物医疗知识图谱的构建装置、方法、系统及存储器 | |
CN115938490A (zh) | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 | |
Oliveira Pereira et al. | End-to-end deep reinforcement learning for targeted drug generation | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 | |
CN115240787A (zh) | 基于深度条件循环神经网络的全新分子生成方法 | |
CN117874175B (zh) | 一种基于信息瓶颈的信息检索方法和系统 | |
CN116417062B (zh) | 酶-底物亲和力常数预测方法、存储介质和装置 | |
CN109460449B (zh) | 并行化数据分析方法 | |
Liu et al. | Deep hashing based on triplet labels and quantitative regularization term with exponential convergence | |
CN116955713A (zh) | 蛋白质索引的生成方法、蛋白质片段的查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210326 Address after: Room 202, building 1, 366 Tongyun street, Liangzhu street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou derizhi Pharmaceutical Technology Co.,Ltd. Address before: 11 / F, building 15, Singapore Science Park, Qiantang New District, Hangzhou, Zhejiang 310000 Applicant before: Niu Zhangming Applicant before: Wade Menpes Smith |
|
TA01 | Transfer of patent application right |