CN110428864A - 用于构建蛋白质和小分子的亲和力预测模型的方法 - Google Patents

用于构建蛋白质和小分子的亲和力预测模型的方法 Download PDF

Info

Publication number
CN110428864A
CN110428864A CN201910645423.1A CN201910645423A CN110428864A CN 110428864 A CN110428864 A CN 110428864A CN 201910645423 A CN201910645423 A CN 201910645423A CN 110428864 A CN110428864 A CN 110428864A
Authority
CN
China
Prior art keywords
protein
small molecule
prediction model
molecule compound
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910645423.1A
Other languages
English (en)
Inventor
车超
赵撼宇
张强
周东生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201910645423.1A priority Critical patent/CN110428864A/zh
Publication of CN110428864A publication Critical patent/CN110428864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了用于构建蛋白质和小分子亲和力预测模型的方法。首先,进行蛋白质的特征提取,利用氨基酸的理化属性将20类氨基酸归为6类;然后通过滑动窗口生成新序列,有效地提取边界信息;最后结合word2vec算法提取氨基酸之间的位置关系。随后提取小分子化合物的物化属性特征,利用多重插补法对物化属性的缺失值进行填充。最后,使用LightGBM算法对蛋白质和小分子的亲和力进行预测。与现有预测模型相比,本发明提出的蛋白质特征提取算法可以有效捕捉边界信息,所使用的多重插补法利用贝叶斯估计理论,在生成的多组候选插补值中选择合适的值,所使用的LightGBM通过梯度的迭代,可以高效进行回归预测,减少过拟合。

Description

用于构建蛋白质和小分子的亲和力预测模型的方法
技术领域
本发明涉及生物制药方法领域,具体为用于构建蛋白质和小分子的亲和力预测模型的方法。
背景技术
生物制药产业对于国民经济和人类社会具有重大意义,但是实践表明,新药的研发过程中普遍存在着研发周期长、研发成本高、失败率高这三个重大问题。一个药物从理论研究到工业开发,再到临床应用,需要经过靶点确认、先导物发现和优化、临床前研发、临床试验I期、II期、III期试验后才能上市销售,其中每个步骤的失败,都有可能存在前功尽弃的风险。根据Tufts药物研发中心统计,平均研发成本高达28.7亿美元,平均研发时间是116.1个月,大约10年,但成功率只有11.83% 。而机器学习技术在生物制药上的应用可以有效地推动这三个问题的解决,提升新药研发的成功率。
例如,申请号为2019101176935的中国专利提供了一种靶点蛋白质与小分子结合预测方法及系统,通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。本发明所提供的方法及系统,提取了相互作用直接相关的活性口袋部分表示蛋白,有利于去除非相关信息,减少噪音,进而提高准确性。虽然该方法针对的实验对象是已知的靶点蛋白及其构合物,但是对蛋白质和小分子化合物亲和力的预测模型的构建提供了有力的佐证。只是由于该预测中蛋白质的特异性较强,不适宜用来构建大部分蛋白质和小分子化合物的预测模型。而申请号2012104409102的中国专利公开了基于分子描述符的蛋白质 - 配体亲和力预测方法,构建完善而系统的分子描述符反映蛋白质- 配体亲和力,采用支持向量回归的方法建立描述符与亲和力的关系。该方法主要基于分子描述符和回归模型的方法,靶点依赖性小、对同系物敏感性高。但是该方法的应用容易出现过拟合,影响预测的准确度和效率。
发明内容
为了更好的对蛋白质和用于制药的小分子化合物的亲和力进行预测,本发明提出一种新的用于构建蛋白质与小分子化合物亲和力预测模型的方法。
为实现上述目的,本发明采用的技术方案包括以下步骤:
步骤1:对蛋白质的一级结构进行编码,作为模型的输入;
步骤2:对编码后的蛋白质序列进行特征提取;
步骤3:对小分子化合物及其物化属性的缺失值进行填充;
步骤4:利用LightGBM对蛋白质与小分子化合物亲和力进行预测。
进一步改进的是,所述的步骤1的主要步骤的依据如下:
为了更好地表示蛋白质序列,需要对蛋白质的一级结构进行编码。蛋白质一级结构是肽或蛋白质中氨基酸构成的线性序列,通常用字母串来表示,在字母串中我们用单个字母表示20种天然存在的氨基酸以及混合物。例如,β-Carbonic蛋白质的一级结构的部分片段为’MPLFSFEGRSPRIDPTAFVAPTAT LIGDVTIEAGASVWFNAVL’。
进一步改进的是,所述的步骤2的主要步骤的依据如下:
首先将20种氨基酸按照生物化学特性分成6类,依次是A = {𝐻, 𝑅, 𝐾}, B = {𝐷, 𝐸,𝑁, 𝑄}, C = {𝐶}, D = {𝑆, 𝑇, 𝑃, 𝐴, 𝐺},E = {𝑀, 𝐼, 𝐿, 𝑉}, and F={𝐹,𝑌,𝑊}。这样的话所述的β-Carbonic蛋白质序列就可以表示为‘EDEFDFBDADAEBDDDFEDDDDDEEDBEDEBBDDDDEFFBDEE’。利用这种方法得到的新片段的组合为6^3=216种,可以在一定程度上避免维度灾难的发生。然后采用滑动窗口,步数为1,从而得到3组不重叠的蛋白质序列。在此基础上进行词向量的训练,最后将3组序列的词向量相加得到最终的蛋白质序列的向量表示。
所述的步骤3的主要步骤的依据如下:
为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整的数据集合。每个插补数据集合都用针对完整数据集的统计方法进行统计分析。对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
进一步改进的是,所述的步骤4的主要步骤的依据如下:
LightGBM算法是基于histogram的决策树算法,把连续的浮点特征值离散化成 k 个整数,同时构造出一个宽度为 k 的直方图。
在遍历数据时,以离散化后的值为索引,在直方图中累积统计量,一次数据遍历后,根据直方图的离散值遍历累积的统计量,寻找最优的分割点。
LightGBM中决策树子模型采用带深度限制的 Leaf-wise叶子生长策略,通过在Leaf-wise 之上增加一个最大深度的限制,在保证高效的同时也可以有效的防止了过拟合。
与现有蛋白质特征预测模型相比,本发明提出的蛋白质特征提取算法模型可以有效捕捉边界信息,所使用的多重插补法利用贝叶斯估计理论,在生成的多组候选插补值中选择合适的值,而所使用的LightGBM通过梯度的迭代,可以高效进行回归预测,减少过拟合。因而本发明提出的构建蛋白质和小分子化合物的亲和力模型的方法可以很大程度上有效地解决生物制药研发周期长的难题,提升新药研发的成功率和成果转化率,大大节省了研发资源和成本,显然具备巨大的潜在经济效益。
附图说明
图1为蛋白质特征提取步骤图。
具体实施方式
以下结合附图和实施例对本发明作进一步详细说明。
为了更好地对蛋白质和小分子化合物的亲和力进行预测,本发明提出一种新的蛋白质特征提取算法来提取蛋白质特征;运用多重插补法来填充小分子化合物物化属性的缺失值;使用LightGBM来对蛋白质和小分子化合物的亲和力进行预测。
实施例:构建蛋白质与小分子化合物亲和力预测模型的方法的具体步骤如下:
步骤1:对蛋白质的一级结构进行编码,作为模型的输入;
步骤2:对编码后的蛋白质序列进行特征提取;
步骤3:对小分子化合物的物化属性的缺失值进行填充;
步骤4:利用LightGBM对蛋白质与小分子化合物亲和力进行预测;
按照上述步骤,将本发明分别与常用的蛋白质特征提取算法、常用的缺失值填充算法和常用的回归模型构建算法进行对比试验。具体试验结果如表1-表3所示:
表1蛋白质特征提取算法对比
Future Extraction methods RMSE
343-dimensional feature vector 1.3496
56-dimensional feature vector 1.3138
Word2Vec 1.2631
本发明的方法 1.2481
表2 数据填充方法对比
Model RMSE
Raw Data 1.2481
Mean Completer Imputation 1.2782
K-means Clustering Imputation 1.2476
Line Regression Imputation 1.2512
Multiple Imputation 1.2333
表3 模型对比
Model RMSE
LR 1.2972
svm 1.2476
LightGBM 1.2333
本发明采用了均方根误差(RMSE)来衡量模型预测的效果。均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根,其值越小,说明模型预测的效果越好。通过以上对比试验说明本发明模型的RMSE低于其他的对比方法,预测性能更好。实际上该模型提出了一种提取蛋白质特征的新方法;该算法运用多重插补法来填充小分子化合物物化属性的缺失值;并使用LightGBM来对蛋白质和小分子化合物的亲和力进行预测。
综上所述,本发明所提出的新的蛋白质特征提取算法来提取蛋白质特征的方法;运用多重插补法来填充小分子化合物的物化属性的缺失值;使用LightGBM来对蛋白质和小分子化合物的亲和力进行预测。主要步骤在于首先通过氨基酸理化属性将20类氨基酸表示成6类,有效地解决维度灾难问题;然后通过滑动窗口生成新序列,有效的提取边界信息;最后通过结合word2vec算法有效的提取氨基酸之间的位置关系。多重插补法在对小分子化合物物化属性进行填充时,利用贝叶斯估计理论,可以在生成的多组候选插补值中,选择合适的值,完善预测对象的完整度。最后使用的LightGBM通过梯度的迭代,可以更有效地进行回归预测,减少过拟合现象。
以上所述仅为本发明较佳的具体实施方式,在此不可能也没必要列举所有可能的实施例,因此本发明的保护范围并不局限于此;任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其主要精神加以等同替换或改变,均属于本发明的保护范围,本发明的保护范围由权利要求书及其等同物确定。

Claims (5)

1.用于构建蛋白质与小分子化合物亲和力预测模型的方法,其特征在于:包括以下步骤:
步骤1:对蛋白质的一级结构进行编码,作为模型的输入;
步骤2:对编码后的蛋白质序列进行特征提取;
步骤3:对小分子化合物的物化属性的缺失值进行填充;
步骤4:利用LightGBM对蛋白质与小分子化合物亲和力进行预测。
2.根据权利要求1所述的用于构建蛋白质与小分子化合物亲和力预测模型的方法,其特征在于:所述的步骤1的主要步骤是根据:
为了更好地表示蛋白质序列,需要对蛋白质的一级结构进行编码;
蛋白质一级结构是肽或蛋白质中氨基酸构成的线性序列,通常用字母串来表示,在字母串中我们用单个字母表示20种天然存在的氨基酸及其混合物;例如β-Carbonic蛋白质的一级结构的部分片段为”MPLFSFEGRSPRIDPTAFVAPTAT LIGDVTIEAGASVWFNAVL”。
3.根据权利要求1所述的用于构建蛋白质与小分子化合物亲和力预测模型的方法,其特征在于:所述的步骤2的主要步骤是根据:
首先将20种氨基酸按照生物化学特性分成6类,依次是A = {𝐻, 𝑅, 𝐾}, B = {𝐷, 𝐸,𝑁, 𝑄}, C = {𝐶}, D = {𝑆, 𝑇, 𝑃, 𝐴, 𝐺},E = {𝑀, 𝐼, 𝐿, 𝑉}, and F={𝐹,𝑌,𝑊};这样上述β-Carbonic蛋白质序列就变为‘EDEFDFBDADAEBDDDFEDDDDDEEDBEDEBB DDDDEFFBDEE’;这种方法得到的新片段的组合为6^3=216种,可以在一定程度上降低维度灾难;
然后,采用滑动窗口,步数为1,从而得到3组不重叠的序列,在此基础上进行词向量的训练;
最后,将3组序列的词向量相加得到最终的蛋白质序列的向量表示。
4.根据权利要求1所述的用于构建蛋白质与小分子化合物亲和力预测模型的方法,其特征在于,所述的步骤3的主要步骤是根据:
为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合,每个插补数据集合都用针对完整数据集的统计方法进行统计分析;对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
5.根据权利要求1所述的一种蛋白质与小分子化合物亲和力预测模型,其特征在于:所述的步骤4的主要步骤是根据:
LightGBM是基于histogram的决策树算法,把连续的浮点特征值离散化成 k 个整数,同时构造一个宽度为 k 的直方图;
遍历数据时,以离散化后的值为索引,在直方图中累积统计量,一次数据遍历后,根据直方图的离散值遍历累积的统计量,寻找到最优的分割点;LightGBM中决策树子模型采用带深度限制的 Leaf-wise叶子生长策略,通过在Leaf-wise 之上增加一个最大深度的限制。
CN201910645423.1A 2019-07-17 2019-07-17 用于构建蛋白质和小分子的亲和力预测模型的方法 Pending CN110428864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910645423.1A CN110428864A (zh) 2019-07-17 2019-07-17 用于构建蛋白质和小分子的亲和力预测模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910645423.1A CN110428864A (zh) 2019-07-17 2019-07-17 用于构建蛋白质和小分子的亲和力预测模型的方法

Publications (1)

Publication Number Publication Date
CN110428864A true CN110428864A (zh) 2019-11-08

Family

ID=68410719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910645423.1A Pending CN110428864A (zh) 2019-07-17 2019-07-17 用于构建蛋白质和小分子的亲和力预测模型的方法

Country Status (1)

Country Link
CN (1) CN110428864A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627493A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 一种激酶抑制剂的选择性预测方法和计算设备
CN111986740A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 化合物分类方法及相关设备
CN112185463A (zh) * 2020-09-21 2021-01-05 北京望石智慧科技有限公司 一种蛋白质特征提取方法、装置及计算机设备
CN115579050A (zh) * 2022-12-08 2023-01-06 香港中文大学(深圳) 生物分子功能性动力学中关键原子集的搜索方法、系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575320A (zh) * 2014-05-05 2017-04-19 艾腾怀斯股份有限公司 结合亲和力预测系统和方法
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN109036580A (zh) * 2018-07-06 2018-12-18 华东师范大学 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575320A (zh) * 2014-05-05 2017-04-19 艾腾怀斯股份有限公司 结合亲和力预测系统和方法
CN107679362A (zh) * 2017-09-19 2018-02-09 广东药科大学 化合物‑蛋白质相互作用亲和力识别方法、系统和装置
CN109036580A (zh) * 2018-07-06 2018-12-18 华东师范大学 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
欧阳志友等: "基于自然语言处理的蛋白质小分子亲和力值预测", 《应用科学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627493A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 一种激酶抑制剂的选择性预测方法和计算设备
CN111986740A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 化合物分类方法及相关设备
CN111986740B (zh) * 2020-09-03 2024-05-14 深圳赛安特技术服务有限公司 化合物分类方法及相关设备
CN112185463A (zh) * 2020-09-21 2021-01-05 北京望石智慧科技有限公司 一种蛋白质特征提取方法、装置及计算机设备
CN115579050A (zh) * 2022-12-08 2023-01-06 香港中文大学(深圳) 生物分子功能性动力学中关键原子集的搜索方法、系统
CN115579050B (zh) * 2022-12-08 2023-03-14 香港中文大学(深圳) 生物分子功能性动力学中关键原子集的搜索方法、系统

Similar Documents

Publication Publication Date Title
CN110428864A (zh) 用于构建蛋白质和小分子的亲和力预测模型的方法
Li et al. DeepAtom: A framework for protein-ligand binding affinity prediction
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
US7613572B2 (en) Stochastic modeling of spatial distributed sequences
CN112435720B (zh) 一种基于自注意力机制与多药物特征组合的预测方法
Coulson et al. Protein and nucleic acid sequence database searching: a suitable case for parallel processing
CN106529205A (zh) 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN102073708A (zh) 面向大规模不确定图数据库的子图查询方法
CN110010194A (zh) 一种rna二级结构的预测方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN115101146A (zh) 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统
CN104156635B (zh) 基于公共子序列的基因芯片表达数据的opsm挖掘方法
CN114090663A (zh) 应用人工智能的用户需求预测方法及大数据优化系统
CN109545372B (zh) 一种基于距离贪心策略的病人生理数据特征选择方法
CN106096327A (zh) 基于Torch监督式深度学习的基因性状识别方法
CN114580762A (zh) 一种基于XGBoost的水文预报误差校正方法
CN108804871A (zh) 基于最大邻居子网的关键蛋白质识别方法
CN110618987A (zh) 基于肺癌医学大数据的治疗通路关键结点信息处理方法
CN112559587B (zh) 基于城市语义图谱的轨迹时空语义模式提取方法
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN116978464A (zh) 数据处理方法、装置、设备以及介质
Olman et al. Identification of regulatory binding sites using minimum spanning trees
CN114647679A (zh) 一种基于数值特征聚类的水文时间序列模体挖掘方法
CN113345535A (zh) 保持药物化学性质与功能一致性的药物靶标预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination