CN113488112A - 一种共价结合预测方法及装置 - Google Patents
一种共价结合预测方法及装置 Download PDFInfo
- Publication number
- CN113488112A CN113488112A CN202110650884.5A CN202110650884A CN113488112A CN 113488112 A CN113488112 A CN 113488112A CN 202110650884 A CN202110650884 A CN 202110650884A CN 113488112 A CN113488112 A CN 113488112A
- Authority
- CN
- China
- Prior art keywords
- matrix
- hidden layer
- self
- molecular
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种共价结合预测方法及装置,所述方法包括:先将输入模型的分子编码序列转换为隐藏层矩阵后,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵;再将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测,得到预测结果。采用本发明实施例提高了共价结合预测的准确率,能够通过自注意机制权重来解释模型。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种共价结合预测方法及装置。
背景技术
共价结合预测模型可以应用在开发和筛选共价结合药物上,通过筛选数据库中小分子能否与目标蛋白发生共价结合,来减少需要做实验的成本。
现有技术中SVM共价结合预测模型的使用需要提供化学描述符,而化学描述符是通过人工挑选后输入模型的,所以人为干扰因素大,共价结合预测的准确率不高,而且无法从共价原理上解释模型。
发明内容
本发明实施例提供一种共价结合预测方法及装置,提高了共价结合预测的准确率,能够通过自注意机制权重来解释模型。
本申请实施例的第一方面提供了一种共价结合预测方法,包括:
获取分子编码序列;其中,分子编码序列包括:小分子SMILES编码序列和蛋白质编码序列;
将分子编码序列输入共价结合预测模型中,以使共价结合预测模型进行共价结合预测,得到预测结果;其中,共价预测模型用于根据分子编码序列生成隐藏层矩阵,继而根据隐藏层矩阵得到自注意分子嵌入矩阵,并将自注意分子嵌入矩阵与全连接层组合后进行共价结合预测。
在第一方面的一种可能的实现方式中,根据分子编码序列生成隐藏层矩阵,具体为:
使用BiLSTM对分子编码序列进行处理,得到多个隐藏层向量;
建立多个隐藏层向量中的依赖关系后按照时间顺序排列多个隐藏层向量,得到隐藏层矩阵。
在第一方面的一种可能的实现方式中,根据隐藏层矩阵得到自注意分子嵌入矩阵,具体为:
将隐藏层矩阵输入自注意机制中,得到权重向量;
将权重向量输入多头自注意机制中,得到权重矩阵;
权重矩阵与隐藏层矩阵相乘后得到自注意分子嵌入矩阵。
本申请实施例的第二方面提供了一种共价结合预测装置,包括:获取模块和预测模块;
其中,获取模块用于将输入模型的分子编码序列转换为隐藏层矩阵后,继而根据隐藏层矩阵得到自注意分子嵌入矩阵;
预测模块用于将自注意分子嵌入矩阵与全连接层组合后进行共价结合预测,得到预测结果。
在第二方面的一种可能的实现方式中,根据分子编码序列生成隐藏层矩阵,具体为:
使用BiLSTM对分子编码序列进行处理,得到多个隐藏层向量;
建立多个隐藏层向量中的依赖关系后按照时间顺序排列多个隐藏层向量,得到隐藏层矩阵。
在第二方面的一种可能的实现方式中,根据隐藏层矩阵得到自注意分子嵌入矩阵,具体为:
将隐藏层矩阵输入自注意机制中,得到权重向量;
将权重向量输入多头自注意机制中,得到权重矩阵;
权重矩阵与隐藏层矩阵相乘后得到自注意分子嵌入矩阵。
相比于现有技术,本发明实施例提供的一种共价结合预测方法及装置,其有益效果在于:本发明实施例的预测方法,先将输入模型的分子编码序列转换为隐藏层矩阵后,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵;再将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测,得到预测结果。上述方法提高了共价结合预测的准确率,能够通过自注意机制权重来解释模型。
附图说明
图1是本发明一实施例提供的一种共价结合预测方法的流程示意图;
图2是本发明一实施例提供的一种共价结合预测方法的具体流程示意图;
图3是本发明一实施例提供的一种共价结合预测模型使用效果示意图;
图4是本发明一实施例提供的一种共价结合预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,是本发明一实施例提供的一种共价结合预测方法的流程示意图,包括:
S101:获取分子编码序列。
在本实施例中,所述分子编码序列包括:小分子SMILES编码序列和蛋白质编码序列。
S102:将分子编码序列输入共价结合预测模型中,以使共价结合预测模型进行共价结合预测,得到预测结果。
在本实施例中,所述共价预测模型用于根据所述分子编码序列生成隐藏层矩阵,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵,并将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测。
在一具体实施例中,所述根据所述分子编码序列生成隐藏层矩阵,具体为:
使用BiLSTM对所述分子编码序列进行处理,得到多个隐藏层向量;
建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量,得到隐藏层矩阵。
在一具体实施例中,所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵,具体为:
将所述隐藏层矩阵输入自注意机制中,得到权重向量;
将所述权重向量输入多头自注意机制中,得到权重矩阵;
所述权重矩阵与所述隐藏层矩阵相乘后得到自注意分子嵌入矩阵。
在一优选的实施例中,所述共价结合预测模型进行共价结合预测,得到预测结果,具体为:
所述共价结合预测模型包括三个部分:1、双向长短期记忆模式(BiLSTM);2、自注意(self-attention,SA)机制;3、属性预测的全连接层。
其中,双向长短期记忆模式(BiLSTM)用于将分子编码序列转换为计算机可识别的隐藏层矩阵,具体为:
使用BiLSTM对所述分子编码序列进行处理,得到多个隐藏层向量,由以下公式可得:
建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量,得到隐藏层矩阵H,可由以下公式表示:
H=(h0,h1...hn)
其中,如果每个LSTM的单元长度为u,那么H的大小为n×2u。
在本实施例中,将分子编码序列直接转化为计算机语言后输入模型进行预测,便能够不需要像现有技术一样:需要通过人工选取化学描述符后输入模型才能进行共价结合预测。本发明仅需分子编码序列便能进行共价结合预测,避免了人为因素的干扰,提高了共价结合预测的准确率。
自注意(self-attention,SA)机制的构建过程如下:将LSTM的隐藏层矩阵H作为自注意机制的输入,输出为权重向量a,可由以下公式表示:
a=softmax(w2tanh(W1HT))
其中,W1是大小为da×2u的权重矩阵,w2是大小为da的超参数向量。a是大小为n的权重向量。Softmax函数确保所有计算的权重归一化。
采用多自注意机制,将超参数向量w2扩展为尺寸为r×da的超参数矩阵W2,从而将权重向量a则变为权重矩阵A。其中,r为多自注意机制的数量。可由以下公式表示:
A=softmax(W2tanh(W1HT))
将权重矩阵A和LSTM的隐藏层矩阵H相乘来计算r的加权和,得到自注意分子嵌入矩阵Ma,可由以下公式表示:
Ma=AH
其中,自注意分子嵌入矩阵Ma是一个自注意机制的分子嵌入,包含标签和目标特性之间的潜在关系,尺寸是r×2u。
最后,自注意分子嵌入矩阵Ma与属性预测的全连接层组合以进行共价结合预测。
在本实施例中,由于自注意机制会给分子编码序列一个权重值,通过比较权重值,可以得知小分子中和蛋白质中对模型影响最大的局部片段位置,能够找到小分子和蛋白质在共价结合中的弹头和结合位点,便能从共价原理上解释模型。
为了进一步说明共价结合预测方法的具体流程,请参照图2,图2是本发明一实施例提供的一种共价结合预测方法的具体流程示意图。
由图2可得,将小分子SMILES编码序列和蛋白质编码序列输入至BiLSTM中进行一系列处理后,得到隐藏层矩阵。先将隐藏层矩阵输入到自注意机制中得到权重矩阵后,再将权重矩阵与隐藏层矩阵MatMul(相乘),得到自注意分子嵌入矩阵。自注意分子嵌入矩阵与全连接层组合后,便可以进行共价结合预测,生成预测结果。
为了具体地说明共价结合预测模型使用的效果,请参照图3,图3是本发明一实施例提供的一种共价结合预测模型使用效果示意图。
图3中,model为模型名字,LR为逻辑回归模型、RF为随机森林模型、SVM为支持向量机模型、SA-BiLSTM为本发明实施例提出的共价结合预测模型。
AUC表示真阳性率与假阳性率曲线的面积,AUC值1.0表示完全分离,值0.5表示随机分离。Accuracy表示分类器中预测正确的样本的占总样本的比例,取值范围为[0,1],取值越大,模型预测能力越好。Recall是分类器所预测正确的正样本占所有正样本的比例,取值范围为[0,1],取值越大,模型预测能力越好。Precision是分类器预测的正样本中预测正确的比例,取值范围为[0,1],取值越大,模型预测能力越好。MCC是应用在机器学习中,用以测量二分类的分类性能的指标。该指标考虑了真阳性、真阴性和假阳性和假阴性,通常认为该指标是一个比较均衡的指标,即使是在两类别的样本含量差别很大时,也可以应用它。MCC本质上是一个描述实际分类与预测分类之间的相关系数,它的取值范围为[-1,1],取值为1时表示对受试对象的完美预测,取值为0时表示预测的结果近似于随机预测的结果,-1是指预测分类和实际分类完全不一致。
则由图3的数据可得,在所有模型中,SA-BiLSTM共价结合预测模型的AUC值最高、最接近1,即最接近完全分离;SA-BiLSTM共价结合预测模型的Accuracy值最高、最接近1,模型预测能力在所有模型中是最好;SA-BiLSTM共价结合预测模型的Recall值最高、最接近1,模型预测能力在所有模型中是最好;SA-BiLSTM共价结合预测模型的Precision值最高、最接近1,模型预测能力在所有模型中是最好;SA-BiLSTM共价结合预测模型的MCC值最高、最接近1,模型预测结果的完美程度在所有模型中最高。
所以通过图3的数据,可以清楚得到,本发明实施例提出的SA-BiLSTM共价结合预测模型能够有效提高共价结合预测的准确率,而且预测能力领先于LR为逻辑回归模型、RF为随机森林模型、SVM为支持向量机模型等模型。
为了进一步说明共价结合预测装置,请参照图4,图4是本发明一实施例提供的一种共价结合预测装置的结构示意图,包括:获取模块201和预测模块202;
其中,所述获取模块201用于将输入模型的分子编码序列转换为隐藏层矩阵后,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵。
在本实施例中,所述分子编码序列包括:小分子SMILES编码序列和蛋白质编码序列。
在一具体实施例中,所述根据所述分子编码序列生成隐藏层矩阵,具体为:
使用BiLSTM对所述分子编码序列进行处理,得到多个隐藏层向量;
建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量,得到隐藏层矩阵。
所述预测模块202用于将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测,得到预测结果。
在一具体实施例中,所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵,具体为:
将所述隐藏层矩阵输入自注意机制中,得到权重向量;
将所述权重向量输入多头自注意机制中,得到权重矩阵;
所述权重矩阵与所述隐藏层矩阵相乘后得到自注意分子嵌入矩阵。
本发明实施例先通过获取模块201将输入模型的分子编码序列转换为隐藏层矩阵后,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵;再通过预测模块202将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测,得到预测结果。本发明实施例仅根据分子编码序列便能进行共价结合预测,便能够不需要像现有技术一样:需要通过人工选取化学描述符后输入模型才能进行共价结合预测。从而避免了人为因素的干扰,提高了共价结合预测的准确率。此外,由于自注意机制会给分子编码序列一个权重值,通过比较权重值,可以得知小分子中和蛋白质中对模型影响最大的局部片段位置,能够找到小分子和蛋白质在共价结合中的弹头和结合位点,便能从共价原理上解释模型。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (6)
1.一种共价结合预测方法,其特征在于,包括:
获取分子编码序列;其中,所述分子编码序列包括:小分子SMILES编码序列和蛋白质编码序列;
将所述分子编码序列输入共价结合预测模型中,以使所述共价结合预测模型进行共价结合预测,得到预测结果;其中,所述共价预测模型用于根据所述分子编码序列生成隐藏层矩阵,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵,并将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测。
2.根据权利要求1所述的一种共价结合预测方法,其特征在于,所述根据所述分子编码序列生成隐藏层矩阵,具体为:
使用BiLSTM对所述分子编码序列进行处理,得到多个隐藏层向量;
建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量,得到隐藏层矩阵。
3.根据权利要求2所述的一种共价结合预测方法,其特征在于,所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵,具体为:
将所述隐藏层矩阵输入自注意机制中,得到权重向量;
将所述权重向量输入多头自注意机制中,得到权重矩阵;
所述权重矩阵与所述隐藏层矩阵相乘后得到自注意分子嵌入矩阵。
4.一种共价结合预测装置,其特征在于,包括:获取模块和预测模块;
其中,所述获取模块用于将输入模型的分子编码序列转换为隐藏层矩阵后,继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵;
所述预测模块用于将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测,得到预测结果。
5.根据权利要求4所述的一种共价结合预测装置,其特征在于,所述根据所述分子编码序列生成隐藏层矩阵,具体为:
使用BiLSTM对所述分子编码序列进行处理,得到多个隐藏层向量;
建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量,得到隐藏层矩阵。
6.根据权利要求5所述的一种共价结合预测装置,其特征在于,所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵,具体为:
将所述隐藏层矩阵输入自注意机制中,得到权重向量;
将所述权重向量输入多头自注意机制中,得到权重矩阵;
所述权重矩阵与所述隐藏层矩阵相乘后得到自注意分子嵌入矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650884.5A CN113488112A (zh) | 2021-06-10 | 2021-06-10 | 一种共价结合预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650884.5A CN113488112A (zh) | 2021-06-10 | 2021-06-10 | 一种共价结合预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113488112A true CN113488112A (zh) | 2021-10-08 |
Family
ID=77935101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110650884.5A Pending CN113488112A (zh) | 2021-06-10 | 2021-06-10 | 一种共价结合预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488112A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106414497A (zh) * | 2014-05-29 | 2017-02-15 | 宏观基因有限公司 | 三特异性结合分子和其使用方法 |
CN107484416A (zh) * | 2014-09-26 | 2017-12-15 | 宏观基因有限公司 | 能够结合cd19和cd3的双特异性单价双抗体及其用途 |
CN110413844A (zh) * | 2019-05-24 | 2019-11-05 | 浙江工业大学 | 基于时空注意力深度模型的动态链路预测方法 |
CN111126674A (zh) * | 2019-12-04 | 2020-05-08 | 浙江工业大学 | 基于深度模型的传播预测方法及其系统 |
CN111370122A (zh) * | 2020-02-27 | 2020-07-03 | 西安交通大学 | 一种基于知识指导的时序数据风险预测方法、系统及其应用 |
CN111816252A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
-
2021
- 2021-06-10 CN CN202110650884.5A patent/CN113488112A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106414497A (zh) * | 2014-05-29 | 2017-02-15 | 宏观基因有限公司 | 三特异性结合分子和其使用方法 |
CN107484416A (zh) * | 2014-09-26 | 2017-12-15 | 宏观基因有限公司 | 能够结合cd19和cd3的双特异性单价双抗体及其用途 |
CN110413844A (zh) * | 2019-05-24 | 2019-11-05 | 浙江工业大学 | 基于时空注意力深度模型的动态链路预测方法 |
CN111126674A (zh) * | 2019-12-04 | 2020-05-08 | 浙江工业大学 | 基于深度模型的传播预测方法及其系统 |
CN111370122A (zh) * | 2020-02-27 | 2020-07-03 | 西安交通大学 | 一种基于知识指导的时序数据风险预测方法、系统及其应用 |
CN111816252A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
SHUANGJIA ZHENG ET.AL: "Identifying Structure-Property Relationships through SMILES SyntaxAnalysis With Self-Attention Mechanism", 《CHEMRXIV》, pages 1 - 26 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230024382A1 (en) | Video clip positioning method and apparatus, computer device, and storage medium | |
CN109086722B (zh) | 混合车牌识别方法、装置、电子设备 | |
EP3574453A1 (en) | Optimizing neural network architectures | |
CN111797893A (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN111666416B (zh) | 用于生成语义匹配模型的方法和装置 | |
CN115438215B (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN114743020A (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
WO2021169366A1 (zh) | 数据增强方法和装置 | |
CN117217284A (zh) | 一种数据处理方法及其装置 | |
CN113449840A (zh) | 神经网络训练方法及装置、图像分类的方法及装置 | |
CN114610924A (zh) | 基于多层分类识别模型的商品图片相似度匹配搜索方法和系统 | |
CN113488112A (zh) | 一种共价结合预测方法及装置 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
CN115795025A (zh) | 一种摘要生成方法及其相关设备 | |
CN118202418A (zh) | 通过联合建模序列和结构设计蛋白质 | |
CN115080699A (zh) | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 | |
CN114707070A (zh) | 一种用户行为预测方法及其相关设备 | |
CN113689234A (zh) | 一种基于深度学习的平台相关的广告点击率预测方法 | |
CN113065634B (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN109146058A (zh) | 具有变换不变能力且表达一致的卷积神经网络 | |
WO2023216065A1 (en) | Differentiable drug design | |
WO2022155787A1 (zh) | 一种极限学习机训练方法、训练装置以及终端设备 | |
WO2023220859A1 (en) | Multi-dimensional attention for dynamic convolutional kernel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |