CN111640470A - 基于句法模式识别的药物小分子毒性预测的方法 - Google Patents

基于句法模式识别的药物小分子毒性预测的方法 Download PDF

Info

Publication number
CN111640470A
CN111640470A CN202010460271.0A CN202010460271A CN111640470A CN 111640470 A CN111640470 A CN 111640470A CN 202010460271 A CN202010460271 A CN 202010460271A CN 111640470 A CN111640470 A CN 111640470A
Authority
CN
China
Prior art keywords
layer
toxicity
pattern recognition
smiles
syntactic pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010460271.0A
Other languages
English (en)
Inventor
牛张明
韦德·门佩斯-史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou derizhi Pharmaceutical Technology Co.,Ltd.
Original Assignee
Wei DeMenpeisi Shimisi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wei DeMenpeisi Shimisi filed Critical Wei DeMenpeisi Shimisi
Priority to CN202010460271.0A priority Critical patent/CN111640470A/zh
Publication of CN111640470A publication Critical patent/CN111640470A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于句法模式识别的药物小分子毒性预测的方法,包括:获取数据集;对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;构建句法模式识别模型;将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及对所述句法模式识别模型进行评估。

Description

基于句法模式识别的药物小分子毒性预测的方法
技术领域
本发明涉及化学信息学和生物信息学领域。具体而言,本发明涉及基于句法模式识别的药物小分子毒性预测的方法。
背景技术
针对靶标的毒性预测一直是新药开发的一个重要任务。化合物的毒性评估,是所有药物安全性评估的重要步骤。然而由于其传统药理学实验成本高昂,往往需要投入许多时间和金钱。因此,开发毒性预测工具,有利于加快开展传统动物毒理学研究,加速药物研发。
得益于高性能计算和机器学习方法的发展,我们可以准确地预测成千上万化合物的毒性。并且近几十年来,随着实验数据的爆炸性增长,深度学习应用在了药物开发的各个领域,包括虚拟筛选、化学性质预测和从头分子设计。为了探索化合物结构与毒性的关系,美国国立卫生研究院,环境保护署和食品与药物管理局共同参与的联邦合作项目开展了Tox21计划,旨在开发更好的毒性评估方法,希望快速有效地评估某些化合物是否具有毒性的可能。Tox21计划收集了包括来自不同靶点测定的核受体信号转导和应力通路分析数据,通过分析这些分子对多种核受体通路相关蛋白和压力响应通路蛋白的结构-毒性关系,可能在药物开发过程中排除某些对人体有潜在毒性的药物分子。
除了将分子图用于分子表示外,随着生成模型的流行,大多数的研究者都非常关注分子线性表示法,很多研究均使用简化分子线性输入规范(simplified molecularinput line entry specification,SMILES)作为输入,来描述具有特定性质的新分子。根据分子的拓扑结构,机器学习模型可以直接学习化合物的分子性质。而且,使用SMILES输入到基于句法模式识别的深度学习模型中进行化合物毒性预测,有助于简化输入的同时达到可靠的结果。
发明内容
为解决上述问题,本发明采用多任务的句法模式识别深度学习模型,借鉴NLP中的序列学习方法,以获得方便的建模以及可观的预测性能。利用该算法进行预测的准确性和适用范围将会得到很大的提高。本发明基于深度学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律,提供更精准的预测结果。
根据本发明的一个方面,提供一种基于句法模式识别的药物小分子毒性预测的方法,包括:
获取数据集;
对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;
对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;
构建句法模式识别模型;
将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及
对所述句法模式识别模型进行评估。
在本发明的一个实施例中,所述数据集包括11764个化合物以及它们对应的靶标或靶点数据。
在本发明的一个实施例中,进行去重复化处理包括直接通过比对标准化操作的SMILES实现,完全一致的SMILES被直接去除,
其中对所述数据集进行预处理还包括将每个数据集按一定比例随机划分为训练集、验证集、测试集。
在本发明的一个实施例中,所述基元片段包括<BE>,0,#,[C-],[N@+],[NH2+],[P@H],=,o,[C@@],[CH-],[N+],[o+],[S-],I,s,1,%,[c-],[N],[NH3+],[P+],B,O,[C@@H],[cH-],[nH],[OH+],[s+],l,S,2,(,[c+],[N-],[O],[S@@],C,P,[C@],[CH+],[NH-],[P@@],[S+],L,3,),[C+],[n-],[O-],[s@],c,r,[C@H],[CH2-],[nH+],[P@@H],N,4,/,[CH],[n+],[O+],[S@],F,[C],[N@@+],[NH+],[P@],\,<EN>,<p>,其中<BE>字符作为开始填充单词,<EN>字符作为结束填充单词,在此基础上,为了填充长度不一样的序列为相同长度,<p>字符作为补充单词。
在本发明的一个实施例中,所述句法模式识别模型,预估分子是否含有特定靶标的毒性包括:将训练集和验证集加载至句法模式识别模型,对模型进行训练和测试,对训练后模型在测试集当中进行毒性预测的测试。
在本发明的一个实施例中,所述句法模式识别模型包括输入层,词嵌入层,双向句法识别层,句法基元分析层,多任务接收输出层,
其中双向句法识别层由LSTM网络组成,包含三个门控来转化传播信息,即遗忘门f、输入门i、输出门o,
首先上一层的嵌入信息和属性转化为当前状态xt,进一步地对xt和上一个句法识别层的输出ht-1通过sigmoid激活函数,分别计算得到了遗忘门、输入门和输出门三个门控状态的输出,遗忘门和输入门的结果都会作用在细胞状态ct,得到了新的细胞状态后,隐藏状态ht可通过输出门ot和隐藏状态ct变换得到,具体的LSTM公式如下所示:
ft=σ(Wf[xt,ht-1])
it=σ(Wi·[xt,ht-1])
ot=σ(Wo·[xt,ht-1])
ct=ft·ct-1+it·tanh(Wc·[xt,ht-1])
ht=ot·tanh(ct)
其中,σ为sigmoid激活函数,t表示时刻,W为网络权重。
在本发明的一个实施例中,为了分析前后句法之间的相关性,获得向前
Figure BDA0002510731530000032
和向后
Figure BDA0002510731530000033
两个方向的隐藏状态,其中第一层按时间顺序传递信息,第二层按时间逆序传递信息,将
Figure BDA0002510731530000034
Figure BDA0002510731530000035
拼接起来形成t时刻的隐藏状态ht,即
Figure BDA0002510731530000036
再将所有的时刻拼接起来,得到隐藏状态矩阵H:
Figure BDA0002510731530000031
Figure BDA0002510731530000041
H=(h1,h2,...,hL)T
其中t表示时间。
在本发明的一个实施例中,句法模式分析层突出隐藏状态矩阵的重要部分区域,通过softmax函数,分析输出的H的权重部分,从而得到某些基元片段对于蛋白靶点毒性的重要性,公式如下:
G=softmax(Wbtanh(WaHT))
Highlight=G·H
其中Wa和Wb都是可训练的矩阵,维度均为可训练的模型超参数。最后将权重G和之前的隐藏状态矩阵H组合,得到最终的某些基元片段对于蛋白靶点毒性的重要性Highlight向量值。
在本发明的一个实施例中,多任务接收输出层包括多个靶标的二分类任务,预估出分子是否含有该靶标下的毒性。
根据本发明的另一个实施例,提供一种句法模式识别模型,包括输入层,词嵌入层,双向句法识别层,句法基元分析层,多任务接收输出层,
输入层接收SMILES数据集;
词嵌入层将分子转化为向量,其中所有分子表达式转换为向量组合;
所述双向句法识别层由LSTM网络组成,包含三个门控来转化传播信息,即遗忘门f、输入门i、输出门o,
首先上一层的嵌入信息和属性转化为当前状态xt,进一步地对xt和上一个句法识别层的输出ht-1通过sigmoid激活函数,分别计算得到了遗忘门、输入门和输出门三个门控状态的输出,遗忘门和输入门的结果都会作用在细胞状态ct,得到了新的细胞状态后,隐藏状态ht可通过输出门ot和隐藏状态ct变换得到,具体的LSTM公式如下所示:
ft=σ(Wf[xt,ht-1])
it=σ(Wi·[xt,ht-1])
ot=σ(Wo·[xt,ht-1])
ct=ft·ct-1+it·tanh(Wc·[xt,ht-1])
ht=ot·tanh(ct)
其中,σ为sigmoid激活函数,t表示时刻,W为网络权重;
为了分析前后句法之间的相关性,获得向前
Figure BDA0002510731530000053
和向后
Figure BDA0002510731530000054
两个方向的隐藏状态,其中第一层按时间顺序传递信息,第二层按时间逆序传递信息,将
Figure BDA0002510731530000055
Figure BDA0002510731530000056
拼接起来形成t时刻的隐藏状态ht,即
Figure BDA0002510731530000057
再将所有的时刻拼接起来,得到隐藏状态矩阵H:
Figure BDA0002510731530000051
Figure BDA0002510731530000052
H=(h1,h2,...,hL)T
其中t表示时间,
句法模式分析层突出隐藏状态矩阵的重要部分区域,通过softmax函数,分析输出的H的权重部分,从而得到某些基元片段对于蛋白靶点毒性的重要性,公式如下:
G=softmax(Wbtanh(WaHT))
Highlight=G·H
其中Wa和Wb都是可训练的矩阵,维度均为可训练的模型超参数。最后将权重G和之前的隐藏状态矩阵H组合,得到最终的某些基元片段对于蛋白靶点毒性的重要性Highlight向量值;
多任务接收输出层包括多个靶标的二分类任务,预估出分子是否含有该靶标下的毒性。
本发明的实施例能够预测化合物分子是否具有特定靶标下的毒性。本发明公开的方法适用于大批量研究化合物毒效关系,精准预测相关毒性,因此适用于特定活性化合物分子的毒效关系的分析。
本发明提出利用该多任务句法识别网络解析SMILES表达式,对化合物和针对多靶标的毒性进行了分类。本发明对SMILES序列进行解析,根据分子表达式划分了特定基元,以特定的连接语法表达了分子语法。本发明使用多任务句法识别网络技术进行上述SMILES序列分析,取得超越其它现有模型的精准度。本发明通用性更强,此外端对端的模型方式,更加方便用户使用。
附图说明
为了进一步阐明本发明的各实施例的以上和其它优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出根据本发明的一个实施例的基于句法模式识别的药物小分子毒性预测的方法的流程图。
图2示出根据本发明的一个实施例的句法模式识别模型的示意图。
具体实施方式
在以下的描述中,参考各实施例对本发明进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构、材料或操作以免使本发明的各实施例的诸方面晦涩。类似地,为了解释的目的,阐述了特定数量、材料和配置,以便提供对本发明的实施例的全面理解。然而,本发明可在没有特定细节的情况下实施。此外,应理解附图中示出的各实施例是说明性表示且不一定按比例绘制。
在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
本发明提供基于多任务句法模式识别的分子SMILES表达式语义分析预测毒性技术,包括步骤:进行药物分子对多种靶标的毒性的数据集预处理,将11764个已处理的分子用于分类模型,有毒性的分子作为正样本,无毒性的分子作为负样本。数据集内的所有分子用SMILES表达,再借助词嵌入手段将上述SMILES转化为向量形式。最后加载基于句法模式识别技术建立的深度学习模型,验证模型预测药物分子对于多蛋白的毒性,并通过不同评价指标,和其它模型进行比较,从而能够提供更准确的毒性预测模型,同时为构效关系研究提供一种切实有效的新的分析方法。
图1示出根据本发明的一个实施例的基于句法模式识别的药物小分子毒性预测的方法的流程图。
首先,在步骤110,获取数据集。
在本发明的一个实施例中,数据集可以包括11764个化合物,以及它们对应的12个靶标数据。这12个靶标核受体信号转导和应力通路相关,用于毒性预测技术的蛋白靶标包括雄激素受体(AR),芳香烃受体蛋白(AhR蛋白),雄激素受体结合域(AR-LBD),雌激素受体(ER),雌激素受体结合域(ER-LBD),芳香化酶(aromatase,CYP19),过氧化物酶体增殖剂激活受体γ(PPAR-γ),ARE序列结合蛋白,AAA结构域蛋白5(ATAD5),热休克因子反应元件(HSE),基质金属蛋白酶(MMP),p53肿瘤蛋白。
数据集的有关信息如下所示:
数据集名称 任务数量 任务类型 化合物数量 正样本比例
Tox21 12 分类 11764 4.7
表1.本研究中数据集的基本信息
具体的处理步骤是,针对已有的高通量筛选的数据,对半数致死浓度即LD50<300mg/kg,判断为对该药物靶标有毒性,那么该化合物就是该生物活性预测任务的正样本,赋予标签“1”;另外,文献报道某种化合物有半数致死浓度即LD50≥300mg/kg,判断为对药物靶标基本无毒性,那么该化合物就是该生物活性预测任务的负样本,赋予标签“0”。
在本发明的实施例中,依据分子对于不同靶标的毒性,将数据集分为12个子任务进行多任务的训练和预测,每个子任务集下均包括有毒性和无毒性的分子,分别进行训练和预测。
实验过程主要为将(1)中公开的数据集按比例(7:1:2)分别拆分成训练集(Training set)、验证集(Validation set)和测试集(Test set)。首先使用训练集(Training set)和验证集(Validation set)训练相应模型,再使用测试集(Test set)评价模型。在此过程中要保证不要发生数据泄露,它会使得测试的结果偏高。具体来讲,就是要保证如下等式成立:
Figure BDA0002510731530000071
Figure BDA0002510731530000072
其中Φ表示空集。
为了保证上述两点成立,在步骤120,对整个数据集进行预处理。在本发明的实施例中,对整个数据集进行预处理包括进行标准化处理和去重复化处理。该数据集中的每个分子均含有12种与核受体相关通路和压力响应相关通路的靶标相关毒性数据。
下面将依据上述所述,详细描述数据预处理流程。
该数据集中的所有化合物分子用SMILES表示,将药物分子结构转化为单行文本,保留了化学结构的原子符号和原始连接性。首先,由于不同开发算法生成的SMILES会有不同区别,本发明统一用开源化学信息工具RDkit对SMILES做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,确保所有的分子都使用的是统一的表示形式。随后对利用RDkit得到分子的SMILES,进行重复化处理,一方面是为了去除冗余,另一方面是为了保证验证集和测试集的数据是训练集中从未出现过的数据,用以提高模型的泛化能力和结果的可靠性,该操作可以直接通过比对标准化操作的SMILES实现,完全一致的SMILES可直接去除。
这里划分数据集的方式,采用了随机划分,划分比例为训练集:验证集:测试集=7:1:2,可通过控制随机种子,重现之前的划分。
最后,将数据集中不同靶标的正样本设置为标签“1”,将不同靶标的负样本设置为标签“0”。至此,问题转化为多分类问题:针对本发明中的12个靶点(也可以称为靶标),判断化合物分子是否具有对这种靶标的毒性,如果有,则为“1”,如果没有,则为“0”。问题的输入为不同的分子的SMILES序列表达式,输出为12种蛋白靶标下的有毒性标签“1”或者无毒性标签“0”。
接下来,在步骤130,对预处理后的数据集进行数字编码。
在本发明的实施例中,输入到句法模式识别模型的SMILES序列需要经过数字编码进行结构信息转化。本发明参考独热编码(One-Hot Encoding)的方式,并进行了改进。原始独热编码方式中需要先构造词汇表,根据对SMILES的解析,一般直接将SMILES的单个字符提取出来。而本发明独创了新型的分词方法,综合考虑了化学及信息学知识,把单个元素(例如:C、c等)、单个数字(例如:1、2等)、单个符号(例如:(、)等)以及整个方括号(例如:[nH]等)看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则的,这样才能保障后续探究表达式组成规则的真实性和可靠性。本步骤把分子看作是由不同的基元片段构成的并按照语法规则组合而成的一种模式,作为句法模式识别网络的输入。首先,将所有化合物分子按照69种基元进行拆分,对应到不同的数字编码,生成了69种数字编码来组合成分子模式。构成分子模式必须遵循的规则还有,以“<BE>”字符作为开始填充单词,使用“<EN>”字符作为结束填充单词,在此基础上,为了填充长度不一样的序列为相同长度,使用了“<p>”字符作为补充单词。这种编码类型字母表索引如下。
这些基元片段包括<BE>,0,#,[C-],[N@+],[NH2+],[P@H],=,o,[C@@],[CH-],[N+],[o+],[S-],I,s,1,%,[c-],[N],[NH3+],[P+],B,O,[C@@H],[cH-],[nH],[OH+],[s+],l,S,2,(,[c+],[N-],[O],[S@@],C,P,[C@],[CH+],[NH-],[P@@],[S+],L,3,),[C+],[n-],[O-],[s@],c,r,[C@H],[CH2-],[nH+],[P@@H],N,4,/,[CH],[n+],[O+],[S@],F,[C],[N@@+],[NH+],[P@],\,<EN>,<p>。共72种,对应位置0-位置71。
对化合物的分子进行形式语言转化之后,将转化为包含数字编码和特定语法规则的模式,对应到一个维度为72的向量,包含位置0至位置71。再根据该编码在位置0至位置71上:设置值“1”,表达化合物有该基元,其他位置设置值“0”,表达化合物无该基元。
接下来,在步骤140,构建句法模式识别模型。对编码后的训练集和验证集加载到基于句法模式识别模型,对模型进行训练和验证。用测试集数据对训练后模型进行毒性预测,并通过不同评价指标,和其它已有模型进行比较。
图2示出根据本发明的一个实施例的句法模式识别模型的示意图。该多任务句法模式识别模型可以分为五层:输入层210、词嵌入层(Embedding)220、双向句法识别层230、句法基元分析层240和多任务接收输出层250。
输入层210接收SMILES数据集。
词嵌入层220主要将分子转化为向量,整个分子模式统一填充长度为L=15,经过上述步骤的独热编码转化,最后将分子中所有的向量进行组合,转换成一个15×72的向量组合。所有分子表达式转换为向量组合E,如下公式表示。
E=(v1,v2,...,vL)T (3)
其中每个vi是一个d=72维行向量,代表其中一个独热向量,将所有的向量组合得到,分子向量组合E的维度就是L×d=15×72。
双向句法识别层230中主要由LSTM网络组成,包含了三个门控来转化传播信息,即遗忘门(f)、输入门(i)、输出门(o)。首先上一层的嵌入信息和属性转化为当前状态xt,进一步地对xt和上一个句法识别层的输出ht-1通过sigmoid激活函数,分别计算得到了遗忘门、输入门和输出门三个门控状态的输出。遗忘门和输入门的结果都会作用在细胞状态ct,得到了新的细胞状态后,隐藏状态ht可通过输出门ot和隐藏状态ct变换得到。具体的LSTM公式如下所示:
ft=σ(Wf[xt,ht-1]) (4)
it=σ(Wi·[xt,ht-1]) (5)
ot=σ(Wo·[xt,ht-1]) (6)
ct=ft·ct-1+it·tanh(Wc·[xt,ht-1]) (7)
ht=ot·tanh(ct) (8)
其中,σ为sigmoid激活函数,t表示时刻,W为网络权重。
为了分析前后句法之间的相关性,获得向前
Figure BDA0002510731530000103
和向后
Figure BDA0002510731530000104
两个方向的隐藏状态(Hidden state),其中第一层按时间顺序传递信息,第二层按时间逆序传递信息。将
Figure BDA0002510731530000105
Figure BDA0002510731530000106
拼接起来形成t时刻的隐藏状态ht,即
Figure BDA0002510731530000107
再将所有的时刻拼接起来,得到隐藏状态矩阵H。
Figure BDA0002510731530000101
Figure BDA0002510731530000102
H=(h1,h2,...,hL)T (11)
在双向句法模式识别层230之后,句法模式分析层240会突出隐藏状态矩阵的重要部分区域。通过softmax函数,分析输出的H的权重部分。如此,我们便可以分析得到某些基元片段对于蛋白靶点毒性的重要性。公式如下:
G=softmax(Wbtanh(WaHT)) (13)
Highlight=G·H (14)
其中Wa和Wb都是可训练的矩阵,维度均为可训练的模型超参数。最后将权重G和之前的隐藏状态矩阵H组合,得到最终的某些基元片段对于蛋白靶点毒性的重要性Highlight向量值。
根据最终预测的靶标任务不同,最后一层是多任务接收输出层250,多任务接收输出层250包括12个靶标的二分类任务,可以预估出分子是否含有该靶标下的毒性。每个子任务下的包含一个ReLu层和Softmax层,进行决策转化。公式如下:
Or=ReLu(H) (15)
Oc=Softmax(Or) (16)
其中Or为ReLu层的输出,Oc为Softmax层的输出。
换言之,多任务接收输出层250包含12个ReLu层和Softmax层同时进行训练,多任务层可以使得模型学习到12个任务之间的关联,缓和样本数量不足及数据不平衡的问题。
模型中主要关注的是如下的几个超参数,其他参数可参考实际代码。
超参数 意义
Epochs 模型迭代的次数
Batch_Sizes 模型在迭代过程中1次处理的样本数
Lstm_hidden_dimention 模型中LSTM的隐藏状态单元数
表2 模型主要调整的超参数
在步骤150,对句法模式识别模型进行评估。
本发明的二分类任务评估所使用的指标包含以下几种。第1种指标为模型预测的准确性(Accuracy),也就是模型预测分类正确的个数占所有样本的个数的百分比。真阳性率(TP)是指学习器预测分类为正类,且事实上该样本也为正类的概率。假阳性率是指学习器(FP)预测分类为负类,但事实上该样本为正类的概率。
Figure BDA0002510731530000111
第2种指标为接受者操作特性曲线(receiver operating characteristiccurve,ROC)下与坐标轴围成的区域的面积(Area under curve,AUC),它是根据一系列不同的二分类方式分界值或决定阈),以真阳性率(敏感性)(True Positive Rate)为纵坐标,假阳性率(1-特异性)(FalsePositiveRate)为横坐标绘制的曲线。AUC的数值可以衡量学习器优劣的一种重要的性能指标,值越大的时候代表学习器的分类性能越好。
分类任务常用的损失函数为交叉熵损失函数,其具体的公式为
Figure BDA0002510731530000121
再将所有样本的损失进行求和,得到一个汇总的多任务交叉熵损失函数。
Figure BDA0002510731530000122
其中yi表示括12个靶标中某一个靶标的一个化合物的真实标签,
Figure BDA0002510731530000123
表示12个靶标中某一个靶标的一个化合物的模型预测标签。
本发明提供基于多任务句法模式识别技术的分子SMILES表达式语义分析并预测分子毒性的方法。本发明使用深度学习模型,能有效的提取输入信息的特征。本发明针对所有化合物分子皆可预测其针对药物关键靶标的毒性,并对分子的局部基元进行了重要性的分析,可突出显示毒性相关基元。本发明相较于已有的同类SAR分析或毒性预测模型预测所使用的时间要大大减少,同时结果更加精准,便于使用者更为快速的获得预测结果。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。

Claims (10)

1.一种基于句法模式识别的药物小分子毒性预测的方法,包括:
获取数据集;
对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,然后进行去重复化处理;
对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个基元片段。每个基元片段本身是具有化学意义和指向性的,任何基元片段的组合也是符合化学规则,所述所有分子的SMILES表达式转换为向量组合;
构建句法模式识别模型;
将向量组合输入所述句法模式识别模型,预估分子是否含有特定靶标的毒性;以及
对所述句法模式识别模型进行评估。
2.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述数据集包括11764个化合物以及它们对应的靶标或靶点数据。
3.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,进行去重复化处理包括直接通过比对标准化操作的SMILES实现,完全一致的SMILES被直接去除,
其中对所述数据集进行预处理还包括将每个数据集按一定比例随机划分为训练集、验证集、测试集。
4.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述基元片段包括<BE>,0,#,[C-],[N@+],[NH2+],[P@H],=,o,[C@@],[CH-],[N+],[o+],[S-],I,s,1,%,[c-],[N],[NH3+],[P+],B,O,[C@@H],[cH-],[nH],[OH+],[s+],l,S,2,(,[c+],[N-],[O],[S@@],C,P,[C@],[CH+],[NH-],[P@@],[S+],L,3,),[C+],[n-],[O-],[s@],c,r,[C@H],[CH2-],[nH+],[P@@H],N,4,/,[CH],[n+],[O+],[S@],F,[C],[N@@+],[NH+],[P@],\,<EN>,<p>,其中<BE>字符作为开始填充单词,<EN>字符作为结束填充单词,在此基础上,为了填充长度不一样的序列为相同长度,<p>字符作为补充单词。
5.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述句法模式识别模型,预估分子是否含有特定靶标的毒性包括:将训练集和验证集加载至句法模式识别模型,对模型进行训练和测试,对训练后模型在测试集当中进行毒性预测的测试。
6.如权利要求1所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,所述句法模式识别模型包括输入层,词嵌入层,双向句法识别层,句法基元分析层,多任务接收输出层,
其中双向句法识别层由LSTM网络组成,包含三个门控来转化传播信息,即遗忘门f、输入门i、输出门o,
首先上一层的嵌入信息和属性转化为当前状态xt,进一步地对xt和上一个句法识别层的输出ht-1通过sigmoid激活函数,分别计算得到了遗忘门、输入门和输出门三个门控状态的输出,遗忘门和输入门的结果都会作用在细胞状态ct,得到了新的细胞状态后,隐藏状态ht可通过输出门ot和隐藏状态ct变换得到,具体的LSTM公式如下所示:
ft=σ(Wf[xt,ht-1])
it=σ(Wi·[xt,ht-1])
ot=σ(Wo·[xt,ht-1])
ct=ft·ct-1+it·tanh(Wc·[xt,ht-1])
ht=ot·tanh(ct)
其中,σ为sigmoid激活函数,t表示时刻,W为网络权重。
7.如权利要求6所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,为了分析前后句法之间的相关性,获得向前
Figure FDA0002510731520000031
和向后
Figure FDA0002510731520000032
两个方向的隐藏状态,其中第一层按时间顺序传递信息,第二层按时间逆序传递信息,将
Figure FDA0002510731520000033
Figure FDA0002510731520000034
拼接起来形成t时刻的隐藏状态ht,即
Figure FDA0002510731520000035
再将所有的时刻拼接起来,得到隐藏状态矩阵H:
Figure FDA0002510731520000036
Figure FDA0002510731520000037
H=(h1,h2,...,hL)T
其中t表示时间。
8.如权利要求7所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,句法模式分析层突出隐藏状态矩阵的重要部分区域,通过softmax函数,分析输出的H的权重部分,从而得到某些基元片段对于蛋白靶点毒性的重要性,公式如下:
G=softmax(Wb tanh(WaHT))
Highlight=G·H
其中Wa和Wb都是可训练的矩阵,维度均为可训练的模型超参数。最后将权重G和之前的隐藏状态矩阵H组合,得到最终的某些基元片段对于蛋白靶点毒性的重要性Highlight向量值。
9.如权利要求8所述的基于句法模式识别的药物小分子毒性预测的方法,其特征在于,多任务接收输出层包括多个靶标的二分类任务,预估出分子是否含有该靶标下的毒性,根据最终预测的靶标任务不同,每个子任务下的包含一个ReLu层和Softmax层,进行决策转化,公式如下:
Or=ReLu(H)
Oc=Softmax(Or)
其中Or为ReLu层的输出,Oc为Softmax层的输出,
所述多任务接收输出层对多个靶标的二分类任务的ReLu层和Softmax层同时进行训练,从而使得多个靶标的二分类任务之间关联,缓和样本数量不足及数据不平衡的问题。
10.一种句法模式识别模型,包括输入层,词嵌入层,双向句法识别层,句法基元分析层,多任务接收输出层,
输入层接收SMILES数据集;
词嵌入层将分子转化为向量,其中所有分子表达式转换为向量组合;
所述双向句法识别层由LSTM网络组成,包含三个门控来转化传播信息,即遗忘门f、输入门i、输出门o,
首先上一层的嵌入信息和属性转化为当前状态xt,进一步地对xt和上一个句法识别层的输出ht-1通过sigmoid激活函数,分别计算得到了遗忘门、输入门和输出门三个门控状态的输出,遗忘门和输入门的结果都会作用在细胞状态ct,得到了新的细胞状态后,隐藏状态ht可通过输出门ot和隐藏状态ct变换得到,具体的LSTM公式如下所示:
ft=σ(Wf[xt,ht-1])
it=σ(Wi·[xt,ht-1])
ot=σ(Wo·[xt,ht-1])
ct=ft·ct-1+it·tanh(Wc·[xt,ht-1])
ht=ot·tanh(ct)
其中,σ为sigmoid激活函数,t表示时刻,W为网络权重;
为了分析前后句法之间的相关性,获得向前
Figure FDA0002510731520000041
和向后
Figure FDA0002510731520000042
两个方向的隐藏状态,其中第一层按时间顺序传递信息,第二层按时间逆序传递信息,将
Figure FDA0002510731520000043
Figure FDA0002510731520000044
拼接起来形成t时刻的隐藏状态ht,即
Figure FDA0002510731520000045
再将所有的时刻拼接起来,得到隐藏状态矩阵H:
Figure FDA0002510731520000046
Figure FDA0002510731520000047
H=(h1,h2,...,hL)T
其中t表示时间,
句法模式分析层突出隐藏状态矩阵的重要部分区域,通过softmax函数,分析输出的H的权重部分,从而得到某些基元片段对于蛋白靶点毒性的重要性,公式如下:
G=softmax(Wb tanh(WaHT))
Highlight=G·H
其中Wa和Wb都是可训练的矩阵,维度均为可训练的模型超参数。最后将权重G和之前的隐藏状态矩阵H组合,得到最终的某些基元片段对于蛋白靶点毒性的重要性Highlight向量值;
多任务接收输出层包括多个靶标的二分类任务,预估出分子是否含有该靶标下的毒性。
CN202010460271.0A 2020-05-27 2020-05-27 基于句法模式识别的药物小分子毒性预测的方法 Pending CN111640470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010460271.0A CN111640470A (zh) 2020-05-27 2020-05-27 基于句法模式识别的药物小分子毒性预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010460271.0A CN111640470A (zh) 2020-05-27 2020-05-27 基于句法模式识别的药物小分子毒性预测的方法

Publications (1)

Publication Number Publication Date
CN111640470A true CN111640470A (zh) 2020-09-08

Family

ID=72332964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010460271.0A Pending CN111640470A (zh) 2020-05-27 2020-05-27 基于句法模式识别的药物小分子毒性预测的方法

Country Status (1)

Country Link
CN (1) CN111640470A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置
WO2024016376A1 (zh) * 2022-07-18 2024-01-25 慧壹科技(上海)有限公司 一种清洗小分子化合物的数据预处理系统及其方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANVITA GUPTA ET AL: "Generative Recurrent Networks for De Novo Drug Design", 《MOLECULAR INFORMATICS》, pages 2 *
BONGGUN SHIN ET AL: "Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction", 《MACHINE LEARNING FOR HEALTHCARE》, pages 6 *
JOSHUA STAKER ET AL: "Molecular Structure Extraction From Documents Using Deep Learning", 《MOLECULAR STRUCTURE EXTRACTION FROM DOCUMENTS USING DEEP LEARNING》, pages 9 *
SHUANGJIA ZHENG ET AL.: "Identifying Structure−Property Relationships through SMILES Syntax Analysis with Self-Attention Mechanism", pages 914 - 923 *
刘金来 等: "循证医学纵横谈", 江西科学技术出版社, pages: 82 - 83 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置
CN113257369B (zh) * 2021-05-18 2022-08-30 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置
WO2024016376A1 (zh) * 2022-07-18 2024-01-25 慧壹科技(上海)有限公司 一种清洗小分子化合物的数据预处理系统及其方法

Similar Documents

Publication Publication Date Title
CN111640470A (zh) 基于句法模式识别的药物小分子毒性预测的方法
US10706351B2 (en) Recurrent encoder and decoder
JP6955580B2 (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
US20190265955A1 (en) Method and system for comparing sequences
CN113312500B (zh) 一种面向大坝安全运行的事件图谱构建方法
CN110232280B (zh) 一种基于树结构卷积神经网络的软件安全漏洞检测方法
Guo et al. Graseq: graph and sequence fusion learning for molecular property prediction
Levy et al. Learning to align the source code to the compiled object code
Ucak et al. Substructure-based neural machine translation for retrosynthetic prediction
CN111640471A (zh) 基于双向长短记忆模型的药物小分子活性预测的方法和系统
Almagro Armenteros et al. Language modelling for biological sequences–curated datasets and baselines
Lim et al. Predicting chemical properties using self-attention multi-task learning based on SMILES representation
Janz et al. Learning a generative model for validity in complex discrete structures
Feng et al. Neureduce: Reducing mixed boolean-arithmetic expressions by recurrent neural network
Tariq et al. SpeCollate: Deep cross-modal similarity network for mass spectrometry data based peptide deductions
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
Englert et al. Sensing Higgs boson cascade decays through memory
Barshatski et al. Multi-property molecular optimization using an integrated poly-cycle architecture
Yang et al. CNN-based two-branch multi-scale feature extraction network for retrosynthesis prediction
Cho et al. iupacGPT: IUPAC-based large-scale molecular pre-trained model for property prediction and molecule generation
CN116313148A (zh) 一种药物敏感性的预测方法、装置、终端设备及介质
CN113076089B (zh) 一种基于对象类型的api补全方法
Stakia et al. Advances in multi-variate analysis methods for new physics searches at the large hadron collider
Song et al. Sparse coding driven deep decision tree ensembles for nucleus segmentation in digital pathology images
Ucak et al. Reconstruction of lossless molecular representations, SMILES and SELFIES, from fingerprints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210329

Address after: Room 202, building 1, 366 Tongyun street, Liangzhu street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou derizhi Pharmaceutical Technology Co.,Ltd.

Address before: 11 / F, building 15, Singapore Science Park, Qiantang New District, Hangzhou, Zhejiang 310000

Applicant before: Niu Zhangming

Applicant before: Wade Menpes Smith

TA01 Transfer of patent application right