CN111243668B - 分子结合位点检测方法、装置、电子设备及存储介质 - Google Patents

分子结合位点检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111243668B
CN111243668B CN202010272124.0A CN202010272124A CN111243668B CN 111243668 B CN111243668 B CN 111243668B CN 202010272124 A CN202010272124 A CN 202010272124A CN 111243668 B CN111243668 B CN 111243668B
Authority
CN
China
Prior art keywords
site
point
feature
line segment
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010272124.0A
Other languages
English (en)
Other versions
CN111243668A (zh
Inventor
李贤芝
陈广勇
王平安
张胜誉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010272124.0A priority Critical patent/CN111243668B/zh
Publication of CN111243668A publication Critical patent/CN111243668A/zh
Application granted granted Critical
Publication of CN111243668B publication Critical patent/CN111243668B/zh
Priority to KR1020217028480A priority patent/KR102635777B1/ko
Priority to PCT/CN2021/078263 priority patent/WO2021203865A1/zh
Priority to JP2021545445A priority patent/JP7246813B2/ja
Priority to EP21759220.3A priority patent/EP3920188A4/en
Priority to US17/518,953 priority patent/US20220059186A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Multimedia (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)

Abstract

本申请公开了一种分子结合位点检测方法、装置、电子设备及存储介质,属于计算机技术领域。本申请通过获取目标分子中各个位点的三维坐标,确定各个位点对应的第一目标点和第二目标点,进而提取出各个位点的三维坐标中具有旋转不变特性的位置特征,调用位点检测模型对提取到的位置特征进行预测,得到各个位点是否属于结合位点的预测概率,基于预测概率确定出结合位点,由于第一目标点和第二目标点是与各个位点相关的且具有一定空间代表性的点,有利于构造出能够全面体现出目标分子细节结构的、具有旋转不变特性的位置特征,避免了为目标分子设计体素特征所带来的细节损失,提升了分子结合位点检测过程的准确性。

Description

分子结合位点检测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种分子结合位点检测方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,在生物医学领域中如何通过计算机检测蛋白质分子的结合位点称为一个热点议题,其中,蛋白质分子的结合位点是指蛋白质分子上与其他分子相互绑定的位置点,俗称为“蛋白质结合口袋”。
目前,在检测蛋白质结合口袋时,可以针对蛋白质分子设计出一个体素特征,再将该体素特征输入到深度卷积神经网络(Deep Convolutional Neural Network,DCNN)中,通过DCNN来预测输入的体素特征所对应的分子结构是否为蛋白质结合口袋,可以看作利用DCNN处理一个二分类问题。
在上述过程中,虽然针对蛋白质分子设计了适合输入到DCNN里的体素特征,但是这个体素特征无法充分表征蛋白质分子中暗含的重要信息,导致检测结果往往受限于设计出的体素特征的提取方法,因此,针对蛋白质的分子结合位点检测的准确率较低。
发明内容
本申请实施例提供了一种分子结合位点检测方法、装置、电子设备及存储介质,能够提升分子结合位点检测过程的准确率。该技术方案如下。
一方面,提供了一种分子结合位点检测方法,该方法包括:
获取待检测的目标分子中至少一个位点的三维坐标,所述目标分子为待检测结合位点的化学分子;
确定所述至少一个位点分别对应的至少一个第一目标点和至少一个第二目标点,其中,任一个位点的第一目标点为以所述位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,任一个位点的第二目标点为以原点为起点、指向所述位点的向量的正向延长线与所述球形空间的外表面的交点;
基于所述至少一个位点、所述至少一个第一目标点以及所述至少一个第二目标点的三维坐标,提取所述至少一个位点的三维坐标中具有旋转不变特性的位置特征,所述位置特征用于表征所述至少一个位点在所述目标分子中所处的位置信息;
调用位点检测模型对提取到的所述位置特征进行预测处理,以得到所述至少一个位点的至少一个预测概率,其中,一个预测概率用于表征一个位点属于结合位点的可能性;
基于所述至少一个预测概率,确定所述目标分子中所述至少一个位点内的结合位点。
一方面,提供了一种分子结合位点检测装置,该装置包括:
获取模块,用于获取待检测的目标分子中至少一个位点的三维坐标,所述目标分子为待检测结合位点的化学分子;
第一确定模块,用于确定所述至少一个位点分别对应的至少一个第一目标点和至少一个第二目标点,其中,任一个位点的第一目标点为以所述位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,任一个位点的第二目标点为以原点为起点、指向所述位点的向量的正向延长线与所述球形空间的外表面的交点;
提取模块,用于基于所述至少一个位点、所述至少一个第一目标点以及所述至少一个第二目标点的三维坐标,提取所述至少一个位点的三维坐标中具有旋转不变特性的位置特征,所述位置特征用于表征所述至少一个位点在所述目标分子中所处的位置信息;
预测模块,用于调用位点检测模型对提取到的所述位置特征进行预测处理,以得到所述至少一个位点的至少一个预测概率,其中,一个预测概率用于表征一个位点属于结合位点的可能性;
第二确定模块,用于基于所述至少一个预测概率,确定所述目标分子中所述至少一个位点内的结合位点。
在一种可能实施方式中,所述提取模块包括:
提取单元,用于对于所述至少一个位点中任一位点,基于所述位点、所述位点对应的第一目标点以及所述位点对应的第二目标点的三维坐标,提取所述位点的三维坐标中具有旋转不变特性的位置特征。
在一种可能实施方式中,所述提取单元用于:
基于所述位点、所述第一目标点以及所述第二目标点的三维坐标,构建所述位点的全局位置特征,所述全局位置特征用于表征所述位点在目标分子内所处的空间位置信息;
基于所述位点、所述第一目标点、所述第二目标点以及所述位点的至少一个邻域点的三维坐标,构建所述位点与所述至少一个邻域点之间的至少一个局部位置特征,一个局部位置特征用于表征所述位点与一个邻域点之间的相对位置信息;
基于所述全局位置特征和所述至少一个局部位置特征,获取所述位点的位置特征。
在一种可能实施方式中,所述全局位置特征包括:所述位点的模长、所述位点与所述第一目标点之间的距离、所述第一目标点与所述第二目标点之间的距离、第一夹角的余弦值或者第二夹角的余弦值中至少一项,其中,所述第一夹角为第一线段与第二线段之间所构成的夹角,所述第二夹角为所述第二线段与第三线段之间所构成的夹角,所述第一线段为所述位点与所述第一目标点之间所构成的线段,所述第二线段为所述第一目标点与所述第二目标点之间所构成的线段,所述第三线段为所述位点与所述第二目标点之间所构成的线段。
在一种可能实施方式中,对于所述至少一个邻域点中任一邻域点,所述位点与所述邻域点之间的局部位置特征包括:所述邻域点与所述位点之间的距离、所述邻域点与所述第一目标点之间的距离、所述邻域点与所述第二目标点之间的距离、第三夹角的余弦值、第四夹角的余弦值或者第五夹角的余弦值中至少一项,其中,所述第三夹角为第四线段与第五线段之间所构成的夹角,所述第四夹角为所述第五线段与第六线段之间所构成的夹角,所述第五夹角为所述第六线段与所述第四线段之间所构成的夹角,所述第四线段为所述邻域点与所述位点之间所构成的线段,所述第五线段为所述邻域点与所述第一目标点之间所构成的线段,所述第六线段为所述邻域点与所述第二目标点之间所构成的线段。
在一种可能实施方式中,所述位点检测模型为图卷积神经网络,所述图卷积神经网络包括输入层、至少一个边卷积层以及输出层;
所述预测模块包括:
输入输出单元,用于将所述至少一个位点的位置特征输入图卷积神经网络中的输入层,通过所述输入层输出所述至少一个位点的图数据,所述图数据用于以图的形式表示位点的位置特征;
特征提取单元,用于将至少一个位点的图数据输入所述图卷积神经网络中的至少一个边卷积层,通过所述至少一个边卷积层对所述至少一个位点的图数据进行特征提取,得到所述至少一个位点的全局生物学特征;
概率拟合单元,用于将所述全局生物学特征、所述至少一个位点的图数据以及所述至少一个边卷积层所输出的边卷积特征进行融合,将融合得到的特征输入所述图卷积神经网络的输出层,通过所述输出层对所述融合得到的特征进行概率拟合,得到所述至少一个预测概率。
在一种可能实施方式中,所述输入输出单元用于:
将所述至少一个位点的位置特征输入所述输入层中的多层感知器,通过所述多层感知器对所述至少一个位点的位置特征进行映射,得到所述至少一个位点的第一特征,所述第一特征的维度大于所述位置特征的维度;
将所述至少一个位点的第一特征输入所述输入层中的池化层,通过所述池化层对所述至少一个位点的第一特征进行降维,得到所述至少一个位点的图数据。
在一种可能实施方式中,所述特征提取单元包括:
提取输入子单元,用于对于所述至少一个边卷积层中任一边卷积层,对上一边卷积层所输出的边卷积特征进行特征提取,将提取到的边卷积特征输入下一边卷积层;
拼接子单元,用于将所述至少一个位点的图数据以及所述至少一个边卷积层所输出的至少一个边卷积特征进行拼接,得到第二特征;
映射子单元,用于将所述第二特征输入多层感知器,通过所述多层感知器对所述第二特征进行映射,得到第三特征;
降维子单元,用于将所述第三特征输入池化层,通过所述池化层对所述第三特征进行降维,得到所述全局生物学特征。
在一种可能实施方式中,所述提取输入子单元用于:
对于所述至少一个边卷积层中任一边卷积层,基于上一边卷积层所输出的边卷积特征构建聚类图;
将所述聚类图输入所述边卷积层中的多层感知器,通过所述多层感知器对所述聚类图进行映射,得到所述聚类图的中间特征;
将所述中间特征输入所述边卷积层中的池化层,通过所述池化层对所述中间特征进行降维,将降维后的中间特征输入到下一边卷积层中。
在一种可能实施方式中,所述概率拟合单元用于:
将融合得到的特征输入所述输出层中的多层感知器,通过所述多层感知器对所述融合得到的特征进行映射,得到所述至少一个预测概率。
在一种可能实施方式中,所述第二确定模块用于:
从所述至少一个位点中,将预测概率大于概率阈值的位点确定为结合位点。
一方面,提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的分子结合位点检测方法所执行的操作。
一方面,提供了一种存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的分子结合位点检测方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取目标分子中各个位点的三维坐标,确定出各个位点分别对应的第一目标点和第二目标点,基于各个位点、各个第一目标点和各个第二目标点的三维坐标,提取出各个位点的三维坐标中具有旋转不变特性的位置特征,调用位点检测模型对提取到的位置特征进行预测,得到各个位点是否属于结合位点的预测概率,从而基于预测概率确定出目标分子的结合位点,由于第一目标点和第二目标点是与各个位点相关的且具有一定空间代表性的点,因此借助各个位点、各个第一目标点和各个第二目标点的三维坐标,可以构造出能够全面体现出目标分子细节结构的、具有旋转不变特性的位置特征,从而避免了为目标分子设计体素特征所带来的细节损失,使得基于位置特征进行结合位点检测时,能够充分利用目标分子的细节结构的位置信息,提升了分子结合位点检测过程的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种分子结合位点检测方法的实施环境示意图;
图2是本申请实施例提供的一种分子结合位点检测方法的流程图;
图3是本申请实施例提供的一种分子结合位点检测方法的流程图;
图4是本申请实施例提供的一种第一目标点和第二目标点的示意图;
图5是本申请实施例提供的一种图卷积神经网络的原理性示意图;
图6是本申请实施例提供的一种边卷积层的结构示意图;
图7是本申请实施例提供的一种分子结合位点检测装置的结构示意图;
图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一位置是指两个或两个以上的第一位置。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的技术方案涉及到人工智能领域的机器学习技术,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习技术专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着机器学习技术的研究和进步,机器学习技术在多个领域展开了广泛的研究和应用,本申请实施例提供的技术方案涉及到机器学习技术在生物医学领域的应用,具体地,涉及到一种基于人工智能的分子结合位点检测方法,结合位点是指在当前分子上与其他分子相互绑定的各类位点,俗称为“结合口袋”、“结合口袋位点”。
以蛋白质分子为例进行说明,随着生物学和医学中针对重要蛋白质分子的结构知识的不断增长,预测蛋白质分子的结合位点成为一个越来越重要的热点议题,通过预测蛋白质分子的结合位点能够更好地揭示出蛋白质的分子功能。由于生物过程都是通过蛋白质分子的相互作用来实现的,因此要想完全理解或要操纵生物过程,就需要技术人员揭开蛋白质分子相互作用的背后机制,其中,比如生物过程可以包括DNA(DeoxyriboNucleicAcid,脱氧核糖核酸)合成、信号传导、生命代谢等,而研究蛋白质分子相互作用机制的第一步就是要识别出蛋白质分子的相互作用位点(也即结合位点)。因此,预测蛋白质分子的结合位点可以辅助技术人员后续对蛋白质分子结构和功能的分析。
进一步地,预测蛋白质分子的结合位点还可以为设计出合理的药物分子提供帮助:蛋白质分子的作用分析在各种疾病的治疗方面具有极大的推进作用,通过对蛋白质分子结构和功能的分析可以揭示出某些疾病的发病机理,进而为寻找某些药物的靶点和新药研发具有指导作用。
因此,预测蛋白质分子的结合位点不但对揭示蛋白质分子自身的结构和功能具有重大意义,而且通过揭示蛋白质分子自身的结构和功能,还可以进一步地在病理学上揭示出某些疾病的发病机理,从而指导药物的靶点的寻找、指导新药研发。
需要说明的是,本申请实施例的分子结合位点检测方法用于检测出目标分子的结合位点,但目标分子并不局限于上述蛋白质分子,该目标分子还可以是ATP(AdenosineTriphosPhate,腺苷三磷酸)分子、有机聚合物分子、有机小分子等化学分子,本申请实施例不对目标分子的类型进行具体限定。
以下,对本申请实施例所涉及的术语进行解释。
蛋白质结合口袋:位于蛋白质分子上的与其他分子相互绑定的各类结合位点。
点云数据(point cloud data):在某个坐标系下的点的数据集合。每个点的数据包含丰富的信息,包括该点的三维坐标、颜色、强度值、时间等,通常可以利用三维激光扫描仪进行数据采集获取点云数据。
深度卷积神经网络(Deep Convolutional Neural Network,DCNN):DCNN是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。DCNN的结构包括输入层、隐含层和输出层。隐含层中通常包括卷积层(convolutional layer)、池化层(pooling layer)和全连接层(fully-connected layer)。卷积层的功能是对输入数据进行特征提取,卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量。在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和过滤。全连接层位于卷积神经网络隐含层的最后部分。特征图会在全连接层中失去空间拓扑结构,被展开为向量并通过激励函数传递给输出层。DCNN研究的对象必须具有规则的空间结构,比如图像、体素等。
图卷积神经网络(Graph Convolutional Network,GCN):GCN是一种能对图数据进行深度学习的方法,GCN对输入数据构建出具有点和边的图数据,利用多个隐含层为每个点提取高维特征,该特征隐含了这个点与周围点之间的图连接关系,最后通过输出层得到预期的输出结果。GCN在电子商务推荐系统、新药研发、点云分析等很多任务上取得了成功,GCN网络结构可以包括Spectral CNN(光谱卷积神经网络),Graph Attention Network(图注意力网络),Graph Recurrent Attention Network(图递归注意力网络),Dynamic GraphCNN(动态图卷积神经网络,DGCNN)等。传统的GCN不具备旋转不变特性。
多层感知器(Multilayer Perceptron,MLP):MLP是一种前向结构的人工神经网络,能够将一组输入向量映射到一组输出向量。
在相关技术中,以蛋白质分子为例,可以利用DCNN进行蛋白质分子的结合位点(蛋白质结合口袋)的检测,DCNN近年来在图像和视频的分析、识别、处理等领域均表现出良好的性能,因此可以尝试将DCNN迁移至识别蛋白质结合口袋这一任务中。虽然传统的DCNN在很多任务上取得了成功,但是DCNN研究的对象必须具有规则的空间结构,比如图像的像素、分子的体素等,对于现实生活中很多并不具有规则的空间结构的数据(比如蛋白质分子),要想将DCNN迁移到蛋白质结合口袋的检测过程中,那么技术人员必须为蛋白质分子手动设计出一个具有规则的空间结构的特征,以此作为DCNN的输入。
在一个示例中,DeepSite网络是首次提出的一种检测蛋白质结合口袋的DCNN网络,通过从蛋白质分子中手动设计出特征(本质上是一种子结构)作为DCNN的输入,并用多层卷积神经网络预测输入的蛋白质分子的子结构是否属于口袋结合位点。随后,在另一个示例中,技术人员又提出了一种全新的特征提取器:从蛋白质分子的形状和结合位点的能量两方面进行特征提取,输出的特征以3D体素的表示方式(也即体素特征)被输入到DCNN网络中。类似的,在另一个示例中,FRSite也是一种检测蛋白质结合口袋的DCNN网络,通过从蛋白质分子中提取体素特征作为DCNN网络输入,并且利用快速卷积神经网络进行结合位点的检测。同理,在另一个示例中,DeepDrup3D也是一种检测蛋白质结合口袋的DCNN网络,通过直接将蛋白质分子转化为3D体素作为DCNN网络的输入,进而去预测蛋白质结合口袋。
然而,上述基于体素特征的DCNN检测方法严重受限于体素的分辨率,无法处理更加精细的蛋白质分子结构。并且,由于都需要手动设计体素特征作为DCNN网络的输入。虽然这些体素特征经过了技术人员的精心设计,但是仍然无法保证能够充分表征出蛋白质分子中暗含的重要信息。因此,最终蛋白质结合口袋的检测结果往往还会受限于设计的体素特征的提取方法。
有鉴于此,本申请实施例提供一种分子结合位点检测方法,用于检测目标分子的结合位点,以目标分子为蛋白质分子为例说明,直接把蛋白质分子的点云数据(包括三维坐标)作为系统输入,采用图卷积神经网络等位点检测模型来进行自主探索,位点检测模型能够充分探索蛋白质分子的组织结构,从而自动提取出高效的、最有利于结合口袋检测的生物学特征,因此能够从蛋白质分子的点云数据中准确识别出蛋白质结合口袋。
进一步地,相较于传统的图卷积神经网络而言,由于传统的图卷积神经网络不具备旋转不变特性,而蛋白质分子可以在三维空间中进行任意旋转,如果采用的网络结构不具备旋转不变特性,那么相同的蛋白质分子在经过旋转前后的口袋检测结果可能会有很大不同,这将大大降低蛋白质结合口袋的检测准确率。而本申请实施例通过将蛋白质分子的点云数据中三维坐标点转化为旋转不变的表征(也即位置特征),比如角度、长度等,将具有旋转不变性的位置特征取代旋转变化的三维坐标点作为系统输入,使得位点检测模型的网络结构具有旋转不变特性,也即是说,蛋白质结合口袋的检测结果不随着输入蛋白质点云数据的方向而发生改变,这对于蛋白质结合口袋的检测过程具有突破性的意义。下面,将对本申请实施例的应用场景进行详述说明。
图1是本申请实施例提供的一种分子结合位点检测方法的实施环境示意图。参见图1,在该实施环境中包括终端101和服务器102,终端101和服务器102均为一种电子设备。
终端101可以用于提供目标分子的点云数据,比如,终端101可以是三维激光扫描仪的控制终端,通过三维激光扫描仪对目标分子进行数据采集,将采集到的点云数据导出至该控制终端,通过控制终端生成携带目标分子的点云数据的检测请求,该检测请求用于请求服务器102检测目标分子的结合位点,使得服务器102响应于检测请求,基于目标分子的点云数据对目标分子进行结合位点的检测工作,确定出目标分子的结合位点,将该目标分子的结合位点返回至该控制终端。
在上述过程中,控制终端将整个目标分子的点云数据均发送至服务器102,能够使得服务器102对目标分子进行更加全面的分子结构分析。在一些实施例中,由于点云数据除了各个位点的三维坐标之外还包括颜色、强度值、时间等附加属性,控制终端还可以仅将目标分子中至少一个位点的三维坐标发送至服务器102,从而能够节约数据传输过程的通信量。
终端101和服务器102可以通过有线网络或无线网络相连。
服务器102可以用于提供分子结合位点的检测服务,服务器102在接收到任一终端的检测请求之后,解析该检测请求,得到目标分子的点云数据,基于点云数据中各个位点的三维坐标,提取出各个位点具有旋转不变性的位置特征,将该位置特征作为位点检测模型的输入,执行预测结合位点的操作,得到目标分子的结合位点。
可选地,服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地,服务器102可以承担主要计算工作,终端101可以承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,终端101和服务器102两者之间采用分布式计算架构进行协同计算。
在上述过程中,以终端101和服务器102通过通信交互完成分子结合位点检测为例进行说明,在一些实施例中,终端101也可以独立完成分子结合位点的检测工作,此时终端101采集到目标分子的点云数据之后,可以直接基于点云数据中各个位点的三维坐标,执行基于位点检测模型的预测处理,预测出目标分子的结合位点,与服务器102的预测过程类似,这里不做赘述。
可选地,终端101可以泛指多个终端中的一个,终端101的设备类型包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例,以终端包括智能手机来进行举例说明。
本领域技术人员可以知晓,上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个,或者上述终端101为几十个或几百个,或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。
图2是本申请实施例提供的一种分子结合位点检测方法的流程图。参见图2,该方法应用于电子设备,该实施例包括下述步骤。
201、电子设备获取待检测的目标分子中至少一个位点的三维坐标,该目标分子为待检测结合位点的化学分子。
其中,目标分子可以是任一待检测结合位点的化学分子,比如蛋白质分子、ATP(Adenosine TriphosPhate,腺苷三磷酸)分子、有机聚合物分子、有机小分子等,本申请实施例不对目标分子的类型进行具体限定。
可选地,该至少一个位点的三维坐标可以通过点云数据的形式表示,由某一坐标系内的至少一个三维坐标点堆叠在一起来描述目标分子的结构。相较于3D体素的表示形式,点云数据占用的存储空间更小,并且由于3D体素依赖于特征提取方式,在特征提取过程中容易丢失掉目标分子中一些细节结构,因此点云数据还可以描述出目标分子的细节结构。
由于三维坐标点是一类对于旋转非常敏感的数据,以蛋白质分子为例,相同的蛋白质点云在经过旋转之后,各个位点的三维坐标值会发生改变,因此,如果直接将各个位点的三维坐标输入到位点检测模型中进行特征提取和结合位点预测,由于坐标值在旋转前后会发生改变,那么同一位点检测模型针对旋转前后的输入,有可能分别会提取出不同的生物学特征,从而预测出不同的结合位点,也即是说,正是由于三维坐标点不具备旋转不变性,那么会导致位点检测模型对同一蛋白质分子在旋转前后预测出不同的结合位点,导致无法保障分子结合位点检测过程的准确性。
202、电子设备确定该至少一个位点分别对应的至少一个第一目标点和至少一个第二目标点,其中,任一个位点的第一目标点为以该位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,任一个位点的第二目标点为以原点为起点、指向该位点的向量的正向延长线与该球形空间的外表面的交点。
其中,每个位点均唯一对应于一个第一目标点和第二目标点,对每个位点而言,其第一目标点是指:以该位点为球心、以目标长度为半径的球形空间内所包含的目标分子的所有位点的中心点,这个中心点是基于球形空间内所包含的所有位点的三维坐标进行平均值计算而得到的一个空间点,因此第一目标点并不一定是目标分子的点云数据中真实存在的位点,目标长度为任一大于0的数值;其第二目标点是指:以原点为起点、指向该位点的向量的正向延长线与该球形空间的外表面的交点,以原点为起点可以引出一条指向该位点的向量,该向量的方向从原点指向该位点,该向量的长度等于该位点的模长,因此,该向量的正向延长线与球形空间的外表面具有唯一的一个交点,这个交点即为第二目标点,同理,第二目标点也并不一定是目标分子的点云数据中真实存在的位点。
203、电子设备基于该至少一个位点、该至少一个第一目标点以及该至少一个第二目标点的三维坐标,提取该至少一个位点的三维坐标中具有旋转不变特性的位置特征,该位置特征用于表征该至少一个位点在该目标分子中所处的位置信息。
在上述步骤203中,通过各个位点、各个第一目标点和各个第二目标点的三维坐标获取各个位点具有旋转不变特性的位置特征,能够基于三维坐标点提取出一种旋转不变的表征(也即是位置特征),以位置特征替换三维坐标来作为位点检测模型的输入,能够避免上述步骤201中所涉及的由于三维坐标不具备旋转不变性而导致检测准确性下降的问题。
204、电子设备调用位点检测模型对提取到的位置特征进行预测处理,以得到该至少一个位点的至少一个预测概率,其中,一个预测概率用于表征一个位点属于结合位点的可能性。
其中,该位点检测模型用于检测目标分子的结合位点,位点检测模型可以认为属于一种分类模型,用来处理目标分子中各个位点是否属于结合位点这一分类任务,可选地,该位点检测模型可以包括图卷积神经网络,也可以包括其他的深度学习网络,本申请实施例不对位点检测模型的类型进行具体限定。
在上述步骤204中,电子设备可以将各个位点的位置特征输入位点检测模型,由位点检测模型基于各个位点的位置特征进行结合位点的预测操作,具体地,在位点检测模型中,可以先基于各个位点的位置特征提取出目标分子的生物学特征,再基于目标分子的生物学特征进行结合位点的检测,得到各个位点的预测概率。
205、电子设备基于该至少一个预测概率,确定该目标分子中该至少一个位点内的结合位点。
在上述过程中,电子设备可以将预测概率大于概率阈值的位点确定为结合位点,或者按照预测概率从大到小的顺序对位点进行排序,将排序位于前目标数量的位点确定为结合位点。其中,该概率阈值可以是任一大于或等于0且小于或等于1的数值,该目标数量可以是任一大于或等于1的整数。例如,当目标数量为3时,电子设备按照预测概率从大到小的顺序对位点进行排序,将排序位于前3的位点确定为结合位点。
本申请实施例提供的方法,通过获取目标分子中各个位点的三维坐标,确定出各个位点分别对应的第一目标点和第二目标点,基于各个位点、各个第一目标点和各个第二目标点的三维坐标,提取出各个位点的三维坐标中具有旋转不变特性的位置特征,调用位点检测模型对提取到的位置特征进行预测,得到各个位点是否属于结合位点的预测概率,从而基于预测概率确定出目标分子的结合位点,由于第一目标点和第二目标点是与各个位点相关的且具有一定空间代表性的点,因此借助各个位点、各个第一目标点和各个第二目标点的三维坐标,可以构造出能够全面体现出目标分子细节结构的、具有旋转不变特性的位置特征,从而避免了为目标分子设计体素特征所带来的细节损失,使得基于位置特征进行结合位点检测时,能够充分利用目标分子的细节结构的位置信息,提升了分子结合位点检测过程的准确性。
图3是本申请实施例提供的一种分子结合位点检测方法的流程图。参见图3,该实施例应用于电子设备,以电子设备为终端为例进行说明,该实施例包括下述步骤。
300、终端获取待检测的目标分子中至少一个位点的三维坐标,该目标分子为待检测结合位点的化学分子。
上述步骤300与上述步骤201类似,这里不做赘述。
301、对于该至少一个位点中任一位点,终端基于该位点的三维坐标,确定该位点对应的第一目标点和第二目标点。
其中,该第一目标点为以该位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,该第二目标点为以原点为起点、指向该位点的向量的正向延长线与该球形空间的外表面的交点。
其中,每个位点均唯一对应于一个第一目标点,对每个位点而言,其第一目标点是指:以该位点为球心、以目标长度为半径的球形空间内所包含的所有位点的中心点,这个中心点是基于球形空间内所包含的所有位点的三维坐标进行平均值计算而得到的一个空间点,因此第一目标点并不一定是目标分子的点云数据中真实存在的位点,其中,该目标长度可以由技术人员进行指定,目标长度为任一大于0的数值。
其中,每个位点均唯一对应于一个第二目标点,对每个位点而言,其第二目标点是指:以原点为起点、指向该位点的向量的正向延长线与该球形空间的外表面的交点,以原点为起点可以引出一条指向该位点的向量,该向量的方向从原点指向该位点,该向量的长度等于该位点的模长,因此,该向量的正向延长线与球形空间的外表面具有唯一的一个交点,这个交点即为第二目标点,同理,第二目标点也并不一定是目标分子的点云数据中真实存在的位点。
在上述过程中,终端在确定第一目标点和第二目标点的过程中,可以先确定以该位点为球心、以目标长度为半径的球形空间,再从目标分子的至少一个位点中确定位于该球形空间内的所有位点,将位于球形空间内所有位点的中心点确定为第一目标点,可选地,在确定上述中心点时,可以获取位于该球形空间内的所有位点的三维坐标,将位于该球形空间内的所有位点的三维坐标的平均值坐标确定为上述中心点的三维坐标,也即是第一目标点的三维坐标。进一步地,确定以原点为起点、指向该位点的向量,将该向量的正向延长线与球形空间外表面的交点确定为第二目标点。
图4是本申请实施例提供的一种第一目标点和第二目标点的示意图,请参考图4,在一个示例中,假设蛋白质分子的点云数据包括N(N≥1)个位点的三维坐标,那么该点云数据由N个三维坐标点
Figure 41077DEST_PATH_IMAGE001
堆叠而成,其中原点为origin(0,0,0),
Figure 533107DEST_PATH_IMAGE002
表示第i个位点的三维坐标,
Figure 522929DEST_PATH_IMAGE003
Figure 989682DEST_PATH_IMAGE004
Figure 700674DEST_PATH_IMAGE005
分别表示第i个位点在x、y、z轴上的坐标值,i为大于或等于1且小于或等于N的整数,通过点云数据可以描述蛋白质分子的结构。针对第i个位点400,在以
Figure 75023DEST_PATH_IMAGE002
为球心、r为半径的球形空间401中,将球形空间401中所包含所有位点的中心点
Figure 591455DEST_PATH_IMAGE006
确定为第一目标点402,具体地,将球形空间401中所包含所有位点的x轴坐标平均值确定为中心点
Figure 291427DEST_PATH_IMAGE006
的x轴坐标,将球形空间401中所包含所有位点的y轴坐标平均值确定为中心点
Figure 96572DEST_PATH_IMAGE006
的y轴坐标,将球形空间401中所包含所有位点的z轴坐标平均值确定为中心点
Figure 212295DEST_PATH_IMAGE006
的z轴坐标;将以原点为起点、指向
Figure 851743DEST_PATH_IMAGE002
的向量的正向延长线与球形空间401外表面的交点
Figure 191457DEST_PATH_IMAGE007
确定为第二目标点403。
302、终端基于该位点、该第一目标点以及该第二目标点的三维坐标,构建该位点的全局位置特征,该全局位置特征用于表征该位点在目标分子内所处的空间位置信息。
在一些实施例中,该全局位置特征可以包括:该位点的模长、该位点与该第一目标点之间的距离、该第一目标点与该第二目标点之间的距离、第一夹角的余弦值或者第二夹角的余弦值中至少一项,其中,该第一夹角为第一线段与第二线段之间所构成的夹角,该第二夹角为该第二线段与第三线段之间所构成的夹角,该第一线段为该位点与该第一目标点之间所构成的线段,该第二线段为该第一目标点与该第二目标点之间所构成的线段,该第三线段为该位点与该第二目标点之间所构成的线段。
可选地,终端可以获取该位点的模长、该位点与该第一目标点之间的距离、该第一目标点与该第二目标点之间的距离、第一夹角的余弦值以及第二夹角的余弦值,基于上述五项数据构建一个五维向量,将该五维向量作为该位点的全局位置特征。
在一些实施例中,该全局位置特征可以包括:该位点的模长、该位点与该第一目标点之间的距离、该第一目标点与该第二目标点之间的距离、第一夹角的角度或者第二夹角的角度中至少一项。也即是说,不对第一夹角和第二夹角取余弦值,直接将第一夹角和第二夹角的角度作为全局位置特征中的元素。
在一个示例中,请参考图4,针对第i个位点400(用
Figure 546215DEST_PATH_IMAGE002
表示),在以
Figure 200050DEST_PATH_IMAGE002
为球心、r为半径的球形空间401中,通过上述步骤301可以确定出第一目标点402(用
Figure 628758DEST_PATH_IMAGE006
表示)和第二目标点403(用
Figure 139373DEST_PATH_IMAGE007
表示),终端可以分别获取下列五项数据。
1)位点
Figure 43744DEST_PATH_IMAGE002
的模长
Figure 235691DEST_PATH_IMAGE008
2)位点
Figure 518905DEST_PATH_IMAGE002
与第一目标点
Figure 418333DEST_PATH_IMAGE006
之间的距离
Figure 747683DEST_PATH_IMAGE009
3)位点
Figure 540059DEST_PATH_IMAGE002
与第二目标点
Figure 5675DEST_PATH_IMAGE007
之间的距离
Figure 999039DEST_PATH_IMAGE010
4)第一夹角
Figure 284527DEST_PATH_IMAGE011
的余弦值
Figure 349435DEST_PATH_IMAGE012
,该第一夹角
Figure 731874DEST_PATH_IMAGE011
为第一线段与第二线段之间所构成的夹角,该第一线段为位点
Figure 692877DEST_PATH_IMAGE002
与第一目标点
Figure 668923DEST_PATH_IMAGE006
之间所构成的线段,该第二线段为第一目标点
Figure 9294DEST_PATH_IMAGE006
与第二目标点
Figure 246240DEST_PATH_IMAGE007
之间所构成的线段。
5)第二夹角
Figure 643723DEST_PATH_IMAGE013
的余弦值
Figure 841486DEST_PATH_IMAGE014
,该第二夹角
Figure 982618DEST_PATH_IMAGE013
为上述第二线段与第三线段之间所构成的夹角,该第三线段为位点
Figure 542912DEST_PATH_IMAGE002
与第二目标点
Figure 908034DEST_PATH_IMAGE007
之间所构成的线段。
从图4中可以看出来,第一夹角
Figure 920990DEST_PATH_IMAGE011
和第二夹角
Figure 537916DEST_PATH_IMAGE013
为三角形
Figure 687137DEST_PATH_IMAGE015
的两个内角。终端基于上述1)-5)这五项数据,可以构造一个五维向量作为位点
Figure 226091DEST_PATH_IMAGE002
的全局位置特征:
Figure 726342DEST_PATH_IMAGE016
基于上述示例进行分析,在给定点云中任一位点
Figure 209276DEST_PATH_IMAGE002
的情况下,如果直接将位点
Figure 150687DEST_PATH_IMAGE002
的三维坐标点
Figure 60874DEST_PATH_IMAGE017
输入到位点检测模型中,那么由于三维坐标点不具有旋转不变性,会导致位点检测模型针对同一蛋白质分子预测出不同的结合位点检测结果,降低结合位点检测过程的准确性。
在一些实施例中,假设仅利用位点
Figure 48422DEST_PATH_IMAGE002
的模长
Figure 131784DEST_PATH_IMAGE008
作为位点
Figure 255598DEST_PATH_IMAGE002
的位置特征,由于模长是具有旋转不变性的,那么可以将位点
Figure 274370DEST_PATH_IMAGE002
的模长替代位点
Figure 218055DEST_PATH_IMAGE002
的三维坐标点输入到位点检测模型中,可以解决三维坐标点不具备旋转性的问题。然而,由于仅知道位点
Figure 108038DEST_PATH_IMAGE002
的模长,实际上无法精准定位出位点
Figure 86358DEST_PATH_IMAGE002
在点云空间坐标系中所处的位置,仅利用模长作为位置特征,会损失掉蛋白质分子各个位点之间的一些位置信息。
在一些实施例中,假设在位点
Figure 276031DEST_PATH_IMAGE002
的模长
Figure 972592DEST_PATH_IMAGE018
之外,终端还额外提取了四项数据
Figure 601019DEST_PATH_IMAGE019
,显然不管是距离量
Figure 496163DEST_PATH_IMAGE018
Figure 919054DEST_PATH_IMAGE020
Figure 775015DEST_PATH_IMAGE021
,还是角度量
Figure 941554DEST_PATH_IMAGE011
Figure 956783DEST_PATH_IMAGE013
,均不会随着蛋白质分子的旋转而发生变化,因此具有旋转不变性。基于上述各项数据,构造五维向量
Figure 807366DEST_PATH_IMAGE022
作为全局位置特征,将全局位置特征取代三维坐标点
Figure 681781DEST_PATH_IMAGE017
来表示位点
Figure 652011DEST_PATH_IMAGE002
在点云空间坐标系中所处的位置,也即是说,基于全局位置特征就能够精准定位出位点
Figure 521747DEST_PATH_IMAGE002
在点云空间坐标系中所处的位置,因此该全局位置特征可以最大程度地保留位点
Figure 552020DEST_PATH_IMAGE002
的位置信息,且该全局位置特征具有旋转不变性。
需要说明的是,由于可以事先将蛋白质分子的点云数据都归一化到一个以原点为球心、半径为1的球形空间内,因此距离量
Figure 444889DEST_PATH_IMAGE018
Figure 890914DEST_PATH_IMAGE020
Figure 818419DEST_PATH_IMAGE021
的取值范围都介于0到1之间,而第一夹角
Figure 816331DEST_PATH_IMAGE011
和第二夹角
Figure 199426DEST_PATH_IMAGE013
的取值范围却是介于0到π之间(
Figure 511459DEST_PATH_IMAGE011
Figure 231153DEST_PATH_IMAGE023
),通过分别对第一夹角
Figure 134387DEST_PATH_IMAGE011
和第二夹角
Figure 1849DEST_PATH_IMAGE013
取余弦值,可以分别得到取值范围介于0到1之间的
Figure 851993DEST_PATH_IMAGE012
Figure 160615DEST_PATH_IMAGE014
,从而能够保证输入到位点检测模型的数据具有统一的取值范围,可以使得位点检测模型能够具有更加稳定的训练性能和预测性能。
303、终端基于该位点、该第一目标点、该第二目标点以及该位点的至少一个邻域点的三维坐标,构建该位点与该至少一个邻域点之间的至少一个局部位置特征,一个局部位置特征用于表征该位点与一个邻域点之间的相对位置信息。
在一些实施例中,对于该位点的至少一个邻域点中任一邻域点,该位点与该邻域点之间的局部位置特征可以包括:该邻域点与该位点之间的距离、该邻域点与该第一目标点之间的距离、该邻域点与该第二目标点之间的距离、第三夹角的余弦值、第四夹角的余弦值或者第五夹角的余弦值中至少一项,其中,该第三夹角为第四线段与第五线段之间所构成的夹角,该第四夹角为该第五线段与第六线段之间所构成的夹角,该第五夹角为该第六线段与该第四线段之间所构成的夹角,该第四线段为该邻域点与该位点之间所构成的线段,该第五线段为该邻域点与该第一目标点之间所构成的线段,该第六线段为该邻域点与该第二目标点之间所构成的线段。
可选地,对于该位点的至少一个邻域点中任一邻域点,终端可以获取该邻域点与该位点之间的距离、该邻域点与第一目标点之间的距离、该邻域点与第二目标点之间的距离、第三夹角的余弦值、第四夹角的余弦值以及第五夹角的余弦值,基于上述六项数据构建一个六维向量,将该六维向量作为该位点的一个局部位置特征,进一步地,对所有的邻域点执行类似的操作,可以得到该位点相对于所有邻域点的局部位置特征。
在一些实施例中,对于该位点的至少一个邻域点中任一邻域点,该位点与该邻域点之间的局部位置特征可以包括:该邻域点与该位点之间的距离、该邻域点与该第一目标点之间的距离、该邻域点与该第二目标点之间的距离、第三夹角的角度、第四夹角的角度或者第五夹角的角度中至少一项。也即是说,不对第三夹角、第四夹角和第五夹角取余弦值,直接将第三夹角、第四夹角和第五夹角的角度作为局部位置特征中的元素。
在一个示例中,请参考图4,针对第i个位点400(用
Figure 703592DEST_PATH_IMAGE002
表示),在以
Figure 120667DEST_PATH_IMAGE002
为球心、r为半径的球形空间401中,通过上述步骤301可以确定出第一目标点402(用
Figure 181026DEST_PATH_IMAGE006
表示)和第二目标点403(用
Figure 937630DEST_PATH_IMAGE007
表示),假设存在第i个位点
Figure 451175DEST_PATH_IMAGE002
的第j个邻域点
Figure 27650DEST_PATH_IMAGE024
(j≥1),可以看出,利用位点
Figure 157280DEST_PATH_IMAGE002
、第一目标点
Figure 768390DEST_PATH_IMAGE006
、第二目标点
Figure 449907DEST_PATH_IMAGE007
以及邻域点
Figure 841574DEST_PATH_IMAGE024
可以构建出一个四面体,且四面体的边长中包括该邻域点
Figure 571633DEST_PATH_IMAGE024
与该位点
Figure 37249DEST_PATH_IMAGE002
之间的距离
Figure 892597DEST_PATH_IMAGE025
(第四线段的长度)、该邻域点
Figure 443664DEST_PATH_IMAGE024
与该第一目标点
Figure 180676DEST_PATH_IMAGE006
之间的距离
Figure 297537DEST_PATH_IMAGE026
(第五线段的长度)、该邻域点
Figure 524119DEST_PATH_IMAGE024
与该第二目标点
Figure 234586DEST_PATH_IMAGE007
之间的距离
Figure 572026DEST_PATH_IMAGE027
(第六线段的长度),四面体的夹角中包括第三夹角
Figure 808973DEST_PATH_IMAGE028
、第四夹角
Figure 206456DEST_PATH_IMAGE029
和第五夹角
Figure 404219DEST_PATH_IMAGE030
,其中,该第三夹角
Figure 545350DEST_PATH_IMAGE028
为第四线段
Figure 651452DEST_PATH_IMAGE025
与第五线段
Figure 219836DEST_PATH_IMAGE026
之间所构成的夹角,该第四夹角
Figure 639316DEST_PATH_IMAGE029
为该第五线段
Figure 380876DEST_PATH_IMAGE026
与第六线段
Figure 795677DEST_PATH_IMAGE027
之间所构成的夹角,该第五夹角
Figure 207067DEST_PATH_IMAGE030
为该第六线段
Figure 441739DEST_PATH_IMAGE027
与该第四线段
Figure 986990DEST_PATH_IMAGE025
之间所构成的夹角。
进一步地,分别对第三夹角
Figure 990718DEST_PATH_IMAGE028
、第四夹角
Figure 432063DEST_PATH_IMAGE029
和第五夹角
Figure 156962DEST_PATH_IMAGE030
取余弦值,得到三个夹角各自对应的余弦值
Figure 115690DEST_PATH_IMAGE031
Figure 239504DEST_PATH_IMAGE032
Figure 117330DEST_PATH_IMAGE033
,通过构建六维向量
Figure 326595DEST_PATH_IMAGE034
作为位点
Figure 823435DEST_PATH_IMAGE002
和邻域点
Figure 67335DEST_PATH_IMAGE024
之间的局部位置特征,该局部位置特征能够描述在点云空间坐标系中位点
Figure 381641DEST_PATH_IMAGE002
和邻域点
Figure 812623DEST_PATH_IMAGE024
之间的相对位置关系,通过全局位置特征和局部位置特征能够更加全面、精准地刻画出位点
Figure 113154DEST_PATH_IMAGE002
在蛋白质分子的点云空间坐标系中的位置信息。
304、终端基于该全局位置特征和该至少一个局部位置特征,获取该位点的位置特征。
在上述步骤302中,终端获取到一个五维的全局位置特征,在上述步骤303中,终端获取到至少一个六维的局部位置特征,对每个局部位置特征,将该局部位置特征均与全局位置特征进行拼接,可以得到一个十一维的位置特征分量,将所有的位置特征分量所构成的矩阵确定为该位点的位置特征。
在上述步骤302-304中,对目标分子的每个位点,终端能够基于该位点、该第一目标点以及该第二目标点的三维坐标,提取到该位点的位置特征。在本申请实施例中,仅以位置特征包括全局位置特征和局部位置特征为例进行说明,在一些实施例中,位置特征可以等同于全局位置特征,也即是说,终端在执行步骤302中获取全局位置特征的操作之后不执行上述步骤303-304,直接将各个位点的全局位置特征输入到位点检测模型中,不获取各个位点的局部位置特征,能够简化结合位点检测方法的流程,降低结合位点检测过程的计算量。
在一个示例中,对于目标分子的第i个位点
Figure 8298DEST_PATH_IMAGE002
,存在与位点
Figure 699698DEST_PATH_IMAGE002
对应的第一目标点
Figure 290079DEST_PATH_IMAGE006
、第二目标点
Figure 456618DEST_PATH_IMAGE007
以及K(K≥1)个邻域点
Figure 471847DEST_PATH_IMAGE035
,通过上述步骤302可以提取出一个5维(5-dim)的全局位置特征
Figure 65640DEST_PATH_IMAGE022
,通过上述步骤303则可以提取出分别对应于K个邻域点的K个6维(6-dim)的局部位置特征
Figure 408897DEST_PATH_IMAGE034
,将每个局部位置特征均与全局位置特征进行拼接,可以得到K个11维的位置特征分量,从而构成一个[K×11]维具有旋转不变性的位置特征,该位置特征的表达式如下:
Figure 113547DEST_PATH_IMAGE036
在上述矩阵形式的位置特征中,可以看出,矩阵左侧表明了位点
Figure 983283DEST_PATH_IMAGE002
的全局位置特征
Figure 747977DEST_PATH_IMAGE037
,用以表示位点
Figure 578530DEST_PATH_IMAGE002
在点云空间中的位置,矩阵右侧表明了位点
Figure 86871DEST_PATH_IMAGE002
与它的K个邻域点
Figure 814043DEST_PATH_IMAGE038
~
Figure 749638DEST_PATH_IMAGE039
之间的K个局部位置特征
Figure 801908DEST_PATH_IMAGE040
~
Figure 176258DEST_PATH_IMAGE041
,用以表示位点
Figure 692690DEST_PATH_IMAGE002
与它的K个邻域点
Figure 736869DEST_PATH_IMAGE038
~
Figure 604331DEST_PATH_IMAGE039
之间的相对位置。
305、终端对目标分子中至少一个位点重复执行上述步骤301-304,得到该至少一个位点的位置特征。
在上述步骤301-305中,终端能够基于至少一个位点、至少一个第一目标点以及至少一个第二目标点的三维坐标,提取到该至少一个位点的三维坐标中具有旋转不变特性的位置特征,该位置特征用于表征该至少一个位点在目标分子中所处的位置信息,换言之,终端通过各个位点的三维坐标,可以构造出一个能够充分表征出各个位点的位置信息且具有旋转不变性的位置特征,具有较高的特征表达能力。
306、终端将该至少一个位点的位置特征输入图卷积神经网络中的输入层,通过该输入层输出该至少一个位点的图数据,该图数据用于以图的形式表示位点的位置特征。
在本申请实施例中,以位点检测模型为图卷积神经网络为例进行说明,该图卷积神经网络包括输入层、至少一个边卷积(EdgeConv)层以及输出层,该输入层用于提取各个位点的图数据,该至少一个边卷积层用于提取各个位点的全局生物学特征,该输出层用于进行特征融合和概率预测。
在一些实施例中,该图卷积神经网络的输入层中可以包括多层感知器和池化层,终端可以将该至少一个位点的位置特征输入该输入层中的多层感知器,通过该多层感知器对该至少一个位点的位置特征进行映射,得到该至少一个位点的第一特征,该第一特征的维度大于该位置特征的维度,将该至少一个位点的第一特征输入该输入层中的池化层,通过该池化层对该至少一个位点的第一特征进行降维,得到该至少一个位点的图数据。
可选地,该池化层可以是最大池化层(max pooling layer),在最大池化层中对第一特征进行最大池化操作,也可以是均值池化层(average pooling layer),在均值池化层中对第一特征进行均值池化操作,本申请实施例不对池化层的类型进行具体限定。
在上述过程中,多层感知器将输入的位置特征映射到输出的第一特征,相当于对位置特征进行升维,提取出高维的第一特征,通过池化层对第一特征进行降维,相当于第一特征进行了过滤和选择,滤去了一些不重要的信息,得到图数据。
图5是本申请实施例提供的一种图卷积神经网络的原理性示意图,请参考图5,假设给定了一个蛋白质分子的[N×3]维的点云数据500,利用旋转不变表征提取器(类似步骤301)可以将点云数据转化为[N×K×11]维的旋转不变表征501,该旋转不变表征501也即各个位点的位置特征。而后利用多层感知器MLPs,在原始输入的[N×K×11]维的旋转不变表征501的基础上进一步地提取[N×K×32]维的第一特征502,并采用最大池化层对[N×K×32]维的第一特征502沿着K维的方向进行最大池化,可以将[N×K×32]维的第一特征502转化为[N×32]维的图数据503。
307、终端将至少一个位点的图数据输入该图卷积神经网络中的至少一个边卷积层,通过该至少一个边卷积层对该至少一个位点的图数据进行特征提取,得到该至少一个位点的全局生物学特征。
在一些实施例中,在提取全局生物学特征的过程中,终端可以执行下述子步骤3071-3074。
3071、对于该至少一个边卷积层中任一边卷积层,终端通过该边卷积层对上一边卷积层所输出的边卷积特征进行特征提取,将提取到的边卷积特征输入下一边卷积层。
在一些实施例中,每个边卷积层中均可以包括多层感知器和池化层,对于任一边卷积层,可以基于上一边卷积层所输出的边卷积特征构建聚类图;将该聚类图输入该边卷积层中的多层感知器,通过该多层感知器对该聚类图进行映射,得到该聚类图的中间特征;将该中间特征输入该边卷积层中的池化层,通过该池化层对该中间特征进行降维,将降维后的中间特征输入到下一边卷积层中。
在一些实施例中,在构建聚类图的过程中,可以对上一卷积层所输出的边卷积特征通过KNN(k-Nearest Neighbor最近邻)算法构建聚类图,此时构建出的聚类图也可以称为KNN图,当然,也可以利用K均值算法构建聚类图,本申请实施例不对构建聚类图的方法进行具体限定。
在一些实施例中,该池化层可以是最大池化层(max pooling layer),在最大池化层中对中间特征进行最大池化操作,也可以是均值池化层(average pooling layer),在均值池化层中对中间特征进行均值池化操作,本申请实施例不对池化层的类型进行具体限定。
图6是本申请实施例提供的一种边卷积层的结构示意图,请参考图6,在任一边卷积层中,对于上一卷积层所输出的[N×C]维的边卷积特征601,通过KNN算法建立聚类图(KNN图),利用多层感知器MLPs对聚类图进行高维特征的提取,能够将[N×C]维的边卷积特征601映射为[N×K×C’]维的中间特征602,利用池化层对[N×K×C’]维的中间特征602进行降维,得到[N×C’]维的边卷积特征603(降维后的中间特征),将[N×C’]维的边卷积特征603输入到下一边卷积层中。
在上述过程中,终端对至少一个边卷积层中每个边卷积层均执行上述操作,上一边卷积层输出的边卷积特征作为下一边卷积层的输入,从而通过该至少一个边卷积层,相当于对该至少一个位点的图数据进行了一系列更高维度的特征提取。
在一个示例中,请参考图5,以图卷积神经网络中包括2个边卷积层为例,终端将[N×32]维的图数据503输入到第一个边卷积层中,通过第一个边卷积层输出[N×64]维的边卷积特征504,终端将[N×64]维的边卷积特征504输入到第二个边卷积层中,通过第二个边卷积层输出[N×128]维的边卷积特征505,执行下述步骤3072。
3072、终端将该至少一个位点的图数据以及该至少一个边卷积层所输出的至少一个边卷积特征进行拼接,得到第二特征。
在上述过程中,终端对各个位点的图数据以及每个边卷积层所输出的边卷积层特征进行拼接,得到第二特征,该第二特征相当于该至少一个边卷积层的残差特征,从而能够在提取全局生物学特征的过程中,不仅考虑到最后一个边卷积层所输出的边卷积特征,而且能够考虑到最初输入的各个位点的图数据以及中间的每个边卷积层所输出的边卷积特征,有利于提升全局生物学特征的表达能力。
需要说明的是,这里所说的拼接是指将各个边卷积层所输出的边卷积特征直接在维度上相连,例如,假设边卷积层个数为1,那么将[N×32]维的图数据和[N×64]维的边卷积特征进行拼接,可以得到[N×96]维的第二特征。
在一个示例中,请参考图5,以图卷积神经网络中包括2个边卷积层为例,终端将[N×32]维的图数据503、第一个边卷积层输出的[N×64]维的边卷积特征504以及第二个边卷积层输出的[N×128]维的边卷积特征505进行拼接,可以得到[N×224]维的第二特征。
3073、终端将该第二特征输入多层感知器,通过该多层感知器对该第二特征进行映射,得到第三特征。
在上述过程中,终端通过多层感知器进行特征映射的过程,与前述各个步骤中通过多层感知器进行特征映射的过程类似,这里不做赘述。
3074、终端将该第三特征输入池化层,通过该池化层对该第三特征进行降维,得到全局生物学特征。
在一些实施例中,该池化层可以是最大池化层(max pooling layer),在最大池化层中对第三特征进行最大池化操作,也可以是均值池化层(average pooling layer),在均值池化层中对第三特征进行均值池化操作,本申请实施例不对池化层的类型进行具体限定。
在一个示例中,请参考图5,将[N×224]维的第二特征依次输入多层感知器MLPs和最大池化层,可以得到一个蛋白质点云的[1×1024]维的全局生物学特征506,执行下述步骤308。
308、终端将该全局生物学特征、该至少一个位点的图数据以及该至少一个边卷积层所输出的边卷积特征进行融合,将融合得到的特征输入该图卷积神经网络的输出层,通过该输出层对该融合得到的特征进行概率拟合,得到至少一个预测概率。
其中,一个预测概率用于表征一个位点属于结合位点的可能性。
在一些实施例中,在对融合得到的特征进行概率拟合的过程中,可以将融合得到的特征输入该输出层中的多层感知器,通过该多层感知器对该融合得到的特征进行映射,得到该至少一个预测概率。多层感知器的映射过程与前述各个步骤中多层感知器的映射过程类似,这里不做赘述。
在上述过程中,终端对全局生物学特征、各个位点的图数据以及各个边卷积层输出的边卷积特征进行融合,最终利用多层感知器对融合得到的特征进行概率拟合,拟合出每个位点属于结合位点的预测概率,可选地,上述融合过程可以是直接将全局生物学特征、各个位点的图数据以及各个边卷积层输出的边卷积特征进行拼接。
在一个示例中,请参考图5,以图卷积神经网络中包括2个边卷积层为例,终端将[N×32]维的图数据503、第一个边卷积层输出的[N×64]维的边卷积特征504、第二个边卷积层输出的[N×128]维的边卷积特征505以及[1×1024]维的全局生物学特征506进行拼接,可以得到一个[1×1248]维的融合特征507,将[1×1248]维的融合特征507输入到多层感知器MLPs中,利用多层感知器MLPs对每个位点都拟合该位点属于结合位点的预测概率,最终输出的检测结果可以是一个[N×1]维的数组508,数组508中每个值代表了一个位点属于结合位点的预测概率。在上述过程中,由于需要预测输入的蛋白质分子中每个位点是否为结合位点,因此可以将这一任务视为逐点分割任务。
在上述步骤306-308中,以位点检测模型为图卷积神经网络为例,示出了终端调用位点检测模型对提取到的位置特征进行预测处理,以得到该至少一个位点的至少一个预测概率的过程,在一些实施例中该位点检测模型也可以是其他的深度学习网络,本申请实施例不对位点检测模型的类型进行具体限定。
309、终端基于该至少一个预测概率,确定该目标分子中该至少一个位点内的结合位点。
在上述过程中,终端可以从该至少一个位点中,将预测概率大于概率阈值的位点确定为结合位点,或者,终端可以按照预测概率从大到小的顺序对位点进行排序,将排序位于前目标数量的位点确定为结合位点。
其中,该概率阈值可以是任一大于或等于0且小于或等于1的数值,该目标数量可以是任一大于或等于1的整数。例如,当目标数量为3时,电子设备按照预测概率从大到小的顺序对位点进行排序,将排序位于前3的位点确定为结合位点。
本申请实施例提供的方法,通过获取目标分子中各个位点的三维坐标,确定出各个位点分别对应的第一目标点和第二目标点,基于各个位点、各个第一目标点和各个第二目标点的三维坐标,提取出各个位点的三维坐标中具有旋转不变特性的位置特征,调用位点检测模型对提取到的位置特征进行预测,得到各个位点是否属于结合位点的预测概率,从而基于预测概率确定出目标分子的结合位点,由于第一目标点和第二目标点是与各个位点相关的且具有一定空间代表性的点,因此借助各个位点、各个第一目标点和各个第二目标点的三维坐标,可以构造出能够全面体现出目标分子细节结构的、具有旋转不变特性的位置特征,从而避免了为目标分子设计体素特征所带来的细节损失,使得基于位置特征进行结合位点检测时,能够充分利用目标分子的细节结构的位置信息,提升了分子结合位点检测过程的准确性。
在本申请实施例中,利用了深度学习中图卷积神经网络的强大性能来提取蛋白质分子的生物学特征,而并非是由技术人员人工设计一个体素特征作为生物学特征,能够获取到具有更高表达能力的生物学特征,从而达到更好的结合位点的识别准确率,并且,通过GPU(Graphics Processing Unit,图像处理器)即可完成结合位点的预测工作,能够达到实时检测的要求,并且,由于各个位点的位置特征具有旋转不变性,因此即使在蛋白质分子发生旋转的情况下,依然能够通过图卷积神经网络产生稳定的预测结果,提升了整个结合位点检测过程的准确率、平稳性。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图7是本申请实施例提供的一种分子结合位点检测装置的结构示意图,请参考图7,该装置包括获取模块701、第一确定模块702、提取模块703、预测模块704和第二确定模块705。
获取模块701,用于获取待检测的目标分子中至少一个位点的三维坐标,该目标分子为待检测结合位点的化学分子;
第一确定模块702,用于确定该至少一个位点分别对应的至少一个第一目标点和至少一个第二目标点,其中,任一个位点的第一目标点为以该位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,任一个位点的第二目标点为以原点为起点、指向该位点的向量的正向延长线与该球形空间的外表面的交点;
提取模块703,用于基于该至少一个位点、该至少一个第一目标点以及该至少一个第二目标点的三维坐标,提取该至少一个位点的三维坐标中具有旋转不变特性的位置特征,该位置特征用于表征该至少一个位点在该目标分子中所处的位置信息;
预测模块704,用于调用位点检测模型对提取到的该位置特征进行预测处理,以得到该至少一个位点的至少一个预测概率,其中,一个预测概率用于表征一个位点属于结合位点的可能性;
第二确定模块705,用于基于该至少一个预测概率,确定该目标分子中该至少一个位点内的结合位点。
本申请实施例提供的装置,通过获取目标分子中各个位点的三维坐标,确定出各个位点分别对应的第一目标点和第二目标点,基于各个位点、各个第一目标点和各个第二目标点的三维坐标,提取出各个位点的三维坐标中具有旋转不变特性的位置特征,调用位点检测模型对提取到的位置特征进行预测,得到各个位点是否属于结合位点的预测概率,从而基于预测概率确定出目标分子的结合位点,由于第一目标点和第二目标点是与各个位点相关的且具有一定空间代表性的点,因此借助各个位点、各个第一目标点和各个第二目标点的三维坐标,可以构造出能够全面体现出目标分子细节结构的、具有旋转不变特性的位置特征,从而避免了为目标分子设计体素特征所带来的细节损失,使得基于位置特征进行结合位点检测时,能够充分利用目标分子的细节结构的位置信息,提升了分子结合位点检测过程的准确性。
在一种可能实施方式中,基于图7的装置组成,该提取模块703包括:
提取单元,用于对于该至少一个位点中任一位点,基于该位点、该位点对应的第一目标点以及该位点对应的第二目标点的三维坐标,提取该位点的三维坐标中具有旋转不变特性的位置特征。
在一种可能实施方式中,该提取单元用于:
基于该位点、该第一目标点以及该第二目标点的三维坐标,构建该位点的全局位置特征,该全局位置特征用于表征该位点在目标分子内所处的空间位置信息;
基于该位点、该第一目标点、该第二目标点以及该位点的至少一个邻域点的三维坐标,构建该位点与该至少一个邻域点之间的至少一个局部位置特征,一个局部位置特征用于表征该位点与一个邻域点之间的相对位置信息;
基于该全局位置特征和该至少一个局部位置特征,获取该位点的位置特征。
在一种可能实施方式中,该全局位置特征包括:该位点的模长、该位点与该第一目标点之间的距离、该第一目标点与该第二目标点之间的距离、第一夹角的余弦值或者第二夹角的余弦值中至少一项,其中,该第一夹角为第一线段与第二线段之间所构成的夹角,该第二夹角为该第二线段与第三线段之间所构成的夹角,该第一线段为该位点与该第一目标点之间所构成的线段,该第二线段为该第一目标点与该第二目标点之间所构成的线段,该第三线段为该位点与该第二目标点之间所构成的线段。
在一种可能实施方式中,对于该至少一个邻域点中任一邻域点,该位点与该邻域点之间的局部位置特征包括:该邻域点与该位点之间的距离、该邻域点与该第一目标点之间的距离、该邻域点与该第二目标点之间的距离、第三夹角的余弦值、第四夹角的余弦值或者第五夹角的余弦值中至少一项,其中,该第三夹角为第四线段与第五线段之间所构成的夹角,该第四夹角为该第五线段与第六线段之间所构成的夹角,该第五夹角为该第六线段与该第四线段之间所构成的夹角,该第四线段为该邻域点与该位点之间所构成的线段,该第五线段为该邻域点与该第一目标点之间所构成的线段,该第六线段为该邻域点与该第二目标点之间所构成的线段。
在一种可能实施方式中,该位点检测模型为图卷积神经网络,该图卷积神经网络包括输入层、至少一个边卷积层以及输出层;
基于图7的装置组成,该预测模块704包括:
输入输出单元,用于将该至少一个位点的位置特征输入图卷积神经网络中的输入层,通过该输入层输出该至少一个位点的图数据,该图数据用于以图的形式表示位点的位置特征;
特征提取单元,用于将至少一个位点的图数据输入该图卷积神经网络中的至少一个边卷积层,通过该至少一个边卷积层对该至少一个位点的图数据进行特征提取,得到该至少一个位点的全局生物学特征;
概率拟合单元,用于将该全局生物学特征、该至少一个位点的图数据以及该至少一个边卷积层所输出的边卷积特征进行融合,将融合得到的特征输入该图卷积神经网络的输出层,通过该输出层对该融合得到的特征进行概率拟合,得到该至少一个预测概率。
在一种可能实施方式中,该输入输出单元用于:
将该至少一个位点的位置特征输入该输入层中的多层感知器,通过该多层感知器对该至少一个位点的位置特征进行映射,得到该至少一个位点的第一特征,该第一特征的维度大于该位置特征的维度;
将该至少一个位点的第一特征输入该输入层中的池化层,通过该池化层对该至少一个位点的第一特征进行降维,得到该至少一个位点的图数据。
在一种可能实施方式中,基于图7的装置组成,该特征提取单元包括:
提取输入子单元,用于对于该至少一个边卷积层中任一边卷积层,对上一边卷积层所输出的边卷积特征进行特征提取,将提取到的边卷积特征输入下一边卷积层;
拼接子单元,用于将该至少一个位点的图数据以及该至少一个边卷积层所输出的至少一个边卷积特征进行拼接,得到第二特征;
映射子单元,用于将该第二特征输入多层感知器,通过该多层感知器对该第二特征进行映射,得到第三特征;
降维子单元,用于将该第三特征输入池化层,通过该池化层对该第三特征进行降维,得到该全局生物学特征。
在一种可能实施方式中,该提取输入子单元用于:
对于该至少一个边卷积层中任一边卷积层,基于上一边卷积层所输出的边卷积特征构建聚类图;
将该聚类图输入该边卷积层中的多层感知器,通过该多层感知器对该聚类图进行映射,得到该聚类图的中间特征;
将该中间特征输入该边卷积层中的池化层,通过该池化层对该中间特征进行降维,将降维后的中间特征输入到下一边卷积层中。
在一种可能实施方式中,该概率拟合单元用于:
将融合得到的特征输入该输出层中的多层感知器,通过该多层感知器对该融合得到的特征进行映射,得到该至少一个预测概率。
在一种可能实施方式中,该第二确定模块705用于:
从该至少一个位点中,将预测概率大于概率阈值的位点确定为结合位点。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的分子结合位点检测装置在检测目标分子的结合位点时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分子结合位点检测装置与分子结合位点检测方法实施例属于同一构思,其具体实现过程详见分子结合位点检测方法实施例,这里不再赘述。
图8是本申请实施例提供的一种电子设备的结构示意图。请参考图8,以电子设备为终端800为例进行说明,该终端800可以是:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中各个实施例提供的分子结合位点检测方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时,由处理器801根据用户对触摸显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中分子结合位点检测方法。例如,该计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory,只读光盘)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (24)

1.一种分子结合位点检测方法,其特征在于,所述方法包括:
获取待检测的目标分子中至少一个位点的三维坐标,所述目标分子为待检测结合位点的化学分子;
确定所述至少一个位点分别对应的至少一个第一目标点和至少一个第二目标点,其中,任一个位点的第一目标点为以所述位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,任一个位点的第二目标点为以原点为起点、指向所述位点的向量的正向延长线与所述球形空间的外表面的交点;
基于所述至少一个位点、所述至少一个第一目标点以及所述至少一个第二目标点的三维坐标,提取所述至少一个位点的三维坐标中具有旋转不变特性的位置特征,所述位置特征用于表征所述至少一个位点在所述目标分子中所处的位置信息;
调用位点检测模型对提取到的所述位置特征进行预测处理,以得到所述至少一个位点的至少一个预测概率,其中,一个预测概率用于表征一个位点属于结合位点的可能性;
基于所述至少一个预测概率,确定所述目标分子中所述至少一个位点内的结合位点。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个位点、所述至少一个第一目标点以及所述至少一个第二目标点的三维坐标,提取所述至少一个位点的三维坐标中具有旋转不变特性的位置特征包括:
对于所述至少一个位点中任一位点,基于所述位点、所述位点对应的第一目标点以及所述位点对应的第二目标点的三维坐标,提取所述位点的三维坐标中具有旋转不变特性的位置特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述位点、所述位点对应的第一目标点以及所述位点对应的第二目标点的三维坐标,提取所述位点的三维坐标中具有旋转不变特性的位置特征包括:
基于所述位点、所述第一目标点以及所述第二目标点的三维坐标,构建所述位点的全局位置特征,所述全局位置特征用于表征所述位点在目标分子内所处的空间位置信息;
基于所述位点、所述第一目标点、所述第二目标点以及所述位点的至少一个邻域点的三维坐标,构建所述位点与所述至少一个邻域点之间的至少一个局部位置特征,一个局部位置特征用于表征所述位点与一个邻域点之间的相对位置信息;
基于所述全局位置特征和所述至少一个局部位置特征,获取所述位点的三维坐标中具有旋转不变特性的位置特征。
4.根据权利要求3所述的方法,其特征在于,所述全局位置特征包括:所述位点的模长、所述位点与所述第一目标点之间的距离、所述第一目标点与所述第二目标点之间的距离、第一夹角的余弦值或者第二夹角的余弦值中至少一项,其中,所述第一夹角为第一线段与第二线段之间所构成的夹角,所述第二夹角为所述第二线段与第三线段之间所构成的夹角,所述第一线段为所述位点与所述第一目标点之间所构成的线段,所述第二线段为所述第一目标点与所述第二目标点之间所构成的线段,所述第三线段为所述位点与所述第二目标点之间所构成的线段。
5.根据权利要求3所述的方法,其特征在于,对于所述至少一个邻域点中任一邻域点,所述位点与所述邻域点之间的局部位置特征包括:所述邻域点与所述位点之间的距离、所述邻域点与所述第一目标点之间的距离、所述邻域点与所述第二目标点之间的距离、第三夹角的余弦值、第四夹角的余弦值或者第五夹角的余弦值中至少一项,其中,所述第三夹角为第四线段与第五线段之间所构成的夹角,所述第四夹角为所述第五线段与第六线段之间所构成的夹角,所述第五夹角为所述第六线段与所述第四线段之间所构成的夹角,所述第四线段为所述邻域点与所述位点之间所构成的线段,所述第五线段为所述邻域点与所述第一目标点之间所构成的线段,所述第六线段为所述邻域点与所述第二目标点之间所构成的线段。
6.根据权利要求1所述的方法,其特征在于,所述位点检测模型为图卷积神经网络,所述图卷积神经网络包括输入层、至少一个边卷积层以及输出层;
所述调用位点检测模型对提取到的所述位置特征进行预测处理,以得到所述至少一个位点的至少一个预测概率包括:
将所述至少一个位点的位置特征输入图卷积神经网络中的输入层,通过所述输入层输出所述至少一个位点的图数据,所述图数据用于以图的形式表示位点的位置特征;
将至少一个位点的图数据输入所述图卷积神经网络中的至少一个边卷积层,通过所述至少一个边卷积层对所述至少一个位点的图数据进行特征提取,得到所述至少一个位点的全局生物学特征;
将所述全局生物学特征、所述至少一个位点的图数据以及所述至少一个边卷积层所输出的边卷积特征进行融合,将融合得到的特征输入所述图卷积神经网络的输出层,通过所述输出层对所述融合得到的特征进行概率拟合,得到所述至少一个预测概率。
7.根据权利要求6所述的方法,其特征在于,所述将所述至少一个位点的位置特征输入图卷积神经网络中的输入层,通过所述输入层输出所述至少一个位点的图数据包括:
将所述至少一个位点的位置特征输入所述输入层中的多层感知器,通过所述多层感知器对所述至少一个位点的位置特征进行映射,得到所述至少一个位点的第一特征,所述第一特征的维度大于所述位置特征的维度;
将所述至少一个位点的第一特征输入所述输入层中的池化层,通过所述池化层对所述至少一个位点的第一特征进行降维,得到所述至少一个位点的图数据。
8.根据权利要求6所述的方法,其特征在于,所述通过所述至少一个边卷积层对所述至少一个位点的图数据进行特征提取,得到所述至少一个位点的全局生物学特征包括:
对于所述至少一个边卷积层中任一边卷积层,对上一边卷积层所输出的边卷积特征进行特征提取,将提取到的边卷积特征输入下一边卷积层;
将所述至少一个位点的图数据以及所述至少一个边卷积层所输出的至少一个边卷积特征进行拼接,得到第二特征;
将所述第二特征输入多层感知器,通过所述多层感知器对所述第二特征进行映射,得到第三特征;
将所述第三特征输入池化层,通过所述池化层对所述第三特征进行降维,得到所述全局生物学特征。
9.根据权利要求8所述的方法,其特征在于,所述对于所述至少一个边卷积层中任一边卷积层,对上一边卷积层所输出的边卷积特征进行特征提取,将提取到的边卷积特征输入下一边卷积层包括:
对于所述至少一个边卷积层中任一边卷积层,基于上一边卷积层所输出的边卷积特征构建聚类图;
将所述聚类图输入所述边卷积层中的多层感知器,通过所述多层感知器对所述聚类图进行映射,得到所述聚类图的中间特征;
将所述中间特征输入所述边卷积层中的池化层,通过所述池化层对所述中间特征进行降维,将降维后的中间特征输入到下一边卷积层中。
10.根据权利要求6所述的方法,其特征在于,所述将融合得到的特征输入所述图卷积神经网络的输出层,通过所述输出层对所述融合得到的特征进行概率拟合,得到所述至少一个预测概率包括:
将融合得到的特征输入所述输出层中的多层感知器,通过所述多层感知器对所述融合得到的特征进行映射,得到所述至少一个预测概率。
11.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个预测概率,确定所述目标分子中所述至少一个位点内的结合位点包括:
从所述至少一个位点中,将预测概率大于概率阈值的位点确定为结合位点。
12.一种分子结合位点检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测的目标分子中至少一个位点的三维坐标,所述目标分子为待检测结合位点的化学分子;
第一确定模块,用于确定所述至少一个位点分别对应的至少一个第一目标点和至少一个第二目标点,其中,任一个位点的第一目标点为以所述位点为球心、以目标长度为半径的球形空间内所包括的所有位点的中心点,任一个位点的第二目标点为以原点为起点、指向所述位点的向量的正向延长线与所述球形空间的外表面的交点;
提取模块,用于基于所述至少一个位点、所述至少一个第一目标点以及所述至少一个第二目标点的三维坐标,提取所述至少一个位点的三维坐标中具有旋转不变特性的位置特征,所述位置特征用于表征所述至少一个位点在所述目标分子中所处的位置信息;
预测模块,用于调用位点检测模型对提取到的所述位置特征进行预测处理,以得到所述至少一个位点的至少一个预测概率,其中,一个预测概率用于表征一个位点属于结合位点的可能性;
第二确定模块,用于基于所述至少一个预测概率,确定所述目标分子中所述至少一个位点内的结合位点。
13.根据权利要求12所述的装置,其特征在于,所述提取模块包括:
提取单元,用于对于所述至少一个位点中任一位点,基于所述位点、所述位点对应的第一目标点以及所述位点对应的第二目标点的三维坐标,提取所述位点的三维坐标中具有旋转不变特性的位置特征。
14.根据权利要求13所述的装置,其特征在于,所述提取单元用于:
基于所述位点、所述第一目标点以及所述第二目标点的三维坐标,构建所述位点的全局位置特征,所述全局位置特征用于表征所述位点在目标分子内所处的空间位置信息;
基于所述位点、所述第一目标点、所述第二目标点以及所述位点的至少一个邻域点的三维坐标,构建所述位点与所述至少一个邻域点之间的至少一个局部位置特征,一个局部位置特征用于表征所述位点与一个邻域点之间的相对位置信息;
基于所述全局位置特征和所述至少一个局部位置特征,获取所述位点的三维坐标中具有旋转不变特性的位置特征。
15.根据权利要求14所述的装置,其特征在于,所述全局位置特征包括:所述位点的模长、所述位点与所述第一目标点之间的距离、所述第一目标点与所述第二目标点之间的距离、第一夹角的余弦值或者第二夹角的余弦值中至少一项,其中,所述第一夹角为第一线段与第二线段之间所构成的夹角,所述第二夹角为所述第二线段与第三线段之间所构成的夹角,所述第一线段为所述位点与所述第一目标点之间所构成的线段,所述第二线段为所述第一目标点与所述第二目标点之间所构成的线段,所述第三线段为所述位点与所述第二目标点之间所构成的线段。
16.根据权利要求14所述的装置,其特征在于,对于所述至少一个邻域点中任一邻域点,所述位点与所述邻域点之间的局部位置特征包括:所述邻域点与所述位点之间的距离、所述邻域点与所述第一目标点之间的距离、所述邻域点与所述第二目标点之间的距离、第三夹角的余弦值、第四夹角的余弦值或者第五夹角的余弦值中至少一项,其中,所述第三夹角为第四线段与第五线段之间所构成的夹角,所述第四夹角为所述第五线段与第六线段之间所构成的夹角,所述第五夹角为所述第六线段与所述第四线段之间所构成的夹角,所述第四线段为所述邻域点与所述位点之间所构成的线段,所述第五线段为所述邻域点与所述第一目标点之间所构成的线段,所述第六线段为所述邻域点与所述第二目标点之间所构成的线段。
17.根据权利要求12所述的装置,其特征在于,所述位点检测模型为图卷积神经网络,所述图卷积神经网络包括输入层、至少一个边卷积层以及输出层;
所述预测模块包括:
输入输出单元,用于将所述至少一个位点的位置特征输入图卷积神经网络中的输入层,通过所述输入层输出所述至少一个位点的图数据,所述图数据用于以图的形式表示位点的位置特征;
特征提取单元,用于将至少一个位点的图数据输入所述图卷积神经网络中的至少一个边卷积层,通过所述至少一个边卷积层对所述至少一个位点的图数据进行特征提取,得到所述至少一个位点的全局生物学特征;
概率拟合单元,用于将所述全局生物学特征、所述至少一个位点的图数据以及所述至少一个边卷积层所输出的边卷积特征进行融合,将融合得到的特征输入所述图卷积神经网络的输出层,通过所述输出层对所述融合得到的特征进行概率拟合,得到所述至少一个预测概率。
18.根据权利要求17所述的装置,其特征在于,所述输入输出单元用于:
将所述至少一个位点的位置特征输入所述输入层中的多层感知器,通过所述多层感知器对所述至少一个位点的位置特征进行映射,得到所述至少一个位点的第一特征,所述第一特征的维度大于所述位置特征的维度;
将所述至少一个位点的第一特征输入所述输入层中的池化层,通过所述池化层对所述至少一个位点的第一特征进行降维,得到所述至少一个位点的图数据。
19.根据权利要求17所述的装置,其特征在于,所述特征提取单元包括:
提取输入子单元,用于对于所述至少一个边卷积层中任一边卷积层,对上一边卷积层所输出的边卷积特征进行特征提取,将提取到的边卷积特征输入下一边卷积层;
拼接子单元,用于将所述至少一个位点的图数据以及所述至少一个边卷积层所输出的至少一个边卷积特征进行拼接,得到第二特征;
映射子单元,用于将所述第二特征输入多层感知器,通过所述多层感知器对所述第二特征进行映射,得到第三特征;
降维子单元,用于将所述第三特征输入池化层,通过所述池化层对所述第三特征进行降维,得到所述全局生物学特征。
20.根据权利要求19所述的装置,其特征在于,所述提取输入子单元用于:
对于所述至少一个边卷积层中任一边卷积层,基于上一边卷积层所输出的边卷积特征构建聚类图;
将所述聚类图输入所述边卷积层中的多层感知器,通过所述多层感知器对所述聚类图进行映射,得到所述聚类图的中间特征;
将所述中间特征输入所述边卷积层中的池化层,通过所述池化层对所述中间特征进行降维,将降维后的中间特征输入到下一边卷积层中。
21.根据权利要求17所述的装置,其特征在于,所述概率拟合单元用于:
将融合得到的特征输入所述输出层中的多层感知器,通过所述多层感知器对所述融合得到的特征进行映射,得到所述至少一个预测概率。
22.根据权利要求12所述的装置,其特征在于,所述第二确定模块用于:
从所述至少一个位点中,将预测概率大于概率阈值的位点确定为结合位点。
23.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的分子结合位点检测方法所执行的操作。
24.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的分子结合位点检测方法所执行的操作。
CN202010272124.0A 2020-04-09 2020-04-09 分子结合位点检测方法、装置、电子设备及存储介质 Active CN111243668B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010272124.0A CN111243668B (zh) 2020-04-09 2020-04-09 分子结合位点检测方法、装置、电子设备及存储介质
KR1020217028480A KR102635777B1 (ko) 2020-04-09 2021-02-26 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체
PCT/CN2021/078263 WO2021203865A1 (zh) 2020-04-09 2021-02-26 分子结合位点检测方法、装置、电子设备及存储介质
JP2021545445A JP7246813B2 (ja) 2020-04-09 2021-02-26 分子結合部位検出方法、装置、電子機器及びコンピュータプログラム
EP21759220.3A EP3920188A4 (en) 2020-04-09 2021-02-26 METHOD AND DEVICE FOR DETECTING A MOLECULAR BINDING SITE, ELECTRONIC DEVICE AND STORAGE MEDIUM
US17/518,953 US20220059186A1 (en) 2020-04-09 2021-11-04 Method and apparatus for detecting molecule binding site, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010272124.0A CN111243668B (zh) 2020-04-09 2020-04-09 分子结合位点检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111243668A CN111243668A (zh) 2020-06-05
CN111243668B true CN111243668B (zh) 2020-08-07

Family

ID=70864447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010272124.0A Active CN111243668B (zh) 2020-04-09 2020-04-09 分子结合位点检测方法、装置、电子设备及存储介质

Country Status (6)

Country Link
US (1) US20220059186A1 (zh)
EP (1) EP3920188A4 (zh)
JP (1) JP7246813B2 (zh)
KR (1) KR102635777B1 (zh)
CN (1) CN111243668B (zh)
WO (1) WO2021203865A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243668B (zh) * 2020-04-09 2020-08-07 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质
CN111755065B (zh) * 2020-06-15 2024-05-17 重庆邮电大学 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法
RU2743316C1 (ru) * 2020-08-14 2021-02-17 Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий Способ идентификации участков связывания белковых комплексов
CN114120006B (zh) * 2020-08-28 2024-02-06 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
US11860977B1 (en) * 2021-05-04 2024-01-02 Amazon Technologies, Inc. Hierarchical graph neural networks for visual clustering
CN113593634B (zh) * 2021-08-06 2022-03-11 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114066888B (zh) * 2022-01-11 2022-04-19 浙江大学 一种血流动力学指标确定方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105358158A (zh) * 2013-04-29 2016-02-24 纪念斯隆-凯特琳癌症中心 用于改变第二信使信号传导的组合物和方法
CN108875298A (zh) * 2018-06-07 2018-11-23 北京计算科学研究中心 基于分子形状匹配的药物筛选方法
CN109637596A (zh) * 2018-12-18 2019-04-16 广州市爱菩新医药科技有限公司 一种药物靶点预测方法
CN110544506A (zh) * 2019-08-27 2019-12-06 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110910951A (zh) * 2019-11-19 2020-03-24 江苏理工学院 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7048065B2 (ja) * 2017-08-02 2022-04-05 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法
US11830582B2 (en) * 2018-06-14 2023-11-28 University Of Miami Methods of designing novel antibody mimetics for use in detecting antigens and as therapeutic agents
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
CN110706738B (zh) * 2019-10-30 2020-11-20 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN111243668B (zh) * 2020-04-09 2020-08-07 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105358158A (zh) * 2013-04-29 2016-02-24 纪念斯隆-凯特琳癌症中心 用于改变第二信使信号传导的组合物和方法
CN108875298A (zh) * 2018-06-07 2018-11-23 北京计算科学研究中心 基于分子形状匹配的药物筛选方法
CN109637596A (zh) * 2018-12-18 2019-04-16 广州市爱菩新医药科技有限公司 一种药物靶点预测方法
CN110544506A (zh) * 2019-08-27 2019-12-06 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110910951A (zh) * 2019-11-19 2020-03-24 江苏理工学院 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
StackCBPred: A stacking based prediction of protein-carbohydrate binding sites from sequence;SurajGattani 等;《Carbohydrate Research》;20191201;第486卷;第1-5页 *
蛋白质功能位点预测方法研究;李慧;《中国博士学位论文全文数据库基础科学辑》;20190115(第01期);第A006-107页 *

Also Published As

Publication number Publication date
WO2021203865A1 (zh) 2021-10-14
US20220059186A1 (en) 2022-02-24
EP3920188A1 (en) 2021-12-08
WO2021203865A9 (zh) 2021-11-25
JP2022532009A (ja) 2022-07-13
EP3920188A4 (en) 2022-06-15
JP7246813B2 (ja) 2023-03-28
KR102635777B1 (ko) 2024-02-08
KR20210126646A (ko) 2021-10-20
CN111243668A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN110807361B (zh) 人体识别方法、装置、计算机设备及存储介质
CN111931877B (zh) 目标检测方法、装置、设备及存储介质
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
CN111091166A (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN113505256B (zh) 特征提取网络训练方法、图像处理方法及装置
CN111192262A (zh) 基于人工智能的产品缺陷分类方法、装置、设备及介质
CN112036331A (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN111753498A (zh) 文本处理方法、装置、设备及存储介质
CN110942046A (zh) 图像检索方法、装置、设备及存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN113392180A (zh) 文本处理方法、装置、设备及存储介质
CN115170896A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN112818979B (zh) 文本识别方法、装置、设备及存储介质
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN112527104A (zh) 确定参数确定方法、装置、设备及存储介质
CN115168643B (zh) 音频处理方法、装置、设备及计算机可读存储介质
CN113822916B (zh) 图像匹配方法、装置、设备及可读存储介质
CN117009878A (zh) 基于超图的分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025288

Country of ref document: HK