CN116913395B

CN116913395B - 一种构建小分子肽数据库的数字化方法

Info

Publication number: CN116913395B
Application number: CN202311175080.XA
Authority: CN
Inventors: 杨敏祺; 王福芳; 郑炯; 亢庆铮; 张凤艳; 刘红霞; 张亮; 黄海; 栾春红; 宫俊; 王�琦; 李振海; 王泽宁
Original assignee: Qingdao Hongzhu Biotechnology Co ltd
Current assignee: Qingdao Hongzhu Biotechnology Co ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-11-28
Anticipated expiration: 2043-09-13
Also published as: CN116913395A

Abstract

本发明涉及数据处理技术领域，具体涉及一种构建小分子肽数据库的数字化方法，包括：获得小分子肽的化学结构与属性特征数据；通过分子‑基序异构图神经网络对小分子肽的结构进行拆分，根据拆分后的基序获得小分子肽的结构相似性；对小分子肽的属性数据进行分析，获得小分子肽的属性特征相似性；根据获得的属性特征相似性通过聚类算法获得不同的聚类簇，根据聚类簇中小分子肽的相似关系获得每一聚类簇的特征值，然后构建小分子肽数据库。从而完成小分子肽数据库的数字化构建。

Description

一种构建小分子肽数据库的数字化方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种构建小分子肽数据库的数字化方法。

背景技术

构建小分子肽数据库的意义在于收集、整理和存储关于小分子肽的相关信息，为研究人员提供便捷的访问和查询平台。研究人员可以更好地了解和研究小分子肽的结构、功能和相互作用等方面的信息，可以在数据库中搜索和浏览已有的小分子肽数据，了解它们的结构、活性、毒性等特性，从而更好地设计实验和开展研究。因为小分子肽具有广泛的应用潜力，包括药物发现和设计，构建小分子肽数据库可以为药物研发人员提供宝贵的信息资源，帮助他们更好地了解已有的小分子肽药物、活性片段等，通过将小分子肽的结构数据与其功能和活性信息相结合，构建小分子肽数据库可以促进结构与功能之间的关联研究。从而加速新药物的发现和设计过程。

在现有技术中，构建数据库时，通过描述数据之间的关系，根据需求进行规范化和优化，包括确定实体、属性、关系和约束条件，用于构建数据库表结构。但是在本发明中，因为是对小分子肽构建数据库，目的是为了通过对比现有小分子肽的化学结构与性质，了解它们的结构、活性、毒性等特性，从而更好地设计实验和开展研究。因此需要根据小分子肽的化学结构与属性之间的关系来构建数据库，从而能够便于找寻不同小分子肽之间的关系。

发明内容

本发明提供一种构建小分子肽数据库的数字化方法，以解决现有的问题。

本发明的一种构建小分子肽数据库的数字化方法采用如下技术方案：

本发明一个实施例提供了一种构建小分子肽数据库的数字化方法，该方法包括以下步骤：

一种构建小分子肽数据库的数字化方法，该方法包括以下步骤：

采集所有已知小分子肽的化学结构与属性特征；

根据小分子肽的化学结构获得每一种小分子肽的基序；

根据获得的所有小分子肽的基序，对小分子肽的基序进行分析，获得任意两种小分子肽的结构相似性；

根据任意两种小分子肽的结构相似性、任意两种小分子肽相同属性特征的数量获得任意两种小分子肽的属性特征相似性；

根据获得的小分子肽属性特征相似性，获得多个数据模块；根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值，记为第一特征值，将新的小分子肽分别加入到每个数据模块，重新计算每个数据模块的特征值，记为第二特征值，根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块。

优选的，所述属性特征包含：酸碱性、发生反应时所需要的酶、温度、熔点、沸点、亲水性。

优选的，所述根据小分子肽的化学结构获得每一种小分子肽的基序，包括的具体步骤如下：

通过分子-基序异构图神经网络对小分子肽的化学结构进行基序提取得到小分子肽的基序，所述基序包括分子中的化学键和环结构。

优选的，所述获得任意两种小分子肽的结构相似性，包括的具体步骤如下：

将第个小分子含有的氨基酸的个数记为/>，将第/>个小分子含有的氨基酸的个数记为/>，将第/>种小分子肽基序的数量记为/>，将第/>种小分子肽基序的数量记为/>，根据/>与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性。

优选的，所述根据与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性。包括的具体步骤如下：

式中，表示第/>种小分子肽与第/>种小分子肽的结构相似性，/>表示第/>种小分子肽与第/>种小分子肽相同基序的数量，/>表示第/>种小分子肽与第/>种小分子肽化学结构的相关性，/>表示以自然常数为底的指数函数。

优选的，获得第种小分子肽与第/>种小分子肽化学结构的相关性，包括的具体步骤如下：

其中计算方法如下：

式中，表示以自然常数为底的指数函数。/>表示第/>种小分子肽中第/>个节点相连接的第/>个化学键的种类，/>表示第/>种小分子肽化学结构式中第/>个节点相连接的第/>个化学键的种类，/>表示第/>种小分子肽化学结构式中节点的个数，/>表示第/>种小分子肽化学结构式中节点的个数，/>表示与第/>个节点相连接的化学键的个数，/>表示与第个节点相连接的化学键的个数。

优选的，所述获得任意两种小分子肽的属性特征相似性，包括的具体步骤如下：

式中，表示第/>种小分子肽与第/>种小分子肽的属性特征相似性，/>表示第/>种小分子肽与第/>种小分子肽的结构相似性，/>表示第/>种小分子肽与第/>种小分子肽相同属性特征的数量。

优选的，所述根据获得的小分子肽属性特征相似性，获得多个数据模块，包括的具体步骤如下：

根据小分子肽之间的相似性使用DBSCAN密度聚类算法对所有的小分子进行聚类，得到若干个聚类簇，DBSCAN密度聚类算法中聚类距离为：，/>表示第/>种小分子肽与第/>种小分子肽的属性特征相似性，将每一个聚类簇作为小分子肽数据库一个数据模块，获得多个数据模块。

优选的，所述根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值，包括的具体步骤如下：

式中，表示第/>个数据模块的特征值，记为第一特征值，/>表示每个数据模块中第/>种小分子肽与第/>种小分子肽的属性特征相似性，/>表示在第/>个数据模块中包含的小分子肽的种类。

优选的，所述根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块，包括的具体步骤如下：

将新的小分子肽加入到第个数据模块中，然后重新计算第/>个模块的特征值，记为第二特征值，将第一特征值与第二特征值的差值记为新的小分子肽加入第/>个数据模块的优选度，当第/>个模块的优选度在所有数据模块中取得最小值时，则第/>个数据模块记为新的小分子肽的归属数据模块。

本发明的技术方案的有益效果是：在构建小分子肽数据库时，通过对小分子肽的化学结构与属性特征进行分析，获得小分子肽之间的结构相似性与属性相似性，然后再根据小分子肽之间的相似性对其进行聚类，进而获得不同的聚类簇，在每一个聚类簇中，小分子肽的化学结构与属性都是比较相似的，能够表示相近的物质组成，进而能够获得小分子肽之间的在化学成分上的相关关系。

而在计算小分子肽之间的相似性时根据分解后基序与化学键的组成获得小分子肽之间化学结构的相似性，进而再根据小分子肽的属性特征来获得小分子肽之间的属性特征相似性，该方法不仅考虑了不同小分子肽在化学组成的联系与差异，同时也考虑了其物化属性之间的相似性，进而在构建数据库时能够清楚的知道每一数据库模块中小分子肽的属性，因此便于对相似结构的物质进行分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种构建小分子肽数据库的数字化方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种构建小分子肽数据库的数字化方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种构建小分子肽数据库的数字化方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种构建小分子肽数据库的数字化方法的步骤流程图，该方法包括以下步骤：

步骤S001、获取小分子肽化学结构与属性特征数据。

本实施例的主要目的是通过分析小分子肽的结构与属性构建小分子肽数据库，因此首先需要获取小分子肽的化学结构式与属性特征。本实施例获取目前已知的小分子肽的名称、化学结构式和属性特征，其中，属性特征包含：酸碱性（酸性、中性、碱性）、发生反应时所需要的酶的种类、温度，沸点、熔点、溶解度等。

至此，获得了小分子肽化学结构与属性特征。

步骤S002、通过分子—基序异构图神经网络对小分子要的结构进行拆分。

需要说明的是，小分子肽是介于氨基酸与蛋白质之间一种生化物质，它比蛋白质分子量小，又比氨基酸分子量大，是一个蛋白质的片段。两个以上的氨基酸之间以肽键相连，形成的“氨基酸链”或“氨基酸串”就叫做肽。其中，10-15个以上氨基酸组成的肽被称为多肽，而由2至9个氨基酸组成的就叫做寡肽，由2至15个氨基酸组成的就叫做小分子肽。不同的小分子肽其氨基酸组成数量与成分不同，包含的化学键与官能团也是不相同的，因此为了能够对小分子肽进行准确的分类，本发明首先通过分子-基序异构图神经网络（HM-GNN）对小分子肽的结构进行基序提取。

具体的， HM-GNN将分子表示为图的形式，其中原子是节点，化学键是边。它通过迭代地聚合相邻原子的信息，并利用基序来建立原子之间的关联。基序提取包括分子图中的化学键和环结构，删去重复的基序，然后将剩余基序添加到基序表中。例如获取每种小分子肽中所有化学键的种类，本实施例中化学键的种类有：碳碳键、碳氧键、氢键等，每种小分子肽中同一种化学键构成一个基序，因为一种小分子肽会有多种化学键组成，因此会存在多个基序。

至此，获得了每种小分子肽的基序。

步骤S003、获取不同小分子肽结构的相似性。

需要说明的是，通过上述方法获得了小分子肽的基序，因为在判断小分子肽的相似性时，根据小分子肽包含的氨基酸的个数与其官能团、化学键的组成来进行判断。不同小分子肽的组成结构不相同，而通过HM-GNN算法将每一种小分子肽化学结构式分解以后，能够知道该小分子肽的化学组成，因此根据拆分后的基序表来获得两种小分子肽的结构相似性。

获取两种小分子肽的结构相似性：

其中计算方法如下：

式中，表示第/>种小分子肽与第/>种小分子肽的结构相似性，/>表示第/>个小分子含有的氨基酸的个数，/>表示第/>个小分子含有的氨基酸的个数，/>表示第/>种小分子肽与第/>种小分子肽相同基序的数量，/>表示第/>种小分子肽基序的数量，/>表示第/>种小分子肽基序的数量，/>表示第/>种小分子肽与第/>种小分子肽化学结构的相关性，表示以自然常数为底的指数函数。/>表示第/>种小分子肽中第/>个节点相连接的第/>个化学键的种类，/>表示第/>种小分子肽化学结构式中第/>个节点相连接的第/>个化学键的种类，/>表示第/>种小分子肽化学结构式中节点的个数，/>表示第/>种小分子肽化学结构式中节点的个数，/>表示与第/>个节点相连接的化学键的个数，/>表示与第/>个节点相连接的化学键的个数。

具体的，表示第/>种小分子肽与第/>种小分子肽氨基酸数量的差值，差值越小，说明这两种小分子肽的结构可能越相似，因为其包含的氨基酸数量相差越小，因此在这里取/>这一指数模型，其中/>，当/>越趋近0时，整体取值越大。/>表示第/>种小分子肽与第/>种小分子肽基序相同的个数在整体数量中的占比，基序相同的数量越多，说明这两种小分子肽的组成结构是越相似的，因为基序表示的是小分子肽含有的官能团与化学键，官能团与化学键相同的数量越大，则其结构相似性越大。/>表示第/>种小分子肽与第/>种小分子肽的化学结构式中处于相同位置的节点其化学键的连接方式，因为虽然基序相同的数量越多，其结构越相似，但是若化学键的连接方式不同时，其物质的分子结构也会存在较大的差异，因此在这里计算相同节点上化学键的连接方式的差异，若连接方式相同，即当/>时，/>，此时/>的取值1；若连接方式不同，即/>时，/>，此时/>的取值较小。若相同节点的化学键的连接的方式相同的数量越大，则/>的取值越大。/>表示二级节点的连接方式，因为在化学式中，一级节点表示直接与主体相连接的官能团，二级节点表示官能团中化学键的连接方式，其连接相同的数量越大，则其结构的相似性越大。

至此，获得了两种小分子肽的结构相似性。

步骤S004、获取不同小分子肽属性特征的相似性。

需要说明的是，通过上述方法计算获得了两种小分子肽的结构相似性，因为两种不同的小分子肽的结构肯定不会完全相同，其化学结构的组成会存在差异。而化学结构存在差异主要表现为包含的元素不同与化学键的连接方式不同，而不同化学键的连接方式表现的物质属性也存在较大差异，例如在进行化学反应时，所需要的温度、酶（催化剂）以及自身的属性（酸碱性）都会存在较大的差异，因此需要根据小分子肽的属性来获得不同小分子肽之间的相关性。

进一步的，在计算小分子肽属性的相关性时，通过分析小分子肽对应的化学属性，来构建相关性模型，在这里需要说明的是，因为物质的化学结构与其化学属性之间存在密切的关系，化学结构决定了物质的化学性质和反应行为，它包括分子的组成、原子的排列方式、化学键的类型和位置等，例如：物质的化学结构中的特定功能团或官能团通常与其化学性质直接相关，例如，醛基、羟基、羧基等官能团可以决定物质的酸碱性、亲水性和反应活性；分子的大小和形状对物质的物理性质（如溶解度、沸点、熔点等）和化学性质（如反应速率、环境亲和力等）有重要影响；不同类型的化学键具有不同的性质和稳定性，因此通过对物质的化学属性的分析，来描述两种小分子肽之间属性特征的相关性。

获得两种小分子肽的属性特征相似性：

式中，表示第/>种小分子肽与第/>种小分子肽的属性特征相似性，/>表示第/>种小分子肽与第/>种小分子肽的结构相似性，/>表示第/>种小分子肽与第/>种小分子肽相同属性的数量，属性特征包括有：亲水性、酸碱性、熔点、沸点等。

至此，获得两种小分子肽的属性特征相似性。

步骤S005、根据相似性构建小分子肽数据库。

需要说明的是，根据上述计算获得的两种小分子肽的属性特征相似性，然后对属性相似的小分子肽进行分类。因为在构建小分子肽数据库时，一个数据库包含多个模块，不同的模块中储存的信息不相同。本发明以以下实施例进行说明：在构建一个企业数据库时，不同权限等级的人员所获取的信息是不一样的，不同权限的人员主要是通过账号来识别身份的，不同权限的账号分贝储存在不同的模块表中，在登入系统进行身份验证时，当登录人员输入账号和密码后，系统会进行挨个验证，将该登入账号在每一个模块表中进行查询，查询到对应的账号时，就能够知道该登入人员的权限等级，与之对应的就会跳转到相应的权限界面。

进一步的，基于上述构建数据库原理，在本实施例中，通过对小分子肽的属性进行分析，计算获得两种小分子肽之间的相似性，然后根据小分子肽之间的相似性进行聚类，在这里使利用DBSCAN密度聚类算法对所有的小分子进行聚类，聚类距离为,表示第/>种小分子肽与第/>种小分子肽的属性特征相似性。得到若干个聚类簇。DBSCAN聚类算法在进行聚类时需要设置聚类半径与最小聚类数，在本实施例中设置聚类半径为3，最小聚类数为3，该值为经验值，其他实施人员可根据不同的实施环境自行调整。

根据上述计算获得的聚类簇，将同一聚类簇里面的所有小分子肽的化学结构特征与属性特征存储到数据库中同一个模块，然后计算每一数据模块的特征。

获得每一数据模块的特征值：

式中，表示第/>个数据模块的特征值，/>表示每个数据模块中第/>种小分子肽与第/>种小分子肽的属性特征相似性，/>表示在第/>个数据模块中包含的小分子肽的种类。因为在求小分子肽的相似性时，是求的每一种小分子肽与其他小分子肽之间的相似性，因此这里求第/>个数据模块中所有小分子肽相似性的均值/>，其就表示该数据模块的小分子肽的特征值。

将新的小分子肽加入到第个数据模块中，然后重新计算第/>个模块的特征值/>，将/>与/>的差值记为新的小分子肽加入第/>个数据模块的优选度，当第/>个模块的优选度在所有数据模块中取得最小值时，则第/>个数据模块记为新的小分子肽的归属数据模块，将新的小分子肽的化学结构与属性特征存储到归属数据模块。

至此，完成小分子肽数据库的数字化构建，实现了新的小分子肽的归类存储。

因为当发现一种新的小分子肽时，其属性特征并不特别，因此根据上述构建的小分子肽的数据，能够知道新的小分子肽与已知小分子肽之间的相关关系，然后根据新的小分子肽的归属数据模块中的所有小分子肽的化学结构与属性特征，来分析新的小分子肽与当前已知小分子肽之间的联系与差异，从而能够获得新的小分子肽的化学结构与属性特征，进而能够更加全面的对新的小分子肽的价值进行细致的研究，能够充分挖掘其利用价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种构建小分子肽数据库的数字化方法，其特征在于，该方法包括以下步骤：

采集所有已知小分子肽的化学结构与属性特征；

根据小分子肽的化学结构获得每一种小分子肽的基序；

根据获得的小分子肽属性特征相似性，获得多个数据模块；根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值，记为第一特征值，将新的小分子肽分别加入到每个数据模块，重新计算每个数据模块的特征值，记为第二特征值，根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块；

所述根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值，包括的具体步骤如下：

式中，表示第/>个数据模块的特征值，记为第一特征值，/>表示每个数据模块中第种小分子肽与第/>种小分子肽的属性特征相似性，/>表示在第/>个数据模块中包含的小分子肽的种类；

所述根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块，包括的具体步骤如下：

2.根据权利要求1所述的一种构建小分子肽数据库的数字化方法，其特征在于，所述属性特征包含：酸碱性、发生反应时所需要的酶、温度、熔点、沸点、亲水性。

3.根据权利要求1所述的一种构建小分子肽数据库的数字化方法，其特征在于，所述根据小分子肽的化学结构获得每一种小分子肽的基序，包括的具体步骤如下：

通过分子-基序异构图神经网络对小分子肽的化学结构进行基序提取得到小分子肽的基序，所述基序包括分子中的化学键和环结构，其中，分子-基序异构图神经网络也就是HM-GNN。

4.根据权利要求1所述的一种构建小分子肽数据库的数字化方法，其特征在于，所述获得任意两种小分子肽的结构相似性，包括的具体步骤如下：

将第个小分子含有的氨基酸的个数记为/>，将第/>个小分子含有的氨基酸的个数记为，将第/>种小分子肽基序的数量记为/>，将第/>种小分子肽基序的数量记为/>，根据/>与的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性。

5.根据权利要求4所述的一种构建小分子肽数据库的数字化方法，其特征在于，所述根据与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性，包括的具体步骤如下：

6.根据权利要求5所述的一种构建小分子肽数据库的数字化方法，其特征在于，获得第种小分子肽与第/>种小分子肽化学结构的相关性，包括的具体步骤如下：

其中计算方法如下：

式中，表示以自然常数为底的指数函数，/>表示第/>种小分子肽中第/>个节点相连接的第/>个化学键的种类，/>表示第/>种小分子肽化学结构式中第/>个节点相连接的第/>个化学键的种类，/>表示第/>种小分子肽化学结构式中节点的个数，/>表示第/>种小分子肽化学结构式中节点的个数，/>表示与第/>个节点相连接的化学键的个数，/>表示与第/>个节点相连接的化学键的个数。

7.根据权利要求1所述的一种构建小分子肽数据库的数字化方法，其特征在于，所述获得任意两种小分子肽的属性特征相似性，包括的具体步骤如下：

8.根据权利要求1所述的一种构建小分子肽数据库的数字化方法，其特征在于，所述根据获得的小分子肽属性特征相似性，获得多个数据模块，包括的具体步骤如下：

根据小分子肽之间的相似性使用DBSCAN密度聚类算法对所有的小分子进行聚类，得到若干个聚类簇，DBSCAN密度聚类算法中聚类距离为，/>表示第/>种小分子肽与第/>种小分子肽的属性特征相似性，将每一个聚类簇作为小分子肽数据库一个数据模块，获得多个数据模块。