CN116913395A - 一种构建小分子肽数据库的数字化方法 - Google Patents
一种构建小分子肽数据库的数字化方法 Download PDFInfo
- Publication number
- CN116913395A CN116913395A CN202311175080.XA CN202311175080A CN116913395A CN 116913395 A CN116913395 A CN 116913395A CN 202311175080 A CN202311175080 A CN 202311175080A CN 116913395 A CN116913395 A CN 116913395A
- Authority
- CN
- China
- Prior art keywords
- peptides
- small
- small molecule
- peptide
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 278
- 150000003384 small molecules Chemical class 0.000 title claims abstract description 143
- 238000000034 method Methods 0.000 title claims abstract description 58
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 153
- 239000000126 substance Substances 0.000 claims abstract description 94
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 150000001413 amino acids Chemical class 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000009835 boiling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002844 melting Methods 0.000 claims description 5
- 230000008018 melting Effects 0.000 claims description 5
- 102000004190 Enzymes Human genes 0.000 claims description 4
- 108090000790 Enzymes Proteins 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 125000000524 functional group Chemical group 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102000015636 Oligopeptides Human genes 0.000 description 1
- 108010038807 Oligopeptides Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011203 carbon fibre reinforced carbon Substances 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 125000002485 formyl group Chemical class [H]C(*)=O 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 230000009257 reactivity Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种构建小分子肽数据库的数字化方法,包括:获得小分子肽的化学结构与属性特征数据;通过分子‑基序异构图神经网络对小分子肽的结构进行拆分,根据拆分后的基序获得小分子肽的结构相似性;对小分子肽的属性数据进行分析,获得小分子肽的属性特征相似性;根据获得的属性特征相似性通过聚类算法获得不同的聚类簇,根据聚类簇中小分子肽的相似关系获得每一聚类簇的特征值,然后构建小分子肽数据库。从而完成小分子肽数据库的数字化构建。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种构建小分子肽数据库的数字化方法。
背景技术
构建小分子肽数据库的意义在于收集、整理和存储关于小分子肽的相关信息,为研究人员提供便捷的访问和查询平台。研究人员可以更好地了解和研究小分子肽的结构、功能和相互作用等方面的信息,可以在数据库中搜索和浏览已有的小分子肽数据,了解它们的结构、活性、毒性等特性,从而更好地设计实验和开展研究。因为小分子肽具有广泛的应用潜力,包括药物发现和设计,构建小分子肽数据库可以为药物研发人员提供宝贵的信息资源,帮助他们更好地了解已有的小分子肽药物、活性片段等,通过将小分子肽的结构数据与其功能和活性信息相结合,构建小分子肽数据库可以促进结构与功能之间的关联研究。从而加速新药物的发现和设计过程。
在现有技术中,构建数据库时,通过描述数据之间的关系,根据需求进行规范化和优化,包括确定实体、属性、关系和约束条件,用于构建数据库表结构。但是在本发明中,因为是对小分子肽构建数据库,目的是为了通过对比现有小分子肽的化学结构与性质,了解它们的结构、活性、毒性等特性,从而更好地设计实验和开展研究。因此需要根据小分子肽的化学结构与属性之间的关系来构建数据库,从而能够便于找寻不同小分子肽之间的关系。
发明内容
本发明提供一种构建小分子肽数据库的数字化方法,以解决现有的问题。
本发明的一种构建小分子肽数据库的数字化方法采用如下技术方案:
本发明一个实施例提供了一种构建小分子肽数据库的数字化方法,该方法包括以下步骤:
一种构建小分子肽数据库的数字化方法,该方法包括以下步骤:
采集所有已知小分子肽的化学结构与属性特征;
根据小分子肽的化学结构获得每一种小分子肽的基序;
根据获得的所有小分子肽的基序,对小分子肽的基序进行分析,获得任意两种小分子肽的结构相似性;
根据任意两种小分子肽的结构相似性、任意两种小分子肽相同属性特征的数量获得任意两种小分子肽的属性特征相似性;
根据获得的小分子肽属性特征相似性,获得多个数据模块;根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值,记为第一特征值,将新的小分子肽分别加入到每个数据模块,重新计算每个数据模块的特征值,记为第二特征值,根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块。
优选的,所述属性特征包含:酸碱性、发生反应时所需要的酶、温度、熔点、沸点、亲水性。
优选的,所述根据小分子肽的化学结构获得每一种小分子肽的基序,包括的具体步骤如下:
通过分子-基序异构图神经网络对小分子肽的化学结构进行基序提取得到小分子肽的基序,所述基序包括分子中的化学键和环结构。
优选的,所述获得任意两种小分子肽的结构相似性,包括的具体步骤如下:
将第个小分子含有的氨基酸的个数记为/>,将第/>个小分子含有的氨基酸的个数记为/>,将第/>种小分子肽基序的数量记为/>,将第/>种小分子肽基序的数量记为/>,根据/>与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性。
优选的,所述根据与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性。包括的具体步骤如下:
式中,表示第/>种小分子肽与第/>种小分子肽的结构相似性,/>表示第/>种小分子肽与第/>种小分子肽相同基序的数量,/>表示第/>种小分子肽与第/>种小分子肽化学结构的相关性,/>表示以自然常数为底的指数函数。
优选的,获得第种小分子肽与第/>种小分子肽化学结构的相关性,包括的具体步骤如下:
其中计算方法如下:
式中,表示以自然常数为底的指数函数。/>表示第/>种小分子肽中第/>个节点相连接的第/>个化学键的种类,/>表示第/>种小分子肽化学结构式中第/>个节点相连接的第/>个化学键的种类,/>表示第/>种小分子肽化学结构式中节点的个数,/>表示第种小分子肽化学结构式中节点的个数,/>表示与第/>个节点相连接的化学键的个数,表示与第/>个节点相连接的化学键的个数。
优选的,所述获得任意两种小分子肽的属性特征相似性,包括的具体步骤如下:
式中,表示第/>种小分子肽与第/>种小分子肽的属性特征相似性,/>表示第/>种小分子肽与第/>种小分子肽的结构相似性,/>表示第/>种小分子肽与第/>种小分子肽相同属性特征的数量。
优选的,所述根据获得的小分子肽属性特征相似性,获得多个数据模块,包括的具体步骤如下:
根据小分子肽之间的相似性使用DBSCAN密度聚类算法对所有的小分子进行聚类,得到若干个聚类簇,DBSCAN密度聚类算法中聚类距离为:,/>表示第/>种小分子肽与第/>种小分子肽的属性特征相似性,将每一个聚类簇作为小分子肽数据库一个数据模块,获得多个数据模块。
优选的,所述根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值,包括的具体步骤如下:
式中,表示第/>个数据模块的特征值,记为第一特征值,/>表示每个数据模块中第/>种小分子肽与第/>种小分子肽的属性特征相似性,/>表示在第/>个数据模块中包含的小分子肽的种类。
优选的,所述根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块,包括的具体步骤如下:
将新的小分子肽加入到第个数据模块中,然后重新计算第/>个模块的特征值,记为第二特征值,将第一特征值与第二特征值的差值记为新的小分子肽加入第/>个数据模块的优选度,当第/>个模块的优选度在所有数据模块中取得最小值时,则第/>个数据模块记为新的小分子肽的归属数据模块。
本发明的技术方案的有益效果是:在构建小分子肽数据库时,通过对小分子肽的化学结构与属性特征进行分析,获得小分子肽之间的结构相似性与属性相似性,然后再根据小分子肽之间的相似性对其进行聚类,进而获得不同的聚类簇,在每一个聚类簇中,小分子肽的化学结构与属性都是比较相似的,能够表示相近的物质组成,进而能够获得小分子肽之间的在化学成分上的相关关系。
而在计算小分子肽之间的相似性时根据分解后基序与化学键的组成获得小分子肽之间化学结构的相似性,进而再根据小分子肽的属性特征来获得小分子肽之间的属性特征相似性,该方法不仅考虑了不同小分子肽在化学组成的联系与差异,同时也考虑了其物化属性之间的相似性,进而在构建数据库时能够清楚的知道每一数据库模块中小分子肽的属性,因此便于对相似结构的物质进行分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种构建小分子肽数据库的数字化方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种构建小分子肽数据库的数字化方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种构建小分子肽数据库的数字化方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种构建小分子肽数据库的数字化方法的步骤流程图,该方法包括以下步骤:
步骤S001、获取小分子肽化学结构与属性特征数据。
本实施例的主要目的是通过分析小分子肽的结构与属性构建小分子肽数据库,因此首先需要获取小分子肽的化学结构式与属性特征。本实施例获取目前已知的小分子肽的名称、化学结构式和属性特征,其中,属性特征包含:酸碱性(酸性、中性、碱性)、发生反应时所需要的酶的种类、温度,沸点、熔点、溶解度等。
至此,获得了小分子肽化学结构与属性特征。
步骤S002、通过分子—基序异构图神经网络对小分子要的结构进行拆分。
需要说明的是,小分子肽是介于氨基酸与蛋白质之间一种生化物质,它比蛋白质分子量小,又比氨基酸分子量大,是一个蛋白质的片段。两个以上的氨基酸之间以肽键相连,形成的“氨基酸链”或“氨基酸串”就叫做肽。其中,10-15个以上氨基酸组成的肽被称为多肽,而由2至9个氨基酸组成的就叫做寡肽,由2至15个氨基酸组成的就叫做小分子肽。不同的小分子肽其氨基酸组成数量与成分不同,包含的化学键与官能团也是不相同的,因此为了能够对小分子肽进行准确的分类,本发明首先通过分子-基序异构图神经网络(HM-GNN)对小分子肽的结构进行基序提取。
具体的, HM-GNN将分子表示为图的形式,其中原子是节点,化学键是边。它通过迭代地聚合相邻原子的信息,并利用基序来建立原子之间的关联。基序提取包括分子图中的化学键和环结构,删去重复的基序,然后将剩余基序添加到基序表中。例如获取每种小分子肽中所有化学键的种类,本实施例中化学键的种类有:碳碳键、碳氧键、氢键等,每种小分子肽中同一种化学键构成一个基序,因为一种小分子肽会有多种化学键组成,因此会存在多个基序。
至此,获得了每种小分子肽的基序。
步骤S003、获取不同小分子肽结构的相似性。
需要说明的是,通过上述方法获得了小分子肽的基序,因为在判断小分子肽的相似性时,根据小分子肽包含的氨基酸的个数与其官能团、化学键的组成来进行判断。不同小分子肽的组成结构不相同,而通过HM-GNN算法将每一种小分子肽化学结构式分解以后,能够知道该小分子肽的化学组成,因此根据拆分后的基序表来获得两种小分子肽的结构相似性。
获取两种小分子肽的结构相似性:
其中计算方法如下:
式中,表示第/>种小分子肽与第/>种小分子肽的结构相似性,/>表示第/>个小分子含有的氨基酸的个数,/>表示第/>个小分子含有的氨基酸的个数,/>表示第/>种小分子肽与第/>种小分子肽相同基序的数量,/>表示第/>种小分子肽基序的数量,表示第/>种小分子肽基序的数量,/>表示第/>种小分子肽与第/>种小分子肽化学结构的相关性,/>表示以自然常数为底的指数函数。/>表示第/>种小分子肽中第/>个节点相连接的第/>个化学键的种类,/>表示第/>种小分子肽化学结构式中第/>个节点相连接的第/>个化学键的种类,/>表示第/>种小分子肽化学结构式中节点的个数,/>表示第种小分子肽化学结构式中节点的个数,/>表示与第/>个节点相连接的化学键的个数,表示与第/>个节点相连接的化学键的个数。
具体的,表示第/>种小分子肽与第/>种小分子肽氨基酸数量的差值,差值越小,说明这两种小分子肽的结构可能越相似,因为其包含的氨基酸数量相差越小,因此在这里取/>这一指数模型,其中/>,当/>越趋近0时,整体取值越大。/>表示第/>种小分子肽与第/>种小分子肽基序相同的个数在整体数量中的占比,基序相同的数量越多,说明这两种小分子肽的组成结构是越相似的,因为基序表示的是小分子肽含有的官能团与化学键,官能团与化学键相同的数量越大,则其结构相似性越大。表示第/>种小分子肽与第/>种小分子肽的化学结构式中处于相同位置的节点其化学键的连接方式,因为虽然基序相同的数量越多,其结构越相似,但是若化学键的连接方式不同时,其物质的分子结构也会存在较大的差异,因此在这里计算相同节点上化学键的连接方式的差异,若连接方式相同,即当/>时,/>,此时的取值1;若连接方式不同,即/>时,/>,此时的取值较小。若相同节点的化学键的连接的方式相同的数量越大,则的取值越大。/>表示二级节点的连接方式,因为在化学式中,一级节点表示直接与主体相连接的官能团,二级节点表示官能团中化学键的连接方式,其连接相同的数量越大,则其结构的相似性越大。
至此,获得了两种小分子肽的结构相似性。
步骤S004、获取不同小分子肽属性特征的相似性。
需要说明的是,通过上述方法计算获得了两种小分子肽的结构相似性,因为两种不同的小分子肽的结构肯定不会完全相同,其化学结构的组成会存在差异。而化学结构存在差异主要表现为包含的元素不同与化学键的连接方式不同,而不同化学键的连接方式表现的物质属性也存在较大差异,例如在进行化学反应时,所需要的温度、酶(催化剂)以及自身的属性(酸碱性)都会存在较大的差异,因此需要根据小分子肽的属性来获得不同小分子肽之间的相关性。
进一步的,在计算小分子肽属性的相关性时,通过分析小分子肽对应的化学属性,来构建相关性模型,在这里需要说明的是,因为物质的化学结构与其化学属性之间存在密切的关系,化学结构决定了物质的化学性质和反应行为,它包括分子的组成、原子的排列方式、化学键的类型和位置等,例如:物质的化学结构中的特定功能团或官能团通常与其化学性质直接相关,例如,醛基、羟基、羧基等官能团可以决定物质的酸碱性、亲水性和反应活性;分子的大小和形状对物质的物理性质(如溶解度、沸点、熔点等)和化学性质(如反应速率、环境亲和力等)有重要影响;不同类型的化学键具有不同的性质和稳定性,因此通过对物质的化学属性的分析,来描述两种小分子肽之间属性特征的相关性。
获得两种小分子肽的属性特征相似性:
式中,表示第/>种小分子肽与第/>种小分子肽的属性特征相似性,/>表示第/>种小分子肽与第/>种小分子肽的结构相似性,/>表示第/>种小分子肽与第/>种小分子肽相同属性的数量,属性特征包括有:亲水性、酸碱性、熔点、沸点等。
至此,获得两种小分子肽的属性特征相似性。
步骤S005、根据相似性构建小分子肽数据库。
需要说明的是,根据上述计算获得的两种小分子肽的属性特征相似性,然后对属性相似的小分子肽进行分类。因为在构建小分子肽数据库时,一个数据库包含多个模块,不同的模块中储存的信息不相同。本发明以以下实施例进行说明:在构建一个企业数据库时,不同权限等级的人员所获取的信息是不一样的,不同权限的人员主要是通过账号来识别身份的,不同权限的账号分贝储存在不同的模块表中,在登入系统进行身份验证时,当登录人员输入账号和密码后,系统会进行挨个验证,将该登入账号在每一个模块表中进行查询,查询到对应的账号时,就能够知道该登入人员的权限等级,与之对应的就会跳转到相应的权限界面。
进一步的,基于上述构建数据库原理,在本实施例中,通过对小分子肽的属性进行分析,计算获得两种小分子肽之间的相似性,然后根据小分子肽之间的相似性进行聚类,在这里使利用DBSCAN密度聚类算法对所有的小分子进行聚类,聚类距离为,表示第/>种小分子肽与第/>种小分子肽的属性特征相似性。得到若干个聚类簇。DBSCAN聚类算法在进行聚类时需要设置聚类半径与最小聚类数,在本实施例中设置聚类半径为3,最小聚类数为3,该值为经验值,其他实施人员可根据不同的实施环境自行调整。
根据上述计算获得的聚类簇,将同一聚类簇里面的所有小分子肽的化学结构特征与属性特征存储到数据库中同一个模块,然后计算每一数据模块的特征。
获得每一数据模块的特征值:
式中,表示第/>个数据模块的特征值,/>表示每个数据模块中第/>种小分子肽与第/>种小分子肽的属性特征相似性,/>表示在第/>个数据模块中包含的小分子肽的种类。因为在求小分子肽的相似性时,是求的每一种小分子肽与其他小分子肽之间的相似性,因此这里求第/>个数据模块中所有小分子肽相似性的均值,其就表示该数据模块的小分子肽的特征值。
将新的小分子肽加入到第个数据模块中,然后重新计算第/>个模块的特征值,将/>与/>的差值记为新的小分子肽加入第/>个数据模块的优选度,当第/>个模块的优选度在所有数据模块中取得最小值时,则第/>个数据模块记为新的小分子肽的归属数据模块,将新的小分子肽的化学结构与属性特征存储到归属数据模块。
至此,完成小分子肽数据库的数字化构建,实现了新的小分子肽的归类存储。
因为当发现一种新的小分子肽时,其属性特征并不特别,因此根据上述构建的小分子肽的数据,能够知道新的小分子肽与已知小分子肽之间的相关关系,然后根据新的小分子肽的归属数据模块中的所有小分子肽的化学结构与属性特征,来分析新的小分子肽与当前已知小分子肽之间的联系与差异,从而能够获得新的小分子肽的化学结构与属性特征,进而能够更加全面的对新的小分子肽的价值进行细致的研究,能够充分挖掘其利用价值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种构建小分子肽数据库的数字化方法,其特征在于,该方法包括以下步骤:
采集所有已知小分子肽的化学结构与属性特征;
根据小分子肽的化学结构获得每一种小分子肽的基序;
根据获得的所有小分子肽的基序,对小分子肽的基序进行分析,获得任意两种小分子肽的结构相似性;
根据任意两种小分子肽的结构相似性、任意两种小分子肽相同属性特征的数量获得任意两种小分子肽的属性特征相似性;
根据获得的小分子肽属性特征相似性,获得多个数据模块;根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值,记为第一特征值,将新的小分子肽分别加入到每个数据模块,重新计算每个数据模块的特征值,记为第二特征值,根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块。
2.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述属性特征包含:酸碱性、发生反应时所需要的酶、温度、熔点、沸点、亲水性。
3.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述根据小分子肽的化学结构获得每一种小分子肽的基序,包括的具体步骤如下:
通过分子-基序异构图神经网络对小分子肽的化学结构进行基序提取得到小分子肽的基序,所述基序包括分子中的化学键和环结构。
4.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述获得任意两种小分子肽的结构相似性,包括的具体步骤如下:
将第个小分子含有的氨基酸的个数记为/>,将第/>个小分子含有的氨基酸的个数记为/>,将第/>种小分子肽基序的数量记为/>,将第/>种小分子肽基序的数量记为/>,根据与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性。
5.根据权利要求4所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述根据与/>的差值、第/>种小分子肽与第/>种小分子肽相同基序的数量以及/>与/>的差值、第/>种小分子肽与第/>种小分子肽化学结构的相关性获得任意两种小分子肽的结构相似性,包括的具体步骤如下:
式中,表示第/>种小分子肽与第/>种小分子肽的结构相似性,/>表示第/>种小分子肽与第/>种小分子肽相同基序的数量,/>表示第/>种小分子肽与第/>种小分子肽化学结构的相关性,/>表示以自然常数为底的指数函数。
6.根据权利要求5所述的一种构建小分子肽数据库的数字化方法,其特征在于,获得第种小分子肽与第/>种小分子肽化学结构的相关性,包括的具体步骤如下:
其中计算方法如下:
式中,表示以自然常数为底的指数函数,/>表示第/>种小分子肽中第/>个节点相连接的第/>个化学键的种类,/>表示第/>种小分子肽化学结构式中第/>个节点相连接的第/>个化学键的种类,/>表示第/>种小分子肽化学结构式中节点的个数,/>表示第/>种小分子肽化学结构式中节点的个数,/>表示与第/>个节点相连接的化学键的个数,/>表示与第/>个节点相连接的化学键的个数。
7.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述获得任意两种小分子肽的属性特征相似性,包括的具体步骤如下:
式中,表示第/>种小分子肽与第/>种小分子肽的属性特征相似性,/>表示第/>种小分子肽与第/>种小分子肽的结构相似性,/>表示第/>种小分子肽与第/>种小分子肽相同属性特征的数量。
8.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述根据获得的小分子肽属性特征相似性,获得多个数据模块,包括的具体步骤如下:
根据小分子肽之间的相似性使用DBSCAN密度聚类算法对所有的小分子进行聚类,得到若干个聚类簇,DBSCAN密度聚类算法中聚类距离为,/>表示第/>种小分子肽与第/>种小分子肽的属性特征相似性,将每一个聚类簇作为小分子肽数据库一个数据模块,获得多个数据模块。
9.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述根据每个数据模块中小分子肽之间的属性特征相似性获得每个数据模块的特征值,包括的具体步骤如下:
式中,表示第/>个数据模块的特征值,记为第一特征值,/>表示每个数据模块中第/>种小分子肽与第/>种小分子肽的属性特征相似性,/>表示在第/>个数据模块中包含的小分子肽的种类。
10.根据权利要求1所述的一种构建小分子肽数据库的数字化方法,其特征在于,所述根据每一个数据模块的第一特征值与第二特征值来确定新的小分子肽的归属数据模块,包括的具体步骤如下:
将新的小分子肽加入到第个数据模块中,然后重新计算第/>个模块的特征值,记为第二特征值,将第一特征值与第二特征值的差值记为新的小分子肽加入第/>个数据模块的优选度,当第/>个模块的优选度在所有数据模块中取得最小值时,则第/>个数据模块记为新的小分子肽的归属数据模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311175080.XA CN116913395B (zh) | 2023-09-13 | 2023-09-13 | 一种构建小分子肽数据库的数字化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311175080.XA CN116913395B (zh) | 2023-09-13 | 2023-09-13 | 一种构建小分子肽数据库的数字化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116913395A true CN116913395A (zh) | 2023-10-20 |
CN116913395B CN116913395B (zh) | 2023-11-28 |
Family
ID=88358781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311175080.XA Active CN116913395B (zh) | 2023-09-13 | 2023-09-13 | 一种构建小分子肽数据库的数字化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913395B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002021428A1 (en) * | 2000-09-01 | 2002-03-14 | Large Scale Proteomics Corporation | Reference database |
CN106605228A (zh) * | 2014-07-07 | 2017-04-26 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
CN113270153A (zh) * | 2021-05-27 | 2021-08-17 | 南华大学 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
CN113971992A (zh) * | 2021-10-26 | 2022-01-25 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
CN114401734A (zh) * | 2019-05-31 | 2022-04-26 | 鲁比克治疗股份有限公司 | 用于工程化中尺度肽的基于机器学习的设备及其方法和系统 |
CN115810397A (zh) * | 2022-12-28 | 2023-03-17 | 中国人民解放军空军军医大学 | 一种藤梨根有效成分靶点分子预测模型的构建方法 |
CN116431931A (zh) * | 2023-06-14 | 2023-07-14 | 陕西思极科技有限公司 | 实时增量数据统计分析方法 |
CN116682112A (zh) * | 2023-07-28 | 2023-09-01 | 青岛虹竹生物科技有限公司 | 一种多糖测试数据存储及数字化方法 |
-
2023
- 2023-09-13 CN CN202311175080.XA patent/CN116913395B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002021428A1 (en) * | 2000-09-01 | 2002-03-14 | Large Scale Proteomics Corporation | Reference database |
CN106605228A (zh) * | 2014-07-07 | 2017-04-26 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
CN114401734A (zh) * | 2019-05-31 | 2022-04-26 | 鲁比克治疗股份有限公司 | 用于工程化中尺度肽的基于机器学习的设备及其方法和系统 |
CN113270153A (zh) * | 2021-05-27 | 2021-08-17 | 南华大学 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
CN113971992A (zh) * | 2021-10-26 | 2022-01-25 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
CN115810397A (zh) * | 2022-12-28 | 2023-03-17 | 中国人民解放军空军军医大学 | 一种藤梨根有效成分靶点分子预测模型的构建方法 |
CN116431931A (zh) * | 2023-06-14 | 2023-07-14 | 陕西思极科技有限公司 | 实时增量数据统计分析方法 |
CN116682112A (zh) * | 2023-07-28 | 2023-09-01 | 青岛虹竹生物科技有限公司 | 一种多糖测试数据存储及数字化方法 |
Non-Patent Citations (2)
Title |
---|
FLORIAN KAISER 等: "Unsupervised Discovery of Geometrically Common Structural Motifs and Long-Range Contacts in Protein 3D Structures", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》, pages 671 * |
支轶 等: "生物信息学方法在CTL表位预测中的应用", 《免疫学杂志》, pages 155 - 159 * |
Also Published As
Publication number | Publication date |
---|---|
CN116913395B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Petegrosso et al. | Machine learning and statistical methods for clustering single-cell RNA-sequencing data | |
Cannoodt et al. | Computational methods for trajectory inference from single‐cell transcriptomics | |
CN113707236B (zh) | 基于图神经网络的药物小分子性质预测方法、装置及设备 | |
Warr | Representation of chemical structures | |
Yu et al. | SeqOthello: querying RNA-seq experiments at scale | |
CN103514381B (zh) | 整合拓扑属性和功能的蛋白质生物网络模体识别方法 | |
CN104992078B (zh) | 一种基于语义密度的蛋白质网络复合物识别方法 | |
CN111326236A (zh) | 一种医疗图像自动处理系统 | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
Chen et al. | Multiple classifier integration for the prediction of protein structural classes | |
Kricke et al. | Graph data transformations in Gradoop | |
Zeng et al. | MSTracer: A Machine Learning Software Tool for Peptide Feature Detection from Liquid Chromatography–Mass Spectrometry Data | |
CN116450890A (zh) | 图数据处理方法、装置、系统、电子设备及存储介质 | |
CN116913395B (zh) | 一种构建小分子肽数据库的数字化方法 | |
CN111241164A (zh) | 一种中药系统药理学分析平台及分析方法 | |
CN109783696B (zh) | 一种面向弱结构相关性的多模式图索引构建方法及系统 | |
CN117251517B (zh) | 大数据视野下的年鉴行政区划信息匹配方法和模型 | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
Fang et al. | An integrative gene selection with association analysis for microarray data classification | |
CN116913394A (zh) | 基于单细胞转录组数据的细胞类型注释方法 | |
Zhao et al. | PENet: A phenotype encoding network for automatic extraction and representation of morphological discriminative features | |
CN111383708A (zh) | 基于化学基因组学的小分子靶标预测算法及其应用 | |
CN112418280A (zh) | 一种基于二分规则特征融合随机森林算法的乳腺癌诊断方法 | |
Reddy et al. | Real-time data mining-based cancer disease classification using KEGG gene dataset | |
Li et al. | aPhyloGeo-Covid: A web interface for reproducible phylogeographic analysis of SARS-CoV-2 variation using Neo4j and Snakemake |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |