CN114464273A - 分子结构数据库构建方法、装置、电子设备及存储介质 - Google Patents
分子结构数据库构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114464273A CN114464273A CN202111584980.0A CN202111584980A CN114464273A CN 114464273 A CN114464273 A CN 114464273A CN 202111584980 A CN202111584980 A CN 202111584980A CN 114464273 A CN114464273 A CN 114464273A
- Authority
- CN
- China
- Prior art keywords
- database
- target molecule
- molecular
- molecule
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 25
- 239000000126 substance Substances 0.000 claims abstract description 73
- 230000000704 physical effect Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000015654 memory Effects 0.000 claims description 30
- 238000012800 visualization Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 description 10
- 150000001875 compounds Chemical class 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000009510 drug design Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 5
- 125000000524 functional group Chemical group 0.000 description 4
- 241000700605 Viruses Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000002547 new drug Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 229960005486 vaccine Drugs 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种分子结构数据库构建方法、装置、电子设备及存储介质,适用于化学领域。该方法包括:获取分子数据库;分子数据库与化学数据库关联;基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息;根据标识信息,在化学数据库中查询目标分子的物性数据;根据物性数据,生成目标分子对应的可视化的3D结构。采用该方法,不需要再从头基于分子的图论数据结构生成目标分子的3D结构因此,上述分子结构数据库构建方法,极大地减少了生成目标分子对应的可视化的3D结构的复杂性,且占用的系统的存储空间较少。
Description
技术领域
本发明涉及化学领域,具体涉及一种分子结构数据库构建方法、装置、电子设备及存储介质。
背景技术
近两年,全世界都在面临病毒肆虐的情况。最近,病毒又呈现出传染快、变异快的特征,这给生物、化学、医疗等领域的科学家们合成对症的疫苗带来了前所未有的挑战,计算机辅助精准药物设计和生物疫苗合成不免需要科学家对潜在药物的物理化学性质进行多次计算模拟、筛选,因此针对类似病毒的药物设计需要构建大型有机化学分子数据库,观察各有机化学分子的2D结构和3D结构便于科学家理解各化学官能团赋予药物的物理和化学性质对于药物精准设计、分子合成显得极为重要。
目前,构建附带分子2D结构和3D结构的分子系统大多是通过在系统程序内存储分子的图论数据结构来进行,因程序内部基于图论的复杂计算以及存储空间限制会给系统在检索分子的2D结构和3D结构带来访问慢的问题。
发明内容
有鉴于此,本发明实施例提供了一种分子结构数据库构建方法、装置、电子设备及存储介质,旨在解决获取分子的3D结构速度缓慢,效率低的问题。
根据第一方面,本发明实施例提供了一种分子结构数据库构建方法,该方法包括:获取分子数据库;分子数据库与化学数据库关联;基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息;根据标识信息,在化学数据库中查询目标分子的物性数据;根据物性数据,生成目标分子对应的可视化的3D结构。
本发明实施例提供的分子结构数据库构建方法,通过获取分子数据并基于预设的查询条件在分子数据库中的查询目标分子,并确定目标分子的标识信息。从而可以快速准确地获取到目标分子的标识信息。然后,根据目标分子的标识信息,在化学数据库中,查询目标分子的物性数据,可以保证查询到的目标分子的物性数据的准确性,使得用户可以根据目标分子的物性数据更加了解目标分子。此外,根据物性数据,生成目标分子对应的可视化的3D结构。而不需要再从头基于分子的图论数据结构生成目标分子的3D结构。因此,上述分子结构数据库构建方法,极大地减少了生成目标分子对应的可视化的3D结构的复杂性,且占用的系统的存储空间较少。因此,可以使得用户快速访问目标分子的可视化的3D结构,还保证了生成的目标分子的可视化的3D结构的准确性。此外,本发明提供的分子结构数据库构建方法,还能解决精准药物设计领域分子的3D结构信息检索和获取问题、图书馆化学生物医药等论文已知某化合物标识信息检索论文的问题、更能解决AI合成新药的分子指纹提取、化合物相似性、一组化合物的最大公共子结构获取、官能团功能检索问题。
结合第一方面,在第一方面第一实施方式中,根据物性数据,生成目标分子对应的可视化的3D结构,包括:
根据物性数据,确定目标分子的原子信息以及化学键信息;
根据原子信息以及化学键信息,生成目标分子对应的可视化的3D结构。
本发明实施例提供的分子结构数据库构建方法,根据物性数据,确定目标分子的原子信息以及化学键信息,然后,根据原子信息以及化学键信息,生成目标分子对应的可视化的3D结构。从而保证了生成的目标分子对应的可视化的3D结构的准确性。
结合第一方面第一实施方式,在第一方面第二实施方式中,根据原子信息以及化学键信息,生成目标分子对应的可视化的3D结构,包括:
将原子信息以及化学键信息,输入至可视化工具包;
利用可视化工具包,对原子信息以及化学键信息进行处理,生成目标分子对应的可视化的3D结构。
本发明实施例提供的分子结构数据库构建方法,将原子信息以及化学键信息,输入至可视化工具包;利用可视化工具包,对原子信息以及化学键信息进行处理,生成目标分子对应的可视化的3D结构。从而保证了生成的目标分子对应的可视化的3D结构的准确性以及直观性。
结合第一方面,在第一方面第三实施方式中,方法还包括:
根据物性数据,调用预设的函数对物性数据进行分析,得到分析结果;
根据分析结果,生成目标分子对应的2D结构。
本发明实施例提供的分子结构数据库构建方法,根据物性数据,调用预设的函数对物性数据进行分析,得到分析结果;根据分析结果,生成目标分子对应的2D结构。使得用户还可以获取到目标分子对应的2D结构,且保证了目标分子对应的2D结构的准确性。
结合第一方面,在第一方面第四实施方式中,预设查询条件包括分子式查询条件,基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息;包括:
基于分子式查询条件,在分子数据库中查询目标分子。
本发明实施例提供的分子结构数据库构建方法,基于分子式查询条件,在分子数据库中查询目标分子,使得用户可以快速在分子数据库中查询到目标分子,因此,可以快速生成目标分子对应的可视化的3D结构。提高了用户获取到目标分子对应的可视化的3D结构的效率。
结合第一方面,在第一方面第五实施方式中,预设查询条件包括标识信息查询条件,标识信息查询条件包括全结构查询条件和半结构查询条件,基于预设查询条件在分子数据库中查询目标分子,包括:
基于全结构查询条件,在分子数据库中查询目标分子;其中,全结构用于表征分子标识信息的全部结构信息;或,基于半结构查询条件,在分子数据库中查询目标分子;其中,半结构用于表征分子标识信息的部分结构信息。
本发明实施例提供的分子结构数据库构建方法,可以基于全结构查询条件,在分子数据库中查询目标分子,也可以基于半结构查询条件,在分子数据库中查询目标分子。使得用户在不了解目标分子的全结构的情况下,也可以快速在分子数据库中查询到目标分子,因此,可以快速生成目标分子对应的可视化的3D结构。提高了用户获取到目标分子对应的可视化的3D结构的效率,也提高了分子数据库的利用率。
结合第一方面,在第一方面第六实施方式中,获取分子数据库,包括:
获取各个分子的名称、标识信息以及分子式;
根据各个分子的名称、标识信息以及分子式,构建分子数据库。
本发明实施例提供的分子结构数据库构建方法,根据各个分子的名称、标识信息以及分子式,构建分子数据库,保证了构建的分子数据库包含各种分子,提高了,分子数据的利用率。
根据第二方面,本发明实施例还提供了一种分子结构数据库构建装置,装置包括:
获取模块,用于获取分子数据库;分子数据库与化学数据库关联;
确定模型,用于基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息;
查询模型,用于根据标识信息,在化学数据库中查询目标分子的物性数据;
生成模块,用于根据物性数据,生成目标分子对应的可视化的3D结构。
本发明实施例提供的分子结构数据库构建装置,通过获取分子数据并基于预设的查询条件在分子数据库中的查询目标分子,并确定目标分子的标识信息。从而可以快速准确地获取到目标分子的标识信息。然后,根据目标分子的标识信息,在化学数据库中,查询目标分子的物性数据,可以保证查询到的目标分子的物性数据的准确性,使得用户可以根据目标分子的物性数据更加了解目标分子。此外,根据物性数据,生成目标分子对应的可视化的3D结构。而不需要再从头基于分子的图论数据结构生成目标分子的3D结构。因此,上述分子结构数据库构建装置,极大地减少了生成目标分子对应的可视化的3D结构的复杂性,且占用的系统的存储空间较少。因此,可以使得用户快速访问目标分子的可视化的3D结构,还保证了生成的目标分子的可视化的3D结构的准确性。此外,本发明提供的分子结构数据库构建装置,能解决精准药物设计领域分子的3D结构信息检索和获取问题、图书馆化学生物医药等论文已知某化合物标识信息检索论文的问题、更能解决AI合成新药的分子指纹提取、化合物相似性、一组化合物的最大公共子结构获取、官能团功能检索问题。
根据第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中的分子结构数据库构建方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行第一方面或者第一方面的任意一种实施方式中的分子结构数据库构建方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是应用本发明实施例提供的分子结构数据库构建方法的流程图;
图2是应用本发明另一实施例提供的分子结构数据库构建方法的流程图;
图3是应用本发明另一实施例提供的利用可视化工具包生成目标分子对应的可视化的3D结构的流程图;
图4是应用本发明另一实施例提供的分子结构数据库构建方法中目标分子对应的可视化的3D结构的示意图;
图5是应用本发明另一实施例提供的分子结构数据库构建方法的流程图;
图6是应用本发明另一实施例提供的分子结构数据库构建方法中目标分子对应的可视化的2D结构的示意图;
图7是应用本发明另一实施例提供的分子结构数据库构建方法的流程图;
图8是应用本发明实施例提供的分子结构数据库构建装置的功能模块图;
图9是应用本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例提供的分子结构构建的方法,其执行主体可以是分子结构构建的装置,该分子结构构建的装置可以通过软件、硬件或者软硬件结合的方式实现成为电子设备的部分或者全部,其中,该电子设备可以是服务器或者终端,其中,本申请实施例中的服务器可以为一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是电子设备为例来进行说明。
在本申请一个实施例中,如图1所示,提供了一种分子结构数据库构建方法,以该方法应用与电子设备为例进行说明,包括以下步骤:
S11、获取分子数据库。
其中,分子数据库与化学数据库关联。
具体地,电子设备可以获取各个分子对应的属性信息,根据各个分子对应的属性信息,构建分子数据库。
在一种可选的实施方式中,电子设备可以基于PostgreSQL关系型数据库管理系统构建分子数据库。然后,电子设备将构建的分子数据库与化学数据库关联。其中,化学数据库可以是RDKit,也可以是其他数据库。其中,RDKit是一个用于化学信息学的开源工具包。
示例性的,电子设备可以在构建的分子数据库中利用RDKit的插件,将分子数据库与RDKit关联起来,从而构建包含各个分子标识信息的分子数据库。
S12、基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息。
具体地,电子设备可以根据分子数据库允许的预设查询条件在分子数据库中查询目标分子,并根据查询结果,确定目标分子的标识信息。其中,目标分子的标识信息可以是目标分子的SMILES码、也可以是目标分子的化学式、还可以是目标分子的名称等,本申请实施例对标识信息不做具体限定。
示例性的,电子设备可以根据目标分子的名称在分子数据库中查询目标分子,并根据查询结果,确定目标分子的标识信息。
S13、根据标识信息,在化学数据库中查询目标分子的物性数据。
具体地,在获取到目标分子的标识信息之后,电子设备可以根据目标分子的标识信息,在化学数据库中查询目标分子的物性数据。
示例性的,电子设备可以在分子数据库外部调用RDKit的全局静态函数molFromSmiles获取目标分子的物性数据。其中,物性数据可以以mol结果的方式输出,也可以以其他方式输出。
S14、根据物性数据,生成目标分子对应的可视化的3D结构。
具体地,电子设备可以对目标分子的物性数据进行分析,根据目标分子的物性数据获取目标分子的属性信息,然后根据目标分子的属性信息目标分子的属性信息。
关于该步骤具体将在下文中进行详细描述。
本发明实施例提供的分子结构数据库构建方法,通过获取分子数据并基于预设的查询条件在分子数据库中的查询目标分子,并确定目标分子的标识信息。从而可以快速准确地获取到目标分子的标识信息。然后,根据目标分子的标识信息,在化学数据库中,查询目标分子的物性数据,可以保证查询到的目标分子的物性数据的准确性,使得用户可以根据目标分子的物性数据更加了解目标分子。此外,根据物性数据,生成目标分子对应的可视化的3D结构。而不需要再从头基于分子的图论数据结构生成目标分子的3D结构。因此,上述分子结构数据库构建方法,极大地减少了生成目标分子对应的可视化的3D结构的复杂性,且占用的系统的存储空间较少。因此,可以使得用户快速访问目标分子的可视化的3D结构,还保证了生成的目标分子的可视化的3D结构的准确性。此外,本发明提供的分子结构数据库构建方法,能解决精准药物设计领域分子的3D结构信息检索和获取问题、图书馆化学生物医药等论文已知某化合物标识信息检索论文的问题、更能解决AI合成新药的分子指纹提取、化合物相似性、一组化合物的最大公共子结构获取、官能团功能检索问题。
在本申请一个可选的实施例中,如图2所示,提供了一种分子结构数据库构建方法,以该方法应用与电子设备为例进行说明,包括以下步骤:
S21、获取分子数据库。
其中,分子数据库与化学数据库关联。
详细请参见图1所示实施例的S11,在此不再赘述。
S22、基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息。
详细请参见图1所示实施例的S12,在此不再赘述。
S23、根据标识信息,在化学数据库中查询目标分子的物性数据。
详细请参见图1所示实施例的S13,在此不再赘述。
S24、根据物性数据,生成目标分子对应的可视化的3D结构。
具体地,上述步骤S24可以包括如下步骤:
S241、根据物性数据,确定目标分子的原子信息以及化学键信息。
具体地,具体地,电子设备可以对目标分子的物性数据进行分析,根据目标分子的物性数据获取目标分子的原子信息以及化学键信息。
其中,原子信息包括原子序号、原子元素符号、原子的x,y,z坐标等,化学键信息包括化学键的起始原子序号、键的终端原子序号、键的类型等,本申请实施例对目标分子的原子信息以及化学键信息不做具体限定。
S242、根据原子信息以及化学键信息,生成目标分子对应的可视化的3D结构。
具体地,电子设备可以根据目标分子的原子信息以及化学键信息,对目标分子中的原子以及化学键进行绘制,生成目标分子对应的可视化的3D结构。
在本实施例的一些可选实施方式中,上述步骤S242还可以包括如下步骤:
(1)将原子信息以及化学键信息,输入至可视化工具包。
(2)利用可视化工具包,对原子信息以及化学键信息进行处理,生成目标分子对应的可视化的3D结构。
具体地,电子设备可以将原子信息以及化学键信息,输入至可视化工具包,利用可视化工具包,对原子信息以及化学键信息进行绘画和渲染处理,生成目标分子对应的可视化的3D结构。其中,可视化工具包可以是VTK可视化工具包,还可以是其他可视化工具包,本申请实施例对可视化工具包不做具体限定。
示例性的,如图3的流程图所示,当可视化工具包为VTK可视化工具包时,电子设备可以将目标分子的原子信息和化学键信息载入VTK的数据结构vtkMolecule,依次经过vtkMoleculeMapper分子映射器、vtkActor分子演员、vtkRenderer分子渲染器、vtkRenderWindow分子渲染窗口等固定的3D可视化管道流水线进行分子的球棍模型高亮渲染,从而获取目标分子的空间结构图。示例性的,最终生成的目标分子的可视化的3D结构可以如图4所示。
本发明实施例提供的分子结构数据库构建方法,根据物性数据,确定目标分子的原子信息以及化学键信息,然后,根据原子信息以及化学键信息,生成目标分子对应的可视化的3D结构。从而保证了生成的目标分子对应的可视化的3D结构的准确性。
此外,将原子信息以及化学键信息,输入至可视化工具包;利用可视化工具包,对原子信息以及化学键信息进行处理,生成目标分子对应的可视化的3D结构。从而保证了生成的目标分子对应的可视化的3D结构的准确性以及直观性。
在本申请一个实施例中,如图5所示,提供了一种分子结构数据库构建方法,以该方法应用与电子设备为例进行说明,包括以下步骤:
S31、获取分子数据库。
其中,分子数据库与化学数据库关联。
详细请参见图2所示实施例的S21,在此不再赘述。
S32、基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息。
详细请参见图2所示实施例的S21,在此不再赘述。
S33、根据标识信息,在化学数据库中查询目标分子的物性数据。
详细请参见图2所示实施例的S11,在此不再赘述。
S34、根据物性数据,生成目标分子对应的可视化的3D结构。
详细请参见图2所示实施例的S21,在此不再赘述。
S35、根据物性数据,调用预设的函数对物性数据进行分析,得到分析结果。
具体地,电子设备调用化学数据库中的预设函数对物性数据进行分析,得到分析结果。
S36、根据分析结果,生成目标分子对应的2D结构。
具体地,电子设备可以根据对物性数据进行分析的分析结果,获取到目标分子的原子信息以及化学键信息。然后,根据目标分子的原子信息以及化学键信息,生成目标分子对应的2D结构。
其中,原子信息包括原子序号、原子元素符号、原子的x,y,z坐标等,化学键信息包括化学键的起始原子序号、键的终端原子序号、键的类型等,本申请实施例对目标分子的原子信息以及化学键信息不做具体限定。
在本申请另一种可选的实施方式中,电子设备在从化学数据库中查找到目标分子之后,可以直接调用预设的函数,从而获取到目标分子对应的2D结构。
示例性的,电子设备再调用函数molToImage获得分子的2D结构高亮输出。示例性的如图6所示。
本发明实施例提供的分子结构数据库构建方法,根据物性数据,调用预设的函数对物性数据进行分析,得到分析结果;根据分析结果,生成目标分子对应的2D结构。使得用户还可以获取到目标分子对应的2D结构,且保证了目标分子对应的2D结构的准确性。
在本申请一个实施例中,上述步骤S12中的“基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息”,还可以包括如下情况:
其中一种情况,预设查询条件包括分子式查询条件。
基于分子式查询条件,在分子数据库中查询目标分子。
具体地,电子设备可以根据目标分子的分子式,在分子数据库中查询目标分子。
示例性的,甲烷的分子是CH4,电子设备可以在分子数据库中输入CH4,从而查询甲烷分子,并确定甲烷的标识信息。
其中一种情况,预设查询条件包括标识信息查询条件,标识信息查询条件包括全结构查询条件和半结构查询条件。
基于全结构查询条件,在分子数据库中查询目标分子;其中,全结构用于表征分子标识信息的全部结构信息。
或,
基于半结构查询条件,在分子数据库中查询目标分子;其中,半结构用于表征分子标识信息的部分结构信息。
具体地,电子设备可以根据标识信息查询条件中的全结构查询条件和半结构查询条件,在分子数据库中查询目标分子。
示例性的,假设标识信息为分子的SMILES码,则电子设备根据目标分子的SMILES码作为检索输入条件;如果选择子结构查询,则select语句为:select字段from rdk.molswhere m@>’SMILES码’,如果选择全结构查询,则select语句为:select字段from rdk.molswhere m=’SMILES码;若是匹配,则返回相应分子的查询结果信息,从而查找到目标分子。
本发明实施例提供的分子结构数据库构建方法,基于分子式查询条件,在分子数据库中查询目标分子,使得用户可以快速在分子数据库中查询到目标分子,因此,可以快速生成目标分子对应的可视化的3D结构。提高了用户获取到目标分子对应的可视化的3D结构的效率。
此外,本发明实施例提供的分子结构数据库构建方法,还可以基于全结构查询条件,在分子数据库中查询目标分子,也可以基于半结构查询条件,在分子数据库中查询目标分子。使得用户在不了解目标分子的全结构的情况下,也可以快速在分子数据库中查询到目标分子,因此,可以快速生成目标分子对应的可视化的3D结构。提高了用户获取到目标分子对应的可视化的3D结构的效率,也提高了分子数据库的利用率。
在本申请一个实施例中,如图7所示,提供了一种分子结构数据库构建方法,以该方法应用与电子设备为例进行说明,包括以下步骤:
S41、获取分子数据库。
其中,分子数据库与化学数据库关联。
具体地,上述S41还可以包括如下步骤:
S411、获取各个分子的名称、标识信息以及分子式。
具体地,电子设备可以接收用户输入的各个分子的名称、标识信息以及分子式,还可以接收其他设备发送的各个分子的名称、标识信息以及分子式。
S412、根据各个分子的名称、标识信息以及分子式,构建分子数据库。
具体地,电子设备可以将各个分子的名称、标识信息以及分子按照一一对应的关系进行存储,从而生成分子数据库。
S42、基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息。
详细请参见上述实施例,在此不再赘述。
S43、根据标识信息,在化学数据库中查询目标分子的物性数据。
详细请参见上述实施例,在此不再赘述。
S44、根据物性数据,生成目标分子对应的可视化的3D结构。
详细请参见上述实施例,在此不再赘述。
本发明实施例提供的分子结构数据库构建方法,根据各个分子的名称、标识信息以及分子式,构建分子数据库,保证了构建的分子数据库包含各种分子,提高了,分子数据的利用率。
应该理解的是,虽然图1、2、5、7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、2、5、7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
如图8所示,本实施例提供一种分子结构数据库构建装置,包括:
获取模块51,用于获取分子数据库;分子数据库与化学数据库关联;
确定模型52,用于基于预设查询条件在分子数据库中查询目标分子,并确定目标分子的标识信息;
查询模型53,用于根据标识信息,在化学数据库中查询目标分子的物性数据;
生成模块54,用于根据物性数据,生成目标分子对应的可视化的3D结构。
在本申请一个实施例中,上述生成模块54,具体用于根据物性数据,确定目标分子的原子信息以及化学键信息;根据原子信息以及化学键信息,生成目标分子对应的可视化的3D结构。
在本申请一个实施例中,上述生成模块54,具体用于将原子信息以及化学键信息,输入至可视化工具包;利用可视化工具包,对原子信息以及化学键信息进行处理,生成目标分子对应的可视化的3D结构。
在本申请一个实施例中,上述生成模块54,还用于根据物性数据,调用预设的函数对物性数据进行分析,得到分析结果;根据分析结果,生成目标分子对应的2D结构。
在本申请一个实施例中,预设查询条件包括分子式查询条件,上述生成模块54,具体用于基于分子式查询条件,在分子数据库中查询目标分子。
在本申请一个实施例中,预设查询条件包括标识信息查询条件,标识信息查询条件包括全结构查询条件和半结构查询条件,上述生成模块54,具体用于基于全结构查询条件,在分子数据库中查询目标分子;其中,全结构用于表征分子标识信息的全部结构信息;或,基于半结构查询条件,在分子数据库中查询目标分子;其中,半结构用于表征分子标识信息的部分结构信息。
在本申请一个实施例中,上述获取模块51,具体用于获取各个分子的名称、标识信息以及分子式;根据各个分子的名称、标识信息以及分子式,构建分子数据库。
关于分子结构数据库构建装置的具体限定以及有益效果可以参见上文中对于分子结构数据库构建方法的限定,在此不再赘述。上述分子结构数据库构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明实施例还提供一种电子设备,具有上述图8所示的分子结构数据库构建装置。
如图9所示,图9是本发明可选实施例提供的一种电子设备的结构示意图,如图9所示,该电子设备可以包括:至少一个处理器61,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口63,存储器64,至少一个通信总线62。其中,通信总线62用于实现这些组件之间的连接通信。其中,通信接口63可以包括显示屏(Display)、键盘(Keyboard),可选通信接口63还可以包括标准的有线接口、无线接口。存储器64可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器64可选的还可以是至少一个位于远离前述处理器61的存储装置。其中处理器61可以结合图7所描述的装置,存储器64中存储应用程序,且处理器61调用存储器64中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线62可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线62可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器64可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器64还可以包括上述种类的存储器的组合。
其中,处理器61可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器61还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器64还用于存储程序指令。处理器61可以调用程序指令,实现如本申请图1、2、5、7实施例中所示的分子结构数据库构建方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的分子结构数据库构建方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种分子结构数据库构建方法,其特征在于,所述方法包括:
获取分子数据库;所述分子数据库与化学数据库关联;
基于预设查询条件在所述分子数据库中查询目标分子,并确定所述目标分子的标识信息;
根据所述标识信息,在所述化学数据库中查询所述目标分子的物性数据;
根据所述物性数据,生成所述目标分子对应的可视化的3D结构。
2.根据权利要求1所述的方法,其特征在于,所述根据所述物性数据,生成所述目标分子对应的可视化的3D结构,包括:
根据所述物性数据,确定所述目标分子的原子信息以及化学键信息;
根据所述原子信息以及所述化学键信息,生成所述目标分子对应的可视化的3D结构。
3.根据权利要求2所述的方法,其特征在于,所述根据所述原子信息以及所述化学键信息,生成所述目标分子对应的可视化的3D结构,包括:
将所述原子信息以及所述化学键信息,输入至可视化工具包;
利用所述可视化工具包,对所述原子信息以及所述化学键信息进行处理,生成所述目标分子对应的可视化的3D结构。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述物性数据,调用预设的函数对所述物性数据进行分析,得到分析结果;
根据所述分析结果,生成所述目标分子对应的2D结构。
5.根据权利要求1所述的方法,其特征在于,所述预设查询条件包括分子式查询条件,所述基于预设查询条件在所述分子数据库中查询目标分子,包括:
基于所述分子式查询条件,在所述分子数据库中查询目标分子。
6.根据权利要求1所述的方法,其特征在于,所述预设查询条件包括标识信息查询条件,所述标识信息查询条件包括全结构查询条件和半结构查询条件,所述基于预设查询条件在所述分子数据库中查询目标分子,包括:
基于所述全结构查询条件,在所述分子数据库中查询目标分子;其中,全结构用于表征分子标识信息的全部结构信息;
或,
基于所述半结构查询条件,在所述分子数据库中查询目标分子;其中,半结构用于表征分子标识信息的部分结构信息。
7.根据权利要求1所述的方法,其特征在于,所述获取分子数据库,包括:
获取各个分子的名称、标识信息以及分子式;
根据各个所述分子的名称、标识信息以及分子式,构建所述分子数据库。
8.一种分子结构数据库构建装置,其特征在于,所述装置包括:
获取模块,用于获取分子数据库;所述分子数据库与化学数据库关联;
确定模型,用于基于预设查询条件在所述分子数据库中查询目标分子,并确定所述目标分子的标识信息;
查询模型,用于根据所述标识信息,在所述化学数据库中查询所述目标分子的物性数据;
生成模块,用于根据所述物性数据,生成所述目标分子对应的可视化的3D结构。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的分子结构数据库构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的分子结构数据库构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111584980.0A CN114464273A (zh) | 2021-12-22 | 2021-12-22 | 分子结构数据库构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111584980.0A CN114464273A (zh) | 2021-12-22 | 2021-12-22 | 分子结构数据库构建方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114464273A true CN114464273A (zh) | 2022-05-10 |
Family
ID=81406429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111584980.0A Pending CN114464273A (zh) | 2021-12-22 | 2021-12-22 | 分子结构数据库构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114464273A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024104488A1 (zh) * | 2022-11-18 | 2024-05-23 | 中国科学院深圳先进技术研究院 | 锂金属复合负极设计方法、系统及计算机设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254352A (ja) * | 1997-03-07 | 1998-09-25 | Casio Comput Co Ltd | 構造式表示装置、構造式表示方法、及び表示制御プログラムを記録した記録媒体 |
US6073080A (en) * | 1995-06-22 | 2000-06-06 | Kureha Kagaku Kogyo Kabushiki Kaisha | Computer system and method for production of molecular structure diagram |
KR20090083763A (ko) * | 2008-01-30 | 2009-08-04 | 주식회사 엘지화학 | 전기화학적 응용 제품에 사용되는 화학물질 후보군 검색시스템 및 방법 |
CN101504679A (zh) * | 2009-03-19 | 2009-08-12 | 西安近代化学研究所 | 一种含能化合物的计算机辅助设计系统 |
KR20120085178A (ko) * | 2011-10-27 | 2012-07-31 | 주식회사 켐에쎈 | 화합물의 물성을 예측하는 방법 및 화합물의 물성을 예측하는 시스템 |
CN105677137A (zh) * | 2014-11-20 | 2016-06-15 | 北大方正集团有限公司 | 无机化学分子的显示方法和装置 |
CN108334839A (zh) * | 2018-01-31 | 2018-07-27 | 青岛清原精准农业科技有限公司 | 一种基于深度学习图像识别技术的化学信息识别方法 |
JP2019020791A (ja) * | 2017-07-12 | 2019-02-07 | 国立大学法人岐阜大学 | 毒性予測方法及びその利用 |
CN113066538A (zh) * | 2021-03-19 | 2021-07-02 | 福建天晴数码有限公司 | 基于3d的微观化学分子式和大分子蛋白的建模方法和系统 |
CN113223607A (zh) * | 2021-05-28 | 2021-08-06 | 北京化工大学 | 采用smiles算法随机批量生成肝素类似物结构坐标的方法 |
CN113611376A (zh) * | 2021-07-01 | 2021-11-05 | 苏州创腾软件有限公司 | 分子结构的构建方法、装置、计算机设备和存储介质 |
-
2021
- 2021-12-22 CN CN202111584980.0A patent/CN114464273A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6073080A (en) * | 1995-06-22 | 2000-06-06 | Kureha Kagaku Kogyo Kabushiki Kaisha | Computer system and method for production of molecular structure diagram |
JPH10254352A (ja) * | 1997-03-07 | 1998-09-25 | Casio Comput Co Ltd | 構造式表示装置、構造式表示方法、及び表示制御プログラムを記録した記録媒体 |
KR20090083763A (ko) * | 2008-01-30 | 2009-08-04 | 주식회사 엘지화학 | 전기화학적 응용 제품에 사용되는 화학물질 후보군 검색시스템 및 방법 |
CN101504679A (zh) * | 2009-03-19 | 2009-08-12 | 西安近代化学研究所 | 一种含能化合物的计算机辅助设计系统 |
KR20120085178A (ko) * | 2011-10-27 | 2012-07-31 | 주식회사 켐에쎈 | 화합물의 물성을 예측하는 방법 및 화합물의 물성을 예측하는 시스템 |
CN105677137A (zh) * | 2014-11-20 | 2016-06-15 | 北大方正集团有限公司 | 无机化学分子的显示方法和装置 |
JP2019020791A (ja) * | 2017-07-12 | 2019-02-07 | 国立大学法人岐阜大学 | 毒性予測方法及びその利用 |
CN108334839A (zh) * | 2018-01-31 | 2018-07-27 | 青岛清原精准农业科技有限公司 | 一种基于深度学习图像识别技术的化学信息识别方法 |
CN113066538A (zh) * | 2021-03-19 | 2021-07-02 | 福建天晴数码有限公司 | 基于3d的微观化学分子式和大分子蛋白的建模方法和系统 |
CN113223607A (zh) * | 2021-05-28 | 2021-08-06 | 北京化工大学 | 采用smiles算法随机批量生成肝素类似物结构坐标的方法 |
CN113611376A (zh) * | 2021-07-01 | 2021-11-05 | 苏州创腾软件有限公司 | 分子结构的构建方法、装置、计算机设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
BOCHKOV, AY AND TOUKACH, PV: "CSDB/SNFG Structure Editor: An Online Glycan Builder with 2D and 3D Structure Visualization", 《JOURNAL OF CHEMICAL INFORMATION AND MODELING》, vol. 61, no. 10, 1 October 2021 (2021-10-01), pages 4940 - 4948 * |
张小红: "基于Java的有机化学三维模型库构建", 《山东工业技术》, vol. 10, 15 May 2016 (2016-05-15), pages 46 - 47 * |
王克强: "烯烃分子结构与凝聚型性能关系的三级结构信息法研究", 烟台师范学院学报(自然科学版), no. 01, 20 March 1993 (1993-03-20), pages 46 - 50 * |
王玉玲;吴昊;温浩;: "子结构检索中关系数据库插件的使用和效率", 计算机与应用化学, no. 11, 28 November 2011 (2011-11-28), pages 65 - 69 * |
赖新梅;陈梅妹;周常恩;杨雪梅;: "基于SMARTS和SMILES编码的化学结构分类方法", 计算机与应用化学, no. 10, 28 October 2013 (2013-10-28), pages 148 - 150 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024104488A1 (zh) * | 2022-11-18 | 2024-05-23 | 中国科学院深圳先进技术研究院 | 锂金属复合负极设计方法、系统及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10545998B2 (en) | Syntactic tagging in a domain-specific context | |
US10572822B2 (en) | Modular memoization, tracking and train-data management of feature extraction | |
CN101739390B (zh) | 基于技术设计文档的数据转换 | |
CN101075249A (zh) | 一种地理信息系统的数据仓库系统及其构建方法 | |
CN110704476A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110888880A (zh) | 基于空间索引的邻近分析方法、装置、设备及介质 | |
CN114464273A (zh) | 分子结构数据库构建方法、装置、电子设备及存储介质 | |
Al Nasr et al. | Intensity-based skeletonization of CryoEM gray-scale images using a true segmentation-free algorithm | |
Liu et al. | Significance-based essential protein discovery | |
RU2515565C1 (ru) | Способ обновления структурированных данных в системе управления реляционными базами данных | |
CN112486985A (zh) | 一种锅炉数据的查询方法、装置、设备及存储介质 | |
CN111984745A (zh) | 数据库字段动态扩展方法、装置、设备及存储介质 | |
US20220059195A1 (en) | Techniques for data-enabled drug discovery | |
CN115225308A (zh) | 大规模群体攻击流量的攻击团伙识别方法及相关设备 | |
CN110704481A (zh) | 展示数据的方法和装置 | |
CN111143006B (zh) | 命令帮助信息的获取方法及装置 | |
CN113609128A (zh) | 生成数据库实体类的方法、装置、终端设备及存储介质 | |
JP6602280B2 (ja) | 計装図データ生成装置、計装図検索システム及びプログラム | |
Agárdi | Relontouml model of the archaeological findings | |
Li et al. | MTMO: an efficient network‐centric algorithm for subtree counting and enumeration | |
CN112527813A (zh) | 业务系统的数据处理方法及装置、电子设备、存储介质 | |
US20220398274A1 (en) | Generating and presenting multi-dimensional representations for complex entities | |
WO2021070247A1 (en) | Data searching system, device, method and program | |
Buluc et al. | BubbleCluster v4 | |
CN117743316A (zh) | 数据处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |