CN113903410B

CN113903410B - 一种化合物检索方法及系统

Info

Publication number: CN113903410B
Application number: CN202111490875.0A
Authority: CN
Inventors: 杨柳青; 肖燕翔; 王中健
Original assignee: Chengdu Jianshu Technology Co ltd
Current assignee: Yaorong Cloud Digital Technology (Chongqing) Co.,Ltd.
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-11
Anticipated expiration: 2041-12-08
Also published as: CN113903410A

Abstract

本发明公开了一种化合物检索方法，包括：构建化合物数据库，所述化合物数据库用于存储化合物数据，所述化合物数据包括化合物化学式及每种化合物的化学式中元素名称、元素数量、每种元素原子数量；根据输入的化合物化学式包含的元素名称、元素数量及每种元素原子数量生成检索模型；基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户；若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户。本发明还公开了实现上述一种化合物检索方法的系统。本发明用于查询化合物时便于用户快速检索到相关数据，能提升查询效率。

Description

一种化合物检索方法及系统

技术领域

本发明涉及化合物的智能搜索技术，具体是一种化合物检索方法及系统。

背景技术

随着计算机及网络技术的发展，数据库技术不断推陈出新，并实时结合各种先进的信息手段在实际应用中发挥着越来越重要的作用。为了便于对化合物进行整理和利用，各种配备数据库的化学查询系统也不断建立并得到了飞速发展。现有的化学查询系统用于查询化合物时主要存在使用系统预设编码查询（如CAS号、InChI等编码系统）和使用化合物结构式查询两种方式，其中，使用系统预设编码进行查询需要用户知道编码才能查询，这种方式一般适用于科研人员，普通公众通常不熟悉编码，不能做到快捷查询；目前使用化合物结构式查询的系统需要在Web页面中加载MarvinJS等插件，系统对用户查询时输入的化合物结构草图的绘制有一定要求，当用户进行一些基本的查询时，查询过程稍显复杂，效率低。

发明内容

本发明的目的在于解决采用现有技术查询化合物时查询效率低的问题，提供了一种化合物检索方法，其用于查询化合物时便于用户快速检索到相关数据，能提升查询效率。本发明还公开了实现上述一种化合物检索方法的系统。

本发明的目的主要通过以下技术方案实现：

一种化合物检索方法，包括：

构建化合物数据库，所述化合物数据库用于存储化合物数据，所述化合物数据包括化合物化学式及每种化合物的化学式中元素名称、元素数量、每种元素原子数量；

根据输入的化合物化学式包含的元素名称、元素数量及每种元素原子数量生成检索模型；

基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户；若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户。

进一步的，所述构建化合物数据库包括采集化合物数据，统一采集到的化合物数据样式，清除冗余信息，然后将化合物数据存储至化合物数据库。

进一步的，所述构建化合物数据库和生成检索模型时化合物的化学式以字符串形式输入。

进一步的，所述构建化合物数据库和生成检索模型均包括化合物化学式的转换，转换过程包括以下步骤：

将化合物化学式的字符串进行分割，并存储至数组中；

对数组中元素进行去重，计算数组的长度值，其长度值即为元素数量；

判断化合物化学式的字符串是否存在括号，若存在括号则将括号外的修饰数字分配给括号中每个元素，若不存在括号则直接进入下一步骤；

遍历去重后的数组，将遍历出的每种元素与比对字符串依次比对统计；其中，原始输入字符串有括号时比对字符串为经分配修饰数字的化合物化学式字符串，原始输入字符串无括号时比对字符串为原始输入化合物化学式字符串；比对统计过程中将数组中的每种元素与比对字符串依次比对，出现该元素后获取该元素后一位的内容，若后一位的内容为字母或无内容，则累加数为1，若后一位的内容为数字则按数字的数量累加；

完成遍历，获得每种元素原子数量。

进一步的，所述化合物数据库基于MongoDB实现。

实现上述一种化合物检索方法的系统，包括：

化合物数据库构建模块，用于构建化合物数据库，所述化合物数据库用于存储化合物数据，所述化合物数据包括化合物化学式及每种化合物的化学式中元素名称、元素数量、每种元素原子数量；

检索模型生成模块，用于根据输入的化合物化学式包含的元素名称、元素数量及每种元素原子数量生成检索模型；

化合物检索模块，用于基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户，若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户。

综上所述，本发明与现有技术相比具有以下有益效果：（1）本发明应用时，待检索化合物化学式包含的元素名称、元素数量及每种元素原子数量通过化学式即可获得，检索信息获取便捷，如此，能提升查询效率。

（2）本发明应用时无论用户基于化合物的分子式、结构简式等得到检索信息，均能作为检索条件进行相应检索，本发明不仅能满足化合物数据的存储需求，而且还支持差异化的查询方式，使得不同书写习惯的用户都可以快速找到相关数据。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一个具体实施例的流程图；

图2为本发明一个具体实施例的系统框图；

图3为本发明一个具体实施例中检索模型的存储过程流程图；

图4为本发明一个具体实施例中检索过程流程图；

图5为本发明一个具体实施例中检索模型存储乙醇的存储过程流程图；

图6为本发明一个具体实施例中检索乙醇的检索过程流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1：

如图1所示，一种化合物检索方法，包括：构建化合物数据库，其中，化合物数据库用于存储化合物数据，化合物数据包括化合物化学式及每种化合物的化学式中元素名称、元素数量、每种元素原子数量；根据输入的化合物化学式包含的元素名称、元素数量及每种元素原子数量生成检索模型；基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户；若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户。本实施例应用时，构建化合物数据库为系统搭建阶段所实施的步骤，用户检索化合物数据时，不需要进行化合物数据库的构建，直接应用即可。

如图2所示，本实施例还包括实现上述一种化合物检索方法的系统，包括：化合物数据库构建模块，用于构建化合物数据库，其中，化合物数据库用于存储化合物数据，化合物数据包括化合物化学式及每种化合物的化学式中元素名称、元素数量、每种元素原子数量；检索模型生成模块，用于根据输入的化合物化学式包含的元素名称、元素数量及每种元素原子数量生成检索模型；化合物检索模块，用于基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户，若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户。

本实施例的化合物数据库基于MongoDB实现，其中，MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的，语法有点类似Javascript面向对象的查询语言，它是一个面向集合的，模式自由的文档型数据库。面向集合是指数据被分组存储在数据集中被称为一个集合，每个集合在数据库中都有一个唯一的标识名，并且可以包含无限数目的文档。集合的概念类似关系型数据库里的表，不同的是它不需要定义任何模式。模式自由是指集合里面没有列和行的概念，下面两个记录可以存在于同一个集合里面。文档型是指存储的数据是键-值对的集合键是字符串，值可以是数据类型集合里的任意类型，包括数组和文档，每一个文档相当于关系数据库中的一条记录。MongoDB的特点是高性能、易部署、易使用，存储数据非常方便，能满足对象及JSON数据的存储。

本实施例的数据库体系结构采用浏览器/服务器结构，其工作原理为：在前端采用IE 等浏览器将用户提交的操作信息向Web服务器发出HTTP请求，Web服务器通过ASP和一-些中间组件访问后台数据库，并将操作结果以HTML页面的形式返回给前端浏览器。将Web技术应用于化学领域，使之成为应用系统的界面，Web技术在化学软件中的应用使得用户得以获取那些过去只能在工作站上获取的计算机化学领域中的信息。

本实施例中构建化合物数据库包括采集化合物数据，统一采集到的化合物数据样式，清除冗余信息，然后将化合物数据存储至化合物数据库。本实施例通过对化合物数据进行采集和抽取，并进行一定的数据清洗，得到较完整的数据。在采集过程中，化合物数据来源于科学期刊、科技报告、出版书籍、专利文献等公众可查阅的材料，对于采集的数据，需经过人工样本抽检等方式进行检验。数据清洗包括数据结构统一、数据字段名称统一、数据字段类型统一、数据单位统一，在具体操作时，需要根据具体的数据内容进行相应的操作。化合物数据库存储的化合物数据包括化合物基本的物理性质、化学性质、数据来源、制备方法、参考文献等。

本实施例中构建化合物数据库和生成检索模型时化合物的化学式以字符串形式输入，本实施例中化学式的输入输出，都是字符串形式的，以字符串形式存储化学式，忽略下标，将所有数字转化为正常字符。同时，可包含英文状态下的括号。数字转为正常字符的含义是一些数字是上下标的字符，会通过去除上下标的HTML标签，进行转换。针对括号，英文状态的括号和中文状态的括号，其ASCII码不同，可通过判断ASCII码进行转换。

本实施例构建化合物数据库和生成检索模型均包括化合物化学式的转换，在规范的化学式书写中，每一个元素中，有且仅有一个大写字母，因此可以根据大写字母进行元素分离；同时，化学式中的数字均修饰的数字前的元素。本实施例基于上述背景规则，将输入字符串进行分割，并存储至数组中，转换过程包括以下步骤：将化合物化学式的字符串进行分割，并存储至数组中；对数组中元素进行去重，计算数组的长度值，其长度值即为元素数量；判断化合物化学式的字符串是否存在括号，若存在括号则将括号外的修饰数字分配给括号中每个元素，若不存在括号则直接进入下一步骤；遍历去重后的数组，将遍历出的每种元素与比对字符串依次比对统计；其中，原始输入字符串有括号时比对字符串为经分配修饰数字的化合物化学式字符串，原始输入字符串无括号时比对字符串为原始输入化合物化学式字符串；比对统计过程中将数组中的每种元素与比对字符串依次比对，出现该元素后获取该元素后一位的内容，若后一位的内容为字母或无内容，则累加数为1，若后一位的内容为数字则按数字的数量累加；完成遍历，获得每种元素原子数量。其中，对数组进行去重，并计算数组的长度，长度值就是元素数量；本实施例完成遍历后获得每个元素出现的频次，即每种元素原子数量，在化合物数据库构建阶段完成模型内容填充，并进行存储。

本实施例通过生成检索模型，能够将任何符合规范的化学式，转换为若干个特征值：元素名称、元素数量、每种元素原子数量，基于检索模型的特征值，使用SQL语句进行条件查询，根据SQL语句查询到的数据，以JSON的形式进行传输至Web页面，前端将数据进行渲染。

本实施例在具体实施时，主要包括存储过程和检索过程，其中，存储过程的流程如图3所示，在化合物数据库中配备存储模型以存储数据，在存储过程中，其检索模型的存储过程如下：将化学式以字符串形式存入化学式字符串存储单元中，将化学式分解得到元素数量存储在数组的元素总数栏，将各个元素和其出现的频次，分别存储在元素的元素名称栏和元素原子数量中。检索过程的流程如图4所示，在化合物数据库中配备查询模型以检索数据，用户在查询框中以字符串形式输入化学式，提交检索后，通过分解将化学式分解为元素名称、元素数量、每种元素原子数量，以该数据作为整体，在数据库中查询相应字段。本实施例能实现化合物数据的存储，支持差异化的查询方式，使得不同书写习惯的用户都可以快速找到相关数据，能满足用户的快速查询需求。采用本实施例检索化合物数据时，若出现同分异构体，则将对应用的所有化合物筛选出来，以供用户自行筛选识别。

本实施例用于检索化合物数据时，用户可通过化合物的分子式或结构简式得到待检索化合物中元素名称、元素数量、每种元素原子数量，如乙醇的分子式为C₂H₆O，结构简式为CH₃CH₂OH和C₂H₅OH，如图5及图6所示，无论用户基于分子式还是结构简式获取信息，本实施例基于字符串匹配的查询方式进行检索时，所得到的元素名称均包括C、H、O，所得到的元素数量均为3，所得到的C元素原子数量均为2、H元素原子数量均为6、O元素原子数量均为1。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种化合物检索方法，其特征在于，包括：

基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户；若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户；

所述构建化合物数据库和生成检索模型时化合物的化学式以字符串形式输入；

所述构建化合物数据库和生成检索模型均包括化合物化学式的转换，转换过程包括以下步骤：

将化合物化学式的字符串进行分割，并存储至数组中；

完成遍历，获得每种元素原子数量。

2.根据权利要求1所述的一种化合物检索方法，其特征在于，所述构建化合物数据库包括采集化合物数据，统一采集到的化合物数据样式，清除冗余信息，然后将化合物数据存储至化合物数据库。

3.根据权利要求1所述的一种化合物检索方法，其特征在于，所述化合物数据库基于MongoDB实现。

4.实现权利要求1～3中任意一项所述的一种化合物检索方法的系统，其特征在于，包括：

检索模型生成模块，用于根据用户输入的待检索化合物化学式包含的元素名称、元素数量及每种元素原子数量生成检索模型；

化合物检索模块，用于基于检索模型在化合物数据库中对用户输入的待检索化合物进行检索，若检索到与用户输入一致的化合物，则反馈检索出的化合物数据至用户，若未检索到与用户输入一致的化合物，则反馈未检索到匹配化合物的结论至用户；

将化合物化学式的字符串进行分割，并存储至数组中；

完成遍历，获得每种元素原子数量。