CN116226197B

CN116226197B - 一种快速匹配的侗医药数据库及数据检索方法

Info

Publication number: CN116226197B
Application number: CN202310198026.0A
Authority: CN
Inventors: 王晓乔; 张在其; 尹辉明; 郑钦方
Original assignee: Hunan University of Medicine
Current assignee: Hunan University of Medicine
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-12-15
Anticipated expiration: 2043-03-03
Also published as: CN116226197A

Abstract

本发明涉及用于信息检索的数据库结构技术领域，尤其涉及一种快速匹配的侗医药数据库及数据检索方法。该侗医药数据库包括：数据存储系统，存储有现有药物分子式及其作用靶点；前端数据提取系统，用于获取待检索分子式以及待检索分子式的来源侗药；后端数据提取系统，用于根据来源侗药确定待检索分子式的关联疾病，并根据关联疾病确定治疗关联疾病的作用靶点以组成检索靶点集合，从数据存储系统中筛选出具有检索靶点集合中的作用靶点的现有药物分子式组成中间数据集；数据比较系统，用于将待检索分子式与中间数据集中的现有药物分子式进行比较以获取最为接近的现有药物分子式。本发明提供的侗医药数据库及数据检索方法可以提高检索速度。

Description

一种快速匹配的侗医药数据库及数据检索方法

技术领域

本发明涉及用于信息检索的数据库结构技术领域，尤其涉及一种快速匹配的侗医药数据库及数据检索方法。

背景技术

侗医药是传统中医药的一种，而侗药通常来自于野生植物。

在传统医学现代化发展的过程中，需要对使用到的侗药的成分进行研究，确定侗药真正的活性成分，并明确该活性成分的作用靶点。

为节约研究时间，现有技术是在研究人员从侗药中提取出新的化学成分后，将该化学成分与目前已公开的药物成分进行比较，通过比较得到现有最为接近的药物成分，进而根据该药物成分推测该新提取出的化学成分的作用靶点。

但是现有的药物成分繁多，从一种侗药中提取出的新化学成分也很多，并且化学成分的匹配也需要占用大量的计算资源，医药数据库在多请求和高并发的状态下，采用传统多线程遍历检索的方式，需要消耗大量的计算资源，检索的速度缓慢。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种快速匹配的侗医药数据库及数据检索方法，可以节约计算资源，提高检索的速度。

第一方面，本发明提供了一种快速匹配的侗医药数据库，所述侗医药数据库包括：

数据存储系统，所述数据存储系统存储有现有药物分子式及其对应的作用靶点；

前端数据提取系统，所述前端数据提取系统用于获取用户提供的待检索分子式以及待检索分子式的来源侗药；

后端数据提取系统，所述后端数据提取系统用于根据所述来源侗药确定待检索分子式的关联疾病，并根据所述关联疾病确定治疗所述关联疾病的作用靶点以组成检索靶点集合，从数据存储系统中筛选出具有检索靶点集合中的作用靶点的现有药物分子式组成中间数据集；

数据比较系统，所述数据比较系统用于将待检索分子式与中间数据集中的现有药物分子式进行比较以获取最为接近的现有药物分子式。

可选的，根据所述来源侗药确定待检索分子式的关联疾病包括：

从侗药-关联疾病映射数据库中检索来源侗药对应的关联疾病；

所述侗药-关联疾病映射数据库在通过以下步骤获取侗药的关联疾病后，将侗药及侗药的关联疾病进行组合得到：

获取侗医药处方及其对应疾病；

从侗医药处方获取关联侗药组合；

根据关联侗药组合在不同的侗医药处方中出现的次数确定关联侗药组合的关联疾病；

侗药组合中的侗药的关联疾病被配置为侗药组合的关联疾病。

可选的，从侗医药处方获取关联侗药组合包括：

依次遍历侗医药处方中出现的所有侗药，并执行以下步骤：

获取具有当前遍历的侗药的侗医药处方，形成第一处方集合；

对所述第一处方集合中出现的药物进行频次统计，选取出现频次的排名在第一预设数值以上的药物作为当前遍历药物的配合药物以形成配合药物集合；

将当前遍历的侗药和配合药物集合中的配合药物以第二预设数值构成一组以获得关联侗药组合。

可选的，根据关联侗药组合在不同的侗医药处方中出现的次数确定关联侗药组合的关联疾病，包括以下步骤：

遍历关联侗药组合，并执行以下步骤：

获取具有当前遍历的关联侗药组合的处方，形成第二处方集合；

对所述第二处方集合中侗医药处方对应的疾病进行统计以得到侗药组合的关联疾病。

可选的，构成中间数据集的现有药物分子式具有第三预设数值以上的检索靶点集合中的作用靶点。

可选的，根据所述关联疾病确定治疗所述关联疾病的作用靶点以组成检索靶点集合包括：

从DisGeNet数据库中获得关联疾病的作用靶点。

第二方面，本发明提供了一种数据检索方法，所述数据检索方法包括以下步骤：

获取用户提供的待检索分子式以及待检索分子式的来源侗药；

根据所述来源侗药确定待检索分子式的关联疾病，并根据所述关联疾病确定治疗所述关联疾病的作用靶点以组成检索靶点集合，筛选出具有检索靶点集合中的作用靶点的现有药物分子式组成中间数据集；

将待检索分子式与中间数据集中的现有药物分子式进行比较以获取最为接近的现有药物分子式。

本发明提供的技术方案与现有技术相比具有如下优点：

本发明提供的一种快速匹配的侗医药数据库及数据检索方法通过待检索分子式的来源侗药以及现有的侗医药处方及侗医药处方对应的疾病，确定来源侗药的关联疾病，通过查询得到关联疾病的作用靶点作为检索靶点，将具有检索靶点的现有药物筛选出来形成与待检索分子式最相关的中间数据集，以此减少待检索分子式的检索域。

因此本发明提供的一种快速匹配的侗医药数据库及数据检索方法不需要对侗医药数据库存储的全部分子式进行一一比较，可以减少消耗的计算资源，增加检索的速度。

附图说明

图1为本发明实施例提供的侗医药数据库的应用场景示意图；

图2为本发明实施例提供的侗医药数据库的结构示意图；

图3为本发明实施例提供的数据检索方法的流程示意图。

实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

图1为本发明实施例提供的侗医药数据库的应用场景示意图。

侗医药数据库一般被配置在远程服务器中，在前端数据提取系统接收到用户通过其个人终端向侗医药数据库发送的待检索分子式及待检索分子式的来源侗药后，通过本发明实施例在以下阐述的方法令后端数据提取系统生成与待检索分子式最为关联的检索域形成中间数据集，通过将待检索分子式与中间数据集进行比较和检索，进而避免对侗医药数据库的全部分子式进行全部的遍历比较，因此可以减少消耗的计算资源，增加检索的速度。

图2为本发明实施例提供的侗医药数据库的结构示意图。

在本发明实施例中，侗医药数据库包括以下部分：

数据存储系统，所述数据存储系统存储有现有药物分子式及其对应的作用靶点。

具体的，所述数据存储系统中的现有药物分子式及其对应的作用靶点是可以从公开渠道获得的药品的公开信息，例如可以从美国FDA药品数据库(U.S. FDA DrugsDatabase)或者是商业的DrugBank数据库中获得，在此不再列举。

前端数据提取系统，所述前端数据提取系统用于获取用户提供的待检索分子式以及待检索分子式的来源侗药。

具体的，根据所述来源侗药确定待检索分子式的关联疾病包括：

获取侗医药处方及其对应疾病；

从侗医药处方获取关联侗药组合；

在本发明实施例中，所述侗医药处方及其对应疾病是从医院的病历数据库中直接导出的所有的侗医药处方及侗医药处方对应的疾病。

在本发明实施例中，是通过关联侗药组合在不同的侗医药处方中出现的次数去确定侗药的关联疾病，而不是直接根据侗药在不同的侗医药处方中出现的次数去确定侗药的关联疾病。

由于从医院收集的处方数据并不规则，发病率高的疾病对应的侗医药处方数据会多一些，发病率低的疾病对应的侗医药处方数据会少一些，而侗药有可能是作为协调作用的辅药，与该侗医药处方对应的疾病治疗的作用靶点关联并不大。因此直接统计侗药在侗医药处方中出现的次数去确定侗药的关联疾病的方法准确率并不高。

为了提高得到的侗药的关联疾病的准确性，本发明实施例先通过确定侗药的关联侗药组合的关联疾病进而确定侗药的关联疾病。在实践中，侗药是需要联合使用去治疗某种疾病，这种联合使用是具有固定的搭配，即包含在固定搭配内的侗药可以确定是用于治疗该疾病而不是作为辅药使用的，因此通过先找到关联侗药组合的关联疾病进而去确定侗药的关联疾病的准确性会更高。

具体的，从侗医药处方获取关联侗药组合包括：

依次遍历侗医药处方中出现的所有侗药，并执行以下步骤：

从医院数据库中导出的侗医药处方有很多，依次遍历所有侗医药处方涉及的所有侗药，然后获取具有当前遍历的侗药的侗医药处方，形成第一处方集合；

在本发明实施例中，对所述第一处方集合中出现的药物分别进行在第一处方集合中重复次数的统计后，按由大到小排序即可得到第一处方集合中出现的药物的出现频次排名。

在本发明实施例中，所述第一预设数值为3。在其他实施例中，所述第一预设数值需要根据药物间频次的大小是否相近进行调节，一般是设置为2-5中的任一数值。

在本实施例中，所述第二预设数值为2。在其他实施例中，所述第二预设数值是可以进行调节的，第二预设数值越小中间数据集的数据就越多，一般是设置为2-5中的任一数值。

具体的，根据关联侗药组合在不同的侗医药处方中出现的次数确定关联侗药组合的关联疾病，包括：

遍历关联侗药组合，并执行以下步骤：

获取具有当前遍历的关联侗药组合的侗医药处方，形成第二处方集合；

具体的，将具有当前遍历的关联侗药组合的侗医药处方筛选出来，形成第二处方集合后，对第二处方集合中的处方对应的疾病进行统计即可得到侗药组合的关联疾病。应当注意的是关联疾病并不止限于一个疾病，其可以是第二处方集合涉及到的多个疾病或所有疾病。

具体的，在根据所述关联疾病确定治疗所述关联疾病的作用靶点以组成检索靶点集合中，可以从DisGeNet数据库中获得关联疾病的作用靶点以组成检索靶点集合。

具体的，在本实施例中，构成中间数据集的现有药物分子式具有第三预设数值以上的检索靶点集合中的作用靶点。

所述第三预设数值默认设置为3。在一些其他的实施例中，所述第三预设数值可以通过前端数据提取系统由用户进行设置。

在本实施例中，构成中间数据集的现有药物分子式至少具有第三预设数值以上的检索靶点，以确保中间数据集中的现有药物分子式是与待检索分子式的来源侗药是强相关的。

由于从侗药中提取的新化学成分很多，但真正具有治病效果的化学成分只有极少的部分。本发明实施例通过设置第三预设数值，能够使得中间数据集中的现有药物是与侗药的关联疾病是强相关的。

由于从该侗药中提取的化学物质也是与该侗药的关联疾病是强相关的，若该新提取的化学物质在中间数据集检索后，并没有发现相似的现有药物成分，即可以确定该提取的新化学成分极大概率是无用成分，可以快速试验下一个提取的新化学成分。

并且本发明实施例提供的第三预设数值是可以由用户提供的，用户可以根据自己意愿对第三预设数值进行调节，进而对中间数据集中的数据相关性进行调节，以此实现快速筛查从侗药中提取到的新化学成分。

具体的，数据存储系统中存储的现有药物分子式是以分子指纹的格式进行存储的，在进行数据比较时，先将待检索分子式进行分子指纹化，常用的有ECFP算法或者FCFP算法，采用何种算法需要根据数据存储系统中现有药物分子式的分子指纹的格式进行选择。

在分子指纹化后可以通过计算待检索分子式和现有药物分子式的Tanimoto距离来计算相似性。上述数据比较部分涉及到的技术为现有技术，非本发明实施例提供的技术贡献，在此不在赘述。

选取与待检索分子式相似性最高的现有药物分子式即可获得最为接近的现有药物分子。

需要说明的是，上述实施例提供的侗医药数据库，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器或设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图3为本发明实施例提供的数据检索方法的流程示意图。

S301：获取用户提供的待检索分子式以及待检索分子式的来源侗药；

S302：根据所述来源侗药确定待检索分子式的关联疾病，包括：

获取侗医药处方及其对应疾病；

从侗医药处方获取关联侗药组合；

根据关联侗药组合在不同的侗医药处方中出现的次数确定关联侗药组合的关联疾病，包括以下步骤：

遍历关联侗药组合，并执行以下步骤：

S303：根据所述关联疾病确定治疗所述关联疾病的作用靶点以组成检索靶点集合；

S304：筛选出具有检索靶点集合中的作用靶点的现有药物分子式组成中间数据集；

具体的，构成中间数据集的现有药物分子式具有第三预设数值以上的检索靶点集合中的作用靶点。

S305：将待检索分子式与中间数据集中的现有药物分子式进行比较以获取最为接近的现有药物分子式。

上述实施例提供的方法与侗医药数据库的实施例属于同一构思，其具体实现过程详见装置实施例，这里不再赘述。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种快速匹配的侗医药数据库，其特征在于，所述侗医药数据库包括：

数据比较系统，所述数据比较系统用于将待检索分子式与中间数据集中的现有药物分子式进行比较以获取最为接近的现有药物分子式；

根据所述来源侗药确定待检索分子式的关联疾病包括：

获取侗医药处方及其对应疾病；

从侗医药处方获取关联侗药组合；

2.根据权利要求1所述的一种快速匹配的侗医药数据库，其特征在于，从侗医药处方获取关联侗药组合包括：

依次遍历侗医药处方中出现的所有侗药，并执行以下步骤：

3.根据权利要求1所述的一种快速匹配的侗医药数据库，其特征在于，根据关联侗药组合在不同的侗医药处方中出现的次数确定关联侗药组合的关联疾病，包括以下步骤：

遍历关联侗药组合，并执行以下步骤：

4.根据权利要求1所述的一种快速匹配的侗医药数据库，其特征在于，构成中间数据集的现有药物分子式具有第三预设数值以上的检索靶点集合中的作用靶点。

5.数据检索方法，其特征在于，所述数据检索方法包括以下步骤：

将待检索分子式与中间数据集中的现有药物分子式进行比较以获取最为接近的现有药物分子式；

根据所述来源侗药确定待检索分子式的关联疾病包括：

获取侗医药处方及其对应疾病；

从侗医药处方获取关联侗药组合；

6.根据权利要求5所述的数据检索方法，其特征在于，从侗医药处方获取关联侗药组合包括：

依次遍历侗医药处方中出现的所有侗药，并执行以下步骤：

7.根据权利要求5所述的数据检索方法，其特征在于，根据关联侗药组合在不同的侗医药处方中出现的次数确定关联侗药组合的关联疾病，包括以下步骤：

遍历关联侗药组合，并执行以下步骤：

8.根据权利要求5所述的数据检索方法，其特征在于，构成中间数据集的现有药物分子式具有第三预设数值以上的检索靶点集合中的作用靶点。