CN110704396A

CN110704396A - 毒物信息库的建立方法、信息检索方法、装置及电子设备

Info

Publication number: CN110704396A
Application number: CN201910922657.6A
Authority: CN
Inventors: 王永安; 骆媛; 全东琴; 杨军; 隋昕
Original assignee: Institute of Pharmacology and Toxicology of AMMS
Current assignee: Institute of Pharmacology and Toxicology of AMMS; Academy of Military Medical Sciences AMMS of PLA
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-17

Abstract

本发明提供了一种毒物信息库的建立方法、信息检索方法、装置及电子设备，涉及毒物信息库技术领域，该方法包括：获取多个预设数据库中的毒物信息，并将获取的毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息；对指定格式的毒物信息执行整理操作，得到整理后的毒物信息；整理操作包括冗余去除操作、重复合并操作、缺失补全操作中的一种或多种；根据整理后的毒物信息建立毒物信息库。本发明可以有效提高获取毒物信息的便捷性。

Description

毒物信息库的建立方法、信息检索方法、装置及电子设备

技术领域

本发明涉及毒物信息库技术领域，尤其是涉及一种毒物信息库的建立方法、信息检索方法、装置及电子设备。

背景技术

随着信息化的发展，毒物信息的管理也进入到信息化时代，已经基于毒物信息建立了许多相关的数据库，诸如美国国家医学图书馆的Toxnet化学物质毒性数据库，HSDB危险化合物数据库等。但是，经发明人研究发现，毒物信息的相关数据库分别储存在世界多个地区服务器中，数量较多，且各个数据库中的相同毒物信息的名称不统一，数据库的质量优劣俱存，造成用户在查找相关毒物信息时需要挨个数据库查找且冗余信息太多、使用不方便。

发明内容

本发明的目的在于提供一种毒物信息库的建立方法、信息检索方法、装置及电子设备，可以有效提高获取毒物信息的便捷性。

第一方面，本发明提供了一种毒物信息库的建立方法，其中，所述方法包括：

获取多个预设数据库中的毒物信息，并将获取的所述毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息；

对所述指定格式的毒物信息执行整理操作，得到整理后的毒物信息；所述整理操作包括冗余去除操作、重复合并操作、缺失补全操作中的一种或多种；

根据所述整理后的毒物信息建立毒物信息库。

进一步的，根据所述整理后的毒物信息建立毒物信息库的步骤之后，所述方法还包括：

按照预设类别对所述毒物信息库中存储的毒物信息进行展示，其中，所述预设类别包括以下中的至少一种：毒物理化性质、相关文献、暴露、疾病、基因、表型、通路、转录组、蛋白组、表观遗传组和代谢组。

进一步的，所述获取多个预设数据库中的毒物信息的步骤，包括：

从多个预设数据库中选取指定数量的数据库作为基础数据库；

提取所述基础数据库中的毒物名称，根据所述基础数据库中的毒物名称建立名称集合；

通过所述名称集合对多个预设数据库中除所述基础数据库之外的其余数据库进行检索，以获取所述毒物信息。

进一步的，所述将获取的所述毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息的步骤包括：

获取所述毒物信息的数据包和说明文档；

根据所述说明文档对所述数据包进行解析，并将解析结果转换为所述指定格式的毒物信息。

进一步的，所述对所述指定格式的毒物信息执行整理操作的步骤包括：

提取所述指定格式的毒物信息中的字段信息和属性信息；

基于python脚本技术对所述字段信息和所述属性信息执行整理操作。

进一步的，所述根据所述整理后的毒物信息建立毒物信息库的步骤包括：

将所述整理后的毒物信息划分为不同类型的数据表单；

基于数据表单中的关键词和关联信息对所述不同类型的数据表单进行关联；

根据关联后的所述不同类型的数据表单建立毒物信息库。

第二方面，本发明提供了一种信息检索方法，其中，所述方法包括：

如果接收到检索关键词，基于所述检索关键词，从毒物信息库中采用预设匹配算法进行检索，得到匹配信息；其中，所述毒物信息库是采用如第一方面所述的方法建立得到的；所述匹配算法包括模糊匹配算法和/或基于python语言的最似单词检索算法；

将所述匹配信息作为检索结果。

第三方面，本发明提供了一种毒物信息库的建立装置，其中，所述装置包括：

转换单元，用于获取多个预设数据库中的毒物信息，并将获取的所述毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息；

整理单元，用于对所述指定格式的毒物信息执行整理操作，得到整理后的毒物信息；所述整理操作包括冗余去除操作、重复合并操作、缺失补全操作中的一种或多种；

毒物信息库建立单元，用于根据所述整理后的毒物信息建立毒物信息库。

第四方面，本发明提供了一种电子设备，其中，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现第一方面所述的毒物信息库的建立方法的步骤或第二方面所述的信息检索方法的步骤。

第五方面，本发明提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行第一方面所述的毒物信息库的建立方法的步骤或第二方面所述的信息检索方法的步骤。

本发明实施例带来了以下有益效果：

本发明提供了一种毒物信息库的建立方法、信息检索方法、装置及电子设备，该方法包括：首先获取多个预设数据库中的毒物信息，并将获取的毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息；然后对指定格式的毒物信息执行整理操作(包括冗余去除操作、重复合并操作、缺失补全操作中的一种或多种)，得到整理后的毒物信息；最后根据整理后的毒物信息建立毒物信息库。在本实施例提供的上述方式中，能够通过获取多个预设数据库中的毒物信息进行转换得到指定格式的毒物信息，格式统一化便于提取信息，然后对指定格式的毒物信息执行整理操作去除冗余信息、合并重复信息或补充缺失信息，以使毒物信息统一完整，进而建立一个新的毒物信息库，从而有效缓解了在查找相关毒物信息时需要挨个数据库查找且冗余信息太多、使用不方便的问题，提高了获取毒物信息的便捷性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种毒物信息库的建立方法流程图；

图2为本发明实施例二提供的一种信息检索方法流程图；

图3为本发明实施例三提供的一种毒物信息库的建立装置示意图；

图4为本发明实施例提供的一种服务器的结构示意图。

图标：301-转换单元；302-整理单元；303-毒物信息库建立单元；400-处理器；401-存储器；402-总线；403-通信接口。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了改善现有技术中，毒物信息的相关数据库分别储存在世界多个地区服务器中，数量较多，且各个数据库中的相同毒物信息的名称不统一，数据库的质量优劣俱存，造成用户在查找相关毒物信息时需要挨个数据库查找且冗余信息太多、检索效率低、使用不方便的问题，本发明实施例提供了一种毒物信息库的建立方法、信息检索方法、装置及电子设备，该技术通过获取多个预设数据库中的毒物信息进行转换得到指定格式的毒物信息，然后对指定格式的毒物信息执行整理操作去除冗余信息、合并重复信息和补充缺失信息，以使毒物信息统一完整，进而建立一个新的毒物信息库，有效提高了获取毒物信息的便捷性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种脑网络模型建立方法进行详细介绍。

实施例一：

参照图1所示的一种毒物信息库的建立方法流程图，可以由诸如计算机、处理器等电子设备执行，该方法主要包括如下步骤S101～步骤S103：

步骤S101，获取多个预设数据库中的毒物信息，并将获取的毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息。

在一种具体的实施方式中，步骤S101相当于数据的收集与解析的过程，其中多个预设数据库包括HSDB数据库、CTD数据库、T3DB数据库、Pubchem数据库、Drugbank数据库、TOXLINE数据库、HMDB数据库、GEO数据库和L1000数据库。其中HSDB数据库、CTD数据库和T3DB数据库是基础数据库，用于提供毒物名称集合，并以此集合为检索条件，从其他剩余的不同数据库中检索出毒物相关的多维度信息。另外，HSDB数据库收录了6059种危险化学品的毒理学数据，提供了关于化学品的应急处理程序、工业卫生、环境灾害、人体暴露、检测方法和法规要求等信息；CTD数据库收录了许多描述跨物种化学基因或蛋白质相互作用，化学-疾病关系以及基因-疾病关系的数据。这些研究结果有助于了解潜在、可变的易感性和环境影响疾病的分子机理，还有助于了解化学基因和蛋白质之间复杂的相互作用网络；T3DB数据库收录毒素及其靶标，该数据库收集了3678个毒物、2073个对应的毒性靶标记录、42374个毒素-毒素靶标关系对，其毒物来源包括杀虫剂、毒物、污染剂和食品毒物，另外还提供了每种毒素的毒理学机制和对应的靶标蛋白。

步骤S102，对指定格式的毒物信息执行整理操作，得到整理后的毒物信息。其中，整理操作包括冗余去除操作、重复合并操作、缺失补全操作中的一种或多种。

在一种具体的实施方式中，步骤S102相当于数据清洗和整合的过程，从多个数据库收集到的毒物信息可能会存在重复、冗余、缺失等情况，需进行去除冗余、补全缺失信息等数据整合操作。包括将毒物名称来源的三个基础数据库的毒物名称通过多维度进行去冗余重复。同时通过对多个数据库检索，进行结构、生物学活性、疾病、基因、转录组、蛋白组、代谢组、表观遗传组等多维度信息的整合。

步骤S103，根据整理后的毒物信息建立毒物信息库。

在一种具体的实施方式中，步骤S103相当于毒物信息库表单设计及信息库数据模型构建的过程，根据整理后的毒物信息，构建对应的数据表单，主要包含：毒物基本信息表、hsdb信息表、CTD_chemicals信息表、CTD_chemicals_diseases信息表、CTD_gene信息表、CTD_chemicals_pheno信息表、CTD_pid_cid_all信息表、CTD_chemicals_GO信息表、CTD_chemicals_pathway信息表、toxline信息表、t3db信息表、hsdb信息表、转录组数据信息表、表观遗传组数据信息表。将这些表单信息关联最终构建毒物信息库。其中，毒物基本信息表，包括毒物的名称及包含数据类型。例如search_name(检索用毒物名称)，mark(毒物包含的数据类型)。其他表单均以search_name为关联键，储存该毒物的多维度信息。

在本实施例提供的上述方式中，能够通过获取多个预设数据库中的毒物信息进行转换得到指定格式的毒物信息，格式统一化便于提取信息，然后对指定格式的毒物信息执行整理操作去除冗余信息、合并重复信息或补充缺失信息，以使毒物信息统一完整，进而建立一个新的毒物信息库，从而有效缓解了在查找相关毒物信息时需要挨个数据库查找且冗余信息太多、使用不方便的问题，提高了获取毒物信息的便捷性。

在具体实施时，根据整理后的毒物信息建立毒物信息库的步骤之后，该方法还包括：按照预设类别对毒物信息库中存储的毒物信息进行展示，其中，预设类别包括以下中的至少一种：毒物理化性质、相关文献、暴露、疾病、基因、表型、通路、转录组、蛋白组、表观遗传组和代谢组。

在本实施例提供的上述方式中，可以向用户展示相关的毒物信息。

在具体实施时，获取多个预设数据库中的毒物信息的步骤，参见如下步骤一至步骤三：

步骤一：从多个预设数据库中选取指定数量的数据库作为基础数据库。

步骤二：提取基础数据库中的毒物名称，根据基础数据库中的毒物名称建立名称集合。

步骤三：通过名称集合对多个预设数据库中除基础数据库之外的其余数据库进行检索，以获取毒物信息。

在本实施例提供的上述方式中，可以将多个数据库中的毒物信息进行合并。

在具体实施时，将获取的毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息的步骤，参见如下步骤一至步骤二：

步骤一：获取毒物信息的数据包和说明文档。

步骤二：根据说明文档对数据包进行解析，并将解析结果转换为指定格式的毒物信息。

在本实施例提供的上述方式中，可以对毒物信息的格式进行统一化以方便解析其中的信息。

在一种具体的实施方式中，不同数据库提供的数据格式多种多样，相关数据格式种类包括诸如xml、txt、csv、tsv等多种格式，从官方网站下载数据包，并同时下载相应说明文档，对数据包的数据根据相应的说明文档提供的字段编写python脚本进行解析，并将结果统一保存为诸如json格式。本发明所涉及的数据来源尽可能的广泛。

例如，以HSDB数据库数据获取为例，登陆HSDB数据库网站，在https://www.nlm.nih.gov/databases/download/hsdb.html页面下载相对应的xml文件，采用python语言的xmltodict模块，对该xml文件进行解析，并保存为json格式文件，获得HSDB数据库中所需要的毒物所有信息。

在具体实施时，对指定格式的毒物信息执行整理操作的步骤，参见如下步骤一至步骤二：

步骤一：提取指定格式的毒物信息中的字段信息和属性信息。

步骤二：基于python脚本技术对字段信息和属性信息执行整理操作。

在本实施例提供的上述方式中，可以是毒物信息去除冗余和重复内容，并补充缺失内容，使毒物信息更完善。

在具体实施时，根据整理后的毒物信息建立毒物信息库的步骤，参见如下步骤一至步骤三：

步骤一：将整理后的毒物信息划分为不同类型的数据表单。

步骤二：基于数据表单中的关键词和关联信息对不同类型的数据表单进行关联。

步骤三：根据关联后的不同类型的数据表单建立毒物信息库。

在本实施例提供的上述方式中，可以通过数据表单关联后建立毒物信息库，以使毒物信息库中的信息方便检索。

在一种具体的实施方式中，根据数据表单中一些检索的关键词，可链接到外部数据库，数据表单还包括关联信息，用于不同数据表单之间建立关联，诸如某个蛋白组的数据表单包括了蛋白质关联的某种代谢信息，那么蛋白组的数据表单就会与该代谢信息的数据表单进行关联，在检索蛋白质的时候，该代谢信息的数据表单中的信息也会被检索出来。本毒物信息库的建立采用Node.js+Express+Mongodb框架。Node.js是运行在服务端的JavaScript，是一个基于Chrome V8引擎的JavaScript运行环境。Node.js用了一个事件驱动、非阻塞式I/O的模型，使其轻量又高效，Node.js的包管理器npm，是全球最大的开源库生态系统。Express是一个基于Node.js平台的极简、灵活的web应用开发框架，可以创建各多种Web和移动设备应用；丰富的HTTP快捷方法和任意排列组合的Connect中间件，使得创建健壮、友好的API变得既快速又简单；Express不对Node.js已有的特性进行二次抽象，只是在它之上扩展了Web应用所需的基本功能。MongoDB是由C++语言编写的一个基于分布式文件存储的开源数据库系统；在高负载的情况下，添加更多的节点，可以保证服务器性能；MongoDB用于为WEB应用提供可扩展的高性能数据存储解决方案；MongoDB将数据存储为一个文档，数据结构由键值(key＝>value)对组成；MongoDB文档类似于JSON对象。字段值可以包含其他文档、数组及文档数组。首先下载安装Node.js，在PATH环境变量中配置Node.js，新建本数据库express项目，上传项目代码到svn版本控制器上，并记录链接，安装Mongodb数据库，通过关联数据表、整理数据表与模块展示数据的对应关系，并导入数据。

实施例二：

参照图2所示的一种信息检索方法流程图，可以由诸如计算机、处理器等电子设备执行，该方法主要包括如下步骤S201～步骤S202：

步骤S201，如果接收到检索关键词，基于检索关键词，从毒物信息库中采用模糊匹配算法进行检索，得到匹配信息。其中，毒物信息库是采用实施例一中的方法建立得到的，匹配算法包括模糊匹配算法和/或基于python语言的最似单词检索算法。

步骤S202，将匹配信息作为检索结果。

在本实施例提供的上述方式中，可以在无检索结果是查看相似的毒物信息。

在一种具体的实施方式中，输入匹配的信息不仅仅限于所提供的毒物的名称，通过对毒物信息的整合，增加检索词所包括的范围(比如提供相关毒物信息的同义词的搜索等)，另外根据毒物名称拼写易出现错误的特性，当没有可匹配的毒物名称及同义词等信息时提供了拼写检查纠错提醒。

实施例三：

参照图3所示的一种毒物信息库的建立装置，该装置包括：

转换单元301，用于获取多个预设数据库中的毒物信息，并将获取的毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息。

整理单元302，用于对指定格式的毒物信息执行整理操作，得到整理后的毒物信息；整理操作包括冗余去除操作、重复合并操作、缺失补全操作中的一种或多种。

毒物信息库建立单元303，用于根据整理后的毒物信息建立毒物信息库。

在本实施例提供的上述装置，能够通过获取多个预设数据库中的毒物信息进行转换得到指定格式的毒物信息，格式统一化便于提取信息，然后对指定格式的毒物信息执行整理操作去除冗余信息、合并重复信息或补充缺失信息，以使毒物信息统一完整，进而建立一个新的毒物信息库，从而有效缓解了在查找相关毒物信息时需要挨个数据库查找且冗余信息太多、使用不方便的问题，提高了获取毒物信息的便捷性。

在具体实施时，该装置还用于按照预设类别对毒物信息库中存储的毒物信息进行展示，其中，预设类别包括以下中的至少一种：毒物理化性质、相关文献、暴露、疾病、基因、表型、通路、转录组、蛋白组、表观遗传组和代谢组。

在具体实施时，转换单元301还用于从多个预设数据库中选取指定数量的数据库作为基础数据库；提取基础数据库中的毒物名称，根据基础数据库中的毒物名称建立名称集合；通过名称集合对多个预设数据库中除基础数据库之外的其余数据库进行检索，以获取毒物信息。

在具体实施时，转换单元301还用于获取毒物信息的数据包和说明文档；根据说明文档对所述数据包进行解析，并将解析结果转换为指定格式的毒物信息。

在具体实施时，整理单元302还用于提取指定格式的毒物信息中的字段信息和属性信息；基于python脚本技术对字段信息和属性信息执行整理操作。

在具体实施时，毒物信息库建立单元303还用于将整理后的毒物信息划分为不同类型的数据表单；基于数据表单中的关键词和关联信息对不同类型的数据表单进行关联；根据关联后的不同类型的数据表单建立毒物信息库。

本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现实施例一毒物信息库的建立方法的步骤和实施例二信息检索方法的步骤。

图4为本发明实施例提供的一种服务器的结构示意图，该服务器包括：处理器400，存储器401，总线402和通信接口403，所述处理器400、通信接口403和存储器401通过总线402连接；处理器400用于执行存储器401中存储的可执行模块，例如计算机程序。

其中，存储器401可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线402可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器401用于存储程序，所述处理器400在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器400中，或者由处理器400实现。

处理器400可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401，处理器400读取存储器401中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其中，计算机程序被处理器运行时执行实施例一毒物信息库的建立方法的步骤和实施例二信息检索方法的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种毒物信息库的建立方法，其特征在于，所述方法包括：

根据所述整理后的毒物信息建立毒物信息库。

2.根据权利要求1所述的方法，其特征在于，根据所述整理后的毒物信息建立毒物信息库的步骤之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取多个预设数据库中的毒物信息的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述将获取的所述毒物信息的格式均统一转换为指定格式，得到指定格式的毒物信息的步骤包括：

获取所述毒物信息的数据包和说明文档；

5.根据权利要求1所述的方法，其特征在于，所述对所述指定格式的毒物信息执行整理操作的步骤包括：

提取所述指定格式的毒物信息中的字段信息和属性信息；

6.根据权利要求1所述的方法，其特征在于，所述根据所述整理后的毒物信息建立毒物信息库的步骤包括：

将所述整理后的毒物信息划分为不同类型的数据表单；

根据关联后的所述不同类型的数据表单建立毒物信息库。

7.一种信息检索方法，其特征在于，所述方法包括：

如果接收到检索关键词，基于所述检索关键词，从毒物信息库中采用预设匹配算法进行检索，得到匹配信息；其中，所述毒物信息库是采用如权利要求1至6任一项所述的方法建立得到的；所述匹配算法包括模糊匹配算法和/或基于python语言的最似单词检索算法；

将所述匹配信息作为检索结果。

8.一种毒物信息库的建立装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的毒物信息库的建立方法的步骤或权利要求7所述的信息检索方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的毒物信息库的建立方法的步骤或权利要求7所述的信息检索方法的步骤。