CN116860909A

CN116860909A - 基于生化知识图谱的数据存储方法、系统及存储介质

Info

Publication number: CN116860909A
Application number: CN202311126509.6A
Authority: CN
Inventors: 何加铭; 郑韶伟; 王家功; 韩祺; 金錱; 李思; 张佳丽; 杨雨霏; 杨邦赛; 江文玲; 王萍华; 朱韬; 余伟康; 杨元杰
Original assignee: Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Current assignee: Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-10-10
Anticipated expiration: 2043-09-04
Also published as: CN116860909B

Abstract

本发明提供基于生化知识图谱的数据存储方法、系统及存储介质，涉及知识图谱存储技术领域，包括如下步骤：步骤S1，获取生化知识中的生化实体、实体关系、实体属性以及属性值；步骤S2，对生化实体进行分析；步骤S3，设置多台存储服务器；步骤S4，对不同生化分类中的生化实体进行分析；步骤S5，对搜索语句进行分析，得到用户的搜索实体；步骤S6，对搜索实体进行分析；本发明用于解决现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的情况，导致数据的查询成本增加以及表内存在大量重复数据的问题。

Description

基于生化知识图谱的数据存储方法、系统及存储介质

技术领域

本发明涉及知识图谱存储技术领域，尤其涉及基于生化知识图谱的数据存储方法、系统及存储介质。

背景技术

知识图谱存储技术，是指用于存储和管理知识图谱数据的技术和方法，知识图谱是一种结构化的知识表示方式，它通过将实体、属性和关系以图的形式进行组织和表达，能够描述现实世界中的事物及其之间的关系，知识图谱存储技术旨在解决知识图谱数据的存储、索引、查询和推理等方面的问题。

现有的知识图谱存储技术在通过表进行存储时，通常都是将所有数据存放到一张三元组表内或是众多类型表内，导致单表存储数据量过大且查询成本较高，或导致类型表众多，且多类型表内会存在大量重复数据，增加了数据存储量，比如在申请公开号为：“CN109726296A”的中国专利中，公开了“基于知识图谱的海量知识资源存储方法”，该方案在对知识进行存储时，就仅用了一张三元组表，导致单表存储数据量过大且查询成本较高，现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的情况，导致数据的查询成本增加以及表内存在大量重复数据的问题。

发明内容

针对现有技术存在的不足，本发明提供了基于生化知识图谱的数据存储方法，能够将生化知识进行分类并分配到不同的存储服务器内，再对生化实体进行分类，通过分类结果将其录入不同的三元组表内进行存储，以解决现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的情况，导致数据的查询成本增加以及表内存在大量重复数据的问题。

为了实现上述目的，第一方面，本发明提供基于生化知识图谱的数据存储方法，包括如下步骤：

步骤S1，获取生化知识中的生化实体、实体关系、实体属性以及属性值；

步骤S2，对生化实体进行分析，判断生化实体的生化分类；

步骤S3，设置多台存储服务器，每台存储服务器内存储一种生化分类；

步骤S4，对不同生化分类中的生化实体进行分析，将生化实体分别存储于不同的三元组表中；

步骤S5，对生化知识图谱进行检索时，获取用户输入的搜索语句，对搜索语句进行分析，得到用户的搜索实体；

步骤S6，对搜索实体进行分析，判断搜索实体所处的存储服务器以及三元组表，并对其进行搜索。

进一步地，所述步骤S1包括如下子步骤：

步骤S101，接收用户输入的实体数据，所述实体数据包括第一实体数据类以及第二实体数据类，所述第一实体数据类包括两个生化实体以及一个实体关系；所述第二实体数据类包括一个生化实体、实体属性以及属性值；

步骤S102，将第一实体数据类中的生化实体按照输入顺序依次标记为第一生化实体以及第二生化实体，将第二实体数据类中的生化实体标记为第三生化实体。

进一步地，所述步骤S2包括如下子步骤：

步骤S201，读取知识领域数据库，将第一生化实体以及第三生化实体与知识领域数据库内的生化分类进行查找比对，获取第一生化实体以及第三生化实体所属的生化分类，所述生化分类包括生物学、化工学以及生物化学。

进一步地，所述步骤S3包括如下子步骤：

步骤S301，设置第一服务器数量的存储服务器，对存储服务器进行命名，分别命名为生物存储服务器、化工存储服务器以及生化存储服务器；

步骤S302，将生物学的实体数据存储进入生物存储服务器，将化工学的实体数据存储进入化工存储服务器，将生物化学的实体数据存储进入生化存储服务器。

进一步地，所述步骤S4包括如下子步骤：

步骤S401，存储服务器接收到实体数据后，获取实体数据；

步骤S402，若实体数据为第一实体数据类，则使用第一数据分析法进行存储分析；

步骤S403，若实体数据为第二实体数据，则使用第二数据分析法进行存储分析。

进一步地，所述第一数据分析法包括如下子步骤：

步骤S4021，获取第一生化实体的名称，标记为第一实体名称；

步骤S4022，将第一实体名称转换为拼音，获取首字母并转换为大写字母，标记为实体首字母；

步骤S4023，将第一实体数据类按照实体首字母进行分类，建立三元组表，将实体首字母相同的实体数据存入相同的三元组表，将三元组表命名为三元组表X，所述X为与实体首字母对应的大写字母；

步骤S4024，获取第二生化实体的名称，标记为第二实体名称；

步骤S4025，获取第二实体名称的实体首字母，标记为查重首字母，查找存储的第一实体数据类的实体首字母为查重首字母的三元组表，标记为查重数据表，查重表中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系；

步骤S4026，查找查重数据表中第一查重实体与第二生化实体相同且第二查重实体与第一生化实体相同的实体数据，获取其查重关系，将查重关系与实体关系进行比对，若查重关系与实体关系相同，则输出数据重复信号；若查重关系与实体关系不同，则输出数据未重复信号；

步骤S4027，若输出数据重复信号，则将重复数据表内对应的实体数据删除；若输出数据未重复信号，则保留重复数据表内对应的实体数据。

进一步地，所述第二数据分析法包括如下子步骤：

步骤S4031，获取第三生化实体的名称，标记为第三实体名称；

步骤S4032，获取第三实体名称的实体首字母；

步骤S4033，将第二实体数据按照实体首字母分类存入对应的三元组表中。

进一步地，所述步骤S5包括如下子步骤：

步骤S501，获取用户的搜索语句；

步骤S502，通过SOTA模型提取搜索语句中的搜索数据，所述搜索数据包括第一搜索数据、第二搜索数据以及第三搜索数据；所述第一搜索数据包括第一搜索实体以及第二搜索实体，所述第二搜索数据包括第一搜索实体以及搜索关系，所述第三搜索数据包括第一搜索实体以及搜索属性。

进一步地，所述步骤S6包括如下子步骤：

步骤S601，获取第一搜索实体并与知识领域数据库进行比对，判断搜索数据的生化分类并读取对应的存储服务器，获取第一搜索实体的实体首字母，查找与实体首字母对应的三元组表；

步骤S602，若搜索数据为第一搜索数据，则检索三元组表内是否存在第一生化实体与第一搜索实体相同且第二生化实体与第二搜索实体相同的实体数据，若存在，则输出数据已获取信号；若不存在，则输出数据不存在信号；

步骤S603，若输出数据已获取信号，则获取实体关系并发送至用户端；若输出数据不存在信号，则将第一搜索实体更改为第二搜索实体，同时将第二搜索实体更改为第一搜索实体，重新执行步骤S601至步骤S602的分析，若再次输出数据不存在信号，则发送数据补充信号至管理员；

步骤S604，若搜索数据为第二搜索数据，则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索关系与实体关系相同的实体数据，若存在，则获取属性值并发送至用户端；若不存在，则发送数据补充信号至管理人员；

步骤S605，若搜索数据为第三搜索数据，则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索属性与实体属性相同的实体数据，若存在，则获取第二生化实体并发送至用户端；若不存在，则发送数据补充信号至管理人员。

第二方面，本发明提供基于生化知识图谱的数据存储系统，包括生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块；所述生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块相互之间进行数据连接；

所述生化数据获取模块包括生化知识获取单元以及搜索信息获取单元，所述生化知识获取单元用于获取生化实体、实体关系、实体属性以及属性值；所述搜索信息获取单元用于获取用户的搜索语句；

所述存储分析模块包括实体分类分析单元以及实体存储分析单元，所述实体分类分析单元用于对生化实体进行分类，得到生化实体的生化分类；所述实体存储分析单元用于分析生化分类以及生化实体，得到生化实体应存入的三元组表；

所述生化知识存储模块用于对生化知识进行分类存储；

所述搜索分析模块包括搜索语句分析单元以及搜索实体查找单元，所述搜索语句分析单元用于分析用户的搜索语句，得到搜索实体；所述搜索实体查找单元用于对搜索实体进行查找。

第三方面，本申请提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上所述方法中的步骤。

第四方面，本申请提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行如上所述方法中的步骤。

本发明的有益效果：本发明通过对生化实体进行分析，判断其生化分类，再根据生化分类将对应的生化数据发送到不同的存储服务器内进行存储，优势在于，可以将繁杂的生化知识进行分类存储，在检索时只需找到对应存储服务器即可节省大量检索时间，提高了数据存储的合理性以及数据检索的高效性；

本发明通过对存储服务器设置一定数量的三元组表，每个三元组表内存储一种实体首字母，再对生化实体的实体首字母进行分析，将生化数据存储到对应的三元组表内，优势在于，存储完成后，若需要对数据进行检索，只需找到其所属的存储服务器并分析其实体首字母，就能够快速地对数据进行检索，避免了大量的无效搜索，进一步提高了数据存储的合理性以及数据检索的高效性；

本发明通过对一组生化数据中的生化实体进行分析，判断不同的三元组表内是否存在重复数据并及时删除，优势在于，可以避免存储大量的重复数据，提高了数据存储的唯一性。

本发明附加方面的优点将在下面的具体实施方式的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的方法的步骤流程图；

图2为本发明的分析实体数据所属三元组表的分析步骤流程图；

图3为本发明的数据查重的步骤流程图；

图4为本发明的系统的原理框图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

实施例一

本发明提供了基于生化知识图谱的数据存储方法，能够将生化知识进行分类并分配到不同的存储服务器内，再对生化实体进行分类，通过分类结果将其录入不同的三元组表内进行存储，以解决现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的问题，导致数据的查询成本增加以及表内存在大量重复数据的问题。

请参阅图1所示，基于生化知识图谱的数据存储方法包括如下步骤：

步骤S1，获取生化知识中的生化实体、实体关系、实体属性以及属性值；步骤S1包括如下子步骤：

步骤S101，接收用户输入的实体数据，实体数据包括第一实体数据类以及第二实体数据类，第一实体数据类包括两个生化实体以及一个实体关系；第二实体数据类包括一个生化实体、实体属性以及属性值；

步骤S102，将第一实体数据类中的生化实体按照输入顺序依次标记为第一生化实体以及第二生化实体，将第二实体数据类中的生化实体标记为第三生化实体；

具体实施中，获取到用户输入了第一实体数据类，获取到第一生化实体为“叶绿素”，第二生化实体为“叶绿体”，实体关系为“叶绿体是包含叶绿素的质体”。

步骤S2，对生化实体进行分析，判断生化实体的生化分类；步骤S2包括如下子步骤：

步骤S201，读取知识领域数据库，将第一生化实体以及第三生化实体与知识领域数据库内的生化分类进行查找比对，获取第一生化实体以及第三生化实体所属的生化分类，生化分类包括生物学、化工学以及生物化学；

具体实施中，读取知识领域数据库，获取到第一生化实体“叶绿素”的生化分类为生物学。

步骤S3，设置多台存储服务器，每台存储服务器内存储一种生化分类；步骤S3包括如下子步骤：

步骤S302，将生物学的实体数据存储进入生物存储服务器，将化工学的实体数据存储进入化工存储服务器，将生物化学的实体数据存储进入生化存储服务器；

具体实施中，第一服务器数量设置为3，检测到用户输入了生物学的实体数据，则将实体数据存储进入生物存储服务器。

请参阅图2所示，步骤S4，对不同生化分类中的生化实体进行分析，将生化实体分别存储于不同的三元组表中；步骤S4包括如下子步骤：

步骤S401，存储服务器接收到实体数据后，获取实体数据；

具体实施中，获取到的实体数据为第一实体数据类：叶绿素；第二实体数据类：叶绿体；实体关系：叶绿体是包含叶绿素的质体；

步骤S402，若实体数据为第一实体数据类，则使用第一数据分析法进行存储分析；由于实体与实体之间的关系是可逆的，因此若用户输入实体的顺序不同，将会导致三元组表内存在大量的重复数据，因此需要对重复数据进行检测并及时删除，减小数据的存储量；

第一数据分析法包括如下子步骤：

步骤S4023，将第一实体数据类按照实体首字母进行分类，建立三元组表，将实体首字母相同的实体数据存入相同的三元组表，将三元组表命名为三元组表X，X为与实体首字母对应的大写字母；

具体实施中，第一实体名称为叶绿素，将第一实体名称转换为拼音并获取其大写首字母，得到实体首字母为Y，将实体数据存入三元组表Y；

请参阅图3所示，步骤S4025，获取第二实体名称的实体首字母，标记为查重首字母，查找存储的第一实体数据类的实体首字母为查重首字母的三元组表，标记为查重数据表，查重表中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系；

步骤S4027，若输出数据重复信号，则将重复数据表内对应的实体数据删除；若输出数据未重复信号，则保留重复数据表内对应的实体数据；

具体实施中，第二实体名称为叶绿体，获取得到查重首字母为Y，将三元组表Y标记为查重数据表，将三元组表Y中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系，查找得到查重数据表中存在第一查重实体“叶绿体”，第二查重实体“叶绿素”，由于第一查重实体与第二生化实体相同，第二查重实体与第一生化实体相同，则获取其查重关系为“叶绿体是包含叶绿素的质体”，通过比对得到查重关系与实体关系相同，则输出数据重复信号，将三元组表Y内第一生化实体为“叶绿体”，第二生化实体为“叶绿素”，实体关系为“叶绿体是包含叶绿素的质体”的实体数据删除。

步骤S403，若实体数据为第二实体数据类，则使用第二数据分析法进行存储分析；由于实体与属性之间的关系是不可逆的，因此不需要对其进行数据重复的检测；

第二数据分析法包括如下子步骤：

步骤S4032，获取第三实体名称的实体首字母；

步骤S4033，将第二实体数据类按照实体首字母分类存入对应的三元组表中；

具体实施中，获取到用户输入实体数据为第二实体数据类，其中，第三生化实体为“叶绿体”，实体属性为“结构”，属性值为“叶绿体外被、类囊体和基质”，第三实体名称为叶绿体，获取到实体首字母为Y，则将实体数据存入三元组表Y中。

步骤S5，对生化知识图谱进行检索时，获取用户输入的搜索语句，对搜索语句进行分析，得到用户的搜索实体；步骤S5包括如下子步骤：

步骤S501，获取用户的搜索语句；

步骤S502，通过SOTA模型提取搜索语句中的搜索数据，搜索数据包括第一搜索数据、第二搜索数据以及第三搜索数据；第一搜索数据包括第一搜索实体以及第二搜索实体，第二搜索数据包括第一搜索实体以及搜索关系，第三搜索数据包括第一搜索实体以及搜索属性；

具体实施中，SOTA模型采用现有技术中的SOTA模型，用于对语句中的实体以及关系进行提取；获取到用户的搜索语句为“叶绿素与叶绿体之间有什么关系”，通过SOTA模型获取到第一搜索实体“叶绿体”，第二搜索实体“叶绿素”，得到搜索数据为第一搜索数据。

步骤S6，对搜索实体进行分析，判断搜索实体所处的存储服务器以及三元组表，并对其进行搜索；步骤S6包括如下子步骤：

具体实施中，获取到第一搜索实体为“叶绿体”，通过查找知识领域数据库得到搜索数据的生化分类为生物学，则读取生物存储服务器，获取到第一搜索实体的实体首字母为Y，则读取三元组表Y；

具体实施中，查找三元组表Y中不存在第一生化实体为“叶绿体”以及第二生化实体为“叶绿素”的实体数据，则输出数据不存在信号，将第一搜索实体更改为“叶绿素”，第二搜索实体更改为“叶绿体”，查找三元组表Y中存在第一生化实体为“叶绿素”以及第二生化实体为“叶绿体”的实体数据，则输出数据已获取信号，获取实体关系并发送至用户端；

步骤S605，若搜索数据为第三搜索数据，则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索属性与实体属性相同的实体数据，若存在，则获取第二生化实体并发送至用户端；若不存在，则发送数据补充信号至管理人员；

具体实施中，获取到搜索数据：第一搜索实体为“叶绿体”，实体属性为“结构”，检索三元组表Y中存在第一生化实体为“叶绿体”以及实体属性为“结构”的实体数据，由于第一生化实体与第一搜索实体相同且搜索关系与实体关系相同，则获取属性值发送至用户端。

实施例二

请参阅图4所示，本发明提供基于生化知识图谱的数据存储系统，包括生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块；生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块相互之间进行数据连接；

生化数据获取模块包括生化知识获取单元以及搜索信息获取单元，生化知识获取单元用于获取生化实体、实体关系、实体属性以及属性值；搜索信息获取单元用于获取用户的搜索语句；

存储分析模块包括实体分类分析单元以及实体存储分析单元，实体分类分析单元用于对生化实体进行分类，得到生化实体的生化分类；实体存储分析单元用于分析生化分类以及生化实体，得到生化实体应存入的三元组表；

生化知识存储模块用于对生化知识进行分类存储；

搜索分析模块包括搜索语句分析单元以及搜索实体查找单元，搜索语句分析单元用于分析用户的搜索语句，得到搜索实体；搜索实体查找单元用于对搜索实体进行查找。

实施例三

第三方面，本申请提供一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，处理器和存储器通过通信总线和/或其他形式的连接机构（未标出）互连并相互通讯，存储器存储有处理器可执行的计算机程序，当电子设备运行时，处理器执行该计算机程序，以执行时执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：获取生化知识中的生化实体、实体关系、实体属性以及属性值；对生化实体进行分析；设置多台存储服务器；对不同生化分类中的生化实体进行分析；对搜索语句进行分析，得到用户的搜索实体；对搜索实体进行分析。

实施例四

第四方面，本申请提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：获取生化知识中的生化实体、实体关系、实体属性以及属性值；对生化实体进行分析；设置多台存储服务器；对不同生化分类中的生化实体进行分析；对搜索语句进行分析，得到用户的搜索实体；对搜索实体进行分析。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static RandomAccess Memory，简称SRAM），电可擦除可编程只读存储器（Electrically ErasableProgrammable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（ErasableProgrammable Red Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-OnlyMemory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于生化知识图谱的数据存储方法，其特征在于，包括如下步骤：

步骤S2，对生化实体进行分析，判断生化实体的生化分类；

2.根据权利要求1所述的基于生化知识图谱的数据存储方法，其特征在于，所述步骤S1包括如下子步骤：

3.根据权利要求2所述的基于生化知识图谱的数据存储方法，其特征在于，所述步骤S2包括如下子步骤：

4.根据权利要求3所述的基于生化知识图谱的数据存储方法，其特征在于，所述步骤S3包括如下子步骤：

5.根据权利要求4所述的基于生化知识图谱的数据存储方法，其特征在于，所述步骤S4包括如下子步骤：

步骤S401，存储服务器接收到实体数据后，获取实体数据；

6.根据权利要求5所述的基于生化知识图谱的数据存储方法，其特征在于，所述第一数据分析法包括如下子步骤：

7.根据权利要求6所述的基于生化知识图谱的数据存储方法，其特征在于，所述第二数据分析法包括如下子步骤：

步骤S4032，获取第三实体名称的实体首字母；

8.根据权利要求7所述的基于生化知识图谱的数据存储方法，其特征在于，所述步骤S5包括如下子步骤：

步骤S501，获取用户的搜索语句；

9.根据权利要求8所述的基于生化知识图谱的数据存储方法，其特征在于，所述步骤S6包括如下子步骤：

10.根据权利要求1-9任意一项所述的基于生化知识图谱的数据存储方法的系统，其特征在于，包括生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块；所述生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块相互之间进行数据连接；

所述生化知识存储模块用于对生化知识进行分类存储；

11.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-9任一项所述方法中的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，运行如权利要求1-9任一项所述方法中的步骤。