CN116860909A - 基于生化知识图谱的数据存储方法、系统及存储介质 - Google Patents

基于生化知识图谱的数据存储方法、系统及存储介质 Download PDF

Info

Publication number
CN116860909A
CN116860909A CN202311126509.6A CN202311126509A CN116860909A CN 116860909 A CN116860909 A CN 116860909A CN 202311126509 A CN202311126509 A CN 202311126509A CN 116860909 A CN116860909 A CN 116860909A
Authority
CN
China
Prior art keywords
entity
biochemical
data
search
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311126509.6A
Other languages
English (en)
Other versions
CN116860909B (zh
Inventor
何加铭
郑韶伟
王家功
韩祺
金錱
李思
张佳丽
杨雨霏
杨邦赛
江文玲
王萍华
朱韬
余伟康
杨元杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Original Assignee
Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Yongheng Yaoyao Intelligent Technology Co ltd filed Critical Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority to CN202311126509.6A priority Critical patent/CN116860909B/zh
Publication of CN116860909A publication Critical patent/CN116860909A/zh
Application granted granted Critical
Publication of CN116860909B publication Critical patent/CN116860909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于生化知识图谱的数据存储方法、系统及存储介质,涉及知识图谱存储技术领域,包括如下步骤:步骤S1,获取生化知识中的生化实体、实体关系、实体属性以及属性值;步骤S2,对生化实体进行分析;步骤S3,设置多台存储服务器;步骤S4,对不同生化分类中的生化实体进行分析;步骤S5,对搜索语句进行分析,得到用户的搜索实体;步骤S6,对搜索实体进行分析;本发明用于解决现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的情况,导致数据的查询成本增加以及表内存在大量重复数据的问题。

Description

基于生化知识图谱的数据存储方法、系统及存储介质
技术领域
本发明涉及知识图谱存储技术领域,尤其涉及基于生化知识图谱的数据存储方法、系统及存储介质。
背景技术
知识图谱存储技术,是指用于存储和管理知识图谱数据的技术和方法,知识图谱是一种结构化的知识表示方式,它通过将实体、属性和关系以图的形式进行组织和表达,能够描述现实世界中的事物及其之间的关系,知识图谱存储技术旨在解决知识图谱数据的存储、索引、查询和推理等方面的问题。
现有的知识图谱存储技术在通过表进行存储时,通常都是将所有数据存放到一张三元组表内或是众多类型表内,导致单表存储数据量过大且查询成本较高,或导致类型表众多,且多类型表内会存在大量重复数据,增加了数据存储量,比如在申请公开号为:“CN109726296A”的中国专利中,公开了“基于知识图谱的海量知识资源存储方法”,该方案在对知识进行存储时,就仅用了一张三元组表,导致单表存储数据量过大且查询成本较高,现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的情况,导致数据的查询成本增加以及表内存在大量重复数据的问题。
发明内容
针对现有技术存在的不足,本发明提供了基于生化知识图谱的数据存储方法,能够将生化知识进行分类并分配到不同的存储服务器内,再对生化实体进行分类,通过分类结果将其录入不同的三元组表内进行存储,以解决现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的情况,导致数据的查询成本增加以及表内存在大量重复数据的问题。
为了实现上述目的,第一方面,本发明提供基于生化知识图谱的数据存储方法,包括如下步骤:
步骤S1,获取生化知识中的生化实体、实体关系、实体属性以及属性值;
步骤S2,对生化实体进行分析,判断生化实体的生化分类;
步骤S3,设置多台存储服务器,每台存储服务器内存储一种生化分类;
步骤S4,对不同生化分类中的生化实体进行分析,将生化实体分别存储于不同的三元组表中;
步骤S5,对生化知识图谱进行检索时,获取用户输入的搜索语句,对搜索语句进行分析,得到用户的搜索实体;
步骤S6,对搜索实体进行分析,判断搜索实体所处的存储服务器以及三元组表,并对其进行搜索。
进一步地,所述步骤S1包括如下子步骤:
步骤S101,接收用户输入的实体数据,所述实体数据包括第一实体数据类以及第二实体数据类,所述第一实体数据类包括两个生化实体以及一个实体关系;所述第二实体数据类包括一个生化实体、实体属性以及属性值;
步骤S102,将第一实体数据类中的生化实体按照输入顺序依次标记为第一生化实体以及第二生化实体,将第二实体数据类中的生化实体标记为第三生化实体。
进一步地,所述步骤S2包括如下子步骤:
步骤S201,读取知识领域数据库,将第一生化实体以及第三生化实体与知识领域数据库内的生化分类进行查找比对,获取第一生化实体以及第三生化实体所属的生化分类,所述生化分类包括生物学、化工学以及生物化学。
进一步地,所述步骤S3包括如下子步骤:
步骤S301,设置第一服务器数量的存储服务器,对存储服务器进行命名,分别命名为生物存储服务器、化工存储服务器以及生化存储服务器;
步骤S302,将生物学的实体数据存储进入生物存储服务器,将化工学的实体数据存储进入化工存储服务器,将生物化学的实体数据存储进入生化存储服务器。
进一步地,所述步骤S4包括如下子步骤:
步骤S401,存储服务器接收到实体数据后,获取实体数据;
步骤S402,若实体数据为第一实体数据类,则使用第一数据分析法进行存储分析;
步骤S403,若实体数据为第二实体数据,则使用第二数据分析法进行存储分析。
进一步地,所述第一数据分析法包括如下子步骤:
步骤S4021,获取第一生化实体的名称,标记为第一实体名称;
步骤S4022,将第一实体名称转换为拼音,获取首字母并转换为大写字母,标记为实体首字母;
步骤S4023,将第一实体数据类按照实体首字母进行分类,建立三元组表,将实体首字母相同的实体数据存入相同的三元组表,将三元组表命名为三元组表X,所述X为与实体首字母对应的大写字母;
步骤S4024,获取第二生化实体的名称,标记为第二实体名称;
步骤S4025,获取第二实体名称的实体首字母,标记为查重首字母,查找存储的第一实体数据类的实体首字母为查重首字母的三元组表,标记为查重数据表,查重表中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系;
步骤S4026,查找查重数据表中第一查重实体与第二生化实体相同且第二查重实体与第一生化实体相同的实体数据,获取其查重关系,将查重关系与实体关系进行比对,若查重关系与实体关系相同,则输出数据重复信号;若查重关系与实体关系不同,则输出数据未重复信号;
步骤S4027,若输出数据重复信号,则将重复数据表内对应的实体数据删除;若输出数据未重复信号,则保留重复数据表内对应的实体数据。
进一步地,所述第二数据分析法包括如下子步骤:
步骤S4031,获取第三生化实体的名称,标记为第三实体名称;
步骤S4032,获取第三实体名称的实体首字母;
步骤S4033,将第二实体数据按照实体首字母分类存入对应的三元组表中。
进一步地,所述步骤S5包括如下子步骤:
步骤S501,获取用户的搜索语句;
步骤S502,通过SOTA模型提取搜索语句中的搜索数据,所述搜索数据包括第一搜索数据、第二搜索数据以及第三搜索数据;所述第一搜索数据包括第一搜索实体以及第二搜索实体,所述第二搜索数据包括第一搜索实体以及搜索关系,所述第三搜索数据包括第一搜索实体以及搜索属性。
进一步地,所述步骤S6包括如下子步骤:
步骤S601,获取第一搜索实体并与知识领域数据库进行比对,判断搜索数据的生化分类并读取对应的存储服务器,获取第一搜索实体的实体首字母,查找与实体首字母对应的三元组表;
步骤S602,若搜索数据为第一搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且第二生化实体与第二搜索实体相同的实体数据,若存在,则输出数据已获取信号;若不存在,则输出数据不存在信号;
步骤S603,若输出数据已获取信号,则获取实体关系并发送至用户端;若输出数据不存在信号,则将第一搜索实体更改为第二搜索实体,同时将第二搜索实体更改为第一搜索实体,重新执行步骤S601至步骤S602的分析,若再次输出数据不存在信号,则发送数据补充信号至管理员;
步骤S604,若搜索数据为第二搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索关系与实体关系相同的实体数据,若存在,则获取属性值并发送至用户端;若不存在,则发送数据补充信号至管理人员;
步骤S605,若搜索数据为第三搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索属性与实体属性相同的实体数据,若存在,则获取第二生化实体并发送至用户端;若不存在,则发送数据补充信号至管理人员。
第二方面,本发明提供基于生化知识图谱的数据存储系统,包括生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块;所述生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块相互之间进行数据连接;
所述生化数据获取模块包括生化知识获取单元以及搜索信息获取单元,所述生化知识获取单元用于获取生化实体、实体关系、实体属性以及属性值;所述搜索信息获取单元用于获取用户的搜索语句;
所述存储分析模块包括实体分类分析单元以及实体存储分析单元,所述实体分类分析单元用于对生化实体进行分类,得到生化实体的生化分类;所述实体存储分析单元用于分析生化分类以及生化实体,得到生化实体应存入的三元组表;
所述生化知识存储模块用于对生化知识进行分类存储;
所述搜索分析模块包括搜索语句分析单元以及搜索实体查找单元,所述搜索语句分析单元用于分析用户的搜索语句,得到搜索实体;所述搜索实体查找单元用于对搜索实体进行查找。
第三方面,本申请提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上所述方法中的步骤。
第四方面,本申请提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上所述方法中的步骤。
本发明的有益效果:本发明通过对生化实体进行分析,判断其生化分类,再根据生化分类将对应的生化数据发送到不同的存储服务器内进行存储,优势在于,可以将繁杂的生化知识进行分类存储,在检索时只需找到对应存储服务器即可节省大量检索时间,提高了数据存储的合理性以及数据检索的高效性;
本发明通过对存储服务器设置一定数量的三元组表,每个三元组表内存储一种实体首字母,再对生化实体的实体首字母进行分析,将生化数据存储到对应的三元组表内,优势在于,存储完成后,若需要对数据进行检索,只需找到其所属的存储服务器并分析其实体首字母,就能够快速地对数据进行检索,避免了大量的无效搜索,进一步提高了数据存储的合理性以及数据检索的高效性;
本发明通过对一组生化数据中的生化实体进行分析,判断不同的三元组表内是否存在重复数据并及时删除,优势在于,可以避免存储大量的重复数据,提高了数据存储的唯一性。
本发明附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的方法的步骤流程图;
图2为本发明的分析实体数据所属三元组表的分析步骤流程图;
图3为本发明的数据查重的步骤流程图;
图4为本发明的系统的原理框图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
实施例一
本发明提供了基于生化知识图谱的数据存储方法,能够将生化知识进行分类并分配到不同的存储服务器内,再对生化实体进行分类,通过分类结果将其录入不同的三元组表内进行存储,以解决现有的知识图谱存储技术还存在单表存储数据过大以及类型表数量过多的问题,导致数据的查询成本增加以及表内存在大量重复数据的问题。
请参阅图1所示,基于生化知识图谱的数据存储方法包括如下步骤:
步骤S1,获取生化知识中的生化实体、实体关系、实体属性以及属性值;步骤S1包括如下子步骤:
步骤S101,接收用户输入的实体数据,实体数据包括第一实体数据类以及第二实体数据类,第一实体数据类包括两个生化实体以及一个实体关系;第二实体数据类包括一个生化实体、实体属性以及属性值;
步骤S102,将第一实体数据类中的生化实体按照输入顺序依次标记为第一生化实体以及第二生化实体,将第二实体数据类中的生化实体标记为第三生化实体;
具体实施中,获取到用户输入了第一实体数据类,获取到第一生化实体为“叶绿素”,第二生化实体为“叶绿体”,实体关系为“叶绿体是包含叶绿素的质体”。
步骤S2,对生化实体进行分析,判断生化实体的生化分类;步骤S2包括如下子步骤:
步骤S201,读取知识领域数据库,将第一生化实体以及第三生化实体与知识领域数据库内的生化分类进行查找比对,获取第一生化实体以及第三生化实体所属的生化分类,生化分类包括生物学、化工学以及生物化学;
具体实施中,读取知识领域数据库,获取到第一生化实体“叶绿素”的生化分类为生物学。
步骤S3,设置多台存储服务器,每台存储服务器内存储一种生化分类;步骤S3包括如下子步骤:
步骤S301,设置第一服务器数量的存储服务器,对存储服务器进行命名,分别命名为生物存储服务器、化工存储服务器以及生化存储服务器;
步骤S302,将生物学的实体数据存储进入生物存储服务器,将化工学的实体数据存储进入化工存储服务器,将生物化学的实体数据存储进入生化存储服务器;
具体实施中,第一服务器数量设置为3,检测到用户输入了生物学的实体数据,则将实体数据存储进入生物存储服务器。
请参阅图2所示,步骤S4,对不同生化分类中的生化实体进行分析,将生化实体分别存储于不同的三元组表中;步骤S4包括如下子步骤:
步骤S401,存储服务器接收到实体数据后,获取实体数据;
具体实施中,获取到的实体数据为第一实体数据类:叶绿素;第二实体数据类:叶绿体;实体关系:叶绿体是包含叶绿素的质体;
步骤S402,若实体数据为第一实体数据类,则使用第一数据分析法进行存储分析;由于实体与实体之间的关系是可逆的,因此若用户输入实体的顺序不同,将会导致三元组表内存在大量的重复数据,因此需要对重复数据进行检测并及时删除,减小数据的存储量;
第一数据分析法包括如下子步骤:
步骤S4021,获取第一生化实体的名称,标记为第一实体名称;
步骤S4022,将第一实体名称转换为拼音,获取首字母并转换为大写字母,标记为实体首字母;
步骤S4023,将第一实体数据类按照实体首字母进行分类,建立三元组表,将实体首字母相同的实体数据存入相同的三元组表,将三元组表命名为三元组表X,X为与实体首字母对应的大写字母;
具体实施中,第一实体名称为叶绿素,将第一实体名称转换为拼音并获取其大写首字母,得到实体首字母为Y,将实体数据存入三元组表Y;
步骤S4024,获取第二生化实体的名称,标记为第二实体名称;
请参阅图3所示,步骤S4025,获取第二实体名称的实体首字母,标记为查重首字母,查找存储的第一实体数据类的实体首字母为查重首字母的三元组表,标记为查重数据表,查重表中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系;
步骤S4026,查找查重数据表中第一查重实体与第二生化实体相同且第二查重实体与第一生化实体相同的实体数据,获取其查重关系,将查重关系与实体关系进行比对,若查重关系与实体关系相同,则输出数据重复信号;若查重关系与实体关系不同,则输出数据未重复信号;
步骤S4027,若输出数据重复信号,则将重复数据表内对应的实体数据删除;若输出数据未重复信号,则保留重复数据表内对应的实体数据;
具体实施中,第二实体名称为叶绿体,获取得到查重首字母为Y,将三元组表Y标记为查重数据表,将三元组表Y中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系,查找得到查重数据表中存在第一查重实体“叶绿体”,第二查重实体“叶绿素”,由于第一查重实体与第二生化实体相同,第二查重实体与第一生化实体相同,则获取其查重关系为“叶绿体是包含叶绿素的质体”,通过比对得到查重关系与实体关系相同,则输出数据重复信号,将三元组表Y内第一生化实体为“叶绿体”,第二生化实体为“叶绿素”,实体关系为“叶绿体是包含叶绿素的质体”的实体数据删除。
步骤S403,若实体数据为第二实体数据类,则使用第二数据分析法进行存储分析;由于实体与属性之间的关系是不可逆的,因此不需要对其进行数据重复的检测;
第二数据分析法包括如下子步骤:
步骤S4031,获取第三生化实体的名称,标记为第三实体名称;
步骤S4032,获取第三实体名称的实体首字母;
步骤S4033,将第二实体数据类按照实体首字母分类存入对应的三元组表中;
具体实施中,获取到用户输入实体数据为第二实体数据类,其中,第三生化实体为“叶绿体”,实体属性为“结构”,属性值为“叶绿体外被、类囊体和基质”,第三实体名称为叶绿体,获取到实体首字母为Y,则将实体数据存入三元组表Y中。
步骤S5,对生化知识图谱进行检索时,获取用户输入的搜索语句,对搜索语句进行分析,得到用户的搜索实体;步骤S5包括如下子步骤:
步骤S501,获取用户的搜索语句;
步骤S502,通过SOTA模型提取搜索语句中的搜索数据,搜索数据包括第一搜索数据、第二搜索数据以及第三搜索数据;第一搜索数据包括第一搜索实体以及第二搜索实体,第二搜索数据包括第一搜索实体以及搜索关系,第三搜索数据包括第一搜索实体以及搜索属性;
具体实施中,SOTA模型采用现有技术中的SOTA模型,用于对语句中的实体以及关系进行提取;获取到用户的搜索语句为“叶绿素与叶绿体之间有什么关系”,通过SOTA模型获取到第一搜索实体“叶绿体”,第二搜索实体“叶绿素”,得到搜索数据为第一搜索数据。
步骤S6,对搜索实体进行分析,判断搜索实体所处的存储服务器以及三元组表,并对其进行搜索;步骤S6包括如下子步骤:
步骤S601,获取第一搜索实体并与知识领域数据库进行比对,判断搜索数据的生化分类并读取对应的存储服务器,获取第一搜索实体的实体首字母,查找与实体首字母对应的三元组表;
具体实施中,获取到第一搜索实体为“叶绿体”,通过查找知识领域数据库得到搜索数据的生化分类为生物学,则读取生物存储服务器,获取到第一搜索实体的实体首字母为Y,则读取三元组表Y;
步骤S602,若搜索数据为第一搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且第二生化实体与第二搜索实体相同的实体数据,若存在,则输出数据已获取信号;若不存在,则输出数据不存在信号;
步骤S603,若输出数据已获取信号,则获取实体关系并发送至用户端;若输出数据不存在信号,则将第一搜索实体更改为第二搜索实体,同时将第二搜索实体更改为第一搜索实体,重新执行步骤S601至步骤S602的分析,若再次输出数据不存在信号,则发送数据补充信号至管理员;
具体实施中,查找三元组表Y中不存在第一生化实体为“叶绿体”以及第二生化实体为“叶绿素”的实体数据,则输出数据不存在信号,将第一搜索实体更改为“叶绿素”,第二搜索实体更改为“叶绿体”,查找三元组表Y中存在第一生化实体为“叶绿素”以及第二生化实体为“叶绿体”的实体数据,则输出数据已获取信号,获取实体关系并发送至用户端;
步骤S604,若搜索数据为第二搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索关系与实体关系相同的实体数据,若存在,则获取属性值并发送至用户端;若不存在,则发送数据补充信号至管理人员;
步骤S605,若搜索数据为第三搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索属性与实体属性相同的实体数据,若存在,则获取第二生化实体并发送至用户端;若不存在,则发送数据补充信号至管理人员;
具体实施中,获取到搜索数据:第一搜索实体为“叶绿体”,实体属性为“结构”,检索三元组表Y中存在第一生化实体为“叶绿体”以及实体属性为“结构”的实体数据,由于第一生化实体与第一搜索实体相同且搜索关系与实体关系相同,则获取属性值发送至用户端。
实施例二
请参阅图4所示,本发明提供基于生化知识图谱的数据存储系统,包括生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块;生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块相互之间进行数据连接;
生化数据获取模块包括生化知识获取单元以及搜索信息获取单元,生化知识获取单元用于获取生化实体、实体关系、实体属性以及属性值;搜索信息获取单元用于获取用户的搜索语句;
存储分析模块包括实体分类分析单元以及实体存储分析单元,实体分类分析单元用于对生化实体进行分类,得到生化实体的生化分类;实体存储分析单元用于分析生化分类以及生化实体,得到生化实体应存入的三元组表;
生化知识存储模块用于对生化知识进行分类存储;
搜索分析模块包括搜索语句分析单元以及搜索实体查找单元,搜索语句分析单元用于分析用户的搜索语句,得到搜索实体;搜索实体查找单元用于对搜索实体进行查找。
实施例三
第三方面,本申请提供一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,处理器和存储器通过通信总线和/或其他形式的连接机构(未标出)互连并相互通讯,存储器存储有处理器可执行的计算机程序,当电子设备运行时,处理器执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:获取生化知识中的生化实体、实体关系、实体属性以及属性值;对生化实体进行分析;设置多台存储服务器;对不同生化分类中的生化实体进行分析;对搜索语句进行分析,得到用户的搜索实体;对搜索实体进行分析。
实施例四
第四方面,本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:获取生化知识中的生化实体、实体关系、实体属性以及属性值;对生化实体进行分析;设置多台存储服务器;对不同生化分类中的生化实体进行分析;对搜索语句进行分析,得到用户的搜索实体;对搜索实体进行分析。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Red Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.基于生化知识图谱的数据存储方法,其特征在于,包括如下步骤:
步骤S1,获取生化知识中的生化实体、实体关系、实体属性以及属性值;
步骤S2,对生化实体进行分析,判断生化实体的生化分类;
步骤S3,设置多台存储服务器,每台存储服务器内存储一种生化分类;
步骤S4,对不同生化分类中的生化实体进行分析,将生化实体分别存储于不同的三元组表中;
步骤S5,对生化知识图谱进行检索时,获取用户输入的搜索语句,对搜索语句进行分析,得到用户的搜索实体;
步骤S6,对搜索实体进行分析,判断搜索实体所处的存储服务器以及三元组表,并对其进行搜索。
2.根据权利要求1所述的基于生化知识图谱的数据存储方法,其特征在于,所述步骤S1包括如下子步骤:
步骤S101,接收用户输入的实体数据,所述实体数据包括第一实体数据类以及第二实体数据类,所述第一实体数据类包括两个生化实体以及一个实体关系;所述第二实体数据类包括一个生化实体、实体属性以及属性值;
步骤S102,将第一实体数据类中的生化实体按照输入顺序依次标记为第一生化实体以及第二生化实体,将第二实体数据类中的生化实体标记为第三生化实体。
3.根据权利要求2所述的基于生化知识图谱的数据存储方法,其特征在于,所述步骤S2包括如下子步骤:
步骤S201,读取知识领域数据库,将第一生化实体以及第三生化实体与知识领域数据库内的生化分类进行查找比对,获取第一生化实体以及第三生化实体所属的生化分类,所述生化分类包括生物学、化工学以及生物化学。
4.根据权利要求3所述的基于生化知识图谱的数据存储方法,其特征在于,所述步骤S3包括如下子步骤:
步骤S301,设置第一服务器数量的存储服务器,对存储服务器进行命名,分别命名为生物存储服务器、化工存储服务器以及生化存储服务器;
步骤S302,将生物学的实体数据存储进入生物存储服务器,将化工学的实体数据存储进入化工存储服务器,将生物化学的实体数据存储进入生化存储服务器。
5.根据权利要求4所述的基于生化知识图谱的数据存储方法,其特征在于,所述步骤S4包括如下子步骤:
步骤S401,存储服务器接收到实体数据后,获取实体数据;
步骤S402,若实体数据为第一实体数据类,则使用第一数据分析法进行存储分析;
步骤S403,若实体数据为第二实体数据,则使用第二数据分析法进行存储分析。
6.根据权利要求5所述的基于生化知识图谱的数据存储方法,其特征在于,所述第一数据分析法包括如下子步骤:
步骤S4021,获取第一生化实体的名称,标记为第一实体名称;
步骤S4022,将第一实体名称转换为拼音,获取首字母并转换为大写字母,标记为实体首字母;
步骤S4023,将第一实体数据类按照实体首字母进行分类,建立三元组表,将实体首字母相同的实体数据存入相同的三元组表,将三元组表命名为三元组表X,X为与实体首字母对应的大写字母;
步骤S4024,获取第二生化实体的名称,标记为第二实体名称;
步骤S4025,获取第二实体名称的实体首字母,标记为查重首字母,查找存储的第一实体数据类的实体首字母为查重首字母的三元组表,标记为查重数据表,查重表中的第一生化实体、第二生化实体以及实体关系分别标记为第一查重实体、第二查重实体以及查重关系;
步骤S4026,查找查重数据表中第一查重实体与第二生化实体相同且第二查重实体与第一生化实体相同的实体数据,获取其查重关系,将查重关系与实体关系进行比对,若查重关系与实体关系相同,则输出数据重复信号;若查重关系与实体关系不同,则输出数据未重复信号;
步骤S4027,若输出数据重复信号,则将重复数据表内对应的实体数据删除;若输出数据未重复信号,则保留重复数据表内对应的实体数据。
7.根据权利要求6所述的基于生化知识图谱的数据存储方法,其特征在于,所述第二数据分析法包括如下子步骤:
步骤S4031,获取第三生化实体的名称,标记为第三实体名称;
步骤S4032,获取第三实体名称的实体首字母;
步骤S4033,将第二实体数据按照实体首字母分类存入对应的三元组表中。
8.根据权利要求7所述的基于生化知识图谱的数据存储方法,其特征在于,所述步骤S5包括如下子步骤:
步骤S501,获取用户的搜索语句;
步骤S502,通过SOTA模型提取搜索语句中的搜索数据,所述搜索数据包括第一搜索数据、第二搜索数据以及第三搜索数据;所述第一搜索数据包括第一搜索实体以及第二搜索实体,所述第二搜索数据包括第一搜索实体以及搜索关系,所述第三搜索数据包括第一搜索实体以及搜索属性。
9.根据权利要求8所述的基于生化知识图谱的数据存储方法,其特征在于,所述步骤S6包括如下子步骤:
步骤S601,获取第一搜索实体并与知识领域数据库进行比对,判断搜索数据的生化分类并读取对应的存储服务器,获取第一搜索实体的实体首字母,查找与实体首字母对应的三元组表;
步骤S602,若搜索数据为第一搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且第二生化实体与第二搜索实体相同的实体数据,若存在,则输出数据已获取信号;若不存在,则输出数据不存在信号;
步骤S603,若输出数据已获取信号,则获取实体关系并发送至用户端;若输出数据不存在信号,则将第一搜索实体更改为第二搜索实体,同时将第二搜索实体更改为第一搜索实体,重新执行步骤S601至步骤S602的分析,若再次输出数据不存在信号,则发送数据补充信号至管理员;
步骤S604,若搜索数据为第二搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索关系与实体关系相同的实体数据,若存在,则获取属性值并发送至用户端;若不存在,则发送数据补充信号至管理人员;
步骤S605,若搜索数据为第三搜索数据,则检索三元组表内是否存在第一生化实体与第一搜索实体相同且搜索属性与实体属性相同的实体数据,若存在,则获取第二生化实体并发送至用户端;若不存在,则发送数据补充信号至管理人员。
10.根据权利要求1-9任意一项所述的基于生化知识图谱的数据存储方法的系统,其特征在于,包括生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块;所述生化数据获取模块、存储分析模块、生化知识存储模块以及搜索分析模块相互之间进行数据连接;
所述生化数据获取模块包括生化知识获取单元以及搜索信息获取单元,所述生化知识获取单元用于获取生化实体、实体关系、实体属性以及属性值;所述搜索信息获取单元用于获取用户的搜索语句;
所述存储分析模块包括实体分类分析单元以及实体存储分析单元,所述实体分类分析单元用于对生化实体进行分类,得到生化实体的生化分类;所述实体存储分析单元用于分析生化分类以及生化实体,得到生化实体应存入的三元组表;
所述生化知识存储模块用于对生化知识进行分类存储;
所述搜索分析模块包括搜索语句分析单元以及搜索实体查找单元,所述搜索语句分析单元用于分析用户的搜索语句,得到搜索实体;所述搜索实体查找单元用于对搜索实体进行查找。
11.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-9任一项所述方法中的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-9任一项所述方法中的步骤。
CN202311126509.6A 2023-09-04 2023-09-04 基于生化知识图谱的数据存储方法、系统及存储介质 Active CN116860909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311126509.6A CN116860909B (zh) 2023-09-04 2023-09-04 基于生化知识图谱的数据存储方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311126509.6A CN116860909B (zh) 2023-09-04 2023-09-04 基于生化知识图谱的数据存储方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116860909A true CN116860909A (zh) 2023-10-10
CN116860909B CN116860909B (zh) 2023-12-22

Family

ID=88221933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311126509.6A Active CN116860909B (zh) 2023-09-04 2023-09-04 基于生化知识图谱的数据存储方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116860909B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020261944A1 (ja) * 2019-06-27 2020-12-30 ソニー株式会社 情報処理装置および情報処理方法
CN112328771A (zh) * 2020-11-19 2021-02-05 广州极飞科技有限公司 服务信息输出方法、装置、服务器及存储介质
KR20210130976A (ko) * 2020-04-23 2021-11-02 주식회사 케이티 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램
CN113779178A (zh) * 2021-09-13 2021-12-10 国网电子商务有限公司 基于知识图谱的数据存储方法和装置
CN114691845A (zh) * 2022-02-22 2022-07-01 北京市农林科学院 语义搜索方法、装置、电子设备、存储介质及产品
CN115080710A (zh) * 2022-03-01 2022-09-20 达而观信息科技(上海)有限公司 一种自适应不同领域知识图谱的智能问答系统及其构建方法
US20230065468A1 (en) * 2021-08-27 2023-03-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for automatic generation and update of knowledge graph from multi-modal sources
CN116108194A (zh) * 2022-11-23 2023-05-12 中国人民解放军国防科技大学 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020261944A1 (ja) * 2019-06-27 2020-12-30 ソニー株式会社 情報処理装置および情報処理方法
KR20210130976A (ko) * 2020-04-23 2021-11-02 주식회사 케이티 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램
CN112328771A (zh) * 2020-11-19 2021-02-05 广州极飞科技有限公司 服务信息输出方法、装置、服务器及存储介质
US20230065468A1 (en) * 2021-08-27 2023-03-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for automatic generation and update of knowledge graph from multi-modal sources
CN113779178A (zh) * 2021-09-13 2021-12-10 国网电子商务有限公司 基于知识图谱的数据存储方法和装置
CN114691845A (zh) * 2022-02-22 2022-07-01 北京市农林科学院 语义搜索方法、装置、电子设备、存储介质及产品
CN115080710A (zh) * 2022-03-01 2022-09-20 达而观信息科技(上海)有限公司 一种自适应不同领域知识图谱的智能问答系统及其构建方法
CN116108194A (zh) * 2022-11-23 2023-05-12 中国人民解放军国防科技大学 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周宇;廖思琴;: "科学数据语义描述研究述评", 图书情报工作, no. 12 *
文元桥;张奇;肖长诗;韩栋;: "危险货物水路运输知识图谱的构建", 中国航海, no. 04 *

Also Published As

Publication number Publication date
CN116860909B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
Serafino et al. True scale-free networks hidden by finite size effects
CN111506498B (zh) 测试用例的自动生成方法、装置、计算机设备及存储介质
CN103620601B (zh) 在映射缩减过程中汇合表
CN102077201A (zh) 用于网页的动态及实时归类的系统及方法
CN111401700A (zh) 一种数据分析方法、装置、计算机系统及可读存储介质
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
CN113965389A (zh) 一种基于防火墙日志的网络安全管理方法、设备及介质
CN112328802A (zh) 数据处理方法、装置和服务器
US9037609B1 (en) Method for determining access of queries
CN113515703A (zh) 信息推荐方法、装置、电子设备及可读存储介质
US10509809B1 (en) Constructing ground truth when classifying data
US20180067938A1 (en) Method and system for determining a measure of overlap between data entries
CN116127047B (zh) 企业信息库的建立方法与装置
CN116860909B (zh) 基于生化知识图谱的数据存储方法、系统及存储介质
US20140195462A1 (en) Data management system and tool
CN108711073B (zh) 用户分析方法、装置及终端
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN113536788A (zh) 信息处理方法、装置、存储介质及设备
Rowe Associating drives based on their artifact and metadata distributions
CN106681524A (zh) 一种信息处理的方法及装置
CN113722334B (zh) 数据处理的方法、装置、电子设备及介质
CN112711480B (zh) 数据链路解析方法及系统
CN110765118B (zh) 一种数据的修订方法、修订装置及可读存储介质
CN113901332B (zh) 任职历程信息挖掘方法和装置、以及存储介质和电子设备
Beach A Methodology to Identify Alternative Suitable NoSQL Data Models via Observation of Relational Database Interactions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data storage method, system, and storage medium based on biochemical knowledge graph

Granted publication date: 20231222

Pledgee: China Everbright Bank Co.,Ltd. Ningbo Branch

Pledgor: Ningbo Yongheng Yaoyao Intelligent Technology Co.,Ltd.

Registration number: Y2024980041817