CN116467291A

CN116467291A - 一种知识图谱存储与搜索方法及系统

Info

Publication number: CN116467291A
Application number: CN202310246479.6A
Authority: CN
Inventors: 杨超; 高文飞; 张天皓; 张�荣; 刘洋
Original assignee: Beijing Wucoded Technology Co ltd
Current assignee: Beijing Wucoded Technology Co ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-21

Abstract

本发明公开了一种知识图谱存储与搜索方法及系统，根据用户需求收集所需要的政策相关实体及关系数据，并对收集到的数据进行清洗；将获取到的政策相关实体及关系数据构建成知识图谱的图模型，通过图相关算法对图谱的语义信息进行分析和完善，并对图谱进行多维度分析及图谱操作，通过分布式图存储技术实现图数据分散存储于集群中；基于预先构建的查询语言使用搜索引擎或者自然语言处理技术对所述图模型进行检索获取检索结果，并使用可视化工具对检索结果进行可视化处理。该方法能够带来更好的搜索效率和结果准确性，以及更快的可视化查询结果，可以帮助企业更好地理解客户和市场，挖掘潜在的关联关系，策划准确的市场营销策略，从而提高企业的营销效果。

Description

一种知识图谱存储与搜索方法及系统

技术领域

本发明涉及知识图谱技术领域，具体涉及一种知识图谱存储与搜索方法及系统。

背景技术

传统的数据库技术无法有效地搜索结构性和非结构性数据，从而限制了用户对数据的灵活性，也限制了用户对数据的理解和发现数据的价值。知识图谱存储与搜索是一种新型的数据存储和搜索技术，可以帮助用户组织和搜索结构化和非结构化数据，从而更好地提取有价值的信息。它主要用于解决传统数据库技术在搜索结构性和非结构性数据时的限制，使用户能够更快更好地获取有价值的信息。此外，知识图谱存储与搜索技术还能够帮助用户更好地理解数据之间的关系，帮助用户更好地发现数据的价值。

发明内容

为此，本发明提供一种知识图谱存储与搜索方法及系统，以解决传统的数据库技术无法有效地搜索结构性和非结构性数据，从而限制了用户对数据的灵活性，也限制了用户对数据的理解和发现数据的价值的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出一种知识图谱存储与搜索方法，所述方法包括：

根据用户需求收集所需要的政策相关实体及关系数据，所述数据从包括公开数据源、网页爬取、传统数据库的多种数据源中获取，并对收集到的数据进行清洗，包括格式标准化、缺失值处理、脏数据处理；

将获取到的政策相关实体及关系数据构建成知识图谱的图模型，通过图相关算法对图谱的语义信息进行分析和完善并采用数据挖掘算法进行数据挖掘，并对图谱进行多维度分析及图谱操作，通过分布式图存储技术实现图数据分散存储于集群中；

基于预先构建的查询语言使用搜索引擎或者自然语言处理技术对所述图模型进行检索获取检索结果，并使用可视化工具对检索结果进行可视化处理。

进一步地，通过图相关算法对图谱的语义信息进行分析和完善，具体包括：

从包含实体名的自然语言文本中提取出实体名，然后基于实体链接算法，利用文本特征，结合已有的知识图谱信息，匹配知识图谱中的实体节点，并给出匹配得分，最终选择得分最高的实体作为链接结果，实现将文本中的实体名链接到知识图谱中对应的实体节点上；

通过自然语言处理技术分析文本，提取出实体及其在文本中的位置信息；然后基于关系抽取算法，从文本中抽取出实体之间的关系类型及其信任度，最终抽取到的关系信息映射到对应的关系边上，更新知识图谱中的关系信息。

进一步地，采用数据挖掘算法进行数据挖掘，具体包括：

先通过自然语言处理技术预处理文本；然后使用主题建模算法从文本中提取出主题分布和关键词，并将文本归类到不同的主题下；最终根据主题分布和关键词，分析社会热点事件的原因和影响因素，为政府决策提供参考；

首先构建政务管理领域的社交网络，以账号为节点，以粉丝、互动等关系为边；然后基于社交网络分析算法，计算每个节点的网络中心度、介数中心度等指标，发现影响力节点和群组结构；最后分析信息流动路径和传播效果，为政府决策提供参考。

进一步地，对图谱进行多维度分析及图谱操作，具体包括：

通过基于自然语言的检索与推荐，基于图的模式发现功能，实现辅助用户从多维度分析图谱；通过包括图的展开、路径查找、图语言查询的图谱的操作，并为达到业务目标提供决策支持。

进一步地，对图谱进行多维度分析及图谱操作，具体还包括：

通过配置节点样式，实体节点支持多种展示形式；通过BI形式对图分析页面中的实体进行分析；对图谱进行下钻与折叠，对图谱数据进行批量操作。

进一步地，通过分布式图存储技术实现图数据分散存储于集群中，具体包括：

采用分布式图存储和计算方式，支持对接包括neo4j的各主流图数据库，实现图数据分散存储于集群中，为用户提供实时图查询和离线算法分析，支持海量边点的分析和计算。

进一步地，所述方法还包括：

图谱分析结果通过网页端HTML、移动端H5、数据API方式对外部系统提供服务及调用，供业务系统调用，满足各种通用场景；支持包括RESTful的API接口类型。

根据本发明实施例的第二方面，提出一种知识图谱存储与搜索系统，所述系统包括：

数据收集模块，用于根据用户需求收集所需要的政策相关实体及关系数据，所述数据从包括公开数据源、网页爬取、传统数据库的多种数据源中获取；

数据清洗模块，用于对收集到的数据进行清洗，包括格式标准化、缺失值处理、脏数据处理；

图模型构建模块，用于根据获取到的实体及关系数据构建成知识图谱的图模型，通过图相关算法对图谱的语义信息进行分析和完善并采用数据挖掘算法进行数据挖掘，并对图谱进行多维度分析及图谱操作，通过分布式图存储技术实现图数据分散存储于集群中；

模型检索模块，用于基于预先构建的查询语言使用搜索引擎或者自然语言处理技术对所述图模型进行检索获取检索结果；

结果可视化模块，用于使用可视化工具对检索结果进行可视化处理。

根据本发明实施例的第三方面，提出了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如上任一项所述的方法。

根据本发明实施例的第三方面，提出一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种知识图谱存储与搜索系统执行如上任一项所述的方法。

本发明具有如下优点：

本发明提出的一种知识图谱存储与搜索方法及系统，根据用户需求收集所需要的政策相关实体及关系数据，所述数据从包括公开数据源、网页爬取、传统数据库的多种数据源中获取，并对收集到的数据进行清洗，包括格式标准化、缺失值处理、脏数据处理；将获取到的政策相关实体及关系数据构建成知识图谱的图模型，通过图相关算法对图谱的语义信息进行分析和完善并采用数据挖掘算法进行数据挖掘，并对图谱进行多维度分析及图谱操作，通过分布式图存储技术实现图数据分散存储于集群中；基于预先构建的查询语言使用搜索引擎或者自然语言处理技术对所述图模型进行检索获取检索结果，并使用可视化工具对检索结果进行可视化处理。该方法能够带来更好的搜索效率和结果准确性，以及更快的可视化查询结果，可以帮助企业更好地理解客户和市场，挖掘潜在的关联关系，策划准确的市场营销策略，从而提高企业的营销效果。此外，知识图谱存储可以为机器学习、深度学习以及自然语言处理等技术提供便利，以及为企业提供更全面的客户洞察。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种知识图谱存储与搜索方法的流程图；

图2为本发明实施例1提供的一种知识图谱存储与搜索方法中政策画像图谱示例；

图3为本发明实施例1提供的一种知识图谱存储与搜索方法中企业画像图谱示例；

图4为本发明实施例1提供的一种知识图谱存储与搜索方法中政策画像图谱与企业画像图谱匹配示例；

图5是本发明实施例3提供的电子设备的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种知识图谱存储与搜索方法，所述方法包括：

S100、根据用户需求收集所需要的政策相关实体及关系数据，所述数据从包括公开数据源、网页爬取、传统数据库的多种数据源中获取，并对收集到的数据进行清洗，包括格式标准化、缺失值处理、脏数据处理；

S200、将获取到的政策相关实体及关系数据构建成知识图谱的图模型，通过图相关算法对图谱的语义信息进行分析和完善并采用数据挖掘算法进行数据挖掘，并对图谱进行多维度分析及图谱操作，通过分布式图存储技术实现图数据分散存储于集群中；

S300、基于预先构建的查询语言使用搜索引擎或者自然语言处理技术对所述图模型进行检索获取检索结果，并使用可视化工具对检索结果进行可视化处理。

具体来说，知识图谱图谱构建的构建流程如下：

(1)实体搜索及爬取：依托上游爬虫所获取的实体，进入网站API获取实体各项属性，得到每个实体infobox下的结构化信息，用于后续处理。

(2)实体清洗与类别判别：由于不同实体infobox格式不同以及内容属性不一样，所以针对不同类别属性的实体进行清洗转换预处理操作，如：重复数据去重、低质数据过滤、多样数据统一、模糊数据转换、噪声数据清洗等处理为统一的格式，例如对于Coordinates属性，提取出原始属性值字符串内容中的经纬度数值，形成新的经纬度格式。

(3)结构化信息提取：通过预处理操作，对实体属性名称进行统一，提取处理后每个实体infobox结构化信息，得到每个实体的属性和属性值。

(4)信息存储：将结构化实体信息存储到MongoDB中，用于后续知识图谱的建立。

基于知识图谱的开源数据信息智能检索系统支持的查询方式如下：(1)查询主语：直接查询主语，比如人名，支持模糊查询，例如用户输入关键词，则可以查找到相关的所有对象并以关联图的形式展示。(2)查询谓语：用户可以直接对某类谓语进行查询，该查询不支持模糊查询。(3)查询主语和宾语：查询主语和宾语，能够输出主语和宾语之间的关联。(4)查询主语和谓语：查询主语和谓语，能够输出其宾语。(5)查询谓语和宾语：查询谓语和宾语，输出相关的主语。本发明实施例能够有效解决大规模实体及关系的组织、检索和查询的技术问题，采用图模型(Graph Model)的技术方案，以政策溯源为例，主要步骤如下：

1.数据收集：收集所需要的政策相关实体及关系数据，包括历史文献、政策文件、统计数据等，通常可以从公开数据源、网页爬取、传统数据库等多种数据源中获取；

2.数据清洗：对收集到的数据进行清洗，包括格式标准化、缺失值处理、脏数据处理等；

3.图模型构建：将实体(如政府机构、政策主题等)及关系数据(如政策发布时间、政策主题归属等)构建成知识图谱，通常采用RDF(ResourceDescription Framework)或者OWL(Web Ontology Language)等语言；

图2为政策画像图谱示例，图3为企业画像图谱示例，图4为政策画像图谱和企业画像图谱的匹配结果示例。

4.模型检索：使用搜索引擎或者自然语言处理技术对图模型进行检索；可根据研究问题定义查询语言，以便从知识图谱中检索相关信息；

5.结果可视化：将检索结果可视化，通常使用可视化技术，如Gephi、NodeXL等可视化工具；

可利用知识图谱工具对政策溯源的结果进行可视化和分析，如查找政策制定的历史背景、政策演变路径等。

通过使用知识图谱进行政策溯源可实现：帮助分析政策制定的演变过程；发现政策制定的重要因素和变化趋势；帮助政策制定者更好地理解政策的历史背景和现实意义；为政策制定提供参考和借鉴。

所构建的知识图谱平台主要功能包括：

(1)低代码图谱构建

支持交互式的知识定义和知识构建。

(2)数据管理

支持接入语言和视觉多种模态来源数据，支持接入mysql、elk、hbase、es、csv文件等数据源。

(3)内置图相关算法

平台内置常见的基于图相关的深度学习归纳推理方法和基于逻辑或规则的演绎推理方法，并且内置NLP规则模型、词典、算法模型，帮助用户进一步分析、完善图谱的语义信息。支持图挖掘算法、社区挖掘算法等主流算法。支持扩展自定义的算法。

知识图谱的语义信息是指对实体及其关系进行更加准确、丰富的描述，以提高知识图谱的质量和应用价值。采用的算法包括：实体链接算法(EntityLinking)和关系抽取算法(Relation Extraction)来分析和完善知识图谱的语义信息。

实体链接算法(Entity Linking)：

输入：一段自然语言文本，其中包含实体名；

输出：将文本中的实体名链接到知识图谱中对应的实体节点上；

中间处理过程：首先从文本中提取出实体名，然后利用文本特征，结合已有的知识图谱信息，匹配知识图谱中的实体节点，并给出匹配得分，最终选择得分最高的实体作为链接结果。

关系抽取算法(Relation Extraction)：

输入：文本片段或已经链接到实体节点的文本片段；

输出：提取出文本片段中存在的实体之间的关系，并在知识图谱中添加或更新对应关系边；

中间过程：首先通过自然语言处理技术分析文本，提取出实体及其在文本中的位置信息；然后利用机器学习或深度学习方法，从文本中抽取出实体之间的关系类型及其信任度，最终将这些信息映射到对应的关系边上，更新知识图谱中的关系信息。

在具体的案例中，还使用其他数据挖掘、机器学习等算法来优化知识图谱的质量和应用效果，如基于规则的推理、实体分类、实体属性填充等算法。

政务管理领域的知识图谱挖掘可以帮助政府部门更好地了解民生需求、分析社会问题，并指导政策制定和执行。

以下以社会热点事件挖掘为例，说明具体的挖掘算法和过程：

主题建模算法(Topic Modeling)：

输入：包含社交媒体文本、网络新闻等文本数据的语料库。

输出：从文本中提取出主题分布和关键词，并根据主题分布对文本进行分类。

中间过程：首先通过自然语言处理技术预处理文本，如分词、去停用词、词性标注等；然后使用主题建模算法，如LDA(Latent Dirichlet Allocation)等，从文本中提取出主题分布和关键词，并将文本归类到不同的主题下；最终根据主题分布和关键词，分析社会热点事件的原因和影响因素，为政府决策提供参考。

例如，可以通过主题建模算法从社交媒体和网络新闻等渠道收集相关文本数据，提取出主题分布和关键词。

社交网络分析算法(Social Network Analysis)：

输入：包含政务部门、专家学者、民众等在社交网络平台上的账号和关系信息的数据集。

输出：计算和分析不同账号之间的网络中心度、群组结构、信息流动等指标，发现潜在的影响力节点和信息传递路径。

中间过程：首先构建政务管理领域的社交网络，以账号为节点，以粉丝、互动等关系为边；然后计算每个节点的网络中心度、介数中心度等指标，发现影响力节点和群组结构；最后分析信息流动路径和传播效果，为政府决策提供参考。

例如，在某一城市的政务管理领域，可以通过社交网络分析算法，从微博、微信公众号等社交媒体平台收集政府部门、专家学者、民众等账号和关系信息，计算和分析不同账号之间的中心度指标，发现影响力节点和信息传递路径，评估政府宣传工作的效果和社会反响。

(4)多维度图谱分析与可视化

平台支持交互式图谱查询与分析，不仅支持基于自然语言的检索与推荐，还支持基于图的模式发现功能，实现辅助用户从多维度分析图谱，支持图的展开、路径查找、图语言查询等图谱的操作，并为达到业务目标提供决策支持。可以通过配置节点样式，实体节点支持多种展示形式，支持通过BI形式对图分析页面中的实体进行分析，支持图谱下钻与折叠，支持批量操作图谱数据。

(5)分布式图存储和计算

支持对接neo4j等各主流图数据库，实现图数据分散存储于集群中，可为用户提供实时图查询和离线算法分析，支持海量边点的分析和计算。

(6)知识服务

图谱分析结果可以通过网页端HTML、移动端H5、数据API方式对外部系统提供服务及调用，供业务系统调用，满足各种通用场景；支持RESTful等API接口类型。

(7)图任务的调度和管理

支持自定义任务、任务管理等，并对任务进行调度，支持对任务的运行情况进行监控和维护。

(8)其他定制化功能

平台支持对接其他信创图数据库、用户权限系统和其他应用API接口，以实现权限校验和多种数据的分析与检索。

实施例2

与上述实施例1相对应的，本实施例提出了一种知识图谱存储与搜索系统，所述系统包括：

本发明实施例提供的一种知识图谱存储与搜索系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

实施例3

本发明实施例提出一种电子设备，图5是本发明提供的电子设备的实体结构示意图，该电子设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和通信总线1050，其中，处理器1010、存储器1020、输入/输出接口1030、通信接口1040通过通信总线1050完成相互间的通信。一个或多个程序被存储在存储器1020并被配置为由所述一个或多个处理器1010执行，所述一个或多个程序配置用于执行上述实施例所述的NLP识别与知识库构建方法。

实施例4

与上述实施例相对应的，本实施例提出了一种计算机存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种知识图谱存储与搜索系统执行如实施例1的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种知识图谱存储与搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种知识图谱存储与搜索方法，其特征在于，通过图相关算法对图谱的语义信息进行分析和完善，具体包括：

3.根据权利要求1所述的一种知识图谱存储与搜索方法，其特征在于，采用数据挖掘算法进行数据挖掘，具体包括：

4.根据权利要求1所述的一种知识图谱存储与搜索方法，其特征在于，对图谱进行多维度分析及图谱操作，具体包括：

5.根据权利要求1所述的一种知识图谱存储与搜索方法，其特征在于，对图谱进行多维度分析及图谱操作，具体还包括：

6.根据权利要求1所述的一种知识图谱存储与搜索方法，其特征在于，通过分布式图存储技术实现图数据分散存储于集群中，具体包括：

7.根据权利要求1所述的一种知识图谱存储与搜索方法，其特征在于，所述方法还包括：

8.一种知识图谱存储与搜索系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种知识图谱存储与搜索系统执行如权利要求1-7任一项所述的方法。