CN112559704A - 一种用户自定义配置的知识图谱生成工具 - Google Patents

一种用户自定义配置的知识图谱生成工具 Download PDF

Info

Publication number
CN112559704A
CN112559704A CN202011421789.XA CN202011421789A CN112559704A CN 112559704 A CN112559704 A CN 112559704A CN 202011421789 A CN202011421789 A CN 202011421789A CN 112559704 A CN112559704 A CN 112559704A
Authority
CN
China
Prior art keywords
concept
information
data
version
ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011421789.XA
Other languages
English (en)
Inventor
张晶亮
谢水庚
郝志强
刘雪妍
樊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Casicloud Co ltd
Original Assignee
Beijing Casicloud Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Casicloud Co ltd filed Critical Beijing Casicloud Co ltd
Priority to CN202011421789.XA priority Critical patent/CN112559704A/zh
Publication of CN112559704A publication Critical patent/CN112559704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明涉及知识图谱的技术领域,特别是涉及一种用户自定义配置的知识图谱生成工具,整合了本体构建和图谱构建所需要的基础步骤,形成了一套标准化的构建流程,用户可以自行建立本体和概念,自行配置数据源、信息抽取、知识映射、知识融合等信息,并对日志和版本进行管理;包括本体管理模块和图谱管理模块。

Description

一种用户自定义配置的知识图谱生成工具
技术领域
本发明涉及知识图谱的技术领域,特别是涉及一种用户自定义配置的知识图谱生成工具。
背景技术
知识图谱是结构化的语义知识库,旨在描述真实世界中存在的各种概念和实体及其相互关系。
本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”,实际上是对特定领域之中某套概念及其相互之间关系的形式化表达,是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征以及事物间的关系。本体的基本组成单位是『概念-关系-概念』三元组,概念之间通过关系相互联结,构成网状的知识结构。
知识图谱是图状的、具有关联性的知识集合。知识图谱是一种基于图的数据结构,以本体作为数据模型模型,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。不同行业或领域的知识图谱,结构和配置会有很大区别,但构建知识图谱的步骤大致相同。
由此可见,需要基于知识图谱技术,将构建本体和知识图谱所需的步骤和模块进行梳理,形成一种用户自定义配置的知识图谱生成工具。
发明内容
为解决上述技术问题,本发明提供一种用户自定义配置的知识图谱生成工具,整合了本体构建和图谱构建所需要的基础步骤,形成了一套标准化的构建流程,用户可以自行建立本体和概念,自行配置数据源、信息抽取、知识映射、知识融合等信息,并对日志和版本进行管理。
本发明的一种用户自定义配置的知识图谱生成工具,包括本体管理模块和图谱管理模块。
本发明的一种用户自定义配置的知识图谱生成工具,所述本体管理模块划分为七个功能点,分别是:
(1)创建本体:分为手动输入和文件导入两种方法;
(2)搜索:对本体名称进行搜索,以列表形式展示搜索结果;
(3)删除本体:删除已有本体,包括该本体的所有概念及概念之间关系;
(4)修改本体基本信息:修改本体描述,本体名称不可修改;
(5)查看本体:在本体详情页面中,以图的方式展示该本体的概念及其关系,节点代表概念,边代表概念之间的关系;在图中点击概念,可以工作台查看概念的基本信息、属性信息以及关系的详细信息;
基本信息:名称、url、描述;
属性信息:属性名称、属性格式、属性描述;
关系:『概念(subject),关系(relation),概念(object)』三元组;
(6)更新本体:在本体详情页面中对本体进行更新,包括:增加概念、查看和更新概念、删除概念;
增加概念:新建概念,在工作台添加和修改概念的基本信息、属性信息、关系,新建概念后本体详情页面中的图随之更新;
查看和更新概念:在图中点击概念,可以在工作台查看概念的基本信息、属性信息、关系等详细信息,可对概念进行修改更新,图中展示的概念也随之更新;
删除概念:在图中点击概念,可以在工作台查看概念的基本信息、属性信息、关系等详细信息,可在工作台对概念进行删除,删除概念的同时删除该概念与其他概念相关的关系;
(7)文件导出概念:在本体详情页面中可以进行本体导出,选择导出到本地的位置,导出为excel、csv、json、owl、xml、rdf等结构化数据文件格式。
本发明的一种用户自定义配置的知识图谱生成工具,图谱管理模块划分为四个功能点,分别是:
(a)创建图谱;
(b)搜索:对图谱名称进行搜索,以列表形式展示搜索结果;
(c)删除图谱:删除已有图谱,包括该图谱的所有实体、版本、配置信息等数据;
(d)查看/更新图谱:图谱详细信息分为更新日志和图谱版本。
本发明的一种用户自定义配置的知识图谱生成工具,所述(1)中手动输入创建本体的基本步骤如下:
(1011)新建本体:输入本体名称和本体简介,完成新建;
(1012)进入本体详情信息页面,查看本体详细信息;
(1013)新建概念:输入概念的基本信息,包括:名称、url、描述;
(1014)为概念添加属性,包括:属性名称、属性格式、属性描述;
(1015)更新概念,添加概念之间的关系,即添加『概念(subject),关系(relation),概念(object)』三元组;
所述(1)中文件导入创建本体的基本步骤如下:
(1021)下载excel、csv、json、owl、xml、rdf等结构化数据的导入模板,包括概念导入模板、属性导入模板、关系导入模板;
(1022)制作文件:根据模板,填入本体的概念、属性、关系等信息,形成导入文件;
(1023)数据导入,选择要导入的本地文件,进行数据导入。
本发明的一种用户自定义配置的知识图谱生成工具,所述(a)创建图谱基本步骤如下:
(a01)选择本体
选择构建图谱所需要的本体模型,可以进行预览,以图的形式展示本体的概念及其之间的关系;
(a02)选择数据源
支持excel、csv、json、owl、xml、rdf等结构化数据,和txt、word等非结构化数据,用户从本地导入文件的同时,选择实体类型字段,用来记录这一条数据对应的概念;
(a03)信息抽取
文件中抽取出数据信息,分为两种模式:普通抽取和算法抽取;
(a031)普通抽取
普通抽取是从excel、csv、json、owl、xml、rdf等结构化数据中抽取数据,可以使用函数对数据进行简单处理;
用户选择实体类型和数据字段,为每一个字段配置抽取函数,并填写函数的使用方式;
(a032)算法抽取:使用系统提供的模型,从txt等非结构化数据中抽取数据,选择要使用的模型进行抽取;
(a04)知识映射
知识映射将上一步抽取出来的数据字段和本体中的数据字段对应起来;需要为每个概念的每个字段匹配对应的数据字段,包括概念名称、属性、关系;
概念名称:为数据中的entitytype,选择对应的本体概念名称;
属性:为数据字段属性,选择对应的本体概念的属性;
关系:为数据中的关系,选择对应的本体中的关系,并选择对应object的中的概念名称及字段;
(a05)知识融合
知识融合是指:融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧;
首先选择是否进行融合,选择“否”,直接跳转下一步,选择“是”,需要进行融合配置,为每个概念进行融合配置;
每一个概念可以添加不同的分组,每一个分组可以添加很多属性,按添加的属性进行融合,即当两个实体的这些属性信息均相同,或超过阈值时,就认为这两个概念可以合并成同一个;
选择融合标识符(在要融合的属性中选取一个),填入新实体属性(融合之后的属性是什么,一般和待融合实体属性是同一个),选择待融合实体属性字段,选择相似度函数,输入相似度阈值即可;
(a06)填写版本信息
用户需要输入新版本的信息,包括版本号、版本描述;
完成以上步骤之后,可以保存配置信息,但不创建图谱,也可以直接创建图谱。
本发明的一种用户自定义配置的知识图谱生成工具,所述(d)中更新日志:列表展示历史版本的信息,包括更新编号、更新类型、更新时间、状态、版本号、版本描述;
(d011)更新编号;
(d012)更新类型:更新图谱分为全量更新和增量更新,全量更新指的是本体结构变更(除增加数据以外的所有变化),增量更新指的是添加数据;
(d013)更新时间;
(d014)状态:分为“未发布”、“已发布”;
(d015)版本号:进行更新或创建时用户手动输入的;
(d016)版本描述进行更新或创建时用户手动输入的,对版本的描述;
(d)中图谱版本:列表展示图谱版本信息,包括版本号、更新时间、状态、版本描述;可以对版本进行以下操作:
(d021)融合验证:对系统判断需要融合的数据进行随机抽样,展示给用户,让用户判断两组数据是否应该融合,有“是”、“否”、“不确定”三个选项,将准确率信息展示给用户;
(d022)查看/编辑:可以查看并编辑配置信息,按照创建图谱的六个步骤展示配置信息,版本未发布时,可以进行编辑,但更新日志中的更新编号configid不变,版本已发布时只能查看,不能编辑;
(d023)更新:按照创建图谱的六个步骤展示配置信息,进行更新;无论是否已发布,都可以进行更新,每次更新都生成一个更新编号;
(d024)预览:以图的形式展示实体数据,不同概念用不同颜色展示,点代表实体,线代表实体之间的关系;
(d025)发布:对于已经创建图谱成功的图谱,未发布的可以点击进行“发布”进行发布;已发布的可以点击“撤销发布”进行撤销发布,一个图谱最多可以发布五个版本,发布的版本达到五个时,不能继续发布版本,应先将部分已发布的版本撤销发布,当已发布版本少于五个,才能发布新版本,未发布的版本会保留配置信息,需要使用时重新生成图谱即可;
(d026)删除版本:删除该版本的所有信息,包括所有配置信息。
与现有技术相比本发明的有益效果为:整合了本体构建和图谱构建所需要的基础步骤,形成了一套标准化的构建流程,用户可以自行建立本体和概念,自行配置数据源、信息抽取、知识映射、知识融合等信息,并对日志和版本进行管理。
附图说明
图1是本体管理模块的结构图;
图2是(1)中手动输入步骤流程图;
图3是(1)中文件导入步骤流程图;
图4是图谱管理模块的结构图;
图5是创建图谱基本步骤流程图;
图6是(d023)更新步骤流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图6所示,本发明的一种用户自定义配置的知识图谱生成工具,包括本体管理模块和图谱管理模块。
本发明的一种用户自定义配置的知识图谱生成工具,所述本体管理模块划分为七个功能点,如图1所示,分别是:
(1)创建本体:分为手动输入和文件导入两种方法;
(2)搜索:对本体名称进行搜索,以列表形式展示搜索结果;
(3)删除本体:删除已有本体,包括该本体的所有概念及概念之间关系;
(4)修改本体基本信息:修改本体描述,本体名称不可修改;
(5)查看本体:在本体详情页面中,以图的方式展示该本体的概念及其关系,节点代表概念,边代表概念之间的关系;在图中点击概念,可以工作台查看概念的基本信息、属性信息以及关系的详细信息;
基本信息:名称、url、描述;
属性信息:属性名称、属性格式、属性描述;
关系:『概念(subject),关系(relation),概念(object)』三元组;
(6)更新本体:在本体详情页面中对本体进行更新,包括:增加概念、查看和更新概念、删除概念;
增加概念:新建概念,在工作台添加和修改概念的基本信息、属性信息、关系,新建概念后本体详情页面中的图随之更新;
查看和更新概念:在图中点击概念,可以在工作台查看概念的基本信息、属性信息、关系等详细信息,可对概念进行修改更新,图中展示的概念也随之更新;
删除概念:在图中点击概念,可以在工作台查看概念的基本信息、属性信息、关系等详细信息,可在工作台对概念进行删除,删除概念的同时删除该概念与其他概念相关的关系;
(7)文件导出概念:在本体详情页面中可以进行本体导出,选择导出到本地的位置,导出为excel、csv、json、owl、xml、rdf等结构化数据文件格式。
本发明的一种用户自定义配置的知识图谱生成工具,图谱管理模块划分为四个功能点,如图4所示,分别是:
(a)创建图谱;
(b)搜索:对图谱名称进行搜索,以列表形式展示搜索结果;
(c)删除图谱:删除已有图谱,包括该图谱的所有实体、版本、配置信息等数据;
(d)查看/更新图谱:图谱详细信息分为更新日志和图谱版本。
本发明的一种用户自定义配置的知识图谱生成工具,如图2所示,所述(1)中手动输入创建本体的基本步骤如下:
(1011)新建本体:输入本体名称和本体简介,完成新建;例如:本体“电影信息”;
(1012)进入本体详情信息页面,查看本体详细信息;
(1013)新建概念:输入概念的基本信息,包括:名称、url、描述;例如:本体“电影信息”中,有“电影”和“人物”两个概念;
(1014)为概念添加属性,包括:属性名称、属性格式、属性描述;例如:概念“电影”中,有上映日期、票房等属性;
(1015)更新概念,添加概念之间的关系,即添加『概念(subject),关系(relation),概念(object)』三元组;例如:『电影,主演,人物』、『电影,导演,人物』;
所述(1)中文件导入创建本体的基本步骤如下,如图3所示:
(1021)下载excel、csv、json、owl、xml、rdf等结构化数据的导入模板,包括概念导入模板、属性导入模板、关系导入模板;
(1022)制作文件:根据模板,填入本体的概念、属性、关系等信息,形成导入文件;
(1023)数据导入,选择要导入的本地文件,进行数据导入。
本发明的一种用户自定义配置的知识图谱生成工具,所述(a)创建图谱基本步骤如下,如图5所示:
(a01)选择本体
选择构建图谱所需要的本体模型,可以进行预览,以图的形式展示本体的概念及其之间的关系;
(a02)选择数据源
支持excel、csv、json、owl、xml、rdf等结构化数据,和txt、word等非结构化数据,用户从本地导入文件的同时,选择实体类型字段,用来记录这一条数据对应的概念;
例如:{"entity_type":"Person","中文名":"章岩","职业":"演员","出生日期":"1988年7月21日"},实体类型字段为"entity_type",用来记录这条数据代表一条人物信息。
例如:{"entitytype":"Film","中文名":"保卫和平","上映时间":"2000-01-01","主演1":"章岩","导演":"严迪"},实体类型字段为"entity_type",用来记录这条数据代表一条电影信息。
(a03)信息抽取
文件中抽取出数据信息,分为两种模式:普通抽取和算法抽取;
(a031)普通抽取
普通抽取是从excel、csv、json、owl、xml、rdf等结构化数据中抽取数据,可以使用函数对数据进行简单处理;
用户选择实体类型和数据字段,为每一个字段配置抽取函数,并填写函数的使用方式;例如:实体类型:Film;数据字段:出生日期;使用函数:无;函数使用方式:无;
(a032)算法抽取:使用系统提供的模型,从txt等非结构化数据中抽取数据,选择要使用的模型进行抽取;
(a04)知识映射
知识映射将上一步抽取出来的数据字段和本体中的数据字段对应起来;需要为每个概念的每个字段匹配对应的数据字段,包括概念名称、属性、关系;
概念名称:为数据中的entitytype,选择对应的本体概念名称;
属性:为数据字段属性,选择对应的本体概念的属性;
关系:为数据中的关系,选择对应的本体中的关系,并选择对应object的中的概念名称及字段;
例如:(1)概念“电影”对应数据中的“Film”,“人物”对应数据中的“Person”;(2)概念“电影”的属性“name”对应数据中的字段“中文名”;(3)概念“电影”中的关系“主演”对应着数据字段中的关系“主演”,object为“人物”的字段为“name”,即构成三元组[电影(Film)-主演-人物(Person)]。
(a05)知识融合
知识融合是指:融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧;
例如:存在两个“李四”,一个是entitiytype为“person”,name为“李四”的人,另一个是entitiytype为“film”,name为“保卫和平”的电影中,主演“李四”,两个“李四”其实是同一个人,因此需要对数据进行融合。
首先选择是否进行融合,选择“否”,直接跳转下一步,选择“是”,需要进行融合配置,为每个概念进行融合配置;
每一个概念可以添加不同的分组,每一个分组可以添加很多属性,按添加的属性进行融合,即当两个实体的这些属性信息均相同,或超过阈值时,就认为这两个概念可以合并成同一个;
选择融合标识符(在要融合的属性中选取一个),填入新实体属性(融合之后的属性是什么,一般和待融合实体属性是同一个),选择待融合实体属性字段,选择相似度函数,输入相似度阈值即可;
例如:“Person”概念中,当“name”相似度函数jaccard阈值为0.8,且“出生日期”相似度函数jaccard阈值为0.8时,数据进行融合。
(a06)填写版本信息
用户需要输入新版本的信息,包括版本号、版本描述;
完成以上步骤之后,可以保存配置信息,但不创建图谱,也可以直接创建图谱。
本发明的一种用户自定义配置的知识图谱生成工具,所述(d)中更新日志:列表展示历史版本的信息,包括更新编号、更新类型、更新时间、状态、版本号、版本描述;
(d011)更新编号;
(d012)更新类型:更新图谱分为全量更新和增量更新,全量更新指的是本体结构变更(除增加数据以外的所有变化),增量更新指的是添加数据;
(d013)更新时间;
(d014)状态:分为“未发布”、“已发布”;
(d015)版本号:进行更新或创建时用户手动输入的;
(d016)版本描述进行更新或创建时用户手动输入的,对版本的描述;
(d)中图谱版本:列表展示图谱版本信息,包括版本号、更新时间、状态、版本描述;可以对版本进行以下操作:
(d021)融合验证:对系统判断需要融合的数据进行随机抽样,展示给用户,让用户判断两组数据是否应该融合,有“是”、“否”、“不确定”三个选项,将准确率信息展示给用户;
(d022)查看/编辑:可以查看并编辑配置信息,按照创建图谱的六个步骤展示配置信息,版本未发布时,可以进行编辑,但更新日志中的更新编号configid不变,版本已发布时只能查看,不能编辑;
(d023)更新:按照创建图谱的六个步骤展示配置信息,进行更新;
如图6所示,无论是否已发布,都可以进行更新,每次更新都生成一个更新编号;
(d024)预览:以图的形式展示实体数据,不同概念用不同颜色展示,点代表实体,线代表实体之间的关系;
(d025)发布:对于已经创建图谱成功的图谱,未发布的可以点击进行“发布”进行发布;已发布的可以点击“撤销发布”进行撤销发布,一个图谱最多可以发布五个版本,发布的版本达到五个时,不能继续发布版本,应先将部分已发布的版本撤销发布,当已发布版本少于五个,才能发布新版本,未发布的版本会保留配置信息,需要使用时重新生成图谱即可;
(d026)删除版本:删除该版本的所有信息,包括所有配置信息。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (6)

1.一种用户自定义配置的知识图谱生成工具,其特征在于,包括本体管理模块和图谱管理模块。
2.如权利要求1所述的一种用户自定义配置的知识图谱生成工具,其特征在于,所述本体管理模块划分为七个功能点,分别是:
(1)创建本体:分为手动输入和文件导入两种方法;
(2)搜索:对本体名称进行搜索,以列表形式展示搜索结果;
(3)删除本体:删除已有本体,包括该本体的所有概念及概念之间关系;
(4)修改本体基本信息:修改本体描述,本体名称不可修改;
(5)查看本体:在本体详情页面中,以图的方式展示该本体的概念及其关系,节点代表概念,边代表概念之间的关系;在图中点击概念,可以工作台查看概念的基本信息、属性信息以及关系的详细信息;
基本信息:名称、url、描述;
属性信息:属性名称、属性格式、属性描述;
关系:『概念(subject),关系(relation),概念(object)』三元组;
(6)更新本体:在本体详情页面中对本体进行更新,包括:增加概念、查看和更新概念、删除概念;
增加概念:新建概念,在工作台添加和修改概念的基本信息、属性信息、关系,新建概念后本体详情页面中的图随之更新;
查看和更新概念:在图中点击概念,可以在工作台查看概念的基本信息、属性信息、关系等详细信息,可对概念进行修改更新,图中展示的概念也随之更新;
删除概念:在图中点击概念,可以在工作台查看概念的基本信息、属性信息、关系等详细信息,可在工作台对概念进行删除,删除概念的同时删除该概念与其他概念相关的关系;
(7)文件导出概念:在本体详情页面中可以进行本体导出,选择导出到本地的位置,导出为excel、csv、json、owl、xml、rdf等结构化数据文件格式。
3.如权利要求1所述的一种用户自定义配置的知识图谱生成工具,其特征在于,图谱管理模块划分为四个功能点,分别是:
(a)创建图谱;
(b)搜索:对图谱名称进行搜索,以列表形式展示搜索结果;
(c)删除图谱:删除已有图谱,包括该图谱的所有实体、版本、配置信息等数据;
(d)查看/更新图谱:图谱详细信息分为更新日志和图谱版本。
本发明的一种用户自定义配置的知识图谱生成工具,所述(1)中手动输入创建本体的基本步骤如下:
(1011)新建本体:输入本体名称和本体简介,完成新建;
(1012)进入本体详情信息页面,查看本体详细信息;
(1013)新建概念:输入概念的基本信息,包括:名称、url、描述;
(1014)为概念添加属性,包括:属性名称、属性格式、属性描述;
(1015)更新概念,添加概念之间的关系,即添加『概念(subject),关系(relation),概念(object)』三元组;
所述(1)中文件导入创建本体的基本步骤如下:
(1021)下载excel、csv、json、owl、xml、rdf等结构化数据的导入模板,包括概念导入模板、属性导入模板、关系导入模板;
(1022)制作文件:根据模板,填入本体的概念、属性、关系等信息,形成导入文件;
(1023)数据导入,选择要导入的本地文件,进行数据导入。
4.如权利要求2所述的一种用户自定义配置的知识图谱生成工具,其特征在于,所述(1)中手动输入创建本体的基本步骤如下:
(1011)新建本体:输入本体名称和本体简介,完成新建;
(1012)进入本体详情信息页面,查看本体详细信息;
(1013)新建概念:输入概念的基本信息,包括:名称、url、描述;
(1014)为概念添加属性,包括:属性名称、属性格式、属性描述;
(1015)更新概念,添加概念之间的关系,即添加『概念(subject),关系(relation),概念(object)』三元组;
所述(1)中文件导入创建本体的基本步骤如下:
(1021)下载excel、csv、json、owl、xml、rdf等结构化数据的导入模板,包括概念导入模板、属性导入模板、关系导入模板;
(1022)制作文件:根据模板,填入本体的概念、属性、关系等信息,形成导入文件;
(1023)数据导入,选择要导入的本地文件,进行数据导入。
5.如权利要求3所述的一种用户自定义配置的知识图谱生成工具,其特征在于,所述(a)创建图谱基本步骤如下:
(a01)选择本体
选择构建图谱所需要的本体模型,可以进行预览,以图的形式展示本体的概念及其之间的关系;
(a02)选择数据源
支持excel、csv、json、owl、xml、rdf等结构化数据,和txt、word等非结构化数据,用户从本地导入文件的同时,选择实体类型字段,用来记录这一条数据对应的概念;
(a03)信息抽取
文件中抽取出数据信息,分为两种模式:普通抽取和算法抽取;
(a031)普通抽取
普通抽取是从excel、csv、json、owl、xml、rdf等结构化数据中抽取数据,可以使用函数对数据进行简单处理;
用户选择实体类型和数据字段,为每一个字段配置抽取函数,并填写函数的使用方式;
(a032)算法抽取:使用系统提供的模型,从txt等非结构化数据中抽取数据,选择要使用的模型进行抽取;
(a04)知识映射
知识映射将上一步抽取出来的数据字段和本体中的数据字段对应起来;需要为每个概念的每个字段匹配对应的数据字段,包括概念名称、属性、关系;
概念名称:为数据中的entitytype,选择对应的本体概念名称;
属性:为数据字段属性,选择对应的本体概念的属性;
关系:为数据中的关系,选择对应的本体中的关系,并选择对应object的中的概念名称及字段;
(a05)知识融合
知识融合是指:融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧;
首先选择是否进行融合,选择“否”,直接跳转下一步,选择“是”,需要进行融合配置,为每个概念进行融合配置;
每一个概念可以添加不同的分组,每一个分组可以添加很多属性,按添加的属性进行融合,即当两个实体的这些属性信息均相同,或超过阈值时,就认为这两个概念可以合并成同一个;
选择融合标识符(在要融合的属性中选取一个),填入新实体属性(融合之后的属性是什么,一般和待融合实体属性是同一个),选择待融合实体属性字段,选择相似度函数,输入相似度阈值即可;
(a06)填写版本信息
用户需要输入新版本的信息,包括版本号、版本描述;
完成以上步骤之后,可以保存配置信息,但不创建图谱,也可以直接创建图谱。
6.如权利要求3所述的一种用户自定义配置的知识图谱生成工具,其特征在于,所述(d)中更新日志:列表展示历史版本的信息,包括更新编号、更新类型、更新时间、状态、版本号、版本描述;
(d011)更新编号;
(d012)更新类型:更新图谱分为全量更新和增量更新,全量更新指的是本体结构变更(除增加数据以外的所有变化),增量更新指的是添加数据;
(d013)更新时间;
(d014)状态:分为“未发布”、“已发布”;
(d015)版本号:进行更新或创建时用户手动输入的;
(d016)版本描述进行更新或创建时用户手动输入的,对版本的描述;
(d)中图谱版本:列表展示图谱版本信息,包括版本号、更新时间、状态、版本描述;可以对版本进行以下操作:
(d021)融合验证:对系统判断需要融合的数据进行随机抽样,展示给用户,让用户判断两组数据是否应该融合,有“是”、“否”、“不确定”三个选项,将准确率信息展示给用户;
(d022)查看/编辑:可以查看并编辑配置信息,按照创建图谱的六个步骤展示配置信息,版本未发布时,可以进行编辑,但更新日志中的更新编号configid不变,版本已发布时只能查看,不能编辑;
(d023)更新:按照创建图谱的六个步骤展示配置信息,进行更新;无论是否已发布,都可以进行更新,每次更新都生成一个更新编号;
(d024)预览:以图的形式展示实体数据,不同概念用不同颜色展示,点代表实体,线代表实体之间的关系;
(d025)发布:对于已经创建图谱成功的图谱,未发布的可以点击进行“发布”进行发布;已发布的可以点击“撤销发布”进行撤销发布,一个图谱最多可以发布五个版本,发布的版本达到五个时,不能继续发布版本,应先将部分已发布的版本撤销发布,当已发布版本少于五个,才能发布新版本,未发布的版本会保留配置信息,需要使用时重新生成图谱即可;
(d026)删除版本:删除该版本的所有信息,包括所有配置信息。
CN202011421789.XA 2020-12-08 2020-12-08 一种用户自定义配置的知识图谱生成工具 Pending CN112559704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011421789.XA CN112559704A (zh) 2020-12-08 2020-12-08 一种用户自定义配置的知识图谱生成工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011421789.XA CN112559704A (zh) 2020-12-08 2020-12-08 一种用户自定义配置的知识图谱生成工具

Publications (1)

Publication Number Publication Date
CN112559704A true CN112559704A (zh) 2021-03-26

Family

ID=75059398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011421789.XA Pending CN112559704A (zh) 2020-12-08 2020-12-08 一种用户自定义配置的知识图谱生成工具

Country Status (1)

Country Link
CN (1) CN112559704A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111135A (zh) * 2021-04-22 2021-07-13 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN113190694A (zh) * 2021-06-03 2021-07-30 云知声智能科技股份有限公司 一种知识图谱的知识管理平台
CN113254671A (zh) * 2021-06-22 2021-08-13 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN114417018A (zh) * 2022-03-28 2022-04-29 金现代信息产业股份有限公司 一种知识图谱的全流程可视化配置系统及方法
CN116028653A (zh) * 2023-03-29 2023-04-28 鹏城实验室 一种可视化配置多源异构数据构建图谱的方法及系统
CN117035081A (zh) * 2023-10-09 2023-11-10 之江实验室 一种多元多模态知识图谱的构建方法及装置
CN117033527A (zh) * 2023-10-09 2023-11-10 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备
CN117130987A (zh) * 2023-10-27 2023-11-28 北京卓翼智能科技有限公司 一种大规模无人机集群的飞控管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN109977419A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种知识图谱构建系统
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN111666422A (zh) * 2020-06-05 2020-09-15 法雨科技(北京)有限责任公司 知识图谱构建系统及方法
CN111880797A (zh) * 2020-09-28 2020-11-03 珠海大横琴科技发展有限公司 一种运营中心

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN109977419A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种知识图谱构建系统
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN111666422A (zh) * 2020-06-05 2020-09-15 法雨科技(北京)有限责任公司 知识图谱构建系统及方法
CN111880797A (zh) * 2020-09-28 2020-11-03 珠海大横琴科技发展有限公司 一种运营中心

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111135A (zh) * 2021-04-22 2021-07-13 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN113190694A (zh) * 2021-06-03 2021-07-30 云知声智能科技股份有限公司 一种知识图谱的知识管理平台
CN113254671A (zh) * 2021-06-22 2021-08-13 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN113254671B (zh) * 2021-06-22 2021-09-28 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN114417018A (zh) * 2022-03-28 2022-04-29 金现代信息产业股份有限公司 一种知识图谱的全流程可视化配置系统及方法
CN116028653B (zh) * 2023-03-29 2023-06-06 鹏城实验室 一种可视化配置多源异构数据构建图谱的方法及系统
CN116028653A (zh) * 2023-03-29 2023-04-28 鹏城实验室 一种可视化配置多源异构数据构建图谱的方法及系统
CN117035081A (zh) * 2023-10-09 2023-11-10 之江实验室 一种多元多模态知识图谱的构建方法及装置
CN117033527A (zh) * 2023-10-09 2023-11-10 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备
CN117035081B (zh) * 2023-10-09 2024-01-26 之江实验室 一种多元多模态知识图谱的构建方法及装置
CN117033527B (zh) * 2023-10-09 2024-01-30 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备
CN117130987A (zh) * 2023-10-27 2023-11-28 北京卓翼智能科技有限公司 一种大规模无人机集群的飞控管理方法
CN117130987B (zh) * 2023-10-27 2024-02-23 北京卓翼智能科技有限公司 一种大规模无人机集群的飞控管理方法

Similar Documents

Publication Publication Date Title
CN112559704A (zh) 一种用户自定义配置的知识图谱生成工具
CN107391677B (zh) 携带实体关系属性的中文通用知识图谱的生成方法及装置
US10097597B2 (en) Collaborative workbench for managing data from heterogeneous sources
CN103631882B (zh) 基于图挖掘技术的语义化业务生成系统和方法
US20130006968A1 (en) Data integration system
US20140250047A1 (en) Authoring system for bayesian networks automatically extracted from text
JP2017514256A (ja) オントロジアライナ方法、セマンティックマッチング方法及び装置
US11720631B2 (en) Tool to build and store a data model and queries for a graph database
US20070168380A1 (en) System and method for storing text annotations with associated type information in a structured data store
KR20170021227A (ko) 온톨로지 매핑 방법 및 장치
JPH11504451A (ja) データベース構造に適したオブジェクトのモデリング、リレーショナルデータベース構造への翻訳、それらへの流動的なサーチ
JP2017521748A (ja) 推定オントロジを生成する方法及び装置
US20150127688A1 (en) Facilitating discovery and re-use of information constructs
KR101987915B1 (ko) 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템
CN110502227A (zh) 代码补全的方法及装置、存储介质、电子设备
CN108536718A (zh) 一种基于输入输出语义化实现的管理信息化的方法和系统
Kamalabalan et al. Tool support for traceability of software artefacts
CN110275962A (zh) 用于输出信息的方法和装置
US20150058363A1 (en) Cloud-based enterprise content management system
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
US20160364426A1 (en) Maintenance of tags assigned to artifacts
Alves et al. UNER: Universal Named-Entity RecognitionFramework
CN117453980A (zh) 元数据管理、配置页面生成方法、服务器及存储介质
CN115794869A (zh) 语义查询可视化构建与生成的实现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination