CN116028637A - 图谱构建方法和装置、数据检索方法和装置 - Google Patents

图谱构建方法和装置、数据检索方法和装置 Download PDF

Info

Publication number
CN116028637A
CN116028637A CN202211559724.0A CN202211559724A CN116028637A CN 116028637 A CN116028637 A CN 116028637A CN 202211559724 A CN202211559724 A CN 202211559724A CN 116028637 A CN116028637 A CN 116028637A
Authority
CN
China
Prior art keywords
data
metadata
knowledge graph
information
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211559724.0A
Other languages
English (en)
Inventor
丁洪鑫
汪榕
周维
刘福强
苑建坤
牛振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN202211559724.0A priority Critical patent/CN116028637A/zh
Publication of CN116028637A publication Critical patent/CN116028637A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供一种图谱构建方法,具体实现方案为:响应于获取的数据源为非结构化数据,提取数据源的元数据;将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;基于对应元数据的数据对象和对象关系,生成第一知识图谱。通过本实施方式,提高了非结构化数据构建图谱的效率。

Description

图谱构建方法和装置、数据检索方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体地,涉及一种图谱构建方法和装置、数据检索方法和装置、电子设备、计算机可读写存储介质。
背景技术
随着当今社会高速发展,数据量的不断增加,实体与实体之间的关系越来越复杂,对用户专业技能方面的要求较高,导致一些知识图谱的构建过程复杂且难以实施,影响了知识图谱的构建的效率。
发明内容
本文中描述的实施例提供了一种图谱构建方法和装置、数据检索方法和装置、电子设备以及存储有计算机程序的计算机可读写存储介质。
根据本公开的第一方面,提供了一种图谱构建方法。在该方法中,响应于获取的数据源为非结构化数据,提取数据源的元数据;将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;基于对应元数据的数据对象和对象关系,生成第一知识图谱。
在本公开的一些实施例中,上述方法还包括:在数据源为非结构化数据时,获取数据源的数据主体;将数据主体存储入主体存储介质;关联知识图谱与主体存储介质中的数据主体。
在本公开的一些实施例中,上述方法还包括:响应于数据源为结构化数据,将结构化数据显示在可视化操作面板上;实时从可视化操作面板接收对结构化数据的操作信息;基于结构化数据的操作信息,得到对应结构化数据的数据对象以及对象关系;基于对应结构化数据的数据对象以及对象关系,生成第二知识图谱。
在本公开的一些实施例中,上述方法还包括:响应于从可视化操作面板接收到元数据和结构化数据的连接操作,基于第一知识图谱和第二知识图谱,得到第三知识图谱。
在本公开的一些实施例中,上述对元数据的操作信息,得到对应元数据的数据对象以及对象关系包括:接收对元数据的拖拽操作;基于拖拽操作,确定对应元数据的数据对象;接收对不同数据对象的连接操作;基于连接操作,确定各个数据对象之间对象关系。
在本公开的一些实施例中,上述方法还包括:接收可视化操作面板输出的、知识图谱中数据对象的标签信息;基于标签信息,为知识图谱中的数据对象打上不同级别的标签。
根据本公开的第二方面,提供一种数据检索方法,该方法包括:获取采用如第一方面任一实现方式生成的知识图谱;获取检索信息;基于检索信息,对知识图谱进行检索,得到检索结果。
根据本公开的第三方面,提供了一种图谱构建装置。该装置包括:数据获取单元,被配置成响应于获取的数据源为非结构化数据,提取数据源的元数据;接收单元,被配置成将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;得到单元,被配置成基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;生成单元,被配置成基于对应元数据的数据对象和对象关系,生成第一知识图谱。
在本公开的一些实施例中,上述装置还包括:存储关联单元,被配置成在数据源为非结构化数据时,获取数据源的数据主体;将数据主体存储入主体存储介质;关联知识图谱与主体存储介质中的数据主体。
在本公开的一些实施例中,上述装置还包括:构建单元,被配置成响应于数据源为结构化数据,将结构化数据显示在可视化操作面板上;实时从可视化操作面板接收对结构化数据的操作信息;基于结构化数据的操作信息,得到对应结构化数据的数据对象以及对象关系;基于对应结构化数据的数据对象以及对象关系,生成第二知识图谱。
在本公开的一些实施例中,上述装置还包括:数据关联单元,被配置成响应于从可视化操作面板接收到元数据和结构化数据的连接操作,基于第一知识图谱和第二知识图谱,得到第三知识图谱。
在本公开的一些实施例中,上述得到单元进一步被配置成:接收对元数据的拖拽操作;基于拖拽操作,确定对应元数据的数据对象;接收对不同数据对象的连接操作;基于连接操作,确定各个数据对象之间对象关系。
在本公开的一些实施例中,上述装置还包括:定标单元,被配置成:接收可视化操作面板输出的、知识图谱中数据对象的标签信息;基于标签信息,为知识图谱中的数据对象打上不同级别的标签。
根据本公开的第四方面,提供了一种数据检索装置,装置包括:图谱获取单元,被配置成获取如第三方面的装置生成的知识图谱;信息获取单元,被配置成获取检索信息;检索单元,被配置成基于检索信息,对知识图谱进行检索,得到检索结果。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及存储有计算机程序的至少一个存储器;其中,当计算机程序由至少一个处理器执行时,使得装置执行根据本公开的第一方面或第二方面的方法的步骤。
根据本公开的第六方面,提供了一种存储有计算机程序的计算机可读写存储介质,其中,计算机程序在由处理器执行时实现根据本公开的第一方面或第二方面的方法的步骤。
本公开提供的图谱构建方法和装置,首先,响应于获取的数据源为非结构化数据,提取数据源的元数据;再次,将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;从次,基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;最后,基于对应元数据的数据对象和对象关系,生成第一知识图谱。由此,仅仅通过可视化操作面板上用户对数据进行操作的操作信息,便可以方便、快捷地构建知识图谱,提高了知识图谱构建的效率。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
图1是根据本公开图谱构建方法的一个实施例的流程图;
图2是根据本公开图谱构建方法的另一个实施例的流程图;
图3是本公开实施例中可视化操作面板的一种结构示意图;
图4是根据本公开数据检索方法的一个实施例的流程图;
图5是根据本公开图谱构建装置的一个实施例的结构示意图;
图6是根据本公开数据检索装置的一个实施例的结构示意图;以及
图7是用来实现本公开实施例的图谱构建方法或数据检索方法的电子设备的框图。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
为了解决传统技术中,构建知识图谱,尤其同时基于非结构化数据及结构化数据构建知识图谱时,对用户的专业技能要求较高的问题,本公开提供了一种简单、高效地构建知识图谱方法,参见图1,其示出了根据本公开图谱构建方法的一个实施例的流程100,该图谱构建方法包括以下步骤:
步骤101,响应于获取的数据源为非结构化数据,提取数据源的元数据。
本实施例中,数据源是构建知识图谱的数据源头,基于数据源的数据结构类型,数据源可以包括:结构化数据、非结构化数据。
结构化数据是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,可以通过关系型数据库进行存储和管理。结构化数据也称作行数据,结构化数据的特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。非结构化数据包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
本实施例中,元数据是描述数据源的数据,例如,数据源为包含word文档的FTP文件夹,该文件夹下所有word文档的元数据包括:文档作者、创建时间、关键词、最后更新者、文档语言、文档内容主体、文档存储位置等。
本实施例中,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,为了将非结构化的数据源纳入知识图谱之中,通过提取数据源的元数据可以对数据源进行有效地表述。
步骤102,将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息。
本实施例中,可视化操作面板是一种实时显示数据源的控制面板,用户在可视化操作面板上对数据源的元数据进行信息输入、拖拽、连接等操作,可以充分表述元数据中的数据对象以及各个数据对象之间对象关系,为具有专业化知识的用户提供了便捷、方便地接入知识图谱的接口。
步骤103,基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系。
本实施例中,数据对象是生成知识图谱中实体的主要对象,数据对象可以是所有实体的数据类型,还可以是一个实体(该数据类型只有一个实体),例如,数据对象是学生,该学生下的实体包括:张三、李四等;可选地,数据类型还可以包括多个子类型,各个子类型还包括至少一个实体,例如,子类型包括:小学生、中学生,小学生对应的实体包括:王五,中学生对应的实体包括:赵六。
本实施例中,对象关系用于表征各个数据对象之间的关系,例如,第一数据对象是学生,与第一数据对象相关的第二数据对象是课程,则第一数据对象的对象关系可以是与第二数据对象相关。
本实施例中,对象关系可以具有多种,多种对象关系可以包括:等于、包含、相似等。
如果数据源是结构化数据,对结构化数据的操作信息是将结构化数据的数据表的主要信息加载并拖进可视化操作面板上,从而在可视化操作面板上显示与数据表对应的数据类型(如学生),该显示的数据类型即为数据对象,相应地数据对象的属性(姓名、性别、年龄等)也会可视化显示在操作面板上,将结构化数据中不同的数据对象基于一定操作关联在一起,该关联即为对象关系。非结构化数据进行元数据的抽取以后,得到的元数据在本质上是和结构化数据是没有区别的,所以对非结构化数据的元数据进行操作时,与结构化数据的操作是一样的。
步骤104,基于对应元数据的数据对象和对象关系,生成第一知识图谱。
本实施例中,对应元数据的数据对象可以有多个,各个数据对象与其他数据对象通过对象关系进行关联,由此,构成了具有多个数据对象以及各个数据对象通过对象关系与其他数据对象关联的网状数据,该网状数据即为第一知识图谱。
可选地,可以将非结构化数据提取的元数据封装为数据对象(可以包括多种数据类型),并添加对象关系(各个数据类型之间的关系),导入图数据库,生成第一知识图谱。将数据对象和对象关系导入图数据库的好处:对于这种大批量数据的这种检索,以及一些图算法的应用,它会有更好的性能。
可选地,还可以将添加了对象关系的数据对象导入关系型数据库,生成第一知识图谱。
本实施例提供的图谱构建方法,可以管理多源数据的导入,并提供以拖拽动作为主的可视化操作面板,用户可以快速导入数据对象并为其建立关系,以一键入图的方式将知识图谱的数据导入图数据库,供后续分析。用户通过可视化操作面板可以进行快速试验,随时修改已经形成的数据对象、引入新的数据对象,可重复进行知识图谱数据更新操作。用户还可以为数据对象打上特定标签,为后续的分类统计分析及智能搜索提供便利。
本实施例提供的图谱构建方法,首先,响应于获取的数据源为非结构化数据,提取数据源的元数据;再次,将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;从次,基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;最后,基于对应元数据的数据对象和对象关系,生成第一知识图谱。由此,仅仅通过可视化操作面板上用户对数据进行操作的操作信息,便可以方便、快捷地构建知识图谱,提高了知识图谱构建的效率。
可选地,在本公开的一个实施例中,上述图谱构建方法包括:响应于获取的数据源包括:非结构化数据和结构化数据。
针对数据源中的非结构化数据,提取该非结构化数据的元数据;将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系。针对数据源中的结构化数据,将该结构化数据显示在可视化操作面板上;实时从可视化操作面板接收对结构化数据的操作信息;基于结构化数据的操作信息,得到对应结构化数据的数据对象以及对象关系;基于对应元数据的数据对象和对象关系,以及对应结构化数据的数据对象以及对象关系,生成总知识图谱。
本实施例提供的图谱构建方法,在数据源包括非结构化数据和结构化数据时,分别对非结构化数据和结构化数据进行数据操作,生成总知识图谱,提高了同时基于非结构化及结构化数据构建图谱的效率。
本实施例中,可以将对应元数据的数据对象和对象关系导入图数据库,得到第一知识图谱,图数据库中仅用于存放数据对象的ID、属性及关系,对于与之关联的大量时序数据、半结构化数据则存储在时序数据库及其他数据存储介质中。例如,物联网传感器的元数据信息(ID,名称,位置等)可以作为数据对象引入图数据库中,而其关联产生的大量时序传感数据则存放在时序数据库中。
本公开的一些实施例中,上述图谱构建方法还包括:在数据源为非结构化数据时,获取数据源的数据主体;将数据主体存储入主体存储介质;关联知识图谱与主体存储介质中的数据主体。
本实施例中,知识图谱和主体存储介质中的数据主体可以通过ID、链接地址等方式进行关联。
本实施例中,数据源具有元数据和数据主体,其中,元数据是描述数据源的数据,数据主体为数据源的具体内容,如数据源是故事文档,故事文档记载了《xx的事迹》,则该故事文档的元数据是:文档作者、创建时间、关键词、文档语言、文档存储位置,该故事文档的数据主体是xx的事迹有关的文本内容。再如,数据源是传感器的记录文件,记录文件记录了不同时刻传感器的测量数据,则该记录文件的数据主体是不同时刻传感器的历史测量数据,将历史测量数据存储在时序数据库中可以为分析传感器提供可靠依据。
本实施例提供的图谱构建方法,在对元数据进行处理之后,将数据主体存储在相应的主体存储介质中,可以快速、有效地的得到数据源的内容,提高了数据的时效性。
本公开提供了图谱构建方法的另一个实施例,参见图2,其示出了根据本公开图谱构建方法的另一个实施例的流程200,该图谱构建方法包括以下步骤:
步骤201,获取数据源。
本实施例中,可视化操作面板上具有数据源加载模块,用户通过数据源加载模块可以将单个或多个(例如单次上限10个)数据源直接拖拽进行可视化操作面板上,当数据源是非结构化数据(例如支持docx、pdf、txt、jpeg、png、mp3等格式的文件),可以“文档”类型的图标在可视化操作面板上进行展示,默认展示文件名称。
步骤202,检测数据源是否为非结构化数据;若数据源为非结构化数据,执行步骤203;若数据源不为非结构化数据,执行步骤207。
本实施例中,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,为了将非结构化的数据源纳入知识图谱之中,通过提取数据源的元数据可以对数据源进行有效地表述。
步骤203,提取数据源的元数据,之后,执行步骤204。
步骤204,将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息,之后,执行步骤205。
步骤205,基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系,之后,执行步骤206。
步骤206,基于对应元数据的数据对象和对象关系,生成第一知识图谱。
应当理解,上述步骤203-步骤206中的操作和特征,分别与步骤101-步骤104中的操作和特征相对应,因此,上述在步骤101-步骤104中对于操作和特征的描述,同样适应于步骤203-步骤206,在此不再赘述。
步骤207,检测数据源是否为结构化数据;若数据源为结构化数据,执行步骤208。
本实施例中,结构化数据是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,可以将结构化数据中的数据类型作为数据对象,将结构化数据中记载的各种数据类型之间的关联关系作为对象关系。
本实施例中,数据源还可以包括:半结构化数据,半结构化数据是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。
步骤208,将结构化数据显示在可视化操作面板上。
如图3所示,为可视化操作面板的一种结构示意图,可视化操作面板包括列表区301和操作区302,其中,将结构化数据显示在可视化操作面板上,是指将数据源中的列表显示在列表区301,如图3所示,列表区301包括:数据源1~n(n为大于1的自然数),在列表区显示为数据源名称1~数据源名称n,即数据源1~n名称分别为数据源名称1至数据源名称n的数据源的关键信息,在各个数据源下面是各个数据源的数据表,如数据源1下面的数据表为tab1。
对于结构化数据的数据表,这个数据表具有类和属性的概念,比如说一张学生表,它整个表叫学生表,那这个学生表就是一个类,这个学生表里面有很多字段,这些字段就是它的属性(如图3中的属性名a、属性名b1、属性名b2、属性名c),数据表的内容具有多行,数据表的每一行是一个学生的话,那数据表每一行就是知识图谱中的一个实体。
步骤209,实时从可视化操作面板接收对结构化数据的操作信息。
本实施例中,用户可以将列表区301中的数据源的数据表拖拽到操作区302实现对数据源的类的操作,每个数据表为一个数据对象,每个数据对象具有属性,通过用户将列表区301中显示内容向操作区302的拖拽,实现了在操作区302的可操作性,用户每操作一次,就具有相应的操作信息。
步骤210,基于结构化数据的操作信息,得到对应结构化数据的数据对象以及对象关系。
本实施例中,列表区301中的数据源的数据表拖拽到操作区302的操作用于实现数据对象的建立,进一步地,在操作区302中对数据对象之间的拖拽操作用于实现对象关系的建立。
在对数据对象之间进行操作时,通过连接具有关联关系的数据对象确定对象关系,如图3中,数据源名称1与数据源名称2之间具有关系1(即数据源1与数据源2之间具有对象关系1),则用户直接通过鼠标连接数据源名称1下属性名a和数据源名称2下的属性名b1,得到数据源1与数据源2的对象关系;数据源名称2与数据源名称3之间具有关系2(即数据源2与数据源3之间具有对象关系2),则用户直接通过鼠标连接数据源名称3下属性名c和数据源名称2下的属性名b2,得到数据源2与数据源3的对象关系。实际实践中,在进行这个关联关系拖拽的时候,都是对于这个类在做操作,如数据表是学生表,并不需要在数据表有1万个学生时,需要拖拽连接1万次,而是对于该类学生拖拽连接一次,通过该次的拖拽连接,对于每一个学生实体均适用。
步骤211,基于对应结构化数据的数据对象以及对象关系,生成第二知5识图谱。
本实施例中,结构化数据的数据源包括数据表,数据表包括属性,例如学生表中,学生是一个数据类型,其包括了很多属性(姓名、性别、年龄等),本实施例中涉及到的数据类型只是一种模式。
而学生表中的记载的一个名叫张三的学生是一个存在知识图谱中的实体,这个实体是【学生】0这个数据类型的一个实例,所以张三也自然具有姓名、性别、年龄等属性。
本实施例中,在确定结构化数据的数据对象和对象关系之后,将数据对象和对象关系导入图数据,得到第二知识图谱,也就是说,在导入图数据库时,对于这种结构化数据的数据表,就是将这张数据表的所有的实体都导进了图数据库里面,
假如数据表具有100行,即100个学生,在导入5图数据库时,会导入100个实体至图数据库,并且由于具有对象关系,这些实体还可能会跟其他的数据对象进行关联,
比如说这个成绩单这种这种类进行关联。
本实施例提供的图谱构建方法,在数据源为结构化数据时,将结构化数据显示在可视化操作面板上,接收对结构化数据的操作信息,基于对结0构化数据的操作信息,得到对应结构化数据的数据对象和对象关系,从而基于对应结构化数据的数据对象和对象关系,可以方便快捷的构建知识图谱,本实施例提供的知识图谱构建方法不仅可以对非结构化数据进行图谱构建,还可以对结构化数据进行图谱构建,提高了图谱构建的应用范围。
可选地,在数据源不为非结构化数据时,数据源可以是半结构化数据5以及结构化数据,若数据源为半结构化数据,基于半结构化数据中分层记录和字段的标记,
对半结构化数据进行数据格式转化,得到转化后的结构化数据,将转化后的结构化数据中的数据类型作为数据对象,将转化后的结构化数据中记载的各种数据类型之间的关联关系作为对象关系,基于转化后的结构化数据对应的数据对象和对象关系,生成第四知识图谱。
在本公开的一些实施例中,上述图谱构建方法还包括:响应于从可视化操作面板接收到元数据和结构化数据的连接操作,基于第一知识图谱和第二知识图谱,得到第三知识图谱。
本实施例中,第一知识图谱是对应非结构化数据的知识图谱,第二知识图谱是对应结构化数据的知识图谱,当用户在可视化操作面板上对元数据和结构化数据进行相关的连接操作(例如,将元数据的属性与结构化数据的属性进行关联),即关联元数据和结构化数据,得到元数据和结构化数据的关联关系,将关联关系增加到由第一知识图谱和第二知识图谱关联之后得到的第三知识图谱中。
本实施例中,上述基于第一知识图谱和第二知识图谱,得到第三知识图谱包括:针对第一知识图谱,获取第一知识图谱中的通过元数据封装的各个数据对象(可以包括多种数据类型),针对部分或全部数据对象上再添加与第二知识图谱中的数据对象之间的关系(与结构化数据的关系),生成第三知识图谱。第三知识图谱是包括第一知识图谱和第二知识图谱的图谱。
可选地,上述基于第一知识图谱和第二知识图谱,得到第三知识图谱包括:针对第二知识图谱,获取第二知识图谱中的通过结构数据封装的各个数据对象(可以包括多种数据类型),针对部分或全部数据对象上再添加与第一知识图谱中的数据对象之间的关系(与元数据的关系),生成第三知识图谱。
本实施例提供的图谱构建方法,将结构数据和非结构数据进行关联,并导入图数据库,得到第三知识图谱,提高了知识图谱数据关联信息的多样性和丰富度。
在本实施例的一些可选实现方式中,对元数据的操作信息,得到对应元数据的数据对象以及对象关系包括:接收对元数据的拖拽操作;基于拖拽操作,确定对应元数据的数据对象;接收对不同数据对象的连接操作;基于连接操作,确定各个数据对象之间对象关系。
本实施例中,由于可视化操作面板可以具有列表区和控制区,非结构化数据形式的数据源导入可视化操作面板之后,元数据对应的数据表则相应显示在列表区,当用户对该数据表进行拖拽操作进入控制区之后,将控制区中的元数据作为数据对象。当用户对控制区中具有联系的数据对象(如对象A与对象B)进行连接操作后,具有联系的数据对象之间的关系即为对象关系。
本实施例中,通过用户的连接操作仅可以说明两个数据对象具有关系,得到无法说明具体的关系。为此,可选地,还可以在接收到对不同数据对象进行的连接操作之后,显示对应连接操作的属性选项信息;确定用户对属性选项的选项,将选项作为详细对象关系。
本实施例提供的得到对应元数据的数据对象以及对象关系的方法,通过用户的拖拽操作确定数据对象,通过连接操作得到对象关系,提高了用户构建知识图库的便利性。
可选地,第一知识图谱、第二知识图谱或第三知识图谱中的数据对象还具有属性,用户在控制区对数据对象进行连接时,还可以通过控制区上的控件为各个数据对象输入相应的属性,例如某一数据对象为人员,人员的属性包括:姓名、地址、电话等属性。在本公开的另一些实施例中,上述知识图谱构建方法还包括:接收可视化操作面板输出的、各个数据对象的属性建立信息;基于各个属性建立信息,为第一知识图谱中的数据对象增加属性。
本实施例中,属性建立信息是可视化操作面板上数据对象未设置属性时,第一次为数据对象输入属性的操作信息,通过用户在可视化控制面板的控件上输入的属性值,可以在第一知识图谱中为各个数据对象添加属性。
可选地,用户还可以通过操作可视化控制面板上的控件随时改变数据对象的属性,在本实施例的另一个实施例中,上述图谱构建方法还包括:
接收可视化操作面板输出的、各个数据对象的属性修改信息;基于属性修改信息,修改第一知识图谱中的数据对象的属性。
在本公开的一些实施例中,上述图谱构建方法还包括:接收可视化操5作面板输出的、知识图谱中数据对象的标签信息;
基于标签信息,为知识图谱中的数据对象打上不同级别的标签。
本实施例中,标签新包括不同级别的标签,例如,为数据对象打上【实体】、【事件】、【文档】三类一级标签以及相应的二级、三级标签。
【实体】类数据对象指的是人、设备、车辆等物理实体;【事件】类数据对象0指的是交通事故、公司成立、司法逮捕等有时间、地点、人物等要素的抽象实体;
【文档】类数据对象指的是文本文档、音视频文件、图片文件等非结构化数据文件。
本实施例提供的知识图谱构建方法,通过为知识图谱中的数据对象打上不同级别的标签,可以便于用户通过标签对知识图谱进行检索。
作为对上述图1所示方法的实现,本申请提供了一种数据检索方法,该数据检索方法用于检索图谱构建方法实施例生成的知识图谱。
参见图4,其示出了根据本公开数据检索方法的一个实施例的流程400,该数据检索方法包括以下步骤:
步骤401,获取采用图谱构建方法生成的知识图谱。
本实施例中,步骤401中获取的知识图谱是通过图谱构建方法得到的知识图谱。当图谱构建方法生成的知识图谱是第一知识图谱时,步骤401获取的知识图谱为第一知识图谱。
当图谱构建方法生成的知识图谱是第二知识图谱时,步骤401获取的知识图谱为第二知识图谱。
当图谱构建方法5生成的知识图谱是第三知识图谱时,步骤401获取的知识图谱为第三知识图谱。
步骤402,获取检索信息。
本实施例中,检索信息是对知识图谱进行实际搜索而进行的信息。为了实现对知识图谱中信息的检索,检索信息可以是与知识图谱的数据对象相关的信息,例如,检索信息包括对象的属性。
步骤403,基于检索信息,对知识图谱进行检索,得到检索结果。
本实施例中,检索结果可以以多种形式进行显示,例如直方图、线条图等。
可选地,还可以设置检索条件,基于检索信息和检索条件得到检索结果。例如对数据对象的属性(检索信息),分别统计重复属性出现的个数(检索条件),并以直方图的形式进行展示,用户可以对直方图中直方进行点击以完成相关对象的批量选中操作。
本实施例提供的数据检索方法,在通过用户对可视化操作面板上的信息进行操作构建知识图谱之后,采用检索信息对知识图谱进行检索,可以有效地获取知识图谱中的信息,提高了数据得到的可靠性。
继续参见图5,作为对上述图1所示方法的实现,本申请提供了一种图谱构建装置,该装置与图1所示的方法实施例相对应,该装置可以应用于各种电子设备中。
如图5所示,本实施例的图谱构建装置500可以包括:数据获取单元501、接收单元502、得到单元503、生成单元504。其中,数据获取单元501,可以被配置成响应于获取的数据源为非结构化数据,提取数据源的元数据。接收单元502,可以被配置成将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;得到单元503,可以被配置成基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系。生成单元504,可以被配置成基于对应元数据的数据对象和对象关系,生成第一知识图谱。
在本公开的一些实施例中,上述装置还包括:存储关联单元,被配置成在数据源为非结构化数据时,获取数据源的数据主体;将数据主体存储入主体存储介质;关联知识图谱与主体存储介质中的数据主体。
在本公开的一些实施例中,上述装置500还包括:构建单元,被配置成响应于数据源为结构化数据,将结构化数据显示在可视化操作面板上;实时从可视化操作面板接收对结构化数据的操作信息;基于结构化数据的操作信息,得到对应结构化数据的数据对象以及对象关系;基于对应结构化数据的数据对象以及对象关系,生成第二知识图谱。
在本公开的一些实施例中,上述装置500还包括:数据关联单元,被配置成响应于从可视化操作面板接收到元数据和结构化数据的连接操作,基于第一知识图谱和第二知识图谱,得到第三知识图谱。
在本公开的一些实施例中,上述得到单元503进一步被配置成:接收对元数据的拖拽操作;基于拖拽操作,确定对应元数据的数据对象;接收对不同数据对象的连接操作;基于连接操作,确定各个数据对象之间对象关系。
在本公开的一些实施例中,上述装置500还包括:定标单元,被配置成:接收可视化操作面板输出的、知识图谱中数据对象的标签信息;基于标签信息,为知识图谱中的数据对象打上不同级别的标签。
本实施例提供的图谱构建装置,首先,数据获取单元501响应于获取的数据源为非结构化数据,提取数据源的元数据;再次,接收单元502将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;从次,得到单元503基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;最后,生成单元504基于对应元数据的数据对象和对象关系,生成第一知识图谱。由此,仅仅通过可视化操作面板上用户对数据进行操作的操作信息,便可以方便、快捷地构建知识图谱,提高了知识图谱构建的效率。
继续参见图6,作为对上述图4所示方法的实现,本申请提供了一种图谱构建装置,该装置与图4所示的方法实施例相对应,该装置可以应用于各种电子设备中。
如图6所示,本实施例的数据检索装置600可以包括:图谱获取单元601、信息获取单元602、检索单元603。其中,图谱获取单元601,可以被配置成获取图谱构建装置生成的知识图谱。信息获取单元602,可以被配置成获取检索信息。检索单元603,可以被配置成基于检索信息,对知识图谱进行检索,得到检索结果。
本实施例提供的数据检索装置,在通过用户对可视化操作面板上的信息进行操作构建知识图谱之后,采用检索信息对知识图谱进行检索,可以有效地获取知识图谱中的信息,提高了数据得到的可靠性。
图7示出根据本公开的实施例的图谱构建方法或数据检索方法的电子设备700的示意性框图。如图7所示,该电子设备700可包括处理器701和存储有计算机程序的存储器702。当计算机程序由处理器701执行时,使得装置700可执行如图1、图2或图4所示的方法的步骤。在一个示例中,装置700可以是计算机设备或云计算节点。
在本公开的实施例中,处理器701可以是例如中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器702可以是使用数据存储技术实现的任何类型的存储器,包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。
此外,在本公开的实施例中,装置700也可包括输入设备703,例如麦克风、键盘、鼠标等,用于输入待混合的多个多媒体文件。另外,装置700还可包括输出设备704,例如扩音器、显示器等,用于输出混合后的多媒体文件。
本公开实施例提供的电子设备可以应用于任何具有显示功能的产品,例如,电子纸、移动电话、平板电脑、电视机、笔记本电脑、数码相框、可穿戴设备或导航仪等。
在本公开的其它实施例中,还提供了一种存储有计算机程序的计算机可读写存储介质,其中,计算机程序在由处理器执行时能够实现如图1、图2或图4所示的方法的步骤。
本公开提供的图谱构建方法,首先,响应于获取的数据源为非结构化数据,提取数据源的元数据;再次,将元数据显示在可视化操作面板上,并实时从可视化操作面板接收对元数据的操作信息;从次,基于对元数据的操作信息,得到对应元数据的数据对象以及对象关系;最后,基于对应元数据的数据对象和对象关系,生成第一知识图谱。由此,仅仅通过可视化操作面板上用户对数据进行操作的操作信息,便可以方便、快捷地构建知识图谱,提高了知识图谱构建的效率。
本公开提供的数据检索方法,获取采用图谱构建方法生成的知识图谱;获取检索信息;基于检索信息,对知识图谱进行检索,得到检索结果,采用检索信息对知识图谱进行检索,可以有效地获取知识图谱中的信息,提高了数据得到的可靠性。
附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
除非上下文中另外明确地指出,否则在本文和所附权利要求中所使用的词语的单数形式包括复数,反之亦然。因而,当提及单数时,通常包括相应术语的复数。相似地,措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地,术语“包括”和“或”应当解释为包括在内的,除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处,特别是当其位于一组术语之后时,“示例”仅仅是示例性的和阐述性的,且不应当被认为是独占性的或广泛性的。
适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解,本公开的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解,本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本公开的范围。
以上对本公开的若干实施例进行了详细描述,但显然,本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims (11)

1.一种图谱构建方法,所述方法包括:
响应于获取的数据源为非结构化数据,提取所述数据源的元数据;
将所述元数据显示在可视化操作面板上,并实时从所述可视化操作面板接收对所述元数据的操作信息;
基于对所述元数据的操作信息,得到对应所述元数据的数据对象以及对象关系;
基于对应所述元数据的数据对象和对象关系,生成第一知识图谱。
2.根据权利要求1所述的方法,所述方法还包括:
在所述数据源为非结构化数据时,获取所述数据源的数据主体;
将所述数据主体存储入主体存储介质;
关联所述知识图谱与所述主体存储介质中的数据主体。
3.根据权利要求1所述的方法,所述方法还包括:
响应于所述数据源为结构化数据,将所述结构化数据显示在所述可视化操作面板上;
实时从所述可视化操作面板接收对所述结构化数据的操作信息;
基于所述结构化数据的操作信息,得到对应所述结构化数据的数据对象以及对象关系;
基于对应所述结构化数据的数据对象以及对象关系,生成第二知识图谱。
4.根据权利要求3所述的方法,所述方法还包括:
响应于从所述可视化操作面板接收到所述元数据和所述结构化数据的连接操作,基于所述第一知识图谱和所述第二知识图谱,得到第三知识图谱。
5.根据权利要求1所述的方法,其中,所述对所述元数据的操作信息,得到对应所述元数据的数据对象以及对象关系包括:
接收对所述元数据的拖拽操作;
基于所述拖拽操作,确定对应所述元数据的数据对象;
接收对不同数据对象的连接操作;
基于所述连接操作,确定各个数据对象之间对象关系。
6.根据权利要求1-5任意一项所述的方法,所述方法还包括:
接收所述可视化操作面板输出的、所述知识图谱中数据对象的标签信息;
基于所述标签信息,为所述知识图谱中的数据对象打上不同级别的标签。
7.一种数据检索方法,所述方法包括:
获取采用权利要求1-6任一项所述的方法生成的知识图谱;
获取检索信息;
基于所述检索信息,对所述知识图谱进行检索,得到检索结果。
8.一种图谱构建装置,所述装置包括:
数据获取单元,被配置成响应于获取的数据源为非结构化数据,提取所述数据源的元数据;
接收单元,被配置成将所述元数据显示在可视化操作面板上,并实时从所述可视化操作面板接收对所述元数据的操作信息;
得到单元,被配置成基于对所述元数据的操作信息,得到对应所述元数据的数据对象以及对象关系;
生成单元,被配置成基于对应所述元数据的数据对象和对象关系,生成第一知识图谱。
9.一种数据检索装置,所述装置包括:
图谱获取单元,被配置成获取如权利要求8所述的装置生成的知识图谱;
信息获取单元,被配置成获取检索信息;
检索单元,被配置成基于所述检索信息,对所述知识图谱进行检索,得到检索结果。
10.一种电子设备,包括:
至少一个处理器;以及存储有计算机程序的至少一个存储器;
其中,当所述计算机程序由所述至少一个处理器执行时,使得所述装置执行根据权利要求1至7中任一项所述的方法的步骤。
11.一种存储有计算机程序的计算机可读写存储介质,其中,所述计算机程序在由处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。
CN202211559724.0A 2022-12-06 2022-12-06 图谱构建方法和装置、数据检索方法和装置 Pending CN116028637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211559724.0A CN116028637A (zh) 2022-12-06 2022-12-06 图谱构建方法和装置、数据检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211559724.0A CN116028637A (zh) 2022-12-06 2022-12-06 图谱构建方法和装置、数据检索方法和装置

Publications (1)

Publication Number Publication Date
CN116028637A true CN116028637A (zh) 2023-04-28

Family

ID=86090223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211559724.0A Pending CN116028637A (zh) 2022-12-06 2022-12-06 图谱构建方法和装置、数据检索方法和装置

Country Status (1)

Country Link
CN (1) CN116028637A (zh)

Similar Documents

Publication Publication Date Title
JP6185127B2 (ja) 電子文書の検索方法及び電子文書検索のグラフィカル表示方法
US11645317B2 (en) Recommending topic clusters for unstructured text documents
US9569506B2 (en) Uniform search, navigation and combination of heterogeneous data
US11556697B2 (en) Intelligent text annotation
US8725771B2 (en) Systems and methods for semantic search, content correlation and visualization
WO2018072071A1 (zh) 知识图谱构建系统及方法
US20040015514A1 (en) Method and system for managing data objects
US20160358274A1 (en) Patent Claims Analysis System and Method
KR101502671B1 (ko) 상관된 정보의 온라인 분석 및 디스플레이
JP2013225319A (ja) 視覚的な多次元の検索
US20150082161A1 (en) Active Knowledge Guidance Based on Deep Document Analysis
WO2015061046A2 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
JP2008515061A (ja) 概念的メタデータおよび文脈的メタデータの検索エンジンを用いたウェブ上におけるデータ要素の検索方法
JP2008084151A (ja) 情報表示装置および情報表示方法
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
KR101441219B1 (ko) 정보 엔터티들의 자동 연관
Yimam et al. new/s/leak–information extraction and visualization for investigative data journalists
Cerutti et al. Improving the reproducibility of geospatial scientific workflows: the use of geosocial media in facilitating disaster response
US9195660B2 (en) Contextual search for modeling notations
JP5271920B2 (ja) オンライン検索のために構造化データを用いる方法
US8875007B2 (en) Creating and modifying an image wiki page
US8195458B2 (en) Open class noun classification
CN116028637A (zh) 图谱构建方法和装置、数据检索方法和装置
Asfoor et al. Unleash the Potential of Upstream Data Using Search, AI and Computer Vision
Arnaud et al. CoViz: cooperative visualization to facilitate sense making by groups of users

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination