CN116010679A - 数据处理方法和电子设备 - Google Patents
数据处理方法和电子设备 Download PDFInfo
- Publication number
- CN116010679A CN116010679A CN202211736431.5A CN202211736431A CN116010679A CN 116010679 A CN116010679 A CN 116010679A CN 202211736431 A CN202211736431 A CN 202211736431A CN 116010679 A CN116010679 A CN 116010679A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- node
- map
- data asset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种数据处理方法和电子设备,该数据处理方法包括:获得输入的搜索信息;从预先构建的数据地图中确定与搜索信息匹配的目标数据资产,数据地图为基于预设的数据资产图模型对数据资产集中的数据资产进行组织与关联所得的结果;获得所述目标数据资产在所述数据地图中对应的目标数据资产子图。
Description
技术领域
本申请属于数据资产管理技术领域,尤其涉及一种数据处理方法和电子设备。
背景技术
当前,很多企业为了释放数据价值,驱动数据消费,都构建了以数据湖或数据中台为数据底座的企业级数据资产平台。
然而企业数据全量汇聚、清洗转换后,如何为用户提供可见、可懂、可用、可运营的数据资产探索服务,使得用户能够便捷、高效的进行数据发现和消费,是企业数据资产化面临的主要问题。
发明内容
为此,本申请公开如下技术方案:
一种数据处理方法,所述方法包括:
获得输入的搜索信息;
从预先构建的数据地图中确定与所述搜索信息匹配的目标数据资产;所述数据地图为基于预设的数据资产图模型对数据资产集中的数据资产进行组织与关联所得的结果;
获得所述目标数据资产在所述数据地图中对应的目标数据资产子图。
可选的,构建所述数据地图的过程,包括:
提取所述数据资产集中的数据资产包含的实体、实体间的关系和实体具备的属性;
将提取的各个实体和实体间的关系基于所述数据资产图模型包括的第一模型进行建图,得到基于对应关系进行关联的不同实体间的关系图;
将提取的实体属性基于所述数据资产图模型包括的第二模型,关联在所述关系图的相应节点上,以作为所述相应节点的节点属性,完成关系图构建和属性关联后所得的结果图作为所述数据地图。
可选的,所述提取所述数据资产集中的数据资产包含的实体、实体间的关系和实体具备的属性,包括:
获取所述数据资产集中数据资产的元数据;
根据数据资产的元数据提取所述数据资产包含的实体、实体间的关系和实体具备的属性。
可选的,在所述数据资产集对应多个数据资产来源的情况下,所述方法在将提取的各个实体和实体间的关系基于所述数据资产图模型包括的第一模型进行建图之前,还包括:
对表达形式不同、业务含义相同的不同来源对象的对象信息进行融合处理;所述不同来源对象为不同来源的实体、关系和/或属性。
可选的,在构建所述数据地图时,所述方法还包括:
根据所述数据地图的已有实体、关系和属性,识别所述数据地图中的错误知识和/或所述数据地图包含的潜在知识;
从所述数据地图中剔除所述错误知识,和/或向所述数据地图添加所述潜在知识;
其中,所述错误知识包括错误的关系和/或属性,所述潜在知识包括潜在的关系和/或属性。
可选的,所述从预先构建的数据地图中确定与所述搜索信息匹配的目标数据资产,包括:
从所述数据地图中确定与所述搜索信息匹配的目标实体;
从所述数据地图中确定所述目标实体对应的关联,所述目标实体对应的关联包括所述目标实体与其他实体间的关系和/或所述目标实体的属性;所述目标实体及所述目标实体对应的关联构成所述目标数据资产。
可选的,所述获得所述目标数据资产在所述数据地图中对应的目标数据资产子图,包括:
可选的,上述方法,还包括:
输出与展示所述目标数据资产子图;
响应于对所述目标数据资产子图上的目标图对象执行的信息展开操作,从所述数据地图中获取所述目标图对象的与所述信息展开操作匹配的目标展开信息,并将所述目标展开信息与所述目标图对象关联显示;
其中,所述目标图对象为所述目标数据资产子图上的相应节点或边。
可选的,所述响应于对所述目标数据资产子图上的目标图对象执行的信息展开操作,从所述数据地图中获取所述目标图对象的与所述信息展开操匹配的目标展开信息,并将所述目标展开信息与所述目标图对象关联显示,包括如下的至少一种:
响应于对所述目标数据资产子图上的目标节点的关联节点展开操作,从所述数据地图中获取所述目标节点对应的关系及所对应关系指示的关联节点,并将获取的关系及关系指示的关联节点与所述目标节点关联显示;
响应于对所述目标数据资产子图上的目标节点的属性信息展开操作,从所述数据地图中获取所述目标节点对应的属性信息,并将获取的属性信息与所述目标节点关联显示;
响应于对所述目标数据资产子图上的目标边的边信息展开操作,从所述数据地图中获取所述目标边对应的边信息,并将获取的边信息与所述目标边关联显示;所述边信息至少包括边所对应的关系的关系类型。
一种电子设备,包括:
存储器,用于至少存储一组计算机指令集;
处理器,用于通过调用并执行所述存储器中存储的所述指令集,实现如上文任一项所述的数据处理方法。
由以上方案可知,本申请公开的数据处理方法和电子设备,预先基于预设的数据资产图模型对数据资产集中的数据资产进行组织与关联,使得将数据资产构建为对应的数据地图。在此基础上,针对输入的搜索信息,从数据地图中确定与搜索信息匹配的目标数据资产,并获得目标数据资产在数据地图中对应的目标数据资产子图,以便于后续以目标数据资产子图的形式,向用户提供满足其搜索信息的数据资产。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的构建数据地图的一种流程示意图;
图2是本申请提供的构建数据地图的另一种流程示意图;
图3是本申请提供的构建数据地图的又一种流程示意图;
图4是本申请提供的数据处理方法的一种流程示意图;
图5是本申请提供的数据处理方法的另一种流程示意图;
图6是本申请提供的构建数据地图并基于数据地图提供数据资产搜索与关联探索服务的整体应用框架图;
图7是本申请提供的图形化资产探索服务的一个示例性应用界面;
图8是本申请提供的电子设备的组成结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
很多企业为了释放数据价值,驱动数据消费,都构建了以数据湖或数据中台为数据底座的企业级数据资产平台。
目前,通常是基于元数据管理或数据目录的管理模式,采集数据资产的元数据,并基于元数据构建数据目录或全文搜索引擎,以此为基础向用户提供数据资产探索(搜索)服务,帮助用户了解有哪些数据资产,数据资产有什么含义,以及如何使用等等。
然而,申请人发现,数据资产通常不是孤立的单一数据对象,而是一个相互关联成网状关系的复杂网络,用户在探索数据资产时,往往不是线性的查询,而且基于语义的关联探索,因此已有方案很难满足用户基于复杂网状关系的数据资产关联探索需求。
基于此,本申请提供一种数据处理方法和电子设备,用于更好的解决用户在复杂关系网络下对数据资产的快速发现和使用问题。该处理方法可应用于但不限于众多通用或专用的计算装置环境或配置下的电子设备,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置等等。
本申请提供的数据处理方法,以预先构建的数据地图为基础,提供以用户为中心的,基于图形化展示的复杂网状结构数据资产搜索与关联探索服务。
其中,数据地图为基于预设的数据资产图模型,对数据资产集中的数据资产进行组织与关联所得的结果,也就是说,预先通过基于数据资产图模型对数据资产集中的数据资产进行组织与关联,将数据资产集构建为对应的数据地图。以下首先对构建数据地图的过程进行说明。
参见图1,构建数据地图的过程可以包括:
步骤101、提取数据资产集中的数据资产包含的实体、实体间的关系和实体具备的属性。
数据资产集,可以是由同一数据资产来源或不同来源中的数据资产构成的集合。本申请实施例将数据资产集中的数据资产,划分为实体、实体间的关系和实体具备的属性。
其中,数据资产中的实体,可以但不限于是数据表、数据模型、数据库、数据连接、业务负责人、字段、标签、文件等多种类型的实体;实体间的关系,可以但不限于是从属(如实体所属业务域、所属数据库)、血缘(如父子)、相似、关联指标等关系。实体的属性,可以是但不限于人员姓名、性别、年龄段,职位、所属部门,数据库表的创建时间、大小等等。
实体间的血缘关系,用于体现实体与实体之间的父子等关系,例如,假设根据三个一级指标计算出一个二级指标,那么各个一级指标与计算得到的二级指标之间存在父子关系。
实体间的相似关系,用于描述不同实体之间的相似性,可以基于实体间的相似度或距离表征,具体可以但不限于从不同实体的业务含义或业务用途等层面,确定不同实体之间是否具备相似性,以及相似度大小。另外,可选的,还可以结合用户对不同实体的使用/搜索关系,如搜索一个实体时是否会大概率关联搜索另一实体等,确定或调整不同实体间的相似度大小。
本步骤中,可首先获取数据资产集中数据资产的元数据,之后,根据数据资产的元数据,提取数据资产集中数据资产包含的实体、实体间的关系和实体具备的属性。
具体可构建元数据采集任务,来采集一个或多个数据资产来源的数据资产元数据,元数据采集任务可以为周期性采集任务或定时任务,且可以为增量采集任务或全量采集任务,不作限制,可视实际需求而定。
采集的数据资产元数据,可以包括但不限于hive(hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载)元数据、HDFS(Hadoop Distributed FileSystem,分布式文件系统)文件元数据、ETL(Extract-Transform-Load,抽取-转换-加载)元数据、血缘关系等。hive元数据、HDFS文件元数据、ETL元数据等各类元数据,可进一步细分为技术元数据,业务元数据和管理元数据。
其中,技术元数据是指从技术角度描述的元数据,包括但不限于文件大小、名称等;业务元数据是指从业务角度描述的元数据,包括但不限于业务含义、业务用途(如用于作为订单、发票)等;管理元数据是指从管理角度描述的元数据,包括但不限于管理负责人、管理权限、管理部门等。
在采集到数据资产的元数据后,可进一步以元数据为依据,从对应的数据资产来源抽取其所包含的实体、实体间的关系及实体属性。
步骤102、将提取的各个实体和实体间的关系基于数据资产图模型包括的第一模型进行建图,得到基于对应关系进行关联的不同实体间的关系图。
在提取数据资产集中的数据资产包含的实体、关系和属性后,本实施例采用基于图数据库技术所提供的数据资产图模型,将抽取的实体、关系和属性进行融合,以建立数据资产的知识图谱,得到数据资产集对应的数据地图。
本实施例中,基于图数据库技术所提供的数据资产图模型,主要包括用于将实体与实体间的关系以图方式进行关联与组织的第一模型,和用于将实体与实体属性以图方式进行关联与组织的第二模型。
可选的,第一模型具体可以为对应于“实体-关系”数据的“节点-边”模型,该模型中,实体与节点一一对应,不同实体间的关系与边一一对应,也即,一个节点表示一个实体,两个节点之间的边表示两个节点所代表的两个实体之间的关系,边信息具体为对应的关系信息,如血缘、相似、关联指标等。
第二模型具体可以为对应于“实体-属性”数据的“节点-属性”模型,该模型中的节点同样用于表示实体,两者为一一对应关系,该模型中的属性则表示实体的属性,具体关联在所属实体对应的节点上。
本步骤中,可采用数据资产图模型的第一模型,即“节点-边”模型,将提取的各个实体和实体间的关系进行建图,其中将每个实体构建为一个节点,可称之为实体节点,将实体间的关系构建为所对应实体节点之间的边,并将具体关系信息(如血缘关系、相似度等)添加为对应的边信息,得到基于对应关系进行关联的不同实体间的关系图。
步骤103、将提取的实体属性基于数据资产图模型包括的第二模型,关联在上述关系图的相应节点上,以作为该相应节点的节点属性,完成关系图构建和属性关联后所得的结果图作为数据资产集对应的数据地图。
并可采用数据资产图模型的第二模型,即“节点-属性”模型,将提取的实体属性,作为属性项关联在所对应实体的实体节点上,以作为该实体节点的节点属性。
在将从数据资产集中提取的各个实体、关系、属性,按“节点-边”模型和“节点-属性”模型,进行关系图构建和属性关联后,即可得到数据资产集对应的数据地图。
数据地图的构建过程,可作为本申请数据处理方法的预处理步骤预先完成。数据地图能够将复杂网状结构的数据资产进行有效组织与关联,后续可以以数据地图为基础,提供以用户为中心的,基于图形化展示的复杂网状结构数据资产搜索与关联探索服务。
在一可选实施例中,在数据资产集对应多个数据资产来源的情况下,参见图2所示的数据地图构建过程示意图,在将提取的各个实体和实体间的关系进行建图之前,还可以包括以下处理:
步骤201、对表达形式不同、业务含义相同的不同来源对象的对象信息进行融合处理;不同来源对象为不同来源的实体、关系和/或属性。
不同来源的数据资产常常存在表达形式不同、业务含义相同的情况,如人员编号、人员标识、人员ID等。
针对该情况,本实施例在抽取各来源数据资产的实体、关系、属性后,确定不同来源的实体、关系、属性中,表达形式不同、业务含义相同的实体、关系和/或属性,并为其提供统一的术语表达,以将不同来源表达形式不同、业务含义相同的对象信息进行融合,包括实体、关系和/或属性的合并等,例如将三个来源中的人员编号、人员标识、人员ID统一为人员ID,并将各个来源的该项信息进行合并等,使得能够将不同来源中表达形式不同、业务含义相同的实体、关系、属性,在数据地图构建中进行规范化表达与整合,形成一个统一的知识库,更好的为数据资产搜索与关联探索服务提供支撑。
在一可选实施例中,见图3所示的数据地图构建过程示意图,构建数据地图构的程,还可以包括:
步骤301、根据数据地图的已有实体、关系和属性,识别数据地图中的错误知识和/或数据地图包含的潜在知识。
可选的,错误知识包括错误的关系和/或属性,潜在知识包括潜在的关系和/或属性。
在基于数据资产图模型,将从数据资产集提取的实体、关系、属性构建为对应的数据地图后,本实施例进一步从数据地图中已有的实体、关系、属性数据出发,根据数据地图中的一系列节点路径与路径上的节点/边/属性等信息,进行知识分析与推理,以此识别数据地图中的错误知识,和/或数据地图包含的潜在知识。
例如,通过基于数据地图中的多条路径与路径上的节点/边/属性信息,分析、推理出,节点A与节点B之间应是父子关系,而目前数据地图中标记的则是子父关系,从而判定节点A与节点B之间的当前关系为错误知识。
又如,通过数据地图已有知识中,节点C与节点D之间存在相似关系,节点节点D与节点E之间存在相似关系这些信息,推理出,节点C与节点E之间存在相似关系,推理出的该知识即可作为数据地图包含的潜在知识。
步骤302、从数据地图中剔除错误知识,和/或向数据地图添加潜在知识。
对于识别出的错误知识,可将其从数据地图剔除,如删除某两个实体节点之间的某条边,或删除某个实体节点的某个属性等。
可选的,针对错误知识,若通过对数据地图已有知识的推理,确定出错误知识所对应的正确知识,如上述的父子关系,还可以直接基于确定出的正确知识,对数据地图中的错误知识进行修正。
对于识别出的潜在知识,则基于数据资产图模型,如“节点-边”模型和“节点-属性”模型,将其添加至数据地图,如在某两个实体节点之间新增一条边,并添加推理出的潜在关系作为边信息,或为某节点增添推理出的潜在属性项等。
值得说明,实际应用中,还可以在提取数据资产集的实体、关系和属性之后,以及将提取的实体、关系和属性构建为数据地图之前,执行上述的分析、推理及知识调整处理,在此基础上基于调整后的知识进行数据地图构建。
本实施例通过以数据地图的已有知识出发,按其提供的各种关系路径进行关联分析,达到了复杂网络关系下的数据洞察效果,便于发现数据、理解数据和使用数据。并在此基础上,对数据资产集所对应数据地图进行完善与修正,可便于更好的向用户提供,以用户为中心的基于图形化展示的复杂网状结构数据资产搜索与关联探索服务。
基于所构建的数据地图,参见图4所示的数据处理方法流程图,本申请提供的数据处理方法,可以包括以下处理过程:
步骤401、获得输入的搜索信息。
所述的搜索信息,可以是但不限于一个或多个关键字、关键词,或短句、长句。
当用户具备对所需数据资产的查看或使用等需求时,可通过输入一个或多个关键字等搜索信息,来用于从数据地图中进行数据资产的搜索。
步骤402、从预先构建的数据地图中确定与所述搜索信息匹配的目标数据资产;数据地图为基于预设的数据资产图模型对数据资产集中的数据资产进行组织与关联所得的结果。
本实施例以数据资产集对应的数据地图为基础,通过数据地图所包含知识图谱的关联探索属性,提供针对全局数据资产的快速检索和图探索能力,以及针对某一具体数据资产的图关联分析能力。支持用户通过输入关键字等搜索信息,进行数据资产的全局搜索,并围绕搜索得到的目标数据资产全方位探索其对应的关联,同时针对具体的数据资产按照各种关系路径进行关联分析,以此向用户提供以用户为中心的复杂网状结构数据资产搜索与关联探索服务。
具体的,在获得用户输入的搜索信息后,可从数据地图中确定与搜索信息匹配的目标实体,并从数据地图中确定目标实体对应的关联,目标实体对应的关联可以包括目标实体与其他实体间的关系和/或目标实体的属性;目标实体及目标实体对应的关联,构成与用户搜索信息匹配的目标数据资产。
例如,从数据地图中搜索与用户输入的一个或多个关键词匹配的目标数据表,在此基础上,进一步从数据地图中查找该目标数据表对应的关系及属性,如目标数据表所属业务域、所属数据库、血缘、相似等关系,以及创建时间、大小等属性,所搜索出的目标数据表,及目标数据表对应的一系列关系、属性,作为与用户输入的搜索信息匹配的目标数据资产。
步骤403、获得目标数据资产在数据地图中对应的目标数据资产子图。
之后,具体可从数据地图中定位由目标实体对应的目标实体节点、目标实体节点连接的各个边及各个边连接的区别于目标实体节点的其他实体节点构成的子图,并提取定位的子图作为目标数据资产在数据地图中对应的目标数据资产子图。
在此基础上,可将获得的目标数据资产子图输出,并以图数据库方式进行图形化展示,以支持用户以图形化方式,对搜索所得的目标数据资产进行查看或下载使用等应用。
可选的,在以图形化方式展示目标数据资产子图时,还可以将节点的属性信息与节点的边信息隐藏(仅展示“边”的图形,不展示具体的边信息),在用户需查看节点属性或边信息时,通过执行对应于该节点的属性查看操作,或边信息查看操作,来调出节点的属性信息或边信息,使其可见。
由以上方案可知,本申请公开的数据处理方法,预先基于预设的数据资产图模型对数据资产集中的数据资产进行组织与关联,使得将数据资产构建为对应的数据地图。在此基础上,针对输入的搜索信息,从数据地图中确定与搜索信息匹配的目标数据资产,并获得目标数据资产在数据地图中对应的目标数据资产子图,以便于后续以目标数据资产子图的形式,向y用户提供满足其搜索信息的数据资产。
可见,本申请提供了一种基于知识图谱的、复杂网状结构的数据资产关联探索方式,可支持以用户为中心的,基于图形化展示的、复杂网状结构数据资产搜索与关联探索,从而能够更好的为用户提供可见、可懂、可用、可运营的数据资产探索服务,使得用户能够便捷、高效的进行数据发现和消费。
在一可选实施例中,参见图5所示的数据处理方法流程图,本申请提供的数据处理方法,在获得目标数据资产在数据地图中对应的目标数据资产子图之后,还可以包括以下处理:
步骤404、输出与展示目标数据资产子图。
目标数据资产子图,具体为与用户搜索信息匹配的目标实体在数据地图中对应的目标实体节点、目标实体节点连接的各个边,及各个边连接的区别于目标实体节点的其他实体节点构成的子图。
在以用户输入的搜索信息为依据,对数据地图进行搜索与子图定位得到目标数据资产子图后,可将获得的目标数据资产子图输出,并以图数据库方式进行图形化展示,具体可展示为一系列“节点-边”、“节点-属性”构成的图形,用户可通过对展示的目标数据资产子图上的实体、关系、属性等资产进行查看或下载,实现所需的应用。
可选的,默认状态下,可以仅展示实体节点及实体节点之间的边,实体节点的属性或具体边信息处于隐藏状态。
步骤405、响应于对目标数据资产子图上的目标图对象执行的信息展开操作,从数据地图中获取所述目标图对象的与信息展开操作匹配的目标展开信息,并将目标展开信息与目标图对象关联显示。
其中,目标图对象,可以为目标数据资产子图上的相应节点或边。对目标数据资产子图上的目标图对象执行的信息展开操作,可以是对目标数据资产子图上目标节点的关联节点展开操作,或对目标数据资产子图上目标节点的属性信息展开操作,或对目标数据资产子图上目标边的边信息展开操作。
例如,用户通过单击某实体节点或选择该节点操作菜单中的相应菜单项,来展开该节点所连接的其他节点;通过双击某实体节点或选择该节点操作菜单中的相应菜单项,展开该节点的属性;通过单击某条边或选择该条边操作菜单中的相应菜单项,展开该条件的边信息进行关系查看等。
与之相匹配,响应于对目标数据资产子图上的目标节点的关联节点展开操作,具体可从数据地图中获取目标节点对应的关系及所对应关系指示的关联节点,并将获取的关系及关系指示的关联节点与目标节点关联显示,以帮助用户了解目标节点对应的关联节点,例如某数据表所属的数据库,所属的业务域,某指标的关联指标等。
本实施例中,节点对应的关联节点,是指节点在数据地图中所直连的其他节点。
响应于对目标数据资产子图上的目标节点的属性信息展开操作,可从数据地图中获取目标节点对应的属性信息,并将获取的属性信息与目标节点关联显示,以帮助用户了解目标节点所代表实体对应的属性,例如,员工节点所对应的姓名、性别、年龄段,职位、所属部门等属性,数据库表节点所对应的创建时间、大小等属性。
响应于对目标数据资产子图上的目标边的边信息展开操作,从数据地图中获取目标边对应的边信息,并将获取的边信息与目标边关联显示;边信息至少包括边所对应的关系的关系类型。
边信息中包含的关系的关系类型,可以是但不限于血缘、相似、从属等关系,具体可将查询所得的边信息关联展示在所对应的边上,便于用户了解两个实体之间具体是怎样的关系。
本实施例通过数据地图所包含知识图谱的关联探索属性,提供针对全局数据资产的快速检索和图探索能力,用户通过输入关键字等搜索信息即可全局搜索所需的数据资产,并可围绕搜索的目标数据资产全方位探索其关联关系,同时针对具体的数据资产按照各种关系路径进行关联分析,达到复杂网络关系下的数据洞察效果,便于发现数据、理解数据和使用数据,能够为用户提供以用户为中心的,基于图形化展示的复杂网状结构数据资产搜索与关联探索服务。
以下提供本申请方法的一应用示例。
该示例中,利用图数据库技术构建数据资产集对应的数据地图,并基于数据地图提供数据资产搜索与关联探索服务,整体应用框架图如图6所示。主要包含知识建模、采集数据资产元数据、知识抽取与知识融合、构建数据地图、基于数据地图的数据资产检索与关联分析五个环节。分别如下:
(一)知识建模
根据数据资产的管理特点,构建数据资产图模型,将数据资产分为数据表、数据模型、数据库、数据连接、业务负责人、字段、标签、文件等实体,所属业务域、所属数据库、血缘、相似、关联指标等关系,以及人员姓名、性别、年龄段,职位、所属部门,数据库表的创建时间、大小等属性。
(二)采集数据资产元数据
构建元数据采集任务,从各个数据资产来源采集数据资产元数据,比如hive元数据、HDFS文件元数据、ETL元数据、血缘关系等,周期性增量采集,或定时全量采集,不作限制,针对hive、HDFS、ETL等类型元数据,可分别采集其技术元数据、业务元数据和管理元数据等多种维度描述的元数据。
(三)知识抽取与知识融合
以采集的数据资产元信息为依据,从数据资产来源中抽取出实体、关系、属性,将来自不同来源相同实体的不同表达形式进行融合,包括实体、实体属性、实体关系的合并等,并提供统一的术语,合成得到一个统一、规范的知识库。同时从知识库中已有的实体、关系、属性数据出发,推理出新的潜在知识或识别错误知识。
(四)构建数据地图
采用图数据库技术,基于数据资产图模型,将提取的数据资产集的实体、关系和属性进行建图,通过“节点-边”模型和“节点-属性”模型对实体、关系和属性进行关联与组织,得到对应的知识图谱,该知识图谱即为数据资产集对应的数据地图。
(五)基于数据地图的数据资产检索与关联分析
通过数据地图的关联探索属性,提供针对全局数据资产的快速检索和图探索能力,以及针对某一具体数据资产的图关联分析能力。
用户可通过输入关键字等搜索信息来全局搜索所需的数据资产,并围绕与用户搜索信息匹配的目标数据资产全方位探索其关联关系,同时针对具体的数据资产按照各种关系路径进行关联分析,达到复杂网络关系下的数据洞察,便于发现数据、理解数据和使用数据。
参见图7,提供了基于数据地图的数据资产检索与关联分析,为用户提供图形化资产探索服务的一个示例性应用界面,其中,用户在搜索栏输入“dgp”,会输出以dgp为中心的一个数据资产子图,包括与dgp匹配的实体节点N0,以及与N0通过对应的边直连的各个其他实体节点,实体节点N0与其直连的各个其他实体节点的属性,以及N0与其直连的各个其他实体节点之间的边信息均属于隐藏状态。
在此基础上,用户可根据需求,通过执行对应的操作,展开所显示的任一实体节点的实体属性,或展开所显示的任一条边的边信息进行查看。还可以级联式展开实体节点N0所直连的任一其他节点所关联的节点,如图7中,针对用户输入的“dgp”,初始时仅展示与dgp匹配的实体节点N0,以及与N0直连的各个其他实体节点,用户通过执行对节点N0所直连节点N1的展开操作,进一步在数据地图中按照对应的关系路径探索节点N1直连的各个节点并进行展示,在此基础上,若用户继续执行对N1所直连节点N2的展开操作,则继续在数据地图中按照对应的关系路径探索节点N2直连的各个节点并进行展示,即,可以根据用户选中需展开的节点,在数据地图中以该节点为中心进行搜索或关联探索,为用户提供以用户为中心的基于图形化展示的复杂网状结构数据资产搜索与关联探索服务。
并且,针对所展示信息,可对其进行查看或下载,例如,可根据需求打开某节点所代表的实体信息进行查看,或对某节点所代表的实体信息进行下载等,如打开或下载某一数据表或数据库,以实现所需的应用。
本申请实施例还公开一种电子设备,电子设备的组成结构,如图8所示,至少包括:
存储器10,用于存放计算机指令集;
计算机指令集可以通过计算机程序的形式实现。
处理器20,用于通过执行计算机指令集,实现如上文任一方法实施例公开的数据处理方法。
处理器20可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件等。
电子设备具备显示装置和/或具备显示接口、能外接显示装置。
可选的,电子设备还包括摄像头组件,和/或连接有外置摄像头组件。
除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等,该通信总线可以分为地址总线、数据总线、控制总线等。
综上所述,本申请提供的数据处理方法和电子设备,相比于已有技术,至少具备以下技术优势:
a)提供了图形化的数据资产探索模式,已有的数据资产检索方案通常是基于数据统计或数据分布,提供基于元数据的全文查询或基于目录的分类查询,本申请则提供了一种全新的基于图模型的数据探索方式;
b)提供了以用户为中心的数据资产复杂网状结构的关联探索模式,已有的数据资产检索方法主要面向数据资产知识库,是以数据为中心,而不是以用户为中心,本申请提供了一种基于知识图谱的、以用户为中心的复杂网状结构关联探索方法,与用户的思维习惯更为贴合,可更好的为用户提供可见、可懂、可用、可运营的数据资产探索服务。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种数据处理方法,所述方法包括:
获得输入的搜索信息;
从预先构建的数据地图中确定与所述搜索信息匹配的目标数据资产;所述数据地图为基于预设的数据资产图模型对数据资产集中的数据资产进行组织与关联所得的结果;
获得所述目标数据资产在所述数据地图中对应的目标数据资产子图。
2.根据权利要求1所述的方法,其中,构建所述数据地图的过程,包括:
提取所述数据资产集中的数据资产包含的实体、实体间的关系和实体具备的属性;
将提取的各个实体和实体间的关系基于所述数据资产图模型包括的第一模型进行建图,得到基于对应关系进行关联的不同实体间的关系图;
将提取的实体属性基于所述数据资产图模型包括的第二模型,关联在所述关系图的相应节点上,以作为所述相应节点的节点属性,完成关系图构建和属性关联后所得的结果图作为所述数据地图。
3.根据权利要求2所述的方法,所述提取所述数据资产集中的数据资产包含的实体、实体间的关系和实体具备的属性,包括:
获取所述数据资产集中数据资产的元数据;
根据数据资产的元数据提取所述数据资产包含的实体、实体间的关系和实体具备的属性。
4.根据权利要求2所述的方法,在所述数据资产集对应多个数据资产来源的情况下,所述方法在将提取的各个实体和实体间的关系基于所述数据资产图模型包括的第一模型进行建图之前,还包括:
对表达形式不同、业务含义相同的不同来源对象的对象信息进行融合处理;所述不同来源对象为不同来源的实体、关系和/或属性。
5.根据权利要求2所述的方法,在构建所述数据地图时,所述方法还包括:
根据所述数据地图的已有实体、关系和属性,识别所述数据地图中的错误知识和/或所述数据地图包含的潜在知识;
从所述数据地图中剔除所述错误知识,和/或向所述数据地图添加所述潜在知识;
其中,所述错误知识包括错误的关系和/或属性,所述潜在知识包括潜在的关系和/或属性。
6.根据权利要求1所述的方法,所述从预先构建的数据地图中确定与所述搜索信息匹配的目标数据资产,包括:
从所述数据地图中确定与所述搜索信息匹配的目标实体;
从所述数据地图中确定所述目标实体对应的关联,所述目标实体对应的关联包括所述目标实体与其他实体间的关系和/或所述目标实体的属性;所述目标实体及所述目标实体对应的关联构成所述目标数据资产。
7.根据权利要求6所述的方法,所述获得所述目标数据资产在所述数据地图中对应的目标数据资产子图,包括:
从所述数据地图中定位由所述目标实体对应的目标实体节点、所述目标实体节点连接的各个边及所述各个边连接的区别于所述目标实体节点的其他实体节点构成的子图;
提取定位的所述子图作为所述目标数据资产在所述数据地图中对应的目标数据资产子图。
8.根据权利要求7所述的方法,还包括:
输出与展示所述目标数据资产子图;
响应于对所述目标数据资产子图上的目标图对象执行的信息展开操作,从所述数据地图中获取所述目标图对象的与所述信息展开操作匹配的目标展开信息,并将所述目标展开信息与所述目标图对象关联显示;
其中,所述目标图对象为所述目标数据资产子图上的相应节点或边。
9.根据权利要求8所述的方法,所述响应于对所述目标数据资产子图上的目标图对象执行的信息展开操作,从所述数据地图中获取所述目标图对象的与所述信息展开操匹配的目标展开信息,并将所述目标展开信息与所述目标图对象关联显示,包括如下的至少一种:
响应于对所述目标数据资产子图上的目标节点的关联节点展开操作,从所述数据地图中获取所述目标节点对应的关系及所对应关系指示的关联节点,并将获取的关系及关系指示的关联节点与所述目标节点关联显示;
响应于对所述目标数据资产子图上的目标节点的属性信息展开操作,从所述数据地图中获取所述目标节点对应的属性信息,并将获取的属性信息与所述目标节点关联显示;
响应于对所述目标数据资产子图上的目标边的边信息展开操作,从所述数据地图中获取所述目标边对应的边信息,并将获取的边信息与所述目标边关联显示;所述边信息至少包括边所对应的关系的关系类型。
10.一种电子设备,包括:
存储器,用于至少存储一组计算机指令集;
处理器,用于通过调用并执行所述存储器中存储的所述指令集,实现如权利要求1-9任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211736431.5A CN116010679A (zh) | 2022-12-31 | 2022-12-31 | 数据处理方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211736431.5A CN116010679A (zh) | 2022-12-31 | 2022-12-31 | 数据处理方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116010679A true CN116010679A (zh) | 2023-04-25 |
Family
ID=86022660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211736431.5A Pending CN116010679A (zh) | 2022-12-31 | 2022-12-31 | 数据处理方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116010679A (zh) |
-
2022
- 2022-12-31 CN CN202211736431.5A patent/CN116010679A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200349324A1 (en) | System and method for analysis and navigation of data | |
US9361320B1 (en) | Modeling big data | |
US7899837B2 (en) | Apparatus and method for generating queries and reports | |
US20110282855A1 (en) | Scoring relationships between objects in information retrieval | |
EP2191399A1 (en) | System and method for analyzing electronic data records | |
CN104750776B (zh) | 使用元数据访问数据库平台中的信息内容 | |
WO2012129149A2 (en) | Aggregating search results based on associating data instances with knowledge base entities | |
WO2002084431A2 (en) | Simplifying and manipulating k-partite graphs | |
US20110191335A1 (en) | Method and system for conducting legal research using clustering analytics | |
KR101505858B1 (ko) | 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템 | |
Sabri et al. | Semantic pattern-based retrieval of architectural floor plans with case-based and graph-based searching techniques and their evaluation and visualization | |
Starlinger et al. | Effective and efficient similarity search in scientific workflow repositories | |
US20080147631A1 (en) | Method and system for collecting and retrieving information from web sites | |
CN114049927A (zh) | 疾病数据处理方法、装置、电子设备及可读介质 | |
US20160048517A1 (en) | System and method for identifying relationships in a data graph | |
US10650191B1 (en) | Document term extraction based on multiple metrics | |
KR101441219B1 (ko) | 정보 엔터티들의 자동 연관 | |
JP6375029B2 (ja) | レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム | |
US9984107B2 (en) | Database joins using uncertain criteria | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
CN111190965A (zh) | 基于文本数据的即席关系分析系统及方法 | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
JPH08305724A (ja) | 設計支援情報文書管理装置 | |
US20190087484A1 (en) | Capturing context using network visualization | |
CN116010679A (zh) | 数据处理方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |