CN117171381B - 基于结构化数据表的交互式图数据构建方法、系统及装置 - Google Patents

基于结构化数据表的交互式图数据构建方法、系统及装置 Download PDF

Info

Publication number
CN117171381B
CN117171381B CN202311448874.9A CN202311448874A CN117171381B CN 117171381 B CN117171381 B CN 117171381B CN 202311448874 A CN202311448874 A CN 202311448874A CN 117171381 B CN117171381 B CN 117171381B
Authority
CN
China
Prior art keywords
data
graph data
node
graph
fields
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311448874.9A
Other languages
English (en)
Other versions
CN117171381A (zh
Inventor
葛晓东
罗实
王永恒
巫英才
刘念
李炳强
周宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311448874.9A priority Critical patent/CN117171381B/zh
Publication of CN117171381A publication Critical patent/CN117171381A/zh
Application granted granted Critical
Publication of CN117171381B publication Critical patent/CN117171381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于结构化数据表的交互式图数据构建方法,包括:获取包含多个数据表的原始数据;基于原始数据中的字段构建对应的节点实体和节点实例;将字段与对应的节点实体和节点实例组成图数据组件;根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据。本发明还提供了一种交互式图数据构建系统和装置。本发明提供的方法将schema的构建与数据加载过程相结合,从而有效减少用户的手动操作,显著提高构建图数据的效率。

Description

基于结构化数据表的交互式图数据构建方法、系统及装置
技术领域
本发明属于图数据构建的技术领域,尤其涉及一种基于结构化数据表的交互式图数据构建方法、系统及装置。
背景技术
图是一种常见的非线性数据结构,由节点和连接节点的边组成。在现实世界中,很多问题都可以通场景中的实体和关系抽象成图结构的方式进行分析。例如,在分析某个群体的社交网络时,将群体中的每个成员视为节点,成员之间的关系视为边,便可以得到该群体的单节点类型图结构;在电商分析场景中,将生产商、仓库、商品、门店、物流、顾客等实体抽象为节点,各种实体之间的交互关系抽象为边,便可以得到整个电商场景下的供应链图网络结构。得到图数据后,数据工作者可以非常方便地查询图中的节点和边,或者调用常见的图算法进行分析,例如最短路径算法、社团检测算法等。
图数据的广泛应用催生了一批专门用于存储图数据的数据库,例如Neo4j、JanusGraph、HugeGraph、TigerGraph、NebulaGraph等。图数据库是一种非关系型数据库,它使用节点、边、属性来表示和存储图数据,与传统的关系型数据库相比,图数据库直接将图中的节点、节点间的关系组成的集合相关联,能够实现复杂的图结构中节点、关系与路径的快速检索。然而,在数据分析场景中,原始数据类型多为结构化的表格数据,表格数据由多行相同结构的数据实例组成。与表格数据不同,一份图数据允许包含多种类型的节点和边,这些节点和边可以拥有不同的属性。多数情况下,图数据都需要基于结构化表格数据进行构建。
schema优先的图数据构建模式优点最为明显,业内大部分场景也都采用了这种模式。然而在具体实施时,它们大都采用schema构建与数据加载分离的交互方式构建图数据,这些方法没有充分利用数据中的信息,需要耗费用户大量的手动操作,费时费力。
专利文献CN115203162A公开了一种所见即所得图数据构建方法,该方法将构图逻辑抽象成独立的若干组件,每一个组件抽象为一个任务流画布中的单个节点任务,每一个节点任务设置有相同的输入输出的数据结构;任务流中每一个节点任务按顺序依次执行,当任务流有分支则并行执行。该方法需要在构建图数据过程中对各实体之间的关系进行判断和手动操作,效率较低。
专利文献CN114417018A公开了一种知识图谱的全流程可视化配置系统及方法,该系统包括:数据源管理模块,用于获取待连接数据源,建立与所有待连接数据源的连接;数据映射管理模块,用于获取待连接数据源中的结构化数据与图谱之间的映射关系;数据同步模块,用于将已连接的数据源中的数据抽取到图数据库,并基于所述映射关系,构建知识图谱;元素样式配置模块,用于获取图谱的元素样式,对知识图谱进行显示。该系统需要在数据处理过程中因直接将图数据进行导入使用,会存在数据异常的问题。
发明内容
本发明的主要目的在于提供一种基于结构化数据表的交互式图数据构建方法、系统及装置,该方法能基于结构化数据表进行图数据的快速构建,并实时生成图数据的结果预览和相关探索结果。
为了实现本发明的第一个目的,提供了一种基于结构化数据表的交互式图数据构建方法,包括:
步骤1、获取包含多个数据表的原始数据,并提取每个数据表中的所有字段以及字段下的数据项,将提取获得的字段、数据项以及所在数据表组成关系库;
步骤2、根据目标字段创建对应的节点实体,并通过所述关系库检索目标字段所在的数据表以及数据表内其他字段,将其他字段作为属性添加至所述节点实体的schema,同时将所有字段下的数据项注入所述节点实体,以构建所述节点实体下的节点实例;
步骤3、重复步骤2以构建原始数据中所有目标字段对应的节点实体与节点实例,以生成对应的图数据组件;
步骤4、根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据。
本发明以数据为中心,从构建schema开始便充分利用数据中的信息,使用数据表中的字段创建schema中的实体与属性,实现schema构建与数据加载同步进行,同时在构建数据映射时,设计了字符串相似度匹配、值相似度匹配等匹配算法,帮助用户推荐映射方案,从而减少用户的手动操作,快速生成实体间的关系。
具体的,所述节点实体的schema还包括实体主键、实体属性、实体颜色、实体大小、实体名称以及实体标签,从而便于后续图数据构建过程的数据调用,以及关联关系的生成。
具体的,所述两个图数据组件之间通过各自节点实体和对应节点实例中的属性值进行相似度匹配。
具体的,所述相似度匹配采用文本相似度算法和字段值匹配算法,其具体过程如下:
采用word2vec模型将两个节点实体中的属性名转化为对应的词向量;
根据两个节点实体下所有属性名的词向量进行余弦相似度计算,筛选相似度高于阈值的词向量并降序排序,以获得第一匹配结果;
筛选两个节点实体中存在相同字段值的属性,将其两两分组后计算每个分组内可匹配的相同字段值的数目占总字段值数目的比例,筛选出高于阈值的分组并降序排序,以获得第二匹配结果;
根据第一匹配结果和第二匹配结果进行加权平均,以筛选获得两个节点实体间的边关系,从而得到边的实例数据。
具体的,所述图数据组件支持通过交互的方式配置节点和边的属性,所述属性包括颜色、大小及标签,并将属性写对应的入节点实例和边实例中,从而在构建图数据过程中简化操作过程。
具体的,用户选取若干字段后,通过拖拽或/和连线对应的图数据组件以完成构建图数据时的数据流转。
具体的,在构建可视化的图数据时,实时更新节点实体之间的连接状态以展示当前数据流转状态。
具体的,所述关系库以数据表作为单独存储单元,将数据表内的字段名作为单独存储单元的key,将字段下的数据项做为对应的value,以数据表为单元从而减少相关数据的重复检索工作,以读取对应的数据表获取关联性最高的数据信息。
为了实现本发明的第二个目的,提供了一种交互式图数据构建系统,采用上述提出的基于结构化数据表的交互式图数据构建方法实现,包括数据采集单元,图组件生成单元,操作单元以及可视化单元;
所述数据采集单元,用于获取原始数据表内的字段和数据项;
所述图组件生成单元,根据获取的字段和数据项生成对应的图数据组件;
所述操作单元,用于配置图数据组件中节点和边的颜色、尺寸和标签,以及对图数据组件执行拖拽或/和连线的操作;
所述可视化单元,根据操作单元的操作结果,生成可视化的图数据。
为了实现本发明的第三个目的,提供了一种交互式图数据构建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的基于结构化数据表的交互图数据构建方法,其具体步骤如下:
通过交互式图数据构建方法对原始数据表进行处理,并基于用户查询的若干字段以生成对应的图数据。
与现有技术相比,本发明的有益效果:
本发明通过schema构建与数据加载的过程进行结合,从构建schema开始便充分利用数据中的信息,使用数据表中的字段创建schema中的实体与属性,实现schema构建与数据加载同步进行,从而减少手动编辑操作,使得数据工作者能够通过简单的拖拽、点击操作更快速、便捷地构建图数据。
附图说明
图1为本实施例提供的基于结构化数据表的交互式图数据构建方法的流程图;
图2为本实施例提供的实体schema创建和节点实例的数据加载流程图;
图3为本实施例提供的两个图数据组件之间的相似度匹配流程图;
图4为本实施例提供的交互式图数据构建系统的示意图;
图5为本实施例提供的操作单元的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
现阶段图数据的广泛应用催生了一批专门用于存储图数据的数据库,例如Neo4j、JanusGraph、HugeGraph、TigerGraph、NebulaGraph等。图数据库是一种非关系型数据库,它使用节点、边、属性来表示和存储图数据,与传统的关系型数据库相比,图数据库直接将图中的节点、节点间的关系组成的集合相关联,能够实现复杂的图结构中节点、关系与路径的快速检索。然而,在数据分析场景中,原始数据类型多为结构化的表格数据,表格数据由多行相同结构的数据实例组成。与表格数据不同,一份图数据允许包含多种类型的节点和边,这些节点和边可以拥有不同的属性。多数情况下,图数据都需要基于结构化表格数据进行构建。
在构建图数据时,首先需要构建图数据的模型。在数据库中,人们一般将模型称为schema,与关系型数据库类似,图数据的schema通常使用实体-关系图(E-R图)表示。在E-R图中,相同类型的实体被抽象为一个节点,相同类型的关系被抽象为一条边。E-R图可以清晰地展示图数据的结构、实体类型以及关系类型。在图数据库中,根据处理schema方式不同,图数据的构建方式可以分为三类:schema优先、无schema、混合模式。在schema优先模式中,需要预先定义一个schema,并声明节点和边拥有的属性信息,在后续导入的所有节点和边的结构都必须符合该schema;在无schema模式中,不需要预先定义schema,导入的节点和边可以拥有独特的属性;混合模式是一种介于前两者之间的方法,它允许用户预先创建schema,但不强制要求后续节点和边符合schema的规范。
本发明并没有将schema构建与数据加载作为独立的步骤,而是充分利用数据表中的信息,尽量减少手动编辑操作,使得数据工作者能够通过简单的拖拽、点击操作更快速、便捷地构建图数据。
如图1所示,本实例提供了一种基于结构化数据表的交互式图数据构建方法,该方法的核心是以数据为中心,从构建schema开始便充分利用数据中的信息,使用数据表中的字段创建schema中的实体与属性,实现schema构建与数据加载同步进行。在构建数据映射时,设计了字符串相似度匹配、值相似度匹配等匹配算法,帮助用户推荐映射方案,从而减少用户的手动操作,快速生成实体间的关系。
具体的过程如下:
由于所有的图数据都是基于结构化数据表中的原始数据构建,一份图数据中可能包含多种类型的节点与边,这些节点和边中的数据实例通常来自多张数据表。因此,在构建图数据之前,首先需要导入构建图数据过程中可能用到的数据表,即原始数据。
如图2所示,构建schema的第一步是创建实体,与常见构建工具的创建方式不同,本方法的创建实体方式为从数据视图中直接选择数据表中的某个字段(通常为主键)拖入到图构建视图中,即可生成以该字段为节点实体。此外,在实体创建完成的同时,数据表中该字段下的数据也被自动加载到实体中,即实体创建与数据加载同步完成。
用户可通过该方式从不同数据表中的不同字段创建多种实体。
创建实体后,需要继续为实体添加属性,实体属性的添加和属性数据的加载也是同步完成的。用户在图构建视图中选中已创建的实体,数据视图中将显示该实体下已加载的数据信息与来源数据表中的数据信息。
然后,用户可以将来源数据表中已存在的属性直接添加为实体属性,属性名、类型、属性值全部继承自来源数据表。通过该步骤,用户可以通过来源数据表中的属性信息快速创建schema中实体的属性,并完成属性数据的加载。
添加实体属性后,由于节点实体和属性信息都是直接继承自来源数据表,用户可能还需要对实体进行一些自定义信息的编辑。用户在图构建视图中选中实体,设置实体的颜色、编辑实体的名称、设置实体的标签等。
传统的图构建方法通过手动创建并编辑的方式创建实体,而本实施例提供的方法用户通过将数据表中某个字段(例如:片名)拖动至图构建视图中的方式创建实体。用户将“片名”字段拖入画布后,系统自动创建一个基于该字段的实体,其主键即为该字段,其表达如下:
{
[“字段”:“片名”,“字段类型”:“string”,“iskey”:true]
}。
同时,系统对实体进行预处理,系统自动将数据表中的其他字段作为实体的属性字段添加到实体的schema中,并使用标签字段记录属性是否已被实际添加。
重复上述操作以构建原始数据中所有目标字段对应的节点实体与节点实例,以生成对应的图数据组件。
完成实体创建、实体属性添加、实体信息编辑操作后,实体已经构建完成,接下来需要配置实体间的关系,即构建边。用户在图构建视图中使用鼠标从某个实体引出一条线,将线连接到另一个实体,以此构建两个实体之间的关系。连接两个实体后,用户还需配置边的数据映射关系。边的映射关系由边连接的两个实体中的共有字段通过键值匹配得到,类似数据库中的join操作,用户分别选择源实体与目标实体中的映射字段,保存后系统根据字段下的具体值进行匹配,生成边的实例数据。此外,用户也可以在图构建视图中配置关系的名称、方向、颜色、属性等,其中边的属性来自边连接的实体所依赖的来源数据表。
承接上述关于“片名”的具体说明,实体主键的创建和数据加载,实体与实例的预处理对用户是不可见的。用户可以在实体的属性面板看到来源数据表中的所有字段,用户可以直接点击这些字段,将其添加为实体的属性,例如点击“票房、公司名字段”,系统更新“片名”实体的schema信息,修改“票房、公司名”两个字段的标签状态为“已添加”。由于在创建实体和加载数据时已经对schema和节点实例进行预处理,因此该步骤不需要额外对shcema执行新增字段与对节点实例进行数据加载操作。
更具体地,匹配采用采用文本相似度算法和字段值匹配算法实现,其过程如图3所示:
分别读取两个实体中所有属性的名称,使用word2vec模型将这些名称转化为词向量,然后计算两个实体间两两属性之间的余弦相似度,筛选出高于预设阈值的组合并降序排序;第二种方法为字段值匹配算法,系统筛选出两个实体中存在相同字段值的属性,将其两两分组(可重复,对于多值属性需拆分后一一匹配),然后,计算每个分组内能够匹配的相同字段值占总字段值数目的比例,最后,筛选出高于预设阈值的分组并降序排序。两个算法执行完成后,系统基于两个维度的匹配得分进行加权平均,将推荐结果以可视化的形式提供给用户,帮助用户进行快速的关系配置,在用户配置好两个实体之间的关系后,系统生成关系的schema信息,并基于关系在两个实体下的所有节点实例下进行键值匹配,从而生成关系的边实例。
更具体的,在完成实体创建、实体属性添加、实体信息编辑操作后,实体已经构建完成,接下来需要配置实体间的关系(边)。关系的映射规则由关联的两个实体中的字段通过键值匹配得到,类似数据库中的join操作,用户分别选择两个关联实体中的映射字段,保存后系统根据字段下的字段值进行匹配,生成关系的边实例数据。在进行关系配置时,引入了智能推荐方式对映射方案进行推荐,帮助用户快速选择映射方案构建关系。系统基于两个维度对映射方案进行推荐,分别为属性名相似度与字段值匹配度,对应两种匹配算法:第一种方法为文本相似度算法,系统分别读取两个实体中所有属性的名称,使用word2vec模型将这些名称转化为词向量,然后计算两个实体间两两属性之间的余弦相似度,筛选出高于预设阈值的组合并降序排序;第二种方法为字段值匹配算法,系统筛选出两个实体中存在相同字段值的属性,将其两两分组(可重复,对于多值属性需拆分后一一匹配),然后,计算每个分组内能够匹配的相同字段值占总字段值数目的比例,最后,筛选出高于预设阈值的分组并降序排序。两个算法执行完成后,系统基于两个维度的匹配得分进行加权平均,将推荐结果以可视化的形式提供给用户,帮助用户进行快速的关系配置,即用户配置好两个实体之间的关系后,系统生成关系的schema信息,并基于关系在两个实体下的所有节点实例下进行键值匹配,从而生成关系的边实例。
最后,用户点击“生成图数据”,系统读取用户的配置信息,移除schema与节点实例中在预处理过程中已加载但最终未添加的属性,得到最终的图数据,系统右侧“图生成”视图读取已创建完成的图数据,并将数据中的节点实例和边实例可视化到面板中。
本实施例还提供一种交互式图数据构建系统,基于上述实施例提供的交互式图数据构建方法实现,具体界面如图4所示:
图组件生成单元位于系统界面下半部分,用于展示原始的数据表、图的实体和关系的详细信息。数据视图分为字段标签栏和数据详情栏两部分,字段标签栏展示了数据表/实体/关系中所有的字段信息,包括字段的名称、数据类型、值域分布等,同时还支持各种辅助数据分析的功能,例如搜索、排序、筛选、重命名、移除等。数据详情栏使用列表展示了数据表/实体/关系中的数据详情,由属性栏所在的表头和数据项所在的表格体构成,用户可以在数据详情栏查看数据表、实体或关系下具体的数据实例信息。
可视化单元位于系统界面右侧,用于展示构建完成的图数据的详情,并辅助用户对图数据进行探索。
schema构建完成后,用户点击“生成”按钮,系统对schema与加载的数据进行解析,生成详细图数据,并将图数据中的所有节点和边展示到可视化单元中。
在图生成视图中:提供选择、框选等工具,支持用户拖动、删除节点和边;支持查看节点和边中的属性值信息;提供节点搜索功能,支持指定节点类型和步长;提供路径搜索功能,在视图中指定两个节点,系统将执行计算并在视图中高亮两节点之间符合预设条件的所有路径。
最后,在用户对图数据进行预览和探索后,系统还支持将图数据保存到本地,并支持json、csv、GML等多种格式,用户可以方便地将保存后的图数据载入到其他图分析工具或图数据库中。
如图5所示,操作单元位于系统界面左侧,用于交互式构建图的schema与加载数据,同时可视化图的schema与构建过程。用户从数据视图的数据表中拖动字段标签至图构建视图中创建实体,同时在数据视图为实体添加属性。
实体与实体的属性添加完成后,用户继续在图构建视图中编辑实体与配置实体间关系。具体来说,支持在画布中对实体的任意拖动;支持由实体引出边自由构建实体间的关系,同时支持构建同一实体间的关系;支持自定义实体和关系的颜色;支持实体和关系的重命名、复制、删除;支持构建步骤的撤销和恢复。
用户在配置实体间的关系时,除了手动选择两个实体中的字段进行连接,系统还提供了智能连接推荐功能。系统基于两个维度对连接进行推荐,第一个维度为字段名称相似度,两个字段的名称越相似,越有可能用于连接;第二个维度为字段下具体数据项的匹配度,两个字段下相同的数据项越多,匹配度越高。
最后,系统基于两个维度的匹配度进行加权平均,得到推荐指数并降序排序,用户可以直接应用系统推荐的连接方案,完成关系的配置与数据加载。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
本实施例还提供了一种交互式图数据构建装置,括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的基于结构化数据表的交互图数据构建方法,其具体步骤如下:
通过交互式图数据构建方法对原始数据表进行处理,并基于用户查询的若干字段以生成对应的图数据。
本实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
综上所述,本实施例提出的方法将schema的构建与数据加载过程相结合,能够有效减少用户的手动操作,与先构建schema后加载数据的传统方法相比,可以显著提高构建图数据的效率。
同时在创建实体时,预先将数据表中的所有属性添加到schema中,并加载数据,生成实体的节点实例;在后续的编辑、属性增删操作时,仅需更新配置信息;最后生成图数据时,执行配置信息,更新已经预处理过的图数据。该方案通过空间换取时间,与生成图数据时实时加载数据的方案相比,能够有效提高生成图数据时的效率。
此外,基于文本相似度算法与字段值匹配算法,可以快速生成合理的配置方案,帮助用户快速进行关系配置,相比于用户手动寻找或尝试配置方案,可以有效地减少用户的试错成本,从而提高构建图数据的效率。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (8)

1.一种基于结构化数据表的交互式图数据构建方法,其特征在于,包括:
步骤1、获取包含多个数据表的原始数据,并提取每个数据表中所有字段以及字段下的数据项,将提取获得的字段、数据项以及所在数据表组成关系库;
步骤2、根据目标字段创建对应的节点实体,并通过所述关系库检索目标字段所在的数据表以及数据表内其他字段,将其他字段作为属性添加至所述节点实体的schema,同时将所有字段下的数据项注入所述节点实体,以构建所述节点实体下的节点实例;
步骤3、重复步骤2以构建原始数据中所有目标字段对应的节点实体与节点实例,以生成对应的图数据组件;
步骤4、根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,所述两个图数据组件之间通过各自节点实体和对应节点实例中的属性值进行相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据;
所述相似度匹配采用文本相似度算法和字段值匹配算法,其具体过程如下:
采用word2vec模型将两个节点实体中的属性名转化为对应的词向量;
根据两个节点实体下所有属性名的词向量进行余弦相似度计算,筛选相似度高于阈值的词向量并降序排序,以获得第一匹配结果;
筛选两个节点实体中存在相同字段值的属性,将其两两分组后计算每个分组内可匹配的相同字段值的数目占总字段值数目的比例,筛选出高于阈值的分组并降序排序,以获得第二匹配结果;
根据第一匹配结果和第二匹配结果进行加权平均,以筛选获得两个节点实体间的边关系,从而得到边的实例数据。
2.根据权利要求1所述的基于结构化数据表的交互式图数据构建方法,其特征在于,所述节点实体的schema还包括实体主键、实体属性、实体颜色、实体大小、实体名称以及实体标签。
3.根据权利要求1所述的基于结构化数据表的交互式图数据构建方法,其特征在于,所述图数据组件支持通过交互的方式配置节点和边的属性,所述属性包括颜色、大小及标签,并将属性写入对应的节点实例和边实例中。
4.根据权利要求1所述的基于结构化数据表的交互式图数据构建方法,其特征在于,用户选取若干字段后,通过拖拽或/和连线对应的图数据组件以完成构建图数据时的数据流转。
5.根据权利要求4所述的基于结构化数据表的交互式图数据构建方法,其特征在于,在构建可视化的图数据时,实时更新节点实体之间的连接状态以展示当前数据流转状态。
6.根据权利要求1所述的基于结构化数据表的交互式图数据构建方法,其特征在于,所述关系库以数据表作为单独存储单元,将数据表内的字段名作为单独存储单元的key,将字段下的数据项做为对应的value。
7.一种交互式图数据构建系统,其特征在于,采用权利要求1~6中任一项所述的基于结构化数据表的交互式图数据构建方法实现,包括数据采集单元,图组件生成单元,操作单元以及可视化单元;
所述数据采集单元,用于获取原始数据表内的字段和数据项;
所述图组件生成单元,根据获取的字段和数据项生成对应的图数据组件;
所述操作单元,用于配置图数据组件中节点和边的颜色、尺寸和标签,以及对图数据组件执行拖拽或/和连线的操作;
所述可视化单元,根据操作单元的操作结果,生成可视化的图数据。
8.一种交互式图数据构建装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1~6中任一项所述的基于结构化数据表的交互式图数据构建方法,其具体步骤如下:
通过交互式图数据构建方法对原始数据表进行处理,并基于用户查询的若干字段以生成对应的图数据。
CN202311448874.9A 2023-11-02 2023-11-02 基于结构化数据表的交互式图数据构建方法、系统及装置 Active CN117171381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311448874.9A CN117171381B (zh) 2023-11-02 2023-11-02 基于结构化数据表的交互式图数据构建方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311448874.9A CN117171381B (zh) 2023-11-02 2023-11-02 基于结构化数据表的交互式图数据构建方法、系统及装置

Publications (2)

Publication Number Publication Date
CN117171381A CN117171381A (zh) 2023-12-05
CN117171381B true CN117171381B (zh) 2024-02-09

Family

ID=88947259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311448874.9A Active CN117171381B (zh) 2023-11-02 2023-11-02 基于结构化数据表的交互式图数据构建方法、系统及装置

Country Status (1)

Country Link
CN (1) CN117171381B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862302A (zh) * 2021-02-03 2021-05-28 北京侏罗纪软件股份有限公司 一种石油数据模型建模方法及工具
CN114201616A (zh) * 2021-12-28 2022-03-18 山东合天智汇信息技术有限公司 一种基于多源数据库的知识图谱构建方法及系统
CN115203162A (zh) * 2022-05-30 2022-10-18 西安识庐慧图信息科技有限公司 一种所见即所得图数据构建方法
WO2022233311A1 (zh) * 2021-05-06 2022-11-10 北京字跳网络技术有限公司 展示方法、装置和电子设备
CN115514657A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 网络建模方法、网络问题分析方法及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487791B2 (en) * 2019-03-29 2022-11-01 Microsoft Technology Licensing, Llc Latent feature extraction from a network graph
CN116113938A (zh) * 2020-08-31 2023-05-12 西门子(中国)有限公司 一种基于知识图谱的数据融合方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862302A (zh) * 2021-02-03 2021-05-28 北京侏罗纪软件股份有限公司 一种石油数据模型建模方法及工具
WO2022233311A1 (zh) * 2021-05-06 2022-11-10 北京字跳网络技术有限公司 展示方法、装置和电子设备
CN114201616A (zh) * 2021-12-28 2022-03-18 山东合天智汇信息技术有限公司 一种基于多源数据库的知识图谱构建方法及系统
CN115203162A (zh) * 2022-05-30 2022-10-18 西安识庐慧图信息科技有限公司 一种所见即所得图数据构建方法
CN115514657A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 网络建模方法、网络问题分析方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于迭代的关系模型到本体模型的模式匹配方法;王丰;王亚沙;赵俊峰;崔达;;软件学报(第05期);312-323 *

Also Published As

Publication number Publication date
CN117171381A (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
US10860548B2 (en) Generating and reusing transformations for evolving schema mapping
US11675781B2 (en) Dynamic dashboard with guided discovery
Henry et al. Matrixexplorer: a dual-representation system to explore social networks
Kosara et al. Parallel sets: Interactive exploration and visual analysis of categorical data
US8060391B2 (en) Analogy based workflow identification
US9953069B2 (en) Business intelligence document
US10579678B2 (en) Dynamic hierarchy generation based on graph data
US11966419B2 (en) Systems and methods for combining data analyses
US9110957B2 (en) Data mining in a business intelligence document
US20210125144A1 (en) Bill of material conversion method, electronic apparatus and non-transitory computer-readable storage medium
US20200342029A1 (en) Systems and methods for querying databases using interactive search paths
US9864966B2 (en) Data mining in a business intelligence document
CN110442620A (zh) 一种大数据探索和认知方法、装置、设备以及计算机存储介质
US9639587B2 (en) Social network analyzer
CN112818229A (zh) 基于家居空间的饰品推荐方法、系统、装置及介质
CN117171381B (zh) 基于结构化数据表的交互式图数据构建方法、系统及装置
Vinnik et al. From analysis to interactive exploration: Building visual hierarchies from OLAP cubes
Hoang et al. Dashboard by-example: A hypergraph-based approach to on-demand data warehousing systems
CN117009441A (zh) 基于关系型数据库的知识图谱构建系统及方法
CN114969109A (zh) 一种渐进交互式数据查询系统、方法及介质
US7904413B2 (en) Method and system to segment an OLAP set
Roman Community-based recommendations to improve intranet users' productivity
Noughi et al. Conceptual interpretation of SQL execution traces for program comprehension
JP2002183178A (ja) データ分析支援装置、その方法および記憶媒体
Pham Interactive visual data query & exploration: techniques for visual data analytics through visual query modelling and multidimensional data interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant