CN116028653A - 一种可视化配置多源异构数据构建图谱的方法及系统 - Google Patents

一种可视化配置多源异构数据构建图谱的方法及系统 Download PDF

Info

Publication number
CN116028653A
CN116028653A CN202310321776.2A CN202310321776A CN116028653A CN 116028653 A CN116028653 A CN 116028653A CN 202310321776 A CN202310321776 A CN 202310321776A CN 116028653 A CN116028653 A CN 116028653A
Authority
CN
China
Prior art keywords
map
data
mapping
entity
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310321776.2A
Other languages
English (en)
Other versions
CN116028653B (zh
Inventor
胡孟豪
王耀威
山其本
李潘
黄文柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202310321776.2A priority Critical patent/CN116028653B/zh
Publication of CN116028653A publication Critical patent/CN116028653A/zh
Application granted granted Critical
Publication of CN116028653B publication Critical patent/CN116028653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种可视化配置多源异构数据构建图谱的方法及系统,所述方法包括:获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式;当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引;当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。本发明为用户提供了可视化构建图谱的平台,降低操作难度,通过本体和属性的提前配置大大减轻用户的手动输入工作,提高图谱创建效率。

Description

一种可视化配置多源异构数据构建图谱的方法及系统
技术领域
本发明涉及图谱创建技术领域,尤其涉及一种可视化配置多源异构数据构建图谱的方法及系统。
背景技术
近年来,随着大数据、云计算、图数据库等技术的不断发展,知识图(KnowledgeGraph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、智能问答、信息检索等领域有着重要的应用。知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
目前主流的知识图谱在进行构建时,首先,需要对不同来源的数据进行整合,数据往往都需要先进行数据清洗、数据治理、数据融合,导出成csv或是存在大数据库中再导入到图数据库中;其次,在进行图谱构建和数据导入时,各种图谱构建平台,虽然都有提供可视化的编辑工具,但操作起来都很繁琐,实体、关系、属性都需要逐一手动创建;再次,图谱构建中实体和关系与数据来源的映射也都是一对一的,不能实现一个实体或关系同时对应多个数据源;最后,多数图谱构建工具在进行图片和视频的存储关联上,往往都是先创建好图谱,导入完数据后,再单个对图数据中的某个实体或某个关系单独进行添加图片或是视频信息,操作起来耗时耗力。简言之,当前主流的构建知识图谱方法存在操作繁琐、容错率低、不能一对多构建关系等问题和挑战。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种可视化配置多源异构数据构建图谱的方法及系统,旨在提供解决现有技术中构建知识图谱方法存在操作繁琐、容错率低、不能一对多构建关系的问题。
第一方面,本发明提供一种可视化配置多源异构数据构建图谱的方法,其中,所述方法包括:
获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式;
当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引;
当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。
在一种实现方式中,所述获取数据源,包括:
通过页面配置主流关系型数据库的JDBC连接参数,保存数据源,所述数据源用于图谱映射时进行表和表字段获取;
将所述数据源中的CSV、EXCEL文本文件上传到MINIO对象存储数据库中保存。
在一种实现方式中,所述进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式,包括:
上传图标并进行图标的名称、主类型、细类型、标签、排序、状态的配置;
配置属性,所述属性为对实体和关系的补充描述;
创建本体,所述本体为创建实体的基础;
在图谱管理页面中,通过配置图谱名称、英文名称、所属行业、集群、分区数、字符集和字符规则创建图谱;
在图谱编辑页面中创建实体,并完成知识图谱的基本拓扑搭建;
把创建好的图谱中的实体、关系和属性结构同步到图数据库中,并在图数据库中创建图谱存储空间,完成映射模式的生成。
在一种实现方式中,所述当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引,包括:
创建数据库表、文件、图片和视频多种类型数据的映射;
通过关键字搜索实体和关系,并在映射模式生成后进行可视化的索引创建并删除不需要的索引。
在一种实现方式中,所述创建数据库表、文件、图片和视频多种类型数据的映射,包括:
在进行数据表映射时,在实体和关系映射时选择关系型数据库作为数据来源,并选择数据源下的表字段,把实体和关系的属性与表字段进行关联。
在一种实现方式中,所述创建数据库表、文件、图片和视频多种类型数据的映射,包括:
在进行文件映射时,对CSV、EXCEL、WORD数据进行与实体和关系进行映射配置。
在一种实现方式中,所述创建数据库表、文件、图片和视频多种类型数据的映射,包括:
在进行图片和视频的映射时,提前将实体的主键、图片的本地存储地址、视频的本地存储地址做成EXCEL表格,把EXCEL表格添加倒附加属性中,导入时由导入模块进行图片、视频的存储和主键关联。
在一种实现方式中,所述方法还包括:
设置关键字的字段作为唯一标识,多次导入图谱数据会根据关键字的字段进行判断;
如果存在相同的字段,则不进行重复导入。
第二方面,本发明实施例还提供一种可视化配置多源异构数据构建图谱的系统,其中,所述系统包括:
图谱配置模块,用于获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式;
多数据类型映模块,用于当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引;
图谱导入模块,用于当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。
第三方面,本发明实施例还提供一种终端设备,其中,所述终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行可视化配置多源异构数据构建图谱的程序,处理器执行可视化配置多源异构数据构建图谱的程序时,实现上述方案中任一项所述的可视化配置多源异构数据构建图谱的方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质上存储有可视化配置多源异构数据构建图谱的程序,所述者可视化配置多源异构数据构建图谱的程序被处理器执行时,实现上述方案中任一项所述的可视化配置多源异构数据构建图谱的方法的步骤。
有益效果:与现有技术相比,本发明提供了一种可视化配置多源异构数据构建图谱的方法,本发明首先获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式。然后当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引。最后,当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。本发明为用户提供了可视化构建图谱的平台,降低操作难度,通过本体和属性的提前配置大大减轻用户的手动输入工作,提高图谱创建效率。
附图说明
图1为本发明实施例提供的可视化配置多源异构数据构建图谱的方法的具体实施方式的流程图。
图2为本发明实施例提供的可视化配置多源异构数据构建图谱的方法总体流程示意图。
图3为本发明实施例提供的可视化配置多源异构数据构建图谱的方法中多数据类型映射处理流程图。
图4为本发明实施例提供的可视化配置多源异构数据构建图谱的方法中图谱导入业务处流程示意图。
图5为本发明实施例提供的可视化配置多源异构数据构建图谱系统的功能原理图。
图6为本发明实施例提供的终端设备的原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例提供了一种可视化配置多源异构数据构建图谱的方法,本实施例首先获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式。然后当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引。最后,当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。本实施例为用户提供了可视化构建图谱的平台,降低操作难度,通过本体和属性的提前配置大大减轻用户的手动输入工作,提高图谱创建效率。
示例性方法
本实施例的可视化配置多源异构数据构建图谱的方法可应用于终端设备中,该终端设备可电脑、智能电视或者其他智能化产品终端。具体地,如图1中所示,所述可视化配置多源异构数据构建图谱的方法包括如下步骤:
步骤S100、获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式。
本实施例可通过页面配置主流关系型数据库的JDBC连接参数,保存数据源,所述数据源用于图谱映射时进行表和表字段获取。然后将所述数据源中的CSV、EXCEL文本文件上传到MINIO对象存储数据库中保存。
具体应用时,如图2中所示,本实施例首先进行数据源接入配置,支持CLICKHOUSE、DM、MYSQL、ODPS、HIVE等数据库,可在终端设备上的显示的数据资源配置页面进行不同类型数据库的连接参数配置和连通性测试,测试成功的数据源进行保存。如:选择MYSQL,然后填入数据源名称“mysql学生数据”、IP地址、端口号,用户名和密码等参数信息,并保存数据源配置信息。接着,进入到对象文件配置页面,把CSV、EXCEL、WORD等文件进行上传,后台将文件上传到MINIO数据库上,并保存文件名称和大小等相关信息,方便进行查阅。 比如上传“22级学生期中成绩.CSV”文件,会在文件资源列表中显示上传成功的文件,并可以对文件进行预览,显示文件的表头和前10行数据信息。
进一步地,本实施例上传图标并进行图标的名称、主类型、细类型、标签、排序、状态的配置。接着,配置属性,所述属性为对实体和关系的补充描述。然后,创建本体,所述本体为创建实体的基。再然后,在图谱管理页面中,通过配置图谱名称、英文名称、所属行业、集群、分区数、字符集和字符规则创建图谱。接着,在图谱编辑页面中创建实体,并完成知识图谱的基本拓扑搭建。最后,把创建好的图谱中的实体、关系和属性等结构同步到图数据库中,并在图数据库中创建图谱存储空间,完成映射模式的生成。
具体地,为了给予不同实体设置不同的图标,本实施例建立图标库对图标进行统一管理。图标库内用户上传图标并进行图标名称、主类型、细类型、标签、排序、状态等相应信息的配置。比如,进行图标配置时,支持jpg、jpeg、png、gif等文件格式,上传图标后,设置名称、类型分类并保存。
属性作为对实体和关系的补充描述,具有准确标注实体的作用,能够提供更直观的实体种类划分,并支撑图谱分析工作。属性配置把所有实体和关系需要用到的属性字段进行提前导入,在进行本体、实体和关系配置的时候只需要快速检索相关属性选择即可,不需要手动打字输入。属性配置支持对图数据中所有属性的统一管理,快速包括属性创建、修改属性、模型下载、批量导入以及提供关键字查询功能。在具体应用时,进行属性配置,填写属性的中文名称、英文名称、类型和默认值进行保存并提供属性模版下载,导入模版进行属性批量添加。比如:“课程编号”属性设置英文名称为“kechengbianhao”、类型“数值型”。属性也可以批量导入,下载批量导入模版,在模版中填写中文名称、英文名称、类型和默认值等信息,然后进行模版导入,可以批量添加属性。
本体是创建实体的基础,类似模版或是面向对象编程中的基础类,将本体添加到画布中对属性和参数进行修改快速的创建实体对象。本体管理支持对当前系统所有本体进行管理并以列表的形式展现,记录显示本体名称、图标、创建时间、创建人等信息。进行本体配置时,填写本体的中文名称、英文名称、属性选择和图标选择。属性添加时可以通过属性检索,选择需要的属性进行添加到属性待选框中,并可以进行多个属性选择,属性选择完后,把选中的属性批量添加到本体的属性框中。比如创建“课程”本体,设置英文名为“kecheng”,选择一个书本图标,添加“课程编号”、“所属专业”、“所属院系”、“简介”等属性字段。
在创建图谱时在终端设备显示的图谱管理页面中,本实施例可通过配置图谱名称、英文名称、所属行业、集群、分区数、字符集和字符规则等参数新建图谱。本实施例的图谱编辑页面由工具栏和视图设计面板组成,图谱编辑页面左侧设置本体列表,顶部设置工具按钮(如刷新、放大、缩小、定位、适配、模式生成、模式映射、图谱导入、模式索引、下线),主视图区为设计界面。在进行图谱创建时,比如创建“学成成绩图谱”,设置英文名称“xscj”创建完成后,会在图数据库中创建一个“xscj”图空间给这个图谱使用,图谱中新建的实体和关系后续都会存储在这个图数据库空间内。
在具体应用时,图谱创建完成后,进入图谱的设计界面,在图谱画布区域内,用户可使用鼠标移动到本体列表,选择一个与需要创实体属性最接近的本体拖拽到画布区域中即可创建实体,并对该实体进行名称、图标和属性的修改,可从图标选择进行图标绑定、从属性选择进行属性绑定。实体创建完后进行关系创建,当鼠标移动到实体上,实体图标上显示四个小圆圈点,鼠标点中小圆圈点会拉出一条关系连线,连接另一实体即可创建实体与实体之间的关系。鼠标选中该关系,就会弹出关系属性框,此时就可以进行关系的名称、颜色和属性配置。比如:拖拽一个“课程”本体进画布中,修改中文名称为“学生选课” 和修改英文名称“xsxk”。在“学生”连线到“学生选课” ,创建学生和课程的关系,再创建一个“成绩”实体,把“学生”和“成绩”实体建立关系。
本实施例的模式生成是把创建好的图谱中的实体、关系和属性等结构同步到图数据库中,并在图数据库中创建图谱存储空间。模式生成后的图谱状态为已生成状态,可以进行上线操作,上线后的图谱不能进行编辑,下线后才能再次编辑修。模式生成会把创建在图谱中的实体、关系和属性等结构转换为图数据库创建实体、关系和属性的代码脚本并在图数据库中执行,如果生成过程中,没有异常则进行成功提示,否则进行失败提示。
步骤S200、当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引。
在本实施例中,在图谱未上线状态,本实施例需要将图谱的三元组结构与数据源进行有选择性地映射,支持数据库表、文件、图片和视频多种类型数据映射。在主视图的设计界面、可在设计界面右侧出现模式映射窗口,通过该窗口可将实体及关系的属性与数据源进行映射绑定。数据表映射是在实体和关系映射时选择关系型数据库作为数据来源,并选择数据源下的表,把实体和关系的属性与表字段进行关联。比如,在图谱映射页面,选择“学生”实体,然后选择“mysql学生数据”,选择“学生表”,在学生表字段与“学生”实体的属性字段之间进行连线对应,名称—名称,学号—学号等等把需要导入的数据进行映射关联。
文件对象模式映射是对CSV、EXCEL、WORD数据进行与实体和关系进行映射配置,如图3中所示。CSV和EXCEL必须是结构化数据,通过获取第一列的字段 名与实体关系的属性进行映射。WORD文档是非结构化数据,通过NLP训练得到预制三种与业务有关的文档结构,然后选择其中的模型转换得到一个临时图谱,选中其中的实体和关系与图谱中的实体和关系进行配对映射。比如,选择“学生”—“成绩”的关系,在关系映射界面中选择上传的“22级学生期中成绩.CSV”文件,把文件的中的学生学号与“关系”中的学生学号关联,课程名称与“关系”中的名称关联,把分数与“关系”中的得分关联。
此外,本实施例还可图片和视频作为实体、关系的附加属性进行映射导入。提前将实体的主键、图片的本地存储地址、视频的本地存储地址做成EXCEL表格,把EXCEL表格添加倒附加属性中,导入时由导入模块进行图片、视频的存储和主键关系。比如,在图谱映射页面,选择“学生”实体,在学生“附加属性”项中选择上传学生的照片信息的EXCEL文件。创建索引是为了通过关键字快速的搜索实体和关系。在图谱模式生成后即可进行可视化的索引创建并删除不需要的索引。具体应用时,本实施例在进行CSV、EXCEL文件映射时,选择需要映射的文件,文件预览窗口会显示CSV、EXCEL的表头字段名,通过与实体和关系的属性字段进行连线匹配完成映射。配置过程中,因为存在多源数据映射同一实体,所以要设置主键选项、字段新增选项新增和覆盖选项。主键选项是用来关联图谱的实体,主键选项必须唯一,不允许重复,如果导入过程中,发现存在主键选项重复,就要用到是字段新增选项和覆盖选项,字段新增选项会重新生成新的临时主键对象,并缓存起来,在下次该对象进行关系导入时,进行关系主键与临时主键选项替换,覆盖选项则会覆盖原有数据信息。在进行WORD文档映射时,先选择文档,然后选择识别转换的实体和关系转换模型,通过转换模型把文档中的内容提取出来转换为实体关系图。在转换得到的实体关系图中确定实体,并选择需要映射的图谱中的实体进行匹配,并可以设置字段新增选项或覆盖选项。文本提取时因为都是中文字符,所以进行导入时会根据图谱的实体名称和主键选项进行匹配,如果选择字段新增选项,则在导入时如果图谱已经存在本实体对象,就重新建一个对象并连同属性值也在新的对象中创建,如果选覆盖选项,就用识别到的对象和属性信息更新图数据库中存在的值。
在进行图片和视频进行映射时,本实施例需要选择图谱中的实体或关系的附加属性。图片和视频等类型因为是针对某个单一实体或关系进行匹配,所以需要提前将实体的主键、图片的本地存储地址、视频的本地存储地址做成EXCEL表格,把EXCEL表格添加倒附加属性中。在数据导入时会把图谱和视频信息保存在MINIO对象存储服务器上,然后对象的预览地址会作为属性信息保存在实体或关系的附加属性中。在进行图数据查询预览时,查看该实体的属性信息同时通过预览地址可以获取到图片和视频信息。
本实施例创建索引是为了通过关键字快速的搜索实体和关系。在图谱模式生成后即可进行可视化的索引创建并删除不需要的索引。在进行索引创建时,选择需要创建索引的实体或关系,选择检索的属性列,该属性列可多个也可以单个,当属性列为多个时,创建并列索引,输入索引名称。
步骤S300、当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。
当图谱的模式映射操作完成,且在图谱未上线状态,通过图谱导入可实现数据导入图数据库。图谱导入界面会显示每个实体和关系导入进度,并显示导入结果是失败或成功。图谱数据导入遵守关键字唯一性原则,设置为关键字的字段作为唯一标识,多次导入图谱数据会根据关键字字段判断,如果存在则不进行重复导入而是更新旧的数据。多数据源关联同一个实体会进行数据一致性融合处理,针对主键相同的数据进行合并导入并进行属性字段的融合判断更新,导入过程进行实体和关系的导入量统计。
具体应用时,进行图谱导入时,图数据库导入执行器会启动,页面显示每一个实体和关系导入进度条,在导入过程中进行数据一致性融合处理、结果统计和日志保存。图谱导入业务处理流程图,详见附图4。图谱导入执行会分别获取关系型数据库表、CSV和EXCEL、WORD文档、图片和视频文件配置信息。导入按照关系型数据库表>CSV和EXCEL>WORD文档>图片和视频文件的优先级进行数据导入。首先,执行关系型数据库表的导入。获取到映射关联后,执行关系型数据导入执行进程,读取库表中的数据,按照先实体后关系的步骤进行。在导入图数据库时,会进行数据一致性融合处理,遇到数据表存在重复数据,前面已经导入过的,后面再导入的会变成更新,例如:导入学生信息以学号“340506030”为主键选项导入时存在重复数据,就会以最后一条导入的数据更新之前已经插入的数据。其次,进行CSV、EXCEL、WORD文件数据的导入。文件数据导入进程会读取文件信息,把CSV、EXCEL、WORD的映射内容读取出来,同时,把CSV、EXCEL、WORD的内容也读取到内存中,由数据缓存器进行存储。在导入时碰到图数据库中存在的主键数据,设置了字段新增选项时,就需要把该条记录进行修改并存储起来,存储原始文本数据的主键选项和新的主键选项,再导入实体。在进行关系导入时,进行判断,把实体的原始主键选项和关系中的主键选项进行比较,如果相同,则替换为新的主键导入图数据的关系中。在进行图片、视频文件导入时,会把图片和视频上传到MINIO对象存储数据库,并获取存储的链接地址保存在实体的附加属性中。在进行图谱查询时,前端调用附加地址展示图片和视频信息。
示例性系统
基于上述实施例,本实施例还提供一种可视化配置多源异构数据构建图谱的系统,如图5所示,本实施例的系统包括:图谱配置模块、多数据类型映模块以及图谱导入模块。具体地,所述图谱配置模块,用于获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式。所述多数据类型映模块,用于当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引。所述图谱导入模块,用于当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。此外,本实施例的系统还包括对象类型存储模块,该对象类型存储模用于将CVS、EXCEL等文本文件进行上传以及将图片、视频文件进行存储。
本实施例的可视化配置多源异构数据构建图谱系统中各个模块的工作原理与上述方法实施例中各个步骤的原理相同,此处不再赘述。
基于上述实施例,本发明还提供了一种终端设备,所述终端设备的原理框图可以如图6所示。终端设备可以包括一个或多个处理器100(图6中仅示出一个),存储器101以及存储在存储器101中并可在一个或多个处理器100上运行的计算机程序102,例如,可视化配置多源异构数据构建图谱的程序。一个或多个处理器100执行计算机程序102时可以实现可视化配置多源异构数据构建图谱系统实施例中各模块/单元的功能,此处不作限制。
在一个实施例中,所述处理器100可以是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在一个实施例中,存储器101可以是电子设备的内部存储单元,例如电子设备的硬盘或内存。存储器101也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,存储器101还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器101用于存储计算机程序以及终端设备所需的其他程序和数据。存储器101还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员可以理解,图6中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端设备的限定,具体的终端设备以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用,均可包括非易失性和易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种可视化配置多源异构数据构建图谱的方法,其特征在于,所述方法包括:
获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式;
当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引;
当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。
2.根据权利要求1所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述获取数据源,包括:
通过页面配置主流关系型数据库的JDBC连接参数,保存数据源,所述数据源用于图谱映射时进行表和表字段获取;
将所述数据源中的CSV、EXCEL文本文件上传到MINIO对象存储数据库中保存。
3.根据权利要求1所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式,包括:
上传图标并进行图标的名称、主类型、细类型、标签、排序、状态的配置;
配置属性,所述属性为对实体和关系的补充描述;
创建本体,所述本体为创建实体的基础;
在图谱管理页面中,通过配置图谱名称、英文名称、所属行业、集群、分区数、字符集和字符规则创建图谱;
在图谱编辑页面中创建实体,并完成知识图谱的基本拓扑搭建;
把创建好的图谱中的实体、关系和属性结构同步到图数据库中,并在图数据库中创建图谱存储空间,完成映射模式的生成。
4.根据权利要求3所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引,包括:
创建数据库表、文件、图片和视频多种类型数据的映射;
通过关键字搜索实体和关系,并在映射模式生成后进行可视化的索引创建并删除不需要的索引。
5.根据权利要求4所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述创建数据库表、文件、图片和视频多种类型数据的映射,包括:
在进行数据表映射时,在实体和关系映射时选择关系型数据库作为数据来源,并选择数据源下的表字段,把实体和关系的属性与表字段进行关联。
6.根据权利要求5所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述创建数据库表、文件、图片和视频多种类型数据的映射,包括:
在进行文件映射时,对CSV、EXCEL、WORD数据进行与实体和关系进行映射配置。
7.根据权利要求6所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述创建数据库表、文件、图片和视频多种类型数据的映射,包括:
在进行图片和视频的映射时,提前将实体的主键、图片的本地存储地址、视频的本地存储地址做成EXCEL表格,把EXCEL表格添加倒附加属性中,导入时由导入模块进行图片、视频的存储和主键关联。
8.根据权利要求1所述的可视化配置多源异构数据构建图谱的方法,其特征在于,所述方法还包括:
设置关键字的字段作为唯一标识,多次导入图谱数据会根据关键字的字段进行判断;
如果存在相同的字段,则不进行重复导入。
9.一种可视化配置多源异构数据构建图谱的系统,其特征在于,所述系统包括:
图谱配置模块,用于获取数据源,并进行图标、属性以及本体配置,以创建图谱,根据创建的图谱生成映射模式;
多数据类型映模块,用于当所述映射模式生成成功,则根据所述数据源进行多数据类型映射配置,并创建模式索引;
图谱导入模块,用于当模式索引创建完成后,将图谱导入图数据库,并在图谱导入时,显示每个实体和关系导入进度以及导入结果,若数据源关联同一个实体则进行数据一致性融合处理。
10.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的可视化配置多源异构数据构建图谱的程序,所述处理器执行所述可视化配置多源异构数据构建图谱的程序时,实现如权利要求1-8任一项所述的可视化配置多源异构数据构建图谱的方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可视化配置多源异构数据构建图谱的程序,所述可视化配置多源异构数据构建图谱的程序被处理器执行时,实现如权利要求1-8任一项所述的可视化配置多源异构数据构建图谱的方法的步骤。
CN202310321776.2A 2023-03-29 2023-03-29 一种可视化配置多源异构数据构建图谱的方法及系统 Active CN116028653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310321776.2A CN116028653B (zh) 2023-03-29 2023-03-29 一种可视化配置多源异构数据构建图谱的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310321776.2A CN116028653B (zh) 2023-03-29 2023-03-29 一种可视化配置多源异构数据构建图谱的方法及系统

Publications (2)

Publication Number Publication Date
CN116028653A true CN116028653A (zh) 2023-04-28
CN116028653B CN116028653B (zh) 2023-06-06

Family

ID=86070784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310321776.2A Active CN116028653B (zh) 2023-03-29 2023-03-29 一种可视化配置多源异构数据构建图谱的方法及系统

Country Status (1)

Country Link
CN (1) CN116028653B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226788A (zh) * 2023-05-06 2023-06-06 鹏城实验室 一种融合多种数据类型的建模方法及相关设备
CN116501757A (zh) * 2023-06-20 2023-07-28 鹏城实验室 一种基于er图的模拟数据构造方法及装置
CN116701663A (zh) * 2023-08-07 2023-09-05 鹏城实验室 一种基于数字视网膜系统构建知识图谱的方法
CN117312351A (zh) * 2023-11-30 2023-12-29 大文传媒集团(山东)有限公司 一种基于多源异构数据的数据库处理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119879A (ja) * 1997-05-15 1999-04-30 Mantaro Yajima 情報処理装置及び定義方法
US20140032617A1 (en) * 2012-07-24 2014-01-30 Craig W. Stanfill Mapping entities in data models
CN109948150A (zh) * 2019-03-01 2019-06-28 北京航空航天大学 一种多域环境中基于知识图谱的高性能服务语境发现方法
CN112182236A (zh) * 2020-09-18 2021-01-05 成都数联铭品科技有限公司 一种知识图谱的构建方法、系统及电子设备
CN112559704A (zh) * 2020-12-08 2021-03-26 北京航天云路有限公司 一种用户自定义配置的知识图谱生成工具
US20210117437A1 (en) * 2019-10-19 2021-04-22 Microsoft Technology Licensing, Llc Data model transformation
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN115713078A (zh) * 2022-10-28 2023-02-24 沈阳东软智能医疗科技研究院有限公司 知识图谱构建方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119879A (ja) * 1997-05-15 1999-04-30 Mantaro Yajima 情報処理装置及び定義方法
US20140032617A1 (en) * 2012-07-24 2014-01-30 Craig W. Stanfill Mapping entities in data models
CN109948150A (zh) * 2019-03-01 2019-06-28 北京航空航天大学 一种多域环境中基于知识图谱的高性能服务语境发现方法
US20210117437A1 (en) * 2019-10-19 2021-04-22 Microsoft Technology Licensing, Llc Data model transformation
CN112182236A (zh) * 2020-09-18 2021-01-05 成都数联铭品科技有限公司 一种知识图谱的构建方法、系统及电子设备
CN112559704A (zh) * 2020-12-08 2021-03-26 北京航天云路有限公司 一种用户自定义配置的知识图谱生成工具
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN115713078A (zh) * 2022-10-28 2023-02-24 沈阳东软智能医疗科技研究院有限公司 知识图谱构建方法、装置、存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUI MIAO等: "A dynamic financial knowledge graph based on reinforcement learning and transfer learning", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA 》, pages 1 - 16 *
李国鹏: "基于浏览器的医学图像可视化系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 811 *
梁静茹等: "基于属性图模型的领域知识图谱构建方法", 《计算机科学》, vol. 49, no. 2, pages 174 - 181 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226788A (zh) * 2023-05-06 2023-06-06 鹏城实验室 一种融合多种数据类型的建模方法及相关设备
CN116501757A (zh) * 2023-06-20 2023-07-28 鹏城实验室 一种基于er图的模拟数据构造方法及装置
CN116501757B (zh) * 2023-06-20 2023-10-03 鹏城实验室 一种基于er图的模拟数据构造方法及装置
CN116701663A (zh) * 2023-08-07 2023-09-05 鹏城实验室 一种基于数字视网膜系统构建知识图谱的方法
CN116701663B (zh) * 2023-08-07 2024-01-09 鹏城实验室 一种基于数字视网膜系统构建知识图谱的方法
CN117312351A (zh) * 2023-11-30 2023-12-29 大文传媒集团(山东)有限公司 一种基于多源异构数据的数据库处理系统
CN117312351B (zh) * 2023-11-30 2024-02-13 大文传媒集团(山东)有限公司 一种基于多源异构数据的数据库处理系统

Also Published As

Publication number Publication date
CN116028653B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN116028653B (zh) 一种可视化配置多源异构数据构建图谱的方法及系统
US11907244B2 (en) Modifying field definitions to include post-processing instructions
EP2041672B1 (en) Methods and apparatus for reusing data access and presentation elements
CN110532019B (zh) 一种软件代码片段历史追溯的方法
JP2003067402A (ja) 構造化文書管理装置及び構造化文書管理方法
US8965797B2 (en) Explosions of bill-of-materials lists
CN111078094A (zh) 分布式机器学习可视化装置
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
JP5747698B2 (ja) 要件管理支援装置
CN111984745A (zh) 数据库字段动态扩展方法、装置、设备及存储介质
US11816770B2 (en) System for ontological graph creation via a user interface
JP2014089646A (ja) 電子データ処理装置、及び電子データ処理方法
CN113407678B (zh) 知识图谱构建方法、装置和设备
CN105426676A (zh) 一种钻井数据处理方法和系统
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
CN114741077A (zh) 基于字段粒度的页面效果预览方法、装置、设备及介质
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN113434658A (zh) 火电机组运行问答生成方法、系统、设备及可读存储介质
US11940964B2 (en) System for annotating input data using graphs via a user interface
CN113505128B (zh) 创建数据表的方法、装置、设备及存储介质
CN115794967B (zh) 关系数据映射与语义本体同步生成方法及装置
CN117744615A (zh) 表单数据处理方法、装置、电子设备及可读存储介质
CN117033242A (zh) 测试数据生成方法、装置、计算机设备和存储介质
CN117215548A (zh) 基于视图配置的大数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant