CN114399006B - 基于超算的多源异构图数据融合方法及系统 - Google Patents

基于超算的多源异构图数据融合方法及系统 Download PDF

Info

Publication number
CN114399006B
CN114399006B CN202210292433.3A CN202210292433A CN114399006B CN 114399006 B CN114399006 B CN 114399006B CN 202210292433 A CN202210292433 A CN 202210292433A CN 114399006 B CN114399006 B CN 114399006B
Authority
CN
China
Prior art keywords
data
knowledge
graph
source heterogeneous
tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210292433.3A
Other languages
English (en)
Other versions
CN114399006A (zh
Inventor
王英龙
杨帅
武鲁
郭莹
潘景山
王春晓
赵志刚
卢晶晶
李丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202210292433.3A priority Critical patent/CN114399006B/zh
Publication of CN114399006A publication Critical patent/CN114399006A/zh
Application granted granted Critical
Publication of CN114399006B publication Critical patent/CN114399006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于超算的多源异构图数据融合方法及系统,涉及多源异构图数据处理技术领域,采用虚拟化服务器通过镜像模拟知识本体构建工具的运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,能够集成知识标注、知识抽取、知识融合等图数据处理工具,实现多源异构数据的图数据融合,并且采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示,其数据融合自动化程度高、融合速度快,可拓展性强,可支撑一站式图数据处理操作,另外,采用虚拟化技术完成各种工具环境部署,具有算力强大、硬件条件高、安全性高、性能优越的特点。

Description

基于超算的多源异构图数据融合方法及系统
技术领域
本公开涉及多源异构图数据处理技术领域,特别涉及一种基于超算的多源异构图数据融合方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
随着科技的迅速发展,各类数据的体量和规模正在呈指数级增加。其中,图数据是一种较为新颖的数据模式,常见的图数据包括生活中的社交网络、交通网络、金融网络,生物医药领域的分子图结构、生物医药图数据等,具备超大规模、时序性、动态性、多模态等特点。
面对超大规模多模态异构图数据,如何快速完成数据处理、数据融合等操作,这一直是业界的难点。通常情况下,个人电脑和单节点服务器无论是在处理器、内存还是存储等方面,均无法满足超大规模多模态异构数据处理与融合的需求。虽然在现有的技术方案下,已经出现了诸多本体构建工具、数据解析工具、数据融合工具,但是以上工具间的协调性太差,无法形成一栈式数据融合框架,同时也面临算力短缺的问题,这极大影响了数据处理与数据融合的效率。
当前,常用件的图数据处理框架有RDKit、DeepChem、DGL、 DeepPurpose、OGB(OpenGraph Benchmark)基准数据集、AutoGL、OpenChem、 PGL、GraphNets、ScaffoldGraph、TDC、TorchMD、图神经网络库(PyTorch Geometric, PYG)、APOC等。虽然现有的图数据处理框架已经获得了蓬勃发展,但也面临通用性低、碎片化严重等方面的问题,同时,以上图数据处理框架普遍存在资源消耗大、算力不足等方面的问题。
发明内容
为了解决现有技术的不足,本公开提供了一种基于超算的多源异构图数据融合方法及系统,通过模拟知识本体构建工具的运行环境,集成知识标注、知识抽取、知识融合等图数据处理工具,实现多源异构数据的图数据融合,并对解析后的多源异构数据进行分布式存储,以及可视化展示,其具有数据融合自动化程度高、数据融合速度快,可拓展性强,可支撑一站式图数据处理操作的特点。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于超算的多源异构图数据融合方法,包括:
获取多源异构数据,并存储于数据载体中;
对所述多源异构数据进行知识标注、知识抽取、知识融合,构建基于本体的知识图谱,确定所述知识图谱构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构数据的解析结果;
采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;
对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示。
作为可能的一些实现方式,所述多源异构数据包括结构化数据和非结构化数据;对于结构化数据,对本体数据进行解析,实时获取互联网数据进行增量更新。
作为可能的一些实现方式,采用分布式混合图数据存储模式对多源异构数据进行存储,具体包括:文件系统的数据采用MongoDB分布式存储;关系型数据采用Neo4J存储;属性类数据采用mysql存储。
作为可能的一些实现方式,还包括:基于历史存储的多源异构数据,挖掘多源异构数据在链接预测、聚类分析和属性预测方面的应用。
作为可能的一些实现方式,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,所述图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
本公开第二方面提供了一种基于超算的多源异构图数据融合系统,包括数据源层、计算层、数据层和分析层;
所述数据源层用于获取多源异构数据,并存储于数据载体中;
所述计算层用于对所述多源异构数据进行知识标注、知识抽取、知识融合,构建基于本体的知识图谱,确定所述知识图谱构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构数据的解析结果;
所述数据层用于采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;
所述分析层用于对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示。
作为可能的一些实现方式,所述多源异构数据包括结构化数据和非结构化数据;对于结构化数据,所述数据源层用于对结构化数据的本体数据进行解析,实时获取互联网数据进行增量更新。
作为可能的一些实现方式,所述数据源层采用分布式混合图数据存储模式对多源异构数据进行存储,具体包括:文件系统的数据采用MongoDB分布式存储;关系型数据采用Neo4J存储;属性类数据采用mysql存储。
作为可能的一些实现方式,还包括应用层,所述应用层用于基于历史存储的多源异构图数据,挖掘多源异构图数据在链接预测、聚类分析和属性预测方面的应用。
作为可能的一些实现方式,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,所述图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
与现有技术相比,本公开的有益效果是:
本公开实施例提供的一种基于超算的多源异构图数据融合方法及系统,采用虚拟化服务器通过镜像模拟知识本体构建工具的运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,通过该方式,能够集成知识标注、知识抽取、知识融合等图数据处理工具,实现多源异构数据的图数据融合,采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示,其数据融合自动化程度高、数据融合速度快,可拓展性强,可支撑一站式图数据处理操作,并且,采用虚拟化技术完成各种工具环境部署,其算力强大、硬件条件高、安全性高、网络通信顺畅,性能优越。
附图说明
图1为本公开实施例提供的基于超算的多源异构图数据融合整体架构图;
图2为本公开实施例提供的基于超算的分布式生产环境部署结构示意图;
图3为本公开实施例提供的多源异构图数据融合方法的流程图;
图4为本公开实施例提供的数据源共享高速通道的结构示意图;
图5为本公开实施例提供的知识图谱的构建流程图;
图6为本公开实施例提供的大规模知识图谱分布式存储架构图;
图7为本公开实施例提供的多模态图数据检索框架图;
图8为本公开实施例提供的多源异构图数据融合系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
山河平台是国家超级计算济南中心研制的超级计算大科学装置,平台由改性能计算、智能计算、云计算等子系统以及平台配套基础设施、安全保障体系组成,通过云服务方式,面向新一代信息技术、现代海洋、新能源新材料、高端装备、医养健康等新旧动能十强产业提供科学计算、工程计算、云计算、大数据、人工智能等各类计算服务,有力支撑超算应用生态打造,以独有的超级计算能力和优势,助力政府、企业、科研、教育云端服务,节省用户上云成本,提高新旧动能转换效率。
山河平台支撑的计算基础服务包含:计算、网络、存储、安全等部分,涉及的关联服务有运维与管理、云监控CloudSat、自动伸缩、资源编排等。
计算模块方面,用户可定制云服务器、专属宿主机组、镜像、SSH秘钥、设备、网卡等软硬件服务。网络模块方面,用户可以对VPC网络、负载均衡器、私有网络、路由器、公网IP、NAT网关、内网域名别名、边界路由器、网络流量镜像等按需进行设置;存储方面,平台提供个性化的硬盘、共享存储、备份服务;安全模块方面,用户可以对安全组、Web应用防火墙、网络访问控制进行设置;运维与服务管理方面,平台提供标签、定时器、操作日志、回收站等辅助功能;云监控ClodSat方面,平台提供监控概览、Dashbord、分组管理、事件监控、告警服务、自定义监控等功能;自动伸缩方面,平台允许自动伸缩和云服务器启动配置。资源编排方面,平台支持编排模板、已生成编排概览等功能。
为了解决现有技术中,面对超大规模多模态异构图数据,缺乏高性能算力支撑,速度慢;缺乏统一的数据处理融合架构,无法集成现有工具,自动化程度低;以及各类数据处理与融合框架通用性低,准确性差的问题,本公开提供一种基于超算的多源异构图数据融合方法及系统,首先基于超算的分布式生产环境部署依托容器技术,采用虚拟服务器、共享云存储等方式支撑生产环境硬件需求,如图1和图2中所示,基于超算的分布式生产环境部署为包括基础资源、容器层、分布式中间件、业务服务层和应用服务层;
所述基础资源依托于计算资源、网络通信资源和快速存储的硬件资源;
所述容器层采用虚拟化服务器,用于通过镜像模拟多种生产环境;
所述分布式中间件用于支撑分布式计算、分布式缓存和分布式服务器功能;
所述业务服务层包括数据服务中心和基础服务中心,所述数据服务中心用于提供数据采集、数据计算、数据清洗、数据展示的功能,基础服务中心用于提供搜索、报表、推送的功能;
所述应用层涵盖各类多源异构图数据融合涉及的数据模式及框架,提供服务发现、服务注册的功能。
基于上述部署的分布式生产环境,如图3中所示,本公开实施例提供了一种基于超算的多源异构图数据融合方法,具体包括以下步骤:
S101:获取多源异构数据,并存储于数据载体中。
在具体实施中,多源异构数据至少包括视频数据、音频数据、文本数据、百科数据数据和开源数据库的数据中的一个或多个;可选的,多源异构数据包括结构化图数据和非结构化图数据,其中,结构化数据源包括关联开放数据云(The Linked Open Data Cloud,LOD)、Open Graph Benchmark (OGB)、开放的生物和生物医学本体库(The OpenBiological and Biomedical Ontology (OBO) Foundry,The OBO Foundry);非结构化数据源包括文本、互联网百科、图片、视频、音频等媒介的数据。
结构化数据主要通过数据库(关系型数据库和非关系型数据库)、本体文件(XML、OWL、RDF)、数据集等形式存储,数据规整但也需要进行数据解析、数据对齐等操作;非结构化数据无法直接插入图数据模式中,往往需要借助半自动化的方法进行深度的解析、分类。
作为一可选实施方式,对于多源异构数据的获取,采用面向多种信息媒介的数据接入工具,该工具面向具体的数据对象完成数据接入、数据整理和简易数据对齐工作,对于结构化数据,对本体数据进行解析,实时获取互联网数据进行增量更新。在具体应用中,对于结构化数据来说,本公开基于Python owlready2库和Java Jena库编写了面向本体数据的解析脚本,并且面向结构化数据库数据编写了python爬虫脚本,以完成互联网数据的获取和增量更新工作。
作为一可选实施方式,源数据存储架构采用“关系型数据库+非关系型数据库”的模式,整体上,面向开源图数据体量大、数据条目多、数据类型多样等特点,基于超算搭建分布式存储,即采用分布式混合图数据存储模式对多源异构数据进行存储,具体包括:文件系统的数据采用MongoDB分布式存储;关系型数据采用Neo4J存储;属性类数据采用mysql存储,分布式混合图数据存储模式良好的解决了大规模存储与检索性能不匹配的问题。
在具体应用中,如图4中所示,结构化数据、非结构化数据存储于MySQL、oracle、PDF、数据库、HTML等结构化或非结构化的数据载体中,并通过数据共享高速通道汇集到一起。
S102:对所述多源异构数据进行知识标注、知识抽取、知识融合,构建基于本体的知识图谱,确定所述知识图谱的构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构图数据的解析结果。
在具体实施中,在获取到多源异构数据之后,将接入数据进行数据清洗、数据解析、数据对齐、数据归一化等操作,涵盖知识本体构建工具、文本处理基础工具、知识标注开源工具、知识抽取工具、大规模知识图谱存储工具、知识融合工具等。
(1)知识本体构建工具
知识本体构建工具是将多源异构数据概括并抽象成本体,进而组织成有序数据形式的工具,常见的知识本体构建工具有protégé,NeOn Toolkit,AItova SemanticWorks,TopBraid Composer等。本公开将诸多知识本体构建工具的运行环境进行整合,在服务器内部运用容器化技术搭建并部署,并采用数据服务接口的方式将诸多本体构建方法进行统一整合,知识本体构建的流程如图5中所示。知识图谱的构建的原始数据包括结构化数据、半结构化数据、非结构化数据,通过一系列自动化或半自动化的技术手段,从原始数据中提取出知识要素(即实体及其关系),将其存入知识图谱的模式层与数据层。构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包括:知识标注、知识抽取、知识融合。
(2)文本处理基础工具
特别地,文本处理工具面向文本数据开展的文本数据采集、数据预处理、数据解析、数据降噪、数据清洗的工作,主要涵盖文本数据采集工具、文本转换与标准化工具、文本解析工具、文本处理工具等,数据清单如表1所示。
表1 文本处理工具列表
工具功能 工具清单
文本数据采集工具 Selenium、curl.trillworks、Scrapy、Redis
文本转换与标准化工具 PDFMiner、PyPDF2、python-docx
文本分析工具 Networkx、Sklearn、Gensim
文本数据解析工具 BeautifulSoup、LXML、Newspaper、 GeneralNewsExtractor
文本处理工具 NLTK、Standfordparser、Spacy、jieba、LTP、DDParser、Hannlp
文本数据采集方面,集成了Selenium、curl.trillworks、Scrapy、Redis等工具和python库;文本转换与表转化方面,集成了PDFMiner、PyPDF2、python-docx等工具和python库;文本分析方面,集成了Networkx、Sklearn、Gensim等工具和python库;文本数据解析方面,继承了BeautifulSoup、LXML、Newspaper、GeneralNewsExtractor等工具和python库;文本处理工具方面,集成了NLTK、Standfordparser、Spacy、jieba、LTP、DDParser、Hannlp等工具和python库。
(3)知识标注开源工具
本公开集成了多个开源知识标注工具,并对这些工具按照用户人群进行个性化的推荐。面向个人实验的轻量级实体标注,提供了YEDDA/SUTDAnnotator;面向学术界的目标用户,提供了Brat、doccano;面向全功能使用需求的用户人群,提供了持续维护、功能最全的Marktool;对于一般用户的文本分类机器学习任务标注,提供了Chinese-Annotator。
(4)知识抽取工具
本公开集成的知识抽取工具包含DeepKE、OpenNRE、DeepDive。
(5)知识融合工具
本公开集成的知识融合工具包含Dedupe、Falcon-Ao、LIMES、OpenEA、PRASEMap。
这样,通过集成知识本体构建工具、文本处理基础工具、知识标注开源工具、知识抽取工具、大规模知识图谱存储工具、知识融合工具等辅助工具,确定所述知识图谱的构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构图数据的解析结果。
S103:采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构图数据。
在具体实施中,本公开本发明集成的大规模知识图谱存储工具包含分布式Neo4J存储、HugeGraph、NebulaGraph,大规模知识图谱分布式存储架构如图6中所示,采用Swift分布式存储架构,代理服务器节点是分布式文件系统的客户端,客户端保证了备份的一致性和系统的可靠性,对象复制器主要用于保证副本数量和位置的正确性及一致性。
S104:对历史存储的多源异构图数据进行统计分析,得到统计分析结果并进行可视化展示。
在具体实施中,为了满足多源异构图数据可视化展示的需求,本公开集成了D3.js、Vis.js、Echarts、AntvG6等可视化工具。
本公开实施例中,作为一可选实施方式,多源异构图数据融合方法还包括:基于历史存储的多源异构数据,挖掘多源异构数据在链接预测、聚类分析和属性预测方面的应用。可选的,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,所述图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
在具体实施中,为了支撑数据融合框架的正常运转,提高框架体系应用的开放性、多元性、丰富性,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
(1)图计算与图算法工具
图计算与图算法是图数据处理中常用的工具,在大多数图数据应用场景中都有应用,具备极高的实用性,本公开将业界颇受欢迎的诸多图计算与图算法工具集成进来,具体包括APOC、图神经网络库(PyTorch Geometric, PyG)、tf_geometric、深度图库(DeepGraph Library, DGL)、CogDL、GraphEmbedding、Spark GraphX、networkx、Plato等。
(2)大规模图检索工具
超大规模图数据在经过预处理后,不可避免的面临快速检索问题,为此,本公开引入ElasticSearch、FAISS、SPTAG、Vearch、Milvus等图数据检索工具,以多元化的支撑超大规模图数据的快速检索,多模态图数据的框架设计如图7中所示,面向文本、图像、视频、音频等多模态数据,对各种数据进行数据对齐、数据融合处理,基于此开展数据主题检测、个性化推荐和多模态数据检索等方面的任务。
(3)图表示学习工具
为了支撑基于图数据的深度学习任务,本公开引入了图表示学习工具,以支撑多源异构多模态图数据的链接预测、聚类分析、属性预测等方面的机器学习任务。具体的,引入的图表示学习工具有node2vec、DGL-KE、OpenKE、pykg2vec、GraphVite、Pytorch-BigGraph等。本公开集成的图表示学习方法概览如表2中所示,其中,word2vec方法适用于文本序列数据表示学习,DeepWalk(深度游走)适用于无权图的表示学习,LINE和node2vec则适用于所有图数据的表示学习任务。
表2 图表示学习方法列表
word2vec DeepWalk LINE node2vec
训练任务 语言模型 邻域共现 邻域共现 邻域共现
采样方法 滑动窗口 随机游走(深度优先遍历) BFS 随机游走 (深度优先遍历+广度优先遍历)
训练模型 CBOW / Skip-gram模型 Skip-gram模型 数学建模进行优化,无NN 数学建模进行优化,无NN
训练思想 MLE MLE 逼近已知分布 MLE
适用范围 文本序列 (有向/无向)的无权图 所有图 所有图
发表时间 2013 2014 2015 2016
本公开实施例提供一种基于超算的多源异构图数据融合方法,采用虚拟化服务器通过镜像模拟知识本体构建工具的运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,通过该方式,能够集成知识标注、知识抽取、知识融合等图数据处理工具,实现多源异构数据的图数据融合,并对解析后的多源异构数据进行分布式存储,以及可视化展示,其具有数据融合自动化程度高、数据融合速度快,可拓展性强,可支撑一站式图数据处理操作的特点,此外,采用虚拟化技术完成各种工具环境部署,其算力强大、硬件条件高、安全性高、网络通信顺畅,性能优越。
实施例2:
如图8中所示,本公开实施例提供了一种基于超算的多源异构图数据融合系统,包括数据源层、计算层、数据层和分析层;
所述数据源层用于获取多源异构数据,并存储于数据载体中;
所述计算层用于对所述多源异构数据进行知识标注、知识抽取、知识融合,构建基于本体的知识图谱,确定所述知识图谱构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构数据的解析结果;
所述数据层用于采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;
所述分析层用于对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示。
本公开实施例中,作为一可选实施方式,所述多源异构数据包括结构化数据和非结构化数据;对于结构化数据,所述数据源层用于对结构化数据的本体数据进行解析,实时获取互联网数据进行增量更新。
本公开实施例中,作为一可选实施方式,所述数据源层采用分布式混合图数据存储模式对多源异构数据进行存储,具体包括:文件系统的数据采用MongoDB分布式存储;关系型数据采用Neo4J存储;属性类数据采用mysql存储。
本公开实施例中,作为一可选实施方式,所述多源异构图数据融合系统还包括应用层,所述应用层用于基于历史存储的多源异构图数据,挖掘多源异构图数据在链接预测、聚类分析和属性预测方面的应用。
本公开实施例中,作为一可选实施方式,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,所述图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
本公开实施例提供一种基于超算的多源异构图数据融合系统,采用虚拟化服务器通过镜像模拟知识本体构建工具的运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,通过该方式,能够集成知识标注、知识抽取、知识融合等图数据处理工具,实现多源异构数据的图数据融合,并采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示,其数据融合自动化程度高、数据融合速度快,可拓展性强,可支撑一站式图数据处理操作,另外,采用虚拟化技术完成各种工具环境部署,其算力强大、硬件条件高、安全性高、网络通信顺畅,性能优越。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种基于超算的多源异构图数据融合方法,其特征在于,包括:
获取多源异构数据,并存储于数据载体中;采用分布式混合图数据存储模式对多源异构数据进行存储,具体包括:文件系统的数据采用MongoDB分布式存储;关系型数据采用Neo4J存储;属性类数据采用mysql存储;
对所述多源异构数据进行知识标注、知识抽取、知识融合,构建基于本体的知识图谱,确定所述知识图谱构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构数据的解析结果;其中,知识本体构建工具包括protégé,NeOn Toolkit、AItova SemanticWorks、TopBraid Composer,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包括:知识标注、知识抽取、知识融合;知识标注工具包括YEDDA/SUTDAnnotator、Brat、doccano、Marktool、Chinese-Annotator;知识抽取工具包括DeepKE、OpenNRE、DeepDive;知识融合工具包括Dedupe、Falcon-Ao、LIMES、OpenEA、PRASEMap;
采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;
对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示。
2.如权利要求1所述的多源异构图数据融合方法,其特征在于,所述多源异构数据包括结构化数据和非结构化数据;对于结构化数据,对本体数据进行解析,实时获取互联网数据进行增量更新。
3.如权利要求1所述的多源异构图数据融合方法,其特征在于,还包括:基于历史存储的多源异构数据,挖掘多源异构数据在链接预测、聚类分析和属性预测方面的应用。
4.如权利要求3所述的多源异构图数据融合方法,其特征在于,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,所述图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
5.一种基于超算的多源异构图数据融合系统,其特征在于,包括数据源层、计算层、数据层和分析层;
所述数据源层用于获取多源异构数据,并存储于数据载体中;所述数据源层采用分布式混合图数据存储模式对多源异构数据进行存储,具体包括:文件系统的数据采用MongoDB分布式存储;关系型数据采用Neo4J存储;属性类数据采用mysql存储;
所述计算层用于对所述多源异构数据进行知识标注、知识抽取、知识融合,构建基于本体的知识图谱,确定所述知识图谱构建过程中知识本体构建工具的运行环境,采用虚拟化服务器通过镜像模拟各运行环境,并以数据服务接口的方式将多个知识本体构建方法进行统一整合,得到所述多源异构数据的解析结果;其中,知识本体构建工具包括protégé,NeOnToolkit、AItova SemanticWorks、TopBraid Composer,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包括:知识标注、知识抽取、知识融合;知识标注工具包括YEDDA/SUTDAnnotator、Brat、doccano、Marktool、Chinese-Annotator;知识抽取工具包括DeepKE、OpenNRE、DeepDive;知识融合工具包括Dedupe、Falcon-Ao、LIMES、OpenEA、PRASEMap;
所述数据层用于采用大规模知识图谱分布式存储方式,实时存储解析后的多源异构数据;
所述分析层用于对历史存储的多源异构数据进行统计分析,得到统计分析结果并进行可视化展示。
6.如权利要求5所述的多源异构图数据融合系统,其特征在于,所述多源异构数据包括结构化数据和非结构化数据;对于结构化数据,所述数据源层用于对结构化数据的本体数据进行解析,实时获取互联网数据进行增量更新。
7.如权利要求5所述的多源异构图数据融合系统,其特征在于,还包括应用层,所述应用层用于基于历史存储的多源异构图数据,挖掘多源异构图数据在链接预测、聚类分析和属性预测方面的应用。
8.如权利要求7所述的多源异构图数据融合系统,其特征在于,采用图数据处理辅助工具对历史存储的多源异构图数据进行挖掘,所述图数据处理辅助工具至少包括图计算与图算法工具、大规模图检索工具、图表示学习工具和多源异构图数据可视化工具中的一个或多个。
CN202210292433.3A 2022-03-24 2022-03-24 基于超算的多源异构图数据融合方法及系统 Active CN114399006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292433.3A CN114399006B (zh) 2022-03-24 2022-03-24 基于超算的多源异构图数据融合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292433.3A CN114399006B (zh) 2022-03-24 2022-03-24 基于超算的多源异构图数据融合方法及系统

Publications (2)

Publication Number Publication Date
CN114399006A CN114399006A (zh) 2022-04-26
CN114399006B true CN114399006B (zh) 2022-07-12

Family

ID=81234783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292433.3A Active CN114399006B (zh) 2022-03-24 2022-03-24 基于超算的多源异构图数据融合方法及系统

Country Status (1)

Country Link
CN (1) CN114399006B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168505A (zh) * 2022-06-21 2022-10-11 中国人民解放军国防科技大学 一种用于海洋时空数据的管理系统以及方法
CN116189436B (zh) * 2023-03-17 2023-12-29 北京罗格数据科技有限公司 一种基于大数据的多源数据融合算法
CN116541407B (zh) * 2023-07-07 2023-10-10 之江实验室 一种数据处理的方法、装置、存储介质及电子设备
CN117150050B (zh) * 2023-10-31 2024-01-26 卓世科技(海南)有限公司 一种基于大语言模型的知识图谱构建方法及系统
CN117349358B (zh) * 2023-12-04 2024-02-20 中国电子投资控股有限公司 基于分布式图处理框架的数据匹配与合并的方法和系统
CN117992925A (zh) * 2024-04-03 2024-05-07 成都新希望金融信息有限公司 基于多源异构数据和多模态数据的风险预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110688202A (zh) * 2019-10-09 2020-01-14 腾讯科技(深圳)有限公司 服务进程调度方法、装置、设备及存储介质
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN112256883A (zh) * 2020-10-16 2021-01-22 山东省计算中心(国家超级计算济南中心) 一种量纲知识图谱构建方法
CN113296891A (zh) * 2021-05-25 2021-08-24 和美(深圳)信息技术股份有限公司 基于平台的多场景知识图谱处理方法及装置
CN113535670A (zh) * 2021-07-13 2021-10-22 山东省计算中心(国家超级计算济南中心) 一种虚拟化资源镜像存储系统及其实现方法
CN114020929A (zh) * 2021-11-03 2022-02-08 北京航空航天大学 一种基于课程知识图谱的智慧教育系统平台设计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理系统
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN111221984B (zh) * 2020-01-15 2024-03-01 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
CN111930518B (zh) * 2020-09-22 2021-01-22 北京东方通科技股份有限公司 面向知识图谱表示学习的分布式框架构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110688202A (zh) * 2019-10-09 2020-01-14 腾讯科技(深圳)有限公司 服务进程调度方法、装置、设备及存储介质
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN112256883A (zh) * 2020-10-16 2021-01-22 山东省计算中心(国家超级计算济南中心) 一种量纲知识图谱构建方法
CN113296891A (zh) * 2021-05-25 2021-08-24 和美(深圳)信息技术股份有限公司 基于平台的多场景知识图谱处理方法及装置
CN113535670A (zh) * 2021-07-13 2021-10-22 山东省计算中心(国家超级计算济南中心) 一种虚拟化资源镜像存储系统及其实现方法
CN114020929A (zh) * 2021-11-03 2022-02-08 北京航空航天大学 一种基于课程知识图谱的智慧教育系统平台设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
COVID-19知识图谱构建与应用研究;杨帅 等;《青岛大学学报(工程技术版)》;20211231;第36卷(第4期);第1-3节 *
Review and Trend Analysis of Knowledge Graphs for Crop Pest and Diseases;LIU XIAOXUE 等;《IEEE Access》;20190524;62251-62264 *
地理信息观测成果知识图谱构建及智能推荐方法;刘智德;《中国优秀硕士学位论文全文数据库基础科学辑》;20220315;第2022年卷(第3期);第2.3.2节,第4节 *

Also Published As

Publication number Publication date
CN114399006A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN114399006B (zh) 基于超算的多源异构图数据融合方法及系统
Sun et al. Big data with ten big characteristics
Das et al. Big data analytics: A framework for unstructured data analysis
Rusyn et al. Model and architecture for virtual library information system
Demirbaga HTwitt: a hadoop-based platform for analysis and visualization of streaming Twitter data
Cheng et al. Mining research trends with anomaly detection models: the case of social computing research
Lande et al. A system for analysis of big data from social media
Okewu et al. Design of a learning analytics system for academic advising in Nigerian universities
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与系统
Sun et al. A distributed incremental information acquisition model for large-scale text data
Liu et al. Research on relation extraction of named entity on social media in smart cities
Dritsas et al. Aspect-based community detection of cultural heritage streaming data
Blümel et al. The quest for research information
Dadkhah et al. What do websites say about internet of things challenges? A text mining approach
Ediger et al. Real-time streaming intelligence: Integrating graph and nlp analytics
Zhao et al. Collecting, managing and analyzing social networking data effectively
Arslan et al. Modeling semantic business trajectories of territories for multidisciplinary studies through controlled vocabularies
Qureshi et al. Detecting social polarization and radicalization
Sun et al. Big data analysis on social networking
Dhawan et al. Mapping global research output in big data during 2007-16
Ma et al. Emerging technologies and applications in data processing and management
He et al. Design of shared Internet of Things system for English translation teaching using deep learning text classification
Salamanos et al. HyperGraphDis: Leveraging Hypergraphs for Contextual and Social-Based Disinformation Detection
Aliprandi et al. Introducing CAPER, a collaborative platform for open and closed information acquisition, processing and linking
Liu et al. Data Acquisition, Hot Issues and System of Microblog Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant