CN118093599A - 一种知识图谱构建方法、装置和计算机可读存储介质 - Google Patents
一种知识图谱构建方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN118093599A CN118093599A CN202410493620.7A CN202410493620A CN118093599A CN 118093599 A CN118093599 A CN 118093599A CN 202410493620 A CN202410493620 A CN 202410493620A CN 118093599 A CN118093599 A CN 118093599A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- relationship
- relation
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000003068 static effect Effects 0.000 claims description 44
- 238000013507 mapping Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013506 data mapping Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 26
- 238000007726 management method Methods 0.000 description 18
- 238000005192 partition Methods 0.000 description 18
- 238000013515 script Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000004140 cleaning Methods 0.000 description 7
- 230000002354 daily effect Effects 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013523 data management Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种知识图谱构建方法、装置和计算机可读存储介质,该方法包括:确定知识图谱数据结构;在数据仓库中基于所述知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表;基于所述实体数据表和所述关系数据表构建知识图谱。通过上述方式,本申请能够增强数据仓库对整体数据流中间过程的管理功能,有利于后续数据资产管理和数据问题定位,由于此过程是针对多源异构数据源进行数据处理与管理,将数据中的知识体系进行提取并融合关联,从而能够挖掘到更有价值的深层次数据。
Description
技术领域
本申请涉及大数据技术领域,具体涉及一种知识图谱构建方法、装置和计算机可读存储介质。
背景技术
随着社会经济数字化建设快速发展,诸多应用领域积累了海量有价值的数据,这些数据具有量级庞大、种类繁多、结构多元等特点,传统的计算机存储技术与数据管理方式已无法满足一些领域中的业务场景。同时,在不同的业务场景中,多源数据之间存在相互关联性较弱甚至没有构建关联关系的情况,导致很多内在的数据之间的价值信息无法被充分挖掘。
发明内容
为解决上述技术问题,本申请采用的技术方案是:提供一种知识图谱构建方法、装置和计算机可读存储介质,以至少解决相关技术中多源数据之间存在相互关联性较弱甚至没有构建关联关系的情况,导致很多内在的数据之间的价值信息无法被充分挖掘的问题。
根据本发明的一个实施例,提供了一种知识图谱构建方法,包括:
确定知识图谱数据结构;
在数据仓库中基于所述知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表;
基于所述实体数据表和所述关系数据表构建知识图谱。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种电子设备,包括存储器和处理器,其中,存储器用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的知识图谱构建方法。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的知识图谱构建方法。
通过上述方案,本申请的有益效果是:本申请提供的知识图谱构建方法基于在数据仓库中根据知识图谱数据结构对源数据进行转化和融合得到的实体数据表和关系数据表构建知识图谱,由于整个过程在数据仓库中实施的,由此也能够增强数据仓库对整体数据流中间过程的管理功能,有利于后续数据资产管理和数据问题定位,如此将多源异构数据进行融合关联,进而能够挖掘到更有价值的深层次数据。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的知识图谱构建方法一实施例的流程示意图;
图2是本申请提供的基于知识图谱数据结构对源数据进行转化和融合得到实体数据表和关系数据表的一具体实施例的流程示意图;
图3是本申请提供的一最大连通生成唯一实体id的示意图;
图4是本申请提供的一目标事件的星型模型示意图;
图5为本申请提供的一实体对之间存在“拥有”静态关系示意图;
图6为本申请提供的一实体对同行的动态关系示意图;
图7是本申请提供的知识图谱构建方法另一实施例的流程示意图;
图8是本申请提供的电子设备一实施例的结构示意图;
图9是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
需要说明的是,本申请中的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
数据仓库(Data Warehouse,简称DW或DWH)是一个大型、集成化的数据存储系统,主要用于存储、管理和分析大量结构化数据。这些数据由多源异构数据源集成而来,通常来源于多个不同的业务系统和数据库,经过清洗、整合和转换后,被加载到数据仓库中,形成一个统一的、面向分析的数据环境。这些多源异构数据通过算法与规则进行解析,通过数据仓库的模型与算子进行计算与管理,为业务需要提供数据支撑。
在不同的业务场景中,可能需要收集各种类型的数据,数据来源主要包括结构化、半结构化与非结构化数据。结构化数据来自数据仓库中各种数据表,半结构化数据来自数据采集器采集的json类或者编码类数据,而非结构化数据来自文档报告、视频图片等。此外,数据来源还可能来自多种数据仓库,因此对于同一种业务可能会存在多种数据标准,例如实体编号会有多种档案编号编码方式的情况等,由此导致在利用数据进行信息挖掘时可能会造成数据冗余或不一致,降低了数据的质量和可靠性。
知识图谱(Knowledge Graph)是一种图形化的数据结构,用于表示实体(如人、地点、事物等)之间的关联和关系,它以图形化的方式呈现大量的事实性信息,使得用户可以更直观、更快速地理解和分析复杂的知识体系。知识图谱中的每个节点代表一个实体,而边则代表实体之间的关系,每个节点和边还可以附带属性,以提供更详细的信息。
知识图谱通过实体和关系的明确表示,能够提供丰富的语义信息,使得数据仓库中的数据不仅仅是简单的数值或文本,而能包含丰富的语义内涵,从而能够提高数据的可理解性和可用性。通过图查询和推理技术,可以方便地检索和分析数据仓库中的数据,挖掘出隐藏在数据中的有用信息。
知识图谱提供了一种统一和标准化的数据结构,使得数据仓库中来自不同源头的数据可以被整合到一个统一的框架中,实现数据的互操作性,使不同系统之间的数据可以无缝对接,提高数据的利用率和共享性。
由此,本申请提供一种知识图谱构建方法,通过在数据仓库中基于知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表,进一步基于实体数据表和关系数据表构建知识图谱。由于结合知识图谱的知识体系与数据仓库的业务数据,对数据进行业务分类、命名规范和质量标准等规划与管理,由此能够增强数据仓库对整体数据流中间过程的管理功能,有利于后续数据资产管理和数据问题定位,将多源异构数据进行融合关联,进而能够挖掘到更有价值的深层次数据。
请参阅图1,图1是本申请提供的知识图谱构建方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施方式包括:
S110:确定知识图谱数据结构。
知识图谱数据结构,也可以称为知识图谱模板或模式(schema),是一种用于描述知识图谱中实体和关系的结构化形式。知识图谱数据结构定义了知识图谱中可以包含的实体类型、属性和关系类型,以及它们之间的连接方式。知识图谱数据结构中常见的元素有:
(1)实体类型(Entity Types):定义了知识图谱中的各种实体类别,如对象、地点、组织等,每个实体类型通常都有一组相关的属性。
(2)属性(Properties):属性是描述实体的特征或者关系的性质。属性可以是基本类型(如字符串、整数、日期等)或者复杂类型(如其他实体类型)。例如,一个地点实体可能有属性包括经纬度、邻接、空间交互等。
(3)关系类型(Relation Types):关系类型定义了实体之间的联系,描述了实体之间的关联关系,比如“属于”、“位于”、“影响”或“导致”等。关系类型有时也具有属性,称为关系属性,用于描述关系本身的特征。
(4)约束(Constraints):约束定义了知识图谱中数据的规范性要求,即元数据标准,比如唯一性约束(某个属性的值在整个知识图谱中必须是唯一的)、范围约束(某个属性的值必须属于特定的范围)等。
(5)规则(Rules):规则定义了知识图谱中数据的推理逻辑或者转换规则,可以用于推断新的知识或者进行数据的转换和清洗。
知识图谱数据结构通常以图形化或者文本形式进行表示,以便开发者和用户能够理解和操作。这些数据结构的定义可以通过图形工具、文本编辑器或者专门的知识建模语言来实现,通过定义清晰的数据结构,知识图谱能够更好地组织和表达丰富的语义信息,从而支持各种语义搜索、推理和应用场景。
针对不同的应用场景和目标,构建知识图谱的要求也不同,因此确定知识图谱数据结构之前,首先要明确知识图谱用于解决的具体问题或支持的应用场景。确定应用场景后,确定并构建知识图谱知识体系,主要包括各个实体类型、实体之间的关系、实体的属性信息等。最终基于确定的知识图谱知识体系构建知识图谱数据结构,基于知识图谱数据结构可以管理知识图谱元数据并能够根据不同的业务场景基于图库快速灵活地构建图结构。
S120:在数据仓库中基于知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表。
源数据是指在数据处理过程中的起始点上收集到的原始数据,是未经过任何加工或转换的数据,通常以其最初的形式存在。源数据通常是从各种来源获取的,包括传感器、数据库、文件、网络爬虫等等,这些数据可能是结构化的(如数据库表)、半结构化的(如XML文件)或非结构化的(如文本文件、图像、视频等)。
结构化数据是按照标准格式进行登记填写并输入至数据库各种数据表中,例如目标对象登记、车辆登记信息等。半结构化数据是按照一定的编码方式进行采集与存储,例如预警日志json信息等。非结构化数据是没有固定标准格式的数据,以文本和图像数据居多,例如摄像设备视频图像、事件档案描述文本等。
根据确定的知识图谱知识体系,确定知识图谱所需的数仓数据,数据来源包括结构化、半结构化与非结构化数据。结合知识图谱知识体系与所需的数仓数据进行数据对接并整理源数据,对数据进行业务分类、命名规范、质量标准等规划与管理,从而能够在数据仓库中基于知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表。
请参阅图2,图2是本申请提供的基于知识图谱数据结构对源数据进行转化和融合得到实体数据表和关系数据表的一具体实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,本实施方式包括:
S121:多源异构数据接入数据仓库。
对多源异构的数据采用ETL(Extract-Transform-Load)工具并通过代码脚本将数据进行采集、转换与提取,将数据以结构化的数据形式整合至数据仓库中进行管理。其中,ETL是将大量数仓中的源数据经过提取(extract)、转换(transform)、加载(load)到目标存储数据仓库的过程。
在一实施例中,按照不同的业务需求,通过数据采集工具如数据库连接工具、传感器物联网设备、本地自动化导入导出脚本等,周期性地对多源数据进行采集。具体地,对于结构化数据,通过数据传输接口直接从数据库的业务表中将数据进行接入;对于半结构化数据,通过编写数据解码代码对数据进行解析,提取其中的信息要素;对于非结构化数据使用深度学习算法和机器学习算法对文本与视频中的目标对象、车辆、事件时间、事件地点等业务要素进行提取并整合为结构化数据。
将处理后的多源数据通过消息队列 Kafka 周期性推送至数据仓库的操作数据存储层(ODS,Operation Data Store)进行备份管理。具体地,在 Kafka 中创建一个主题(topic),用于接收处理后的数据;配置 Kafka 生产者(producer)将处理后的数据发送到指定的主题。在数据处理流程中,对源数据进行清洗、转换和计算,以生成需要的结果数据;将处理后的数据发送到 Kafka 主题,以供后续使用。在数据仓库中创建一个 ODS 源数据操作层,用于接收备份管理的原始数据;确保 ODS 源数据操作层能够接收来自 Kafka 的数据,并对其进行存储和管理。在 ODS 层中可以设置适当的备份策略,以确保数据的安全性和可靠性;同时可以周期性地对备份进行管理和维护,包括备份文件的存储、归档和恢复等操作。
此外,还可以设置监控系统和建立运维流程,对数据管道的各个组件进行监控,包括 Kafka、数据处理流程和数据仓库等,以便及时处理异常情况和故障,确保数据管道的稳定和可靠运行。
通过以上步骤,可以建立一个完整的数据管道,实现将处理后的数据通过 Kafka推送至数据仓库的 ODS 层进行备份管理。这样做可以保证数据的完整性和一致性,同时为后续的数据分析和业务应用提供可靠的数据支持。
S122:数据清洗与计算分析。
对采集的数据通过数据清洗工具去除重复、缺失、不一致和异常的数据,通过数据挖掘算子与脚本对来源数据进行计算分析。
在一实施例中,对于上述ODS层中的数据通过数据清洗脚本工具对源数据定期进行数据清洗与数据计算分析操作,处理后的数据通过数仓的数据明细层(DWD,DataWareHouse Detail)进行管理。
数据清洗主要步骤包括数据去重、异常数据剔除、数据标准化等操作,并通过数据仓库中预开发的数据挖掘算法模型,对基础数据进行业务关系挖掘分析计算,例如根据目标同现记录、型号编码记录、出厂时间记录等基础数据,挖掘出目标与目标之间的关联度等关系。根据数仓数据标准,在数仓DWD层构建业务明细表,并通过任务调度系统将处理后的数据定时接入DWD层业务表中。
S123:融合多源数据,构建实体数据表和关系数据表。
通过配置脚本,使得脚本能够实现通过解析知识图谱数据结构,提取结构信息,然后使用数据仓库提供的API或工具(如SQL语句)在数据仓库中创建相应的表结构。进而通过脚本调度工具(如Cron、Jenkins等),定期或触发式地执行脚本。
本申请通过配置化脚本自动化地根据知识图谱数据结构与知识体系进行实体、关系、属性建模,构建知识图谱数据模型,并将多源数据按照知识图谱知识体系进行数据融合,提取并写入实体数据表和关系数据表。
在一实施例中,知识图谱数据结构文件是表单格式文件,主要包含知识图谱元数据信息,例如实体类型名称、实体属性种类与标准格式、关系类型名称、关系头尾节点实体类型、关系属性种类与标准格式等。
通过解析脚本读取知识图谱数据结构文件,并对其中的元数据信息进行结构化解析,获取知识图谱知识体系中实体、关系、属性等数据结构与元数据标准,便于后续进行知识图谱知识体系的建模与数据管理。
根据提取的知识图谱数据结构的元数据标准,在数仓的数据应用层(ADM,Analytical Data Mart)进行知识图谱的业务建模并进行管理。具体地,通过配置化脚本指定知识图谱数据模型的数据来源、数据字段来源、数据源关联关系、数据源更新周期等信息,对DWD层数据与知识图谱业务数据模型进行映射,自动化完成从DWD层的元数据标准到知识图谱元数据标准的转换与知识体系的建模,并将数据抽取至知识图谱ADM数据应用层,得到实体数据表和关系数据表。
S123.1:实体数据表的获取。
在数据仓库中构建实体数据表时,配置相关的实体数据来源信息,例如实体类型、数据来源表名称、数据来源筛选条件、数据来源重要度排序、数据来源更新周期、数据源关联关系、数据来源字段映射等。基于配置的实体数据来源信息,并结合知识图谱数据结构自动化地对源数据进行标准转化与数据融合,得到实体数据表。
在一实施例中,解析知识图谱数据结构,提取其中的实体数据结构与元数据标准,并在数仓ADM数据应用层构建实体全量表,例如,从不同的业务角度,知识图谱可能有目标对象实体、车实体、事件实体、场所实体等实体点结构,对应的源数据一般有目标对象档案表、车辆档案表、事件档案表、摄像设备档案表、场所档案表、区域档案表等多种数据。
通过配置实体数据来源信息,自动化地从DWD层多源数据抽取并融合为实体模型,并将结果输入至ADM数据应用层构建好的实体表中进行管理,得到实体数据表。
由于源数据为多源数据,即实体数据可能来源于多业务、多版本数据源,例如目标对象实体的来源可能为目标常驻记录表、目标流动记录表、相机采集目标记录表等且数据源可能来源于不同地区、不同记录设备等。因此在构建实体模型生成实体数据表时需要将上述多源数据进行融合,将多源数据进行整合构建为唯一实体,即对多源业务标识进行多对一映射为唯一实体标识。
在一实施例中,基于前述可知,实体数据来源信息包括数据来源字段映射,基于数据来源字段映射将多源数据中的实体标识进行多对一映射为实体的唯一标识;利用实体的唯一标识以及数据来源字段映射,将多源数据中实体的属性与实体属性字段进行多对一映射,以对实体的属性数据进行提取和融合,得到实体数据表。
示例性地,如图3所示,图3是本申请提供的一最大连通生成唯一实体id的示意图。以车辆相关业务为例,通过idmapping算法构建以多种车辆id编号(车辆类型、出厂编号、多种档案编号等等)为点,Node_ID = N[id1],N[id2],…,N[idn],业务id与业务id之间关联关系(车辆类型与出厂编号的关系、出厂编号与档案编号的关系等)为边的图Edge=E[N[id1],N[id2] ],E[N[id2], N[id3]],…,E[N[idi], N[idj] ],( E[N[idi],N[idj]]表示点N[idi]与N[idj]组成的边,且1<=i<=n,1<=j<=n),通过寻找最大连通子图对每个子图生成唯一node_id作为车辆实体id,且子图中所有车辆id编号与车辆实体id多对一映射关系表示这些车辆编号在实际业务中是同一辆车辆。
在一实施例中,实体数据来源信息还包括数据完整度、数据时效性和/或数据可信度,基于数据完整度、数据时效性和/或数据可信度,可将多源数据中实体的属性与实体属性字段进行多对一映射。
具体地,通过配置数据来源字段映射将DWD层多源数据来源表与实体模型字段进行多对一映射连接,完成对实体模型属性数据的提取、整合与加载,从多个多源数据来源表中提取数据完整度、数据时效性、数据可信度最高的数据作为属性字段,将多源数据中实体的属性与实体属性字段进行多对一映射,得到来源数据实体表。
示例性地,以目标业务为例,在目标实体中目标属性字段数据来源为多张目标登记信息表如T1,……,Tn,通过实体id进行融合后,将目标属性根据目标实体id进行融合操作,从T1,……,Tn中提取数据完整度、数据时效性、数据可信度最高的数据作为属性字段。例如下述表1和表2所示,表1为融合前目标数据表,表2为融合后目标数据表,例如“属性b”比“属性a”包含更多信息数据完整度更高;数据来源时间为2024年且目标属性1数据为“属性b”比数据来源时间为2021年且目标属性1数据为“属性a”的数据时效性更高;T2表中的目标属性2的数据比T1和T3表中目标属性2的数据可信度更高。如此,根据数据完整度、数据时效性、数据可信度等角度对数据属性进行排序,将多源数据中实体的属性与实体属性字段进行多对一映射,得到来源数据实体表,例如表2的融合后目标数据表。
表1 融合前目标数据表
表2 融合后目标数据表
进一步地,基于数据来源字段映射和知识图谱数据结构对来源数据实体表进行源数据标准至知识图谱标准的转换,得到实体数据表。具体地,属性字段以实体id进行融合后,通过配置的来源字段映射将数据仓库DWD层来源数据元数据标准与知识图谱数据结构的元数据标准自动进行源数据至知识图谱实体模型数据的标准转换,将结果以每天全量更新的形式写入实体数据表中,完成对ADM知识图谱业务层实体模型中多源数据融合、标准转化与实体建模操作,得到实体数据表。
S123.2:关系数据表的获取。
基于知识图谱数据结构在数据仓库中获取关系数据表的过程主要是构建以来源表事件为中心与实体数据表相关联的星型模型,并从模型中提取关系数据,得到关系数据表。如图4所示,图4是本申请提供的一目标事件的星型模型示意图,其中,PK表示主键,FK表示外部键;具体地,对目标事件,来源数据中包含以下维度信息:目标、车、摄像设备等,这些维度都存在所对应的实体模型(即来源数据实体表)且事件表的外部键(目标实体id、车辆实体id、摄像设备实体id等)与对应的来源数据实体表的node_id存在关联,其中,node_id表示多源业务标识进行多对一映射为唯一实体标识,例如目标实体id下存在某一具体目标、目标编号、目标名称以及目标照片url等信息,摄像设备实体id下存在某一具体摄像设备、摄像设备编号、摄像设备名称等信息,车实体模型下存在某一具体车辆的车辆编号、颜色等信息,以及详情实体id下存在的其他某一具体详情、详情内容等信息。在这些维度信息外,还有事件基本信息,例如发生时间、发生地址以及事件采集照片url等。
在一实施例中,解析知识图谱数据结构,提取其中的关系数据结构与元数据标准;基于关系数据结构与元数据标准,对源数据进行处理,得到关系数据表。具体地,配置关系数据来源信息,基于关系数据来源信息提取出每一关系的头尾实体;基于关系数据结构,将每一关系及其头尾实体组成每一关系的基本关系数据结构;基于元数据标准以及关系数据来源信息中的数据映射关系,生成每一关系的属性;汇总基本关系数据结构和属性,得到关系数据表。
从知识图谱数据结构的关系类型来看,关系主要可以分为4种,分别是静态关系、动态关系、汇总关系和关联度关系。静态关系一般是实体间的固有关系,关系不易随时间而进行波动,且数据真实性、确定性较高,例如目标对象之间的血缘关系、配偶关系或伙伴关系等;机器人之间的同类型、同配件、同平台、同外观和同厂家等。动态关系一般是实体之间通过互动行为随时产生的关系,随时间会产生多条关系记录,例如目标与目标的同行关系、机器与配件的同使用关系等。汇总关系和关联度关系主要基于基础的静态关系与动态关系进行指标计算。
根据知识图谱数据结构的关系类型,所述关系数据表可包括静态关系数据表、动态关系数据表、汇总关系数据表和关联度结果表。解析知识图谱数据结构文件,提取其中的关系数据结构与元数据标准,并在数仓ADM数据应用层构建静态关系数据表与动态关系数据表,用于管理治理后的关系数据。静态关系数据表与动态关系数据表的具体获取方式如下述所示:
静态关系数据表的获取。(1)配置静态关系模块配置文件。
在静态关系模块的配置文件中,对来源数据信息进行配置,这些配置项用于定义从源数据中提取关系所需的基本信息,主要包括数据来源表名、数据来源筛选条件、生成关系类型、每种关系头尾节点外部键id、每种关系头尾节点外部键id与node_id映射关系、每种关系属性来源字段映射等。
(2)星型模型建模。
配置完成后,针对事件数据,进行星型模型的建模。星型模型是一种常用的维度建模方法,其中中心的事实表与多个维度表关联。示例性地,脚本自动化从源数据中提取关系头尾id,然后根据外部键id与node_id的映射关系(id所属的实体类型,id所属的实体字段),从来源数据实体表中关联出对应的node_id,作为星型模型各实体维度。
(3)提取基本关系数据结构。
通过关系对应的知识图谱数据结构,提取对应的关系头实体id与关系尾实体id与关系类型(hasOwner、hasVehicle等)组成基本关系数据结构,例如[Head,RelationType,Tail]。示例性地,如图5展示的一实体对之间存在“拥有”静态关系示意图,提取关系类型为“hasOwner”的头实体id“aaa”(node1)和尾实体“bbb”(node2),头实体id“aaa”(node1)包括{“id”: “aaa”, “labels”: “labels1”, “number”: “33xxx10”, “name”: “xxx”...},尾实体“bbb”(node2)包括{“id”: “bbb”, “labels”: “labels1”, “number”: “33xxx13”,“name”: “xxx”...},该实体对可以共同组成基本关系数据结构{“head”: “aaa”, “tail”:“bbb”, “type”: “hasOwner”, “direction”: “both”, ...}。
(4)关系属性的生成与映射。
根据知识图谱元数据信息,生成对应关系基础属性,例如关系方向(both/single)、关系大类(directRelation、feature等)等与关系类型强绑定的关系属性字段。
根据数据映射关系,将事件基本信息数据进行数据仓库元数据标准至图谱关系属性元数据标准的转换,生成与目标业务相关的关系属性,例如关系发生时间、关系发生地址等。
(5)静态关系数据表的生成
将治理后的静态关系数据以每天全量形式周期性输入构建好的ADM层静态关系数据表中,以保持静态关系数据表的更新和一致性。
上述自静态关系模块配置完成后,脚本自动化从来源数据进行事件数据提取、事件星型模型建模、数据标准转换、静态关系数据表的生成等工作。整个静态关系数据表的获取流程将源数据转换成为一个经过建模和标准化的关系获取过程,为后续的分析和查询提供了基础,同时,脚本自动化的步骤能够确保这一流程的可重复性和效率。
动态关系数据表的获取。配置关系数据来源信息,基于关系数据来源信息提取出每一关系的头尾实体;基于关系数据结构,将每一关系及其头尾实体组成每一关系的基本关系数据结构;基于元数据标准以及关系数据来源信息中的数据映射关系,生成每一关系的属性;基于关系数据结构中的详情数据标准,对每一动态关系的基本关系数据结构和属性进行编码;为每一动态关系的编码结果赋予详情实体标识,并写入到动态关系数据表中。可选地,每一动态关系的详情实体标识被赋值为每一动态关系的关系属性中关系详情标识属性值。
在一实施例中,如图6所示,图6为本申请提供的一实体对同行的动态关系示意图。配置关系数据来源信息,基于关系数据来源信息提取一同行关系的头尾实体“aaa”和“bbb”;基于关系数据结构,将该同行关系及其头尾实体组成一基本关系数据结构,如图6中展示;基于元数据标准以及关系数据来源信息中的数据映射关系,生成每一关系的属性;基于关系数据结构中的详情数据标准,对每一动态关系的基本关系数据结构和属性进行编码;为每一动态关系的编码结果赋予详情实体标识“ddd”,并写入到动态关系数据表中。
(1)配置动态关系模块配置文件。
对动态关系模块配置文件中来源数据信息进行配置,主要包括数据来源表名、数据来源筛选条件、生成关系类型、每种关系头尾节点外部键id、每种关系头尾节点外部键id与node_id映射关系、每种关系属性来源字段映射、详情数据格式等。动态关系通常包含更多高价值业务信息,因此相比于静态关系数据建模过程,动态关系建模相对复杂。
(2)构建事件详情对动态关系进行说明与页面展示。
由于详情数据从知识图谱数据结构的角度来说是一个实体点,与其他业务实体点不同的是,详情数据实体点在图谱页面上无法通过页面点形式进行展示,其主要作用是通过检索出动态关系属性关系详情id对应的详情实体来获取事件明细信息数据。
根据配置的动态关系类型和属性,设计对应的事件详情页面对动态关系进行说明与页面展示,展示关系的具体信息,例如可能包括时间、地点、参与者等。
(3)自动化构建动态关系数据表。
①事件数据提取:从配置的数据来源表中提取符合条件的事件数据。
②事件星型模型建模:根据提取的数据,构建事件的星型模型,将事件及其属性存储在中心表,周围的维度表包含事件的各个维度信息。
③数据标准转换:将提取的数据转换为符合知识图谱模型的标准格式,包括节点和关系的属性。
④关系结构建模:根据配置的关系类型和属性,构建关系的模型,确保关系的准确性和完整性。
⑤编码并写入详情实体表:根据知识图谱数据结构中关系类型对应的详情数据json格式标准,将提前转换后的知识图谱标准数据进行编码,并为每个详情实体分配唯一的id,将其写入ADM层的详情实体表中。同时,在关系属性中,将关系详情id属性值赋值为生成的详情实体id,以便知识图谱检索对应的详情数据。
(4)动态关系数据表的获取。
将经过处理和标准化的动态关系数据以每天增量的形式输入到构建好的ADM层动态关系数据表中,确保周期性的数据更新和数据质量的维护。
以上流程将动态关系数据的处理过程自动化,并确保了数据的一致性和准确性,使其能够更好地为知识图谱检索和分析提供支持。
在初步知识图谱数据建模与治理的基础上,对数据进行二次分析建模,对源数据进行汇总关系挖掘与关联度关系挖掘,生成汇总类关系与实体间关系的关联度指标,如此能够增强知识图谱的数据分析能力和定量分析能力。通过读取知识图谱元数据标准,在数据仓库数据应用层构建汇总关系数据表和关联度结果表并进行治理与管理。汇总关系数据表与关联度结果表的具体获取方式如下述所示:
汇总关系数据表的获取。A.解析知识图谱数据结构。
对知识图谱数据结构进行解析,提取其中汇总关系信息,主要包括数据来源表名、生成关系类型、被汇总关系类型、汇总结果详情数据格式等。
B.根据动态关系数据进行汇总计算。
根据配置文件中指定的动态关系数据来源,读取相应的数据。根据被汇总的关系类型,对动态关系数据进行汇总计算。例如统计当天的对象和对象的同行关系数据生成对象和对象的同行日汇总关系与统计指标详情数据等。
根据配置文件中的汇总指标,对动态关系进行数据汇总指标计算,例如根据明细数据对明细数据通过对时间粒度上卷,例如按照日、月、年粒度进行汇总计算;根据地址poi明细数据通过对地址层级粒度上卷,例如按照街道、区、市粒度进行汇总计算。
C.生成汇总关系数据表。
将新生成的汇总关系数据结构、汇总指标详情数据实体按照统计周期分别写入ADM层关系汇总表与详情数据表中,确保写入的数据格式符合预定义的汇总关系数据格式,并根据需要进行格式转换或标准化,得到汇总关系数据表。
4. 关联度结果表的获取。
关联度可以定量分析两个实体之间关系的可信程度,如对于目标对象和目标对象之间或车辆与车辆之间表示这两个目标对象或车辆的关系的关联程度。关联度的计算结果会受到多种因素影响:关系类型、关系发生时间、关系发生次数等。
关联度关系主要基于静态关系与动态关系进行计算与构建,两个存在关系的实体组成的实体对之间的关联度可以基于关系数据表进行计算,依据其计算结果建立关联度结果表。其中,关系数据表包括静态关系数据表和动态关系数据表,静态关系数据表中的数据描述了实体之间的固有关系,关系不易随时间而进行波动,一般来自档案登记类数据,数据真实性和确定性较高;而动态关系数据表中的数据描述了实体之间随时间变化的关系,包括关系类型、关系发生时间以及关系发生次数等。
在一实施例中,对于存在静态关系的实体对,由于这些关系不会随时间变化而波动,因此关联度可以固定为1.00。
对于存在动态关系的实体对,根据不同的关系类型和关系要素,可以计算动态关系的关联值。针对动态关系数据,根据不同关系类型、关系发生时间和关系发生频次,采用不同的权重和算法计算关联值。例如,不同的关系类型存在不同的重要程度,如目标同时出现在一个地点与目标同行两者关联系数是不一致的,一般来说,目标对同行比同一摄像设备采集到目标对出现在同一地点更能说明两个目标的关联度更高。此外,关系发生时间与关系频次对于动态关系也是影响关联度的重要因素,比如一天中同行了100次的两个目标的关联度肯定比同行了1次的两个目标的关联度高;最近3天有过同行的两个目标的关联度肯定比最近7天同行的两个目标的关联度更高等等。
在数据仓库中创建一个表格或数据结构,用于存储实体对之间的关联值,例如表格的列可以包括实体1、实体2以及它们之间的关联值。基于静态关系数据表、动态关系数据表和/或根据动态关系数据表生成的汇总关系数据表,进行实体对之间的关联值计算,并将计算结果写入关联度结果表中,以便进一步地分析和应用。
在一实施例中,基于动态关系数据表中记录的实体对在预设时间段内发生每一动态关系的总天数、每一动态关系各次发生时间的时间差、每一动态关系的发生频次以及每一动态关系的拍摄装置个数分别计算出实体对对应于每一动态关系的天数关联得分、次数关联得分、频数关联得分和装置个数关联得分,进一步计算出实体对对应于每一动态关系的动态关系分数。
基于实体对对应于所有动态关系的动态关系分数以及实体对的静态关系得分,计算出实体对的关联度,其中,实体对的静态关系得分基于静态关系数据表确定。
示例性地,设定动态关系类型得分参数:Wi,i∈R;其中,Wi表示关系i的动态关系分数,且Wi的取值范围为(0,1),R为所有动态关系集合。
基于动态关系数据表中记录的实体对在预设时间段内发生每一动态关系的总天数,通过下述公式(1)计算出实体对对应于每一动态关系的天数关联得分。其中,表示头结点Nn与尾节点Nm组成的关系ri在D天内(可根据业务调整)关系发生的天数关联得分,取值为[0,1],/>表示头结点Nn与尾节点Nm组成的关系在D天内(可根据业务调整)发生的总天数。
(1)
基于动态关系数据表所确定的当前时间与实体对的每一动态关系在预设时间段内的各次发生时间的时间差,通过下述公式(2)计算出实体对对应于每一动态关系的次数关联得分。其中,表示头结点Nn与尾节点Nm组成的关系ri在D天内(可根据业务调整)关系发生距离当天最近时间的得分(即次数关联得分),取值为[0,1],j表示距离当天的天数,当天j=0,且0<=j<D,cj表示头结点Nn与尾节点Nm组成的关系第j天内发生的次数。
(2)
基于动态关系数据表所确定的实体对在预设时间段内每一动态关系的发生频次,通过下述公式(3)计算出实体对对应于每一动态关系的频数关联得分。其中,表示头结点Nn与尾节点Nm组成的关系ri在D天内(可根据业务调整)关系发生的频数关联得分,取值为[0,1],/>表示头结点Nn与尾节点Nm组成的关系在D天内(可根据业务调整)发生的频次,w1表示在关系最大发生次数(可根据业务调整)。
(3)
基于动态关系数据表所确定的采集实体对在预设时间段内的每一动态关系的拍摄装置个数,通过下述公式(4)计算出实体对对应于每一动态关系的装置个数关联得分。其中,表示头结点Nn与尾节点Nm组成的关系ri在D天内(可根据业务调整)关系的装置个数关联得分,取值为[0,1],/>表示头结点Nn与尾节点Nm组成的关系在D天内(可根据业务调整)被采集的不同摄像设备个数,w2表示最大摄像设备数量(可根据业务调整)。
(4)
基于实体对对应于每一动态关系的天数关联得分、次数关联得分、频数关联得分和装置个数关联得分,通过下述公式(5)计算出实体对对应于每一动态关系的动态关系分数。其中,分别为各指标的调和参数,取值为(0,1)。
(5)
基于实体对对应于所有动态关系的动态关系分数以及实体对的静态关系得分,通过下述公式(6)计算出实体对的关联度,实体对的静态关系得分基于静态关系数据表确定。其中,分别为静态关系和动态关系关联度调和系数,范围为[0,1],/>为静态关系分数,如果头结点Nn与尾节点Nm存在静态关系,则为1,否则为0。
(6)
S130:基于实体数据表和关系数据表构建知识图谱。
基于S120中构建出的实体数据表、关系数据表、汇总关系数据表和/或关联度结果表构建知识图谱。
在一实施例中,对上述治理完后的实体数据、关系数据、汇总数据及关联度数据等,根据不同的业务需求配置任务调度,通过数据规则引擎导入工具将数据周期性自动导入图库。在配置导入任务时,通过读取数据更新标识判断数据更新情况(新增/更新/删除)来调用相应的图库接口完成数据的新增/更新/删除操作。
对于实体数据表的更新,由于实体数据是全量接入计算,因此对比T时间分区和T-1时间分区的实体数据,找出变化的实体,包括新增或更新,并将新增与更新实体利用数据调度工具每日通过对应接口写入图库。示例性地,找出其中T时间分区中与T-1时间分区中id相同,属性值存在不同的实体数据作为更新实体;同时找出T时间分区存在,T-1时间分区中不存在的实体数据作为新增实体;将新增与更新实体利用数据调度工具每日通过对应接口写入图库。
对于静态关系数据表的更新,由于静态关系数据也是全量接入计算,因此,比对T时间分区和T-1时间分区静态关系数据,例如找出其中T时间分区中与T-1时间分区中id相同,属性值存在不同的数据作为更新数据,同时找出T时间分区存在,T-1时间分区中不存在的数据作为新增数据;并将新增与更新静态关系数据通过数据调度工具通过对应接口每日往图库写入。
对于动态关系数据表的更新,由于是动态关系,每日明细关系互不相同,因此可每日将明细关系与明细详情数据的增量写入图库。
对于汇总关系数据表的更新,由于存在部分按照不同时间粒度进行计算,且汇总时间开始时间与结束时间不相同,因此根据不同的汇总周期,将汇总关系与汇总详情的增量数据写入图库。
对于关联度结果表的更新,由于计算出关联值的静态关系是通过每日全量关系计算,因此比对T时间分区和T-1时间分区的静态关系数据,找出其中T时间分区中与T-1时间分区中id相同,属性值存在不同的数据作为更新数据;同时找出T时间分区存在,T-1时间分区中不存在的数据作为新增数据,并将新增与更新的关联度数据通过数据调度工具通过对应接口每日往图库写入。
通过上述构建所述知识图谱的各类表格的更新,完成数据调度的构建并周期性往知识图谱进行高质量数据的输入,最终构建完成目标业务下的多数据源、多数据标准场景下的知识图谱知识体系。
在知识图谱构建过程中,结合知识图谱数据结构(即图Schema文件)与参数配置文件,通过脚本自动化数据模型构建和数据接入,可以显著提高效率,减少人工干预,并推动知识图谱构建的标准化。此外,在构建知识图谱的过程中,对数仓数据标准和知识图谱数据标准通过元数据标准进行数据标准转换,增强了知识图谱对不同标准、异常数据的兼容性,便于对知识图谱数据标准进行管理。
下面为更好说明本申请知识图谱构建方法,请参阅图7,图7是本申请提供的知识图谱构建方法另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。如图7所示,本实施方式具体包括:
数据仓库接入多源异构数据源,将处理后的数据通过消息队列kafka周期性推送至数据仓库ODS数据源操作层,并对源数据进行备份管理。
利用数据清洗脚本工具对ODS数据源操作层的数据定期进行数据清洗与数据计算分析操作,将处理后的数据通过数据仓库DWD数据明细层进行管理。
通过解析脚本对知识图谱数据结构即schema文件进行读取并对其中元数据信息进行结构化解析,获取知识图谱知识体系中实体、关系、属性模型的数据结构与元数据标准,用于后续进行知识图谱知识体系建模与数据管理。根据提取的知识图谱数据结构的数据标准在数仓ADM数据应用层进行知识图谱业务建模并进行管理。
对DWD数据明细层数据与图谱业务数据模型进行映射,基于配置化脚本自动化地完成从DWD数据明细层数据标准到知识图谱数据标准转换与知识体系建模,并将数据抽取至知识图谱ADM数据应用层。
在数据仓库中基于知识图谱数据结构对源数据进行转化和融合后,根据配置信息,自动化地完成从DWD数据明细层中将多源数据抽取并融合为实体模型,并将结果输入至ADM数据应用层构建好的来源数据实体表中进行管理,最终得到实体数据表。
同样,在数据仓库中基于知识图谱数据结构对源数据进行转化和融合后,解析知识图谱数据结构,提取其中的关系数据结构与元数据标准并在数据仓库ADM数据应用层构建静态关系表与动态关系表,便于管理治理后的关系数据。
在初步知识图谱数据建模与治理的基础上,对数据进行二次分析建模,对源数据进行汇总关系挖掘与关联度关系挖掘,进行汇总关系计算建模和关联度计算建模,进一步生成汇总类关系与实体间关系的关联度指标。通过读取知识图谱元数据标准,在数据仓库ADM数据应用层构建汇总关系数据表和关联度结果表并对表中的数据进行治理与管理。
在数据仓库ADM数据应用层中对实体、实体间的关系以及进一步分析挖掘出的汇总关系和关联度进行知识图谱建模,分别得到实体数据表、关系数据表、汇总关系数据表以及关联度结果表,以对构建的模型进行管理。
对所有治理得到的数据进行数据质量的监测与分析,确保数据的一致性和完整性。将治理后的数据与治理前的数据按照数据质量标准进行检测,这些标准主要包括数据准确性、数据完整性与数据及时性方面。具体地,数据准确性主要指的是数据最终是否按照知识图谱数据结构的元数据标准进行治理,且在计算过程(数值计算、汇总指标计算等)中是否有计算错误;数据完整性方面主要指的是数据治理过程中是否存在数据缺失或者数据重复膨胀的情况;数据及时性方面主要指数据是否在预期时间内接入并在预期时间被治理完成。如此对治理后数据进行数据质量检测与分析,将数据问题进行前置,减小因数据问题导致重跑数据入图库的风险。
通过数据质量管理工具、统计分析工具以及数据可视化工具对治理后数据进行质量检测并将结果可视化与日志输出,从而在数据导入图数据库之前提前对数据问题进行定位分析与数据修复。
最终对治理完后的数据通过数据规则引擎导入工具,根据业务需求配置任务调度,将数据周期性自动导入图数据库,完成知识图谱的构建。后续在配置导入任务时,通过读取数据更新标识判断数据更新情况(新增/更新/删除)来调用相应的图数据库接口完成数据的新增/更新/删除操作,形成一套支持多源异构数据以及多数据标准场景下的自动化、标准化地知识图谱构建的流程体系。
请参阅图8,图8是本申请提供的电子设备一实施例的结构示意图,电子设备60包括互相连接的存储器61和处理器62,存储器61用于存储计算机程序,计算机程序在被处理器62执行时,用于实现上述实施例中的知识图谱构建方法。
对于上述是实施例的方法,其可以计算机程序的形式存在,因而本申请提出一种计算机可读存储介质,请参阅图9,图9是本申请提供的计算机可读存储介质一实施例的结构示意图,计算机可读存储介质80用于存储计算机程序81,其可被执行以实现上述实施例中的知识图谱构建方法。
计算机可读存储介质80可以是服务端、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种知识图谱构建方法,其特征在于,包括:确定知识图谱数据结构;
在数据仓库中基于所述知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表;
基于所述实体数据表和所述关系数据表构建知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述在数据仓库中基于所述知识图谱数据结构对源数据进行处理,得到实体数据表和关系数据表,包括:
在数据仓库配置实体数据来源信息;
基于所述实体数据来源信息,并结合所述知识图谱数据结构自动化地对所述源数据进行标准转化与数据融合,得到所述实体数据表。
3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述源数据为多源数据,所述实体数据来源信息包括数据来源字段映射;所述基于所述实体数据来源信息,并结合所述知识图谱数据结构自动化地对所述源数据进行标准转化与数据融合,得到所述实体数据表,包括:
基于所述数据来源字段映射将所述多源数据中的实体标识进行多对一映射为实体的唯一标识;
利用所述实体的所述唯一标识以及所述数据来源字段映射,将所述多源数据中实体的属性与实体属性字段进行多对一映射,以对所述实体的属性数据进行提取和融合,得到所述实体数据表;
可选地,所述实体数据来源信息包括数据完整度、数据时效性和/或数据可信度,所述利用所述实体的所述唯一标识以及所述数据来源字段映射,将所述多源数据中实体的属性与实体属性字段进行多对一映射,包括:基于数据完整度、所述数据时效性和/或所述数据可信度,将所述多源数据中实体的属性与实体属性字段进行多对一映射。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述利用所述实体的所述唯一标识以及所述数据来源字段映射,将所述多源数据中实体的属性与实体属性字段进行多对一映射,以对所述实体的属性数据进行提取和融合,得到所述实体数据表,包括:
所述利用所述实体的所述唯一标识以及所述数据来源字段映射,将所述多源数据中实体的属性与实体属性字段进行多对一映射,得到来源数据实体表;
基于所述数据来源字段映射和所述知识图谱数据结构对所述来源数据实体表进行源数据标准至知识图谱标准的转换,得到所述实体数据表。
5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述在数据仓库中基于所述知识图谱数据结构对源数据进行转化和融合,得到实体数据表和关系数据表,包括:
对所述知识图谱数据结构进行解析,提取关系数据结构与元数据标准;
配置关系数据来源信息;
基于所述关系数据来源信息提取出每一关系的头尾实体;
基于所述关系数据结构,将所述每一关系及其头尾实体组成所述每一关系的基本关系数据结构;
基于所述元数据标准以及所述关系数据来源信息中的数据映射关系,生成所述每一关系的属性;
汇总所述基本关系数据结构和属性,得到所述关系数据表。
6.根据权利要求5所述的知识图谱构建方法,其特征在于,所述关系包括动态关系,所述关系数据表包括动态关系数据表;所述汇总所述基本关系数据结构和属性,得到所述关系数据表,包括:
基于所述关系数据结构中的详情数据标准,对每一动态关系的基本关系数据结构和属性进行编码;
为所述每一动态关系的编码结果赋予详情实体标识,并写入到所述动态关系数据表中;
可选地,所述每一动态关系的所述详情实体标识被赋值为所述每一动态关系的关系属性中关系详情标识属性值。
7.根据权利要求6所述的知识图谱构建方法,其特征在于,所述关系包括动态关系,所述关系数据表包括动态关系数据表;所述汇总所述基本关系数据结构和属性,得到所述关系数据表,之后包括:
基于所述知识图谱数据结构中的关系信息汇总要求,对所述动态关系数据表进行动态关系汇总计算,以建立汇总关系数据表;
所述基于所述实体数据表和所述关系数据表构建知识图谱,包括:
基于所述汇总关系数据表、所述实体数据表和所述关系数据表构建所述知识图谱;
所述汇总所述基本关系数据结构和属性,得到所述关系数据表,之后还包括:
基于所述关系数据表,计算实体对之间的关联度,以建立出关联度结果表,所述实体对指存在关系的两个实体;
所述基于所述实体数据表和所述关系数据表构建知识图谱,包括:
基于所述关联度结果表、所述实体数据表和所述关系数据表构建所述知识图谱。
8.根据权利要求7所述的知识图谱构建方法,其特征在于,所述关系包括动态关系和静态关系,所述关系数据表包括动态关系数据表和静态关系数据表,所述基于所述关系数据表,计算实体对之间的关联度,包括:
基于所述动态关系数据表中记录的所述实体对在预设时间段内发生每一动态关系的总天数,计算出所述实体对对应于所述每一动态关系的天数关联得分;
基于所述动态关系数据表所确定的当前时间与所述实体对的每一动态关系在所述预设时间段内的各次发生时间的时间差,计算出所述实体对对应于所述每一动态关系的次数关联得分;
基于所述动态关系数据表所确定的所述实体对在所述预设时间段内所述每一动态关系的发生频次,计算出所述实体对对应于每一动态关系的频数关联得分;
基于所述动态关系数据表所确定的采集所述实体对在所述预设时间段内的所述每一动态关系的拍摄装置个数,计算出所述实体对对应于所述每一动态关系的装置个数关联得分;
基于所述实体对对应于所述每一动态关系的所述天数关联得分、所述次数关联得分、所述频数关联得分和所述装置个数关联得分,计算出所述实体对对应于所述每一动态关系的动态关系分数;
基于所述实体对对应于所有动态关系的所述动态关系分数以及所述实体对的静态关系得分,计算出所述实体对的关联度,所述实体对的静态关系得分基于所述静态关系数据表确定。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器,所述处理器耦接所述存储器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1至8任一项所述的知识图谱构建方法的一个或多个步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-8中任一项所述的知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410493620.7A CN118093599B (zh) | 2024-04-23 | 2024-04-23 | 一种知识图谱构建方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410493620.7A CN118093599B (zh) | 2024-04-23 | 2024-04-23 | 一种知识图谱构建方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118093599A true CN118093599A (zh) | 2024-05-28 |
CN118093599B CN118093599B (zh) | 2024-08-02 |
Family
ID=91157531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410493620.7A Active CN118093599B (zh) | 2024-04-23 | 2024-04-23 | 一种知识图谱构建方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118093599B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390039A (zh) * | 2019-07-25 | 2019-10-29 | 广州汇智通信技术有限公司 | 基于知识图谱的社交关系分析方法、装置及设备 |
CN110489599A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
CN112182236A (zh) * | 2020-09-18 | 2021-01-05 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法、系统及电子设备 |
US20220019740A1 (en) * | 2020-07-20 | 2022-01-20 | Microsoft Technology Licensing, Llc | Enterprise knowledge graphs using enterprise named entity recognition |
CN113987210A (zh) * | 2021-11-09 | 2022-01-28 | 江苏科技大学 | 一种船舶产业知识图谱构建与分析方法 |
US11341320B1 (en) * | 2021-04-20 | 2022-05-24 | Intuit Inc. | Custom report builder |
CN114691880A (zh) * | 2022-02-25 | 2022-07-01 | 国家电网有限公司客户服务中心 | 知识图谱构建方法、装置及电子设备 |
CN115858810A (zh) * | 2022-12-05 | 2023-03-28 | 中国联合网络通信集团有限公司 | 自动构建知识图谱的方法、系统、计算机设备及存储介质 |
CN116561345A (zh) * | 2023-06-16 | 2023-08-08 | 北银金融科技有限责任公司 | 一种基于多模态数据公司情报知识图谱构建方法 |
CN116795995A (zh) * | 2023-04-28 | 2023-09-22 | 中国工商银行股份有限公司 | 知识图谱构建方法、装置、计算机设备和存储介质 |
CN116843028A (zh) * | 2023-07-05 | 2023-10-03 | 重庆建工集团股份有限公司 | 多模态知识图谱构建方法、系统、存储介质及电子设备 |
CN117273133A (zh) * | 2023-09-15 | 2023-12-22 | 云南电网有限责任公司曲靖供电局 | 配电网多源异构数据知识图谱的构建方法 |
-
2024
- 2024-04-23 CN CN202410493620.7A patent/CN118093599B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489599A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
CN110390039A (zh) * | 2019-07-25 | 2019-10-29 | 广州汇智通信技术有限公司 | 基于知识图谱的社交关系分析方法、装置及设备 |
US20220019740A1 (en) * | 2020-07-20 | 2022-01-20 | Microsoft Technology Licensing, Llc | Enterprise knowledge graphs using enterprise named entity recognition |
CN112182236A (zh) * | 2020-09-18 | 2021-01-05 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法、系统及电子设备 |
US11341320B1 (en) * | 2021-04-20 | 2022-05-24 | Intuit Inc. | Custom report builder |
CN113987210A (zh) * | 2021-11-09 | 2022-01-28 | 江苏科技大学 | 一种船舶产业知识图谱构建与分析方法 |
CN114691880A (zh) * | 2022-02-25 | 2022-07-01 | 国家电网有限公司客户服务中心 | 知识图谱构建方法、装置及电子设备 |
CN115858810A (zh) * | 2022-12-05 | 2023-03-28 | 中国联合网络通信集团有限公司 | 自动构建知识图谱的方法、系统、计算机设备及存储介质 |
CN116795995A (zh) * | 2023-04-28 | 2023-09-22 | 中国工商银行股份有限公司 | 知识图谱构建方法、装置、计算机设备和存储介质 |
CN116561345A (zh) * | 2023-06-16 | 2023-08-08 | 北银金融科技有限责任公司 | 一种基于多模态数据公司情报知识图谱构建方法 |
CN116843028A (zh) * | 2023-07-05 | 2023-10-03 | 重庆建工集团股份有限公司 | 多模态知识图谱构建方法、系统、存储介质及电子设备 |
CN117273133A (zh) * | 2023-09-15 | 2023-12-22 | 云南电网有限责任公司曲靖供电局 | 配电网多源异构数据知识图谱的构建方法 |
Non-Patent Citations (1)
Title |
---|
魏瑾;李伟华;潘炜;: "基于知识图谱的智能决策支持技术及应用研究", 计算机技术与发展, no. 01, 31 January 2020 (2020-01-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN118093599B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210374109A1 (en) | Apparatus, systems, and methods for batch and realtime data processing | |
US10725981B1 (en) | Analyzing big data | |
JP5392077B2 (ja) | オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム | |
CN107451225A (zh) | 用于半结构化数据的可缩放分析平台 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
CN110245037B (zh) | 一种基于日志的Hive用户操作行为还原方法 | |
CN116842099B (zh) | 一种多源异构数据处理方法和系统 | |
CN116843028A (zh) | 多模态知识图谱构建方法、系统、存储介质及电子设备 | |
Bellini et al. | Metadata quality assessment tool for open access cultural heritage institutional repositories | |
Weber et al. | Journalism history, web archives, and new methods for understanding the evolution of digital journalism | |
CN110795397B (zh) | 一种地质资料包目录与文件类型自动识别方法 | |
Glake et al. | Data management in multi-agent simulation systems | |
CN113434607A (zh) | 基于图数据的行为分析方法、装置、电子设备和存储介质 | |
CN116303628B (zh) | 基于Elasticsearch的告警数据查询方法、系统及设备 | |
CN113779261A (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
US20110258007A1 (en) | Data subscription | |
McNeill et al. | Communication in emergency management through data integration and trust: an introduction to the CEM-DIT system | |
CN118093599B (zh) | 一种知识图谱构建方法、装置和计算机可读存储介质 | |
CN109460467B (zh) | 一种网络信息分类体系构建方法 | |
CN116501733A (zh) | 数据产品的生成方法、装置、设备及存储介质 | |
KR101877885B1 (ko) | 공공의 공개 데이터 연계장치 및 그 방법 | |
CN113360496B (zh) | 一种构建元数据标签库的方法及装置 | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 | |
CN113032504A (zh) | 村镇社区公共服务时空数据汇聚方法及装置 | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |