CN116775763A

CN116775763A - 一种去中心化分布式共生共享的数据编织系统

Info

Publication number: CN116775763A
Application number: CN202310748398.6A
Authority: CN
Inventors: 陈刚; 赵凯; 王明浩; 王旭飞
Original assignee: Sinocbd Inc
Current assignee: Sinocbd Inc
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-19

Abstract

本发明公开了一种去中心化分布式共生共享的数据编织系统，包括如下步骤：1)构建基础支撑平台DataFabric；2)通过ApacheKafka，建立一个异步数据摄取流程，从多种数据源摄取/接收数据；3)数据抽取、转换和加载；4)元数据管理，其包括元数据提取和元数据ID的生成；5)基于本体的数据治理；6)构建工业数据张量体DIKube。本发明构建的工业数据张量体DIKube能够根据用户需求生成特定的DIKube，能为面向场景的产业数据应用提供。本发明能在用户需求变化的情况下实现快速的审核、优化、整合和迭代。本发明创建的元数据索引ID能关联工业数据语义、能实现异构数据的信息查询和共享、能对数据进行追溯和全生命周期管理、能自动生成增量数据的ID，并且具有自适应的可扩展性。

Description

一种去中心化分布式共生共享的数据编织系统

技术领域

本发明涉及智能制造领域，尤其涉及到一种去中心化分布式共生共享的数据编织系统。

背景技术

信息技术的快速发展已渗透到工业产业，导致多源异构的工业数据爆炸式增长，由此带来了企业内部数据用好难、产业链上下游数据共享难、互联网上有价值的开放数据获取难难题。

现有的管理多源异构的数据技术通常分两类：一类是大数据技术；另一类是数据空间技术。利用大数据技术构建的大数据基础平台是一种数据共享平台，在实现数据管理时一般面向的是个多个行业和多种类型客户。对数据空间技术而言，它的使用必须要与某个应用相结合，即根据这个应用需求设计一个特定的数据空间管理这个应用所需要的多源异构数据，主要为用户提供访问异构数据源的统一视图和智能决策支持。

现有的大数据基础平台在管理多源异构数据时通常采用一站式部署，这种部署方式虽然能消除不同软件或硬件间的兼容性问题，节省调试时间，能为客户创造价值，但是，难以实现用户的按需定制。此外，当用户的需求发生改变时，只能在现有产品的基础上有序升级，不能快速优化和迭代。与此相对，数据空间作为一种解决方案，在复杂科学数据管理、生态数据分析、环境观测和预测、社交网络和智能制造等众多领域均有应用，虽然数据空间在这些领域的应用克服了现有数据库管理系统、数据集成系统、桌面搜索系统、搜索引擎等扩展性和通用性差的问题，然而，它们中的一些仍只是一种通用的数据共享平台，无法直接移植到具有行业机理的工业领域；另一些虽然在不同的工业应用场景中得到了应用验证，但是这些工业数据空间的研究和设计是从理论上进行的，与真正的工业信息系统之间仍然存在差距，例如：数据流问题、数据安全设计问题、访问管理困境问题、系统演化中潜在的冲突和反馈问题等均未得到有效解决。

因此，有必要对这样现有技术进行改进，以克服上述缺陷。

发明内容

本发明的目的是提供一种去中心化分布式共生共享的数据编织系统，在行业数据标识体系的基础上，依托工业机理，构建工业知识词谱和工业数据张量体DIKube。DIKube中只存储元数据和其对应的标识，既能实现工业数据的泛在存储，为数据确权和数据安全提供了技术保障；又能实现面向行业、场景驱动、按需实时的即合即用。

本发明的上述技术目的是通过以下技术方案实现的：

一种去中心化分布式共生共享的数据编织系统，包括如下步骤：

1)构建基础支撑平台Data Fabric；

2)通过Apache Kafka，建立一个异步数据摄取流程，从多种数据源摄取/接收数据；

3)数据抽取、转换和加载；

4)元数据管理，其包括元数据提取和元数据ID的生成；

5)基于本体的数据治理；

6)构建工业数据张量体DIKube。

进一步的，所述基础支撑平台Data Fabric的构建过程如下：

1.1)部署分布式基础平台

在支持结构化数据与非结构化数据存储的基础上，优化HDFS存储海量小文件的问题，通过minIO存储小文件，提升存储效率，对多源异构的数据进行统一的元数据管理；根据数据类型不同，动态选择不同的存储组件；通过容器化技术，对系统进行一键化部署，部署去中心化分布式基础平台；

1.2)在分布式基础平台上安装文件管理与迁移组件

选用MinIO作为文件管理与迁移的组件；获取文件时不需要提供该文件在文件系统中的具体位置，而是通过请求对象存储服务获得一个统一资源定位符；

1.3)在分布式基础平台上部署Spark on kubernetes流式计算

Spark on kubernetes流式计算是一种基于Docker容器的Spark大数分布式计算框架；针对基于Kubernetes部署Spark集群、基于kubernetes平台的大数据流式计算Spark集群，可以快速部署并横向扩展Spark集群，可以实现基于负载的Spark节点弹性伸缩；针对Docker容器的资源监控，采集各个Node节点上的容器资源使用数据，根据实时负载对Spark节点执行响应的伸缩活动。

3.根据权利要求1所述的去中心化分布式共生共享的数据编织系统，其特征在于，所述步骤2)的流程如下：

2.1)安装Kafka组件，通过Kafka组件发布/订阅模式和分区消息机制来提供消息传递的能力；

2.2)以手动或自动同步来自各种数据库、消息队列、文件存储的数据，通过ApacheKafka到Data Fabric中，进行数据的统一管理。

进一步的，所述数据抽取是指从源系统中获取数据并将其传输到Data Fabric中进行处理；Data Fabric的ETL提供了多种数据抽取方式，包括：

文件导入：支持各种文件格式的数据导入；

数据库连接：支持多种数据库类型和连接方式；

Web API：支持通过Web API接口抓取数据；

所述数据转换是指将抽取到的数据进行清理、加工、转化操作，以便适应后续的分析和应用需求；Data Fabric ETL提供了多种数据转换方式，包括：

数据清洗：去除重复数据、填补空缺或者错误数据、调整数据格式；

数据预处理：对数据进行聚合、计算、分类、过滤操作；

数据转换：对原始数据进行转换，例如日期转换、字符串格式转换；

数据加载是指将经过转换后的数据重新导入到目标数据仓库或者业务系统中；Data Fabric ETL提供了多种数据加载方式，包括：

数据写回：将经过转换后的数据写回到源数据库或者文件中，以保证源数据的完整性和一致性；

数据存储：将经过转换后的数据存储到Data Fabric的内部数据湖仓中，方便后续查询和分析；

数据导出：将经过转换后的数据导出到其他系统中。

进一步的，所述元数据提取采用自动化方式和人工方式两种；自动化方式是利用自研的元数据提取工具扫描和提取各种数据源的元数据信息；人工方式指的是手动录入不同数据源的数据类型、字段名称、数据格式；

Data Fabric利用提取的元数据进行数据血缘分析、数据质量管理、数据安全审计，以便更好地理解数据，为后续的数据处理和应用提供充足的信息支持，提高数据的价值和利用效率；

所述元数据ID的生成为使用行业数据标识编码体系，基于产业数据目录及产业知识图谱，经过加密形成唯一的元数据ID；元数据ID不仅保证了元数据的唯一标识，还携带语义、世系信息和产业机理；

Data Fabric使用元数据ID的目的是为了方便数据管理和查询；因为唯一的数据ID不仅可以更好地标识、查找和跟踪数据集的信息，还能确保不同来源的数据不会发生冲突。

进一步的，所述基于本体的数据治理的方法如下：

1)构建工业知识词谱

构建工业知识词谱需要从元数据中抽取实体和实体之间的关系；

实体的抽取：根据工业数据的含义和专家经验整合结构化、半结构化和非结构化数据；对数据中的实体进行识别和标注，所述实体包括人、地点、组织和术语；

关系抽取：实体间的关系包括隶属关系、相似性关系、关联关系；

将抽取到的实体和关系进行组合和融合，构建一个工业知识词谱，用图数据库，使用存储和管理知识词谱中的数据；通过知识图谱查询语言或者推理引擎，对知识图谱进行查询和推理以支持多场景的应用；

2)构建元数据索引

根据已构建的工业知识图谱，形成产业数据目录和zyxID形成索引，以满足DataFabric管理和查询数据的效率和扩展性；

需要定期维护索，确保索引数据的完整性和准确性；索引维护包括数据更新、数据重建、容错处理操作，以保证索引与数据的一致性和可用性；

3)数据源和元数据血缘关系管理

数据源管理

需要记录数据的来源、格式、类型、采集时间，并标记数据采集器、数据负责人；记录数据源的血缘关系，需要对数据源进行全面的文档记录和元数据标注，包括对数据源的操作过程、处理结果等内容进行全面的记录；

经过处理的数据的管理

需要记录数据的处理过程、算法、代码和参数信息，并将处理结果与原始数据源进行关联；利用元数据来描述数据流的来源和目标，从而确定数据的血缘信息；

元数据的血缘关系管理

元数据是描述数据的数据，包括数据结构、字段定义、数据类型、数据质量信息；对元数据的血缘关系进行管理可以帮助识别和跟踪数据衍生、变更和版本变化情况。

进一步的，所述工业数据张量体DIKube的构建过程如下：

1)DIKube的生成

按照产业数据目录分类，形成不同维度的元数据标签形成的工业数据张量体DIKube；DIKube是一种形式化的语义数据空间；

2)基于用户需求的DIKube的生成

基于工业机理和用户需求，可以根据类别、应用、规则、公式场景预生成能够满足用户需求的特定的DIKube；这种预生成的DIKube可以寄托AI和知识图谱通过大数据治理分析，预先生成符合用户应用场景需求的最优方案建议，具有选择多科，考虑全面的特点；

3)工业开放数据的DIKube的生成

工业开放数据DIKube是将工业领域内的开放数据按照内容-关切点-体裁-格式分类所形成的DIKube，并满足如下特征：

能够覆盖全域行业开放数据；

符合开放数据的客观存在，人易于接受；

机器可读的元数据分类标签，达到自动化。

综上所述，本发明具有以下有益效果：

1)本发明构建的工业数据张量体DIKube能够根据用户需求生成特定的DIKube，能为面向场景的产业数据应用提供。

2)本发明构建的基础支撑平台Data Fabric利用了开源技术，能在用户需求变化的情况下实现快速的审核、优化、整合和迭代。

3)本发明创建的元数据索引ID能关联工业数据语义、能实现异构数据的信息查询和共享、能对数据进行追溯和全生命周期管理、能自动生成增量数据的ID，并且具有自适应的可扩展性。

附图说明

图1是本发明所述的支持产业数据编织系统的语义化与结构化数据治理平台的示意图。

图2是本发明所述的基于本发明开发的工业快搜是国内首款应用于工业领域的垂直搜索引擎。

图3是本发明所述的面向场景的DIKube的生成过程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明。

如图1所示，本发明提出的一种去中心化分布式共生共享的数据编织系统，包括如下步骤：

I、构建基础支撑平台Data Fabric

1)部署分布式基础平台

在支持结构化数据与非结构化数据存储的基础上，优化HDFS(HadoopDistributed File System)存储海量小文件的问题，通过minIO存储小文件，提升存储效率，对多源异构的数据进行统一的元数据管理。根据数据类型不同，动态选择不同的存储组件。通过容器化技术，对系统进行一键化部署，部署去中心化分布式基础平台。

2)在分布式基础平台上安装文件管理与迁移组件

选用MinIO作为文件管理与迁移的组件。MinIO具有可靠性(自动容错)、高可用性(在一半节点宕机时仍可保证服务可用)、可扩展性强(可以动态扩展节点)等优点。MinIO使用对象存储技术，能便捷管理海量小文件。获取文件时不需要提供该文件在文件系统中的具体位置，而是通过请求对象存储服务获得一个统一资源定位符。MinIO多节点的特性使得数据的安全与访问速度得到保障，其扁平结构便于快速地获取数据，其弹性扩容特性能方便数据治理平台的扩容。

3)在分布式基础平台上部署Spark on kubernetes流式计算

Spark on kubernetes流式计算是一种基于Docker容器的Spark大数分布式计算框架。容器化的大数据平台可以极大的提高资源利用率和计算并行度，能简化运维管理成本，并能够应对实时负载，弹性伸缩Spark计算节点。针对基于Kubernetes部署Spark集群、基于kubernetes平台的大数据流式计算Spark集群，可以快速部署并横向扩展Spark集群，可以实现基于负载的Spark节点弹性伸缩。针对Docker容器的资源监控，采集各个Node节点上的容器资源使用数据，根据实时负载对Spark节点执行响应的伸缩活动。

II、通过Apache Kafka，建立一个异步数据摄取流程，从多种数据源摄取/接收数据

1)安装Kafka组件

Kafka是一种被广泛地应用于各种大规模数据处理场景的分布式消息系统，具有高度可扩展性、容错性和高吞吐量。它通过支持发布/订阅模式和分区消息机制来提供消息传递的能力。Kafka被广泛应用于大规模数据处理场景，例如：日志收集、实时流处理、事件驱动架构等。它的核心组件是Broker、Topic、分区Partition和消费者组Consumer Group。

2)通过自研连接器，以手动或自动同步来自各种数据库、消息队列、文件存储的数据，通过Apache Kafka到Data Fabric中，进行数据的统一管理。以下不同类型的数据摄取对于Kafka来说没有区别。这些数据类型包括：a)产线数据：包括传感器数据、设备接口数据、人工录入数据、图像识别数据等；b)关系数据库中数据；c)非关系型数据库中数据；d)文件数据；e)开放数据；f)搜索引擎数据。

III、数据ETL(Extract-Transform-Load)

1)数据抽取

数据抽取是指从源系统中获取数据并将其传输到Data Fabric中进行处理。DataFabric的ETL提供了多种数据抽取方式，包括：

文件导入：支持各种文件格式的数据导入，如CSV、Excel、JSON等。

数据库连接：支持多种数据库类型和连接方式，如MySQL、Oracle、PostgreSQL等。

Web API：支持通过Web API接口抓取数据。

2)数据转换

数据转换是指将抽取到的数据进行清理、加工、转化等操作，以便适应后续的分析和应用需求。Data Fabric ETL提供了多种数据转换方式，包括：

数据清洗：去除重复数据、填补空缺或者错误数据、调整数据格式等。

数据预处理：对数据进行聚合、计算、分类、过滤等操作。

数据转换：对原始数据进行转换，例如日期转换、字符串格式转换等。

3)数据加载

数据加载是指将经过转换后的数据重新导入到目标数据仓库或者业务系统中。Data Fabric ETL提供了多种数据加载方式，包括：

数据写回：将经过转换后的数据写回到源数据库或者文件中，以保证源数据的完整性和一致性。

数据存储：将经过转换后的数据存储到Data Fabric的内部数据湖仓中，方便后续查询和分析。

数据导出：将经过转换后的数据导出到其他系统中，如Hadoop、Spark等。

Data Fabric ETL除了使用上述三种数据加载方式实现数据的无缝传输和处理之处，还支持多线程、批量处理等高效的数据处理方式，提供了丰富的数据转换函数和脚本编程接口，以支持更复杂的数据处理需求。

IV、元数据管理

1)元数据提取

元数据提取采用自动化方式和人工方式两种。自动化方式是利用自研的元数据提取工具扫描和提取各种数据源的元数据信息；人工方式指的是手动录入不同数据源的数据类型、字段名称、数据格式等元数据信息。

Data Fabric利用提取的元数据进行数据血缘分析、数据质量管理、数据安全审计等，以便更好地理解数据，为后续的数据处理和应用提供充足的信息支持，提高数据的价值和利用效率。

2)元数据ID的生成

使用行业数据标识编码体系，基于产业数据目录及产业知识图谱，经过加密形成唯一的元数据ID。这样的ID不仅保证了元数据的唯一标识，还携带语义、世系信息和产业机理。

Data Fabric使用元数据ID的目的是为了方便数据管理和查询。因为唯一的数据ID不仅可以更好地标识、查找和跟踪数据集的信息，还能确保不同来源的数据不会发生冲突。

V、基于本体的数据治理

1)构建工业知识词谱

构建工业知识词谱需要从元数据中抽取实体和实体之间的关系。

实体的抽取：根据工业数据的含义和专家经验整合结构化、半结构化和非结构化数据。对数据中的实体进行识别和标注，这些实体包括人、地点、组织、术语等。本发明采用的实体识别技术包括自然语言处理(NLP)技术和机器学习算法，即命名实体识别(NER)模型或实体抽取(Entity Extraction)算法。

关系抽取：实体间的关系包括隶属关系、相似性关系、关联关系等。本发明采用的关系抽取技术包NLP技术和机器学习算法，即依存句法分析法和机器学习算法。

将抽取到的实体和关系进行组合和融合，构建一个工业知识词谱，用图数据库，例如，使用Neo4j、ArangoDB等存储和管理知识词谱中的数据。通过知识图谱查询语言(如SPARQL)或者推理引擎(如Apache Jena)，对知识图谱进行查询和推理以支持多场景的应用。

2)构建元数据索引

根据已构建的工业知识图谱，形成产业数据目录和zyxID形成索引，以满足DataFabric管理和查询数据的效率和扩展性。

需要定期维护索，确保索引数据的完整性和准确性。索引维护包括数据更新、数据重建、容错处理等操作，以保证索引与数据的一致性和可用性。

3)数据源和元数据血缘关系管理

数据源管理

需要记录数据的来源、格式、类型、采集时间等信息，并标记数据采集器、数据负责人等元数据信息。记录数据源的血缘关系，需要对数据源进行全面的文档记录和元数据标注，包括对数据源的操作过程、处理结果等内容进行全面的记录。

经过处理的数据的管理

需要记录数据的处理过程、算法、代码和参数等信息，并将处理结果与原始数据源进行关联。这种关联可以是实时的，也可以是批处理的，利用元数据来描述数据流的来源和目标，从而确定数据的血缘信息。

元数据的血缘关系管理

元数据是描述数据的数据，例如数据结构、字段定义、数据类型、数据质量等信息。对元数据的血缘关系进行管理可以帮助识别和跟踪数据衍生、变更和版本变化情况。

VI、构建工业数据张量体DIKube

1)DIKube的生成

按照产业数据目录分类，形成不同维度的元数据标签形成的工业数据张量体DIKube(Data Information Knowledge k(c)ube)。DIKube是一种形式化的语义数据空间。

2)基于用户需求的DIKube的生成

基于工业机理和用户需求，可以根据类别、应用、规则、公式等场景预生成能够满足用户需求的特定的DIKube。这种预生成的DIKube可以寄托AI和知识图谱通过大数据治理分析，预先生成符合用户应用场景需求的最优方案建议，具有选择多科，考虑全面的特点。

3)工业开放数据的DIKube的生成

能够覆盖全域行业开放数据。

符合开放数据的客观存在，人易于接受。

机器可读的元数据分类标签，达到自动化。

1)本技术方案中按照产业数据目录分类，形成不同维度的元数据标签形成的工业数据张量体DIKube，能基于工业机理和用户需求，按照类别、应用、规则、公式等场景预生成能够满足用户需求的特定的DIKube，解决了现有的大数据基础平台难以实现用户按需定制的不足；

2)本技术方案中构建的基础支撑平台Data Fabric利用了开源工具HDFS、minIO、Spark、kubernetes和Apache Kafka等，平台具有弹性扩容特性，能方便数据治理平台的扩容，解决了现有的大数据基础平台只能在现有产品的基础上有序升级，不能快速优化和迭代的不足；

3)本技术方案中创建的元数据索引能确保索引数据的完整性和准确性、索引与数据的一致性和可用性，能管理数据源和元数据的血缘关系。而元数据的血缘关系进行管理可以识别和跟踪数据衍生、变更和版本变化情况，解决了利用现有的数据空间技术管理多源异构数据时存在的数据流问题、数据安全设计问题、访问管理困境问题、系统演化中潜在的冲突和反馈等问题。

图1说明的是支持产业数据编织系统的语义化与结构化数据治理平台。平台中的开源技术包括HDFS、minIO、Spark、kubernetes和Apache Kafka。它们主要用来构建面向场景的产业编织系统的基础算力。平台中自研的一种行业数据标识系统和方法的功能是为产业编织系统中的多源异构数据进行编码，并为每一条元数据生成唯一的zyxID，实现数据的同化。运用自研的工业词谱iLexigraph关联数据语义，实现基于本体的数据富化。利用自研的工业数据张量体DIKube实现基于数据空间的元数据治现。

图2所示的基于本发明开发的工业快搜是国内首款应用于工业领域的垂直搜索引擎，已用于产业投资、产能布局、研发投入辅助决策；潜客预判、原料预购、产能规划和辅助决策。

图3说明了基于本发明的工业数据张量体DIKube能根据不同应用场景生成各种不同的子张量体，能为大语言模型提供优质的语料，帮助小模型实现快速调优。其中，ioDIKube表示工业开放数据张量体，ud1DIKube和ud2DIKube表示根据不同用户需求生成的张量体。

在本文中，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了表达技术方案的清楚及描述方便，因此不能理解为对本发明的限制。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种去中心化分布式共生共享的数据编织系统，其特征在于，包括如下步骤：

1)构建基础支撑平台Data Fabric；

3)数据抽取、转换和加载；

4)元数据管理，其包括元数据提取和元数据ID的生成；

5)基于本体的数据治理；

6)构建工业数据张量体DIKube。

2.根据权利要求1所述的去中心化分布式共生共享的数据编织系统，其特征在于，所述基础支撑平台Data Fabric的构建过程如下：

1.1)部署分布式基础平台

1.2)在分布式基础平台上安装文件管理与迁移组件

1.3)在分布式基础平台上部署Spark on kubernetes流式计算

4.根据权利要求1所述的去中心化分布式共生共享的数据编织系统，其特征在于，

所述数据抽取是指从源系统中获取数据并将其传输到Data Fabric中进行处理；DataFabric的ETL提供了多种数据抽取方式，包括：

文件导入：支持各种文件格式的数据导入；

数据库连接：支持多种数据库类型和连接方式；

Web API：支持通过Web API接口抓取数据；

数据预处理：对数据进行聚合、计算、分类、过滤操作；

数据加载是指将经过转换后的数据重新导入到目标数据仓库或者业务系统中；DataFabric ETL提供了多种数据加载方式，包括：

数据导出：将经过转换后的数据导出到其他系统中。

5.根据权利要求1所述的去中心化分布式共生共享的数据编织系统，其特征在于，所述元数据提取采用自动化方式和人工方式两种；自动化方式是利用自研的元数据提取工具扫描和提取各种数据源的元数据信息；人工方式指的是手动录入不同数据源的数据类型、字段名称、数据格式；

6.根据权利要求1所述的去中心化分布式共生共享的数据编织系统，其特征在于，所述基于本体的数据治理的方法如下：

1)构建工业知识词谱

2)构建元数据索引

3)数据源和元数据血缘关系管理

数据源管理

经过处理的数据的管理

元数据的血缘关系管理

7.根据权利要求1所述的去中心化分布式共生共享的数据编织系统，其特征在于，所述工业数据张量体DIKube的构建过程如下：

1)DIKube的生成

2)基于用户需求的DIKube的生成

3)工业开放数据的DIKube的生成

能够覆盖全域行业开放数据；

符合开放数据的客观存在，人易于接受；

机器可读的元数据分类标签，达到自动化。