CN115714807A

CN115714807A - 工业场景数据中台的设计系统

Info

Publication number: CN115714807A
Application number: CN202110950757.7A
Authority: CN
Inventors: 黄明; 周明; 滕逸龙; 胡兵
Original assignee: Shanghai Baosight Software Co Ltd
Current assignee: Shanghai Baosight Software Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-02-24

Abstract

本发明提供了一种工业场景数据中台的设计系统，涉及工业场景下数据中台的技术架构和数据功能技术领域，该方法包括：角色管理模块、基础资源管理模块、数据平台模块、数据开发模块、运维监控模块以及数据管理模块。本发明能够在不同数据大小和类型的场景下可以保持数据存储和访问的效率、数据应用和访问可靠性、易用性，满足各种工业场景下的数据应用需求。

Description

工业场景数据中台的设计系统

技术领域

本发明涉及工业场景下数据中台的技术架构和数据功能技术领域，具体地，涉及一种工业场景数据中台的设计系统。

背景技术

随着工业的信息化与智能化发展推进，工业生产中产生的数据量，以及生产数据的价值，都在日益提升。出于工业场景考虑，及时进行数据采集，妥善存储这些数据，并对数据内在的数据价值进行分析，形成以数据驱动的企业经营决策，从而快速为业务提供基于统一、打通的数据资产之上的数据服务，赋能业务场景，产生业务价值。

公开号为CN110798490B的发明专利，公开了一种基于数据中台接入第三方系统的方法、装置及数据中台，首先在数据中台中创建第一项目，然后基于通过鉴权验证的第三方系统的目标接口在该第三系统中创建与第一项目对应的第二项目，并基于在数据中台中生成第三方任务节点，进而确定出第三方系统对应的第二目标工作流；并将第三方系统对应的第二目标工作流下发给该第三方系统，并获取该第三方系统反馈的任务节点执行结果和运行日志。

但是，由于企业的组织架构、管理模式、产线规模、系统部署等不同的个性化需求等原因，往往造成理解上的歧义，造成数据中台建设及数据应用开发项目的一致性面临着诸多挑战；另一方面，构建数据中台需要依据企业的发展阶段不同，对于数据处理能力的需要也存在不同，构建具有通用性、模块化、可扩展性的数据中台，避免无序和重复建设，在技术上也存在较高的技术门槛。

1.数据量的挑战

数据量的挑战包括两个方面：首先，是存储数据的总量，不同于互联网主要是基于人及其行为的数据，在工业场景下，除了企业经营过程中产生的海量结构化数据，工业设备和仪表等产生的大量半结构化数据和非结构化数据，24小时不间断的持续产生巨量的工业IOT数据。其次，是处理这些海量数据时的吞吐量，传统的单机存储方式或共享存储方式，受限于其硬件配置瓶颈，在满足存储数据量上升的过程中，会迅速遇到IO性能瓶颈。

2.可靠性的挑战

在企业逐渐增长的信息化和智能化数据过程中，数据的重要性一直在上升，数据准确性会直接影响着生产环节中的决策。因此，对于数据的可靠性要求依据成为无法回避的挑战。

传统基于备份容灾或系统双活的数据存储方案存在数据可用性、数据存储成本和数据管理成本等诸多问题，例如数据冷备的数据在使用时需要重新加载，数据备份和归档需要较长的处理流程等问题。而常见的分布式存储(如HDFS：Hadoop Distributed FileSystem)，在数据量和可靠性上都已经能很好的应对，但应用于工业场景中还仍然存在问题。典型的问题是无法应对全部文件场景，即现有的分布式存储应对的文件场景往往比较局限，而同时工业生产场景多种多样，数据也越来越多样化。以HDFS举例，在HDFS中，小于配置的块大小的文件被称为小文件。每个小文件都会在HDFS中独自占用一个块，大量的小文件会导致同样容量下的块数量非常大。而每个块的元数据都保存在NameNode的内存中，这会使得NameNode的内存占用变的很大。而访问大量小文件，也会导致严重的性能下降。

3.易用性的挑战

企业的各类数据在采集和存储阶段，往往局限于局部的业务需求，难以在企业整体架构和数据应用的战略目标出发，进行有效的数据管理和服务治理，使得数据命名杂乱、冗余重复、难以理解等数据问题层出不穷，无法真正做到数据的有效性应用；此外，数据加工和访问方式上，也存在形式多样临时取数需求，导致取数行为的杂乱无序，并且数据安全性难以得到保障。

因此，在数据管理和服务治理、数据安全等方面如何做好数据应用的易用性和用好数据，使得海量数据的存储避免变为“数据沼泽”，从而让数据成为企业的数据资源，而非数据负债。

发明内容

针对现有技术中的缺陷，本发明提供一种工业场景数据中台的设计系统。

根据本发明提供的一种工业场景数据中台的设计系统，所述方案如下：

第一方面，提供了一种工业场景数据中台的设计系统，所述系统包括：

角色管理模块：对参与数据中台的用户以群组、角色的管理方式，与数据中台的各类数据操作和形成的各种数据之间建立起权限管理；

基础资源管理模块：管理维护构建数据中台的基础性资源，组成新的软件环境或者应用；

数据平台模块：结合工业场景下数据的典型特征，满足不同数据源、不同数据结构，以及不同数据类型的数据处理要求；

数据开发模块：整体功能包含数据集成开发、数据模型开发、数据主题开发、数据质量开发、数据服务开发、数据可视化开发在内的多个组件，组件之间能够独立或组合使用，能够覆盖数据采集、处理、分析以及可视化的各个环节，满足企业实施数据开发应用的场景；

运维监控模块：内容包含资源管理监控、数据集成监控、周期任务监控、质量告警监控、服务调用监控以及算法模型监控；

数据管理模块：整体功能包含数据标准管理、数据质量管理、元数据管理、资产类目管理、生命周期管理、数据安全管理、数据血缘管理、数据共享管理在内的多个子模块组成，字模块之间能够独立或组合使用，覆盖数据治理的各个环节，满足企业实施数据治理的场景。

优选的，所述角色管理模块从数据中台围绕数据的使用角度，从参与角色角度将用户类型分为：数据管理者、数据提供者、数据开发者以及数据消费者。

优选的，所述基础资源管理模块包括：计算资源管理、存储资源管理以及网络资源管理。

优选的，所述数据平台模块内部组件按功能分为：采集层、存储层、计算层、服务层、应用层。

优选的，所述采集层包括：结构化数据采集、半结构化数据采集以及非结构化数据采集。

优选的，所述存储层包括：结构化数据存储、半结构化数据存储以及非结构化数据存储。

优选的，所述计算层包括：离线计算、在线计算、机器学习以及流式计算。

优选的，所述服务层包括：数据访问服务和数据分析服务。

优选的，所述应用层包括：数据可视化和数据应用开发。

优选的，所述运维监控模块中的周期任务监控包括：

概览：能够查看平台的任务配置数量、任务实例执行概览以及任务实例；

任务配置：包括配置详情、调度周期、运行次数以及平均耗时；

任务实例：包括实例状态、起止时间以及实例耗时；

任务实例详情：能够查看某个任务实例详情，包括任务DAG图、步骤实例列表、各步骤状态、耗时以及查看日志。

与现有技术相比，本发明具有如下的有益效果：

1、在不同数据大小和类型的场景下可以保持数据存储和访问的效率、数据应用和访问可靠性、易用性，满足各种工业场景下的数据应用需求；

2、通过提炼工业场景下数据中台的用户角色、基础资源、数据平台、数据开发、运维监控、数据管理等特性，提供工业大数据的数据中台的系统架构，以及各组成模块的主要功能与实现，确保工业场景下的数据中台建设及数据应用开发时的一致性，从而更好地实现包括平台开发和运营、数据应用开发和数据产品开发等在内的数据中台，实现工业场景下数据能力的复用和数据产品的高质量交付；

3、在保障了工业场景下海量数据的全生命周期管理，即数据接入、存储、处理、分析、展示和治理等功能前提下，有效拓宽了数据分布式存储的适应场景、数据管理与服务治理等应用场景；

4、从根本上支撑企业充分利用大数据所产生的巨大原动力，提高企业应变力、适应力、创新力和竞争力，推进整个工业大数据的数据中台快速建设进程。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为工业场景数据中台系统架构图；

图2为数据模型开发的数据层次；

图3为宝信数据生态5S套件xData。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种工业场景数据中台的设计系统，参照图1所示，该系统包括：角色管理模块、基础资源管理模块、数据平台模块、数据开发模块、运维监控模块以及数据管理模块。模块之间使用统一的权限管理，平台对于用户而言是一体化的系统，各模块是用户具体使用的一部分功能的集合；此外，基础资源管理模块是对平台依赖的基础环境进行管理，后续的数据平台模块的数据存储和计算分析都是基于基础资源具化来实现；数据开发模块是对数据平台模块中的数据进行加工处理的各种作业的编排和调度；运维监控模块是对数据开发模块的各种行为产生的过程数据进行度量、可视化；数据管理模块是数据治理等功能集合，是数据规范、原则的落地实体，在数据平台模块、数据开发模块的使用过程中都要遵循数据管理模块制定的各种规范和要求，体现企业管理者的意志。具体如下：

1、角色管理模块：对参与数据中台的用户以群组、角色的管理方式，与数据中台的各类数据操作和形成的各种数据之间建立起权限管理；从数据中台围绕数据的使用角度，应从参与角色角度将用户分为以下类型：

a)数据管理者

数据管理者主要负责数据管理工作，包括数据标准管理、数据质量管理，元数据管理、资产类目管理、生命周期管理、数据血缘管理、数据安全管理、数据共享管理等，涵盖数据生存周期中所有的处理过程，其活动和功能是验证数据在生命周期的每个过程是否都能够被数据中台系统正确地处理。

b)数据提供者

数据提供者主要提供各类数据源和数据资产，包括原始数据、主题数据、应用数据等数据集，以及数据模型、数据服务API、算法模型等数据资产，基于数据中台的数据共享管理，实现数据贡献和数据价值创造。

c)数据开发者

数据开发者主要从事数据开发工作，包括数据集成开发、数据模型开发、数据主题加工、数据质量开发、数据服务开发、数据可视化开发等，基于数据中台的数据平台模块提供的数据能力，围绕数据全生命周期的数据接入、存储、处理、分析、展示的环节，实现数据价值挖掘和应用。

d)数据消费者

数据消费者主要是了解数据中台的资产情况，查找数据服务和申请数据服务使用授权。通过数据平台模块提供的服务层和应用层能力消费数据，获取必要的数据满足业务应用开发，实现基于数据中台的融合数据创新应用。

2、基础资源管理模块：管理维护构建数据中台的基础性资源，组成新的软件环境或者应用，主要包括：

a)计算资源管理

满足计算机程序运行的算力资源，包括但不限于CPU资源、内存资源、GPU资源等。计算资源应满足可扩展、可靠性等要求。

b)存储资源管理

允许用户存储数据并在任何时候访问数据。数据存储系统一般要满足维护用户数据的诸多要求，包括可用性、安全性、备份与数据一致等。

c)网络资源管理

信息交换和通信设施，网络资源应满足面向服务、结构化、可预测和可靠性等要求。

3、数据平台模块：结合工业场景下数据的典型特征，满足不同数据源、不同数据结构，以及不同数据类型的数据处理要求；包括：业务需求、数据时效性、数据价值等因素。以产品数据为核心，围绕典型智能制造模式，涵盖从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废及回收再制造等整个产品全生命周期各个环节所产生的各类数据，从数据格式角度可以归纳为三类：结构化数据、半结构化数据、非结构化数据。

围绕三类不同数据类型的全生命周期处理，数据平台模块的内部组件按功能分为：采集层、存储层、计算层、服务层、应用层。数据平台模块的不同层级是按照数据流向来看，是自下而上的。采集层负责将数据采集到数据平台；存储层负责数据的落地存储；计算层提供数据分析和计算等不同处理的算力；服务层对外提供数据调用的接口和分析接口的切面；应用层是提供数据应用的基础能力，包括数据可视化基础能力以及二次数据应用开发方法，使得数据应用层具备支持可扩展性的能力，可以接入不同的供应商接入应用，丰富数据应用的生态能力。具体如下：

a)采集层

(1)结构化数据采集

针对结构化数据采集，构建数据采集系统时应提供丰富的数据接入方式，包括批量采集、实时同步、ETL工具等，以及数据API方式接入外部数据。

(2)半结构化数据采集

半结构化数据，以工业设备时序数据为主，具有7*24小时持续发送、存在峰值和波动、质量问题突出等特点，需要增加前置性数据处理和高通量的高性能时序数据采集系统。例如，支持实时数据总线来接入高并发的传感器数据，或者支持工业现场设备缓存数据的批量导入。

(3)非结构化数据采集

非结构化数据采集需要构建同时兼顾可扩展性和处理性能。对于管理系统产生的非结构化数据，例如CAD、CAM、CAE、CAPP、PDM等设计类数据，对于采集时效性要求不高，可使用定期批量导入的方式加载到数据中台系统。对于生产系统产生的非结构化数据，例如质量监控照片、视频等，具有数据量大、传输持续时间长的特点，需要有高带宽、低时延的通信网络才能满足数据的上传需求。

b)存储层

(1)结构化数据存储

结构化数据存储，需要兼顾数据分析服务和数据查询服务的不同场景的性能要求，选择采用不同的数据存储引擎，保证各种应用场景下数据的可用性要求，包括但不限于支持：传统关系数据库，新型关系数据库、MPP数据库、列式数据库、NoSQL数据库等。例如，工业管理系统的结构化数据可以采用传统关系型数据库，如果需要长期存储，可将数据归档存储至列式数据库或NoSQL数据库。

(2)半结构化数据存储

以海量工业时序数据为代表的半结构化数据存储，应满足查询高效性和接入吞吐量方面的需求，在构建半结构化数据的存储系统时要能够满足数据高通量接入、高性能读写、高效率存储，以及高可扩展性的存储能力。同时，应考虑支撑时间相关数据的分析处理的性能需求，以及利用高压缩比的存储技术，减少存储空间的占用。

(3)非结构化数据存储

非结构化数据存储要面对和解决海量小文件的挑战，同时提供批量数据读取分析能力，能够提供数据的产品生命周期、高效数据检索查新等能力，包括：文件存储、块存储、对象存储。需要构建面向工业场景的支持海量非结构化文件存储、查询和读取的技术系统。

c)计算层

(1)离线计算

离线计算满足时效性不强、海量数据的计算需求，支持基于Mapreduce框架为代表的批处理计算，解决时间不敏感场景下的海量数据计算问题，提供基础的平台自定义开发包简化应用的功能实现，屏蔽数据存储引擎对应用的复杂度。

提供包括数据复杂计算、数据聚合、数据挖掘等数据分析服务能力。

(2)在线计算

在线计算兼顾数据计算的数据体量、时效性需求，提供数据分析服务和数据查询服务能力。支持基于Spark框架为代表的计算引擎，在多个操作之间将一个或多个关联的数据集进行分片，以分区为单位进行持久化或缓存，充分利用内存加快整个分布式计算的性能，减少磁盘的IO操作提升整个计算任务的效率。

(3)机器学习

机器学习能够提供结构化数据的统计分析、深度学习算法、聚类分析等能力，同时提供非结构化数据的分析能力，例如语义分析、图像识别等。

(4)流式计算

对应用源源不断产生的数据实时的进行处理，使得数据不积压、不丢失，并且满足持续计算的时效性需求。解决的数据的实时计算需求，提供时间窗口分析、事件分析等数据分析能力。

基于流式计算引擎的实时处理计算框架，提供Source和Sink模板快速实现流式计算和实时数据处理，支持自定义函数、Source、Sink、数据源与目标存储、SQL接口等二次开发应用。

d)服务层

(1)数据访问服务

通过将数据中台内存储的各类数据，以及数据分析和加工的结果数据，以数据服务的形式对外提供接口或数据产品，提供不同的时效性和数据服务类型。

对于时效性要求高的场景，数据服务应以数据接口、数据订阅、数据(产品)推送等数据访问服务形式提供；对于数据结果集较大、数据传输要求高的场景，数据服务应以数据文件、TCP协议数据API等数据访问形式提供。

(2)数据分析服务

通过数据中台具备的不同数据分析能力以数据服务的形式对外提供数据计算和分析功能，包括数据模型、算法模型等。

强调专业领域知识和数据挖掘的深度融合，钢铁行业的数据分析需要融合工业机理模型，建立高精度、高可靠性的模型来真正解决实际的工业问题。支持时序模式分析、工业知识图谱、多源数据融合分析等典型的工业数据分析能力。

e)应用层

(1)数据可视化

将数据中台的各类数据，包括原始数据、加工数据、分析数据等，以不同的层次和维度进行直观、简洁的方式展示，借助于图形化手段，交互式的表现方式，帮助用户探索和理解复杂的数据，最大化的挖掘数字背后的信息，易于理解和分析，实现数据的辅助决策。包括但不限于：数据报表、数据大屏、分析报告，以及数据驱动的自助分析面板等。

(2)数据应用开发

基于数据分析技术、管理技术，综合利用各种数据应用开发，快速构建面向实际业务需求的数据应用，实现数据应用的快递开发与迭代，提供基于数据的创新型应用开发基础，实现智能化设计、智能化生产、网络化协同制造、个性化定制等典型的智能制造模式，最终实现提质、降本与增效。例如：基于设备数据分析应用可以评估和预测设备健康状况，辅助人工决策；基于生产调度和生产管理系统历史数据分析应用可以提供流程优化和决策建议。

4、数据开发模块：整体功能包含数据集成开发、数据模型开发、数据主题开发、数据质量开发、数据服务开发、数据可视化开发等多个组件组成，组件之间能够独立或组合使用，可以覆盖数据采集、处理、分析以及可视化的各个环节，满足企业高效实施数据开发应用的场景。

a)数据集成开发

数据集成开发应是通过配置数据集成任务步骤，将外部数据采集进入数据节点内进行存储，应可以独立配置成定周期触发运行。为了满足不同的数据采集场景要求，数据集成应包括但不限于：

离线结构化数据同步：应对要采集的数据源连接进行配置，创建与业务系统表结构对应的目标表用于存放从源端采集到的数据，字段一一对应。

离线工业时序数据同步：将外部的时序数据以定周期采集的方式进入数据节点的时序数据库。应可以对源端和目标端的信号点进行映射配置、数值转换配置、采集通道控制、采集质量控制。

离线对象文件同步：将文件采集进入数据节点的对象数据引擎存储。应可对采集过程的文件名转换、采集通道控制等进行配置。

实时数据同步：将外部数据实时采集进入数据节点的数据存储引擎中。应存在版本字段、更新时间等字段，用于数据同步时的数据处理。

b)数据模型开发

数据中台的数据由业务而来，经加工处理沉淀后，再服务于业务。数据模型开发从逻辑层次上应划分为公共数据层和应用数据层，加上原始数据抽取进入数据中台的贴源数据层，从下至上核心划分为三层，如图2所示：

(1)数据资源层：实现数据中台业务管理范畴内所有基础业务数据和相关外部数据的按需采集与存储；数据资源层主要实现所有基础数据和相关外部数据的按需抽取与存放，主要还是以ETL的方式对数据进行抽取。抽取过程中只是对数据进行基本的过滤和筛选，数据结构并不发生变化，抽取上来的数据按照业务域进行划分，比如财务、人力资源、生产制造、贸易、物流、金融等，这一层的数据基本上就是未经过处理的原始数据。

(2)数据模型层：首先构建基础业务模型，并在基础业务模型之上(为更好的利用数据)，抽象提炼出公共业务模型，基础模型和公共模型的本质是实现业务的“千人一面”，进一步面向不同的业务管理分析目标构建运营模型，来满足不同类型(千人千面)的数据服务需求。

(3)数据服务层：面向各类前台/中台业务(包括终端用户或者业务系统)，提供标准的/个性化的数据服务，包括即席查询与自主分析服务，穿透式实时查询分析服务、数据共享API接口服务、数据可视化服务等。

c)数据主题开发

在数据节点内创建主题表，配置数据开发任务步骤进行流程作业编排，并支持定周期触发运行，实现对原始数据、已有主题数据进行加工处理。应支持多种步骤配置方式，包括但不限于：

SQL计算：在对应的数据库引擎中执行SQL语句对数据进行计算。应可配置执行SQL的数据引擎和逻辑分区、可配置所需执行的SQL语句、可配置执行SQL所需的参数。

指标计算：对一系列数据按照设定好的公式、统计期和格式进行计算。可配置用于计算的表、统计期的开始和结束、会计期格式等。

Java程序：提供无法通过SQL计算和指标计算实现的复杂计算逻辑的主题开发要求。应可配置指定的程序包、可配置指定要启动的JAR文件、可配置JAR文件运行时的参数。

d)数据质量开发

对数据开发流程中各个阶段的数据进行质量管理，包括对表进行质量规则定义、质量稽核、错误信息告警和问题矫正等一系列的过程。数据质量检验规则可以定周期运行，也可以作为任务步骤和其他数据采集、开发任务步骤进行统一作业流程编排。

质量管理是循环的管理过程，应主要包含过程如下：

数据开发者给质量监控对象设置检验规则、以及检验规则的运行方式；

检验规则运行时，发现质量检验结果超出阈值时，产生告警；

数据管理者对告警进行评估，用于指导数据质量改进工作的开展。

e)数据服务开发

应支持数据开发者对数据服务进行配置，包括数据服务访问地址，输入参数等，编写SQL程序根据输入参数进行查询得到输出数据集，系统将输出数据集打包成数据服务调用的返回值。支持数据服务接口开发平台，功能包括但不限于：

数据接口生成：通过可视化配置方式生成数据服务接口，并可立即调用。

数据接口发布：支持将数据接口通过HTTP方式发布，应具备统一授权鉴权，流控等功能。

数据接口测试：数据接口测试应支持数据接口在线测试和性能评估。

接口文档生成：数据接口文档生成应支持按照数据接口自动生成接口文档的功能，可用数据接口调用者查看。

f)数据可视化开发

数据可视化开发应包括但不限于报表开发、报告开发、大屏开发和自主分析等可视化产品开发。主要功能应包括：

基于数据服务数据统计分析功能，应具备按个人需求，采用拖拽方式，构建展示框架，生成可视化分析图表。

自助数据集设置，让用户可以临时将基础数据源处理成自己需要的结果。

多维探索分析，可根据数据类型自动将数据识别为维度和指标进行分析。

提供仪表板功能，应让用户将多个分析内容，分组组件组合成一个仪表板或者报告，通过组件直接的联动功能，实现关联分析等。

应具备报告定期生成、向指定人员推送(邮件)、能够生成url对外发布。

应数据权限管理，针对行、列级别的数据权限管控。

5、运维监控模块：内容包含资源管理监控、数据集成监控、周期任务监控、质量告警监控、服务调用监控以及算法模型监控等。

a)周期任务监控

周期任务监控可以对平台已提交的任务进行监控，应包含以下功能：

概览：可查看平台的任务配置数量、任务实例执行概览、任务实例；

任务配置：包括配置详情、调度周期、运行次数、平均耗时等；

任务实例：包括实例状态、起止时间、实例耗时等；

任务实例详情：可查看某个任务实例详情，包括任务DAG图、步骤实例列表、各步骤状态、耗时、查看日志等。

b)资源管理监控

数据资源监控应对数据中台的数据资源使用情况进行监控，包含以下功能：

查看数据中台的表数量，及其增量变化统计情况；

查看数据中台的存储使用量，及其增量变化统计情况；

对数据资源数据绝对值和增长量等设置报警规则，监控资源使用情况。

c)数据集成监控

数据集成监控应对数据集成任务步骤进行监控，应包含以下功能：

数据流转：可以查看数据集成任务的数据集成任务执行次数、执行成功率等；

数据集成详情：可查看数据集成任务步骤的执行详情，包含数据源端配置、数据目的端配置、数据采集传输速率等。

d)服务调用监控

服务调用监控对数据中台的数据服务调用情况进行监控，应包含下列功能：

数据模型API每月访问情况，包含耗时，调用次数，慢服务、异常服务和高频服务排行等；

数据模型API调用情况，包含调用方项目名、调用方应用名、调用次数、平均耗时等；

数据模型API调用详细情况，包含调用方、调用耗时、错误原因等。

e)算法模型监控

算法模型监控可查看算法模型训练任务运行情况，算法模型API调用情况，应包含下列功能：

项目列表：查看算法模型项目列表，各项目内API服务数、上线情况；

训练任务列表：查看算法模型训练任务。

f)质量告警监控

质量告警监控对数据质量及元数据质量校验结果进行监控，应包括以下功能：

数据质量：查看数据质量规则校验结果，规则运行后即可查看运行记录；

数据质量实例详情：查看实例详情，包括规则校验内容、校验状态等；

元数据质量：查看元数据质量规则校验结果，规则运行后，即可查看运行记录；

元数据质量实例详情：查看实例详情，包括规则校验内容、校验状态等。

6、数据管理模块：整体功能包含数据标准管理、数据质量管理、元数据管理、资产类目管理、生命周期管理、数据安全管理、数据血缘管理、数据共享管理等多个子模块组成，字模块之间能够独立或组合使用，覆盖数据治理的各个环节，满足企业高效实施数据治理的场景。

a)数据标准管理

数据标准管理应提供可视化配置工具，支持标准数据的录入、批量导入、查询、落地评估，帮助用户能够快速灵活地创建数据标准，并对标准的使用情况进行跟踪评估，从而通过管理措施改进业务系统的标准化。数据标准管理应包含但不限于如下功能：

数据标准配置：数据标准的在线配置管理、导入；

数据标准审核发布：数据标准的提交、审批、发布；

数据标准评估：数据标准的应用情况评价。

b)数据质量管理

数据质量管理，应提供工具支持用户自定义质量校验规则，通过定时的质量校验程序识别数据库中的数据质量问题，并且能够通过可视化的页面和报告呈现给用户。数据质量管理应包含但不限于如下内容：

质量规则定义：支持在线可视化的方式配置质量规则表达式；

数据质量校验：通过定时任务周期性地校验数据质量；

质量报告及订阅：质量校验结果形成可视化报告，并推送给订阅的用户；

数据质量分析：质量结果的统计分析。

c)元数据管理

元数据是描述数据的数据，贯穿数据中台的数据流动的全过程，应分为技术元数据、业务元数据和管理元数据，元数据管理应包含但不限于如下功能：

元数据采集：定时地采集底层多种类型的数据引擎的技术元数据信息；

元数据配置：通过可视化界面的方式，实现元数据的增删改查的维护操作，并支持批量导入的功能；

元数据版本管理：支持元数据的变更历史的管理、内容对比等；

元数据统计分析：对元数据信息的类别个数、数量、数据量、相似性的统计分析。

d)资产类目管理

资产类目管理，通过对数据资产进行树形目录分类的方式，形成数据分类组织，数据目录的组织方式应包含按业务来源分类、主题域分类、数据类型分类、组织机构、数据层级分类等。

e)生命周期管理

数据生命周期管理用于管理信息系统中数据的流动，覆盖从创建、初始存储到过时被删除的全过程。应包含但不限于如下功能：

数据重要性等级定义；

每个重要性等级对应的数据生命周期设置；

创建资产表指定重要性，可以修改表的重要性；

资产表详情中展示重要性和生命周期。

f)数据血缘管理

数据血缘关系应能清晰地展现出数据的流向路径，通过可视化图表的展示方式，支持用户实现数据融合的可追溯性。应包含但不限于如下功能：

表级血缘关系：可以展示表和表之前的数据流向关系，直观地反应该表在整个数据融合流程；

字段级血缘关系：在表的血缘关系展示图中，可以单击某个字段，查看以该字段为源的血缘追溯；

记录级血缘关系：可查看当前记录在一段时间内的产生过程和变更流程。

g)数据安全管理

数据安全，是通过一系列对数据安全管控措施和技术手段，从多方面，多层次来保障数据中台的安全，应包含但不限于如下功能：统一认证和权限管理、数据资源隔离、数据加密、数据脱敏、数据共享安全、数据容灾备份等。

h)数据共享管理

数据共享管理，应以用户诉求为导向，整合各类服务资源，建立服务共享平台。功能上应围绕共享主题，提供服务管理、服务检索、服务授权、服务文档等功能，支持用户快速定位可用的数据服务，从而进行服务融合创新。

实施实例：自研的宝信数据生态5S套件xData

实现方式：宝信数据生态5S套件xData中将本发明的技术功能架构实现为5个产品模块，包括数存、数成、数智、数现以及数典，如图3所示。其中：

数存：为海量数据的接入、存储和计算提供底层技术引擎的支撑。针对离线数据分析、在线数据分析、时序数据分析、对象数据存储和流式计算五类不同的业务应用场景，具体包括：时序数据库TSDB、离线数仓STS、任务调度引擎TSS、大数据平台统一管理框架、流式计算引擎等。

数成：通过提供一整套数据开发工具，覆盖对结构化数据(关系型数据)、半结构化数据(时序数据)和非结构化数据等全类型数据的采集、存储、加工、建模和服务化的过程，并对数据加工全链路提供运行监控工具。具体包括：数据集成开发、数据主题开发、数据服务开发、数据质量开发、数据运行监控等。

数智：通过提供一套可视化算法实验平台，对接使用数据中台内的各类数据，对通用算法、专用算法和自定义算法进行编排，形成可供外部调用的算法服务API。可视化算法实验平台包括：数据源管理、数据预处理、算法可视化编排、算法模型库管理、模型训练与评估、模型运行监控与优化、算法模型服务化封装和模型结果可视化等功能。

数现：通过提供一系列数据可视化工具，实现用户对数据的自助式使用和分析，提供一站式的大数据可视化场景的解决方案。具体包括：报表、报告、报屏、自主分析。

数典：按照数据管理和治理体系设计，提供数据治理和数据资产管理相关的工具。具体包括：数据标准管理(包含数据层次划分、数据表命名规范、信息项定义规范、数据资产目录规范、维度指标定义规范、数据代码定义规范等)、数据资源目录管理(包含数据本体定义、层次结构、血缘关系、数据质量、数据成本和数据价值等)、数据产品市场管理(包含数据主题(数据集)、数据服务API、算法模型API、报告报表和仪表板等)。

本发明实施例提供了一种工业场景数据中台的设计系统，在不同数据大小和类型的场景下可以保持数据存储和访问的效率、数据应用和访问可靠性、易用性，满足各种工业场景下的数据应用需求。

本发明的xData已经在中国宝武工业互联网研究院/大数据中心以及上海宝信软件股份有限公司实施的多个大数据中心建设项目中得以测试。在保障了工业场景下海量数据的全生命周期管理，即数据接入、存储、处理、分析、展示和治理等功能前提下，有效拓宽了数据分布式存储的适应场景、数据管理与服务治理等应用场景。

通过示范应用，从根本上支撑企业充分利用大数据所产生的巨大原动力，提高企业应变力、适应力、创新力和竞争力，推进整个工业大数据的数据中台快速建设进程。在今后任何应用宝武生态技术平台ePlat的数据中台xData产品的项目中，都可以应用本发明。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种工业场景数据中台的设计系统，其特征在于，包括：

2.根据权利要求1所述的工业场景数据中台的设计系统，其特征在于，所述角色管理模块从数据中台围绕数据的使用角度，从参与角色角度将用户类型分为：数据管理者、数据提供者、数据开发者以及数据消费者。

3.根据权利要求1所述的工业场景数据中台的设计系统，其特征在于，所述基础资源管理模块包括：计算资源管理、存储资源管理以及网络资源管理。

4.根据权利要求1所述的工业场景数据中台的设计系统，其特征在于，所述数据平台模块内部组件按功能分为：采集层、存储层、计算层、服务层以及应用层。

5.根据权利要求4所述的工业场景数据中台的设计系统，其特征在于，所述采集层包括：结构化数据采集、半结构化数据采集以及非结构化数据采集。

6.根据权利要求4所述的工业场景数据中台的设计系统，其特征在于，所述存储层包括：结构化数据存储、半结构化数据存储以及非结构化数据存储。

7.根据权利要求4所述的工业场景数据中台的设计系统，其特征在于，所述计算层包括：离线计算、在线计算、机器学习以及流式计算。

8.根据权利要求4所述的工业场景数据中台的设计系统，其特征在于，所述服务层包括：数据访问服务和数据分析服务。

9.根据权利要求4所述的工业场景数据中台的设计系统，其特征在于，所述应用层包括：数据可视化和数据应用开发。

10.根据权利要求1所述的工业场景数据中台的设计系统，其特征在于，所述运维监控模块中的周期任务监控包括：

任务实例：包括实例状态、起止时间以及实例耗时；