CN114911870A - 一种面向多源异构工业数据的融合管理架构 - Google Patents

一种面向多源异构工业数据的融合管理架构 Download PDF

Info

Publication number
CN114911870A
CN114911870A CN202210586161.8A CN202210586161A CN114911870A CN 114911870 A CN114911870 A CN 114911870A CN 202210586161 A CN202210586161 A CN 202210586161A CN 114911870 A CN114911870 A CN 114911870A
Authority
CN
China
Prior art keywords
data
node
source heterogeneous
logic
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210586161.8A
Other languages
English (en)
Inventor
曹科研
王明龙
陶杭波
郑闯
汪明锐
王莹莹
王秋实
金宁
祝慧洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Jianzhu University
Original Assignee
Shenyang Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Jianzhu University filed Critical Shenyang Jianzhu University
Priority to CN202210586161.8A priority Critical patent/CN114911870A/zh
Publication of CN114911870A publication Critical patent/CN114911870A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向多源异构工业数据的融合管理架构,包括:边缘节点,用于对原始的多源异构工业数据封装为布尔共享表示,进行加密操作后,将加密的数据分别上传给两个相互独立的服务器;服务器,用于对收到的数据进行清洗,并发送至多源异构工业数据统一表征平台;多源异构工业数据统一表征平台,用于对清洗后的多源异构工业数据进行统一表征,使之成为多源同构工业数据,以存储与查询数据;行业逻辑机理库,用于对存入多源异构工业数据统一表征平台的工业数据进行数据挖掘,挖掘出数据间潜在关系。本发明基于不同的业务场景最大程度地利用多源数据、充分挖掘数据间的语义关系,完成知识补全、信息融合,刻画出全要素互联的联接关系与结构关系。

Description

一种面向多源异构工业数据的融合管理架构
技术领域
本发明涉及工业互联网技术领域,特别是涉及多源异构工业数据的融合管理架构。
背景技术
工业生产数据分散在各个控制系统中,业务逻辑呈碎片化分布,存在严重的异构数据孤岛现象;生产环境恶劣,采集的数据可能包含大量噪音或异常点;工业数据易受背景因素影响,如参数设定、运行工况等。工业领域内对多源异构数据的融合管理技术提出了更高的要求。
近年来国内外根据生产应用需要,对信息模型展开了广泛研究,工业数据的管理技术和方式都有着新的突破。但因工业领域间业务和应用场景的差距,其多源异构生产数据的融合管理方案存在精细化特点,适用范围窄,且大多数相关研究难以满足生产数据硬实时的特点,缺乏全面的顶层设计,依然难以实现广泛互联。因此,构建一个多源异构工业数据的融合管理框架以及实现就显得尤为重要。
发明内容
本发明目的是提供一种面向多源异构工业数据的融合管理架构及实现方法,以克服上述工业大数据管理系统的缺陷。
本发明为实现上述目的所采用的技术方案是:一种面向多源异构工业数据的融合管理架构,包括:
边缘节点,用于对原始的多源异构工业数据封装为布尔共享表示,进行加密操作后,将加密的数据分别上传给两个相互独立的服务器;
服务器,用于对收到的数据进行清洗,并发送至多源异构工业数据统一表征平台;
多源异构工业数据统一表征平台,用于对清洗后的多源异构工业数据进行统一表征,使之成为多源同构工业数据,以存储与查询数据;
行业逻辑机理库,用于对存入多源异构工业数据统一表征平台的工业数据进行数据挖掘,挖掘出数据间的潜在关系。
所述多源异构工业数据统一表征平台包括数据调研层、数据整合层和数据报告层;
所述数据调研层,用于构建工业数据的实体、流程库和数据字典表,以完成实体的存储格式定义,并输出企业业务流程;
其中,实体,用于存放当前存储数据名称及其属性,以对数据进行分类和定义、明确业务领域和业务对象的关联关系;
流程库,用于描述企业业务流程的分类、层级、层级边界、层级范围、层级关系;
数据字典表,由可枚举数据构成,用于存储枚举数据以及企业业务流程规则名称;
所述数据整合层,包括利用实体之间的关系、描述企业业务流程规则的逻辑模型,以及用于进行可视化的数据封装格式的物理模型,以实现多源异构工业数据的统一表征;
所述数据报告层,实现数据的增删改查、导入导出、资源汇总,以形成完整的行业信息架构。
所述数据字典,用于对数据项、数据结构和处理逻辑进行统计和描述,包括:
类字典dicclass,用于存放所有数据项的所属类别;
属性字典dicproperity,用于存放所有不同数据项的各种属性;
数据类型字典dictype,用于存放所有数据的数据类型;
单位字典dicunit,用于存放所有数据可能涉及到的单位;
关系字典dicrelation,用于存放不同数据之间可能存在的所有逻辑关系;
规则字典dicrule,用于存放不同业务场景下数据调用的各项规则;
公式字典dicequation,用于存放所有数据间可能存在的各种公式。
所述逻辑模型ModelFrame形式化表征如下:
ModelFrame={Name,C,Field,Rel,F,T};
Field={Fname,F_code,type,standard,key};
Rel={R_name,R_code,rel,rel_f,rel_child};
F={F_name,F_code,R_code,sour_chart,sub_chart}
Name为模型名称;C为模型编码;Field为模型的实体字段序列,用以存放逻辑模型中所涉及到的所有实体的信息,多个实体的多个字段序列构成当前模型的字段表,Fname为实体名称,F_code为实体编码,type为实体类型,standard实体数据标准,key=1表示当前实体为关键实体;Rel为单条逻辑关系参数序列,用以存放实体之间的逻辑关系,一个逻辑模型可能包含多条逻辑关系,因此一组Rel可构成Rel表,其中R_name表示逻辑关系名称,R_code表示关系编码,rel为当前逻辑规则,rel_f为父逻辑对应编码,rel_child为子逻辑对应编码,多条逻辑可构成逻辑关系表;F为映射参数序列,指给源实体表和目的实体表建立起字段的映射关系,其中F_name为映射名称,F_code为映射编码,sour_chart为源实体表,sub_chart表示目的实体表;T为模型信息更新时间;
所述物理模型,用于将逻辑模型中所定义的实体、属性、属性约束、逻辑关系转换为数据库软件所能够识别的表关系图。
一种面向多源异构工业数据的融合管理架构实现方法,包括以下步骤:
步骤1:边缘节点将原始多源异构工业数据封装为布尔共享表示,进行加密操作后分别上传给云上的两个相互独立的服务器1和服务器2;
步骤2:服务器1和服务器2分别对收到的布尔共享表示数据进行AVF得分计算,并将分数低于阈值的布尔共享表示数据删去,完成加密数据的清洗操作;
步骤3:将清洗完成后得到的数据上传并存储至多源异构工业数据统一表征平台;
步骤4:对存入多源异构工业数据统一表征平台的工业数据进行数据挖掘,以挖掘出数据间的潜在关系。
所述边缘节点对原始数据封装为布尔共享表示,进行加密操作,包括以下步骤:
将第i个边缘节点收集到的第j个属性的原始数据xij转换为二进制数
Figure BDA0003663502200000031
第m位
Figure BDA0003663502200000032
与当前边缘节点随机选择的一个布尔数r∈{0,1}做布尔运算,以使服务器1和服务器2收到的第m位布尔共享分别为
Figure BDA0003663502200000033
Figure BDA0003663502200000034
其中,m=1,…,l,l表示二进制数
Figure BDA0003663502200000035
的总位数。
步骤2中,所述多源异构工业数据统一表征平台的构建,包括以下步骤:
步骤2.1:数据调研层构建有工业数据的实体、流程库和数据字典表,用于完成实体的存储格式定义,并输出企业业务流程;
步骤2.2:数据整合层利用数据实体之间的关系,描述业务规则的逻辑模型,并根据逻辑模型构建数据封装格式作为物理模型,以实现可视化;
步骤2.3:数据报告层实现数据的增删改查、导入导出、资源汇总,以形成完整的行业信息架构。
所述基于消息传递范式的关系感知图神经网络和知识感知图神经网络挖掘多源异构数据中的新信息,包括以下步骤:
步骤3.1:根据多源异构工业数据统一表征平台中存储的数据以及数据间的逻辑关系,并结合业务场景构建以实体数据为节点,逻辑关系为有向边的知识图谱Gm=(Vm,Em),其中Vm和Em分别为知识图谱Gm的节点集和边集,并将此知识图谱拆分成关注节点信息的拓扑结构图Gu=(U,Eu)和关注节点间关系的关系依赖图Gv=(V,Ev)两个局部信息图,其中U和Eu分别为拓扑结构图Gu中的节点集和边集,V和Ev分别为关系依赖图Gv的节点集和边集;
步骤3.2:将知识图谱中节点特征和边的特征输入基于消息传递范式的关系感知图神经网络和知识感知图神经网络,得到不同数据间多种交互关系的特征表达;
步骤3.3:根据Gu=(U,Eu)、Gv=(V,Ev)各节点数据间不同交互关系的特征表达,挖掘新信息。
所述关系感知图神经网络,表达如下:
对于一个知识图谱Gm=(Vm,Em),将节点特征和边的特征输入关系感知神经网络,即从拓扑结构图Gu=(U,Eu)和关系依赖图Gv=(V,Ev)两个局部结构同时学习节点嵌入,节点ui和节点
Figure BDA0003663502200000036
之间的边
Figure BDA0003663502200000037
表示两者关系类型为k,两个节点之间消息结构为:
Figure BDA0003663502200000038
其中,Ni表示节点ui的邻居个数,
Figure BDA0003663502200000039
表示在关系类型k下与节点ui相连的vj节点的个数,
Figure BDA0003663502200000041
表示节点
Figure BDA0003663502200000042
的特征嵌入,W1为节点集对应的权重矩阵;
包含时序上下文编码
Figure BDA0003663502200000043
的消息传播模式定义为
Figure BDA0003663502200000044
其中,
Figure BDA0003663502200000045
为LeakyReLU激活函数,l为当前图神经网络层数,
Figure BDA0003663502200000046
为t时间戳下节点ui
Figure BDA0003663502200000047
对应的上下文编码,
Figure BDA0003663502200000048
表示(l+1)层下节点ui的特征,
Figure BDA0003663502200000049
表示l层节点ui的特征,
Figure BDA00036635022000000410
表示l层下节点ui向自身传播的消息,
Figure BDA00036635022000000411
表示节点ui的邻居个数,
Figure BDA00036635022000000412
表示节点
Figure BDA00036635022000000413
的邻居个数,
Figure BDA00036635022000000414
为向量加法,
Figure BDA00036635022000000415
表示l层下节点向自身传播消息时的权重矩阵,
Figure BDA00036635022000000416
表示l层下节点
Figure BDA00036635022000000417
向节点ui进行消息传播时的权重矩阵,
Figure BDA00036635022000000418
表示l层下节点
Figure BDA00036635022000000419
向节点ui进行消息传播时消息的嵌入。
所述步骤3.3具体如下:
利用知识感知图神经网络从知识图谱的拓扑结构图Gu=(U,Eu)和关系依赖图Gv=(V,Ev)两个局部结构同时进行学习,分别学习到两个图的嵌入(Zu,Zv)后通过聚合函数进行聚合得到全局嵌入,挖掘出此知识图谱中所蕴含的语义知识,其中Zu表示拓扑结构图Gu的嵌入,Zv表示关系依赖图Gv的嵌入;
图嵌入的更新函数如下:
Figure BDA00036635022000000420
Figure BDA00036635022000000421
其中,
Figure BDA00036635022000000422
表示图Gu中第I个节点uI的嵌入,
Figure BDA00036635022000000423
表示图Gv中第J个节点vJ的嵌入,η表示在进行节点聚合时采用的归一化函数,ω表示节点嵌入的平均池化函数。
本发明具有以下有益效果及优点:
1、本发明提供的框架在保证数据隐私的前提下对多源异构工业数据进行有效清洗。基于不同的业务场景最大程度地利用多源数据、充分挖掘数据间的语义关系,完成知识补全、信息融合,刻画出全要素互联的联接关系与结构关系。
2、本发明通过对低质多源生产要素和融合管理的研究,探索满足工业领域需求的融合机制,解决工业跨领域、多层级信息互通互联问题,由三部分内容基于联邦学习的工业数据清洗、设计多源异构工业数据的统一表征平台和构建基于知识图谱的行业逻辑机理库组成,完成异构数据源难以互联的挑战。多源异构工业数据的和融合管理框架满足工业领域需求的融合机制,解决工业跨领域、多层级信息互通互联问题。尤其面对各行业的协议标准不一致,工业生产要素存储分散,存在海量异构和低质问题,满足了复杂要素精准表征和融合管理的需求。
附图说明
图1为本发明的总体框架图;
图2为本发明的联邦数据清洗系统模型示意图;
图3为本发明的CrowDEC众包框架示意图;
图4为本发明的基于消息传递范式的关系感知图神经网络示意图;
图5为本发明的知识感知图神经网络示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明基于联邦学习的加密数据清洗方法在将原始工业数据存入统一表征平台前,先将其加密上传至云服务器进行数据清洗,并通过众包策略提升数据清洗效率,从而在保护数据隐私的情况下更高效的检查原始工业数据的一致性及处理无效值和缺失值,包括以下过程:
步骤1:将不同业务场景下的不同设备看作边缘节点,将其搜集到的原始工业数据封装为布尔共享表示,执行加密操作,然后上传至两个相互独立的云服务器——服务器1和服务器2;
步骤2:服务器1和服务器2同时对收到的数据布尔共享表示进行AVF得分计算,并将分数较低的布尔共享删去,完成加密数据的清洗操作;
步骤3:利用众包策略提升步骤1和2的效率,将清洗完成后得到的高质量数据上传并存储至统一表征平台。
多源异构工业数据的融合管理框架,包括如下步骤:
步骤1:基于联邦学习的工业数据清洗方法。具体过程如下:
步骤1.1:引入了两个互相独立的服务器,用户在将收集到的数据上传到服务器前会先将数据封装为布尔共享,服务器再对用户上传的数据进行布尔共享运算。整个过程服务器端都不获取原始数据映射,实现对数据的保护。
步骤1.2:如上过程对每一个数据项进行布尔运算将占用大量内存。为此,借助基于激励机制的众包框架CrowDEC在保证质量的同时提升运算效率。
步骤2:基于工业数据本身特点并结合数据湖的思想,设计包含数据调研层、数据整合层和数据报告层的第三方多源异构工业数据云平台,对多源异构数据的格式进行统一定义与表征。具体过程如下:
步骤2.1:数据调研层包含主题库、流程库和数据字典表。其中,通过主题域分组、主题域和业务对象三层架构对主题库进行设计。流程库描述企业流程的分类、层级以及边界、范围、关系等。数据字典表由可枚举数据构成,存储枚举数据名称与编码的映射关系。
步骤2.2:数据整合层完成对工业生产要素的关系建模。关系建模在范式理论上符合3NF,包含概念关系建模、逻辑关系建模、物理关系建模三个层次。
步骤2.3:数据报告层以维度模型为核心,设计多源异构数据的融合管理机制,实现数据的增删改查、导入导出、资源汇总等功能,并形成完整的行业信息架构。
步骤3:构建基于知识图谱的行业逻辑机理库。具体过程如下:
步骤3.1:连接各种数据源并结合行业的先验知识、逻辑机理设计行业专用知识图谱Gm=(Vm,Em)。
步骤3.2:设计基于消息传递范式的关系感知图神经网络。定义Gu=(U,Eu)表示一张知识图谱的拓扑图,并进一步定义Gv=(V,Ev)表示节点v之间的相互依赖图。关键之处在于设计了神经网络中两个节点之间消息结构和包含时序上下文编码的消息传播模式。
步骤3.3:设计知识感知图神经网络。为了捕获局部和全局图子结构感知方面的能力,从Gu=(U,Eu)和Gv=(V,Ev)两个局部结构同时进行学习。分别学习到两个图的嵌入(Zu,Zv)后通过聚合函数进行聚合,得到全局嵌入。
本发明所涉及的多源异构工业数据的融合管理框架的构建主要包括三种技术:第一,基于联邦学习思想并结合众包技术,在不损害数据隐私的情况下进行工业数据融合与清洗,解决多源异构数据的低质问题;第二,基于数据湖思想构建第三方的数据整合云平台,搭建企业间数据互联的桥梁,并用于存储清洗过后的优质数据;第三,依据云平台中所存储的优质数据,构造行业知识图谱对行业机理进行管理,利用图神经技术挖掘行业知识,构建行业逻辑机理库,实现工业机理与大数据技术的有机结合。本发明的整体流程图如图1所示,本实施例中多源异构工业数据的统一表征与融合管理框架的构建如下所述:
步骤1:构建基于联邦学习的工业数据清洗方法,用于将低质多源异构工业数据转化为高质多源异构数据,联邦数据清洗系统模型结构如图2所示,CrowDEC框架如图3所示。具体过程如下:
步骤1.1:如图2所示每个不同的边缘节点收集原始数据,在数据管理的过程中,原始数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”,如光电、热敏、力敏等不同传感器采集的海量Key-Value数据,图像、音频数据和txt格式、JSON格式和XML格式的接口数据等。这些源数据从内容、存储格式到解析软件均差异较大,相应的数据清洗方法也多种多样。对于N个边缘节点,Xi(i=1,...,N)表示第i个边缘节点搜集的数据集,同时每条数据包含M个属性,则Xi可表示为N行M列的矩阵。在有数据清洗需求时,边缘节点将加密过后的数据上传给云上的两个相互独立的服务器1和服务器2。服务器计算AVF(属性值频率算法,一种数值异常检测算法,值越小越异常)得分ai的函数为:
Figure BDA0003663502200000061
其中xij表示第i个边缘节点收集到的第j个属性的值,将得分较低的数据删除,从而完成单个数据的清洗。数据加密的核心在于第i个边缘节点如何将收集到的原始的数据Xi转换对应的布尔共享
Figure BDA0003663502200000062
Figure BDA0003663502200000063
分别上传到服务器1和服务器2。具体来说,首先将第i个边缘节点收集到的第j个属性的原始数据xij转换为二进制数
Figure BDA0003663502200000071
其第k位
Figure BDA0003663502200000072
与当前边缘节点随机选择的一个布尔数r∈{0,1}做布尔运算,则服务器1和服务器2的收到的第k位布尔共享分别为
Figure BDA0003663502200000073
Figure BDA0003663502200000074
随后,服务器端对收到的布尔共享
Figure BDA0003663502200000075
Figure BDA0003663502200000076
进行AVF打分并排序,将得分低的数据删除,即删除了低质数据,得到了剩余的高质数据。
步骤1.2:在庞大数据量下对每一个收集到的原始数据项进行布尔运算将占用大量内存,因此本框架基于激励机制的众包框架CrowDEC在保证质量的同时提升运算效率。框架结构如图3所示,该众包框架有两个主要模块,用于剔除计算质量不佳的工人的剔除模块和不同策略的激励模块;
本实施例中,图2保证了数据的安全性。图3在保证质量的同时提升运算效率,将低质数据清洗为高质数据,并应用到后续的研究;
步骤2:为存储步骤1清洗得到的优质数据,本发明设计多源异构数据的统一表征平台,针对工业生产要素信息分散,数据存储形式多样,研究多源异构数据的多维统一表征方法。多源异构数据的统一表征平台由数据调研层、数据整合层和数据报告层三部分组成。具体设计过程如下:
步骤2.1:数据调研层完成工业数据的实体、流程库和数据字典表设计,用于完成数据实体的存储格式定义,并输出企业业务流程,如金属元件铸造业务流程中流程发起者、业务名称、实施过程中的执行者和业务实施的具体顺序,实现数据调查、需求梳理和业务调研。其中实体主要用于存放当前存储数据名称及其属性,如热敏传感器采集的数据的名称、数值、单位和采集时间等,方便对数据的分类和定义,帮助理清数据资产,明确业务领域和业务对象的关联关系。流程库是针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、关系等,如金属元件铸造业务流程中决策者、管理者和使用者的分类,流程中自上而下或是整体到部分的层次和业务实施的具体顺序,反映了企业的商业模式及业务特点。由可枚举数据构成的数据字典表存储了所有出现的枚举数据以及规则名称。本发明中定义了七种数据字典,用来对数据项、数据结构和处理逻辑等进行定义和描述,包括类字典dicclass存放所有数据项的所属类别、属性字典dicproperity存放所有不同数据项的各种属性、数据类型字典dictype存放所有数据的数据类型、单位字典dicunit存放所有数据可能涉及到的单位、关系字典dicrelation存放不同数据之间可能存在的所有逻辑关系、规则字典dicrule存放不同业务场景下数据调用的各项规则和公式字典dicequation存放所有数据间可能存在的各种公式。
步骤2.2:在步骤2.1已经对各种工业数据存储及使用框架进行定义的基础上,数据整合层从逻辑模型、物理模型两个层次设计关系模型。逻辑模型利用数据实体之间的关系,如数据间的因果关系、公式推导关系等准确描述业务规则。同时,逻辑模型也为构建物理模型提供了有力的参考依据,是最终成功设计数据库过程中最核心的一个阶段。本发明数据逻辑关系模型ModelFrame形式化表征如下:
ModelFrame={Name,C,Field,Rel,F,T};
Field={Fname,F_code,type,standard,key};
Rel={R_name,R_code,rel,rel_f,rel_child};
F={F_name,F_code,R_code,sour_chart,sub_chart}
Name为模型名称;C为模型编码;Field为模型的实体字段序列,用以存放关系逻辑模型中所涉及到的所有实体的信息,多个实体的多个字段序列构成当前模型的字段表,Fname为实体名称,F_code为实体编码,type为实体类型,standard实体数据标准,key=1表示当前实体为关键实体;Rel为单条逻辑关系参数序列,用以存放实体之间的逻辑关系,一个逻辑模型可能包含多条逻辑关系,因此一组Rel可构成Rel表,其中R_name表示逻辑关系名称,R_code表示关系编码,sub_chart表示目的表,sub_field表示目的实体,rel为当前逻辑规则,rel_f为父逻辑对应编码,rel_child为子逻辑对应编码,多条逻辑可构成逻辑关系表;F为映射参数序列,指给源实体表和目的实体表建立起字段的映射关系,其中F_name为映射名称,F_code为映射编码,sour_chart为源实体表,sub_chart表示目的实体表;T为模型信息更新时间。
在逻辑数据模型的基础上,结合各种具体的技术实现因素,进行物理模型设计,即数据库体系结构设计,实现数据在数据库中的存放。物理模型是指按照一定规则和方法,将逻辑模型中所定义的实体、属性、属性约束、逻辑关系等要素转换为数据库软件所能够识别的表关系图的一种物理描述,即一种可视化的数据封装格式。
步骤2.3在数据调研层和数据整合层解决工业数据封装存储功能的低层设计后,数据报告层以维度模型为核心,设计多源异构数据的融合管理机制。实现数据的增删改查、导入导出、资源汇总等功能,并形成完整的行业信息架构。维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析。维度多数具有层级结构如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容),一个部门包含多个项目组,同一车间下的不同机器等。创建维度,即从顶层规范业务中实体(或称主数据)的存在性及唯一性。维度模型建立完毕后建立维度表来管理维度。其中,维度建模是先验的,类似于包含关系,比如章节:2,2.1,2.1.1,维度就是对这类包含关系进行建模。如业务流程下的业务场景称为业务维度,年月日称为枚举维度。
本发明中,基于工业数据本身并结合数据湖的思想,设计第三方多源异构数据统一表征平台,完成对多源异构数据的格式进行统一定义与表征。为未来工业互联网全要素互联的联接关系与结构关系打下坚实基础。
步骤3:通过步骤一和步骤二完成了已有多源异构工业数据的清洗方法和多源异构数据统一表征平台设计,但并未主动对数据进行更深层次的分析。为此本发明利用步骤二中存储的工业数据,设计了基于消息传递范式的关系感知图神经网络和知识感知图神经网络来挖掘出多源工业数据中可能存在的新的知识。从而构建优化管理的行业逻辑机理库,添加至工业数据统一表征平台,优化工业数据融合管理机制。基于消息传递范式的关系感知图神经网络如图4所示,知识感知图神经网络如图5所示,具体过程如下:
步骤3.1:根据步骤二中工业数据云平台中存储的工业数据以及数据间的逻辑关系,并结合业务场景构建以实体数据为节点,逻辑关系为有向边的行业专用知识图谱Gm=(Vm,Em),并将此知识图谱拆分成拓扑结构图Gu=(U,Eu)和关系依赖图Gv=(V,Ev)两个局部信息图。
步骤3.2:如图4所示,将知识图谱中节点特征和边的特征输入基于消息传递范式的关系感知图神经网络,得到不同数据间多种交互关系的特征表达。此神经网络模型包含两个核心部分:信息构建和信息传播。对于一个知识图谱Gm=(Vm,Em),节点ui和节点
Figure BDA0003663502200000091
之间的边
Figure BDA0003663502200000092
表示两者关系类型为k(注意两个节点的类型也是不同的),两个节点之间消息结构定义为:
Figure BDA0003663502200000093
其中,Ni表示节点ui的邻居个数,
Figure BDA0003663502200000094
表示在关系类型k下与节点ui相连的vj节点的个数,
Figure BDA0003663502200000095
表示节点
Figure BDA0003663502200000096
的特征嵌入,W1为节点集对应的权重矩阵;
包含时序上下文编码
Figure BDA0003663502200000097
的消息传播模式定义为
Figure BDA0003663502200000098
其中,
Figure BDA0003663502200000099
为LeakyReLU激活函数,l为当前图神经网络层数,
Figure BDA00036635022000000910
为t时间戳下节点ui
Figure BDA00036635022000000911
对应的上下文编码,
Figure BDA00036635022000000912
表示(l+1)层下节点ui的特征,
Figure BDA00036635022000000913
表示l层节点ui的特征,
Figure BDA00036635022000000914
表示l层下节点ui向自身传播的消息,
Figure BDA00036635022000000915
表示节点ui的邻居个数,
Figure BDA00036635022000000916
表示节点
Figure BDA00036635022000000917
的邻居个数,表示l层下节点
Figure BDA00036635022000000918
向节点ui进行消息传播时的权重矩阵,表示l层下节点向自身传播消息时的权重矩阵,
Figure BDA00036635022000000919
为向量加法。
步骤3.3:学习到各数据间不同交互关系的特征表达后,需要进一步从中挖掘出可能的潜在知识。为此本发明选择利用知识感知图神经网络从知识图谱的拓扑结构图Gu=(U,Eu)和关系依赖图Gv=(V,Ev)两个局部结构同时进行学习。分别学习到两个图的嵌入(Zu,Zv)后通过聚合函数进行聚合得到全局嵌入,挖掘出此知识图谱所蕴含的抽象知识,如从由某钢厂钢铁冶炼流程生成的钢铁冶炼知识图谱中,挖掘出钢铁冶炼过程中某一套的设备下原料和产品良品率之间的某种新关系,并将此新关系作为新知识存入行业机理库中。图嵌入的更新函数如下:
Figure BDA0003663502200000101
Figure BDA0003663502200000102
训练过程中,通过随机选取节点变换,生成错位节点关系作为负样本。最终将从不同业务场景下的不同知识图谱中挖掘到的新的语义知识进行逻辑模型建模和物理模型建模,构建出行业逻辑机理库,丰富工业数据云平台的内容。
本实例中,通过对现有行业机理生成的知识图谱进行知识感知学习,挖掘出新的语义知识,进一步丰富了现有行业机理。不断对不同业务场景下的行业机理进行知识挖掘,最终构建成行业机理库。
虽然以上描述了本发明的具体实施方式,但是本领域内的熟练的技术人员应当理解,这些仅是举例说明,可以对这些实施方式做出多种变更或者修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims (10)

1.一种面向多源异构工业数据的融合管理架构,其特征在于,包括:
边缘节点,用于对原始的多源异构工业数据封装为布尔共享表示,进行加密操作后,将加密的数据分别上传给两个相互独立的服务器;
服务器,用于对收到的数据进行清洗,并发送至多源异构工业数据统一表征平台;
多源异构工业数据统一表征平台,用于对清洗后的多源异构工业数据进行统一表征,使之成为多源同构工业数据,以存储与查询数据;
行业逻辑机理库,用于对存入多源异构工业数据统一表征平台的工业数据进行数据挖掘,挖掘出数据间的潜在关系。
2.根据权利要求1所述的一种面向多源异构工业数据的融合管理架构,其特征在于,所述多源异构工业数据统一表征平台包括数据调研层、数据整合层和数据报告层;
所述数据调研层,用于构建工业数据的实体、流程库和数据字典表,以完成实体的存储格式定义,并输出企业业务流程;
其中,实体,用于存放当前存储数据名称及其属性,以对数据进行分类和定义、明确业务领域和业务对象的关联关系;
流程库,用于描述企业业务流程的分类、层级、层级边界、层级范围、层级关系;
数据字典表,由可枚举数据构成,用于存储枚举数据以及企业业务流程规则名称;
所述数据整合层,包括利用实体之间的关系、描述企业业务流程规则的逻辑模型,以及用于进行可视化的数据封装格式的物理模型,以实现多源异构工业数据的统一表征;
所述数据报告层,实现数据的增删改查、导入导出、资源汇总,以形成完整的行业信息架构。
3.根据权利要求2所述的一种面向多源异构工业数据的融合管理架构,其特征在于:所述数据字典,用于对数据项、数据结构和处理逻辑进行统计和描述,包括:
类字典dicclass,用于存放所有数据项的所属类别;
属性字典dicproperity,用于存放所有不同数据项的各种属性;
数据类型字典dictype,用于存放所有数据的数据类型;
单位字典dicunit,用于存放所有数据可能涉及到的单位;
关系字典dicrelation,用于存放不同数据之间可能存在的所有逻辑关系;
规则字典dicrule,用于存放不同业务场景下数据调用的各项规则;
公式字典dicequation,用于存放所有数据间可能存在的各种公式。
4.根据权利要求2所述的一种面向多源异构工业数据的融合管理架构,其特征在于:所述逻辑模型ModelFrame形式化表征如下:
ModelFrame={Name,C,Field,Rel,F,T};
Field={Fname,F_code,type,standard,key};
Rel={R_name,R_code,rel,rel_f,rel_child};
F={F_name,F_code,R_code,sour_chart,sub_chart}
Name为模型名称;C为模型编码;Field为模型的实体字段序列,用以存放逻辑模型中所涉及到的所有实体的信息,多个实体的多个字段序列构成当前模型的字段表,Fname为实体名称,F_code为实体编码,type为实体类型,standard实体数据标准,key=1表示当前实体为关键实体;Rel为单条逻辑关系参数序列,用以存放实体之间的逻辑关系,一个逻辑模型可能包含多条逻辑关系,因此一组Rel可构成Rel表,其中R_name表示逻辑关系名称,R_code表示关系编码,rel为当前逻辑规则,rel_f为父逻辑对应编码,rel_child为子逻辑对应编码,多条逻辑可构成逻辑关系表;F为映射参数序列,指给源实体表和目的实体表建立起字段的映射关系,其中F_name为映射名称,F_code为映射编码,sour_chart为源实体表,sub_chart表示目的实体表;T为模型信息更新时间;
所述物理模型,用于将逻辑模型中所定义的实体、属性、属性约束、逻辑关系转换为数据库软件所能够识别的表关系图。
5.一种面向多源异构工业数据的融合管理架构实现方法,其特征在于,包括以下步骤:
步骤1:边缘节点将原始多源异构工业数据封装为布尔共享表示,进行加密操作后分别上传给云上的两个相互独立的服务器1和服务器2;
步骤2:服务器1和服务器2分别对收到的布尔共享表示数据进行AVF得分计算,并将分数低于阈值的布尔共享表示数据删去,完成加密数据的清洗操作;
步骤3:将清洗完成后得到的数据上传并存储至多源异构工业数据统一表征平台;
步骤4:对存入多源异构工业数据统一表征平台的工业数据进行数据挖掘,以挖掘出数据间的潜在关系。
6.根据权利要求5所述的一种面向多源异构工业数据的融合管理架构实现方法,其特征在于,所述边缘节点对原始数据封装为布尔共享表示,进行加密操作,包括以下步骤:
将第i个边缘节点收集到的第j个属性的原始数据xij转换为二进制数
Figure FDA0003663502190000021
第m位
Figure FDA0003663502190000022
与当前边缘节点随机选择的一个布尔数r∈{0,1}做布尔运算,以使服务器1和服务器2收到的第m位布尔共享分别为
Figure FDA0003663502190000023
Figure FDA0003663502190000024
其中,m=1,…,l,l表示二进制数
Figure FDA0003663502190000025
的总位数。
7.根据权利要求5所述的一种面向多源异构工业数据的融合管理架构实现方法,其特征在于,步骤2中,所述多源异构工业数据统一表征平台的构建,包括以下步骤:
步骤2.1:数据调研层构建有工业数据的实体、流程库和数据字典表,用于完成实体的存储格式定义,并输出企业业务流程;
步骤2.2:数据整合层利用数据实体之间的关系,描述业务规则的逻辑模型,并根据逻辑模型构建数据封装格式作为物理模型,以实现可视化;
步骤2.3:数据报告层实现数据的增删改查、导入导出、资源汇总,以形成完整的行业信息架构。
8.根据权利要求5所述的一种面向多源异构工业数据的融合管理架构实现方法,其特征在于:所述基于消息传递范式的关系感知图神经网络和知识感知图神经网络挖掘多源异构数据中的新信息,包括以下步骤:
步骤3.1:根据多源异构工业数据统一表征平台中存储的数据以及数据间的逻辑关系,并结合业务场景构建以实体数据为节点,逻辑关系为有向边的知识图谱Gm=(Vm,Em),其中Vm和Em分别为知识图谱Gm的节点集和边集,并将此知识图谱拆分成关注节点信息的拓扑结构图Gu=(U,Eu)和关注节点间关系的关系依赖图Gv=(V,Ev)两个局部信息图,其中U和Eu分别为拓扑结构图Gu中的节点集和边集,V和Ev分别为关系依赖图Gv的节点集和边集;
步骤3.2:将知识图谱中节点特征和边的特征输入基于消息传递范式的关系感知图神经网络和知识感知图神经网络,得到不同数据间多种交互关系的特征表达;
步骤3.3:根据Gu=(U,Eu)、Gv=(V,Ev)各节点数据间不同交互关系的特征表达,挖掘新信息。
9.根据权利要求8所述的一种面向多源异构工业数据的融合管理架构实现方法,其特征在于:所述关系感知图神经网络,表达如下:
对于一个知识图谱Gm=(Vm,Em),将节点特征和边的特征输入关系感知神经网络,即从拓扑结构图Gu=(U,Eu)和关系依赖图Gv=(V,Ev)两个局部结构同时学习节点嵌入,节点ui和节点
Figure FDA0003663502190000031
之间的边
Figure FDA0003663502190000032
表示两者关系类型为k,两个节点之间消息结构为:
Figure FDA0003663502190000033
其中,Ni表示节点ui的邻居个数,
Figure FDA0003663502190000034
表示在关系类型k下与节点ui相连的vj节点的个数,
Figure FDA0003663502190000035
表示节点
Figure FDA0003663502190000036
的特征嵌入,W1为节点集对应的权重矩阵;
包含时序上下文编码
Figure FDA0003663502190000037
的消息传播模式定义为
Figure FDA0003663502190000038
其中,
Figure FDA0003663502190000041
为LeakyReLU激活函数,l为当前图神经网络层数,
Figure FDA0003663502190000042
为t时间戳下节点ui
Figure FDA0003663502190000043
对应的上下文编码,
Figure FDA0003663502190000044
表示(l+1)层下节点ui的特征,
Figure FDA0003663502190000045
表示l层节点ui的特征,
Figure FDA0003663502190000046
表示l层下节点ui向自身传播的消息,
Figure FDA0003663502190000047
表示节点ui的邻居个数,
Figure FDA0003663502190000048
表示节点
Figure FDA0003663502190000049
的邻居个数,
Figure FDA00036635021900000410
为向量加法,
Figure FDA00036635021900000411
表示l层下节点向自身传播消息时的权重矩阵,
Figure FDA00036635021900000412
表示l层下节点
Figure FDA00036635021900000413
向节点ui进行消息传播时的权重矩阵,
Figure FDA00036635021900000414
表示l层下节点
Figure FDA00036635021900000415
向节点ui进行消息传播时消息的嵌入。
10.根据权利要求8所述的一种面向多源异构工业数据的融合管理架构实现方法,其特征在于:所述步骤3.3具体如下:
利用知识感知图神经网络从知识图谱的拓扑结构图Gu=(U,Eu,)和关系依赖图Gv=(V,Ev)两个局部结构同时进行学习,分别学习到两个图的嵌入(Zu,Zv)后通过聚合函数进行聚合得到全局嵌入,挖掘出此知识图谱中所蕴含的语义知识,其中Zu表示拓扑结构图Gu的嵌入,Zv表示关系依赖图Gv的嵌入;
图嵌入的更新函数如下:
Figure FDA00036635021900000416
Figure FDA00036635021900000417
其中,
Figure FDA00036635021900000418
表示图Gu中第I个节点uI的嵌入,
Figure FDA00036635021900000419
表示图Gv中第J个节点vJ的嵌入,η表示在进行节点聚合时采用的归一化函数,ω表示节点嵌入的平均池化函数。
CN202210586161.8A 2022-05-26 2022-05-26 一种面向多源异构工业数据的融合管理架构 Pending CN114911870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210586161.8A CN114911870A (zh) 2022-05-26 2022-05-26 一种面向多源异构工业数据的融合管理架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210586161.8A CN114911870A (zh) 2022-05-26 2022-05-26 一种面向多源异构工业数据的融合管理架构

Publications (1)

Publication Number Publication Date
CN114911870A true CN114911870A (zh) 2022-08-16

Family

ID=82768750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210586161.8A Pending CN114911870A (zh) 2022-05-26 2022-05-26 一种面向多源异构工业数据的融合管理架构

Country Status (1)

Country Link
CN (1) CN114911870A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525448A (zh) * 2022-09-16 2022-12-27 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
CN115577646A (zh) * 2022-12-08 2023-01-06 北京领雁科技股份有限公司 基于多源异构数据的数据建模方法、装置、设备和介质
CN117407457A (zh) * 2023-12-14 2024-01-16 中国人民解放军国防科技大学 基于可配置规则的多源数据融合方法、系统及设备
CN117408584A (zh) * 2023-12-07 2024-01-16 国网智能电网研究院有限公司 碳资产运营数据模型构建方法、装置、设备及介质
CN117931503A (zh) * 2024-03-25 2024-04-26 华能澜沧江水电股份有限公司 基于相似数据预查询的集控平台容错性分析系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525448A (zh) * 2022-09-16 2022-12-27 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
CN115525448B (zh) * 2022-09-16 2023-10-17 北京百度网讯科技有限公司 一种基于异构平台的任务处理方法、装置、设备和介质
CN115577646A (zh) * 2022-12-08 2023-01-06 北京领雁科技股份有限公司 基于多源异构数据的数据建模方法、装置、设备和介质
CN117408584A (zh) * 2023-12-07 2024-01-16 国网智能电网研究院有限公司 碳资产运营数据模型构建方法、装置、设备及介质
CN117407457A (zh) * 2023-12-14 2024-01-16 中国人民解放军国防科技大学 基于可配置规则的多源数据融合方法、系统及设备
CN117407457B (zh) * 2023-12-14 2024-02-27 中国人民解放军国防科技大学 基于可配置规则的多源数据融合方法、系统及设备
CN117931503A (zh) * 2024-03-25 2024-04-26 华能澜沧江水电股份有限公司 基于相似数据预查询的集控平台容错性分析系统

Similar Documents

Publication Publication Date Title
CN114911870A (zh) 一种面向多源异构工业数据的融合管理架构
TWI501097B (zh) 文字串流訊息分析系統和方法
CN106372190A (zh) 实时olap查询方法和装置
CN113779169B (zh) 时空数据流模型自增强方法
Girtelschmid et al. Big data in large scale intelligent smart city installations
Jin et al. Association rules redundancy processing algorithm based on hypergraph in data mining
CN115809302A (zh) 元数据处理方法、装置、设备及存储介质
Ahsaan et al. Big data analytics: challenges and technologies
Sulhi Data Mining Technology Used in an Internet of Things-Based Decision Support System for Information Processing Intelligent Manufacturing
Chen et al. LinkProbe: Probabilistic inference on large-scale social networks
CN112506913B (zh) 一种面向制造业数据空间的大数据体系结构构建方法
Kuczenski Partial ordering of life cycle inventory databases
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
Khediri et al. Community detection in social network with node attributes based on formal concept analysis
Gupta et al. Challenges and issues in data analytics
Abiteboul et al. Research directions for Principles of Data Management (Dagstuhl perspectives workshop 16151)
Bretones Cassoli et al. Knowledge Graphs for Data And Knowledge Management in Cyber-Physical Production Systems
Chen et al. Topological transduction for hybrid few-shot learning
CN115114519A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
CN114547310A (zh) 一种假新闻早期检测方法、系统、设备及介质
Umuhoza et al. Trustworthiness assessment of knowledge on the semantic sensor web by provenance integration
Shan Multisensor Cross-Media Data Mining Method Assisted by Expert System
Gong et al. A Data-Driven Smart Evaluation Framework for Teaching Effect Based on Fuzzy Comprehensive Analysis
Feng et al. ASMaaS: Automatic Semantic Modeling as a Service
Pang et al. [Retracted] Application and Analysis of Hypergraph Association Rule Redundancy Algorithm in Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination