CN115687623B - 一种工业数字孪生数据空间构建方法及系统 - Google Patents

一种工业数字孪生数据空间构建方法及系统 Download PDF

Info

Publication number
CN115687623B
CN115687623B CN202211411142.8A CN202211411142A CN115687623B CN 115687623 B CN115687623 B CN 115687623B CN 202211411142 A CN202211411142 A CN 202211411142A CN 115687623 B CN115687623 B CN 115687623B
Authority
CN
China
Prior art keywords
data
metadata
space
virtual space
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211411142.8A
Other languages
English (en)
Other versions
CN115687623A (zh
Inventor
程颖
王彦盈
朱远哲
陶飞
戚庆林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211411142.8A priority Critical patent/CN115687623B/zh
Publication of CN115687623A publication Critical patent/CN115687623A/zh
Application granted granted Critical
Publication of CN115687623B publication Critical patent/CN115687623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种工业数字孪生数据空间构建方法及系统,包括:步骤1.通过元数据提取模块,考虑孪生数据构成与分类对企业虚实空间内的各类数据进行元数据抽取;步骤2.通过数据目录构建模块,基于制造企业业务解析以及数据构成生成数据目录;步骤3.通过数据关系提取模块,面向孪生数据空间构建提取多维关系;步骤4,通过用户应用服务模块,基于构建的孪生数据空间为用户提供服务。本发明为企业数据源进行抽象与统一描述,横向贯通企业数据,并打通虚实数据演化壁垒,通过多维度数据关系提取发现数据空间内的数据隐性关系,有利于提升企业数据利用水平、数据挖掘水平和数字孪生模型演化能力。

Description

一种工业数字孪生数据空间构建方法及系统
技术领域
本发明属于数据管理和处理领域,具体涉及一种工业数字孪生数据空间构建方法及系统。
背景技术
同时随着制造业数字化信息化的深入发展,企业在产品设计、生产、管理、服务等阶段积累了大量的分布式数据。如何管理和利用这样的数据资产,提高企业数据管理效率,降低低价值的人工数据处理业务,同时降低因数据、业务的变动为企业正常运营带来的风险,对促进企业的发展来说至关重要。数据空间系统是一个数据多源异构、面向智能服务、框架灵活、动态更新且适应性强的数据驱动智能系统,它在管理用户所关心的所有数据的同时,提供多样化的数据应用功能,极大地减少数据处理的基础工作,降低处理信息的成本,对于解决工业数据的分布式存储和快速变动、业务流程与数据同步、提高数据驱动的服务水平等方面来说有重要作用。
数字孪生通过构建物理实体在数字世界中对应的模型,集成传感器更新、运行历史、仿真过程等数据,使用多维模型和融合数据驱动虚实动态交互,刻画物理对象的实际行为和实时状态,分析物理对象的未来发展趋势,从而实现对物理对象的监控、仿真、预测、优化等功能服务应用,是制造企业提升自身价值和服务水平的重要方向。然而,在当前数字孪生应用于制造企业设备运维的过程中,还存在着企业设备全生命周期内的采集和实时仿真数据难以融合管理、数字孪生数据和机理模型相互作用的映射机制不明,进而无法支撑数字孪生在设备运维中的有效应用的问题,其中数字孪生数据的关联、融合和演化是解决上述问题的核心难题。
因此,针对制造企业对其海量增长、多源异构、存储分散的数据源缺乏有效信息的发掘,导致企业存在数据孤岛、企业数据与业务关联机制待建立的问题,针对数字孪生数据与仿真数据隐性关系不明,从而难以关联融合与演化的问题,提出了一种工业数字孪生数据空间构建方法及系统。
发明内容
本发明要解决的技术问题为:提供一种工业数字孪生数据空间构建方法及系统,基于制造企业全流程的生产数据与数字孪生模型,通过对各类数据源的接入与元数据抽取,为每个数据源进行抽象与统一描述,通过孪生数据目录的构建,将企业横向数据贯通,并打通虚实数据演化壁垒,通过多维度数据关系提取发现数据空间内的数据隐性关系,从而提升企业数据利用水平和数据挖掘水平,提升数字孪生模型演化能力。
本发明解决其技术问题是采用以下技术方案实现的:一种工业数字孪生数据空间构建方法及系统,包括如下步骤:
步骤1:考虑孪生数据构成与分类的元数据抽取;针对数字孪生虚拟空间,已构建的孪生模型在仿真运行时,将会产生大量与物理空间相对应的虚拟数据,其数据格式与物理空间数据大致相似,均可分为非结构化、半结构化和结构化数据。对于非结构化数据,通过文本分词和文本主题挖掘提取元数据;对于结构化数据,通过数据库已有结构,如数据库的数据库名、表名、及数据库对每一项数据的约束提取元数据;对于半结构化数据,保留其与结构化数据相似的数据库结构作为元数据,同时针对大量文本内容,采取与非结构化数据类似的文本主题挖掘方法确定元数据。
步骤2:面向制造企业业务解析的数据目录生成;在物理空间中,由企业专家定义专业知识规则及数据从属规则等,将规则解析为三元组,将步骤1数据预处理结果,与规则解析结果对齐,并将其注入规则解析结果,生成以元数据为节点,隶属关系为边的物理空间数据目录。在虚拟空间中,通过数字孪生模型的层级关系和模型结构首先确定虚拟空间内部映射,再通过语义对齐的方式生成与物理空间数据目录对应的虚拟空间数据目录。设定数据目录定期更新周期T,每经过一个周期就对企业数据和虚拟空间的孪生数据进行一次元数据抽取,并更新一次数据目录。
步骤3:面向孪生数据空间构建的多维关系提取;基于步骤2构建的数据目录以及用户的查询记录,针对不同类型、不同维度的数据关系,采用多种数据关系挖掘方法构建企业数据关系网络,并将结果反馈到数据目录中,为数据目录补充节点和边。
步骤4:基于孪生数据空间的用户服务提供;基于步骤1、2、3构建的孪生数据空间,向用户提供全范围孪生数据检索查询、基于数据关系的数据相似度分析、基于数据目录的数据溯源,以及面向虚拟数据的数据补充四大服务。
所述步骤1中,考虑孪生数据构成与分类的元数据抽取步骤如下:
(1)接入虚拟空间和物理空间数据,对于物理空间,接入制造企业的全生命周期数据,涵盖设计、制造、服务等方面,按照数据格式对其进行分类接入;对于虚拟空间,基于已构建的数字孪生模型,收集模型仿真运行时产生的虚拟数据也按照数据格式对其进行分类接入。
(2)接入企业非结构化数据,主要针对输入的文本数据,首先抽取文件名称、文件格式,然后通过词频-逆文档频率(TF-IDF)的计算得到文本关键词,将上述结果作为该数据源的元数据保存,表示为
Figure BDA0003938605030000031
其中DU为所有物理空间非结构化数据组成的元数据库,
Figure BDA0003938605030000032
表示第j个非结构化数据源
Figure BDA0003938605030000033
的第i个元数据,nu为非结构化数据源个数,nU,j为非结构化数据源
Figure BDA0003938605030000034
的元数据个数,虚拟空间非结构化数据的元数据库表示为
Figure BDA0003938605030000035
(3)接入企业结构化数据,主要针对企业的结构化数据库,提取数据库的已有数据格式,如数据库名、表名、及数据库对每一项数据的约束,数据库的基本统计信息,如数据集中行的数量,每列中特定值的数量,最大值和最小值等作为该结构化数据源的元数据,所有物理空间结构化数据源的元数据集合表示为
Figure BDA0003938605030000036
虚拟空间半结构化数据的元数据库表示为
Figure BDA0003938605030000037
(4)接入企业半结构化数据,主要针对企业包含大量文本的表单类数据,如运行维护数据等。首先抽取其本身已经具有的结构,如表格的表头、文件格式与名称等,然后对每一项进行和非结构化数据一样的TF-IDF关键词挖掘与LDA主题挖掘,还可以依据企业业务需求,将希望提取的指定内容写为包装器,通过机器学习的方法识别指定内容并将其提取。将上述结果作为元数据存储,所有物理空间半结构化数据源的元数据集合表示为
Figure BDA0003938605030000038
Figure BDA0003938605030000039
虚拟空间半结构化数据的元数据库表示为
Figure BDA00039386050300000310
Figure BDA00039386050300000311
所述步骤2中,面向制造企业业务解析的数据目录生成步骤如下:
(1)在物理空间中,由企业专家定义专业知识规则及数据从属规则,将规则解析为三元组Tri={entityi1,relationi,entityi2},i=1,2,3…,其中entityi1,entityi2为第i个三元组连接的两个实体,relationi为这两个实体间的关系,主要为实体间的从属关系。依据企业业务对数据及数据来源的实体划分为a,b,c…层,对实体关系进行关系属性划分,将具有相同实体的三元组消歧并连接,使三元组形成具有树状图结构的模型,每个节点在数据目录中的位置可表示为Ni∈(/ap/bq/cm/…),然后通过本体建模工具对上述结果进行建模,形成初始数据目录。
(2)在虚拟空间中,依据数字孪生模型结构对虚拟空间数据进行层级划分,通过语义匹配的方式与实体层级进行对齐,即形成a',b',c'…层,将接入的虚拟空间数据与每一层级进行匹配即生成映射
Figure BDA00039386050300000312
同时依据数字孪生模型的结构生成虚拟空间数据的内部映射,也通过三元组表示Tri'={entityi1',relationi',entityi2'},i=1,2,3…。
(3)通过虚实映射规则将虚拟空间元数据与物理空间元数据对齐,对于在虚拟空间或在物理空间中缺乏对应元数据的部分,填充其已在虚实空间中存在的对应元数据,即生成映射
Figure BDA0003938605030000041
(4)在物理空间中,将步骤1中各个数据源的元数据与上述规则解析后的三元组进行语义对齐,数据源和部分元数据即对齐成为数据目录中的各个节点,数据源对应元数据为该节点包含的属性信息。即目前数据目录中的节点可分为两类:以数据源为基础的节点:
Figure BDA0003938605030000042
以元数据为基础的节点:
Figure BDA0003938605030000043
进而向下扩建数据目录。
(5)在虚拟空间中,基于物理空间中已生成的数据目录,以及虚实层级映射
Figure BDA0003938605030000044
Figure BDA0003938605030000045
虚实元数据映射
Figure BDA0003938605030000046
生成对应的虚拟空间数据目录,其节点表示为:
Figure BDA0003938605030000047
Figure BDA0003938605030000048
Figure BDA0003938605030000049
其中SU',SC',SS'为虚拟空间的非结构化、结构化和半结构化数据,且数据目录节点存在映射
Figure BDA00039386050300000410
并生成虚拟和物理空间中缺乏对应节点的部分。
(6)依据企业数据量和业务更新的情况,确定企业数据目录定期更新的周期T,每经过一个周期就对企业数据和虚拟空间的孪生数据进行一次元数据抽取,并更新一次数据目录,以保证数据目录与企业数据和业务相匹配。
所述步骤3中,面向孪生数据空间构建的多维关系提取步骤如下:
(1)基于步骤2建立的数据目录提取数据关系;基于树状图结构的数据目录,定义数据目录中隶属于同一节点内的具体数据距离为0,每向上跨一层节点则距离增加2,以物理空间数据目录为例,Distance(N1∈(/a1/b1/c0),N2(/a1/b1/c0))=0,Distance(N3∈(/a1/b1/c0),N4(/a1/b1/c1))=2,Distance(N4∈(/a1/b1/c0),N5(/a1/b2/c3))=4,…
(2)基于步骤1提取的元数据提取基于语义的数据关系;将制造企业行业规范书籍等标准参考书籍作为用于模型预训练的文本数据集,将其转化为词向量并输入基于远程监督学习的PCNN模型,模型学习完毕后,将制造企业欲接入数据空间的文本类文件,如维修手册等,以及步骤1提取的包含语义信息的元数据视为领域实体作为输入,提取出领域实体之间蕴含的关系。
(3)基于企业用户使用记录提取数据关系;依据用户的查询记录、维修记录、警报记录等,首先进行记录解析:针对用户的数据库查询记录,抽取进行选中、更新操作的表和字段作为输入,针对用户的维修记录、报警记录等,基于步骤1的关键词和主题抽取结果,每一条记录出现的数据或者实体组合作为输入,表示为Rm(rm1,rm2,rm3,…,rmn,…),其中Rm表示第m条记录,rmn表示记录中出现的数据或实体。将上述内容输入频繁项集挖掘算法,通过这样的方式找到经常查询或报警的实体组合,即可联合数据目录快速定位和发现故障源。
(4)将以上数据关系反馈到数据目录中,为数据目录补充节点和边;将上述步骤3中(1)、(2)、(3)结果中的实体与数据目录进行实体语义对齐,即Rm(rm1,rm2,rm3,…,rmn,…),令其中rmn∈Ni,对于每一条数据关系,若其中的某个或多个实体没有在数据目录中,则将其扩充为新的数据目录节点,并用数据关系相连接,若数据关系中的实体均已在数据目录中,则为这些节点生成新的数据关系边。此时数据目录中则出现了第三种节点,即补充出现的数据目录节点,表示为
Figure BDA0003938605030000051
所述步骤4中,基于孪生数据空间的用户服务提供包括以下内容:
(1)基于数据目录与数据关系为用户提供孪生数据空间内全范围元数据的查询检索服务,展示数据目录节点以及节点相关关系,若用户需要详细数据信息则进入到节点对应数据源内获取。
(2)基于企业数据目录和多维度数据关系向用户提供业务相似度分析服务,针对数据目录中
Figure BDA0003938605030000052
中存在的企业业务点,依据与该节点有关联边的节点范围,确定业务点间两两的相似度。
(3)基于数据目录向用户提供数据溯源服务,当用户在使用经过多次加工处理后的数据时,若发现数据存在异常,则需要追踪数据的源头。数据空间记录了用户的操作记录,联合步骤3生成的数据关系,则可快速定位数据来源。
(4)面向虚拟数据进行数据补充,基于步骤2生成的一一对应的虚拟空间、物理空间数据目录,将生成许多新的补充节点,这些节点暂时为空节点,缺乏数据填充,其中虚拟空间数据目录中补充节点,对应了孪生模型中难以仿真的部分,而物理空间数据目录中补充节点,对应了实际生产中难以通过传感器采集到的数据,通过被数据关系补充后的数据目录,以及虚实数据目录节点间存在映射
Figure BDA0003938605030000053
可以对上述数据节点进行补充。
本发明还提供一种实现上述工业数字孪生数据空间构建方法的构建系统,包括元数据提取模块,数据目录构建模块,数据关系提取模块和孪生数据空间模块;
所述元数据提取模块,用于提取考虑孪生数据构成与分类的元数据;
所述数据目录构建模块,用于生成面向制造企业业务解析的数据目录;
所述数据关系提取模块,用于提取面向孪生数据空间构建的多维关系;
所述用户应用服务模块,基于孪生数据空间为用户提供服务。
本发明与现有技术相比的优点在于:
(1)本发明针对不同类型数据提出了元数据的存在及提取方式,在此基础上,构建关系网络,并按照不同需求按需访问数据,从而避免了直接接入多种分布式数据的麻烦,方便灵活,可复用性高,是一种轻量化的企业数据管理方法。
(2)本发明提出的面向数字孪生的数据目录,通过企业业务和孪生模型结构定义数据组织框架,将制造企业全生命周期和虚实空间内的数据相组织和连接,提供了一种全局的数据管理方式。
(3)本发明所提出的数字孪生数据空间的数据关系网络构造方法,从企业业务层级维度、虚实语义关系维度、数据访问与应用维度三方面对数据关系进行挖掘,从而加强了企业不同业务间数据的关联,加强了数字孪生虚实数据间的关联与融合,对提升企业数据利用水平和数据挖掘水平,提升数字孪生模型演化能力有重要意义。
附图说明
图1是本发明的方法流程图;
图2是本发明的详细流程图。
具体实施方式
下面结合附图对本发明做进一步详细的描述。
本发明涉及一种工业数字孪生数据空间构建方法及系统,针对企业多源异构数据难以管理和有效利用与挖掘的问题,提出了元数据的存在及提取方式,为企业数据源进行抽象与统一描述,通过构建面向数字孪生的数据目录,将制造企业全生命周期和虚实空间内的数据相组织和连接,横向贯通企业数据,提出的数字孪生数据空间的数据关系网络构造方法,加强了企业不同业务间数据的关联,加强了数字孪生虚实数据间的关联与融合,对提升企业数据利用水平和数据挖掘水平,提升数字孪生模型演化能力有重要意义。该方法涵盖了元数据提取模块设计、数据目录构建模块设计和数据关系提取模块设计。
根据本发明的实施例,一种工业数字孪生数据空间构建方法,包括如下步骤:
步骤1:考虑孪生数据构成与分类的元数据抽取;针对数字孪生虚拟空间,已构建的孪生模型在仿真运行时,将会产生大量与物理空间相对应的虚拟数据,其数据格式与物理空间数据大致相似,均可分为非结构化、半结构化和结构化数据。对于非结构化数据,通过文本分词和文本主题挖掘提取元数据;对于结构化数据,通过数据库已有结构,如数据库的数据库名、表名、及数据库对每一项数据的约束提取元数据;对于半结构化数据,保留其与结构化数据相似的数据库结构作为元数据,同时针对大量文本内容,采取与非结构化数据类似的文本主题挖掘方法确定元数据。
步骤2:面向制造企业业务解析的数据目录生成;在物理空间中,由企业专家定义专业知识规则及数据从属规则等,将规则解析为三元组,将步骤1数据预处理结果,与规则解析结果对齐,并将其注入规则解析结果,生成以元数据为节点,隶属关系为边的物理空间数据目录。在虚拟空间中,通过数字孪生模型的层级关系和模型结构首先确定虚拟空间内部映射,再通过语义对齐的方式生成与物理空间数据目录对应的虚拟空间数据目录。设定数据目录定期更新周期T,每经过一个周期就对企业数据和虚拟空间的孪生数据进行一次元数据抽取,并更新一次数据目录。
步骤3:面向孪生数据空间构建的多维关系提取;基于步骤2构建的数据目录以及用户的查询记录,针对不同类型、不同维度的数据关系,采用多种数据关系挖掘方法构建企业数据关系网络,并将结果反馈到数据目录中,为数据目录补充节点和边。
步骤4:基于孪生数据空间的用户服务提供;基于步骤1、2、3构建的孪生数据空间,向用户提供全范围孪生数据检索查询、基于数据关系的数据相似度分析、基于数据目录的数据溯源,以及面向虚拟数据的数据补充四大服务。
具体地,所述步骤1具体实现如下:
(1)接入虚拟空间和物理空间数据,对于物理空间,接入制造企业的全生命周期数据,涵盖设计、制造、服务等方面,按照数据格式对其进行分类接入;对于虚拟空间,基于已构建的数字孪生模型,收集模型仿真运行时产生的虚拟数据也按照数据格式对其进行分类接入。
(2)接入企业非结构化数据,主要针对输入的文本数据,首先抽取文件名称、文件格式,然后通过词频-逆文档频率(TF-IDF)的计算得到文本关键词,将上述结果作为该数据源的元数据保存,表示为
Figure BDA0003938605030000071
其中DU为所有物理空间非结构化数据组成的元数据库,
Figure BDA0003938605030000072
表示第j个非结构化数据源
Figure BDA0003938605030000073
的第i个元数据,nu为非结构化数据源个数,nU,j为非结构化数据源
Figure BDA0003938605030000074
的元数据个数,虚拟空间非结构化数据的元数据库表示为
Figure BDA0003938605030000075
其中DU'为所有虚拟空间空间非结构化数据组成的元数据库,
Figure BDA0003938605030000076
表示虚拟空间中第j个非结构化数据源
Figure BDA0003938605030000077
的第i个元数据,n'u为虚拟空间中非结构化数据源个数,nU,j'为虚拟空间中非结构化数据源
Figure BDA0003938605030000078
的元数据个数;
(3)接入企业结构化数据,提取数据库的已有数据格式,包括数据库名、表名、及数据库对每一项数据的约束,数据库的基本统计信息,包括数据集中行的数量,每列中特定值的数量,最大值和最小值等作为该结构化数据源的元数据,所有物理空间结构化数据源的元数据集合表示为
Figure BDA0003938605030000081
其中
Figure BDA0003938605030000082
表示第j个结构化数据源
Figure BDA0003938605030000083
的第i个元数据,nc为结构化数据源个数,nC,j为结构化数据源
Figure BDA0003938605030000084
的元数据个数,虚拟空间结构化数据的元数据库表示为
Figure BDA0003938605030000085
其中
Figure BDA0003938605030000086
表示虚拟空间中第j个结构化数据源
Figure BDA0003938605030000087
的第i个元数据,n'u为虚拟空间中结构化数据源个数,nC,j'为虚拟空间中结构化数据源
Figure BDA0003938605030000088
的元数据个数;
(4)接入企业半结构化数据,针对企业包含大量文本的表单类数据,首先抽取其本身已经具有的结构,然后对每一项进行和非结构化数据一样的TF-IDF关键词挖掘与LDA主题挖掘,或依据企业业务需求,将希望提取的指定内容写为包装器,通过机器学习的方法识别指定内容并将其提取;将上述结果作为元数据存储,所有物理空间半结构化数据源的元数据集合表示为
Figure BDA0003938605030000089
其中
Figure BDA00039386050300000810
表示第j个半结构化数据源
Figure BDA00039386050300000811
的第i个元数据,ns为半结构化数据源个数,nS,j为半结构化数据源
Figure BDA00039386050300000812
的元数据个数,虚拟空间半结构化数据的元数据库表示为
Figure BDA00039386050300000813
其中
Figure BDA00039386050300000814
表示虚拟空间中第j个半结构化数据源
Figure BDA00039386050300000815
的第i个元数据,n's为虚拟空间中半结构化数据源个数,nS,j'为虚拟空间中半结构化数据源
Figure BDA00039386050300000816
的元数据个数。
所述步骤2具体实现如下:
(1)在物理空间中,由企业专家定义专业知识规则及数据从属规则,将规则解析为三元组Tri={entityi1,relationi,entityi2},i=1,2,3…,其中entityi1,entityi2为第i个三元组连接的两个实体,relationi为这两个实体间的关系,为实体间的从属关系;依据企业业务对数据及数据来源的实体划分为a,b,c…层,对实体关系进行关系属性划分,将具有相同实体的三元组消歧并连接,使三元组形成具有树状图结构的模型,每个节点在数据目录中的位置可表示为Ni∈(/ap/bq/cm/…),其中ap表示数据层级a层中的第p个节点,依此类推,然后通过本体建模工具对上述结果进行建模,形成初始数据目录;
(2)在虚拟空间中,依据数字孪生模型结构对虚拟空间数据进行层级划分,通过语义匹配的方式与实体层级进行对齐,即形成a',b',c'…层,将接入的虚拟空间数据与每一层级进行匹配即生成映射
Figure BDA00039386050300000817
同时依据数字孪生模型的结构生成虚拟空间数据的内部映射,也通过三元组表示Tri'={entityi1',relationi',entityi2'},i=1,2,3…;
(3)通过虚实映射规则将虚拟空间元数据与物理空间元数据对齐,对于在虚拟空间或在物理空间中缺乏对应元数据的部分,填充其已在虚实空间中存在的对应元数据,即生成映射
Figure BDA0003938605030000091
(4)在物理空间中,将步骤1中各个数据源的元数据与上述规则解析后的三元组进行语义对齐,数据源和部分元数据即对齐成为数据目录中的各个节点,数据源对应元数据为该节点包含的属性信息;即目前数据目录中的节点可分为两类:以数据源为基础的节点:
Figure BDA0003938605030000092
其中nij为从非结构化、结构化和半结构化数据源库SUSC,SS取出的数据源,pit为从虚拟空间的非结构化、结构化和半结构化元数据库DU,DC,DS取出的元数据,以元数据为基础的节点:
Figure BDA0003938605030000093
进而向下扩建数据目录;
(5)在虚拟空间中,基于物理空间中已生成的数据目录,以及虚实层级映射
Figure BDA0003938605030000094
Figure BDA0003938605030000095
虚实元数据映射
Figure BDA0003938605030000096
生成对应的虚拟空间数据目录,其节点表示为:
Figure BDA0003938605030000097
Figure BDA0003938605030000098
Figure BDA0003938605030000099
其中nij'为从虚拟空间的非结构化、结构化和半结构化数据源库SU',SC',SS'取出的数据源,pit'为从虚拟空间的非结构化、结构化和半结构化元数据库D'U,D'C,DS'取出的元数据,且数据目录节点存在映射
Figure BDA00039386050300000910
并生成虚拟和物理空间中缺乏对应节点的部分;
(6)依据企业数据量和业务更新的情况,确定企业数据目录定期更新的周期T,每经过一个周期就对企业数据和虚拟空间的孪生数据进行一次元数据抽取,并更新一次数据目录,以保证数据目录与企业数据和业务相匹配。
所述步骤3具体实现如下:
(1)基于步骤2建立的数据目录提取数据关系;基于树状图结构的数据目录,定义数据目录中隶属于同一节点内的具体数据距离为0,每向上跨一层节点则距离增加2,以物理空间数据目录为例,Distance(N1∈(/a1/b1/c0),N2(/a1/b1/c0))=0,Distance(N3∈(/a1/b1/c0),N4(/a1/b1/c1))=2,Distance(N4∈(/a1/b1/c0),N5(/a1/b2/c3))=4,…;
(2)基于步骤1提取的元数据提取基于语义的数据关系;将制造企业行业规范书籍等标准参考书籍作为用于模型预训练的文本数据集,将其转化为词向量并输入基于远程监督学习的PCNN模型,模型学习完毕后,将制造企业欲接入数据空间的文本类文件,如维修手册等,以及步骤1提取的包含语义信息的元数据视为领域实体作为输入,提取出领域实体之间蕴含的关系;
(3)基于企业用户使用记录提取数据关系;依据用户的查询记录、维修记录、警报记录,首先进行记录解析:针对用户的数据库查询记录,抽取进行选中、更新操作的表和字段作为输入,针对用户的维修记录、报警记录,基于步骤1的关键词和主题抽取结果,每一条记录出现的数据或者实体组合作为输入,表示为Rm(rm1,rm2,rm3,…,rmn,…),其中Rm表示第m条记录,rmn表示记录中出现的数据或实体;将上述内容输入频繁项集挖掘算法,以找到经常查询或报警的实体组合,即可联合数据目录快速定位和发现故障源;
(4)将以上数据关系反馈到数据目录中,为数据目录补充节点和边;将上述步骤3中(1)、(2)、(3)结果中的实体与数据目录进行实体语义对齐,即Rm(rm1,rm2,rm3,…,rmn,…),令其中rmn∈Ni,对于每一条数据关系,若其中的某个或多个实体没有在数据目录中,则将其扩充为新的数据目录节点,并用数据关系相连接,若数据关系中的实体均已在数据目录中,则为这些节点生成新的数据关系边;此时数据目录中则出现了第三种节点,即补充出现的数据目录节点,表示为
Figure BDA0003938605030000101
所述步骤4具体实现如下:
(1)基于数据目录与数据关系为用户提供孪生数据空间内全范围元数据的查询检索服务,展示数据目录节点以及节点相关关系,若用户需要详细数据信息则进入到节点对应数据源内获取。
(2)基于企业数据目录和多维度数据关系向用户提供业务相似度分析服务,针对数据目录中
Figure BDA0003938605030000102
中存在的企业业务点,依据与该节点有关联边的节点范围,确定业务点间两两的相似度。
(3)基于数据目录向用户提供数据溯源服务,当用户在使用经过多次加工处理后的数据时,若发现数据存在异常,则需要追踪数据的源头。数据空间记录了用户的操作记录,联合步骤3生成的数据关系,则可快速定位数据来源。
(4)面向虚拟数据进行数据补充,基于步骤2生成的一一对应的虚拟空间、物理空间数据目录,将生成许多新的补充节点,这些节点暂时为空节点,缺乏数据填充,其中虚拟空间数据目录中补充节点,对应了孪生模型中难以仿真的部分,而物理空间数据目录中补充节点,对应了实际生产中难以通过传感器采集到的数据,通过被数据关系补充后的数据目录,以及虚实数据目录节点间存在映射
Figure BDA0003938605030000103
可以对上述数据节点进行补充。
据本发明的又一实施例,如图2所示,本发明提出一种工业数字孪生数据空间构建系统,其包括元数据提取模块,数据目录构建模块,数据关系提取模块和用户应用服务模块。
所述元数据提取模块,用于提取考虑孪生数据构成与分类的元数据。
所述数据目录构建模块,用于生成面向制造企业业务解析的数据目录。
所述数据关系提取模块,用于提取面向孪生数据空间构建的多维关系。
所述用户应用服务模块,基于孪生数据空间为用户提供服务。
综上所述,本发明提出一种工业数字孪生数据空间构建方法及系统,该方法包括考虑孪生数据构成与分类的元数据抽取,面向制造企业业务解析的数据目录生成,面向孪生数据空间构建的多维关系提取,基于孪生数据空间的用户服务提供四个步骤。本发明应用于数据管理和处理领域,为制造企业提供了一种全局的数据组织方法,对提升企业数据利用水平和数据挖掘水平,提升数字孪生模型演化能力有重要意义。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种工业数字孪生数据空间构建方法,其特征在于,包括步骤如下:
步骤1:考虑孪生数据构成与分类的元数据抽取:针对数字孪生虚拟空间,已构建的孪生模型在仿真运行时,其数据格式分为非结构化、半结构化和结构化数据;对于非结构化数据,通过文本分词和文本主题挖掘提取元数据;对于结构化数据,通过数据库已有结构,即数据库的数据库名、表名、及数据库对每一项数据的约束提取元数据;对于半结构化数据,保留其与结构化数据相似的数据库结构作为元数据,同时针对大量文本内容,采取与非结构化数据类似的文本主题挖掘方法确定元数据;
步骤2:面向制造企业业务解析的数据目录生成:在物理空间中,根据专业知识规则及数据从属规则,将规则解析为三元组,将步骤1的数据预处理结果,与规则解析结果对齐,并将其注入规则解析结果,生成以元数据为节点,隶属关系为边的物理空间数据目录;在虚拟空间中,通过数字孪生模型的层级关系和模型结构首先确定虚拟空间内部映射,再通过语义对齐的方式生成与物理空间数据目录对应的虚拟空间数据目录;设定数据目录定期更新周期T,每经过一个周期就对企业数据和虚拟空间的孪生数据进行一次元数据抽取,并更新一次数据目录;
步骤3:面向孪生数据空间构建的多维关系提取:基于步骤2构建的数据目录以及用户的查询记录,针对不同类型、不同维度的数据关系,采用多种数据关系挖掘方法构建企业数据关系网络,并将结果反馈到数据目录中,为数据目录补充节点和边;
步骤4:基于孪生数据空间的用户服务提供:基于步骤1、2、3构建而成的孪生数据空间向用户提供四种服务:全范围孪生数据检索查询、基于数据关系的数据相似度分析、基于数据目录的数据溯源以及面向虚拟数据的数据补充。
2.根据权利要求1中所述的一种工业数字孪生数据空间构建方法,其特征在于:所述步骤1具体包括:
(1)接入虚拟空间和物理空间数据,对于物理空间,接入制造企业的全生命周期数据,按照数据格式对其进行分类接入;对于虚拟空间,基于已构建的数字孪生模型,收集模型仿真运行时产生的虚拟数据也按照数据格式对其进行分类接入;
(2)接入企业非结构化数据,针对输入的文本数据,首先抽取文件名称、文件格式,然后通过词频-逆文档频率的计算得到文本关键词,将上述结果作为数据源的元数据保存,表示为
Figure FDA0003938605020000011
其中DU为所有物理空间非结构化数据组成的元数据库,
Figure FDA0003938605020000021
表示第j个非结构化数据源
Figure FDA0003938605020000022
的第i个元数据,nu为非结构化数据源个数,nU,j为非结构化数据源
Figure FDA0003938605020000023
的元数据个数,虚拟空间非结构化数据的元数据库表示为
Figure FDA0003938605020000024
Figure FDA0003938605020000025
其中DU'为所有虚拟空间空间非结构化数据组成的元数据库,
Figure FDA0003938605020000026
表示虚拟空间中第j个非结构化数据源
Figure FDA0003938605020000027
的第i个元数据,n'u为虚拟空间中非结构化数据源个数,nU,j'为虚拟空间中非结构化数据源
Figure FDA0003938605020000028
的元数据个数;
(3)接入企业结构化数据,提取数据库的已有数据格式,包括数据库名、表名、及数据库对每一项数据的约束;提取数据库的基本统计信息,包括数据集中行的数量,每列中特定值的数量,最大值和最小值作为该结构化数据源的元数据,所有物理空间结构化数据源的元数据集合表示为
Figure FDA0003938605020000029
其中
Figure FDA00039386050200000210
表示第j个结构化数据源
Figure FDA00039386050200000211
的第i个元数据,nc为结构化数据源个数,nC,j为结构化数据源
Figure FDA00039386050200000212
的元数据个数,虚拟空间结构化数据的元数据库表示为
Figure FDA00039386050200000213
其中
Figure FDA00039386050200000214
表示虚拟空间中第j个结构化数据源
Figure FDA00039386050200000215
的第i个元数据,n'u为虚拟空间中结构化数据源个数,nC,j'为虚拟空间中结构化数据源
Figure FDA00039386050200000216
的元数据个数;
(4)接入企业半结构化数据,针对企业包含大量文本的表单类数据,首先抽取其本身已经具有的结构,然后对每一项进行和非结构化数据一样的TF-IDF关键词挖掘与LDA主题挖掘,或依据企业业务需求,将希望提取的指定内容写为包装器,通过机器学习的方法识别指定内容并将其提取;将上述结果作为元数据存储,所有物理空间半结构化数据源的元数据集合表示为
Figure FDA00039386050200000217
其中
Figure FDA00039386050200000218
表示第j个半结构化数据源
Figure FDA00039386050200000219
的第i个元数据,ns为半结构化数据源个数,nS,j为半结构化数据源
Figure FDA00039386050200000220
的元数据个数,虚拟空间半结构化数据的元数据库表示为
Figure FDA00039386050200000221
其中
Figure FDA00039386050200000222
表示虚拟空间中第j个半结构化数据源
Figure FDA00039386050200000223
的第i个元数据,n's为虚拟空间中半结构化数据源个数,nS,j'为虚拟空间中半结构化数据源
Figure FDA00039386050200000224
的元数据个数。
3.根据权利要求2中所述的一种工业数字孪生数据空间构建方法,其特征在于:所述步骤2具体包括:
(1)在物理空间中,根据专业知识规则及数据从属规则,将规则解析为三元组Tri={entityi1,relationi,entityi2},i=1,2,3…,其中entityi1,entityi2为第i个三元组连接的两个实体,relationi为这两个实体间的关系,为实体间的从属关系;依据企业业务对数据及数据来源的实体划分为a,b,c...层,对实体关系进行关系属性划分,将具有相同实体的三元组消歧并连接,使三元组形成具有树状图结构的模型,每个节点在数据目录中的位置表示为Ni∈(/ap/bq/cm/...),其中ap表示数据层级a层中的第p个节点,依此类推,然后通过本体建模工具对上述结果进行建模,形成初始数据目录;
(2)在虚拟空间中,依据数字孪生模型结构对虚拟空间数据进行层级划分,通过语义匹配的方式与实体层级进行对齐,即形成a′,b′,c′...层,将接入的虚拟空间数据与每一层级进行匹配即生成映射
Figure FDA00039386050200000310
同时依据数字孪生模型的结构生成虚拟空间数据的内部映射,也通过三元组表示Tri′={entityi1′,relationi′,entityi2′},i=1,2,3...;
(3)通过虚实映射规则将虚拟空间元数据与物理空间元数据对齐,对于在虚拟空间或在物理空间中缺乏对应元数据的部分,填充其已在虚实空间中存在的对应元数据,即生成映射
Figure FDA0003938605020000031
(4)在物理空间中,将步骤1中各个数据源的元数据与上述规则解析后的三元组进行语义对齐,数据源和部分元数据即对齐成为数据目录中的各个节点,数据源对应元数据为该节点包含的属性信息;即目前数据目录中的节点分为两类:以数据源为基础的节点:
Figure FDA0003938605020000032
Figure FDA0003938605020000033
其中nij为从非结构化、结构化和半结构化数据源库SU,SC,SS取出的数据源,pit为从虚拟空间的非结构化、结构化和半结构化元数据库DU,DC,DS取出的元数据,以元数据为基础的节点:
Figure FDA0003938605020000034
Figure FDA0003938605020000035
进而向下扩建数据目录;
(5)在虚拟空间中,基于物理空间中已生成的数据目录,以及虚实层级映射
Figure FDA00039386050200000311
Figure FDA00039386050200000312
虚实元数据映射
Figure FDA0003938605020000039
生成对应的虚拟空间数据目录,其节点表示为:
Figure FDA0003938605020000036
Figure FDA0003938605020000037
Figure FDA0003938605020000038
其中nij′为从虚拟空间的非结构化、结构化和半结构化数据源库SU′,SC′,SS′取出的数据源,pit′为从虚拟空间的非结构化、结构化和半结构化元数据库D′U,D′C,DS′取出的元数据,且数据目录节点存在映射
Figure FDA00039386050200000313
并生成虚拟和物理空间中缺乏对应节点的部分;
(6)依据企业数据量和业务更新的情况,确定企业数据目录定期更新的周期T,每经过一个周期就对企业数据和虚拟空间的孪生数据进行一次元数据抽取,并更新一次数据目录,以保证数据目录与企业数据和业务相匹配。
4.根据权利要求3中所述的一种工业数字孪生数据空间构建方法,其特征在于:所述步骤3具体包括:
(1)基于步骤2建立的数据目录提取数据关系:基于树状图结构的数据目录,定义数据目录中隶属于同一节点内的具体数据距离为0,每向上跨一层节点则距离增加2;
(2)基于步骤1提取的元数据提取基于语义的数据关系;将制造标准参考书籍作为用于模型预训练的文本数据集,将其转化为词向量并输入基于远程监督学习的PCNN模型,模型学习完毕后,将制造企业欲接入数据空间的文本类文件以及步骤1提取的包含语义信息的元数据视为领域实体作为输入,提取出领域实体之间蕴含的关系;
(3)基于企业用户使用记录提取数据关系;依据用户的查询记录、维修记录、警报记录,首先进行记录解析:针对用户的数据库查询记录,抽取进行选中、更新操作的表和字段作为输入,针对用户的维修记录、报警记录,基于步骤1的关键词和主题抽取结果,每一条记录出现的数据或者实体组合作为输入,表示为Rm(rm1,rm2,rm3,...,rmn,...),其中Rm表示第m条记录,rmn表示记录中出现的数据或实体;将上述内容输入频繁项集挖掘算法,以找到经常查询或报警的实体组合,联合数据目录快速定位和发现故障源;
(4)将以上数据关系反馈到数据目录中,为数据目录补充节点和边;将上述步骤3中(1)、(2)、(3)结果中的实体与数据目录进行实体语义对齐,即Rm(rm1,rm2,rm3,...,rmn,...),令其中rmn∈Ni,对于每一条数据关系,若其中的某个或多个实体没有在数据目录中,则将其扩充为新的数据目录节点,并用数据关系相连接,若数据关系中的实体均已在数据目录中,则为所述节点生成新的数据关系边;此时数据目录中出现第三种节点,即补充出现的数据目录节点,表示为
Figure FDA0003938605020000041
5.根据权利要求4中所述的一种工业数字孪生数据空间构建方法,其特征在于:所述步骤4具体包括:
(1)基于数据目录与数据关系为用户提供孪生数据空间内全范围元数据的查询检索服务,展示数据目录节点以及节点相关关系,若用户需要详细数据信息则进入到节点对应数据源内获取;
(2)基于企业数据目录和多维度数据关系向用户提供业务相似度分析服务,针对数据目录中
Figure FDA0003938605020000042
中存在的企业业务点,依据与该节点有关联边的节点范围,确定业务点间两两的相似度;
(3)基于数据目录向用户提供数据溯源服务,当用户在使用经过多次加工处理后的数据时,若发现数据存在异常,则追踪数据的源头;数据空间记录用户的操作记录,联合步骤3生成的数据关系,快速定位数据来源;
(4)面向虚拟数据进行数据补充,基于步骤2生成的一一对应的虚拟空间、物理空间数据目录,生成许多新的补充节点,所述补充节点暂时为空节点,缺乏数据填充,其中虚拟空间数据目录中补充节点,对应孪生模型中难以仿真的部分,物理空间数据目录中补充节点,对应实际生产中难以通过传感器采集到的数据,通过被数据关系补充后的数据目录,以及虚实数据目录节点间存在映射
Figure FDA0003938605020000051
对上述节点进行补充。
6.一种实现权利要求1-5之一所述的工业数字孪生数据空间构建方法的构建系统,其特征在于:包括元数据提取模块,数据目录构建模块,数据关系提取模块和用户应用服务模块;
所述元数据提取模块,用于提取考虑孪生数据构成与分类的元数据;
所述数据目录构建模块,用于生成面向制造企业业务解析的数据目录;
所述数据关系提取模块,用于提取面向孪生数据空间构建的多维关系;
所述用户应用服务模块,基于孪生数据空间为用户提供服务。
CN202211411142.8A 2022-11-11 2022-11-11 一种工业数字孪生数据空间构建方法及系统 Active CN115687623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211411142.8A CN115687623B (zh) 2022-11-11 2022-11-11 一种工业数字孪生数据空间构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211411142.8A CN115687623B (zh) 2022-11-11 2022-11-11 一种工业数字孪生数据空间构建方法及系统

Publications (2)

Publication Number Publication Date
CN115687623A CN115687623A (zh) 2023-02-03
CN115687623B true CN115687623B (zh) 2023-04-28

Family

ID=85051469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211411142.8A Active CN115687623B (zh) 2022-11-11 2022-11-11 一种工业数字孪生数据空间构建方法及系统

Country Status (1)

Country Link
CN (1) CN115687623B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554063A (zh) * 2021-06-25 2021-10-26 西安电子科技大学 一种工业数字孪生虚实数据融合方法、系统、设备、终端
CN113656904A (zh) * 2021-07-26 2021-11-16 重庆斯欧智能科技研究院有限公司 一种面向制造设备的数字孪生模型构建方法
CN114357694A (zh) * 2021-11-17 2022-04-15 国电南瑞科技股份有限公司 一种基于大规模点云的变电站数字孪生方法及装置
CN115099075A (zh) * 2022-03-30 2022-09-23 中冶华天工程技术有限公司 一种基于智能化棒、线、型车间数字孪生方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258747A1 (en) * 2018-02-22 2019-08-22 General Electric Company Interactive digital twin
US20200125078A1 (en) * 2018-10-19 2020-04-23 General Electric Company Method and system for engineer-to-order planning and materials flow control and optimization
US11403541B2 (en) * 2019-02-14 2022-08-02 Rockwell Automation Technologies, Inc. AI extensions and intelligent model validation for an industrial digital twin

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554063A (zh) * 2021-06-25 2021-10-26 西安电子科技大学 一种工业数字孪生虚实数据融合方法、系统、设备、终端
CN113656904A (zh) * 2021-07-26 2021-11-16 重庆斯欧智能科技研究院有限公司 一种面向制造设备的数字孪生模型构建方法
CN114357694A (zh) * 2021-11-17 2022-04-15 国电南瑞科技股份有限公司 一种基于大规模点云的变电站数字孪生方法及装置
CN115099075A (zh) * 2022-03-30 2022-09-23 中冶华天工程技术有限公司 一种基于智能化棒、线、型车间数字孪生方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Exploration on industrial system-aware dataspace towards smart manufacturing;Y. Wang;2022 IEEE 18th International Conference on Automation Science and Engineering (CASE);全文 *
全球工业数据空间最新进展及对我国的启示;刘迎;;信息通信技术与政策(第06期);全文 *
基于OPC UA的数字孪生车间实时数据融合与建模研究[J].机械设计与制;熊伟杰;机械设计与制造;全文 *

Also Published As

Publication number Publication date
CN115687623A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
Li et al. Database integration using neural networks: implementation and experiences
Zhang et al. Multi-database mining
Vishnu et al. A review on the significance of machine learning for data analysis in big data
US20150095303A1 (en) Knowledge Graph Generator Enabled by Diagonal Search
Park et al. Toward total business intelligence incorporating structured and unstructured data
CN114218400A (zh) 基于语义的数据湖查询系统及方法
Zhang Application of data mining technology in digital library.
CN117573880A (zh) 一种轧制过程数据元模型与数据空间构建方法及系统
González et al. Considering unstructured data for OLAP: a feasibility study using a systematic review
CN115687623B (zh) 一种工业数字孪生数据空间构建方法及系统
CN113868322B (zh) 一种语义结构解析方法、装置、设备及虚拟化系统、介质
Mavrogiorgou et al. A comparative study in data mining: clustering and classification capabilities
Roy et al. Context-aware OLAP for textual data warehouses
Paneva-Marinova et al. Intelligent Data Curation in Virtual Museum for Ancient History and Civilization
Liao Construction of Intelligent Recommendation Retrieval Model of FuJian Intangible Cultural Heritage Digital Archives Resources.
Pushpalatha et al. A tree based representation for effective pattern discovery from multimedia documents
Leshcheva et al. Towards a method of ontology population from heterogeneous sources of structured data
Ge et al. Constructing ontology-based petroleum exploration database for knowledge discovery
Kumar et al. Semantic web-based recommendation: Experimental results and test cases
Hoseini et al. Semantic Data Management in Data Lakes
Zhou et al. A Knowledge Base of Shale Gas Play and Its Application on EUR Prediction by Integrating Knowledge Graph and Automated Machine Learning Techniques
CN116610730B (zh) 基于知识图谱的时空大数据深度分析方法及系统
Karthick et al. A similarity study of techniques in data mining and big data
Mirza et al. Data level conflicts resolution for multi-sources heterogeneous databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant