CN112506913B

CN112506913B - 一种面向制造业数据空间的大数据体系结构构建方法

Info

Publication number: CN112506913B
Application number: CN202110138920.XA
Authority: CN
Inventors: 吴卓儒; 任鸿儒; 鲁仁全; 李鸿一; 邱勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-07-09
Anticipated expiration: 2041-02-02
Also published as: CN112506913A

Abstract

一种面向制造业数据空间的大数据体系结构构建方法，首先构建包含业务域、模态域、处理域三维度的多维数据空间模型；其后通过集成数据进程和更新数据进程构建业务域维度架构，将设置有不同属性标签的制造业数据按照资源视图的储存规则集成在多维数据空间模型中的业务域维度中，并实时更新制造业数据；针对不同制造业数据的属性标签，在模态域维度设置不同的查看查询方法；在处理域维度建立若干数据处理维度来处理操作业务域维度中的制造业数据并获取结果。该构建方法解决了传统数据库模型和传统数据仓库在海量数据处理、存储和数据定义定位等方面的不足而不能有效适用于制造业大数据的问题，提高制造数据有效利用率，挖掘制造大数据潜在价值。

Description

一种面向制造业数据空间的大数据体系结构构建方法

技术领域

本发明涉及制造企业数据空间技术与应用领域，更具体地，涉及一种面向制造业数据空间的大数据体系结构构建方法。

背景技术

制造业是国民经济的基石，是实现现代化的保障和综合国力的体现。同时，大数据的价值和潜能逐渐被全社会普遍认知，大数据与制造业的融合驱动着设计、管理、制造、服务模式的全面变革。工业大数据是我国制造业转型升级的重要战略资源，为了充分利用制造企业设计、制造、管理、服务过程中产生的海量数据，制造企业数据空间构建方法与技术已成为重要的基础前沿技术。

制造企业数据空间是在设计、制造、管理、服务四大业务域中产生的全体系构成的空间，除了具有大数据4V 特征（规模大、变化快、类型杂、质量低），还具有多模态、跨尺度、高通量、强关联、重机理等特点，而现有的制造企业大数据没有合理清晰的定义方法，没有形成系统性完备性的制造大数据体系结构，造成了制造大数据建模难的应用难点。此外，由于包含设计图纸、设备物联、企业业务等的制造数据具有异构、多源和海量的特点，传统的数据管理体系不能有效适用于这种情况。

专利文献CN111915137A（公开日2020-11-10）公开了一种制造业统计数据模型的构建方法，并依据建立的数据模型对采集到的工业数据进行标准化处理以便利用这些数据为各种制造业数据业务服务。其中为了提高效率，数据采集点可根据数据实体物理模型的定义对采集到的数据进行清洗、处理、标准化，然后通过互联网传送到数据中心的数据仓库存储，最终应用于各种数据应用。然而其采用数据仓库存储时，仍然需要将采集到的数据格式进行统一化，而数据在格式转换过程中会出现失真。

因此，急需一种可兼容多种数据模式的面向制造业数据空间的大数据体系结构构建方法。

发明内容

本发明提供一种面向制造业数据空间的大数据体系结构构建方法，能实现对各种数据类型统一表示的数据资源视图表示方法，将此方法应用于制造企业数据空间，突破了现有传统数据管理体系存储不同格式数据难的技术壁垒。

为解决上述技术问题，本发明的技术方案如下：一种面向制造业数据空间的大数据体系结构构建方法，具体包括以下步骤：

S1、构建多维数据空间模型，所述多维数据空间模型包含业务域维度、模态域维度和处理域维度；

S2、通过集成数据进程和更新数据进程构建业务域维度的数据架构，将设置有不同属性标签的制造业数据按照资源视图的储存规则集成在多维数据空间模型中的业务域维度中并实时更新所述制造业数据；

S3、针对不同制造业数据的属性标签，在模态域维度设置不同的查看查询方法，从而实现实时查询查看业务域维度的制造业数据；

S4、在处理域维度建立若干数据处理维度来处理操作业务域维度中的制造业数据并获取结果。

优选地，所述多维数据空间模型中的数据空间是基于iMeMex数据模型组织建立的，所述数据空间内的数据通过资源视图表示，所述资源视图为具有多个组件的序列，能够表示结构化、半结构化或非结构化数据。

优选地，资源视图由四元组V(η，τ，χ，γ)表示，若资源视图V的四个组件之一为空，则该资源视图不写出该组件或写出其结果为Null；其中四个组件的含义如下：

名称组件η为表示资源视图名称的字符串；

元数据信息组件τ为一个二元组 (W，T)，W表示的是该资源视图元数据的名称序列，T是对应于W的元数据的值序列；

内容组件χ为字符序列，该字符序列为有限序列或无限序列；

关系组件γ为二元组(S，Q)，S为空集或为以资源视图作为元素的集合，Q为空或为一个资源视图的有序序列，且满足以下条件：

（1）当S是有穷集合时，S ={Vs1，Vs2，…，Vsm}，当S是无穷集合时，S ={Vs1，Vs2，…，Vsm}，m→∞，Vsi(i=1，2，3，…，m，且m为自然数)代表任意一个资源视图；同样，当Q是有穷序列时，Q=<Vq1，Vq2，…，Vqn>，当Q是无穷序列时，Q=<Vq1，Vq2，…，Vqn>， n→∞，Vqi(i=1，2，3，…，n，且n为自然数)代表任意一个资源视图；

（2）S∩Q = Ø，即集合S与序列Q的交集为空集，代表集合S与序列Q中包含的资源视图不相同；

（3）假定任意一个资源视图Vi的γ组件非空，若除资源视图Vi之外的任一资源视图Vk∈S∪Q，那么资源视图Vk与资源视图Vi为直接相关，记做Vi→Vk；

（4）若资源视图之间满足关系Vi→Vj→…→Vk，则资源视图Vk与资源视图Vi间接相关，记做Vi～Vk。

优选地，所述业务域维度包括若干数据空间区域，用于分类存放设计、制造、管理、服务业务领域的数据；制造业数据包括结构化数据、半结构化数据或非结构化数据。

优选地，采用数据包装代理（Wrapper）的方法实现所述集成数据进程，所述数据包装代理（Wrapper）包括收集结构化数据的结构化数据包装代理（StruWrapper）、收集半结构化数据的半结构化数据包装代理（SemistruWrapper）和收集非结构化数据的非结构化数据包装代理（UnstruWrapper）。

优选地，所述集成数据进程包括：

S21、根据数据的属性标签不同选择不同的数据包装代理种类，有针对性地抽取数据的特征信息并进行标识；

S22、当数据包装代理（Wrapper）接收到来自请求主体的数据收集需求指令后，根据数据源的特征信息和标识发出查询请求，对应的数据包装代理种类生成对应的数据查询语句进行查询操作并得到查询结果；

S23、通过语义转换运算将查询结果重组得到以资源视图表示的重组结果；

S24、通过模式匹配的方法确定数据源的数据对象是否已存在于数据空间或是否与数据空间主体相关，在数据源中抽取出已经存在于数据空间的数据对象和与主体不相关的数据对象，将剩下的数据存放于其对应的数据空间区域内，从而完成集成数据进程。

优选地，所述语义转换运算是将数据按照数据空间的数据模式要求集成到数据空间中，建立起数据源局部模式和数据空间全局模式的语义映射，从而确定数据模式。

优选地，所述更新数据进程采用基于智能代理的数据模式监控方法监控数据空间内部数据的变化；

所述基于智能代理的数据模式监控方法是运用智能代理的机器技术，内容技术和访问技术形成包含监控分析代理和检测验证代理的多代理网络架构的数据模式监控代理；

所述监控分析代理，是通过监控内部数据变化，基于数据的关联规则，采用挖掘算法Apriori对数据进行推理和学习，挖掘出数据间的语义联系从而学习出当前的数据模式，最后将当前数据模式信息传送至检测验证代理中；

所述检测验证代理，依据当前数据空间环境，进行针对于数据空间当前数据模式的自适应学习，将自适应学习的结果与来自监控分析代理传送的数据模式信息进行比对，再根据主体对于数据模式的反馈信息，决定该数据模式信息最终的合法性，若合法则执行集成数据进程，推动完成数据空间的更新。

优选地，所述多维数据空间模型中的数据的属性标签包含结构化数据、半结构化数据和非结构化数据，查询查看方法包括具有内容信息的关键字查询、具有结构信息的谓词查询与具有内容和结构信息的路径表达式查询。

优选地，所述若干数据处理维度包括数据获取或记录维度、数据抽取或清洗或注释维度、集成或聚集或表达维度、分析或建模维度和解释或应用维度。

与现有技术相比，本发明技术方案的有益效果是：

（1）本发明开创性地构建了制造企业多维数据空间模型，数据空间包含贯穿设计、制造、管理、服务四大业务的制造企业数据业务域，集结构化数据、半结构化数据、非结构化数据三种数据模态于一体的制造企业数据模态域以及综合数据获取、清洗、集成、分析、应用等数据处理操作的制造企业数据处理域，形成了面向制造企业数据空间的制造大数据体系结构。

（2）本发明创新性提出一种能实现对各种数据类型统一表示的数据资源视图表示方法，将此方法应用于制造企业数据空间，突破了现有传统数据管理体系（传统数据库模型，传统数据仓库等）存储不同格式数据难的壁垒，有效适应于管理制造企业设计、管理、制造、服务四大业务领域内具有多源异构、指数增长、非结构化、非模式化等特性的制造数据，为制造企业提供高效数据服务。

（3）本发明还创新性提出将数据包装代理（Wrapper）方法和模式匹配方法运用到制造企业数据业务域体系架构的集成数据进程中，将基于智能代理的数据模式监控技术运用到更新数据进程，更完整全面地将制造企业中设计、制造、管理、服务四大业务领域各大类分散、零乱、标准不统一的数据整合到一起，按一定资源视图的规则转换从而在逻辑上能进行有效集成和更新，实现制造企业制造大数据的全局数据共享。

总之，本发明提出的所述面向制造业数据空间的大数据体系结构构建方法可以有效解决传统数据库模型和传统数据仓库因在海量数据处理、存储以及数据定义定位等方面的不足而不能有效适用于制造大数据的问题，提高制造企业对于制造业数据的有效利用率，更好挖掘出制造大数据背后的潜在价值。

附图说明

图1为本发明实施例提供的面向制造业数据空间的大数据体系结构构建方法的步骤流程图。

图2为本发明实施例提供的面向制造业数据空间的大数据体系结构构建方法的多维数据空间模型结构示意图。

图3为本发明实施例中提供的显示异构设计业务数据其中一个“设计业务”文件夹下的一些文件和文件夹的层次信息示意图。

图4为本发明实施例中提供的异构设计业务数据统一用资源视图表示后组成的资源视图模型示意图。

图5 为本发明实施例中提供的数据包装代理（Wrapper）方法的执行步骤流程示意图。

图6为本发明实施例中提供的基于智能代理的数据模式监控方法的执行流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

参见图1，一种面向制造业数据空间的大数据体系结构构建方法，具体包括以下步骤：

如图2所示，所述的多维数据空间模型包含业务域、处理域和模态域三个维度。

所述的多维数据空间模型中的数据空间是基于iMeMex数据模型(iDM)组织建立的，其基本概念及其特性如下所示：

所述的数据空间基本概念，即：数据空间是与主体相关的数据及其关系的集合，数据项是数据空间的构成基本单位，主体相关性和可控性是数据空间中数据项的基本属性。主体、数据集、服务是数据空间的三大要素，主体是指数据空间的拥有者，在这里制造企业是主体，数据集是与制造企业相关的所有可控数据的集合，制造企业通过数据空间管理系统所提供的服务对数据空间的数据集进行管理，这里的服务将在步骤S3中进行具体阐述。

所述的数据空间具有以下特性：

1.数据分散异构：

数据空间中的数据可以来自多个不同的数据源，在这里制造企业数据空间数据的主要来源是制造企业设计、制造、管理、服务四大业务领域。数据格式更是可以多种多样，可能包含关系表、文本、电子邮件、图像、音频、视频等多种异质的数据，数据空间所管理的数据包含了主题所需的关系数据库中结构化数据，XML数据库或Latex文件中半结构化数据，以及非结构化的文本流数据等。由于数据的分布性，异构性等特征使得数据空间初期数据之间缺乏明确的语义信息，无法构建数据间确定的模式信息。数据空间可能会出现交叉重叠的情况，由于数据空间是与主体相对应的，不同的主体对应的数据空间是有可能重叠的，一个数据项可能既属于主体A，又属于主体B。例如：制造企业中的物料信息数据，既属于主体制造业务又属于主体管理业务。

2.模式松散滞后：

在数据空间中先有数据，后有模式，根据已有数据不停归纳出最适合的数据模式，即数据优先，模式滞后。数据空间采用图模型构建一个松散滞后的模式，数据空间从数据到模式不依赖严格的数据模式，其数据模式是在数据的基础上，根据主体的需求逐步演化而来，是不断变化的，数据空间并不是无模式的。

3.按需集成方式：

数据空间是以一种基于主体需要的演化集成方式（pay-as-you-go）构建的，该数据集成方式可以部分实现按需集成。在数据空间初建时，所含数据差异大、相互关联少；随着数据空间的长时间使用，数据演化引擎根据人们的需求不断对数据进行演化处理，数据空间中的数据随着主体的发展而不断变化，一些新的数据项会加进来，同时一些不再具有应用价值的数据项会消失。数据的真实含义逐步被数据空间归纳理解，数据之间的关联关系逐步清晰，语义信息也逐步明确，最终呈现出符合用户心意的数据模式及数据形态。

4.提供尽力服务：

数据空间中的数据关联是受控于主体的，数据空间中的数据项一定是对于实体有意义的，只有当数据空间主体认为必要时，才会将数据保存到数据空间中，才会在数据间建立关联，且这种关联是复杂动态演化的。因为数据关系是根据主体需要逐步建立的，这也使得对于数据的操作结果可能不是最优的而是次优的，故数据空间对于数据提供的服务是尽力最优的。

5.查询方法多样：

数据空间的异构数据特征决定了不能仅仅提供一种类型的查询方式，例如：搜索引擎中的关键字查询或关系数据库中的结构化查询，而是多种查询方式相结合。由于数据空间的 Pay-as-you-go 特性使得需要提供从关键字查询到结构化查询等多样化搜索查询服务，例如，起初由于抽取信息较弱和数据源之间没有建立语义关联，可以只提供基本的关键字搜索服务，随着时间的推移用户和系统将会逐渐的建立更多的模式、语义关联信息，系统也将能够支持更加丰富的查询方式。与传统的索引方法不同，数据空间中的索引方法需要能够索引多种格式数据，同时支持关键字查询和结构化查询等多种查询方式。

资源视图V由四元组(η，τ，χ，γ)表示，若资源视图V的四个组件之一为空，则该资源视图V不写出该组件或写出其结果为Null；其中四个组件的含义如下：

名称组件η为表示资源视图名称的字符串；

由上述组件含义可以得知：一个资源视图是一些组件序列，这些组件表示结构化、半结构化和非结构化数据。数据空间中各个数据源尽管格式各不相同，却能由iDM清晰丰富统一描述出异构数据的数据模型。

在一些实施例中，“设计业务”文件夹下的一些文件和文件夹层次信息如图3所示。图3中以“设计业务”文件夹管理部分异构设计业务数据：文件夹“软件数据”给出了其中包含的子文件并展示了文件“CAD软件数据.xls”的详细内容片段；文件夹“设计图片”给出了其中包含的子文件“设计图1.jpg”；文件夹“设计师名单”给出了其中包含的子文件“设计师信息.xls”的详细内容片段；文件夹“设计方案”给出了其中包含的子文件并展示了文件“方案1.doc”的详细内容片段。

具体地，在一些实施例中，将图3中的异构设计业务数据统一用资源视图表示后组成的资源视图模型如图4所示，它打破了文件，文件夹以及文件内容的界限。其中，节点代表资源视图，每个节点是通过资源视图的名称来标识的；有向边代表资源视图之间的关系，这些关系是由资源视图的组（关系）组件γ体现出来的。在iDM中，文件夹及文件被统一表示为资源视图，而且文件内容的一些结构化信息也被表示为资源视图。例如：文件CAD 软件数据.xls中的每行数据被表示为一个资源视图，代表一幅仿真图的信息；文件方案1.doc的“设计要求”，“设计方法”部分也被分别表示为一个资源视图。

接下来，给出图中资源视图组件内容的详细定义。对于设计师信息.xls文件内容中的001结点，将定义为：V001=(η001,τ001,χ001,γ001)，其中

η001=‘001’；

τ001=（W，T）；W=<工号：String，姓名：String，性别：String，联系方式：String>

T=<‘001’,‘张三’,‘女’,‘12345678988’>；

χ001=<>；

γ001=(S,Q)；S={},Q=<>.

该数据空间模型中的数据空间基于iMeMex数据模型(iDM)组织建立，提出了一种统一资源视图概念和形式化的表示方法，能够实现对各种数据类型（如文档，目录，关系表，XML文档，数据流等）的统一表示，突破了数据对象和文件系统的边界，将对象内部数据和外部数据统一表示。该数据空间模型能够概括数据空间的特点，提供高效的数据服务，使制造企业数据可以在数据空间中给出明确定义和定位，从而形成统一的制造大数据定义与定位方法。

所述的制造企业数据业务域的维度主要包括设计、制造、管理、服务四大业务领域，如图1所示。制造企业数据空间根据这四个维度划分为四个区域（区域A，B，C，D）便于设计、制造、管理、服务四大业务领域数据的分类存放。

所述的步骤S2中制造企业数据业务域体系架构主要包括集成数据进程和更新数据进程。

具体地，所述的集成数据进程，即：根据制造数据在制造行业不同维度对应的业务领域不同，大致可以归类为设计、制造、管理、服务四类大数据。其中，

设计业务大数据来源主要包括：CAD、CAE软件仿真系统数据、设计方案、设计案例、设计图形、设计图纸、设计模型等数据；

制造业务大数据来源主要包括：MES系统数据、人员信息，设备物联数据，物料信息，生产数据，环境信息等数据；

管理业务大数据来源主要包括：WMS系统数据、材料库存信息、供应链数据、售后信息等数据；

服务业务大数据来源主要包括：产品运行状态信息、客户反馈数据、客服记录、订单信息、物流配送信息等数据。

四大业务的数据均包含结构化数据（用关系型数据库来表示和存储，如MySQL、Oracle、SQL Server等，用来表现二维形式的数据），半结构化数据（数据格式不固定，常见数据格式为XML和JSON，可通过灵活的键值调整来获取相应信息）和非结构化数据（没有固定数据结构，它包含全部格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等，Hadoop或Spark等分布式文件系统下使用NoSQL或Hbase进行存储）。

通过数据包装代理（Wrapper）的方法实现以上四类大数据的集成：四个包装器对应设计、制造、管理、服务四大业务领域的数据源（包装器A操作于CAD、CAE工具软件，包装器B操作于MES（生产执行）系统，包装器C操作于WMS（仓库管理）系统，包装器D操作于服务平台（网站、微信、APP等应用程序）），对特定数据结构格式的数据对象采用特定对应的Wrapper进行数据特征信息抽取和标识，再通过模式匹配的方法确定数据对象在数据空间中是否已经存在或者是否与主体相关，排除已经存在于数据空间以及与主体不相关的数据对象，最后剩下的数据对象存放于各个相应数据空间区域内（区域A，B，C，D），完成集成数据进程。

所述的数据包装代理（Wrapper），即：数据空间在查询数据源时，通过读取该数据源的配置信息动态生成特定的Wrapper对象实例，并在Wrapper中解决了字段名和类型的不同及语义不匹配等问题。

每一个Wrapper都包含三类Wrapper，分别是针对于结构化数据收集的StruWrapper，针对于半结构化数据收集的SemistruWrapper以及针对于非结构化数据收集的UnstruWrapper。

具体地，Wrapper执行步骤如下：

首先，在Wrapper接收到来自主体的数据收集需求指令后，会对特定数据源发出查询请求，在得到响应后，特定对应Wrapper会生成对应数据源的查询语句（例如：StruWrapper对于MySQL等关系数据库采用SQL语句，SemistruWrapper对于XML文档采用XQuery语句，UnstruWrapper对于网页数据(HTML)采用XPath语句或CSS选择器等）对数据源进行查询操作；

然后，经过语义转换运算将得到的查询结果重组为新列，得到重组结果（以资源视图表示）；

最后，Wrapper对重组结果进行查询操作并将返回的数据结果放入相应数据空间区域内。

图5是数据包装代理（Wrapper）的执行步骤流程图。

所述的语义转换运算，即：

将数据源的数据按照数据空间的现有数据模式要求集成到数据空间中，建立起数据源局部模式和数据空间全局模式的语义映射，确定其数据模式，增强数据空间的语义凝聚力。

所述的模式匹配，即：

首先，将数据源的数据与数据空间现有数据进行匹配，确定该数据是否已经存在于数据空间，存在即放弃该数据；

然后，通过评价机制对数据对象与主体的相关性进行评估，如果数据对象与主体不相关即放弃该数据。

如图4所示是经数据包装代理（Wrapper）方法采集和模式匹配方法判别后的部分异构设计业务数据统一用制造企业数据空间内资源视图表示后组成的资源视图模型示例。资源视图模型的粒度（数据内容的资源视图表示）与数据包装代理（Wrapper）技术密切相关，数据包装代理（Wrapper）技术逐步细化每个资源视图结点。

所述的更新数据进程，即：通过数据包装代理（Wrapper）的方法可以使得数据空间间接与各个工具软件、平台和应用程序连接，方便实时进行新数据的收集获取，实现对数据源的“即插即用”。

此外，iMeMex数据模型(iDM)采用一种在数据空间中手工实现“Pay-as-you-go”的信息集成方法iTrail，作为一种数据项之间的轻量级线索（trails）来逐渐发现数据项之间的联系信息，来使松散的集成数据源能够逐渐丰富，从一定程度上缓解了构建语义集成带来的困难。但是该方法过于缓慢，为了提升数据空间更新集成的速度，特此创新性提出基于智能代理的数据模式监控方法。

通过基于智能代理的数据模式监控方法来监控数据空间内部数据变化，抽取现有数据模式，发现实时数据关系，同时提取当前主体特性并进行形式化表示，根据主体需求完善和修改当下数据关系，确定最终所需数据模式，反馈到集成数据进程，推动数据空间的更新，完成更新数据进程。

优选地，所述的基于智能代理的数据模式监控方法，即：智能代理是一种运行于动态环境中，具有应激性、自制性的软件实体。智能代理在用户没有明确具体要求的情况下，根据实际需要，可以进行自动执行用户委任的任务。智能代理具有以下特点：

（1）智能性：具有使用推理，学习和其他技术来分析解释它已接触过的或提交给它的各种信息和知识的能力。具有丰富的知识和一定推理能力，能揣测用户的意图，会处理复杂的高难度任务，对用户的需求能分析地接收，自动拒绝一些不合理或可能给用户带来危害的要求，而且具有从经验中不断学习的能力，适当的进行自我调节，提高处理问题的能力。

（2）代理性：具有感知其环境并相应动作的能力，即自治能力和感知能力。在功能上是用户的某种代理，它可以代理用户完成一些任务，并将结果主动反馈给用户。

其中智能代理的关键技术如下所示：

（1）机器技术：机器技术中的核心是推理机和学习机，它们提供了智能代理所需的推理能力和学习能力。推理机依赖于外部事件和一套外部数据（规则基），通过其外围逻辑接口的输入而进行逻辑推理，从而使代理产生各种可能行为。学习机则提供了修改规则基和长期事实的能力，包括增加新规则，修改过期规则，增加新事实，修改信任系数等。机器技术是构成智能的核心技术；

（2）内容技术：内容技术用于推理和学习数据，但它不一定就是知识，它主要包括属于结构化知识的规则，语法，大量非结构化的通用知识和结构化的数据。内容技术是机器技术中推理机，学习机等引擎运转的基础，亦影响着代理的智能性。此外，智能代理可以通过对用户行为的观察或其他启发进行学习。

（3）访问技术：访问指的是智能代理同它周围环境进行交互的程度。智能代理能够感知其环境中发生的事件并且能够采取相应动作。在将访问函数结合到机器的动作过程中后，通过推理和学习就可以同本地或外部的应用进行交互。访问技术与智能代理的代理能力有关，不同程度不同类别的访问技术将决定代理能力的不同。

将智能代理运用到数据空间内部数据模式监控中，形成基于智能代理的数据模式监控技术，主要运用的是智能代理的机器技术，内容技术和访问技术，形成包含监控分析代理和检测验证代理的多代理网络架构的数据模式监控代理。监控分析代理通过监控内部数据变化，基于关联规则挖掘算法Apriori对数据进行推理，学习，从现有的数据中挖掘出数据间的语义联系从而学习出当前的数据模式，并将当前数据模式信息传送至检测验证代理中，检测验证代理再依据当前数据空间环境，进行针对于数据空间当前数据模式的自适应学习，将自适应学习结果与来自监控分析代理传送的数据模式信息进行比对，最后根据主体企业对于该数据模式的反馈信息（增加定义，修改或删除部分关联关系等）决定该数据模式信息最终的合法性，若合法则据此执行集成数据进程，推动完成数据空间的更新。

基于智能代理的数据模式监控方法执行流程图如图6所示，基于数据空间图的逻辑模型、其没有严格的数据模式，其数据分布存储的特点，制造企业数据业务域体系架构将制造企业中设计、制造、管理、服务四大业务领域各大类分散、零乱、标准不统一的数据整合到一起，按一定资源视图的规则转换从而在逻辑上能进行有效集成，形成能够被识别格式和运用的数据，能为制造企业形成更完整全面的全局数据共享。

制造企业数据业务域体系架构定义了业务战略、管理、组织和关键业务的流程，是企业全面的信息化战略和信息系统架构的基础，是数据、应用、技术架构的决定因素，它将高层次的业务战略和目标转换成可操作的业务模型，对业务的主要流程和共享流程进行适当划分。

步骤S3中的建立制造企业数据模态域体系架构；如图2所示，其中所述的制造企业数据模态域的维度主要包括结构化数据、半结构化数据和非结构化数据三种数据模态。

制造企业数据模态域的三个维度为数据添上了属性标签（一个数据项对应一个属性标签：结构化数据，半结构化数据或非结构化数据），企业决策者可以通过该属性标签分类查询查看三种数据模态数据。

所述的查询查看三种数据模态数据，以下附上具体查询方法：

（1）具有内容信息的关键字查询：关键字查询是有多个关键字组成的集合{K1，…，Kn}，假设包含关键字K1的资源视图集合为S1，包含关键字 K2的资源视图集合为S2，依次类推，最终得到集合S1，S2，…，Sn，求S1∪S2，…，∪Sn得到最终结果。例如，搜索关键字“设计图片”将返回包含设计图片的资源视图，在这里，包含设计图片可以是名称组件、元组组件和内容组件中的任何一个。

（2）具有结构信息的谓词查询：一个谓词查询包含一个谓词集合。每一个谓词形式如下：(v，{K1，…，Kn})，v称为谓词，可以是一个属性名，K1，…，Kn是关键字，如果一个资源视图的元组组件中具有属性谓词v，且对应的属性值是{K1，…，Kn}其中之一，则这个资源视图满足查询要求。例如，一个简单的谓词查询(姓名，{“张三”，“李四”})，这个查询的目的是搜索那些元组组件中属性名为姓名且属性值为“张三”或“李四”的资源视图。

（3）具有内容和结构信息的路径表达式查询：路径表达式查询方式如下：“/t1/t2… /tk”，其中，除了tk，每一个ti都是一个标记，或者为资源视图名称组件，tk除了ti的情况外，还可能是元组组件中的属性和内容组件中的关键字；/表示两个资源视图的直接相关关系。例如，搜索“设计业务/设计方案/方案1/设计要求”，将返回路径设计业务/设计方案/方案1下面包含关键字“设计要求”的资源视图；其中，方案1是一个资源视图的名称组件，则“设计要求”就是这个资源视图内容组件中的关键字。查询“设计业务/设计师名单/设计师信息/工号”，搜索返回所有设计人员的工号。设计师信息是一个资源视图的名称，则工号即为这个资源视图的属性名。

制造企业数据模态域体系架构，基于数据业务域体系架构，为企业提供了多维度多方面经数据业务域体系架构集成和更新的制造数据的可视化，让制造企业决策者可以更全面，更清晰地了解企业的数据状态情况，有效提升企业处理多模态大数据的能力和效率。

最后，步骤S4中的建立制造企业数据处理域体系架构；其中，所述的制造企业数据处理域的维度依次包含数据获取/记录、数据抽取/清洗/注释、集成/聚集/表达、分析/建模、解释/应用五大数据处理操作维度。在步骤S1中所述的服务，即制造企业数据处理域体系架构提供的五大数据处理操作。

制造企业数据处理域体系架构基于数据业务域体系架构，对经数据业务域体系架构集成和更新的制造数据，提供数据获取/记录、数据抽取/清洗/注释、集成/聚集/表达、分析/建模、解释/应用等数据处理操作，进行深入数据处理操作并获取结果，旨在能够从全生命周期跟踪制造数据，逐步提高制造数据质量，使制造数据充分发挥其特点优势，能为制造企业未来做重大决策提供预测参考，贡献力量，从而促进制造企业的繁荣发展。

具体地，所述的数据获取/记录，即根据企业业务需求，将制造数据从制造企业数据空间中获取出来，记录到进行数据处理操作的相应软件中，例如：Python语言操作软件Pycham等。

具体地，所述的数据抽取/清洗/注释，即：从制造企业数据空间中抽取数据，可能会出现获取的数据遗漏或取值奇异等情况，故在进行其他深入数据处理操作前要要进行数据清洗操作，去除不符合要求的数据，并对必要数据进行数据注释操作。

具体地，所述的数据清洗操作，包括：

1、删除或补全有信息缺失的数据：对每个数据字段确定缺失范围，缺失关键数据字段的数据直接进行舍弃，非关键的数据以业务知识或经验推测、同一指标或不同指标的计算结果填充缺失值，若存在实在不能补全信息的数据，则直接进行删除操作，因为大量数据中删除个别样本不会影响最终结果；

2、删除内容有错误、矛盾的数据：有错误、相互矛盾的数据可能会干扰到对数据的分析，得到一个错误的结论，为保证数据的正确性故直接剔除它们。

3、删除逻辑错误的数据：根据业务规则将逻辑错误的数据进行舍弃，保证数据逻辑正确；

4、删除不需要的数据：对于有多个来源的数据，有必要进行关联性验证，如果不关联，需要将这个数据进行去除操作，除去与业务规则无关的数据，保证数据的相关性；

5、删除或合并重复的数据：通过一定的规则判断出存在数据重复，则对重复的数据进行删除或合并处理，从而避免数据的冗余；

优选地，所述的集成/聚集/表达，即根据企业业务需求，将制造企业所需各类相关制造数据进行一定规则地转换，在逻辑上或物理上进行有效集成/聚集/表达，形成能够被识别和运用的数据或格式，为制造企业提供完整全面的全局数据可视化共享。

优选地，所述的分析/建模，即根据制造企业对于所需制造数据的预期数据处理操作目标，针对于经过清洗注释集成的数据，采用人工智能大数据等前沿技术进行数据分析，建立构造相应解决企业实际问题的数据模型，得到制造企业目标所求的数据结果。

优选地，所述的解释/应用，即针对于经过分析/建模的制造数据结果，再结合制造企业现实情况进行准确解释并应用于制造企业日常业务开展中。

本发明提供的构建方法通过建立制造企业多维数据空间模型，数据空间由业务域、模态域和处理域三个维度组成，使制造企业数据可以在数据空间中拥有明确解释，形成统一的制造大数据定义与定位方法；通过建立制造企业数据业务域体系架构，有利于优化制造企业现有的设计、管理、制造、服务四大业务，实现提质增效；通过建立制造企业数据模态域体系架构，可以有效提升企业处理多模态大数据的能力和效率；通过建立制造企业数据处理域体系架构，能够从全生命周期跟踪数据，提高数据质量，为企业未来重大决策提供数据支撑。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向制造业数据空间的大数据体系结构构建方法，其特征在于，包括以下步骤：

所述更新数据进程采用基于智能代理的数据模式监控方法监控数据空间内部数据的变化；

所述检测验证代理，依据当前数据空间环境，进行针对于数据空间当前数据模式的自适应学习，将自适应学习的结果与来自监控分析代理传送的数据模式信息进行比对，再根据主体对于数据模式的反馈信息，决定该数据模式信息最终的合法性，若合法则执行集成数据进程，推动完成数据空间的更新；

S4、在处理域维度建立若干数据处理维度来处理操作业务域维度中的制造业数据并获取结果；

所述多维数据空间模型是基于iMeMex数据模型组织建立的。

2.根据权利要求1所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，资源视图由四元组V(η，τ，χ，γ)表示，若资源视图V的四个组件之一为空，则该资源视图不写出该组件或写出其结果为Null；其中四个组件的含义如下：

名称组件η为表示资源视图名称的字符串；

（1）当S是有穷集合时，S ={Vs1，Vs2，…，Vsm}，当S是无穷集合时，S ={Vs1，Vs2，…，Vsm}，m→∞，Vsi，i=1，2，3，…，m，且m为自然数，代表任意一个资源视图；同样，当Q是有穷序列时，Q=<Vq1，Vq2，…，Vqn>，当Q是无穷序列时，Q=<Vq1，Vq2，…，Vqn>，n→∞，Vqi，i=1，2，3，…，n，且n为自然数，代表任意一个资源视图；

3.根据权利要求1所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，所述业务域维度包括若干数据空间区域，用于分类存放设计、制造、管理、服务业务领域的数据；制造业数据包括结构化数据、半结构化数据或非结构化数据三种数据模态。

4.根据权利要求1所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，采用数据包装代理的方法实现所述集成数据进程，所述数据包装代理包括收集结构化数据的结构化数据包装代理、收集半结构化数据的半结构化数据包装代理和收集非结构化数据的非结构化数据包装代理。

5.根据权利要求1所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，所述集成数据进程包括：

S22、当数据包装代理接收到来自请求主体的数据收集需求指令后，根据数据源的特征信息和标识发出查询请求，对应的数据包装代理种类生成对应的数据查询语句进行查询操作并得到查询结果；

6.根据权利要求5所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，所述语义转换运算是将数据按照数据空间的数据模式要求集成到数据空间中，建立起数据源局部模式和数据空间全局模式的语义映射，从而确定数据模式。

7.根据权利要求1所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，查询查看方法包括具有内容信息的关键字查询、具有结构信息的谓词查询与具有内容和结构信息的路径表达式查询。

8.根据权利要求1所述的面向制造业数据空间的大数据体系结构构建方法，其特征在于，所述若干数据处理维度包括数据获取或记录维度、数据抽取或清洗或注释维度、集成或聚集或表达维度、分析或建模维度和解释或应用维度。