CN116257594A

CN116257594A - 一种数据重构方法及系统

Info

Publication number: CN116257594A
Application number: CN202310169635.3A
Authority: CN
Inventors: 陆超; 唐发朝; 李辉; 杨锦昌; 洪学超; 赵雪生
Original assignee: AECC Sichuan Gas Turbine Research Institute
Current assignee: AECC Sichuan Gas Turbine Research Institute
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-13

Abstract

本发明公开了一种数据重构方法及系统，包括：进行多源异构数据的融合，获取融合数据；对所述融合数据进行异常数据处理，获取处理后的融合数据；对处理后的融合数据进行升维，以获取多维数据，实现数据重构。本发明能够解决试验数据中管理混乱、数据孤岛严重、无法统一汇总管理以及试验数据字段的属性单一、表达能力弱、无法充分利用的问题，能够为动态、高效、实时的试验数据分析提供有力的支撑，有效地提升企业的生产效率与竞争力，实现产品的生产过程智能化、流程管理智能化和制造模式智能化。

Description

一种数据重构方法及系统

技术领域

本发明涉及数据处理技术领域，并且更具体地，涉及一种数据重构方及系统。

背景技术

我国航空工业系统中各种试验场景下产生的大量试验数据，普遍存在多源异构、属性单一等特点，同时试验数据处理工具或系统多是分散独立，因数据割裂而造成的“数据孤岛”现象较为严重。

因此，需要一种数据重构方法。

发明内容

本发明提出一种数据重构方法及系统，以解决如何进行数据重构的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种数据重构方法，所述方法包括：

进行多源异构数据的融合，获取融合数据；

对所述融合数据进行异常数据处理，获取处理后的融合数据；

对处理后的融合数据进行升维，以获取多维数据，实现数据重构。

优选地，其中所述进行多源异构数据的融合，获取融合数据，包括：

根据实际业务需求，基于不同维度建立全数据目录；

建立统一的数据模型，以对象模型的形式存储和管理用户需求的标准规范的数据对象模型和元数据模型信息；

基于数据仓库技术ETL工具将不同数据源的异构数据导入到统一的目录下，以实现数据融合，获取融合数据。

优选地，其中所述对所述融合数据进行异常数据处理，获取处理后的融合数据，包括：

采用忽略元组、全局变量、属性的平均值或中间值进行空缺值的补齐；

采用分箱法进行噪声数据的替换；

采用条件函数依赖、标准函数库和汇总分解函数来进行不一致数据的清洗；

采用优先队列算法、近邻排序算法或多趟近邻排序算法进行重复数据的清洗。

优选地，其中所述对处理后的融合数据进行升维，以获取多维数据，实现数据重构，包括：

分析不同层面的业务维度扩展需求，并利用逻辑关联业务思维和统计方法提取进行数据维度扩展需求的关键特征，并基于所述关键特征对处理后的融合数据进行升维，以获取多维数据，实现数据重构。

根据本发明的另一个方面，提供了一种数据重构系统，所述系统包括：

数据融合单元，用于进行多源异构数据的融合，获取融合数据；

数据清洗单元，用于对所述融合数据进行异常数据处理，获取处理后的融合数据；

数据升维单元，用于对处理后的融合数据进行升维，以获取多维数据，实现数据重构。

优选地，其中所述数据融合单元，进行多源异构数据的融合，获取融合数据，包括：

根据实际业务需求，基于不同维度建立全数据目录；

优选地，其中所述数据清洗单元，对所述融合数据进行异常数据处理，获取处理后的融合数据，包括：

采用分箱法进行噪声数据的替换；

优选地，其中所述数据升维单元，对处理后的融合数据进行升维，以获取多维数据，实现数据重构，包括：

分析不同层面的业务维度扩展需求，并利用逻辑关联业务思维和统计系统提取进行数据维度扩展需求的关键特征，并基于所述关键特征对处理后的融合数据进行升维，以获取多维数据，实现数据重构。

基于本发明的另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种数据重构方法中任一项的步骤。

基于本发明的另一方面，本发明提供一种电子设备，包括：

上述的计算机可读存储介质；以及

一个或多个处理器，用于执行所述计算机可读存储介质中的程序。

本发明提供了一种数据重构方法及系统，包括：进行多源异构数据的融合，获取融合数据；对所述融合数据进行异常数据处理，获取处理后的融合数据；对处理后的融合数据进行升维，以获取多维数据，实现数据重构。本发明能够解决试验数据中管理混乱、数据孤岛严重、无法统一汇总管理以及试验数据字段的属性单一、表达能力弱、无法充分利用的问题，能够为动态、高效、实时的试验数据分析提供有力的支撑，有效地提升企业的生产效率与竞争力，实现产品的生产过程智能化、流程管理智能化和制造模式智能化。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的数据重构方法100的流程图；

图2为根据本发明实施方式的数据展示示意图；

图3为根据本发明实施方式的数据清洗的示意图；

图4为根据本发明实施方式的数据升维的示意图；

图5为根据本发明实施方式的数据重构系统500的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

本发明针对航空发动机试验数据来源多、数据类型杂、数据口径不一致一级数据属性单一等问题，提出一种基于多源数据抽取融合、清洗和升维技术的航空发动机试验数据重构方法，着力解决航空发动机试验数据利用率低、信息孤单严重等问题。进一步地为动态、高效、实时的发动机试验数据分析提供有力的支撑，有效地提升航空工业企业的生产效率与竞争力，实现航发产品的生产过程智能化、流程管理智能化和制造模式智能化。

图1为根据本发明实施方式的数据重构方法100的流程图。如图1所示，本发明实施方式提供的数据重构方法，能够解决试验数据中管理混乱、数据孤岛严重、无法统一汇总管理以及试验数据字段的属性单一、表达能力弱、无法充分利用的问题，能够为动态、高效、实时的试验数据分析提供有力的支撑，有效地提升企业的生产效率与竞争力，实现产品的生产过程智能化、流程管理智能化和制造模式智能化。本发明实施方式提供的据重构方法100，从步骤101处开始，在步骤101，进行多源异构数据的融合，获取融合数据。

根据实际业务需求，基于不同维度建立全数据目录；

在本发明中，数据融合可以应用于航空试验数据。数据治理的数据对象来源于不同的参试装备、不同试验场区、不同数据类型，数据采集后，按统一的试验组织架构进行自动汇总和数据组织展示，方便多类型数据融合应用，并依据不同的管理维度，比如：产品维护、部门维度、数据种类维度等组织形成多种展示视图，如图2所示。

在本发明中，数据融合的过程包括：

(1)建立统一的数据目录

其中，根据实际业务需求建立全数据目录，统一数据的管理和组织架构，数据目录不唯一，可以从多个维度建立该目录，包括从产品、时间、单位、数据类型等方面。

(2)定义标准化数据模型

其中，根据标准规范，建立统一的数据模型。以对象模型的形式存储和管理用户所需要的标准规范的数据对象模型、元数据模型等信息，实现标准规范对象数据模型的自定义、能力，并通过数据模型编辑器、业务组件模型编辑器、应用生成编辑器等工具实现动态搭建数据中心基础的标准管理模型的全过程可视化，为系统应用扩展奠定基础。

(3)多源异构数据融合的映射

其中，基于ETL工具定义数据融合模板，进行数据清洗、转换和导入任务的制定，将数据从不同的数据源导入到统一目录下管理。同时，在抽取导入的过程中，通过对数据中的字段内容映射完成了数据存储模型(库表)的标准化转换。

其中，多种数据源，包括：Orac l e(源)、SQL Server(源)、神通(源)、金仓(源)、达梦(源)、Access(源)、MySQL(源)、试验base(源)、CSV(源)、Txt(源)、SQLLite(源)、CSV(源)、JDBC(源)、XML(源)、JSON(源)、ETL附件上传(源)等。多种目标源：Orac l e(目标)、Exce l(目标)、Txt(目标)、高级Word(目标)、高级Exce l(目标)、SQLLi te(目标)等。能够实现字段映射、字段自动映射、跨异构数据库关联等的数据转换。

在步骤102，对所述融合数据进行异常数据处理，获取处理后的融合数据。

采用分箱法进行噪声数据的替换；

结合图3所示，在本发明中，通过数据清洗对融合数据中原始数据中进行无效异常数据的过滤以及缺失数据的补齐。例如，通过平均值、最大值、最小值、中位数等实现补齐，并将预定义清洗模式统一应用在大数据与人工智能平台的全量数据上。机器学习引擎提供数据清洗能力，包括对原始数据的无效、异常数据的过滤，缺失数据的补齐。并将预定义清洗模式统一应用在大数据与人工智能平台的全量数据上。

具体地，在本发明中，数据处理的过程包括：

清洗空缺值：采用忽略元组、全局变量、属性的平均值和中间值等统计值来填充空缺值。

清洗噪声数据：采用分箱法，“箱的深度”表示不同的箱里有相同个数的数据，“箱的宽度”表示每个箱中数值的取值区间为常数，把属性值分配到等深或等宽的“箱”中，用箱中属性值的平均值来替换“箱”中的属性值。

清洗不一致数据：采用条件函数依赖、标准函数库和汇总分解函数来清洗。例如属性之间的关系采用函数依赖来清洗不一致数据。

清洗重复数据：针对重复数据的清洗方法有优先队列算法、近邻排序算法、多趟近邻排序。优先队列法首先会根据数据集关键词进行排序，再对排序后的顺序依次扫描数据集。近邻排序法通过关键字进行排序，采用固定大小的滑动窗口在排序后的数据集上滑动并重复检测窗口，减少记录的比较次数。多趟近邻排序法在数据集上使用近邻排序方法，但使用的是不同的关键词和较少的窗口，而且还要对算法的结果求传统闭包。

在步骤103，对处理后的融合数据进行升维，以获取多维数据，实现数据重构。

对于抽取的试验数据，普遍存在着数据属性单一、分析维度不足等问题，这既要从技术的角度考虑数据升维，又不能完全依赖于技术，要适当地从业务方面结合领域知识或实践经验去梳理与分析原始数据，思索其升维后的潜在形式和数据结构，从中挖掘出数据升维的部分特征，最终满足用户的多维试验数据需求。

因此，如图4所示，在本发明中，以业务为抓手，从单一试验数据的业务角度出发，梳理与分析出工艺优化、寿命预测和环境试验性等不同层面的业务维度扩展需求，并利用逻辑关联等业务思维和统计方法提取这些数据维度扩展需求的关键特征，利用数据关联规则挖掘方法，从业务逻辑思路里提取用户数据升维需求的新可用特征。

其中，经典频集方法是一种挖掘布尔关联规则的频繁项目集的算法，该算法将关联规则挖掘分解为两个子问题：

找出存在于事务数据库中所有的频繁项目集。即那些支持度大于用户给定支持度阈值的项目集。

在找出的频繁项目集的基础上产生强关联规则。即产生那些支持度和可信度分别大于或等于用户给定的支持度和可信度阈值的关联规则。

经典频集方法的主要工作在于寻找频繁项集，所有的关联规则都是在频繁项目集的基础上产生的，该方法利用了频繁项集的向下封闭性，即频繁项集的子集必须是频繁项集。

第一个步骤是挖掘关联规则的关键步骤，挖掘关联规则的总体性能由第一个步骤决定，因此，所有挖掘关联规则的算法都是着重于研究第一个步骤。

第二步相对容易些，因为它只需要在已经找出的频繁项目集的基础上列出所有可能的关联规则，同时，满足支持度和可信度阈值要求的规则被认为是有趣的关联规则。

图5为根据本发明实施方式的数据重构系统500的结构示意图。如图5所示，本发明实施方式提供的数据重构系统500，包括：数据融合单元501、数据清洗单元502和数据升维单元503。

优选地，所述数据融合单元501，用于进行多源异构数据的融合，获取融合数据。

优选地，其中所述数据融合单元501，进行多源异构数据的融合，获取融合数据，包括：

根据实际业务需求，基于不同维度建立全数据目录；

优选地，所述数据清洗单元502，用于对所述融合数据进行异常数据处理，获取处理后的融合数据。

优选地，其中所述数据清洗单元502，对所述融合数据进行异常数据处理，获取处理后的融合数据，包括：

采用分箱法进行噪声数据的替换；

优选地，所述数据升维单元503，用于对处理后的融合数据进行升维，以获取多维数据，实现数据重构。

优选地，其中所述数据升维单元503，对处理后的融合数据进行升维，以获取多维数据，实现数据重构，包括：

本发明的实施例的数据重构系统500与本发明的另一个实施例的数据重构方法100相对应，在此不再赘述。

基于本发明的另一方面，本发明提供一种电子设备，包括：

上述的计算机可读存储介质；以及

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种数据重构方法，其特征在于，所述方法包括：

进行多源异构数据的融合，获取融合数据；

2.根据权利要求1所述的方法，其特征在于，所述进行多源异构数据的融合，获取融合数据，包括：

根据实际业务需求，基于不同维度建立全数据目录；

3.根据权利要求1所述的方法，其特征在于，所述对所述融合数据进行异常数据处理，获取处理后的融合数据，包括：

采用分箱法进行噪声数据的替换；

4.根据权利要求1所述的方法，其特征在于，所述对处理后的融合数据进行升维，以获取多维数据，实现数据重构，包括：

5.一种数据重构系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述数据融合单元，进行多源异构数据的融合，获取融合数据，包括：

根据实际业务需求，基于不同维度建立全数据目录；

7.根据权利要求5所述的系统，其特征在于，所述数据清洗单元，对所述融合数据进行异常数据处理，获取处理后的融合数据，包括：

采用分箱法进行噪声数据的替换；

8.根据权利要求5所述的系统，其特征在于，所述数据升维单元，对处理后的融合数据进行升维，以获取多维数据，实现数据重构，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

权利要求9中所述的计算机可读存储介质；以及