CN114936203B

CN114936203B - 基于时序数据和业务数据融合分析的方法

Info

Publication number: CN114936203B
Application number: CN202210551354.XA
Authority: CN
Inventors: 张文; 姜朝露; 张真真
Original assignee: Beijing Smart Park Solution Technology Co ltd
Current assignee: Beijing Smart Park Solution Technology Co ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-04-07
Anticipated expiration: 2042-05-20
Also published as: CN114936203A

Abstract

本发明属于数据融合技术领域，具体涉及基于时序数据和业务数据融合分析的方法。所述方法执行以下步骤：步骤1：进行数据采集，包括：采集企业数据、生产数据、设备数据和传感器数据；并对采集到的数据进行数据规范处理，得到规范数据；所述规范数据包括：企业规范数据、生产规范数据、设备规范数据和传感器规范数据。本发明通过将时序数据和业务数据进行结合，从时域和频域进行数据分析，以找到状态变化，再基于状态变化对数据进行处理，降低数据的冗余度，同时利用状态机进行数据融合，在数据融合时，由于是基于状态融合的，相当于在进行数据融合分析之前就行了初步的融合，且融合过程基于状态改变的，可以提升后续数据融合分析的效率。

Description

基于时序数据和业务数据融合分析的方法

背景技术

信息融合是利用计算机技术将来自多个传感器或多源的观测信息进行分析、综合处理.从而得出决策和估计任务所需的信息的处理过程。另一种说法是信息融合就是数据融合.但其内涵更广泛、更确切、更合理，也更具有概括性.不仅包括数据，而且包括了信号和知识，由于习惯上的原因，很多文献仍使用数据融合。信息融合的基本原理是：充分利用传感器资源.通过对各种传感器及人工观测信息的合理支配与使用.将各种传感器在空间和时间上的互补与冗余信息依据某种优化准则或算法组合来，产生对观测对象的一致性解释和描述。其目标是基于各传感器检测信息分解人工观测信息.通过对信息的优化组合来导出更多的有效信息。

复杂工业过程控制是数据融合应用的一个重要领域。通过时间序列分析、频率分析、小波分析，从传感器获取的信号模式中提取出特征数据，同时，将所提取的特征数据输入神经网络模式识别器，神经网络模式识别器进行特征级数据融合，以识别出系统的特征数据，并输入到模糊专家系统进行决策级融合。专家系统推理时，从知识库和数据库中取出领域规则和参数，与特征数据进行匹配(融合)。最后，决策出被测系统的运行状态、设备工作状况和故障。

现有技术中，针对数据融合使用的方法一般是通过获取数据后，对这些数据使用预设的算法来整合和分析，这种方法虽然能够实现数据融合，但数据融合的效果高度倚赖于算法和规则的制定。

专利申请号为CN201410387772.5A的专利文献公开了一种基于交通多源数据融合的公交路况处理系统及方法，包括预处理模块、源数据处理模块、数据源评估模块、数据融合模块，预处理模块用于处理交通多源数据；源数据处理模块用于对非公交数据源路况计算结果数据进行处理；数据源评估模块包含一个用于评估数据源质量的评估框架，通过该评估框架处理能够得到多源数据对公交路况计算结果的可信度；数据融合模块基于数据源评估结果，对多源数据进行加权计算，最终得到所需的公交路况数据；显示模块将处理得到的公交路况图与地图文件进行叠加，显示全公交路网路况信息。

该发明通过建立评估评估数据源质量的评估框架，来评估可信度，以此进行加权的数据融合。但该方法依然高度倚赖于评估框架的构建，同时加权的数据融合方法，使得融合效果依然未能突破传统数据融合的上限。

发明内容

有鉴于此，本发明的主要目的在于提供基于时序数据和业务数据融合分析的方法，本发明通过将时序数据和业务数据进行结合，从时域和频域进行数据分析，以找到状态变化，再基于状态变化对数据进行处理，降低数据的冗余度，同时利用状态机进行数据融合，在数据融合时，由于是基于状态融合的，相当于在进行数据融合分析之前就行了初步的融合，且融合过程基于状态改变的，可以提升后续数据融合分析的效率。

为达到上述目的，本发明的技术方案是这样实现的：

基于时序数据和业务数据融合分析的方法，所述方法执行以下步骤：

步骤1：进行数据采集，包括：采集企业数据、生产数据、设备数据和传感器数据；并对采集到的数据进行数据规范处理，得到规范数据；所述规范数据包括：企业规范数据、生产规范数据、设备规范数据和传感器规范数据；

步骤2：将规范数据进行时序关联，得到时序数据；将规范数据进行业务关联，得到业务数据；所述时序数据为时域的数据；所述业务数据为频域的数据；同时时序数据和业务数据可以通过彼此之间的时频转换得到；

步骤3：定义多种时序状态，基于时序函数表达式进行状态变化监测，以找到状态变化的时间节点，将同一状态的时序数据划分为同一帧，不同状态的时序数据划分为不同帧，得到分帧时序数据；

步骤4：定义多种频域状态，基于频域函数表达式进行状态变化监测，以找到状态变化的频域节点，将同一状态的频域数据划分为同一集，不同状态的频域数据划分为不同集，得到分集频域数据；

步骤5：对分帧时序数据和分集频域数据进行数据融合，得到融合数据；

步骤6：对融合数据进行融合数据分析。

进一步的，所述步骤1中对采集到的数据进行数据规范处理，得到规范数据的方法包括：对每一条数据均建立数据内容、时间和类型的存储格式，每一条数据的内容对应一个时间和一个类型，同时添加一个数据ID标识作为数据的唯一标识；将所有数据的类型统一转换为浮点型。

进一步的，所述将规范数据进行时序关联，得到时序数据的方法包括：将规范数据视为二维坐标系中的一个点，得到规范数据的二维坐标系表达，所述二维坐标系的横轴为时间，纵轴为内容；将所有坐标点相连接，组成一条曲线；使用曲线函数拟合的方式，建立曲线的时序函数表达式，完成时序关联。

进一步的，所述将规范数据进行业务关联，得到业务数据的方法包括：对曲线的时序函数表达式进行时频转换，得到曲线的时序函数表达式对应的频域表达式；统计规范数据内所有数据的内容的出现频率，建立一个频域二维坐标系；所述频域二维坐标系的横轴为频率，纵轴为内容；将所有数据的内容和其对应的频率映射到频域二维坐标系中，将所有坐标点相连接，组成一条曲线；使用时序函数表达式对应的频域表达式进行拟合，建立曲线的频域函数表达式，完成业务关联。

进一步的，所述使用曲线函数拟合的方式，建立曲线的时序函数表达式的方法包括：在曲线的上下两侧分别绘制一根直线，以使得整个曲线被包围在绘制的两个直线内，不断移动两根直线，以使得直线与曲线的距离变小，直到两根直线与曲线的最短距离直线为0；使用如下公式，得到曲线的时序函数表达式：

其中，Y为内容，N为规范数据视为二维坐标系中的坐标点的个数；K₁和K₂分别为两根直线的斜率；d₁和d₂分别为两根直线的截距；t为时间。

进一步的，所述使用时序函数表达式对应的频域表达式进行拟合，建立曲线的频域函数表达式的方法包括：使用如下公式得到曲线的频域函数表达式：

其中，F为频域中的内容。

进一步的，所述步骤3中定义多种时序状态，基于时序函数表达式进行状态变化监测，以找到状态变化的时间节点的方法包括：将时序函数表达式作为输入变量代入预设的第一状态转换判定模型；所述第一状态转换判定模型为一个有限状态状态机，其状态共三个状态；所述状态转换判定模型不断调整输入变量的参数，以判断是否发生状态变化，若发生状态变化，则回溯其到对应的时间节点。

进一步的，所述步骤4中定义多种频域状态，基于频域函数表达式进行状态变化监测，以找到状态变化的频域节点的方法包括：将频域函数表达式作为输入变量代入预设的状态转换判定模型；所述状态转换判定模型为一个二元状状态机；所述状态转换判定模型不断调整输入变量的参数，以判断是否发生状态变化，若发生状态变化，则回溯其到对应的频率节点。

进一步的，所述步骤5中对分帧时序数据和分集频域数据进行数据融合，得到融合数据的方法具体包括：建立时序多状态深度置信网，以及建立频域多状态深度置信网，并设置网络的层数和节点数；对于多状态深度置信网和频域多状态深度置信网，分别把相邻的两层结构看作一个限制的玻尔兹曼机，采用无监督地自底向上的逐层训练方法来训练网络，获得时序数据和频域数据对应的深度置信网优化后的网络权重；把时序数据和频域数据对应的深度置信网中的隐含层处理结果输入到频域多状态玻尔兹曼机中进行数据融合，并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重，从而得到最终的频域多状态深度置信网模型；向所述频域多状态深度置信网模型输入待融合的多状态数据，得到数据融合结果。

进一步的，其中，所述玻尔兹曼机的目标函数包括两项内容:真实类别与错误类别的条件概率之间差值的合页损失，和多状态数据及其类别的负对数似然函数。

本发明的基于时序数据和业务数据融合分析的方法，具有如下有益效果：

1.效率高：本发明通过对频域数据和时域数据的状态变化的监测和融合，提升了后续进行融合分析的效率，且在将时序数据和业务数据进行了分别的分析和融合，提升了结果的准确率。

2.融合效果好：本发明基于状态机的原理进行频域数据和时域数据的分别融合，保证了数据融合后彼此之间的冗余降低，提升了数据融合的效果，也使得进行数据融合分析的效果更高。

附图说明

图1为本发明实施例提供的基于时序数据和业务数据融合分析的方法流程示意图；

图2为本发明实施例提供的基于时序数据和业务数据融合分析的方法的时域数据发生状态变化的原理示意图；

图3为本发明实施例提供的基于时序数据和业务数据融合分析的方法的频域数据发生状态变化的原理示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

如图1所示，基于时序数据和业务数据融合分析的方法，所述方法执行以下步骤：

步骤6：对融合数据进行融合数据分析。

具体的，在进行融合数据分析时，由于分集频域数据为根据不同状态的频域数据划分的，分帧时序数据也是根据不同状态的时序数据划分的，因此在后续进行融合数据分析时，可以根据对不同的分集频域数据和分帧时序数据进行分析，再将分析的结果进行融合得到。

具体的，在进行分集频域数据分析时，由于数据是在频域的，因此分析出的结果侧重于业务侧面，在进行分帧时序数据分析时，由于数据是在时域的，因此侧重于时序层面。

频域数据反应的是每个内容出现的频次，时序数据反应的是每个数据出现的时间。综合两个方面的融合分析，可以较为全面的得到融合分析的结果。

实施例2

在上一实施例的基础上，所述步骤1中对采集到的数据进行数据规范处理，得到规范数据的方法包括：对每一条数据均建立数据内容、时间和类型的存储格式，每一条数据的内容对应一个时间和一个类型，同时添加一个数据ID标识作为数据的唯一标识；将所有数据的类型统一转换为浮点型。

具体的，统一数据类型以便于后续分析时，得到统一的结果。

实施例3

在上一实施例的基础上，所述将规范数据进行时序关联，得到时序数据的方法包括：将规范数据视为二维坐标系中的一个点，得到规范数据的二维坐标系表达，所述二维坐标系的横轴为时间，纵轴为内容；将所有坐标点相连接，组成一条曲线；使用曲线函数拟合的方式，建立曲线的时序函数表达式，完成时序关联。

实施例4

在上一实施例的基础上，所述将规范数据进行业务关联，得到业务数据的方法包括：对曲线的时序函数表达式进行时频转换，得到曲线的时序函数表达式对应的频域表达式；统计规范数据内所有数据的内容的出现频率，建立一个频域二维坐标系；所述频域二维坐标系的横轴为频率，纵轴为内容；将所有数据的内容和其对应的频率映射到频域二维坐标系中，将所有坐标点相连接，组成一条曲线；使用时序函数表达式对应的频域表达式进行拟合，建立曲线的频域函数表达式，完成业务关联。

实施例5

在上一实施例的基础上，所述使用曲线函数拟合的方式，建立曲线的时序函数表达式的方法包括：在曲线的上下两侧分别绘制一根直线，以使得整个曲线被包围在绘制的两个直线内，不断移动两根直线，以使得直线与曲线的距离变小，直到两根直线与曲线的最短距离直线为0；使用如下公式，得到曲线的时序函数表达式：

实施例6

在上一实施例的基础上，所述使用时序函数表达式对应的频域表达式进行拟合，建立曲线的频域函数表达式的方法包括：使用如下公式得到曲线的频域函数表达式：

其中，F为频域中的内容。

实施例7

在上一实施例的基础上，所述步骤3中定义多种时序状态，基于时序函数表达式进行状态变化监测，以找到状态变化的时间节点的方法包括：将时序函数表达式作为输入变量代入预设的第一状态转换判定模型；所述第一状态转换判定模型为一个有限状态状态机，其状态共三个状态；所述状态转换判定模型不断调整输入变量的参数，以判断是否发生状态变化，若发生状态变化，则回溯其到对应的时间节点。

参考图2，时序发生状态时，通过分帧的方式来判定。因为一个内容可以在一定时间范围内不出现变化，所以根据分帧的概念可以判定实际发生变化的时间节点。

实施例8

在上一实施例的基础上，所述步骤4中定义多种频域状态，基于频域函数表达式进行状态变化监测，以找到状态变化的频域节点的方法包括：将频域函数表达式作为输入变量代入预设的状态转换判定模型；所述状态转换判定模型为一个二元状状态机；所述状态转换判定模型不断调整输入变量的参数，以判断是否发生状态变化，若发生状态变化，则回溯其到对应的频率节点。

参考图3，通过状态变化的概念，借用了状态机的方式进行频域状态改变的回溯。

实施例9

在上一实施例的基础上，所述步骤5中对分帧时序数据和分集频域数据进行数据融合，得到融合数据的方法具体包括：建立时序多状态深度置信网，以及建立频域多状态深度置信网，并设置网络的层数和节点数；对于多状态深度置信网和频域多状态深度置信网，分别把相邻的两层结构看作一个限制的玻尔兹曼机，采用无监督地自底向上的逐层训练方法来训练网络，获得时序数据和频域数据对应的深度置信网优化后的网络权重；把时序数据和频域数据对应的深度置信网中的隐含层处理结果输入到频域多状态玻尔兹曼机中进行数据融合，并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重，从而得到最终的频域多状态深度置信网模型；向所述频域多状态深度置信网模型输入待融合的多状态数据，得到数据融合结果。

具体的，基于RBM的深度结构有：DBN(深度置信网络)和DBM(深度玻尔兹曼机)深度置信网络DBN：就是若干个RBM模型的叠加，是有着多层隐藏层的神经网络。简要来说就是通过预训练和反向微调来训练整个DBN：在预训练的时候是先单独训练每一个RBM，逐层叠加将下一层的RBM的输出作为上一层RBM的输入；在反向微调的时候可以通过BP训练根据误差函数进行反向调节。

实施例10

在上一实施例的基础上，其中，所述玻尔兹曼机的目标函数包括两项内容:真实类别与错误类别的条件概率之间差值的合页损失，和多状态数据及其类别的负对数似然函数。

具体的，在进行数据融合时，接收分帧时序数据；所述分帧时序数据包括内容、时间和加密后第一关键字；接收分集频域数据，所述分集频域数据包括内容、频率和加密后第二关键字；所述第二关键字与所述第一关键字为分别存储于所述第二数据处理系统与所述第一数据处理系统的相同关键字，且所述加密后第二关键字与所述加密后第一关键字为利用相同的加密方式加密得到的相同的加密后关键字；其中，所述分帧时序数据和所述分集频域数据均为用于进行数据融合的数据；根据所述相同的加密后关键字，融合所述分帧时序数据与所述分集频域数据，得到融合后数据集，所述融合后数据集包括所述内容、时间、频率和所述相同的加密后关键字；

得到融合后数据集之后，还包括：利用加密算法对所述融合后数据集中所述相同的加密后关键字进行加密，得到二次加密后关键字，并形成最终数据集，所述最终数据集包括所述内容、时间、频率和所述二次加密后关键字；

向融合需求系统发送所述最终数据集。

需要说明的是，上述实施例提供的系统，仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元来完成，即将本发明实施例中的单元或者步骤再分解或者组合，例如，上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子单元，以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称，仅仅是为了区分各个单元或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、QD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“另一部分”等是配置用于区别类似的对象，而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术标记作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非配置用于限定本发明的保护范围。

Claims

1.基于时序数据和业务数据融合分析的方法，其特征在于，所述方法执行以下步骤：

所述将规范数据进行业务关联，得到业务数据的方法包括：对曲线的时序函数表达式进行时频转换，得到曲线的时序函数表达式对应的频域表达式；统计规范数据内所有数据的内容的出现频率，建立一个频域二维坐标系；所述频域二维坐标系的横轴为频率，纵轴为内容；将所有数据的内容和其对应的频率映射到频域二维坐标系中，将所有坐标点相连接，组成一条曲线；使用时序函数表达式对应的频域表达式进行拟合，建立曲线的频域函数表达式，完成业务关联；

所述将规范数据进行时序关联，得到时序数据的方法包括：将规范数据视为二维坐标系中的一个点，得到规范数据的二维坐标系表达，所述二维坐标系的横轴为时间，纵轴为内容；将所有坐标点相连接，组成一条曲线；使用曲线函数拟合的方式，建立曲线的时序函数表达式，完成时序关联；

步骤6：对融合数据进行融合数据分析；

所述使用曲线函数拟合的方式，建立曲线的时序函数表达式的方法包括：在曲线的上下两侧分别绘制一根直线，以使得整个曲线被包围在绘制的两个直线内，不断移动两根直线，以使得直线与曲线的距离变小，直到两根直线与曲线的最短距离直线为0；使用如下公式，得到曲线的时序函数表达式：

其中，Y为时域中的内容，N为规范数据视为二维坐标系中的坐标点的个数；K₁和K₂分别为两根直线的斜率；d₁和d₂分别为两根直线的截距；t为时间；

所述使用时序函数表达式对应的频域表达式进行拟合，建立曲线的频域函数表达式的方法包括：使用如下公式得到曲线的频域函数表达式：

其中，F为频域中的内容。

2.如权利要求1所述的方法，其特征在于，所述步骤1中对采集到的数据进行数据规范处理，得到规范数据的方法包括：对每一条数据均建立数据内容、时间和类型的存储格式，每一条数据的内容对应一个时间和一个类型，同时添加一个数据ID标识作为数据的唯一标识；将所有数据的类型统一转换为浮点型。

3.如权利要求1所述的方法，其特征在于，所述步骤3中定义多种时序状态，基于时序函数表达式进行状态变化监测，以找到状态变化的时间节点的方法包括：将时序函数表达式作为输入变量代入预设的第一状态转换判定模型；所述第一状态转换判定模型为一个有限状态状态机，其状态共三个状态；所述状态转换判定模型不断调整输入变量的参数，以判断是否发生状态变化，若发生状态变化，则回溯其到对应的时间节点。

4.如权利要求3所述的方法，其特征在于，所述步骤4中定义多种频域状态，基于频域函数表达式进行状态变化监测，以找到状态变化的频域节点的方法包括：将频域函数表达式作为输入变量代入预设的状态转换判定模型；所述状态转换判定模型为一个二元状状态机；所述状态转换判定模型不断调整输入变量的参数，以判断是否发生状态变化，若发生状态变化，则回溯其到对应的频率节点。

5.如权利要求3所述的方法，其特征在于，所述步骤5中对分帧时序数据和分集频域数据进行数据融合，得到融合数据的方法具体包括：建立时序多状态深度置信网，以及建立频域多状态深度置信网，并设置网络的层数和节点数；对于多状态深度置信网和频域多状态深度置信网，分别把相邻的两层结构看作一个限制的玻尔兹曼机，采用无监督地自底向上的逐层训练方法来训练网络，获得时序数据和频域数据对应的深度置信网优化后的网络权重；把时序数据和频域数据对应的深度置信网中的隐含层处理结果输入到频域多状态玻尔兹曼机中进行数据融合，并采用交替优化的策略来最小化该玻尔兹曼机的目标函数来获得优化后的玻尔兹曼机权重，从而得到最终的频域多状态深度置信网模型；向所述频域多状态深度置信网模型输入待融合的多状态数据，得到数据融合结果。

6.如权利要求5所述的方法，其特征在于，其中，所述玻尔兹曼机的目标函数包括两项内容：真实类别与错误类别的条件概率之间差值的合页损失，和多状态数据及其类别的负对数似然函数。