CN111400569A

CN111400569A - 一种多源聚合结构的大数据分析方法和系统

Info

Publication number: CN111400569A
Application number: CN202010177474.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-10

Abstract

本发明公开了一种多源聚合结构的大数据分析方法和系统，包括：采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集；利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本；根据所述采样样本对所述对象进行特征分析。该方法将针对同一对象的多个数据源进行聚合，能够将针对目标对象的多个数据源中的有效数据进行合并，形成对目标特征进行分析的完整数据源，实用性强；并且通过采用自适应调整采样步长实现对大数据集中样本采集，减少了采样样本的计算量，降低了计算负荷，利用大数据集的采样样本快速准确地对目标对象的特征进行分析。

Description

一种多源聚合结构的大数据分析方法和系统

技术领域

本发明涉及物联网技术领域，具体是一种多源聚合结构的大数据分析方法和系统。

背景技术

在智慧城市中广域分布的物联网环境下，加入物联网的传感器不断感知关于目标对象(例如一个建筑物、一个社区)的数据，这些数据可以汇编为数据集。利用数据集可以实现大数据分析，挖掘获得目标对象的特征。例如，针对一个建筑物，可以将传感器感知的温度、湿度、光照度、空气颗粒密度、能耗等内部环境数据，汇编为数据集，进而挖掘该建筑物内部环境变化特征，为建筑物内部的空调、通风、照明等方面的设施控制提供依据。

并且，针对同一个对象，往往能够从多个数据源，分别获得针对该对象的多个数据集。例如，将建筑物中的传感器按照其类型或者安装位置划分为多个群组，每个群组作为一个数据源，将每个群组的数据汇编，可以提供针对同一个对象的多个数据集。

然而，现有技术中，在广域分布的物联网针环境下，针对同一个对象的多个数据集中的数据过多，增加了计算负荷，无法快速准确地根据数据对对象的特征进行快速分析。

因此，如何利用大数据对目标对象的特征进行高效分析的是本领域技术人员亟待解决的问题。

发明内容

鉴于上述问题，本发明的目的是解决目前针对同一个对象的多个数据集中的数据过多，增加了计算负荷，无法快速准确地根据数据对对象的特征进行快速分析的问题，实现了利用大数据对目标对象的特征的高效分析。

本发明实施例提供一种多源聚合结构的大数据分析方法，包括：

采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集；

利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本；

根据所述采样样本对所述对象进行特征分析。

在一个实施例中，采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集，包括：

采集同一对象的多个数据源，对所述多个数据源进行预处理；

根据所述多个数据源获取原始策略列表，对所述原始策略列表中的原始策略进行排序，生成数据源间策略列表；

根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集。

在一个实施例中，根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集，包括：

分别对所述多个数据源的属性进行规范化表示；

基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合；

将同一分块内不同来源的实体作为候选实体对，计算所述实体之间的相似度；

根据所述实体之间的相似度，建立不同数据源之间同一实体的等价链接，并将所述实体属性进行合并，生成所述聚合大数据集。

在一个实施例中，基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合，包括：

将所述实体名称分解为二元模型序列；

将所述二元模型序列中的项作为倒排索引的key值，将所述实体插入到对应的所述倒排索引中；

将所述倒排索引中的所述key值相对应的所述实体，根据所述实体属性进行划分；

若两个不同数据源的所述实体具有两个相同的所述实体属性，则将所述两个不同数据源的所述实体划分到同一块中。

在一个实施例中，利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本，包括：

设置所述聚合大数据集的采样参数；

利用所述聚合大数据集中CPU核心总数，设置采样范围长度与采样步长变化倍数；

根据所述采样范围长度与所述采样步长变化倍数，确定执行所述采样参数所分配的采样CPU核心数量；

根据所述采样CPU核心数量，执行所述采样参数，生成作业执行时间；

根据所述作业执行时间与所述采样CPU核心数量，生成所述采样样本。

第二方面，本发明还提供一种多源聚合结构的大数据分析系统，包括：

聚合模块，用于采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集；

采集模块，用于利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本；

分析模块，用于根据所述采样样本对所述对象进行特征分析。

在一个实施例中，所述聚合模块，包括：

预处理子模块，用于采集同一对象的多个数据源，对所述多个数据源进行预处理；

排序子模块，用于根据所述多个数据源获取原始策略列表，对所述原始策略列表中的原始策略进行排序，生成数据源间策略列表；

聚合子模块，根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集。

在一个实施例中，所述聚合子模块，包括：

规范化表示单元，用于分别对所述多个数据源的属性进行规范化表示；

分块聚合单元，用于基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合；

计算单元，将同一分块内不同来源的实体作为候选实体对，计算所述实体之间的相似度；

生成单元，根据所述实体之间的相似度，建立不同数据源之间同一实体的等价链接，并将所述实体属性进行合并，生成所述聚合大数据集。

在一个实施例中，所述分块聚合单元，包括：

分解装置，用于将所述实体名称分解为二元模型序列；

插入装置，用于将所述二元模型序列中的项作为倒排索引的key值，将所述实体插入到对应的所述倒排索引中；

划分装置，用于将所述倒排索引中的所述key值相对应的所述实体，根据所述实体属性进行划分；

判断装置，用于若两个不同数据源的所述实体具有两个相同的所述实体属性，则将所述两个不同数据源的所述实体划分到同一块中。

在一个实施例中，所述采集模块，包括：

设置子模块，用于设置所述聚合大数据集的采样参数；

利用子模块，用于利用所述聚合大数据集中CPU核心总数，采样范围长度与采样步长变化倍数；

确定子模块，用于根据所述采样范围长度与所述采样步长变化倍数，确定执行所述采样参数所分配的采样CPU核心数量；

执行子模块，用于根据所述采样CPU核心数量，执行所述采样参数，生成作业执行时间；

生成子模块，用于根据所述作业执行时间与所述采样CPU核心数量，生成所述采样样本。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的一种多源聚合结构的大数据分析方法，本方法将针对同一对象的多个数据源进行聚合，能够将针对目标对象的多个数据源中的有效数据进行合并，形成对目标特征进行分析的完整数据源，实用性强；并且通过采用自适应调整采样步长实现对大数据集中样本采集，减少了采样样本的计算量，降低了计算负荷，利用大数据集的采样样本快速准确地对目标对象的特征进行分析。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种多源聚合结构的大数据分析方法的流程图；

图2为本发明实施例提供的步骤S101的流程图；

图3为本发明实施例提供的步骤S1013的流程图；

图4为本发明实施例提供的步骤S10132的流程图；

图5为本发明实施例提供的步骤S102的流程图；

图6为本发明实施例提供的一种多源聚合结构的大数据分析系统的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供的一种多源聚合结构的大数据分析方法，如图1所示，该方法包括：

S101、采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集；

其中，采集物联网环境下的传感器数据，形成针对同一对象的多个数据源；例如，针对建筑物中的温度数据，温度传感器采集建筑物中的供暖温度数据与环境温度数据，生成针对建筑物温度的多源数据。

S102、利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本；

S103、根据所述采样样本对所述对象进行特征分析。

具体的，根据采样样本对所述对象进行特征分析包括：分类、回归分析、关联规则、特征、变化和偏差分析。

本实施例中，将针对同一对象的多个数据源进行聚合，能够将针对目标对象的多个数据源中的有效数据进行合并，形成对目标特征进行分析的完整数据源，实用性强；并且通过采用自适应调整采样步长实现对大数据集中样本采集，减少了采样样本的计算量，降低了计算负荷，利用大数据集的采样样本快速准确地对目标对象的特征进行分析。

在一个实施例中，如图2所示，步骤S101，即采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集，包括：

S1011、采集同一对象的多个数据源，对所述多个数据源进行预处理。

具体的，上述对多个数据源进行预处理包括：清洗、识别、去冗余操作。

进一步地，对多个数据源进行清洗包括：读取对多个数据源中的数据，去除重复数据，清除噪声数据，统一数据的格式；

进一步地，对清洗后的多个数据源进行识别，具体包括：对多个数据源中的不同实体与同一实体的不同表示方法进行识别；

进一步地，对识别后的多个数据源中的重复数据进行去冗余操作。

S1012、根据所述多个数据源获取原始策略列表，对所述原始策略列表中的原始策略进行排序，生成数据源间策略列表。

具体的，将采集的多个数据源中的实体名称与实体属性进行记录，形成原始策略列表，根据数据间的空间距离、关联密切度等设置原始策略列表，对原始策略进行排序，生成数据源间策略列表。

S1013、根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集。

下面通过一个完整的实施例来说明数据源间策略列表的生成方法的：

实施例1：

将上述供暖温度数据中的空调A、空调B与26摄氏度、50华氏度，环境温度数据中的环境温度计C与17摄氏度进行记录，生成原始策略列表；

采集空调A与环境温度计C的空间距离为50m，空调A与空调B的空间距离为200m，空调B与环境温度计C的空间距离为100m；

根据数据间的空间距离排序为：空调A，26摄氏度-环境温度计C，50华氏度-空调B，17摄氏度，生成数据源间策略列表。

在一个实施例中，如图3所示，步骤S1013，即根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集，包括：

S10131、分别对所述多个数据源的属性进行规范化表示。

具体的，设置规范化模板，根据规范化模板将实体属性进行规范化表示，包括数值型属性与数值型属性。例如，将上述温度数据中的实体属性(温度)规范为摄氏度，即将50华氏度规范为10摄氏度。

S10132、基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合。

S10133、将同一分块内不同来源的实体作为候选实体对，计算所述实体之间的相似度。

具体的，对上述实体之间的相似度进行计算可以采用以下任意一种方法：皮尔森相关系数算法、欧几里得距离算法、曼哈顿距离算法、余弦相似度算法。

S10134、根据所述实体之间的相似度，建立不同数据源之间同一实体的等价链接，并将所述实体属性进行合并，生成所述聚合大数据集。

在一个实施例中，如图4所示，步骤S10132，即基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合，包括：

S101321、将所述实体名称分解为二元模型序列(根据数据源间策略列表中的策略进行分解)；

S101322、将所述二元模型序列中的项作为倒排索引的key值，将所述实体插入到对应的所述倒排索引中；

S101323、将所述倒排索引中的所述key值相对应的所述实体，根据所述实体属性进行划分；

S101324、若两个不同数据源的所述实体具有两个相同的所述实体属性，则将所述两个不同数据源的所述实体划分到同一块中。

进一步地，若两个不同数据源的所述实体具有不同的所述实体属性，则重复步骤S101322。

在一个实施例中，如图5所示，步骤S102，即利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本，包括：

需要说明的是，利用Spark大数据平台对聚合大数据集进行样本采集，其具体步骤如下：

S1021、设置所述聚合大数据集的采样参数；

具体的，设置聚合大数据集中实体名称与实体属性，生成采样参数。

S1022、利用所述聚合大数据集中CPU核心总数，设置采样范围长度与采样步长变化倍数；

具体的，通过CPU核心总数确定CPU核心数范围，进而确定采样范围长度；其中，CPU核心数范围包括上边界与下边界。

进一步地，采用几何的方式设置采样步长变化倍数，当执行上述采样参数所需的CPU核心数越接近CPU核心总数，使得步长的变化速度变小，反之，则变长。

S1023、根据所述采样范围长度与所述采样步长变化倍数，确定执行所述采样参数所分配的采样CPU核心数量；

具体的，根据上述下边界、采样步长变化倍数和采样范围长度，确定执行所述采样参数所分配的采样CPU核心数量，表达式如下：

其中，c_n表示第n个执行采样参数所分配的采样CPU核心数量，τ表示采样步长变化倍数，0<τ<1，Δ₁表示下边界，L表示采样范围长度。

S1024、根据所述采样CPU核心数量，执行所述采样参数，生成作业执行时间；

具体的，当检测到第n个执行采样参数所分配的采样CPU核心数量对应的作业执行时间T_n以及第n-1个执行采样参数所分配的采样CPU核心数量对应的作业执行时间满足T_n>T_n-1时，停止采样。

S1025、根据所述作业执行时间与所述采样CPU核心数量，生成所述采样样本。

本实施例中，通过对采样范围长度与采样步长变化倍数进行设置，从而实现了对步长的自适应调整，能够根据CPU的核心总数调整计算的时间，实现了最优分配，扩大了使用范围，得到的采样样本更加精确，减少了计算负荷，提高了对数据的处理能力。

进一步地，当采样样本数量不足以去对目标对象进行特征分析，并且采样已经终止时，可以更新上边界和下边界，进行重新采样，具体包括：

获取预先设置的最小采样样本数λ，当检测到样本数n满足n<λ时，更新上边界和下边界；

更新后的下边界满足如下表达式：

更新后的上边界满足如下表达式：

基于同一发明构思，本发明实施例还提供了一种多源聚合结构的大数据分析系统，由于该装置所解决问题的原理与前述一种多源聚合结构的大数据分析方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供了一种多源聚合结构的大数据分析系统，参照图6所示，包括：

聚合模块61，用于采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集。

其中，采集物联网环境下的传感器数据，形成针对同一对象的多个数据源。

采集模块62，用于利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本。

分析模块63，用于根据所述采样样本对所述对象进行特征分析。

在一个实施例中，所述聚合模块61，包括：

预处理子模块611，用于采集同一对象的多个数据源，对所述多个数据源进行预处理。

排序子模块612，用于根据所述多个数据源获取原始策略列表，对所述原始策略列表中的原始策略进行排序，生成数据源间策略列表。

聚合子模块613，根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集。

在一个实施例中，所述聚合子模块613，包括：

规范化表示单元6131，用于分别对所述多个数据源的属性进行规范化表示。

具体的，设置规范化模板，根据规范化模板将实体属性进行规范化表示，包括数值型属性与数值型属性。

分块聚合单元6132，用于基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合。

计算单元6133，将同一分块内不同来源的实体作为候选实体对，计算所述实体之间的相似度。

生成单元6134，根据所述实体之间的相似度，建立不同数据源之间同一实体的等价链接，并将所述实体属性进行合并，生成所述聚合大数据集。

在一个实施例中，所述分块聚合单元6132，包括：

分解装置61321，用于将所述实体名称分解为二元模型序列；

插入装置61322，用于将所述二元模型序列中的项作为倒排索引的key值，将所述实体插入到对应的所述倒排索引中；

划分装置61323，用于将所述倒排索引中的所述key值相对应的所述实体，根据所述实体属性进行划分；

判断装置61324，用于若两个不同数据源的所述实体具有两个相同的所述实体属性，则将所述两个不同数据源的所述实体划分到同一块中。

在一个实施例中，所述采集模块62，包括：

设置子模块621，用于设置所述聚合大数据集的采样参数；

利用子模块622，用于利用所述聚合大数据集中CPU核心总数，采样范围长度与采样步长变化倍数；

进一步地，采用几何的方式设置采样步长变化倍数，当执行上述采样参数所需的CPU核心数越接近CPU核心总数，使得步长的变化速度变小。

确定子模块623，用于根据所述采样范围长度与所述采样步长变化倍数，确定执行所述采样参数所分配的采样CPU核心数量；

执行子模块624，用于根据所述采样CPU核心数量，执行所述采样参数，生成作业执行时间。

生成子模块625，用于根据所述作业执行时间与所述采样CPU核心数量，生成所述采样样本。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多源聚合结构的大数据分析方法，其特征在于，包括：

根据所述采样样本对所述对象进行特征分析。

2.如权利要求1所述的一种多源聚合结构的大数据分析方法，其特征在于，采集同一对象的多个数据源，对所述多个数据源进行聚合，生成聚合大数据集，包括：

3.如权利要求2所述的一种多源聚合结构的大数据分析方法，其特征在于，根据所述数据源间策略列表将所述多个数据源进行聚合，生成所述聚合大数据集，包括：

分别对所述多个数据源的属性进行规范化表示；

4.如权利要求3所述的一种多源聚合结构的大数据分析方法，其特征在于，基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合，包括：

将所述实体名称分解为二元模型序列；

5.如权利要求1所述的一种多源聚合结构的大数据分析方法，其特征在于，利用自适应调整采样步长对所述聚合大数据集进行样本采集，生成采样样本，包括：

设置所述聚合大数据集的采样参数；

6.一种多源聚合结构的大数据分析系统，其特征在于，包括：

7.如权利要求6所述的一种多源聚合结构的大数据分析系统，其特征在于，所述聚合模块，包括：

8.如权利要求7所述的一种多源聚合结构的大数据分析系统，其特征在于，所述聚合子模块，包括：

9.如权利要求8所述的一种多源聚合结构的大数据分析系统，其特征在于，所述分块聚合单元，包括：

分解装置，用于将所述实体名称分解为二元模型序列；

10.如权利要求6所述的一种多源聚合结构的大数据分析系统，其特征在于，所述采集模块，包括：

设置子模块，用于设置所述聚合大数据集的采样参数；