CN111400569A - 一种多源聚合结构的大数据分析方法和系统 - Google Patents

一种多源聚合结构的大数据分析方法和系统 Download PDF

Info

Publication number
CN111400569A
CN111400569A CN202010177474.9A CN202010177474A CN111400569A CN 111400569 A CN111400569 A CN 111400569A CN 202010177474 A CN202010177474 A CN 202010177474A CN 111400569 A CN111400569 A CN 111400569A
Authority
CN
China
Prior art keywords
sampling
data sources
big data
entity
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010177474.9A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Terminus Technology Co Ltd
Original Assignee
Chongqing Terminus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Terminus Technology Co Ltd filed Critical Chongqing Terminus Technology Co Ltd
Priority to CN202010177474.9A priority Critical patent/CN111400569A/zh
Publication of CN111400569A publication Critical patent/CN111400569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多源聚合结构的大数据分析方法和系统,包括:采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;根据所述采样样本对所述对象进行特征分析。该方法将针对同一对象的多个数据源进行聚合,能够将针对目标对象的多个数据源中的有效数据进行合并,形成对目标特征进行分析的完整数据源,实用性强;并且通过采用自适应调整采样步长实现对大数据集中样本采集,减少了采样样本的计算量,降低了计算负荷,利用大数据集的采样样本快速准确地对目标对象的特征进行分析。

Description

一种多源聚合结构的大数据分析方法和系统
技术领域
本发明涉及物联网技术领域,具体是一种多源聚合结构的大数据分析方法和系统。
背景技术
在智慧城市中广域分布的物联网环境下,加入物联网的传感器不断感知关于目标对象(例如一个建筑物、一个社区)的数据,这些数据可以汇编为数据集。利用数据集可以实现大数据分析,挖掘获得目标对象的特征。例如,针对一个建筑物,可以将传感器感知的温度、湿度、光照度、空气颗粒密度、能耗等内部环境数据,汇编为数据集,进而挖掘该建筑物内部环境变化特征,为建筑物内部的空调、通风、照明等方面的设施控制提供依据。
并且,针对同一个对象,往往能够从多个数据源,分别获得针对该对象的多个数据集。例如,将建筑物中的传感器按照其类型或者安装位置划分为多个群组,每个群组作为一个数据源,将每个群组的数据汇编,可以提供针对同一个对象的多个数据集。
然而,现有技术中,在广域分布的物联网针环境下,针对同一个对象的多个数据集中的数据过多,增加了计算负荷,无法快速准确地根据数据对对象的特征进行快速分析。
因此,如何利用大数据对目标对象的特征进行高效分析的是本领域技术人员亟待解决的问题。
发明内容
鉴于上述问题,本发明的目的是解决目前针对同一个对象的多个数据集中的数据过多,增加了计算负荷,无法快速准确地根据数据对对象的特征进行快速分析的问题,实现了利用大数据对目标对象的特征的高效分析。
本发明实施例提供一种多源聚合结构的大数据分析方法,包括:
采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;
利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;
根据所述采样样本对所述对象进行特征分析。
在一个实施例中,采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集,包括:
采集同一对象的多个数据源,对所述多个数据源进行预处理;
根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;
根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。
在一个实施例中,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集,包括:
分别对所述多个数据源的属性进行规范化表示;
基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;
将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;
根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。
在一个实施例中,基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合,包括:
将所述实体名称分解为二元模型序列;
将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。
在一个实施例中,利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本,包括:
设置所述聚合大数据集的采样参数;
利用所述聚合大数据集中CPU核心总数,设置采样范围长度与采样步长变化倍数;
根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;
根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。
第二方面,本发明还提供一种多源聚合结构的大数据分析系统,包括:
聚合模块,用于采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;
采集模块,用于利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;
分析模块,用于根据所述采样样本对所述对象进行特征分析。
在一个实施例中,所述聚合模块,包括:
预处理子模块,用于采集同一对象的多个数据源,对所述多个数据源进行预处理;
排序子模块,用于根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;
聚合子模块,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。
在一个实施例中,所述聚合子模块,包括:
规范化表示单元,用于分别对所述多个数据源的属性进行规范化表示;
分块聚合单元,用于基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;
计算单元,将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;
生成单元,根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。
在一个实施例中,所述分块聚合单元,包括:
分解装置,用于将所述实体名称分解为二元模型序列;
插入装置,用于将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
划分装置,用于将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
判断装置,用于若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。
在一个实施例中,所述采集模块,包括:
设置子模块,用于设置所述聚合大数据集的采样参数;
利用子模块,用于利用所述聚合大数据集中CPU核心总数,采样范围长度与采样步长变化倍数;
确定子模块,用于根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
执行子模块,用于根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;
生成子模块,用于根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种多源聚合结构的大数据分析方法,本方法将针对同一对象的多个数据源进行聚合,能够将针对目标对象的多个数据源中的有效数据进行合并,形成对目标特征进行分析的完整数据源,实用性强;并且通过采用自适应调整采样步长实现对大数据集中样本采集,减少了采样样本的计算量,降低了计算负荷,利用大数据集的采样样本快速准确地对目标对象的特征进行分析。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的一种多源聚合结构的大数据分析方法的流程图;
图2为本发明实施例提供的步骤S101的流程图;
图3为本发明实施例提供的步骤S1013的流程图;
图4为本发明实施例提供的步骤S10132的流程图;
图5为本发明实施例提供的步骤S102的流程图;
图6为本发明实施例提供的一种多源聚合结构的大数据分析系统的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供的一种多源聚合结构的大数据分析方法,如图1所示,该方法包括:
S101、采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;
其中,采集物联网环境下的传感器数据,形成针对同一对象的多个数据源;例如,针对建筑物中的温度数据,温度传感器采集建筑物中的供暖温度数据与环境温度数据,生成针对建筑物温度的多源数据。
S102、利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;
S103、根据所述采样样本对所述对象进行特征分析。
具体的,根据采样样本对所述对象进行特征分析包括:分类、回归分析、关联规则、特征、变化和偏差分析。
本实施例中,将针对同一对象的多个数据源进行聚合,能够将针对目标对象的多个数据源中的有效数据进行合并,形成对目标特征进行分析的完整数据源,实用性强;并且通过采用自适应调整采样步长实现对大数据集中样本采集,减少了采样样本的计算量,降低了计算负荷,利用大数据集的采样样本快速准确地对目标对象的特征进行分析。
在一个实施例中,如图2所示,步骤S101,即采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集,包括:
S1011、采集同一对象的多个数据源,对所述多个数据源进行预处理。
具体的,上述对多个数据源进行预处理包括:清洗、识别、去冗余操作。
进一步地,对多个数据源进行清洗包括:读取对多个数据源中的数据,去除重复数据,清除噪声数据,统一数据的格式;
进一步地,对清洗后的多个数据源进行识别,具体包括:对多个数据源中的不同实体与同一实体的不同表示方法进行识别;
进一步地,对识别后的多个数据源中的重复数据进行去冗余操作。
S1012、根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表。
具体的,将采集的多个数据源中的实体名称与实体属性进行记录,形成原始策略列表,根据数据间的空间距离、关联密切度等设置原始策略列表,对原始策略进行排序,生成数据源间策略列表。
S1013、根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。
下面通过一个完整的实施例来说明数据源间策略列表的生成方法的:
实施例1:
将上述供暖温度数据中的空调A、空调B与26摄氏度、50华氏度,环境温度数据中的环境温度计C与17摄氏度进行记录,生成原始策略列表;
采集空调A与环境温度计C的空间距离为50m,空调A与空调B的空间距离为200m,空调B与环境温度计C的空间距离为100m;
根据数据间的空间距离排序为:空调A,26摄氏度-环境温度计C,50华氏度-空调B,17摄氏度,生成数据源间策略列表。
在一个实施例中,如图3所示,步骤S1013,即根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集,包括:
S10131、分别对所述多个数据源的属性进行规范化表示。
具体的,设置规范化模板,根据规范化模板将实体属性进行规范化表示,包括数值型属性与数值型属性。例如,将上述温度数据中的实体属性(温度)规范为摄氏度,即将50华氏度规范为10摄氏度。
S10132、基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合。
S10133、将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度。
具体的,对上述实体之间的相似度进行计算可以采用以下任意一种方法:皮尔森相关系数算法、欧几里得距离算法、曼哈顿距离算法、余弦相似度算法。
S10134、根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。
在一个实施例中,如图4所示,步骤S10132,即基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合,包括:
S101321、将所述实体名称分解为二元模型序列(根据数据源间策略列表中的策略进行分解);
S101322、将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
S101323、将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
S101324、若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。
进一步地,若两个不同数据源的所述实体具有不同的所述实体属性,则重复步骤S101322。
在一个实施例中,如图5所示,步骤S102,即利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本,包括:
需要说明的是,利用Spark大数据平台对聚合大数据集进行样本采集,其具体步骤如下:
S1021、设置所述聚合大数据集的采样参数;
具体的,设置聚合大数据集中实体名称与实体属性,生成采样参数。
S1022、利用所述聚合大数据集中CPU核心总数,设置采样范围长度与采样步长变化倍数;
具体的,通过CPU核心总数确定CPU核心数范围,进而确定采样范围长度;其中,CPU核心数范围包括上边界与下边界。
进一步地,采用几何的方式设置采样步长变化倍数,当执行上述采样参数所需的CPU核心数越接近CPU核心总数,使得步长的变化速度变小,反之,则变长。
S1023、根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
具体的,根据上述下边界、采样步长变化倍数和采样范围长度,确定执行所述采样参数所分配的采样CPU核心数量,表达式如下:
Figure BDA0002411299120000091
其中,cn表示第n个执行采样参数所分配的采样CPU核心数量,τ表示采样步长变化倍数,0<τ<1,Δ1表示下边界,L表示采样范围长度。
S1024、根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;
具体的,当检测到第n个执行采样参数所分配的采样CPU核心数量对应的作业执行时间Tn以及第n-1个执行采样参数所分配的采样CPU核心数量对应的作业执行时间满足Tn>Tn-1时,停止采样。
S1025、根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。
本实施例中,通过对采样范围长度与采样步长变化倍数进行设置,从而实现了对步长的自适应调整,能够根据CPU的核心总数调整计算的时间,实现了最优分配,扩大了使用范围,得到的采样样本更加精确,减少了计算负荷,提高了对数据的处理能力。
进一步地,当采样样本数量不足以去对目标对象进行特征分析,并且采样已经终止时,可以更新上边界和下边界,进行重新采样,具体包括:
获取预先设置的最小采样样本数λ,当检测到样本数n满足n<λ时,更新上边界和下边界;
更新后的下边界满足如下表达式:
Figure BDA0002411299120000101
更新后的上边界满足如下表达式:
Figure BDA0002411299120000102
基于同一发明构思,本发明实施例还提供了一种多源聚合结构的大数据分析系统,由于该装置所解决问题的原理与前述一种多源聚合结构的大数据分析方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供了一种多源聚合结构的大数据分析系统,参照图6所示,包括:
聚合模块61,用于采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集。
其中,采集物联网环境下的传感器数据,形成针对同一对象的多个数据源。
采集模块62,用于利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本。
分析模块63,用于根据所述采样样本对所述对象进行特征分析。
具体的,根据采样样本对所述对象进行特征分析包括:分类、回归分析、关联规则、特征、变化和偏差分析。
在一个实施例中,所述聚合模块61,包括:
预处理子模块611,用于采集同一对象的多个数据源,对所述多个数据源进行预处理。
具体的,上述对多个数据源进行预处理包括:清洗、识别、去冗余操作。
排序子模块612,用于根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表。
具体的,将采集的多个数据源中的实体名称与实体属性进行记录,形成原始策略列表,根据数据间的空间距离、关联密切度等设置原始策略列表,对原始策略进行排序,生成数据源间策略列表。
聚合子模块613,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。
在一个实施例中,所述聚合子模块613,包括:
规范化表示单元6131,用于分别对所述多个数据源的属性进行规范化表示。
具体的,设置规范化模板,根据规范化模板将实体属性进行规范化表示,包括数值型属性与数值型属性。
分块聚合单元6132,用于基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合。
计算单元6133,将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度。
具体的,对上述实体之间的相似度进行计算可以采用以下任意一种方法:皮尔森相关系数算法、欧几里得距离算法、曼哈顿距离算法、余弦相似度算法。
生成单元6134,根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。
在一个实施例中,所述分块聚合单元6132,包括:
分解装置61321,用于将所述实体名称分解为二元模型序列;
插入装置61322,用于将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
划分装置61323,用于将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
判断装置61324,用于若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。
在一个实施例中,所述采集模块62,包括:
设置子模块621,用于设置所述聚合大数据集的采样参数;
利用子模块622,用于利用所述聚合大数据集中CPU核心总数,采样范围长度与采样步长变化倍数;
具体的,通过CPU核心总数确定CPU核心数范围,进而确定采样范围长度;其中,CPU核心数范围包括上边界与下边界。
进一步地,采用几何的方式设置采样步长变化倍数,当执行上述采样参数所需的CPU核心数越接近CPU核心总数,使得步长的变化速度变小。
确定子模块623,用于根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
具体的,根据上述下边界、采样步长变化倍数和采样范围长度,确定执行所述采样参数所分配的采样CPU核心数量,表达式如下:
Figure BDA0002411299120000121
其中,cn表示第n个执行采样参数所分配的采样CPU核心数量,τ表示采样步长变化倍数,0<τ<1,Δ1表示下边界,L表示采样范围长度。
执行子模块624,用于根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间。
具体的,当检测到第n个执行采样参数所分配的采样CPU核心数量对应的作业执行时间Tn以及第n-1个执行采样参数所分配的采样CPU核心数量对应的作业执行时间满足Tn>Tn-1时,停止采样。
生成子模块625,用于根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种多源聚合结构的大数据分析方法,其特征在于,包括:
采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;
利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;
根据所述采样样本对所述对象进行特征分析。
2.如权利要求1所述的一种多源聚合结构的大数据分析方法,其特征在于,采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集,包括:
采集同一对象的多个数据源,对所述多个数据源进行预处理;
根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;
根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。
3.如权利要求2所述的一种多源聚合结构的大数据分析方法,其特征在于,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集,包括:
分别对所述多个数据源的属性进行规范化表示;
基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;
将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;
根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。
4.如权利要求3所述的一种多源聚合结构的大数据分析方法,其特征在于,基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合,包括:
将所述实体名称分解为二元模型序列;
将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。
5.如权利要求1所述的一种多源聚合结构的大数据分析方法,其特征在于,利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本,包括:
设置所述聚合大数据集的采样参数;
利用所述聚合大数据集中CPU核心总数,设置采样范围长度与采样步长变化倍数;
根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;
根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。
6.一种多源聚合结构的大数据分析系统,其特征在于,包括:
聚合模块,用于采集同一对象的多个数据源,对所述多个数据源进行聚合,生成聚合大数据集;
采集模块,用于利用自适应调整采样步长对所述聚合大数据集进行样本采集,生成采样样本;
分析模块,用于根据所述采样样本对所述对象进行特征分析。
7.如权利要求6所述的一种多源聚合结构的大数据分析系统,其特征在于,所述聚合模块,包括:
预处理子模块,用于采集同一对象的多个数据源,对所述多个数据源进行预处理;
排序子模块,用于根据所述多个数据源获取原始策略列表,对所述原始策略列表中的原始策略进行排序,生成数据源间策略列表;
聚合子模块,根据所述数据源间策略列表将所述多个数据源进行聚合,生成所述聚合大数据集。
8.如权利要求7所述的一种多源聚合结构的大数据分析系统,其特征在于,所述聚合子模块,包括:
规范化表示单元,用于分别对所述多个数据源的属性进行规范化表示;
分块聚合单元,用于基于所述多个数据源中的实体名称与实体属性对实体进行分块聚合;
计算单元,将同一分块内不同来源的实体作为候选实体对,计算所述实体之间的相似度;
生成单元,根据所述实体之间的相似度,建立不同数据源之间同一实体的等价链接,并将所述实体属性进行合并,生成所述聚合大数据集。
9.如权利要求8所述的一种多源聚合结构的大数据分析系统,其特征在于,所述分块聚合单元,包括:
分解装置,用于将所述实体名称分解为二元模型序列;
插入装置,用于将所述二元模型序列中的项作为倒排索引的key值,将所述实体插入到对应的所述倒排索引中;
划分装置,用于将所述倒排索引中的所述key值相对应的所述实体,根据所述实体属性进行划分;
判断装置,用于若两个不同数据源的所述实体具有两个相同的所述实体属性,则将所述两个不同数据源的所述实体划分到同一块中。
10.如权利要求6所述的一种多源聚合结构的大数据分析系统,其特征在于,所述采集模块,包括:
设置子模块,用于设置所述聚合大数据集的采样参数;
利用子模块,用于利用所述聚合大数据集中CPU核心总数,采样范围长度与采样步长变化倍数;
确定子模块,用于根据所述采样范围长度与所述采样步长变化倍数,确定执行所述采样参数所分配的采样CPU核心数量;
执行子模块,用于根据所述采样CPU核心数量,执行所述采样参数,生成作业执行时间;
生成子模块,用于根据所述作业执行时间与所述采样CPU核心数量,生成所述采样样本。
CN202010177474.9A 2020-03-13 2020-03-13 一种多源聚合结构的大数据分析方法和系统 Pending CN111400569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010177474.9A CN111400569A (zh) 2020-03-13 2020-03-13 一种多源聚合结构的大数据分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010177474.9A CN111400569A (zh) 2020-03-13 2020-03-13 一种多源聚合结构的大数据分析方法和系统

Publications (1)

Publication Number Publication Date
CN111400569A true CN111400569A (zh) 2020-07-10

Family

ID=71430928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010177474.9A Pending CN111400569A (zh) 2020-03-13 2020-03-13 一种多源聚合结构的大数据分析方法和系统

Country Status (1)

Country Link
CN (1) CN111400569A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214573A (zh) * 2020-10-30 2021-01-12 数贸科技(北京)有限公司 信息搜索系统、方法、计算设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066534A (zh) * 2017-03-02 2017-08-18 人谷科技(北京)有限责任公司 多源数据聚合方法及系统
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066534A (zh) * 2017-03-02 2017-08-18 人谷科技(北京)有限责任公司 多源数据聚合方法及系统
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾广达: "《系统辨识与仿真》", 30 June 1995 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214573A (zh) * 2020-10-30 2021-01-12 数贸科技(北京)有限公司 信息搜索系统、方法、计算设备及计算机存储介质

Similar Documents

Publication Publication Date Title
Neelakandan et al. RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM
Hsu et al. Multiple time-series convolutional neural network for fault detection and diagnosis and empirical study in semiconductor manufacturing
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
Shi et al. An integrated data preprocessing framework based on apache spark for fault diagnosis of power grid equipment
Mostafa Imputing missing values using cumulative linear regression
CN108415910B (zh) 基于时间序列的话题发展聚类分析系统和方法
CN110705774A (zh) 一种车辆能耗分析的预测方法和系统
CN111028100A (zh) 考虑气象因素的精细化短期负荷预测方法、装置及介质
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN110297715B (zh) 一种基于周期性特征分析的在线负载资源预测方法
CN115018315A (zh) 一种供热异常的检测方法、装置、电子设备及存储介质
Gonçalves et al. Characterizing scholar popularity: a case study in the computer science research community
Li et al. Distance measures in building informatics: An in-depth assessment through typical tasks in building energy management
CN111400569A (zh) 一种多源聚合结构的大数据分析方法和系统
US20230237371A1 (en) Systems and methods for providing predictions with supervised and unsupervised data in industrial systems
CN115712777A (zh) 一种基于逻辑回归的文献推荐系统的排序方法
CN112733903B (zh) 基于svm-rf-dt组合的空气质量监测与告警方法、系统、装置和介质
Louati et al. Embedding channel pruning within the CNN architecture design using a bi-level evolutionary approach
Forke et al. Feature engineering techniques and spatio-temporal data processing
Azizi New models for selecting third-party reverse logistics providers in the presence of multiple dual-role factors: Data envelopment analysis with double frontiers
Ahmed et al. A review of machine learning models in the air quality research
KR102388579B1 (ko) 에너지 관리 장치 및 그 방법
CN117787670B (zh) 一种基于建筑工程的bim数据管理方法及系统
Wincott et al. Communication of Design Space Relationships Learned by Bayesian Networks
Okoth et al. A Directed Search Many Objective Optimization Algorithm Embodied with Kernel Clustering Strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710

RJ01 Rejection of invention patent application after publication