CN103186575A

CN103186575A - 一种传感数据的聚类分析方法和系统

Info

Publication number: CN103186575A
Application number: CN2011104509318A
Authority: CN
Inventors: 王彦哲; 潘强; 沈杰; 刘海涛
Original assignee: SENSING NET GROUP (WUXI) CO Ltd; Wuxi Sensing Net Industrialization Research Institute
Current assignee: Jiangsu Perceptual Hengan Technology Co ltd
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-07-03
Anticipated expiration: 2031-12-29
Also published as: CN103186575B

Abstract

本发明公开了一种传感数据的实时聚类分析方法和系统，可以在传感数据中添加可信度信息，并构造了一个可描述可信度信息的微簇聚类特征，根据该微簇聚类特征可对传感数据进行聚类划分，获得实时分析结果。本发明的方法在聚类特征更新时不需访问历史传感数据，从而保证了该方法的实时性，更适用于数据量较大且对实时性有一定要求的信息处理系统。

Description

一种传感数据的聚类分析方法和系统

技术领域

本发明涉及聚类分析技术领域，特别是涉及一种传感数据的聚类分析方法和系统。

背景技术

随着物联网的发展，传感器的使用也越来越普遍。在获得传感器的数据后，需要对传感数据进行分析处理，以获得有用的信息。

现有的对传感数据分析处理的方法之一是聚类分析法，聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。

传统的聚类分析方法中最重要的是划分方法(partitioning methods)。划分方法给定一个有N个元组或者纪录的数据集，将数据集构造K个分组，每一个分组就代表一个聚类，K＜N且K和N均为自然数。对传感数据进行划分后，就可以生成多个微簇，然后从微簇中获得微簇特征信息，根据分析目的对微簇特征信息进行分析就可以得到所需要的分析结果。

然而，由于传感数据本身的噪声以及来自于基础采集及数模转换设备的数据误差，传感数据的存在一定的不确定性，这也导致了聚类分析方法的分析结果准确性降低。

发明内容

为解决上述技术问题，本发明实施例提供一种传感数据的聚类分析方法和系统，以解决现有技术下分析结果准确性低的问题，技术方案如下：

一种传感数据的实时聚类分析方法，包括：

在传感数据中添加可信度描述信息；

根据所述可信度描述信息对所述传感数据进行实时聚类划分处理，划分到微簇中；

获得所述微簇的聚类特征；

将所述传感数据划分结果和所述微簇的聚类特征作为第一分析结果进行输出。

优选的，

当所述传感数据为传感器直接采集获取的数据时，所述可信度描述信息为所述传感器的精度描述信息或所述传感器观测粒度的数值描述信息；

当所述传感数据为添加了人为扰动的隐私数据时，所述可信度描述信息为扰动程度的数值描述信息；

当所述传感数据为智能系统或知识系统中经主观研判生成的数据，或语义网中基于自然语言理解产生的数据时，所述可信度描述信息为相应隶属度信息。

优选的，当不存在历史传感数据组成的微簇时，

根据所述可信度描述信息对所述传感数据进行实时聚类划分处理，划分到微簇中，具体包括：

获得用户预设的微簇聚类特征；

根据所述用户预设的微簇聚类特征对添加有所述可信度描述信息的传感数据进行实时聚类划分处理，划分到新建的微簇中。

优选的，当存在历史传感数据组成的微簇时，

获得历史传感数据组成的微簇的微簇聚类特征；

根据所述历史传感数据组成的微簇的微簇聚类特征，对添加有可信度描述信息的传感数据进行划分，划分到所述历史传感数据组成的微簇中。

优选的，还包括：

对所述微簇的聚类特征进行离线分析，获得第二分析结果。

优选的，对所述微簇的聚类特征进行离线分析，获得第二分析结果，包括：

根据预先设定的信息处理任务和目标，使用所述微簇的聚类特征对历史传感数据进行索引，得到相关传感数据；

对所述相关传感数据进行离线分析，获得第二分析结果。

优选的，当存在历史传感数据组成的微簇时，获得所述微簇的聚类特征，具体包括：

根据所述历史传感数据的生成时间与当前时间的时间间隔为所述历史传感数据添加衰减权重；

从微簇中删除衰减权重小于第一阈值的所述历史传感数据；

根据微簇中剩余的历史传感数据和新划分的传感数据对微簇的聚类特征进行更新，获得所述微簇的聚类特征。

优选的，所述微簇的聚类特征，包括：

传感数据的可信度信息加权的多阶矩向量、可信度信息的多阶矩向量、微簇更新的时间戳信息和微簇包含数据点个数。

本发明还提供了一种传感数据的实时聚类分析系统，包括：可信度描述信息添加模块、实时划分模块、聚类特征获得模块和第一分析模块，

所述可信度描述信息添加模块，用于在传感数据中添加可信度描述信息；

所述实时划分模块，用于根据所述可信度描述信息对所述传感数据进行实时聚类划分处理，划分到微簇中；

聚类特征获得模块，用于获得所述微簇的聚类特征；

第一分析模块，将所述传感数据划分结果和所述微簇的聚类特征作为第一分析结果进行输出。

优选的，还包括：第二分析模块，用于对所述微簇的聚类特征进行离线分析，获得第二分析结果。

优选的，所述第二分析模块，包括：

数据索引模块，用于根据预先设定的信息处理任务和目标，使用所述微簇的聚类特征对历史传感数据进行索引，得到相关传感数据；

离线分析模块，用于对所述相关传感数据进行离线分析，获得第二分析结果。

优选的，当存在历史传感数据组成的微簇时，所述聚类特征获得模块，具体包括：

衰减权重添加模块，用于根据所述历史传感数据的生成时间与当前时间的时间间隔为所述历史传感数据添加衰减权重；

数据删除模块，用于从微簇中删除衰减权重小于第一阈值的所述历史传感数据；

聚类特征更新模块，用于根据微簇中剩余的历史传感数据和新划分的传感数据对微簇的聚类特征进行更新，获得所述微簇的聚类特征。

通过应用以上技术方案，本发明提供的一种传感数据的聚类分析方法和系统，可以在传感数据中添加可信度信息，并根据可信度信息对传感数据进行聚类划分，并对生成的微簇进行分析，获得分析结果。因为本发明在传感数据中增加了传感数据的可信度信息，并将其作为微簇的一个特征，因此本发明可以获得与传感数据可信度有关的分析结果，可以有效提高分析结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种传感数据的聚类分析方法的流程示意图；

图2为本发明实施例提供的一种微簇的示意图；

图3为本发明实施例提供的另一种传感数据的聚类分析方法的流程示意图；

图4为本发明实施例提供的一种传感数据的聚类分析系统的结构示意图；

图5为本发明实施例提供的另一种传感数据的聚类分析系统中聚类特征获得模块的结构示意图；

图6为本发明实施例提供的另一种传感数据的聚类分析系统的结构示意图；

图7为本发明实施例提供的另一种传感数据的聚类分析系统中第二分析模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明实施例提供的一种传感数据的聚类分析方法，包括：

S101、在传感数据中添加可信度描述信息；

其中，可信度描述信息是指作为一种用于描述对象感知程度的定量度量，例如传感器精度、观测粒度、数据挖掘级别、预测复杂度、语义隶属度等。需针对不同情况及处理任务合理确定可信度信息指标，例如在语义网使用场景中，主观概率描述的推理判断预测的不确定性，以及不同人对自然语言理解产生的不确定性等，可采用模糊数学中的隶属度指标进行描述，从而将传感数据转化为模糊数据流，在其每一元组中增加时间戳和隶属度信息。对于实际数据流应用中来自智能系统主观研判的结果，可自然的获得隶属度信息，对于客观观测结果或其他基于概率的统计结果组成的数据流，可利用模糊数学中相关理论，如随机落影理论，进行转换，用集值统计方法确定某一模糊集上的隶属度；或可采用B模糊集合代数中选择原子模糊集的方式进行。

S102、根据所述可信度描述信息对所述传感数据进行实时聚类划分处理，划分到微簇中；

当不存在历史传感数据组成的微簇时，步骤S102，具体可以包括：

获得用户预设的微簇聚类特征；

当存在历史传感数据组成的微簇时，步骤S102，具体可以包括：

获得历史传感数据组成的微簇的微簇聚类特征；

针对信息处理任务的不同，按相应聚类特征将采集到的传感数据以微簇形式构造相应的映射，并在线存储微簇。如图2所示，是一种微簇示意图，图中r表示模糊半径。

其中，步骤S102的具体实施过程可以为：

根据历史传感数据组成的微簇的聚类特征计算微簇的模糊质心，并计算所述预设时间段内的添加有可信度描述信息的传感数据与所述模糊质心的期望距离；

根据历史传感数据组成的微簇的聚类特征计算微簇的临界边界；

根据所述期望距离与所述临界边界对数据进行划分，将预设时间段内的添加有可信度描述信息的传感数据判定为异常值或划入第一微簇中。

下面定义具体微簇积累与更新方法：

定义模糊微簇质心为微簇中所有传感数据点在每个维度上按可信度信息加权的算术均值所组成的数据点。从而构建传感数据点到微簇质心的期望距离为各维按可信度信息加权的距离，即

v = \sqrt{Σ_{p = 1}^{d} f_{p} (\overset{&OverBar;}{X}) \cdot {(X^{p})}^{2} - 2 \cdot Σ_{p = 1}^{d} f_{p} (\overset{&OverBar;}{X}) \cdot X^{p} \cdot \frac{{FCF 1}_{p}^{x} (C)}{{FF 1}_{p}^{x} (C)} + Σ_{p = 1}^{d} f_{p} (\overset{&OverBar;}{X}) \cdot \frac{{({FCF 1}_{p}^{x} (C))}^{2}}{{({FF 1}_{p}^{x} (C))}^{2}}}

为保证算法的实时性，无法多次迭代验证某点是否属于某一现存聚类，故本方法采用可信度信息扩展的临界模糊边界判定新传感数据点是否进入微簇。该临界边界利用微簇中现存所有点与簇质心的标准差表示。表达式为

r = \sqrt{Σ_{p = 1}^{d} {FCF 2}_{p}^{x} (C) - Σ_{p = 1}^{d} \frac{{({FCF 1}_{p}^{x} (C))}^{2}}{F {F 1}_{p}^{x} (C)}}

S103、获得所述微簇的聚类特征；

其中，所述微簇的聚类特征，可以包括：

该聚类特征即为传感数据在线存储的概要信息，由传感数据的可信度信息加权的多阶矩向量、可信度信息的多阶矩向量、微簇更新的时间戳信息和微簇包含数据点个数组成的特征值组成。对于简单应用，其中的多阶矩向量部分可简化的只记录二阶及以下矩向量特征。

下面公布一种具体的计算方法：

若某微簇C由n个时间戳为

的d维传感数据记录组

构成，则该微簇的聚类特征(FuzzyCluster Feature，FCF)可表示为1个(3d+2)维向量

其中

和

均为d维向量。每项具体定义如下：

为该微簇中各元组的可信度信息加权数据值的二阶矩向量，其第p维(p＝1，2，...，d)元素

可表示为

Σ_{j = 1}^{n} f_{p} ({\overset{&OverBar;}{X}}_{i_{j}}) \cdot {(X_{i_{j}}^{p})}^{2}

其中，

是第1个数据的时间戳，以下类推，

为一个1维标量；是第1个数据的数据值，以下类推，

为一个d维向量；

是第1个数据的不确定信息度量，以下类推，也为一个d维向量。FCF(C)为微簇C的模糊微簇特征，为一个(3d+2)维向量。

本领域技术人员可以理解的是，元组即指微簇中的数据。

为该微簇中各元组的可信度信息加权数据值一阶矩向量，其第p维元素

可表示为

为该微簇中各元组的可信度信息一阶矩向量，其第p维元素

可表示为

t(C)表示该微簇更新的时间戳信息，有

n(C)表示该微簇中包含元组的个数。

为说明在线维护微簇统计信息可行，可知该微簇特征FCF(C)可增量维护，即FCF(C1∪C2)中的非实时成分可由FCF(C₁)与FCF(C₂)之和给出，其中的实时成分t(C₁∪C₂)可由max{t(C₁)，t(C₂)}给出。

具体可分为，

当新建微簇时，步骤S103可根据上述微簇聚类特征的计算公式，根据新建微簇的所有元组，获得微簇的聚类特征；

当更新微簇时，步骤S103由上面说明的微簇特征可增量维护特性，不需要该微簇所有历史元组，仅需该微簇的历史聚类特征和新加入或删除的数据，即可获得该微簇的聚类特征。

S102步骤说明了微簇中加入新数据的可能性。

下面定义微簇中删除数据的情况，其中，当存在历史传感数据组成的微簇时，步骤S103，可以包括：

从微簇中删除衰减权重小于第一阈值的所述历史传感数据；

容易理解的是，历史数据的研究价值较低，对于发生时间非常早的历史数据不具备研究价值或研究价值很低，可以去掉这些数据，以提高分析速度。下面公开一种具体的计算过程：

随着传感数据的不断到达，聚类结果由远期与近期的数据共同作用产生，在通常应用场景下，在传感数据微簇的演化过程中，用户更多的关注近期的数据对聚类结果造成的影响，即希望数据流能尽快跟踪当前数据发展趋势，针对数据流的演化特性，引入相应的衰减机制。模仿人通常记忆的情况，令置信度较高的数据在数据库中存留时间较长、衰减速率较慢，设置了综合考虑可信度信息和时间的综合衰减机制。

下面定义一种具体的计算方法，用以删除历史数据以更新微簇并获得新的微簇聚类特征：

设置带有时间戳T的传感数据点

其综合衰减权重为

ω (f (\overset{&OverBar;}{X}), t) = 2^{- λf (\overset{&OverBar;}{X}) (t - T)}

其中t为当前系统时间。λ为衰减权重因子。

利用该权重加入微簇调整算法，在权重小于临界值ω₀时从微簇中删除该传感数据点，从而提升本发明对传感数据演化的跟踪能力。

S104、将所述传感数据划分结果和所述微簇的聚类特征作为第一分析结果进行输出。

S102步骤中的聚类划分结果和S103中获得的微簇聚类特征，将其输出，可获得与分析结果。

例如，S102中聚类划分结果可以作为信息处理中实时的聚类分析结果。

此外，S102中聚类划分结果还可以反映新采集传感数据是否可以划入已有微簇，抑或是作为异常值为其新建一个微簇。从而可获得信息处理中异常值监测的实时判定结果。

另外，S103步骤中建立的微簇特征可以反映微簇均值、方差、数据变化趋势等信息，可以作为信息处理中对传感数据流的实时监测结果，并可利用此特征通过现有的算法对传感数据进行分类等实时处理。

本发明提供的一种传感数据的聚类分析方法，可以在传感数据中添加可信度信息，并构造了一个可描述可信度信息的微簇聚类特征，根据该微簇聚类特征可对传感数据进行聚类划分，获得实时分析结果。本发明的方法在聚类特征更新时不需访问历史传感数据，从而保证了该方法的实时性，更适用于数据量较大且对实时性有一定要求的信息处理系统。

如图3所示，本发明实施例提供的另一种传感数据的聚类分析方法中，还可以包括：

S105、对所述微簇的聚类特征进行离线分析，获得第二分析结果。

具体的，步骤S105可以包括：

对所述相关传感数据进行离线分析，获得第二分析结果。

根据分析目的对微簇离线分析可以实现相应处理功能，如聚类、分类、识别、异常监测等。具体的非实时的分析过程都是本领域技术人员所熟知的，不再赘述。

同时，利用可信度信息定义了微簇质量的描述指标，可利用该描述指标反馈调节离线分析过程。定义该微簇质量描述指标为与该微簇包含的所有传感数据点的可信度信息均值成正比，与簇的模糊边界半径成反比。

本发明通过微簇聚类特征，可有效索引到与特定信息处理事件相关的传感数据，改进了传感数据的管理方式。

相应于上面的方法实施例，本发明还提供一种传感数据的聚类分析系统。

如图4所示，本发明实施例提供的一种传感数据的实时聚类分析系统，包括：可信度描述信息添加模块100、实时划分模块200、聚类特征获得模块300和第一分析模块400，

所述可信度描述信息添加模块100，用于在传感数据中添加可信度描述信息；

其中，可信度描述信息是指作为一种用于描述对象感知程度的定量度量，例如传感器精度、观测粒度、数据挖掘级别、预测复杂度、语义隶属度等。

所述实时划分模块200，用于根据所述可信度描述信息对所述传感数据进行实时聚类划分处理，划分到微簇中；

当不存在历史传感数据组成的微簇时，实时划分模块200，具体可以设置为：

获得用户预设的微簇聚类特征；

当存在历史传感数据组成的微簇时，实时划分模块200，具体可以设置为：

获得历史传感数据组成的微簇的微簇聚类特征；

聚类特征获得模块300，用于获得所述微簇的聚类特征；

其中，所述微簇的聚类特征，可以包括：

第一分析模块400，将所述传感数据划分结果和所述微簇的聚类特征作为第一分析结果进行输出。

本发明提供的一种传感数据的聚类分析系统，可以在传感数据中添加可信度信息，并构造了一个可描述可信度信息的微簇聚类特征，根据该微簇聚类特征可对传感数据进行聚类划分，获得实时分析结果。本发明的方法在聚类特征更新时不需访问历史传感数据，从而保证了该方法的实时性，更适用于数据量较大且对实时性有一定要求的信息处理系统。

如图5所示，本发明实施例提供的一种传感数据的实时聚类分析系统中，当存在历史传感数据组成的微簇时，聚类特征获得模块300，具体可以包括：

衰减权重添加模块310，用于根据所述历史传感数据的生成时间与当前时间的时间间隔为所述历史传感数据添加衰减权重；

数据删除模块320，用于从微簇中删除衰减权重小于第一阈值的所述历史传感数据；

聚类特征更新模块330，用于根据微簇中剩余的历史传感数据和新划分的传感数据对微簇的聚类特征进行更新，获得所述微簇的聚类特征。

如图6所示，本发明实施例提供的一种传感数据的实时聚类分析系统中，还可以包括：第二分析模块500，用于对所述微簇的聚类特征进行离线分析，获得第二分析结果。

如图7所示，本发明实施例提供的一种传感数据的实时聚类分析系统中，第二分析模块500，可以包括：

数据索引模块510，用于根据预先设定的信息处理任务和目标，使用所述微簇的聚类特征对历史传感数据进行索引，得到相关传感数据；

离线分析模块520，用于对所述相关传感数据进行离线分析，获得第二分析结果。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种传感数据的实时聚类分析方法，其特征在于，包括：

在传感数据中添加可信度描述信息；

获得所述微簇的聚类特征；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，当不存在历史传感数据组成的微簇时，

获得用户预设的微簇聚类特征；

4.根据权利要求1所述的方法，其特征在于，当存在历史传感数据组成的微簇时，

获得历史传感数据组成的微簇的微簇聚类特征；

5.根据权利要求1所述的方法，其特征在于，还包括：

对所述微簇的聚类特征进行离线分析，获得第二分析结果。

6.根据权利要求5所述的方法，其特征在于，对所述微簇的聚类特征进行离线分析，获得第二分析结果，包括：

对所述相关传感数据进行离线分析，获得第二分析结果。

7.根据权利要求书1所述的方法，其特征在于，当存在历史传感数据组成的微簇时，获得所述微簇的聚类特征，具体包括：

从微簇中删除衰减权重小于第一阈值的所述历史传感数据；

8.根据权利要求1或7所述的方法，其特征在于，所述微簇的聚类特征，包括：

9.一种传感数据的实时聚类分析系统，其特征在于，包括：可信度描述信息添加模块、实时划分模块、聚类特征获得模块和第一分析模块，

聚类特征获得模块，用于获得所述微簇的聚类特征；

10.根据权利要求9所述的系统，其特征在于，还包括：第二分析模块，用于对所述微簇的聚类特征进行离线分析，获得第二分析结果。

11.根据权利要求10所述的系统，其特征在于，所述第二分析模块，包括：

12.根据权利要求书9所述的系统，其特征在于，当存在历史传感数据组成的微簇时，所述聚类特征获得模块，具体包括：