CN116735807A

CN116735807A - 基于多传感器数据的空气质量检测评估方法

Info

Publication number: CN116735807A
Application number: CN202310993152.5A
Authority: CN
Inventors: 李博; 李霖栋
Original assignee: Shandong Youkong Intelligent Technology Co ltd
Current assignee: Shandong Youkong Intelligent Technology Co ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-09-12

Abstract

本发明涉及空气质量监督技术领域，具体涉及基于多传感器数据的空气质量检测评估方法。该方法首先对采集到的封闭空间内的任意气体的浓度序列中的数据进行聚类，得到浓度序列的聚类簇；确定浓度序列的数据正常指数；根据聚类簇中数据的波动情况、聚类簇的簇间紧密性、聚类簇中每个数据与聚类簇内数据均值的差异，确定聚类簇中每个数据的相邻紧密性；根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据。本发明自适应获取收缩因子，提高了异常数据检测的准确性。

Description

基于多传感器数据的空气质量检测评估方法

技术领域

本发明涉及空气质量监督技术领域，具体涉及基于多传感器数据的空气质量检测评估方法。

背景技术

空气质量检测是环境保护的一个重要组成部分，在各地的空气监管部门通过收集实时的空气质量数据建设相关的空气质量检测网络，客观的分析空气质量情况对地区内环境和人类生活健康的影响。然而相比更宏观的地区性空气质量检测，局部检测也尤为重要。对于局部封闭空间内的空气质量来说，局部封闭空间例如碳锅店、地铁、飞机机舱等，由于空间较为封闭，空气流通相对困难，所以污染物更容易聚集，且此类区域的人员更为密集，空气质量会直接影响到人们的健康安全。所以对于此类区域的空气质量检测评估也至关重要。

例如火锅作为中国传统的美食，其分类多种多样，虽然目前有很多火锅店将传统的铜炉碳烤火锅换成电磁炉火锅，但是由于碳锅能保持持续高温，能让食材达到电磁炉火锅所没有的风味，所以现在还存在有不少碳烤火锅店，由于炭烤火锅店通常需要燃烧炭火或者木炭等燃料，会产生大量的烟尘以及有害气体，若店内通风不及时，产生的气体不仅会对室内空气质量产生负面影响，还会对员工和顾客的身体健康构成威胁，比如一氧化碳中毒等。

因此对于局部封闭空间而言，进行空气质量检测对保护人体健康和环境影响评估有着重要意义。然而局部封闭空间通常有较多的大功率电器，会对采集气体浓度的传感器产生电磁干扰。目前，通常采用CURE算法对气体浓度中的异常值进行检测，以实现对气体浓度的异常检测，但传统CURE算法的收缩因子为固定的经验值，无法处理不同密度大小的聚类且在实现缺陷检测时对离群值较为敏感，导致异常检测效果较差。

发明内容

为了解决传统CURE算法的收缩因子为固定的经验值，会导致对气体浓度的异常检测效果较差的技术问题，本发明的目的在于提供基于多传感器数据的空气质量检测评估方法，所采用的技术方案具体如下：

采集封闭空间内的任意气体的浓度；由不同时刻采集到的气体的浓度构建浓度序列；

对浓度序列中的数据进行聚类，得到浓度序列的聚类簇；对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量；

根据浓度序列的聚类簇的数量和整体自相关性度量，确定浓度序列的数据正常指数；

根据浓度序列中相邻聚类簇内数据的大小和分布情况，确定相邻聚类簇中前一个聚类簇的簇间紧密性；

根据聚类簇中数据的波动情况、聚类簇的簇间紧密性、聚类簇中每个数据与聚类簇内数据均值的差异，确定聚类簇中每个数据的相邻紧密性；

根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子；

基于CURE算法，根据自适应获取后的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据。

优选的，所述对浓度序列中的数据进行聚类，得到浓度序列的聚类簇，包括：

依次对浓度序列中的数据打上标签；

将标签值作为数据对应数据点的横坐标，将数据大小作为数据对应数据点的纵坐标，将浓度序列中的每个数据对应的数据点，映射至二维坐标系中；

基于每两个数据对应的数据点之间的距离，对数据对应的数据点进行DBSCAN聚类，得到多个类别，将每个类别内的数据点对应的数据按照标签顺序进行排序，得到首尾相连的浓度序列对应的聚类簇。

优选的，所述根据浓度序列的聚类簇的数量和整体自相关性度量，确定浓度序列的数据正常指数，包括：

采集封闭空间内的所有气体的浓度，构建每种气体对应的浓度序列；

对每个浓度序列中的数据进行聚类，得到每个浓度序列对应的聚类簇数量，将出现频次最大的聚类簇数量，作为标准数量；

将每个浓度序列的聚类簇的数量和标准数量的差异进行负相关归一化，得到每个浓度序列的初始正常指数；

将整体自相关性度量的绝对值和初始正常指数的乘积作为浓度序列的数据正常指数。

优选的，所述对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量，包括：

获取相邻聚类簇的斯皮尔曼秩相关系数；

将浓度序列中斯皮尔曼秩相关系数的绝对值大于或等于预设第一阈值的相邻聚类簇的斯皮尔曼秩相关系数的均值，作为浓度序列的第一相关系数；将浓度序列中斯皮尔曼秩相关系数的绝对值小于预设第一阈值的相邻聚类簇的斯皮尔曼秩相关系数的均值，作为浓度序列的第二相关系数；对第一相关系数和第二相关系数进行加权，得到浓度序列的整体自相关性度量。

优选的，所述根据浓度序列中相邻聚类簇内数据的大小和分布情况，确定相邻聚类簇中前一个聚类簇的簇间紧密性，包括：

获取浓度序列中每个聚类簇内的拐点和浓度序列中每个聚类簇内的数据数量；

获取浓度序列中相邻聚类簇中前一个聚类簇对应的序列内最右侧拐点对应的数据点，到相邻聚类簇中前一个聚类簇对应的序列内最后一个数据对应的数据点的距离，作为右侧距离；获取浓度序列中相邻聚类簇中后一个聚类簇对应的序列内最左侧拐点对应的数据点，到相邻聚类簇中后一个聚类簇对应的序列内第一个数据的数据点的距离，作为左侧距离；

根据相邻聚类簇对应的右侧距离、左侧距离和聚类簇内数据数量，确定相邻聚类簇中前一个聚类簇的簇间紧密性。

优选的，所述簇间紧密性的计算公式为：

其中，为第m-1个聚类簇的簇间紧密性；/>为第m-1个聚类簇对应的序列内最右侧拐点对应的数据点，到相邻聚类簇中前一个聚类簇对应的序列内最后一个数据的数据点的距离，也即为相邻聚类簇的右侧距离；/>为第m个聚类簇对应的序列内最左侧拐点对应的数据点，到相邻聚类簇中后一个聚类簇对应的序列内第一个数据的数据点的距离，也即为相邻聚类簇的左侧距离；/>为第m-1个聚类簇内的数据均值；/>为第m个聚类簇内的数据均值；e为自然常数。

优选的，所述相邻紧密性的计算公式为：

其中，为第m个聚类簇内第i个数据的相邻紧密性；Norm为归一化函数；e为自然常数；/>为第m个聚类簇内第i个数据；/>为第m个聚类簇内的数据均值；G为浓度序列中的拐点数量；/>为第m个聚类簇内的数据最大值；/>为第m个聚类簇内的数据最小值；/>为第m个聚类簇的簇间紧密性；d为第m个聚类簇内第i个数据对应的数据点与两个边缘数据所对应的数据点之间的最小距离。

优选的，所述根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子，包括：

对每个数据的相邻紧密性进行负相关归一化处理，得到每个数据的初始收敛因子；

将浓度序列的数据正常指数和每个数据的初始收敛因子的乘积的归一化值，作为每个数据对应的CURE算法中自适应获取后的收敛因子。

优选的，所述基于CURE算法，根据自适应获取后的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据，包括：

基于CURE算法，根据自适应获取后的收缩因子，对浓度序列进行聚类，得到自适应聚类簇；

计算自适应聚类簇中每个数据对应数据点到聚类中心对应数据点的距离的标准差；获取自适应聚类簇中每个数据对应数据点到聚类中心点对应数据点的距离，作为离散距离；将离散距离大于预设倍数的标准差的数据作为气体异常数据。

优选的，所述由不同时刻采集到的气体的浓度构建浓度序列，包括：

将不同时刻采集到的气体的浓度进行归一化处理，由归一化处理后的气体的浓度构建浓度序列。

本发明实施例至少具有如下有益效果：

本发明涉及空气质量监督技术领域。该方法首先对采集到的封闭空间内的任意气体的浓度序列中的数据进行聚类，得到浓度序列的聚类簇；对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量；根据浓度序列的聚类簇的数量和整体自相关性度量，确定浓度序列的数据正常指数，通过数据正常指数大致确定了浓度序列内的数据出现异常的情况，其引入了整体自相关性度量，以实现从整体判断了浓度序列中数据的异常程度；根据聚类簇中数据的波动情况、聚类簇的簇间紧密性、聚类簇中每个数据与聚类簇内数据均值的差异，确定聚类簇中每个数据的相邻紧密性，其分别对浓度序列进行聚类簇的簇间分析和簇内分析，以确定浓度序列中数据的相邻紧密性，该相邻紧密性反映了数据分布的紧密程度，而数据分布的紧密程度能够给予收缩因子直观的调整，故进一步的根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子，实现对CURE算法中收缩因子的自适应幅值；基于CURE算法，根据自适应获取后的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据。本发明根据浓度数据的特点和分布进行分析，使得CURE算法能够处理不同密度大小的聚类，减少了离群点对CURE算法的影响，以实现自适应获取收缩因子，还提高了异常数据检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的基于多传感器数据的空气质量检测评估方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于多传感器数据的空气质量检测评估方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例提供了基于多传感器数据的空气质量检测评估方法的具体实施方法，该方法适用于封闭空间空气质量检测场景。该场景下的封闭空间存在产生有害气体的源头，该封闭空间内安装有多传感器组件或者单传感器，可由实施者根据实际需求决定。为了解决传统CURE算法的收缩因子为固定的经验值，会导致对气体浓度的异常检测效果较差的问题。本发明根据浓度数据的特点和分布进行分析，使得CURE算法能够处理不同密度大小的聚类，减少了离群点对CURE算法的影响，以实现自适应获取收缩因子，还提高了异常数据检测的准确性。

下面结合附图具体的说明本发明所提供的基于多传感器数据的空气质量检测评估方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于多传感器数据的空气质量检测评估方法的步骤流程图，该方法包括以下步骤：

步骤S100，采集封闭空间内的任意气体的浓度；由不同时刻采集到的气体的浓度构建浓度序列。

使用检测目标所对应的多传感器组件，对局部封闭空间内的空气质量数据进行采集，多传感器组件包括一氧化碳（）浓度传感器、二氧化硫（/>）浓度传感器、挥发性有机物（/>）传感器等采集有害气体浓度，本发明中使用多传感器采集的参数数量为V个，实施者可以根据实际要求来更改检测目标，并不唯一，其V为大于或等于1的整数即可。

以T为周期，对上述V个参数类别进行气体浓度采集，分别在每个周期内采集n次数据，在本发明实施例中n和T的经验值分别取200，10S，在其他实施例中实施者可以根据实际需要对T和n的取值进行调整。

本发明首先采集封闭空间内的任意气体的浓度，并由不同时刻采集到的气体的浓度构建浓度序列。并对浓度序列中的浓度数据进行归一化处理，以实现去量纲的目的，即后续进行分析的浓度序列进行归一化后的浓度序列，具体的：将不同时刻采集到的气体的浓度进行归一化处理，由归一化处理后的气体的浓度构建浓度序列。需要说明的是，浓度序列中的数据为气体的浓度数据值。

步骤S200，对浓度序列中的数据进行聚类，得到浓度序列的聚类簇；对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量。

在对局部封闭空间内部进行空气质量检测时，例如对铜炉碳烤火锅店内部进行空气质量检测时，由于火锅店内部环境复杂，会有许多空调、音响、电冰柜和微波炉等大功率电器，这些大功率电器在使用过程中会产生电磁辐射和磁场，这些电磁干扰会使部分传感器在采集数据时产生异常数据，影响对空气质量检测的准确性，故需要尽可能的消除大功率电器对空气质量检测产生的干扰。

首先通过步骤S100得到了用于检测封闭空间的空气质量的浓度序列，可结合不同气体的浓度序列，将其构建为多参数的初始检测矩阵，并对初始检测矩阵进行归一化去量纲处理，得到异常检测矩阵。需要说明的是，异常检测矩阵中每行数据对应一种气体的浓度序列，也即每种气体的浓度序列对应异常监测矩阵中的一行数据。当只需要对封闭空间进行一种气体进行检测时，可直接设置一个传感器采集一种类型的气体浓度。

其中，K为多传感器检测到V个参数所对应的异常检测矩阵，异常检测矩阵的大小为V×n。V为多传感器检测到的参数个数，也即为气体种类的数量，n为在采集周期T内所采集的数据数量，也即为在采集周期内所采集的浓度数量。为第1种气体在采集周期T内的第1个浓度的归一化结果值；/>为第1种气体在采集周期T内的第2个浓度的归一化结果值；/>为第1种气体在采集周期T内的第n个浓度的归一化结果值；/>为第2种气体在采集周期T内的第1个浓度的归一化结果值；/>为第2种气体在采集周期T内的第2个浓度的归一化结果值；/>为第2种气体在采集周期T内的第n个浓度的归一化结果值；/>为第V种气体在采集周期T内的第1个浓度的归一化结果值；/>为第V种气体在采集周期T内的第2个浓度的归一化结果值；/>为第V种气体在采集周期T内的第n个浓度的归一化结果值。

由于局部封闭空间内大功率电器较多，所以会产生严重的电磁干扰，尽管目前的传感器都有一定的抗干扰设计，但是由于屏蔽材料本身屏蔽衰减有限，无法提供完全隔离。所以仍然会有传感器采集到的数据中存在异常数据的情况存在。电磁干扰会向传感器输出中引入随机噪声，这会直接增加数据的波动幅度，使得输出数据浮动变大，且会使原有波动的数据分布发生偏移，波动中心发生改变。

对浓度序列中的数据进行聚类，得到浓度序列的聚类簇，具体的：依次对浓度序列中的数据打上标签；将标签值作为数据对应数据点的横坐标，将数据大小作为数据对应数据点的纵坐标，将浓度序列中的每个数据对应的数据点，映射至二维坐标系中。基于每两个数据对应的数据点之间的距离，对数据对应的数据点进行DBSCAN聚类，得到多个类别，将每个类别内的数据点对应的数据按照标签顺序进行排序，得到首尾相连的浓度序列对应的聚类簇。在本发明实施例中设定DBSCAN算法的邻域半径取经验值为5，最小点取经验值为6。将第V行数据利用DBSCAN算法得到的簇的数量记为，也即第V种气体对应的浓度序列中的数据利用DBSCAN算法得到的簇的数量记为/>，第V-1行数据得到的聚类簇的数量记为，同理也即第V-1种气体对应的浓度序列中的数据利用DBSCAN算法得到的簇的数量记为/>。

由于设置的DBSCAN算法的邻域半径和最小点均较小，所以可以更容易的将数据序列中波动变化差异不大的数据点聚类到一个簇内，且更容易通过两个向量数据之间的变化趋势的转折或变化的细节来分割不同的聚类簇。

在得到浓度序列中的聚类簇之后，对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量，具体的：

步骤一，获取相邻聚类簇的斯皮尔曼秩相关系数。需要说明的是，斯皮尔曼相关可以认为是皮尔逊相关的非参数版本，皮尔逊相关是关于两个随机变量之间的线性关系强度的统计度量，而斯皮尔曼相关考察的是两者单调关系的强调，通俗地说就是两者在变大或变小的趋势上多大程度上保持步调一致，哪怕没有保持比例关系，其中，两个相邻聚类簇内的数据作为随机变量，计算相邻聚类簇的斯皮尔曼秩相关系数的方法为本领域技术人员的公知技术，在此不再进行赘述。

以第j个聚类簇和第j+1个聚类簇为相邻聚类簇为例，将第j个聚类簇和第j+1个聚类簇的数据合并在一起，按照变量值大小排序，对排序后的合并序列赋予秩，对第j个聚类簇中的第x个数据的秩记为；对第j+1个聚类簇中的第x个数据的秩记为/>。计算第j个聚类簇和第j+1个聚类簇中第x个数据的秩差：/>。需要说明的是，由于两个聚类簇中可能存在数据数量不同的情况，在计算每个数据的秩差时，仅对两个聚类簇中相同序号的数据进行作差计算，多出来的数据不参与秩差的计算，计算所有秩差的方差，最后计算得到两个相邻聚类簇之间的斯皮尔曼秩相关系数。

该斯皮尔曼秩相关系数的计算公式为：

其中，为第j个聚类簇和第j+1个聚类簇的斯皮尔曼秩相关系数；/>为秩差的方差；/>为第j个聚类簇中数据数量；/>为第j+1个聚类簇中数据数量。

当斯皮尔曼秩相关系数数越接近1，则表示第j个聚类簇和第j+1个聚类簇之间存在较强的正相关性；当斯皮尔曼秩相关系数数/>越接近-1，则表示存在较强的负相关性；当斯皮尔曼秩相关系数数/>越接近0，则表示第j个聚类簇和第j+1个聚类簇之间相关性较弱。设置预设第一阈值/>，在本发明实施例中预设第一阈值/>取经验值0.5，在其他实施例中由实施者根据实际情况调整该取值。

步骤二，将浓度序列中斯皮尔曼秩相关系数的绝对值大于或等于预设第一阈值的，相邻聚类簇的斯皮尔曼秩相关系数的均值，作为浓度序列的第一相关系数；将浓度序列中斯皮尔曼秩相关系数的绝对值小于预设第一阈值的，相邻聚类簇的斯皮尔曼秩相关系数的均值，作为浓度序列的第二相关系数；对第一相关系数和第二相关系数进行加权，得到浓度序列的整体自相关性独立。例如某个浓度序列中对应有个相关系数中有/>个斯皮尔曼秩相关系数符合/>，有/>个斯皮尔曼秩相关系数符合/>（/>）。

由于在进行DBSCAN聚类时设置了较小的邻域半径和最小点，所以在每一行中划分出来的簇的数量是比较多的，当聚类簇的数量较多且聚类簇之间的密度变化较小时，可能会更容易观察到线性关系的趋势。这是因为较小的密度变化使得相邻聚类簇之间的数据点更接近，更有可能表现出线性关系。而当聚类簇的数量较多但聚类簇之间的密度变化较大时，线性关系就不会很明显。例如在正常情况下，火锅店内传感器所采集到空气中有害物质的浓度是由木碳燃烧所产生，采集到的浓度信息应是逐渐上升或者下降，密度较大，其相邻簇之间的斯皮尔曼秩相关系数的绝对值应接近于1。但是如果受到电磁干扰而产生异常数据则会使数据发生突变或波动，导致密度降低，会导致相邻聚类簇之间的斯皮尔曼秩相关系数的绝对值接近0。所以为了表达该浓度序列的整体相关性，给予上述个小于预设第一阈值的斯皮尔曼秩相关系数更大的权重，将得到的第一相关系数和第二相关系数的进行加权求和，得到整体自相关性度量。

该整体自相关性度量的计算公式为：

其中，为第v种气体的浓度序列的整体自相关性度量；/>为第一相关系数对应的预设第一权重；/>为第二相关系数对应的预设第二权重；/>为第v种气体对应的浓度序列中第i个第一相关系数；/>为第v种气体对应的浓度序列中第j个第二相关系数；/>为第v种气体对应的浓度序列中第一相关系数的数量；/>为第v种气体对应的浓度序列中第二相关系数的数量。

在本发明实施例中预设第一权重的取值为0.4，预设第二权重的取值为0.6，在其他实施例中由实施者根据实际情况调整该取值。

整体自相关性度量的大小反映了浓度序列的整体自相关性特征。当整体自相关性度量/>的绝对值接近1时，表示浓度序列内部的数据点之间具有较强的线性相关性，即它们的排序和秩之间存在一致的趋势。当整体自相关性度量/>接近0时，表示浓度序列内部的数据点之间的线性相关性较弱，排序趋势可能更加随机或无关。整体自相关性度量的绝对值/>越接近于1，则反映此行受到的异常干扰越小，反之整体自相关性度量的绝对值/>越接近于0，则反映此行受到的异常干扰越大。

步骤S300，根据浓度序列的聚类簇的数量和整体自相关性度量，确定浓度序列的数据正常指数。

由于传感器所检测的参数均为局部封闭空间的有害气体和物质，例如由于传感器所检测的参数均为火锅店木炭燃烧所释放的有害气体和物质，所检测到的不同气体的浓度都和店内燃烧程度和数量呈正相关。所以在正常情况下各个传感器所检测到的气体浓度的变化规律基本一致，通过对DBSCAN算法的最小点和邻域半径的设置分析，也可得出每一行中聚类簇的数量也应基本一致，也即同一封闭空间对应的多个气体的浓度序列中聚类簇的数量也应基本一致。

获取异常检测矩阵中每一行对应的聚类簇的数量，也即为获取不同气体构成的浓度序列对应的聚类簇的数量，将出现频次最大的聚类簇数量，作为标准数量，需要说明的是，当不止有一个出现频次最大的聚类簇数量时，将任意出现频次最大的聚类簇数量作为标准数量。其余含有聚类簇数量与标准数量不同的行认为是受到电磁干扰形成异常数据，其由于电磁干扰造成数据局部偏移。需要说明的是，如果每一个浓度序列所含有的聚类簇数量均不相同的话，则将每一个浓度序列的聚类簇数量从小到大排序，取中值，其聚类簇数量的中值所在浓度序列即为标准浓度序列，该标准浓度序列对应的聚类簇数量即为标准数量，其余浓度序列则为受异常数据影响造成的聚类簇数量不同。

故根据浓度序列的聚类簇的数量和浓度序列的整体自相关性度量，确定浓度序列的数据正常指数，具体的：

首先是获取标准数量，采集封闭空间内的所有气体的浓度，构建每种气体对应的浓度序列；对每个浓度序列中的数据进行聚类，得到每个浓度序列对应的聚类簇数量，将出现频次最大的聚类簇数量，作为标准数量。

进一步的，将每个浓度序列的聚类簇的数量和标准数量的差异进行负相关归一化，得到每个浓度序列的初始正常指数。将整体自相关性度量的绝对值和初始正常指数的乘积作为浓度序列的数据正常指数。

该数据正常指数的计算公式为：

其中，为第v种气体对应的浓度序列的数据正常指数；e为自然常数；/>为第v种气体对应的浓度序列的聚类簇数量；/>为标准数量；/>为第v种气体对应的浓度序列的整体自相关性度量。

其中，反映第v种气体对应的浓度序列的聚类簇数量和标准行内簇数量差值的绝对值，其值越大，代表第v种气体对应的浓度序列内异常数据越多，导致聚类时受异常数据的影响，使得聚类簇的数量发生较大的改变，则数据正常指数/>越小。整体自相关性度量的绝对值/>越大，则代表此浓度序列的整体相关性越接近于线性，其内部越有可能是正常数据，数据正常指数/>越大；反之代表整体相关性越混乱，接近于非线性，则内部的异常数据越多，则数据正常指数/>越小。

步骤S400，根据浓度序列中相邻聚类簇内数据的大小和分布情况，确定相邻聚类簇中前一个聚类簇的簇间紧密性。

在正常情况下，采集到的浓度信息应是逐渐变化，比较稳定，不存在突变和大幅度波动的。对于第v种气体对应的浓度序列中的聚类簇内的数据使用一阶差分，例如为第v种气体对应的浓度序列中的第C个聚类簇，聚类簇内有j个数据。设原始聚类簇对应的序列为/>；则一阶差分序列为：/>，其中，，基于一阶差分序列，进一步计算二阶差分，得到的二阶差分序列为：，其中，/>。二阶差分可以反映聚类簇内原始数据的转折情况，在二阶差分序列中，寻找相邻两个二阶差分符号改变的点，即当从符号为正变成符号为负的点，或者从符号为负变成符号为正的点，此时对应的原始数据即为拐点。

获取浓度序列中每个聚类簇内拐点的数量、聚类簇对应的序列对应的序列内最右侧拐点，到序列最后一个数据对应的数据点的距离，以及聚类簇对应的序列内最左侧拐点，到序列第一个数据对应的数据点的距离。需要说明的是，聚类簇对应的序列即为：按照数据对应的标签顺序，对聚类簇内的数据进行排序得到的数据序列，作为聚类簇对应的序列。

获取浓度序列中每个聚类簇内的拐点和浓度序列中每个聚类簇内的数据数量。

获取浓度序列中相邻聚类簇中前一个聚类簇对应的序列内最右侧拐点对应的数据点，到相邻聚类簇中前一个聚类簇对应的序列内最后一个数据对应的数据点的距离，作为右侧距离；获取浓度序列中相邻聚类簇中后一个聚类簇对应的序列内最左侧拐点对应的数据点，到相邻聚类簇中后一个聚类簇对应的序列内第一个数据的数据点的距离，作为左侧距离；根据相邻聚类簇对应的右侧距离、左侧距离和聚类簇内数据数量，确定相邻聚类簇中前一个聚类簇的簇间紧密性。

需要说明的是，当相邻聚类簇中至少有一个聚类簇内拐点的数量为0时，直接将对应的左侧距离或右侧距离取为聚类簇内的数据数量。

该簇间紧密性的计算公式为：

当相邻聚类簇的左侧距离和右侧距离越大时，代表两个聚类簇连接位置的单调邻域越大，即两个邻域的相连处越多，邻域内的数据为单调递增或者单调递减，数据数值单调数量越大反映气体浓度变化越标准，在两个聚类簇相衔接的部分发生的突变和范围波动的情况越少，簇间的紧密性越大，而两个聚类簇的均值之差的绝对值越大，则反映两个聚类簇的气体浓度数据的大小变化越大。

步骤S500，根据聚类簇中数据的波动情况、聚类簇的簇间紧密性、聚类簇中每个数据与聚类簇内数据均值的差异，确定聚类簇中每个数据的相邻紧密性。

进一步的，分析聚类簇中数据的波动情况、聚类簇的簇间紧密性、聚类簇内每个数据与聚类簇内数据均值的差异，确定聚类簇中每个数据的相邻紧密性。

该相邻紧密性的计算公式为：

/>

需要说明的是，边缘数据即为聚类簇对应的序列中第一个数据和最后一个数据，且在本发明实施例中数据点之间的距离，均为数据点之间的欧氏距离。

其中，聚类簇内的数据最大值和聚类簇内的数据最小值的差值，反映聚类簇内数据大小的差异强度，/>越大，则聚类簇内数据的紧密性越小；反之，/>越小，则聚类簇内数据的紧密性越大。聚类簇内拐点的数量越多，聚类簇内线性关系越弱，数据非单调性的增长，相邻密集性越大。簇间紧密性反映的是数据所在聚类簇与距离此数据最近的与之相邻的聚类簇的簇间紧密性。将/>作为权重，可以引入相邻簇的影响，数据对应的数据点与两个边缘数据所对应的数据点之间的最小距离d越大，反映相邻聚类簇对该数据的影响越小，则对应的相邻紧密性越小。簇间紧密性/>越大，反映相邻聚类簇与所在簇的簇间紧密性越大，其给予更大的权重，则对应的相邻紧密性/>越大。计算数据的相邻紧密性/>可以引入相邻聚类簇对此数据的影响作为权重，以簇内紧密程度作为主体计算该数据的紧密性，判断此数据周围数据的分布情况。

步骤S600，根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子。

最后对采集到的浓度序列使用CURE算法进行异常监测，在使用CURE算法时，将每个浓度序列作为数据集，CURE算法进行时会首先将数据集按照层次聚类的方法分为不同的聚类簇，之后在聚类簇内按照CURE特定的选取方法选取s个代表点，在本发明实施例中s取经验值为3，在其他实施例中由实施者根据实际情况调整该取值。需要说明的是，选取代表点后，会对代表点进行收缩，当两个聚类簇的某对收缩后的代表点之间足够接近时，将可以将两个聚类簇合并，这里代表点的收缩由收缩因子决定，在原始CURE算法中收缩因子为确定的经验值，对于不同的数据集，其特征会有很大的差异，使用固定的经验值会导致CURE算法的分割效果不够灵活。故本发明对CURE算法中的收缩因子进行自适应赋值。

根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收敛因子，具体的：对每个数据的相邻紧密性进行负相关归一化处理，得到每个数据的初始收敛因子；将浓度序列的数据正常指数和每个数据的初始收敛因子的乘积的归一化值，作为每个数据对应的CURE算法中自适应调整后的收敛因子。

该收敛因子的计算公式为：

其中，为收敛因子；/>为第v个浓度序列的数据正常指数；e为自然常数；/>为第v个浓度序列中第m个聚类簇内第i个数据对应的相邻紧密性；Norm为归一化函数。在本发明实施例中所有归一化处理均采用线性归一化方法，在其他实施例中可由实施者根据实际情况进行调整。

当数据对应的相邻紧密性越大时，则反映该数据附近的数据分布越紧密，则对应的收敛因子应越小越好，使其代表点的收缩程度加大。数据所处的浓度序列的数据正常指数越大，则反映浓度序列内数据所含有的异常值越小，则对应的收敛因子应随之变大，使得收缩程度减小。

步骤S700，基于CURE算法，根据自适应获取后的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据。

例如火锅店传感器，采集到的异常数据可能是由电磁干扰引起的跳转和波动变化，其正常数据和异常数据的分布都集中在各自的质心点附近。

故通过对浓度序列的分析，实现对收缩因子进行自定义改进可以更好的确定每个代表点的收缩程度。且只需要计算每一种气体对应的浓度序列的正常指数和数据的相邻紧密性。经过聚类合并过程后得到稳定的聚类簇，将其记为自适应聚类簇。即基于CURE，根据自适应获取后的收缩因子，浓度序列进行聚类，得到自适应聚类簇。

计算自适应聚类簇中每个数据对应的数据点到聚类中心对应数据点的距离的标准差，以预设倍数的标准差作为阈值，获取自适应聚类簇中每个数据对应数据点到聚类中心点对应数据点的距离，作为离散距离；将离散距离大于预设倍数的标准差的数据作为气体异常数据，完成对空气质量的异常监测。在本发明实施例中预设倍数的取值为3，在其他实施例中由实施者根据实际情况调整该取值。

综上所述，本发明涉及空气质量监督技术领域。该方法首先采集封闭空间内的任意气体的浓度；由不同时刻采集到的气体的浓度构建浓度序列；对浓度序列中的数据进行聚类，得到浓度序列的聚类簇；对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量；根据浓度序列的聚类簇的数量和整体自相关性度量，确定浓度序列的数据正常指数；根据浓度序列中相邻聚类簇内数据的大小和分布情况，确定相邻聚类簇中前一个聚类簇的簇间紧密性；根据聚类簇中数据的波动情况、聚类簇的簇间紧密性、聚类簇中每个数据与聚类簇内数据均值的差异，确定聚类簇中每个数据的相邻紧密性；根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子；基于CURE算法，根据自适应获取后的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据。本发明根据浓度数据的特点和分布，自适应获取收缩因子，提高了异常数据检测的准确性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于多传感器数据的空气质量检测评估方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述对浓度序列中的数据进行聚类，得到浓度序列的聚类簇，包括：

依次对浓度序列中的数据打上标签；

3.根据权利要求1所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述根据浓度序列的聚类簇的数量和整体自相关性度量，确定浓度序列的数据正常指数，包括：

4.根据权利要求1所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述对浓度序列中相邻聚类簇之间的相关系数进行分析，得到浓度序列的整体自相关性度量，包括：

获取相邻聚类簇的斯皮尔曼秩相关系数；

5.根据权利要求4所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述根据浓度序列中相邻聚类簇内数据的大小和分布情况，确定相邻聚类簇中前一个聚类簇的簇间紧密性，包括：

6.根据权利要求5所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述簇间紧密性的计算公式为：

7.根据权利要求1所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述相邻紧密性的计算公式为：

其中，为第m个聚类簇内第i个数据的相邻紧密性；Norm为归一化函数；e为自然常数；/>为第m个聚类簇内第i个数据；/>为第m个聚类簇内的数据均值；G为浓度序列中的拐点数量；/>为第m个聚类簇内的数据最大值；/>为第m个聚类簇内的数据最小值；为第m个聚类簇的簇间紧密性；d为第m个聚类簇内第i个数据对应的数据点与两个边缘数据所对应的数据点之间的最小距离。

8.根据权利要求1所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述根据数据正常指数和每个数据的相邻紧密性，自适应获取每个数据对应的CURE算法的收缩因子，包括：

9.根据权利要求4所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述基于CURE算法，根据自适应获取后的收缩因子，对浓度序列中的数据进行聚类，得到气体异常数据，包括：

10.根据权利要求1所述的基于多传感器数据的空气质量检测评估方法，其特征在于，所述由不同时刻采集到的气体的浓度构建浓度序列，包括：