CN113128598B

CN113128598B - 一种传感数据检测方法、装置、设备及可读存储介质

Info

Publication number: CN113128598B
Application number: CN202110437200.3A
Authority: CN
Inventors: 王卓; 艾智远; 易乐天
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2024-04-09
Anticipated expiration: 2041-04-22
Also published as: CN113128598A

Abstract

本申请公开了一种传感数据检测方法、装置、设备及可读存储介质。本申请将多个正常传感数据区间用最小值数组和最大值数组表示，最小值数组中记录了各个正常传感数据区间的最小值，最大值数组中记录了各个正常传感数据区间的最大值，据此可确定待测传感数据排列在最小值数组时的第一位置以及待测传感数据排列在最大值数组时的第二位置，进而可根据第一位置和第二位置检测待测传感数据是否异常。本申请无需逐一扫描多个取值区间，从而降低了时间开销，提高了传感数据的检测效率，能够满足实时检测和快速检测的需求。相应地，本申请提供的一种传感数据检测装置、设备及可读存储介质，也同样具有上述技术效果。

Description

一种传感数据检测方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种传感数据检测方法、装置、设备及可读存储介质。

背景技术

目前，在检测单维度的传感数据是否异常时，只需要判断待测传感数据是否落入正常传感数据的取值区间；若落入正常传感数据的取值区间，则表明待测传感数据正常；否则，表明待测传感数据异常。由于正常传感数据的取值区间是多个不连续的区间，因此检测任一个传感数据时，都需要逐一扫描每个取值区间，这无疑增加了时间开销，导致检测效率较低。

因此，如何提高传感数据的检测效率，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种传感数据检测方法、装置、设备及可读存储介质，以提高传感数据的检测效率。其具体方案如下：

第一方面，本申请提供了一种传感数据检测方法，包括：

获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组：

确定所述待测传感数据在所述最小值数组中的第一位置；

确定所述待测传感数据在所述最大值数组中的第二位置；

根据所述第一位置和所述第二位置检测所述待测传感数据是否异常。

优选地，所述根据所述第一位置和所述第二位置确定所述待测传感数据是否异常，包括：

若所述第一位置与所述第二位置的差值等于1，或所述第一位置与所述第二位置的差值等于0时、所述待测传感数据与所述最小值数组中的任一个数值相同，则确定所述待测传感数据正常；否则，确定所述待测传感数据异常。

优选地，所述最小值数组和所述最大值数组的生成过程包括：

获取训练数据集、邻域值和聚集度；

基于所述邻域值和所述聚集度，从所述训练数据集中选择至少一个中心点；

确定每个中心点对应的中心点取值区间的最小值和最大值；

升序或降序排列所有最小值，以组成所述最小值数组，升序或降序排列所有最大值，以组成所述最大值数组。

优选地，所述基于所述邻域值和所述聚集度，从所述训练数据集中选择至少一个中心点，包括：

升序或降序排列所述训练数据集中的各个传感数据，并标注每个传感数据的排列标记，以获得有序数组；

将所述有序数组中的每个传感数据作为目标元素，并执行下述步骤：

利用所述邻域值计算所述目标元素的元素取值区间；所述元素取值区间的最小值为第一数值，所述元素取值区间的最大值为第二数值；

从所述有序数组中选择大于或等于所述第一数值的最小第一传感数据，从所述有序数组中选择大于所述第二数值的最小第二传感数据；

确定所述最小第一传感数据在所述有序数组中的第一排列标记，以及所述最小第二传感数据在所述有序数组中的第二排列标记；

若所述第二排列标记与所述第一排列标记的差值不小于所述聚集度，则将所述目标元素确定为所述中心点。

优选地，所述利用所述邻域值计算所述目标元素的元素取值区间，包括：

将所述目标元素与所述邻域值的差值作为所述元素取值区间的最小值，将所述目标元素与所述邻域值的和作为所述元素取值区间的最大值。

优选地，所述升序或降序排列所有最小值，以组成所述最小值数组，升序或降序排列所有最大值，以组成所述最大值数组之前，还包括：

将不同中心点取值区间进行合并。

优选地，所述待测传感数据为检测通风机所得的垂直振动频率、水平振动频率、压差、负压、风速或风量。

优选地，若所述有序数组中存在多个最小第一传感数据或多个最小第二传感数据，则将所述多个最小第一传感数据或所述多个最小第二传感数据中，排列标记最小的传感数据确定为所述最小第一传感数据或所述最小第二传感数据。

第二方面，本申请提供了一种传感数据检测装置，包括：

获取模块，用于获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组：

第一确定模块，用于确定所述待测传感数据在所述最小值数组中的第一位置；

第二确定模块，用于确定所述待测传感数据在所述最大值数组中的第二位置；

检测模块，用于根据所述第一位置和所述第二位置检测所述待测传感数据是否异常。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的传感数据检测方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的传感数据检测方法。

通过以上方案可知，本申请提供了一种传感数据检测方法，包括：获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组：确定所述待测传感数据在所述最小值数组中的第一位置；确定所述待测传感数据在所述最大值数组中的第二位置；根据所述第一位置和所述第二位置检测所述待测传感数据是否异常。

可见，本申请将多个正常传感数据区间用最小值数组和最大值数组表示，最小值数组中记录了各个正常传感数据区间的最小值，最大值数组中记录了各个正常传感数据区间的最大值，据此可确定待测传感数据排列在最小值数组时的第一位置；确定待测传感数据排列在最大值数组时的第二位置；最后根据第一位置和第二位置检测待测传感数据是否异常。可见，本申请利用二分方式替换现有技术中的区间逐一扫描，即：无需逐一扫描多个取值区间，从而降低了时间开销，提高了传感数据的检测效率，能够满足实时检测和快速检测的需求。

相应地，本申请提供的一种传感数据检测装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种传感数据检测方法流程图；

图2为本申请公开的一种最小值数组和最大值数组的生成流程图；

图3为本申请公开的一种传感数据检测装置示意图；

图4为本申请公开的一种电子设备示意图；

图5为本申请公开的另一种电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在检测单维度的传感数据是否异常时，只需要判断待测传感数据是否落入正常传感数据的取值区间；若落入正常传感数据的取值区间，则表明待测传感数据正常；否则，表明待测传感数据异常。由于正常传感数据的取值区间是多个不连续的区间，因此检测任一个传感数据时，都需要逐一扫描每个取值区间，这无疑增加了时间开销，导致检测效率较低。为此，本申请提供了一种传感数据检测方案，能够提高传感数据的检测效率，能够满足实时检测和快速检测的需求。

参见图1所示，本申请实施例公开了一种传感数据检测方法，包括：

S101、获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组。

正常传感数据区间即：正常传感数据的取值区间，该取值区间一般有多个。本实施例将多个正常传感数据区间用最小值数组和最大值数组表示，最小值数组中记录了各个正常传感数据区间的最小值，最大值数组中记录了各个正常传感数据区间的最大值。

最小值数组和最大值数组中分别包括至少一个数值。最小值数组和最大值数组中的各个数值可以从小到大排列(即升序排列)或从大到小排列(即降序排列)。最小值数组和最大值数组中的各个数值的排列方式应该保持一致。假设正常传感数据区间为1～3(用区间[1,3]表示)和5～8(用区间[5,8]表示)，那么最小值数组可以为：{1,5}，最大值数组可以为：{3,8}。

在一种具体实施方式中，待测传感数据可以为检测通风机所得的垂直振动频率、水平振动频率、压差、负压、风速或风量等数据。通风机可以是矿井环境中用于排送气体的设备，其能够疏散有害气体，降低环境温度，对井下生产安全具有重要作用。对通风机的健康状态进行监测，若任一类传感数据出现异常就需要报警。在该场景下，传感数据的检测具有较高的实时性要求和人机交互时的快速响应要求。

S102、确定待测传感数据在最小值数组中的第一位置。

S103、确定待测传感数据在最大值数组中的第二位置。

假设最小值数组为：{1,5}，最大值数组为：{3,8}，待测传感数据为4，那么待测传感数据4在最小值数组中的第一位置为2，待测传感数据4在最大值数组中的第二位置也是2。位置从0开始计数。

S104、根据第一位置和第二位置检测待测传感数据是否异常。

按照现有技术，可以直接判断待测传感数据4是否能够落入区间[1,3]和[5,8]中。经判断，待测传感数据4既不落入[1,3]，也不落入[5,8]，因此待测传感数据4异常。本实施例为了避免逐一扫描每个正常传感数据区间，基于S102-S104进行异常数据检测。

在一种具体实施方式中，根据第一位置和第二位置确定待测传感数据是否异常，包括：若第一位置与第二位置的差值等于1，或第一位置与第二位置的差值等于0时、待测传感数据与最小值数组中的任一个数值相同，则确定待测传感数据正常；否则，确定待测传感数据异常。

按照上述示例，最小值数组为：{1,5}，最大值数组为：{3,8}，待测传感数据为4，那么第一位置和第二位置均为2，第一位置与第二位置的差值等于0，但由于待测传感数据4与最小值数组{1,5}中的1和5都不同，因此确定待测传感数据4异常。

若待测传感数据为1，那么待测传感数据1在最小值数组中的第一位置为0，待测传感数据1在最大值数组中的第二位置也是0，此时第一位置与第二位置的差值等于0，并且待测传感数据1与最小值数组{1,5}中的1相同，因此确定待测传感数据1正常。

若待测传感数据为3，那么待测传感数据3在最小值数组中的第一位置为1，待测传感数据3在最大值数组中的第二位置为0，此时第一位置与第二位置的差值等于1，因此可确定待测传感数据3正常。

可见，本申请实施例将多个正常传感数据区间用最小值数组和最大值数组表示，最小值数组中记录了各个正常传感数据区间的最小值，最大值数组中记录了各个正常传感数据区间的最大值，据此可确定待测传感数据排列在最小值数组时的第一位置；确定待测传感数据排列在最大值数组时的第二位置；最后根据第一位置和第二位置检测待测传感数据是否异常。可见，本申请利用二分方式替换现有技术中的区间逐一扫描，即：无需逐一扫描多个取值区间，从而降低了时间开销，提高了传感数据的检测效率，能够满足实时检测和快速检测的需求。

上述实施例中的最小值数组和最大值数组可参照图2进行确定。在一种具体实施方式中，最小值数组和最大值数组的生成过程包括：

S201、获取训练数据集、邻域值和聚集度；

S202、基于邻域值和聚集度，从训练数据集中选择至少一个中心点；

S203、确定每个中心点对应的中心点取值区间的最小值和最大值；

S204、升序或降序排列所有最小值，以组成最小值数组，升序或降序排列所有最大值，以组成最大值数组。

其中，邻域值和聚集度为预设值，具体可参照DBSCAN聚类算法进行设置。在DBSCAN聚类算法中，当两个数据点的距离不超过指定值时，认为这两个数据点是相似的，其中，该指定值即为邻域值。对于一个数据点，其邻域值范围内包含的数据点个数即为聚集度。给定邻域值和聚集度(用MinPts表示)，如果一个数据点x在邻域值范围内包含的数据点个数不少于MinPts个，则数据点x是中心点。

训练数据集中包括属于同一类的多个传感数据，如：通风机在不同时刻的多个风速值。

在一种具体实施方式中，基于邻域值和聚集度，从训练数据集中选择至少一个中心点，包括：升序或降序排列训练数据集中的各个传感数据，并标注每个传感数据的排列标记，以获得有序数组；将有序数组中的每个传感数据作为目标元素，并执行下述步骤：利用邻域值计算目标元素的元素取值区间；元素取值区间的最小值为第一数值，元素取值区间的最大值为第二数值；从有序数组中选择大于或等于第一数值的最小第一传感数据，从有序数组中选择大于第二数值的最小第二传感数据；确定最小第一传感数据在有序数组中的第一排列标记，以及最小第二传感数据在有序数组中的第二排列标记；若第二排列标记与第一排列标记的差值不小于聚集度，则将目标元素确定为中心点。其中，排列标记与有序数组中的各个传感数据唯一对应，因此在实际应用过程中，记录排列标记，或是记录传感数据本身，能实现相同目的。

在一种具体实施方式中，利用邻域值计算目标元素的元素取值区间，包括：将目标元素与邻域值的差值作为元素取值区间的最小值，将目标元素与邻域值的和作为元素取值区间的最大值。

在一种具体实施方式中，若所述有序数组中存在多个最小第一传感数据或多个最小第二传感数据，则将所述多个最小第一传感数据或所述多个最小第二传感数据中，排列标记最小的传感数据确定为所述最小第一传感数据或所述最小第二传感数据。

假设训练数据集为：A＝{1.77,1.79,1.8,1.77,2.1,3.0,1.75,1.25,1.2,1.1,1.0,1.0,0.1}，设定邻域值∈＝0.2，聚集度MinPts＝3，那么选择中心点的过程具体包括：升序排列训练数据集中的各个传感数据，从而获得有序数组A_sort＝{0.1,1.0,1.0,1.1,1.2,1.2,1.25,1.3,1.75,1.77,1.77,1.79,1.8,2.1,3.0}。各个传感数据在A_sort中的排列标记从0计数，那么0.1的排列标记为0，1.0的排列标记为1，下一个1.0的排列标记为2、1.1的排列标记为3，其他以此类推。

针对A_sort中的第一个传感数据0.1，将传感数据0.1(即目标元素)与邻域值0.2的差值(即0.1-0.2＝-0.1)作为元素取值区间的最小值，将传感数据0.1与邻域值0.2的和(即0.1+0.2＝0.3)作为元素取值区间的最大值，从而获得传感数据0.1的元素取值区间[-0.1,0.3]。从A_sort中选择大于或等于-0.1的最小第一传感数据，那么最小第一传感数据为0.1(即A_sort中的第1个传感数据)，从A_sort中选择大于0.3的最小第二传感数据，那么最小第二传感数据为1.0(即A_sort中的第2个传感数据，此时有2个最小第二传感数据，取A_sort中首次出现的一个，也就是排列标记最小的一个)，由此可确定最小第一传感数据0.1在A_sort中的第一排列标记为0，最小第二传感数据1.0在A_sort中的第二排列标记为1，那么第二排列标记1与第一排列标记0的差值为1-0＝1，该差值1小于聚集度3，因此A_sort中的第一个传感数据0.1不是中心点，此时针对A_sort中的第二个传感数据1.0进行检测。其他以此类推，直至检测A_sort中的所有传感数据。

针对A_sort中的第二个传感数据1.0，将传感数据1.0(即目标元素)与邻域值0.2的差值(即1.0-0.2＝0.8)作为元素取值区间的最小值，将传感数据1.0与邻域值0.2的和(即1.0+0.2＝1.2)作为元素取值区间的最大值，从而获得传感数据1.0的元素取值区间[0.8,1.2]。从A_sort中选择大于或等于0.8的最小第一传感数据，那么最小第一传感数据为1.0(即A_sort中的第2个传感数据，此时有2个最小第一传感数据，取A_sort中首次出现的一个，也就是排列标记最小的一个)，从A_sort中选择大于1.2的最小第二传感数据，那么最小第二传感数据为1.25(即A_sort中的第7个传感数据)，由此可确定最小第一传感数据1.0在A_sort中的第一排列标记为1，最小第二传感数据1.25在A_sort中的第二排列标记为6，那么第二排列标记6与第一排列标记1的差值为6-1＝5，该差值5大于聚集度3，因此A_sort中的第二个传感数据1.0是中心点。据此，最终获得的所有中心点组成的中心点集合为：{1.0,1.0,1.1,1.2,1.2,1.25,1.3,1.77,1.77,1.79,1.8}。

由于每个中心点都对应有一个中心点取值区间(即被选定为中心点的传感数据的元素取值区间)，如上所示，就有11个中心点取值区间，那么最小值数组和最大值数组中就需要分别记录11个数值，为了降低最小值数组和最大值数组中所需要记录的数值个数，可以将不同中心点取值区间进行合并。因此在一种具体实施方式中，升序或降序排列所有最小值，以组成最小值数组，升序或降序排列所有最大值，以组成最大值数组之前，还包括：将不同中心点取值区间进行合并。

例如：针对中心点集合{1.0,1.0,1.1,1.2,1.2,1.25,1.3,1.77,1.77,1.79,1.8}中的第一个中心点1.0和第二个中心点1.0，其中心点取值区间均为[0.8,1.2]，所以这两个中心点取值区间就可以合并为一个[0.8,1.2]。针对中心点集合中的中心点1.1，其中心点取值区间为[0.9,1.3]，而由于[0.9,1.3]和上述合并得到的[0.8,1.2]存在重叠，因此可再次合并[0.9,1.3]和[0.8,1.2]，获得[0.8,1.3]，这样，中心点1.0、1.0和1.1就可以共用一个中心点取值区间[0.8,1.3]，最小值数组和最大值数组中所需要记录的数值从原来的3个降低为1个。在合并之前，针对中心点1.0、1.0和1.1，最小值数组为{0.8、0.8、0.9}，最大值数组为{1.2、1.2、1.3}。合并之后，针对中心点1.0、1.0和1.1，最小值数组为{0.8}，最大值数组为{1.3}。

在合并过程中，保留无法合并的中心点取值区间。例如：针对中心点1.75，其中心点取值区间为[1.55,1.95]，而中心点1.0、1.0和1.1共用的中心点取值区间为[0.8,1.3]，[1.55,1.95]和[0.8,1.3]不发生重叠，故保留[1.55,1.95]和[0.8,1.3]这两个区间。后续可判断其他中心点的中心点取值区间是否与[1.55,1.95]或[0.8,1.3]重叠，从而确定是合并区间还是保留区间。

由于传感数据多为单维度数据，因此本实施例的实现步骤可称之为1D(1Dimensionality，1维)-DBSCAN算法，该实现过程的时间开销主要花费在排列训练数据集中的各个传感数据以获得有序数组的过程，其空间复杂度为可表示为O(n)。n为训练数据集中的传感数据的个数。

可见，本实施例利用BinarySearch的二分方法确定最小第一传感数据和最小第二传感数据，并据此选择中心点，从而提高了处理效率，降低了复杂度。

下面对本申请实施例提供的一种传感数据检测装置进行介绍，下文描述的一种传感数据检测装置与上文描述的一种传感数据检测方法可以相互参照。

参见图3所示，本申请实施例公开了一种传感数据检测装置，包括：

获取模块301，用于获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组：

第一确定模块302，用于确定待测传感数据在最小值数组中的第一位置；

第二确定模块303，用于确定待测传感数据在最大值数组中的第二位置；

检测模块304，用于根据第一位置和第二位置检测待测传感数据是否异常。

在一种具体实施方式中，检测模块具体用于：

若第一位置与第二位置的差值等于1，或第一位置与第二位置的差值等于0时、待测传感数据与最小值数组中的任一个数值相同，则确定待测传感数据正常；否则，确定待测传感数据异常。

在一种具体实施方式中，还包括：用于生成最小值数组和最大值数组的生成模块，该生成模块包括：

获取单元，用于获取训练数据集、邻域值和聚集度；

选择单元，用于基于邻域值和聚集度，从训练数据集中选择至少一个中心点；

确定单元，用于确定每个中心点对应的中心点取值区间的最小值和最大值；

组成单元，用于升序或降序排列所有最小值，以组成最小值数组，升序或降序排列所有最大值，以组成最大值数组。

在一种具体实施方式中，选择单元包括：

排列子单元，用于升序或降序排列训练数据集中的各个传感数据，并标注每个传感数据的排列标记，以获得有序数组；

执行子单元，用于将有序数组中的每个传感数据作为目标元素，并执行下述步骤：利用邻域值计算目标元素的元素取值区间；元素取值区间的最小值为第一数值，元素取值区间的最大值为第二数值；从有序数组中选择大于或等于第一数值的最小第一传感数据，从有序数组中选择大于第二数值的最小第二传感数据；确定最小第一传感数据在有序数组中的第一排列标记，以及最小第二传感数据在有序数组中的第二排列标记；若第二排列标记与第一排列标记的差值不小于聚集度，则将目标元素确定为中心点。

在一种具体实施方式中，执行子单元具体用于：

将目标元素与邻域值的差值作为元素取值区间的最小值，将目标元素与邻域值的和作为元素取值区间的最大值。

在一种具体实施方式中，该生成模块还包括：

合并单元，用于将不同中心点取值区间进行合并。

在一种具体实施方式中，待测传感数据为检测通风机所得的垂直振动频率、水平振动频率、压差、负压、风速或风量。

在一种具体实施方式中，执行子单元具体用于：

若所述有序数组中存在多个最小第一传感数据或多个最小第二传感数据，则将所述多个最小第一传感数据或所述多个最小第二传感数据中，排列标记最小的传感数据确定为所述最小第一传感数据或所述最小第二传感数据。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种传感数据检测装置，该装置能够降低时间开销，提高传感数据的检测效率，满足实时检测和快速检测的需求。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与上文描述的一种传感数据检测方法及装置可以相互参照。

参见图4所示，本申请实施例公开了一种电子设备，包括：

存储器401，用于保存计算机程序；

处理器402，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

请参考图5，图5为本实施例提供的另一种电子设备示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在电子设备301上执行存储介质330中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

在图5中，应用程序342可以是执行传感数据检测方法的程序，数据344可以是执行传感数据检测方法所需的或产生的数据。

上文所描述的传感数据检测方法中的步骤可以由电子设备的结构实现。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种传感数据检测方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的传感数据检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

为了更清楚地解释本申请提供的方案，现结合具体示例进行如下介绍。

本申请提供的1D-DBSCAN算法可以分为两个部分：1D-DBSCAN训练过程和1D-DBSCAN异常检测过程。其中，1D-DBSCAN训练过程以大批量单维度的传感数据作为输入，输出多个正常传感数据区间。1D-DBSCAN接收一条或多条单维度的待测传感数据，并利用多个正常传感数据区间检测该数据，如果某条数据在某一正常传感数据区间内，则确定该条数据为正常数据，否则，判定该条数据为异常数据。以下将分别介绍1D-DBSCAN训练过程和1D-DBSCAN异常检测过程。

一、1D-DBSCAN训练过程：

训练过程的输入：训练数据集A，邻域值∈，聚集度MinPts；训练过程的输出：多个正常传感数据区间(用最小值数组和最大值数组表示)。

1D-DBSCAN训练过程可描述为：

1、A_sort←sort(A)，center_points＝[]

将A转换为A_sort，初始化中心点集合center_points。

2、min_points＝{}，max_points＝{}

确定最小值数组min_points和最大值数组max_points。

3、for x_i in A_sort

center_points.add(x_i)

针对A_sort中的某个传感数据x_i，x为传感数据本身，i为x在A_sort中的排列标记；计算第一排列标记和第二排列标记/>若/>则x_i为中心点，将x_i加入中心点集合center_points。

4、for element in center_points

if element-∈＞max_points[len(max_points)-1]

min_points.add(element-∈)

max_points.add(element+∈)

else

max_points[len(max_points)-1]＝element+∈

针对中心点集合center_points中的某个元素element，若该元素的元素取值区间的最小值element-∈大于最大值数组max_points中的最大数值max_points[len(max_points)-1]，则表明该元素的元素取值区间不与中心点集合中其他元素的元素取值区间重叠，因此在最小值数组min_points和最大值数组max_points中保留该元素的元素取值区间的最小值和最大值；否则，合并该元素的元素取值区间与中心点集合中其他元素的元素取值区间，以减少最小值数组min_points和最大值数组max_points中所记录的数值个数。

5、return min_points，max_points

输出最终的最小值数组min_points和最大值数组max_points，以获得多个正常传感数据区间。

具体工作流程如下：

1、获得训练数据集A后，通过排序得到有序数组A_sort，并初始化中心点集合center_points，确定相应的最小值数组min_points和最大值数组max_points。

2、对于A_sort中的任一个元素x_i，检验其邻域值范围内拥有的数据点个数，如果数据点个数不少于MinPts，则x_i被识别为中心点。其中，对于x_i-∈，基于BinarySearch方法在A_sort中采用二分的方式寻找满足如下条件的数据：类似地，对于x_i+∈，基于BinarySearch方法在A_sort中采用二分的方式寻找满足如下条件的数据：/>从而可确定第一排列标记/>和第二排列标记/>并据此判定x_i是否为中心点。

3、获得的center_points也是有序数组，因此，对于center_points中的下标i和i+1满足：

center_points[i]-∈≤center_points[i+1]-∈

center_points[i]+∈≤center_points[i+1]+∈

即：在center_points中，排列在前的元素的取值区间的最小值≤排列在后的元素的取值区间的最小值，排列在前的元素的取值区间的最大值≤排列在后的元素的取值区间的最大值。

因此，当center_points[i+1]-∈≤center_points[i]+∈时，表明排列在后的元素的取值区间的最小值≤排列在前的元素的取值区间的最大值，也就是：这两个元素的取值存在重叠，因此这两个元素的取值区间可合并为[center_points[i]-∈,cetner_points[i+1]+∈]。

具体示例如下：

假设训练数据集为：A＝{1.77,1.79,1.8,1.77,2.1,3.0,1.75,1.25,1.2,1.1,1.0,1.0,0.1}，设定邻域值∈＝0.2，聚集度MinPts＝3，那么A_sort＝{0.1,1.0,1.0,1.1,1.2,1.2,1.25,1.3,1.75,1.77,1.77,1.79,1.8,2.1,3.0}。

据此选择中心点。当x₀＝0.1时，x₀-∈＝-0.1，x₀+∈＝0.3，那么故所以x₀不是中心点。当x₁＝1.0时，x₁-∈＝0.8，x₁+∈＝1.2，那么因为/>所以x₁是中心点，此时中心点集合可以记录为center_points＝{1.0}。类似地，对A_sort中的其他元素依次进行如上操作，最终获得的center_points为{1.0,1.0,1.1,1.2,1.2,1.25,1.3,1.77,1.77,1.79,1.8}。

根据center_points进行区间合并。针对x₀＝1.0，取值区间为[0.8,1.2]，此时min_points＝{0.8}，max_points＝{1.2}。针对x₁＝1.0，取值区间仍为[0.8,1.2]，不发生改变。针对x₂＝1.1，x₂对应的取值区间为[0.9,1.3]，因为与[0.8,1.2]重叠，所以，整体的取值区间可以更新为[0.8,1.3]，此时min_points＝{0.8}，max_points＝{1.3}。针对x₈＝1.75，x₈对应的取值区间为[1.55,1.95]，不与现有的[0.8,1.3]发生重叠，因此，整体的取值区间为[0.8,1.5]和[1.55,1.95]，此时min_points＝{0.8,1.55}，max_points＝{1.5,1.95}。类似地，对center_points中的其他元素依次进行如上操作，最终获得的正常传感数据区间为[0.8,1.5]和[1.55,2.0]，那么min_points＝{0.8,1.55}，max_points＝{1.5,2.0}。

需要说明的是，1D-DBSCAN训练过程的时间复杂度为O(nlogn)，其中n为训练数据集中的数据个数，时间主要花销在有序数组的生成上。其空间复杂度为O(n)，空间开销主要集中在存储有序数组上。

二、1D-DBSCAN检测过程：

根据前述1D-DBSCAN训练过程，只需要判断一个给定的数据点是否能够落入正常传感数据区间内，即可完成异常判定。

若最终获得的正常传感数据区间为[0.8,1.5]和[1.55,2.0]，表示为：min_points＝{0.8,1.55}，max_points＝{1.5,2.0}，那么当x_i＝1.53时，x_i不在上述区间内，因此判定x_i为异常点；当x_i＝1.8时，x_i落入上述区间内，因此x_i被判定为正常数据点。可见，判断数据点x_i是否为异常点的最简单的方法是依次扫描正常数据区间，当x_i落入某一正常数据区间内时，x_i为正常数据点。当x_i不在任一正常数据区间时，x_i为异常点。

然而，由于可能存在多个不连续的正常传感数据区间，依次进行扫描将产生较大的时间开销，为此，本申请在min_points和max_points的基础上继续采用了二分的方式来加速检测过程。

由于min_points和max_points均为有序数组，且给定变量i，总存在min_points[i]＜max_points[i](即：排列在min_points和max_points中的相同位置上的两个元素，总是max_points中的元素大)的事实，可以采用反证法推导出如下定理：

定理1：给定待检测的数据点x_i，总存在：

0≤BinarySearch(min_points,x_i)-BinarySearch(max_points,x_i)≤1

也即：数据点x_i排列在min_points的位置总是大于数据点x_i排列在max_points的位置。

定理2：当BinarySearch(min_points,x_i)-BinarySearch(max_points,x_i)＝1时，可判定x_i为正常数据点。

若数据点x_i排列在min_points的位置与数据点x_i排列在max_points的位置的差值等于1，则确定数据点x_i正常。

定理3：当BinarySearch(min_points,x_i)-BinarySearch(max_points,x_i)＝0时，令x_index＝BinarySearch(min_points,x_i)，若x_index＜min_points.size()且min_points[x_index]＝x_i，那么x_i可判定为正常数据点。

也即：当数据点x_i排列在min_points的位置与数据点x_i排列在max_points的位置的差值等于0时，且数据点x_i与min_points中的任一个数值相同，则确定数据点x_i正常。此时，数据点x_i在min_points的位置必定小于min_points中的原有的元素个数min_points.size()。

定理4：在不满足定理2和定理3的情况下，可判定数据点x_i为异常数据点。

基于以上认知，1D-DBSCAN检测过程可描述为：

检测过程的输入：一组待判定的数据点X；检测过程的输出：X中的异常数据点集合。

1、加载1D-DBSCAN训练过程产生的min_points和max_points；

2、初始化异常数据点集合anomalies＝{}；

3、for x_i in X

min_idx←BinarySearch(min_points,x_i)

max_idx←BinarySearch(max_points,x_i)

if min_idx-max_idx＝1

continue

else if min_idx＜len(min_points)^min_points[min_idx]＝x_i

continue

else

anomalies＝anomalies∪{x_i}

return anomalies

针对X中的任一个待检测数据点x_i，计算对应的min_idx(即数据点x_i排列在min_points的位置)、max_idx(即数据点x_i排列在max_points的位置)，若满足定理2或3，则当前数据点正常；否则，将当前数据点加入异常数据点集合。对X中的所有数据点检测完毕后，输出最终的异常数据点集合anomalies。

具体示例如下：

前述1D-DBSCAN训练过程的示例最终获得min_points＝{0.8,1.55}，max_points＝{1.5,2.0}若X＝{1.77,1.79,1.8,1.77,2.1,3.0,1.75,1.25,1.2,1.1,1.0,1.0,0.1}。那么针对数据点x_i＝1.77，则min_idx＝2，max_idx＝1，此时min_idx-max_idx＝1，故x_i为正常数据点；针对数据点x_i＝3.0，则min_idx＝max_idx＝2，不满足定理2和3，所以x_i为异常数据点；假设存在待检测的数据点x_i＝1.55，则有min_idx＝max_idx＝1，此时，min_points[min_idx]＝x_i，满足定理3，因此x_i为正常数据点。

需要说明的是，1D-DBSCAN检测过程的时间复杂度为O(nlogC)，空间复杂度为O(C+n)，其中n为待检测的数据点个数，C为正常传感数据区间的个数。

为了凸显本申请与现有DBSCAN聚类算法的区别，将本申请与现有DBSCAN聚类算法对比如下。

请参见表1，表1展示了1D-DBSCAN与DBSCAN聚类算法相比而具备的优势，其中n表示样本的个数。可以看出，无论是时间开销还是空间开销上，1D-DBSCAN都具有优势。此外，1D-DBSCAN支持交互式离线异常检测和实时数据异常检测，能够完全满足快速异常检测的需求。

表1

此外，采用实验的方式比对了1D-DBSCAN和DBSCAN在真实数据集上的时间开销和空间开销。从某通风机的传感数据中，选取了风量(FL)，垂直振动(CZZD)和负压(FY)从4月份到10月份的传感数据用于评估效果。每类数据约有24w条记录。分别获取1000，10000，20000，30000，40000，50000，60000，70000，80000，90000，100000，240000等不同条数的记录用于比对1D-DBSCA和DBSCAN的性能。

实验环境为windows系统10，Intel 3.4GHz i5芯片，内存为16GB。1D-DBSCAN为python编写，DBSCAN算法由开源库scikit-learn提供，采用KD-tree的方式获取最近邻居。在所有测试中，1D-DBSCAN的测试结果包括了1D-DBSCAN训练过程和1D-DBSCAN检测过程。

请参见表2，表2展示了1D-DBSCAN和现有算法DBSCAN在不同数据集下的内存空间开销(其中OOM代表内存溢出)。如表2所示，1D-DBSCAN在任何数据集下任何情况都可以稳定运行，内存空间消耗很少，即使是6个月的数据量也可以做到交互式异常检测的效果。DBSCAN的空间复杂度为O(n²)，一旦数据记录数达到一定规模，就会引发内存溢出，不但可训练的时间较短，也容易出现占用大量内存资源的情况，不适合大规模数据异常检测。

表2

请参见表3，表3展示了1D-DBSCAN和DBSCAN在不同数据集下的时间开销(其中OOM代表内存溢出)。如3所示，1D-DBSCAN对于批量数据的异常检测速度快，适合交互式模型训练。DBSCAN无法用于长时间的数据训练，仅可在几天的数据量上进行训练，无法满足大规模数据的交互式异常检测需求。

表3

请参见表4，表4展示了1D-DBSCAN在不同数据集下单机的实时异常检测性能，该性能完全满足实时数据异常检测的需求。

表4

风量数据(FL)	垂直振动数据(CZZD)	负压数据(FY)
			82.75万/秒	109万/秒	98万/秒

可见，1D-DBSCAN在一秒的时间内，可分别检测风量数据82.75万，垂直振动数据109万，负压数据98万，其检测速度较快。而DBSCAN的时间开销和空间开销较大，无法满足快速异常数据检测的需求。

除了现有的DBSCAN聚类算法，通常还用孤立森林，基于高斯密度的异常检测，自编码技术(即机器学习)进行异常数据检测。但是，孤立森林对数据集随机分割，其可能会从正常数据中找异常数据，因此异常检测结果解释性较差；此外，孤立森林仅对全局稀疏点敏感，不擅长处理局部的相对稀疏点。基于高斯密度的异常检测假设数据遵从正态分布，然而实际的传感数据分布规律不明显，这使得基于高斯密度的异常检测不适用于传感数据的异常。自编码技术意在挖掘数据的多维度特征，故不适用于单维度的传感数据，无法有效学习传感数据具备的潜在特征。

本申请提出1D-DBSCAN算法，包括1D-DBSCAN训练过程和1D-DBSCAN异常检测过程，1D-DBSCAN训练过程支持交互式训练，1D-DBSCAN检测过程支持在线异常检测。1D-DBSCAN训练过程以批量单维度数据作为输入，可获得正常数据的范围区间，用于1D-DBSCAN异常检测过程。1D-DBSCAN异常检测过程对每一条数据采用对数时间复杂度的方式进行正常数据区间过滤，从而实现异常判定。其在批量数据交互式异常检测及实时数据异常检测中均具有优异的性能，且具有较低的内存使用量，适用于单维度数据的快速异常检测。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种传感数据检测方法，其特征在于，包括：

获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组：其中，所述最小值数组中记录了各个正常传感数据区间的最小值，所述最大值数组中记录了各个正常传感数据区间的最大值；

确定所述待测传感数据在所述最小值数组中的第一位置；

确定所述待测传感数据在所述最大值数组中的第二位置；

2.根据权利要求1所述的传感数据检测方法，其特征在于，所述最小值数组和所述最大值数组的生成过程包括：

获取训练数据集、邻域值和聚集度；

确定每个中心点对应的中心点取值区间的最小值和最大值；

3.根据权利要求2所述的传感数据检测方法，其特征在于，所述基于所述邻域值和所述聚集度，从所述训练数据集中选择至少一个中心点，包括：

4.根据权利要求3所述的传感数据检测方法，其特征在于，所述利用所述邻域值计算所述目标元素的元素取值区间，包括：

5.根据权利要求2所述的传感数据检测方法，其特征在于，所述升序或降序排列所有最小值，以组成所述最小值数组，升序或降序排列所有最大值，以组成所述最大值数组之前，还包括：

将不同中心点取值区间进行合并。

6.根据权利要求3所述的传感数据检测方法，其特征在于，若所述有序数组中存在多个最小第一传感数据或多个最小第二传感数据，则将所述多个最小第一传感数据或所述多个最小第二传感数据中，排列标记最小的传感数据确定为所述最小第一传感数据或所述最小第二传感数据。

7.一种传感数据检测装置，其特征在于，包括：

获取模块，用于获取待测传感数据，以及多个正常传感数据区间对应的最小值数组和最大值数组：其中，所述最小值数组中记录了各个正常传感数据区间的最小值，所述最大值数组中记录了各个正常传感数据区间的最大值；

检测模块，用于若所述第一位置与所述第二位置的差值等于1，或所述第一位置与所述第二位置的差值等于0时、所述待测传感数据与所述最小值数组中的任一个数值相同，则确定所述待测传感数据正常；否则，确定所述待测传感数据异常。

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至6任一项所述的传感数据检测方法。

9.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的传感数据检测方法。