CN111694860A

CN111694860A - 安全检测的时序数据实时异常发现方法及电子装置

Info

Publication number: CN111694860A
Application number: CN202010350182.0A
Authority: CN
Inventors: 吴兴明; 熊颖; 张慧琳; 强倩; 赵志慧; 王振宇; 吴广君; 王树鹏
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-09-22

Abstract

本发明提供一种安全检测的时序数据实时异常发现方法及电子装置，该方法步骤包括：根据配置文件，创建或读取TimescaleDB时序数据库表；将所述时序数据实时插入所述TimescaleDB时序数据库表，并经哈希函数计算处理进行分桶，邻居数据被哈希到相同的桶中；计算每个桶内数据数量与所有桶内的桶内数据数量的平均值，并根据一设定阈值判断所述时序数据是否异常。本发明提高了异常检测应用的写入与查询性能，不需要存储所有的历史数据，能够大幅度节省空间，在发生意外如断电的情况时不会发生数据丢失和应用失效，不需要对样本进行标注，也无需进行模型训练。易于部署和降低开发成本。

Description

安全检测的时序数据实时异常发现方法及电子装置

技术领域

本发明属于时序数据挖掘、流数据分析、异常发现技术领域，具体提出一种安全检测的时序数据实时异常发现方法及电子装置。

背景技术

随着5G网络、LTE-V2X和802.11p等通信技术的快速推广，车联网、物联网及其相关技术得以快速发展。同时安全监测问题也日益突出。例如，5G下的车联网系统或者联网车辆一旦被攻击或者发生异常，如未被及时发现，轻则导致车毁人亡，可能引发重大的交通事故，甚至大规模的交通瘫痪，给社会甚至国家安全造成严重威胁。

安全监测数据中的异常发现技术，是对产生的数据进行实时汇聚、计算与分析，以实现异常状态的实时监测与发现。实时安全监测数据是一种典型的时序数据：其最典型的特征就是每条数据具有时间属性(一般以时间戳标识)，且数据不间断的持续到达。例如传感器监测数据、车辆运行状态监测数据、车载OS运行日志数据以及网络通信监测数据等。针对时序数据的特点，面向安全检测的时序数据中异常发现技术必须满足以下几个要求：

1)插入性能，时序数据的插入是一个强需求，因此对于插入性能要求较高。

2)查询性能，异常检测的查询频率高且实时性需求高，因此对于查询性能要求较高。

3)时间分区功能，时序数据的异常检测查询，往往都会带上对时间区间的过滤，支持数据分区存储能够大大提高查询效率。

4)分区可删除功能，时序数据往往不需要存储全部历史数据，而是存储最近经常访问的时间区间内的数据，因此需要旧数据分区可删除以提高空间效率。

传统的异常检测分为监督的和无监督的检测。监督异常检测利用机器学习算法(例如分类)对标记为异常/非异常的数据集进行检测。然而时序数据往往缺少关于异常与否的标签信息，因此监督方法不适合时序数据。无监督异常检测可以大致分为三类：1)基于统计，2)基于聚类和3)基于最近邻。基于统计的方法需要关于数据集的基础分布的先验知识，对于随时间动态变化的时序数据不适用；基于聚类的算法需要足够长的学习过程才能得到较为准确的聚类结果，他们都不能满足上述性能要求。

例如中国专利申请CN105205112A公开了一种时序数据异常特征的挖掘系统及方法，其获取周期性数据，提取傅里叶特征、主成分分析特征、统计特征和小波特征，运用KT-means方法进行聚类表示成特征字符。但该申请如上所述，需要学习训练，需要足够长的过程。基于最近邻的方法通常基于其自身行为与其近邻的行为之间的差异来定义点的离群程度。既不需要数据先验信息也不需要长时间的训练，因此更适合时序数据。

如Exact-Storm(Angiulli F,Fassetti F.Detecting distance-based outliersin streams of data[C]//Proceedings of the sixteenth ACM conference onConference on information and knowledge management.2007:811-820.)，通过距离计算查找数据在滑动窗口范围内的邻居，如果数据的邻居数小于阈值k，那么数据异常。Approximate-Strom(Angiulli F,Fassetti F.Detecting distance-based outliers instreams of data[C]//Proceedings of the sixteenth ACM conference on Conferenceon information and knowledge management.2007:811-820.)是对这个算法的近似，通过计算滑动窗口内部分邻居数量来估计全部邻居数量以达到效率的提升，其精度有所小将。MCOD算法(Kontaki M,Gounaris A,Papadopoulos AN,et al.Continuous monitoring ofdistance-based outliers over data streams[C]//2011IEEE 27th InternationalConference on Data Engineering.IEEE,2011:135-146.)将相邻的数据点存储在微集群中，一个微集群由不小于k+1的数据点组成。一些数据点可能不属于任何微簇，如果它们的邻居数小于k，它们就是异常数据。Thresh_LEAP(Cao L,Yang D,Wang Q,et al.Scalabledistance-based outlier detection over high-volume data streams[C]//2014IEEE30th International Conference on Data Engineering.IEEE,2014:76-87.)采用最小探测原则减小邻居查找的时间开销，获得了一定的效率提升。AbstractC(Yang D,Rundensteiner E A,Ward M O.Neighbor-based pattern detection for windows overstreaming data[C]//Proceedings of the 12th International Conference onExtending Database Technology:Advances in Database Technology.2009:529-540.)算法通过设计一个简单的队列结构来存储数据的邻居信息，减小了邻居查找的时间和空间开销。这些方法都在异常检测方面取得了较好的成果，但是这些方法中邻居的查找都依靠距离计算，并且滑动窗口的更新会引发邻居信息的更新和距离的重新计算，数据维度较高时，计算开销会非常大。同时为每个数据维护邻居信息也需要较大的内存开销。

除了异常检测的算法，在系统实现方面，还需要一个满足上述所有的4个要求的数据处理系统。时序数据库TimescaleDB最为合适。TimescaleDB是基于PostgreSQL数据库打造的一款时序数据库插件，支持PostgreSQL本地支持的所有SQL的接口(包括二级索引，基于非时间的聚合，子查询，JOIN，窗口函数)，且连接到使用PostgreSQL的任何客户端或工具时，无需更改。TimescaleDB提供了比PostgreSQL更高的数据读取速率和更高的查询性能，同时提供了丰富的面向时间的功能，API函数和优化，并且提供了强大的数据保留策略以保证连续查询结果数据断电不丢失。

发明内容

本发明的目的是提出一种安全检测的时序数据实时异常发现方法及电子装置，通过基于最近邻的异常检测方法，并实时构建并更新面向时序数据的概要结构，可实时检测时序数据中的异常数据；进一步基于TimescaleDB进行数据的组织，保障系统的存储效率和写入效率，并且保证发生意外如断电时概要结构不丢失，重启应用后可针对历史时序数据快速重构概要数据，使得系统立刻投入使用。

一种安全检测的时序数据实时异常发现方法，其步骤包括：

1)根据配置文件，创建或读取TimescaleDB时序数据库表；

2)将时序数据实时插入所述TimescaleDB时序数据库表，并经哈希函数计算处理进行分桶，邻居数据被哈希到相同的桶中；

3)计算每个桶内数据数量与所有桶内的桶内数据数量的平均值，并根据一设定阈值判断所述时序数据是否异常。

进一步地，所述TimescaleDB数据时序库表包括一临时快表、一数据表和一概要数据表。

进一步地，所述临时快表的列名包括时序数据记录主键、数据时间戳、时序数据值、哈希桶行标号、哈希桶列标号和确定波窗口内部层号；所述数据表的列名包括时序数据记录主键、数据时间戳和时序数据值；所述概要数据表的列名包括记录主键、插入时间、哈希桶行标号、哈希桶列标号、桶内时序数据主键列表和桶内数据的数量。

进一步地，所述时序数据插入所述临时快表；每隔一设定时间，将临时快表中的数据刷新到所述数据表中，同时将临时快表中数据的概要刷新到所述概要数据表中。

进一步地，查询所述临时快表，得到实时时序数据的异常信息；查询所述概要数据表，得到所述设定时间之外的所述历史时序数据的异常信息。

进一步地，所述哈希函数计算处理的步骤包括：

1)随机生成L×K个随机向量w_ij，所述随机向量w_ij的每一维服从独立同分布；

2)根据所述随机向量w_ij生成L个哈希函数H_i(x)＝[h_i1(x)；h_i2(x)；…；h_iK(x)],i∈[0,L-1]。其中，h_ij(x)＝sign(w_ij ^Tx)，sign()为随机投影签名函数，

3)将L个哈希函数对应二维数组的L行，K个二进制位组成的哈希函数结果对应2^K个，根据数据相似性将邻居数据被哈希到相同的桶中。

进一步地，使用哈希结果的海明距离作为数据相似性的衡量标准。

进一步地，将所述邻居数据插入波滑动窗口模型，将得到的典型邻居数据被哈希到相同的桶中。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行上述方法的各步骤。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。。

本发明提出的方法具有以下的优点及效果：

1、写入性能高。LSH(Locality Sensitive Hashing，LSH)邻居查找避免了传统计算欧几里得距离

查找邻居的大量计算，确定波(DW)概要结构提供了O(1)复杂度的写入效率，TimescaleDB提供了稳定的高数据插入速度。保证了异常检测应用的写入性能。

2、查询性能高。确定波(DW)概要结构提供了O(1)复杂度的查询效率，TimescaleDB为插入的数据自动分区并自动构建时间索引，将异常检测实现为TimescaleDB的函数，利用TimescaleDB丰富面向时间的查询和连续聚合查询功能，保证了异常检测应用的查询性能。

3、空间效率高。LSH+DW的概要结构对最近一段时间的时序数据进行抽样保存，而不需要存储所有的历史数据，能够大幅度节省空间；

4、可用性高。时序数据异常发现应用在数据持续到达的过程中持续工作，自动查询，并将概要结构于查询结果不断保存，在发生意外如断电的情况时不会发生数据丢失和应用失效。

5、本发明是一种无监督的算法，因此不需要对样本进行标注，也无需进行模型训练。易于部署和降低开发成本。

附图说明

图1是时序数据中异常发现应用框架结构图。

图2是确定波滑动窗口模型结构图。

图3是时序数据异常检测过程流程图。

图4是异常检测子过程流程图。

图5A是本发明与其他相关方法在数据平均处理时间上的对比。

图5B是本发明与其他相关方法在内存占用上的对比。

图5C是本发明与其他相关方法在召回率上的对比。

图6是本发明基于timescaleDB实现的系统与基于PostgreSQL实现的系统的插入速率对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，下面通过具体实施例和附图对本发明进行进一步详细阐述。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明采用的技术方案如下：

1.异常检测采用基于最近邻的算法原理。利用位置敏感哈希(LocalitySensitive Hashing，LSH)对数据进行哈希计算，哈希结果相同的数据被判定为邻居数据。每个数据到达时计算该数据的邻居数量，然后计算当时所有数据邻居数量的平均水平，二者对比，如果数据邻居数量低于平均水平程度太大，则该数据及其邻居均为异常数据。

2.LSH相似度计算的哈希函数选择随机投影签名(Signed Random Projection，SRP)，并使用哈希结果的海明距离作为数据相似性的衡量标准。在计算数据邻居数量时，对于时序数据不存储所有的历史数据，而是使用确定波滑动窗口模型(DeterministicWaves，DW)，对最近一段时间到达的数据采样并构建概要结构，利用概要结构快速实时估计邻居数量。

3.利用时序数据库TimescaleDB进行数据的存储。构建临时快表实时插入最近一段时间(1小时)到达的数据以提高插入效率和查询效率；每隔1小时，将临时快表中的数据刷新到数据达标，并将概要结构刷新到概要结构表，避免断电宕机等意外情况导致数据的丢失和异常检测应用失效。

下面具体说明本发明。

1、安全检测时序数据异常发现概要结构设计

依据基于最近邻的异常检测原理，利用位置敏感哈希算法使得相似性较高的数据(即邻居)可以得到相同的哈希结果。正常数据通常数量较多，相似性大，因此正常数据的邻居数量较多，反之异常数据的邻居数量很少。利用哈希函数将相似度高的数据放到相同的组，相似度低的数据放到不同的组。最终考察每组数据的数量，低于阈值的组中数据被判定为异常数据。

如图1所示，构建L行2^K列二维数组作为哈希数组。时序数据到达时经过哈希函数计算处理分桶，对应哈希到二维数组中。经过哈希函数的处理，邻居数据被哈希到相同的桶中，计算每个桶内数据数量c(即邻居的数量)，并计算所有桶内邻居数量c的平均值μ。给定阈值参数α(0<α<1)，如果存在一个数据，其所在桶满足c<αμ，则桶内的数据判定为异常。参数α较大时异常检测的召回率较高而准确率较低，α较小时召回率较低而准确率较高，根据实验统计，α取0.2时可以达到F1值(召回率和准确率的调和平均值)最高，异常检测效果最好。

2、哈希函数设计

位置敏感哈希算法的哈希函数族采用随机投影签名。首先，随机生成L×K个随机向量w_ij，随机向量的每一维服从独立同分布。然后，根据这些随机向量生成L个哈希函数H_i(x)＝[h_i1(x)；h_i2(x)；…；h_iK(x)],i∈[0,L-1]；其中，h_ij(x)＝sign(w_ij ^Tx)，sign()为随机投影签名函数，

L个哈希函数对应二维数组的L行，每个哈希函数的结果由K个二进制位组成，对应2^K个列中之一，因此哈希函数会将时序数据哈希到二维数组不同的桶中，每个桶内数据相似性高，互为邻居，不同桶内的数据相似性低。

3、确定波滑动窗口设计

对于时序数据的处理，通常只考察最近一段时间的数据，因此时序数据的处理通常基于滑动窗口来实现。然而多数时序数据产生速度快，规模大，即使只考察滑动窗口范围内的数据，维护上述二维数组，空间开销巨大且计算复杂。因此本发明使用滑动窗口采样模型确定波窗口来实现上述二维数组。令二维数组的每个桶用一个确定波窗口来实现，如图2所示，确定波窗口不需要保存从算法开始所有放入的数据点，而是仅维护最近一段的数据，异常检测在滑动窗口范围内实施。

时序数据x到达之后，经过哈希处理确定数据所在的桶(即确定波窗口)，然后生成样本x^′，将样本插入到对应的滑动窗口中。每个窗口仅保存有限数量的样本，通过这些有限数量的样本可以快速估计窗口内数据的数量。

4、安全检测时序数据异常发现系统设计

为了保证异常发现系统的性能和可用性，将上述1,2,3描述的算法基于TimescaleDB时序数据库实现。如图3、图4所示，在异常检测应用启动时，首先判断是否是首次启动。如果是，则先根据配置文件，创建数据库表，需要创建一个临时快表fast，一个数据表data，一个概要数据表sketch。最近一个小时的数据实时插入临时快表fast中，每隔一个小时，将临时快表中的数据刷新到数据表data中，同时将临时快表中数据的概要刷新到概要数据表sketch中。三个表创建完毕，然后进行异常检测；如果不是首次启动，则先根据配置文件位置读取概要数据表sketch中的最近数据，构建异常检测概要结构，然后进行异常检测。

表1临时快表fast表设计

表2数据表data表设计

表3概要数据表sketch表设计

列名	类型	备注
			ID	string	记录主键
time	time	插入时间。
			bucket_row	int	哈希桶行标号
bucket_col	int	哈希桶列标号
			key_list	array	桶内时序数据主键列表
count	Int	桶内数据的数量

上述各表操作方法如下：

写入方法：

(1)临时快表fast

临时快表用来存储最近一个小时的数据，数据的插入为实时插入，每次时序数据到达应用后，利用哈希函数计算出数据所在的桶的位置，即bucket_row和bucket_col，然后将数据插入表临时快表；

(2)数据表data

每隔一个小时，将临时快表中的数据刷新到数据表data中，用于异常检测时根据数据的键key查询原始数据；

(3)概要数据表sketch

每隔一个小时计算临时快表中数据的概要结构，并刷新到概要数据表sketch中，用于保存不同时间的概要数据，提高异常检测的效率；

异常检测方法：

(1)最近一个小时异常数据查询

由于最近一个小时所有数据全部存储在临时快表中，因此，根据程序内部构建的当前概要数据结构，计算得到当前的各桶邻居数量平均值μ，则阈值为αμ(根据先前经验，α一般取值为0.2)，根据阈值判断异常的数据所在桶位置，再去临时快表中查询异常数据。

(2)一个小时之前历史异常数据查询

由于内存程序只存储一个小时内的概要结构和数据，因此查询一个小时之前的异常数据需要借助sketch表和data表。假定查询历史事件为t时的异常数据，

首先，读取sketch表，计算t时间各桶邻居数量的平均值μ；

得到平均值μ，计算阈值为αμ，查找异常数据列表；

最后根据key_list键的列表，去数据表中查找原始数据。

实验数据与结论：

本发明在三个方面对异常检测应用的功能和性能进行了全面的测试。包括算法与其他算法的效率对比、基于PostgreSQL10的时序数据异常发现和本系统性能的对比测试。

1、本发明与其他算法的对比。

为了验证算法的时间、空间效率和召回率，将本发明与exact-Storm、approximate-Storm、AbstractC、MCOD以及Thresh_LEAP五种经典算法进行了对比测试。测试的结果在图5A-5C中列出，本发明相对其他算法均有了不同程度的效率提升。

实验过程中，根据数据集的大小设置窗口宽度的变化进行对比实验，随着窗口宽度逐渐增加，各个算法的平均处理时间逐渐增加，本发明用时最少。这是因为其他算法通过计算数据点之间的距离查找邻居，在数据更新时，与新到达数据和超时数据相关的距离都要重新计算，时间开销巨大。本发明利用LSH来为数据寻找邻居，计算复杂度远小于距离计算，DW结构提供了O(1)的高效查询，且哈希结果不因数据更新而变化，无需重新计算，大大减少了时间消耗。

随着窗口宽度W的增大，每个算法存储更多数据点，内存需求增加。其他的五种算法存储邻居信息的方式不同导致空间占用不用，但都高于本发明所需要的内存空间。因为本发明利用LSH查找邻居时对数据分桶存储，每个桶内数据互为邻居，不需要为每个数据额外存储邻居信息，降低了空间需求。

在对比测试召回率时，由于本发明是采用近似计算方法，因此在5种对比算法中选取一个精确算法和一个近似算法进行对比测试，结果显示本发明召回率低于准确算法MCOD，这是因为近似算法会产生误差，导致召回率降低，但是与近似算法Approximate-Storm对比，本发明召回率较高，说明本发明产生的误差更低，效果更好。

2、本发明系统与原始PostgreSQL的对比。

为了验证本系统的性能，将异常发现算法基于PostgreSQL(PG)实现，从写入效率和查询效率两个方面与本系统进行对比测试。

1)写入性能

基于PG实现时，为提高写入和查询效率，需要手动创建分区并建立索引，并且随着时间的推移，需要不断为新到达的数据重建分区。同时，随着分区维度的增减，PG会建立复杂嵌套的多层继承树，每次插入操作需要访问所有叶子结点的表，开销巨大。本系统时序数据以块为单位存储，可以根据时间自动创建分区，且多个维度分区不会建立嵌套继承树，而是所有分区连接同一个根节点，时间序列数据通常只追加，写入最新的块和索引，因此插入效率很高。实验结果如图6所示。

2)查询性能

如表4所示，查询1(Q1)查询最近一个小时的邻居数量最小值，最近一小时的数据存储在临时快表中，因此查询速度非常快，本系统和基于PG实现用时都非常少。查询2(Q2)查询一天内每个小时邻居数量的最小值，由于一小时之前的数据存储在大表中，查询速度比临时快表慢。本系统和基于PG的实现用时很接近，由于本系统数据分块存储，所以Q1和Q2这类简单扫描查询，本系统比基于PG的实现稍慢几毫秒。查询3(Q3)查询一天内每个小时邻居数据量的平均值，用于计算阈值；查询4(Q4)根据阈值查询最近一小时的异常数据。这两个查询分别是基于时间的过滤查询和基于时间的聚合查询，本系统用时相对基于PG的实现提高了3x到5x，这是因为本系统底层时序数据库Timescale提供了基于时间查询的优化，查询性能很高。查询5(Q5)查询两天内的异常数据，并且要求按照邻居数量排序，涉及基于时间的排序，本系统比基于PG的实现提高了170x，查询性能很高。

表4查询性能对比

本发明从功能和性能角度全面地对本发明方法的性能进行了严格的测试，实验表明本发明方法与其他算法相比算法简洁，便于实现，具有较高的时间和空间效率，具有较高的性能。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种安全检测的时序数据实时异常发现方法，其步骤包括：

1)根据配置文件，创建或读取TimescaleDB时序数据库表；

2.如权利要求1所述的方法，其特征在于，所述TimescaleDB数据时序库表包括一临时快表、一数据表和一概要数据表。

3.如权利要求2所述的方法，其特征在于，所述临时快表的列名包括时序数据记录主键、数据时间戳、时序数据值、哈希桶行标号、哈希桶列标号和确定波窗口内部层号；所述数据表的列名包括时序数据记录主键、数据时间戳和时序数据值；所述概要数据表的列名包括记录主键、插入时间、哈希桶行标号、哈希桶列标号、桶内时序数据主键列表和桶内数据的数量。

4.如权利要求2所述的方法，其特征在于，所述时序数据插入所述临时快表；每隔一设定时间，将临时快表中的数据刷新到所述数据表中，同时将临时快表中数据的概要刷新到所述概要数据表中。

5.如权利要求4所述的方法，其特征在于，查询所述临时快表，得到实时时序数据的异常信息；查询所述概要数据表，得到所述设定时间之外的所述历史时序数据的异常信息。

6.如权利要求1所述的方法，其特征在于，所述哈希函数计算处理的步骤包括：

2)根据所述随机向量w_ij生成L个哈希函数H_i(x)＝[h_i1(x)；h_i2(x)；…；h_iK(x)],i∈[0,L-1]；其中，h_ij(x)＝sign(w_ij ^Tx)，sign()为随机投影签名函数，

7.如权利要求6所述的方法，其特征在于，使用哈希结果的海明距离作为数据相似性的衡量标准。

8.如权利要求6所述的方法，其特征在于，将所述邻居数据插入波滑动窗口模型，将得到的典型邻居数据被哈希到相同的桶中。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。