CN110134839B

CN110134839B - 时序数据特征处理方法、装置及计算机可读存储介质

Info

Publication number: CN110134839B
Application number: CN201910238682.2A
Authority: CN
Inventors: 陈娴娴; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2023-06-06
Anticipated expiration: 2039-03-27
Also published as: CN110134839A

Abstract

本方案涉及人工智能，提供一种时序数据特征处理方法、装置及计算机可读存储介质，方法包括：结合K‑MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类；利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比；将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。本发明能够基于时序数据本身携带的一些数据特性，精确提取数据本身赋予的信息点，还能够捕捉到更多维度的数据信息，并使得特征数据整体更平滑化，有助于后续建模预测精确度的提升。

Description

时序数据特征处理方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能，具体地说，涉及一种时序数据特征处理方法、装置及计算机可读存储介质。

背景技术

近年来基于海量数据的处理需求，以及多维度时序预测场景的需要，基于时序数据的特征工程已成为各研究机构科研热点。然而基于时序数据本身携带的时序特性使得对其进行的特征工程需要维系更多的信息保留需求，而特征工程处理得到的特征信息数据又在一定程度上决定了后续模型、算法预测的准确率等各方面评价指标的上限，因此基于时序数据的特征工程对整体模型的搭建和预测起到了至关重要的作用。

发明内容

为解决以上技术问题，本发明提供一种时序数据特征处理方法，应用于电子装置，结合K-MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类；利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比；将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。

优选地，K-Means聚类算法步骤如下：

(1)事先确定好聚集类的个数，并随机初始化各聚集类的中心点；

(2)计算每个数据点到各中心点的距离，数据点距离哪个中心点最近就划分到哪个聚集类中；

(3)全部数据点计算完成后，重新计算每个聚集类的中心点；

(4)重复迭代以上步骤，直到每一聚集类的中心点在迭代后变化量小于变化阈值为止。

优选地，均值漂移聚类是基于滑动窗口的算法，通过将中心点更新为滑动窗口内点的均值来来定位每个聚集类的中心点，具体步骤如下：

(1)以随机选取的中心点C、半径为r的圆形滑动窗口滑动，在每一次迭代中向数据密度更高的区域滑动，直到收敛；

(2)每一次滑动到新的区域，计算滑动窗口内的均值作为中心点，滑动窗口内的点的数量为窗口内的密度；

(3)滑动窗口，计算窗口内的中心点以及窗口内的密度，一直滑动到圆内密度不再增加为止；

(4)当多个滑动窗口重叠时，保留包含最多点的窗口，然后根据数据点所在的滑动窗口进行聚类。

优选地，还对时序数据进行数据平滑处理，

首先，将t时刻的数据用t-k至t的平均值l_t进行代替，

N为时序数据l₁，l₂，…，l_N的数量，

其中k为给定的平滑间隔数。

优选地，将经过平滑处理的时序数据纵向排列为一列，以第n-1行数据替换第n行数据形成滞后序列，并依次对新形成的滞后序列以第n-1行数据替换第n行数据的方式形成滞后序列，结合原始的一列时序数据，形成包含m+1列数据的扩展矩阵，其中，m是根据时序数据的数量需求设定的滞后序列的数量，并对空值采用该列时序数据的平均值填充。

优选地，对所述扩展矩阵计算最大值、最小值、方差、标准差，从而抽取得到m+5维度的特征。

优选地，利用欧几里得距离对扩展矩阵的每一列时间序列分别与标准差计算相似度，对于相似度大于等于相似度阈值的，则保留该列时序数据，对于相似度低于相似度阈值的，予以剔除。

本发明还提供一种电子装置，该电子装置包括：存储器和处理器，所述存储器中存储有时序数据特征处理程序，所述时序数据特征处理程序被所述处理器执行时实现如下步骤：结合K-MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类；利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比；将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现以上所述的时序数据特征处理方法。

本发明基于时序数据聚类与平滑相结合的特征预处理方案，一方面能够基于时序数据本身携带的一些数据特性，精确地提取数据本身赋予的信息点，另一方面能够透过数据本身，捕捉到更多维度的数据信息，并使得特征数据整体更平滑化，有助于后续建模预测精确度的提升。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是本发明实施例的时序数据特征处理方法的流程示意图；

图2是本发明实施例的电子装置的硬件架构示意图；

图3是本发明实施例的时序数据特征处理程序的模块构成图。

具体实施方式

下面将参考附图来描述本发明所述的时序数据特征处理方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明实施例提供的时序数据特征处理方法的流程示意图，应用于电子装置，该方法包括以下步骤：

步骤S10，结合K-MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类。其中，K-MEANS算法在完成聚类后会将其余不成类的异常点进行备注拟删除。其中，聚集类的数量是事先设定的。例如，对北京的流行病的时序数据进行聚类，事先设定3个分类，区分出流行性感冒发病数据、流行性手足口发病数据、流行性肺炎发病数据。当然，事先需要具备对应这些分类特征的数据。或者还可以继续对北京的流行性感冒发病的时序数据进一步聚类，设定3个分类，区分出月度的流行性感冒发病类、季度流行性感冒发病类、年度流行性感冒发病类。其中，月度的流行性感冒发病类中是1至12个月的数据都在这一分类中，季度流行性感冒发病类中是1至4季度的数据都在这一分类中。年度流行性感冒发病类中是当年的数据都在这一分类中。数据事先经过处理，例如某某人2018年发生流行性感冒，某某人1季度发生流行性感冒，某某人3月发生流行性感冒。则把数据对应的分类到月度的流行性感冒发病类、季度流行性感冒发病类、年度流行性感冒发病类中。

步骤S30，利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比。例如，对各聚集类中的时间序列中的数据按照时序特征词(例如季、月、周等)进行统计，计算各时序特征词对应的数据百分比。例如，某一类是月度的流行性感冒发病类，时序特征词“月”搜索到流行性感冒发病数据的类别中有“月”，则对该类别中统计出其中各月的发病数据占整个该类别中的数据比例，例如，月度的流行性感冒发病类中，35％都是11月的数据，流行性手足口发病数据类别中，15％是第26周的数据。以上时序特征词不局限于季、月、周，还可以是例如分、小时、白天、晚上、冬天、夏天等很多具有时间特性的词。

步骤S50，将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。例如月度流行性感冒发病类中，聚类出11月流行性感冒发病数据、2月流行性感冒发病数据这两个聚集子类，说明这两个月是流行性感冒发病的高发期。

进一步地，K-Means聚类算法步骤如下：

(3)全部数据点计算完成后，重新计算每个聚集类的中心点；

进一步地，均值漂移聚类是基于滑动窗口的算法，通过将中心点更新为滑动窗口内点的均值来来定位每个聚集类的中心点，具体步骤如下：

进一步地，还对时序数据进行数据平滑处理，

首先，将t时刻的数据用t-k至t的平均值l_t进行代替，

N为时序数据l₁，l₂，…，l_N的数量，

其中k为给定的平滑间隔数。

进一步地，将经过平滑处理的时序数据纵向排列为一列，以第n-1行数据替换第n行数据形成滞后序列，并依次对新形成的滞后序列以第n-1行数据替换第n行数据的方式形成滞后序列，结合原始的一列时序数据，形成包含m+1列数据的扩展矩阵，其中，m是根据时序数据的数量需求设定的滞后序列的数量，并对空值采用该列时序数据的平均值填充。例如，如下的扩展矩阵的第一列为原始的一列时序数据，右侧两列为形成的滞后序列。

进一步地，对所述扩展矩阵计算最大值、最小值、方差、标准差，从而抽取得到m+5维度的特征。

进一步地，利用欧几里得距离对扩展矩阵的每一列时间序列分别与标准差计算相似度，对于相似度大于等于相似度阈值的，则保留该列时序数据，对于相似度低于相似度阈值的，予以剔除。

参阅图2所示，是本发明电子装置的实施例的硬件架构示意图。本实施例中，所述电子装置2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图2所示，所述电子装置2至少包括，但不限于，可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中：所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子装置2的内部存储单元，例如该电子装置2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子装置2的外部存储设备，例如该电子装置2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件，例如所述时序数据特征处理程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作，例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的时序数据特征处理程序等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子装置2与推送平台相连，在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

可选地，该电子装置2还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。

需要指出的是，图2仅示出了具有组件21-23的电子装置2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

包含可读存储介质的存储器21中可以包括操作系统、时序数据特征处理程序50等。处理器22执行存储器21中时序数据特征处理程序50时实现如下步骤：

步骤S10，结合K-MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类。其中，K-MEANS算法在完成聚类后会将其余不成类的异常点进行备注拟删除。其中，聚集类的数量是事先设定的。例如，对北京的流行性感冒发病的时序数据进行聚类，设定为5个分类，区分出月度的流行性感冒发病数据、季度流行性感冒发病数据、年度流行性感冒发病数据、周流行性感冒发病数据。当然，事先需要具备对应这些分类特征的数据。例如，1条数据是2018年1月12日流行性感冒，则该条数据可分类到2018年分类中，也相应的分类到第一季度和第2周的类别中。大量的时序数据通过K-MEANS算法聚集到对应的类别中。

步骤S30，利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比。例如，统计各聚集类中的时间序列中的数据按照时序特征词(例如季、月、周等)进行统计，计算各时序特征词对应的数据百分比。例如，某一类是月度流行性感冒发病数据，统计出月度流行性感冒发病数据中35％是11月的数据。周流行性感冒发病数据中，15％是第26周的数据。

步骤S50，将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。例如月度流行性感冒发病数据中，聚类出11月流行性感冒发病数据、2月流行性感冒发病数据这两个聚集子类，说明这两个月是流行性感冒发病的高发期。

在本实施例中，存储于存储器21中的所述时序数据特征处理程序可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并可由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。例如，图3示出了所述时序数据特征处理程序的程序模块示意图，该实施例中，所述时序数据特征处理程序50可以被分割为K-MEANS聚类模块501、字典设置模块502、数据百分比统计模块503、均值漂移聚类模块504、平滑处理模块505、扩展矩阵形成模块506。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述时序数据特征处理程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。

其中，K-MEANS聚类模块501用于将时序数据进行聚类分析，形成多个聚集类。其中，K-MEANS算法在完成聚类后会将其余不成类的异常点进行备注拟删除。其中，聚集类的数量是事先设定的。例如，对北京的流行性感冒发病的时序数据进行聚类，设定为5个分类，区分出月度的流行性感冒发病数据、季度流行性感冒发病数据、年度流行性感冒发病数据、周流行性感冒发病数据。

字典设置模块502用于在字典中预先设置时序特征词，例如，年、月、日、周、季。

数据百分比统计模块503用于利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比。例如，统计各聚集类中的时间序列中的数据按照时序特征词(例如季、月、周等)进行统计，计算各时序特征词对应的数据百分比。例如，某一类是月度流行性感冒发病数据，统计出月度流行性感冒发病数据中35％是11月的数据。周流行性感冒发病数据中，15％是第26周的数据。

均值漂移聚类模块504用于将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类。例如月度流行性感冒发病数据中，聚类出11月流行性感冒发病数据、2月流行性感冒发病数据这两个聚集子类，说明这两个月是流行性感冒发病的高发期。

进一步地，K-MEANS聚类模块501进行K-Means聚类算法步骤如下：

(3)全部数据点计算完成后，重新计算每个聚集类的中心点；

进一步地，均值漂移聚类模块504中的均值漂移聚类算法是基于滑动窗口的算法，通过将中心点更新为滑动窗口内点的均值来来定位每个聚集类的中心点，具体步骤如下：

进一步地，平滑处理模块505用于对时序数据进行数据平滑处理，

首先，将t时刻的数据用t-k至t的平均值l_t进行代替，

N为时序数据l₁，l₂，…，l_N的数量，

其中k为给定的平滑间隔数。

进一步地，扩展矩阵形成模块506用于将经过平滑处理的时序数据纵向排列为一列，以第n-1行数据替换第n行数据形成滞后序列，并依次对新形成的滞后序列以第n-1行数据替换第n行数据的方式形成滞后序列，结合原始的一列时序数据，形成包含m+1列数据的扩展矩阵，其中，m是根据时序数据的数量需求设定的滞后序列的数量，并对空值采用该列时序数据的平均值填充。

进一步地，扩展矩阵形成模块506还用于对所述扩展矩阵计算最大值、最小值、方差、标准差，从而抽取得到m+5维度的特征。

进一步地，扩展矩阵形成模块506还利用欧几里得距离对扩展矩阵的每一列时间序列分别与标准差计算相似度，对于相似度大于等于相似度阈值的，则保留该列时序数据，对于相似度低于相似度阈值的，予以剔除。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括时序数据特征处理程序等，所述时序数据特征处理程序50被处理器22执行时实现如下操作：

步骤S10，结合K-MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类。其中，K-MEANS算法在完成聚类后会将其余不成类的异常点进行备注拟删除。其中，聚集类的数量是事先设定的。例如，对北京的流行性感冒发病的时序数据进行聚类，设定为5个分类，区分出月度的流行性感冒发病数据、季度流行性感冒发病数据、年度流行性感冒发病数据、周流行性感冒发病数据。

本发明之计算机可读存储介质的具体实施方式与上述时序数据特征处理方法以及电子装置2的具体实施方式大致相同，在此不再赘述。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时序数据特征处理方法，应用于电子装置，其特征在于：

结合K-MEANS聚类算法将时序数据进行聚类分析，形成多个聚集类；

利用字典中预先设置的时序特征词在各个聚集类中搜索对比，如果搜索到与字典中的时序特征词一致的数据，则对对应的聚集类中的数据按照时序特征词进行统计，统计出各时序特征词对应的数据百分比；

将各聚集类中的时序数据进行均值漂移聚类，进一步将各聚集类中的数据分别按照数据百分比聚类出聚集子类，

还对时序数据进行数据平滑处理，将t时刻的数据用t-k至t的平均值l_t进行代替，

N为时序数据l₁,l₂,…,l_N的数量，

其中k为给定的平滑间隔数，

将经过平滑处理的时序数据纵向排列为一列，以第n-1行数据替换第n行数据形成滞后序列，并依次对新形成的滞后序列以第n-1行数据替换第n行数据的方式形成滞后序列，结合原始的一列时序数据，形成包含m+1列数据的扩展矩阵，其中，m是根据时序数据的数量需求设定的滞后序列的数量，并对空值采用该列时序数据的平均值填充，

对所述扩展矩阵计算最大值、最小值、方差、标准差，从而抽取得到m+5维度的特征，

利用欧几里得距离对扩展矩阵的每一列时间序列分别与标准差计算相似度，对于相似度大于等于相似度阈值的，则保留该列时序数据，对于相似度低于相似度阈值的，予以剔除。

2.根据权利要求1所述的时序数据特征处理方法，其特征在于，

K-MEANS聚类算法步骤如下：

(3)全部数据点计算完成后，重新计算每个聚集类的中心点；

3.根据权利要求1所述的时序数据特征处理方法，其特征在于，均值漂移聚类是基于滑动窗口的算法，通过将中心点更新为滑动窗口内点的均值来定位每个聚集类的中心点，具体步骤如下：

4.一种电子装置，其特征在于，该电子装置包括：存储器和处理器，所述存储器中存储有时序数据特征处理程序，所述时序数据特征处理程序被所述处理器执行时实现如下步骤：

N为时序数据l₁,l₂,…,l_N的数量，

其中k为给定的平滑间隔数，将经过平滑处理的时序数据纵向排列为一列，以第n-1行数据替换第n行数据形成滞后序列，并依次对新形成的滞后序列以第n-1行数据替换第n行数据的方式形成滞后序列，结合原始的一列时序数据，形成包含m+1列数据的扩展矩阵，其中，m是根据时序数据的数量需求设定的滞后序列的数量，并对空值采用该列时序数据的平均值填充，

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现权利要求1至3中任一项所述的时序数据特征处理方法。