CN110263069A

CN110263069A - 新能源使用行为的时序特征隐含因素抽取和刻画方法及系统

Info

Publication number: CN110263069A
Application number: CN201910444301.6A
Authority: CN
Inventors: 姚俊杰; 王江涛; 郭羽翟; 黄嘉祥
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-20
Anticipated expiration: 2039-05-27
Also published as: CN110263069B

Abstract

本发明提出了一种新能源使用行为的时序特征隐含因素抽取和刻画方法，包括：获取用户使用情况的原始数据；通过计算原始数据各项统计指标，设定用于筛选可以用于特征提取的原始数据的标准；时间序列数据预处理；对于抽取并完成数据转换的时间序列数据，采用聚类方法进行模式识别，得到具有明显特征的时序聚类中心，即数据中具有标志性的时间序列；计算各站点的时间序列在各类别所占比例，将其组成为向量，即是抽取得到的刻画使用行为的隐含因素。本发明通过将隐含因素作为新的特征，加入已有的选址预测等计算模型，可以发现预测在各预测模型上均有较高的准确度提升，这也从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。

Description

新能源使用行为的时序特征隐含因素抽取和刻画方法及系统

技术领域

本发明涉及大数据技术领域，具体涉及新能源使用行为的时序特征隐含因素抽取和刻画方法及系统。

背景技术

时间序列数据是在特定时间内监测或记录下的有序数据集合。分析的前提是认为这些收集到的数据点在一段时间内的变化可能具有特定的内部结构，比如趋势季节变化等等。在此前提下，通过比较不同时间点上单个或多个时间序列的值，对时间序列数据进行分析，进而提取出数据特征。

时间序列预测方法可分为：简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法等。通常，时间序列数据中都会含有随机扰动因素的影响，这些具有不确定性的因素导致的数量变化被统称为随机变量，最常见的做法是通过“平滑数据”的方法来降低或消除随机变量带来的影响。

模式识别又常称作模式分类，就是通过计算机用数学技术方法来研究模式的自动处理和判读。从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类和无监督的分类两种。二者的主要差别在于，各实验样本所属的类别是否预先已知。一般说来，有监督的分类往往需要提供大量已知类别的样本，但在实际问题中，这是存在一定困难的。

另外，从用户行为产生数据的角度来看，不同的人群必定有着不同的使用习惯，比如不同的职业一般有着不同的工作出勤时段，有着不同出行习惯，居住在不同地区的人，出行也有着不同的行为模式，因此有必要从纷繁复杂的时序数据中识别出其中的差异，以便于精准地对不同的行为习惯进行刻画与描述，帮助准确分析和预测人们的新能源使用情况。

现存的方法大多采取直接利用用户信息(年龄、收入、工作等)的方法从侧面预测用户的数据行为，需要大量的人工劳动去筛选其中最为有效的特征，预测效果也不一定具有保障，也没有充分利用到用户行为数据中潜在的有价值信息，本发明所提出的方法，既不需要大量的人工劳动进行特征工程的构建，也能够充分利用用户行为数据，实现了数据驱动的解决办法，更为合理有效。

发明内容

为克服现有技术的上述问题，本发明提供了一种新能源使用行为的时序特征隐含因素抽取和刻画方法及系统。

本发明方法采用无监督的形式模式分类方法，通过将隐含因素作为新的特征，加入已有的选址预测等计算模型，可以发现预测在各预测模型上均有较高的准确度提升，从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。

本发明提出了一种新能源使用行为的时序特征隐含因素抽取和刻画方法，包括：

步骤A：获取用户使用情况的原始数据；

步骤B：通过计算原始数据各项统计指标，设定用于筛选可以用于特征提取的原始数据的标准；

步骤C：对于时序数据进行归一化处理和特征抽取，具体包括以下步骤：

步骤C1：将数据转换为随时间变化的各站点利用率的时间序列；

步骤C2：转换完毕的数据，对各站点的时间序列进行平滑；

步骤C3：对平滑后的每个时刻的数据打上分类标签；

步骤C4：以较大的时间长度为单位，将数据转换为长度为24小时的时序数据；

步骤D：基于聚类算法进行隐含的特征表示，具体包括以下步骤

步骤D1：对于抽取并完成数据转换的时间序列数据，采用聚类方法进行模式识别，得到具有明显特征的时序聚类中心；

步骤D2：通过时序聚类中心来描绘各站点的使用行为；

步骤E：基于隐含的特征表示，形成对使用行为的刻画；

步骤E1：根据聚类结果，计算各站点的时间序列在各类别所占比例；

步骤E2：将统计得到的比例以站点为单位组成向量，即是描述对应站点使用行为的隐含因素。

本发明步骤B中，设定的标准是对记录丢失率为80％以上的站点数据进行筛去，再对剩余数据中的缺失值进行填补，通过均值、补零、回归方法。

本发明步骤C1中，通过程序，可以批量的对数据进行计算和转换；所述程序流程为按时间戳依次扫描初步清洗后的数据，统计按小时、天、周等时间长度为单位的站点利用率情况，从而得到以某时间长度为基本单位的时间序列数据。

本发明步骤C2中，采用滑动平均法，以降低极端值等特殊情况对特征提取时的影响。

本发明步骤C3中，按三分位数将利用率情况进一步划分为低、中、高三类，以增强最后的特征提取效果，完成所述数据的抽取工作。

本发明步骤D中，聚类方法选用k-Spectral Centroid算法，首先将时间序列按峰值对齐，然后补全或平移部分数据，使各时序等长，最后采用谱聚类的方式计算k个聚类中心。

本发明步骤E中，计算方法为首先统计各站点原有数据记录条数然后统计属于某一个类别的总数，则该类别所占比例即为该类别所占记录条数/总记录条数*100％。

基于以上方法，本发明还提出了一种新能源使用行为的时序特征隐含因素抽取和刻画系统，所述系统包括：

数据获取模块，用于获取用户使用情况的原始数据；

数据清洗及抽取模块，通过计算原始数据各项统计指标，设定用于筛选可以用于特征提取的原始数据的标准；

时间序列数据预处理模块，用于对时间序列数据预处理；

时序数据聚类模块，对于抽取并完成数据转换的时间序列数据，采用聚类方法进行模式识别，得到具有明显特征的时序聚类中心，即数据中具有标志性的时间序列；

新特征产生模块，计算各站点的时间序列在各类别所占比例，将其组成为向量，即是抽取得到的刻画使用行为的隐含因素。

本发明的有益效果在于：通过将隐含因素作为新的特征，加入已有的选址预测等计算模型，可以发现预测在各预测模型上均有较高的准确度提升，这也从侧面反映了所抽取到的时序隐含特征能够刻画各站点的使用情况。

已有的选址预测等计算模型是指实验中所预先设计的预测模型，主要包括随机森林模型和支持向量机模型两种。

本发明相对于不将“隐含因素作为新的特征”，准确度提升保持在15％以上，相对于原准确度。

本发明通过在多个时间跨度上对用户行为时序数据进行聚类，对用户行为以聚类结果为特征进行表示和描述，解决了现有技术对用户行为刻画和描述的局限问题，使用的方法属于本时序处理领域的常规方法。

相对于现有技术，本发明避免了需要专业知识，专家经验的特征工程任务，以更为科学合理的数据驱动的方法自动提取除了刻画用户行为的隐含因素，并且提取得到的隐含因素具有可解释性，易于理解，另外通过实验证明了该隐含因素对选址预测模型的预测效果具有明显的提高作用。

附图说明

图1为本发明提供的系统流程和作用图。

图2为用户行为数据在某一时段的聚类结果中心的可视化展示、共5个类别，横轴为时间点(0点至24点)，纵轴为利用率。

图3为各站点的聚类结果各类别所占比例，当为某一具体站点各类别所占比例时，即组成为对该站点用户行为进行刻画的向量。

图4为将总体上各类别所占比重，刻画用户行为的拥有隐含的5种模式类别。

图5为某一类别中所有站点附近地区的地图上兴趣点采集统计后结果的示意图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例1

本实施例提供了一种新能源使用行为的时序特征隐含因素抽取和刻画方法包括以下步骤：

(1)数据获取

首先，需要获取用户使用情况的原始数据，可以采用自行获取的方式，也可以通过联系厂商获得。

(2)数据清洗及抽取

因为原始数据中不可避免的包含了因网络、硬件等原因产生的异常数据以及其他对特征抽取没有作用的额外信息等，需要对上述获得的数据进行清洗和抽取。通过计算原始数据各项统计指标，就可以人为设定一套标准，用于筛选可以用于特征提取的原始数据。

本实施例中，设定的标准是对记录丢失率为80％以上的站点数据进行筛去，再对剩余数据中的缺失值进行填补，通过均值、补零、回归等方法。

(3)时间序列数据预处理

(3.1)获得初步清洗后的数据后，需要将数据转换为随时间变化的各站点利用率的时间序列，通过编写程序，可以批量的对数据进行计算和转换。

程序的大致流程为按时间戳依次扫描初步清洗后的数据，统计按小时、天、周等时间长度为单位的站点利用率情况，从而得到以某时间长度为基本单位的时间序列数据。

(3.2)转换完毕的数据，还需要对各站点的时间序列进行平滑，这里采用滑动平均法，以降低极端值等特殊情况对特征提取时的影响。

(3.3)对平滑后的每个时刻的数据打上分类标签，如可按三分位数将利用率情况进一步划分为低、中、高三类，以增强最后的特征提取效果。完成所述数据的抽取工作。

(3.4)以较大的时间长度为单位，如天，将数据转换为长度为24小时的时序数据。

(4)时序数据聚类

对于抽取并完成数据转换的时间序列数据，采用时间序列数据挖掘中最典型的聚类方法进行模式识别，得到若干种具有明显特征的时序聚类中心(地标时间序列)，即数据中具有标志性的时间序列。

本实施例中，聚类的方法，选用了准确度较高，符合本实施例应用场景的k-Spectral Centroid算法，首先将时间序列按峰值对齐，然后补全或平移部分数据，使各时序等长，最后采用谱聚类的方式计算k个聚类中心。

其中，由于聚类个数k需要人为提前指定，可以采用先取一个较大值。本实施例中采用的初始值为10，具体选择可视实际数据情况而改变，一般数据量越大聚类种类越多，但终会趋于一个极限值，当然数值过大也不利于之后的分析工作，然后逐步降低k值，分析最终聚类结果，得到能够将各类别明显区分的聚类结果。

现有技术一般不对使用行为的时序数据做聚类操作，本实施例在多个时间跨度上进行聚类操作，从而实现对用户行为特征隐含因素的提取。

(5)新特征产生

最后，计算各站点的时间序列在各类别所占比例，计算方法为首先统计各站点原有数据记录条数，如24小时的利用率为一条记录，则总记录条数为总记录天数，然后统计属于某一个类别的天数总数，则该类别所占比例即为该类别所占记录条数/总记录条数*100％，将其组成为向量。组成向量的方式为本实施例所选择的方法，也可以采用其他的方法，即是抽取得到的刻画使用行为的隐含因素。

另外，通过提取每个类别中占比排名靠前的站点地址文本信息，通过自然语言处理的分词与统计后，可以得到每个类别最为相关文本描述，本实施例中，不同的类别拥有各异的描述内容，并且符合一般认识。

实施例2

经过图1中的的流程处理后，可以得到图2和图3中所展示的聚类结果，在筛去无意义信息的同时，也将刻画用户行为的主要因素提取了出来(每个站点的用户的各类用户行为特点不同)，有利于进一步提高预测效果。

图4为将总体上各类别所占比重，刻画用户行为的拥有隐含的5种模式类别。同时在，对站点在不同描述维度进行区分时，聚类结果也会相应产生改变，对用户行为提取得到的隐含因素也会不同，可见本发明属于数据驱动的方法，自动地提取刻画用户行为的隐含因素，避免了大量的人工的特征工程任务。

图5为对其中某一类别中所有站点附近地区(1千米内)的地图上兴趣点(POI)采集统计后的结果，越大的字体表示该种类型所占比重越高，可见提取的隐含因素具有可解释性并易于理解。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，包括：

步骤A：获取用户使用情况的原始数据；

步骤C2：转换完毕的数据，对各站点的时间序列进行平滑；

步骤C3：对平滑后的每个时刻的数据打上分类标签；

步骤D2：通过时序聚类中心来描绘各站点的使用行为；

步骤E：基于隐含的特征表示，形成对使用行为的刻画；

2.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤B中，设定的标准是对记录丢失率为80％以上的站点数据进行筛去，再对剩余数据中的缺失值进行填补，通过均值、补零、回归方法。

3.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤C1中，通过程序，可以批量的对数据进行计算和转换；所述程序流程为按时间戳依次扫描初步清洗后的数据，统计按小时、天、周等时间长度为单位的站点利用率情况，从而得到以某时间长度为基本单位的时间序列数据。

4.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤C2中，采用滑动平均法，以降低极端值等特殊情况对特征提取时的影响。

5.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤C3中，按三分位数将利用率情况进一步划分为低、中、高三类，以增强最后的特征提取效果，完成所述数据的抽取工作。

6.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤D中，聚类方法选用k-Spectral Centroid算法，首先将时间序列按峰值对齐，然后补全或平移部分数据，使各时序等长，最后采用谱聚类的方式计算k个聚类中心。

7.如权利要求1所述的新能源使用行为的时序特征隐含因素抽取和刻画方法，其特征在于，步骤E中，计算方法为首先统计各站点原有数据记录条数然后统计属于某一个类别的总数，则该类别所占比例即为该类别所占记录条数/总记录条数*100％。

8.一种新能源使用行为的时序特征隐含因素抽取和刻画系统，其特征在于，采用如权利要求1-7之任一项所述的方法，所述系统包括：

数据获取模块，用于获取用户使用情况的原始数据；

时间序列数据预处理模块，用于对时间序列数据预处理；