CN110427964A

CN110427964A - 一种基于互信息的多元时间序列变量选择方法

Info

Publication number: CN110427964A
Application number: CN201910546886.2A
Authority: CN
Inventors: 何国良; 韦庆锋; 汪紫煌
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-11-08

Abstract

本发明公开了一种基于互信息的多元时间序列变量选择方法，首先，根据多元时间序列中每个变量对类可分离性所做贡献的大小，提出了一种基于类内类间散度的衡量标准，结合标准对变量按类可分离性进行排序；再根据输入变量之间互信息值的大小将冗余变量剔除，最终选择出最佳的变量子集；在选出的变量子集的基础上再分类，并通过常用的多元时间序列数据集实验，充分验证了本发明方法的有效性。本发明的变量选择方法不仅能选择出那些对分类最有利的“核心变量”，还可以避免选择冗余变量，从而对多元时间序列进行降维，更好地进行后续分类任务。

Description

一种基于互信息的多元时间序列变量选择方法

技术领域

本发明涉及时间序列的数据挖掘技术领域，具体涉及一种基于互信息的多元时间序列变量选择方法。

背景技术

多元时间序列MTS(Multivariate Time Series)是现实世界中一种普遍存在且具有重要意义的数据类型，比如工业现场的监控数据、互联网节点的通信流量数据、气象数据以及语音视频数据等。采用多元时间序列对事物的特性和行为进行完整描述，并且对该序列进行分析与研究，可以深入的认识事物和发现其内在的规律。目前，多元时间序列及其数据挖掘已经广泛的受到关注。

然而，多元时间序列由于其自身的时间特性、高维特性及变量之间的相关性给挖掘研究带来了困难。数据中本身存在着无关和冗余变量，如果简单的将原有数据变量作为模型的输入，不但会增加训练时间，而且还可能会对模型的预测效果造成负面的影响。因此，对多元时间序列进行降维处理有着十分重要的作用。目前存在的降维研究，大多数集中在单变量时间序列或者高维数据领域，而对既具有时间特性又具有高维特性的多元时间序列的降维研究还较少。有些学者对按时间顺序排列的高维数据进行了降维研究，在文献中把这种数据也称之为“多元时间序列”，虽然考虑了时间特性，但是其本质上还是高维数据的扩展。本发明讨论的问题要更为复杂一些，每个样本以矩阵的形式表示，并对应一个类标号。

现有技术中，国内外学者对多元时间序列变量选择的相关研究如下：

Guyon等人提出了一种利用支持向量机的递归式特征消除RFE(RecursiveFeature Elimination)技术，尽管该技术的实现效果较好，但是因为它要求每个样本以向量的形式表示，而不能直接应用于解决多元时间序列问题。Shahabi等人提出了一种基于RFE的监督变量选择方法Corona(Correlationas Features)，该方法使用SVM(SupportVector Machine)对每个样本的相关系数矩阵进行处理，并将得到的分类超平面系数作为评价变量优劣的准则。之后他们又提出了一种基于共同主成分的方法CleVer(Commonprincipal component Loading-based Variable subset selection method)，其通过计算整个数据集的共同主成分来对变量进行选择。

Han等人提出了一种基于类可分离性的变量选择算法CSFS(Class SeparabilityFeature Selection)，主要依靠计算类离散矩阵对变量排序，此算法能够排除冗余变量，取得了较好的实验效果。李海林提出的利用主成分分析方法，对综合协方差矩阵进行主元分析，进而实现数据降维处理。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

根据采取技术的不同，一般降维分为特征提取和特征选择(也称为变量选择)。由于特征提取得到的新变量是原有变量的组合，会丧失原有系统的物理特性，如PCA(Principal Component Analysis)方法，而且对新的数据还要采取相同的计算，并不能减少实际使用时的工作量。

由此可知，现有技术中的方法对时间序列的降维效果不好，影响分类性能的问题。

发明内容

有鉴于此，本发明提供了一种基于互信息的多元时间序列变量选择方法，用以解决或者至少部分解决现有技术中的方法对时间序列的降维效果不好，影响分类性能的问题。

本发明第一方面提供了一种基于互信息的多元时间序列变量选择方法，包括：

步骤S1：采用基于类内类间散度的变量评价方法衡量变量对类别的可分离性，并计算多元时间序列每个变量的评价值，再将评价值按照从高到低排序，其中，评价值用以表征变量对类别的可分离性；

步骤S2：根据k-近邻互信息法计算变量间的互信息值，并结合步骤S1所得的各变量排序值，进行变量选择。

在一种实施方式中，所述方法还包括步骤S3：

通过不同分类器对选择出的变量进行准确性验证。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：计算各变量所对应的时间序列在同类中的类内距离；

步骤S1.2：根据计算出的类内距离，计算类内距离的均值和标准差；

步骤S1.3：计算类间每两个时间序列之间的类间距离，

步骤S1.4：根据计算出的类间距离，计算类间距离的均值和标准差；

步骤S1.5：根据类内距离的均值和标准差、类间距离的均值和标准差，通过评分公式(1)对变量分类性能进行评价，

其中，u代表均值，s代表标准差，k代表任一变量，i、j代表不同的类别score值越大表示分类性能越好；

步骤S1.6：将变量按照score值按从高到低进行排序。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：根据公式(2)计算计算变量间的互信息值：

其中，为双Γ函数，且满足符号<>表示对其中的所有变量i＝1,2,…,N取平均；

步骤S2.2：根据变量间的互信息值和评价值的排序，采用前向式变量选择方法，依次将符合条件的变量加入到已选变量集合中。

在一种实施方式中，步骤S2.2具体包括：

步骤S2.2.1：将步骤S1中评价值最高的变量作为选择的第一个变量，将其加入到已选变量集合中，并将其从未选变量集合中删除；

步骤S2.2.2：接着选择下一个变量，根据变量评价值和变量间的互信息值，按照公式(3)计算得到比值最大的一个变量加入到已选变量集合，并将其从未选集合中删除；

其中，F表示全部变量的集合，S表示已选变量的集合，f_j表示未选择的变量，f_j∈F-S，f_i表示已选择的变量，f_i∈S，sortedVariables(f_j)表示f_j所对应变量的得分，MI(f_i,f_j)表示第f_i变量和第f_j变量间的互信息；

步骤S2.2.3：重复执行步骤S2.2.2，直到全部变量集合中的变量选择完毕。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：将获取的数据集按照设定比例划分为训练集和测试集；

步骤S3.2：根据不同的变量子集进行分类，得到对应的分类准确率，并输出选择变量的集合及其对应的分类准确率。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于互信息的多元时间序列变量选择方法，首先，采用基于类内类间散度的变量评价方法衡量变量对类别的可分离性，并计算多元时间序列每个变量的评价值，再将评价值按照从高到低排序；然后根据k-近邻互信息法计算变量间的互信息值，并结合步骤S1所得的各变量排序值，进行变量选择。

由于本发明采用类内类间散度的变量排序方法，在此基础上对变量之间进行互信息相关分析，综合考虑排序得分和相关性对变量进行选择。并采用前向式变量选择算法，对所有变量进行遍历，找出最佳的变量子集。通过仿真实验验证了本发明所提出的变量选择方法不仅能选择出那些对分类最有利的“核心变量”，还可以避免选择冗余变量，从而对多元时间序列进行降维，更好地进行后续分类任务，故而可以达到改善分类性能的效果。

进一步地，本发明通过不同分类器对选择出的变量进行准确性验证，充分验证了本发明方法的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种实施方式中基于互信息的多元时间序列变量选择方法的流程示意图；

图2为本发明另一种实施方式中基于互信息的多元时间序列变量选择方法的总体流程图；

图3为本发明在EEG数据集上选择的变量子集分类效果图；

图4为EEG数据集上降维前后准确率和花费时间的对比图。

具体实施方式

本发明的目的在于针对现有技术中的方法由于对时间序列的降维效果不好，影响分类性能的问题，提出一种基于互信息的多元时间序列变量选择方法，从而达到保留变量信息，改善分类性能的效果。

为达到上述效果，本发明的主要构思如下：

首先根据数据集每个变量对类可分离性所做贡献的大小，提出了一种基于类内类间散度的衡量标准，结合标准对变量按类可分离性进行排序；再根据输入变量之间互信息值的大小将冗余变量剔除，最终选择出最佳的变量子集；在选出的变量子集的基础上再分类，并通过常用的多元时间序列数据集实验，充分验证了本发明方法的有效性。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于互信息的多元时间序列变量选择方法，请参见图1，该方法包括：

步骤S1：采用基于类内类间散度的变量评价方法衡量变量对类别的可分离性，并计算多元时间序列每个变量的评价值，再将评价值按照从高到低排序，其中，评价值用以表征变量对类别的可分离性。

具体来说，步骤S1是通过采用基于类内类间散度的变量评价方法，来衡量变量对类别的可分离性。计算多元时间序列每个变量的评价值，并将评价值按照从高到低排序。

具体来说，步骤S2是采用一种结合互信息和评价值的前向式变量选择方法。根据k-近邻互信息法计算变量间的互信息值，再结合步骤1所得的各变量排序值，进行变量选择。可以根据输入变量之间互信息值的大小将冗余变量剔除，最终选择出最佳的变量子集；

为了验证本发明变量选择的准确性和有效性，在一种实施方式中，所述方法还包括步骤S3：

通过不同分类器对选择出的变量进行准确性验证。

具体来说，图2示出了实施基于互信息的多元时间序列变量选择方法的总体流程，首先获取多元时间序列数据集，然后基于类内类间散度对变量进行排序，接着根据变量排序得分和变量间互信息之商进行变量选择，最后，通过分类确定变量选择效果。

本发明可以选择出对分类贡献最大的那些“核心变量”，并且剔除掉冗余变量，实现多元时间序列变量维度的降低，既提高了分类精度又降低了分类时间。本发明的主要创新点有：根据训练数据中类内类间散度的相关计算，提出了一种衡量每个变量对类可分离性所做贡献的标准，并对变量贡献进行排序；同时根据输入变量之间互信息值的大小将冗余变量剔除，最终选择出最佳的变量子集。在常用的多元时间序列数据集上进行实验，充分验证了本发明方法的有效性。

在一种实施方式中，步骤S1具体包括：

步骤S1.3：计算类间每两个时间序列之间的类间距离，

步骤S1.6：将变量按照score值按从高到低进行排序。

具体实现时，本发明实施例以EEG数据集为具体实例，EEG为脑电信号数据集，该数据集包括醉酒者和正常人两组受试人群的数据。信号通过64个电极以256Hz的频率釆样得到，每次试验记录1s时长的脑电信号。一共得到1200个样本，其中醉酒者和正常人各占一半，每个样本的时间维长度是256，变量维长度是64。

EEG数据集一共有64个变量，对于任一变量下的单变量时间序列也就有1200个，其中分为2类：正常者和醉酒者，每一类含有600个样本。首先计算600个正常者的两两之间的距离，计算距离的方法采用DTW(Dynamic Time Warping)方法，再计算这些同类间距离的均值和标准差。对于600个醉酒者采用同样的计算。然后再计算类间两两样本之间的距离，由于本实例中只有2个类别，也就是计算一个正常者样本和一个醉酒者样本间的距离，再计算它们的均值和标准差。在得到以上3组均值和标准差后通过以下score评分公式(1)作为评价该变量分类性能的优劣指标，score值越大表示分类性能越好，将变量按照score值按从高到低排序以备后用。

更具体地，为方便实施，本发明还提供的变量分类性能排序伪代码如下：

表1

上述算法中，1～4步计算出一个变量k所对应的时间序列UTS^k在同类内的距离intraClassDistance；第5步计算类内距离的均值和标准差第6步中的combination(C,2)意思为在C个类中任取2个进行全排列得到的排列集合；取出排列集合中的一组排列，oneClass为其中的一个类，anotherClass为另一个类，第7步分别得到这两个类标号；第8步计算变量k对应的时间序列UTS^k在不同类间的距离interClassDistance；第9步同样计算出不同类间距离的均值和标准差第10步计算该变量的得分score；最后输出由高到低排序后的变量sortedVariables，其中存放的是每个变量对应的score值。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：根据公式(2)计算计算变量间的互信息值：

具体实现时，首先计算变量之间的互信息矩阵。本发明采用分段聚合近似(PAA)方法先对每个EEG样本进行处理，降低时间维长度，再将降维后的数据按相应变量进行拼接，组成一个变量数为64的二维矩阵(该矩阵是一个对称矩阵，用于计算64个变量两两之间的互信息。)。然后采用k-近邻互信息方法来计算互信息，得到一个对角线全部为0的对称矩阵MI(即互信息矩阵)。

k-近邻互信息计算方法基本思路为：在X和Y构成的空间Z＝(X,Y)中，以ε_i/2为点z_i＝(x_i,y_i)到其k-近邻的距离，ε_x(i)/2为点z_i＝(x_i,y_i)到X轴上相应点的距离，同理可得ε_y(i)/2。统计到点x_i的距离严格小于ε_i/2的数目n_x(i)，同样对变量Y作相同的处理得到n_y(i)。从而可以根据公式(2)计算计算变量间的互信息值。

其中，步骤S2.2具体包括：

具体来说，本发明采用采用前向式变量选择方法，即逐步将变量加入到已选变量集合中，直至达到终止条件或者全部变量都被选择。

具体过程如下：首先将步骤1中score值最高的变量作为选择的第一个变量，将其加入到已选变量集合中，并将其从未选变量集合中删除掉。接着选择下一个变量，对未选变量集合中的每个变量，根据其score值与变量间的互信息值作比，选择比值最大的一个变量加入到已选集合中，并将其从未选集合中删除。重复这一过程直至64个变量全部选择完。

更为具体地，本发明提供前向式变量选择伪代码如下：

表2

上述算法中，在选择第k个变量时，对于F-S_k-1中的变量f_j，计算它的变量得分和已选集合中变量的互信息的比值，选择最大的一个加入到S中，循环直至所有变量都被选完。第9步返回最终选择变量集合selectedVariables，其中包含了所有变量，按类的可分离性和相关性从优到劣排列。

在一种实施方式中，步骤S3具体包括：

在具体实现时，本实施将EEG数据集平分成10份，每次将其中的9份作为训练集，另外1份作为测试集。根据不同的变量子集进行分类，得到对应的分类准确率。最终输出选择变量的集合及其对应的分类准确率。依据分类结果我们可以确定最佳变量子集中的变量数目k，从中取出前k个变量就是最佳变量子集，选取对应的变量即可实现多元时间序列的降维。

更为具体地，本发明不同变量子集下的分类准确率检测算法的伪代码如下：

表3

图3为本发明在EEG数据集上选择的变量子集分类效果。从图中可见使用本发明选择的变量数达到16个时，再增加变量分类准确率基本没有变化，和最终使用64个变量的分类准确率仅相差3％。

图4为EEG数据集上降维前后准确率和花费时间的对比。说明本发明剔除掉无关和冗余变量，减少了计算开销。

设置如下两种随机方式实验：随机一：随机选择的变量数和本发明选择出的最佳子集中变量数相同；随机二：随机选择的变量数和本发明选择出的最佳子集中变量数不同，也就是说随机方法中的变量数目也是随机产生的。每个数据集下进行30次实验，取其结果的平均值和标准差，标准差越大，表示该集合中的分布越离散，结果越不稳定。

表4为EEG数据集上本发明和随机选取变量子集的分类对比。表4的结果说明了本发明的确能选择出那些能够表征类别特征的“核心变量”，一旦这些“核心变量”被选择出，分类的准确性就能大幅度的提高；相反的，如果没有选出这些“核心变量”，分类准确率就不会有太大的改进。

表4

综上所述，本发明为了解决多元时间序列分类下的变量选择问题，通过对数据类可分离性的分析，提出一种根据类内类间散度的变量排序方法，在此基础上对变量之间进行互信息相关分析，综合考虑排序得分和相关性对变量进行选择。设计了前向式变量选择算法，对所有变量进行遍历，找出最佳的变量子集。通过仿真实验验证了本发明所提出的变量选择方法不仅能选择出那些对分类最有利的“核心变量”，还可以避免选择冗余变量，从而对多元时间序列进行降维，更好地进行后续分类任务。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于互信息的多元时间序列变量选择方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括步骤S3：

通过不同分类器对选择出的变量进行准确性验证。

3.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

步骤S1.3：计算类间每两个时间序列之间的类间距离，

步骤S1.6：将变量按照score值按从高到低进行排序。

4.如权利要求3所述的方法，其特征在于，步骤S2具体包括：

步骤S2.1：根据公式(2)计算计算变量间的互信息值：

5.如权利要求4所述的方法，其特征在于，步骤S2.2具体包括：

6.如权利要求2所述的方法，其特征在于，步骤S3具体包括：