CN115357716A

CN115357716A - 一种融合词袋模型和图嵌入的时序数据表示学习方法

Info

Publication number: CN115357716A
Application number: CN202211048806.9A
Authority: CN
Inventors: 黄�焕; 侯睿; 马逍轩; 元帅
Original assignee: South Central University for Nationalities; Hubei University of Education
Current assignee: Hubei University of Education; South Central Minzu University
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-18
Anticipated expiration: 2042-08-30
Also published as: CN115357716B

Abstract

本发明公开了一种融合词袋模型和图嵌入的时序数据表示学习方法，将时间序列数据转化成了离散的词语序列；在词语序列中提取鉴别性词语；构建鉴别性词语的共现图；计算鉴别性词语的低维表示向量；根据每个鉴别性词语的低维表示向量生成时间序列数据的表示向量。通过在传统的基于词袋模型的时间序列表示基础上，进一步融入图嵌入技术，不仅实现了将“词语”的时序联系信息蕴含在时间序列表示向量中，而且解决了传统的基于词袋模型的表示方法存在的高维数据稀疏问题，有助于提高时间序列分类的准确性和效率。在在线课程学习结果预测、天气预报、电压稳定监测、恶意软件监测等应用中可获得广泛的应用。

Description

一种融合词袋模型和图嵌入的时序数据表示学习方法

技术领域

本发明属于数据挖掘技术领域，更具体涉及一种融合词袋模型和图嵌入的时序数据表示学习方法，适用于时间序列数据分类，尤其适用于处理在线课程学习时间序列数据，预测学习结果。

背景技术

时间序列数据是按照时间顺序记录的一系列数据。现实世界中有大量的时间序列数据，如股票的价格、人体的温度、心电图等。这些时间序列数据中蕴含了很多有价值的信息，时间序列数据挖掘就是从大规模的时间序列数据中挖掘出有价值的信息的过程。时间序列分类(Time Series Classification，简称TSC)是时间序列数据挖掘中的一项主要任务之一，其目标是找出时间序列中有助于区分不同时间序列的特征，然后据此确定各种时间序列所属的类别，其实质是找到时间序列空间映射到类值空间的函数。时间序列分类在很多研究领域和实践领域都得到了广泛应用，如天气预报、电压稳定监测、恶意软件监测等，因此，深入研究时间序列数据分类方法具有重要的实际应用价值。

在过去的几十年里，研究者已提出了很多时间序列数据分类方法，这些方法可以分为两类：一是基于全序列的方法；二是基于子序列的方法。前者基于全局相似性进行分类，侧重研究时间序列相似性的度量方法；而后者则基于时间序列的局部特征进行分类，侧重研究子序列的划分方法和局部特征的提取方法。在基于子序列的时间序列分类方法中，有一类基于词袋模型的分类方法，近年得到了广泛的关注。因为它们具有分类精度高和运行速度快的特点。这类方法的基本思路是将时间序列分割成一系列子序列，然后将这些子序列转换为一个离散的符号，最后以词袋模型为基础来构建每个时间序列的特征向量，并以此为分类算法的输入训练分类模型。这类方法以词袋模型为基础将一个时间序列转换为一个特征向量，显然丢失了特征之间的位置关系信息，因为词袋模型假设特征之间是相互独立的。然而，对于时间序列分类来说，这种位置关系信息无疑是非常重要的，它的丢失会大大降低分类的准确性。

针对上述问题，本专利提出了一种融合词袋模型和图嵌入的时间序列数据表示学习方法。该方法首先使用基于词袋模型的时间序列表示方法来构建特征字典，然后使用特征之间的顺序将训练集中的所有时间序列转换为一个有向图，最后利用图嵌入算法得到每个特征的向量表示。与传统的基于词袋模型的时间序列表示方法不同，该方法利用图嵌入算法计算每个特征的向量表示，考虑了特征之间的位置信息，能够更准确的表征时间序列，从而提高时间序列分类的准确性。另外，相对于传统的基于词袋模型的表示算法，该方法将一个时间序列映射为一个更稠密的低维向量，也有助于提高时间序列分类的效率。

发明内容

本发明的目的是针对传统的基于词袋模型的时间序列表示方法存在的缺陷，提出一种融合词袋模型和图嵌入的时序数据表示学习方法，以进一步提高时间序列分类的准确性和效率。

为了实现上述目的，本发明采用以下技术方案：

一种融合词袋模型和图嵌入的时序数据表示学习方法，包括以下步骤：

步骤1、将时间序列数据转化成了离散的词语序列；

步骤2、在词语序列中提取鉴别性词语；

步骤3、构建鉴别性词语的共现图；

步骤4、计算鉴别性词语的低维表示向量；

步骤5、根据每个鉴别性词语的低维表示向量生成时间序列数据的表示向量。

如上所述步骤1包括以下步骤：

步骤1.1、根据时间序列数据集中每个时间点的取值，按高斯分布将整个时间点取值范围划分成r个等概率的区域，每块区域用一个不同的字母与其对应；

步骤1.2、将时间序列数据t_j均分为h个片段，根据每个片段内的所有时间点取值的均值将该片段映射为对应的字母；

步骤1.3、采用定长的滑动窗口将生成的字母序列进一步转换为词语序列。

如上所述步骤2包括以下步骤：

步骤2.1、使用数据块消减策略对每个离散词语序列进行消减；

步骤2.2、基于数据块消减后的词语序列，计算每个词语对应于每个类别的CHI值及其加权平均值；

步骤2.3、将词语序列中所有词语按照其加权平均CHI值进行从大到小排序，依据设定的百分比例阈值α％确定具有鉴别能力的鉴别性词语。

如上所述CHI值基于以下公式获得：

所述加权平均值基于以下公式获得：

其中，X²(b_f,c_k)为CHI值，

为加权平均值，A是属于类别c_k的词语序列中出现词语b_f的数量，B是不属于类别c_k的词语序列中出现词语b_f的数量，C是属于类别c_k的词语序列中没有出现词语b_f的数量，D是不属于类别c_k的词语序列中没有出现词语b_f的数量，m是时间序列数据集中的时间序列数据总数，P(c_k)是一个词语序列属于类别c_k的先验概率，c_k表示时间序列数据所属的类别，b_f表示词语。

构建鉴别性词语的共现图包括以下步骤：

定义鉴别性词语集为B＝{b₁，b₂，…，b_g}，存储鉴别性词语共现频次的矩阵为O_g×g，矩阵O_g×g中元素o_uv表示鉴别性词语b_u后面紧跟着出现鉴别性词语b_v的次数，u∈{1～g}，v∈{1～g}，存储鉴别性词语共现概率的矩阵为P_g×g，矩阵为P_g×g的元素p_uv表示鉴别性词语b_u后面紧跟着出现鉴别性词语b_v的概率，

是指各个词语序列对应的鉴别性词语b_u后面紧跟着出现鉴别性词语b_v的次数的总和，

构建鉴别性词语的共现图，共现图中一个节点表示一个鉴别性词语，两个节点之间的连线表示两个鉴别性词语存在共现，连线的箭头表示共现的方向，连线的权重表示共现的概率。

如上所述步骤4包括以下步骤：

根据鉴别性词语的共现图、以每个节点为开始的游走路径数量ε、每条路径的长度ρ、Skip-Gram模型中的窗口大小η、每个鉴别性词语的表示向量的维数μ，利用DeepWalk算法计算每个鉴别性词语的低维表示向量。

如上所述步骤5包括以下步骤：

记时间序列数据对应的词语序列包含z个不同的鉴别性词语，时间序列数据的低维表示向量为时间序列数据中z个鉴别性词语的低维表示向量与对应的鉴别性词语出现次数相乘后的累加。

本发明与现有技术相比，具有以下优点和效果：

1、通过在传统的基于词袋模型的时间序列数据表示方法基础上进一步融入了图嵌入技术，将每个时间序列数据表示成了一个维度较低的向量，有助于提高时间序列分类的效率。

2、在传统的基于词袋模型的时间序列数据表示方法基础上，进一步通过图嵌入技术得到每个时间序列数据的表示向量，这个表示向量蕴含了更丰富的时序信息，有助于提高时间序列分类的准确率。

3、相对于传统的基于词袋模型的时间序列表示方法，本发明中的方法能够将训练集中所有的时间序列数据表示为一个更稠密的矩阵，这也有助于提升时间序列分类的准确率。

附图说明

图1是本发明的框架图；

图2是基于SAX的时序数据离散化示意图；

图3是鉴别性词语的共现图构建示意图。

具体实施方案

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

时间序列数据是按照时间顺序记录的一系列数据，而且每个时间点记录的数据通常是一个连续型的数值。一条时间序列数据可以形式化表示为：t＝{x₁，x₂，…，x_i，…，x_n}，其中n表示时间序列数据的维度，x_i表示时间序列数据t在第i个时间点的取值，i∈{1～n}。时间序列分类就是让计算机自动判定一条时间序列数据所属的类别。为了让计算机具有这样的能力，一般需要一个大规模的时间序列数据集，在此基础上使用时间序列分类算法训练得到一个分类模型。时间序列数据集中包含了大量的时间序列数据及其对应的类别，可形式化表示为：时间序列数据集D＝{(t_j，c_k)}，其中，t_j表示第j个时间序列数据，j∈{1～m}，m为时间序列数据的总数,c_k表示第j个时间序列数据所属的类别，k∈{1～d}，且d<m。

由于时间序列数据的维度通常比较高，包含的噪音也非常多，因此，在训练分类模型和判定类别之前，通常都要采用一定的方法将其转换为一个低维的向量。本发明在传统的基于词袋模型的时间序列数据表示方法基础上，提出了一种融合词袋模型和图嵌入的时序数据表示学习方法。该方法的基本框架如附图1所示。

本实施例以学生在前n天中每天学习某门在线课程的时间(单位：分钟)作为时序数据，以学生最终的学习结果(弃课、通过、未通过)作为预测类别，详细阐述该方法的主要步骤。假设一个学生j对应的时间序列数据为t_j＝{x₁，x₂，…，x_i，…，x_n}，其最后的学习结果为c_k，所有学生形成的时间序列数据集为D＝{(t_j，c_k)}，则使用本发明处理数据机D的步骤为：

步骤1：将时间序列数据进行离散化

本步骤的目的是将每一条时间序列数据t(连续数值序列)转化为一个离散的“词语”序列。例如，一个时间序列数据{12,20,15,24,27,18,0,23,42,23}经过本步骤后将被转化为一个离散的词语序列{aa,ab,bb,ab,ab,aa}。本步骤可采用SAX或SFA方法来实现，在此以SAX方法为例进行介绍。

步骤1.1、根据时间序列数据集中每个时间点的取值，按高斯分布将整个时间点取值范围划分成r个等概率的区域(equiprobableregions)，每块区域用一个不同的字母(alphabet)与其对应。

步骤1.2、将时间序列数据t_j均分为h个片段，根据每个片段内的所有时间点取值的均值将该片段映射为对应的字母。如此一来，时间序列数据t_j就被映射为一个长度为h的字母序列(h≤n)。附图2是将每个片段映射为一个字母的示意图。

步骤1.3、采用定长的滑动窗口将生成的字母序列进一步转换为词语序列。假设滑动窗口的长度为l(l<h)，滑动的步长为1，滑动窗口内的字母作为一个词语，则生成的字母序列进一步被转换为(h–l+1)个长度为l的字符串序列(也称作词语序列)。

如此一来，一个时间序列数据t就被转化成了一个离散的词语序列s＝{b₁，b₂，…，b_f，…，b_(h–l+1)}，f∈{1～(h–l+1)}。

步骤2：提取出具有鉴别能力的词语

本步骤的目的是从大量的词语中进一步提取出能够区分不同类别时间序列数据的鉴别性词语。当将一个连续的时间序列数据被转换为一个离散的词语序列后，这个离散的词语序列就可以看作一个文档。在此基础上，本发明采用数据块消减策略和基于CHI的特征选择算法来提取具有鉴别能力的词语。

在本实施例中，假设时间序列数据t_j对应的离散的词语序列为s＝{b₁，b₂，…，b_(h–l+1)}，时间序列数据集D被转换后的词语序列数据集D’＝{(s_j，c_k)}，其中，s_j表示第j个时间序列数据被转换后生成的词语序列，j∈{1～m},c_k表示该词语序列对应的时间序列数据所属的类别，k∈{1～d}，则从D’中提取出具有类别鉴别能力的词语的具体过程为：

步骤2.1、使用数据块消减策略对每个离散词语序列进行消减。具体来说，如果一个词语序列中连续出现同一个词语，则只保留该词语的第一个，后面的全部删除。例如，如果一个词语序列为s＝{aac aac abc abb abb abb abb bac baa...}则经过数据块消减后为s＝{aac abc abb bac baa...}。

步骤2.2、基于数据块消减后的词语序列，分别使用以下公式(1)和公式(2)分别计算每个词语对应于每个类别的CHI值X²(b_f,c_k)及其加权平均值

其中，A是属于类别c_k的词语序列中出现词语b_f的数量，B是不属于类别c_k的词语序列中出现词语b_f的数量，C是属于类别c_k的词语序列中没有出现词语b_f的数量，D是不属于类别c_k的词语序列中没有出现词语b_f的数量，m是词语序列数据集D’中的词语序列总数，也即时间序列数据集中的时间序列数据总数，P(c_k)是一个词语序列属于类别c_k的先验概率，公式2中的

是指每个词语针对所有类别的P(c_k)X²(b_f,c_k)的累加。

步骤2.3、将词语序列中所有词语按照其加权平均CHI值进行从大到小排序，依据设定的百分比例阈值α％确定具有鉴别能力的鉴别性词语，即将前α％加权平均CHI值较大的词语作为具有鉴别能力的鉴别性词语。

步骤3：构建鉴别性词语的共现图

本步骤的目的是根据词语序列数据集D’构建一个表示鉴别性词语共现的鉴别性词语共现图。鉴别性词语共现图中的一个节点表示一个鉴别性词语，两个节点之间的连线表示两个鉴别性词语存在共现，连线的箭头表示共现的方向，连线的权重表示共现的概率。附图3是运用三个词语序列构建鉴别性词语共现图的过程。这一步是本发明的第一个关键点，构建鉴别性词语的共现图实质是对鉴别性词语之间的关联进行建模，为在时间序列的表示学习过程中注入这种关联信息奠定基础。

假设提取的鉴别性词语集为B＝{b₁，b₂，…，b_g}，存储鉴别性词语共现频次的矩阵为O_g×g，其元素o_uv表示鉴别性词语b_u后面紧跟着出现鉴别性词语b_v的次数，u∈{1～g}，v∈{1～g}，存储鉴别性词语共现概率的矩阵为P_g×g，其元素p_uv表示鉴别性词语b_u后面紧跟着出现鉴别性词语b_v的概率，则构建鉴别性词语的共现图实际就是计算P_g×g的过程，其计算方法如公式(3)所示：

其中，

是指各个词语序列对应的鉴别性词语b_u后面紧跟着出现b_v的次数的总和。

步骤4：计算每个鉴别性词语的低维表示向量

本步骤的目的是在鉴别性词语共现图的基础上，进一步计算出每个鉴别性词语的低维表示向量。这一步是本发明的第二个关键点，其实质是将所有鉴别性词语映射到同一个低维空间，在映射过程中还考虑了各鉴别性词语在共现图中的位置，即他们彼此的关联。本发明采用了图嵌入技术中的DeepWalk算法来实现这种映射。DeepWalk算法是一种将随机游走(random walk)和word2vec两种算法相结合的一种图嵌入算法。Word2vector算法有两种模型：Skip-Gram模型和CBOW模型。本发明采用了其中的Skip-Gram模型。根据随机游走算法和Skip-Gram模型的原理，利用DeepWalk算法计算每个鉴别性词语的低维表示向量时，其输入包括：鉴别性词语的共现图G(B,P)、以每个节点为开始的游走路径数量ε、每条路径的长度ρ、Skip-Gram模型中的窗口大小η、每个鉴别性词语的表示向量的维数μ，其输出则是所有鉴别性词语的低维表示向量的集合Φ∈

R^|B|×μ，其中|B|表示鉴别性词语的数量，R中的每一行就是一个鉴别性词语对应的低维表示向量。

步骤5：生成每个时间序列数据的表示向量

一个时间序列数据对应的词语序列通常包含多个鉴别性词语。得到每个鉴别性词语的低维表示向量后，就可以通过向量加法运算得到该时间序列数据的表示向量。例如，假设鉴别性词语b_u的低维表示向量为e_u＝(e_u1，e_u2，…，e_uμ)，如果一个时间序列数据对应的词语序列包含z个不同的鉴别性词语，每个鉴别性词语出现的次数分别为k₁，k₂，…，k_z，则该时间序列数据的低维表示向量

至此，一个高维的时间序列数据t就被转化为了一个低维的表示向量

低维表示向量

不仅维数更低，而且每个维度都代表原时间序列数据中的一个片段，表征了更高层的特征，具有更强的类别区分能力。因此，使用该低维向量对时间序列数据集进行分类、聚类都可以更高效、更准确。

下面通过实验验证本发明方法的优点：

一、数据说明

为了检验本发明的有效性，在此将其应用于时间序列数据分类实验。实验采用的时间序列数据集均为UCR时间序列分类数据集，UCR时间序列分类数据集是世界公认的时间序列数据集。实验采用的时间序列数据集包括5个二分类时间序列数据集和6个多分类时间序列数据集，分别为：DistalPhalanxOutlineCorrect、Strawberry、Ham、Earthquakes、WormsTwoClass和Worms、UWaveGestureLibraryAll、CricketX、WordSynonyms、Phoneme、Car。

二、基准方法说明

由于本发明属于基于词袋模型的表示方法，因此，实验中选取的基准方法也是几个著名的基于词袋模型的方法，具体包括：Lin等人提出的BOP(Bag of Patterns)方法和

等人提出的BOSS方法、WESEL方法。

Lin等人提出的BOP方法采用SAX对时间序列进行离散化，并将离散后得到的所有词语作为特征，在计算时间序列数据之间的相似性时采用的是欧式距离。在将其应用于时间序列分类时，采用的分类算法是1NN。

等人提出的BOSS方法采用SFA对时间序列进行离散化，也是将离散后的所有词语作为特征，在计算时间序列之间的相似性时采用的是其提出的改进欧式距离。在将其应用于时间序列分类时，采用的分类算法也是1NN。

等人提出的WESEL方法也是采用SFA对时间序列进行离散化，但不是将离散后的所有词语作为特征，而是运用了一系列策略来提取具有类别区分能力的离散符号作为特征，在计算时间序列之间的相似性时也采用的是欧式距离。在对时间序列分类时，采用的分类算法是逻辑回归。

三、实验设置说明

实验中共涉及5个超参数，分别为：

1、时间序列离散化时设定的等概率区域数，也即字母数量r；

2、时间序列离散化时设定的等分片段长度s，它决定了等分片段数量h；

3、时间序列离散化时设定的滑动窗口大小l；

4、提取鉴别性词语时的百分比例阈值α％；

5、鉴别性词语的表示向量的维数μ。

BOP算法、BOSS算法和WESEL算法只需考虑前面3个超参数，本发明提出的时间序列表示学习方法则需要考虑以上5个超参数。

根据已有研究的结果，在实验中字母个数r被直接设定为4。其余的参数的最优值通过网格搜索的方法来搜寻。它们的搜索范围分别为：等分片段的长度s的搜索范围为[0.01L,0.1L]，步长为0.005L(其中L表示时间序列数据的长度)；滑动窗口的长度m的搜索范围为{3,4,5,6,7}；百分比例阈值α％的搜索范围为{0.1，0.7}，步长为0.1；鉴别性词语的表示向量的维数μ的搜索范围为{32，64，128，256}。

四、算法性能比较的结果

使用总的分类准确率(Accuracy)作为测评指标，实验结果如下表1、表2所示：

表1：二分类数据集上的对比实验结果

表2：多分类数据集上的对比实验结果

在表1和表2中，BOP+GE、BOSS+GE、WEASEL+GE是本发明的三种具体的衍生方法，这三种方法都是在原方法的基础上融入了图嵌入技术。具体来说，BOP+GE方法是先使用BOP算法将一个时间序列数据转化为一个离散的词语序列，然后使用图嵌入技术构建词语共现图并计算出每个词语的低维表示向量，最后将离散的词语序列转化为一个低维的表示向量；BOSS+GE方法是先用BOSS算法将一个时间序列数据转化为一个离散的词语序列，然后使用图嵌入技术计算每个词语的低维表示向量，最后将离散的词语序列转化为一个低维的表示向量；WESEL+GE方法是先使用WESEL算法将一个时间序列数据转化为一个离散的词语序列，然后使用图嵌入技术得到每个词语的低维表示向量，进而得到离散词语序列的低维表示向量。在分类时，这三种方法都是采用欧式距离计算时间序列之间的相似度，使用逻辑回归作为分类算法。从实验结果可以看出，在11个数据集上，这三种方法的准确率都优于对应的原方法。除了在分类准确性上更好，从理论上讲本发明提出的方法使用一个维度更低的向量来表征每个时间序列，也会提高分类的效率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。