CN112712117A

CN112712117A - 一种基于全卷积注意力的多元时间序列分类方法及系统

Info

Publication number: CN112712117A
Application number: CN202011601945.0A
Authority: CN
Inventors: 金佳佳; 韩潇; 丁锴; 王开红; 李建元; 陈涛
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-27
Anticipated expiration: 2040-12-30
Also published as: CN112712117B

Abstract

本发明涉及一种基于全卷积注意力的多元时间序列分类方法及系统，本发明利用图像领域中全卷积的设计思路，使用2D卷积滤波器捕获多元时间序列局部变量特征以学习相邻变量之间的联动关系，同时使用2D卷积滤波器捕获多元时间序列局部时间特征以学习相邻时间之间的趋势信息，减弱突变信息对结果的影响；采用卷积加自注意力模型，多核卷积获取多种局部特征，自注意力模型计算多种局部特征和非局部特征的权重，提供了不同的视角去审视多元时间序列数据；采用注意力模型分别融合对应视角的变量和时间特征，同时学习到变量的全局依赖关系以及时间的全局依赖关系；采用权重矩阵方法融合多视角的特征，学习更全面更准确的时间变量交互特征。

Description

一种基于全卷积注意力的多元时间序列分类方法及系统

技术领域

本发明涉及一种分装盒，尤其涉及一种基于全卷积注意力的多元时间序列分类方法及系统。

背景技术

时间序列是按照时间排序的一组随机变量，它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势，而时间序列分类方法的核心就是从数据中挖掘出这种规律，并利用其对将来的数据做出类别预测。现实生活中，在一系列时间点上观测数据是司空见惯的活动，在农业、商业、气象、军事和医疗等研究领域都包含大量的时间序列数据。总之，目前时间序列数据正以不可预测的速度几乎产生于现实生活中的每一个应用领域。

多元时间序列数据分析是指对多变量时间序列的研究，实际中很多序列的变化规律都会受到其他序列的影响。例如，在工程上要研究电流与电压同时随时间变化的情况；在化学变化中要分析压力、温度和体积的变化关系；在气象预报分析时需要同时考虑该地区的雨量、气温和气压等记录资料。不仅要把他们各分量看做单变量过程来研究，而且要研究各分量之间的关系及变化规律，从而对时间序列做出预报和控制。多元时间序列数据的特点使多元时间序列分类存在以下两个难点：1、多元时间序列中的多元存在较强的局部关联性，同时也存在全局关联性，需要学习到多元之间局部与全局的信息；2、多元时间序列中的时间存在局部趋势性与全局趋势性，局部趋势信息可以减弱数据的突变对预测结果的影响维度，全局趋势信息结合局部趋势信息可以更准确的进行预测。

随着时间序列分类的应用不断扩大，一些研究人员针对时间序列分类技术做了大量探索和实践。专利申请号CN 202010638794.X提出了一种用于异常金融账号检测的金融时间序列分类方法及应用，通过自注意力可以同时提取到金融时间序列的全局序列模式，提高了分类准确率。专利申请号CN 201910136093.3提出了一种基于多头自注意力机制的卷积回声状态网络时序分类方法，通过多头自注意力机制对回声状态网络时序编码，再由一个浅层的卷积神经网络进行解码以实现高效分类。以上针对的是时间序列分类技术研究，针对多元时间序列分类技术的研究较少，时间序列分类技术无法解决多变量之间的依赖关系。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于全卷积注意力的多元时间序列分类方法及系统，本发明包括利用全卷积神经网络提取多变量的局部依赖关系；利用全卷积神经网络提取时间序列的局部依赖关系；利用多核卷积输出多种局部特征；利用自注意力模型计算不同视角的权重；利用注意力模型融合各视角的时间变量特征；利用权重矩阵融合多视角特征；以及多元时间序列分类模型训练。本发明可减弱突变信息对结果的影响；同时提供了不同的视角去审视多元时间序列数据；本发明还可以学习更全面更准确的时间变量交互特征。

本发明是通过以下技术方案达到上述目的：一种基于全卷积注意力的多元时间序列分类方法，包括如下步骤：

(1)对多元时间序列数据预处理，利用全卷积神经网络分别提取局部与非局部变量特征、局部与非局部时间特征，得到不同视角特征；

(2)利用自注意力模型分别计算变量不同视角的自注意力权重和时间不同视角的自注意力权重，分别得到变量不同视角的自注意力向量和时间不同视角的自注意力向量；

(3)利用注意力模型分别融合各视角的时间特征和变量特征，计算得到不同视角融合时间信息的变量向量和不同视角融合变量信息的时间向量；

(4)利用权重矩阵分别计算融合多视角的变量向量和融合多视角的时间向量，得到融合多视角的时间变量向量；

(5)基于得到的融合多视角的时间变量向量，训练得到多元时间序列分类模型，利用该模型实现多元时间序列分类。

作为优选，所述步骤(1)具体如下：

(1.1)将收集的多元时间序列数据预处理为多元时间序列向量X∈R^N×V×M，其对应的标签为Y∈R^N，其中N为收集数据的总数，V为收集数据的变量数，M为收集数据的时间步；一个多元时间序列实例为

其中

表示第V个变量在第M时间步的值；

(1.2)根据步骤(1.1)输出的多元时间序列向量X，将任意一个多元时间序列实例x∈R^V×M输入到变量2D卷积层中，利用滤波器对某时间相邻变量做卷积计算，则滤波器大小为h_V×1，其中h_V为卷积核窗口中的变量数，即学习h_V个相邻变量信息，则卷积操作后输出特征

为：

其中b_V∈R为偏差项，

为卷积核的权重矩阵，f是卷积核函数，

为多元时间序列向量在时间维度第j维以及变量维度第i维到第i+h_V-1维的二维向量；在卷积过程中允许卷积核超出原始向量边界，并使得卷积后结果的大小与原来的一致，该滤波器应用于一个多元时间序列实例得到局部变量特征v_T为：

(1.3)输出多种局部变量特征：根据步骤(1.2)的变量2D卷积计算过程，初始化C个滤波器应用于一个多元时间序列实例，得到多种局部变量特征T_V为：

T_V＝[v_T₁,v_T₂,Λ,v_T_C]∈R^V×M×C

(1.4)基于步骤(1.3)输出的多种局部变量特征和步骤(1.1)输出的多元时间序列实例，采用增加卷积通道的方式得到局部与非局部变量特征T_V'：

T_V'＝[T_V,x]∈R^V×M×(C+1)。

(1.5)根据步骤(1.1)输出的多元时间序列向量X，将任意一个多元时间序列实例x∈R^V×M输入到时间2D卷积层中，利用滤波器对某变量相邻时间做卷积计算，则滤波器大小为1×h_M，其中h_M为卷积核窗口中的时间数，即学习变量在h_M个相邻时间趋势变化信息，减弱突变信息对结果的干扰，则卷积操作后输出特征

为：

其中b_M∈R为偏差项，

为卷积核的权重矩阵，f是卷积核函数，

为多元时间序列向量在变量维度第i维以及时间维度第j维到第j+h_M-1维的二维向量；卷积过程中允许卷积核超出原始向量边界，并使得卷积后结果的大小与原来的一致，该滤波器应用于一个多元时间序列实例得到特征m_T为：

(1.6)根据步骤(1.6)的时间2D卷积计算过程，初始化C个滤波器应用于一个多元时间序列实例，得到多种局部时间特征T_M为：

T_M＝[m_T₁,m_T₂,Λ,m_T_C]∈R^V×M×C

(1.7)基于步骤(1.6)输出的多种局部时间特征和步骤(1.1)输出的多元时间序列实例，采用增加卷积通道的方式得到局部与非局部时间特征T'_M：

T'_M＝[T_M,x]∈R^V×M×(C+1)。

作为优选，所述步骤(2)步骤如下：

(2.1)根据步骤(1.4)输出的局部与非局部变量特征T′_V∈R^V×M×(C+1)，每个变量都有C+1个不同的视角；以第一个变量为例，输出第一个变量不同视角向量v_1∈R^(C+1)×M；

(2.2)根据步骤(2.1)输出的第一个变量的不同视角向量v_1∈R^(C+1)×M，初始化三个变量W^q∈R^M×M,W^k∈R^M×M,W^v∈R^M×M，分别与v_1进行点乘：

q＝v_1×W^q＝[q₁ q₂ Λ q_(C+1)]∈R^(C+1)×M

k＝v_1×W^k＝[k₁ k₂ Λ k_(C+1)]∈R^(C+1)×M

v＝v_1×W^v＝[v₁ v₂ Λ v_(C+1)]∈R^(C+1)×M

首先计算第一个变量第一个视角与其他视角的注意力，第一个得分

第二个得分

以此类推第(C+1)个得分

将

进行softmax使分数得到标准化；该softmax分数确定第一个变量的第一个视角在各个视角表达的程度；显然，标准化后的

将具有最高的softmax分数，即

为第一个变量第一个视角的自我关注度；以此类推计算第一个变量各个视角与其他视角的注意力，得到第一个变量每个视角的自注意力权重

(2.3)将步骤(2.2)输出的第一个变量每个视角的自我关注度

与步骤(2.1)输出的第一个变量不同视角向量v_1∈R^(C+1)×M相乘，得到第一个变量不同视角自注意力向量v_attention₁＝v_w₁×v_1∈R^(C+1)×M,同理计算得到局部与非局部变量特征T′_V∈R^V×M×(C+1)中每个变量在不同视角的自注意力权重，并输出变量不同视角自注意力向量T_V_attention∈R^V×M×(C+1)。

(2.4)根据步骤(1.7)输出的局部与非局部时间特征T'_M∈R^V×M×(C+1)，每个时间都有C+1个不同的视角；以第一个时间为例，输出第一个时间不同视角向量m_1∈R^(C+1)×V；

(2.5)根据步骤(2.4)输出的第一个时间不同视角向量m_1∈R^(C+1)×V，初始化三个变量W^q'∈R^V×V,W^k'∈R^V×V,W^v'∈R^V×V，分别与m_1进行点乘得到q',k',v'，依次计算第一个时间第一个视角与其他视角的注意力，并进行softmax标准化得到第一个时间第一个视角的自我关注度，以此类推计算第一个时间各个视角与其他视角的注意力，得到第一个时间不同视角的自注意力权重

(2.6)将步骤(2.5)输出的第一个时间每个视角的自我关注度

与步骤(2.4)输出的第一个时间不同视角向量m_1∈R^(C+1)×V相乘，得到第一个时间不同视角自注意力向量m_attention₁＝m_w₁×，m_1∈R^(C+1)×V,同理计算得到局部与非局部变量特征T'_M∈R^V×M×(C+1)中每个时间在不同视角的自注意力权重，并输出时间不同视角自注意力向量T_M_attention1∈R^V×M×(C+1)。

作为优选，所述步骤(3)具体如下：

(3.1)根据步骤(2.3)输出的变量不同视角自注意力向量T_V_attention∈R^V ^×M×(C+1)，得到第一个视角的变量向量为T_V_attention₁∈R^V×M；根据步骤(2.6)输出的时间不同视角自注意力向量T_M_attention1∈R^V×M(C+1)，得到第一个视角的变量时间向量为T_M_attention₁∈R^V×M；

(3.2)分别将步骤(3.1)输出的第一个视角的变量时间向量T_V_attention₁∈R^V×M和T_M-attention₁∈R^V×M进行点乘，输出第一个视角的变量注意力向量T_VM1和时间注意力向量T_MV1，公式如下：

T_VM1＝T_V_attention₁·[T_M_attention₁]^T∈R^V×V

T_MV1＝[T_V-attention_l]^T·T_M-attenti·on₁∈R^M×M

(3.3)将步骤(3.2)输出的第一个视角变量注意力向量T_VM1与步骤

(3.1)输出的第一个视角变量向量为T_V-attention₁∈R^V×M相乘输出第一个视角融合时间信息的变量向量T_V'_M1＝T_VM1×T_V_attention₁∈R^V×M；

(3.4)根据步骤(3.3)的计算过程，以此类推计算步骤(2.3)输出的变量不同视角自注意力向量T_V-attention∈R^V×M×(C+1)中每个视角融合时间信息的变量向量，输出不同视角融合时间信息的变量向量T′_VM∈R^V×M×(C+1)；

(3.5)将步骤(3.2)输出的第一个视角时间注意力向量T_MV1与步骤(3.1)输出的第一个视角时间向量为T_M-attention₁∈R^V×M相乘输出第一个视角融合变量信息的时间向量T'_MV1＝T_M_attention₁×T_MV1∈R^V×M；

(3.6)根据步骤(3.5)的计算过程，以此类推计算步骤(2.6)输出的时间不同视角自注意力向量T_M_attention∈R^V×M×(C+1)中每个视角融合变量信息的时间向量，输出不同视角融合变量信息的时间向量T'_MV∈R^V×M×(C+1)。

作为优选，所述步骤(4)具体如下：

(4.1)根据步骤(3.4)输出的不同视角融合时间信息的变量向量T_V'_M∈R^V×M×(C+1)，在变量维度上拼接各个视角的特征输出不同视角的变量向量T_VMC∈R^{(V×(C+1))×M}；

(4.2)初始化变量权重矩阵W_VC∈R^{V×((C+1)×V)}，将变量权重矩阵乘以步骤(4.1)输出的不同视角的变量向量T_VMC∈R^{(V×(C+1))×M}，以融合各个视角的变量特征的方式输出融合多视角的变量向量T′_VMC∈R^V×M；

(4.3)根据步骤(3.6)输出的不同视角融合变量信息的时间向量T'_MV∈R^V×M×(C+1)，在时间维度上拼接各个视角的特征输出不同视角的时间向量T_MVC∈R^{V×(M×(C+1))}；

(4.4)初始化时间权重矩阵W_MC∈R^{((C+1)×M)×M}，将步骤(4.3)输出的不同视角的时间向量T_MVC∈R^{V×(M×(C+1))}乘以时间权重矩阵，以融合各个视角的时间特征的方式输出融合多视角的时间向量T'_MVC∈R^V×M；

(4.5)基于步骤(4.2)输出的融合多视角的变量向量T′_VMC∈R^V×M与步骤(4.4)输出的融合多视角的时间向量T'_MVC∈R^V×M在时间维度上拼接输出时间变量向量T″_VM∈R^V×2M，初始化时间变量权重矩阵W_MVC∈R^2M×2M，将时间变量向量与时间变量权重矩阵相乘，以融合各个视角的时间变量特征输出融合多视角的时间变量向量T″_MVC∈R^V×2M。

作为优选，所述步骤(5)具体如下：

(5.1)将步骤(4.5)输出的融合多视角的时间变量向量T″_MVC∈R^V×2M输入到全连接层中，即对向量进行降维，输出向量P∈R^1×label，其中label为多元时间序列数据的类别数，公式如下：

P＝W_P×T″_MVC×W_L

其中W_P∈R^1×V,W_L∈R^2M×label；

(5.2)将步骤(5.1)输出的向量P进行softmax标准化，输出向量P'，softmax公式如下：

其中P_i表示向量P在维度i处的值，α_i表示P_i标准化后的值；

(5.3)将步骤(5.2)输出的标准化向量P'与数据标签对齐，计算其损失值；其中在训练过程中，基于交叉熵训练目标函数，通过梯度下降算法计算样本的误差，并以反馈传播的方式更新网络结构的超参数集合，最终预训练模型保存为model_p；

(5.4)加载步骤(5.3)输出的预训练模型model_p，将待预测的多元时间序列数据D∈R^V×M输入到模型中，预测其类别。

一种基于全卷积注意力的多元时间序列分类系统，包括多元时间序列预处理单元、多元时间序列特征提取单元和多元时间序列分类单元；

多元时间序列预处理单元，用于将多元时间序列数据预处理为多元时间序列向量；

多元时间序列特征提取单元，用于利用全卷积神经网络和注意力模型提取并融合多元时间序列向量的多视角特征，得到融合多视角的时间变量向量；具体包括全卷积神经网络模块、变量注意力模块、时间注意力模块、权重矩阵模块；

所述的全卷积神经网络模块用于提取局部与非局部变量特征、局部与非局部时间特征，得到不同视角特征；全卷积神经网络模块还用于训练得到多元时间序列分类模型；

所述的变量注意力模块用于计算变量不同视角的自注意力权重，得到变量不同视角的自注意力向量；并融合各视角的时间特征，计算得到不同视角融合时间信息的变量向量；

所述的时间注意力模块用于计算时间不同视角的自注意力权重，得到时间不同视角的自注意力向量；并融合各视角的变量特征，计算得到不同视角融合变量信息的时间向量；

所述的权重矩阵模块用于计算融合多视角的变量向量和融合多视角的时间向量，得到融合多视角的时间变量向量。

多元时间序列分类单元，用于预测多元时间序列的类别。

本发明的有益效果在于：(1)本发明利用图像领域中全卷积的设计思路，使用2D卷积滤波器捕获多元时间序列局部变量特征以学习相邻变量之间的联动关系，同时使用2D卷积滤波器捕获多元时间序列局部时间特征以学习相邻时间之间的趋势信息，减弱突变信息对结果的影响；(2)本发明采用卷积加自注意力模型，多核卷积获取多种局部特征，自注意力模型计算多种局部特征和非局部特征的权重，提供了不同的视角去审视多元时间序列数据；(3)本发明采用注意力模型分别融合对应视角的变量和时间特征，同时学习到变量的全局依赖关系以及时间的全局依赖关系；采用权重矩阵方法融合多视角的特征，学习更全面更准确的时间变量交互特征。

附图说明

图1是本发明的算法结构示意图；

图2是本发明的方法流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于全卷积注意力的多元时间序列分类系统包括多元时间序列预处理单元、多元时间序列特征提取单元和多元时间序列分类单元。

多元时间序列预处理单元，用于将多元时间序列数据预处理为多元时间序列向量。

多元时间序列特征提取单元，用于利用全卷积神经网络和注意力模型提取并融合多元时间序列向量的多视角特征，得到融合多视角的时间变量向量；具体包括：全卷积神经网络模块、变量注意力模块、时间注意力模块、权重矩阵模块；

多元时间序列分类单元，用于预测多元时间序列的类别。

如图2所示，一种基于全卷积注意力的多元时间序列分类方法，具体包括如下步骤：

(1)利用全卷积神经网络提取不同视角特征：

(1.1)多元时间序列数据预处理：本实施例收集的多元时间序列数据为开源的Auslan(澳大利亚手语)样本，其包含N＝2565个样本，V＝22个变量数，M＝57个时间步，整理为多元时间序列向量X∈R^2565×22×57，对应的标签为Y∈R²⁵⁶⁵。一个多元时间序列实例为

其中

表示第22个变量在第57时间步的值。

(1.2)变量2D卷积层：根据步骤1.1输出的多元时间序列向量X，以一个多元时间序列实例x∈R^22×57为例，输入到变量2D卷积层中，利用滤波器对某时间相邻变量做卷积计算，本实施例通过测试h_V＝3时效果最好，则滤波器大小为3×1，其中h_V为卷积核窗口中的变量数，即学习h_V＝3个相邻变量信息，则卷积操作后输出特征

为：

其中b_V∈R为偏差项，W_V∈R^3×1为卷积核的权重矩阵，f是卷积核函数，

为多元时间序列向量在时间维度第j维以及变量维度第i维到第i+2维的二维向量；卷积过程中允许卷积核超出原始向量边界，并使得卷积后结果的大小与原来的一致，该滤波器应用于一个多元时间序列实例得到局部变量特征v_T为：

(1.3)输出多种局部变量特征：根据步骤1.2的变量2D卷积计算过程，本实施例初始化C＝64个滤波器应用于一个多元时间序列实例，得到多种局部变量特征T_V为：

T_V＝[v_T₁,v_T₂,Λ,v_T₆₄]∈R^22×57×64

(1.4)输出局部与非局部变量特征：为了防止原信息非局部特征丢失，故采用增加卷积通道的形式在步骤1.3输出的多种局部变量特征加上步骤1.1输出的多元时间序列实例，得到局部与非局部变量特征T′_V：

T′_V＝[T_V,x]∈R^22×57×65

(1.5)时间2D卷积层：根据步骤1.1输出的多元时间序列向量X，以一个多元时间序列实例x∈R^22×57为例，输入到时间2D卷积层中，利用滤波器对某变量相邻时间做卷积计算，本实施例通过测试h_M＝3时效果最佳，则滤波器大小为1×3，其中h_M为卷积核窗口中的时间数，即学习变量在3个相邻时间趋势变化信息，减弱突变信息对结果的干扰，则卷积操作后输出特征

为：

其中b_M∈R为偏差项，W_M∈R^1×3为卷积核的权重矩阵，f是卷积核函数，

为多元时间序列向量在变量维度第i维以及时间维度第j维到第j+2维的二维向量；卷积过程中允许卷积核超出原始向量边界，并使得卷积后结果的大小与原来的一致，该滤波器应用于一个多元时间序列实例得到特征m_T为：

(1.6)输出多种局部时间特征：根据步骤1.5的时间2D卷积计算过程，初始化C＝64个滤波器应用于一个多元时间序列实例，得到多种局部时间特征T_M为：

T_M＝[m_T₁,m_T₂,Λ,m_T₆₄]∈R^22×57×64

(1.7)输出局部与非局部时间特征：为了防止原信息非局部特征丢失，故采用增加卷积通道的形式在步骤1.6输出的多种局部时间特征处加上步骤1.1输出的多元时间序列实例，得到局部与非局部时间特征T'_M：

T'_M＝[T_M,x]∈R^22×57×65

(2)利用自注意力模型计算不同视角的权重：

(2.1)输出第一个变量不同视角向量：根据步骤1.4输出的局部与非局部变量特征T′_V，每个变量都有65个不同的视角；以第一个变量为例，存在不同视角的第一个变量向量v_1∈R^65×57。

(2.2)计算第一个变量不同视角的自注意力权重：根据步骤2.1输出的第一个变量不同视角向量v_1，初始化三个变量W^q∈R^57×57,W^k∈R^57×57,W^v∈R^57×57，分别与v_1进行点乘：

q＝v_1×W^q＝[q₁ q₂ Λ q₆₅]∈R^65×57

k＝v_1×W^k＝[k₁ k₂ Λ k₆₅]∈R^65×57

v＝v_1×W^v＝[v₁ v₂ Λ v₆₅]∈R^65×57

第二个得分

以此类推第(C+1)个得分

将

将具有最高的softmax分数，即

(2.3)将步骤(2.2)输出的第一个变量每个视角的自我关注度

(2.6)将步骤(2.5)输出的第一个时间每个视角的自我关注度

与步骤(2.4)输出的第一个时间不同视角向量m_1∈R^(C+1)×V相乘，得到第一个时间不同视角自注意力向量m_attention₁＝m_w₁×，m_1∈R^(C+1)×V,同理计算得到局部与非局部变量特征T'_M∈R^V×M×(C+1)中每个时间在不同视角的自注意力权重，并输出时间不同视角自注意力向量T_M_attention∈R^V×M×(C+1)。

(3)利用注意力模型融合各视角的时间特征、变量特征：

(3.1)根据步骤(2.3)输出的变量不同视角自注意力向量T_V_attention∈R^V ^×M×(C+1)，得到第一个视角的变量向量为T_V_attention₁∈R^V×M；根据步骤(2.6)输出的时间不同视角自注意力向量T_M_attention∈R^V×M×(C+1)，得到第一个视角的变量时间向量为T_M_attention₁∈R^V×M；

(3.2)分别将步骤(3.1)输出的第一个视角的变量时间向量T_V_attention₁∈R^V×M和T_M_attention₁∈R^V×M进行点乘，输出第一个视角的变量注意力向量T_VM1和时间注意力向量T_MV1，公式如下：

T_VM1＝T_V_attention₁·[T_M_attention₁]^T∈R^V×V

T_MVl＝[T_V-attention₁]^T·T_M-attention₁∈R^M×M

(3.3)将步骤(3.2)输出的第一个视角变量注意力向量T_VM1与步骤(3.1)输出的第一个视角变量向量为T_V_attention₁∈R^V×M相乘输出第一个视角融合时间信息的变量向量T′_VM1＝T_VM1×T_V_attention₁∈R^V×M；

(4)利用权重矩阵融合多视角特征：

(4.1)输出不同视角的变量向量：根据步骤3.4输出的不同视角融合时间信息的变量向量T′_VM，在变量维度上拼接各个视角的特征输出不同视角的变量向量T_VMC∈R^(22×65)×57。

(4.2)输出融合多视角的变量向量:初始化变量权重矩阵W_VC∈R^22×(65×22)，将变量权重矩阵乘以步骤4.1输出的不同视角的变量向量T_VMC∈R^(22×65)×57，以融合各个视角的变量特征输出融合多视角的变量向量T′_VMC∈R^22×57。

(4.3)输出不同视角的时间向量：根据步骤3.6输出的不同视角融合变量信息的时间向量T′_MV，在时间维度上拼接各个视角的特征输出不同视角的时间向量T_MVC∈R^22×(57×65)。

(4.4)输出融合多视角的时间向量:初始化时间权重矩阵W_MC∈R^(65×57)×57，将步骤4.3输出的不同视角的时间向量T_MVC∈R^22×(57×65)乘以时间权重矩阵，以融合各个视角的时间特征输出融合多视角的时间向量T'_MVC∈R^22×57。

(4.5)输出融合多视角的时间变量向量:将步骤4.2输出的融合多视角的变量向量T′_VMC与步骤4.4输出的融合多视角的时间向量T'_MVC在时间维度上拼接输出时间变量向量T″_VM∈R^22×114，初始化时间变量权重矩阵W_MVC∈R^114×114，将时间变量向量乘以时间变量权重矩阵，以融合各个视角的时间变量特征输出融合多视角的时间变量向量T”_MVC∈R^22×114。

(5)多元时间序列分类模型训练：

(5.1)全连接层：将步骤4.5输出的融合多视角的时间变量向量T″_MVC输入到全连接层中，即对向量进行降维，输出向量P∈R^1×95，其中label＝95为多元时间序列数据的类别数，公式如下：

P＝W_P×T″_MVC×W_L

其中W_P∈R^1×22,W_L∈R^114×95。

(5.2)softmax层：将步骤5.1输出的向量P进行softmax标准化，输出向量P'，softmax公式如下：

其中P_i表示向量P在维度i处的值，α_i表示P_i标准化后的值。

(5.3)损失更新优化:将步骤5.2输出的标准化向量P'与数据标签对齐，计算其损失值。在训练过程中，基于交叉熵训练目标函数，通过梯度下降算法计算样本的误差，并以反馈传播的方式更新网络结构的超参数集合，最终预训练模型保存为model_p。

(5.4)模型预测:加载步骤5.3输出的预训练模型model_p，将待预测的多元时间序列数据D∈R^22×57输入到模型中并预测其类别。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于全卷积注意力的多元时间序列分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(1)具体如下：

其中

表示第V个变量在第M时间步的值；

(1.2)根据步骤(1.1)输出的多元时间序列向量X，将任意一个多元时间序列实例x∈R^V ^×M输入到变量2D卷积层中，利用滤波器对某时间相邻变量做卷积计算，则滤波器大小为h_V×1，其中h_V为卷积核窗口中的变量数，即学习h_V个相邻变量信息，则卷积操作后输出特征

为：

其中b_V∈R为偏差项，

为卷积核的权重矩阵，f是卷积核函数，

T_V＝[v_T₁,v_T₂,Λ,v_T_C]∈R^V×M×C

(1.4)基于步骤(1.3)输出的多种局部变量特征和步骤(1.1)输出的多元时间序列实例，采用增加卷积通道的方式得到局部与非局部变量特征T′_V：

T′_V＝[T_V,x]∈R^V×M×(C+1)。

3.根据权利要求2所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(1)还包括如下步骤：

(1.5)根据步骤(1.1)输出的多元时间序列向量X，将任意一个多元时间序列实例x∈R^V ^×M输入到时间2D卷积层中，利用滤波器对某变量相邻时间做卷积计算，则滤波器大小为1×h_M，其中h_M为卷积核窗口中的时间数，即学习变量在h_M个相邻时间趋势变化信息，减弱突变信息对结果的干扰，则卷积操作后输出特征

为：

其中b_M∈R为偏差项，

为卷积核的权重矩阵，f是卷积核函数，

T_M＝[m_T₁,m_T₂,Λ,m_T_C]∈R^V×M×C

(1.7)基于步骤(1.6)输出的多种局部时间特征和步骤(1.1)输出的多元时间序列实例，采用增加卷积通道的方式得到局部与非局部时间特征T′_M：

T′_M＝[T_M,x]∈R^V×M×(C+1)。

4.根据权利要求1所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(2)步骤如下：

q＝v_1×W^q＝[q₁ q₂ Λ q_(C+1)]∈R^(C+1)×M

k＝v_1×W^k＝[k₁ k₂ Λ k_(C+1)]∈R^(C+1)×M

v＝v_1×W^v＝[v₁ v₂ Λ v_(C+1)]∈R^(C+1)×M

第二个得分

以此类推第(C+1)个得分

将

将具有最高的softmax分数，即

(2.3)将步骤(2.2)输出的第一个变量每个视角的自我关注度

5.根据权利要求4所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(2)还包括如下步骤：

(2.4)根据步骤(1.7)输出的局部与非局部时间特征T′_M∈R^V×M×(C+1)，每个时间都有C+1个不同的视角；以第一个时间为例，输出第一个时间不同视角向量m_1∈R^(C+1)×V；

(2.6)将步骤(2.5)输出的第一个时间每个视角的自我关注度

与步骤(2.4)输出的第一个时间不同视角向量m_1∈R^(C+1)×V相乘，得到第一个时间不同视角自注意力向量m_attention₁＝m_w₁×，m_1∈R^(C+1)×V,同理计算得到局部与非局部变量特征T′_M∈R^V×M×(C+1)中每个时间在不同视角的自注意力权重，并输出时间不同视角自注意力向量T_M_attention∈R^V×M×(C+1)。

6.根据权利要求1所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(3)具体如下：

(3.1)根据步骤(2.3)输出的变量不同视角自注意力向量T_V_attention∈R^V×M×(C+1)，得到第一个视角的变量向量为T_V_attention₁∈R^V×M；根据步骤(2.6)输出的时间不同视角自注意力向量T_M_attention∈R^V×M×(C+1)，得到第一个视角的变量时间向量为T_M_attention₁∈R^V×M；

T_VM1＝T_V_attention₁·[T_M_attention₁]^T∈R^V×V

T_MV1＝[T_V_attention₁]^T·T_M_attention₁∈R^M×M

(3.4)根据步骤(3.3)的计算过程，以此类推计算步骤(2.3)输出的变量不同视角自注意力向量T_V_attention∈R^V×M×(C+1)中每个视角融合时间信息的变量向量，输出不同视角融合时间信息的变量向量T′_VM∈R^V×M×(C+1)；

(3.5)将步骤(3.2)输出的第一个视角时间注意力向量T_MV1与步骤(3.1)输出的第一个视角时间向量为T_M_attention₁∈R^V×M相乘输出第一个视角融合变量信息的时间向量T'_MV1＝T_M_attention₁×T_MV1∈R^V×M；

7.根据权利要求1所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(4)具体如下：

(4.1)根据步骤(3.4)输出的不同视角融合时间信息的变量向量T′_VM∈R^V×M×(C+1)，在变量维度上拼接各个视角的特征输出不同视角的变量向量T_VMC∈R^{(V×(C+1))×M}；

(4.3)根据步骤(3.6)输出的不同视角融合变量信息的时间向量T′_MV∈R^V×M×(C+1)，在时间维度上拼接各个视角的特征输出不同视角的时间向量T_MVC∈R^{V×(M×(C+1))}；

(4.4)初始化时间权重矩阵W_MC∈R^{((C+1)×M)×M}，将步骤(4.3)输出的不同视角的时间向量T_MVC∈R^{V×(M×(C+1))}乘以时间权重矩阵，以融合各个视角的时间特征的方式输出融合多视角的时间向量T′_MVC∈R^V×M；

(4.5)基于步骤(4.2)输出的融合多视角的变量向量T′_VMC∈R^V×M与步骤(4.4)输出的融合多视角的时间向量T′_MVC∈R^V×M在时间维度上拼接输出时间变量向量T″_VM∈R^V×2M，初始化时间变量权重矩阵W_MVC∈R^2M×2M，将时间变量向量与时间变量权重矩阵相乘，以融合各个视角的时间变量特征输出融合多视角的时间变量向量T″_MVC∈R^V×2M。

8.根据权利要求1所述的一种基于全卷积注意力的多元时间序列分类方法，其特征在于：所述步骤(5)具体如下：

P＝W_P×T″_MVC×W_L

其中W_P∈R^1×V,W_L∈R^2M×label；

其中P_i表示向量P在维度i处的值，α_i表示P_i标准化后的值；

9.一种基于全卷积注意力的多元时间序列分类系统，其特征在于，包括多元时间序列预处理单元、多元时间序列特征提取单元和多元时间序列分类单元；

所述多元时间序列预处理单元，用于将多元时间序列数据预处理为多元时间序列向量；

所述多元时间序列特征提取单元，用于利用全卷积神经网络和注意力模型提取并融合多元时间序列向量的多视角特征，得到融合多视角的时间变量向量；

所述多元时间序列分类单元，用于预测多元时间序列的类别。

10.根据权利要求9所述的一种基于全卷积注意力的多元时间序列分类系统，其特征在于，所述多元时间序列特征提取单元包括全卷积神经网络模块、变量注意力模块、时间注意力模块、权重矩阵模块；

所述的全卷积神经网络模块用于提取局部与非局部变量特征、局部与非局部时间特征，得到不同视角特征；