CN110766060A

CN110766060A - 基于深度学习的时间序列相似度的计算方法、系统及介质

Info

Publication number: CN110766060A
Application number: CN201910973921.9A
Authority: CN
Inventors: 汤琪; 卢宇彤; 陈志广; 肖侬
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-02-07
Anticipated expiration: 2039-10-14
Also published as: CN110766060B

Abstract

本发明公开了一种基于深度学习的时间序列相似度的计算方法、系统及介质，本发明基于深度学习的时间序列相似度的计算方法实施步骤包括：1)获取两个等长时间段的时间序列数据；2)将两个等长时间段的时间序列数据输入预先完成训练的基于深度学习的神经网络模型，得到两个等长时间段的时间序列数据之间的相似度。本发明综合了各种传统度量方法的优点，在时间序列相似度度量问题上比各个传统度量方法效果都好，可根据不同的需求以及不同的数据集，还可以去用同样的方法学习出适用于不同领域的数据相似度的度量方法，且针对不同问题不用再去考虑数据的内在特征而选择相似度计算方法。

Description

基于深度学习的时间序列相似度的计算方法、系统及介质

技术领域

本发明涉及深度学习预测时间序列相似度检测技术，具体涉及一种基于深度学习的时间序列相似度的计算方法、系统及介质。

背景技术

随着科技的不断发展和进步，大数据技术已渗透到人们生活和工作之中，而时间序列则是记录数据的一种形式：按时间顺序获得的一系列观测值。随着人类跃入大数据时代，时间序列的数据量也在与日俱增，其存在于社会生活的各个方面，如金融收益、气象研究、网络安全等。利用时间序列可以分析历史数据，并预测将来一段时间的可能数据，分析可能出现的趋势。

时间序列数据挖掘过程中，需要计算输入样本之间的相似度，从而更好的分析不同时间序列之间的差异，而且众多机器学习算法中，选择一个合适的度量方法来评估数据之间的相似度对该算法有着非常关键的影响。对于大量的时间序列数据而言，在进行分类、聚类、回归等工作之前，如果可以先对样本的时间序列相似性进行度量，舍弃一些相似度偏低的序列数据，并对相似度高序列进行相应归一化处理，能大大提高之后的数据挖掘的精度和效率。

而选择一个最适合的相似性度量方法是上述问题的基础，是进行技术分析的关键所在。传统的相似性度量方式有：欧氏距离(Euclidean Distance)，曼哈顿距离(ManhattanDistance)，切比雪夫距离(Chebyshev Distance)，马氏距离(Mahalanobis Distance)，余弦相似度，皮尔逊相关系数(Pearson Correlation Coefficient)，杰卡德相似系数(Jaccard Similarity Coefficient)，DTW距离(Dynamic Time Warp)，Piccolo距离，基于自相关系数的距离(Autocorrelation-based distance)，基于周期图表的距离(Periodogram-based distance)等。传统的相似度的计算方法都各有弊端，如果有一种更加符合当前时间序列的特点的相似度计算方法，那么自然能大大提高序列数据分类和预测的精度。一种行之有效的新的相似度度量方法急需被提出。

深度学习是一个更加复杂的机器学习算法，它在搜索技术、数据挖掘、机器翻译、自然语言处理、语音以及其他相关领域都取得了很多成果，使得人工智能相关技术取得了很大进步。深度学习通过构建含有多隐层的机器学习架构模型，通过大规模数据进行训练，得到大量更具代表性的特征信息，从而对样本进行分类和预测，挺高分类和预测的精度。当今时代人们使用网络的越来越多，大量数据产生，通过深度学习对数据做回归可以学习出一种更加贴合数据分布的相似度度量方法。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于深度学习的时间序列相似度的计算方法、系统及介质，本发明综合了各种传统度量方法的优点，在时间序列相似度度量问题上比各个传统度量方法效果都好，可根据不同的需求以及不同的数据集，还可以去用同样的方法学习出适用于不同领域的数据相似度的度量方法，且针对不同问题不用再去考虑数据的内在特征而选择相似度计算方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于深度学习的时间序列相似度的计算方法，其特征在于，实施步骤包括：

1)获取两个等长时间段的时间序列数据；

2)将两个等长时间段的时间序列数据输入预先完成训练的基于深度学习的神经网络模型，得到两个等长时间段的时间序列数据之间的相似度。

可选地，步骤2)之前还包括训练基于深度学习的神经网络模型的步骤，详细步骤包括：

S1)获取训练数据并进行预处理获取相似度特征值；

S2)为训练数据打上相似度标签，所述相似度标签包括相似和不相似两种；

S3)根据打上相似度标签的训练数据完成对基于深度学习的神经网络模型的训练。

可选地，步骤S1)的详细步骤包括：

S1.1)获取指定时间粒度的时间序列数据；

S1.2)针对所有的时间序列数据进行分段线性表示，逐个计算每一个时间点的变化量△m_i并确定该时间点的变化状态值M_i，计算每个时间点的振幅A_i，计算每个时间点的时间段的占整个时间序列长度的权重tw_i；根据每一个时间点的变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者综合计算该时间点的特征值。

可选地，步骤S1.3)中变化状态值M_i为M＝{-3，-2，-1，0，1，2，3}且对应加速下降、减速下降、下降、不变、上升、减速上升和加速上升，确定该时间点的变化状态值M_i的详细步骤包括：

S1.2.1)判断该时间点的变化量△m_i为0是否成立，如果成立则该时间点的变化状态值M_i为0；否则，跳转执行下一步；

S1.2.2)判断该时间点的变化量△m_i和下一个时间点的变化量△m_i+1之间的乘积△m_i*△m_i+1小于0是否成立，如果成立则跳转执行步骤S1.3.3)；否则跳转执行步骤S1.3.4)；

S1.2.3)判断该时间点的变化量△m_i小于0是否成立，如果成立则该时间点的变化状态值M_i为-1；否则，该时间点的变化状态值M_i为1；结束并返回；

S1.2.4)计算下一个时间点的变化量△m_i+1、该时间点的变化量△m_i之间的差值△k_i；如果该时间点的变化量△m_i、差值△k_i均小于0，则该时间点的变化状态值M_i为-3；如果该时间点的变化量△m_i、差值△k_i均大于或等于0，则该时间点的变化状态值M_i为3；如果该时间点的变化量△m_i小于0、差值△k_i大于或等于0，则该时间点的变化状态值M_i为-2；如果该时间点的变化量△m_i大于或等于0、差值△k_i小于0，则该时间点的变化状态值M_i为2。

可选地，步骤S1.2)中根据每一个时间点的变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者综合计算该时间点的特征值具体是指将变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者相乘，并将相乘得到的结果作为该时间点的特征值。

可选地，步骤S2)的详细步骤包括：

S2.1)选取随机的多组两个等长时间段的时间序列数据作为不相似数据，选取多组两个等长时间段的时间序列数据作为相似数据；

S2.2)针对不相似数据的两个等长时间段的时间序列数据，分别按照指定的多种相似度系数计算方法计算出相似度值，并选择值最小的相似度值作为对应的相似度值标签；针对相似数据的两个等长时间段的时间序列数据，分别按照指定的多种相似度系数计算方法计算出相似度值，并选择值最大的相似度值作为对应的相似度值标签。

可选地，步骤S2.2)中指定的多种相似度系数计算方法包括欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、谷本系数、一阶时间相关系数，且其中欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离在计算完成后将计算得到的相似度值通过函数1-1/(X+1/2)映射到范围(-1,1)，其中X表示计算得到的原始相似度值。

可选地，步骤S3)中基于深度学习的神经网络模型为前馈神经网络回归模型，所述前馈神经网络回归模型为单向多层结构，每一层包含若干神经元且相互之间没有连接，层与层之间只沿一个方向进行；所述多层结构包括输入层、隐藏层和输出层，输入层为两个时间序列数据经过处理后的两个向量，隐藏层为7层且每一层神经元个数分别是1024->512->256->128->64->32->16，输出层则是神经元链接中传输、分析、权衡后的输出结果；且在训练前馈神经网络回归模型时，最后一层由隐藏层到输出层不使用激活函数、而是采用反向传播的算法基于预设的损失函数最小的原则来更新隐藏层的参数权重和偏置。

此外，本发明还提供一种基于深度学习的时间序列相似度的计算系统，包括计算机设备，该计算机设备被编程或配置以执行本发明前述基于深度学习的时间序列相似度的计算方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行本发明前述基于深度学习的时间序列相似度的计算方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本发明前述基于深度学习的时间序列相似度的计算方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1)综合了各种传统度量方法的优点，在时间序列相似度度量问题上比各个传统度量方法效果都好。

2)根据不同的需求以及不同的数据集，还可以去用同样的方法学习出适用于不同领域的数据相似度的度量方法。

3)针对不同问题，不用再去考虑数据的内在特征而选择相似度计算方法。

附图说明

图1为本发明实施例一方法的基本流程图。

图2为本发明实施例一中神经网络模型的训练流程图。

图3为本发明实施例一中预处理的流程图。

图4为本发明实施例一中给不相似数据的计算相似度的原理图。

图5为本发明实施例一中给相似数据的计算相似度的原理图。

图6为本发明实施例一中采用的前馈神经网络回归模型。

具体实施方式

实施例一：

下文将以日股票的收盘价数据为时间序列数据的实例，对本发明基于深度学习的时间序列相似度的计算方法、系统及介质进行进一步的详细说明。

如图1所示，本实施例基于深度学习的时间序列相似度的计算方法的实施步骤包括：

1)获取两个等长时间段的时间序列数据；

本实施例步骤1)具体是指获取每天粒度级为5秒的股票收盘价数据。

如图2所示，本实施例步骤2)之前还包括训练基于深度学习的神经网络模型的步骤，详细步骤包括：

S1)获取训练数据并进行预处理获取相似度特征值；

如图2和图3所示，步骤S1)的详细步骤包括：

S1.1)获取指定时间粒度的时间序列数据；

本实施例中，步骤S1.3)中变化状态值M_i为M＝{-3，-2，-1，0，1，2，3}且对应加速下降、减速下降、下降、不变、上升、减速上升和加速上升，确定该时间点的变化状态值M_i的详细步骤包括：

本实施例中，振幅A_i的计算方式为：A_i＝(m_i+1-m_i)/m_i，即下一个时间点的值m_i+1和当前时间点的值m_i之间的差除以当前时间点的值m_i得到的结果。

本实施例中，时间段的占整个时间序列长度的权重tw_i的计算表达式为t_wi＝t_i/t_N，其中t_i为时间段，t_N为整个时间序列长度。

本实施例中，步骤S1.3)中根据每一个时间点的变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者综合计算该时间点的特征值具体是指将变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者相乘，并将相乘得到的结果作为该时间点的特征值。本实施例中首先随机选取两支股票，并选定相同长时间段内的收盘价数据，以概率学的角度这样的两个时间序列则可视为不相似。上证指数和深圳指数一定程度上反映了我国股票大盘的趋势，而且相应的股票成分也尤为相似，选取上证指数和深圳指数同一天同一时间段长收盘价作为相似的数据。时间序列的相似程度更多的反映是趋势，所以对连续两个时间点计算新的值，则一个时间序列有N个值变为N-1个值，对应的M{-3，-2，-1,0,1,2,3}为加速下降、减速下降、下降、不变、上升、减速上升、加速上升，同时在乘振幅A_i、时间段的占整个时间序列长度的权重tw_i最后作为每个时间序列的特征值。

如图2、图4和图5所示，步骤S2)的详细步骤包括：

S2.2)针对不相似数据的两个等长时间段的时间序列数据，分别按照指定的多种相似度系数计算方法计算出相似度值，并选择值最小的相似度值作为对应的相似度值标签；针对相似数据的两个等长时间段的时间序列数据，分别按照指定的多种相似度系数计算方法计算出相似度值，并选择值最大的相似度值作为对应的相似度值标签。本实施例中，具体选取随机的两支股票的相同时间长度的收盘价作为不相似数据，选取上海证券交易所股价指数和深圳证券交易所股价指数同一天同一时段相同时间长度的收盘价作为相似数据。

本实施例中，步骤S2.2)中指定的多种相似度系数计算方法包括欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、谷本系数、一阶时间相关系数，且其中欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离在计算完成后将计算得到的相似度值通过函数1-1/(X+1/2)映射到范围(-1,1)，其中X表示计算得到的原始相似度值。

本实施例中采用的传统相似度度量方法包括：

①欧氏距离(Euclidean Distance)：

上式中，x_i是样本x在i维的值，y_i是样本y在i维的值，样本x和样本y之间各个维度的差值的平方和，各个总和再开二次根号即为欧氏距离。

在m维空间中两个点之间的真实距离，很直接的放映了两个股票数据的空间距离大小。但由于每个坐标对欧氏距离的贡献是同等的，往往带有大小不等的随机波动。当各个分量为不同性质的量时，“距离”的大小与指标的单位有关，没有考虑到总体变异对距离远近的影响。

②曼哈顿距离(Manhattan Distance)：

上式中，x_i是样本x在i维的值，y_i是样本y在i维的值，样本x和样本y之间各个维度的差值绝对值，各个总和即为曼哈顿距离。

曼哈顿距离又称作出租车几何，指在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。和欧氏距离一样，将各个分量的量纲当做相同看待。

③切比雪夫距离(Chebyshev Distance)：

上式中，x_i是样本x在i维的值，y_i是样本y在i维的值，样本x和样本y之间各个维度的差值的p阶方，各个总和再开p次根号，而当p趋近于无穷大时该值即为切比雪夫距离。

切比雪夫距离是由一致范数(uniform norm)所衍生的度量，也是超凸度量(injective metric space)的一种，指两个点各坐标数值差绝对值的最大值，但没有考虑各个分量的分布、期望和方差等可能是不同的。

④马氏距离(Mahalanobis Distance)：

上式中，s是多维随机变量的协方差矩阵，向量x减去向量y构成的矩阵的转置乘以s的逆矩阵再乘以向量x减去向量y构成的矩阵，然后再开二次根，该值即为马氏距离。

马氏距离为两个服从同一分布并且其协方差矩阵为∑的随机变量之间的差异程度，表示着数据的协方差距离，有效计算两个未知样本集集的相似度方法，独立于测量尺度，不受量纲的影响，与原始数据的测量单位无关，但夸大了变化微小的变量的作用，受协方差矩阵不稳定的影响。

⑤余弦相似度(Cosine similarity)：

上式中，x_i是样本x在i维的值，y_i是样本y在i维的值，样本x和样本y之间各个维度的乘积之和连续除以样本x和样本y各个维度的平方和开二次根号，该值即为余弦相似性。

余弦相似度通过计算两个向量的夹角余弦值来评估他们的相似度，余弦值可以通过使用欧几里得点积公式求出。余弦相似度更多的从方向上区分差异，对绝对的数值不敏感。

⑥皮尔逊相关系数(Pearson Correlation Coefficient)：

上式中，x_i是样本x在i维的值，y_i是样本y在i维的值，

分别为x和y的均值，即x和y的协方差除以x和y的标准差就是皮尔逊相关系数。

皮尔逊相关系数度量两个变量X和Y之间的相关程度，具体指两个变量之间(Covariance)和标准差(Standard Deviation)的商。皮尔逊相关系数不会考虑重叠数据对相似度的影响，一旦数据只有一个重叠项或者所有数据都一样就无法计算相关性。

⑦谷本系数(Tanimoto)：

E(x,y)＝xy/(||x||²+||y||²-xy)

上式中，样本x和样本y的向量积除以样本x的二范数加上样本y的二范数减去样本x和样本y的向量积即为谷本系数。

⑧一阶时间相关系数(The First Order Temporal Correlation Coefficient)：

上式中，从时间t＝1到T-1的x的连续两个时间差值与y的连续两个时间差值的乘积和除以从时间t＝1到T-1的x的连续时间差值的平方和开二次根号和从时间t＝1到T-1的y的连续时间差值的平方和开二次根号，即为一阶时间相关系数。

其中欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离等传统距离计算方法计算距离为X而距离的范围是(0，+∞)，与最终要求的相似度范围不一致，这里本实施例中用一个函数1-1/(X+1/2)进行转换，以保证计算值的最终区域为(-1,1)，余弦相似度、皮尔逊相关系数、谷本系数和一阶时间相关系数保持不变。最终，对于不相似数据，将计算的所有传统相似度值选取最小的那个相似度值作为该数据的标签，对于相似数据，将计算的所有传统相似度值选取最大的那个相似度值作为该数据的标签。传统度量方法各有各的好处，具体情况用哪一种要根据具体数据和问题的需求来决定，而现在的深度学习就是根据已知结果(标签)和数据源去发掘人们无法直接获取的特征和一种普遍的规律。本实施例中对相似数据的相似度取值为所有传统度量方法中的最大值，不相似数据的相似度取值为所有传统度量方法中的最小值，即在相似和不相似的时候让发挥最好的某种传统相似度度量方法作为结果值输出。至此，构造了训练数据的特征向量，并为训练数据打上了相似度标签。

如图6所示，步骤S3)中基于深度学习的神经网络模型为前馈神经网络回归模型，所述前馈神经网络回归模型为单向多层结构，每一层包含若干神经元且相互之间没有连接，层与层之间只沿一个方向进行；所述多层结构包括输入层、隐藏层和输出层，输入层为两个时间序列数据经过处理后的两个向量，隐藏层为7层且每一层神经元个数分别是1024->512->256->128->64->32->16，输出层则是神经元链接中传输、分析、权衡后的输出结果；且在训练前馈神经网络回归模型时，最后一层由隐藏层到输出层不使用激活函数、而是采用反向传播的算法基于预设的损失函数最小的原则来更新隐藏层的参数权重和偏置。

本实施例中，前馈神经网络回归模型的的输入层为构造好的训练数据X_i,200(其中i为训练样本个数，200为特征个数)。隐藏层每一层由神经元构成，一共有7层，相应的每一层的神经元个数分别为1024,512,256,128，64,32,16，各个层之间采用全连接的形式：

a＝W_ij ^(l)·X+b^(l) _i

上式中，i代表上一层代表神经元个数，j代表下一层神经元个数，l代表当前层数，W_ij为参数权重，X为输入值，b为偏置。

激励函数为relu：z＝relu(a)，其中a为该层全连接计算得到的值。最后输出层不用激活函数，其输出为：

Y_train＝W_i，1 ⁽⁷⁾·X+b⁽⁷⁾ _i；

上式中，i代表上一层代表神经元个数，W_i,1为参数权重，X为输入值，b为偏置。本实施例中，初始化参数W和b，设置各个超参数，由模型得出Y_train，其损失函数为：

上式中，y_act,i为数据集的相似度值，y_train，i为深度学习模型中学习出来的相似度值，n为样本数。

最终采用梯度下降法MBGD让每次迭代利用部分数据集，减少内存的使用和计算量，同时使其更准确地朝向极值所在的方向下降，并利用BP算法更新各个层之间的权重和偏执

反复迭代，直至收敛。验证集用R_square作为性能指标：

上式中，y_act,i为数据集的相似度值，y_train，i为深度学习模型中学习出来的相似度值，n为样本数，y为数据集相似度值的平均值。

性能指标越接近1表示模型的拟合能力更好，用测试集来评价该模型的泛化能力。

本实施例训练过程中将处理好的数据集数据输入到输入层中，初始化各个参数W，b以及各个超参数，经过7层隐藏层的前向传播和激活函数得出模型计算出的相似度值，计算出模型得出的相似度值与原始数据的相似度的损失值，利用梯度下降的方法最小化损失函数从而反向传播更新各层之间的参数权重和偏置，反复迭代直至收敛，验证集用R_square(R平方)继续性能评估，测试集用来评估模型的泛化能力。系统经过上述步骤训练后，训练好的系统即可根据任意两个相同长时间段的时间序列数据来计算出它们的相似度值，实现了一种新的对时间序列的相似度度量方法。

由于是回归问题，本实施例中使用的损失函数为平方损失函数，采用前向传播，前七层之间的激活函数为线性整流函数(Rectified Linear Unit,ReLU),ReLU函数在使用梯度下降上收敛速度快很多，而且梯度不会饱和，解决了梯度消失问题，计算复杂度低，更适合用于后向传播。由于不是分类问题，所以最后一层由隐藏层到输出层不再使用激活函数，采用反向传播的算法更新参数权重和偏置。本实施例采用的批尺寸(batchsize)为128，同时为了让每次迭代的数据更加随机化，对该批尺寸的数据内部顺序打乱，从而进行随机选择。RMSE和MSE常被用来评价回归模型，由于连续时间段的时间序列值在数值上差异可能会比较小，计算出来的振幅A_i会更加的小，而计算出来的RMSE和MSE也会相应的很小，这对模型评估会有很大的影响，所以这里本实施例中使用的是R平方(R Squared)作为评估模型的性能指标，R平方与量纲无关，性能越好它越趋近于1，性能不好就趋近于-1，最小化损失函数采用梯度下降的算法。本实施例中训练模型的公式包括：

前向传播：

上式中，l代表当前层数，j代表上一层神经元个数，k代表下一层神经元个数，σ代表当前层对应的激活函数，w代表权重，b代表偏置，a代表某一层的某一个神经元的输出值_。

反向传播：

上式中，l代表当前层数，i代表上一层神经元个数，j代表下一层神经元个数，w代表权重，b代表偏置，α代表模型的学习率，E代表损失函数值，

代表损失函数对权重求偏导数，代表损失函数对偏置求偏导数。

输出层残差：

上式中，l代表输出层的神经元序号，n代表输出层，z代表某个神经元没有计算激活函数的值，a代表某个神经元的输出值，f’代表激活函数的导数。

其它层残差：

δ^(l)＝((W^(l))^Tδ^(l+1))f'(z^(l))

上式中，l代表层数，z代表某个神经元没有计算激活函数的值，W代表权重，f’代表激活函数的导数，δ代表残差。

平方损失函数：

上式中，n代表样本数，Y代表数据集的相似度，X代表数据集的时间序列部分，f代表该神经网络模型。

线性整流函数(前七层之间的激活函数)：

max(0,w^Tx+b)

上式中，w代表权重，x代表数据集的时间序列部分，b代表偏置，max()代表取参数中的最大值。

本实施例步骤S1)的详细步骤包括：

S1.1)获取指定时间粒度的时间序列数据；

S1.2)选取随机的多组两个等长时间段的时间序列数据作为不相似数据，选取多组两个等长时间段的时间序列数据作为相似数据；

S1.3)针对所有的时间序列数据进行分段线性表示，逐个计算每一个时间点的变化量△m_i并确定该时间点的变化状态值M_i，计算每个时间点的振幅A_i，计算每个时间点的时间段的占整个时间序列长度的权重tw_i；根据每一个时间点的变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者综合计算该时间点的特征值；

S1.4)基于时间点的特征值计算每一组不相似数据以及相似数据之间的相似度特征值。

利用深度学习模型学习出一种新的度量方法需要大量数据，例如可以抓取证券行业的行情数据、成交数据，银行业的用户消费记录，资金流水等数据。这些数据蕴含了大量潜在的、有价值的信息和规律，但同时也存在着许多问题：模式多变、噪音干扰、数据量过大等难题，这里本实施例中对获取的数据要做相应的处理，以便更加方便的进行相似度的计算和模型的训练。时间序列更多反应的是变化趋势，而大部分度量方法在原始数据的计算上不能辨别形状相似性，不能反映趋势动态变化幅度的相似性。原始数据也可能本身是相似的，但是数据这里本实施例中引入PLR(piecewise linear representation,分段线性表示)算法对时间序列进行分段线性表示，并引入形状距离(shape distance)作为相似度特征值，加了一个振幅A_i。

本实施例步骤S1.3)中变化状态值M_i为M＝{-3，-2，-1，0，1，2，3}，分别对应着加速下降、减速下降、下降、不变、上升、减速上升和加速上升，且确定该时间点的变化状态值M_i的详细步骤包括：

S1.3.1)判断该时间点的变化量△m_i为0是否成立，如果成立则该时间点的变化状态值M_i为0；否则，跳转执行下一步；

S1.3.2)判断该时间点的变化量△m_i和下一个时间点的变化量△m_i+1之间的乘积△m_i*△m_i+1小于0是否成立，如果成立则跳转执行步骤S1.3.3)；否则跳转执行步骤S1.3.4)；

S1.3.3)判断该时间点的变化量△m_i小于0是否成立，如果成立则该时间点的变化状态值M_i为-1；否则，该时间点的变化状态值M_i为1；结束并返回；

S1.3.4)计算下一个时间点的变化量△m_i+1、该时间点的变化量△m_i之间的差值△k_i；如果该时间点的变化量△m_i、差值△k_i均小于0，则该时间点的变化状态值M_i为-3；如果该时间点的变化量△m_i、差值△k_i均大于或等于0，则该时间点的变化状态值M_i为3；如果该时间点的变化量△m_i小于0、差值△k_i大于或等于0，则该时间点的变化状态值M_i为-2；如果该时间点的变化量△m_i大于或等于0、差值△k_i小于0，则该时间点的变化状态值M_i为2。

本实施例步骤S1.3)中根据每一个时间点的变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者综合计算该时间点的特征值具体是指将变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者相乘，并将相乘得到的结果作为该时间点的特征值。此外也可以根据需要采用其他综合的方式。

本实施例步骤S1.4)中的相似度特征值是指曼哈顿距离，此外也可以根据需要采用欧氏距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、谷本系数、一阶时间相关系数中的一种，且相似度特征值通过函数1-1/(X+1/2)映射到范围(-1,1)，其中X表示计算得到的原始相似度特征值。相似度特征值采用曼哈顿距离时可表示为：

上式中，S1和S2代表两个时间序列，k代表时间序列的长度，t代表单个时间序列的时间占整个时间序列的长度比，A代表振幅，m代表变化状态值，i代表时间序列的某个时刻，w代表整个时间序列的长度。

对于一个时间序列，无非三种状态：上升、下降和不变，将这种状态对应表示为M＝{1，-1，0}，而对于大量的数据如股票数据，仅仅只有三个状态以该模式不能很好的表示股票的时间序列，因此这里引入更多的模式(7种状态)：M＝{-3，-2，-1，0，1，2，3}对应着加速下降、减速下降、下降、不变、上升、减速上升和加速上升。这里计算两期的斜率该变量Δk_i，如果该变量小于0，直线变得更陡峭了，所以是加速下降的，因此设为-3模式。如果Δk_i＝0，那么是减速下降的，设为-2。如果Δk_i＞0，说明是减速下降的，设为-1。振幅为A_i＝(y_i-y_i-1)/y_i-1，每一个模式可能跨越了不同的时间长度，一个模式持续时间越长，它包含整个序列的信息就越多，因此对数据进行加权：t_wi＝t_i/t_N，最终模式距离为上式所示。

本实施例将数据分为两类，图形上相似的为一类，另一类则是随机选择并设定为不相似。但这些数据都是只有分类标签的数据，而学习到新的相似度度量方法是一个回归问题，需要输出连续的变量结果，本实施例采用一种新的方法来计算样本数据的相似度值。首先，对于不相似的时间序列数据，先利用不同的传统的相似度度量方法计算相应的相似度值，然后选取其中最小的作为该数据的相似度值，对于相似的时间序列数据，利用不同的传统的相似度度量方法计算其相应的相似度值，然后选取其中最大的作为该数据的相似度值。

本实施例步骤S3)中基于深度学习的神经网络模型为前馈神经网络回归模型，所述前馈神经网络回归模型为单向多层结构，每一层包含若干神经元且相互之间没有连接，层与层之间只沿一个方向进行；所述多层结构包括输入层、隐藏层和输出层，输入层为两个时间序列数据经过处理后的两个向量，隐藏层为7层且每一层神经元个数分别是1024->512->256->128->64->32->16，输出层则是神经元链接中传输、分析、权衡后的输出结果。由于前馈神经网络回归模型模拟的是回归问题，本实施例中使用的损失函数为平方损失函数，采用前向传播，前七层之间的激活函数为线性整流函数(Rectified Linear Unit,ReLU)，ReLU函数在使用梯度下降上收敛速度快很多，而且梯度不会饱和，解决了梯度消失问题，计算复杂度低，更适合用于后向传播。由于不是分类问题，所以最后一层由隐藏层到输出层不再使用激活函数，采用反向传播的算法更新参数权重和偏置。

本实施例步骤S3)中根据打上相似度标签的训练数据完成对基于深度学习的神经网络模型的训练时，最后一层由隐藏层到输出层不使用激活函数、而是采用反向传播的算法基于预设的损失函数最小的原则来更新隐藏层的参数权重和偏置。

本实施例采用的批尺寸(batchsize)为128，同时为了让每次迭代的数据更加随机化，对该批尺寸的数据内部顺序打乱，从而进行随机选择。RMSE和MSE常被用来评价回归模型，由于连续时间段的时间序列值在数值上差异可能会比较小，计算出来的振幅会更加的小，而计算出来的RMSE和MSE也会相应的很小，这对模型评估会有很大的影响，所以这里本实施例中使用的是R平方(R Squared)作为评估模型的性能指标，R平方与量纲无关，性能越好它越趋近于1，性能不好就趋近于-1，最小化损失函数采用梯度下降的算法。

此外，本实施例还提供一种基于深度学习的时间序列相似度的计算系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述基于深度学习的时间序列相似度的计算方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于深度学习的时间序列相似度的计算方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于深度学习的时间序列相似度的计算方法的计算机程序。

实施例二：

本实施例为实施例一的进一步应用，具体为用于实现电力系统变压器基于噪声的机械故障状态诊断。步骤1)之间还包括建立样本数据库的步骤，建立的样本数据库中记录有多种时间序列数据样本(噪声)及其对应的故障状态信息；通过重复执行步骤1)和步骤2)直至完成待诊断噪声的时间序列数据和样本数据库中所有时间序列数据样本的相似度计算，然后根据相似度最高的时间序列数据样本确定待诊断数据的故障状态信息。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的时间序列相似度的计算方法，其特征在于，实施步骤包括：

1)获取两个等长时间段的时间序列数据；

2.根据权利要求1所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤2)之前还包括训练基于深度学习的神经网络模型的步骤，详细步骤包括：

S1)获取训练数据并进行预处理获取相似度特征值；

3.根据权利要求2所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤S1)的详细步骤包括：

S1.1)获取指定时间粒度的时间序列数据；

4.根据权利要求3所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤S1.2)中变化状态值M_i为M＝{-3，-2，-1，0，1，2，3}且对应加速下降、减速下降、下降、不变、上升、减速上升和加速上升，确定该时间点的变化状态值M_i的详细步骤包括：

5.根据权利要求3所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤S1.3)中根据每一个时间点的变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者综合计算该时间点的特征值具体是指将变化状态值M_i、振幅A_i、时间段的占整个时间序列长度的权重tw_i三者相乘，并将相乘得到的结果作为该时间点的特征值。

6.根据权利要求3所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤S2)的详细步骤包括：

7.根据权利要求6所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤S2.2)中指定的多种相似度系数计算方法包括欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、谷本系数、一阶时间相关系数，且其中欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离在计算完成后将计算得到的相似度值通过函数1-1/(X+1/2)映射到范围(-1,1)，其中X表示计算得到的原始相似度值。

8.根据权利要求2所述的基于深度学习的时间序列相似度的计算方法，其特征在于，步骤S3)中基于深度学习的神经网络模型为前馈神经网络回归模型，所述前馈神经网络回归模型为单向多层结构，每一层包含若干神经元且相互之间没有连接，层与层之间只沿一个方向进行；所述多层结构包括输入层、隐藏层和输出层，输入层为两个时间序列数据经过处理后的两个向量，隐藏层为7层且每一层神经元个数分别是1024->512->256->128->64->32->16，输出层则是神经元链接中传输、分析、权衡后的输出结果；且在训练前馈神经网络回归模型时，最后一层由隐藏层到输出层不使用激活函数、而是采用反向传播的算法基于预设的损失函数最小的原则来更新隐藏层的参数权重和偏置。

9.一种基于深度学习的时间序列相似度的计算系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～8中任意一项所述基于深度学习的时间序列相似度的计算方法的步骤，或者该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～8中任意一项所述基于深度学习的时间序列相似度的计算方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～8中任意一项所述基于深度学习的时间序列相似度的计算方法的计算机程序。