CN113487027B

CN113487027B - 基于时序对齐预测的序列距离度量方法、存储介质及芯片

Info

Publication number: CN113487027B
Application number: CN202110773058.XA
Authority: CN
Inventors: 苏冰; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-09-22
Anticipated expiration: 2041-07-08
Also published as: CN113487027A

Abstract

本发明涉及机器学习技术领域，为基于时序对齐预测的序列距离度量方法、存储介质及芯片，包括步骤：先构建保序对齐预测(OAP)模型，对OAP模型进行自监督训练。保序对齐预测距离采用轻量级类似transformer的神经网络直接预测两个序列之间的最优对齐，因此在推理时只需要直接计算，不涉及优化。可以应用在序列分类和检索任务中，在获得和别的序列距离相当的性能同时，具有更快的推理速度。该方案提出的保序对齐预测OAP距离是可学习的序列距离，在推理中只需要直接计算，具有良好的可解释性；其次，通过设计产生近似真实对齐的序列增强方法，在此基础上，提出了自监督的OAP学习方法，不需要标注训练序列；此外，OAP距离可以方便地实现端到端的监督表征学习。

Description

基于时序对齐预测的序列距离度量方法、存储介质及芯片

技术领域

本发明涉及机器学习技术领域，具体涉及基于时序对齐预测的序列距离度量方法、存储介质及芯片。

背景技术

序列之间的距离在序列分类、检索、聚类等应用中起着至关重要的作用。相比于向量距离，度量序列之间的距离更加困难，因为不同的序列可能有不同的采样率、执行速度、局部扭曲、初始状态和弹性扭曲。为了解决这些时序差异，现有的序列距离或者将每个序列编码成一个时序不变的特征向量，或者使用对齐进行时序对应校准。典型的基于特征的方法使用循环神经网络(RNN)对序列进行编码并度量相应特征之间的欧几里德距离。与计算与任何其他序列的距离时，一个序列的特征总是固定的。虽然这些方法是可学习的，并且在推理时只需要进行前向计算，但它们需要大量序列来训练复杂的RNN，并且可解释性较弱，因为不清楚学习到的特征如何处理时序差异以及可以处理哪些类型的时序差异。

基于对齐的方法为不同的序列对确定不同的最优对齐。这更加直观和灵活，因为在比较不同序列时，时序差异可能不同。大多数对齐方法在预定义的可行约束下解决优化问题以推断最优对齐。例如，DTW可能是应用最广泛的序列距离，其各种变体或进行加速推理，或适应增加或修改的约束，或处理来自不同模态的序列，其中Soft－DTW通过使用所有可行对齐的软最小成本作为目标来优化可微损失。但这些优化通常很耗时，不能充分利用GPU，并且不能很好地扩展到长序列。

此外，由于推断对齐本身就是一个优化问题并且有自己的目标，因此难以使用其他目标的基于序列距离的端到端学习。例如，学习序列中元素的判别时序表征通常采用不同类别的序列在给定的序列距离下更好地分离的目标函数。这个总体目标的梯度很难通过对齐进行反向传播，因为对齐变量是由另一个优化问题确定的潜在变量。

发明内容

本发明提供了基于时序对齐预测的序列距离度量方法、存储介质及芯片，解决了以上所述的现有基于对齐的序列距离不足的技术问题。

本发明为解决上述技术问题提供了基于时序对齐预测的序列距离度量方法，包括以下步骤：

S100，构建保序对齐预测(OAP)模型；

具体地，输入序列：和/> 是两个长度分别为L_X和L_Y的序列，X的元素x_i，i＝1，2，…，L_X和Y的元素y_j，j＝1，…，L_Y位于d维特征空间R^d中；

超参数：变换后的维数d′、时序矩阵权重λ，在计算X和Y之间的距离时，将Y对齐到X；

S200，对OAP模型进行自监督训练；具体地，采用神经网络f通过考虑时序信息直接预测最优对齐的概率T^*＝f(X，Y)，则X和Y之间的OAP距离为：d(X，Y)＝<T^*，D>，其中是X和Y中元素之间的成对距离矩阵，e(x_i，y_j)是两个元素x_i和y_j之间的向量距离，/>表示x_i和y_j对齐的概率。

可选地，所述OAP模型的前向计算过程包括：

S101，输入：和/>是两个长度分别为L_X和L_Y的序列，X的元素x_i，i＝1，2，…，L_X和Y的元素y_j，j＝1，…，L_Y位于d维特征空间R^d中；超参数：变换后的维数d′、时序矩阵权重λ。在计算X和Y之间的距离时，将Y对齐到X；

S102，使用线性投影W_q∈R^d′×d将X中所有元素x_i变换为得到变换序列：/>

S103，使用另一个线性投影W_k∈R^d′×d将Y的所有元素变换为产生另一个变换序列/>

S104，使用每个作为查询，使用/>作为键，计算所有的和/>之间的欧几里得距离，从而得到矩阵

S105，计算和/>的相对位置i/L_X和j/L_Y之间的所有成对欧几里德距离，存到矩阵/>中；

S106，计算相似度矩阵S，其为D_s和D_t的组合：

S107，通过沿相似矩阵S的第二维执行softmax，对所有查询的注意力形成一个注意力矩阵A：

S108，对注意力矩阵A执行全局L₁归一化：

表示x_i和y_j对齐的概率；

S109，计算得到X和Y之间的OAP距离为：d(X，Y)＝<T^*，D>。

可选地，所述OAP模型的可行对齐集合其中1_L是一个L维元素全为1的向量，T是对齐矩阵。

可选地，所述OAP模型的自监督训练方法具体包括：

S201，给定N个未标记的训练序列Xⁿ，n＝1，…，N，目标是学习OAP的神经网络f，该神经网络只包含两个线性投影W_q和W_k作为参数；

S202，对于每一个训练时期(epoch)，从训练序列中依次采样一批数量为B的序列；

S203，对每个批样本(batch)，对于每个Xⁿ，采用增广方法来生成其增强序列和相应的真值对齐/>

S204，计算OAP距离以及相应的Xⁿ和/>之间的非归一化对齐Aⁿ；

S205，由于OAP是非对称的，计算对偶OAP距离和/>和Xⁿ之间的对偶对齐A^n′；

S206，最小化OAP及其对偶距离，以及预测的对偶对齐和真实对齐之间的均方误差(MSE)，以间接地迫使对齐和其对偶对齐保持一致。目标函数是：

S207，对每个batch，分别通过反向传播更新预测网络f中的投影变换，直到所有本轮epoch中的所有batch都处理完；

S208，重复S202～S207，直到达到预设的最大epoch轮数。

可选地，所述增广方法为随机模糊方法：

(a)构造模糊核：从{3，5}中随机选择一个数N_k，构造一个1×N_k大小的模糊核K；

(b)卷积：将序列X与模糊核K进行卷积得到X的增强序列，沿特征维的卷积步幅设置为1。

可选地，步骤(a)具体包括：

当N_k＝3时，K的中间值K₂从(0.55，0.9)中均匀采样，其他值设置为K₁＝K₃＝(1-K₂)/2；

当N_k＝5时，K的中间值K₃从(0.33，0.5)中均匀采样，K₂＝K₄是从(0.16，(1-K₃)/2)，K₁和K₅设置为(1-K₃)/2-K₂。

可选地，所述卷积沿时间维的步幅设置为s，从{1，2，3}中随机选择，不应用填充；因此，的每个列元素/>是X中N_k个连续元素的加权和；/>和这N_k个元素之间的真实对齐值设置为K中的值，而/>和X的所有其他元素之间的对齐值被设置为0，以构建X和/>之间真实对齐矩阵/>

可选地，所述增广方法为随机合并方法：

(aa)从[0.5L_x，0.8L_x]中随机选择一个数随机将X分割成/>部分，其中每个部分至少有一个元素；

(bb)对于具有个元素的第k部分，从标准高斯分布中随机采样/>个值，通过Softmax进行归一化以形成/>个权重；/>元素用生成的权重加权平均以形成一个新元素

(cc)增强序列由所有部分的生成元素依次组成：和序列X划分出的第k部分中的元素的对齐概率设置为/>个对应的权重，而/>和其他部分的元素之间的对齐概率设置为0，以构造X和/>之间的真值对齐矩阵/>

本发明还提供了存储介质，所述存储介质用于存储计算机程序，所述计算机程序包括：用于执行基于时序对齐预测的序列距离度量方法的指令。

本发明还提供了芯片，包括：处理器，用于从存储器中调用并运行计算机程序，所述计算机程序包括：用于执行基于时序对齐预测的序列距离度量方法的指令。

有益效果：本发明提供了基于时序对齐预测的序列距离度量方法、存储介质及芯片，包括步骤：先构建保序对齐预测(OAP)模型，对OAP模型进行自监督训练。保序对齐预测距离采用轻量级类似transformer的神经网络直接预测两个序列之间的最优对齐，因此在推理时只需要直接计算，不涉及优化。通过使用两种序列增强方法获取每个训练序列对应的增强序列并最小化训练序列和其增强序列之间的保序对齐预测距离，本发明在没有负序列样本的情况下以自监督方式学习保序对齐预测距离中的预测网络。本发明的保序对齐预测距离可以应用在序列分类和检索任务中，在获得和别的序列距离相当的性能同时，具有更快的推理速度。该方案提出的保序对齐预测OAP距离是可学习的序列距离，在推理中只需要直接计算，具有良好的可解释性；其次，通过设计产生近似真实对齐的序列增强方法，在此基础上，提出了自监督的OAP学习方法，不需要标注训练序列；此外，OAP距离可以方便地实现端到端的监督表征学习。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于时序对齐预测的序列距离度量方法的原理框图；

图2为本发明基于时序对齐预测的序列距离度量方法的随机模糊算法(左)及随机合并算法(右)的原理示意图；

图3为本发明基于时序对齐预测的序列距离度量方法的在MSRAction3D和MSRActivity3D数据集上d’对MAP的影响；

图4为本发明基于时序对齐预测的序列距离度量方法的MSRAction3D和MSRActivity3D数据集上d’对准确率的影响；

图5为本发明基于时序对齐预测的序列距离度量方法的几种预测方法的效果对比图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1至图5所示，其中，图1为OAP距离计算框架。图2为两种序列增广方法，其中(左)随机模糊，(右)随机合并。图3和图4在MSRAction3D和MSRActivity3D数据集上，d’对(a)MAP和(b)准确率的影响。图5为测试序列(上)到离其OAP距离最小的训练序列(左中)和Soft－DTW距离最小的训练序列(左下)直接的OAP对齐(二三排中)和Soft－DTW对齐(二三排右)。

本发明提供了基于时序对齐预测的序列距离度量方法，其特征在于，包括以下步骤：

S100，构建保序对齐预测(OAP)模型；

下面结合附图和实施实例对本发明进行详细的描述：

和/>是两个长度分别为L_X和L_Y的序列。X的元素x_i，i＝1，…，L_X和Y的元素y_j，j＝1，…，L_Y位于d维特征空间R^d中。现有序列X和Y之间的基于对齐的距离统一表示如下：

d(X，Y)＝<T^*，D> (1)

其中<T，D>＝tr(T^TD)是Frobenius点积。

是X和Y中元素之间的成对距离矩阵，e(x_i，y_j)是两个元素x_i和y_j之间的向量距离，本发明中使用欧几里得距离。T是一个对齐矩阵，其元素T_ij表示x_i和y_j对齐的概率。Φ是所有可行对齐矩阵的集合，对T在/>空间中施加了一定的约束。/>是T的正则化项。T^*是最优对齐，即公式(2)中优化问题的解。

不同的序列距离对可行集施加不同的约束，具有不同的正则化项，使用不同的优化方法进行推理。例如，DTW通过动态规划优化具有边界、连续性和单调性约束以及的公式(2)，而0PW通过Sinkhom矩阵缩放算法优化使用两个时间正则化项和耦合约束的公式(2)。通过优化公式(2)求解T^*不仅需要很长的推理时间，而且很难在序列距离上应用损失(公式(1))用于学习元素表征，因为T^*是一个需要推断的潜在变量，其梯度无法计算。

为了避免求解优化问题，本发明提出使用神经网络f通过考虑时序信息直接预测最优对齐T^*＝f(X，Y)的距离度量方法，称为保序对齐预测(OAP)。图1展示了OAP的流程图。对于两个序列和/>它们的OAP距离也具有式(1)的形式，即D和T^*的Frobenius点积。不同的是，OAP使用类似浅层transforrmer的网络生成一个序列中的元素到另一个序列中的元素的注意力，从而对对齐概率进行建模。

OAP是不对称的。在计算X和Y之间的距离时，OOP将Y对齐到X。OAP使用线性投影W_q∈R^d′×d将X中所有元素x_i变换为得到变换序列：其中d′是变换后的维度，它是一个超参数。Y的所有元素都通过另一个线性投影W_k∈R^d′×d变换为/>产生另一个变换序列/> OAP使用每个/>作为查询，使用/>作为键，计算所有的和/>之间的欧几里得距离，从而得到矩阵

D_s仅对变换空间中查询和键之间的空间距离进行编码，但完全忽略了时序信息。和/>的相对位置分别是i/L_X和j/L_Y。为了考虑时间上的非相似性，OAP进一步计算/>和/>的相对位置之间的所有成对欧几里德距离，存到矩阵/>中。相似度矩阵S是D_s和D_t的组合：/>其中λ是超参数。

上查询的注意力是通过对S的第i行执行Softmax操作得到的。通过沿S的第二维执行softmax，对所有查询的注意力形成一个注意力矩阵A：

为了生成预测对齐T^*，OAP最终对A执行全局L₁归一化：

表示x_i和y_j对齐的概率。X和Y之间的OAP距离的计算方法如公式(1)：d(X，Y)＝<T^*，D>。

OAP的预测的神经网络f是轻量级的，因为它只包含两个线性投影W_q和W_k作为参数。

OAP距离的限制：

1.OAP的可行对齐集合其中1_L是一个L维元素全为1的向量。T是对齐矩阵。由于Φ中的对齐不能保证严格保序，因此当数据严格排序时，OAP的性能可能会受到限制。2.由于不同的投影(W_q和W_k)和softmax操作，不一定成立，因此OAP是非对称的，不是真正的度量。

这些限制反过来又使OAP更加灵活。1.没有严格的保序约束，OAP可以处理局部逆序并泛化到非序列(例如空间、跨模态等)对应关系。2.非对称对齐可以区分源序列X和目标序列Y，其中X中的所有元素必须以相同的比重对齐到目标序列中的不同元素。在分类或检索任务中，总是可以将测试或查询序列作为源序列，即要对齐的标准模板。Y被变换和翘曲以与X对齐，因此OAP对X和Y使用不同的投影以增强表达能力。对称对齐可以通过对f(X，Y)和f(Y，X)求平均值来获得。

OAP的算法复杂度：

计算D、对序列进行投影变换、计算S、执行Softmax和L₁归一化的复杂度分别为O(L_XL_Yd)，O(L_Xdd′)+O(L_Ydd′)，O(L_XL_Yd′)和O(L_XL_Y)。OAP的整体复杂度为O(L_XL_Y(d+d′)+(L_X+L_Y)dd′)。

OAP的自监督学习：

OAP中的预测网络可以用监督学习的方法进行训练，但序列数据的标注成本很高，而无监督的序列数据比较容易获得。本发明提出一种使用未标记的序列样本以自监督方式学习所提出的OAP距离，即通过最小化序列及其相应增强序列之间的OAP距离来学习OAP的预测神经网络。图像和视频等特定模态的数据可以通过低级变换来增强，其自监督学习方法通过鼓励从原始数据及其增强数据中提取的特征更相似来学习特征嵌入网络。不同的是，本发明专注于学习序列之间的距离，无论序列中元素的特征是从何种数据以何种方式提取的，特征都已经给出，因此低级转换不适用。为此，本发明提出了两种序列增强方法：随机模糊和随机合并，如图2所示。

随机模糊。随机模糊方法从{3，5}中随机选择一个数N_k作为大小，构造一个1×N_k大小的模糊核K。模糊核的值可以随机选取。本发明给出如下示例：当N_k＝3时，K的中间值K₂从(0.55，0.9)中均匀采样，其他值设置为K₁＝K₃＝(1-K₂)/2。当N_k＝5时，K的中间值K₃从(0.33，0.5)中均匀采样，K₂＝K₄是从(0.16，(1-K₃)/2)，K₁和K₅设置为(1-K₃)/2-K₂。这个示例中，范围边界的选择使得模糊核中的值从中间向两侧减小。

给定一个序列随机模糊通过将X与K进行卷积得到X的增强序列。沿特征维的卷积步幅设置为1。卷积的其它超参数可以任意设置，示例如下：卷积沿时间维的步幅设置为s，从{1，2，3}中随机选择；不应用填充。因此，/>的每个列元素/>是X中N_k个连续元素的加权和。/>和这N_k个元素之间的真实对齐值设置为K中的值，而/>和X的所有其他元素之间的对齐值被设置为0。这样，构建了X和/>之间真实对齐矩阵/>

随机合并。对于长度为L_X的序列X，随机合并首先从[0.5L_X，0.8L_X]中随机选择一个数然后随机将X分割成/>部分，其中每个部分至少有一个元素。对于具有/>个元素的第k部分，从标准高斯分布中随机采样/>个值，然后通过Softmax进行归一化以形成/>个权重。元素用生成的权重加权平均以形成一个新元素/>增强序列由所有部分的生成元素依次组成：/> 和X划分出的第k部分中的元素的对齐概率设置为/>个对应的权重，而/>和其他部分的元素之间的对齐概率设置为0。这样，构造了X和/>之间的真值对齐矩阵/>

自监督学习：

给定N个未标记的训练序列Xⁿ，n＝1，…，N，目标是学习OAP的预测网络。对于每个Xⁿ，首先随机选择两种方法中的一种来生成其增强序列和相应的真值对齐/>然后计算OAP距离/>根据公式(3)计算相应的Xⁿ和/>之间的非归一化对齐Aⁿ。由于OAP是非对称的，还计算了对偶OAP距离/>和/>和Xⁿ之间的对偶对齐A^n′。最小化OAP及其对偶距离。还最小化预测的对偶对齐和真实对齐之间的均方误差(MSE)，这间接地迫使对齐和其对偶对齐保持一致。对于一批B个序列，目标函数是：

f中的投影变换是通过反向传播学习的。由于D是由给定的序列计算得到并固定的，T是经过Softmax和L1归一化后得到的，所以两个序列之间的OAP距离是有界的。因此，f没有平凡的退化解，所以学习过程中不需要负序列样本。一旦f被学习，OAP可以通过前馈计算度量两个序列之间的差异。

该可学习以及自监督的序列距离度量即保序对齐预测(OAP)距离方案，在训练阶段，不需要标注序列数据，能够通过自监督的方式从无标注序列数据中进行学习；在推理阶段不需要优化算法，只需要前向计算就可以得到序列之间的距离，简约且高效。还可以自动获得序列与其增强版本之间的近似真实对齐，并通过最小化训练序列和其增强序列之间的保序对齐预测距离并强制预测的对齐与近似真实对齐尽可能一致。

本发明由于采取以上技术方案，其具有以下优点：1.本发明提出的OAP距离是一种可学习的序列距离，在推理中只需要直接计算，具有良好的可解释性；2.本发明设计了两种产生近似真实对齐的序列增强方法，在此基础上，提出了一种自监督的OAP学习方法，不需要标注训练序列；3.本发明提出的OAP距离可以方便地实现端到端的监督表征学习。本发明进行了彻底的实验和消融研究，以证明OAP的有效性。以下为试验验证过程：

数据集：

论文(1)Action recognition based on a bag of3d points.In IEEE Int’lWorkshop on CVPR for Human Communicative Behavior Analysis，2010和论文(2)Mining actionletensemble for action recognition with depth cameras.InProc.IEEE Int’lConf.Computer Vision and Pattern Recognition，2012，公开了MSRAction3D数据集包含来自20个动作类的557个骨架序列。按照论文(2)和论文(3)Learningmaximum margin temporalwarping for action recognition.In Proc.IEEE Int’lConf.Computer Vision，2013中的数据集划分获得训练集和测试集，并使用论文(2)论文(3)中的192维的逐元素特征。MSR Daily Activity3D数据集包含来自16个活动类的320个骨架序列。仍然遵循论文(2)和论文(3)中的数据集划分，并使用论文(2)和论文(3)中的390维元素特征。来自论文(4)UCI Machine Learning Repository.http：//archive.ics.uci.edu/ml，University of California，Irvine，Schoo of Informationand Computer Sciences，2013的UCI机器学习库的SpokenArab Digits(SAD)数据集包含来自10个类别的8，800个13维梅尔频率倒谱系数序列。该数据集有6，600个训练序列和2，200个测试序列。论文(5)Multi－modalgesture recognition challenge 2013：Datasetandresults.In Proceedings of the 15th ACM on International conference onmultimodal interaction，pages 445–452.ACM，2013和论文(6)Chalearn multi－modalgesture recognition 2013：grand challenge and workshop summary.In Proceedingsof the 15th ACM on International conference on multimodal interaction，pages365–368.ACM，2013的数据集包含来自20个类别的955个意大利手势序列。数据集分为训练集、验证集和测试集。按照论文(7)Modeling video evolution for actionrecognition.In Proc.IEEE Int’lConf.Computer Vision and Pattern Recognition，2015中的实验设定，对包含一个手势的分段序列进行实验。使用论文(7)中100维元素特征。在所有数据集上，不同序列的长度是不同的。

实现细节：

为了与其他距离比较，在每个数据集上执行两个任务：序列分类和序列检索。对于分类，使用k－近邻(k－NN)分类器。对于每个测试序列，按照给定的距离度量，计算其到所有训练序列的距离。测试序列的标签由其k个距离最小的训练序列的标签进行多数投票决定。将k设置为1、5和30。使用准确率作为性能指标。对于检索，使用每个测试序列作为查询，并根据训练序列与查询的距离按升序对所有训练序列进行排序。使用基于查询和训练序列标签的平均精度(MAP)作为性能度量。

为了学习OAP距离，使用具有0.9动量和1e－4权重衰减的Adam优化器，并最多训练100个epoch。MSR Action3D和MSRActivity3D数据集的学习率固定为0.01，所有其他数据集的学习率固定为0.0001。对于自监督学习，batch size固定为64。

超参数的影响：

OAP有两个超参数：投影后的维数d＇和D_t的权重λ。在MSRAction3D和MSRActivity3D数据集上性能随log(d＇)变化的函数如图3所示。观察到较小的d＇表现更好。原因可能是基于骨架的特征的非相关维度较小，训练序列的数量不够多，无法学习大的d＇导致的过多的参数。由于参数数量为2dd＇，所以d＇较小的OAP更容易训练并且不容易过拟合。表1展示了用不同的λ训练OAP的结果。适当大的λ通常会带来更好的性能，因为融合了更多的时序差异。在后续实验中，将d＇和λ分别固定为30和50。

表1λ的影响

投影的效果：

OAP为两个不同的序列学习两个不同的投影。也可以直接使用原始序列计算D_s而无需投影(即D_s＝D)或为两个序列学习相同的投影。表2示出了在MSR Action3D和MSRActivity3D数据集上与这两种情况的比较。在不使用投影的情况下，性能显着下降，这可能表明学习的投影对全局约束进行编码，以对基于优化的对齐推理中的变换进行近似。由于更灵活和更强的建模能力，使用不同的投影通常比使用相同的投影效果更好。

表2投影的作用

增广方法的影响：

序列通过随机模糊和随机合并进行随机增广。也可以只使用一种增广方法。表3显示了与仅使用随机模糊和仅使用随机合并的比较。性能变化不大，尤其是反映全局排序的MAP。这表明两种增广都模拟了局部时序差异，而OAP对增广方法不是很敏感。

表3增广方法的影响

与基于对齐的距离的比较：

在检索和分类任务中将OAP与8个基于对齐的序列距离进行比较，包括DTW、长度归一化DTW(lDTW)、匹配步骤归一化DTW(nDTW)、最优传输(OT)(出自论文Optimal masstransport：Signal processing and machine－learning applications.IEEE SignalProcessing Magazine，34(4)：43–59，2017)、Sinkhorn(出自论文Lightspeed computationof optim al transport.In Advances in neural information processing systems，pages 2292–2300，2013)、TCOT(出自论文Order－preserving optimaltransport fordistances between sequences.IEEE transactions on pattern analysis and machineintelligence，41(12)：2961–2974，2019)、OPW和SoftDTW(出自论文Soft－dtw：adifferentiable loss function for time－series.In International Conference onMachine Learning，pages 894–903，2017)。按照论文Order－preserving optimaltransport for distances between sequences.IEEE transactions on patternanalysis and machine intelligence，41(12)：2961–2974，2019中的实验设置，直接和其中报告的结果进行比较。在四个数据集上的比较结果分别显示在表4到表7中。观察到OAP在MSR Activity3D数据集和ChaLearn数据集上的表现通常优于其他距离，在SAD数据集上获得中等结果，但在MSR Action3D数据集上表现较差。OAP在计算对齐分数时包含时序差异，但得到的对齐并没有严格保留时间顺序。在SAD数据集上，语音数据中的发音是严格排序的，因此SoftDTW和其他DTW变体表现更好。在小规模的MSR Action3D数据集上，训练序列可能没有表现出足够的差异，OAP可能没有被充分训练。

表4在MSR Action3D数据集上的结果

距离	MAP	1-NN	5-NN	30-NN
					DTW	0.590	81.32	80.95	72.53
lDTW	0.567	82.78	79.12	64.84
					nDTW	0.565	79.85	76.92	67.40
OT	0.544	78.02	75.09	59.34
					Sinkhorn	0.546	78.02	74.73	60.44
TCOT	0.578	80.59	79.49	67.03
					OPW	0.587	84.25	80.22	67.03
SoftDTW	0.589	81.32	80.95	72.89
					SoftDTW*	0.076	4.03	5.50	5.13
OAP	0.522	78.02	72.16	66.67

表5在MSR Activity3D数据集上的结果

表6在SAD数据集上的结果

距离	MAP	1-NN	5-NN	30-NN
					DTW	0.566	96.36	97.23	97.45
lDTW	0.560	96.73	96.73	95.59
					nDTW	0.485	95.05	96.09	95.32
OT	0.233	43.86	41.95	35.59
					Sinkhorn	0.433	87.95	89.23	90.00
TCOT	0.496	92.64	94.09	94.45
					OPW	0.627	96.68	97.14	97.14
SoftDTW	0.593	96.95	97.27	97.55
					SoftDTW*	0.123	10.00	10.00	10.00
OAP	0.519	95.91	96.32	97.23

表7在ChaLearn数据集上的结果

OAP需要单层投影来预测对齐。SoftDTW也可以作为可微损失作用在单层线性变换层之上。SoftDTW＊通过最小化原始训练序列与其增强序列之间的SoftDTW距离，以自监督的方式训练附加单层线性层，但其性能等同于随机分类。在没有负样本的情况下，SoftDTW＊陷入了全零的平凡解。OAP自然地避免了该平凡解，因为它从原始序列计算D并在T上执行Softmax。

计算时间和可视化的比较：

表8比较了计算测试序列与所有训练序列之间的距离的平均运行时间，包括DTW、OT、OPW、SoftDTW和OAP。l表示相应数据集中序列的平均长度。Sinkhorn、TCOT和OPW的执行时间相当，因为它们都依赖于固定点迭代算法。本发明的OAP运行速度比DTW和OPW快一个数量级。数据集越大，OAP的优势越显着。这是因为OAP避免了其他距离所需的复杂优化，只涉及前馈计算，可以方便地通过GPU加速。在GPU上运行时，OPA比SoftDTW快。如补充文件中所示，优势随着l的增大而增加。

表8运行时间的比较

数据集	MSR Action3D	SAD	ChaLearn
				l	39.64	39.81	39.72
DTW	0.9212	29.568	28.9270
				OT	279.6414	794.9984	2614.677
OPW	0.8029	25.309	32.7774
				SoftDTW	0.163	3.075	3.172
OAP	0.093	2.128	2.137

图4显示了在MSR Action3D数据集上的可视化。对于“横推臂”类的测试序列，最接近的OAP训练序列来自同一类，而Soft－DTW的训练序列来自另一类“画圆”。动作包含不同的运动周期和相似的姿势。Soft－DTW的每条对齐路径都是严格保序的，导致一些无意义的对齐。OAP的对齐显示了周期性，同时保留了整体时序关系。

本发明未详细阐述部分属于本领域技术人员的公知技术。

通常，序列数据的可解释距离度量通过时序对齐来处理具有不同长度和局部方差的序列。大多数现有的序列距离度量方法通过在预定义的可行对齐约束下解决优化问题来推断最优对齐，这不仅耗时，而且使端到端的序列学习变得困难。本实施例提供的这种可学习的基于时序对齐预测的序列距离度量方法，也称为保序对齐预测。保序对齐预测距离采用轻量级类似transformer的神经网络直接预测两个序列之间的最优对齐，因此在推理时只需要直接计算，不涉及优化。通过使用两种序列增强方法获取每个训练序列对应的增强序列并最小化训练序列和其增强序列之间的保序对齐预测距离，本发明在没有负序列样本的情况下以自监督方式学习保序对齐预测距离中的预测网络。本发明的保序对齐预测距离可以应用在序列分类和检索任务中，在获得和别的序列距离相当的性能同时，具有更快的推理速度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD－ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于时序对齐预测的序列距离度量方法，应用于骨架序列的动作分类中，其特征在于，包括以下步骤：

S100，构建保序对齐预测(OAP)模型；

具体地，输入序列：和/> 是两个长度分别为L_X和L_Y的序列，X的元素x_i,i＝1,2,…,L_X和Y的元素y_j,j＝1,…,L_Y位于d维特征空间R^d中；

S200，对OAP模型进行自监督训练；具体地，采用神经网络f通过考虑时序信息直接预测最优对齐的概率T^*＝f(X,Y)，则X和Y之间的OAP距离为：d(X,Y)＝<T^*,D>，其中是X和Y中元素之间的成对距离矩阵，e(x_i,y_j)是两个元素x_i和y_j之间的向量距离，/>表示x_i和y_j对齐的概率；

其中，所述OAP模型的前向计算过程包括：

S101，输入：和/>是两个长度分别为L_X和L_Y的序列，X的元素x_i,i＝1,2,…,L_X和Y的元素y_j,j＝1,…,L_Y位于d维特征空间R^d中；超参数：变换后的维数d′、时序矩阵权重λ；在计算X和Y之间的距离时，将Y对齐到X；

S102，使用线性投影W_q∈R^d′×d将X中所有元素x_i变换为得到变换序列：

S105，计算和/>的相对位置i/L_X和j/L_Y之间的所有成对欧几里德距离，存到矩阵中；

S106，计算相似度矩阵S，其为D_s和D_t的组合

S108，对注意力矩阵A执行全局L₁归一化：

表示x_i和y_j对齐的概率；

S109，计算得到X和Y之间的OAP距离为：d(X,Y)＝<T^*,D>；

其中，所述OAP模型的自监督训练方法具体包括：

S201，给定N个未标记的训练序列Xⁿ,n＝1,…,N，目标是学习OAP的神经网络f，该神经网络只包含两个线性投影W_q和W_k作为参数；

S206，最小化OAP及其对偶距离，以及预测的对偶对齐和真实对齐之间的均方误差(MSE)，以间接地迫使对齐和其对偶对齐保持一致，目标函数是：

S208，重复S202～S207，直到达到预设的最大epoch轮数；

其中，所述增广方法为随机模糊方法：

(b)卷积：将序列X与模糊核K进行卷积得到X的增强序列，沿特征维的卷积步幅设置为1；

其中，步骤(a)具体包括：

当N_k＝5时，K的中间值K₃从(0.33，0.5)中均匀采样，K₂＝K₄是从(0.16，(1-K₃)/2)，K₁和K₅设置为(1-K₃)/2-K₂；

其中，所述卷积沿时间维的步幅设置为s，从{1，2，3}中随机选择，不应用填充；因此，的每个列元素/>是X中N_k个连续元素的加权和；/>和这N_k个元素之间的真实对齐值设置为K中的值，而/>和X的所有其他元素之间的对齐值被设置为0，以构建X和/>之间真实对齐矩阵

其中，所述增广方法为随机合并方法：

(aa)从[0.5L_X,0.8L_X]中随机选择一个数随机将X分割成/>部分，其中每个部分至少有一个元素；

(bb)对于具有个元素的第k部分，从标准高斯分布中随机采样/>个值，通过Softmax进行归一化以形成/>个权重；/>元素用生成的权重加权平均以形成一个新元素/>

2.根据权利要求1所述的基于时序对齐预测的序列距离度量方法，其特征在于，所述OAP模型的可行对齐集合其中1_L是一个L维元素全为1的向量，T是对齐矩阵。

3.存储介质，其特征在于：所述存储介质用于存储计算机程序，所述计算机程序包括：用于执行权利要求1至2任一项所述的基于时序对齐预测的序列距离度量方法的指令。

4.芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，所述计算机程序包括：用于执行权利要求1至2任一项所述的基于时序对齐预测的序列距离度量方法的指令。