CN112925936A

CN112925936A - 一种基于深度哈希的运动捕获数据检索方法及系统

Info

Publication number: CN112925936A
Application number: CN202110196648.0A
Authority: CN
Inventors: 吕娜; 王颖; 冯志全; 彭京亮
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-08
Anticipated expiration: 2041-02-22
Also published as: CN112925936B

Abstract

本公开提供了一种基于深度哈希的运动捕获数据检索方法及系统，所述方案包括：基于运动捕获数据库中的运动捕获数据序列，生成每段运动捕获数据的运动表示图像；构建深度哈希特征提取模型，通过预训练的深度哈希特征提取模型提取所述运动表示图像的哈希特征；对于待检索的运动捕获数据，提取其哈希特征，并计算待检索的运动捕获数据哈希特征与所述运动捕获数据库中每段运动捕获数据哈希特征的距离，选择距离最近的前k个数据作为检索结果。本公开所述方案相对于现有技术具有更高的检索精度和效率。

Description

一种基于深度哈希的运动捕获数据检索方法及系统

技术领域

本公开属于多媒体信息检索技术领域，尤其涉及一种基于深度哈希的运动捕获数据检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在过去的几十年里，随着计算机软硬件技术的飞速发展，计算机动画技术得到了蓬勃发展。目前，运动捕获技术已经成为三维人体动画技术的主流。然而，随着运动捕获数据的大幅增长，往往很难快速准确地检索出满足动画师特定要求的运动数据，人体运动捕获数据在空间域和时间域中都包含很高的复杂性。由于运动的长度、速度或初始身体形态可以不同，逻辑上相似的运动不一定在数值上相似。因此，运动捕获数据检索已经成为近年来的研究热点。

发明人发现，运动捕获数据的检索的关键步骤在于运动特征的提取和检索方法，现有的运动特征提取方法包括基于聚类的方法、基于降维的方法、基于深度学习的方法等，但是非深度的检索方法都需要手工提取特征，对于新手来说不易操作，基于深度学习的方法无需手工提取特征，方便快捷，可以尽可能的优化损失函数去学习规则以及挖掘数据的潜在特征等，但深度特征维度高，检索效率低。

发明内容

本公开为了解决上述问题，提供了一种基于深度哈希的运动捕获数据检索方法及系统，所述方案利用深度神经网络提取哈希特征，无需手工制作特征，利用提取到的哈希码进行汉明距离检索，实现了运动捕获数据高效检索。

根据本公开实施例的第一个方面，提供了一种基于深度哈希的运动捕获数据检索方法，包括：

基于运动捕获数据库中的运动捕获数据序列，生成每段运动捕获数据的运动表示图像；

构建深度哈希特征提取模型，通过预训练的深度哈希特征提取模型提取所述运动表示图像的哈希特征；

对于待检索的运动捕获数据片段，提取其哈希特征，并计算待检索的运动捕获数据哈希特征与所述运动捕获数据库中每段运动捕获数据哈希特征的距离，选择距离最近的前k个数据作为检索结果。

进一步的，所述运动表示图像的生成，包括以下步骤：

获取运动捕获数据库中的运动捕获数据；

基于正向运动学将运动捕获数据中的关节角度信息转化为人体各关节点的轨迹信息；

将一段时间内关节轨迹的空间配置和动力学特性分别表示为RGB图像的三个通道，三个通道分别从轨迹、速度场和关节的自相似性转换得到。

进一步的，为了消除不同人体朝向以及骨骼尺寸的影响，预先对运动捕获数据中的关节长度进行了归一化，并建立了统一的局部坐标系，所述局部坐标系的原点是根、左髋、右髋的中点。

进一步的，所述深度哈希特征提取模型基于深度神经网络VGG16，并在所述深度神经网络VGG16的分类层前增加一层由sigmoid函数激活的哈希层。

进一步的，通过预训练的深度哈希特征提取模型提取所述运动表示图像的哈希特征，其具体步骤为：

利用运动表示图像对所述深度哈希特征提取模型进行训练；

其训练终止条件为所述深度哈希特征提取模型的分类准确率大于预设阈值；

提取所述深度哈希特征提取模型哈希层的特征，作为运动表示图像的哈希特征。

根据本公开实施例的第二个方面，提供了一种基于深度哈希的运动捕获数据检索系统，包括：

运动表示图像生成模块，被配置为基于运动捕获数据库中的运动捕获数据序列，生成每段运动捕获数据的运动表示图像；

哈希特征提取模块，被配置为构建深度哈希特征提取模型，通过预训练的深度哈希特征提取模型提取所述运动表示图像的哈希特征；

检索模块，被配置为对于待检索的运动捕获数据片段，提取其哈希特征，并计算待检索的运动捕获数据哈希特征与所述运动捕获数据库中每段运动捕获数据哈希特征的距离，选择距离最近的前k个数据作为检索结果。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于深度哈希的运动捕获数据检索方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于深度哈希的运动捕获数据检索方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案首次将二进制散列码的深度学习引入到MoCap (motioncapture：运动捕获)数据检索的解决方案中，通过将三维骨架序列转换成基于多通道图像的表示，分别反映关节的空间分布、运动特征和相关性；然后，构建在分类层之前添加哈希层的VGG网络；通过同时最小化由分类误差和对散列码的约束所定义的损失函数，所学习的紧凑二进制散列码能够获得良好的鉴别能力和平衡的比特分布，有效提高了运动捕获数据的检索精度和效率。

(2)本公开所述方案针对运动捕获数据检索过程中特征提取困难、提取到的特征维度高以及检索过程效率低等问题，通过利用深度神经网络提取哈希特征，无需手工制作特征，利用提取到的哈希码进行汉明距离检索，实现了高效检索运动捕获数据。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的一种基于深度哈希网络的框架示意图；

图2为本公开实施例一中所述的本公开所述方案与现有方法的检索结果比较示意图；

图3为本公开实施例一中所述的本公开所述方案与现有的DS方法的前5位结果展示图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。实施例一：

本实施例的目的是提供一种基于深度哈希的运动捕获数据检索方法。

一种基于深度哈希的运动捕获数据检索方法，包括：

其中，所述k为大于0的整数，具体的，可根据实际需求进行设定。

具体的，为了便于理解，以下结合附图及具体实例对本公开所述方案进行详细说明：

(一)基于图像的表示

本公开所述方案提供了一种新的基于图像的(MoCap：motion capture)运动捕获数据表示，它将一段时间内关节轨迹的空间配置和动力学分别表示为 RGB图像的三个通道。在每个通道中，一帧中关节的对应信息被记录为一列像素。第一个通道是由关节的轨迹编码的，它保留了每个帧中关节的空间信息。第二个通道由速度场编码，速度场由每个关节的速度矢量组成。速度场描述了运动物体的运动学特征。第三个通道反映了每个关节对之间距离的变化，它是通过沿时间维度连接关节的自相似矩阵(SSM)来编码的。

为了消除不同方向和骨骼尺寸的影响，所述方案对关节长度进行了归一化，并建立了统一的局部坐标系。考虑到在大多数情况下，骨骼关节的轨迹平滑地变化，所述方案将它们二次采样到每秒30帧，并将二次采样的序列分割成W帧的重叠窗口(重叠W/2帧)，此处具体含义为：相邻两个窗口有w/2帧的内容是一样的，例如第一个窗口是1-480帧，则第二个窗口是241-720帧；每个片段被转换成一个图像，三个通道分别从轨迹、速度场和关节的自相似性转换而来。所有图像都被调整到相同的大小。

(二)深度哈希特征提取

首先采用众所周知的VGG16网络，根据图像表示对MoCap片段进行分类。最初的VGG16由十三个卷积层组成，后面是三个全连接层。所述方案减少了三个全连接层中的神经元数量，以更好地拟合MoCap数据。通过训练该模型，所述方案可以通过FC15的输出获得任意运动剪辑的识别特征。然而，这些运动特征仍然是实值的高维向量，使得相似性比较在计算上效率很低。为了实现高效的检索，本公开所述方案寻求进一步将特征向量转换成紧凑的哈希码。

通过在FC15和FC16之间添加一个带有k个神经元的哈希层H，H层是全连接层，哈希层H中的神经元被sigmoid函数激活，产生H层的输出， Out(H)∈[0，1]^k。阈值设定为0.5，所述方案将Out(H)转换为k维二进制向量。本质上，H层(加上阈值)充当一组散列函数，它将每个特征向量映射成一个紧凑的k比特的二进制散列码。为了使学习的二进制码更具区分性和效率，所述方案在损失函数中增加了两个约束。第一个约束是让H层的输出看起来更像二进制值向量。所述方案使用

来表示Out(H)和0.5e之间的距离之和，其中e是所有元素都等于1的一维向量。通过最大化J₂项，H层的神经元输出将更接近0或1。第二个约束是使二进制码均匀分布在每个比特上。为了实现这个目标，所述方案最大化H层输出的方差，定义为J₃＝tr(Out(H)(Out(H))^T)。

在交叉熵误差函数实现多类分类的基础上，增加了对H层输出的两个约束。所以全局优化问题可以公式化为公式(1):

其中y_n表示所述方案的网络对运动剪辑M_n的预测，

表示该运动剪辑的标签，L(·)表示交叉熵损失函数，λ₁、λ₂和λ₃是平衡不同项影响的三个参数。所述方案采用随机梯度下降法学习参数W。

(三)运动捕获数据检索

H层的输出用于通过等式(2)获得散列码:

b_i＝(sgn(Out(H)[i]-0.5)+1)/2 (2)

其中b_i表示第i个(i∈{1，2，3...，k})哈希码位，Out(H)[i]表示Out(H)的第i个分量， sgn是符号函数，如果参数为正，则输出为1，否则为-1。通过将查询和存储库中的运动剪辑按其散列码进行比较，可以有效地进行检索。

(四)实验证明

(1)实验设置

在对HDM05进行数据预处理(即基于图像的表示)后，获得了由65个运动类别中125191个运动剪辑组成的MoCap数据集。本实施例中按照90:5:5的比例分为训练集、验证集和测试集。在前两个数据集上，训练并验证了本公开提出的深度哈希MoCap数据检索方法(简称DHMR)。之后，从测试集构建两个检索数据集，用于检索性能的评估。一个检索数据集由从测试集中的每个类别中随机提取的 20个MoCap片段组成。它用于测试分布式哈希表在各种参数设置下的性能，并与哈希检索算法进行性能比较。由于哈希算法的高效性使其适合大型数据库的检索任务。另一个检索数据集是第一个检索数据集的一个子集，它由十种运动类型的MoCap剪辑组成，即侧手翻、肘到膝、跳跃、慢跑、跳台、踢腿、洗牌、深蹲、投掷、坐和步行，每个包含20个MoCap剪辑。这是一个相对较小的数据集，用于测试没有哈希技术的最先进的MoCap数据检索算法的性能。

本公开所述方案通过评估k-近邻(k-NN)查询来搜索最相似的运动，k个最相似的运动将作为查询结果呈现。所述方案使用的性能指标包括n(P@n)精度和平均精度(mAP)。所有检索评估指标都是通过本领域技术人员常规设置的规则来计算的，此处不再赘述。

(2)实验结果

本实施例中，在第一个检索数据集中测试了不同参数设置下的哈希方法的性能。为了更好地拟合MoCap数据集，本公开所述方案修改了VGG16的网络结构。全连接层FC14和FC15具有相同数量的神经元，并且作为输出层的FC16 具有65个神经元，对应于所述方案的数据集中的运动类别的数量。为了估计 FC15层中不同数量的神经元和不同长度的哈希码对检索性能的影响，本实施例中将神经元数量设置为64、128、256，并将哈希码的长度分别设置为12、24、 32、48、64。此外，为了评估所提出的哈希方法的有效性，在本实施例中将其与包括LSH(Locality-Sensitive Hashing)、SH(Spectral Hashing)、ITQ(ITerativeQuantization)和RR(Random Rotation)在内的其他哈希方法进行了比较。为了公平比较，所有方法都使用FC15中提取的深层特征来生成哈希码。从表1中所述方案可以看出，当层中的神经元数量达到最大时，mAP达到最高，其中FC15 是256，哈希码是24位。请注意，FC15和哈希层中更高的神经元数量可能不会导致更高的mAP性能，这可能是由于过度拟合。此外，与其他经典的哈希方法相比，本公开所述的DHRM方法性能最好。

表1.不同网络配置下的DHRM方法(即本公开所述方法)和其他哈希方法的mAP性能

表2.不同哈希方法的时间统计

本实施例中，在第二个检索数据集中比较了非哈希MoCap数据检索算法。如图2所示，所述方案的方法在n＝20时获得了最高的精度，与其他三种非哈希方法相比，包括SOM(local Similarity measureOf Motion strings)，WG(Weighted Graph)和MS(MotionSignature)。由于DS(Deep Signature)没有定量检索结果，所述方案在图3中直观地呈现了4种运动类型的前5个检索结果。与DS相比，所述方案的方法可以检索与查询具有更大外观相关性的运动剪辑。

本实施例，在笔记本电脑上实现了所述方案的方法，Geforce 1660Ti GPU， InterCore i7 CPU和16GB内存。所述方案用GPU训练深度神经网络，大概需要2个小时。所述方案用CPU做检索。每个查询的平均检索时间用于评估MoCap 数据检索系统的运行效率。同时，在第一个检索数据集上比较了本公开所述方法和其他哈希方法的检索效率。由于所有哈希方法的特征提取过程都是相同的，所以此处，我们只计算检索时间效率。表2显示了每种方法的检索时间。可以看出，SH方法需要相对较长的时间，并且所述方案的方法与LSH、ITQ、RR方法的检索时间相似。

本公开所述方案提出了一种用于MoCap数据检索的有监督深度哈希学习网络。本公开所述方案首次将二进制散列码的深度学习引入到MoCap数据检索的解决方案中，并提出了新颖和系统的设计。所述方案首先将三维骨架序列转换成基于多通道图像的表示，分别反映关节的空间分布、运动特征和相关性。然后，所述方案根据这些表示对预先训练的VGG网络进行微调。此外，本公开所述方案在网络中的分类层之前添加了一个潜在层。通过同时最小化由分类误差和对散列码的约束所定义的损失函数，所学习的紧凑二进制码获得了鉴别能力和平衡的比特分布。实验表明，在公共HDM05数据集上，与几种先进的方法相比，该方法具有更高的检索精度和效率。

实施例二：

本实施例的目的是提供一种基于深度哈希的运动捕获数据检索系统。

一种基于深度哈希的运动捕获数据检索系统，包括：

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种基于深度哈希的运动捕获数据检索方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于深度哈希的运动捕获数据检索方法，其特征在于，包括：

2.如权利要求1所述的一种基于深度哈希的运动捕获数据检索方法，其特征在于，所述运动表示图像的生成，包括以下步骤：

获取运动捕获数据库中的运动捕获数据；

3.如权利要求2所述的一种基于深度哈希的运动捕获数据检索方法，其特征在于，所述RGB图像的三个通道中，第一个通道是由关节的轨迹编码的，它保留了每个帧中关节的空间信息；第二个通道由速度场编码，速度场由每个关节的速度矢量组成，其描述了运动物体的运动学特征；第三个通道反映了每个关节对之间距离的变化，其通过沿时间维度连接关节的自相似矩阵进行编码。

4.如权利要求1所述的一种基于深度哈希的运动捕获数据检索方法，其特征在于，为了消除不同人体朝向以及骨骼尺寸的影响，预先对运动捕获数据中的关节长度进行了归一化，并建立了统一的局部坐标系，所述局部坐标系的原点是根、左髋、右髋的中点。

5.如权利要求1所述的一种基于深度哈希的运动捕获数据检索方法，其特征在于，所述深度哈希特征提取模型基于深度神经网络VGG16，并在所述深度神经网络VGG16的分类层前增加一层由sigmoid函数激活的哈希层。

6.如权利要求1所述的一种基于深度哈希的运动捕获数据检索方法，其特征在于，所述深度哈希特征提取模型的训练过程中，在损失函数中添加了以下约束：

(1)

(2)J₃＝tr(Out(H)(Out(H))^T)

其中，Out(H)为深度哈希特征提取模型中哈希层输出的特征向量，e表示所有元素都等于1的一维向量。

7.如权利要求1所述的一种基于深度哈希的运动捕获数据检索方法，其特征在于，通过预训练的深度哈希特征提取模型提取所述运动表示图像的哈希特征，其具体步骤为：

利用运动表示图像对所述深度哈希特征提取模型进行训练；

8.一种基于深度哈希的运动捕获数据检索系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于深度哈希的运动捕获数据检索方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于深度哈希的运动捕获数据检索方法。