CN110019849B

CN110019849B - 一种基于注意力机制的视频关注时刻检索方法及装置

Info

Publication number: CN110019849B
Application number: CN201810501841.9A
Authority: CN
Inventors: 刘萌; 聂礼强; 王翔; 宋雪萌; 甘甜; 陈宝权
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2020-11-24
Anticipated expiration: 2038-05-23
Also published as: CN110019849A

Abstract

本发明公开了一种基于注意力机制的视频关注时刻检索方法及装置，包接收视频数据和查询信息，将接收的视频数据预分割为时刻片段；根据查询信息提取的查询特征，自适应地为上下文时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；分别进行模态内和模态间的特征交互，生成增强的时刻表示特征与查询特征对应的时刻‑查询表示；根据时刻‑查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量，得到与查询信息描述一致的视频片段。

Description

一种基于注意力机制的视频关注时刻检索方法及装置

技术领域

本发明属于多媒体信息检索的技术领域，尤其是涉及一种基于注意力机制的视频关注时刻检索方法及装置，从视频中检索出用户关注的时刻片段。

背景技术

目前，从大型视频数据库中搜索感兴趣的视频一直是一个悬而未决的问题。由于该任务只需要通过返回相关视频来回答查询，所以大多数之前的工作将其作为匹配问题，通过估计视频和给定查询之间的相关性得分来判断哪一个候选集中的视频与查询匹配度最高。这种直接的视频查询匹配适用于判断描述查询是否出现在整个视频中，通常这个视频仅描述简单场景。

然而，在一些真实场景中，例如机器人导航、自动驾驶和监视场景，未修剪的视频通常包含复杂的场景并涉及大量的对象、属性、动作和交互，而这些复杂场景中只有某些部分场景能传达所需的线索或与给定的查询匹配。比如，对于准备好的长度为几分钟的监控视频，人们可能只对“一位橙色女孩先走过摄像机”这个视频片段感兴趣，其起点和终点分别为24s和30s。因此，与简单地检索整个视频相比，从视频内部检索出感兴趣的时间片段更有用也更具有挑战性。一般来说，视频中的对感兴趣的时间片段进行自动检索需要两个部分，即细粒度的时刻候选片段的定位以及相关性估计。目前存在的主要问题包括以下几个方面：

第一，视频中的不同时刻具有不同的持续时间和不同的时空特征；从而揭示潜在的时刻片段已经非常具有挑战性，更不用说时刻片段与查询相关性的估计了。为了生成候选时刻片段，直接的方法是采用不同尺度的滑动窗口进行密集采样。然而，这样的时刻生成方法是受限制的，不仅是昂贵的计算成本，而且还有指数级别的搜索空间。

第二，相关性估计是一个典型的跨模式检索问题。直观的可行解决方案是首先将候选时刻的视觉特征和查询的文本特征投影到共同的潜在空间中，然后基于它们的相似性来计算相关性。但是，这样的工作流程忽略了时刻片段和查询内的时空信息。以“橙色女孩第一次走过镜头”为例，“第一次”这个词是相对的，需要时间上下文才能正确理解。

综上所述，针对现有技术在进行视频的兴趣时刻片段定位检索中如何提高准确性的问题，以及同时如何解决不同时刻关注的上下文视觉特征整合以及估计时刻片段与查询相关性的问题，尚缺乏有效的解决方案。

发明内容

针对现有技术中存在的不足，本发明提供了一种基于注意力机制的视频关注时刻检索方法及装置，利用时间记忆注意力网络获得了增强的时刻片段表示特征，并引入一个跨模态融合网络来增强视频片段-查询表示，将时刻-查询特征提供给边界回归模型以预测相关性分数和对应时刻片段的时间偏移量，大幅度提高视频关注时刻检索的准确度。

本发明的第一目的是提供一种基于注意力机制的视频关注时刻检索方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于注意力机制的视频关注时刻检索方法，包括：

接收视频数据和查询信息，将接收的视频数据预分割为时刻片段；

根据查询信息提取的查询特征，自适应地为上下文时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；

分别进行模态内和模态间的特征交互，生成增强的时刻表示特征与查询特征对应的时刻-查询表示；

根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量，得到与查询信息描述一致的视频片段。

作为进一步的优选方案，在本方法中，将查询信息输入记忆注意力网络得到每个时刻片段增强的时刻表示特征的具体步骤包括：

提取查询信息的查询特征，提取每个时刻片段的时刻特征；

根据查询特征和每个时刻片段的时刻特征，自适应地利用加权得到每一个上下文时刻片段的权值；

将上下文时刻片段的权值进行线性加权得到每个时刻片段增强的时刻表示特征。

作为进一步的优选方案，在本方法中，输入记忆注意力网络的查询信息为自然语言的文本信息。

作为进一步的优选方案，在本方法中，自适应地利用加权得到每一个上下文时刻片段的权值的具体步骤包括：

将查询特征、当前时刻片段以及其上下文时刻片段映射到共空间中；

在共空间中，将每个时刻片段的时刻特征与其前面所有时刻片段的时刻特征相加，得到拥有记忆信息的时刻特征，并将其与共空间中的查询特征计算相似性；

采用归一化得到每一个上下文时刻片段的权值。

作为进一步的优选方案，在本方法中，利用跨模态融合网络进行模态内和模态间特征交互以生成时刻-查询表示，具体步骤包括：

采用滤波器对每个时刻片段增强的时刻表示特征和查询特征进行均值池化操作；

计算均值池化操作后的时刻表示特征和查询特征的张量积，得到增强的时刻表示特征与查询特征对应的时刻-查询表示。

作为进一步的优选方案，在本方法中，所述根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量的具体步骤包括：

将时刻-查询表示输入多层感知机模型，得到匹配分数值；

根据正样本对数据集和负样本对数据集的损失函数之和，计算匹配损失函数；

根据与查询特征对应的时刻片段与待查询时刻片段的真实时间偏置量计算时刻时间偏置量损失函数，将其与匹配损失函数相加得到注意跨模态检索网络模型的训练损失函数。

作为进一步的优选方案，在本方法中，利用优化函数求解注意跨模态检索网络模型中的参数。

作为进一步的优选方案，在本方法中，所述优化函数为Tensorflow中的AdamOptimizer函数。

本发明的第二目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于注意力机制的视频关注时刻检索方法。

本发明的第三目的是提供一种终端设备。

为了实现上述目的，本发明采用如下一种技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于注意力机制的视频关注时刻检索方法。

本发明的有益效果：

1、本发明所述的一种基于注意力机制的视频关注时刻检索方法及装置，将记忆注意力网络模型和跨模态融合网络模型整合为基于注意力机制的跨模态检索网络模型，基于注意力机制的跨模态检索网络模型来提取每一个时刻片段，并同时刻画了值得注意的上下文视觉特征以及跨模态特征。

2、本发明所述的一种基于注意力机制的视频关注时刻检索方法及装置，引入时间记忆关注网络来记忆每个时刻的上下文信息，并将自然语言查询作为关注网络的输入自适应地为不同时刻片段表示分配权重，精确的使用自然语言定位视频中的时刻。

3、本发明所述的一种基于注意力机制的视频关注时刻检索方法及装置，利用时间记忆注意力网络获得了增强的时刻片段表示特征，并引入一个跨模态融合网络来增强视频片段-查询表示，将时刻-查询特征提供给边界回归模型以预测相关性分数和对应时刻片段的时间偏移量，大幅度提高视频关注时刻检索的准确度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的方法流程图；

图2是本发明实施例1的视频片段示意图；

图3是本发明实施例1的方法流程图；

图4是本发明实施例1的记忆注意力网络模型示意图；

图5是本发明实施例1的跨模态融合网络模型示意图。

具体实施方式：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。

实施例1：

本实施例1的目的是提供一种基于注意力机制的视频关注时刻检索方法。

为了实现上述目的，本发明采用如下一种技术方案：

如图1所示，

一种基于注意力机制的视频关注时刻检索方法，包括：

步骤(1)：接收视频数据和查询信息，将接收的视频数据预分割为时刻片段；

步骤(2)：根据查询信息提取的查询特征，自适应地为上下文时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；

步骤(3)：分别进行模态内和模态间的特征交互，生成增强的时刻表示特征与查询特征对应的时刻-查询表示；

步骤(4)：根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量，得到与查询信息描述一致的视频片段。

在本实施例的步骤(1)中，给定的文本查询信息描述为：穿橘黄色衣服的女孩从相机下走过。如图2所示，将接收的视频数据预分割为时刻片段，本实施例的目的是从接收的视频数据中检索出“穿橘黄色衣服的女孩从相机下走过”的视频片段，基于本实施例中的方法可以返回24s-30s的一个视频片段，该视频片段与查询信息描述一致。如图3所示的为本实施例的具体方法流程图。

如图4所示为记忆注意力网络，本实施例的步骤(2)中将查询信息输入记忆注意力网络得到每个时刻片段增强的时刻表示特征的具体步骤包括：

步骤(2-1)：提取查询信息的查询特征q，提取每个时刻片段c的时刻特征x_c；

步骤(2-2)：假设每一个候选的视频时刻片段c的上下文时刻片段为N_c＝{c_j)，

这里n_c是片段偏移量。根据查询特征和每个时刻片段的时刻特征，自适应地利用加权得到每一个上下文时刻片段的权值，具体步骤包括：

步骤(2-2-1)：将查询特征、当前时刻片段以及其上下文时刻片段映射到共空间中；

步骤(2-2-2)：在共空间中，将每个时刻片段的时刻特征与其前面所有时刻片段的时刻特征相加，来记住上下文信息，得到拥有记忆信息的时刻特征，并将拥有记忆信息的时刻特征与共空间中的查询特征计算相似性；

步骤(2-2-3)：采用归一化得到每一个上下文时刻片段的权值。

计算公式如下：

其中，x_c.为时刻特征，q为查询特征，W_c和W_q分别为时刻特征以及查询特征到嵌入空间的映射矩阵，b_c和b_q分别为时刻特征以及查询特征的偏置向量，i为上文时刻到当前时刻的索引下标，j为上下文时刻的索引，e计算上下文时刻特征与查询的相关性，

为归一化后的相关性分数，σ为tanh激活函数。

步骤(2-3)：将上下文时刻片段的权值进行线性加权得到每个时刻片段增强的时刻表示特征。每个时刻片段增强的时刻表示特征不仅记住了上下文信息，而且记住了与查询相关的信息。计算公式如下：

其中，m_c为输入时刻片段的增强特征，

勾与时刻特征共空间的查询特征。

需要注意的是，输入记忆注意力网络的查询信息为自然语言的文本信息，若非自然语言的文本信息将查询信息转化为自然语言的文本信息输入记忆注意力网络。

如图5所示为跨模态融合网络模型的示意图，本实施例的步骤(3)中利用跨模态融合网络进行模态内和模态间特征交互以生成时刻-查询表示，具体步骤包括：

步骤(3-1)：采用滤波器对每个时刻片段增强的时刻表示特征和查询特征进行均值池化操作；在本实施例中，采用窗口大小为n的滤波器对时刻特征以及查询特征进行均值池化操作，得到特征

步骤(3-2)：计算均值池化操作后的时刻表示特征

和均值池化操作后的查询特征

的张量积，得到增强的时刻表示特征与查询特征对应的时刻-查询表示f_cq。公式如下：

在本实施例的步骤(4)中，所述根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量的具体步骤包括：

步骤(4-1)：将时刻-查询表示f_co输入多层感知机模型，得到匹配分数值s_cq；

步骤(4-2)：根据正样本对数据集和负样本对数据集的损失函数之和，计算匹配损失函数L_align；

其中，P为正样本对数据集，N为负样本对数据集，α₁和α₂分别为正样本对数据集和负样本对数据集的损失函数的权重系数；

步骤(4-3)：根据与查询特征对应的时刻片段与待查询时刻片段的真实时间偏置量计算时刻时间偏置量损失函数L_loc，

其中，

是真实的时间偏置量，R是L₁范数；

将其与匹配损失函数相加得到注意跨模态检索网络模型的训练损失函数L＝L_align+λL_lcc。

在本实施例的步骤(4)中，利用优化函数求解注意跨模态检索网络模型中的参数。所述优化函数为Tensorflow中的AdamOptimizer函数。

实施例2：

本实施例2的目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备设备的处理器加载并执行以下处理：

实施例3：

本实施例3的目的是提供一种专利数据知识图谱的构建装置。

为了实现上述目的，本发明采用如下一种技术方案：

一种专利数据知识图谱的构建装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力机制的视频关注时刻检索方法，其特征在于，包括：

根据查询信息提取的查询特征，自适应地为时刻片段提取的时刻特征分配权重，得到每个时刻片段增强的时刻表示特征；

分别进行模态内和模态间的特征交互，具体步骤包括：

计算均值池化操作后的时刻表示特征和查询特征的张量积，生成增强的时刻表示特征与查询特征对应的时刻-查询表示，时刻-查询表示输入多层感知机模型，得到匹配分数值；

2.如权利要求1所述的方法，其特征在于，在本方法中，将查询信息输入记忆注意力网络得到每个时刻片段增强的时刻表示特征，

具体步骤包括：

提取查询信息的查询特征，提取每个时刻片段的时刻特征；

3.如权利要求2所述的方法，其特征在于，在本方法中，输入记忆注意力网络的查询信息为自然语言的文本信息。

4.如权利要求2所述的方法，其特征在于，在本方法中，自适应地利用加权得到每一个上下文时刻片段的权值的具体步骤包括：

采用归一化得到每一个上下文时刻片段的权值。

5.如权利要求1所述的方法，其特征在于，在本方法中，利用跨模态融合网络进行模态内和模态间特征交互以生成时刻-查询表示，具体步骤包括：

6.如权利要求1所述的方法，其特征在于，在本方法中，所述根据时刻-查询表示利用回归模型预测相关性分数和对应时刻片段的时间偏移量的具体步骤包括：

将时刻-查询表示输入多层感知机模型，得到匹配分数值；

7.如权利要求6所述的方法，其特征在于，在本方法中，利用优化函数求解注意跨模态检索网络模型中的参数。

8.如权利要求7所述的方法，其特征在于，在本方法中，所述优化函数为Tensorflow中的AdamOptimizer函数。

9.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行根据权利要求1-8中任一项所述的方法。

10.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令用于执行根据权利要求1-8中任一项所述的方法。