CN115687687B

CN115687687B - 一种面向开放域查询的视频片段搜索方法及系统

Info

Publication number: CN115687687B
Application number: CN202310010413.7A
Authority: CN
Inventors: 刘萌; 李达; 许海振; 宋雪萌; 郭杰; 李晓峰
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-03-28
Anticipated expiration: 2043-01-05
Also published as: CN115687687A

Abstract

本发明属于互联网技术领域，提供了一种面向开放域查询的视频片段搜索方法及系统。该方法包括，获取视频数据和自然语言查询描述数据；基于自然语言查询描述数据，采用预训练的词语编码模型，得到自然语言查询描述表示；基于视频数据，得到候选时序视频片段；计算自然语言查询描述表示与候选时序视频片段的相似度分数，选取相似度分数最高的候选视频片段作为目标视频片段；训练包括：获取维基百科文本语料库数据和知识图谱数据；构建词语编码模型；基于维基百科文本语料库数据和知识图谱数据，训练词语编码模型，得到预训练的词语编码模型。本发明通过融入知识图谱，增强开放域查询描述中关键词语信息的理解，获得更精准的开放域自然语言查询表示。

Description

一种面向开放域查询的视频片段搜索方法及系统

技术领域

本发明属于互联网技术领域，尤其涉及一种面向开放域查询的视频片段搜索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着移动影像捕捉设备以及监控设备的日益普及，视频数量呈现指数级增长，基于自然语言的人机交互行为变得越来越普及。其中，基于自然语言查询的视频行为片段搜索——从视频流中搜索出与给定查询描述一致的时序行为片段广泛得到工业界和学术界的关注，因其在智能监控和安防等领域的重要应用意义。

虽然现有基于自然语言查询描述的视频行为片段搜索研究取得不错的进展，但是它们很难精准泛化应用于真实场景中。其主要原因如下：

1）它们均借助封闭数据集上训练的词嵌入模型，对查询语句中词语进行编码。然而，真实开放场景每天都会有新生事物产生，伴随而之产生的还有新行为。显然地，封闭数据集上预训练得到的词嵌入模型，无法对开放域中的不断涌现的新物体或行为信息进行精准理解与编码；

2）它们均借助于预训练好的语法解析工具包（如，语义角色树）对复杂查询描述进行分解。但是，由于封闭场景和开放场景中数据分布的差异性，现有语法解析工具很难精准地对开放域自然语言查询进行结构化分解，继而无法准确地理解查询语句内容。

由此可见，对开放场景视频目标行为搜索而言，开放域的自然语言查询语句的完备理解与表示是一个亟待探究的问题。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种面向开放域查询的视频片段搜索方法及系统，其通过融入知识图谱信息，增强开放域查询描述中关键词语信息的理解，同时结合一种数据驱动的语句结构化解析方法，自适应地对查询语句进行多粒度分解，加深对开放域查询语句的理解与编码，从而获得更精准的开放域自然语言查询表示，以进一步提升目标行为片段搜索的精准度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种面向开放域查询的视频片段搜索方法。

一种面向开放域查询的视频流行为片段搜索方法，包括：

获取视频数据和自然语言查询描述数据；

基于自然语言查询描述数据，采用预训练的词语编码模型，得到自然语言查询描述表示；

基于视频数据，得到候选时序视频片段；

计算自然语言查询描述表示与候选时序视频片段的相似度分数，选取相似度分数最高的候选视频片段作为目标视频片段；

所述词语编码模型训练的过程包括：获取维基百科文本语料库数据和知识图谱数据；构建词语编码模型；基于维基百科文本语料库数据和知识图谱数据，训练词语编码模型，得到预训练的词语编码模型。

进一步地，所述基于视频数据，得到候选时序视频片段的具体过程包括：

根据视频数据，提取视频帧，得到视频单元，采用C3D网络提取视频单元，依据视频单元构建二维时序矩阵；对二维时序矩阵中的视频单元进行最大池化处理，得到候选视频时序动作片段。

进一步地，所述词语编码模型为包含12层Transformer的BERT模型。

进一步地，所述得到预训练的词语编码模型的过程具体包括：

在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符，然后输入至词语编码模型，得到头部实体、关系实体和尾部实体的特征表示，以此计算知识嵌入损失；

从维基百科文本语料库数据中随机抽取句子，随机在句子中选择一个词语用特殊字符替换，将替换后得到的句子输入至词语编码模型，预测特殊字符得到的表示，得到预测词语；根据预测词语和原词语计算交叉熵损失；

根据知识嵌入损失和交叉熵损失，优化词语编码模型，得到预训练的词语编码模型。

更进一步地，所述知识嵌入损失为：

其中，

、

和

分别为第

条知识图谱数据的头部表示、关系表示和尾部表示，

分数评估函数，

为预定义参数，

为sigmoid激活函数，

为负样本数目，

为第

条知识图谱数据的第

个负尾部实体，

为知识图谱数据数目。

进一步地，所述基于自然语言查询描述数据，采用预训练的词语编码模型，得到自然语言查询描述表示的过程具体包括：

利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码，得到自然语言查询的词语表示序列，作为拟生成结构化的文本表示的底层节点表示；

根据底层节点表示，计算底层节点的隐藏和单元状态表示；

自底向上聚集节点信息，直至得到自然语言查询描述表示。

更进一步地，所述自底向上聚集节点信息，直至得到自然语言查询描述表示的过程包括：

步骤（1）：基于当前层的节点表示，通过两两节点聚合，得到上一层级的候选节点表示；

步骤（2）：引入一个可学习的参数向量，作为查询向量，计算每一个候选节点表示与查询向量的相关度分数；

步骤（3）：采用Gumbel-Softmax计算分数分布，并得到采样独热向量；其中，独热向量中值为1的位置所对应的候选节点表示，作为上一层级聚集结果，其余位置则为当前层级对应位置节点表示；

步骤（4）：重复执行步骤（1）-步骤（3），直至某一层级仅有一个节点信息，即自然语言查询描述表示。

本发明的第二个方面提供一种面向开放域查询的视频片段搜索系统。

一种面向开放域查询的视频片段搜索系统，包括：

数据获取模块，其被配置为：获取视频数据和自然语言查询描述数据；

自然语言查询描述表示模块，其被配置为：基于自然语言查询描述数据，采用预训练的词语编码模型，得到自然语言查询描述表示；

候选时序视频片段模块，其被配置为：基于视频数据，得到候选时序视频片段；

输出模块，其被配置为：计算自然语言查询描述表示与候选时序视频片段的相似度分数，选取相似度分数最高的候选视频片段作为目标视频片段；

词语编码模型训练模块，其被配置为：获取维基百科文本语料库数据和知识图谱数据；构建词语编码模型；基于维基百科文本语料库数据和知识图谱数据，训练词语编码模型，得到预训练的词语编码模型。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的面向开放域查询的视频片段搜索方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的面向开放域查询的视频片段搜索方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明所述的一种面向开放域查询的视频流行为片段搜索方法及系统，利用知识增强的词语编码模型和数据驱动的结构化自然语言查询描述编码策略，一致性地增强了开放场景多样化自然语言描述信息的理解与表示，显著提升了开放场景下目标视频片段搜索精准度。

本发明所述的知识增强的词语编码模型，能够为不同词语表示中嵌入知识信息，有效地提升开放场景多样化自然语言查询描述词语信息的理解与表示；值得注意的是，该模型也可应用于其他涉及文本模态信息的领域，用以加强对文本信息的理解。

本发明引入的数据驱动的结构化自然语言查询描述编码策略，能够自动且灵活地对自然语言查询描述进行结构化分解，并自底向上聚集不用粒度语义信息，以加强自然语言查询描述的理解与表示；值得注意的是，该策略可用于其他涉及文本查询的开放域应用领域，用以加强对查询内容的理解与表示。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明示出的面向开放域查询的视频片段搜索方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

本实施例提供了一种面向开放域查询的视频片段搜索方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

获取视频数据和自然语言查询描述数据；

基于视频数据，得到候选时序视频片段；

下面将结合附图，对本实施例中的技术方案进行清楚、完整地描述。如图1所示，一种面向开放域查询的视频流行为片段搜索方法，包括：

步骤（1）：接收视频数据、自然语言查询描述数据、以及维基百科文本语料库数据；

步骤（2）基于维基百科文本语料库数据训练知识增强的词语编码模型；

步骤（3）利用数据驱动的结构化自然语言描述词语编码模型，获取自然语言查询描述表示；

步骤（4）基于相似度分数的目标视频片段搜索。

本实施例的步骤（1）中接收视频数据、自然语言查询描述数据、以及维基百科文本语料库的具体步骤包括：

步骤（1-1）：接收维基百科文本语料库数据，获取全部文本信息，记为

,这里

表示第

条文本，

表示文本数据的数目；同时，获取知识图谱三元组数据，记为

，这里

表示第

条数据的头部实体描述信息，

表示第

条图谱数据的关系实体描述信息，

表示第

条图谱数据的尾部实体描述信息，

表示知识图谱三元组数据的数目。

步骤（1-2）：接收自然语言查询描述信息，记为

，这里

表示查询中第

个词语，

表示自然语言查询描述信息中词语数目。

步骤（1-3）：接收视频数据，以每秒32帧的帧率提取视频帧，并以16帧为窗口大小进行不重叠的划窗，得到视频单元信息，即每一个视频单元包含16个视频帧；随后，采用C3D 网络提取视频单元表示；依据视频单元构建二维时序矩阵，矩阵中每一个元素表示起始和结束分别为对应索引坐标视频单元的一个候选视频时序动作片段；将起始和结束区间内的视频单元进行最大池化，得到候选视频时序动作片段表示，记为

，这里

表示第

个候选时序视频片段的表示，

表示候选时序视频片段数目。

本实施例的步骤（2）中获取预训练的知识增强的词语编码模型具体步骤包括：

步骤（2-1）：采用包含12层Transformer且嵌入维度为768的BERT模型作为词语编码模型，记为

；

步骤（2-2）：在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符

；

将三个文本序列分别输入到词语编码模型

中，取出

位置对应的表示，作为头部实体、关系实体和尾部实体的特征表示，记为

,这里

，

，和

分别为第

条知识图谱数据的头部表示、关系表示和尾部表示。

计算知识嵌入损失：

这里，

分数评估函数，

为预定义参数，

为sigmoid激活函数，

为负样本数目，

为第

条知识图谱数据的第

个负尾部实体。知识图谱负数据样本的构造方式为：固定头部实体以及关系实体，随机采样尾部实体。

步骤（2-3）：从维基百科数据集中随机抽取句子

，执行掩码语言建模。即随机在句子中选择一个词语用特殊字符<mask>替换，然后将替换后的句子输入到词语编码模型

中，将<mask>位置得到的表示输入到分类其中，进行词语预测，这里采用交叉熵损失函数，记为

；

步骤（2-4）：将知识嵌入损失与交叉熵损失联合优化，得到知识增强的词语编码模型

：

本实施例的步骤（3）利用数据驱动的结构化自然语言描述词语编码模型，获取自然语言查询描述表示的具体步骤包括：

步骤（3-1）：将自然语言查询描述

输入到预训练的词语编码模型

中，得到词语表示序列

，并将其看作底层节点信息表示，这里

表示第

个词语的表示；

步骤（3-2）：计算底层节点（第一层）的隐藏和单元状态表示：

这里，

和

为待学习的参数，

为第一层中第

个节点的隐藏状态表示，

为第一层中第

个节点的单元状态表示，

为第一层中第

个节点的表示；

步骤（3-3）：自底向上聚集节点信息，直至得到根节点表示，即自然语言查询描述的全局表示。注意：每一层中聚集相邻两个节点的信息，并且仅保留其中一个聚集结果到上一层级结构。

具体地，假设第

层中包含

个节点，其中第

个节点的表示为

，这里

为第

层中第

个节点的隐藏状态表示，

为第

层中第

个节点的单元状态表示，将该层所有节点的表示记为

；

第

层中，如果相邻两个节点

和

将被合并，那么它们聚合后所对应的第

层的节点表示为

可通过如下公式计算得到：

这里，

为输入门信息，

为左侧遗忘门信息，

为右侧遗忘门信息，

为短期记忆信息，

为输出门信息，

为sigmoid激活函数，

和

为待学习参数，

为按位元素相乘操作。针对第

层中两两相邻的节点进行聚合运算，得到

层所有候选节点的表示，记为

，

为第

层节点数目，且

;

引入一个可学习的参数向量

，计算每一个候选节点表示与查询向量的相关度分数：

这里，

表示第

层第

个节点与查询向量的相关性，

为第

层第

个候选节点表示的隐藏状态表示；

然后，用Gumbel-Softmax计算分数分布：

其中，

为预定义的参数，

为从均匀分布中采样随机数，

为附加随机噪声信息。

计算

层采样的独热向量

:

其中，

为第

层第

个节点的采样概率值。注意：独热向量

中仅有一个元素值为1，其余均为0。

依据独热向量保留相应的节点信息，即独热向量中值为1的位置所对应的节点表示被保留，其余位置节点信息均为第

层中相应节点信息，即

=

，这里

为独热向量中值为1的位置所对应的第

层节点表示。

重复执行上述操作

次，直到

，便可得到自然语言查询描述表示，记为

。

本实施例的步骤（4）基于相似度分数的目标视频片段搜索的具体步骤包括：

步骤（4-1）：计算每一个候选时序视频片段与自然语言查询表示相似性：

这里，

表示第

个候选时序视频片段与查询描述的相似度分数。

步骤（4-2）：将相似性结果最高的候选时序视频片段作为目标视频片段返回。

实施例二

本实施例提供了一种面向开放域查询的视频片段搜索系统。

一种面向开放域查询的视频片段搜索系统，包括：

此处需要说明的是，上述数据获取模块、自然语言查询描述表示模块、候选时序视频片段模块、输出模块和词语编码模型训练模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的面向开放域查询的视频片段搜索方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的面向开放域查询的视频片段搜索方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向开放域查询的视频流行为片段搜索方法，其特征在于，包括：

获取视频数据和自然语言查询描述数据；

基于视频数据，得到候选时序视频片段；

所述词语编码模型训练的过程包括：获取维基百科文本语料库数据和知识图谱数据；构建词语编码模型；基于维基百科文本语料库数据和知识图谱数据，训练词语编码模型，得到预训练的词语编码模型；

所述得到预训练的词语编码模型的过程具体包括：在知识图谱数据中任意一个三元组的头部实体、关系实体以及尾部实体的描述信息开始处插入特殊占位符，然后输入至词语编码模型，得到头部实体、关系实体和尾部实体的特征表示，以此计算知识嵌入损失；从维基百科文本语料库数据中随机抽取句子，随机在句子中选择一个词语用特殊字符替换，将替换后得到的句子输入至词语编码模型，预测特殊字符得到的表示，得到预测词语；根据预测词语和原词语计算交叉熵损失；根据知识嵌入损失和交叉熵损失，优化词语编码模型，得到预训练的词语编码模型；

所述基于自然语言查询描述数据，采用预训练的词语编码模型，得到自然语言查询描述表示的过程具体包括：利用预训练的词语编码模型对自然语言查询描述数据中的词语进行编码，得到自然语言查询的词语表示序列，作为拟生成结构化的文本表示的底层节点表示；根据底层节点表示，计算底层节点的隐藏和单元状态表示；自底向上聚集节点信息，直至得到自然语言查询描述表示；所述自底向上聚集节点信息，直至得到自然语言查询描述表示的过程包括：步骤（1）：基于当前层的节点表示，通过两两节点聚合，得到上一层级的候选节点表示；步骤（2）：引入一个可学习的参数向量，作为查询向量，计算每一个候选节点表示与查询向量的相关度分数；步骤（3）：采用Gumbel-Softmax计算分数分布，并得到采样独热向量；其中，独热向量中值为1的位置所对应的候选节点表示，作为上一层级聚集结果，其余位置则为当前层级对应位置节点表示；步骤（4）：重复执行步骤（1）-步骤（3），直至某一层级仅有一个节点信息，即自然语言查询描述表示。

2.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法，其特征在于，所述基于视频数据，得到候选时序视频片段的具体过程包括：

3.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法，其特征在于，所述词语编码模型为包含12层Transformer的BERT模型。

4.根据权利要求1所述的面向开放域查询的视频流行为片段搜索方法，其特征在于，所述知识嵌入损失为：