CN115563342A

CN115563342A - 一种视频主题检索的方法、系统、设备及存储介质

Info

Publication number: CN115563342A
Application number: CN202211277485.XA
Authority: CN
Inventors: 游强; 李高翔; 应鸿晖; 卓采标; 石易; 林佳涛; 王坚; 余昊楠
Original assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd; Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd; Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-01-03

Abstract

本发明公开了一种视频主题检索的方法、系统、设备及存储介质，用以解决现有技术样例视频的相似度计算是在较低级别上进行的问题。方法包括：S1、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；S2、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；S3、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。系统包括：预训练和调整模块、分割和聚类模块、输出模块。计算机设备包括：存储器、处理器，以及计算机程序。包含计算机可执行指令的存储介质用于执行视频主题检索的方法。

Description

一种视频主题检索的方法、系统、设备及存储介质

技术领域

本发明涉及计算机机器视觉技术领域，特别涉及一种视频主题检索的方法、系统、设备及存储介质。

背景技术

视频主题检索，属于基于内容的视频检索范畴，是指将给定查询主题相同或相近的视频检索出来。目前实现视频主题检索的方法基本分为两类：

第一类称之为基于文本的检索方案：

(1)基于视频文本摘要的检索方法。这种方法本质上是通过文本检索的方式来完成视频主题检索，其基本流程是，通过视频的标题或者介绍文本来完成视频的检索。如果需要使用文本检索视频，就需要大量已经准备好的视频及其描述文本。这种方法存在的问题主要有两个：一是网络上大量的视频是没有描述文本的，这样就没有办法检索到；而是描述文本与视频内容可能存在不一致的情况，从而造成从文本侧检索的结果与视频内容不符的情况出现。

(2)视频主题分类与查询标签扩展检索的方法。这种方法是将相关的查询映射到对应的视频主题类别中，然后将标记为对应类别主题的视频检索返回。由于基于分类的方法需要实现确定视频主题的类别个数，比如检索“美食”，有一类视频刚好是美食类别。如果用户检索“美食”，可以直接返回美食那一类视频。但是更多的时候用户可能不是直接检索“美食”，而是会检索到“大盘鸡”，这样只能关联到既有的“美食”类别，检索结果缺乏精准性。同时维护一套扩展的标签映射关系，需要大量的知识工程，无法很好地满足用户查询的多样性需求。

第二类称之为基于样例视频的检索方案：

这类方法与第一类方法不同的是，是从视频内容直接进行查询操作。避免了使用文本进行中间媒介而涉及的一系列语义鸿沟的问题。其基本方法是给定一批某一类特定主题的视频样例，然后根据这些视频样例种子检索到更多同一主题的视频集合。目前的方案都是基于视频中图像帧的相似度计算得到的。比如给定一个“用户抽烟”的视频，如果是同一个用户同样的场景一个抽烟一个不抽烟的相似度，就比不同用户抽烟的相似度要高。基本原因是目前基于图像的方案很多并没有在较高层语义(比如主题)上进行处理，造成基于样例视频的相似度计算还是在较低级别的场景(比如表观)上进行。如何让相似度计算更多地关注到主题级别呢？这是当前视频主题检索面临的问题。

发明内容

本发明提供了一种视频主题检索的方法、系统、设备及存储介质，用以解决现有技术样例视频的相似度计算是在较低级别上进行的问题。

为达到上述目的，本发明提供以下技术方案：

第一部分，本发明实施例的一种视频主题检索的方法，包括下列步骤：S1、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；S2、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；S3、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。

优选的，步骤S1中包括：S11、构建所述跨模态视觉语言模型的子步骤：具体基于CLIP模型获得描述文本与图像相似度；以及增加针对主题文本的文本编码器，用以将图像与主题文本在特征空间进行对齐，获得主题文本与图像相似度；将所述的描述文本与图像相似度与所述的主题文本与图像相似度进行加权求和，得到联合相似度。

优选的，步骤S1中包括：S12、收集训练数据的子步骤：具体是获取若干图像；从每一图像的文本中提取信息，形成包括图像、描述文本和主题文本的三元组；将各所述图像调整为预设宽、高的调整后图像，形成包括调整后图像、描述文本和主题文本的调整后三元组；以所述的调整后三元组作为训练数据，用于预训练跨模态视觉语言模型。

优选的，步骤S1中包括：S13、预训练跨模态视觉语言模型的子步骤：具体是获得所述训练数据之后，在已构建的所述跨模态视觉语言模型上训练每一个网络结构的权重，其中输入的是图像、描述文本和主题文本三元组，按照模态的不同，合并为图像文本对，其中描述文本和主题文本统一为文本模态，按照文本模态能否真实匹配图像模态的内容和主题，真实标签为相似或不相似，分别标记为1、0，使用的损失函数是对比损失；假设有不匹配的的图像文本对和匹配的图像文本对，分别输入对应的编码网络提取特征得到特征对，当预测输出标签分别为0、1，这样得到对比损失最小，基于梯度下降优化方法，最小化对比损失，训练后就得到了编码网络的权重。

优选的，步骤S1中包括：S14、收集检索相关任务视频，完成检索任务调整的子步骤：假定收集到检索相关任务视频的数量为M，则检索相关任务视频集合

其中

Q_j依次为序号j的原始视频、对视频检索的文本；对各视频解码生成解码图像帧序列；确定检索文本为主题文本的概率为p，则相应的一般性描述文本的相似度为1-p；假定

是视频

的第k解码图像，对第k解码图像的所述调整后三元组进行相应编码器的编码并进行特征提取，得到对应的三个特征

则联合相似度记为：

其中，

表示第k解码图像的图像，

表示第k解码图像的描述文本，

表示第k解码图像的主题文本；上述进行相应编码器的编码，具体是改变若干个编码器中网络的权重，使得当视频与检索文本不匹配时，通过训练编码器，使得联合相似度趋向于0，而当视频域检索文本匹配时，所述的联合相似度趋向于1，直到所述跨模态视觉语言模型收敛或者达到预设的迭代次数，以完成所述的检索任务调整。

优选的，步骤S2中包括：S21、对给定的样例视频集合的场景进行分割的子步骤，具体是对于单色帧，假定原始视频帧以I_rgb表示，转换为灰度图像为

I_gray＝0.299*I_r+0.587*I_g+0.114*I_b 公式二

视频帧的归一化灰度直方图表示为hist(I_gray)，直方图的桶数为B，对应灰度均值均匀分布为hist(μ_gray)，则颜色均匀性指标通过如下K-L散度计算：

设定第一阈值U_thresh，如果Uniformity(I_{gray}||μ_gray)≤U_thresh，则判定当前视频帧为单色视频帧；对于全局模糊的视频帧，基于锐度指标对当前视频帧进行选择，其中锐度为x轴与y轴灰度梯度的平方和，锐度计算公式如下：

其中，Δ_xI_gray表示x轴的灰度梯度，Δ_yI_gray表示y轴的灰度梯度；设定第二阈值S_thresh，如果锐度Sharpness(I_gray)≤S_thresh，则判定当前视频帧为是全局模糊的视频帧；若所述单色视频帧或/和全局模糊的视频帧连续出现的数量在预设的帧数3～15区间范围内，则判定是场景分界处，并据此对场景进行分割，直至当前的样例视频结束，形成若干样例视频片段。

优选的，步骤S2中包括：S22、对各样例视频片段进行特征提取的子步骤，具体是当前样例视频片段为Scene，将其视频解码得到的视频帧表示为

经过所述跨模态视觉语言模型中的相应编码器得到每一个视频帧对应的编码特征为

将当前样例视频片段Scene 中包含的所有视频帧的编码特征取均值得到当前样例视频片段的编码特征，通过如下公式计算：

所有样例视频片段经过上述操作后得到样例视频片段的编码特征集合。

优选的，步骤S2中包括：S23、对各样例视频片段的主题聚类的子步骤，具体是将所述样例视频片段的编码特征集合经过k均值聚类方法依次分配到C 个类别中。

优选的，步骤S3中包括：S31、构建视频检索特征向量库的子步骤；S32、视频主题检索的子步骤，具体是假定

为当前样例视频集合中第i个样例视频分割的第j个样例视频片段的编码特征，该编码特征经过k均值聚类后分到第c个聚类中；假定F_lm为所述视频检索特征向量库中第l个视频分割的第m 个视频场景片段的特征向量；则所述的第j个样例视频片段的编码特征与第m 个视频场景片段的特征向量之间的相似度通过向量点乘计算得到：

假定相似度阈值为S_t,那么当

则将对应样例视频片段的序号以及相似度记录下来，记为(i,j,c,l,m,S)。

优选的，步骤S3中包括：S33、对检索结果进行聚合和排序后输出的子步骤，具体是将被记录的样例视频片段召回次数由高到低排序，丢弃最低的N个样例视频片段，N为预设常数；剩余样例视频片段按照其序号进行聚合，将同属于一个视频的样例视频片段合并；将归属于同一视频的样例视频片段的相似度相加，得到该视频的相似度值，并对各视频的相似度值进行排序后输出。

第二部分，本发明实施例的一种视频主题检索的系统，包括：预训练和调整模块，用于预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；分割和聚类模块，用于对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；输出模块，基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出；采用上述视频主题检索的方法实施。

第三部分，本发明实施例的一种计算机设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明任意实施例所述的视频主题检索的方法。

第四部分，本发明实施例的一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的视频主题检索的方法。

本发明的视频主题检索的方法、系统、设备及存储介质，相较传统的视频主题检索往往通过文字描述作为中间媒介，将视频主题内容的检索转换为一种文本检索方法。本发明在检索的过程中不直接使用文本作为媒介，而是从视频的语义特征入手，必要的时候给定文本提取的语义特征作为辅助，降低了文本与视频主题之间由于模态不同而造成的语义鸿沟问题。

本发明采用了跨模态视觉语言模型，在预训练阶段通过大量的视觉信息- 语言描述信息成对的数据，将描述文本的抽象的高层语义特征与视觉描述的较具象的底层特征进行对齐，然后在几个重点关注的语义主题上进行下游任务的训练。使得视觉和语言不同模态的特征能够在同一语义空间中进行计算，同时视觉与语言的多模态信息的融合，能够补充彼此之间不同层级的语义信息不足的问题，使得检索结果的准确性大大提高。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例1的视频主题检索的方法流程图；

图2为本发明实施例1中基于主题文本增强的CLIP模型示意图；

图3为本发明实施例1中图像预处理缩放填充示意图；

图4为本发明实施例1中跨模态视觉语言模型的对比学习流程；

图5为本发明实施例1中给定样例视频的场景边界判断与分割流程；

图6为本发明实施例1中构建视频检索特征向量库流程图；

图7为本发明实施例1中样例视频的检索召回流程示意图；

图8为本发明实施例1中样例视频主题检索结果的聚合和排序示意图；

图9为本发明实施例2的视频主题检索的结构示意图；

图10为本发明实施例3的计算机设备结构示意图。

具体实施方式

发明人经过研究发现，视频主题检索是视频检索中的非常重要的一项任务，其基本任务是找出与视频库中存在同一个语义主题的视频候选集。比如要找出 "举报"相关的视频集合，"举报"作为一种用文本描述的具有较高层级抽象的语义主题，直接使用"举报"这样的文本来进行主题检索，往往检索出来的视频结果不理想。那么如何建立视频与文本两个模态之间的联系，减少视频与文本之间的语义鸿沟，让视频和文本能在同一个特征空间进行相似度计算，即视频与文本语义对齐和融合的操作；另外如何让视频更关注更高层次的主题信息，而非图像帧本身的低层次表观信息，比如物体、场景等，即视频语义抽象与主题聚类的操作等是急需解决的问题。以下通过实施例详述。

实施例1、本实施例的视频主题检索的方法，参见图1所示，包括下列主要步骤：S110、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整。S120、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类。S130、基于调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。

S110、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整。本步骤中包括：S1101跨模态视觉语言模型的构建、S1102训练数据集的收集与预处理、S1103跨模态视觉语言模型的预训练过程，以及S1104针对下游任务的精调四个子步骤。

S1101、跨模态视觉语言模型的构建

目前涉及多个模态间交互的模型基本都建立在Transformer结构之上，其原因是通过Transformer能有效统一视觉语言两个模态的表征，使得跨越不同模态产生语义交互变得简单。之前Transformer模型主要在自然语言处理中发挥作用(比如BERT模型)，其原因是自然语言天然能够划分为独立的词或者词组(Token)，然后通过Transformer中最重要的注意力机制(Attention)将不同词之间的语义关联关系建模起来。随着计算机视觉的深入，一些研究者发现图像也可以采用自然语言中类似的先将图像分块(Patch)，然后将图像块按照注意力机制关联起来的方法，得到图像的一个语义表征，在一些经典的视觉任务比如图像识别与物体检测上也取得了很好的效果，例如ViT模型。目前涉及跨模态预训练的典型模型CLIP，是一种用对比学习直接建立文本与图像的语义关联。

本实施例在基于ViT的CLIP基础上，增加了一项专门针对主题文本的优化，通过设置损失函数的权重使得图片更关注主题文本，而不仅仅是给定的该图片的一般描述文本。原始的CLIP模型与本发明的基于主题文本增强的CLIP 可以通过下面的示意图加以区分。基于原始的CLIP模型，可以将主题文本也当成一种补充的描述文本加入到对图片的一般的描述文本中构成统一的文本数据，但是由于主题文本与一般的描述文本在语义层级上存在一定的差异，所以我们基于主题文本增强的CLIP在编码主题文本和一般描述文本上选择了不同的文本编码器。如图2所示，其中虚线部分是原始基于ViT的CLIP模型基本流程，跟这个流程相比，增加了一个针对主题文本的文本编码器，用来将图像与主题文本在特征空间进行对齐。再将获得的描述文本与图像相似度与主题文本与图像相似度进行加权求和，得到联合相似度。

S1102、训练数据集的收集与预处理

为了训练跨模态视觉语言模型，需要视觉和语言两个模态的数据，其中视觉模态数据可以是视频或者图像数据，而视频中的视觉信息又可以通过一系列有时间先后顺序的图像帧序列表示。为了收集数据的方便，考虑使用图片以及图片的描述文本这样的数据对。为了对图片的文本进行主题层次的抽象，需从文本中提取较高层次的主题文本作为主题，形成三元组，即图像、描述文本、主题文本。

为了达到跨模态视觉语言模型训练数据集规模的要求，目前训练的数据集的收集分为两个来源：一是直接使用开源的数据集比如Zero数据集和Wukong 数据集等；二是自采集然后人工标注的方法。自采集可以通过搜索引擎搜集自己感兴趣的关键词，得到图像或是视频，通过抓取得到。

待数据收集完毕后，得到数量为N的三元组集合

，其中

T_i,L_i依次为序号i为原始图像、对图像的描述文本、主题文本。需要根据下列步骤完成数据的预处理。

按照所构建的模型要求，对于基于ViT的图像编码器，一般而言需要输入图像的宽高都是固定大小的，以常见的大小224为例，将原始图像

的长边缩放到224，然后短边低于224的用黑图在两侧均匀填充成为图像I_i，其操作示意图如图3所示。

这样得到了训练模型需要的调整后三元组集合{I_i,T_i,L_i},i＝1,…,N。下面就可以进入跨模态视觉语言模型的预训练阶段了。

S1103、跨模态视觉语言模型的预训练过程

该模型采用的预训练过程被称为对比学习(contrastive learning)，对比学习的框架如图4所示。准备好图像数据集之后，就在已构建的模型上训练每一个网络结构的权重，其中输入的是图像文本对{F_i,f_j:j≠i}，{F_i,f_i}，标签为相似、不相似，分别标记为1,0，使用的损失函数是对比损失。假设有不匹配的的图像文本对和匹配的图像文本对，分别输入对应的编码网络提取特征得到特征对，输出标签分别为0和1，这样得到对比损失最小，基于梯度下降优化方法，训练后就得到了编码网络的权重。基于编码网络模型就能够得到有利于图像检索的图像特征表示。

需要注意的是，基于构建的主题增强的CLIP模型中BERT编码器针对描述文本和主题文本是不同的，所以在训练过程中，实际是训练了两个结构相同的文本编码网络。在对比学习中流程中，由于流程一致，在框图中没有展示出来。

如果需要面对具体的业务，比如具体的检索下游任务，还需要针对检索任务收集对应的数据精调模型。

S1104、收集检索相关业务数据，完成检索任务的精调

针对视频主题检索任务，收集部分业务数据。假定收集到数量为M的数据 (视频)集合

其中

Q_j依次为序号j的原始视频、对视频检索的文本。视频通过解码成图像帧序列。考虑到实际业务场景中，视频检索的文本可能也会有低层次语义的一般描述文本，也可能有高层次语义的主题文本。在数据规模M为通过人工标注的方法，确定查询文本为主题文本的概率为p，则相应的为一般性描述文本的相似度为1-p。

假定

是视频

的第k解码图像，那么通过构造三元组

经过前面图像预处理和相应编码器的特征提取，得到对应的三个特征

则联合相似度可以记为：

使用对比学习进行精调时，改变几个编码器中网络的权重，使得当视频与检索文本不匹配时，通过训练编码器，让联合相似度趋向于0，而当视频域检索文本匹配时，联合相似度趋向于1，直到模型收敛或者达到预设的迭代次数。

以上叙述中使用的主题增强的CLIP未考虑到视频的时序关系，在一些涉及时序语义的视频中，可考虑替换为针对视频时序关系建模的TimeSFormer模型，也应在本发明保护范围之内。

下面就是根据带检索的样例视频集合，完成在视频检索库中的其他同主题视频的检索。

S120、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类。本步骤包括：S1201给定样例视频集合的场景分割、S1202 各样例视频片段的特征提取、S1203各样例视频片段的主题聚类三个子步骤。

S1201、给定样例视频集合的场景分割

对视频进行场景分割可以通过检测视频中场景切换的边界来完成，即检测场景切换过程中画面从单色(通常为黑色)到单色的淡入和淡出。基于这些场景切换的边界，自然而然地将视频分割成了不同的场景片段。为了防止一些较暗(亮)的视频场景被误检测为场景边界，下面采用了一种疑似过渡帧阈值统计的方法来进一步准确定位场景的边界。

考虑到场景切换中人眼的视觉暂留现象，为了让人眼感知到场景的切换，那些淡入淡出的过渡帧通常大于0.1秒；此外场景切换的时间也不会太长，经过统计分析发现，大部分场景切换都在0.5秒左右切换完成。现在视频的帧率一般在24～30帧/秒，所以考虑场景切换的边界帧数范围在3～15帧。这些场景过渡帧往往具有如下的两个个特点：要么是单色帧、要么由于过渡而存在比较明显的全局模糊帧，基于这两个特点，我们指定如下指标来对场景过渡帧进行筛选，以便确定场景的边界。

对于单色帧的可以通过颜色均匀性指标加以衡量。假定原始的视频帧可以 I_rgb使用表示，转换为灰度图像

I_gray＝0.299*I_r+0.587*I_g+0.114*I_b 公式二

定义颜色均匀性使用的是基于灰度均值均匀分布的K-L散度指标来计算的，视频帧的归一化灰度直方图表示为hist(I_gray)，直方图的桶(bin)数为B，对应灰度均值均匀分布为hist(μ_gray)，则颜色均匀性指标可以通过如下K-L 散度计算：

单色视频帧的选择通过设定单色视频帧的K-L散度阈值来判断，其基本逻辑是根据经验设定第一阈值U_thresh，如果Uniformity(I_{gray}||μ_gray)≤ U_thresh，则认为该候选视频帧为单色视频帧种子，否则不是。U_thresh的取值会比较谨慎，在实际应用中取U_thresh＝0.05就可以了。

通过梯度信息能发现全局模糊的视频帧，基于已有的锐度指标对候选视频帧进行选择，其中锐度可以看成了两个正交方向上比如x轴与y轴灰度梯度的平方和。

在实际应用，通过这一指标能够筛选出来全局模糊的视频帧，设置第二阈值S_thresh＝0.05，当锐度Sharpness(I_gray)≤S_thresh,则被认为是全局模糊的视频帧。

如图5所示，基于颜色均匀性和锐度两个指标，就能大致确定视频中哪些可能是场景过渡帧。如果连续的场景过渡帧统计数目在3～15帧以内，则代表该过渡部分确实是场景的分界处；否则这些被判定为过渡帧的部分不是场景的分界处，统计的过渡帧清零，继续往后计算两个指标直到视频的最后。

经过以上的流程，一个视频样例就被自然切分成若干个视频场景片段了，给定的主题样例视频集合被切分为视频场景片段集合了。需要注意的是，所有的视频场景片段均需丢弃掉视频场景的边界过渡帧。

S1202、各样例视频片段的特征提取

基于上一步骤得到的视频场景片段集合，给定任意场景片段Scene，其可以用解码得到的视频帧加以表示

经过预处理然后送入到跨模态模型中的ViT编码器得到每一个视频帧对应的编码特征为

直接将视频场景片段Scene中包含的所有视频帧的编码特征取均值得到场景片段的编码特征：

所有视频场景片段经过上面的操作，就得到了样例视频片段的编码特征集合。下面基于编码的特征集合，完成各场景片段的聚类。

S1203、各样例视频片段的主题聚类

根据业务的需求，把常见的检索主题分为C个总体类别中，将经过特征提取得到的视频场景片段特征集合经过k均值聚类方法依次分配到业务定义的 C个总体类别中。

S130、基于调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。本步骤包括：S1301构建视频检索特征向量库、S1302样例视频的检索召回过程、S1303样例视频主题检索结果的聚合和排序三个子步骤。

S1301、构建视频检索特征向量库

视频检索特征向量库与上述样例视频的场景分割和特征提取步骤类似，首先针对视频检索特征向量库中的每一个视频，按照场景分割方法切分成不同的场景片段，然后针对每一个场景片段经过特征提取，得到视频场景片段的特征，最后将得到的特征向量和视频对应的信息存入数据库中。其基本流程如图6所示。

S1302、样例视频的检索召回过程

基于给定的某个主题的样例视频集合，经过场景分割后形成样例视频片段集合，然后将样例视频片段送入特征提取模型中得到每个场景片段的特征，基于k均值聚类方法，将场景片段的特征集合分到C个总体类别中，将每一个类别中的特征分别与构建的视频检索特征向量库中的特征向量进行相似度计算，设定相似度阈值，如果大于相似度阈值，那么将检索结果和相似度返回，具体流程参见图7所示。

假定

为给定的样例视频集合中第i个样例视频分割的第j个样例视频片段的特征向量，该特征向量经过k均值聚类后分到第c个聚类中。

假定F_lm为给定的视频检索特征向量库中第l个视频分割的第m个视频场景片段的特征向量。

则两者之间的相似度可以通过向量点乘得到：

假定相似度阈值为S_t,那么当

将对应样例视频片段序号以及相似度记录下来，记为(i,j,c,l,m,S)，为后续聚合和排序做准备。

S1303、样例视频主题检索结果的聚合和排序

经过上一步骤，得到样例视频片段以及召回的视频检索特征向量库视频片段相关信息为(i,j,c,l,m,S)。参见图8所示，下面具体按照类别c进行聚合，将所有样例视频片段召回的视频片段次数排序，丢弃掉主题召回次数较少的类别(召回的可能是噪声主题)，比如如果总共召回了U个片段，那么当聚类中片段的次数不大于

该类别所有的召回结果被丢弃掉。再按照召回的视频编号聚合，将同属于一个视频的片段进行聚合，如果同一个视频被召回的次数过少，比如如果给定的同一主题的样例视频总共V个片段，当底库中的视频次数不大于V/10时，说明召回的可能是噪声视频，该视频的所有召回结果被丢弃掉。最后将所有符合要求的底库视频按照召回片段的相似度结果相加，得到该底库视频的排序。该过程可以基于以下阈值筛选流程进行筛选。

实施例2、本实施例的视频主题检索的系统，参见图9所示，包括：预训练和调整模块201、分割和聚类模块202、输出模块203，采用实施例1的视频主题检索的方法实施。

预训练和调整模块201，用于预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；

分割和聚类模块202，用于对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；

输出模块203，基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。

实施例3、本实施例的计算机设备，参见图10所示，显示的计算机设备 300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机设备300以通用计算设备的形式表现。计算机设备 300的组件可以包括但不限于：一个或者多个处理器或者处理单元301，系统存储器302，连接不同系统组件(包括系统存储器302和处理单元301)的总线303。

总线303表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构 (ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备300典型的包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备300访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器302可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)304和/或高速缓存305。计算机设备300可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统306可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘 (例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线303相连。系统存储器302可以包括至少一个程序产品，该程序产品具有一组(例如至少一个) 程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块307的程序/实用工具308，可以存储在例如系统存储器302中，这样的程序模块307包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块307通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备300也可以与一个显示器310或多个外部设备309(例如键盘、指向设备、等)通信，还可与一个或者多个使得用户能与该计算机设备300交互的设备通信，和/或与使得该计算机设备300能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口311进行。并且，计算机设备300还可以通过网络适配器312与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网通信。如图10所示，网络适配器312通过总线303与计算机设备300的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元301通过运行存储在系统存储器302中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种视频主题检索的方法，包括下列步骤：S110、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；S120、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；S130、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。

实施例4、本实施例的包含计算机可执行指令的存储介质，其内部存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种视频主题检索的方法，包括下列步骤：S110、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；S120、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；S130、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。

本实施例的包含计算机可执行指令的存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频主题检索的方法，其特征在于，包括下列步骤：

S1、预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；

S2、对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；

S3、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出。

2.如权利要求1所述的视频主题检索的方法，其特征在于，步骤S1中包括：S11、构建所述跨模态视觉语言模型的子步骤：具体基于CLIP模型获得描述文本与图像相似度；以及增加针对主题文本的文本编码器，用以将图像与主题文本在特征空间进行对齐，获得主题文本与图像相似度；将所述的描述文本与图像相似度与所述的主题文本与图像相似度进行加权求和，得到联合相似度。

3.如权利要求2所述的视频主题检索的方法，其特征在于，步骤S1中包括：S12、收集训练数据的子步骤：具体是获取若干图像；从每一图像的文本中提取信息，形成包括图像、描述文本和主题文本的三元组；将各所述图像调整为预设宽、高的调整后图像，形成包括调整后图像、描述文本和主题文本的调整后三元组；以所述的调整后三元组作为训练数据，用于预训练跨模态视觉语言模型。

4.如权利要求3所述的视频主题检索的方法，其特征在于，步骤S1中包括：S13、预训练跨模态视觉语言模型的子步骤：具体是获得所述训练数据之后，在已构建的所述跨模态视觉语言模型上训练每一个网络结构的权重，其中输入的是图像、描述文本和主题文本三元组，按照模态的不同，合并为图像文本对，其中描述文本和主题文本统一为文本模态，按照文本模态能否真实匹配图像模态的内容和主题，真实标签为相似或不相似，分别标记为1、0，使用的损失函数是对比损失；假设有不匹配的的图像文本对和匹配的图像文本对，分别输入对应的编码网络提取特征得到特征对，当预测输出标签分别为0、1，这样得到对比损失最小，基于梯度下降优化方法，最小化对比损失，训练后就得到了编码网络的权重。

5.如权利要求4所述的视频主题检索的方法，其特征在于，步骤S1中包括：S14、收集检索相关任务视频，完成检索任务调整的子步骤：

假定收集到检索相关任务视频的数量为M，则检索相关任务视频集合

其中

Q_j依次为序号j的原始视频、对视频检索的文本；

对各视频解码生成解码图像帧序列；

确定检索文本为主题文本的概率为p，则相应的一般性描述文本的相似度为1-p；

假定

是视频

则联合相似度记为：

其中，

表示第k解码图像的图像，

表示第k解码图像的描述文本，

表示第k解码图像的主题文本；

上述进行相应编码器的编码，具体是改变若干个编码器中网络的权重，使得当视频与检索文本不匹配时，通过训练编码器，使得联合相似度趋向于0，而当视频域检索文本匹配时，所述的联合相似度趋向于1，直到所述跨模态视觉语言模型收敛或者达到预设的迭代次数，以完成所述的检索任务调整。

6.如权利要求1所述的视频主题检索的方法，其特征在于，步骤S2中包括：S21、对给定的样例视频集合的场景进行分割的子步骤，具体是对于单色帧，假定原始视频帧以I_rgb表示，转换为灰度图像为

I_gray＝0·299*I_r+0·587*I_g+0.114*I_b 公式二

设定第一阈值U_thresh，如果Uniformity(I_{gray}||μ_gray)≤U_thresh，则判定当前视频帧为单色视频帧；

对于全局模糊的视频帧，基于锐度指标对当前视频帧进行选择，其中锐度为x轴与y轴灰度梯度的平方和，锐度计算公式如下：

其中，Δ_xI_gray表示x轴的灰度梯度，Δ_yI_gray表示y轴的灰度梯度；

设定第二阈值S_thresh，如果锐度Sharpness(I_gray)≤S_thresh，则判定当前视频帧为是全局模糊的视频帧；

若所述单色视频帧或/和全局模糊的视频帧连续出现的数量在预设的帧数区间3～15帧范围内，则判定是场景分界处，并据此对场景进行分割，直至当前的样例视频结束，形成若干样例视频片段。

7.如权利要求6所述的视频主题检索的方法，其特征在于，步骤S2中包括：S22、对各样例视频片段进行特征提取的子步骤，具体是当前样例视频片段为Scene，将其视频解码得到的视频帧表示为

将当前样例视频片段Scene中包含的所有视频帧的编码特征取均值得到当前样例视频片段的编码特征，通过如下公式计算：

8.如权利要求7所述的视频主题检索的方法，其特征在于，步骤S2中包括：S23、对各样例视频片段的主题聚类的子步骤，具体是将所述样例视频片段的编码特征集合经过k均值聚类方法依次分配到C个类别中。

9.如权利要求8所述的视频主题检索的方法，其特征在于，步骤S3中包括：S31、构建视频检索特征向量库的子步骤；

S32、视频主题检索的子步骤，具体是假定

为当前样例视频集合中第i个样例视频分割的第j个样例视频片段的编码特征，该编码特征经过k均值聚类后分到第c个聚类中；

假定F_lm为所述视频检索特征向量库中第l个视频分割的第m个视频场景片段的特征向量；

则所述的第j个样例视频片段的编码特征与第m个视频场景片段的特征向量之间的相似度通过向量点乘计算得到：

假定相似度阈值为S_t,那么当

10.如权利要求9所述的视频主题检索的方法，其特征在于，步骤S3中包括：S33、对检索结果进行聚合和排序后输出的子步骤，具体是将被记录的样例视频片段召回次数由高到低排序，丢弃最低的N个样例视频片段，N为预设常数；剩余样例视频片段按照其序号进行聚合，将同属于一个视频的样例视频片段合并；将归属于同一视频的样例视频片段的相似度相加，得到该视频的相似度值，并对各视频的相似度值进行排序后输出。

11.一种视频主题检索的系统，其特征在于，包括：

预训练和调整模块，用于预训练跨模态视觉语言模型，并对所述跨模态视觉语言模型进行调整；

分割和聚类模块，用于对给定的样例视频集合的场景进行分割，并对分割后的各样例视频片段的主题进行聚类；

输出模块，基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索，并对检索结果进行聚合和排序后输出；

采用上述权利要求1至10任一项视频主题检索的方法实施。

12.一种计算机设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-10任一项所述的视频主题检索的方法。

13.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10任一项所述的视频主题检索的方法。