CN114581821A

CN114581821A - 一种视频检测方法、系统及存储介质和服务器

Info

Publication number: CN114581821A
Application number: CN202210166453.6A
Authority: CN
Inventors: 陈长汶; 刘烨; 单瀛; 李思远; 伍洋; 郄小虎
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-06-03
Anticipated expiration: 2042-02-23
Also published as: CN114581821B

Abstract

本发明实施例公开了一种视频检测方法、系统及存储介质和服务器，应用于基于人工智能的信息处理技术领域。视频检测系统会将目标视频分为多个模态的目标检测数据，分别获取到对应的单模态注意特征，再将这些单模态注意特征进行融合得到目标视频的全局特征，然后获取到全局特征与特定检测信息之间的相似性特征信息，并基于相似性特征信息确定与特定检测信息相关的视频片段。这样通过对各个模态的目标检测数据的单独处理，可以较精确地获取目标视频中包含的所有类型的信息，进而将各个单模态注意特征融合得到的全局特征能更真实地反映目标视频，最终确定的视频片段也更准确。

Description

一种视频检测方法、系统及存储介质和服务器

技术领域

本发明涉及基于人工智能的信息处理技术领域，特别涉及一种视频检测方法、系统及存储介质和服务器。

背景技术

目前视频检测技术，一般可以检测出目标视频中符合特定条件的部分，可以广泛应用于视频片段检索、高光时刻检测、视频混剪及视频封面生成等场景中，需要保证对目标视频检测的准确性，才能满足用户在各个场景下的需求。

现有的视频检测方法可以包括：采用人工智能的网络模型，根据特定条件从目标视频中检测出相关的视频片段，但是，现有的视频检测方法只考虑到视频中只有一个相关的视频片段，且网络模型在训练时使用的数据集也存在较严重的偏置，即多数目标片段均位于视频的开头，使得对目标视频检测的精确度也不高，且网络模型的鲁棒性和泛化性也不佳，无法很好地地应用于较复杂的真实场景中。

发明内容

本发明实施例提供一种视频检测方法、系统及存储介质和服务器，提高了对视频检测的准确性。

本发明实施例一方面提供一种视频检测方法，包括：

获取目标视频包含的多个模态的目标检测数据，及获取特定检测信息；

获取所述多个模态的目标检测数据分别对应的单模态注意特征；

将所述多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到所述目标视频的全局特征；

获取所述全局特征与特定检测信息之间的相似性特征信息；

根据所述相似性特征信息确定所述目标视频中与所述特定检测信息相关的视频片段。

本发明实施例另一方面提供一种视频检测系统，包括：

信息获取单元，用于获取目标视频包含的多个模态的目标检测数据，及获取特定检测信息；

单模态特征单元，用于获取所述多个模态的目标检测数据分别对应的单模态注意特征；

融合单元，用于将所述多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到所述目标视频的全局特征；

相似单元，用于获取所述全局特征与特定检测信息之间的相似性特征信息；

检测单元，用于根据所述相似性特征信息确定所述目标视频中与所述特定检测信息相关的视频片段。

本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如本发明实施例一方面所述的视频检测方法。

本发明实施例另一方面还提供一种服务器，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如本发明实施例一方面所述的视频检测方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

可见，在本实施例的方法中，视频检测系统会将目标视频分为多个模态的目标检测数据，分别获取到对应的单模态注意特征，再将这些单模态注意特征进行融合得到目标视频的全局特征，然后获取到全局特征与特定检测信息之间的相似性特征信息，并基于相似性特征信息确定与特定检测信息相关的视频片段。这样通过对各个模态的目标检测数据的单独处理，可以较精确地获取目标视频中包含的所有类型的信息，进而将各个单模态注意特征融合得到的全局特征能更真实地反映目标视频，最终确定的视频片段也更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频检测方法的示意图；

图2是本发明一个实施例提供的一种视频检测方法的流程图；

图3是本发明一个实施例中训练视频检测模型的方法流程图；

图4是本发明一个实施例中确定的视频检测初始模型的示意图；

图5是本发明一个应用实施例中训练得到的视频检测模型的示意图；

图6是本发明一个应用实施例提供的一种视频检测方法的流程图；

图7是本发明一个应用实施例中跨模态编码器与单模态编码器的结构示意图；

图8是本发明一个应用实施例中检测的高光显著性分数的曲线图；

图9是本发明另一应用实施例中视频检测方法所应用于的分布式系统的示意图；

图10是本发明另一应用实施例中区块结构的示意图；

图11是本发明实施例提供的一种视频检测系统的逻辑结构示意图；

图12是本发明实施例提供的一种服务器的逻辑结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种视频检测方法，可以应用于视频片段检索、高光时刻检测、视频混剪及视频封面生成等场景中，具体地，如图1所示，视频检测系统可以通过如下步骤实现对目标视频的检测：

获取目标视频包含的多个模态(图中以n个模态为例说明)的目标检测数据，及获取特定检测信息；获取所述多个模态的目标检测数据分别对应的单模态注意特征；将所述多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到所述目标视频的全局特征；获取所述全局特征与特定检测信息之间的相似性特征信息；根据所述相似性特征信息确定所述目标视频中与所述特定检测信息相关的视频片段。

在实际应用中，视频检测系统可以应用于但不限于如下形式的用户终端：手机、电脑、智能语音交互设备、智能家电、车载终端等，还可以应用于服务器中，不对具体所应用的装置进行限制。

这样通过对各个模态的目标检测数据的单独处理，可以较精确地获取目标视频中包含的所有类型的信息，进而将各个单模态注意特征融合得到的全局特征能更真实地反映目标视频，最终确定的视频片段也更准确。

本发明实施例提供一种视频检测方法，主要是由视频检测系统所执行的方法，流程图如图2所示，包括：

步骤101，获取目标视频包含的多个模态的目标检测数据，及获取特定检测信息。

可以理解，视频检测系统会提供用户接口，这样用户可以操作该用户接口，从用户接口输入特定检测信息，并发起基于特定检测信息的视频检测请求，该视频检测请求用于请求视频检测系统检测与特定检测信息相关的视频片段，则视频检测系统在获取到视频检测请求后，即可发起本实施例的视频检测流程。例如，视频检测系统提供用户搜索接口，当用户通过用户搜索接口输入待搜索的关键字，并触发开始搜索控件时，视频检测系统可以获取到基于待搜索的关键字的视频检测请求。

进一步地，用户在通过上述用户接口发起视频检测请求的过程中，还可以通过视频检测系统提供的用户接口指定一个视频作为目标视频，则发起的视频检测请求用于请求视频检测系统在目标视频中检测与特定检测信息相关的视频片段。

其中，特定检测信息是对于检测到的视频片段所满足的一定条件，可以是用户输入的一段语音、图片或短文本等。

当视频检测系统发起本实施例的流程时，可以将系统中任一视频作为目标视频，或者将用户发起的视频检测请求中指定的视频作为目标视频，并获取目标视频所包含的多个模态的目标检测数据，每个模态的目标检测数据为在目标视频中包含的一种格式的数据，比如目标视频中包含的多帧图像数据，或目标视频中的音频数据，或目标视频中字幕信息对应的文本数据等。

步骤102，获取多个模态的目标检测数据分别对应的单模态注意特征。

视频检测系统需要针对每个模态的目标检测数据，都要获取对应的单模态注意特征，该单模态注意特征是指对目标检测数据的特征信息中有些方面的特征进行重点注意(即增强)后得到的特征，具体地，需要为目标检测数据的特征信息中各个子特征设置权重值，比如为重点注意的特征设置较大的权重值，在具体的实现时，可以根据各个模态的目标检测数据的特征信息学习出多组权重矩阵，每组权重矩阵可以对单模态的目标检测数据的特征信息进行有效信息的增强。

在本实施例中，单模态注意特征主要是对单模态的目标检测数据的特征信息进行全局上下文聚合后加权融合，即可得到单模态注意特征。

具体地，视频检测系统可以先提取各个模态的目标检测数据的特征信息，然后采用注意力机制将特征信息中各个子特征的加权值进行融合后得到目标检测数据的单模态注意特征。

步骤103，将多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到目标视频的全局特征。

具体地，视频检测系统可以先将多个模态的目标检测数据对应的单模态注意特征分别压缩到低维度特征空间，得到多个低维度特征；然后将多个低维度特征进行融合，得到融合后特征；最后将融合后特征再扩展到高维度特征空间，得到的高维度融合特征即为上述目标视频的全局特征，其中，假设高维度特征空间的维度为N_v，需要与上述单模态注意特征的维度一致，而低维度特征空间的维度为N_b，在具体实现时，维度N_b可以远小于维度N_v，即N_b《N_v。

由于视频检测系统在进行特征融合时主要是在低维度空间进行融合，使得进行特征融合的计算复杂度较低。

步骤104，获取全局特征与特定检测信息之间的相似性特征信息。

具体地，相似性特征信息用于表示全局特征中各个子特征分别与特定检测信息所表示的特征之间的相似性，比如可以计算各个子特征与特定检测信息所表示的特征之间的距离信息等。

步骤105，根据相似性特征信息确定目标视频中与特定检测信息相关的视频片段。

进一步地，视频检测系统针对目标视频的检测任务除了确定视频片段之外，还可以有其它检测任务，比如检测高光显著性分数等，具体地，视频检测系统可以根据上述相似性特征信息获取上述目标视频所包括的各个子片段的高光显著性分数。这样，对目标视频的多项检测任务可以使用相同的相似性特征信息，从而可以简化了对目标视频的检测。

其中，高光显示著性分数用于指示目标视频中各个子片段为高光片段是否显著的分数，每个子片段的长度可以相同，比如都为2s的视频子片段。

需要说明的是，上述步骤102到104可以通过预置的视频检测模型来实现，而视频检测模型是一种基于人工智能的机器学习模型，可以事先通过一定的训练方法训练得到，并将其运行逻辑储存在视频检测系统中，当视频检测系统发起本实施例的流程时，在执行了步骤101后，可以直接调用预置的视频检测模型来执行步骤102到105。其中，在训练视频检测系统时使用的训练样本可以包括：多个样本视频、各个样本视频对应的特定检测样本及各个样本视频中基于特定检测样本的视频片段标注。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

在一个具体的实施例中，为了实现上述步骤102到105，可以事先按照如下步骤来训练视频检测模型，流程图如图3所示，包括：

步骤201，确定视频检测初始模型，视频检测初始模型包括：多个模态分别对应的第一特征模块、第二特征模块、跨模态特征模块、查询特征模块及片段输出模块。

可以理解，视频检测系统在确定视频检测初始模型时，会确定视频检测初始模型所包括的多层结构和各层机构中参数的初始值。

具体地，如图4所示，视频检测初始模型可以包括：多个第一特征模块10、第二特征模块11、跨模态特征模块12、查询特征模块13及片段输出模块14，其中：

任一模态的第一特征模块10，用于获取视频样本包含的任一模态的目标检测数据对应的单模态注意特征；跨模态特征模块12，用于将各个第一特征模块10获取的单模态注意特征进行融合得到视频样本的全局特征；第二特征模块11，用于获取特定检测样本的特征信息；查询特征模块13，用于获取跨模态特征模块12得到的全局特征与第二特征模块11获取对应的特定检测样本的特征信息之间的相似性特征信息；片段输出模块14，用于根据查询特征模块13获取的相似性特征信息，确定各个视频样本中基于相应特定检测样本的视频片段。

进一步地，在确定的视频检测初始模型中还可以包括：高光信息输出模块15，用于根据查询特征模块13获取的相似性特征信息，确定视频样本中目标视频中各自片段的高光显著性分数。

视频检测初始模型的参数是指视频检测初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

步骤202，确定训练样本，训练样本中包括多个视频样本、各个视频样本对应的特定检测样本及各个视频样本中基于特定检测样本的视频片段标注。

进一步地，若上述步骤201中确定的视频检测初始模型中包括高光信息输出模块15，为了训练该高光信息输出模块15，则在训练样本中还包括各个视频样本中各个子片段的高光显著性标注。

步骤203，通过任一模态的第一特征模块10获取视频样本包含的任一模态的目标检测数据对应的单模态注意特征，通过跨模态特征模块12将第一特征模块获取的单模态注意特征进行融合得到视频样本的全局特征，通过第二特征模块11获取特定检测样本的特征信息，通过查询特征模块13获取全局特征与对应的特定检测样本的特征信息之间的相似性特征信息，通过片段输出模块14确定视频样本中基于相应特定检测样本的视频片段。

进一步地，还可以通过高光信息输出模块15确定视频样本中所包括的各个子片段的高光显著性分数。

步骤204，根据视频检测初始模型得到的各个视频样本的视频片段训练样本中相应视频样本的视频片段标注，调整视频检测初始模型，以得到预置的视频检测模型。

具体地，视频检测系统会先根据上述步骤203中视频检测初始模型得到的视频片段，及训练样本中的视频片段标注，计算与视频检测初始模型中相关的第一损失函数，该第一损失函数用于指示视频检测初始模型检测的各个视频的视频片段，与各个视频样本中基于特定检测样本的实际视频片段(根据视频片段标注得到)的误差，比如交叉熵损失函数等。

具体地，视频检测系统会先根据视频检测初始模型中片段输出模块14输出的各个视频样本的视频片段和所述训练样本中相应视频样本的视频片段标注，计算视频检测初始模型的误差；然后根据视频检测初始模型的误差，计算与视频检测初始模型相关的第一损失函数。

而视频检测模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的视频检测初始模型中参数的参数值，并使得上述第一损失函数的计算值降至最低。

具体地，当计算的第一损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的损失函数的函数值减小。

进一步地，在一个具体的实施例中，若上述步骤201中确定的视频检测初始模型中包括高光信息输出模块15，则在调整视频检测初始模型时，还需要结合高光信息输出模块15输出的高光显著性分数来进行调整。具体地，视频检测系统除了计算上述第一损失函数外，还需要根据视频检测初始模型中高光信息输出模块15输出的各个视频样本中子片段的高光显著性分数和训练样本中相应视频样本各子片段的高光显著性标注，计算视频检测初始模型中高光信息输出模块15的误差；然后根据该误差计算与视频检测初始模型中高光信息输出模块15相关的第二损失函数，并根据第一损失函数和第二损失函数计算视频检测初始模型的整体损失函数，然后再根据整体损失函数调整视频检测初始模型中参数的参数值。

在这种情况下，视频检测模型的训练过程就是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的视频检测初始模型中参数的参数值，并使得上述整体损失函数的计算值降至最低。

另外需要说明的是，上述步骤203到204是通过视频检测初始模型确定的各个视频样本的视频片段，对视频检测初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，视频检测系统在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程，并将步骤204中调整的视频检测初始模型作为预置的视频检测模型；当不满足时，则针对调整参数值后的视频检测初始模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

以下以一个具体的应用实例来说明本发明的视频检测方法，本实施例中训练的视频检测模型可以如图5所示，包括：两个模态(图像格式和音频格式)分别对应的模态特征模块20和单模态编码器21，特定特征模块22，跨模态编码器23，查询生成模块24，查询编码器25，片段输出26和高光信息输出27，其中：

各个模态的模态特征模块20和单模态编码器21结合后与上述第一特征模块类似，其中的模态特征模块20用于提取任一视频中相应模态的目标检测数据的特征信息，单模态编码器21用于根据模态特征模块20提取的特征信息获取目标检测数据的单模态注意特征。

具体地，单模态编码器21可以由一个或多个变压(Transformer)编码器层实现，每层可以包含一个多头自注意力模块和一个前馈神经网络，为了避免梯度弥散，保证训练阶段的稳定性，每层中还添加了残差连接和层标准化模块。

特定特征模块22与上述第二特征模块类似，用于获取特定检测信息的特征信息。

跨模态编码器23与上述跨模态特征模块类似，用于将各个单模态注意特征进行融合得到任一视频的全局特征。

查询生成模块24和查询编码器25结合后与上述查询特征模块类似，其中的查询生成模块24用于获取全局特征与特定检测信息的特征信息之间的相似性信息，而查询编码器25用于采用注意力机制对查询生成模块24的相似性信息进行处理得到相似性特征信息，该相似性特征信息是将相似性信息中某些信息进行重点注意后得到的特征信息。

具体地，查询生成模块24可以由一个多个注意力层实现，具体地，可以估计全局特征中各个子特征分别与特定检测信息的特征信息之间的相似性；查询编码器25可以由一定数量的Transformer解码器层实现，每层包含一个多头自注意力模块，一个多头注意力模块和一个前馈神经网络。

片段输出26和高光信息输出27分别与上述的片段输出模块和高光信息输出模块类似。其中，片段输出26具体可以得到任一视频中基于特定检测信息的视频片段的时域中心点、长度和中心点偏移量等。

当上述视频检测模型训练好后，可以将视频检测模型的运行逻辑事先预置在视频检测系统中，这样，如图6所示，视频检测系统可以通过如下步骤实现对目标视频的检测：

步骤301，用户通过视频检测系统提供的用户接口输入特定检测信息，且指定一个视频作为目标视频，并发起视频检测请求，用于请求在目标视频中检测出与特定检测信息相关的视频片段。

步骤302，当视频检测系统获取到视频检测请求后，调用系统中预置的视频检测模型。

步骤303，视频检测系统获取目标视频中两个模态的目标检测数据，具体为图像格式的目标检测数据和音频格式的目标检测数据，并输入到视频检测模型的相应模态的模态特征模块20中，分别得到各个模态的目标检测数据的特征信息

和

其中，N_v是目标检测数据的长度。同时视频检测系统会执行如下步骤304。

步骤304，视频检测系统会将特定检测信息输入到特定特征模块22，提取得到特定检测信息的特征信息

其中，N_t是特定检测信息的长度。

步骤305，各个模态的单模态编码器21会分别获取到各个模态的目标检测数据的特征信息

和

的单模态注意特征

和

然后由跨模态编码器23将各个单模态注意特征进行融合，得到目标视频的全局特征

具体地，为了减少模态间的噪声传递，并且降低计算成本，跨模态编码器23在实现时，可以采用信息压缩-扩张的机制来进行特征传播。一般情况下，跨模态编码器23可以包括多层跨模态编码和一个融合子模块，多层跨模态编码之间串联连接，即一个单层的跨模态编码的输出连接到另一单层的跨模态编码的输入，多层跨模态编码中的第一单层跨模态编码用于分别对各个模态的单模态注意特征进行特征注意处理，得到跨模态注意特征，而之后的每层的第二单层跨模态编码用于分别对前一单层跨模态编码得到的各个模态的跨模态注意特征进行特征注意处理，得到另一跨模态注意特征；而融合子模块用于将多层跨模态编码中最后一单层跨模态编码得到的各个模态的跨模态注意特征进行融合得到目标视频的全局特征。

这样，各个单模态编码器21得到的单模态注意特征分别经过多层跨模态编码的处理后得到跨模态注意特征，最后由融合子模块将各个跨模态注意特征进行融合即可得到目标视频的全局特征。

如图7所示的为一个单层的跨模态编码，该单层的跨模态编码可以包括：多个多头注意力子模块、多个层标准化、叠加子模块及一个前馈神经网络，具体地：

跨模态编码器23中多个多头注意力子模块的第一多头注意力子模块使用一个较短的媒介特征序列

(N_b远小于N_v)，分别将多个模态的目标检测数据的单模态注意特征(

和

)压缩到低维度特征空间，并在低维度特征空间对各个模态注意特征进行注意力处理后，由多个层标准化中的第一层标准化将低维度的注意力处理后的特征进行标准化处理得到第一标准化特征，其中，第一多头注意力子模块主要将媒介特征序列作为q，将单模态特征信息作为k与v进行压缩；叠加子模块将各个模态对应的第一层标准化得到的第一标准化特征及上述媒介特征序列

叠加后得到压缩后的跨模态特征序列

将压缩后的跨模态特征序列

分别输入到多个多头注意力子模块中的第二多头注意力子模块中。

各个第二多头注意力子模块先将压缩后的跨模态特征序列

扩展到高维度空间得到注意力处理后的特征，由多层标准化中的第二层标准化根据相应模态的目标检测数据的单模态注意特征(

或

)及注意力处理后的特征进行求和及标准化处理，得到第二标准化特征，实现了将低维空间的特征扩展到高维度空间，具体扩展到相应模态中，其中，第二多头多注意力子模块会将单模态注意特征作为q，压缩后的跨模态特征序列作为k与v，将压缩后的跨模态特征序列进行注意力处理后扩展到各个模态原本的高维度特征空间；再通过一个前馈神经网络用于对第二标准化特征进行过滤处理即精炼改善处理，最后通过多层标准化中的第三标准化根据过滤后特征进行求和及标准化处理后输出相应模态的跨模态注意特征

和

在这个过程中，跨模态编码器23中的单层跨模态编码采用压缩-扩张机制将针对各个单模态的特征计算限制在低维度空间，然后再扩展并传播到各个单模态中，计算复杂度从平房降低到线性，并且有效提升跨模态的性能。

步骤306，查询生成模块24会获取全局特征中各个子特征

分别与特定检测信息的特征信息

之间的相似性信息

而查询编码器25会根据查询生成模块24获取到的相似性信息

及跨模态编码器23得到的全局特征信息

获取到目标视频与特定检测信息之间的相似性特征信息

该相似性特征信息

适合片段输出26和高光信息输出27的处理，与片段输出26及高光信息输出27所要求的输入信息的格式、维度等信息都一致。

步骤307，片段输出26根据相似性特征信息

确定目标视频中与特定检测信息相关的视频片段的信息，同时高光信息输出27根据相似性特征信息

确定目标视频中各个子片段，特别是与特定检测信息相关的视频片段的高光显著性分数。

可见，本实施例的方法中，通过视频检测模型将检测目标视频的视频片段和高光信息这两个任务进行统一，且该模型对多个模态的目标检测信息分开进行处理，使得能准确地描述目标视频的特征，提高了对目标视频的检测精度。同时，该视频检测模型能够自动适应多种不同模态的输入-输出组合，既提高了模型在面对多种查询的鲁棒性和泛化性，也能够适用于可用信息不足，单个或多个模态输入缺失的场景。

针对视频片段的高光信息的检测方面，当对目标视频中单模态的目标检测数据进行处理从而检测出高光显著性分数，及采用本发明实施例中多模态的目标检测数据检测出高光显著性分数，高光显著性分数随着目标视频中时间的变化的曲线图如图8所示，其中，曲线1到4分别表示采用图片格式的目标检测数据检测出的高光显著性分数、采用音频格式的目标检测数据检测出的高光显著性分数、高光显著性分数的真实值及采用多模态的目标检测数据检测出的高光显著性分数。可见，采用多模态的目标检测数据检测出的高光显著性分数更接近真实值，本发明实施例的视频检测模型具有更高的鲁棒性和泛化性。

进一步地，采用多种数据集，比如QVHighlights、YouTube Highlights和TVSum等数据集，作为训练样本来训练视频检测模型，通过视频检测模型对目标视频中相关的视频片段进行检测的性能采用召回率(R1)和平均精度均值(mAP)两个指标进行衡量，对目标视频中子片段的高光信息的检测性能采用平均精度均值(mAP)进行评估。

当训练的视频检测模型采用多种不同的网络结构(比如MCN、CAL、XML等)时，对得到的视频检测模型的性能比较结果如下表1所示，而在不同数据集上训练得到不同网络结构的视频检测模型的性能比较结构如下表2所示。可见，在各个数据集上得到的视频检测模型的各个性能指标显示，采用无论在哪种数据集，采用本发明实施例中的视频检测模型的结构时，对视频片段和高光信息的检测方面都较优(如下表1和表2中加粗字体所示为较优的指标)。

表1

表2

以下以另一具体的应用实例来说明本发明中视频检测方法，本发明实施例中的视频检测系统主要为分布式系统100，该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)，客户端300与节点200之间通过网络通信的形式连接。

以分布式系统为区块链系统为例，参见图9是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图9示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括实现视频检测功能的代码，该视频检测功能主要包括：

获取目标视频包含的多个模态的目标检测数据，及获取特定检测信息；获取所述多个模态的目标检测数据分别对应的单模态注意特征；将所述多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到所述目标视频的全局特征；获取所述全局特征与特定检测信息之间的相似性特征信息；根据所述相似性特征信息确定所述目标视频中与所述特定检测信息相关的视频片段。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图10为本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例还提供一种视频检测系统，其结构示意图如图11所示，具体可以包括：

信息获取单元30，用于获取目标视频包含的多个模态的目标检测数据，及获取特定检测信息。

单模态特征单元31，用于获取所述信息获取单元30得到的多个模态的目标检测数据分别对应的单模态注意特征。

该单模态特征单元31，具体用于提取所述目标检测数据的特征信息；将所述特征信息中各个子特征的加权值进行融合后得到所述目标检测数据的单模态注意特征。

融合单元32，用于将所述单模态特征单元31得到的多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到所述目标视频的全局特征。

该融合单元32，具体用于将所述多个模态的目标检测数据对应的单模态注意特征分别压缩到低维度特征空间，得到多个低维度特征；将所述多个低维度特征进行融合，得到融合后特征；将所述融合后特征扩展到高维度特征空间，得到的高维度融合特征即为所述目标视频的全局特征，所述高维度特征空间的维度与所述单模态注意特征的维度一致。

相似单元33，用于获取所述融合单元32得到的全局特征与特定检测信息之间的相似性特征信息。

检测单元34，用于根据所述相似单元33得到的相似性特征信息确定所述目标视频中与所述特定检测信息相关的视频片段。

该检测单元34，还用于根据所述相似性特征信息确定所述目标视频中所包括的各个子片段的高光显著性分数。

进一步地，本实施例中的视频检测系统还包括：

训练单元35，用于确定视频检测初始模型，所述视频检测初始模型包括：所述多个模态分别对应的第一特征模块、第二特征模块、跨模态特征模块、查询特征模块及片段输出模块；确定训练样本，所述训练样本中包括多个视频样本、各个视频样本对应的特定检测样本及所述各个视频样本中基于特定检测样本的视频片段标注；通过所述任一模态的第一特征模块获取所述视频样本包含的任一模态的目标检测数据对应的单模态注意特征，通过所述跨模态特征模块将所述第一特征模块获取的单模态注意特征进行融合得到所述视频样本的全局特征，通过所述第二特征模块获取所述特定检测样本的特征信息，通过所述查询特征模块获取所述全局特征与对应的特定检测样本的特征信息之间的相似性特征信息，通过所述片段输出模块确定所述视频样本中基于相应特定检测样本的视频片段；根据所述视频检测初始模型得到的各个视频样本的视频片段及所述训练样本中相应视频样本的视频片段标注，调整所述视频检测初始模型，以得到预置的视频检测模型。这样，上述信息获取单元30在获取各个模态的目标检测数据和特定检测信息后，可以调用该训练单元35训练得到的视频检测模型。

进一步地，所述训练样本还包括：所述各个视频样本中视频片段的高光显著性标注，所述视频检测初始模型还包括高光信息输出模块；所述训练单元35还用于通过所述高光信息输出模块确定所述各个视频样本各个子片段的高光显著性分数；且根据所述视频检测初始模型中片段输出模型确定的各个视频样本的视频片段及所述训练样本中相应视频样本的视频片段标注，与所述视频检测初始模型中高光信息输出模块确定的各个视频样本的高光显著性分数及所述训练样本中相应视频样本的视频片段标注，调整所述视频检测初始模型。

其中，训练单元35确定的所述跨模态特征模块包括多层跨模态编码和融合子模块，其中：所述多层跨模态编码之间串联连接，所述多层跨模态编码中的第一单层跨模态编码用于分别对各个模态的单模态注意特征进行特征注意处理，得到跨模态注意特征，所述多层跨模态编码中的第二单层跨模态编码用于分别对前一单层跨模态编码得到的各个模态的跨模态注意特征进行特征注意处理，得到另一跨模态注意特征；所述融合子模块用于将所述多层跨模态编码中最后一单层跨模态编码得到的各个模态的跨模态注意特征进行融合得到所述目标视频的全局特征。

其中，多层跨模态编码中任一单层的跨模态编码包括：多个多头注意力子模块、多个层标准化、叠加子模块及前馈神经网络；具体地：

所述多个多头注意力子模块中的第一多头注意力子模块用于通过媒介特征序列在低维度特征空间，将各个模态的目标检测数据的单模态注意特征进行注意力处理，所述多个层标准化中的第一层标准化分别用于将注意力处理后的特征进行标准化处理得到第一标准化特征，所述叠加子模块用于将各个第一层标准化得到的第一标准化特征及所述媒介特征序列叠加后得到压缩后的跨模态特征序列，将所述压缩后的跨模态特征序列分别输入到所述多个多注意力子模块中的第二多头注意力子模块；所述第二多头注意力子模块将所述压缩后的跨模态特征序列扩展到高维度特征空间，所述多个层标准化中第二层标准化用于根据所述单模态注意特征及所述第二多头注意力子模块得到的注意力处理后的特征进行求和及标准化处理，得到第二标准化特征；所述前馈神经网络用于将所述第二标准化特征进行过滤处理，所述多个层标准化中的第三层标准化用于根据过滤后特征输出相应模态的跨模态注意特征。

进一步地，训练单元35，还用于对所述参数值的调整次数等于预置的次数时，或若当前调整的参数值与上一次调整的参数值的差值小于一阈值时，则停止对所述参数值的调整。

可见，在本实施例的系统中，单模态特征单元31会将目标视频分为多个模态的目标检测数据，分别获取到对应的单模态注意特征，再由融合单元32将这些单模态注意特征进行融合得到目标视频的全局特征，然后相似单元33获取到全局特征与特定检测信息之间的相似性特征信息，并由检测单元34基于相似性特征信息确定与特定检测信息相关的视频片段。这样通过对各个模态的目标检测数据的单独处理，可以较精确地获取目标视频中包含的所有类型的信息，进而将各个单模态注意特征融合得到的全局特征能更真实地反映目标视频，最终确定的视频片段也更准确。

本发明实施例还提供一种服务器，其结构示意图如图12所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)40(例如，一个或一个以上处理器)和存储器41，一个或一个以上存储应用程序421或数据422的存储介质42(例如一个或一个以上海量存储设备)。其中，存储器41和存储介质42可以是短暂存储或持久存储。存储在存储介质42的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器40可以设置为与存储介质42通信，在服务器上执行存储介质42中的一系列指令操作。

具体地，在存储介质42中储存的应用程序421包括视频检测的应用程序，且该程序可以包括上述视频检测系统中的信息获取单元30，单模态特征单元31，融合单元32，相似单元33，检测单元34和训练单元35，在此不进行赘述。更进一步地，中央处理器40可以设置为与存储介质42通信，在服务器上执行存储介质42中储存的视频检测的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源43，一个或一个以上有线或无线网络接口44，一个或一个以上输入输出接口45，和/或，一个或一个以上操作系统423，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由视频检测系统所执行的步骤可以基于该图12所示的服务器的结构。

进一步地，本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如上述视频检测系统所执行的视频检测方法。

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如上述视频检测系统所执行的视频检测方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

另外，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的视频检测方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的一种视频检测方法、系统及存储介质和服务器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频检测方法，其特征在于，包括：

获取所述全局特征与特定检测信息之间的相似性特征信息；

2.如权利要求1所述的方法，其特征在于，所述获取所述多个模态的目标检测数据分别对应的单模态注意特征，具体包括：

提取所述目标检测数据的特征信息；

将所述特征信息中各个子特征的加权值进行融合后得到所述目标检测数据的单模态注意特征。

3.如权利要求1所述的方法，其特征在于，所述将所述多个模态的目标检测数据分别对应的单模态注意特征进行融合，得到所述目标视频的全局特征，具体包括：

将所述多个模态的目标检测数据对应的单模态注意特征分别压缩到低维度特征空间，得到多个低维度特征；

将所述多个低维度特征进行融合，得到融合后特征；

将所述融合后特征扩展到高维度特征空间，得到的高维度融合特征即为所述目标视频的全局特征，所述高维度特征空间的维度与所述单模态注意特征的维度一致。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述相似性特征信息确定所述目标视频中所包括的各个子片段的高光显著性分数。

5.如权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

确定视频检测初始模型，所述视频检测初始模型包括：所述多个模态分别对应的第一特征模块、第二特征模块、跨模态特征模块、查询特征模块及片段输出模块；

确定训练样本，所述训练样本中包括多个视频样本、各个视频样本对应的特定检测样本及所述各个视频样本中基于特定检测样本的视频片段标注；

通过所述任一模态的第一特征模块获取所述视频样本包含的任一模态的目标检测数据对应的单模态注意特征，通过所述跨模态特征模块将所述第一特征模块获取的单模态注意特征进行融合得到所述视频样本的全局特征，通过所述第二特征模块获取所述特定检测样本的特征信息，通过所述查询特征模块获取所述全局特征与对应的特定检测样本的特征信息之间的相似性特征信息，通过所述片段输出模块确定所述视频样本中基于相应特定检测样本的视频片段；

根据所述视频检测初始模型得到的各个视频样本的视频片段及所述训练样本中相应视频样本的视频片段标注，调整所述视频检测初始模型，以得到预置的视频检测模型。

6.如权利要求5所述的方法，其特征在于，所述训练样本还包括：所述各个视频样本中各个子片段的高光显著性标注，所述视频检测初始模型还包括高光信息输出模块；

所述方法还包括：通过所述高光信息输出模块确定所述各个视频样本中所包括的各个子片段的高光显著性分数；

所述根据所述视频检测初始模型得到的各个视频样本的视频片段及所述训练样本中相应视频样本的视频片段标注，调整所述视频检测初始模型，具体包括：根据所述视频检测初始模型中片段输出模型确定的各个视频样本的视频片段及所述训练样本中相应视频样本的视频片段标注，与所述视频检测初始模型中高光信息输出模块确定的各个视频样本的高光显著性分数及所述训练样本中相应视频样本的视频片段标注，调整所述视频检测初始模型。

7.如权利要求5所述的方法，其特征在于，所述跨模态特征模块包括多层跨模态编码和融合子模块，其中：

所述多层跨模态编码之间串联连接，所述多层跨模态编码中的第一单层跨模态编码用于分别对各个模态的单模态注意特征进行特征注意处理，得到跨模态注意特征，所述多层跨模态编码中的第二单层跨模态编码用于分别对前一单层跨模态编码得到的各个模态的跨模态注意特征进行特征注意处理，得到另一跨模态注意特征；

所述融合子模块用于将所述多层跨模态编码中最后一单层跨模态编码得到的各个模态的跨模态注意特征进行融合得到所述目标视频的全局特征。

8.如权利要求7所述的方法，其特征在于，所述多层跨模态编码中任一单层的跨模态编码包括：多个多头注意力子模块、多个层标准化、叠加子模块及前馈神经网络；

所述多个多头注意力子模块中的第一多头注意力子模块用于通过媒介特征序列在低维度特征空间，将各个模态的目标检测数据的单模态注意特征进行注意力处理，所述多个层标准化中的第一层标准化分别用于将注意力处理后的特征进行标准化处理得到第一标准化特征，所述叠加子模块用于将各个第一层标准化得到的第一标准化特征及所述媒介特征序列叠加后得到压缩后的跨模态特征序列，将所述压缩后的跨模态特征序列分别输入到所述多个多注意力子模块中的第二多头注意力子模块；

所述第二多头注意力子模块将所述压缩后的跨模态特征序列扩展到高维度特征空间，所述多个层标准化中第二层标准化用于根据所述单模态注意特征及所述第二多头注意力子模块得到的注意力处理后的特征进行求和及标准化处理，得到第二标准化特征；

所述前馈神经网络用于将所述第二标准化特征进行过滤处理，所述多个层标准化中的第三层标准化用于根据过滤后特征输出相应模态的跨模态注意特征。

9.如权利要求5所述的方法，其特征在于，当对所述参数值的调整次数等于预置的次数时，或若当前调整的参数值与上一次调整的参数值的差值小于一阈值时，则停止对所述参数值的调整。

10.一种视频检测系统，其特征在于，

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至9任一项所述的视频检测方法。

12.一种服务器，其特征在于，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如权利要求1至9任一项所述的视频检测方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，所述计算机指令适于由处理器加载并执行如权利要求1至9任一项所述的视频检测方法。