CN112084954A

CN112084954A - 视频目标的检测方法、装置、电子设备及存储介质

Info

Publication number: CN112084954A
Application number: CN202010948845.9A
Authority: CN
Inventors: 陈昊升; 林丽健; 单瀛; 张宏伦; 梁俊; 李昱; 王菡子
Original assignee: Xiamen University; Tencent Technology Shenzhen Co Ltd
Current assignee: Xiamen University; Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-15

Abstract

本发明提供了一种视频目标的检测方法、装置、电子设备以及存储介质，方法包括：确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧；基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量；基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量；通过所述视频处理模型中的检测头网络，根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域，由此，由此实现鲁棒并精确地对视频中的目标进行检测，减少视频目标检测中的失真。

Description

视频目标的检测方法、装置、电子设备及存储介质

技术领域

本发明涉及视频中图像处理技术，尤其涉及视频目标的检测方法、装置、电子设备及存储介质。

背景技术

基于深度学习所进行的各类别识别，一直以来都是各应用场景下解决大量数据分的重要工具。例如，在图像、自然语言处理等应用场景中，对大量数据所实现的大规模分类和识别，以此来快速准确的获得相关的分类预测结果，加速所在应用场景的功能实现。

其中，检测视频目标，是指从待检测视频中识别出特定类别的物体(即目标物体)，并对识别出的目标物体进行跟踪，目标检测包括静态图像的目标检测和视频的目标检测。基于视频的目标检测与静态图像的目标检测的任务一样，都需要对视频帧中目标物体的对应的位置进行准确识别。

但是，相关技术中的视频中目标检测的过程，可能会引入噪声信息，也可能由于视频单帧质量差造成的漏检测，影响对于视频中目标检测的精确度。

发明内容

有鉴于此，本发明实施例提供一种视频目标的检测方法、装置、电子设备及存储介质，能够根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域，由此实现鲁棒并精确地对视频中的目标进行检测。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种视频目标的检测方法，包括：

确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧；

基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量；

基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量；

通过所述视频处理模型中的检测头网络，根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域。

本发明实施例还提供了一种视频目标的检测装置，包括：

信息传输模块，用于确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧；

信息处理模块，用于基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量；

所述信息处理模块，用于基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量；

所述信息处理模块，用于通过所述视频处理模型中的检测头网络，根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域。

上述方案中，

所述信息传输模块，用于对所述待检测视频进行解析，获取所述待检测视频的时序信息；

所述信息传输模块，用于根据所述待检测视频的时序信息，对所述待检测视频所对应的视频参数进行解析，获取与所述待检测视频对应的播放时长参数与画面区域参数；

所述信息传输模块，用于基于所述待检测视频对应的播放时长参数与画面区域参数，对所述待检测视频进行抽取以获取所述待检测视频中的待检测视频帧；

所述信息传输模块，用于响应于所抽取的待检测视频帧，在所述待检测视频帧相匹配的视频序列中随机抽取至少一个辅助视频帧。

上述方案中，

所述信息处理模块，用于通过视频处理模型中的特征提取网络，分别在所述待检测视频帧与所述辅助视频帧中提取不同的第一帧级别特征向量；

所述信息处理模块，用于确定所述不同的第一帧级别特征向量中的每一个第一帧级别特征向量所分别对应的通道数量；

所述信息处理模块，用于基于所述通道数量，确定对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；

所述信息处理模块，用于根据所述第一帧级别特征向量集合和所述相似度矩阵，通过融合处理确定相应的第二帧级别特征向量集合；

所述信息处理模块，用于通过对所述第二帧级别特征向量集合的线性转换处理，确定所述帧级别的特征向量。

上述方案中，

所述信息处理模块，用于通过所述视频处理模型中特征提取网络的卷积层和最大值池化层分别对所述待检测视频帧与所述辅助视频帧交叉进行处理，得到所述待检测视频帧与所述辅助视频帧的降采样结果；

所述信息处理模块，用于通过所述特征提取网络的全连接层，对所述待检测视频帧与所述辅助视频帧的降采样结果进行归一化处理；

所述信息处理模块，用于通过所述视特征提取网络对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定不同的第一帧级别特征向量。

上述方案中，

所述信息处理模块，用于通过所述视频处理模型的候选框生成网络对所述帧级别的特征向量进行处理，确定候选物体实例的边界框集合；

所述信息处理模块，用于基于所述候选物体实例的边界框集合，以及所述帧级别的特征向量，通过所述视频处理模型中的感兴趣区域池化层网络，确定与所述候选物体实例相对应的第一实例级别的特征向量集合；

所述信息处理模块，用于对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合，其中，所述第二实例级别的特征向量集合中的经过融合处理的第二实例级别的特征作为所述检测头网络所输入的实例级别的特征向量。

上述方案中，

所述信息处理模块，用于确定所述候选物体实例的相对应的物体表观信息和物体几何信息；

所述信息处理模块，用于基于所述物体表观信息和物体几何信息，确定物体实例级别的相似度；

所述信息处理模块，用于根据所述物体实例级别的相似度，对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合。

上述方案中，所述装置还包括：

训练模块，用于获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本；

所述训练模块，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

所述训练模块，用于通过视频处理模型对所述第二训练样本集合进行处理，以确定所述视频处理模型的初始参数；

所述训练模块，用于响应于所述视频处理模型的初始参数，通过所述视频处理模型对所述第二训练样本集合进行处理，确定所述视频处理模型的更新参数；

所述训练模块，用于根据所述视频处理模型的更新参数，通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。

上述方案中；

所述训练模块，用于将所述第二训练样本集合中不同训练样本，代入由所述视频处理模型所对应的损失函数；

所述训练模块，用于确定所述损失函数满足相应的收敛条件时对应所述视频处理模型的更新参数。

上述方案中，

所述信息处理模块，用于确定与所述待检测视频相对应的版权视频；

所述信息处理模块，用于基于所述视频目标在所述待检测视频的不同视频帧中的所在区域，确定所述待检测视频和所述版权视频对应的帧间相似度参数集合；

所述信息处理模块，用于获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；

所述信息处理模块，用于基于达到相似度阈值的图像帧数量，确定所述待检测视频与版权视频的相似度。

上述方案中，

所述信息处理模块，用于当确定所述待检测视频与版权视频的相似时，获取所述待检测视频的版权信息；

所述信息处理模块，用于通过所述待检测视频的版权信息和所述版权视频的版权信息，确定所述待检测视频的合法性；

所述信息处理模块，用于当所述待检测视频的版权信息和所述版权视频的版权信息不一致时，发出警示信息。

上述方案中，

所述信息处理模块，用于当确定所述待检测视频与版权视频的不相似时，将所述待检测视频添加至视频源；

所述信息处理模块，用于对所述视频源中的所有待推荐视频的召回顺序进行排序；

所述信息处理模块，用于基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

上述方案中，

所述信息处理模块，用于确定与所述待检测视频相对应的检测信息；

所述信息处理模块，用于基于所述视频目标在所述待检测视频的不同视频帧中的所在区域，确定所述待检测视频和所述检测信息的匹配程度；

所述信息处理模块，用于当所述待检测视频和所述检测信息的匹配程度低于报警阈值时，确定所述待检测视频合规，以实现对所述视频目标在所述待检测视频的不同视频帧中的所在区域的合规性进行自动检测。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的视频目标的检测方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令所述可执行指令被处理器执行时实现前述的视频目标的检测方法。

本发明实施例具有以下有益效果：

本发明通过确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧；基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量；基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量；通过所述视频处理模型中的检测头网络，可以根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域，由此，实现鲁棒并精确地对视频中的目标进行检测，减少视频目标检测中的失真。

附图说明

图1是本发明实施例提供的视频目标的检测方法的使用环境示意图；

图2为本发明实施例提供的电子设备的组成结构示意图；

图3为本发明实施例提供的视频目标的检测方法一个可选的流程示意图；

图4为本发明实施例中待检测视频帧和辅助视频帧抽取一个可选的示意图；

图5为本发明实施例提供的视频目标的检测方法一个可选的流程示意图；

图6为本发明实施例中视频相似判断一个可选的过程示意图；

图7为本发明实施例提供的视频目标的检测方法的使用场景示意图；

图8为本发明实施例中视频目标检测方法的使用过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)待检测视频，互联网中可获取的各种形式的视频信息，如客户端或者智能设备中呈现的视频文件、多媒体信息等。

3)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行线上直播(视频推流)的功能或者是在线视频的播放功能。

4)人工神经网络，简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)模型参数，是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

6)mAP，Mean Average Precision评价检测器的一个评价指标

7)检测头网络，目标检测的检测头网络，主要包含一个物体分类和一个回归的分支

图1为本发明实施例提供的视频目标的检测方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中利用不同的业务进程获取不同的视频信息进行浏览，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的视频类型并不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取视频(即视频中携带视频信息或相应的视频链接)，也可以通过网络300从相应的服务器200中获取仅包括文字或图像的相应视频进行浏览。服务器200中可以保存有不同类型的视频。其中，本申请中不再对不同类型的视频的编译环境进行区分。在这一过程中向用户的客户端推送的视频信息应该是版权合规的视频信息，因此对于数量众多的视频，需要判断哪些视频是相似的，并进一步地对相似视频的版权信息进行合规检测。

以短视频为例，本发明所提供的视频推荐模型可以应用于短视频播放，在短视频播放中通常会对不同数据来源的不同短视频进行处理，最终在用户界面UI(UserInterface)上呈现出与相应的用户相对应的待推荐视频，如果推荐的视频是版权不合规的盗播视频将直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与向目标用户进行视频推荐的不同视频还可以供其他应用程序调用(例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标用户相匹配的视频推荐模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

其中，本申请实施例所提供的视频推荐方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

下面对本发明实施例的电子设备的结构做详细说明，电子设备可以各种形式来实施，如带有视频处理功能的专用终端例如网关，也可以为带有视频处理功能的服务器，例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图，可以理解，图2仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的电子设备包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的视频目标的检测装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的视频目标的检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频目标的检测方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的视频目标的检测装置采用软硬件结合实施的示例，本发明实施例所提供的视频目标的检测装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的视频目标的检测方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的视频目标的检测装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的视频目标的检测方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括：用于在电子设备20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从视频目标的检测方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的视频目标的检测装置可以采用软件方式实现，图2示出了存储在存储器202中的视频目标的检测装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括视频目标的检测装置2020，视频目标的检测装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当视频目标的检测装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的视频目标的检测方法，下面对视频目标的检测装置2020中各个软件模块的功能进行介绍：

信息传输模块2081，用于确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧；

信息处理模块2082，用于基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量；

所述信息处理模块2082，用于基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量；

所述信息处理模块2082，用于通过所述视频处理模型中的检测头网络，根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频目标的检测方法的各种可选实现方式中所提供的方法。

结合图2示出的电子设备20说明本发明实施例提供的视频目标的检测方法，在介绍之前，首先对相关技术的缺陷进行说明，相关技术在实现基于帧级别融合的视频目标检测时，可以通过FGFA实现，FGFA通过先使用一个额外的光流预测网络来生成多帧之间运动信息，通过这些运动信息来将多帧的帧级别的特征相融合，从而增强待检测视频帧的特征。具体来说，特征提取的网络在单帧上提取单帧的feature maps，然后为了加强当前帧的特征，光流预测网络用于估计相邻帧和当前帧的运动。相邻帧的feature maps再根据光流运动中warp到当前帧，warp后的feature map以及它自己的feature map一起通过适应权重网络进行聚合。(在当前帧)然后聚合得到的feature map再被送到检测网络中输出当前帧的检测结果，但是，这一过程，融合后特征的质量高度依赖于额外的光流网络的精度。一旦光流网络的预测出现错误，就会在待检测视频帧的特征融合中引入很多的噪声，降低识别的准确性。

同时，基于物体实例级别融合的视频目标检测时，可以使用SELSA，其中，SELSA先通过一个两阶段的图片目标检测算法，生成一系列的候选物体实例。然后利用其提出的一个语义融合模块，将每个物体实例的特征融合到一起从而增强其中每个物体实例的特征。但是这种方式存在生成候选物体实例的时候由于视频单帧质量差造成的漏检测问题，是无法通过后续处理来弥补的。

为了解决上述缺陷，参见图3，图3为本发明实施例提供的视频目标的检测方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行视频目标的检测装置的各种服务器执行，例如可以是如带有视频处理功能的专用终端、服务器或者服务器集群。本发明实施例提供的视频目标的检测方法可以用于非实时性的视频目标的检测，例如(包括电视剧、电影、短视频等各种视频类型)的内容分析、目标物体检测识别等。下面针对图3示出的步骤进行说明。

步骤301：视频目标的检测装置确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧。

在本发明的一些实施例中，确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧，可以通过以下方式实现：

对所述待检测视频进行解析，获取所述待检测视频的时序信息；根据所述待检测视频的时序信息，对所述待检测视频所对应的视频参数进行解析，获取与所述待检测视频对应的播放时长参数与画面区域参数；基于所述待检测视频对应的播放时长参数与画面区域参数，对所述待检测视频进行抽取以获取所述待检测视频中的待检测视频帧；响应于所抽取的待检测视频帧，在所述待检测视频帧相匹配的视频序列中随机抽取至少一个辅助视频帧。其中，图4为本发明实施例中待检测视频帧和辅助视频帧抽取一个可选的示意图。其中，随着视频的播放过程，视频在播放过程中随着时间轴推移而改变的所显示的画面区域，所显示的画面区域中有不同的视频目标，通过对视频目标的检测可以确定视频目标在所述待检测视频的不同视频帧中的所在区域，进而通过视频目标的检测结果，确定待检测视频是否合规，或者是否符合版权信息要求，避免用户上传的视频被盗播。

步骤302：视频目标的检测装置基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量。

在本发明的一些实施例中，基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量，可以通过以下方式实现：

通过视频处理模型中的特征提取网络，分别在所述待检测视频帧与所述辅助视频帧中提取不同的第一帧级别特征向量；确定所述不同的第一帧级别特征向量中的每一个第一帧级别特征向量所分别对应的通道数量；基于所述通道数量，确定对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；根据所述第一帧级别特征向量集合和所述相似度矩阵，通过融合处理确定相应的第二帧级别特征向量集合；通过对所述第二帧级别特征向量集合的线性转换处理，确定所述帧级别的特征向量。其中，给定一个待检测视频帧，本发明先是在该检测帧所在的视频中随机采样n-1个辅助视频帧，这些辅助视频帧可以为待检测视频帧提供丰富的时空信息。然后利用一个特征提取网络在这n帧(1帧待检测视频帧，n-1帧辅助视频帧)上提取一系列帧级别的特征F{F₁，F₂.....F_n},其中f_i∈F代表了在第i帧上提取的帧级别特征。由于在F中的每一个特征都有d个通道，可以将F中的每个特征都按通道分开，可以得到n*d个通道级别的特征

进一步地，在帧级别融合阶段，本发明计算了F^c的一个相似度矩阵s^F来表示F^c中每个特征之间的表观相似度。然后，对于F^c中的第i个特征F_i ^c，本发明根据s^F来将F^c中所有的特征都融合到F_i ^c中，来生成其对应的增强后的特征F_i ^e。这里，可以将生成的增强后的特征表示为

特别的，F^e中的第i个增强后的特征F^e _i是由公式1计算的：

其中θ(·)表示一个由全连接层实现的线性转换函数。

表示F_i ^c和

之间的表观相似度，其计算方式如公式2：

其中a_i,j是F_i ^c和

之间的点乘结果，如公式3所示：

φ(·)和

是两个和θ(·)拥有同样功能的线性转换函数。经过帧级别的特征融合之后，在第i个特征F_i ^e∈F^e中存在的信息被传播到F^e中的其他特征中，因此每个在F^e中的特征可以获得来自其他帧的帧级别的特征中存在的丰富的信息。

步骤303：视频目标的检测装置基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量。

在本发明的一些实施例中，基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量，可以通过以下方式实现：

通过所述视频处理模型的候选框生成网络对所述帧级别的特征向量进行处理，确定候选物体实例的边界框集合；基于所述候选物体实例的边界框集合，以及所述帧级别的特征向量，通过所述视频处理模型中的感兴趣区域池化层网络(ROI pooling层网络)，确定与所述候选物体实例相对应的第一实例级别的特征向量集合；对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合，其中，所述第二实例级别的特征向量集合中的经过融合处理的第二实例级别的特征作为所述检测头网络所输入的实例级别的特征向量。其中，其中，增强后的帧级别的特征F^e输入一个候选框提取网络(RPN)来获得一系列候选物体实例的边界框B＝{B₁,B₂....B_m}。这里m代表了生成物体实例的个数，在B中的每个边界框包含了物体实例的中心点所在位置以及物体实例的尺度。然后这些边界框B以及增强后的帧级别的特征F^e被输入到一个RoI层去提取一系列物体实例级别的特征Q＝{Q₁,Q₂....Q_m}。具体来说，ROI pooling层能实现training和testing的显著加速，并提高检测accuracy。感兴趣区域池化层网络(ROIpooling层网络)有两个输入：1)从具有多个卷积核池化的深度网络中获得的固定大小的feature maps；2)一个表示所有ROI的N*5的矩阵，其中N表示ROI的数目。第一列表示图像index，其余四列表示其余的左上角和右下角坐标。在处理过程中，感兴趣区域池化层网络(ROI pooling层网络)首先根据输入的第一实例级别特征向量，将ROI映射到feature map对应位置；之后将映射后的区域划分为相同大小的sections其中，sections数量与输出的维度相同；最后对对每个sections进行max pooling操作；这一过程中，由于输出的featuremaps的大小不取决于ROI和卷积feature maps大小，因此，感兴趣区域池化层网络(ROIpooling层网络)可以有效提升处理速度，减少用户等待视频审核的时间，提升用户的使用体验。

进一步地，在本申请的一个实施例中，为例避免出现视频目标检测过程中出现目标失真，在融合处理的过程中，可以确定所述候选物体实例的相对应的物体表观信息和物体几何信息；基于所述物体表观信息和物体几何信息，确定物体实例级别的相似度；根据所述物体实例级别的相似度，对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合。具体来说，将Q中的特征互相融合以获得最终增强后的物体实例级别的特征

具体公式如公式4：

其中γ(·)代表了一个线性转化函数，

表示的是Q_k和Q_i之间的物体实例级别的相似度。

对于表征一个物体实例来说，除了表观信息，其几何信息对该物体也十分重要。因此在物体实例级别融合模块中，本发明提出同时利用物体的表观信息Q和几何信息B来度量物体实例之间的相似性，相似度参考公式5：

其中Z_k,l代表了Q_k和Q_l之间的表观相似性。r_k,l是第k个边界框B_k和第l个边界框B_l之间的几何相似度。Z_k,l由以下公式6算出：

z_k,l＝<ξ(Q_k),ζ(Q_l)>公式6

其中ξ(·)和ζ(·)是两个由全连接层实现的线性转换函数。由于不同的物体可能在不同帧中出现在同一个位置，所以在度量几何相似度的时候，物体的尺度信息(也就是物体的宽w和高h)比物体的位置信息更加可靠。因此，本发明提出利用物体的尺度信息来计算边界框B_k和边界框B_l之间的相似度r_k,l参考公式7：

其中ψ(·)是跟ξ(·)和ζ(·)一样的线性转化函数。σ(·)是一个嵌入函数，其利用不同频率的三角函数，将在低维空间的相似度值r_k,l映射到一个高维空间，公式8如下：

其中d_geo指r_k,l中每一个值映射到高维空间的维度，所以最终的r_k,l的维度为d_geo*3。通过在融合过程中同时使用几何和表观相似度，所提出的DSFNet可以减轻在融合过程中由于噪声造成的信息失真的问题。最后，增强后的特征Q^e中属于当前帧的特征的被输入到检测头网络中用来做最终的物体分类和边界框回归。

步骤304：视频目标的检测装置通过所述视频处理模型中的检测头网络，根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域。

继续结合图2示出的电子设备20说明本发明实施例提供的视频目标的检测方法，参见图5，图5为本发明实施例提供的视频目标的检测方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行视频处理功能的各种服务器执行，例如可以是如带有视频处理功能的专用终端、服务器或者服务器集群，其中，经过训练的视频处理可以部署在服务器中，对上传的视频的相似性进行检测，以确定是否对视频的版权信息进行合规检测，当然，在部署视频处理模型之前还需要对视频处理模型进行训练，具体包括以下步骤：

步骤501：获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本。

步骤502：对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合。

步骤503：通过视频处理模型对所述第二训练样本集合进行处理，以确定所述视频处理模型的初始参数。

步骤504：响应于所述视频处理模型的初始参数，通过所述视频处理模型对所述第二训练样本集合进行处理，确定所述视频处理模型的更新参数。

其中，可以将所述第二训练样本集合中不同训练样本，代入由所述视频处理模型所对应的损失函数；确定所述损失函数满足相应的收敛条件时对应所述视频处理模型的更新参数。

步骤505：根据所述视频处理模型的更新参数，通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。

其中，在视频处理模型训练时，视频处理模型通过交叉熵等损失函数向正确趋势逼近，损失函数直至达到相应的收敛条件。

在本发明的一些实施例中，视频处理模型中的特征提取网络还可以使用Re sNet-101或者ResNeXt-101，其中，ResNeXt-101模型，利用Instagram上的用户标记图片作为预训练数据集，可以省去了人工标记数据的巨额成本，而且使用中只需微调，模型的性能即超越ImageNet任务的SOTA水平，有利于本申请的视频处理模型的在用户的移动终端中的大规模使用。

进一步地，视频处理模型的参数由在ImageNet分类数据集上预训练的权重初始化，使用的数据集为视频数据集和图片数据集。每张输入视频帧图像都会被先缩放为短边小于600像素的图像帧。本发明提出的DSFNet使用的损失函数为交叉熵损失，使用SGD作为优化器在8张显卡上训练，其中一次梯度下降使用的样本数为8。本发明所提出的DSFNet一共训练了247k次迭代，初始学习率设置为2.5*10^-4，学习率分别在第109k和第219次迭代下降10％。在测试阶段，对于每一个待检测视频帧，本发明随机采样n-1＝20帧作为辅助视频帧来进行视频目标检测。此外，在训练和测试过程中，本发明在每一帧利用RPN提取300个候选物体实例。

步骤506：部署经过训练的视频处理模型。

由此，可以通过所部署的经过训练的视频处理模(可以部署在视频客户端运营商的服务器或者云服务器中)型执行相应的视频目标的检测方法，实现对用户所上传的视频的检测。

其中，继续参考图6，图6为本发明实施例中视频相似判断一个可选的过程示意图，具体包括：

步骤601：确定与所述待检测视频相对应的版权视频。

步骤602：基于所述视频目标在所述待检测视频的不同视频帧中的所在区域，确定所述待检测视频和所述版权视频对应的帧间相似度参数集合。

步骤603：获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量。

步骤604：基于达到相似度阈值的图像帧数量，确定所述待检测视频与版权视频的相似度。

步骤605：基于待检测视频与版权视频的相似度以及所设定的相似度阈值，判断是否相似，如果是执行步骤606，否则，执行步骤607。

步骤606：通过相似判定确定视频相似。

其中，当确定所述待检测视频与版权视频的相似时，获取所述待检测视频的版权信息；通过所述待检测视频的版权信息和所述版权视频的版权信息，确定所述待检测视频的合法性；所述待检测视频的版权信息和所述版权视频的版权信息不一致时，发出警示信息。由此实现通过视频目标在所述待检测视频的不同视频帧中的所在区域，来判断版权视频是否被盗播。

步骤607：通过相似判定确定视频不同。

其中，当确定所述待检测视频与版权视频的不相似时，将所述待检测视频添加至视频源；对所述视频源中的所有待推荐视频的召回顺序进行排序；基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。此实现通过视频目标在所述待检测视频的不同视频帧中的所在区域，确定相应的版权视频，并向用户推荐，丰富用户的视频观看选择。

在本发明的一些实施例中，还可以确定与所述待检测视频相对应的检测信息；基于所述视频目标在所述待检测视频的不同视频帧中的所在区域，确定所述待检测视频和所述检测信息的匹配程度；当所述待检测视频和所述检测信息的匹配程度低于报警阈值时，确定所述待检测视频合规，以实现对所述视频目标在所述待检测视频的不同视频帧中的所在区域的合规性进行自动检测，由此可以减少视频审核过程中的人工参与，提升视频合规检测的速率，减少检测的成本，同时减少用户的等待时间。

由于视频服务器的视频数量不断增加，因此，可以将视频的版权信息保存在区块链网络或者云服务器中，实现对视频相似性的判断。其中，本发明实施例可结合云技术或区块链网络技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

下面以对短视频的版权检测实施环境为例，对本申请提供的视频目标的检测方法进行说明，图7为本发明实施例提供的视频目标的检测方法的使用场景示意图，参见图7，终端(包括终端10-1和终端10-2)上设置有能够显示相应短视频的软件的客户端，例如短视频播放的客户端或插件，用户通过相应的客户端可以获得第一视频并进行展示；终端通过网络300连接短视频服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。当然，用户也可以通过终端上传视频以供网络中的其他用户观看，这一过程中运营商的视频服务器需要对用户上传的视频进行检测，对不同的视频信息进行比对和分析，确定用户上传的视频版权是否合规，并对合规视频向不同的用户进行推荐，避免用户的短视频被盗播。

其中，参考图8，图8为本发明实施例中视频目标检测方法的使用过程示意图，具体包括以下步骤：

步骤801：确定待检测的短视频的视频帧，并获取与待检测视频帧相匹配的视频序列中的辅助视频帧。

步骤802：通过视频处理模型中的特征提取网络在待检测视频帧与辅助视频帧中提取帧级别的特征向量。

步骤803：对帧级别的特征向量进行增强处理。

步骤804：通过视频处理模型的候选框生成网络对经过增强的帧级别的特征向量进行处理，形成实例级别的特征向量。

步骤805：对实例级别的特征向量进行增强处理，以实现通过检测头网络对增强处理的实例级别的特征向量进行分类和回归处理，实现视频目标检测。

步骤806：基于所述视频目标在所述待检测短视频的不同视频帧中的所在区域，确定所述待检测视频和所述版权视频对应的帧间相似度参数集合。

步骤807：确定所述待检测视频与版权视频的相似度，并将与版权视频的不相似的短视频向客户端的不同用户进行推荐。

在本发明的一些实施例中，本申请所提供的视频目标的检测方法能够鲁棒并精确地将视频中的目标检测出来。在公开数据集ImageNet VID验证集上的精度如表一所示，对比基准参考方法Faster R-CNN，本发明在对mAP(mean Average Precision,即各类别AP的平均值)中的目标识别上有了较大的精确度提升(+9.4％)。与其他目前state-of-the-art的方法对比，本申请所提供的视频目标的检测方法不论是在以ResNet-101还是在以ResNeXt-101为backbone的情况下，都能获得最高的精度。

表1

有益技术效果：本发明通过确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧；基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量；基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量；通过所述视频处理模型中的检测头网络，可以根据所述实例级别的特征向量，对所述待检测视频进行目标检测，确定视频目标在所述待检测视频的不同视频帧中的所在区域，由此，实现鲁棒并精确地对视频中的目标进行检测，减少视频目标检测中的失真。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频目标的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定待检测视频中的待检测视频帧，并获取与所述待检测视频帧相匹配的视频序列中的辅助视频帧，包括：

对所述待检测视频进行解析，获取所述待检测视频的时序信息；

根据所述待检测视频的时序信息，对所述待检测视频所对应的视频参数进行解析，获取与所述待检测视频对应的播放时长参数与画面区域参数；

基于所述待检测视频对应的播放时长参数与画面区域参数，对所述待检测视频进行抽取以获取所述待检测视频中的待检测视频帧；

响应于所抽取的待检测视频帧，在所述待检测视频帧相匹配的视频序列中随机抽取至少一个辅助视频帧。

3.根据权利要求1所述的方法，其特征在于，所述基于所述待检测视频帧与所述辅助视频帧，通过视频处理模型中的特征提取网络确定帧级别的特征向量，包括：

通过视频处理模型中的特征提取网络，分别在所述待检测视频帧与所述辅助视频帧中提取不同的第一帧级别特征向量；

确定所述不同的第一帧级别特征向量中的每一个第一帧级别特征向量所分别对应的通道数量；

基于所述通道数量，确定对应的第一帧级别特征向量集合，以及与所述第一帧级别特征向量集合相匹配的相似度矩阵；

根据所述第一帧级别特征向量集合和所述相似度矩阵，通过融合处理确定相应的第二帧级别特征向量集合；

通过对所述第二帧级别特征向量集合的线性转换处理，确定所述帧级别的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述通过视频处理模型中的特征提取网络，分别在所述待检测视频帧与所述辅助视频帧中提取不同的第一帧级别特征向量，包括：

通过所述视频处理模型中特征提取网络的卷积层和最大值池化层分别对所述待检测视频帧与所述辅助视频帧交叉进行处理，得到所述待检测视频帧与所述辅助视频帧的降采样结果；

通过所述特征提取网络的全连接层，对所述待检测视频帧与所述辅助视频帧的降采样结果进行归一化处理；

通过视特征提取网络对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定不同的第一帧级别特征向量。

5.根据权利要求1所述的方法，其特征在于，所述基于所述帧级别的特征向量，通过所述视频处理模型的候选框生成网络，确定实例级别的特征向量，包括：

通过所述视频处理模型的候选框生成网络对所述帧级别的特征向量进行处理，确定候选物体实例的边界框集合；

基于所述候选物体实例的边界框集合，以及所述帧级别的特征向量，通过所述视频处理模型中的感兴趣区域池化层网络，确定与所述候选物体实例相对应的第一实例级别的特征向量集合；

对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合，其中，所述第二实例级别的特征向量集合中的经过融合处理的第二实例级别的特征作为所述检测头网络所输入的实例级别的特征向量。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合，包括：

确定所述候选物体实例的相对应的物体表观信息和物体几何信息；

基于所述物体表观信息和物体几何信息，确定物体实例级别的相似度；

根据所述物体实例级别的相似度，对所述第一实例级别的特征向量集合中的不同实例级别的特征向量进行融合处理，形成第二实例级别的特征向量集合。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本；

对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

通过视频处理模型对所述第二训练样本集合进行处理，以确定所述视频处理模型的初始参数；

响应于所述视频处理模型的初始参数，通过所述视频处理模型对所述第二训练样本集合进行处理，确定所述视频处理模型的更新参数；

根据所述视频处理模型的更新参数，通过所述第二训练样本集合对所述视频处理模型的网络参数进行迭代更新。

8.根据权利要求7所述的方法，其特征在于，所述响应于所述视频处理模型的初始参数，通过所述视频处理模型对所述第二训练样本集合进行处理，确定所述视频处理模型的更新参数；

将所述第二训练样本集合中不同训练样本，代入由所述视频处理模型所对应的损失函数；

确定所述损失函数满足相应的收敛条件时对应所述视频处理模型的更新参数。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述待检测视频相对应的版权视频；

基于所述视频目标在所述待检测视频的不同视频帧中的所在区域，确定所述待检测视频和所述版权视频对应的帧间相似度参数集合；

获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；

基于达到相似度阈值的图像帧数量，确定所述待检测视频与版权视频的相似度。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当确定所述待检测视频与版权视频的相似时，获取所述待检测视频的版权信息；

通过所述待检测视频的版权信息和所述版权视频的版权信息，确定所述待检测视频的合法性；

当所述待检测视频的版权信息和所述版权视频的版权信息不一致时，发出警示信息。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当确定所述待检测视频与版权视频的不相似时，将所述待检测视频添加至视频源；

对所述视频源中的所有待推荐视频的召回顺序进行排序；

基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述待检测视频相对应的检测信息；

基于所述视频目标在所述待检测视频的不同视频帧中的所在区域，确定所述待检测视频和所述检测信息的匹配程度；

当所述待检测视频和所述检测信息的匹配程度低于报警阈值时，确定所述待检测视频合规，以实现对所述视频目标在所述待检测视频的不同视频帧中的所在区域的合规性进行自动检测。

13.一种视频目标的检测装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述的视频目标的检测方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的视频目标的检测方法。