CN109214330A

CN109214330A - 基于视频时序信息的视频语义分析方法和装置

Info

Publication number: CN109214330A
Application number: CN201811001538.9A
Authority: CN
Inventors: 彭浩
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-15

Abstract

本申请公开了一种基于视频时序信息的视频语义分析方法和装置。其中方法包括：读取视频中的信息，将所述信息通过映射输出向量化的视频信息；利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置；根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。该方法能够利用动作分类器对视频中的动作进行识别和分类，输出动作视频帧的区间，能够同时对多个视频帧进行处理，提高了处理的速度；通过动作分类器能对可能的视频区段和下一动作可能出现的区段进行预测，提高了处理的效率，提升了识别准确性。

Description

基于视频时序信息的视频语义分析方法和装置

技术领域

本申请涉及视频分析处理技术领域，特别是涉及一种基于视频时序信息的视频语义理解方法和装置。

背景技术

随着视频内容数量的爆炸性增长，基于视频的语义理解对视频中重要事件和动作的定位显得越来越重要，并且长期以来视频语义理解在计算机视觉领域当中一直是一个具有挑战性的问题，算法不仅仅需要推理出视频中有哪些事件发生，而且需要从视频时序信息中定位出事件发生的时序位置。现有技术中采用构建帧级分类的方法，通过对视频帧进行特征提取、特征匹配和分类将前后的视频帧进行关联，进而分析出是否属于同一个动作以及该动作的分类。然而由于视频帧的数量太大，在面临长度较长的视频时，这种方法在准确性和计算效率方面都不能尽如人意。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于视频时序信息的视频语义分析方法，包括：

视频向量化处理步骤：读取视频中的信息，将所述信息通过映射输出向量化的视频信息；

视频定位步骤：利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；

视频语义输出步骤：根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。

该方法能够利用分类器对视频中的动作进行识别和分类，输出动作视频帧的区间，由于采用了向量，能够同时对多个视频帧进行处理，避免了对单个视频帧的图像直接进行图像识别，提高了处理的速度；同时，通过分类器对可能的视频区段进行预测的同时，还能预测下一可能的区段，提高了处理的效率，提升了识别准确性。

可选地，在所述视频向量化处理步骤之前，其特征在于，在所述视频向量化处理步骤之前，该方法还包括第一训练步骤：对所述动作分类器输出的候选检测向量进行训练，该第一训练步骤包括：对于训练样本集合中的视频，该视频包括N个候选检测向量D＝{d_n|n＝1,...,N}，所述N个候选检测向量由N个时间步长的视频系列通过映射得到，将所述N个候选检测向量与基础的动作实例g₁,...,g_m按照匹配函数y_nm进行匹配，每个候选检测向量匹配一个动作实例，其中，所述匹配函数y_nm为：

该函数表示如果在时间步长n的临时位置l_m将候选检测向量d_n和所有动作实例相比，所述候选检测向量d_n与g_i最接近，则候选检测向量d_n与动作实例g_i匹配，其中，g_i＝(s_i,e_i)，s_i和e_i分别表示动作实例的起点和终点，dist(l_n,g_i)＝min(|s_m-l_n|,|e_m-l_n|)；

所述匹配函数的损失函数为：

其中，L_cls(d_n)是检测结果的标准交叉熵损失，L_loc(d_n,g_m)是L2回归损失，γ是损失系数，在正向过程中得到所述损失函数的结果，基于该结果通过反向训练优化所述损失函数，通过所述损失函数调整所述动作分类器的各个参数。

可选地，在所述视频向量化处理步骤之前，该方法还包括第二训练步骤：对所述动作分类器输出的所述预测指示符和所述下一个需要观察的视频帧位置进行训练，所述第二训练步骤包括：利用目标函数J(θ)训练预测指示符p_n和下一个需要观察的视频帧位置l_n+1：

其中，p_θ(a)表示利用网络参数θ进行参数化处理后得到的分配函数；α属于动作实例的集合A；r(a)表示分配给每个可能的动作实例的奖励；J(θ)表示是在可能的动作实例的分配下的目标期望；

所述目标函数的梯度是：

将该梯度方程的近似解作为所述目标函数的梯度，使用所述目标函数更新所述动作分类器的参数。

可选地，所述第二训练步骤还包括：对所述梯度方程求解时使用奖励函数对所述候选检测向量与所述动作实例的匹配进行奖励，奖励函数采用如下形式：

其中，M表示所述视频中真实的动作实例的数量，N_P是预测集中的候选检测向量的数目，N₊是预测集中真实预测的数量，N_-是预测集中假阳性预测的数量，R₊和R_-分别是每一个候选检测向量贡献的正奖励和负奖励。

通过目标函数和奖励函数和训练定位和预测输出，并学习针对动作检测优化的监测和输出策略能够极大地提高视频分析的速度和识别的准确性。

根据本申请的另一个方面，还提供了一种基于视频时序信息的视频语义分析装置，包括：

视频向量化处理模块，其配置成用于读取视频中的信息，将所述信息通过映射输出向量化的视频信息；

视频定位步骤模块，其配置成用于利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；和

视频语义输出模块，其配置成用于根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。

该装置能够利用分类器对视频中的动作进行识别和分类，输出动作视频帧的区间，由于采用了向量，能够同时对多个视频帧进行处理，避免了对单个视频帧的图像直接进行图像识别，提高了处理的速度；同时，通过分类器对可能的视频区段进行预测的同时，还能预测下一可能的区段，提高了处理的效率，提升了识别准确性。

可选地，该装置还包括第一训练模块，其配置成用于对所述动作分类器输出的候选检测向量进行训练：

对于训练样本集合中的视频，该视频包括N个候选检测向量D＝{d_n|n＝1,...,N}，所述N个候选检测向量由N个时间步长的视频系列通过映射得到，将所述N个候选检测向量与基础的动作实例g₁,...,g_m按照匹配函数y_nm进行匹配，每个候选检测向量匹配一个动作实例，其中，所述匹配函数y_nm为：

所述匹配函数的损失函数为：

其中，L_cls(d_n)是检测结果的标准交叉熵损失，L_loc(d_n,g_m)是L2回归损失，γ是损失系数，在正向过程中得到所述损失函数的结果，基于该结果通过反向训练优化所述损失函数，通过所述损失函数调整所述动作分类器的各个参数

可选地，该装置还包括第二训练模块，其配置成用于所述预测指示符和所述下一个需要观察的视频帧位置进行训练：

利用目标函数J(θ)训练预测指示符p_n和下一个需要观察的视频帧位置l_n+1：

所述目标函数的梯度是：

可选地，所述第二训练模块还用于：

对所述梯度方程求解时使用奖励函数对所述候选检测向量与所述动作实例的匹配进行奖励，奖励函数采用如下形式：

根据本申请的另一个方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是，这些附图未必是按比例绘制的。在附图中：

图1是运行根据本申请一个实施例的基于视频时序信息的视频语义分析方法的计算机装置硬件结构示意图；

图2是根据本申请的一个实施例的基于视频时序信息的视频语义分析方法的示意性流程图；

图3是根据本申请的另一个实施例的基于视频时序信息的视频语义分析方法的示意性流程图；

图4是根据本申请的一个实施例的基于视频时序信息的视频语义分析装置的示意性框图；

图5是根据本申请的另一个实施例的基于视频时序信息的视频语义分析装置的示意性框图；

图6是本申请的计算设备的一个实施例的框图；

图7是本申请的计算机可读存储介质的一个实施例的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的实施例，还提供了一种基于视频时序信息的视频语义分析方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于本申请方法的计算机装置(或移动设备)的硬件结构框图。如图1所示，计算机装置10(或移动设备10)可以包括一个或多个处理器(图中采用102a、102b，……，102n来示出，处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机装置10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机装置10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中基于视频时序信息的视频语义分析的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机装置10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller,NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机装置10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了一种基于视频时序信息的视频语义分析方法。图2是根据本申请的一个实施例的基于视频时序信息的视频语义分析方法的示意性流程图。该方法可以包括：

S300视频向量化处理步骤：读取视频中的信息，将所述信息通过映射输出向量化的视频信息。

S400视频定位步骤：利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息。

S500视频语义输出步骤：根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。

在S300视频向量化处理步骤中，首先将视频的视频帧组成帧序列V＝{v₁,v₂,...,v_t}，v_i表示第i个视频帧。该视频帧序列已经被调整为具有统一的固定比例。它必须学会有效地利用这些观察或框架瞥见来推断行动的时间界限。

在S400视频定位步骤中，将帧序列输入到动作分类器，也可称为监察网络中，监察网络将所述信息通过映射输出向量化的视频信息。监察网络对视频帧的视觉表示进行编码，并且按顺序处理这些观察结果，决定下一个要观察的视频帧以及何时发出预测。监察网络用f₀(θ₀)表示，其中θ₀表示将网络f₀参数化的参数。监察网络观察到单个每个时间步长的视频中的信息并将所述信息通过映射输出向量化的视频信息o_n，并将向量化的视频信息作为输入提供给监察网络。o_n是每个时间步长n输入到监察网络的向量化的视频信息。h_n是监察网络的隐藏状态函数，是关于o_n和基于前一时间步长计算h_n-1的函数，该函数用于模拟关于动作实例的时间上的假设。在每一个时间步长上监察网络产生三个输出：候选检测向量d_n、预测指示符p_n和下一个需要观察的视频帧位置l_n+1，其中，预测指示符p_n用于指示是否发出信号通知监察网络将d_n作为视频动作片段结束的预测结果。

监察网络的输入是一系列视频帧，输出是一组关于待识别动作的预测结果。在时间步长n处，监察网络的监察网络检查读取视频帧，通过映射输出向量化的视频信息并产生候选检测向量d_n；预测指示符p_n＝0表示候选检测向量d_n被抑制，即，候选检测向量d_n不会被输出到预测集中；预测指示符p_n＝1表示候选检测向量d_n被输出到预测集中。其中，d_n＝{s_n,e_n,c_n}，s_n、e_n表示预测结果的归一化的起始位置和结束位置，c_n表示预测结果的置信水平。d_n可以通过全连接神经网络或深度学习卷积神经网络得到，例如VGG16。全连接神经网络可以通过经过已经对视频中的动作片段进行标记过的视频集合作为训练集得到。

p_n可以为二进制的预测指示符，表示是否应将相应的候选检测向量d_n作为预测。p_n可以通过全连接神经网络得到。p_n参数化采样结果符合伯努利分布。在测试全连接神经网络时，使用最大后验估计。候选检测向量和预测指示符的组合对于检测结果是至关重要的。它可以指示监察网络何时将识别出的候选检测向量添加到预测集中。

下一个需要观察的视频帧位置l_n+1表示监察网络接下来要观测的视频帧位置。该位置不受约束，并且监察网络可以向前和向后跳过已经预测出的视频帧位置。l_n+1可以通过全连接神经网络得到。l_n+1的取样符合高斯分布，在测试时使用最大后验估计。

监察网络的最终目标是学习输出一组检测到的动作。图2是根据本申请的一个实施例的基于视频时序信息的视频语义分析方法的示意性流程图。在所述视频向量化处理步骤之前，该方法还包括S100第一训练步骤：对所述动作分类器输出的候选检测向量进行训练。

在采用第一训练步骤训练时，使用反向训练来训练d_n，以最大化每个候选检测向量的正确性，无论候选检测向量是否被多次输出到预测集中。在训练期间将每个候选检测向量与动作实例匹配。在每个时间步长，监测网络应该在最接近视频当前位置的动作实例周围形成假设，从而设计出简单而有效的匹配功能。对于训练样本集合中的视频，该视频包括N个候选检测向量D＝{d_n|n＝1,...,N}，所述N个候选检测向量由N个时间步长的视频系列通过映射得到，将所述N个候选检测向量与基础的动作实例g₁,...,g_m按照匹配函数y_nm进行匹配，每个候选检测向量匹配一个动作实例，其中，所述匹配函数y_nm为：

该函数表示如果在时间步长n的临时位置l_m将候选检测向量d_n和所有动作实例相比，所述候选检测向量d_n与g_i最接近，则候选检测向量d_n与动作实例g_i匹配，其中，g_i＝(s_i,e_i)，s_i和e_i分别表示动作实例的起点和终点，dist(l_n,g_i)＝min(|s_m-l_n|,|e_m-l_n|)。

该匹配函数的损失函数为：

其中，L_cls(d_n)是检测结果的标准交叉熵损失，L_loc(d_n,g_m)是L2回归损失，γ是损失系数，在正向过程中得到所述损失函数的结果，基于该结果通过反向训练优化所述损失函数，通过所述损失函数调整监察网络的各个参数，提高监察网络的预测的准确度。

参见图2，可选地，在所述视频向量化处理步骤之前，该方法还包括S200第二训练步骤：对所述动作分类器输出的所述预测指示符和所述下一个需要观察的视频帧位置进行训练。

所述S200第二训练步骤可以包括：采用强化算法(REINFORCE)训练p_n和l_n+1。REINFORCE的目标函数可以表示为：

其中，p_θ(a)表示利用网络参数θ进行参数化处理后得到的分配函数；α属于动作实例的集合A；r(a)表示分配给每个可能的动作实例的奖励；J(θ)表示是在可能的动作实例的分配下的目标期望。该目标函数的梯度是：

由于目标函数梯度的优化问题不可导，因此采用蒙特卡洛采样来近似法来优化网络参数，通过梯度方程的近似解作为该目标函数的梯度。

对目标函数的梯度的求解时，可以使用奖励函数更新模型参数。奖励函数的应用使得候选检测向量d_n与动作实例g_m匹配时，高回报奖励的匹配行为增加，导致低回报奖励的匹配行为减少。因此使用REINFORCE进行训练时可以设计适当的奖励函数。

可选地，所述第二训练步骤还可以包括：对所述梯度方程求解时使用奖励函数对所述候选检测向量与所述动作实例的匹配进行奖励，奖励函数采用如下形式：

其中，M是背景真实动作实例的数量，N_P是监测网络输出给预测集的数目，N₊是真实预测的数量，N_-是假阳性预测的数量，R₊和R_-分别是每一个候选检测向量贡献的正奖励和负奖励。

在监察网络中，可以使VGG16网络来从全连接层中抽取视觉特征，并生成1024维度的监察向量。将监察向量输入到3层的LSTM网络并在每一层中使用1024个隐藏单元，视频被下采样到每秒传输帧数为5以用于训练。

为了提高处理速度，将视频分为若干个视频序列，对于每个视频序列，监测网络能够输出固定数量的观察结果，例如6个。用256个序列的小批量学习，并使用均方根反向传播(RMSProp)来调整优化期间的每参数学习速率。通过交叉验证学习其他超参数。每个小批次中含有阳性实例的序列的比例是防止模式过度保守的重要超参数。通常使用大约三分之一到一半的正例。在视频序列中，所有时间位置被归一化为[0,1]的区间。任何预测过度或交叉序列边界都以简单的联合规则合并。通过交叉验证学习其他超参数。

利用上述模型对包含不同类别的视频进行分析，该模型在行动上进行整体推理的能力提高了。该模型能够可以推断动作的时间边界，通过学习和训练，能够对类似的姿势、环境和场景变化进行识别。例如，对于一个体育视频，在标枪投掷的动作实例中，一旦人开始跑动，模型开始采取更频繁的观察。在行动的最后边界附近，该模型向前退一步以确定其假设然后再继续前进行预测。虽然帧级CNN概率超过序列的强度对于标准滑动窗口方法来说难以处理，但本申请的模型能够辨别出两个特定的实例。如果运动的动作比较模糊，难以从帧中很好地辨别出很多。该模型预测的时间段能够比实际动作持续时间稍微长一些，以便不漏掉动作，因此具有很高的识别准确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例，还提供了一种基于视频时序信息的视频语义分析装置装置，该装置是与上述实施例所述的方法对应的装置。图4是根据本申请的一个实施例的基于视频时序信息的视频语义分析装置的示意性框图。该装置可以包括：

视频向量化处理模块300，其配置成用于读取视频中的信息，将所述信息通过映射输出向量化的视频信息；

视频定位步骤模块400，其配置成用于利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；和

视频语义输出模块500，其配置成用于根据所述预测集中的内容，输出预测的所述视频中动作持续的起始时间和结束时间。

图5是根据本申请的另一个实施例的基于视频时序信息的视频语义分析装置的示意性框图。可选地，该装置还可以包括第一训练模块100，其配置成用于对所述动作分类器输出的候选检测向量进行训练：

所述匹配函数的损失函数为：

参见图5，可选地，该装置还可以包括第二训练模块200，其配置成用于对所述动作分类器输出的所述预测指示符和所述下一个需要观察的视频帧位置进行训练：

所述目标函数的梯度是：

可选地，所述第二训练模块200还用于：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例的一个方面提供了一种计算设备，参照图6，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本申请的方法步骤1131。

本申请的实施例的一个方面还提供了一种计算机可读存储介质。参照图7，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本申请的方法步骤的程序1131’，该程序被处理器执行。

本申请实施例的一个方面还提供了一种包含指令的计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算设备执行时，导致所述计算设备执行如上所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于视频时序信息的视频语义分析方法，包括：

视频定位步骤：利用动作分类器对所述向量化的视频信息所表达的动作进行分类，输出结果包括：候选检测向量、预测指示符和下一个需要观察的视频帧位置，其中，所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度，所述预测指示符用于表示是否将所述候选检测向量输出到预测集中；输入到最终结果中，所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息；和

2.根据权利要求1所述的方法，其特征在于，在所述视频向量化处理步骤之前，该方法还包括第一训练步骤：对所述动作分类器输出的候选检测向量进行训练，该第一训练步骤包括：

所述匹配函数的损失函数为：

3.根据权利要求1或2所述的方法，其特征在于，在所述视频向量化处理步骤之前，该方法还包括第二训练步骤：对所述动作分类器输出的所述预测指示符和所述下一个需要观察的视频帧位置进行训练，所述第二训练步骤包括：

所述目标函数的梯度是：

4.根据权利要求3所述的方法，其特征在于，所述第二训练步骤还包括：

5.一种基于视频时序信息的视频语义分析装置，包括：

6.根据权利要求5所述的装置，其特征在于，该装置还包括第一训练模块，其配置成用于对所述动作分类器输出的候选检测向量进行训练：

所述匹配函数的损失函数为：

7.根据权利要求5或6所述的装置，其特征在于，该装置还包括第二训练模块，其配置成用于所述预测指示符和所述下一个需要观察的视频帧位置进行训练：

所述目标函数的梯度是：

8.根据权利要求7所述的装置，其特征在于，所述第二训练模块还用于：

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至4中任一项所述的方法。