CN109961041A

CN109961041A - 一种视频识别方法、装置及存储介质

Info

Publication number: CN109961041A
Application number: CN201910218314.1A
Authority: CN
Inventors: 王柏瑞; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-02
Anticipated expiration: 2039-03-21
Also published as: CN109961041B

Abstract

本发明实施例公开了一种视频识别方法、装置及存储介质；本发明实施例可以获取待识别视频，所述待识别视频包括多帧图像；提取所述待识别视频中每一帧图像的多个局部特征；根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述。该方案可以提高视频内容描述的准确率。

Description

一种视频识别方法、装置及存储介质

技术领域

本发明涉及图像处理领域，具体涉及一种视频识别方法、装置及存储介质。

背景技术

视频内容描述的目的是从视频信息中学习到视频中包含的语义信息，并用自然语言描述出来。它在许多领域具有广泛的应用价值，如基于语义内容的视频检索和视频标注、描述性的视频服务、盲人导航和自动化视频监控等。近年来，伴随互联网与多媒体等技术的飞速发展，视觉数据的数量呈指数级的增长，从视觉信息中学习到语义信息的技术已经逐渐成为一种新的需求。

目前从单幅图像中学习到语义信息的技术已经日益成熟，但相对于图像而言，视频中包含有更加复杂的目标、场景和行为，这对学习视频中的语义信息提出了更高的要求，我们迫切需要一种能够生成表征视频内容且符合语言规范的句子的视频描述方法，现有的视频内容描述模型对于视频内容描述的准确率还有待提高。

发明内容

本发明实施例提供一种视频识别方法、装置及存储介质，可以提高视频内容描述的准确率。

本发明实施例提供一种视频识别方法，包括：

获取待识别视频，所述待识别视频包括多帧图像；

提取所述待识别视频中每一帧图像的多个局部特征；

根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；

根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述。

相应的，本发明实施例还提供一种视频识别装置，包括第一获取单元、第一提取单元、第一整合单元和第一识别单元，如下：

第一获取单元，用于获取待识别视频，所述待识别视频包括多帧图像；

第一提取单元，用于提取所述待识别视频中每一帧图像的多个局部特征；

第一整合单元，用于根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；

第一识别单元，用于根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述。

可选的，在一些实施例中，所述第一识别单元可以包括整合子单元和识别子单元，如下：

整合子单元，用于根据每一帧图像的局部特征序列的权重，对所述待识别视频中每一帧图像的局部特征序列进行整合，得到整合后的局部特征序列；

识别子单元，用于基于视频识别网络模型根据所述整合后的局部特征序列以及所述时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述，其中，所述视频识别网络模型基于视频样本训练而成。

可选的，在一些实施例中，所述整合子单元具体用于：

获取第一识别时刻对应的隐藏特征，所述第一识别时刻对应的隐藏特征由所述第一识别时刻对应的整合后的局部特征序列按照时序输入解码长短期记忆单元时产生；

根据每一帧图像的局部特征序列、所述隐藏特征以及所述待识别视频对应的总帧数确定每一帧图像的局部特征序列在第二识别时刻对应的权重，所述第二识别时刻为所述第一识别时刻之后的一个预估时刻；

在所述第二识别时刻根据每一帧局部特征序列的权重对每一帧局部特征序列进行整合，得到所述第二识别时刻对应的整合后的局部特征序列。

可选的，在一些实施例中，所述识别子单元具体用于：

基于所述视频识别网络模型根据所述第一识别时刻识别得到的单词、所述第二识别时刻对应的整合后的局部特征序列以及所述第一识别时刻对应的隐藏特征确定所述第二识别时刻对应的隐藏特征；

根据所述第二识别时刻对应的隐藏特征识别所述待识别视频在所述第二识别时刻识别得到的单词；

当获取了每个识别时刻的单词之后，根据每个识别时刻的单词确定所述待识别视频的视频内容描述。

可选的，在一些实施例中，所述装置还可以包括第二获取单元、第二提取单元、第二整合单元、第二识别单元和参数更新单元，如下：

第二获取单元，用于获取视频样本，所述视频样本包括多帧样本图像；

第二提取单元，用于提取所述视频样本中每一帧样本图像的多个局部特征；

第二整合单元，用于根据每一帧样本图像中各个局部特征的权重，对每一帧样本图像中的局部特征进行整合，得到每一帧样本图像的局部特征序列；

第二识别单元，用于根据每一帧样本图像的局部特征序列、以及所述视频样本中图像的时序特征，对所述视频样本进行内容识别，得到所述待识别视频的视频内容信息，所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息；

参数更新单元，用于根据所述视频内容信息以及所述视频样本的真实视频内容信息更新所述视频识别网络模型的参数，所述真实视频内容信息包括真实视频内容描述以及所述真实视频内容描述的真实词性信息。

可选的，在一些实施例中，所述参数更新单元具体用于：

根据所述真实视频内容描述从所述视频内容描述中确定内容描述预测值；

根据所述真实词性信息从所述词性信息中确定词性预测值；

根据所述内容描述预测值以及所述词性预测值更新所述视频识别网络模型的参数。

可选的，在一些实施例中，所述第一整合单元具体用于：

获取上一帧图像的局部特征序列所对应的隐藏特征，所述隐藏特征由所述上一帧局部特征序列按照时序输入编码长短期记忆单元时产生；

根据当前帧图像的各个局部特征、所述隐藏特征以及当前帧图像的局部特征总个数确定当前帧图像的各个局部特征的权重；

根据当前帧图像的各个局部特征的权重对当前帧图像的各个局部特征进行整合，得到当前帧图像的局部特征序列。

可选的，在一些实施例中，所述装置还包括：

输入单元，用于将所述待识别视频中的最后一帧图像的局部特征序列输入编码长短期记忆单元中，得到所述最后一帧图像的局部特征序列对应的隐藏特征；

确定单元，用于将所述最后一帧图像的局部特征序列对应的隐藏特征确定为所述时序特征。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种视频识别方法中的步骤。

本发明实施例在获取待识别视频之后；先提取待识别视频中每一帧图像的多个局部特征；然后根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；最后根据每一帧图像的局部特征序列、以及待识别视频中图像的时序特征，对待识别视频进行内容识别，得到待识别视频的视频内容描述。本方案会根据每张图像的局部特征的权重对每一帧图像的局部特征进行整合，然后根据整合后的每一帧图像的局部特征序列以及该待识别视频的时序特征获取待识别视频的视频内容描述，本方案充分利用了每一帧图像的局部特征进行视频内容的描述，可以提高对视频内容描述的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的视频识别方法的场景示意图；

图1b是本发明实施例提供的视频识别方法的流程示意图；

图1c是本发明实施例提供的编码器对应的应用场景图；

图1d是本发明实施例提供的解码器对应的应用场景图；

图2是本发明实施例提供的视频识别方法的另一个流程示意图；

图3a是本发明实施例提供的视频识别装置的一种结构示意图；

图3b是本发明实施例提供的视频识别装置的另一种结构示意图；

图3c是本发明实施例提供的视频识别装置的另一种结构示意图；

图3d是本发明实施例提供的视频识别装置的另一种结构示意图；

图4是本发明实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频识别方法、装置及存储介质。其中，该视频识别可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备。

所谓视频识别，指的是从待识别视频中识别出待识别视频的视频内容描述；在本发明中，请参阅图1a，图1a为本发明中视频识别方法的场景示意图，首先将包含m帧图像的待识别视频输入视频识别装置中，然后通过编码期中的卷积神经网络(ConvolutionalNeural Networks，CNN)提取每一帧图像的空间特征(第i帧图像的空间特征为v_i)，空间特征包括多个局部特征，其中，空间特征v_i的尺寸是(H_v，W_v，D_v)，H_v表示空间特征内所包含的局部特征在高度方向的数量、W_v表示在局部特征在宽度方向的数量，D_v表示每一个局部特征的向量长度。之后再在编码器中利用注意力机制为每一帧图像的空间特征中的每一个局部特征动态分配权重(当前帧图像对应的空间特征v_i的权重具体根据上一帧图像局部特征序列对应的隐藏特征h_i-1确定)，并将其进行加权和，得到每一帧图像的局部特征序列，同时提取其内部的时序信息获得视频级别的全局特征V'＝{v₁'，v₂'，…v_m'}。在解码器预测每一个单词之前，还需要通过解码器中的注意力机制在各个识别时刻分别对每一帧图像的局部特征序列进行整合(当前识别时刻对应的局部特征序列ψ_t具体根据上一识别时刻整合的局部特征序列对应的隐藏特征进行整合)，得到视频级别的特征表达，最后根据各个识别时刻得到的视频级别的特征表达以及该待识别视频的时序特征预测每一个识别时刻的单词s_t，最后根据每一个识别时刻(如，n个识别时刻对应n个单词)的单词生产对待识别视频的视频内容描述，在一些实施例中，还需要预测每个单词的词性(词类)z_t。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从视频识别装置的角度进行描述，该视频识别装置具体可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算(PC，Personal Computer)等设备。

如图1b所示，该如图1b所示，该图像分割方法的具体流程可以如下：方法的具体流程可以如下：

101、获取待识别视频。

例如，可以从视频类网站中获取待识别视频，也可以直接从用户终端中获取待识别视频，其中的，待识别视频包括多帧图像，在本实施例中，待识别视频可以包含m帧图像，m为大于1的整数。

其中，待识别视频为需要进行视频内容描述的视频。

102、提取待识别视频中每一帧图像的多个局部特征。

即提取每一帧图像的空间特征，空间特征包括多个局部特征。

本实施例中对空间特征提取的方案可以基于卷积神经网络，即可以利用卷积神经网络作为特征提取器，在实施时，可以将卷积神经网络的中间特征图作为每一帧图像的空间特征(第i帧图像的空间特征为v_i)，最后提取得到V＝{v₁，v₂，…v_m}，其中每一帧的的空间特征v_i的尺寸是(H_v，W_v，D_v)。

其中，从每一帧图像中的多个局部特征的提取位置可以是固定的，例如，将图像平均分成8×8个方块，提取每个方块的特征，得到多个局部特征。

103、根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列。

本发明实施例可以利用注意力机制为每一帧空间特征中的每一个局部特征动态分配权重，并将其进行加权和，得到帧级别的局部特征序列，具体为：

其中，v_i,j表示第i帧图像的空间特征中的第j个局部特征，α_i,j表示为v_i,j动态分配的权重，x为空间特征中局部特征的总数，其中，该权重由视频识别装置学习得到，具体流程为：

其中，W_α和b_α表示可学习参数，exp()标识指数函数，H_v×W_v表示在一个空间特征中所包含的局部特征总数，h_i-1标识编码器在上一识别时刻对应的隐藏状态，其中，识别时刻为对待检测视频进行单词预测的时刻，每一个识别时刻预测一个单词，最后有识别出来的单词组成视频内容描述。

如图1c所示，图1c为本实施例视频识别装置中编码器的一个应用场景图，在获得卷积神经网络空间特征的基础上，基于长短期记忆单元(Long Short-Term Memory,LSTM)的循环神经网络建立编码器，将空间特征进行整合得到每一帧图像的局部特征序列，并提取视频级别的时序特征。

具体地，每一帧图像的局部特征序列按照时序输入到LSTM中，LSTM会产生隐藏状态，该状态包含了目前所输入的局部特征序列所含的时序信息，并参与下一帧空间特征的整合：

h_i,c_i＝LSTM(v_i'，h_i-1)；

其中LSTM表示LSTM单元的一般计算过程，其输入为当前的帧级别局部特征v_i'和上一帧对应的隐藏状态h_i-1，输出对应于当前帧的隐藏状态h_i-1和记忆细胞状态c_i。当所有每一帧图像的局部特征序列全部被编码器处理后，LSTM单元的最终隐藏状态将作为视频的时序特征用于生成自然语言描述，即：

需要说明的是，在对待识别视频中第一帧图像的局部特征序列进行整合时，可以将局部特征平均值(即1/每一帧图像的局部特征个数)作为局部特征的权重，也可以将初始化值作为第一帧图像中局部特征的权重，其中，该初始化具体此处不做限定，可以为局部特征平均值，也可以不为局部特征平均值，其中，第一个隐藏特征可以为一个初始化值。

104、根据每一帧图像的局部特征序列、以及待识别视频中图像的时序特征，对待识别视频进行内容识别，得到待识别视频的视频内容描述。

本实施例在获取了每一帧图像的局部特征序列V'＝{v₁',v₂',…v_m'}和该待识别视频的时序特征的基础上，需要基于循环神经网络的解码器的生成该待识别视频的视频内容描述S＝{s₁，s₂，...s_t...s_n}，其中，s_t为在第t识别时刻识别得到的单词。

在一些实施例中，还可以预测每个单词的词性(词类)z_t即局部词性信息。

其中，具体流程可见图1d，图1d为本实施例视频识别装置中编码器的一个应用场景图，其中{v'}表示未整合的局部特征序列的集合：

待识别视频的视频内容描述通过解码器每一识别时刻预测一个单词组合得到，在预测每个单词之前，解码器利用注意力机制对待识别视频中的每一帧图像对应的局部特征序列进行整合，得到整合后的局部特征序列：

具体地，在第t识别时刻对局部特征序列进行整合时，公式如下：

其中，表示在第t识别时刻对应的第i个局部特征序列的动态权重，并满足其中，的计算方式和前面所提到的α_i,j的计算方式类似，但是根据每一帧图像的局部特征序列、t-1时刻对应的隐藏特征以及该待识别视频的总帧数确定，其中，t-1时刻对应的隐藏特征为t-1时刻对应的整合后的局部特征序列输入解码器中的LSTM是产生的隐藏特征，v_i'表示待识别视频中的第i帧局部特征序列，ψ_t表示第t识别时刻对应的整合后的局部特征序列。

需要说明的是，在第一个识别时刻进行整合局部特征序列时，可以将帧特征平均值(即1/待识别视频中的帧总数)作为局部特征序列的权重，也可以将初始化值作为第一个识别时刻对应的局部特征序列的权重，其中，该初始化具体此处不做限定，可以为帧特征平均值，也可以不为帧特征平均值，其中，对应的第一个(第一个识别时刻)隐藏特征可以为一个初始化值。

在解码器预测单词的过程可以表示如下：

其中，s_t-1表示编码器在上一识别时刻产生的单词(当前识别时刻为t)，E(s_t-1)表示将上一识别时刻预测得到的单词映射到一个可更新的向量空间，表示将单词向量、视频局部特征和视频时序特征经过级联或线性变换，得到单个变量，座位LSTM单元的输入。表示解码器上一识别时刻的隐藏状态，表示解码器当前时刻的隐藏状态，表示当前识别时刻的记忆细胞状态。

根据可得到所有单词的概率分布，如下：

其中，W_s和b_s分别表示单词分类器的可学习参数，用于将隐藏状态映射到每一个单词。

其中，在一些实施例中，解码器还同时得到所有词性的概率分布，如下：

其中，和表示词性判别器的可学习参数，用于将隐藏状态映射到每一个词性，θ表示整个网络的可更新参数。

其中，当待识别视频为视频样本时(即已知真实的视频内容描述以及真实的词性)，本实施例可以利用预测得到的视频内容描述以及词性进行视频识别网络模型的参数更新，词性为模型训练提供辅助信息，可以使得训练得到的模型对待识别视频生成更准确的视频内容描述，从而提高视频内容描述生成的性能，进一步提高视频内容描述的能力。

根据上一个实施例所描述的方法，以下将举例作进一步详细说明。

(一)模型的训练：

本发明实施例中的模型为深度网络模型，该深度网络模型可以为视频识别网络模型，该视频识别网络模型用于识别输入视频的视频内容描述，该视频识别网络模型可以为视频识别设备，也可以为该视频网络设备中的一部分。

本实施例在模型的训练阶段的损失函数定义如下：

其中，N表示参与训练的视频样本的数量，V^k表示第k个待描述视频，S^k表示第k个视频样本的视频内容描述，Z^k表示词性序列，θ表示整个网络的可更新参数，λ为经验参数，作用是平衡单词分类器与词性判别器的损失对整体模型的影响。

上式花括号中第一项表示产生正确自然语言描述(视频内容描述)的概率，第二项表示产生对应于描述的正确词性概率，具体如下：

具体地，在一些实施例中，为了训练视频识别网络模型，首先需要获取视频样本，其中，视频样本包括多帧样本图像；提取视频样本中每一帧样本图像的多个局部特征；然后根据每一帧样本图像中各个局部特征的权重，对每一帧样本图像中的局部特征进行整合，得到每一帧样本图像的局部特征序列；再根据每一帧样本图像的局部特征序列、以及视频样本中图像的时序特征，对视频样本进行内容识别，得到待识别视频的视频内容信息，其中，视频内容信息包括视频内容描述以及视频内容描述的词性信息；最后根据视频内容信息以及视频样本的真实视频内容信息更新视频识别网络模型的参数，真实视频内容信息包括真实视频内容描述以及真实视频内容描述的真实词性信息。

本发明实施例在训练视频识别网络模型时，在预测视频内容描述的同时，还需要预测视频内容的词性信息，同时利用预测得到的视频内容描述以及视频内容的词性信息更新视频识别网络模型的参数，使用视频内容的词性信息辅助模型的训练，可以进一步提高视频识别网络模型对视频内容描述的能力，提高视频内容描述的准确率。

具体地，根据视频内容信息以及视频样本的真实视频内容信息更新视频识别网络模型的参数，包括：

a.根据真实视频内容描述从视频内容描述中确定内容描述预测值。

具体地，根据真实视频内容描述从视频内容描述中确定每个单词的单词预测值，然后根据每个单词的单词预测值确定内容描述预测值，例如，可以将每个单词的单词预测值相加得到内容描述预测值。

b.根据真实词性信息从词性信息中确定词性预测值。

具体地，根据真实词性信息从词性信息(可以为词性序列)中确定每个词性的子词性预测值，然后根据每个词性的子词性预测值确定词性预测值，例如，可以将每个子词性预测值相加得到词性预测值。

c.根据内容描述预测值以及词性预测值更新视频识别网络模型的参数。

本发明根据两个值对模型进行收敛，可以进一步提高视频识别网络模型对视频内容描述的能力，提高视频内容描述的准确率。

(二)通过训练好的视频识别网络模型，识别待检测视频。

如图2所示，一种视频识别方法，具体流程可以如下：

201、获取待识别视频。

可以从视频类网站中获取待识别视频，也可以直接从用户终端中获取待识别视频，其中的，待识别视频包括多帧图像，在本实施例中，待识别视频可以包含m帧图像，m为大于1的整数。

其中，待识别视频为需要进行视频内容描述的视频。

202、提取待识别视频中每一帧图像的多个局部特征。

即提取每一帧图像的空间特征，其中，该空间特征包括多个局部特征。

203、获取上一帧图像的局部特征序列所对应的隐藏特征。

其中，该隐藏特征由上一帧局部特征序列按照时序输入编码长短期记忆单元时产生。

如图1c所示，编码长短期记忆单元(LSTM)位于编码器中，当前帧局部特征序列以及上一帧图像局部特征序列所对应的隐藏特征输入LSTM时，可以得到当前帧局部特征序列的隐藏特征；同理，当上一帧图像的局部特征序列以及上上帧图像局部特征序列输入LSTM时，可以得到上一帧局部特征序列的隐藏特征，其中，每一帧图像的局部特征序列对对应的隐藏特征按照时序依次根据LSTM获取得到。

其中，在一些实施例中，将待识别视频中的最后一帧图像的局部特征序列输入编码长短期记忆单元中，得到最后一帧图像的局部特征序列对应的隐藏特征之后，需要将最后一帧图像的局部特征序列对应的隐藏特征确定为该待识别视频的时序特征。

204、根据当前帧图像的各个局部特征、隐藏特征以及当前帧图像的局部特征总个数确定当前帧图像的各个局部特征的权重。

其中，每一帧图像中各个局部特征的权重由模型学习得到，具体地，当前帧图像的各个局部特征的权重与当前局部特征的值、上一帧图像中局部特征序列对应的隐藏特征以及当前帧图像的特征总数确定得到。

205、根据当前帧图像的各个局部特征的权重对当前帧图像的各个局部特征进行整合，得到当前帧图像的局部特征序列。

具体地，在一些实施例中，当确定了当前帧各个局部特征的权重之后，需要根据各个局部特征的权重对当前帧各个局部特征的权重进行整合，在一些实施例中，可以按照以下方式进行整合：

其中，v_i'为第i帧图像对应的局部特征序列，v_i,j表示第i帧图像的空间特征中的第j个局部特征，α_i,j表示为v_i,j动态分配的权重，x为空间特征中局部特征的总数。

其中，如何为v_i,j分配的权重与上一个实施例类似，具体此处不做赘述。

206、根据每一帧图像的局部特征序列的权重，对待识别视频中每一帧图像的局部特征序列进行整合，得到整合后的局部特征序列。

整合后的局部特征序列包含有该待识别视频的所有局部特征序列，在一些实施例中，利用非线性神经网络和循环神经网络组成的编码器整合空间特征，得到整合后的局部特征序列：V'＝{v₁',v₂',…v_m'}。

其中，所述根据每一帧图像的局部特征序列的权重，对所述待识别视频中每一帧图像的局部特征序列进行整合，得到整合后的局部特征序列，包括：

a.获取第一识别时刻对应的隐藏特征。

其中，识别时刻为需要对待识别视频进行单词识别的时刻，每一个识别时刻识别一个单词，最后由识别出来的单词依次组成视频内容描述。

第一识别时刻为当前识别时刻(第二识别时刻)的上一个识别时刻，当前时刻局部特征序列需要依据上一识别时刻得到的隐藏特征进行整合，上一识别时刻(第一识别时刻)对应的隐藏特征由上一识别时刻对应的整合后的局部特征序列按照时序输入解码长短期记忆单元时产生，其中，如图1d所示，解码长短期记忆单元为位于解码器中的LSTM。

b.根据每一帧图像的局部特征序列、隐藏特征以及待识别视频对应的总帧数确定每一帧图像的局部特征序列在第二识别时刻对应的权重。

其中，第二识别时刻为第一识别时刻之后的一个预估时刻，本实施例可以根据每一帧图像的局部特征序列、上一识别时刻对应的隐藏特征以及待识别视频对应的总帧数确定每一帧图像的局部特征序列在第二识别时刻对应的权重。

c.在第二识别时刻根据每一帧局部特征序列的权重对每一帧局部特征序列进行整合，得到第二识别时刻对应的整合后的局部特征序列。

当获取到了第二识别时刻每一帧局部特征序列对应的权重之后，根据每一帧局部特征序列对应的权重对每一帧局部特征进行整合，得到第二识别时刻对应的整合后的局部特征序列。

207、基于视频识别网络模型根据整合后的局部特征序列以及时序特征，对待识别视频进行内容识别，得到待识别视频的视频内容描述。

其中，视频识别网络模型基于视频样本训练而成。

具体地，视频识别网络模型根据当前识别时刻对应整合后的局部特征序列以及时序特征序列识别得到当前识别时刻待识别视频对应的单词。

更具体地，视频识别网络模型除了根据当前识别时刻对应整合后的局部特征序列以及时序特征序列识别进行内容识别之外，还需要结合上一识别时刻识别得到的单词以及上一识别时刻对应的隐藏特征进行内容识别，得到当前识别时刻对应的单词。

在一些实施例中，当得到了每一个识别时刻对应的单词之后，视频识别网络模型将每一识别时刻对应的单词依次进行组合，得到待识别视频的视频内容描述。

在一些实施例中，视频网络模型除了预测视频内容描述之外，还可以预测视频内容描述对应的词性信息(即视频内容中每个单词对应的词性)。

需要说明的是，本实施例中的视频识别网络模型基于视频样本训练而成，具体地，视频识别网络模型在训练时，需要结合视频识别网络模型预测得到的视频内容描述以及视频识别网络模型预测得到词性信息对视频识别网络模型进行参数更新。通过词性信息对视频识别网络模型的训练进行辅助，可以进一步提高视频识别网络模型对视频内容描述的准确性，提高视频识别网络模型的性能。

为了更好地实施以上方法，本发明实施例还提供一种视频识别装置，该视频识别装置具体可以集成在网络设备如终端或服务器等设备中，该终端可以包括手机、平板电脑、笔记本电脑或PC等设备。

例如，如图3a所示，该视频识别装置可以包括第一获取单元301、第一提取单元302、第一整合单元303和第一识别单元304，如下：

第一获取单元301，用于获取待识别视频，所述待识别视频包括多帧图像；

第一提取单元302，用于提取所述待识别视频中每一帧图像的多个局部特征；

第一整合单元303，用于根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；

第一识别单元304，用于根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述。

如图3b所示，在一些实施例中，所述第一识别单元304可以包括整合子单元3041和识别子单元3042，如下：

整合子单元3041，用于根据每一帧图像的局部特征序列的权重，对所述待识别视频中每一帧图像的局部特征序列进行整合，得到整合后的局部特征序列；

识别子单元3042，用于基于视频识别网络模型根据所述整合后的局部特征序列以及所述时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述，其中，所述视频识别网络模型基于视频样本训练而成。

在一些实施例中，所述整合子单元3041具体用于：

在一些实施例中，所述识别子单元3042具体用于：

如图3c所示，在一些实施例中，所述装置还可以包括第二获取单元305、第二提取单元306、第二整合单元307、第二识别单元308和参数更新单元309，如下：

第二获取单元305，用于获取视频样本，所述视频样本包括多帧样本图像；

第二提取单元306，用于提取所述视频样本中每一帧样本图像的多个局部特征；

第二整合单元307，用于根据每一帧样本图像中各个局部特征的权重，对每一帧样本图像中的局部特征进行整合，得到每一帧样本图像的局部特征序列；

第二识别单元308，用于根据每一帧样本图像的局部特征序列、以及所述视频样本中图像的时序特征，对所述视频样本进行内容识别，得到所述待识别视频的视频内容信息，所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息；

参数更新单元309，用于根据所述视频内容信息以及所述视频样本的真实视频内容信息更新所述视频识别网络模型的参数，所述真实视频内容信息包括真实视频内容描述以及所述真实视频内容描述的真实词性信息。

在一些实施例中，所述参数更新单元309具体用于：

根据所述真实词性信息从所述词性信息中确定词性预测值；

在一些实施例中，所述第一整合单元303具体用于：

如图3d所示，在一些实施例中，所述装置还包括：

输入单元310，用于将所述待识别视频中的最后一帧图像的局部特征序列输入编码长短期记忆单元中，得到所述最后一帧图像的局部特征序列对应的隐藏特征；

确定单元311，用于将所述最后一帧图像的局部特征序列对应的隐藏特征确定为所述时序特征。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本发明实施例第一获取单元301获取待识别视频之后；第一提取单元302提取待识别视频中每一帧图像的多个局部特征；然后第一整合单元303根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；最后第一识别单元304根据每一帧图像的局部特征序列、以及待识别视频中图像的时序特征，对待识别视频进行内容识别，得到待识别视频的视频内容描述。本方案会根据每张图像的局部特征的权重对每一帧图像的局部特征进行整合，然后根据整合后的每一帧图像的局部特征序列以及该待识别视频的时序特征获取待识别视频的视频内容描述，本方案充分利用了每一帧图像的局部特征进行视频内容的描述，可以提高对视频内容描述的准确率。

本发明实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备。如图4所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待识别视频，待识别视频包括多帧图像；

提取待识别视频中每一帧图像的多个局部特征；

根据每一帧图像的局部特征序列、以及待识别视频中图像的时序特征，对待识别视频进行内容识别，得到待识别视频的视频内容描述。

在一些实施例中，还获取视频样本，视频样本包括多帧样本图像；提取视频样本中每一帧样本图像的多个局部特征；根据每一帧样本图像中各个局部特征的权重，对每一帧样本图像中的局部特征进行整合，得到每一帧样本图像的局部特征序列；根据每一帧样本图像的局部特征序列、以及视频样本中图像的时序特征，对视频样本进行内容识别，得到待识别视频的视频内容信息，视频内容信息包括视频内容描述以及视频内容描述的词性信息；根据视频内容信息以及视频样本的真实视频内容信息更新视频识别网络模型的参数，真实视频内容信息包括真实视频内容描述以及真实视频内容描述的真实词性信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的网络设备可以在获取待识别视频之后；先提取待识别视频中每一帧图像的多个局部特征；然后根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列；最后根据每一帧图像的局部特征序列、以及待识别视频中图像的时序特征，对待识别视频进行内容识别，得到待识别视频的视频内容描述。本方案会根据每张图像的局部特征的权重对每一帧图像的局部特征进行整合，然后根据整合后的每一帧图像的局部特征序列以及该待识别视频的时序特征获取待识别视频的视频内容描述，本方案充分利用了每一帧图像的局部特征进行视频内容的描述，可以提高对视频内容描述的能力。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视频识别方法中的步骤。例如，该指令可以执行如下步骤：

获取待识别视频，待识别视频包括多帧图像；

提取待识别视频中每一帧图像的多个局部特征；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视频识别方法中的步骤，因此，可以实现本发明实施例所提供的任一种视频识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种视频识别方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频识别方法，其特征在于，包括：

获取待识别视频，所述待识别视频包括多帧图像；

提取所述待识别视频中每一帧图像的多个局部特征；

2.根据权利要求1所述的方法，其特征在于，所述根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述，包括：

根据每一帧图像的局部特征序列的权重，对所述待识别视频中每一帧图像的局部特征序列进行整合，得到整合后的局部特征序列；

基于视频识别网络模型根据所述整合后的局部特征序列以及所述时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述，其中，所述视频识别网络模型基于视频样本训练而成。

3.根据权利要求2所述的方法，其特征在于，所述根据每一帧图像的局部特征序列的权重，对所述待识别视频中每一帧图像的局部特征序列进行整合，得到整合后的局部特征序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于视频识别网络模型根据所述整合后的局部特征序列以及所述时序特征，对所述待识别视频进行内容识别，得到所述待识别视频的视频内容描述，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取视频样本，所述视频样本包括多帧样本图像；

提取所述视频样本中每一帧样本图像的多个局部特征；

根据每一帧样本图像中各个局部特征的权重，对每一帧样本图像中的局部特征进行整合，得到每一帧样本图像的局部特征序列；

根据每一帧样本图像的局部特征序列、以及所述视频样本中图像的时序特征，对所述视频样本进行内容识别，得到所述待识别视频的视频内容信息，所述视频内容信息包括视频内容描述以及所述视频内容描述的词性信息；

根据所述视频内容信息以及所述视频样本的真实视频内容信息更新所述视频识别网络模型的参数，所述真实视频内容信息包括真实视频内容描述以及所述真实视频内容描述的真实词性信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述视频内容信息以及所述视频样本的真实视频内容信息更新所述视频识别网络模型的参数，包括：

根据所述真实词性信息从所述词性信息中确定词性预测值；

7.根据权利要求1所述的方法，其特征在于，所述根据每一帧图像中各个局部特征的权重，对每一帧图像中的局部特征进行整合，得到每一帧图像的局部特征序列，包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征，对所述待识别视频进行内容识别之前，所述方法还包括：

将所述待识别视频中的最后一帧图像的局部特征序列输入编码长短期记忆单元中，得到所述最后一帧图像的局部特征序列对应的隐藏特征；

将所述最后一帧图像的局部特征序列对应的隐藏特征确定为所述时序特征。

9.一种视频识别装置，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的视频识别方法中的步骤。