CN111368656A

CN111368656A - 一种视频内容描述方法和视频内容描述装置

Info

Publication number: CN111368656A
Application number: CN202010110925.7A
Authority: CN
Inventors: 杜泽伟; 李灵慧; 谢凌曦; 张勇东; 田奇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-07-03

Abstract

本申请实施例公开了一种视频内容描述方法，应用于人工智能及图像处理技术领域，包括：获取待描述的视频，所述视频包括多个图像帧；确定第一图像帧的全局特征，所述第一图像帧为所述多个图像帧中的任一图像帧；通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征，所述第一时刻为所述第二时刻的前一个时刻，所述第一图像帧的第二时刻的局部特征用于指示所述第一图像帧中局部区域的特征；根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

Description

一种视频内容描述方法和视频内容描述装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频内容描述方法和视频内容描述装置。

背景技术

视频内容描述(video captioning)，是通过给定一段视频，生成描述视频内容的一段文字。视频内容描述需要用通顺准确的一句话来描述视频内容。这不仅需要识别出视频中的物体，还需要识别物体间的相互关系，物体的属性以及物体所在的场景。

现有的视频内容描述方法，通过深度学习网络提取视频的全局特征，并使用目标检测器检测每一帧内的所有目标，提取所有目标的局部特征，将视频的全局特征以及所有局部特征输入循环神经网络(recurrent neural network)生成当前时刻的视频内容描述文本。

由于视频的多个图像帧之间具有较多重复图像信息，因此提取图像帧中所有目标的局部特征时，将产生较多时序或空间的冗余信息，不仅使得计算和存储资源开销增大，还会降低描述文本的准确性。

发明内容

本申请实施例提供了一种视频内容描述方法，用于实现视频内容描述，可以减少计算量，此外还可以提高内容描述的准确率。

本申请实施例第一方面提供了一种视频内容描述方法，包括：获取待描述的视频，所述视频包括多个图像帧；确定第一图像帧的全局特征，所述第一图像帧为所述多个图像帧中的任一图像帧；通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征，所述第一时刻为所述第二时刻的前一个时刻，所述第一图像帧的第二时刻的局部特征用于指示所述第一图像帧中局部区域的特征；根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

本申请实施例提供的视频内容描述方法，视频内容描述装置获取待描述视频的所述多个图像帧中每个图像帧的全局特征，并通过该全局特征和预训练的循环神经网络在上一时刻的输出，动态地确定图像帧在当前时刻的局部特征，根据图像帧的全局特征和局部特征，通过所述循环神经网络，以确定当前时刻的视频内容描述文本。由于本方案可以根据全局特征和预训练的循环神经网络在上一时刻的输出，动态地确定图像帧在当前时刻的局部特征，即可以定位到每帧图像中关键的局部区域，根据该局部区域的局部特征获取当前时刻的视频内容描述文本，可以减少提取的冗余信息，降低计算量。

在第一方面的一种可能的实现方式中，通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征包括：将所述第一图像帧输入卷积神经网络，提取所述卷积神经网络中第一卷积层的特征图；根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一目标区域，所述第一目标区域与所述第一图像帧中的所述局部区域相对应；确定所述第一目标区域对应的特征为所述第一图像帧在所述第二时刻的局部特征。

可选地，所述全局特征通过所述卷积神经网络的池化层提取；可选地，所述第一卷积层为所述卷积神经网络的最后一个卷积层。

本申请实施例提供的视频内容描述方法，提供了确定局部特征的一种具体实现方式，即从第一卷积层的特征图中确定第一目标区域，将第一目标区域对应的特征确定为局部特征，由于局部特征为所述第一图像帧中的所述局部区域相对应的特征，相较提取图像帧整体特征或多个目标特征，可以显著降低计算量。

在第一方面的一种可能的实现方式中，根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一目标区域包括：根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一中心点；根据所述第一中心点和预设的目标区域的尺寸确定所述第一目标区域。

本申请实施例提供的视频内容描述方法，提供了确定局部特征的一种具体实现方式，即从第一卷积层的特征图中先确定定第一中心点，再确定以该第一中心点为几何中心，具有预设尺寸的第一目标区域，其中第一中心点的确定是根据循环神经网络当前时刻之前的输出以及第一图像帧的全局特征确定，也就是说，每个图像帧局部特征，是当前时刻根据之前输出信息动态确定的，还与每个图像帧的全局特征相关，由此，可以准确有效地获取每个图像帧的局部特征。

在第一方面的一种可能的实现方式中，从所述多个图像帧中确定多个关键帧，所述多个关键帧的数量小于所述多个图像帧的数量；所述第一图像帧为所述多个关键帧中的任一图像帧。

本申请实施例提供的视频内容描述方法，考虑到视频的多个图像帧中，连续拍摄的图像帧之间内容较为接近，冗余信息多，若逐帧进行信息提取耗费计算资源多，提取效率低，通过从多个图像帧中筛选具有代表性的关键帧，可以减少计算量，提高效率。

在第一方面的一种可能的实现方式中，多个关键帧的数量根据交叉验证的方式确定。

本申请实施例提供的视频内容描述方法，可以预先通过预设多个关键帧数量，若关键帧数量多，计算量增大，若关键帧数量少，计算量小，但内容描述准确度降低，根据交叉验证的方法确定视频内容描述的效果，可以根据实际需要选取使得计算量和准确度平衡，均可满足使用需要的关键帧的数量。

在第一方面的一种可能的实现方式中，从所述多个图像帧中确定多个关键帧包括：根据所述多个图像帧的全局特征之间的相似度，从所述多个图像帧中确定所述多个关键帧。

本申请实施例提供的视频内容描述方法，限定了选取关键帧的具体方式，即通过多个图像帧的全局特征之间的相似度进行选择，可以选取具有代表性的关键帧，提高内容描述的准确度。

在第一方面的一种可能的实现方式中，根据所述多个图像帧的全局特征之间的相似性，从所述多个图像帧中确定所述多个关键帧包括：确定所述多个图像帧中每个图像帧的全局特征与所述第二图像帧的全局特征之间的相似度的集合；根据所述相似度集合以及预设的所述多个关键帧的数量，确定多个目标相似度，所述多个目标相似度为一组等差数列且包括所述相似度集合中的最大的相似度和最小的相似度；确定所述多个目标相似度对应的图像帧为所述多个关键帧。可选地，所述第二图像帧为视频的第一帧。可选地，所述第二图像帧为视频的任一图像帧。

本申请实施例提供的视频内容描述方法，提供了一种通过相似度选取关键帧的一种具体方法，即计算所有图像帧中每个图像帧的全局特征与某一图像帧的全局特征之间的相似度，确定最高相似度和最低相似度，根据预设的关键帧数量确定相似度梯度，进而可以得到一组等差的相似度集合，根据该相似度集合，确定关键帧，具体可以是选取与该相似度集合中每个相似度最接近的相似度对应的图像帧为关键帧。由此，可以获取一组与第二图像帧的相似度从最高到最低的一组关键帧，用于代表整个视频，用于后续特征提取，该方案由于选取了一组具有代表性的关键帧，可以提高视频内容描述的准确度。

在第一方面的一种可能的实现方式中，根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本包括：根据注意力机制确定所述第一图像帧的全局特征的权值，和所述第一图像帧的所述第二时刻的局部特征的权值；根据所述全局特征、所述第二时刻的局部特征、所述所述全局特征的权值，以及所述第二时刻的局部特征的权值确定所述第二时刻的视频特征；根据所述第二时刻的视频特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

本申请实施例提供的视频内容描述方法，考虑到每一时刻内容描述时，各个关键帧可以提供的有效信息之间的差异，通过注意力机制，确定每个图像帧的全局特征的权值，以及局部特征的权值，进一步确定视频特征，可以提高视频特征的有效性，使得视频内容描述的准确度提高。

在第一方面的一种可能的实现方式中，所述循环神经网络为第一网络训练后得到，所述方法还包括：将从视频样本中提取的全局特征和局部特征输入所述第一网络进行训练，根据第一网络的平衡损失函数获取第一损失值，所述平衡损失函数与描述文本的词频-逆文本频率正相关；根据所述第一损失值更新所述第一网络中的权重参数，以获取所述循环神经网络。

本申请实施例提供的视频内容描述方法，该方法中使用的循环神经网络在训练过程中使用了平衡损失函数进行训练，该平衡损失函数不同于现有损失函数的一点在于，考虑了现有的视频自动描述数据集中，视频对应标注的描述文本中单词类别不均衡的问题，在损失函数中引入了描述文本的词频-逆文本频率TF-IDF相关的参数，对于对于训练数据集的描述文本中出现次数较多的单词，该权值较小，对于出现次数较少的单词，该权值较大，使得模型在训练过程中，可以给出现次数较少但是具有更重要意义的词较大的权值，因此可以解决数据不均衡的问题。通过该平衡损失函数训练得到的循环神经网络，用于视频内容描述方法，可以提高描述文本的准确率。

本申请实施例第二方面提供了一种视频内容描述装置，包括：获取单元，用于获取待描述的视频，所述视频包括多个图像帧；确定单元，用于确定第一图像帧的全局特征，所述第一图像帧为所述多个图像帧中的任一图像帧；所述确定单元，还用于通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征，所述第一时刻为所述第二时刻的前一个时刻，所述第一图像帧的第二时刻的局部特征用于指示所述第一图像帧中局部区域的特征；所述确定单元，还用于根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

在第二方面的一种可能的实现方式中，所述装置还包括：处理单元，用于将所述第一图像帧输入卷积神经网络，以提取所述卷积神经网络中第一卷积层的特征图；所述确定单元，具体用于：根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一目标区域，所述第一目标区域与所述第一图像帧中的所述局部区域相对应；确定所述第一目标区域对应的特征为所述第一图像帧在所述第二时刻的局部特征。

在第二方面的一种可能的实现方式中，所述确定单元，具体用于：根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一中心点；根据所述第一中心点和预设的目标区域的尺寸确定所述第一目标区域。

在第二方面的一种可能的实现方式中，所述确定单元，还用于：从所述多个图像帧中确定多个关键帧，所述多个关键帧的数量小于所述多个图像帧的数量就，所述第一图像帧为所述多个关键帧中的任一图像帧。

在第二方面的一种可能的实现方式中，所述多个关键帧的数量根据交叉验证的方式确定。

在第二方面的一种可能的实现方式中，所述确定单元，具体用于：根据所述多个图像帧的全局特征之间的相似度，从所述多个图像帧中确定所述多个关键帧。

在第二方面的一种可能的实现方式中，所述多个图像帧包括第二图像帧；所述确定单元，具体用于：确定所述多个图像帧中每个图像帧的全局特征与所述第二图像帧的全局特征之间的相似度的集合；根据所述相似度集合以及预设的所述多个关键帧的数量，确定多个目标相似度，所述多个目标相似度为一组等差数列且包括所述相似度集合中的最大的相似度和最小的相似度；确定所述多个目标相似度对应的图像帧为所述多个关键帧。

在第二方面的一种可能的实现方式中，所述确定单元，具体用于：根据注意力机制确定所述第一图像帧的全局特征的权值，和所述第一图像帧的所述第二时刻的局部特征的权值；根据所述全局特征、所述第二时刻的局部特征、所述所述全局特征的权值，以及所述第二时刻的局部特征的权值确定所述第二时刻的视频特征；根据所述第二时刻的视频特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

在第二方面的一种可能的实现方式中，所述循环神经网络为第一网络训练后得到，所述装置还包括：训练单元，用于将从视频样本中提取的全局特征和局部特征输入所述第一网络进行训练，根据第一网络的平衡损失函数获取第一损失值，所述平衡损失函数与描述文本的词频-逆文本频率正相关；所述获取单元，还用于根据所述第一损失值更新所述第一网络中的权重参数，以获取所述循环神经网络。

本申请实施例第三方面提供了一种视频内容描述装置，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于调用所述程序指令，执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。

本申请实施例第四方面提供了一种包含指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。

本申请实施例第五方面提供了一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使得计算机执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。

本申请实施例第六方面提供了一种一种芯片，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行上述任一方面任意可能的实现方式中的方法。可选地，该芯片该包括存储器，该存储器与该处理器通过电路或电线与存储器连接。进一步可选地，该芯片还包括通信接口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理，并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。

其中，第二方面、第三方面、第四方面、第五方面、第六方面中任一种实现方式所带来的技术效果可参见第一方面中相应实现方式所带来的技术效果，此处不再赘述。

本申请实施例提供的视频内容描述方法，视频内容描述装置获取待描述视频的所述多个图像帧中每个图像帧的全局特征，并通过该全局特征和预训练的循环神经网络在上一时刻的输出，动态地确定图像帧在当前时刻的局部特征，根据图像帧的全局特征和局部特征，通过所述循环神经网络，以确定当前时刻的视频内容描述文本。由于本方案中，可以根据全局特征和预训练的循环神经网络在上一时刻的输出，动态地确定图像帧在当前时刻的局部特征，即可以定位到每帧关键的目标区域，根据该目标区域的局部特征获取当前时刻的视频内容描述文本，可以减少提取的冗余信息，降低计算量。

附图说明

图1为本申请实施例提供的一种人工智能主体框架示意图；

图2为本申请实施例提供的一种应用环境示意图；

图3为本申请实施例提供的一种卷积神经网络结构示意图；

图4为本申请实施例提供的另一种卷积神经网络结构示意图；

图5-1为本申请实施例提供的一种循环神经网络结构示意图；

图5-2为本申请实施例提供的另一种循环神经网络结构示意图；

图6为本申请实施例中视频内容描述方法的一个应用场景示意图；

图7为本申请实施例中视频内容描述方法的一个实施例示意图；

图8为本申请实施例中视频内容描述方法的网络架构的一个实施例示意图；

图9为本申请实施例中视频内容描述装置的一个实施例示意图；

图10为本申请实施例提供的一种芯片硬件结构图。

具体实施方式

下面首先对本申请涉及的部分技术术语进行简介：

全局特征：是指图像的整体属性，常见的全局特征包括颜色特征、纹理特征和形状特征，比如强度直方图等。由于是像素级的低层可视特征，因此，全局特征具有良好的不变性、计算简单、表示直观等特点，但特征维数高、计算量大是其致命弱点。此外，全局特征描述不适用于图像混叠和有遮挡的情况。

局部特征：是从图像局部区域中抽取的特征，包括边缘、角点、线、曲线和特别属性的区域等。

循环神经网络(RNN)：在传统的神经网络中模型中，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题是无法解决的。比如，预测句子的下一个单词是什么，因为一个句子中前后单词并不是独立的，一般需要用到前面的单词。循环神经网络(RNN)指的是一个序列当前的输出与之前的输出也有关。具体的表现形式为网络会对前面的信息进行记忆，保存在网络的内部状态中，并应用于当前输出的计算中。

长短时记忆神经网络(LSTM)，一种RNN特殊的类型，可以学习长期依赖信息。

视频自动描述(video captioning)：根据给定的视频，生成一句描述其内容的自然语言文本。

自适应空间定位(spatial location)：动态预测某一目标在空间上的位置。

类别不均衡(class imblance)：不同类别的数据量差别较大。

代价敏感损失函数(cost sensitive loss function)：为不同错误类型分配不同的代价。

词频-逆文本频率(term frequency–inverse document frequency，TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(term frequency)，IDF意思是逆文本频率指数(inverse document frequency)。TF-IDF＝TF*IDF。

交叉验证(cross validation)，也称作循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。

下面结合附图，对本申请的实施例进行描述。

本申请中出现的术语“和/或”，可以是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。本申请中，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

参见附图2，本申请实施例提供了一种系统架构200。数据采集设备260用于采集视频数据并存入数据库230，训练设备220基于数据库230中维护的视频数据生成目标模型/规则201。下面将更详细地描述训练设备220如何基于视频数据得到目标模型/规则201，目标模型/规则201能够用于视频分类、视频内容描述和虚拟现实等应用场景。

本申请实施例中，可以基于采集的的视频数据进行训练，具体的，可以通过数据采集设备260采集各种视频，并设置视频的内容描述文本，并存入数据库230。此外，还可以直接从常用的视频自动描述数据库获取视频和对应的内容描述文本数据。

该目标模型/规则201可以是基于深度神经网络得到的，下面对深度神经网络进行介绍。

深度神经网络中的每一层的工作可以用数学表达式

来描述：从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由

完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练深度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

训练设备220得到的目标模型/规则可以应用不同的系统或设备中。在附图2中，执行设备210配置有I/O接口212，与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

计算模块211使用目标模型/规则201对输入的数据进行处理，以视频内容描述为例，计算模块211可以对输入的人脸图像进行解析，得到人脸图像中的纹理信息等图像特征。

关联功能模块213可以对计算模块211中的视频数据进行预处理，例如进行关键图像帧筛选等。

关联功能模块214可以对计算模块211中的视频数据进行预处理，例如进行关键图像帧筛选等。

最后，I/O接口212将处理结果返回给客户设备240，提供给用户。

更深层地，训练设备220可以针对不同的目标，基于不同的数据生成相应的目标模型/规则201，以给用户提供更佳的结果。

在附图2中所示情况下，用户可以手动指定输入执行设备210中的数据，例如，在I/O接口212提供的界面中操作。另一种情况下，客户设备240可以自动地向I/O接口212输入数据并获得结果，如果客户设备240自动输入数据需要获得用户的授权，用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到训练数据存入数据库230。

值得注意的，附图2仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图2中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

卷积神经网络(convolutional neural network，CNN)是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，以图像处理为例，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

如图3所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120，其中池化层为可选的，以及神经网络层130。

卷积层/池化层120：

卷积层：

如图3所示卷积层/池化层120可以包括如示例121-126层，在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层121为例，卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络100进行正确的预测。

当卷积神经网络100有多个卷积层的时候，初始的卷积层(例如121)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络100深度的加深，越往后的卷积层(例如126)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图3中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层130：

在经过卷积层/池化层120的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图3所示的131、132至13n)以及输出层140，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层130中的多层隐含层之后，也就是整个卷积神经网络100的最后层为输出层140，该输出层140具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络100的前向传播(如图3由110至140的传播为前向传播)完成，反向传播(如图3由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图3所示的卷积神经网络100仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，如图4所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层130进行处理。

循环神经网络(recurrent neural networks,RNN)：RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。

对于RNN的训练和对传统的ANN(人工神经网络)训练一样。同样使用BP误差反向传播算法，不过有一点区别。如果将RNNs进行网络展开，那么参数W，U，V是共享的，而传统神经网络却不是的。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，并且还以来前面若干步网络的状态。比如，在t＝4时，还需要向后传递三步，已经后面的三步都需要加上各种的梯度。该学习算法称为基于时间的反向传播算法Back propagation ThroughTime(BPTT)。

既然已经有了人工神经网络和卷积神经网络，为什么还要循环神经网络？原因很简单，无论是卷积神经网络，还是人工神经网络，他们的前提假设都是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去__________。这里填空，人应该都知道是填“云南“。因为我们是根据上下文的内容推断出来的，但机会要做到这一步就相当得难了。因此，就有了现在的循环神经网络，他的本质是：像人一样拥有记忆的能力。因此，他的输出就依赖于当前的输入和记忆。

图5-1为本申请实施例提供的一种循环神经网络结构示意图，其中每个圆圈可以看作是一个单元，而且每个单元做的事情也是一样的，因此可以折叠呈图右侧示意的样子。用一句话解释RNN，就是一个单元结构重复使用。

图5-2为本申请实施例提供的另一种循环神经网络结构示意图，RNN是一个序列到序列的模型，假设x_t-1，x_t，x_t+1是一个输入：“我是中国“，那么o_t-1，o_t就应该对应”是”，”中国”这两个，预测下一个词最有可能是什么？就是ot+1应该是”人”的概率比较大。

因此，我们可以做这样的定义：

X_t:表示t时刻的输入，o_t:表示t时刻的输出，S_t:表示t时刻的记忆。因为当前时刻的输出是由记忆和当前时刻的输出决定的，就像你现在大四，你的知识是由大四学到的知识(当前输入)和大三以及大三以前学到的东西的(记忆)的结合，RNN在这点上也类似，神经网络最擅长做的就是通过一系列参数把很多内容整合到一起，然后学习这个参数，因此就定义了RNN的基础：

S_t＝f(U*X_t+W*S_t-1)

f()函数是神经网络中的激活函数，这个激活函数可能为tanh，也可为其他。图中U、W、V均为循环神经网络训练时需要学习的参数。

假设大四快毕业了，要参加考研，请问参加考研是不是先记住你学过的内容然后去考研，还是直接带几本书去参加考研呢？很显然嘛，那RNN的想法就是预测的时候带着当前时刻的记忆S_t去预测。假如你要预测“我是中国“的下一个词出现的概率，这里已经很显然了，运用softmax来预测每个词出现的概率再合适不过了，但预测不能直接带用一个矩阵来预测，所有预测的时候还要带一个权重矩阵V，用公式表示为:

o_t＝softmax(VS_t)其中o_t就表示时刻t的输出。

视频是包含较大信息量的多媒体数据，互联网时代，视频数据量多且内容繁杂，随之而来地问题就是如何对海量视频进行高效地检索和浏览，即如何快速有效地查看大量地视频信息，并从中找出自己感兴趣地内容，视频内容描述方法可以根据视频生成内容描述文本，减少信息量，便于了解视频内容，具有广阔的应用空间，例如：盲人导航、在线教育以及跨模态检索等。

请参阅图6，为本申请实施例中视频内容描述方法的一个应用场景示意图；

以盲人导航为例，本申请实施例提供的视频内容描述方法可以部署在盲人智能设备中，在盲人日常生活中，根据智能设备中的摄像机拍摄到的视频，采集视频数据，通过视频内容描述装置中的视频自动描述系统生成一段自然语言表示的描述当前场景的文本，并通过语音设备部署的文字转语音心态播放给盲人听，可以帮助盲人了解其所在的环境内容。

请参阅图7，为本申请实施例中视频内容描述方法的一个实施例示意图；

701、视频内容描述装置提取视频内图像帧的全局特征；

视频内容描述装置提取视频中每个图像帧的全局特征，全局特征是指图像的整体属性，全局特征包括颜色特征、纹理特征和形状特征等，具体此处不做限定。视频内容描述装置通过卷积神经网络获取全局特征，可选的，卷积神经网络可以是VGGNet，ResNet，GoogleNet等，本申请实施例中通过ResNet152提取图像帧的全局特征，提取全局特征的方法具体此处不做限定。

702、视频内容描述装置根据图像帧的全局特征从视频中确定多个关键帧；

由于视频中连续的多帧通常内容比较接近，即包含较多冗余信息，为了减少计算量，可以通过本步骤从视频中确定有代表性的多个关键帧用于后续特征提取。

可选的，视频内容描述装置随机抽取预设数量的关键帧，或随机抽取一定比例的关键帧。

可选的，视频内容描述装置根据视频帧的全局特征间的相似度，从视频中确定多个关键帧。具体地，一个视频内所有帧的全局特征记为

其中N为一个视频内的帧数，D为每个特征的维数，v₁，v₂，…，v_N分别为第1帧至第N帧的全局特征。我们根据公式1计算第j帧与第1帧之间的相似度：

其中，i，j表示索引，v_i和v_j表示视频第i帧和第j帧的特征，D是每一个特征的维度，

表示第一帧的特征的第d维的值的平方。

得到所有帧与第一帧的相似度之后，我们根据最大相似度s_max和最小相似度s_min得到一个间隔值：interval_value＝(s_max-s_min)/(K-1)，根据该间隔值，得到K个相似度的集合{s_max，s_max-interval_value，…，s_max-(K-1)×interval_value}，包括最大相似度，以及与该最大相似度差值为整数倍间隔值的相似度。视频内容描述装置确定与该K个值最接近的相似度对应的帧为关键帧。这里对于K的具体数值不做限定，可选的，K的值通过交叉验证的方式或根据经验确定，例如K为8，即选取8个关键帧。

需要说明的是，步骤702为可选步骤，可以执行，也可以不执行，具体此处不做限定。

703、视频内容描述装置根据关键帧的全局特征，通过语言模型确定每个关键帧当前时刻下的局部特征；

视频内容描述装置获取视频内容描述语句的过程，是通过语言模型，即循环神经网络依次提取视频内容描述语句的每个描述单词或描述词语。根据循环神经网络的特性，在当前时刻t提取单词时，需要依据时刻t之前获取的所有单词。考虑到在生成视频描述文本过程中，生成的每一个单词应对应于视频中的一个目标，本申请实施例提出的视频内容描述方法中，基于自适应空间注意力，对于每一个要生成的描述单词或描述词语，动态地定位到单词对应的视频中各图像帧内的目标区域。根据确定的目标区域的局部特征提取当前时刻的描述单词或描述词语，相对于现有技术根据整个图像帧提取，可以显著减少计算量。

需要说明的是，若执行步骤702，则本步骤中提取关键帧在当前时刻下的局部特征；若不执行步骤702，则本步骤中提取视频所有图像帧在当前时刻下的局部特征。具体此处不做限定。

下面具体介绍关键帧在当前时刻下的局部特征的提取方法：

关键帧的局部特征，即用于指示关键帧目标区域的特征，局部特征的确定方法例如可以通过目标检测网络获取，本申请实施例中通过自适应空间定位的方式提取图像帧的局部特征。

示例性的，将K个关键帧输入CNN，提取CNN的最后一层的特征作为全局特征，将K个关键帧的全局特征记为：

其中，D为每个全局特征的维数，

分别代表K个关键帧的全局特征。

将K个关键帧输入CNN，提取当前时刻t下，CNN的最后一个卷积层的特征，确定为提取局部特征的卷积层特征，将这K个关键帧的卷积层特征记为：

其中，H，W和C分别表示该卷积层特征的长，宽和维度；v_l1，v_l2，…，v_lK分别代表K个关键帧在当前时刻的卷积层特征。

在每一个时刻t，对于第i个关键帧，我们根据公式(2)计算需要产生的单词对应的在该卷积层特征图中目标区域的中心点p_ti：

其中，H，W和C分别表示该卷积层特征特征的长，宽和维度。σ是sigmoid函数，

是tanh函数，

是语言模型的t-1时刻的隐藏层输出，为一个向量，由于语言模型是一个循环的模型，当前时刻t使用的是时刻t-1的隐藏层输出，

和

是通过训练确定的参数；

代表第i帧的全局特征。

然后确定在该卷积层特征图中以p_ti为中心，长为(1+2×r_h)，宽为(1+2×r_w)的一片子区域为需要关注的目标区域，该卷积层特征图中的目标区域，对应于原始的关键帧中的局部图像区域。确定目标区域之后，视频内容描述装置提取该区域对应的卷积神经网络的最后一个卷积层的特征图的相应区域的特征为得到的局部特征：

其中，(1+2×r_h)为局部区域的长，(1+2×r_w)为局部区域的宽，r_h和r_w都是通过交叉验证的方式确定的参数，

代表第i帧的局部特征。

由此，视频内容描述装置获取了K个关键帧中在当前时刻t的所有局部特征。

704、视频内容描述装置根据每个关键帧的全局特征和当前时刻下的局部特征确定当前时刻下的视频特征；

视频内容描述装置根据关键帧当前时刻下的局部特征确定当前时刻下的视频特征。

可选地，可以根据注意力机制确定各个局部特征及各个全局特征的权值，具体地，根据公式(3)确定视频特征c_t：

其中，

是全局特征的权值，

代表t时刻下第i帧的全局特征的重要程度，根据注意力机制确定，其计算方式分别如公式4-1和4-2所示：

其中，M是特征序列的个数，此处M＝K；W₁，W_v1、Wh₁和b₁是通过训练确定的参数；

表示sigmoid函数，

表示第i帧的全局特征，

表示循环神经网络在t-1时刻输出的隐藏层特征。

是局部特征的权值，表示t时刻下第i帧的局部特征的重要的程度，根据注意力机制确定，其计算方式分别如公式4-2所示：

其中，M是特征序列的个数，此处M＝(1+2×r_h)×(1+2×r_w)；W₂，W_v2、Wh₂和b₂是通过训练确定的循环神经网络的参数；

表示sigmoid函数；

表示第i帧的局部特征，

表示循环神经网络在t-1时刻输出的隐藏层特征。

本发明考虑到在生成文本描述过程中，生成的每一个单词应对应于视频中的一个目标，提出一个新的的视频自动描述方法：基于自适应空间注意力的视频自动描述方法。其特点是，对于每一个要生成的单词，本申请实施例提供的视频内容描述方法可以动态地定位到单词对应的视频中相应帧内的相应区域。

需要说明的是，若执行步骤702，则视频内容描述装置根据关键帧的全局特征和空间特征确定每个关键帧中的目标区域，若不执行步骤702，则类似的，视频内容描述装置根据视频中所有图像帧的全局特征和空间特征确定每个图像帧中的目标区域，具体此处不再赘述。

705、视频内容描述装置将该视频特征输入语言模型，获取视频内容描述文本；

视频内容描述装置将步骤704获取的当前时刻的视频特征输入语言模型，可以获取当前时刻的视频描述文本，根据循环神经网络的特性，每次循环输出一个单词或词语，通过多次循环，既可获取视频描述文本完整的句子。

可选地，步骤703至步骤705可以重复执行，直至获取视频的完整描述文本，步骤703至步骤705重复执行的次数具体此处不做限定。

其中，循环神经网络可以是长短期记忆网络(LSTM)，可选地，本申请实施例使用门控循环单元(GRU)作为生成文本的语言模型，语言模型的具体类型此处不做限定。

请参阅图8，为本申请实施例中视频内容描述方法的网络架构的一个实施例示意图；

图像帧先通过卷积神经网络(CNN)，提取获取图像帧的全局特征v_g1，v_g2，v_g3…v_gN，从该N个图像帧中确定K个关键帧，将这K个关键帧输入卷积神经网络(CNN)提取卷积层特征v_l1，v_l2，v_l3…v_lN。以t+1时刻，关键帧i的局部特征提取为例，根据上一时刻t循环神经网络(RNN)隐藏层输出的h_t，以及该关键帧的全局特征v_gi，从7x7x2048尺寸的卷积层特征v_li中确定当前时刻需关注的目标区域，将卷积层特征图中该目标区域对应的特征确定为t+1时刻，关键帧i的局部特征

尺寸为3x3x2048，由此，可以显著降低计算量。类似地，获取所有关键帧t+1时刻的局部特征。根据注意力机制确定各个关键帧的全局特征的权值以及各个关键帧的局部特征的权值，得到视频在t+1时刻的特征C_t，将C_t输入循环神经网络(RNN)，获取视频描述文本P_t+1。通过多次循环，可以获取视频描述文本语句。

需要说明的是，本申请实施例实现视频内容描述方法的整体网络架构为预先训练好的模型，具体训练方法参见下述实施例。

由于在生成文本描述的过程中，每一个生成的单词应该对应于一个帧内的一个目标区域。同时，视频在时序和空间上具有较多的冗余信息，这些冗余信息也会影响生成的描述的准确性。因此，本申请实施例提供了一种视频内容描述方法，用于实现视频内容描述，首先利用视频帧的全局特征间的相似度减少时序上的冗余信息，其次，使用自适应空间定位动态地关注到每个关键帧的目标区域，提高目标识别准确率的同时减少空间上的冗余信息。

下面介绍本申请实施例中循环模型的训练方法：

训练过程使用的视频自动描述数据集包含视频和相对应的标注文本；标注文本中每一个单词就是一个类别。视频样本的图像帧，先通过卷积神经网络(CNN)，获取图像帧的全局特征，从视频的多个图像帧中确定K个关键帧，将这K个关键帧输入卷积神经网络(CNN)提取卷积层特。根据上一时刻循环神经网络(RNN)输出，以及该关键帧的全局特征，从卷积层特征中确定当前时刻需关注的目标区域，将卷积层特征图中该目标区域对应的特征确定为t+1时刻，该关键帧的局部特征，类似地，获取所有关键帧t+1时刻的局部特征。根据注意力机制确定各个关键帧的全局特征的权值以及各个关键帧的局部特征的权值，得到视频在t+1时刻的特征C_t，将C_t输入循环神经网络，输出视频描述文本。根据预设的损失函数获取训练的损失值，根据损失值更新网络模型中的参数。

可选地，由于视频自动描述数据集中某些单词出现的次数多，例如几万次，而有些单词可能只出现几次，因此用于训练的数据中的文本描述存在严重的数据不均衡问题，即有的无具体意义的虚词出现次数远远大于某些比较重要的实词，会使得预测时偏向于出现次数较多的词，因此会产生不确切的文本描述。

现有的训练损失函数是

各个类别的损失权重都是一样的，这样对于出现次数较多的单词会训练的更充分，出现次数较少的单词会训练的不足，当预测的时候，就会更倾向于预测到出现次数较多的单词，因此会导致预测不准确或者预测缺乏多样性。针对该问题，本申请实施例提出的视频内容描述方法提供了一种平衡损失函数，该损失函数

的形式如下：

其中，T为训练视频对应的描述文本的长度，

表示在当前输入的文本描述中，第K个类别单词的TF-IDF的值。

是指示函数，当括号内的值为真，则该函数返回1，否则返回0，p(w_t)代表单词wt的概率。

由于该平衡损失函数对于每一个类别都对应一个权值，对于训练数据集的描述文本中出现次数较多的单词，该权值较小，对于出现次数较少的单词，该权值较大，使得模型在训练过程中，可以给出现次数较少但是具有更重要意义的词较大的权值，因此可以解决数据不均衡的问题。

本申请实施例的视频内容描述方法提出了平衡损失函数，通过给每一个单词赋予一个重要性权值，使得在训练过程中，更多的关注到较为重要的单词，进一步的提高生成的描述文本的准确率。

示例性的，使用ResNet152网络提取视频帧的特征，使用全局池化层提取视频帧的全局特征，使用最后一层卷积层提取视频帧的空间特征。使用GRU网络作为生成文本的语言模型。我们首先使用所有帧的全局特征进行计算帧间的相似度，然后以第一帧为基础，选取K个帧，通过交叉验证，选取K＝8。在训练过程中，我们设置批大小(batch size)为128，使用基于梯度下降的优化算法(adadelta)训练网络，初始学习率设置为0.1，梯度截断参数(clip gradient)设置为5，隐藏层维度设置为512。目标区域在特征图中基于中心点分别在左右方向和上下方向分别延伸1，局部特征尺寸是3x3x2048。使用公开的数据集MSVD训练模型。

请参阅表1，为本申请实施例的视频内容描述方法中的各部分在公开数据集上的测试结果对比结果。请参考图8中提供的视频内容描述方法的网络架构示意，包括A部分：从视频的图像帧中选取K个关键帧；B部分：根据全局特征和RNN上一时刻的输出动态确地每帧的局部特征，和C部分基于平衡损失函数训练得到的RNN用于视频特征提取。

为了分别体现每个部分对于视频内容描述效果的影响，通过设计了如下多个模型进行测试，根据Bleu_4参数、METEOR参数、ROUGE_L参数和CIDEr参数等公认的用来测试视频自动描述的性能的评价指标，这些参数的数值越大代表描述文本的准确度越高。

其中，模型一为对照组(Baseline)，为仅提取全局特征，用交叉熵损失训练的模型；模型二是将baseline的损失函数改为C部分，其他部分与baseline一样；模型三包含A部分帧选择的模型，其他部分与baseline一样；模型四具有A部分和C部分的模型，其他部分与baseline一样；模型五为具有A部分和B部分的模型，其他部分与baseline一样；模型六为包括A部分、B部分和C部分的模型。

描述	BLEU_4	METEOR	ROUGE_L	CIDEr
					模型一	44.5	32.6	68.5	69.3
模型二	45.0	32.9	68.9	70.5
					模型三	45.9	32.6	68.7	71.4
模型四	46.1	32.9	69.0	72.1
					模型五	46.9	33.0	69.7	72.8
模型六	47.2	33.1	69.87	73.0

由表1的数据可以看出，模型二至模型五，通过改进视频内容描述方法的部分，可以相较模型一，提高描述文本准确度，模型六具有最高的描述文本准确度，即方案的各个部分单独实施以及结合起来实施均可提高视频描述文本的准确度。

下面介绍实现本申请实施例方案的视频内容描述装置，请参阅图9，为本申请实施例中视频内容描述装置的一个实施例示意图。

获取单元901，用于获取待描述的视频，所述视频包括多个图像帧；

确定单元902，用于确定所述多个图像帧中第一图像帧的全局特征；

所述确定单元902，还用于通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征，所述第一时刻为所述第二时刻的前一个时刻，所述第一图像帧的第二时刻的局部特征用于指示所述第一图像帧中局部区域的特征；

所述确定单元902，还用于根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

可选地，所述装置还包括：

处理单元903，用于将所述第一图像帧输入卷积神经网络，以提取所述卷积神经网络中第一卷积层的特征图；

所述确定单元902，具体用于：

根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一目标区域，所述第一目标区域与所述第一图像帧中的所述局部区域相对应；

确定所述第一目标区域对应的特征为所述第一图像帧在所述第二时刻的局部特征。

可选地，所述确定单元902，具体用于：

根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一中心点；

根据所述第一中心点和预设的目标区域的尺寸确定所述第一目标区域。

可选地，所述确定单元902，还用于：

从所述多个图像帧中确定多个关键帧，所述多个关键帧的数量小于所述多个图像帧的数量就，所述第一图像帧为所述多个关键帧中的任一图像帧。

可选地，所述多个关键帧的数量根据交叉验证的方式确定。

可选地，所述确定单元902，具体用于：

根据所述多个图像帧的全局特征之间的相似度，从所述多个图像帧中确定所述多个关键帧。

可选地，所述多个图像帧包括第二图像帧；

所述确定单元902，具体用于：

确定所述多个图像帧中每个图像帧的全局特征与所述第二图像帧的全局特征之间的相似度的集合；

根据所述相似度集合以及预设的所述多个关键帧的数量，确定多个目标相似度，所述多个目标相似度为一组等差数列且包括所述相似度集合中的最大的相似度和最小的相似度；

确定所述多个目标相似度对应的图像帧为所述多个关键帧。

可选地，所述确定单元902，具体用于：

根据注意力机制确定所述第一图像帧的全局特征的权值，和所述第一图像帧的所述第二时刻的局部特征的权值；

根据所述全局特征、所述第二时刻的局部特征、所述所述全局特征的权值，以及所述第二时刻的局部特征的权值确定所述第二时刻的视频特征；

根据所述第二时刻的视频特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

可选地，所述循环神经网络为第一网络训练后得到，所述装置还包括：

训练单元904，用于将从视频样本中提取的视频特征输入所述第一网络进行训练，根据第一网络的平衡损失函数获取第一损失值，所述平衡损失函数与描述文本的词频-逆文本频率正相关；

所述获取单元901，还用于根据所述第一损失值更新所述第一网络中的权重参数，以获取所述循环神经网络。

图10为本申请实施例提供的一种芯片硬件结构图。

图3和图4所示的基于卷积神经网络的算法，以及图5-1和图5-2所示的基于循环神经网络的算法可以在图10所示的NPU芯片中实现。

神经网络处理器NPU 50作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路503，通过控制器504控制运算电路503提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路503内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器508accumulator中。

统一存储器506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器505(direct memory access controller，DMAC)被搬运到权重存储器502中。输入数据也通过DMAC被搬运到统一存储器506中。

BIU为Bus Interface Unit即，总线接口单元510，用于AXI总线与DMAC和取指存储器509Instruction Fetch Buffer的交互。

总线接口单元510(bus interface unit，简称BIU)，用于取指存储器509从外部存储器获取指令，还用于存储单元访问控制器505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器506或将权重数据搬运到权重存储器502中或将输入数据数据搬运到输入存储器501中。

向量计算单元507可以包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如Pooling(池化)，Batch Normalization(批归一化)，LocalResponse Normalization(局部响应归一化)等。

在一些实现种，向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，图3和图4所示的卷积神经网络中各层的运算以及以及图5-1和图5-2所示的基于循环神经网络的算法中各层的运算可以由矩阵计算单元212或向量计算单元507执行。

本申请上述方法实施例可以应用于处理器中，或者由处理器实现上述方法实施例的步骤。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是中央处理器(central processing unit，CPU)，网络处理器(networkprocessor，NP)或者CPU和NP的组合、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。虽然图中仅仅示出了一个处理器，该装置可以包括多个处理器或者处理器包括多个处理单元。具体的，处理器可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。

存储器用于存储处理器执行的计算机指令。存储器可以是存储电路也可以是存储器。存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。存储器可以独立于处理器，也可以是处理器中的存储单元，在此不做限定。虽然图中仅仅示出了一个存储器，该装置也可以包括多个存储器或者存储器包括多个存储单元。

收发器用于实现处理器与其他单元或者网元的内容交互。具体的，收发器可以是该装置的通信接口，也可以是收发电路或者通信单元，还可以是收发信机。收发器还可以是处理器的通信接口或者收发电路。一种可能的实现方式，收发器可以是一个收发芯片。该收发器还可以包括发送单元和/或接收单元。在一种可能的实现方式中，该收发器可以包括至少一个通信接口。在另一种可能的实现方式中，该收发器也可以是以软件形式实现的单元。在本申请的各实施例中，处理器可以通过收发器与其他单元或者网元进行交互。例如：处理器通过该收发器获取或者接收来自其他网元的内容。若处理器与收发器是物理上分离的两个部件，处理器可以不经过收发器与该装置的其他单元进行内容交互。

一种可能的实现方式中，处理器、存储器以及收发器可以通过总线相互连接。总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的各实施例中，为了方面理解，进行了多种举例说明。然而，这些例子仅仅是一些举例，并不意味着是实现本申请的最佳实现方式。

计算机程序产品和存储介质角度：

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机执行指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频内容描述方法，其特征在于，包括：

获取待描述的视频，所述视频包括多个图像帧；

确定第一图像帧的全局特征，所述第一图像帧为所述多个图像帧中的任一图像帧；

通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征，所述第一时刻为所述第二时刻的前一个时刻，所述第一图像帧的第二时刻的局部特征用于指示所述第一图像帧中局部区域的特征；

根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

2.根据权利要求1所述的方法，其特征在于，通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征包括：

将所述第一图像帧输入卷积神经网络，以提取所述卷积神经网络中第一卷积层的特征图；

3.根据权利要求2所述的方法，其特征在于，根据所述循环神经网络在所述第一时刻的输出，以及所述第一图像帧的全局特征，从所述第一卷积层的特征图中确定第一目标区域包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

从所述多个图像帧中确定多个关键帧，所述多个关键帧的数量小于所述多个图像帧的数量；

所述第一图像帧为所述多个关键帧中的任一图像帧。

5.根据权利要求4所述的方法，其特征在于，所述多个关键帧的数量根据交叉验证的方式确定。

6.根据权利要求4或5所述的方法，其特征在于，从所述多个图像帧中确定多个关键帧包括：

7.根据权利要求6所述的方法，其特征在于，所述多个图像帧包括第二图像帧；

根据所述多个图像帧的全局特征之间的相似性，从所述多个图像帧中确定所述多个关键帧包括：

确定所述多个目标相似度对应的图像帧为所述多个关键帧。

8.根据权利要求1至7中任一项所述的方法，其特征在于，根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本包括：

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述循环神经网络为第一网络训练后得到，所述方法还包括：

将从视频样本中提取的全局特征和局部特征输入所述第一网络进行训练，根据第一网络的平衡损失函数获取第一损失值，所述平衡损失函数与描述文本的词频-逆文本频率正相关；

根据所述第一损失值更新所述第一网络中的权重参数，以获取所述循环神经网络。

10.一种视频内容描述装置，其特征在于，包括：

获取单元，用于获取待描述的视频，所述视频包括多个图像帧；

确定单元，用于确定第一图像帧的全局特征，所述第一图像帧为所述多个图像帧中的任一图像帧；

所述确定单元，还用于通过循环神经网络在第一时刻的输出以及所述第一图像帧的全局特征，确定所述第一图像帧的第二时刻的局部特征，所述第一时刻为所述第二时刻的前一个时刻，所述第一图像帧的第二时刻的局部特征用于指示所述第一图像帧中局部区域的特征；

所述确定单元，还用于根据所述第一图像帧的全局特征和所述第二时刻的局部特征，通过所述循环神经网络，确定所述第二时刻的视频内容描述文本。

11.根据权利要求10所述的装置，其特征在于,所述装置还包括：

处理单元，用于将所述第一图像帧输入卷积神经网络，以提取所述卷积神经网络中第一卷积层的特征图；

所述确定单元，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述确定单元，具体用于：

13.根据权利要求10至12中任一项所述的装置，其特征在于，所述确定单元，还用于：

14.根据权利要求13所述的装置，其特征在于，所述多个关键帧的数量根据交叉验证的方式确定。

15.根据权利要求13或14所述的装置，其特征在于，所述确定单元，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述多个图像帧包括第二图像帧；

所述确定单元，具体用于：

确定所述多个目标相似度对应的图像帧为所述多个关键帧。

17.根据权利要求10至16中任一项所述的装置，其特征在于，所述确定单元，具体用于：

18.根据权利要求10至17中任一项所述的装置，其特征在于，所述循环神经网络为第一网络训练后得到，所述装置还包括：

训练单元，用于将从视频样本中提取的全局特征和局部特征输入所述第一网络进行训练，根据第一网络的平衡损失函数获取第一损失值，所述平衡损失函数与描述文本的词频-逆文本频率正相关；

所述获取单元，还用于根据所述第一损失值更新所述第一网络中的权重参数，以获取所述循环神经网络。

19.一种视频内容描述装置，其特征在于，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于调用所述程序指令，执行如权利要求1至9中任一项所述的方法。

20.一种包含指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行如权利要求1至9中任一项所述的方法。

21.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法。