CN109614896A

CN109614896A - 一种基于递归卷积神经网络的视频内容语义理解的方法

Info

Publication number: CN109614896A
Application number: CN201811441649.1A
Authority: CN
Inventors: 李玉军; 冀先朋; 邓媛洁; 马宝森
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-10-29
Filing date: 2018-11-29
Publication date: 2019-04-12

Abstract

本发明涉及一种基于递归卷积神经网络的视频内容语义理解的方法，用于对网络视频、监控视频等视频数据进行内容分析与分类。该方法通过将卷积神经网络放置于递归神经网络内部作为内核，提出视频状态概念，实现了在视频数据中目标检测与帧间关联的有机结合，通过在视频帧间进行递归的卷积操作，实现了视频特征的准确、高效提取，获得了更具有语义表征的视频表征，并以此为基础，采用人工神经网络全连接分类器完成视频的分类、事件检测、场景识别等任务。本发明提出的方法克服了传统方法中的信息丢失、特征表征能力差、训练收敛困难等问题，是一种准确、高效、先进并具有广阔应用前景的方法。

Description

一种基于递归卷积神经网络的视频内容语义理解的方法

技术领域

本发明涉及一种基于递归卷积神经网络的视频内容语义理解的方法，属于计算机视觉技术领域。

背景技术

视频内容理解是计算机视觉中重要的基本问题之一，其目标是对视频中的图像进行特征提取并对视频帧间关系进行建模，最终获得整段视频的特征表示，以利于后续的图像分析和视频的语义理解，可用于自动驾驶、监控视频实时智能检测及网络视频审核等技术领域。

传统的视频内容处理方法有单纯单帧图像处理、光流法、基于卷积神经网络的特征提取方法、基于递归神经网络的特征提取方法或者综合使用多种方法。近年来，以神经网络为基础的深度学习技术的发展和应用，极大地推动了视频内容理解的发展。

随着网络短视频应用与视频监控技术的发展与广泛应用，利用人工智能技术对视频数据进行特征提取与内容分析成为技术与研究的热点。通过视频内容理解技术，可对视频中的人类动作、场景信息、事件信息做出高度相关的特征表示，通过对视频数据进行定量的分析实现视频内容的语义级表示，为后续的视频分类与检测提供支持，智能化地自动做出检测、分类、审核与实时预警处理。可以自动化的、准确的特征提取与表示，大量减少相关领域的人力成本，并基于此实现网络内容管理、监控视频实时与离线检测、自动驾驶等功能。

传统的视频内容理解算法总体可分为单帧图像处理方法、光流法或者综合使用多种方法。单帧图像处理方法忽略了视频的帧间关系，通过单帧图像内容估计视频总体内容，存在漏检、错检等严重不准确的情况，并缺乏视频级别的复杂内容表示能力。光流法关注于视频帧间像素变化，模糊的对视频帧间变化做出了量化分析，缺乏视频中实体检测等具体内容的识别，且对噪声比较敏感，无法对高层次的场景识别、事件检测做出准确的表示与分析。

相比以上算法，基于深度学习的视频内容理解方法，实现了利用已有数据训练神经网络模型并应用的技术，提升了视频分析效果，避免人工检查。然而，基于深度学习的视频内容理解方法虽然克服了传统算法的特征表征性能差、对噪声敏感、任务层次低等缺点，在基本的视频内容理解中取得了不错的结果。但是，目前深度学习进行视频特征提取与语义理解的方式局限于先采用卷积神经网络提取单帧信息再利用递归神经网络进行帧间关系建模的级联组合方式。此类方法存在以下两个严重问题：

第一，卷积神经网络准确的特征表示对模型输出的高维度要求、递归神经网络训练与应用中计算成本对输入数据的低维度要求，此两者之间的矛盾导致两者的级联结合方式中存在关键性的瓶颈，丢失了大量关键信息，因此，无法有效利用视频的帧间关系为神经网络模型的训练提供有效的监督，在实际应用中，难以精确地对视频整体内容作出合理检测。

第二，此类传统方式以物体检测为中心，基于多帧间不同形态的物体来估计视频内容，割裂了物体检测与帧间变化两个概念。现实场景中存在极多不同形态的物体，其准确表征导致了深度学习领域的维数灾难问题，对训练数据集的规模要求过高。并且，对动作长度、场景切换的鲁棒性较差。

卷积神经网络与递归神经网络级联的视频内容理解模型基于上述局限，对卷积神经网络的特征输出维度做出一定限制，低维度的输出丢失大量信息，递归神经网络无法准确对视频帧间关系进行有效建模。

因此，如何有效、合理地结合视频中物体检测与动作识别两个任务来设计神经网络模型结构，是现在要解决的重要问题。

发明内容

针对现有技术的不足，基于视频状态概念，本发明提供了一种基于递归卷积神经网络的视频内容语义理解的方法；

本发明提出了一种基于递归卷积神经网络的视频内容语义理解神经网络结构，可以有效、合理地融合卷积神经网络与递归神经网络，从而有机地结合物体检测与帧间变化检测两个任务，实现视频的特征提取，从而提高视频内容理解的精确度。

术语解释：

全零初始化：将递归卷积神经网络的隐藏层中的权重全部置为零。

本发明的技术方案为：

一种基于递归卷积神经网络的视频内容语义理解的方法，

以卷积神经网络作为递归神经网络的内核，该方法中，把视频的起始帧输入递归神经网络，与表征视频起始状态的起始变量，按照图片深度维连接，在递归神经网络内部采用卷积神经网络进行特征提取，获得的特征输出作为新的隐藏层数据，表征视频状态，传递给下一个时间步骤，重复上述操作。在此基础上，以递归神经网络的隐藏层状态作为输出，提供给全连接神经网络分类器，经过全连接分类器的特征重组，做出视频内容的类别输出，得到最终的分类结果，对于具体的任务，可以设计对应形式的分类任务或者回归任务。

所述递归卷积神经网络的第一层是数据输入层，第二层、第三层、第四层、第五层、第六层都是依次级联的卷积层，卷积核大小均为3*3，卷积核数目依次是64、256、512、128、32个；

所述数据输入层，接收原始视频数据，原始视频数据的尺度与结构化的视频文件每一帧的尺度相同(128像素*256像素*3通道)，将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联，作为数据输入层的输出；

第二层、第三层、第四层、第五层、第六层采用周围零填充的方式，获得与输入尺度相同的输出；第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络，该五层卷积操作依次以前一层的输出作为本层的输入，第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中，该分类器的输出作为该递归卷积神经网络的最终输出；第六层输出另一方面不经过展开，输送给该递归卷积神经网络在下一个视频帧的时候，作为下一时刻的状态数据；该模型依次在视频的每一帧上应用上述操作。除所述递归卷积神经网络的第一层和第六层的其它层都成为所述递归卷积神经网络的隐藏层。

A、训练阶段

(1)获取具有标注信息的视频数据集作为递归卷积神经网络的训练数据，标注信息是指视频中人类动作类别，对视频数据集进行结构化处理，并分割为训练集和测试集；

进一步优选的，对视频数据集进行结构化处理，是指：将视频数据集中的视频文件的尺度通过裁剪和放缩统一为128*256*3大小。

进一步优选的，分割为训练集和测试集，是指：通过在均匀分布上随机采样，采样五分之一的视频数据集中的视频数据作为测试集，剩余五分之四视频数据集中的视频数据作为训练集。

(2)对步骤(1)得到的训练集进行随机采样，获得一批用于训练的样本，采用全零方式初始化所述递归卷积神经网络的隐藏层状态；

(3)将视频的当前帧输入所述递归卷积神经网络，与隐藏层状态在图像的通道层进行连接，采用五层卷积神经网络进行特征提取，并以五层卷积神经网络的最后一层的输出作为新的隐藏层状态；

根据本发明优选的，所述步骤(3)中，所述递归卷积神经网络对视频的某一帧数据输入后，结合前一时刻传递过来的状态数据，进行当前帧上的特征提取，如式(Ⅰ)所示：

Ht+1＝C{Ht：F_t+1} (Ⅰ)

式(Ⅰ)中，F_t+1表示视频的第t+1帧数据，Ht为上一个时间步的隐藏层状态表征的视频状态，C表示卷积运算；

(4)重复执行步骤(3)，直到视频输入结束；

(5)将最终的隐藏层状态作为视频整体的特征表示，输入至所述神经网络分类器分类，并基于此进行损失计算或直接输出类别：

根据本发明优选的，所述步骤(5)，递归卷积神经网络的第六层最终输出经过所述神经网络分类器后，通过softmax操作计算该数据在每一个动作分类上的概率分布，如式(Ⅱ)所示：

Prediction＝softmax{W·H_n} (Ⅱ)

式(Ⅱ)中，H_n表示视频的最终状态，即递归卷积神经网络在视频的每一帧上以此进行了前述迭代计算后，模型的最后一层卷积层的输出，表征标注信息，W表示神经网络分类器进行特征组合与降维，softmax操作实现最终输出在各类别上的概率分布计算；Prediction是指对视频中的人类动作类别的预测结果；

(6)返回步骤(2)，直至递归卷积神经网络训练过程中的损失函数不再下降后为止，损失函数采用交叉熵形式。进行性能评估与实际应用。

本发明的有益效果为：

1、与基于单帧的视频处理模型相比，本发明能够直接利用视频的帧间变化信息，将物体识别与空间变化计算统一为卷积操作，本发明能够采用更少地模型参数的同时丢失更少地空间信息，具有计算速度快、空间占用小的优势。

2、与基于三维卷积的视频内容理解模型相比，本模型能够利用诊断视频的全局信息进行视频内容识别，而非局部的信息，能够获得更加准确的识别结果。

附图说明

图1为本发明基于递归卷积神经网络的视频内容语义理解方法示意框图；

图2为本发明进行视频内容分类的示意框图；

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于递归卷积神经网络的视频内容语义理解的方法，递归卷积神经网络即模型，如图1所示，以卷积神经网络作为递归神经网络的内核，该方法中，把视频的起始帧输入递归神经网络，与表征视频起始状态的起始变量，按照图片深度维连接，在递归神经网络内部采用卷积神经网络进行特征提取，获得的特征输出作为新的隐藏层数据，表征视频状态，传递给下一个时间步骤，重复上述操作。在此基础上，以递归神经网络的隐藏层状态作为输出，提供给全连接神经网络分类器，经过全连接分类器的特征重组，做出视频内容的类别输出，得到最终的分类结果，对于具体的任务，可以设计对应形式的分类任务或者回归任务。

如图2所示，递归卷积神经网络的第一层是数据输入层，第二层、第三层、第四层、第五层、第六层都是依次级联的卷积层，卷积核大小均为3*3，卷积核数目依次是64、256、512、128、32个；

数据输入层，接收原始视频数据，原始视频数据的尺度与结构化的视频文件每一帧的尺度相同(128像素*256像素*3通道)，将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联，作为数据输入层的输出；

第二层、第三层、第四层、第五层、第六层采用周围零填充的方式，获得与输入尺度相同的输出；第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络，该五层卷积操作依次以前一层的输出作为本层的输入，第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中，该分类器的输出作为该递归卷积神经网络的最终输出；第六层输出另一方面不经过展开，输送给该递归卷积神经网络在下一个视频帧的时候，作为下一时刻的状态数据；该模型依次在视频的每一帧上应用上述操作。除递归卷积神经网络的第一层和第六层的其它层都成为递归卷积神经网络的隐藏层。

A、训练阶段

对视频数据集进行结构化处理，是指：将视频数据集中的视频文件的尺度通过裁剪和放缩统一为128*256*3大小。

分割为训练集和测试集，是指：通过在均匀分布上随机采样，采样五分之一的视频数据集中的视频数据作为测试集，剩余五分之四视频数据集中的视频数据作为训练集。

(2)对步骤(1)得到的训练集进行随机采样，获得一批用于训练的样本，采用全零方式初始化递归卷积神经网络的隐藏层状态；

(3)将视频的当前帧输入递归卷积神经网络，与隐藏层状态在图像的通道层进行连接，采用五层卷积神经网络进行特征提取，并以五层卷积神经网络的最后一层的输出作为新的隐藏层状态；

(4)重复执行步骤(3)，直到视频输入结束；

(5)将最终的隐藏层状态作为视频整体的特征表示，输入至神经网络分类器分类，并基于此进行损失计算或直接输出类别：

实施例2

根据实施例1所述一种基于递归卷积神经网络的视频内容语义理解的方法，其区别在于：

步骤(3)中，递归卷积神经网络对视频的某一帧数据输入后，结合前一时刻传递过来的状态数据，进行当前帧上的特征提取，如式(Ⅰ)所示：

Ht+1＝C{Ht：F_t+1} (Ⅰ)

步骤(5)，递归卷积神经网络的第六层最终输出经过神经网络分类器后，通过softmax操作计算该数据在每一个动作分类上的概率分布，如式(Ⅱ)所示：

Prediction＝softmax{W·H_n} (Ⅱ)

本实施例在UCF101人类动作视频数据集上做了实验验证，按照前述模型结构和训练方式，本模型在UCF101数据集随机分割出的测试集上的分类准确率达到了89.7％，本实验结果足以表明，本发明中设计的模型在具有前述有益效果的同时，可以媲美目前现存模型的性能，具有良好的应用于发展前景。

Claims

1.一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，

所述数据输入层，接收原始视频数据，将该输入与一个长宽相同的32通道全零状态数据在通道维度上级联，作为数据输入层的输出；

第二层、第三层、第四层、第五层、第六层采用周围零填充的方式，获得与输入尺度相同的输出；第二层、第三层、第四层、第五层、第六层组成五层卷积神经网络，该五层卷积操作依次以前一层的输出作为本层的输入，第六层输出一方面展开为1*32*128*256尺度的形式后输出到神经元数目依次为32*128*256、128*256、1024、101个的全连接神经网络构成的神经网络分类器中，该分类器的输出作为该递归卷积神经网络的最终输出；第六层输出另一方面不经过展开，输送给该递归卷积神经网络在下一个视频帧的时候，作为下一时刻的状态数据；包括步骤如下：

A、训练阶段

(4)重复执行步骤(3)，直到视频输入结束；

(6)返回步骤(2)，直至递归卷积神经网络训练过程中的损失函数不再下降后为止，损失函数采用交叉熵形式。

2.根据权利要求1所述的一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，所述步骤(1)中，对视频数据集进行结构化处理，是指：将视频数据集中的视频文件的尺度通过裁剪和放缩统一为128*256*3大小。

3.根据权利要求1所述的一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，所述步骤(1)中，分割为训练集和测试集，是指：通过在均匀分布上随机采样，采样五分之一的视频数据集中的视频数据作为测试集，剩余五分之四视频数据集中的视频数据作为训练集。

4.根据权利要求1所述的一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，所述步骤(3)中，所述递归卷积神经网络对视频的某一帧数据输入后，结合前一时刻传递过来的状态数据，进行当前帧上的特征提取，如式(Ⅰ)所示：

Ht+1＝C{Ht：F_t+1} (Ⅰ)

式(Ⅰ)中，F_t+1表示视频的第t+1帧数据，Ht为上一个时间步的隐藏层状态表征的视频状态，C表示卷积运算。

5.根据权利要求1-4任一所述的一种基于递归卷积神经网络的视频内容语义理解的方法，其特征在于，所述步骤(5)，递归卷积神经网络的第六层最终输出经过所述神经网络分类器后，通过softmax操作计算该数据在每一个动作分类上的概率分布，如式(Ⅱ)所示：

Prediction＝softmax{W·H_n} (Ⅱ)

式(Ⅱ)中，H_n表示视频的最终状态，表征标注信息，W表示神经网络分类器进行特征组合与降维，softmax操作实现最终输出在各类别上的概率分布计算；Prediction是指对视频中的人类动作类别的预测结果。