CN108921032A

CN108921032A - 一种新的基于深度学习模型的视频语义提取方法

Info

Publication number: CN108921032A
Application number: CN201810564348.1A
Authority: CN
Inventors: 姚易佳
Original assignee: SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Current assignee: SICHUAN TROY INFORMATION TECHNOLOGY CO LTD
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-30
Anticipated expiration: 2038-06-04
Also published as: CN108921032B

Abstract

本发明公开了一种新的基于深度学习模型的视频语义提取方法，包括步骤如下：基于视频物理结构，通过对视频帧序列组合与分割，得到语义结构化的视频数据；通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据；创建三维卷积神经网络模型，使用滑动窗口的输出数据作为训练数据；基于三维卷积神经网络的输出结果作为连续时序分类算法的输入，通过反向传播算法完成三维卷积神经网络参数的训练；将训练好的三维卷积神经网络‑连续时序分类算法作为体育视频语义提取模型提取视频语义。本发明通过提出的视频语义结构化方法结合三维卷积神经网络和连续时序分类算法能较好地捕捉动作之间的联系，提高体育视频语义提取准确度。

Description

一种新的基于深度学习模型的视频语义提取方法

技术领域

本发明涉及人工智能和模式识别技术领域，特别是涉及一种新的基于深度学习模型的视频语义提取方法。

背景技术

“语义”这一概念起源于19世纪末，是虚拟数据所对应的现实世界中的事物所代表的含义的表现，以及这些含义之间的关系，是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的，当我们想用计算机来理解视频之中的“语义”时，计算机只能够识别诸如颜色、形状等底层特征。因此，我们需要采用一些方法将这些底层的特征联系起来，形成一些更高层的含义，从而将视频中所要展示的信息更好的表达出来。

视频数据通常是非结构化的，因此对视频的语义提取，需要从多方面进行考虑。从内容上，需要考虑视频含有的空间和时间属性。从语义上，需要考虑视频信息包括的图像特征、字幕文本特征、语音特征和视频描述信息文本特征等。视频在物理结构上分成了四个结构层次：帧、镜头、场景和视频。视频帧的内容记录了视频中对象的特征，如色彩、纹路和形态等；镜头是由若干连续帧组成的，其内容记录了连续帧中对象的运动特征，表现了对象的时间特性。在现实中，镜头是生成视频的基本单位，即是摄像机一次拍摄所得到的最小单位；场景由一系列语义内容相关并且时间上连续的镜头组成，其内容记录了较为复杂的语义信息。若干个场景组成一个视频文件，其内容记录了整个视频的语义信息。

(1)基于关键帧的视频语义提取，通常的关键帧语义提取技术流程为：对视频的帧截图；对帧截图进行关键帧识别，对取得的关键帧进行语义分析；将视频中包含的语音数据通过语音识别转换成文本；对语音文本进行语义识别；将上述关键帧语义和语音语义结合在一起，就得到了这个视频的语义；也就是将视频的图像特征和声音mfcc特征转换为语义特征，然后结合字幕的识别，通过Neuro-Linguistic Programming处理字幕得到词向量和文档相似度。这个方法的优势在于对视频上的文字内容较多的视频有较好的提取效果，比如一些教育类的视频。这种方法的劣势在于：对其他类型的文字较少的视频，因为其关键帧中的字幕信息较少，很难从中获得有用的文本信息。

(2)基于视频文本信息关键词提取，这种方法是对纯文本的提取，且此方法对词本身的重要程度、词所在的位置要求比较高，前面的词比后面的词重要，词频，词的整体出现顺序，也需要综合起来。也就是说标题的内容需要非常切合视频语义，否则这种方法的准确率会非常低。这种方法的优势是计算复杂度较低，业内有成熟的文本处理算法，并且各种算法开源包都很方便。这种方法的劣势在于：有一些网络用语其表达的意思与字面意思相差很大，对视频语义的提取会产生极大的干扰。

对于体育视频的语义分析，目前的方法很少从体育运动的语义结构化进行考虑，因此不能很好的捕捉动作之间的联系，体育视频语义提取准确度还较低。

发明内容

本发明的目的在于克服现有的技术不足，提供一种新的基于深度学习模型的视频语义提取方法，该方法使用三维卷积神经网络模型和连续时序分类算法对语义结构化的视频数据进行语义提取，能够解决体育类视频进行语义分析的问题。

具体的，一种新的基于深度学习模型的视频语义提取方法，其特征在于：包括以下步骤：

S1.基于视频物理结构，通过对视频帧序列组合与分割，得到语义结构化的视频数据：视频数据的物理结构从上自下分别为：视频、场景、镜头、帧；参考视频数据的物理结构而定义视频的语义结构从上至下为：视频、行为、子动作、帧；

S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据；

S3.创建三维卷积神经网络模型，使用滑动窗口的输出数据作为训练数据；

S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入，通过反向传播算法完成三维卷积神经网络参数的训练；

S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。

优选地，步骤S1包括下列子步骤：

S11.对视频数据集视频预处理：视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集，并对转化的图片进行图像预处理，所述图像预处理包括大小调整和噪声过滤；

S12.创建训练数据集：每一个训练视频对应数据形式s表示训练集数据；n 为训练视频个数；是视频经过预处理后的视频图片集合，其中， m为视频转化为图片帧的个数，使用ffmpeg将视频按照每秒20帧转化为图片序列；是视频对应的语义标签，其中，根据体育视频的种类有h 种选取方式，q为视频的语义标签数量，对于不同的视频其语义标签的取值不同，语义标签数量的取值也不同；

S13.创建测试数据集：每一个测试视频对应数据形式t表示测试集数据，n为测试视频个数，是视频经过预处理后的视频图片集合。是视频对应的语义标签，其中，根据体育视频的种类有h 种选取方式，q为视频的语义标签数量，对于不同的视频其语义标签的取值不同，语义标签数量的取值也不同。

优选地，步骤S2包括下列子步骤：

S21.将训练数据中视频帧图片数量m不满足m＝kw(k为任意整数，w为滑动窗口的大小) 的视频帧图片集进行补充处理，将视频最后一帧的图片进行复制操作直到满足m为w的倍数；

S22.使用滑动窗口对视频帧序列进行滑动读取帧图片，滑动步长为滑动窗口的一半，每滑动一次，获取的帧图片为三维卷积神经网络的一次输入，本方法取滑动窗口大小w＝16，因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合，其中代表窗口滑动第k次滑动获得视频图片集。

优选地，步骤S3包括下列子步骤：

S31.创建一个有五层卷积层、池化层，两层全连接层的三维卷积神经网络做为视频子动作语义的提取模型；

S32.将三维卷积神经网络的第二层全连接层的输出固定为子动作种类个数h；

S33.三维卷积神经网络输入为步骤S22中定义的输出为S32中三维卷积神经网络第二层全连接层的输出，其格式为子动作概率序列Y'_k＝[y'₁,y'₂,....,y'_h]。

优选地，步骤S4包括下列子步骤：

S41.通过滑动窗口对视频帧图片集的图片采集和三维卷积神经网络对滑动窗口采集的图片集进行子动作语义提取，得到了视频的子动作语义序列[Y'₁,Y'₂,...,Y'_k]，使用连续时序分类算法CTC完成子动作语义序列的去重和整合，该算法使用前向后向推导从而对重复的概率标签进行整合，最终得到可能性最大的标签序列，

S42.使用连续时序分类算法CTC算法将去重的子动作语义序列与视频语义标签构建损失函数，将损失反向传播，完成对三维神经网络的训练。

优选地，步骤S5包括下列子步骤：

S51.视频采集与预处理；

S52.将经过处理的视频图片集合输入模型得到语义序列从而得到视频的高层语义特征。

本发明的有益效果在于：本发明通过提出的视频语义结构化方法结合三维卷积神经网络和连续时序分类算法能较好地捕捉动作之间的联系，提高体育视频语义提取准确度。

附图说明

图1是本发明提出的一种新的基于深度学习模型的视频语义提取方法流程示意图。

图2是本发明提出的视频数据的物理结构示意图。

图3是本发明提出的视频的语义结构示意图。

图4是本发明提出的三维卷积神经网络模型架构图。

图5是本发明提出的基于三维卷积神经网络与连续时序分类算法的模型架构图。

图6是本发明提出的模型训练与测试流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本发明提出的一种新的基于深度学习模型的视频语义提取方法流程示意图如图1所示，包括以下步骤：

S1.基于视频物理结构，通过对视频帧序列组合与分割，得到语义结构化的视频数据：视频数据的物理结构从上自下分别为：视频、场景、镜头、帧，其结构示意图如图2所示；参考视频数据的物理结构而定义视频的语义结构从上至下为：视频、行为、子动作、帧，其结构示意图如图3所示；

作为一种优选实施例，步骤S1包括下列子步骤：

S11.对视频数据集视频预处理：视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集，并对转化的图片进行图像预处理，所述图像预处理包括大小调整和噪声过滤；由于受到各种条件的限制和随机干扰，这些图片集往往不能直接使用，必须在图像处理的早期阶段对它们进行大小调整、噪声过滤等图像预处理；

作为一种优选实施例，步骤S2包括下列子步骤：

作为一种优选实施例，步骤S3包括下列子步骤：

S31.创建一个有五层卷积层、池化层，两层全连接层的三维卷积神经网络做为视频子动作语义的提取模型，所构建的三维卷积神经网络模型架构图如图4所示；

作为一种优选实施例，步骤S4包括下列子步骤：

S41.通过滑动窗口对视频帧图片集的图片采集和三维卷积神经网络对滑动窗口采集的图片集进行子动作语义提取，得到了视频的子动作语义序列[Y'₁,Y'₂,...,Y'_k]，使用连续时序分类算法CTC完成子动作语义序列的去重和整合，该算法使用前向后向推导从而对重复的概率标签进行整合，最终得到可能性最大的标签序列；

本发明实施例提出的基于三维卷积神经网络与连续时序分类算法的模型架构图如图5所示。

本发明实施例提出的模型训练与测试流程示意图如图6所示。

作为一种优选实施例，步骤S5包括下列子步骤：

S51.视频采集与预处理；

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、 ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种新的基于深度学习模型的视频语义提取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种视频语义提取方法，其特征在于：步骤S1包括下列子步骤：

S12.创建训练数据集：每一个训练视频对应数据形式s表示训练集数据；n为训练视频个数；是视频经过预处理后的视频图片集合，其中，m为视频转化为图片帧的个数，使用ffmpeg将视频按照每秒20帧转化为图片序列；是视频对应的语义标签，其中，根据体育视频的种类有h种选取方式，q为视频的语义标签数量，对于不同的视频其语义标签的取值不同，语义标签数量的取值也不同；

S13.创建测试数据集：每一个测试视频对应数据形式t表示测试集数据，n为测试视频个数，是视频经过预处理后的视频图片集合；是视频对应的语义标签，其中，根据体育视频的种类有h种选取方式，q为视频的语义标签数量，对于不同的视频其语义标签的取值不同，语义标签数量的取值也不同。

3.根据权利要求2所述的一种视频语义提取方法，其特征在于：步骤S2包括下列子步骤：

S21.将训练数据中视频帧图片数量m不满足m＝kw(k为任意整数，w为滑动窗口的大小)的视频帧图片集进行补充处理，将视频最后一帧的图片进行复制操作直到满足m为w的倍数；

4.根据权利要求3所述的一种视频语义提取方法，其特征在于：步骤S3包括下列子步骤：

5.根据权利要求4所述的一种视频语义提取方法，其特征在于：步骤S4包括下列子步骤：

6.根据权利要求5所述的一种视频语义提取方法，其特征在于：步骤S5包括下列子步骤：

S51.视频采集与预处理；