CN111563488A

CN111563488A - 一种视频主题内容识别方法、系统及存储介质

Info

Publication number: CN111563488A
Application number: CN202010672053.3A
Authority: CN
Inventors: 刘东明
Original assignee: Chengdu Yinchao Technology Co ltd
Current assignee: Chengdu Yinchao Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-08-21

Abstract

本发明公开了一种视频主题内容识别方法、系统及存储介质，该方法通过对待识别的视频进行预处理，提取到若干个关键帧以及分割生成若干连续帧片段；然后，将提取到的关键帧图片、由连续帧片段的全部帧图片拼接而成的图片、由连续帧片段的多个帧图片构成的批量图片分别输入至预先训练好的三个神经网络模型中，并相应地得到第一数据结果、第二数据结果和第三数据结果；最后，将第一数据结果、第二数据结果和第三数据结果取交集后，输入至预先训练好的分类模型中，得到该视频的分类结果。因此，本发明通过神经网络模型分别对关键帧图片、连续帧的拼接图片与批量图片进行识别，更全面地获取视频内容的特征，从而保证视频内容识别的准确度。

Description

一种视频主题内容识别方法、系统及存储介质

技术领域

本发明涉及视频处理技术和人工智能技术，尤其涉及一种视频主题内容识别方法、系统及存储介质。

背景技术

随着机器学习的不断发展，神经网络对于图像识别的精度越来越高，同时随着短视频兴起，海量视频数据需要进行内容识别与分类，但是由于视频中存在遮挡，运动模糊，光照变化多样性，形态变化多样性等问题，仅仅将视频转换为多张图片进行识别是无法得到很好的效果，且准确度不高，因此，有必要设计一种基于机器学习的视频内容识别方案。

发明内容

鉴于以上所述现有技术的不足，本发明的目的在于：提供一种基于机器学习的视频内容识别方案，能够提高视频内容识别的准确度。

为实现上述发明目的，本发明提供以下技术方案：

一种视频主题内容识别方法，其包括以下步骤：

对待识别的视频进行预处理，其中，所述预处理包括提取关键帧和连续帧片段切割；

将通过所述预处理而提取到的若干个关键帧图片输入至预先训练好的关键帧神经网络模型中，得到第一数据结果；

将每个连续帧片段的全部帧图片拼接而成的图片输入至预先训练好的连续帧拼接图片神经网络模型，得到第二数据结果；

将每个连续帧片段的多个帧图片构成的批量图片输入至预先连续帧批量图片神经网络模型，得到第三数据结果；

将所述第一数据结果、所述第二数据结果和所述第三数据结果取交集后，输入至预先训练好的分类模型中，得到该视频的分类结果。

根据一种具体的实施方式，本发明的视频主题内容识别方法中，所述提取关键帧基于相邻帧之间的差分的平均强度，确定关键帧。

进一步地，所述关键帧神经网络模型采用VGG网络结构。

根据一种具体的实施方式，本发明的视频主题内容识别方法中，对连续帧片段的帧图片拼接的方式为：沿图像的横向或竖向方向连续拼接。

进一步地，所述连续帧拼接图片神经网络模型采用VGG网络结构。

根据一种具体的实施方式，本发明的视频主题内容识别方法中，所述连续帧批量图片神经网络模型采用3DCNN网络结构。

根据一种具体的实施方式，本发明的视频主题内容识别方法中，所述分类模型包括隐含层和softmax层。

根据一种具体的实施方式，本发明的视频主题内容识别方法中，所述关键帧神经网络模型、所述连续帧拼接图片神经网络模型和所述连续帧批量图片神经网络模型在训练时均采用LSTM算法对相似的输出结果进行融合。

本发明在具体实施的一方面，还提供一种视频主题内容识别系统，其包括：

视频预处理模块，用于对待识别的视频进行预处理；其中，所述预处理包括提取关键帧和连续帧片段切割；

关键帧神经网络模块，用于根据输入的若干个关键帧图片，得到第一数据结果；

连续帧拼接图片神经网络模块，用于根据输入的由每个连续帧片段的全部帧图片拼接而成的图片，得到第二数据结果；

连续帧批量图片神经网络模块，用于根据输入的由每个连续帧片段的多个帧图片构成的批量图片，得到第三数据结果；

分类模块，用于根据输入的由所述第一数据结果、所述第二数据结果和所述第三数据结果取交集后的数据结果，得到该视频的分类结果。

本发明在具体实施的一方面，还提供一种可读存储介质，其上存储有一个或多个程序，其特征在于，该一个或多个程序被一个或多个处理器执行时实现本发明的视频主题内容识别方法。

与现有技术相比，本发明的有益效果：

本发明的视频主题内容识别方法，通过对待识别的视频进行预处理，提取到若干个关键帧以及分割生成若干连续帧片段；然后，将提取到的关键帧图片、由连续帧片段的全部帧图片拼接而成的图片、由连续帧片段的多个帧图片构成的批量图片分别输入至预先训练好的三个神经网络模型中，并相应地得到第一数据结果、第二数据结果和第三数据结果；最后，将第一数据结果、第二数据结果和第三数据结果取交集后，输入至预先训练好的分类模型中，得到该视频的分类结果。因此，本发明通过神经网络模型分别对关键帧图片、连续帧的拼接图片与批量图片进行识别，以获得视频中更全面的特征，从而保证视频内容识别的准确度。

附图说明

图1为本发明视频主题内容识别方法的流程图；

图2为VGG网络结构的示意图；

图3为本发明视频主题内容识别系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

如图1所示，一种视频主题内容识别方法，其包括以下步骤：

对待识别的视频进行预处理，其中，预处理包括提取关键帧和连续帧片段切割。具体的，提取关键帧的方式是基于相邻帧之间的差分的平均强度。一旦视频中的某一帧与前一帧画面内容产生了很大变化，即该帧与前一帧之间的差分的平均强度大于设定阈值，则认为该帧它是关键帧，并将其提取出来。而连续帧片段切割的方式是基于片段包含的帧数来确定的，例如，可将待识别视频分割为分别包含7帧的若干个连续帧片段，也可将待识别视频分割为分别包含15帧的若干个连续帧片段。如此，经过预处理后，即可得到一定数量的关键帧图片以及连续帧片段。

接着，将提取到若干个关键帧图片输入至预先训练好的关键帧神经网络模型中，得到第一数据结果G1。通常而言，需要将提取出来的关键帧图片统一处理为一定规格图片格式，作为输入，本发明在实施时，图片规格被统一处理为224*224，关键帧神经网络模型采用如图2所示的VGG网络结构。

相应地，将待识别视频分割为分别包含7帧的若干个连续帧片段后，然后将每个连续帧片段的7张帧图片的规格统一处理为224*224，然后，沿图片像素行的方向，将7张规格224*224的帧图片拼接为一张规格224*1568的图片，并将拼接好的图片输入至预先训练好的连续帧拼接图片神经网络模型，得到第二数据结果G2。本发明在实施时，连续帧拼接图片神经网络模型采用VGG网络结构。

相应地，将待识别视频分割为分别包含15帧的若干个连续帧片段后，将每个连续帧片段其中的7张224*224的帧图片构成的批量图片，并输入至预先训练好的连续帧批量图片神经网络模型，得到第三数据结果G3；本发明在实施时，连续帧拼接图片神经网络模型采用3DCNN网络结构。

最后，将第一数据结果G1、第二数据结果G2和第三数据结果G3取交集后，输入至预先训练好的分类模型中，得到该视频的分类结果。本发明在实施时，分类模型采用VGG网络结构包括一个隐含层和一个softmax层。

本发明的视频主题内容识别方法中，需要先完成关键帧神经网络模型、连续帧拼接图片神经网络模型和连续帧批量图片神经网络模型的训练工作。

首先，根据实际业务场景，整合定义了10个分类，分别是：美食，风景，搞笑，美女，儿童，游戏，植物，建筑，动物，车辆。然后数据集的准备：对于每个分类在业务场景中选取2000个视频作为标注样本，共20000个，其中每个类别抽取1500个视频做训练集，训练集共15000个视频；剩余每个类别500个视频做测试集，测试集一共5000个视频。

然后，分别建立关键帧神经网络模型、连续帧拼接图片神经网络模型和连续帧批量图片神经网络模型，并分别进行训练。

1、关键帧神经网络的训练：

A.对训练集中的视频进行关键帧提取。

B.将提取出来的关键帧图片统一处理为大小为224*224的图片格式，作为输入。

C.采用经典的VGG网络结构来进行样本训练，提取图片中的特征。

D.将上一层的输出经由Long Short-Term Memory（以下简称LSTM）算法将相似的输出结果融合，最后得到第一数据结果G1。

2、连续帧拼接图片神经网络的训练：

A.将样本视频以连续的每7帧为一个片段进行切割。

B.将切割出的片段以每1帧为准处理成7张224*224大小的图片，然后拼接成大小为224*1568的图片矩阵作为输入。

D.将上一层的输出经由Long Short-Term Memory（以下简称LSTM）算法将相似的输出结果融合，最后得到第二数据结果G2。

3、连续帧批量图片神经网络的训练：

A.将本视频连续的每15帧为一个片段进行切割，得到一个批量的输入N，每个输入N由7张图片构成，将图片处理为224*224大小的图片。

B.每一组图片输入N，采用3DCNN的网络结构提取连续图片中的特征信息，作为输出M。

C.将上一层的输出M经由Long Short-Term Memory（以下简称LSTM）算法将相似的输出结果融合，最后得到第三数据结果G3。

4、将G1,G2,G3的结果取交集后作为统一的输出,经过一个隐藏层和softmax层完成最后的分类训练。

5、经过测试，最后的准确率达到满足预期目标。

如图3所示，本发明在具体实施的一方面，还提供一种视频主题内容识别系统，其包括：

应该理解到，本发明所揭露的系统，可通过其它的方式实现。例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，模块之间的通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的存储介质。

Claims

1.一种视频主题内容识别方法，其特征在于，包括以下步骤：

将每个连续帧片段的多个帧图片构成的批量图片输入至预先训练好的连续帧批量图片神经网络模型，得到第三数据结果；

2.如权利要求1所述的视频主题内容识别方法，其特征在于，所述提取关键帧基于相邻帧之间的差分的平均强度，确定关键帧。

3.如权利要求2所述的视频主题内容识别方法，其特征在于，所述关键帧神经网络模型采用VGG网络结构。

4.如权利要求1所述的视频主题内容识别方法，其特征在于，对连续帧片段的帧图片拼接的方式为：沿图像的横向或竖向方向连续拼接。

5.如权利要求4所述的视频主题内容识别方法，其特征在于，所述连续帧拼接图片神经网络模型采用VGG网络结构。

6.如权利要求1所述的视频主题内容识别方法，其特征在于，所述连续帧批量图片神经网络模型采用3DCNN网络结构。

7.如权利要求1所述的视频主题内容识别方法，其特征在于，所述分类模型包括隐含层和softmax层。

8.如权利要求1~7任一项所述的视频主题内容识别方法，其特征在于，所述关键帧神经网络模型、所述连续帧拼接图片神经网络模型和所述连续帧批量图片神经网络模型在训练时均采用LSTM算法对相似的输出结果进行融合。

9.一种视频主题内容识别系统，其特征在于，包括：

10.一种可读存储介质，其上存储有一个或多个程序，其特征在于，该一个或多个程序被一个或多个处理器执行时实现权利要求1~8任一项所述的视频主题内容识别方法。