CN113177478B

CN113177478B - 一种基于迁移学习的短视频语义标注方法

Info

Publication number: CN113177478B
Application number: CN202110475530.1A
Authority: CN
Inventors: 郭奕; 代晓天; 邱珂; 黄永茂; 江婉; 周婷; 卿朝进
Original assignee: Xihua University
Current assignee: Xianyang Gaoxin Digital Culture Industry Development Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-08-05
Anticipated expiration: 2041-04-29
Also published as: CN113177478A

Abstract

本发明公开了一种基于迁移学习的短视频语义标注方法，包括以下步骤：S1、提取短视频的关键帧；S2、对关键帧进行区域检测，得到语义区域图像；S3、以图像描述模型为基础，对语义区域图像进行语义标注。本发明通过关键帧提取技术将包含短视频重要信息的帧提取出来，降低数据处理量，有效地提取了短视频中的高价值语义信息，并对短视频进行语义标注。

Description

一种基于迁移学习的短视频语义标注方法

技术领域

本发明属于图像处理领域，具体涉及一种基于迁移学习的短视频语义标注方法。

背景技术

随着互联网的发展和移动通信技术的进步，短视频成为新的信息传播载体。短视频的用户量和数据量十分庞大，庞大的视频数据蕴藏着极大的商业价值，这使得国内外知名企业都涉足于短视频应用。但是庞大的未经标记分类的视频数据对于商业公司而言无法有效转化为收益，对于政府来说无法对视频内容进行有效监督。而当前大部分审核与标记需人工完成。将视频内容自动标注技术应用于视频内容审核和媒体资源管理系统中，将极大提高审核与标记效率。

目前对于短视频的语义标注方法研究的技术方案和技术缺陷如下：

(1)传统的视频分析与标注方法主要依赖人工构建的特征进行匹配，往往将视频简单的分为几类或十几类，传统方法对视频的要求比较高，而短视频内容与格式丰富多样，且利用人工构建的特征效率很低，分类效率也无法应对海量数据财贸法与大数据时代接轨。

(2)不少研究者使用视频描述模型，S2VT模型作为首个序列到序列的视频描述模型，利用了视频的时序信息提取视频内容。MMVD模型基于S2VT模型，对多种视频特征进行融合，然后生成语义标注。这些直接基于视频进行描述的结果都是若干简单的语义描述，效果不稳定，也缺乏更细节的描述，有待进一步的研究。

(3)而针对图像的目标检测和图像描述研究进展较快，利用这些领域的研究内容，将提高语义标注的效果。但是传统的目标检测模型的检测目标主要是图像中的物体，且物体中的分类都是常见的物体，缺少对一些特定的物体的检测能力，也缺乏对于背景区域的检测能力。而短视频的背景区域对于整个视频的语义标注也非常重要，需要对其进行检测。传统的图像描述模型主要针对整幅图像的重点区域，对于图像其余细节将忽略，但是这些细节也对视频标注的丰富性和准确性有着较大贡献，所以提取这些图像细节将提高标注效果。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于迁移学习的短视频语义标注方法解决了现有技术中分类效率低、稳定性差以及检测精度不够的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于迁移学习的短视频语义标注方法，包括以下步骤：

S1、提取短视频的关键帧；

S2、对关键帧进行区域检测，得到语义区域图像；

S3、以图像描述模型为基础，对语义区域图像进行语义标注。

进一步地，所述步骤S1具体为：

S1.1、采用图像处理库PIL中Image模块的open函数读取短视频的视频帧；

S1.2、调用histogram函数获取视频帧的颜色直方图；

S1.3、根据MPEG-4编码标准，提取短视频的所有I帧；

S1.4、将巴氏距离作为两张图片之间的相似度，计算每张I帧的颜色直方图与下一张相邻I帧的颜色直方图之间的相似度；

S1.5、判断相似度是否小于预先设定的阈值，若是，则当前帧为关键帧，否则当前帧不是关键帧；

S1.6、遍历所有I帧，得到若干关键帧。

进一步地，所述步骤S2具体为：

S2.1、构建区域检测模型；

S2.2、采用Visual Genome数据集训练区域检测模型；

S2.3、将关键帧输入训练后的区域检测模型，得到语义区域图像。

进一步地，所述步骤S2.1中区域检测模型包括输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块、第三卷积块、第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块、第二卷积层、坐标预测卷积块、类别预测卷积块以及输出层；

所述输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块以及第三卷积块依次连接，所述第二卷积块的输出端与第一额外残差块的输入端连接，所述第三卷积块的输出端与第二额外残差块的输入端连接，所述第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块以及第二卷积层依次连接，所述第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块以及第二卷积层的输出端均与坐标预测卷积块的输入端连接，所述第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块以及第二卷积层的输出端均与类别预测卷积块的输入端连接，所述坐标预测卷积块以及类别预测卷积块的输出端均与输出层连接。

进一步地，所述步骤S3具体为：

S3.1、构建图像描述模型；

S3.2、将语义区域图像输入图像描述模型，得到语义信息；

S3.3、采用pke库中的YAKE模型提取语义信息中的关键短语，并筛选出现频率最高的N条关键短语；

S3.4、将语义信息传输至自然语言处理库NLTK的词性标记模块中，筛选语义信息中的名词单数形式、名词复数形式、专有名词以及人称代词，并进行去重处理，得到词组；

S3.5、选取步骤S3.3中N条关键短语与步骤S3.4中词组之间的词汇交集，得到关键词；

S3.6、将含有关键词的关键短语进行组合，得到短视频的语义标注。

进一步地，所述步骤S3.1中图像描述模型包括输入层、第三卷积层、第二最大池化层、第四卷积块、第五卷积块、第六卷积块、第七卷积块、自适应池化层、第一线性层、第二线性层、第三线性层、Relu激活层、LSTM结构层以及输出层；

所述输入层、第三卷积层、第二最大池化层、第四卷积块、第五卷积块、第六卷积块、第七卷积块、自适应池化层、第一线性层、第二线性层以及Relu激活层依次连接，所述Relu激活层的输出与LSTM结构层的输入连接，所述LSTM结构层的输出分别与第三线性层的输入和输出层连接，所述第三线性层的输出与第二线性层的输入连接，所述自适应池化层的输出与Relu激活层的输出进行矩阵相乘并将相乘结果输入至LSTM结构层。

本发明的有益效果为：

(1)本发明提供了一种基于迁移学习的短视频语义标注方法，有效地提取短视频中的高价值语义信息，并对短视频进行语义标注。

(2)本发明通过关键帧提取技术将包含短视频重要信息的帧提取出来，降低数据处理量。

(3)本发明基于预训练模型组成区域检测模型，通过Visual Genome数据集训练来提取关键帧中的高价值语义区域；基于预训练模型和注意力机制组成图像描述模型，对关键帧的若干重点区域进行语义描述，有效解决传统方法输出描述不足的问题。

(4)本发明针对语义描述通过自然语言处理，生成短视频的关键语义标注；有效减少了视频处理的数据量，针对性的对关键帧的特定高语义价值区域进行提取，基于迁移学习对这些区域进行语义描述，能提取出视频的关键语义标签，从而形成对视频的语义标注。

附图说明

图1为本发明提出的一种基于迁移学习的短视频语义标注方法流程图。

图2为本发明中区域检测模型结构图。

图3为本发明中图像描述模型结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于迁移学习的短视频语义标注方法，包括以下步骤：

S1、提取短视频的关键帧；

S2、对关键帧进行区域检测，得到语义区域图像；

所述步骤S1具体为：

S1.2、调用histogram函数获取视频帧的颜色直方图；

S1.3、根据MPEG-4编码标准，提取短视频的所有I帧；

S1.6、遍历所有I帧，得到若干关键帧。

所述步骤S1.4中巴氏距离DB(p,q)具体为：

DB(p,q)＝-ln(BC(p,q))

其中，p和q表示在X数域上的两个离散概率分布，BC(p,q)表示巴氏系数，p(x)和q(x)表示p和q的分布函数。

所述步骤S2具体为：

S2.1、构建区域检测模型；

S2.2、采用Visual Genome数据集训练区域检测模型；

在本实施例中，采用Visual Genome数据集训练区域检测模型，具体训练参数如表1所示。

表1训练参数

如图2所示，所述步骤S2.1中区域检测模型包括输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块、第三卷积块、第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块、第二卷积层、坐标预测卷积块、类别预测卷积块以及输出层；

在本实施例中，第一卷积层的大小为7×7，通道数为64，其步长为2；第一最大池化层的大小为3×3，步长为2；第一卷积块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为64、64和256；第二卷积块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为128、128和512；第一卷积块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为256、256和1024；第一额外残差块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为512、512和1024；第二额外残差块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为1024、1024和1024；第三额外残差块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为1024、1024和512；第四额外残差块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为512、512和256；第五额外残差块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为256、256和512；第六额外残差块包括依次连接的三个卷积层，大小依次为1×1、3×3和1×1，通道数依次为512、256和256；第二卷积层大小为3×3，通道数为512；坐标预测卷积块包括依次连接的六个大小均为3×3的卷积层，通道数依次为1024、1024、512、256、512和512；类别预测卷积块包括依次连接的六个大小均为3×3的卷积层，通道数依次为1024、1024、512、256、512和512；

所述步骤S3具体为：

S3.1、构建图像描述模型；

S3.2、将语义区域图像输入图像描述模型，得到语义信息；

如图3所示，所述步骤S3.1中图像描述模型包括输入层、第三卷积层、第二最大池化层、第四卷积块、第五卷积块、第六卷积块、第七卷积块、自适应池化层、第一线性层、第二线性层、第三线性层、Relu激活层、LSTM结构层以及输出层；

在图像描述模型中，输出的单词将在网络中作为输入用于下一个单词的生成。生成的首个单词需要用符号代替，看作整句描述的开始。语义描述模型中用<start>指代，而模型也需要在适当位置结束预测。

描述的长度需设定一个最大值，因此模型将语义描述作为固定长度的张量进行传递，使模型在超过预设阈值时停止生成单词。当模型当前生成单词数已超过阈值时，会停止预测新的单词。在每个时序，所有图像的描述序列仅处理有色区域，这是该时序的有效批次大小N_t。每个时间步长有效批次都会变化，逐渐从大减小，经过排序后的图像特征使得每一步中的N_t都与上一步已生成的输出单词对应。

在本实施例中，第三卷积层大小为7×7，通道数为64，步长为2；第二最大池化层的大小为3×3，步长为2；第四卷积块包括三个依次连接的卷积层，大小分别为1×1、3×3和1×1，通道数分别为64、64和256；第五卷积块包括三个依次连接的卷积层，大小分别为1×1、3×3和1×1，通道数分别为128、128和512；第六卷积块包括三个依次连接的卷积层，大小分别为1×1、3×3和1×1，通道数分别为256、256和1024；第七卷积块包括三个依次连接的卷积层，大小分别为1×1、3×3和1×1，通道数分别为512、512和2048；第一线层的输入和输出通道数分别为2048和512；第二线层的输入和输出通道数分别为512和1；第三线层的输入和输出通道数分别为512和512；LSTM结构层的输入通道数和输出通道数分别为2600和512。

Claims

1.一种基于迁移学习的短视频语义标注方法，其特征在于，包括以下步骤：

S1、提取短视频的关键帧；

S2、对关键帧进行区域检测，得到语义区域图像；

S3、以图像描述模型为基础，对语义区域图像进行语义标注；

所述步骤S1具体为：

S1.2、调用histogram函数获取视频帧的颜色直方图；

S1.3、根据MPEG-4编码标准，提取短视频的所有I帧；

S1.6、遍历所有I帧，得到若干关键帧；

所述步骤S2具体为：

S2.1、构建区域检测模型；

S2.2、采用Visual Genome数据集训练区域检测模型；

S2.3、将关键帧输入训练后的区域检测模型，得到语义区域图像；

所述步骤S2.1中区域检测模型包括输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块、第三卷积块、第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块、第二卷积层、坐标预测卷积块、类别预测卷积块以及输出层；

所述输入层、第一卷积层、第一最大池化层、第一卷积块、第二卷积块以及第三卷积块依次连接，所述第二卷积块的输出端与第一额外残差块的输入端连接，所述第三卷积块的输出端与第二额外残差块的输入端连接，所述第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块、第六额外残差块以及第二卷积层依次连接，所述第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块以及第二卷积层的输出端均与坐标预测卷积块的输入端连接，所述第一额外残差块、第二额外残差块、第三额外残差块、第四额外残差块、第五额外残差块以及第二卷积层的输出端均与类别预测卷积块的输入端连接，所述坐标预测卷积块以及类别预测卷积块的输出端均与输出层连接；

所述步骤S3具体为：

S3.1、构建图像描述模型；

S3.2、将语义区域图像输入图像描述模型，得到语义信息；

S3.6、将含有关键词的关键短语进行组合，得到短视频的语义标注；

所述步骤S3.1中图像描述模型包括输入层、第三卷积层、第二最大池化层、第四卷积块、第五卷积块、第六卷积块、第七卷积块、自适应池化层、第一线性层、第二线性层、第三线性层、Relu激活层、LSTM结构层以及输出层；