CN115410131A

CN115410131A - 一种用于短视频智能分类的方法

Info

Publication number: CN115410131A
Application number: CN202211121406.6A
Authority: CN
Inventors: 陈述; 张昕卓; 梁烨韬; 陈思佳
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-11-29

Abstract

本发明公开了一种用于短视频智能分类的方法，包括以下步骤：a、对原始视频加载；b、数据预处理；c、视频数据特征提取；d、BertModel语义标签特征融合训练；e、视频自动智能分类。发明是基于BiLSTM模型融合特征训练，并运用NeXtVLAD和SENet网络模型聚合局部特征，通过FGM、PGD相结合的算法在训练时加入对抗训练，着重计算梯度引起的扰动，达到更泛化的模型分类效果，基于BiLSTM网络，实现了通过原始视频的智能分类，将感官上的原始视频理性地评判为一个分类的模型概率准确率与损失度之间关系。

Description

一种用于短视频智能分类的方法

技术领域

本发明涉及视频处理技术领域，特别是一种用于短视频智能分类的方法。

背景技术

如今，短视频以指数型的方式快速发展，其类别信息越来越具有关键性的作用。传统长视频一般被分类为特定的类型，如Youtube中的视频分类有“时尚”、“综艺”、“喜剧”等，能够更深度更具体地记录生活，而短视频主要以碎片化的形式，他们的侧重点有所不同，短视频有着比较突出且独特的特点：一、短视频时间短，传达的信息通常主要是一个或几个主题。二、短视频分类结构体系中的类别利用日益成熟的人工智能技术实现更为精准的自动分类划分。国内的抖音、快手、小红书、今日头条等短视频平台的简洁性，真实性，可传播性，低成本，参与性强等特点受到我们广大群众的厚爱。

而现有短视频的自动分类方案存在条件限制，仅使用单模型单场景的卷积网络，存在泛化能力不强与过拟合等不足，无法应用于更为复杂场景下的全局特征提取，如CNN，区别如下：需要采用降维和增加非线性多次的特征提取再通过调整权重进行分类，仅用特定应用场景；同时，受屏幕限制，电子输入设备的成像效果与真实反馈存在差异，影响着用户体验。

现有技术方案及其缺陷包括：

当前对短视频智能分类主要采用是人为设计的特征和典型的机器学习的方案，这一方案一方面需耗费较多人力，另一方面容易收到用户的体验不理想的反馈等主观因素影响。

已有一种应用于短视频拍照软件的短视频分类方案，使用KNN模型，根据预测的数据点和已训练好的数据点之间的距离，找出距离目标点最近样本得出分类结果，经过分类算法计算得出预测的目标样本的分类。KNN分类计算量非常大，特别是运用在特征数据非常多的情况下是不适宜的，是一种慵散学习法，在对稀有类别的分类中的预测准确率比较低。

已有一种应用于4G网络的短视频分类方案，使用Markov模型，是一种基于时间序列的分类，他在可定变量的特征范围，对数据进行二维到三维的随机模拟计算得出分类结果。Markov使用时的时间和状态都是离散的，具有粗糙的非确定性特征。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种用于短视频智能分类的方法。

为解决上述问题，本发明采用如下的技术方案。

一种用于短视频智能分类的方法，包括以下步骤：

a、对原始视频加载：形成YouTube-8M数据集和Kinetics-400数据集；

b、数据预处理：对步骤a中数据集中的图像数据增强，利用已存在的数据集,进行翻转、缩放或降噪等操作来创建更多数据，同时提高网络健壮性，能让网络从视频中学习更多的信息；

c、视频数据特征提取：分别输入上述两个数据集中的视频数据，对图片预处理使用卷积神经网络CNN提取，提取的单帧图像作为TSN的空间域输入，然后对片段建模，对文本预处理选择NeXtVLAD和SENet网络模型结构，使用Bert-wwn-ext-Chinese预训练模型输出对应的词向量，同时进行FGM和PGD对抗训练；

d、BertModel语义标签特征融合训练：根据注意力机制结合对抗训练对图像标签和语义特征进行多模态融合训练；

e、视频自动智能分类：根据分类器的全连接层SoftMax进行预测，输出平均概率最高的模态标签。

作为本发明的进一步改进，所述该步骤c中所述的视频数据特征的预处理的步骤如下：

对图片特征提取：

1.输入视频，计算其总帧数，之后将视频均匀分段；

2.CNN特征提取，计算每段中每帧的信息熵，选择其中最大的信息熵作为提取的关键帧保存；

3.TSN网络训练只选择空间流网络，模型输入为上述提取的关键帧图像；采用批量随机梯度下降算法来学习网络参数。即批量处理数据，多次迭代梯度直至算法收敛；

TSN通过段共识函数将被分割的短片段进行信息融合，采用聚合函数平均池化，即将所有的片段基于共识的响应识别，对其进行平均激活；计算对应的得分概率即计算在相同类别的得分下，推算其分支下的类别得分。

对文本特征提取：

1.文本分词：使用Transformer下的BertTokenizer进行分词，直接提取视频标题的特征；

2.中文预训练模型：Bert中文预训练模型训练，继而根据词义上下文推断被随机mask掉的单词，输出对应词向量；

3.网络组件模型：所得特征分别输入到NeXtVLAD网络和SENet网络得到聚类特征，然后通过Concat方式形成了一个整体的特征向量，根据全局的SoftAttention注意力机制，使其更加有效的表征整个文本特征；

加入对抗训练模型：FGM与PGD相结合，不断迭代找到最优扰动，逼近。

本发明的有益效果

相比于现有技术，本发明的优点在于：

通过基于TSN和Bert在对抗训练下的视频智能分类，将原始视频基于关键帧提取的图像特征和文本的时序词向量的特征提取。

目前现有的模型训练受到数据集的特征变化关系，即扰动致使模型的泛化能力较欠缺，而此发明是基于BiLSTM模型融合特征训练，并运用NeXtVLAD和SENet网络模型聚合局部特征，通过FGM、PGD相结合的算法在训练时加入对抗训练，着重计算梯度引起的扰动，达到更泛化的模型分类效果。

基于BiLSTM网络，实现了通过原始视频的智能分类，将感官上的原始视频理性地评判为一个分类的模型概率准确率与损失度之间关系。

附图说明

图1为本发明的短视频智能分类流程图。

图2为本发明的视频数据特征对图片预处理流程图。

图3为本发明的视频数据特征对文本预处理流程图。

图4为本发明的TSN网络结构模型图。

图5为本发明的NeXtVLAD网络组件模型图。

图6为本发明的对抗神经网络模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图6所示，

1.对图片预处理时，本发明首先对输入图片采取随机裁剪来获得部分图像特征即限定输入图像大小为224*224；然后对图片进行尺度抖动来捕获更多图像统计数据即将输入图片大小调整为256*340，然后在以256为首，差值为32的4个等差数列的范围内波动，对图片的宽、高进行随机采样，目的使得最后输入的图片大小限定不变。通过数据增强方法，增加视频内容的多模态样本，增加训练数据防止过拟合。同时提高网络健壮性。

2.在提取图像特征时，本发明采用TSN网络的空间流提取RGB图像特征。首先将视频均匀分段，然后计算每段中每帧的信息熵，选择最大的信息熵帧作为关键帧保存，其作为TSN模型输入，对片段序列建模即首先利用W权重参数构建短片段视频的一次线性函数,获得该短片段视频所有动作类得分，然后把所有该动作类得分的得分函数融合构成共识函数，共识函数输出得到段视频类别假设共识；最后基于得出的共识，预测得出短视频的智能分类的类别概率。段共识函数的最终的损失函数的确定是结合标准分类交叉熵以及总的动作分类数和真实的动作识别标签确定。

3.在下述4已经提取到视频数据特征的标签前提下，本发明加入图像文本对抗训练FGM、PGD相结合的算法。通过在嵌入层的字向量中添加一些较小的干扰，并非在对原始输入的样本本身加以干扰，然后将获得的对抗样本再馈送给模型，即在加入扰动后的对抗样本下，两者相互对抗并进步，从而预测出真实标签的概率。FGM对抗训练的定义公式：

其中y为真实标签；x为原始样本；增量x为添加扰动；最后一个参数为模型参数；p为增加扰动后预测真实标签的概率。计算扰动值：首先复制预训练阶段的词向量字典，可以通过计算x的前向损失、反向传播得到梯度；并且根据梯度做标准化处理得到扰动值，并把扰动值加在当前的特征向量中，实现样本输入更新；然后计算对抗梯度，即通过计算更新后的样本输入的前向损失，然后累加到最初的梯度上；当特征向量变为最初的x时，要根据上述的梯度对参数进行更新，重复上述过程，直至模型全部训练完成。PGD扰动值计算公式：

则通过计算数据集中x的前向损失以及反方向传播，获得梯度并备份；对于每步k，通过特征向量的梯度计算Δx，并加到当前的特征向量，即x+Δx；若k并非最后一步，梯度归零，根据x+Δx计算前向和后向的梯度；若k为最后一步，恢复所有梯度，计算最后的x+Δx，并累加；将特征向量回复为最初的x，并根据前一步的梯度对参数更新；重复以上过程，直到模型训练全部结束。

4.Bert-BiLSTM模型融合上述对抗训练，本发明在BERT模型基础上再加上一个BiLSTM；即单层的BiLSTM其实就是2个LSTM，一个正向处理序列根据时间步得到一个结果向量，一个反向处理序列根据时间步得到一个结果向量，最后这两个LSTM的输出会拼接起来，作为BiLSTM的输出。正向的结果向量即将特征向量的词向量[[CLS]句子1....]，通过BERT特有的文本表示方法，将其形式处理为n个词嵌入向量，反向的结果向量即Bert模型通过训练将上述的词嵌入向量提取到输出向量,将输出的结果作为BiLSTM的输入，来进行特征提取，可以得到n个不同的特征向量，其不断迭代,最后取第n个特征向量。通过两者拼接融合，最后在LSTM的一个全连接层进行分类，并通过softmax函数求相应融合视频文本特征后的分类的概率。

使用YouTube-8M和Kinetics-400数据集，对采集avi格式视频分段，每段采集到的关键帧的图像将进行翻转、缩放或降噪等一系列的预处理，然后再通过卷积神经网络提取特征并结合TSN空间流网络建模，实现视频数据图像标签分类；文本特征提取则采用Bert分词结合中文分词预训练模型实现；将视频特征和文本特征直接拼接，利用网络组件模型得到聚类特征，然后根据注意力机制表征整个文本特征，加入对抗训练FGM、PGD算法，一起送入BERT-BiLSTM模型，在LSTM的池化层进行全连接softmax得到对应的视频图像文本分类的概率。

工作原理：

视频模态数据的缺少是普遍化，所以要对原有的数据集进行数据增强操作，例如对输入图片采取随机裁剪，限定输入图像为224*224。尺度抖动可捕获多尺度图像统计数据。

经过一系列的预处理以后，使用卷积神经网络对图像特征进行提取，其采用局部全连接和权值共享的方式，图像可以直接作为网络的输入，能自行抽取图像的特征包括颜色、纹理等。对于提取的图像序列作为TSN的空间流输入，其输入是采用关键帧技术从视频稀疏采样的一系列段片段。这会使得提取段的帧图像中的上下文的语义更强。提取每个片段中的单帧图像并送入空间流网络，生成基于片段的动作类的初步预测标签概率。基于NeXtVLAD和SENet网络组件模型以及SoftAttention注意力机制的Bert对文本特征提取，其会基于上下文推测文本语义，使得文本特征提取语义更丰富，关联性更强。把提取的视频特征和文本特征拼接在一起，为了让模型的训练更健壮性，泛化能力更强，利用FGM、PGD算法加入对抗训练，后送入Bert-BiLSTM模型进行融合对抗训练，最后在一个全连接层进行分类，并通过softmax函数求相应融合视频文本特征后的分类的概率。

以上所述，仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.一种用于短视频智能分类的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于短视频智能分类的方法，其特征在于：

所述该步骤c中所述的视频数据特征的预处理的步骤如下：

对图片特征提取：

1.输入视频，计算其总帧数，之后将视频均匀分段；

3.根据权利要求1所述的一种用于短视频智能分类的方法，其特征在于：

所述该步骤c中所述的视频数据特征的预处理的步骤如下：

对文本特征提取：