CN114741556A - 一种基于场景片段和多模态特征增强的短视频分类方法 - Google Patents

一种基于场景片段和多模态特征增强的短视频分类方法 Download PDF

Info

Publication number
CN114741556A
CN114741556A CN202210196211.1A CN202210196211A CN114741556A CN 114741556 A CN114741556 A CN 114741556A CN 202210196211 A CN202210196211 A CN 202210196211A CN 114741556 A CN114741556 A CN 114741556A
Authority
CN
China
Prior art keywords
modality
video
modal
scene
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210196211.1A
Other languages
English (en)
Inventor
孔灿灿
张博
朱志良
于海
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202210196211.1A priority Critical patent/CN114741556A/zh
Publication of CN114741556A publication Critical patent/CN114741556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于场景片段和多模态特征增强的短视频分类方法,涉及短视频分类技术领域;抓取短视频平台的短视频及其附加信息,对短视频数据进行标注以构建一个短视频数据集;将视频按照场景分割成多个场景片段,并提取出每个场景片段中的多模态信息,包括关键帧、音频和字幕;利用预训练的深度学习模型提取出各个模态特征;动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征,并利用前者来增强后者语义,通过与原始特征连接获得视频粒度上增强后的模态特征;将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态中的特有性特征与主导模态连接,得到短视频分类结果。

Description

一种基于场景片段和多模态特征增强的短视频分类方法
技术领域
本发明涉及短视频分类技术领域,尤其涉及一种基于场景片段和多模态特征增强的短视频分类方法。
背景技术
随着移动互联网和社交网络的迅速发展,短视频凭借其“短、快、精”的优势在社交网络上迅速传播,成为当前媒体结构的重要组成部分。研究表明,短视频数据呈现爆炸式的增长,人们迫切地需要从这些海量短视频中快速准确地找到有用的信息,而人类对这些非结构化、内容复杂的数据处理能力是有限的,因此需要智能化、自动化的技术对视频信息进行处理。
多模态融合是指整合多个模态的信息来完成分类或回归任务。短视频是视觉模态、声音模态和文本模态等多个模态的统一体。普遍认为,在观察同一个现象时引入多个模态会增强预测的健壮性,而且接触多个模态的信息,会更有可能捕捉到互补的信息,即只有某个模态特有的信息正好可以补充其他模态没有的信息。另外,多模态特征可以保证在缺失某一个模态时仍然可以有较好的性能。
因此,与传统视频的理解相比,短视频理解存在一些挑战。短视频本身是社交属性、视觉、声音、文本等多个模态的统一体,因此如何有效地从短视频的多个模态中提取特征并将其融合以充分挖掘其中的潜在信息从而完成短视频理解就显得非常重要。
经过调查发现,对一个短视频来说,在视频的不同场景片段中同一模态的贡献度是不同的,即每一模态在不同的时间点可能表现出不同形式和不同等级的噪声。由于用户在制作短视频时会添加一些包含其他意图的额外干扰信息,或由于拍摄条件的瞬间改变,或由于镜头转场,都会导致一个短视频不同时间段内的模态质量有所差异。因此需要一种技术对短视频的不同场景片段的模态进行分析,以有效解决短视频分类的问题。
发明内容
针对现有技术的不足,本发明提供一种基于场景片段和多模态特征增强的短视频分类方法。
一种基于场景片段和多模态特征增强的短视频分类方法,具体为以下步骤:
步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K-means进行聚类,把越相似的标签聚成一簇;
步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集;
步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
步骤2.1:使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;
步骤2.2:使用开源视频分割工具从每个场景片段中分离出音频文件,作为声音模态;
步骤2.3:使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态;
步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
步骤3.1:使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个视觉模态特征向量;
步骤3.2:使用预训练的声音模态特征提取器来提取声音特征;然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个声音模态特征向量;
步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量;
步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中;
步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征,并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
Figure BDA0003525843740000031
其中,
Figure BDA0003525843740000032
Figure BDA0003525843740000033
分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵,m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态;
步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
步骤4.2.1:初始化可学习的权重矩阵
Figure BDA0003525843740000034
C表示类别数量,Dm表示模态m的特征维度,计算多个场景片段的同一类型模态对应的权重矩阵的分数大小,所述同一类型模态是指视觉模态或声音模态或字幕模态;
Figure BDA0003525843740000035
其中,Q[α,β]表示矩阵Q中第α行第β列的权重值,
Figure BDA0003525843740000036
表示第j个场景片段的模态m的权重矩阵的分数;
步骤4.2.2:计算多个场景片段的同一类型模态的分数最大的权重矩阵,表示为Z,该权重矩阵对应的特征为信息密集型的场景片段模态特征,表示为
Figure BDA0003525843740000037
其他场景片段的该模态特征为稀疏型特征,表示为
Figure BDA0003525843740000038
Figure BDA0003525843740000039
其中M为一个视频的场景片段的个数,Max表示求最大值函数;
步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离
Figure BDA00035258437400000310
计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
Figure BDA00035258437400000311
Figure BDA00035258437400000312
步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征;
步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
Figure BDA0003525843740000041
Figure BDA0003525843740000042
其中conc表示连接函数,
Figure BDA0003525843740000043
表示连接后的第j个场景片段的模态m的特征向量,
Figure BDA0003525843740000044
表示可训练的权重矩阵,σ表示激活函数,
Figure BDA0003525843740000045
表示第j个场景片段的模态m的更具有表达能力的特征向量;
步骤4.4.2:将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来,获得视频粒度上的多种模态特征向量;
Figure BDA0003525843740000046
其中,
Figure BDA0003525843740000047
表示第i个视频模态m的特征向量;
步骤4.4.3:将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层,得到在短视频分类中的概率分布;
计算短视频的多种模态特征向量对于短视频类别的概率分布:
Figure BDA0003525843740000048
其中,Wm表示可训练的权重矩阵,softmax表示归一化指数函数,
Figure BDA0003525843740000049
表示模态m对于短视频类别的概率分布;
计算多种模态特征向量预测类别与真实类别的交叉熵损失:
Figure BDA00035258437400000410
N表示短视频的数量,yi表示第i个短视频的真实类别;
步骤5:将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果;
步骤5.1:将视频粒度上的视觉模态作为主导模态,视频粒度上的声音模态和字幕模态作为辅助模态,连接辅助模态与主导模态特征记作Evt,计算辅助模态与主导模态的特征关联性分数向量记作Rvt,Rvt中的分值越小,表示辅助模态中的该特征与主导模态关联性越小;
Evt=conc(Ev,Et)
Rvt=softmax(Wv·Evt)
其中,Ev表示视频粒度上的主导模态特征即视觉模态特征,Et表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征,t∈{a,s}分别表示声音模态和字幕模态,v表示视觉模态,conc表示连接函数,softmax表示归一化指数函数,Wv表示可训练的权重矩阵;
步骤5.2:通过可学习的阈值ρm,从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γvt
Figure BDA0003525843740000051
其中,Rvt[i]表示关联性分数向量Rvt中位置i的值,γvt[i]表示特有性分数向量γvt中位置i的值;
步骤5.3:将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量,短视频的最终多模态融合特征向量为:
Figure BDA0003525843740000052
其中,γva和γvs分别表示声音模态和字幕模态对视觉模态特征关联性不大的特有性分数向量,Ea和Es分别表示声音模态特征和字幕模态特征,
Figure BDA0003525843740000053
表示叉乘即两个向量对应元素相乘;
步骤5.4:将最终的多模态融合特征向量输入一个全连接的softmax层,得到在短视频分类中的概率分布,对该概率分布进行损失补偿,得到短视频分类结果;
计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布:
Figure BDA0003525843740000054
其中,Wp表示可训练的权重矩阵,softmax表示归一化指数函数;
计算预测类别与真实类别的交叉熵损失:
Figure BDA0003525843740000055
将交叉熵损失与步骤4.3得到的loss1和步骤4.4.2得到的loss2相加作为目标函数,得到场景分类结果;
Loss=loss1+loss2+loss3
本发明的有益效果:
针对短视频是一个多模态融合体的特点,本发明构建了一个短视频数据集,用于短视频分类。本方法挖掘出短视频中的字幕模态,可以有效的补充模态信息。另外本发明提供了一种基于场景片段的多模态特征增强及补充短视频分类方法,从场景片段这一更细粒度上分析了不同模态的质量,动态选择出信息密集型特征和信息稀疏型特征,并利用前者来增强后者的语义信息,使其具有更强的表达能力。另外本方法将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态的特有性特征与主导模态连接,共同实现短视频分类。综上,本发明可以对短视频分类提供更好的性能。
附图说明
图1为本发明中场景片段的分割示例图。
图2为本发明中字幕模态的挖掘示例图。
图3为本发明中一种基于场景片段的多模态特征增强及补充的短视频分类方法的框架图。
具体实施方式
下面结合附图和实施例对一种基于场景片段和多模态特征增强的短视频分类方法做进一步说明;
一种基于场景片段和多模态特征增强的短视频分类方法,具体为以下步骤:
步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K-means进行聚类,把越相似的标签聚成一簇;
步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集;
步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
步骤2.1:使用场景识别分割工具如开源工具PySceneDetect将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;如图1所示。在分割时选择检测场景片段的方法为detect-content,通过比较每个帧,依次查找内容的变化。另外,限制每个场景片段的最低时长为3秒,以及每个场景片段取出5帧图片作为关键帧。
每个场景片段的命名格式为video_id-Scene-n.mp4,其中n表示该视频的第n个场景片段,将一个视频的多个场景片段保存在以video_id命名的文件夹中。每个关键帧的命名格式为video_id-Scene-n-m.png,其中n表示第n个场景片段,m表示第m个关键帧,将多个关键帧保存在以video_id命名的文件夹中。
步骤2.2:使用开源视频分割工具如FFmpeg(Fast Forward Moving PictureExperts Group,快进动态图像专家组)从每个场景片段中分离出音频文件,作为声音模态;
每个音频文件的命名格式为video_id-Scene-n.m4a,其中n表示第n个场景片段,将一个视频的多个场景片段的音频文件保存在以video_id命名的文件夹中。
步骤2.3:使用开源OCR工具如PaddleOCR从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态;
每个场景片段的字幕信息保存在video_id-Scene-n.csv文件中,其中第一列为该字幕所对应关键帧的名字,第二列为提取出的字幕信息。
步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
步骤3.1:使用预训练的视觉模态特征提取器如Transformer模型为每个关键帧提取768维的视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个768维的视觉模态特征向量;
步骤3.2:使用预训练的声音模态特征提取器如使用在Audioset音频数据集上预训练的VGGish模型来提取声音特征;每个音频提取了nums_frames*128维的特征,其中nums_frames=音频时长/0.96。然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个128维的声音模态特征向量;
步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,如图2所示。然后使用预训练的文本特征提取器如ALBERT模型为从每个场景片段中的字幕信息生成一个312维的字幕模态特征向量;
步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别(以one-hot编码)保存到h5文件中;
步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征(比如n个场景片段中的视觉模态特征),并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
Figure BDA0003525843740000081
其中
Figure BDA0003525843740000082
Figure BDA0003525843740000083
分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵,m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态;
步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
步骤4.2.1:初始化神经网络中可学习的权重矩阵
Figure BDA0003525843740000084
C表示类别数量,Dm表示模态m的特征维度,计算多个场景片段的同一类型模态对应的权重矩阵的分数大小,所述同一类型模态是指视觉模态或声音模态或字幕模态;
Figure BDA0003525843740000085
其中Q[α,β]表示矩阵Q中第α行第β列的权重值,
Figure BDA0003525843740000086
表示第j个场景片段的模态m的权重矩阵的分数;
步骤4.2.2:计算多个场景片段的同一类型模态的分数最大的权重矩阵,表示为Z,该权重矩阵对应的特征为信息密集型的场景片段模态特征,表示为
Figure BDA0003525843740000087
其他场景片段的该模态特征为稀疏型特征,表示为
Figure BDA0003525843740000088
Figure BDA0003525843740000089
其中M为一个视频的场景片段的个数,Max表示求最大值函数;
步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离
Figure BDA00035258437400000810
计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
Figure BDA0003525843740000091
Figure BDA0003525843740000092
步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征;
步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
Figure BDA0003525843740000093
Figure BDA0003525843740000094
其中conc表示连接函数,
Figure BDA0003525843740000095
表示连接后的第j个场景片段的模态m的特征向量,
Figure BDA0003525843740000096
表示可训练的权重矩阵,σ表示激活函数,
Figure BDA0003525843740000097
表示第j个场景片段的模态m的更具有表达能力的特征向量;
步骤4.4.2:将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来,获得视频粒度上的多种模态特征向量;
Figure BDA0003525843740000098
其中,
Figure BDA0003525843740000099
表示第i个视频模态m的特征向量;
步骤4.4.3:将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层,得到在短视频分类中的概率分布;
计算短视频的多种模态特征向量对于短视频类别的概率分布:
Figure BDA00035258437400000910
其中,Wm表示可训练的权重矩阵,softmax表示归一化指数函数,
Figure BDA00035258437400000911
表示模态m对于短视频类别的概率分布;
计算多种模态特征向量预测类别与真实类别的交叉熵损失:
Figure BDA00035258437400000912
N表示短视频的数量,yi表示第i个短视频的真实类别;
步骤5:选择模态质量较好的模态作为主导模态,实验表明一般而言视觉模态质量最佳。因此本方法将视觉模态作为主导模态,将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果;算法模型如图3所示;
步骤5.1:将视频粒度上的视觉模态作为主导模态,视频粒度上的声音模态和字幕模态作为辅助模态,连接辅助模态与主导模态特征记作Evt,计算辅助模态与主导模态的特征关联性分数向量记作Rvt,Rvt中的分值越小,表示辅助模态中的该特征与主导模态关联性越小;
Evt=conc(Ev,Et)
Rvt=softmax(Wv·Evt)
其中,Ev表示视频粒度上的主导模态特征即视觉模态特征,Et表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征,t∈{a,s}分别表示声音模态和字幕模态,v表示视觉模态,conc表示连接函数,softmax表示归一化指数函数,Wv表示可训练的权重矩阵;
步骤5.2:通过可学习的阈值ρm,从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γvt
Figure BDA0003525843740000101
其中,Rvt[i]表示关联性分数向量Rvt中位置i的值,γvt[i]表示特有性分数向量γvt中位置i的值;
步骤5.3:将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量,短视频的最终多模态融合特征向量为:
Figure BDA0003525843740000102
其中,γva和γvs分别表示声音模态和字幕模态对视觉模态特征关联性不大的特有性分数向量,Ea和Es分别表示声音模态特征和字幕模态特征,
Figure BDA0003525843740000103
表示叉乘即两个向量对应元素相乘;
步骤5.4:将最终的多模态融合特征向量经过一个全连接的softmax层,得到在短视频分类中的概率分布,对该概率分布进行损失补偿,得到短视频分类结果;
计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布:
Figure BDA0003525843740000111
其中,Wp表示可训练的权重矩阵,softmax表示归一化指数函数;
计算预测类别与真实类别的交叉熵损失:
Figure BDA0003525843740000112
将交叉熵损失与步骤4.3得到的loss1和步骤4.4.2得到的loss2相加作为目标函数,得到场景分类结果;
Loss=loss1+loss2+loss3
另外,本发明在构建的数据集上进行了实验,实验表明,本发明提出的一种基于场景片段的多模态特征增强及补充的短视频方法在Macro-F1上的结果为0.9835,和Micro-F1的结果为0.9851。

Claims (8)

1.一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,具体包括以下步骤:
步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征,并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
步骤5:将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果。
2.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤1具体为:
步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K-means进行聚类,把越相似的标签聚成一簇;
步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集。
3.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤2具体为:
步骤2.1:使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;
步骤2.2:使用开源视频分割工具从每个场景片段中分离出音频文件,作为声音模态;
步骤2.3:使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态。
4.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤3具体为:
步骤3.1:使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个视觉模态特征向量;
步骤3.2:使用预训练的声音模态特征提取器来提取声音特征;然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个声音模态特征向量;
步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量;
步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中。
5.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4具体为:
步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
Figure FDA0003525843730000021
其中,
Figure FDA0003525843730000022
Figure FDA0003525843730000023
分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵,m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态;
步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离
Figure FDA0003525843730000024
计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
Figure FDA0003525843730000025
Figure FDA0003525843730000031
步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征。
6.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4.2具体为:
步骤4.2.1:初始化可学习的权重矩阵
Figure FDA0003525843730000032
C表示类别数量,Dm表示模态m的特征维度,计算多个场景片段的同一类型模态对应的权重矩阵的分数大小,所述同一类型模态是指视觉模态或声音模态或字幕模态;
Figure FDA0003525843730000033
其中,Q[α,β]表示矩阵Q中第α行第β列的权重值,
Figure FDA0003525843730000034
表示第j个场景片段的模态m的权重矩阵的分数;
步骤4.2.2:计算多个场景片段的同一类型模态的分数最大的权重矩阵,表示为Z,该权重矩阵对应的特征为信息密集型的场景片段模态特征,表示为
Figure FDA0003525843730000035
其他场景片段的该模态特征为稀疏型特征,表示为
Figure FDA0003525843730000036
Figure FDA0003525843730000037
其中M为一个视频的场景片段的个数,Max表示求最大值函数。
7.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4.4具体为:
步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
Figure FDA0003525843730000038
Figure FDA0003525843730000039
其中conc表示连接函数,
Figure FDA00035258437300000310
表示连接后的第j个场景片段的模态m的特征向量,
Figure FDA00035258437300000311
表示可训练的权重矩阵,σ表示激活函数,
Figure FDA00035258437300000312
表示第j个场景片段的模态m的更具有表达能力的特征向量;
步骤4.4.2:将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来,获得视频粒度上的多种模态特征向量;
Figure FDA0003525843730000041
其中,
Figure FDA0003525843730000042
表示第i个视频模态m的特征向量;
步骤4.4.3:将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层,得到在短视频分类中的概率分布;
计算短视频的多种模态特征向量对于短视频类别的概率分布:
Figure FDA0003525843730000043
其中,Wm表示可训练的权重矩阵,softmax表示归一化指数函数,
Figure FDA0003525843730000044
表示模态m对于短视频类别的概率分布;
计算多种模态特征向量预测类别与真实类别的交叉熵损失:
Figure FDA0003525843730000045
N表示短视频的数量,yi表示第i个短视频的真实类别。
8.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤5具体为:
步骤5.1:将视频粒度上的视觉模态作为主导模态,视频粒度上的声音模态和字幕模态作为辅助模态,连接辅助模态与主导模态特征记作Evt,计算辅助模态与主导模态的特征关联性分数向量记作Rvt,Rvt中的分值越小,表示辅助模态中的该特征与主导模态关联性越小;
Evt=conc(Ev,Et)
Rvt=softmax(Wv·Evt)
其中,Ev表示视频粒度上的主导模态特征即视觉模态特征,Et表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征,t∈{a,s}分别表示声音模态和字幕模态,v表示视觉模态,conc表示连接函数,softmax表示归一化指数函数,Wv表示可训练的权重矩阵;
步骤5.2:通过可学习的阈值ρm,从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γvt
Figure FDA0003525843730000051
其中,Rvt[i]表示关联性分数向量Rvt中位置i的值,γvt[i]表示特有性分数向量γvt中位置i的值;
步骤5.3:将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量,短视频的最终多模态融合特征向量为:
Figure FDA0003525843730000052
其中,γva和γvs分别表示声音模态和字幕模态对视觉模态特征关联性不大的特有性分数向量,Ea和Es分别表示声音模态特征和字幕模态特征,
Figure FDA0003525843730000053
表示叉乘即两个向量对应元素相乘;
步骤5.4:将最终的多模态融合特征向量输入一个全连接的softmax层,得到在短视频分类中的概率分布,对该概率分布进行损失补偿,得到短视频分类结果;
计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布:
Figure FDA0003525843730000054
其中,Wp表示可训练的权重矩阵,softmax表示归一化指数函数;
计算预测类别与真实类别的交叉熵损失:
Figure FDA0003525843730000055
将交叉熵损失与步骤4.3得到的loss1和步骤4.4.2得到的loss2相加作为目标函数,得到场景分类结果;
Loss=loss1+loss2+loss3
CN202210196211.1A 2022-03-01 2022-03-01 一种基于场景片段和多模态特征增强的短视频分类方法 Pending CN114741556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210196211.1A CN114741556A (zh) 2022-03-01 2022-03-01 一种基于场景片段和多模态特征增强的短视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210196211.1A CN114741556A (zh) 2022-03-01 2022-03-01 一种基于场景片段和多模态特征增强的短视频分类方法

Publications (1)

Publication Number Publication Date
CN114741556A true CN114741556A (zh) 2022-07-12

Family

ID=82275060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210196211.1A Pending CN114741556A (zh) 2022-03-01 2022-03-01 一种基于场景片段和多模态特征增强的短视频分类方法

Country Status (1)

Country Link
CN (1) CN114741556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN115952255B (zh) * 2022-11-21 2023-12-05 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Kollias et al. Expression, affect, action unit recognition: Aff-wild2, multi-task learning and arcface
Amir et al. IBM Research TRECVID-2003 Video Retrieval System.
Tuytelaars et al. Naming people in news videos with label propagation
CN113158023A (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
Khan et al. Movie tags prediction and segmentation using deep learning
Bouguila A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity
Li et al. A deep feature based multi-kernel learning approach for video emotion recognition
Ben-Ahmed et al. Deep multimodal features for movie genre and interestingness prediction
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
Naphade On supervision and statistical learning for semantic multimedia analysis
Kini et al. A survey on video summarization techniques
CN114741556A (zh) 一种基于场景片段和多模态特征增强的短视频分类方法
Ibrahim et al. VideoToVecs: a new video representation based on deep learning techniques for video classification and clustering
Choi et al. Textually customized video summaries
Sowmyayani et al. Content based video retrieval system using two stream convolutional neural network
Muneesawang et al. A new learning algorithm for the fusion of adaptive audio–visual features for the retrieval and classification of movie clips
Oliveira-Barra et al. Lifelog retrieval for memory stimulation of people with memory impairment
Naphade A probablistic framework for mapping audio-visual features to high-level semantics in terms of concepts and context
Psallidas et al. Multimodal video summarization based on fuzzy similarity features
Zhang et al. Effectively leveraging multi-modal features for movie genre classification
Mezaris et al. On the use of visual soft semantics for video temporal decomposition to scenes
Guntuku et al. Evaluating visual and textual features for predicting user ‘likes’
Gao et al. Cast2face: assigning character names onto faces in movie with actor-character correspondence
Sargin et al. Boosting video classification using cross-video signals
Shambharkar et al. Automatic classification of movie trailers using data mining techniques: A review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination