CN114741556A - 一种基于场景片段和多模态特征增强的短视频分类方法 - Google Patents
一种基于场景片段和多模态特征增强的短视频分类方法 Download PDFInfo
- Publication number
- CN114741556A CN114741556A CN202210196211.1A CN202210196211A CN114741556A CN 114741556 A CN114741556 A CN 114741556A CN 202210196211 A CN202210196211 A CN 202210196211A CN 114741556 A CN114741556 A CN 114741556A
- Authority
- CN
- China
- Prior art keywords
- modality
- video
- modal
- scene
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013136 deep learning model Methods 0.000 claims abstract description 7
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 117
- 230000000007 visual effect Effects 0.000 claims description 67
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 14
- 230000009193 crawling Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 2
- 230000003796 beauty Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract 1
- 239000013589 supplement Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于场景片段和多模态特征增强的短视频分类方法,涉及短视频分类技术领域;抓取短视频平台的短视频及其附加信息,对短视频数据进行标注以构建一个短视频数据集;将视频按照场景分割成多个场景片段,并提取出每个场景片段中的多模态信息,包括关键帧、音频和字幕;利用预训练的深度学习模型提取出各个模态特征;动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征,并利用前者来增强后者语义,通过与原始特征连接获得视频粒度上增强后的模态特征;将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态中的特有性特征与主导模态连接,得到短视频分类结果。
Description
技术领域
本发明涉及短视频分类技术领域,尤其涉及一种基于场景片段和多模态特征增强的短视频分类方法。
背景技术
随着移动互联网和社交网络的迅速发展,短视频凭借其“短、快、精”的优势在社交网络上迅速传播,成为当前媒体结构的重要组成部分。研究表明,短视频数据呈现爆炸式的增长,人们迫切地需要从这些海量短视频中快速准确地找到有用的信息,而人类对这些非结构化、内容复杂的数据处理能力是有限的,因此需要智能化、自动化的技术对视频信息进行处理。
多模态融合是指整合多个模态的信息来完成分类或回归任务。短视频是视觉模态、声音模态和文本模态等多个模态的统一体。普遍认为,在观察同一个现象时引入多个模态会增强预测的健壮性,而且接触多个模态的信息,会更有可能捕捉到互补的信息,即只有某个模态特有的信息正好可以补充其他模态没有的信息。另外,多模态特征可以保证在缺失某一个模态时仍然可以有较好的性能。
因此,与传统视频的理解相比,短视频理解存在一些挑战。短视频本身是社交属性、视觉、声音、文本等多个模态的统一体,因此如何有效地从短视频的多个模态中提取特征并将其融合以充分挖掘其中的潜在信息从而完成短视频理解就显得非常重要。
经过调查发现,对一个短视频来说,在视频的不同场景片段中同一模态的贡献度是不同的,即每一模态在不同的时间点可能表现出不同形式和不同等级的噪声。由于用户在制作短视频时会添加一些包含其他意图的额外干扰信息,或由于拍摄条件的瞬间改变,或由于镜头转场,都会导致一个短视频不同时间段内的模态质量有所差异。因此需要一种技术对短视频的不同场景片段的模态进行分析,以有效解决短视频分类的问题。
发明内容
针对现有技术的不足,本发明提供一种基于场景片段和多模态特征增强的短视频分类方法。
一种基于场景片段和多模态特征增强的短视频分类方法,具体为以下步骤:
步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K-means进行聚类,把越相似的标签聚成一簇;
步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集;
步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
步骤2.1:使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;
步骤2.2:使用开源视频分割工具从每个场景片段中分离出音频文件,作为声音模态;
步骤2.3:使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态;
步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
步骤3.1:使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个视觉模态特征向量;
步骤3.2:使用预训练的声音模态特征提取器来提取声音特征;然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个声音模态特征向量;
步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量;
步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中;
步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征,并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
其中M为一个视频的场景片段的个数,Max表示求最大值函数;
步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征;
步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
步骤4.4.2:将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来,获得视频粒度上的多种模态特征向量;
步骤4.4.3:将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层,得到在短视频分类中的概率分布;
计算短视频的多种模态特征向量对于短视频类别的概率分布:
计算多种模态特征向量预测类别与真实类别的交叉熵损失:
N表示短视频的数量,yi表示第i个短视频的真实类别;
步骤5:将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果;
步骤5.1:将视频粒度上的视觉模态作为主导模态,视频粒度上的声音模态和字幕模态作为辅助模态,连接辅助模态与主导模态特征记作Evt,计算辅助模态与主导模态的特征关联性分数向量记作Rvt,Rvt中的分值越小,表示辅助模态中的该特征与主导模态关联性越小;
Evt=conc(Ev,Et)
Rvt=softmax(Wv·Evt)
其中,Ev表示视频粒度上的主导模态特征即视觉模态特征,Et表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征,t∈{a,s}分别表示声音模态和字幕模态,v表示视觉模态,conc表示连接函数,softmax表示归一化指数函数,Wv表示可训练的权重矩阵;
步骤5.2:通过可学习的阈值ρm,从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γvt:
其中,Rvt[i]表示关联性分数向量Rvt中位置i的值,γvt[i]表示特有性分数向量γvt中位置i的值;
步骤5.3:将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量,短视频的最终多模态融合特征向量为:
步骤5.4:将最终的多模态融合特征向量输入一个全连接的softmax层,得到在短视频分类中的概率分布,对该概率分布进行损失补偿,得到短视频分类结果;
计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布:
其中,Wp表示可训练的权重矩阵,softmax表示归一化指数函数;
计算预测类别与真实类别的交叉熵损失:
将交叉熵损失与步骤4.3得到的loss1和步骤4.4.2得到的loss2相加作为目标函数,得到场景分类结果;
Loss=loss1+loss2+loss3。
本发明的有益效果:
针对短视频是一个多模态融合体的特点,本发明构建了一个短视频数据集,用于短视频分类。本方法挖掘出短视频中的字幕模态,可以有效的补充模态信息。另外本发明提供了一种基于场景片段的多模态特征增强及补充短视频分类方法,从场景片段这一更细粒度上分析了不同模态的质量,动态选择出信息密集型特征和信息稀疏型特征,并利用前者来增强后者的语义信息,使其具有更强的表达能力。另外本方法将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态的特有性特征与主导模态连接,共同实现短视频分类。综上,本发明可以对短视频分类提供更好的性能。
附图说明
图1为本发明中场景片段的分割示例图。
图2为本发明中字幕模态的挖掘示例图。
图3为本发明中一种基于场景片段的多模态特征增强及补充的短视频分类方法的框架图。
具体实施方式
下面结合附图和实施例对一种基于场景片段和多模态特征增强的短视频分类方法做进一步说明;
一种基于场景片段和多模态特征增强的短视频分类方法,具体为以下步骤:
步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K-means进行聚类,把越相似的标签聚成一簇;
步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集;
步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
步骤2.1:使用场景识别分割工具如开源工具PySceneDetect将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;如图1所示。在分割时选择检测场景片段的方法为detect-content,通过比较每个帧,依次查找内容的变化。另外,限制每个场景片段的最低时长为3秒,以及每个场景片段取出5帧图片作为关键帧。
每个场景片段的命名格式为video_id-Scene-n.mp4,其中n表示该视频的第n个场景片段,将一个视频的多个场景片段保存在以video_id命名的文件夹中。每个关键帧的命名格式为video_id-Scene-n-m.png,其中n表示第n个场景片段,m表示第m个关键帧,将多个关键帧保存在以video_id命名的文件夹中。
步骤2.2:使用开源视频分割工具如FFmpeg(Fast Forward Moving PictureExperts Group,快进动态图像专家组)从每个场景片段中分离出音频文件,作为声音模态;
每个音频文件的命名格式为video_id-Scene-n.m4a,其中n表示第n个场景片段,将一个视频的多个场景片段的音频文件保存在以video_id命名的文件夹中。
步骤2.3:使用开源OCR工具如PaddleOCR从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态;
每个场景片段的字幕信息保存在video_id-Scene-n.csv文件中,其中第一列为该字幕所对应关键帧的名字,第二列为提取出的字幕信息。
步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
步骤3.1:使用预训练的视觉模态特征提取器如Transformer模型为每个关键帧提取768维的视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个768维的视觉模态特征向量;
步骤3.2:使用预训练的声音模态特征提取器如使用在Audioset音频数据集上预训练的VGGish模型来提取声音特征;每个音频提取了nums_frames*128维的特征,其中nums_frames=音频时长/0.96。然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个128维的声音模态特征向量;
步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,如图2所示。然后使用预训练的文本特征提取器如ALBERT模型为从每个场景片段中的字幕信息生成一个312维的字幕模态特征向量;
步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别(以one-hot编码)保存到h5文件中;
步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征(比如n个场景片段中的视觉模态特征),并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
其中M为一个视频的场景片段的个数,Max表示求最大值函数;
步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征;
步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
步骤4.4.2:将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来,获得视频粒度上的多种模态特征向量;
步骤4.4.3:将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层,得到在短视频分类中的概率分布;
计算短视频的多种模态特征向量对于短视频类别的概率分布:
计算多种模态特征向量预测类别与真实类别的交叉熵损失:
N表示短视频的数量,yi表示第i个短视频的真实类别;
步骤5:选择模态质量较好的模态作为主导模态,实验表明一般而言视觉模态质量最佳。因此本方法将视觉模态作为主导模态,将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果;算法模型如图3所示;
步骤5.1:将视频粒度上的视觉模态作为主导模态,视频粒度上的声音模态和字幕模态作为辅助模态,连接辅助模态与主导模态特征记作Evt,计算辅助模态与主导模态的特征关联性分数向量记作Rvt,Rvt中的分值越小,表示辅助模态中的该特征与主导模态关联性越小;
Evt=conc(Ev,Et)
Rvt=softmax(Wv·Evt)
其中,Ev表示视频粒度上的主导模态特征即视觉模态特征,Et表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征,t∈{a,s}分别表示声音模态和字幕模态,v表示视觉模态,conc表示连接函数,softmax表示归一化指数函数,Wv表示可训练的权重矩阵;
步骤5.2:通过可学习的阈值ρm,从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γvt:
其中,Rvt[i]表示关联性分数向量Rvt中位置i的值,γvt[i]表示特有性分数向量γvt中位置i的值;
步骤5.3:将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量,短视频的最终多模态融合特征向量为:
步骤5.4:将最终的多模态融合特征向量经过一个全连接的softmax层,得到在短视频分类中的概率分布,对该概率分布进行损失补偿,得到短视频分类结果;
计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布:
其中,Wp表示可训练的权重矩阵,softmax表示归一化指数函数;
计算预测类别与真实类别的交叉熵损失:
将交叉熵损失与步骤4.3得到的loss1和步骤4.4.2得到的loss2相加作为目标函数,得到场景分类结果;
Loss=loss1+loss2+loss3。
另外,本发明在构建的数据集上进行了实验,实验表明,本发明提出的一种基于场景片段的多模态特征增强及补充的短视频方法在Macro-F1上的结果为0.9835,和Micro-F1的结果为0.9851。
Claims (8)
1.一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,具体包括以下步骤:
步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征,并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
步骤5:将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果。
2.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤1具体为:
步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K-means进行聚类,把越相似的标签聚成一簇;
步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集。
3.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤2具体为:
步骤2.1:使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;
步骤2.2:使用开源视频分割工具从每个场景片段中分离出音频文件,作为声音模态;
步骤2.3:使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态。
4.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤3具体为:
步骤3.1:使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个视觉模态特征向量;
步骤3.2:使用预训练的声音模态特征提取器来提取声音特征;然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个声音模态特征向量;
步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量;
步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中。
5.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4具体为:
步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征。
6.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4.2具体为:
其中M为一个视频的场景片段的个数,Max表示求最大值函数。
7.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4.4具体为:
步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
步骤4.4.2:将经过步骤4.4.1的多个场景片段中同一类型的模态特征连接起来,获得视频粒度上的多种模态特征向量;
步骤4.4.3:将经过步骤4.4.2获得的多种模态特征向量分别输入一个全连接的softmax层,得到在短视频分类中的概率分布;
计算短视频的多种模态特征向量对于短视频类别的概率分布:
计算多种模态特征向量预测类别与真实类别的交叉熵损失:
N表示短视频的数量,yi表示第i个短视频的真实类别。
8.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤5具体为:
步骤5.1:将视频粒度上的视觉模态作为主导模态,视频粒度上的声音模态和字幕模态作为辅助模态,连接辅助模态与主导模态特征记作Evt,计算辅助模态与主导模态的特征关联性分数向量记作Rvt,Rvt中的分值越小,表示辅助模态中的该特征与主导模态关联性越小;
Evt=conc(Ev,Et)
Rvt=softmax(Wv·Evt)
其中,Ev表示视频粒度上的主导模态特征即视觉模态特征,Et表示视频粒度上的辅助模态特征即声音模态特征或字幕模态特征,t∈{a,s}分别表示声音模态和字幕模态,v表示视觉模态,conc表示连接函数,softmax表示归一化指数函数,Wv表示可训练的权重矩阵;
步骤5.2:通过可学习的阈值ρm,从特征关联性分数向量中获得辅助模态中与主导模态关联性不大的特有性分数向量γvt:
其中,Rvt[i]表示关联性分数向量Rvt中位置i的值,γvt[i]表示特有性分数向量γvt中位置i的值;
步骤5.3:将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态特征连接成该视频的最终多模态融合特征向量,短视频的最终多模态融合特征向量为:
步骤5.4:将最终的多模态融合特征向量输入一个全连接的softmax层,得到在短视频分类中的概率分布,对该概率分布进行损失补偿,得到短视频分类结果;
计算短视频的最终多模态融合的特征向量对于短视频类别的概率分布:
其中,Wp表示可训练的权重矩阵,softmax表示归一化指数函数;
计算预测类别与真实类别的交叉熵损失:
将交叉熵损失与步骤4.3得到的loss1和步骤4.4.2得到的loss2相加作为目标函数,得到场景分类结果;
Loss=loss1+loss2+loss3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210196211.1A CN114741556A (zh) | 2022-03-01 | 2022-03-01 | 一种基于场景片段和多模态特征增强的短视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210196211.1A CN114741556A (zh) | 2022-03-01 | 2022-03-01 | 一种基于场景片段和多模态特征增强的短视频分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114741556A true CN114741556A (zh) | 2022-07-12 |
Family
ID=82275060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210196211.1A Pending CN114741556A (zh) | 2022-03-01 | 2022-03-01 | 一种基于场景片段和多模态特征增强的短视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741556A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952255A (zh) * | 2022-11-21 | 2023-04-11 | 北京邮电大学 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
CN118132802A (zh) * | 2024-05-07 | 2024-06-04 | 上海蜜度科技股份有限公司 | 检索特征提取方法和装置、视频检索系统、终端及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032845A1 (en) * | 2016-07-26 | 2018-02-01 | Viisights Solutions Ltd. | Video content contextual classification |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
CN109344887A (zh) * | 2018-09-18 | 2019-02-15 | 山东大学 | 基于多模态字典学习的短视频分类方法、系统及介质 |
CN112287170A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN112818906A (zh) * | 2021-02-22 | 2021-05-18 | 浙江传媒学院 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
-
2022
- 2022-03-01 CN CN202210196211.1A patent/CN114741556A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032845A1 (en) * | 2016-07-26 | 2018-02-01 | Viisights Solutions Ltd. | Video content contextual classification |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
CN109344887A (zh) * | 2018-09-18 | 2019-02-15 | 山东大学 | 基于多模态字典学习的短视频分类方法、系统及介质 |
CN112287170A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN112818906A (zh) * | 2021-02-22 | 2021-05-18 | 浙江传媒学院 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
Non-Patent Citations (2)
Title |
---|
刘慧婷;杨良全;凌超;赵鹏;: "社交网络中融合社交关系和语义信息的推荐算法", 模式识别与人工智能, no. 03, 15 March 2018 (2018-03-15) * |
黄疆坪;丛杨;高宏伟;唐延东;于海斌;: "基于字典选择的机器人在线场景语义浓缩", 科学通报, no. 2, 20 December 2013 (2013-12-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952255A (zh) * | 2022-11-21 | 2023-04-11 | 北京邮电大学 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
CN115952255B (zh) * | 2022-11-21 | 2023-12-05 | 北京邮电大学 | 多模态信号内容分析方法、装置、电子设备及存储介质 |
CN118132802A (zh) * | 2024-05-07 | 2024-06-04 | 上海蜜度科技股份有限公司 | 检索特征提取方法和装置、视频检索系统、终端及介质 |
CN118132802B (zh) * | 2024-05-07 | 2024-09-13 | 上海蜜度科技股份有限公司 | 检索特征提取方法和装置、视频检索系统、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kollias et al. | Expression, affect, action unit recognition: Aff-wild2, multi-task learning and arcface | |
Amir et al. | IBM Research TRECVID-2003 Video Retrieval System. | |
CN114741556A (zh) | 一种基于场景片段和多模态特征增强的短视频分类方法 | |
CN113158023A (zh) | 基于混合推荐算法的公共数字生活精准分类服务方法 | |
Bouguila | A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity | |
Khan et al. | Movie tags prediction and segmentation using deep learning | |
Li et al. | A deep feature based multi-kernel learning approach for video emotion recognition | |
Li et al. | A deep reinforcement learning framework for Identifying funny scenes in movies | |
Ben-Ahmed et al. | Deep multimodal features for movie genre and interestingness prediction | |
Sreeja et al. | A unified model for egocentric video summarization: an instance-based approach | |
Naphade | On supervision and statistical learning for semantic multimedia analysis | |
Sowmyayani et al. | Content based video retrieval system using two stream convolutional neural network | |
Ibrahim et al. | VideoToVecs: a new video representation based on deep learning techniques for video classification and clustering | |
Kini et al. | A survey on video summarization techniques | |
Kumar et al. | Semi-supervised annotation of faces in image collection | |
Choi et al. | Textually customized video summaries | |
Muneesawang et al. | A new learning algorithm for the fusion of adaptive audio–visual features for the retrieval and classification of movie clips | |
Psallidas et al. | Multimodal video summarization based on fuzzy similarity features | |
Oliveira-Barra et al. | Lifelog retrieval for memory stimulation of people with memory impairment | |
Naphade | A probablistic framework for mapping audio-visual features to high-level semantics in terms of concepts and context | |
Mezaris et al. | On the use of visual soft semantics for video temporal decomposition to scenes | |
Zhang et al. | Effectively leveraging multi-modal features for movie genre classification | |
Guntuku et al. | Evaluating visual and textual features for predicting user ‘likes’ | |
Gao et al. | Cast2face: assigning character names onto faces in movie with actor-character correspondence | |
Sargin et al. | Boosting video classification using cross-video signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |