CN110298270B - 一种基于跨模态重要性感知的多视频摘要方法 - Google Patents
一种基于跨模态重要性感知的多视频摘要方法 Download PDFInfo
- Publication number
- CN110298270B CN110298270B CN201910514541.9A CN201910514541A CN110298270B CN 110298270 B CN110298270 B CN 110298270B CN 201910514541 A CN201910514541 A CN 201910514541A CN 110298270 B CN110298270 B CN 110298270B
- Authority
- CN
- China
- Prior art keywords
- video
- matrix
- text
- similarity
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Abstract
一种基于跨模态重要性感知的多视频摘要方法:将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;将视频描述的文本信息进行处理,得到文本信息的特征矩阵;视频帧特征矩阵通过计算得到帧间视觉相似度矩阵;文本信息的特征矩阵通过计算得到文本间相似度矩阵;文本间相似度矩阵再通过计算得到帧间文本相似度矩阵;将帧间视觉相似度矩阵和帧间文本相似度矩阵计算融合得到联合相似度矩阵;将联合相似度矩阵与视频帧特征矩阵计算得到联合关注视频帧特征矩阵;对稀疏自编码器的隐藏层进行相似度的度量,再通过损失函数训练,生成并输出对应的多视频摘要。本发明实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。
Description
技术领域
本发明涉及一种多视频摘要方法。特别是涉及一种基于跨模态重要性感知的多视频摘要方法。
背景技术
随着深度学习和硬件设备的不断发展,人工智能技术的应用在越来越多的领域取得了很好的结果,例如计算机视觉。特别的,深度学习在多视频摘要的领域中的运用越来越受到重视。在基于深度学习的多视频摘要领域中,稀疏自编码器的使用较为主流。而在深度学习的神经网络模型中,卷积神经网络常用于视频帧特征的提取,而在卷积神经网络中,Vgg-16、Vgg-19和ResNet-50等较为常用。另外,在处理文本特征的方面,经常使用Word2vec的方法初始化文本特征并经过TF-IDF的词频算法进行处理。
发明内容
本发明所要解决的技术问题是,提供一种能够实现视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要的基于跨模态重要性感知的多视频摘要方法。
本发明所采用的技术方案是:一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。
步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。
步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
本发明的一种基于跨模态重要性感知的多视频摘要方法,通过利用另一种模态信息,即视频的文本描述信息,实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。
1、新颖性:首次提出了将视频文本描述信息与图像信息结合的方式,得到了一种跨模态的特征作为监督信息,进行重要性感知对多视频摘要进行约束。
2、有效性:本发明提出的基于跨模态的重要性感知可以利用视频的文本信息,有效的找寻视频间事件类别的潜在关系。
3、实用性:与找寻和输入视频相关的网络图像相比,本发明使用的视频文本信息获取方式和途径简单,成本更低,所以更具备实用性。进一步改善了多视频摘要技术,使视频存储数据量太大,视频查找费时费力带来的诸多问题可以得到解决。
附图说明
图1是本发明一种基于跨模态重要性感知的多视频摘要方法的流程图;
图2是本发明中稀疏自编码器结构示意图。
具体实施方式
下面结合实施例和附图对本发明的一种基于跨模态重要性感知的多视频摘要方法做出详细说明。
本发明的一种基于跨模态重要性感知的多视频摘要方法,涉及计算机视觉,机器学习,人工智能领域,特别是涉及深度学习中视频摘要的领域。具体的,在视频摘要的领域中又划分为单视频和多视频摘要。多视频摘要技术是对具有事件类别概念的多个视频进行关键帧的提取,从而达到压缩视频,提高存储效率以及方便查询的目的。
如图1所示,本发明的一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络(如Vgg-19、Vgg-16和ResNet-50)中,得到视频帧特征矩阵;是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵含有xi个长度为L的视频帧特征向量vi。
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,进行跨模态的重要性感知,对稀疏自编码器的隐藏层进行相似度的度量,并作为损失函数的一部分。最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
Claims (5)
1.一种基于跨模态重要性感知的多视频摘要方法,其特征在于,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
其中,和分别表示第a个视频帧特征向量和第b个视频帧特征向量,和分别表示第a个视频帧特征向量所在视频对应的文本特征向量和第b个视频帧特征向量所在视频对应的文本特征向量,表示第a个视频帧特征向量所在视频对应的文本特征和第b个视频帧特征向量所在视频对应的文本特征之间的相似度;
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:
6)根据如下公式,将联合相似度矩阵Ci与视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。
3.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。
4.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
5.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514541.9A CN110298270B (zh) | 2019-06-14 | 2019-06-14 | 一种基于跨模态重要性感知的多视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514541.9A CN110298270B (zh) | 2019-06-14 | 2019-06-14 | 一种基于跨模态重要性感知的多视频摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110298270A CN110298270A (zh) | 2019-10-01 |
CN110298270B true CN110298270B (zh) | 2021-12-31 |
Family
ID=68028074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910514541.9A Active CN110298270B (zh) | 2019-06-14 | 2019-06-14 | 一种基于跨模态重要性感知的多视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298270B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079532B (zh) * | 2019-11-13 | 2021-07-13 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN112749326B (zh) * | 2019-11-15 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备及存储介质 |
CN111831855B (zh) * | 2020-07-20 | 2022-09-27 | 北京字节跳动网络技术有限公司 | 用于匹配视频的方法、装置、电子设备和介质 |
CN113177538B (zh) * | 2021-06-30 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种视频循环识别方法、装置、计算机设备及存储介质 |
CN114339450B (zh) * | 2022-03-11 | 2022-07-15 | 中国科学技术大学 | 视频评论生成方法、系统、设备及存储介质 |
CN115599984B (zh) * | 2022-09-09 | 2023-06-09 | 北京理工大学 | 一种检索方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8872979B2 (en) * | 2002-05-21 | 2014-10-28 | Avaya Inc. | Combined-media scene tracking for audio-video summarization |
JP4695582B2 (ja) * | 2006-12-04 | 2011-06-08 | 日本放送協会 | 映像抽出装置及び映像抽出プログラム |
CN102411638B (zh) * | 2011-12-30 | 2013-06-19 | 中国科学院自动化研究所 | 一种新闻检索结果的多媒体摘要生成方法 |
CN103995804B (zh) * | 2013-05-20 | 2017-02-01 | 中国科学院计算技术研究所 | 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置 |
CN106997387B (zh) * | 2017-03-28 | 2019-08-09 | 中国科学院自动化研究所 | 基于文本-图像匹配的多模态自动文摘方法 |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
CN109213895A (zh) * | 2017-07-05 | 2019-01-15 | 合网络技术(北京)有限公司 | 一种视频摘要的生成方法及装置 |
CN107911755B (zh) * | 2017-11-10 | 2020-10-20 | 天津大学 | 一种基于稀疏自编码器的多视频摘要方法 |
CN107943990B (zh) * | 2017-12-01 | 2020-02-14 | 天津大学 | 基于带权重的原型分析技术的多视频摘要方法 |
-
2019
- 2019-06-14 CN CN201910514541.9A patent/CN110298270B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110298270A (zh) | 2019-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298270B (zh) | 一种基于跨模态重要性感知的多视频摘要方法 | |
CN109815903B (zh) | 一种基于自适应融合网络的视频情感分类方法 | |
CN112395489B (zh) | 一种推荐方法及装置、设备和计算机存储介质 | |
CN101346718A (zh) | 用于向用户提供选定内容项的方法 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN112818251B (zh) | 视频推荐方法、装置、电子设备以及存储介质 | |
Hu et al. | A two-stage spatiotemporal attention convolution network for continuous dimensional emotion recognition from facial video | |
CN110309360A (zh) | 一种短视频的话题标签个性化推荐方法及系统 | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
Qu et al. | Attend to where and when: Cascaded attention network for facial expression recognition | |
Zhang et al. | Multimodal emotion recognition by extracting common and modality-specific information | |
Wang et al. | An enhanced multi-modal recommendation based on alternate training with knowledge graph representation | |
CN108154120A (zh) | 视频分类模型训练方法、装置、存储介质及电子设备 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
Zhu et al. | Multimodal emotion classification with multi-level semantic reasoning network | |
CN112132075B (zh) | 图文内容处理方法及介质 | |
CN111859925B (zh) | 一种基于概率情感词典的情感分析系统及方法 | |
CN113343712A (zh) | 一种基于异质图的社交文本情感倾向分析方法及系统 | |
Huang et al. | Video frame prediction with dual-stream deep network emphasizing motions and content details | |
CN117033754A (zh) | 用于资源推送的模型处理方法、装置、设备、存储介质 | |
CN114817536A (zh) | 基于融合特征的网络短文本情感分析方法 | |
CN114090848A (zh) | 数据推荐及分类方法、特征融合模型及电子设备 | |
CN111193795B (zh) | 信息推送方法及装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |