CN110298270B - 一种基于跨模态重要性感知的多视频摘要方法 - Google Patents

一种基于跨模态重要性感知的多视频摘要方法 Download PDF

Info

Publication number
CN110298270B
CN110298270B CN201910514541.9A CN201910514541A CN110298270B CN 110298270 B CN110298270 B CN 110298270B CN 201910514541 A CN201910514541 A CN 201910514541A CN 110298270 B CN110298270 B CN 110298270B
Authority
CN
China
Prior art keywords
video
matrix
text
similarity
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910514541.9A
Other languages
English (en)
Other versions
CN110298270A (zh
Inventor
冀中
赵玉晓
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910514541.9A priority Critical patent/CN110298270B/zh
Publication of CN110298270A publication Critical patent/CN110298270A/zh
Application granted granted Critical
Publication of CN110298270B publication Critical patent/CN110298270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Abstract

一种基于跨模态重要性感知的多视频摘要方法:将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;将视频描述的文本信息进行处理,得到文本信息的特征矩阵;视频帧特征矩阵通过计算得到帧间视觉相似度矩阵;文本信息的特征矩阵通过计算得到文本间相似度矩阵;文本间相似度矩阵再通过计算得到帧间文本相似度矩阵;将帧间视觉相似度矩阵和帧间文本相似度矩阵计算融合得到联合相似度矩阵;将联合相似度矩阵与视频帧特征矩阵计算得到联合关注视频帧特征矩阵;对稀疏自编码器的隐藏层进行相似度的度量,再通过损失函数训练,生成并输出对应的多视频摘要。本发明实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。

Description

一种基于跨模态重要性感知的多视频摘要方法
技术领域
本发明涉及一种多视频摘要方法。特别是涉及一种基于跨模态重要性感知的多视频摘要方法。
背景技术
随着深度学习和硬件设备的不断发展,人工智能技术的应用在越来越多的领域取得了很好的结果,例如计算机视觉。特别的,深度学习在多视频摘要的领域中的运用越来越受到重视。在基于深度学习的多视频摘要领域中,稀疏自编码器的使用较为主流。而在深度学习的神经网络模型中,卷积神经网络常用于视频帧特征的提取,而在卷积神经网络中,Vgg-16、Vgg-19和ResNet-50等较为常用。另外,在处理文本特征的方面,经常使用Word2vec的方法初始化文本特征并经过TF-IDF的词频算法进行处理。
发明内容
本发明所要解决的技术问题是,提供一种能够实现视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要的基于跨模态重要性感知的多视频摘要方法。
本发明所采用的技术方案是:一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
Figure BDA0002094586330000011
其中,
Figure BDA0002094586330000012
Figure BDA0002094586330000013
分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
Figure BDA0002094586330000014
其中,
Figure BDA0002094586330000015
Figure BDA0002094586330000016
分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
Figure BDA0002094586330000021
其中,
Figure BDA0002094586330000022
Figure BDA0002094586330000023
分别表示第a个视频帧和第b个视频帧,
Figure BDA0002094586330000024
Figure BDA0002094586330000025
分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,
Figure BDA0002094586330000026
表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci
Figure BDA0002094586330000027
其中,
Figure BDA0002094586330000028
表示按元素相乘;
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。
步骤1)是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵
Figure BDA0002094586330000029
含有xi个长度为L的视频帧特征向量vi
步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵
Figure BDA00020945863300000210
步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti
步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
本发明的一种基于跨模态重要性感知的多视频摘要方法,通过利用另一种模态信息,即视频的文本描述信息,实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。
1、新颖性:首次提出了将视频文本描述信息与图像信息结合的方式,得到了一种跨模态的特征作为监督信息,进行重要性感知对多视频摘要进行约束。
2、有效性:本发明提出的基于跨模态的重要性感知可以利用视频的文本信息,有效的找寻视频间事件类别的潜在关系。
3、实用性:与找寻和输入视频相关的网络图像相比,本发明使用的视频文本信息获取方式和途径简单,成本更低,所以更具备实用性。进一步改善了多视频摘要技术,使视频存储数据量太大,视频查找费时费力带来的诸多问题可以得到解决。
附图说明
图1是本发明一种基于跨模态重要性感知的多视频摘要方法的流程图;
图2是本发明中稀疏自编码器结构示意图。
具体实施方式
下面结合实施例和附图对本发明的一种基于跨模态重要性感知的多视频摘要方法做出详细说明。
本发明的一种基于跨模态重要性感知的多视频摘要方法,涉及计算机视觉,机器学习,人工智能领域,特别是涉及深度学习中视频摘要的领域。具体的,在视频摘要的领域中又划分为单视频和多视频摘要。多视频摘要技术是对具有事件类别概念的多个视频进行关键帧的提取,从而达到压缩视频,提高存储效率以及方便查询的目的。
如图1所示,本发明的一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络(如Vgg-19、Vgg-16和ResNet-50)中,得到视频帧特征矩阵;是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵
Figure BDA0002094586330000031
含有xi个长度为L的视频帧特征向量vi
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
本发明使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵
Figure BDA0002094586330000032
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
Figure BDA0002094586330000033
其中,
Figure BDA0002094586330000034
Figure BDA0002094586330000035
分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
Figure BDA0002094586330000041
其中,
Figure BDA0002094586330000042
Figure BDA0002094586330000043
分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;
所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
Figure BDA0002094586330000044
其中,
Figure BDA0002094586330000045
Figure BDA0002094586330000046
分别表示第a个视频帧和第b个视频帧,
Figure BDA0002094586330000047
Figure BDA0002094586330000048
分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,
Figure BDA0002094586330000049
表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;
所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci
Figure BDA00020945863300000410
其中,
Figure BDA00020945863300000411
表示按元素相乘;
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,进行跨模态的重要性感知,对稀疏自编码器的隐藏层进行相似度的度量,并作为损失函数的一部分。最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。

Claims (5)

1.一种基于跨模态重要性感知的多视频摘要方法,其特征在于,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;
按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵
Figure FDA0003203251940000011
含有xi个长度为L的视频帧特征向量vi
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
Figure FDA0003203251940000012
其中,
Figure FDA0003203251940000013
Figure FDA0003203251940000014
分别表示第a个、第b个和第c个视频帧特征向量,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
Figure FDA0003203251940000015
其中,
Figure FDA0003203251940000016
Figure FDA0003203251940000017
分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
Figure FDA0003203251940000018
其中,
Figure FDA0003203251940000019
Figure FDA00032032519400000110
分别表示第a个视频帧特征向量和第b个视频帧特征向量,
Figure FDA00032032519400000111
Figure FDA00032032519400000112
分别表示第a个视频帧特征向量所在视频对应的文本特征向量和第b个视频帧特征向量所在视频对应的文本特征向量,
Figure FDA00032032519400000113
表示第a个视频帧特征向量所在视频对应的文本特征和第b个视频帧特征向量所在视频对应的文本特征之间的相似度;
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci
Figure FDA00032032519400000114
其中,
Figure FDA00032032519400000115
表示按元素相乘;
6)根据如下公式,将联合相似度矩阵Ci与视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。
2.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵
Figure FDA0003203251940000021
3.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti
4.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
5.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
CN201910514541.9A 2019-06-14 2019-06-14 一种基于跨模态重要性感知的多视频摘要方法 Active CN110298270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910514541.9A CN110298270B (zh) 2019-06-14 2019-06-14 一种基于跨模态重要性感知的多视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910514541.9A CN110298270B (zh) 2019-06-14 2019-06-14 一种基于跨模态重要性感知的多视频摘要方法

Publications (2)

Publication Number Publication Date
CN110298270A CN110298270A (zh) 2019-10-01
CN110298270B true CN110298270B (zh) 2021-12-31

Family

ID=68028074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910514541.9A Active CN110298270B (zh) 2019-06-14 2019-06-14 一种基于跨模态重要性感知的多视频摘要方法

Country Status (1)

Country Link
CN (1) CN110298270B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079532B (zh) * 2019-11-13 2021-07-13 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN112749326B (zh) * 2019-11-15 2023-10-03 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质
CN111831855B (zh) * 2020-07-20 2022-09-27 北京字节跳动网络技术有限公司 用于匹配视频的方法、装置、电子设备和介质
CN113177538B (zh) * 2021-06-30 2021-08-24 腾讯科技(深圳)有限公司 一种视频循环识别方法、装置、计算机设备及存储介质
CN114339450B (zh) * 2022-03-11 2022-07-15 中国科学技术大学 视频评论生成方法、系统、设备及存储介质
CN115599984B (zh) * 2022-09-09 2023-06-09 北京理工大学 一种检索方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8872979B2 (en) * 2002-05-21 2014-10-28 Avaya Inc. Combined-media scene tracking for audio-video summarization
JP4695582B2 (ja) * 2006-12-04 2011-06-08 日本放送協会 映像抽出装置及び映像抽出プログラム
CN102411638B (zh) * 2011-12-30 2013-06-19 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN103995804B (zh) * 2013-05-20 2017-02-01 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN106997387B (zh) * 2017-03-28 2019-08-09 中国科学院自动化研究所 基于文本-图像匹配的多模态自动文摘方法
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法
CN109213895A (zh) * 2017-07-05 2019-01-15 合网络技术(北京)有限公司 一种视频摘要的生成方法及装置
CN107911755B (zh) * 2017-11-10 2020-10-20 天津大学 一种基于稀疏自编码器的多视频摘要方法
CN107943990B (zh) * 2017-12-01 2020-02-14 天津大学 基于带权重的原型分析技术的多视频摘要方法

Also Published As

Publication number Publication date
CN110298270A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110298270B (zh) 一种基于跨模态重要性感知的多视频摘要方法
CN109815903B (zh) 一种基于自适应融合网络的视频情感分类方法
CN112395489B (zh) 一种推荐方法及装置、设备和计算机存储介质
CN101346718A (zh) 用于向用户提供选定内容项的方法
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN111539290A (zh) 视频动作识别方法、装置、电子设备及存储介质
CN112818251B (zh) 视频推荐方法、装置、电子设备以及存储介质
Hu et al. A two-stage spatiotemporal attention convolution network for continuous dimensional emotion recognition from facial video
CN110309360A (zh) 一种短视频的话题标签个性化推荐方法及系统
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
Qu et al. Attend to where and when: Cascaded attention network for facial expression recognition
Zhang et al. Multimodal emotion recognition by extracting common and modality-specific information
Wang et al. An enhanced multi-modal recommendation based on alternate training with knowledge graph representation
CN108154120A (zh) 视频分类模型训练方法、装置、存储介质及电子设备
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
Zhu et al. Multimodal emotion classification with multi-level semantic reasoning network
CN112132075B (zh) 图文内容处理方法及介质
CN111859925B (zh) 一种基于概率情感词典的情感分析系统及方法
CN113343712A (zh) 一种基于异质图的社交文本情感倾向分析方法及系统
Huang et al. Video frame prediction with dual-stream deep network emphasizing motions and content details
CN117033754A (zh) 用于资源推送的模型处理方法、装置、设备、存储介质
CN114817536A (zh) 基于融合特征的网络短文本情感分析方法
CN114090848A (zh) 数据推荐及分类方法、特征融合模型及电子设备
CN111193795B (zh) 信息推送方法及装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant