CN110298270A - 一种基于跨模态重要性感知的多视频摘要方法 - Google Patents
一种基于跨模态重要性感知的多视频摘要方法 Download PDFInfo
- Publication number
- CN110298270A CN110298270A CN201910514541.9A CN201910514541A CN110298270A CN 110298270 A CN110298270 A CN 110298270A CN 201910514541 A CN201910514541 A CN 201910514541A CN 110298270 A CN110298270 A CN 110298270A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- video frame
- matrix
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000008447 perception Effects 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 230000006870 function Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000005259 measurement Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于跨模态重要性感知的多视频摘要方法:将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;将视频描述的文本信息进行处理,得到文本信息的特征矩阵;视频帧特征矩阵通过计算得到帧间视觉相似度矩阵;文本信息的特征矩阵通过计算得到文本间相似度矩阵;文本间相似度矩阵再通过计算得到帧间文本相似度矩阵;将帧间视觉相似度矩阵和帧间文本相似度矩阵计算融合得到联合相似度矩阵;将联合相似度矩阵与视频帧特征矩阵计算得到联合关注视频帧特征矩阵;对稀疏自编码器的隐藏层进行相似度的度量,再通过损失函数训练,生成并输出对应的多视频摘要。本发明实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。
Description
技术领域
本发明涉及一种多视频摘要方法。特别是涉及一种基于跨模态重要性感知的多视频摘要方法。
背景技术
随着深度学习和硬件设备的不断发展,人工智能技术的应用在越来越多的领域取得了很好的结果,例如计算机视觉。特别的,深度学习在多视频摘要的领域中的运用越来越受到重视。在基于深度学习的多视频摘要领域中,稀疏自编码器的使用较为主流。而在深度学习的神经网络模型中,卷积神经网络常用于视频帧特征的提取,而在卷积神经网络中,Vgg-16、Vgg-19和ResNet-50等较为常用。另外,在处理文本特征的方面,经常使用Word2vec的方法初始化文本特征并经过TF-IDF的词频算法进行处理。
发明内容
本发明所要解决的技术问题是,提供一种能够实现视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要的基于跨模态重要性感知的多视频摘要方法。
本发明所采用的技术方案是:一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
其中,和分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
其中,和分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
其中,和分别表示第a个视频帧和第b个视频帧,和分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:
其中,表示按元素相乘;
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。
步骤1)是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵含有xi个长度为L的视频帧特征向量vi。
步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵
步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。
步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
本发明的一种基于跨模态重要性感知的多视频摘要方法,通过利用另一种模态信息,即视频的文本描述信息,实现了视觉和文本跨模态的重要性感知,可以充分的利用事件类别关系的信息进行多视频摘要。
1、新颖性:首次提出了将视频文本描述信息与图像信息结合的方式,得到了一种跨模态的特征作为监督信息,进行重要性感知对多视频摘要进行约束。
2、有效性:本发明提出的基于跨模态的重要性感知可以利用视频的文本信息,有效的找寻视频间事件类别的潜在关系。
3、实用性:与找寻和输入视频相关的网络图像相比,本发明使用的视频文本信息获取方式和途径简单,成本更低,所以更具备实用性。进一步改善了多视频摘要技术,使视频存储数据量太大,视频查找费时费力带来的诸多问题可以得到解决。
附图说明
图1是本发明一种基于跨模态重要性感知的多视频摘要方法的流程图;
图2是本发明中稀疏自编码器结构示意图。
具体实施方式
下面结合实施例和附图对本发明的一种基于跨模态重要性感知的多视频摘要方法做出详细说明。
本发明的一种基于跨模态重要性感知的多视频摘要方法,涉及计算机视觉,机器学习,人工智能领域,特别是涉及深度学习中视频摘要的领域。具体的,在视频摘要的领域中又划分为单视频和多视频摘要。多视频摘要技术是对具有事件类别概念的多个视频进行关键帧的提取,从而达到压缩视频,提高存储效率以及方便查询的目的。
如图1所示,本发明的一种基于跨模态重要性感知的多视频摘要方法,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络(如Vgg-19、Vgg-16和ResNet-50)中,得到视频帧特征矩阵;是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵含有xi个长度为L的视频帧特征向量vi。
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
本发明使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
其中,和分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
其中,和分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;
所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
其中,和分别表示第a个视频帧和第b个视频帧,和分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;
所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:
其中,表示按元素相乘;
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,进行跨模态的重要性感知,对稀疏自编码器的隐藏层进行相似度的度量,并作为损失函数的一部分。最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
Claims (6)
1.一种基于跨模态重要性感知的多视频摘要方法,其特征在于,包括如下步骤:
1)将视频以帧的形式输入到卷积神经网络中,得到视频帧特征矩阵;
2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理,得到文本信息的特征矩阵;
3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵:
其中,和分别表示第a个、第b个和第c个视频帧,Cosin表示余弦相似度函数;并将帧间视觉相似度矩阵主对角线上的值设为0;
4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵:
其中,和分别表示第d个、第e个和第f个文本信息特征,Cosin表示余弦相似度函数;并将文本间相似度矩阵主对角线上的值设为0;
将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵:
其中,和分别表示第a个视频帧和第b个视频帧,和分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息,表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度;
5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵Ci:
其中,表示按元素相乘;
6)根据如下公式,将联合相似度矩阵Ci与的视频帧特征矩阵Ii进行计算得到联合关注视频帧特征矩阵CIi:
CIi=Ci·Ii (5);
7)将联合关注视频帧特征矩阵CIi作为监督信息,对稀疏自编码器的隐藏层进行相似度的度量,最终稀疏自编码器在损失函数的训练下,不断地反馈并调节稀疏自编码器的参数,在训练完成后,根据输入的视频,稀疏自编码器生成并输出对应的多视频摘要。
2.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤1)是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵,其中,一共有n个事件类型,第i个事件含有yi个视频,视频帧特征矩阵含有xi个长度为L的视频帧特征向量vi。
3.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理,其中,一共有n个事件类型,第i个事件含有yi个视频的文本特征向量ti,并构成文本信息的特征矩阵
4.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤4)所述的文本间相似度矩阵的计算,是将第i个事件所有的文本特征向量代入公式(2)得到相似度,将计算得到的相似度组成yi×yi的文本间相似度矩阵Ti。
5.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤4)所述的帧间文本相似度矩阵的计算,是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号,用n(·)表示,其中相同的序号表明属于同一个视频,赋值为1,不相同的序号表明不属于同一个视频,则将该视频帧对应视频的文本间相似度与1相加,并将计算结果组成xi×xi的帧间文本相似度矩阵。
6.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法,其特征在于,步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514541.9A CN110298270B (zh) | 2019-06-14 | 2019-06-14 | 一种基于跨模态重要性感知的多视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514541.9A CN110298270B (zh) | 2019-06-14 | 2019-06-14 | 一种基于跨模态重要性感知的多视频摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110298270A true CN110298270A (zh) | 2019-10-01 |
CN110298270B CN110298270B (zh) | 2021-12-31 |
Family
ID=68028074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910514541.9A Active CN110298270B (zh) | 2019-06-14 | 2019-06-14 | 一种基于跨模态重要性感知的多视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298270B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111831855A (zh) * | 2020-07-20 | 2020-10-27 | 北京字节跳动网络技术有限公司 | 用于匹配视频的方法、装置、电子设备和介质 |
CN112749326A (zh) * | 2019-11-15 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备及存储介质 |
CN113177538A (zh) * | 2021-06-30 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种视频循环识别方法、装置、计算机设备及存储介质 |
CN114339450A (zh) * | 2022-03-11 | 2022-04-12 | 中国科学技术大学 | 视频评论生成方法、系统、设备及存储介质 |
CN115578680A (zh) * | 2022-09-09 | 2023-01-06 | 北京理工大学 | 一种视频理解方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030218696A1 (en) * | 2002-05-21 | 2003-11-27 | Amit Bagga | Combined-media scene tracking for audio-video summarization |
JP4695582B2 (ja) * | 2006-12-04 | 2011-06-08 | 日本放送協会 | 映像抽出装置及び映像抽出プログラム |
CN102411638A (zh) * | 2011-12-30 | 2012-04-11 | 中国科学院自动化研究所 | 一种新闻检索结果的多媒体摘要生成方法 |
CN103995804A (zh) * | 2013-05-20 | 2014-08-20 | 中国科学院计算技术研究所 | 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置 |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
CN106997387A (zh) * | 2017-03-28 | 2017-08-01 | 中国科学院自动化研究所 | 基于文本‑图像匹配的多模态自动文摘方法 |
CN107911755A (zh) * | 2017-11-10 | 2018-04-13 | 天津大学 | 一种基于稀疏自编码器的多视频摘要方法 |
CN107943990A (zh) * | 2017-12-01 | 2018-04-20 | 天津大学 | 基于带权重的原型分析技术的多视频摘要方法 |
WO2019007020A1 (zh) * | 2017-07-05 | 2019-01-10 | 优酷网络技术(北京)有限公司 | 一种视频摘要的生成方法及装置 |
-
2019
- 2019-06-14 CN CN201910514541.9A patent/CN110298270B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030218696A1 (en) * | 2002-05-21 | 2003-11-27 | Amit Bagga | Combined-media scene tracking for audio-video summarization |
JP4695582B2 (ja) * | 2006-12-04 | 2011-06-08 | 日本放送協会 | 映像抽出装置及び映像抽出プログラム |
CN102411638A (zh) * | 2011-12-30 | 2012-04-11 | 中国科学院自动化研究所 | 一种新闻检索结果的多媒体摘要生成方法 |
CN103995804A (zh) * | 2013-05-20 | 2014-08-20 | 中国科学院计算技术研究所 | 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置 |
CN106997387A (zh) * | 2017-03-28 | 2017-08-01 | 中国科学院自动化研究所 | 基于文本‑图像匹配的多模态自动文摘方法 |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
WO2019007020A1 (zh) * | 2017-07-05 | 2019-01-10 | 优酷网络技术(北京)有限公司 | 一种视频摘要的生成方法及装置 |
CN107911755A (zh) * | 2017-11-10 | 2018-04-13 | 天津大学 | 一种基于稀疏自编码器的多视频摘要方法 |
CN107943990A (zh) * | 2017-12-01 | 2018-04-20 | 天津大学 | 基于带权重的原型分析技术的多视频摘要方法 |
Non-Patent Citations (7)
Title |
---|
HAORAN LI等: ""Read, Watch, Listen, and Summarize: Multi-Modal Summarization for Asynchronous Text, Image, Audio and Video"", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
YINGBO LI等: ""Multimedia maximal marginal relevance for multi-video summarization"", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
ZHONG JI等,: ""Query-aware sparse coding for web multi-video summarization"", 《INFORMATION SCIENCES》 * |
ZHONG JI等: ""Multi-video summarization with query-dependent weighted archetypal analysis"", 《NEUROCOMPUTING》 * |
冀中等: ""基于重要性感知稀疏自编码器的多视频摘要"", 《天津大学学报(自然科学与工程技术版)》 * |
喻强波: ""辅助视频专题情报分析的专题摘要技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王叶: ""事件的画报式摘要生成技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111079532B (zh) * | 2019-11-13 | 2021-07-13 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN112749326A (zh) * | 2019-11-15 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备及存储介质 |
CN112749326B (zh) * | 2019-11-15 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备及存储介质 |
CN111831855A (zh) * | 2020-07-20 | 2020-10-27 | 北京字节跳动网络技术有限公司 | 用于匹配视频的方法、装置、电子设备和介质 |
CN113177538A (zh) * | 2021-06-30 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种视频循环识别方法、装置、计算机设备及存储介质 |
CN113177538B (zh) * | 2021-06-30 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种视频循环识别方法、装置、计算机设备及存储介质 |
CN114339450A (zh) * | 2022-03-11 | 2022-04-12 | 中国科学技术大学 | 视频评论生成方法、系统、设备及存储介质 |
CN115578680A (zh) * | 2022-09-09 | 2023-01-06 | 北京理工大学 | 一种视频理解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110298270B (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298270B (zh) | 一种基于跨模态重要性感知的多视频摘要方法 | |
CN109815903B (zh) | 一种基于自适应融合网络的视频情感分类方法 | |
WO2023280065A1 (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
US11741711B2 (en) | Video classification method and server | |
CN111680219A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN112818251B (zh) | 视频推荐方法、装置、电子设备以及存储介质 | |
CN110781407A (zh) | 用户标签生成方法、装置及计算机可读存储介质 | |
CN111143705B (zh) | 一种基于图卷积网络的推荐方法 | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
Zan et al. | UDA: A user-difference attention for group recommendation | |
Hu et al. | A two-stage spatiotemporal attention convolution network for continuous dimensional emotion recognition from facial video | |
Qu et al. | Attend to where and when: Cascaded attention network for facial expression recognition | |
CN115438225A (zh) | 视频文本互检方法及其模型训练方法、装置、设备、介质 | |
CN108154120A (zh) | 视频分类模型训练方法、装置、存储介质及电子设备 | |
Gao et al. | Generalized pyramid co-attention with learnable aggregation net for video question answering | |
WO2024061073A1 (zh) | 一种多媒体信息的生成方法及装置、计算机可读存储介质 | |
CN116051192A (zh) | 处理数据的方法和装置 | |
Kumar et al. | Content based movie scene retrieval using spatio-temporal features | |
CN117033754A (zh) | 用于资源推送的模型处理方法、装置、设备、存储介质 | |
CN117688390A (zh) | 内容匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN111193795B (zh) | 信息推送方法及装置、电子设备和计算机可读存储介质 | |
CN114090848A (zh) | 数据推荐及分类方法、特征融合模型及电子设备 | |
Zhang et al. | MGARL: multiple graph adversarial regularized learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |