CN107909014A - 一种基于深度学习的视频理解方法 - Google Patents
一种基于深度学习的视频理解方法 Download PDFInfo
- Publication number
- CN107909014A CN107909014A CN201711053056.3A CN201711053056A CN107909014A CN 107909014 A CN107909014 A CN 107909014A CN 201711053056 A CN201711053056 A CN 201711053056A CN 107909014 A CN107909014 A CN 107909014A
- Authority
- CN
- China
- Prior art keywords
- video
- image sequence
- video image
- lstm network
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度学习的视频理解方法:1、通过训练获取基于LSTM网络的模型:使用C3D算法取得图像特征;使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;使用MSR‑VTT数据库在LSTM网络中进行训练,得到LSTM网络模型;2、通过基于LSTM网络的模型,得到待测视频图像序列的语句信息:使用C3D算法取得待测视频图像序列的特征向量;使用PCA算法进行降维处理,并进行时域混叠和归一化,得到归一化后的特征向量;通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句。本发明可以提高现有模型的准确率,原有模型可以基于新的数据进行进一步的优化。
Description
技术领域
本发明涉及一种视频理解方法。特别是涉及一种基于深度学习的视频理解方法。
背景技术
随着互联网的快速发展,人类逐渐进入大数据的时代。网络上存在着大量的图片和视频数据。这些数据的来源也各不相同,绝大部分数据没有相关的文字描述。这样,我们大规模地处理这些数据时,就有着相当大的困难。对于人类而言,根据图片或者视频的内容写出一段对应的描述性文字是很容易的,但对于计算机进行这样的任务就具有相当大的难度。图片/视频描述(image/video caption)这一课题就是由此进入了人们的视野。这是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片/视频为一段描述文字。最初的视频描述问题是用于道路监控系统之中的,Kollnig等人在1994年的文章中就提出了用一系列动词和短句替代数字来表述车辆的活动情况。这类问题被称为逆好莱坞问题(inverse Hollywood problem)。当时,人们处理这类问题的思路是将图像语义分为底层特征层,对象层和概念层。先识别出图像中关键的对象,再通过环境和对象预测发生的事情,最后整合为一句话。
近年来,随着大数据和深度网络在机器翻译领域的应用,图片和视频描述这一研究课题迎来了新的突破。Subhashini Venugopalan等人在2015ICCV上所发表的《Sequenceto Sequence–Video to Text》(如Venugopalan S,Rohrbach M,Donahue J,etal.Sequence to Sequence--Video to Text[C]//IEEE International Conference onComputer Vision.IEEE,2015:4534-4542)引入LSTM网络来处理视频描述问题,使得深度学习的方法在该领域得以应用。
研究图片和视频描述问题,一方面为互联网上大量无标签的图片和视频数据的处理、整合和利用提供了可能;一方面也为使用深度网络处理语言文字类问题,实现深度网络中图像视频数据与文字数据的相互转换提供了思路。
从实际的应用角度而言,图片视频描述的研究,可以应用于大量监控视频的处理,如道路交通监控、机场和火车站的安全监控等等。亦可以用于视觉障碍人士获取信息。随着社交网络的发展,YouTube、Facebook等社交媒体上有用户上传的大量图片视频,很多都是未经描述的。使用图片和视频描述技术对这些数据进行初步处理有利于这些数据进一步的分类和整合。
从科研角度而言,当下这一课题结合了深度学习方法和语言学知识,是一类多学科融合性问题。这一问题的研究有利于为深度网络在其他领域的应用提供参考,也对机器翻译等其他语言学问题的研究提供了新的思路。使用卷积神经网络处理二维图片数据的研究已经很多了,但是使用深度网络处理视频数据的方法还处于有待提高的阶段。视频描述的研究对于如何整合时域信息以达到有效地利用提供了大量的参照样本。
发明内容
本发明所要解决的技术问题是,提供一种基于深度学习的视频理解方法,能够基于深度学习网络进行端到端的优化,并基于视频的时间维度信息和图像信息进行处理,大幅提高视频理解输出信息的有效性和准确率。
本发明所采用的技术方案是:一种基于深度学习的视频理解方法,包括如下步骤:
1)通过训练获取基于LSTM网络的模型,包括:
(1)使用C3D算法取得图像特征;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)使用MSR-VTT数据库在LSTM网络中进行训练,得到LSTM网络模型,具体是对每个视频图像序列x归一化后的特征向量,按视频图像序列x分组,将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络,训练得到基于LSTM网络的模型;
2)通过基于LSTM网络的模型,得到待测视频图像序列的语句信息,包括:
(1)使用C3D算法取得待测视频图像序列的特征向量;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句。
步骤1)中的第(1)步包括:对于每一个输入的视频图像序列x={x1,x2,…,xt,…,xn},其中,x1,x2,…,xt,…,xn分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像,将视频图像序列x的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到k个4096维的特征向量,其中k为n÷8向下取整。
步骤1)中的第(2)步包括:
对MSR-VTT数据库中的所有视频共有m个对象特征向量,特征是4096维,建立一个4096×m的矩阵作为样本;求所述样本的协方差矩阵,得到一个4096×4096的协方差矩阵;然后求出所述协方差矩阵的特征值和特征向量,有4096个特征值和4096个特征向量,根据特征值的大小,取前128个特征值所对应的特征向量,构成一个4096×128的特征矩阵,这个矩阵就是需要求的特征矩阵,用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵,维数就下降为128维;将每个视频图像序列x中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
步骤2)中的第(1)步包括:对于待测视频图像序列x0={x01,x02,…,x0t,…,x0l},x01,x02,…,x0t,…,x0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像,将待测视频图像序列x0的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到p个4096维的特征向量,其中p为n÷8向下取整。
步骤2)中的第(2)步包括:对待测视频图像序列x0生成的p×4096维特征向量,使用步骤1)的第(2)步中取得的4096×128的特征矩阵,进行矩阵乘法,得到p×128维特征向量,将待测视频图像序列x0中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
步骤2)中的第(3)步包括:将得到的p×128维特征向量输入LSTM网络,使用步骤1)的第(3)步中的得到的基于LSTM网络的模型,得到待测视频图像序列x0对应的输出的语句。
本发明的一种基于深度学习的视频理解方法,具有的有益效果是:
1、本方法可以基于给出的已标定数据实现端到端的优化,随着数据量的提升,可以提高现有模型的准确率,并且原有模型可以基于新的数据进行进一步的优化;
2、本方法在处理视频信息的时候考虑了时间维度的信息,这是原先其他方法所不具备的,使本方法在处理视频信息时的准确度大幅提高;
3、本文的方法结合了C3D和LSTM两种深度学习算法,实现了从视频信息到文本信息的多模态转换。
附图说明
图1是本发明基于深度学习的视频理解方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种基于深度学习的视频理解方法做出详细说明。
如图1所示,本发明的一种基于深度学习的视频理解方法,包括如下步骤:
1)通过训练获取基于LSTM网络的模型,包括:
(1)使用C3D算法取得图像特征,包括:对于每一个输入的视频图像序列x={x1,x2,…,xt,…,xn},其中,x1,x2,…,xt,…,xn分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像,将视频图像序列x的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到k个4096维的特征向量,其中k为n÷8向下取整。
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量,具体是在MSR-VTT数据库中进行,MSR-VTT数据库为ACM Multimedia 2016的Microsoft Research-Video to Text(MSR-VTT)Challenge。该数据库包含10000个视频片段(video clip),被分为训练,验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外,MSR-VTT还提供了每个视频的类别信息(共计20类),这个类别信息算是先验的,在测试集中也是已知的。同时,视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标,分别为:METEOR,BLEU@1-4,ROUGE-L,CIDEr。
该第(2)步具体包括:
对MSR-VTT数据库中的所有视频共有m个对象特征向量,特征是4096维,建立一个4096×m的矩阵作为样本;求所述样本的协方差矩阵,得到一个4096×4096的协方差矩阵;然后求出所述协方差矩阵的特征值和特征向量,有4096个特征值和4096个特征向量,根据特征值的大小,取前128个特征值所对应的特征向量,构成一个4096×128的特征矩阵,这个矩阵就是需要求的特征矩阵,用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵,维数就下降为128维;将每个视频图像序列x中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
(3)使用MSR-VTT数据库在LSTM网络中进行训练,得到LSTM网络模型,具体是对每个视频图像序列x归一化后的特征向量,按视频图像序列x分组,将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络,训练得到基于LSTM网络的模型;
2)通过基于LSTM网络的模型,得到待测视频图像序列的语句信息,包括:
(1)使用C3D算法取得待测视频图像序列的特征向量;包括:对于待测视频图像序列x0={x01,x02,…,x0t,…,x0l},x01,x02,…,x0t,…,x0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像,将待测视频图像序列x0的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到p个4096维的特征向量,其中p为n÷8向下取整。
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;包括:对待测视频图像序列x0生成的p×4096维特征向量,使用步骤1)的第(2)步中取得的4096×128的特征矩阵,进行矩阵乘法,得到p×128维特征向量,将待测视频图像序列x0中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
(3)通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句,包括:将得到的p×128维特征向量输入LSTM网络,使用步骤1)的第(3)步中的得到的基于LSTM网络的模型,得到待测视频图像序列x0对应的输出的语句。
Claims (6)
1.一种基于深度学习的视频理解方法,其特征在于,包括如下步骤:
1)通过训练获取基于LSTM网络的模型,包括:
(1)使用C3D算法取得图像特征;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)使用MSR-VTT数据库在LSTM网络中进行训练,得到LSTM网络模型,具体是对每个视频图像序列x归一化后的特征向量,按视频图像序列x分组,将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络,训练得到基于LSTM网络的模型;
2)通过基于LSTM网络的模型,得到待测视频图像序列的语句信息,包括:
(1)使用C3D算法取得待测视频图像序列的特征向量;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句。
2.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤1)中的第(1)步包括:对于每一个输入的视频图像序列x={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像,将视频图像序列x的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到k个4096维的特征向量,其中k为n÷8向下取整。
3.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤1)中的第(2)步包括:
对MSR-VTT数据库中的所有视频共有m个对象特征向量,特征是4096维,建立一个4096×m的矩阵作为样本;求所述样本的协方差矩阵,得到一个4096×4096的协方差矩阵;然后求出所述协方差矩阵的特征值和特征向量,有4096个特征值和4096个特征向量,根据特征值的大小,取前128个特征值所对应的特征向量,构成一个4096×128的特征矩阵,这个矩阵就是需要求的特征矩阵,用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵,维数就下降为128维;将每个视频图像序列x中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
4.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤2)中的第(1)步包括:对于待测视频图像序列x0={x01,x02,...,x0t,...,x0l},x01,x02,...,x0t,...,x0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像,将待测视频图像序列x0的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到p个4096维的特征向量,其中p为n÷8向下取整。
5.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤2)中的第(2)步包括:对待测视频图像序列x0生成的p×4096维特征向量,使用步骤1)的第(2)步中取得的4096×128的特征矩阵,进行矩阵乘法,得到p×128维特征向量,将待测视频图像序列x0中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
6.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤2)中的第(3)步包括:将得到的p×128维特征向量输入LSTM网络,使用步骤1)的第(3)步中的得到的基于LSTM网络的模型,得到待测视频图像序列x0对应的输出的语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711053056.3A CN107909014A (zh) | 2017-10-31 | 2017-10-31 | 一种基于深度学习的视频理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711053056.3A CN107909014A (zh) | 2017-10-31 | 2017-10-31 | 一种基于深度学习的视频理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107909014A true CN107909014A (zh) | 2018-04-13 |
Family
ID=61842343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711053056.3A Pending CN107909014A (zh) | 2017-10-31 | 2017-10-31 | 一种基于深度学习的视频理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107909014A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600701A (zh) * | 2018-05-02 | 2018-09-28 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108820233A (zh) * | 2018-07-05 | 2018-11-16 | 西京学院 | 一种固定翼无人机视觉着陆引导方法 |
CN109299229A (zh) * | 2018-11-30 | 2019-02-01 | 神思电子技术股份有限公司 | 一种自然语言对话系统意图深度学习方法 |
CN109829378A (zh) * | 2018-12-28 | 2019-05-31 | 歌尔股份有限公司 | 道路抛撒行为的识别方法、装置及电子设备 |
CN110287799A (zh) * | 2019-05-28 | 2019-09-27 | 东南大学 | 基于深度学习的视频ucl语义标引方法与装置 |
CN110830793A (zh) * | 2019-11-13 | 2020-02-21 | 华南理工大学 | 一种基于深度学习频标识别的视频传输质量时域检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239501A (zh) * | 2014-09-10 | 2014-12-24 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
WO2016106383A2 (en) * | 2014-12-22 | 2016-06-30 | Robert Bosch Gmbh | First-person camera based visual context aware system |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106708949A (zh) * | 2016-11-25 | 2017-05-24 | 成都三零凯天通信实业有限公司 | 一种视频有害内容识别方法 |
CN106934352A (zh) * | 2017-02-28 | 2017-07-07 | 华南理工大学 | 一种基于双路分形网络和lstm的视频描述方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
-
2017
- 2017-10-31 CN CN201711053056.3A patent/CN107909014A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239501A (zh) * | 2014-09-10 | 2014-12-24 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
WO2016106383A2 (en) * | 2014-12-22 | 2016-06-30 | Robert Bosch Gmbh | First-person camera based visual context aware system |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
CN106708949A (zh) * | 2016-11-25 | 2017-05-24 | 成都三零凯天通信实业有限公司 | 一种视频有害内容识别方法 |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106934352A (zh) * | 2017-02-28 | 2017-07-07 | 华南理工大学 | 一种基于双路分形网络和lstm的视频描述方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
Non-Patent Citations (5)
Title |
---|
GUY LEV等: "RNN Fisher Vectors for Action Recognition and Image Annotation", 《ECCV2016》 * |
JUN XU等: "Learning Multimodal Attention LSTM Networks for Video Captioning", 《PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
YINGWEI PAN等: "Jointly Modeling Embedding and Translation to Bridge Video and Language", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
曾向阳著: "《智能水中目标识别》", 31 March 2016, 北京:国防工业出版社 * |
李旭阳: "基于时空特征和深度学习的人体动作识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600701A (zh) * | 2018-05-02 | 2018-09-28 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108600701B (zh) * | 2018-05-02 | 2020-11-24 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108648746B (zh) * | 2018-05-15 | 2020-11-20 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108820233A (zh) * | 2018-07-05 | 2018-11-16 | 西京学院 | 一种固定翼无人机视觉着陆引导方法 |
CN109299229A (zh) * | 2018-11-30 | 2019-02-01 | 神思电子技术股份有限公司 | 一种自然语言对话系统意图深度学习方法 |
CN109299229B (zh) * | 2018-11-30 | 2021-02-19 | 神思电子技术股份有限公司 | 一种自然语言对话系统意图深度学习方法 |
CN109829378A (zh) * | 2018-12-28 | 2019-05-31 | 歌尔股份有限公司 | 道路抛撒行为的识别方法、装置及电子设备 |
CN110287799A (zh) * | 2019-05-28 | 2019-09-27 | 东南大学 | 基于深度学习的视频ucl语义标引方法与装置 |
CN110830793A (zh) * | 2019-11-13 | 2020-02-21 | 华南理工大学 | 一种基于深度学习频标识别的视频传输质量时域检测方法 |
CN110830793B (zh) * | 2019-11-13 | 2021-09-03 | 华南理工大学 | 一种基于深度学习频标识别的视频传输质量时域检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | A study on computer vision for facial emotion recognition | |
CN107909014A (zh) | 一种基于深度学习的视频理解方法 | |
Du et al. | A convolutional attention model for text classification | |
CN108763216A (zh) | 一种基于中文数据集的文本情感分析方法 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
Usama et al. | Deep learning based weighted feature fusion approach for sentiment analysis | |
Yang et al. | Student classroom behavior detection based on YOLOv7+ BRA and multi-model fusion | |
CN110046353B (zh) | 一种基于多语言层次机制的方面级情感分析方法 | |
Del Chiaro et al. | Webly-supervised zero-shot learning for artwork instance recognition | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
Saha et al. | Sentiment Classification in Bengali News Comments using a hybrid approach with Glove | |
CN116108215A (zh) | 基于深度融合的跨模态大数据检索方法及系统 | |
Fan | Criminal psychology trend prediction based on deep learning algorithm and three-dimensional convolutional neural network | |
Huijuan et al. | Coarse-to-fine speech emotion recognition based on multi-task learning | |
Baoyue et al. | Sentiment Analysis System for Image and Text Based Social Media Data | |
CN110889717B (zh) | 文本中的广告内容过滤方法、装置、电子设备及存储介质 | |
CN110866087B (zh) | 一种基于主题模型的面向实体的文本情感分析方法 | |
CN115758218A (zh) | 一种基于长短时特征和决策融合的三模态情感分析方法 | |
CN113392215B (zh) | 生产问题分类模型的训练方法、生产问题分类方法及装置 | |
Wu et al. | Inferring users' emotions for human-mobile voice dialogue applications | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
Agarwal et al. | Deep learning for opinion mining: a systematic survey | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
WO2016090625A1 (en) | Scalable web data extraction | |
Feng et al. | A CNN-BiLSTM algorithm for Weibo emotion classification with attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |
|
RJ01 | Rejection of invention patent application after publication |