CN107909014A - 一种基于深度学习的视频理解方法 - Google Patents
一种基于深度学习的视频理解方法 Download PDFInfo
- Publication number
- CN107909014A CN107909014A CN201711053056.3A CN201711053056A CN107909014A CN 107909014 A CN107909014 A CN 107909014A CN 201711053056 A CN201711053056 A CN 201711053056A CN 107909014 A CN107909014 A CN 107909014A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- sequence
- video
- video images
- measured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度学习的视频理解方法:1、通过训练获取基于LSTM网络的模型:使用C3D算法取得图像特征;使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;使用MSR‑VTT数据库在LSTM网络中进行训练,得到LSTM网络模型;2、通过基于LSTM网络的模型,得到待测视频图像序列的语句信息:使用C3D算法取得待测视频图像序列的特征向量;使用PCA算法进行降维处理,并进行时域混叠和归一化,得到归一化后的特征向量;通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句。本发明可以提高现有模型的准确率,原有模型可以基于新的数据进行进一步的优化。
Description
技术领域
本发明涉及一种视频理解方法。特别是涉及一种基于深度学习的视频理解方法。
背景技术
随着互联网的快速发展,人类逐渐进入大数据的时代。网络上存在着大量的图片和视频数据。这些数据的来源也各不相同,绝大部分数据没有相关的文字描述。这样,我们大规模地处理这些数据时,就有着相当大的困难。对于人类而言,根据图片或者视频的内容写出一段对应的描述性文字是很容易的,但对于计算机进行这样的任务就具有相当大的难度。图片/视频描述(image/video caption)这一课题就是由此进入了人们的视野。这是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片/视频为一段描述文字。最初的视频描述问题是用于道路监控系统之中的,Kollnig等人在1994年的文章中就提出了用一系列动词和短句替代数字来表述车辆的活动情况。这类问题被称为逆好莱坞问题(inverse Hollywood problem)。当时,人们处理这类问题的思路是将图像语义分为底层特征层,对象层和概念层。先识别出图像中关键的对象,再通过环境和对象预测发生的事情,最后整合为一句话。
近年来,随着大数据和深度网络在机器翻译领域的应用,图片和视频描述这一研究课题迎来了新的突破。Subhashini Venugopalan等人在2015ICCV上所发表的《Sequenceto Sequence–Video to Text》(如Venugopalan S,Rohrbach M,Donahue J,etal.Sequence to Sequence--Video to Text[C]//IEEE International Conference onComputer Vision.IEEE,2015:4534-4542)引入LSTM网络来处理视频描述问题,使得深度学习的方法在该领域得以应用。
研究图片和视频描述问题,一方面为互联网上大量无标签的图片和视频数据的处理、整合和利用提供了可能;一方面也为使用深度网络处理语言文字类问题,实现深度网络中图像视频数据与文字数据的相互转换提供了思路。
从实际的应用角度而言,图片视频描述的研究,可以应用于大量监控视频的处理,如道路交通监控、机场和火车站的安全监控等等。亦可以用于视觉障碍人士获取信息。随着社交网络的发展,YouTube、Facebook等社交媒体上有用户上传的大量图片视频,很多都是未经描述的。使用图片和视频描述技术对这些数据进行初步处理有利于这些数据进一步的分类和整合。
从科研角度而言,当下这一课题结合了深度学习方法和语言学知识,是一类多学科融合性问题。这一问题的研究有利于为深度网络在其他领域的应用提供参考,也对机器翻译等其他语言学问题的研究提供了新的思路。使用卷积神经网络处理二维图片数据的研究已经很多了,但是使用深度网络处理视频数据的方法还处于有待提高的阶段。视频描述的研究对于如何整合时域信息以达到有效地利用提供了大量的参照样本。
发明内容
本发明所要解决的技术问题是,提供一种基于深度学习的视频理解方法,能够基于深度学习网络进行端到端的优化,并基于视频的时间维度信息和图像信息进行处理,大幅提高视频理解输出信息的有效性和准确率。
本发明所采用的技术方案是:一种基于深度学习的视频理解方法,包括如下步骤:
1)通过训练获取基于LSTM网络的模型,包括:
(1)使用C3D算法取得图像特征;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)使用MSR-VTT数据库在LSTM网络中进行训练,得到LSTM网络模型,具体是对每个视频图像序列x归一化后的特征向量,按视频图像序列x分组,将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络,训练得到基于LSTM网络的模型;
2)通过基于LSTM网络的模型,得到待测视频图像序列的语句信息,包括:
(1)使用C3D算法取得待测视频图像序列的特征向量;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句。
步骤1)中的第(1)步包括:对于每一个输入的视频图像序列x={x1,x2,…,xt,…,xn},其中,x1,x2,…,xt,…,xn分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像,将视频图像序列x的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到k个4096维的特征向量,其中k为n÷8向下取整。
步骤1)中的第(2)步包括:
对MSR-VTT数据库中的所有视频共有m个对象特征向量,特征是4096维,建立一个4096×m的矩阵作为样本;求所述样本的协方差矩阵,得到一个4096×4096的协方差矩阵;然后求出所述协方差矩阵的特征值和特征向量,有4096个特征值和4096个特征向量,根据特征值的大小,取前128个特征值所对应的特征向量,构成一个4096×128的特征矩阵,这个矩阵就是需要求的特征矩阵,用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵,维数就下降为128维;将每个视频图像序列x中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
步骤2)中的第(1)步包括:对于待测视频图像序列x0={x01,x02,…,x0t,…,x0l},x01,x02,…,x0t,…,x0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像,将待测视频图像序列x0的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到p个4096维的特征向量,其中p为n÷8向下取整。
步骤2)中的第(2)步包括:对待测视频图像序列x0生成的p×4096维特征向量,使用步骤1)的第(2)步中取得的4096×128的特征矩阵,进行矩阵乘法,得到p×128维特征向量,将待测视频图像序列x0中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
步骤2)中的第(3)步包括:将得到的p×128维特征向量输入LSTM网络,使用步骤1)的第(3)步中的得到的基于LSTM网络的模型,得到待测视频图像序列x0对应的输出的语句。
本发明的一种基于深度学习的视频理解方法,具有的有益效果是:
1、本方法可以基于给出的已标定数据实现端到端的优化,随着数据量的提升,可以提高现有模型的准确率,并且原有模型可以基于新的数据进行进一步的优化;
2、本方法在处理视频信息的时候考虑了时间维度的信息,这是原先其他方法所不具备的,使本方法在处理视频信息时的准确度大幅提高;
3、本文的方法结合了C3D和LSTM两种深度学习算法,实现了从视频信息到文本信息的多模态转换。
附图说明
图1是本发明基于深度学习的视频理解方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种基于深度学习的视频理解方法做出详细说明。
如图1所示,本发明的一种基于深度学习的视频理解方法,包括如下步骤:
1)通过训练获取基于LSTM网络的模型,包括:
(1)使用C3D算法取得图像特征,包括:对于每一个输入的视频图像序列x={x1,x2,…,xt,…,xn},其中,x1,x2,…,xt,…,xn分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像,将视频图像序列x的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到k个4096维的特征向量,其中k为n÷8向下取整。
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量,具体是在MSR-VTT数据库中进行,MSR-VTT数据库为ACM Multimedia 2016的Microsoft Research-Video to Text(MSR-VTT)Challenge。该数据库包含10000个视频片段(video clip),被分为训练,验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外,MSR-VTT还提供了每个视频的类别信息(共计20类),这个类别信息算是先验的,在测试集中也是已知的。同时,视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标,分别为:METEOR,BLEU@1-4,ROUGE-L,CIDEr。
该第(2)步具体包括:
对MSR-VTT数据库中的所有视频共有m个对象特征向量,特征是4096维,建立一个4096×m的矩阵作为样本;求所述样本的协方差矩阵,得到一个4096×4096的协方差矩阵;然后求出所述协方差矩阵的特征值和特征向量,有4096个特征值和4096个特征向量,根据特征值的大小,取前128个特征值所对应的特征向量,构成一个4096×128的特征矩阵,这个矩阵就是需要求的特征矩阵,用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵,维数就下降为128维;将每个视频图像序列x中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
(3)使用MSR-VTT数据库在LSTM网络中进行训练,得到LSTM网络模型,具体是对每个视频图像序列x归一化后的特征向量,按视频图像序列x分组,将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络,训练得到基于LSTM网络的模型;
2)通过基于LSTM网络的模型,得到待测视频图像序列的语句信息,包括:
(1)使用C3D算法取得待测视频图像序列的特征向量;包括:对于待测视频图像序列x0={x01,x02,…,x0t,…,x0l},x01,x02,…,x0t,…,x0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像,将待测视频图像序列x0的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到p个4096维的特征向量,其中p为n÷8向下取整。
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;包括:对待测视频图像序列x0生成的p×4096维特征向量,使用步骤1)的第(2)步中取得的4096×128的特征矩阵,进行矩阵乘法,得到p×128维特征向量,将待测视频图像序列x0中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
(3)通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句,包括:将得到的p×128维特征向量输入LSTM网络,使用步骤1)的第(3)步中的得到的基于LSTM网络的模型,得到待测视频图像序列x0对应的输出的语句。
Claims (6)
1.一种基于深度学习的视频理解方法,其特征在于,包括如下步骤:
1)通过训练获取基于LSTM网络的模型,包括:
(1)使用C3D算法取得图像特征;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)使用MSR-VTT数据库在LSTM网络中进行训练,得到LSTM网络模型,具体是对每个视频图像序列x归一化后的特征向量,按视频图像序列x分组,将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络,训练得到基于LSTM网络的模型;
2)通过基于LSTM网络的模型,得到待测视频图像序列的语句信息,包括:
(1)使用C3D算法取得待测视频图像序列的特征向量;
(2)使用PCA算法进行降维处理,将特征向量的维数由4096降至128,并进行时域混叠和归一化,得到归一化后的特征向量;
(3)通过基于LSTM网络的模型,得到待测视频图像序列的输出的语句。
2.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤1)中的第(1)步包括:对于每一个输入的视频图像序列x={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像,将视频图像序列x的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到k个4096维的特征向量,其中k为n÷8向下取整。
3.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤1)中的第(2)步包括:
对MSR-VTT数据库中的所有视频共有m个对象特征向量,特征是4096维,建立一个4096×m的矩阵作为样本;求所述样本的协方差矩阵,得到一个4096×4096的协方差矩阵;然后求出所述协方差矩阵的特征值和特征向量,有4096个特征值和4096个特征向量,根据特征值的大小,取前128个特征值所对应的特征向量,构成一个4096×128的特征矩阵,这个矩阵就是需要求的特征矩阵,用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵,维数就下降为128维;将每个视频图像序列x中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
4.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤2)中的第(1)步包括:对于待测视频图像序列x0={x01,x02,...,x0t,...,x0l},x01,x02,...,x0t,...,x0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像,将待测视频图像序列x0的所有帧分为8帧一组的图片组,每8帧输出一次C3D的fc7层数据作为特征提取结果,得到p个4096维的特征向量,其中p为n÷8向下取整。
5.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤2)中的第(2)步包括:对待测视频图像序列x0生成的p×4096维特征向量,使用步骤1)的第(2)步中取得的4096×128的特征矩阵,进行矩阵乘法,得到p×128维特征向量,将待测视频图像序列x0中的相邻两个特征向量对应项相加,即第1项与第2项对应项,第2项与第3项对应项相加,依次进行,再进行归一化,得到归一化后的特征向量。
6.根据权利要求1所述的一种基于深度学习的视频理解方法,其特征在于,步骤2)中的第(3)步包括:将得到的p×128维特征向量输入LSTM网络,使用步骤1)的第(3)步中的得到的基于LSTM网络的模型,得到待测视频图像序列x0对应的输出的语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711053056.3A CN107909014A (zh) | 2017-10-31 | 2017-10-31 | 一种基于深度学习的视频理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711053056.3A CN107909014A (zh) | 2017-10-31 | 2017-10-31 | 一种基于深度学习的视频理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107909014A true CN107909014A (zh) | 2018-04-13 |
Family
ID=61842343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711053056.3A Pending CN107909014A (zh) | 2017-10-31 | 2017-10-31 | 一种基于深度学习的视频理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107909014A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600701A (zh) * | 2018-05-02 | 2018-09-28 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108820233A (zh) * | 2018-07-05 | 2018-11-16 | 西京学院 | 一种固定翼无人机视觉着陆引导方法 |
CN109299229A (zh) * | 2018-11-30 | 2019-02-01 | 神思电子技术股份有限公司 | 一种自然语言对话系统意图深度学习方法 |
CN109829378A (zh) * | 2018-12-28 | 2019-05-31 | 歌尔股份有限公司 | 道路抛撒行为的识别方法、装置及电子设备 |
CN110287799A (zh) * | 2019-05-28 | 2019-09-27 | 东南大学 | 基于深度学习的视频ucl语义标引方法与装置 |
CN110830793A (zh) * | 2019-11-13 | 2020-02-21 | 华南理工大学 | 一种基于深度学习频标识别的视频传输质量时域检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239501A (zh) * | 2014-09-10 | 2014-12-24 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
WO2016106383A2 (en) * | 2014-12-22 | 2016-06-30 | Robert Bosch Gmbh | First-person camera based visual context aware system |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106708949A (zh) * | 2016-11-25 | 2017-05-24 | 成都三零凯天通信实业有限公司 | 一种视频有害内容识别方法 |
CN106934352A (zh) * | 2017-02-28 | 2017-07-07 | 华南理工大学 | 一种基于双路分形网络和lstm的视频描述方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
-
2017
- 2017-10-31 CN CN201711053056.3A patent/CN107909014A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239501A (zh) * | 2014-09-10 | 2014-12-24 | 中国电子科技集团公司第二十八研究所 | 一种基于Spark的海量视频语义标注方法 |
WO2016106383A2 (en) * | 2014-12-22 | 2016-06-30 | Robert Bosch Gmbh | First-person camera based visual context aware system |
US20170255832A1 (en) * | 2016-03-02 | 2017-09-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Detecting Actions in Videos |
CN106708949A (zh) * | 2016-11-25 | 2017-05-24 | 成都三零凯天通信实业有限公司 | 一种视频有害内容识别方法 |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106934352A (zh) * | 2017-02-28 | 2017-07-07 | 华南理工大学 | 一种基于双路分形网络和lstm的视频描述方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
Non-Patent Citations (5)
Title |
---|
GUY LEV等: "RNN Fisher Vectors for Action Recognition and Image Annotation", 《ECCV2016》 * |
JUN XU等: "Learning Multimodal Attention LSTM Networks for Video Captioning", 《PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
YINGWEI PAN等: "Jointly Modeling Embedding and Translation to Bridge Video and Language", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
曾向阳著: "《智能水中目标识别》", 31 March 2016, 北京:国防工业出版社 * |
李旭阳: "基于时空特征和深度学习的人体动作识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600701A (zh) * | 2018-05-02 | 2018-09-28 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108600701B (zh) * | 2018-05-02 | 2020-11-24 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108648746B (zh) * | 2018-05-15 | 2020-11-20 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108820233A (zh) * | 2018-07-05 | 2018-11-16 | 西京学院 | 一种固定翼无人机视觉着陆引导方法 |
CN109299229A (zh) * | 2018-11-30 | 2019-02-01 | 神思电子技术股份有限公司 | 一种自然语言对话系统意图深度学习方法 |
CN109299229B (zh) * | 2018-11-30 | 2021-02-19 | 神思电子技术股份有限公司 | 一种自然语言对话系统意图深度学习方法 |
CN109829378A (zh) * | 2018-12-28 | 2019-05-31 | 歌尔股份有限公司 | 道路抛撒行为的识别方法、装置及电子设备 |
CN110287799A (zh) * | 2019-05-28 | 2019-09-27 | 东南大学 | 基于深度学习的视频ucl语义标引方法与装置 |
CN110830793A (zh) * | 2019-11-13 | 2020-02-21 | 华南理工大学 | 一种基于深度学习频标识别的视频传输质量时域检测方法 |
CN110830793B (zh) * | 2019-11-13 | 2021-09-03 | 华南理工大学 | 一种基于深度学习频标识别的视频传输质量时域检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909014A (zh) | 一种基于深度学习的视频理解方法 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
US20170124432A1 (en) | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering | |
WO2022161470A1 (zh) | 内容的评价方法、装置、设备及介质 | |
CN107515855B (zh) | 一种结合表情符的微博情感分析方法和系统 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN104850617B (zh) | 短文本处理方法及装置 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
US20220188636A1 (en) | Meta pseudo-labels | |
CN113360660B (zh) | 文本类别识别方法、装置、电子设备和存储介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
Wei et al. | Semantic pixel labelling in remote sensing images using a deep convolutional encoder-decoder model | |
Ryumin et al. | Towards automatic recognition of sign language gestures using kinect 2.0 | |
Sajeevan et al. | An enhanced approach for movie review analysis using deep learning techniques | |
CN113408619B (zh) | 语言模型预训练方法、装置 | |
Joshi et al. | CISLR: Corpus for Indian Sign Language Recognition | |
Poonia | LiST: a lightweight framework for continuous indian sign language translation | |
Tannert et al. | FlowchartQA: the first large-scale benchmark for reasoning over flowcharts | |
Wang | Improved facial expression recognition method based on gan | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180413 |