CN108960063A - 一种面向事件关系编码的视频中多事件自然语言描述算法 - Google Patents
一种面向事件关系编码的视频中多事件自然语言描述算法 Download PDFInfo
- Publication number
- CN108960063A CN108960063A CN201810558731.6A CN201810558731A CN108960063A CN 108960063 A CN108960063 A CN 108960063A CN 201810558731 A CN201810558731 A CN 201810558731A CN 108960063 A CN108960063 A CN 108960063A
- Authority
- CN
- China
- Prior art keywords
- event
- sequence
- natural language
- representing
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000003044 adaptive effect Effects 0.000 claims abstract description 12
- 230000000306 recurrent effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012300 Sequence Analysis Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000012731 temporal analysis Methods 0.000 abstract 1
- 238000000700 time series analysis Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 235000019987 cider Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种面向事件关系编码的视频中多事件自然语言描述算法,包括以下步骤:S1、采用一三维卷积神经网络,对给定的视频序列提取深度特征,得到若干个深度特征向量,构成一深度特征序列;S2、基于所述深度特征序列,采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间;S3、选定所述视频序列中需要进行描述的待描述事件,并根据所述事件的提议起止区间,对所述待描述事件在所述深度特征序列中对应的子序列进行再编码,得到所述待描述事件的描述子;S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码,得到用于描述所述待描述事件的自然语言。
Description
技术领域
本发明涉及自然语言描述技术领域,尤其是涉及从视频中检测事件并用自然语言描述事件的算法。
背景技术
视觉自然语言描述(Captioning)是把视觉信息转变为自然语言的任务。通常该任务使用了编-解码器架构作为关键技术。作为这一过程的主要步骤,编码器输出的特征质量与解码器的生成模型对最终的自然语言结果有重要影响。视觉自然语言描述在视频和图像两方面均有很多探索。通常地,现有技术流行使用基于神经网络的计算模型来解决架构的实际建模。图像上,卷积神经网络在众多视觉理解任务中都有良好的效果,在图像描述任务中的工作也都经常使用该方法作为编码器。在解码器方面,则是根据已知的编码结果生成词汇序列的建模方法,常用的神经网络结构如卷积神经网络和循环神经网络均可被用在解码器实现中。在视频中,编码器的类型相对更多,常用的有采用三维卷积在空间和时间上提取特征,这一方法主要面向动作类型的特征;同样地,单帧图像的二维卷积特征也被用作编码器。利用这两种特征之一,辅以序列模型编码时序信息,我们得以对众多视频中的视觉理解任务做出建模。其特征的后处理与图像描述算法基本相同。目前较多的算法仍以基于循环神经网络的模型作为其具体实现。
这里的图像/视频描述任务数学上可以抽象为一个将词汇表依概率的采样问题,正式建模为:
其中,yk为第k个输出单词,pθ表示一个参数化的概率分布,w表示词汇表Ω中的单词,wk表示已有的第k个输出。模型在每一步应当输出给定视觉信息与已有词组下,概率最高的单词。在建模的时候,主要考虑语言序列和视觉信息的联合概率分布,所以通常情况下使用的方法论是通过交叉熵来使得模型逼近合理的概率分布。
给定该形式化的模型,目前主要的方法分别在编码器和解码器上做出不同改进。在编码器方面,除了用不同的主干神经网络试图获得更佳编码效果以外,有的方法也显式地使用了,视觉内容的属性——包括加入已标注好或使用检测算法标注的物体信息等方法。在解码阶段,最主要的改进方向是以特征加权形式出现的注意力模型,同时也有将问题从优化联合概率分布转变为自监督的类强化学习的方法用以直接提高语句的自然程度。但是在多事件视频的描述任务,已有的方法均有不同的缺点。最主要的问题在于:1)对于多事件视频的描述,这些方法都无法获取事件之间的关系;2)对于长短差别较大的视频片段,用统一的编码器-解码器架构的效果并不理想。这两方面的缺点造成描述语言的准确性和自然程度均下降。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
针对传统的视觉自然语言描述算法在多事件视频的新任务中出现的问题,本发明提出了一种面向事件关系编码的视频中多事件自然语言描述算法,通过合理的编码方式获得对事件内部及互相关系的编码特征,以提高描述语言的准确性和自然程度。
本发明为达上述目的提出以下技术方案:
一种面向事件关系编码的视频中多事件自然语言描述算法,包括以下步骤:
S1、采用一三维卷积神经网络,对给定的视频序列提取深度特征,得到若干个深度特征向量,构成一深度特征序列;
S2、基于所述深度特征序列,采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间;
S3、选定所述视频序列中需要进行描述的待描述事件,并根据所述事件的提议起止区间,对所述待描述事件在所述深度特征序列中对应的子序列进行再编码,得到所述待描述事件的描述子;
S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码,得到用于描述所述待描述事件的自然语言。
本发明的上述技术方案相对于现有技术,具有以下有益效果:
1)使用了层次化的LSTM(长短时记忆循环神经网络,Long-Short Time Memory)作为主要的实现模型,在视觉信息编码阶段,可以在视频深度特征提取后,同时给出事件所处时间段的估计,通过计算事件内部和事件之间的关系编码来详细化地编码事件特征,实现层次化的多事件检测;
2)提出了基于事件的再编码。在步骤S1提取到视频深度特征与步骤S2事件区间估计后,使用层次化的LSTM的深层计算事件内部特征,更精细地刻画了视频信息,达到了更少的信息损失;此外,该层次化的LSTM也会根据各事件内部特征对事件间的联合分布建模,从而更好地表达了事件间的次序、因果等关系,使输出更加准确;
3)采用基于注意力模型的LSTM自适应解码器,通过结合注意力模型与信息门结构,保证了送入解码器时的特征符合模型容量,并且通过计算特征权值的方式得到给定词组序列下事件内特征权值的概率分布,以为编码器给予更好的特征信息。相比在编码阶段的特征降维,注意力模型加权地处理特征数据已经被证明有效。
附图说明
图1是本发明提出的面向事件关系编码的视频中多事件自然语言描述算法的流程图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步说明。
本发明的具体实施方式提出了一种面向事件关系编码的视频中多事件自然语言描述算法,参考图1,该算法包括如下步骤S1至S4:
S1、采用一三维卷积神经网络,对给定的视频序列提取深度特征,得到若干个深度特征向量,构成一深度特征序列。对于给定的视频序列,可将从视频序列和事件提议得到的运算形式记为:其中,为句子的词汇序列,p={pstart,pend}为给定的事件起止区间,表示视频序列的深度特征序列。
为得到该视频序列的深度特征序列,首先,对给定的该视频序列,取固定长度的连续的帧为一簇,以固定间隔对每一个簇采样,得到簇序列;再对所述簇序列中的每一个簇,采用三维卷积神经网络提取簇的深度特征向量,得到所述视频序列的所述深度特征序列其中,v1,v2,…,vn为每一个簇对应的深度特征向量。例如,使用连续的16帧作为一簇输入送入三维卷积网络中,得到对应这一簇视频帧的深度特征向量,对于给定的所述视频序列,可以采用每隔8帧进行一次前述输入簇的采样,从而得到该视频序列的深度特征序列
S2、基于所述深度特征序列,采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间。首先,采用长短时记忆循环神经网络(LSTM)对深度特征序列进行序列到序列的编码,得到长度与该深度特征序列相同的隐向量序列然后,对所述隐向量序列中的每一个隐向量,使用两个全连接层分别监测不同事件对应的时间戳和置信度(值在0~1之间),得到所述事件的提议起止区间p。
S3、选定所述视频序列中需要进行描述的待描述事件,并根据所述事件的提议起止区间,对所述待描述事件在所述深度特征序列中对应的子序列进行再编码,得到所述待描述事件的描述子。待描述事件的选择,可以人工指定时间戳来选定,也可以根据上述计算的置信度,选择置信度大于某一设定阈值的时间戳来指定待描述事件。可将选定的待描述事件记为i,即“待描述事件i”指任意一个被选定的待描述事件。待描述事件i内部编码的形式化描述为其中输出代表待描述事件i的事件内描述子,为所述隐向量序列与待描述事件i的提议起止区间pi的函数,记为F。
为了利用长期序列和短期序列,本发明采用了多个不同步长的LSTM用以编码事件内信息。根据所述视频序列的总长度和待描述事件i的提议起止区间,得到待描述事件i在所述深度特征序列V中对应的子序列,对待描述事件i所对应的子序列,采用m种步长的LSTM再次进行序列到序列的编码,得到m组隐向量和m个状态向量;将待描述事件i的m组隐向量池化至相同尺寸并沿隐向量的序列方向拼接为一组新的隐向量同时将m个状态向量取平均得到从而,得到待描述事件i的事件内描述子
根据待描述事件i的事件内描述子的将所有待描述事件按照在所述视频序列中的时间先后来排序,然后,对待描述事件i之前的事件和之后的事件分别使用不同的LSTM前向和后向地计算事件的上文和下文,并将用于前向计算的LSTM所输出的状态向量和用于后向计算的LSTM所输出的状态向量合并,作为待描述事件i的事件间描述子gi,从而得到待描述事件i的描述子:
在一具体的实施例中,前述m取值为4,4种步长分别为1,2,4,8,采用0作为初始化步长;步骤S34中t=32。即t=m*q,m组隐向量池化至相同尺寸q。
S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码,得到用于描述所述待描述事件的自然语言。待描述事件i的描述子相对于传统方法得到的全部视频描述或单事件描述特征,维度更高。步骤S4具体包括S41~S44:
S41、在自适应解码器的第一层LSTM,对每一步的新词语生成,是通过输入所述事件内描述子的和上一步生成的单词wk-1,得到当前步的隐向量hk。
在实际中,不同于简单的最大池化或均值处理,本发明结合了注意力模型的思想为特征寻找一组自适应权重αk,使得加权后的事件内特征具有与传统解码器相适应的大小。因此,步骤S42对当前步的隐向量hk,建模为:
αk=softmax(ak)
其中,aj,k表示针对第k步输出的注意力权值中的第j个,每个注意力权值对应于中的一项;表示用于计算注意力权值的可学习参数,Wv表示从事件内描述子获取信息的参数;rj表示事件内描述子中的各项,共n项;Wh表示针对解码器第一层LSTM输出的隐向量的可学习参数,表示解码器第一层LSTM输出的隐向量;ak表示向量化的所有aj,k;αi,k表示αk中的各项;为待描述事件i的事件内描述子各项的加权。
S43、对上述得到的通过计算来控制最终输入的事件间信息;其中,表示在第k步最终处理后的事件间描述子,σ表sigmoid函数,Wc表示针对的可学习参数,b表示一个偏移向量。
S44、将得到的和同时放入所述自适应解码器的第二层LSTM,其输出经过Softmax规范化后转化为一组词汇表的概率,该词汇表是预先确定的(任意指定一个合理的词汇表,涵盖需要生成的单词即可);选取所述词汇表中概率最大的词语作为最终输出。不断循环步骤S41~S44,就可以得到用于描述所述待描述事件i的自然语言。对每一个选定的待描述事件,执行步骤S3的事件再编码和步骤S4,即可完成给定视频序列的多事件自然语言描述任务。
在算法的模型训练上,进行端到端训练,采用交叉熵作为损失函数优化模型的拟合:
其中,为损失函数,pθ表示参数化的条件概率,T表示整个句子的长度,表示第k个单词,表示1~(k-1)个单词。在训练时,步骤S1及S2的事件提议部分和编-解码部分应当分两步训练。我们使用的数据集包含了视频中不同时间的标注,提议事件如果不完全与真实事件重合,则取与其重叠率最高的真实事件作为正样本。
为了验证本发明算法的有效性,我们在多事件描述任务的语境下对比研究了若干传统的视频描述方法以及Krishna等人在2017年发明的针对多事件描述的较新方法,见表1。传统方法包括用于生成多句描述的H-RNN方法、时序空间编码方法(S2VT)和时间轴平均方法(LSTM-YT),传统方法只对比使用真实事件起止区间。这项对比用流行的Bleu(双语评价替代)、METEOR(显式位序翻译评价度量)和CIDEr(基于共识的图片描述评价)三种方法衡量了使用真实事件起止区间和提议事件起止区间两种情形下描述语言的准确性和自然度。
表1多事件视频描述任务下的语言输出对比
上表中B@z(z=1、2、3)指代的是利用z-gram的Bleu指标,M和C分别为METEOR和CIDEr的简写。可以看出本方法效果很优。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (7)
1.一种面向事件关系编码的视频中多事件自然语言描述算法,包括以下步骤:
S1、采用一三维卷积神经网络,对给定的视频序列提取深度特征,得到若干个深度特征向量,构成一深度特征序列;
S2、基于所述深度特征序列,采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间;
S3、选定所述视频序列中需要进行描述的待描述事件,并根据所述事件的提议起止区间,对所述待描述事件在所述深度特征序列中对应的子序列进行再编码,得到所述待描述事件的描述子;
S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码,得到用于描述所述待描述事件的自然语言。
2.如权利要求1所述的自然语言描述算法,其特征在于,步骤S1具体包括:
S11、对所述视频序列,取固定长度的连续的帧为一簇,以固定间隔对每一个簇采样,得到簇序列;
S12、对所述簇序列中的每一个簇,采用三维卷积神经网络提取簇的深度特征向量,得到所述视频序列的所述深度特征序列,记为其中,v1,v2,…,vn为每一个簇对应的深度特征向量。
3.如权利要求2所述的自然语言描述算法,其特征在于,步骤S2具体包括:
S21、采用LSTM对所述深度特征序列进行序列到序列的编码,得到长度与所述深度特征序列相同的隐向量序列
S22、对所述隐向量序列中的每一个隐向量,使用两个全连接层分别监测不同事件对应的时间戳和置信度,得到所述事件的提议起止区间。
4.如权利要求3所述的自然语言描述算法,其特征在于,步骤S3具体包括:
S31、通过人工指定不同事件的时间戳,或者根据步骤S22中的所述置信度,取置信度大于一设定阈值的时间戳,来选定所述待描述事件;
S32、根据所述视频序列的总长度和待描述事件i的提议起止区间,得到待描述事件i在所述深度特征序列中对应的子序列;
S33、对待描述事件i所对应的子序列,采用m种步长的LSTM再次进行序列到序列的编码,得到m组隐向量和m个状态向量;
S34、将待描述事件i的m组隐向量池化至相同尺寸并沿隐向量的序列方向拼接为一组新的隐向量同时将m个状态向量取平均得到从而,得到待描述事件i的事件内描述子
S35、根据待描述事件i的事件内描述子的将所有待描述事件按照在所述视频序列中的时间先后来排序,然后,对待描述事件i之前的事件和之后的事件分别使用不同的LSTM前向和后向地计算事件的上文和下文,并将两个LSTM的前向和后向计算结果合并作为待描述事件i的事件间描述子gi,从而得到待描述事件i的描述子:
和分别表示所述两个LSTM的状态向量,分别作为待描述事件i的上文和下文的描述子。
5.如权利要求4所述的自然语言描述算法,其特征在于,步骤S4具体包括:
S41、在自适应解码器的第一层LSTM,对每一步的新词语生成,是通过输入所述事件内描述子的和上一步生成的单词wk-1,得到当前步的隐向量hk;
S42、对当前步的隐向量hk,建模为:
αk=softmax(ak)
其中,aj,k表示针对第k步输出的注意力权值中的第j个,每个注意力权值对应于中的一项;表示用于计算注意力权值的可学习参数,Wv表示从事件内描述子获取信息的参数;rj表示事件内描述子中的各项,共n项;Wh表示针对解码器第一层LSTM输出的隐向量的可学习参数,表示解码器第一层LSTM输出的隐向量;ak表示向量化的所有aj,k;αi,k表示αk中的各项;为待描述事件i的事件内描述子各项的加权;
S43、对步骤S42得到的通过计算来控制最终输入的事件间信息;其中,表示在第k步最终处理后的事件间描述子,σ表sigmoid函数,Wc表示针对的可学习参数,b表示一个偏移向量;
S44、将得到的和同时放入所述自适应解码器的第二层LSTM,其输出经过Softmax规范化后转化为一组词汇表的概率,该词汇表是预先确定的;选取所述词汇表中概率最大的词语作为最终输出;
不断循环步骤S41至S44,得到词语序列,作为用于描述待描述事件i的自然语言。
6.如权利要求4所述的自然语言描述算法,其特征在于:步骤S33中m=4,4种步长分别为1,2,4,8,采用0作为初始化步长;步骤S34中t=32。
7.如权利要求1所述的自然语言描述算法,其特征在于:在算法的模型训练上,进行端到端训练,采用交叉熵作为损失函数优化模型的拟合:
其中,为损失函数,pθ表示参数化的条件概率,T表示整个句子的长度,表示第k个单词,表示1~(k-1)个单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810558731.6A CN108960063B (zh) | 2018-06-01 | 2018-06-01 | 一种面向事件关系编码的视频中多事件自然语言描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810558731.6A CN108960063B (zh) | 2018-06-01 | 2018-06-01 | 一种面向事件关系编码的视频中多事件自然语言描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108960063A true CN108960063A (zh) | 2018-12-07 |
CN108960063B CN108960063B (zh) | 2021-07-02 |
Family
ID=64492911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810558731.6A Active CN108960063B (zh) | 2018-06-01 | 2018-06-01 | 一种面向事件关系编码的视频中多事件自然语言描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108960063B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871893A (zh) * | 2019-02-18 | 2019-06-11 | 清华大学 | 基于循环时域保持生成的行为预测方法和装置 |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN109960747A (zh) * | 2019-04-02 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 视频描述信息的生成方法、视频处理方法、相应的装置 |
CN110929094A (zh) * | 2019-11-20 | 2020-03-27 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
CN110929092A (zh) * | 2019-11-19 | 2020-03-27 | 国网江苏省电力工程咨询有限公司 | 一种基于动态注意力机制的多事件视频描述方法 |
CN111325068A (zh) * | 2018-12-14 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
CN111368142A (zh) * | 2020-04-15 | 2020-07-03 | 华中科技大学 | 一种基于生成对抗网络的视频密集事件描述方法 |
CN111723238A (zh) * | 2019-03-22 | 2020-09-29 | 曜科智能科技(上海)有限公司 | 视频多事件的裁剪及文本描述方法及其装置、设备和介质 |
CN111814844A (zh) * | 2020-03-17 | 2020-10-23 | 同济大学 | 一种基于位置编码融合的密集型视频描述方法 |
CN112738647A (zh) * | 2020-12-28 | 2021-04-30 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
CN113609259A (zh) * | 2021-08-16 | 2021-11-05 | 山东新一代信息产业技术研究院有限公司 | 视频和自然语言的多模态推理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170150235A1 (en) * | 2015-11-20 | 2017-05-25 | Microsoft Technology Licensing, Llc | Jointly Modeling Embedding and Translation to Bridge Video and Language |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
-
2018
- 2018-06-01 CN CN201810558731.6A patent/CN108960063B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170150235A1 (en) * | 2015-11-20 | 2017-05-25 | Microsoft Technology Licensing, Llc | Jointly Modeling Embedding and Translation to Bridge Video and Language |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
Non-Patent Citations (2)
Title |
---|
JINGKUAN SONG等: "《Hierarchical LSTM with adjusted Temporal Attention for Video Captioning》", 《ARXIV》 * |
韩亚洪 等: "《人工智能"看图造句"》", 《人工智能》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325068B (zh) * | 2018-12-14 | 2023-11-07 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
CN111325068A (zh) * | 2018-12-14 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
CN109871893B (zh) * | 2019-02-18 | 2020-10-16 | 清华大学 | 基于循环时域保持生成的行为预测方法和装置 |
CN109871893A (zh) * | 2019-02-18 | 2019-06-11 | 清华大学 | 基于循环时域保持生成的行为预测方法和装置 |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN111723238A (zh) * | 2019-03-22 | 2020-09-29 | 曜科智能科技(上海)有限公司 | 视频多事件的裁剪及文本描述方法及其装置、设备和介质 |
CN111723238B (zh) * | 2019-03-22 | 2023-05-12 | 曜科智能科技(上海)有限公司 | 视频多事件的裁剪及文本描述方法及其装置、设备和介质 |
CN109960747B (zh) * | 2019-04-02 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 视频描述信息的生成方法、视频处理方法、相应的装置 |
CN109960747A (zh) * | 2019-04-02 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 视频描述信息的生成方法、视频处理方法、相应的装置 |
CN110929092A (zh) * | 2019-11-19 | 2020-03-27 | 国网江苏省电力工程咨询有限公司 | 一种基于动态注意力机制的多事件视频描述方法 |
CN110929092B (zh) * | 2019-11-19 | 2023-07-04 | 国网江苏省电力工程咨询有限公司 | 一种基于动态注意力机制的多事件视频描述方法 |
CN110929094B (zh) * | 2019-11-20 | 2023-05-16 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
CN110929094A (zh) * | 2019-11-20 | 2020-03-27 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
CN111814844A (zh) * | 2020-03-17 | 2020-10-23 | 同济大学 | 一种基于位置编码融合的密集型视频描述方法 |
CN111814844B (zh) * | 2020-03-17 | 2023-07-11 | 同济大学 | 一种基于位置编码融合的密集型视频描述方法 |
CN111368142B (zh) * | 2020-04-15 | 2023-06-06 | 华中科技大学 | 一种基于生成对抗网络的视频密集事件描述方法 |
CN111368142A (zh) * | 2020-04-15 | 2020-07-03 | 华中科技大学 | 一种基于生成对抗网络的视频密集事件描述方法 |
CN112738647A (zh) * | 2020-12-28 | 2021-04-30 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
CN113609259A (zh) * | 2021-08-16 | 2021-11-05 | 山东新一代信息产业技术研究院有限公司 | 视频和自然语言的多模态推理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108960063B (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960063B (zh) | 一种面向事件关系编码的视频中多事件自然语言描述方法 | |
CN108920460B (zh) | 一种多类型实体识别的多任务深度学习模型的训练方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
US10762305B2 (en) | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium | |
CN107484017B (zh) | 基于注意力模型的有监督视频摘要生成方法 | |
ALIAS PARTH GOYAL et al. | Z-forcing: Training stochastic recurrent networks | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN107291836B (zh) | 一种基于语义相关度模型的中文文本摘要获取方法 | |
WO2020048389A1 (zh) | 神经网络模型压缩方法、装置和计算机设备 | |
CN110570845B (zh) | 一种基于域不变特征的语音识别方法 | |
CN111460883B (zh) | 基于深度强化学习的视频行为自动描述方法 | |
CN112446221B (zh) | 翻译评估方法、装置、系统及计算机存储介质 | |
CN116939320B (zh) | 一种生成式多模态互利增强视频语义通信方法 | |
CN112948155B (zh) | 模型训练方法、状态预测方法、装置、设备及存储介质 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN115841119A (zh) | 一种基于图结构的情绪原因提取方法 | |
CN110826397B (zh) | 一种基于高阶低秩多模态注意力机制的视频描述方法 | |
JP2023542057A (ja) | グラフベースの時間的分類を用いたニューラルネットワークの訓練 | |
CN116534700A (zh) | 爬楼机的控制系统及其方法 | |
CN113361505B (zh) | 基于对比解耦元学习的非特定人的手语翻译方法和系统 | |
CN113628630B (zh) | 基于编解码网络的信息转换方法和装置、电子设备 | |
CN109166118A (zh) | 织物表面属性检测方法、装置及计算机设备 | |
CN112836485A (zh) | 一种基于神经机器翻译的相似病历预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |