CN112738647A - 一种基于多层级编码-解码器的视频描述方法及系统 - Google Patents

一种基于多层级编码-解码器的视频描述方法及系统 Download PDF

Info

Publication number
CN112738647A
CN112738647A CN202011581321.7A CN202011581321A CN112738647A CN 112738647 A CN112738647 A CN 112738647A CN 202011581321 A CN202011581321 A CN 202011581321A CN 112738647 A CN112738647 A CN 112738647A
Authority
CN
China
Prior art keywords
graph
level
event
target
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011581321.7A
Other languages
English (en)
Other versions
CN112738647B (zh
Inventor
郑慧诚
余明静
王腾
刘泽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011581321.7A priority Critical patent/CN112738647B/zh
Publication of CN112738647A publication Critical patent/CN112738647A/zh
Application granted granted Critical
Publication of CN112738647B publication Critical patent/CN112738647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Abstract

本发明公开了一种基于多层级编码‑解码器的视频描述方法及系统,该方法包括:获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,基于多任务学习完成文本描述任务和句子标签预测任务。该系统包括:编码模块和解码模块。本发明基于多层级编码器和多层级解码器,能够挖掘语句中细粒度的关系并提升描述性能。本发明作为一种基于多层级编码‑解码器的视频描述方法及系统,可广泛应用于视频处理领域。

Description

一种基于多层级编码-解码器的视频描述方法及系统
技术领域
本发明属于视频处理领域,尤其涉及一种基于多层级编码-解码器的视频描述方法及系统。
背景技术
密集视频描述任务的目标是对未修剪视频中的多个事件进行时间位置检测与自然语言描述,该任务近年来吸引了越来越多研究者的关注。密集视频描述包括两个子任务,时序事件提名任务和事件描述任务。前者的目的是检测事件的时间范围,后者是对该事件生成一句自然语言描述。事件描述网络需要以准确、强大的事件特征作为输入,而事件的精准时间边框是特征构建的基础,因此绝大多数现有模型分两步完成密集描述:先实现精准的事件提名预测,再进一步进行事件描述。现有方法中,大多数模型忽略了多粒度的层次结构及语义元素间的关系建模,这往往使得描述语句中对细粒度元素的刻画不精确,对目标间、事件间相互关系的阐述不清晰。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于多层级编码-解码器的视频描述方法及系统,能够挖掘语句中细粒度的关系并提升描述性能。
本发明所采用的第一技术方案是一种基于多层级编码-解码器的视频描述方法,包括以下步骤:
S1、获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
S2、基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务。
进一步,还包括:
构建多任务损失函数并基于损失函数更新多层级编码器和多层级解码器。
进一步,所述多层级编码器包括事件层级图卷积层、图池化层和目标层级图卷积层,所述多层级解码器包括句子记忆器和描述生成器,所述损失函数包括句子级别损失和单词级别损失。
进一步,所述获取视频并基于多层级编码器进行编码处理,构建目标图和事件图这一步骤,其具体包括:
获取视频并对视频进行处理,得到视频帧图像并基于深度神经网络提取视频帧卷积特征;
基于目标层级图卷积层对视频帧卷积特征进行处理,提取目标信息并根据目标的时间关系和空间关系构建目标图;
基于图池化层将目标图层级图卷积层信息聚合并传递给事件层级图卷积层;
基于事件层级图卷积层对目标图进行处理,提取事件信息并根据事件之间的时间关系构建事件图。
进一步,所述根据目标的时间关系和空间关系构建目标图,具体规则为:
判断到时间关系Sim(oi,oj)>0.3且空间关系IOU(oi,oj)>0.5,建立两个目标对象oi,oj之间的边,所述Sim(·)表示外观相似度度量,所述IOU(·)表示计算空间交互比。
进一步,所述根据事件之间的时间关系构建事件图,具体规则为:
判断到两个事件之间存在共现关系
Figure BDA0002865115950000021
建立事件之间的边;
判断到两个事件之间存在邻近关系
Figure BDA0002865115950000022
建立事件之间的边;
其中
Figure BDA0002865115950000023
Figure BDA0002865115950000024
表示事件i,j的结束时间,
Figure BDA0002865115950000025
表示事件i,j的开始时间,Ui,j代表两个事件的并集的长度,|di,j|代表了两个事件的边界点的距离。
进一步,所述基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务这一步骤,其具体包括:
基于句子记忆器对事件图进行解码处理,结合前一句子的信息解码得到所有事件的句子,按顺序生成句子序列;
基于描述生成器按顺序对目标图进行解码处理,结合句子序列和前一单词的信息完成所有目标图的解码,生成单词序列;
基于句子序列和单词序列完成文本描述任务和句子标签预测任务。
本发明所采用的第二技术方案是:一种基于多层级编码-解码器的视频描述系统,包括以下模块:
编码模块,用于获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
解码模块,用于基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列。
本发明方法及系统的有益效果是:本发明提出一种针对未修剪视频建模的多层级图,包括一个事件图与多个目标图。事件图着重建模多事件之间的时间联系,目标图着重建模同一事件下多目标之间的时空关系,借助于本发明的多层级编码器和多层级解码器,能够挖掘细粒度的视觉关系并提升描述性能。
附图说明
图1是本发明具体实施例总体流程图;
图2是本发明具体实施例多层级编码器的结构示意图;
图3是本发明具体实施例一种基于多层级编码-解码器的视频描述方法的步骤流程图;
图4是本发明具体实施例一种基于多层级编码-解码器的视频描述系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图3,本发明提供了一种基于多层级编码-解码器的视频描述方法,该方法包括以下步骤:
S1、获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
具体地,多层级编码器结构参照图2,本发明构造两种类型的图来表示视频中的层次结构,即目标图和事件图,在小尺度上,我们构造了几个单独的目标图,每个目标图代表一个事件。通过应用堆叠的图卷积层来推理目标间的关联,得到每个目标的关系性特征。在大尺度上,我们构造一个事件图来表示整个视频,并在其上应用图卷积进行事件层级的关系推理。对于每种类型,我们通过节点之间的特定关系来构造它,并对其执行图卷积。由于图的边连接是非全连接的,因此能够有效节省运算量且避免噪声信息,同时图卷积可推理具有丰富语义的关系性特征。
S2、基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务。
具体地,本发明同样在解码阶段对多粒度的解码过程进行建模,首先将事件解码为句子层级的大尺度特征,然后利用描述生成器进行精细化地解码,生成更为具体的单词,同时完成句子标签的预测任务和文本描述任务。
进一步作为本方法的优选实施例,还包括:
构建损失函数并基于损失函数更新多层级编码器和多层级解码器。
具体地,损失函数由句子级别损失Lsent与单词级别损失Lword的加权,权衡因子为λ。
L=Lword+λLsent
对于单词层级的预测任务,我们的目标是在给定视频后,预测某个单词序列的概率。这等价于:给定视频V,事件提名pi与当前时刻以前生成的单词w:t-1时,网络预测下一个单词的概率的累乘。因此,我们定义一个视频中所有事件的损失值为:
Figure BDA0002865115950000041
Figure BDA0002865115950000042
是与pi匹配的ground-truth语句的长度
对于句子层级的预测任务,目标是给定过去事件及语句的信息,预测下一个事件中出现的单词频次。我们采用一种多标签间隔损失:
Figure BDA0002865115950000043
其中τ(yi)={(p,q)|p∈Wi,p≠q},Wi表示出现在{y1,y2,...yi,}中的单词集合。
进一步作为本方法优选实施例,所述多层级编码器包括事件层级图卷积层、图池化层和目标层级图卷积层,所述多层级解码器包括句子记忆器和描述生成器,所述损失函数包括句子级别损失和单词级别损失。
进一步作为本发明的优选实施例,所述获取视频并基于多层级编码器进行编码处理,构建目标图和事件图这一步骤,其具体包括:
获取视频并对视频进行处理,得到视频帧图像并基于深度神经网络提取视频帧卷积特征;
基于目标层级图卷积层对视频帧卷积特征进行处理,提取目标信息并根据目标的时间关系和空间关系构建目标图;
具体地,对于目标图Go,每个节点都代指一个目标框,每个边表示两个节点之间的关系。给定任意两个节点,我们考虑两种类型的关系来确定两个节点之间的边是否存在:空间关系和时间关系。注意到视频中目标间存在复杂的空间关联,例如,在草地场景下,“狗”经常与“飞盘”一同出现,这是一种共现关系;又如,大量视频中的“电脑”的空间位置往往与“鼠标”临近,“勺子”经常与“锅”的空间位置往往存在交叠。基于以上观察,我们认为空间信息是度量目标关系的重要特征,当相邻帧中的两个对象距离较近或存在重叠时,空间关系就会存在。
此外,本发明还考虑时间上的关系变化,事件中的主要目标(如行为者、行为接受者、显著物体)往往在多帧都出现,随着行为的进行,同一个目标可能存在位置、旋转、拍摄角度等变化。我们将同一目标在多帧上的动态变化信息称为时间关系。时间关系可以联合不同帧中多个表观相似的目标框共同建模同一个目标的行为,这种关系对于动作的识别尤为重要。
基于图池化层将目标图层级图卷积层信息聚合并传递给事件层级图卷积层;
基于事件层级图卷积层对目标图进行处理,提取事件信息并根据事件之间的时间关系构建事件图。
具体地,对于事件图Ge,视频中的事件通常表示为一维时间框,因此我们主要利用事件之间的时间关系。对于每个事件-事件对,我们将它们的时间交并比(tIOU)和相对距离作为时间关系的判断。如果两个事件的交并比较高,则它们的语义是相关的,因为它们共享一部分视觉信息,这种关系我们称之为共现关系。同样,较小的相对距离通常表示两个事件是相邻的,这意味着它们可能包含两个顺序发生的行为,我们称之为临近关系。
进一步作为本发明优选实施例,所述根据目标的时间关系和空间关系构建目标图,具体规则为:
判断到时间关系Sim(oi,oj)>0.3且空间关系IOU(oi,oj)>0.5,建立两个目标对象oi,oj之间的边,所述Sim(·)表示外观相似度度量,所述IOU(·)表示计算空间交互比。
进一步作为本发明优选实施例,所述根据事件之间的时间关系构建事件图,具体规则为:
判断到两个事件之间存在共现关系
Figure BDA0002865115950000051
建立事件之间的边;
判断到两个事件之间存在邻近关系
Figure BDA0002865115950000052
建立事件之间的边;
其中
Figure BDA0002865115950000053
Figure BDA0002865115950000054
表示事件i,j的结束时间,
Figure BDA0002865115950000055
表示事件i,j的开始时间,Ui,j代表两个事件的并集的长度。当di,j>0时,等价于两个事件存在交叠,共现关系的强弱即两个事件的交叠比大小;当di,j≤0时,两个事件没有交集。|di,j|代表了两个事件的边界点的距离,即后发生的事件开始时间与先发生的事件的截止时间的差值,邻近关系衡量了两个不交叠事件的距离长短。
进一步作为本方法的优选实施例,所述基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务。这一步骤,其具体包括:
基于句子记忆器对事件图进行解码处理,结合前一句子的信息解码得到所有事件的句子,按顺序生成句子序列;
具体地,我们以序列的方式生成所有事件{p1,p2,...p,n}对应的语句为{s1,s2,..s.n,}。随着一个新的语句生成,记忆向量
Figure BDA0002865115950000061
便会更新:
Figure BDA0002865115950000062
其中
Figure BDA0002865115950000063
表示事件图Ge的节点特征向量;
Figure BDA0002865115950000064
表示RNN中的隐藏状态;
Figure BDA0002865115950000065
表示上一个句子si-1的特征,从描述生成器中获得的。
然后,我们需要设计一个指导信号gi,用来初始化描述生成器的隐藏状态,进而生成下一个句子。另外,考虑到并非所有句子都需要历史信息作为指导,存在某些句子并不依赖于高层的文本上下文,而仅仅依赖于事件内部的细粒度视觉信息,我们添加一个门控αi来控制高层特征和底层特征的平衡。具体而言,该指导信号通过下式获得:
Figure BDA0002865115950000066
Figure BDA0002865115950000067
其中·代表逐点乘法,
Figure BDA0002865115950000068
是目标图中节点特征的平均池化;σ表示sigmoid激活函数,FC(·)代表一个全连接层;当αi≈0,表示某个句子并不依赖于历史文本信息,当αi≈1时,代表该句子强烈依赖于历史文本。
基于描述生成器按顺序对目标图进行解码处理,结合句子序列和前一单词的信息完成所有目标图的解码,生成单词序列。
基于多任务学习完成文本描述任务和句子标签预测任务。
具体地,为了实现视觉模态特征到文本模态的转换,我们采用基于RNN的描述生成器按顺序生成单词序列。描述生成器中隐藏状态的更新策略为:
Figure BDA0002865115950000069
Figure BDA00028651159500000610
其中
Figure BDA00028651159500000611
分别代表目标层级的注意力特征,以及当生成第i个事件的第t′个单词时的RNN隐藏层状态。wi,t′-1代表第t′-1个单词的one-hot向量,FC(wi,t′-1)是上一个单词的编码向量。
目标的注意力特征
Figure BDA00028651159500000612
来自于注意力机制,其中查询(query)为
Figure BDA00028651159500000613
键(key)与值(value)都是目标图中的关系性特征
Figure BDA00028651159500000614
在预测第t′个单词时,注意力机制能够自动判断目标图中哪个或哪些节点的信息需要重点关注,它实现了单词与目标的软对齐。
注意到,我们使用目标图的细粒度特征指导单词的生成,而没有直接利用事件图中的节点特征,这里也体现了多层级语义对齐的思想。
在我们的模型中,我们采用广泛使用的软注意力(soft attention)机制作为ATT(·,·,·)。接着,注意力特征后接一个全联接层与softmax层预测下一个单词wi,t′的概率分布:
Figure BDA0002865115950000071
通过RNN的循环过程,我们可以得到所有事件及其对应的句子,且这些句子能感知到周围事件的信息。
如图4所示,一种基于多层级编码-解码器的视频描述系统,包括以下模块:
编码模块,用于获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
解码模块,用于基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列。
上述系统实施例中的内容均适用于本方法实施例中,本方法实施例所具体实现的功能与上述系统实施例相同,并且达到的有益效果与上述系统实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于多层级编码-解码器的视频描述方法,其特征在于,包括以下步骤:
获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务。
2.根据权利要求1所述一种基于多层级编码-解码器的视频描述方法,其特征在于,还包括:
构建多任务损失函数并基于损失函数更新多层级编码器和多层级解码器。
3.根据权利要求2所述一种基于多层级编码-解码器的视频描述方法,其特征在于,所述多层级编码器包括事件层级图卷积层、图池化层和目标层级图卷积层,所述多层级解码器包括句子记忆器和描述生成器,所述损失函数包括句子级别损失和单词级别损失。
4.根据权利要求3所述一种基于多层级编码-解码器的视频描述方法,其特征在于,所述获取视频并基于多层级编码器进行编码处理,构建目标图和事件图这一步骤,其具体包括:
获取视频并对视频进行处理,得到视频帧图像并基于深度神经网络提取视频帧卷积特征;
基于目标层级图卷积层对视频帧卷积特征进行处理,提取目标信息并根据目标的时间关系和空间关系构建目标图;
基于图池化层将目标图层级图卷积层信息聚合并传递给事件层级图卷积层;
基于事件层级图卷积层对目标图进行处理,提取事件信息并根据事件之间的时间关系构建事件图。
5.根据权利要求4所述一种基于多层级编码-解码器的视频描述方法,其特征在于,所述根据目标的时间关系和空间关系构建目标图,具体规则为:
判断到时间关系Sim(oi,oj)>0.3且空间关系IOU(oi,oj)>0.5,建立两个目标对象oi,oj之间的边,所述Sim(·)表示外观相似度度量,所述IOU(·)表示计算空间交互比。
6.根据权利要求5所述一种基于多层级编码-解码器的视频描述方法,其特征在于,所述根据事件之间的时间关系构建事件图,具体规则为:
判断到两个事件之间存在共现关系
Figure FDA0002865115940000011
建立事件之间的边;
判断到两个事件之间存在邻近关系
Figure FDA0002865115940000012
建立事件之间的边;
其中
Figure FDA0002865115940000013
Figure FDA0002865115940000014
表示事件i,j的结束时间,
Figure FDA0002865115940000015
表示事件i,j的开始时间,Ui,j代表两个事件的并集的长度,|di,j|代表了两个事件的边界点的距离。
7.根据权利要求6所述一种基于多层级编码-解码器的视频描述方法,其特征在于,所述基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务这一步骤,其具体包括:
基于句子记忆器对事件图进行解码处理,结合前一句子的信息解码得到所有事件的句子,按顺序生成句子序列;
基于描述生成器按顺序对目标图进行解码处理,结合句子序列和前一单词的信息完成所有目标图的解码,生成单词序列;
基于多任务学习完成文本描述任务和句子标签预测任务。
8.一种基于多层级编码-解码器的视频描述系统,其特征在于,包括以下模块:
编码模块,用于获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
解码模块,用于基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列。
CN202011581321.7A 2020-12-28 2020-12-28 一种基于多层级编码-解码器的视频描述方法及系统 Active CN112738647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581321.7A CN112738647B (zh) 2020-12-28 2020-12-28 一种基于多层级编码-解码器的视频描述方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581321.7A CN112738647B (zh) 2020-12-28 2020-12-28 一种基于多层级编码-解码器的视频描述方法及系统

Publications (2)

Publication Number Publication Date
CN112738647A true CN112738647A (zh) 2021-04-30
CN112738647B CN112738647B (zh) 2022-04-01

Family

ID=75606639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581321.7A Active CN112738647B (zh) 2020-12-28 2020-12-28 一种基于多层级编码-解码器的视频描述方法及系统

Country Status (1)

Country Link
CN (1) CN112738647B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822921A (zh) * 2021-11-22 2021-12-21 四川大学 一种基于深度神经网络的侧位片智能头影测量方法
CN115175006A (zh) * 2022-06-09 2022-10-11 中国科学院大学 基于层级模块化的视频描述方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法
CN109583340A (zh) * 2018-11-15 2019-04-05 中山大学 一种基于深度学习的视频目标检测方法
WO2019105440A1 (zh) * 2017-11-30 2019-06-06 广州市百果园信息技术有限公司 视频编辑推送方法、系统及智能移动终端
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
US20200090069A1 (en) * 2018-09-14 2020-03-19 Disney Enterprises, Inc. Machine learning based video compression
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
WO2019105440A1 (zh) * 2017-11-30 2019-06-06 广州市百果园信息技术有限公司 视频编辑推送方法、系统及智能移动终端
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法
US20200090069A1 (en) * 2018-09-14 2020-03-19 Disney Enterprises, Inc. Machine learning based video compression
CN109583340A (zh) * 2018-11-15 2019-04-05 中山大学 一种基于深度学习的视频目标检测方法
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO KE,HUICHENG ZHENG,LVRAN CHEN,ZHIWEI YAN,YE LI: "Multi-object Tracking by Joint Detection and Identification", 《NEURAL PROCESSIONG LETTERS》 *
CHARLES、洛: "密集事件描述(dense event caption)论文总结", 《HTTPS://BLOG.CSDN.NET/SINAT_35177634/ARTICLE/DETAILS/88782635》 *
李阳: "基于时序特征融合的视频目标检测方法", 《计算机软件及计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822921A (zh) * 2021-11-22 2021-12-21 四川大学 一种基于深度神经网络的侧位片智能头影测量方法
CN113822921B (zh) * 2021-11-22 2022-03-04 四川大学 一种基于深度神经网络的侧位片智能头影测量方法
CN115175006A (zh) * 2022-06-09 2022-10-11 中国科学院大学 基于层级模块化的视频描述方法及系统

Also Published As

Publication number Publication date
CN112738647B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN110334339B (zh) 一种基于位置感知自注意力机制的序列标注模型与标注方法
JP2024500182A (ja) 説明可能なトランスデューサ・トランスフォーマ
CN113241128B (zh) 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN112738647B (zh) 一种基于多层级编码-解码器的视频描述方法及系统
CN109313720A (zh) 具有稀疏访问的外部存储器的增强神经网络
CN115240786A (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
Huang et al. Learning multiaspect traffic couplings by multirelational graph attention networks for traffic prediction
Zhou et al. Learning with annotation of various degrees
Straka et al. PreCNet: Next-frame video prediction based on predictive coding
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
CN115129839A (zh) 基于图感知的视觉对话答案生成方法及装置
CN114715145B (zh) 一种轨迹预测方法、装置、设备及自动驾驶车辆
CN114971748A (zh) 预测数据生成、模型训练方法、计算机设备以及存储介质
Usmani et al. A reinforced active learning algorithm for semantic segmentation in complex imaging
CN113869324A (zh) 一种基于多模态融合的视频常识性知识推理实现方法
CN114817467A (zh) 一种意图识别响应方法、装置、设备及存储介质
CN114881032A (zh) 基于多任务学习的层次类别命名实体识别模型设计方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
WO2021012263A1 (en) Systems and methods for end-to-end deep reinforcement learning based coreference resolution
CN114741460B (zh) 基于规则间关联的知识图谱数据扩展方法及系统
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
CN116257691A (zh) 基于潜在图结构挖掘和用户长短期兴趣融合的推荐方法
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN115831246A (zh) 一种药物化学反应合成与转化率预测联合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant