CN111723649B - 一种基于语义分解的短视频事件检测方法 - Google Patents

一种基于语义分解的短视频事件检测方法 Download PDF

Info

Publication number
CN111723649B
CN111723649B CN202010383987.5A CN202010383987A CN111723649B CN 111723649 B CN111723649 B CN 111723649B CN 202010383987 A CN202010383987 A CN 202010383987A CN 111723649 B CN111723649 B CN 111723649B
Authority
CN
China
Prior art keywords
node
short video
jth
ith
semantic decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010383987.5A
Other languages
English (en)
Other versions
CN111723649A (zh
Inventor
吕卫
李德盛
井佩光
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010383987.5A priority Critical patent/CN111723649B/zh
Publication of CN111723649A publication Critical patent/CN111723649A/zh
Application granted granted Critical
Publication of CN111723649B publication Critical patent/CN111723649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率。

Description

一种基于语义分解的短视频事件检测方法
技术领域
本发明涉及短视频事件检测领域,尤其涉及一种基于语义分解的短视频事件检测方法。
背景技术
当前,随着手机网络用户的日益增长,人们越来越多地在网络上发布“自创作”内容,如绘画,唱歌,表演等等。而短视频作为这些“自创作”内容的载体广泛出现在各大网络社交平台,且成为新一代青年人群的社交潮流。
短视频的特点为持续时间短,一般不超过30秒,由此导致其天然具有语义集中的特性,即短视频中出现的相应事件往往更为明确。现如今,在大量数据源的背景下,如果想用传统的人工标注的方法判明短视频的具体事件则显得过于笨拙,使得整个工程更加复杂且成本会极大增加。
因此,提出一种有效的短视频事件检测方法是很有意义的。
发明内容
本发明提供了一种基于语义分解的短视频事件检测方法,本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率,详见下文描述:
一种基于语义分解的短视频事件检测方法,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
Figure BDA0002483217410000011
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,
Figure BDA0002483217410000021
为第i个短视频样本第v模态的原始特征向量,
Figure BDA0002483217410000022
为第j个标签的标签词向量,
Figure BDA0002483217410000023
Figure BDA0002483217410000024
为可学习参数,
Figure BDA0002483217410000025
为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
Figure BDA0002483217410000026
其中,max(·)为取最大值符号,
Figure BDA0002483217410000027
为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量,由此构成语义分解项。
进一步地,所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
Figure BDA0002483217410000028
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
Figure BDA0002483217410000029
Figure BDA00024832174100000210
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,
Figure BDA00024832174100000211
为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
Figure BDA00024832174100000212
Figure BDA00024832174100000213
分别为自动编码器l层的权重和偏置,∑(·)为求和符号,
Figure BDA00024832174100000214
为F范数,λ为调节参数;由此构成模态融合项。
其中,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ12,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
Figure BDA0002483217410000031
Figure BDA0002483217410000032
其中,t为图神经网络更新次数,
Figure BDA0002483217410000033
为第i个短视频样本第j个节点的初始隐藏状态,
Figure BDA0002483217410000034
为第t次更新时第i个短视频样本第j个节点的消息传递,
Figure BDA0002483217410000035
为第i个短视频第j个节点t-1次更新的隐藏状态,
Figure BDA0002483217410000036
为第j个节点的所有邻接节点,
Figure BDA0002483217410000037
为连接图结构第j个节点与第
Figure BDA0002483217410000038
个节点的边,代表了第j个标签出现时,第
Figure BDA0002483217410000039
个标签同时出现的概率,
Figure BDA00024832174100000310
为连接图结构第
Figure BDA00024832174100000311
个节点与第j个节点的边,代表了第
Figure BDA00024832174100000312
个标签出现时,第j个标签同时出现的概率。
由此得到第t次更新节点隐藏状态的表达式:
Figure BDA00024832174100000313
Figure BDA00024832174100000314
Figure BDA00024832174100000315
Figure BDA00024832174100000316
其中,Ws,Wr,W,Us,Ur,U为门控循环单元参数,
Figure BDA00024832174100000317
为中间变量,
Figure BDA00024832174100000318
为第i个短视频第j个节点第t次更新的节点隐藏状态,σ(·)为sigmoid函数,tanh(·)为双曲正切函数。
本发明提供的技术方案的有益效果是:
1、本发明利用特征与其标签语义的相关性,构建了特征向量与标签之间的联系,从而使最终结果更能贴合真实事件标签;
2、本发明将短视频的多模态特征数据利用自动编码器进行融合,使得框架能够根据多方面的信息运算,从而得到更为理想的结果;
3、本发明利用图神经网络获取了标签分布中的图结构信息,从而得到了标签之间的相关性,尤其适合短视频的事件检测。
附图说明
图1为一种基于语义分解的短视频事件检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于语义分解的短视频事件检测方法,参见图1,该方法包括以下步骤:
101:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
102:将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,通过最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
103:将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
104:将图神经网络迭代完成后的节点隐藏信息输出到分类器中,即可得到最终的事件检测结果。
具体实现时,在步骤101之前,该方法还包括:
利用VGG-m-2048(视觉几何组网络)的倒数第一个全连接层从短视频数据集中提取2048维视觉(visual)语义特征;
利用TDD(轨迹合并的深度卷积描述符)模型和Fisher Vector(费舍尔矢量)从短视频数据集中提取2048维轨迹(trajectory)语义特征;
使用l2范数对上述两种语义特征进行标准化,形成两个2048维的特征表示,将二者归一化分别得到多模态特征矩阵X1和X2,其中
Figure BDA0002483217410000041
其中N为短视频样本总数,
Figure BDA0002483217410000042
为视觉原始特征向量,
Figure BDA0002483217410000043
为轨迹原始特征向量。
利用GloVe(单词表示的全局向量)模型从短视频标签词中提取512维标签词向量,其与上文两种原始特征向量共同输入到整体模型中。
实施例2
下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用VGG-m-2048网络的倒数第一个全连接层提取2048维度的高级视觉语义特征,利用TDD模型和Fisher Vector从视频数据集中提取2048维度的轨迹特征,使用l2范数对每个模态的特征进行标准化处理,得到最终的标准化多模态特征矩阵X1和X2,其中
Figure BDA0002483217410000051
其中N为短视频样本总数,
Figure BDA0002483217410000052
为视觉原始特征向量,
Figure BDA0002483217410000053
为轨迹原始特征向量。
202:为了将原始特征向量与标签词向量整合到同一维度从而形成向量表示,构建语义分解项:
Figure BDA0002483217410000054
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,
Figure BDA0002483217410000055
为第i个短视频样本第v模态的原始特征向量,
Figure BDA0002483217410000056
为第j个标签的标签词向量,
Figure BDA0002483217410000057
Figure BDA0002483217410000058
为可学习参数,
Figure BDA0002483217410000059
为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
Figure BDA00024832174100000510
s.t.v=1,2,...,V,i=1,2,...,N,j=1,2,...,C
其中,max(·)为取最大值符号,
Figure BDA00024832174100000511
为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量;由此构成语义分解项。
203:将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器中间层作为输出,最小化不同自动编码器的输出差异:
Figure BDA00024832174100000512
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...,V
其中,
Figure BDA0002483217410000061
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,
Figure BDA0002483217410000062
为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
Figure BDA0002483217410000063
Figure BDA0002483217410000064
分别为自动编码器l层的权重和偏置,∑(·)为求和符号,
Figure BDA0002483217410000065
为F范数,λ为调节参数;由此构成模态融合项。
204:将融合后的特征向量作为节点初始状态,输入到图神经网络中,假设图结构用{Ψ,E}来表示,其中Ψ={ψ12,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
Figure BDA0002483217410000066
Figure BDA0002483217410000067
其中,t为图神经网络更新次数,
Figure BDA0002483217410000068
为第i个短视频样本第j个节点的初始隐藏状态,
Figure BDA0002483217410000069
为第t次更新时第i个短视频样本第j个节点的消息传递,
Figure BDA00024832174100000610
为第i个短视频第j个节点t-1次更新的隐藏状态,
Figure BDA00024832174100000611
为第j个节点的所有邻接节点,
Figure BDA00024832174100000612
为连接图结构第j个节点与第
Figure BDA00024832174100000613
个节点的边,代表了第j个标签出现时,第
Figure BDA00024832174100000614
个标签同时出现的概率,
Figure BDA00024832174100000615
为连接图结构第
Figure BDA00024832174100000616
个节点与第j个节点的边,代表了第
Figure BDA00024832174100000617
个标签出现时,第j个标签同时出现的概率。
由此可以得到第t次更新节点隐藏状态的表达式:
Figure BDA00024832174100000618
其中,Ws,Wr,W,Us,Ur,U为门控循环单元(GRU)参数,
Figure BDA0002483217410000071
为中间变量,
Figure BDA0002483217410000072
为第i个短视频第j个节点第t次更新的节点隐藏状态,σ(·)为sigmoid函数,tanh(·)为双曲正切函数,由此构成标签相关性学习项。门控循环单元为本领域技术人员公知,在此不再赘述。
205:将图神经网络学习得到的节点隐藏状态代入分类器中:
Figure BDA0002483217410000073
其中,
Figure BDA0002483217410000074
为第i个短视频是否属于第j个标签的预测结果,fj(·)为判断样本是否属于第j个标签的二元分类器。
206:由此引出网络的目标损失函数:
Figure BDA0002483217410000075
其中,yij为第i个短视频是否属于第j个标签的真实结果,LF为损失函数,log(·)为对数函数,由最小化损失函数进行训练即可得到最终的网络模型参数。
207:将测试集的原始数据进行提取特征处理后带入训练好的整体网络模型中,依次经历语义分解,自动编码器和图神经网络,最终得到最后的事件检测结果。
综上所述,本发明实施例利用短视频多模态共存的特征,借助标签信息,将多模态的原始特征向量经语义分解后通过自动编码器融合成同一特征向量,使得最终结果的鲁棒性得到提高,结合标签空间的图结构信息,模型整体能够根据图节点之间的消息传递学习到不同标签对应特征向量之间的相关性,从而使最终学习结果更能贴合事件检测的需求;本发明将多种思想结合在一起以实现最优效果,尤其适合短视频的事件检测,最终得到了较好的输出结果。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果;
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
Figure FDA0003589042920000011
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,
Figure FDA0003589042920000012
为第i个短视频样本第v模态的原始特征向量,
Figure FDA0003589042920000013
为第j个标签的标签词向量,
Figure FDA0003589042920000014
Figure FDA0003589042920000015
为可学习参数,
Figure FDA0003589042920000016
为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
Figure FDA0003589042920000017
其中,max为取最大值符号,
Figure FDA0003589042920000018
为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量,由此构成语义分解项。
2.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,
所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
Figure FDA0003589042920000021
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
Figure FDA0003589042920000022
Figure FDA0003589042920000023
其中,AE为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,
Figure FDA0003589042920000024
为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
Figure FDA0003589042920000025
Figure FDA0003589042920000026
分别为自动编码器l层的权重和偏置,∑为求和符号,
Figure FDA0003589042920000027
为F范数,λ为调节参数;由此构成模态融合项。
3.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ12,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
Figure FDA0003589042920000028
Figure FDA0003589042920000029
其中,t为图神经网络更新次数,
Figure FDA00035890429200000210
为第i个短视频样本第j个节点的初始隐藏状态,
Figure FDA00035890429200000211
为第t次更新时第i个短视频样本第j个节点的消息传递,
Figure FDA00035890429200000212
为第i个短视频第j个节点t-1次更新的隐藏状态,j为第j个节点的所有邻接节点,ejj为连接图结构第j个节点与第j个节点的边,代表了第j个标签出现时,第j个标签同时出现的概率,ejj为连接图结构第j个节点与第j个节点的边,代表了第j个标签出现时,第j个标签同时出现的概率;
由此得到第t次更新节点隐藏状态的表达式:
Figure FDA0003589042920000031
Figure FDA0003589042920000032
Figure FDA0003589042920000033
Figure FDA0003589042920000034
其中,Ws,Wr,W,Us,Ur,U为门控循环单元参数,
Figure FDA0003589042920000035
为中间变量,
Figure FDA0003589042920000036
为第i个短视频第j个节点第t次更新的节点隐藏状态,σ为sigmoid函数,tanh为双曲正切函数。
CN202010383987.5A 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法 Active CN111723649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383987.5A CN111723649B (zh) 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383987.5A CN111723649B (zh) 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法

Publications (2)

Publication Number Publication Date
CN111723649A CN111723649A (zh) 2020-09-29
CN111723649B true CN111723649B (zh) 2022-08-12

Family

ID=72564786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383987.5A Active CN111723649B (zh) 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法

Country Status (1)

Country Link
CN (1) CN111723649B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287170B (zh) * 2020-10-13 2022-05-17 泉州津大智能研究院有限公司 一种基于多模态联合学习的短视频分类方法及装置
CN113569717A (zh) * 2021-07-26 2021-10-29 上海明略人工智能(集团)有限公司 基于标签语义的短视频事件分类方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229440A (zh) * 2018-02-06 2018-06-29 北京奥开信息科技有限公司 一种基于多传感器融合室内人体姿态识别方法
CN109829413A (zh) * 2019-01-25 2019-05-31 清华大学 一种基于快速多图融合学习的立体视觉对象识别系统
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039200B2 (en) * 2003-03-31 2006-05-02 Microsoft Corporation System and process for time delay estimation in the presence of correlated noise and reverberation
CN102629279B (zh) * 2012-03-23 2014-06-11 天津大学 一种用于图像或视频搜索重排序的方法
US11301774B2 (en) * 2017-02-28 2022-04-12 Nec Corporation System and method for multi-modal graph-based personalization
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN108304795B (zh) * 2018-01-29 2020-05-12 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
CN108734210B (zh) * 2018-05-17 2021-10-15 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN109344887B (zh) * 2018-09-18 2020-07-07 山东大学 基于多模态字典学习的短视频分类方法、系统及介质
CN109858390B (zh) * 2019-01-10 2020-11-24 浙江大学 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN110337016B (zh) * 2019-06-13 2020-08-14 山东大学 基于多模态图卷积网络的短视频个性化推荐方法、系统、可读存储介质以及计算机设备
CN110532861B (zh) * 2019-07-18 2021-03-23 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN110807335B (zh) * 2019-09-02 2023-06-30 腾讯科技(深圳)有限公司 基于机器学习的翻译方法、装置、设备及存储介质
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229440A (zh) * 2018-02-06 2018-06-29 北京奥开信息科技有限公司 一种基于多传感器融合室内人体姿态识别方法
CN109829413A (zh) * 2019-01-25 2019-05-31 清华大学 一种基于快速多图融合学习的立体视觉对象识别系统
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Also Published As

Publication number Publication date
CN111723649A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN108733792B (zh) 一种实体关系抽取方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN108829757A (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
WO2022001333A1 (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN110263174B (zh) —基于焦点关注的主题类别分析方法
Islam et al. A review on video classification with methods, findings, performance, challenges, limitations and future work
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN114090780A (zh) 一种基于提示学习的快速图片分类方法
Zhang et al. Sentiment classification for Chinese text based on interactive multitask learning
CN111723649B (zh) 一种基于语义分解的短视频事件检测方法
Wang et al. One-shot learning for long-tail visual relation detection
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
Gupta et al. Deep transfer learning with ontology for image classification
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN113254675A (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant