CN111723649A - 一种基于语义分解的短视频事件检测方法 - Google Patents

一种基于语义分解的短视频事件检测方法 Download PDF

Info

Publication number
CN111723649A
CN111723649A CN202010383987.5A CN202010383987A CN111723649A CN 111723649 A CN111723649 A CN 111723649A CN 202010383987 A CN202010383987 A CN 202010383987A CN 111723649 A CN111723649 A CN 111723649A
Authority
CN
China
Prior art keywords
node
short video
semantic decomposition
feature vectors
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010383987.5A
Other languages
English (en)
Other versions
CN111723649B (zh
Inventor
吕卫
李德盛
井佩光
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010383987.5A priority Critical patent/CN111723649B/zh
Publication of CN111723649A publication Critical patent/CN111723649A/zh
Application granted granted Critical
Publication of CN111723649B publication Critical patent/CN111723649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率。

Description

一种基于语义分解的短视频事件检测方法
技术领域
本发明涉及短视频事件检测领域,尤其涉及一种基于语义分解的短视频事件检测方法。
背景技术
当前,随着手机网络用户的日益增长,人们越来越多地在网络上发布“自创作”内容,如绘画,唱歌,表演等等。而短视频作为这些“自创作”内容的载体广泛出现在各大网络社交平台,且成为新一代青年人群的社交潮流。
短视频的特点为持续时间短,一般不超过30秒,由此导致其天然具有语义集中的特性,即短视频中出现的相应事件往往更为明确。现如今,在大量数据源的背景下,如果想用传统的人工标注的方法判明短视频的具体事件则显得过于笨拙,使得整个工程更加复杂且成本会极大增加。
因此,提出一种有效的短视频事件检测方法是很有意义的。
发明内容
本发明提供了一种基于语义分解的短视频事件检测方法,本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率,详见下文描述:
一种基于语义分解的短视频事件检测方法,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
Figure BDA0002483217410000011
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,
Figure BDA0002483217410000021
为第i个短视频样本第v模态的原始特征向量,
Figure BDA0002483217410000022
为第j个标签的标签词向量,
Figure BDA0002483217410000023
Figure BDA0002483217410000024
为可学习参数,
Figure BDA0002483217410000025
为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
Figure BDA0002483217410000026
其中,max(·)为取最大值符号,
Figure BDA0002483217410000027
为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量,由此构成语义分解项。
进一步地,所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
Figure BDA0002483217410000028
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
Figure BDA0002483217410000029
Figure BDA00024832174100000210
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,
Figure BDA00024832174100000211
为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
Figure BDA00024832174100000212
Figure BDA00024832174100000213
分别为自动编码器l层的权重和偏置,∑(·)为求和符号,
Figure BDA00024832174100000214
为F范数,λ为调节参数;由此构成模态融合项。
其中,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ12,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
Figure BDA0002483217410000031
Figure BDA0002483217410000032
其中,t为图神经网络更新次数,
Figure BDA0002483217410000033
为第i个短视频样本第j个节点的初始隐藏状态,
Figure BDA0002483217410000034
为第t次更新时第i个短视频样本第j个节点的消息传递,
Figure BDA0002483217410000035
为第i个短视频第j个节点t-1次更新的隐藏状态,
Figure BDA0002483217410000036
为第j个节点的所有邻接节点,
Figure BDA0002483217410000037
为连接图结构第j个节点与第
Figure BDA0002483217410000038
个节点的边,代表了第j个标签出现时,第
Figure BDA0002483217410000039
个标签同时出现的概率,
Figure BDA00024832174100000310
为连接图结构第
Figure BDA00024832174100000311
个节点与第j个节点的边,代表了第
Figure BDA00024832174100000312
个标签出现时,第j个标签同时出现的概率。
由此得到第t次更新节点隐藏状态的表达式:
Figure BDA00024832174100000313
Figure BDA00024832174100000314
Figure BDA00024832174100000315
Figure BDA00024832174100000316
其中,Ws,Wr,W,Us,Ur,U为门控循环单元参数,
Figure BDA00024832174100000317
为中间变量,
Figure BDA00024832174100000318
为第i个短视频第j个节点第t次更新的节点隐藏状态,σ(·)为sigmoid函数,tanh(·)为双曲正切函数。
本发明提供的技术方案的有益效果是:
1、本发明利用特征与其标签语义的相关性,构建了特征向量与标签之间的联系,从而使最终结果更能贴合真实事件标签;
2、本发明将短视频的多模态特征数据利用自动编码器进行融合,使得框架能够根据多方面的信息运算,从而得到更为理想的结果;
3、本发明利用图神经网络获取了标签分布中的图结构信息,从而得到了标签之间的相关性,尤其适合短视频的事件检测。
附图说明
图1为一种基于语义分解的短视频事件检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于语义分解的短视频事件检测方法,参见图1,该方法包括以下步骤:
101:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
102:将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,通过最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
103:将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
104:将图神经网络迭代完成后的节点隐藏信息输出到分类器中,即可得到最终的事件检测结果。
具体实现时,在步骤101之前,该方法还包括:
利用VGG-m-2048(视觉几何组网络)的倒数第一个全连接层从短视频数据集中提取2048维视觉(visual)语义特征;
利用TDD(轨迹合并的深度卷积描述符)模型和Fisher Vector(费舍尔矢量)从短视频数据集中提取2048维轨迹(trajectory)语义特征;
使用l2范数对上述两种语义特征进行标准化,形成两个2048维的特征表示,将二者归一化分别得到多模态特征矩阵X1和X2,其中
Figure BDA0002483217410000041
其中N为短视频样本总数,
Figure BDA0002483217410000042
为视觉原始特征向量,
Figure BDA0002483217410000043
为轨迹原始特征向量。
利用GloVe(单词表示的全局向量)模型从短视频标签词中提取512维标签词向量,其与上文两种原始特征向量共同输入到整体模型中。
实施例2
下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用VGG-m-2048网络的倒数第一个全连接层提取2048维度的高级视觉语义特征,利用TDD模型和Fisher Vector从视频数据集中提取2048维度的轨迹特征,使用l2范数对每个模态的特征进行标准化处理,得到最终的标准化多模态特征矩阵X1和X2,其中
Figure BDA0002483217410000051
其中N为短视频样本总数,
Figure BDA0002483217410000052
为视觉原始特征向量,
Figure BDA0002483217410000053
为轨迹原始特征向量。
202:为了将原始特征向量与标签词向量整合到同一维度从而形成向量表示,构建语义分解项:
Figure BDA0002483217410000054
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,
Figure BDA0002483217410000055
为第i个短视频样本第v模态的原始特征向量,
Figure BDA0002483217410000056
为第j个标签的标签词向量,
Figure BDA0002483217410000057
Figure BDA0002483217410000058
为可学习参数,
Figure BDA0002483217410000059
为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
Figure BDA00024832174100000510
s.t.v=1,2,...,V,i=1,2,...,N,j=1,2,...,C
其中,max(·)为取最大值符号,
Figure BDA00024832174100000511
为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量;由此构成语义分解项。
203:将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器中间层作为输出,最小化不同自动编码器的输出差异:
Figure BDA00024832174100000512
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...,V
其中,
Figure BDA0002483217410000061
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,
Figure BDA0002483217410000062
为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
Figure BDA0002483217410000063
Figure BDA0002483217410000064
分别为自动编码器l层的权重和偏置,∑(·)为求和符号,
Figure BDA0002483217410000065
为F范数,λ为调节参数;由此构成模态融合项。
204:将融合后的特征向量作为节点初始状态,输入到图神经网络中,假设图结构用{Ψ,E}来表示,其中Ψ={ψ12,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
Figure BDA0002483217410000066
Figure BDA0002483217410000067
其中,t为图神经网络更新次数,
Figure BDA0002483217410000068
为第i个短视频样本第j个节点的初始隐藏状态,
Figure BDA0002483217410000069
为第t次更新时第i个短视频样本第j个节点的消息传递,
Figure BDA00024832174100000610
为第i个短视频第j个节点t-1次更新的隐藏状态,
Figure BDA00024832174100000611
为第j个节点的所有邻接节点,
Figure BDA00024832174100000612
为连接图结构第j个节点与第
Figure BDA00024832174100000613
个节点的边,代表了第j个标签出现时,第
Figure BDA00024832174100000614
个标签同时出现的概率,
Figure BDA00024832174100000615
为连接图结构第
Figure BDA00024832174100000616
个节点与第j个节点的边,代表了第
Figure BDA00024832174100000617
个标签出现时,第j个标签同时出现的概率。
由此可以得到第t次更新节点隐藏状态的表达式:
Figure BDA00024832174100000618
其中,Ws,Wr,W,Us,Ur,U为门控循环单元(GRU)参数,
Figure BDA0002483217410000071
为中间变量,
Figure BDA0002483217410000072
为第i个短视频第j个节点第t次更新的节点隐藏状态,σ(·)为sigmoid函数,tanh(·)为双曲正切函数,由此构成标签相关性学习项。门控循环单元为本领域技术人员公知,在此不再赘述。
205:将图神经网络学习得到的节点隐藏状态代入分类器中:
Figure BDA0002483217410000073
其中,
Figure BDA0002483217410000074
为第i个短视频是否属于第j个标签的预测结果,fj(·)为判断样本是否属于第j个标签的二元分类器。
206:由此引出网络的目标损失函数:
Figure BDA0002483217410000075
其中,yij为第i个短视频是否属于第j个标签的真实结果,LF为损失函数,log(·)为对数函数,由最小化损失函数进行训练即可得到最终的网络模型参数。
207:将测试集的原始数据进行提取特征处理后带入训练好的整体网络模型中,依次经历语义分解,自动编码器和图神经网络,最终得到最后的事件检测结果。
综上所述,本发明实施例利用短视频多模态共存的特征,借助标签信息,将多模态的原始特征向量经语义分解后通过自动编码器融合成同一特征向量,使得最终结果的鲁棒性得到提高,结合标签空间的图结构信息,模型整体能够根据图节点之间的消息传递学习到不同标签对应特征向量之间的相关性,从而使最终学习结果更能贴合事件检测的需求;本发明将多种思想结合在一起以实现最优效果,尤其适合短视频的事件检测,最终得到了较好的输出结果。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。
2.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
Figure FDA0002483217400000011
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,
Figure FDA0002483217400000012
为第i个短视频样本第v模态的原始特征向量,
Figure FDA0002483217400000013
为第j个标签的标签词向量,
Figure FDA0002483217400000014
Figure FDA0002483217400000015
为可学习参数,
Figure FDA0002483217400000016
为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
Figure FDA0002483217400000017
其中,max(·)为取最大值符号,
Figure FDA0002483217400000018
为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量,由此构成语义分解项。
3.根据权利要求2所述的一种基于语义分解的短视频事件检测方法,其特征在于,
所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
Figure FDA0002483217400000021
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
Figure FDA0002483217400000022
Figure FDA0002483217400000023
其中,AE(·)为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,
Figure FDA0002483217400000024
为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
Figure FDA0002483217400000025
Figure FDA0002483217400000026
分别为自动编码器l层的权重和偏置,∑(·)为求和符号,
Figure FDA0002483217400000027
为F范数,λ为调节参数;由此构成模态融合项。
4.根据权利要求2所述的一种基于语义分解的短视频事件检测方法,其特征在于,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ12,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc,为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
Figure FDA0002483217400000028
Figure FDA0002483217400000029
其中,t为图神经网络更新次数,
Figure FDA00024832174000000210
为第i个短视频样本第j个节点的初始隐藏状态,
Figure FDA00024832174000000211
为第t次更新时第i个短视频样本第j个节点的消息传递,
Figure FDA00024832174000000212
为第i个短视频第j个节点t-1次更新的隐藏状态,
Figure FDA00024832174000000213
为第j个节点的所有邻接节点,
Figure FDA00024832174000000214
为连接图结构第j个节点与第
Figure FDA00024832174000000215
个节点的边,代表了第j个标签出现时,第
Figure FDA00024832174000000216
个标签同时出现的概率,
Figure FDA00024832174000000217
为连接图结构第
Figure FDA0002483217400000031
个节点与第j个节点的边,代表了第
Figure FDA0002483217400000032
个标签出现时,第j个标签同时出现的概率;
由此得到第t次更新节点隐藏状态的表达式:
Figure FDA0002483217400000033
Figure FDA0002483217400000034
Figure FDA0002483217400000035
Figure FDA0002483217400000036
其中,Ws,Wr,W,Us,Ur,U为门控循环单元参数,
Figure FDA0002483217400000037
为中间变量,
Figure FDA0002483217400000038
为第i个短视频第j个节点第t次更新的节点隐藏状态,σ(·)为sigmoid函数,tanh(·)为双曲正切函数。
CN202010383987.5A 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法 Active CN111723649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383987.5A CN111723649B (zh) 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383987.5A CN111723649B (zh) 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法

Publications (2)

Publication Number Publication Date
CN111723649A true CN111723649A (zh) 2020-09-29
CN111723649B CN111723649B (zh) 2022-08-12

Family

ID=72564786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383987.5A Active CN111723649B (zh) 2020-05-08 2020-05-08 一种基于语义分解的短视频事件检测方法

Country Status (1)

Country Link
CN (1) CN111723649B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287170A (zh) * 2020-10-13 2021-01-29 泉州津大智能研究院有限公司 一种基于多模态联合学习的短视频分类方法及装置
CN113569717A (zh) * 2021-07-26 2021-10-29 上海明略人工智能(集团)有限公司 基于标签语义的短视频事件分类方法、系统、设备及介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040190730A1 (en) * 2003-03-31 2004-09-30 Yong Rui System and process for time delay estimation in the presence of correlated noise and reverberation
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN108229440A (zh) * 2018-02-06 2018-06-29 北京奥开信息科技有限公司 一种基于多传感器融合室内人体姿态识别方法
CN108304795A (zh) * 2018-01-29 2018-07-20 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
US20180247224A1 (en) * 2017-02-28 2018-08-30 Nec Europe Ltd. System and method for multi-modal graph-based personalization
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN109344887A (zh) * 2018-09-18 2019-02-15 山东大学 基于多模态字典学习的短视频分类方法、系统及介质
CN109829413A (zh) * 2019-01-25 2019-05-31 清华大学 一种基于快速多图融合学习的立体视觉对象识别系统
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110337016A (zh) * 2019-06-13 2019-10-15 山东大学 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110807335A (zh) * 2019-09-02 2020-02-18 腾讯科技(深圳)有限公司 基于机器学习的翻译方法、装置、设备及存储介质
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040190730A1 (en) * 2003-03-31 2004-09-30 Yong Rui System and process for time delay estimation in the presence of correlated noise and reverberation
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法
US20180247224A1 (en) * 2017-02-28 2018-08-30 Nec Europe Ltd. System and method for multi-modal graph-based personalization
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN108304795A (zh) * 2018-01-29 2018-07-20 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
CN108229440A (zh) * 2018-02-06 2018-06-29 北京奥开信息科技有限公司 一种基于多传感器融合室内人体姿态识别方法
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN109344887A (zh) * 2018-09-18 2019-02-15 山东大学 基于多模态字典学习的短视频分类方法、系统及介质
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109829413A (zh) * 2019-01-25 2019-05-31 清华大学 一种基于快速多图融合学习的立体视觉对象识别系统
CN110337016A (zh) * 2019-06-13 2019-10-15 山东大学 基于多模态图卷积网络的短视频个性化推荐方法及系统
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN110807335A (zh) * 2019-09-02 2020-02-18 腾讯科技(深圳)有限公司 基于机器学习的翻译方法、装置、设备及存储介质
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PANDA PRIYADARSHINI: "Energy-Efficient Object Detection Using Semantic Decomposition", 《 IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION》 *
吕卫: "三维成像激光雷达高带宽数据采集与存储系统", 《激光与光电子学进展》 *
孙婷: "一种基于交替凸优化的视频对象分割算法研究", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287170A (zh) * 2020-10-13 2021-01-29 泉州津大智能研究院有限公司 一种基于多模态联合学习的短视频分类方法及装置
CN112287170B (zh) * 2020-10-13 2022-05-17 泉州津大智能研究院有限公司 一种基于多模态联合学习的短视频分类方法及装置
CN113569717A (zh) * 2021-07-26 2021-10-29 上海明略人工智能(集团)有限公司 基于标签语义的短视频事件分类方法、系统、设备及介质

Also Published As

Publication number Publication date
CN111723649B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN108829757A (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110263325B (zh) 中文分词系统
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN112069811A (zh) 多任务交互增强的电子文本事件抽取方法
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN114090780A (zh) 一种基于提示学习的快速图片分类方法
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN111666400B (zh) 消息获取方法、装置、计算机设备及存储介质
CN111753091B (zh) 分类方法、分类模型的训练方法、装置、设备及存储介质
CN111723649B (zh) 一种基于语义分解的短视频事件检测方法
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN111914544A (zh) 一种比喻句识别方法、装置、设备及存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN118171149B (zh) 标签分类方法、装置、设备、存储介质和计算机程序产品
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN114925205A (zh) 基于对比学习的gcn-gru文本分类方法
CN115860152A (zh) 一种面向人物军事知识发现的跨模态联合学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant