CN109101948A - 一种基于时空及通道的多注意力机制视频描述方法 - Google Patents
一种基于时空及通道的多注意力机制视频描述方法 Download PDFInfo
- Publication number
- CN109101948A CN109101948A CN201810988895.2A CN201810988895A CN109101948A CN 109101948 A CN109101948 A CN 109101948A CN 201810988895 A CN201810988895 A CN 201810988895A CN 109101948 A CN109101948 A CN 109101948A
- Authority
- CN
- China
- Prior art keywords
- video
- lstm
- word
- current time
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空及通道的多注意力机制视频描述方法,通过CNN网络对视频进行视频特征提取,再基于多注意力网络对视频特征和编码上一时刻的输出进行计算,从而得到视频特征在时域、空域及通道上的注意力权重,再将得三组权重再次与视频特征进行计算得到融合的特征,这样我们就能得到更加有效的视频特征,最后将融合的特征行编码输出,得到与视频内容更加一致的描述。
Description
技术领域
本发明属于光通信技术领域,更为具体地讲,涉及一种基于时空及通道的多注意力机制视频描述方法。
背景技术
视频描述是计算机视觉和自然语言处理两个领域的研究,近年来受到了极大的关注。Venugopalan在2014年出了基于“编码-解码”框架的视频描述模型。论文中的编码模型首先对视频单帧利用CNN提取特征,然后分别采取了均值池化和时序编码的两种编码模型。虽然该模型成功的应用在了视频描述中,但视频描述模型仍存在以下一些问题:
第一个问题是没有对视频特征进行有效的利用。论文中视频特征只在首次解码时使用,而后续时刻并未利用到视频特征,这导致了当时序增加时视频特征对于单词预测的影响减弱,由此会使模型语句生成能力的降低。
对于该问题一种直接的解决方法是每次都将视频特征加入,但视频特征由于是连续多张的图像,如果每时刻仍用均值池化的方式送入解码模型,显然这样仍没有有效的对视频特征进行利用。
Kelvin Xu在图像描述上提出了注意力机制的图像描述模型,通过注意力机制在每次预测单词之前会对每个图像的每个区域进行权重分配,这使得每次预测时使用的特征是不同的,利用该思想,论文提出了基于时域注意力机制的视频描述模型。其模型在每一次进行单词预测时,对所有视频帧的特征分配权重并求和,实验表明,这样能够有效的利用视频的特征信息。
第二个问题是视觉内容特征与语句描述的一致性问题。第一个问题虽然使用基于时域注意力的方法提升了视频特征的利用,但是更深一步来说,这种方式仍未充分的对视频特征和语句描述之间的关系进行建模,由此带来的第二问题就是如何保证视觉内容特征语句描述的一致性。
视频描述任务在基于深度学习的方法下得到了突破性的发展,同时基于视觉注意力机制的技术也成功的应用于视频描述模型,有效的解决了上面所说的第一个问题。
视觉注意力机制广泛的应用于图像视频描述任务中,其主要依据是人类视觉并不会一次性处理整个视觉输入,而是只会关注重要的部分信息。基于这样一个合理的假设,目前的描述模型通常不会使用图像或视频的静态编码特征,而是通过注意力利用句子上下文信息动态提取图像特征。因此视觉注意力是一种在整个时序上结合上下文信息动态提取特征的编码机制。目前的注意力机制主要有基于时域和空域的注意力机制,在此基础之上,我们这两种注意力机制做更进一步的改进,利用CNN网络的本质特性,提出了通道注意力。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于时空及通道的多注意力机制视频描述方法,充分利用视频的各种特征,保证视觉特征和语句描述的一致性,提升模型效果。
为实现上述发明目的,本发明一种基于时空及通道的多注意力机制视频描述方法,其特征在于,包括以下步骤:
(1)、从视频库中随机提取M部视频,再将M部视频同时输入至神经网络CNN;
(2)、训练基于注意力机制的神经网络LSTM
设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;
(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I);
fCNN(I)=VI
其中,VI={v1,v2,…,vN},N表示第I部视频的总帧数,vi表示第i帧的视频特征,vi∈RK*K*C,K为CNN网络输出特征图大小,C为CNN网络输出特征图的通道数量,其大小由网络结构决定;
(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重
在当前时刻t,对第i帧视频特征vi进行空间转换,得到vi={ri1,ri2,…rij,…,rik},rij表示第i帧视频的j个区域特征,j=1,2,…,k;
再利用rij计算空域注意力权重
其中,Watt-s,Uatt-t,batt-s为LSTM待训参数;
(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β;
将第I部视频的视频特征VI变换为UI,UI={u1,u2,…,uC},再对UI进行平均池化,得到当前时刻t时第I部视频的通道特征向量其中,ζC是uC的平均值,表示的是该通道特征值;
则当前时刻t时的通道注意力权重βt为:
βt=softmax(W'bt+b')
其中,表示外积,表示对矩阵和向量进行广播上的相加,Watt-c,bc,Whc,W',b'为LSTM待训参数;
(2.4)、计算第I部视频在当前时刻t时的时域注意力权重
对第I部视频的视频特征VI进行池化,得到VI'={v1',v'2,…,v'N},再计算当前时刻t时的时域注意力权重
其中,Watt-t,Uatt-t,batt-t为LSTM待训参数;
(2.5)、将步骤(2.2)-(2.4)中得到的三个权重因子,分别作用到V上,得到第I部视频在当前时刻t时的输入特征zt;
(2.6)、将ht-1,zt,wt-1送入LSTM网络中,得到当前时刻t时的LSTM输出和单词输出;
ht=fLSTM(ht-1,zt,wt-1)
yt~pt=softmax(Weht+b)
其中,We,b为LSTM待训参数;wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布;
(2.7)、同理,按照步骤(2.1)-(2.6)所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;
(2.8)、令t=t+1,按照步骤(2.1)-(2.7)所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
(2.9)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;
其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示LSTM中所有待训参数;
(2.10)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*;
Ω*=argmaxLy
其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;
(2.11)、重复步骤(1)-(2.10),完成神经网络LSTM的H次训练,得到训练好的神经网络LSTM;
(3)、将待检测视频按照步骤(2.1)-(2.5)所述方法进行处理,将处理后的结果作为LSTM的输入特征,并输入至LSTM,预测出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述。
本发明的发明目的是这样实现的:
本发明一种基于时空及通道的多注意力机制视频描述方法,通过CNN网络对视频进行视频特征提取,再基于多注意力网络对视频特征和编码上一时刻的输出进行计算,从而得到视频特征在时域、空域及通道上的注意力权重,再将得三组权重再次与视频特征进行计算得到融合的特征,这样我们就能得到更加有效的视频特征,最后将融合的特征行编码输出,得到与视频内容更加一致的描述。
同时,本发明一种基于时空及通道的多注意力机制视频描述方法还具有以下有益效果:
(1)、通过使用多注意力机制的方法对视频特征进行提取,相比于传统方法中对视频进行均值池化的方式能够提取更有效的视频特征。
(2)、形成了端到端的描述模型,相比较于传统方法中需要先提取特征,再使用模板描述的两个步骤分开的方法,形成了同一的整体框架,简化处理步骤,提升效率,同时效果更好。
(3)、构建的模型为基于深度学习的模型框架,相比于传统方法中模板描述,模型能够根据大量的视频数据进行进一步的训练更新,从而实时提升效果,解决不同的情况。
附图说明
图1是本发明基于时空及通道的多注意力机制视频描述方法原理图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于时空及通道的多注意力机制视频描述方法原理图。
在本实施例中,如图1所示,本发明一种基于时空及通道的多注意力机制视频描述方法,分别从时域、空域、通道对视觉特征进行强力而有效的提取,从而使得模型的表征能力更强,下面对其进行详细的介绍,具体包括以下步骤:
S1、从视频库中随机提取M部视频,再将M部视频同时输入至神经网络CNN;
S2、训练基于注意力机制的神经网络LSTM
设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;
S2.1、利用神经网络CNN提取第I部视频的视频特征fCNN(I);
fCNN(I)=VI
其中,VI={v1,v2,…,vN},N表示第I部视频的总帧数,vi表示第i帧的视频特征,vi∈RK*K*C,K为CNN网络输出特征图大小,C为CNN网络输出特征图的通道数量,其大小由网络结构决定;
S2.2、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重
在当前时刻t,对第i帧视频特征vi进行空间转换,得到vi={ri1,ri2,…rij,…,rik},rij表示第i帧视频的j个区域特征,j=1,2,…,k;
再利用rij计算空域注意力权重
其中,Watt-s,Uatt-t,batt-s为LSTM待训参数;
S2.3、
计算第I部视频在当前时刻t时的通道注意力权重β;
将第I部视频的视频特征VI变换为UI,UI={u1,u2,…,uC},再对UI进行平均池化,得到当前时刻t时第I部视频的通道特征向量其中,ζC是uC的平均值,表示的是该通道特征值;
则当前时刻t时的通道注意力权重βt为:
βt=softmax(W'bt+b')
其中,表示外积,表示对矩阵和向量进行广播上的相加,Watt-c,bc,Whc,W',b'为LSTM待训参数;
S2.4、计算第I部视频在当前时刻t时的时域注意力权重
对第I部视频的视频特征VI进行池化,得到VI'={v1',v'2,…,v'N},再计算当前时刻t时的时域注意力权重
其中,Watt-t,Uatt-t,batt-t为LSTM待训参数;且满足:
S2.5、将步骤S2.2-S2.4中得到的三个权重因子,分别作用到V上,得到第I部视频在当前时刻t时的输入特征zt;
S2.6、将ht-1,zt,wt-1送入LSTM网络中,得到当前时刻t时的LSTM输出和单词输出;
ht=fLSTM(ht-1,zt,wt-1)
yt~pt=softmax(Weht+b)
其中,We,b为LSTM待训参数;wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布;
S2.7、同理,按照步骤S2.1-S2.6所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;
S2.8、令t=t+1,按照步骤S2.1-S2.7所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
S2.9、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;
其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示LSTM中所有待训参数;
S2.10、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*;
Ω*=argmaxLy
其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;
S2.11、重复步骤S1-S2.10,完成神经网络LSTM的H次训练,得到训练好的神经网络LSTM;
S3、将待检测视频按照步骤S2.1-S2.5所述方法进行处理,将处理后的结果作为LSTM的输入特征,并输入至LSTM,预测出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于时空及通道的多注意力机制视频描述方法,其特征在于,包括以下步骤:
(1)、从视频库中随机提取M部视频,再将M部视频同时输入至神经网络CNN;
(2)、训练基于注意力机制的神经网络LSTM
设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;
(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I);
fCNN(I)=VI
其中,VI={v1,v2,…,vN},N表示第I部视频的总帧数,vi表示第i帧的视频特征,vi∈RK *K*C,C为CNN网络输出特征图的通道数量,其大小由网络结构决定;
(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重
在当前时刻t,对第i帧视频特征vi进行空间转换,得到vi={ri1,ri2,…rij,…,rik},rij表示第i帧视频的j个区域特征,j=1,2,…,k;
再利用rij计算空域注意力权重
其中,Watt-s,Uatt-t,batt-s为LSTM待训参数;
(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β;
将第I部视频的视频特征VI变换为UI,UI={u1,u2,…,uC},再对UI进行平均池化,得到当前时刻t时第I部视频的通道特征向量 其中,ζC是uC的平均值,表示的是该通道特征值;
则当前时刻t时的通道注意力权重βt为:
βt=softmax(W'bt+b')
其中,表示外积,表示对矩阵和向量进行广播上的相加,Watt-c,bc,Whc,W',b'为LSTM待训参数;
(2.4)、计算第I部视频在当前时刻t时的时域注意力权重
对第I部视频的视频特征VI进行池化,得到VI'={v1',v'2,…,v'N},再计算当前时刻t时的时域注意力权重
其中,Watt-t,Uatt-t,batt-t为LSTM待训参数;
(2.5)、将步骤(2.2)-(2.4)中得到的三个权权重因子,分别作用到V上,得到第I部视频在当前时刻t时的输入特征zt;
(2.6)、将ht-1,zt,wt-1送入LSTM网络中,得到当前时刻t时的LSTM输出和单词输出;
ht=fLSTM(ht-1,zt,wt-1)
yt~pt=softmax(Weht+b)
其中,We,b为LSTM待训参数;wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布;
(2.7)、同理,按照步骤(2.1)-(2.6)所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;
(2.8)、令t=t+1,按照步骤(2.1)-(2.7)所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出。
(2.9)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;
其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示LSTM中所有待训参数;
(2.10)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*;
Ω*=argmaxLy
其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;
(2.11)、重复步骤(1)-(2.10),完成神经网络LSTM的H次训练,得到训练好的神经网络LSTM;
(3)、将待检测视频按照步骤(2.1)-(2.5)所述方法进行处理,将处理后的结果作为LSTM的输入特征,并输入至LSTM,预测出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述。
2.根据权利要求1所述的基于时空及通道的多注意力机制视频描述方法,其特征在于,所述的时域注意力权重满足:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810988895.2A CN109101948B (zh) | 2018-08-28 | 2018-08-28 | 一种基于时空及通道的多注意力机制视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810988895.2A CN109101948B (zh) | 2018-08-28 | 2018-08-28 | 一种基于时空及通道的多注意力机制视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109101948A true CN109101948A (zh) | 2018-12-28 |
CN109101948B CN109101948B (zh) | 2021-06-04 |
Family
ID=64863975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810988895.2A Active CN109101948B (zh) | 2018-08-28 | 2018-08-28 | 一种基于时空及通道的多注意力机制视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109101948B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN109871798A (zh) * | 2019-02-01 | 2019-06-11 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
CN109919925A (zh) * | 2019-03-04 | 2019-06-21 | 联觉(深圳)科技有限公司 | 印刷电路板智能检测方法、系统、电子装置及存储介质 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
CN110222777A (zh) * | 2019-06-11 | 2019-09-10 | 北京字节跳动网络技术有限公司 | 图像特征的处理方法、装置、电子设备及存储介质 |
CN110245263A (zh) * | 2019-05-15 | 2019-09-17 | 北京奇艺世纪科技有限公司 | 一种聚合方法、装置、电子设备及存储介质 |
CN111476408A (zh) * | 2020-03-26 | 2020-07-31 | 国网江苏省电力有限公司信息通信分公司 | 一种电力通信设备状态预测方法及系统 |
CN111582587A (zh) * | 2020-05-11 | 2020-08-25 | 深圳赋乐科技有限公司 | 一种视频舆情的预测方法及预测系统 |
CN111598117A (zh) * | 2019-02-21 | 2020-08-28 | 成都通甲优博科技有限责任公司 | 图像识别方法及装置 |
CN111669601A (zh) * | 2020-05-21 | 2020-09-15 | 天津大学 | 一种3d视频智能多域联合预测编码方法及装置 |
CN111753825A (zh) * | 2020-03-27 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、系统、介质及电子设备 |
CN112419321A (zh) * | 2021-01-25 | 2021-02-26 | 长沙理工大学 | X射线图像识别方法、装置、计算机设备及存储介质 |
CN112927357A (zh) * | 2021-03-05 | 2021-06-08 | 电子科技大学 | 一种基于动态图网络的3d物体重建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150035835A1 (en) * | 2013-08-05 | 2015-02-05 | International Business Machines Corporation | Enhanced video description |
US20170150235A1 (en) * | 2015-11-20 | 2017-05-25 | Microsoft Technology Licensing, Llc | Jointly Modeling Embedding and Translation to Bridge Video and Language |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
-
2018
- 2018-08-28 CN CN201810988895.2A patent/CN109101948B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150035835A1 (en) * | 2013-08-05 | 2015-02-05 | International Business Machines Corporation | Enhanced video description |
US20170150235A1 (en) * | 2015-11-20 | 2017-05-25 | Microsoft Technology Licensing, Llc | Jointly Modeling Embedding and Translation to Bridge Video and Language |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Non-Patent Citations (2)
Title |
---|
LI YAO,ET AL: "《Video Description Generation Incorporating Spatio-Temporal Features and a Soft-Attention Mechanism》", 《STATISTICS》 * |
董文普: "《基于深度强化学习的视频自动描述研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN109871798A (zh) * | 2019-02-01 | 2019-06-11 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
CN111598117A (zh) * | 2019-02-21 | 2020-08-28 | 成都通甲优博科技有限责任公司 | 图像识别方法及装置 |
CN109919925A (zh) * | 2019-03-04 | 2019-06-21 | 联觉(深圳)科技有限公司 | 印刷电路板智能检测方法、系统、电子装置及存储介质 |
CN110245263B (zh) * | 2019-05-15 | 2021-08-20 | 北京奇艺世纪科技有限公司 | 一种聚合方法、装置、电子设备及存储介质 |
CN110245263A (zh) * | 2019-05-15 | 2019-09-17 | 北京奇艺世纪科技有限公司 | 一种聚合方法、装置、电子设备及存储介质 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
CN110222777A (zh) * | 2019-06-11 | 2019-09-10 | 北京字节跳动网络技术有限公司 | 图像特征的处理方法、装置、电子设备及存储介质 |
CN110222777B (zh) * | 2019-06-11 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 图像特征的处理方法、装置、电子设备及存储介质 |
CN111476408A (zh) * | 2020-03-26 | 2020-07-31 | 国网江苏省电力有限公司信息通信分公司 | 一种电力通信设备状态预测方法及系统 |
CN111476408B (zh) * | 2020-03-26 | 2023-07-25 | 国网江苏省电力有限公司信息通信分公司 | 一种电力通信设备状态预测方法及系统 |
CN111753825A (zh) * | 2020-03-27 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、系统、介质及电子设备 |
WO2021190257A1 (zh) * | 2020-03-27 | 2021-09-30 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、系统、介质及电子设备 |
JP2022549418A (ja) * | 2020-03-27 | 2022-11-25 | 北京京▲東▼尚科信息技▲術▼有限公司 | 画像記述生成方法、装置、システム、媒体及び電子機器 |
JP7383801B2 (ja) | 2020-03-27 | 2023-11-20 | 北京京▲東▼尚科信息技▲術▼有限公司 | 画像記述生成方法、装置、システム、媒体及び電子機器 |
CN111582587B (zh) * | 2020-05-11 | 2021-06-04 | 深圳赋乐科技有限公司 | 一种视频舆情的预测方法及预测系统 |
CN111582587A (zh) * | 2020-05-11 | 2020-08-25 | 深圳赋乐科技有限公司 | 一种视频舆情的预测方法及预测系统 |
CN111669601B (zh) * | 2020-05-21 | 2022-02-08 | 天津大学 | 一种3d视频智能多域联合预测编码方法及装置 |
CN111669601A (zh) * | 2020-05-21 | 2020-09-15 | 天津大学 | 一种3d视频智能多域联合预测编码方法及装置 |
CN112419321A (zh) * | 2021-01-25 | 2021-02-26 | 长沙理工大学 | X射线图像识别方法、装置、计算机设备及存储介质 |
CN112927357A (zh) * | 2021-03-05 | 2021-06-08 | 电子科技大学 | 一种基于动态图网络的3d物体重建方法 |
CN112927357B (zh) * | 2021-03-05 | 2022-04-19 | 电子科技大学 | 一种基于动态图网络的3d物体重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109101948B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101948A (zh) | 一种基于时空及通道的多注意力机制视频描述方法 | |
CN107066445B (zh) | 一种属性情感词向量的深度学习方法 | |
CN108073711B (zh) | 一种基于知识图谱的关系抽取方法和系统 | |
Vemulapalli et al. | Gaussian conditional random field network for semantic segmentation | |
CN107463609A (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
CN111259738B (zh) | 人脸识别模型构建方法、人脸识别方法及相关装置 | |
CN106650789A (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN109785833A (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
Zheng et al. | An improved sign language translation model with explainable adaptations for processing long sign sentences | |
CN108829677A (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN106250915A (zh) | 一种融合深度特征和语义邻域的自动图像标注方法 | |
CN108665506A (zh) | 图像处理方法、装置、计算机存储介质及服务器 | |
CN109857871A (zh) | 一种基于社交网络海量情景数据的用户关系发现方法 | |
CN103440352B (zh) | 基于深度学习的对象间的关联分析方法及其装置 | |
CN106934458A (zh) | 基于深度学习的多层自动编码方法及系统 | |
CN112905738B (zh) | 一种基于时态知识图谱推理的社交关系演变预测方法 | |
CN109242090A (zh) | 一种基于gan网络的视频描述及描述一致性判别方法 | |
CN107038184A (zh) | 一种基于分层隐变量模型的新闻推荐方法 | |
CN107247751A (zh) | 基于lda主题模型的内容推荐方法 | |
CN109117943A (zh) | 利用多属性信息增强网络表征学习的方法 | |
CN110458242A (zh) | 一种图像描述生成方法、装置、设备以及可读存储介质 | |
CN107506792A (zh) | 一种半监督的显著对象检测方法 | |
CN108882111A (zh) | 一种基于智能音箱的交互方法及系统 | |
CN112287678A (zh) | 一种基于预训练模型的古体诗自动生成方法 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |