CN113688871B - 基于Transformer的视频多标签动作识别方法 - Google Patents
基于Transformer的视频多标签动作识别方法 Download PDFInfo
- Publication number
- CN113688871B CN113688871B CN202110844557.3A CN202110844557A CN113688871B CN 113688871 B CN113688871 B CN 113688871B CN 202110844557 A CN202110844557 A CN 202110844557A CN 113688871 B CN113688871 B CN 113688871B
- Authority
- CN
- China
- Prior art keywords
- sequence
- video
- matrix
- frame
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于Transformer的视频多标签动作识别方法,具体为:对提取的长视频的特征序列进行降维处理得到新的特征序列F,将特征序列F与预设第一权重矩阵W相乘得到特征序列V,将V中每个元素对应的视频帧的时序位置进行编码,得到编码矩阵P;将V和P输入至Transformer编码器得到序列V′,根据V′提取长视频中关键动作的开始帧和结束帧;将预设的序列与P分别作为Transformer解码器的输入;将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系,从而提高了多标签分类的精度。
Description
技术领域
本发明属于计算机视觉领域。
背景技术
随着视频检索、人机交互、视频监控、数字娱乐等应用的发展,视频理解和视频动作识别也占据着越来越重要的地位。视频动作识别的方法可以大体概括为两步:1)提取视频特征;2)将视频特征输入到分类器中得到各个标签的概率分布,概率最大的标签就是所输入视频的预测标签。
传统的视频识别方法通过改进后的密集轨迹方法(iDT)对视频特征进行提取,并且通过费舍尔(Fisher)编码方式将视频帧变为相同维度的向量,将视频特征向量输入到支持向量机(SVM)中得到概率分布。后来随着CNN的出现,视频领域也出现了3D-CNN,对视频的空间上和时间上都进行卷积操作从而提取出视频的特征,再输入到SVM中,这些视频识别方法在较短和内容简单的数据集上取得了不错的效果,例如UCF101和Weziman数据集。但是在类似于HollyWood2这种以电影片段为主的多动作的复杂视频数据集上,所取得的效果就很差。
在现实生活场景中,所获得的视频大多都是时间较长,且视频内容比较复杂的,因此近些年来,人们也致力于多动作的复杂视频动作识别研究。典型的复杂视频动作识别方法有单镜头动作检测器(SSAD)、时态分割网络(TSN)、慢速网络(SlowFast Network)、高效卷积网络(ECO)等。这一类方法不仅需要消耗大量的训练时间且大多只是通过单个标签对一段视频进行描述,最后再通过单标签分类对视频动作进行识别,但是在实际应用场景中,我们很难用一个标签去准确的描述整段视频,例如这样一个镜头:一个人在坐着说话,如果选择单标签分类的话,我们可以将这段视频中的动作描述为“坐”,但是也可以将动作描述为“说话”,因此多标签分类被应用在了视频领域上。虽然已经产生了很多视频多标签分类的方法,但是大多数方法都忽略了标签与标签之间所存在的依赖关系。
综上所述,我们知道目前为止,视频动作识别技术所面临的主要难题为:
1)现有动作识别方法大多只用单个标签描述视频,不符合实际应用场景;
2)现有多标签分类方法大多没有考虑标签与标签之间的依赖关系;
3)现有模型需要消耗大量的时间进行训练。
发明内容
发明目的:为了解决上述现有技术存在的问题,本发明提供了一种基于Transformer的视频多标签动作识别方法。
技术方案:本发明提供了一种基于Transformer的视频多标签动作识别方法,具体包括如下步骤:
步骤1:采用3D-CNN的方法提取长视频的特征序列,特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧;i=1,2,...,m,m为特征序列中特征向量的总个数,
步骤2:对特征序列进行降维处理,得到新的特征序列F;
步骤3:将特征序列F与预设第一权重矩阵W相乘得到特征序列V,V={v1,v2,...,vi,...,vm},其中vi为V中第i个元素;
步骤4:对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P={p1,p2,...,pi,...,pm},pi为P中第i个元素;
步骤5:将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入,得到Transformer编码器输出的序列V′={v′1,v′2,...,v′i,...,v′m},v′i为V′中第i个元素;
步骤6:根据V′提取长视频中关键动作的开始帧和结束帧,将V′中与开始帧对应的元素作为开始元素v′start;V′中与结束帧对应的元素作为结束元素v′end;
步骤7:采用预设的序列作为开始标记,将开始标记与位置编码矩阵P分别作为Transformer解码器的输入;
步骤8:将v′start,v′end以及V′中位于v′start和v′end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K,将乘以预设的第三权重矩阵得到矩阵K′;将矩阵K和矩阵K′输入至Transformer解码器中Muti-head Attention层;
步骤9:Transformer解码器输出长视频中关键动作的所有分类标签。
进一步的,采用教师网络,通过知识蒸馏的方式对Transformer编码器和Transformer解码器进行训练。
进一步的,所述步骤4中根据如下公式计算得到pi:
其中,M为V中每个元素的维度,且M为偶数。
进一步的,所述步骤6中根据V′提取长视频中关键动作的开始帧和结束帧具体为:设置第一网络模型和第二网络模型;所述第一网络模型和第二网络模型的结构相同均包括相互连接的点乘模块和softmax模块,将第一网络模型和第二网络模型均作为学生网络,采用教师网络分别对第一网络模型和第二网络模型进行训练;得到第一网络模型的权重向量S和第二网络模型的权重向量E;
将序列V′输入至训练好的第一网络模型,点乘模块将V′中的元素与权重向量S进行点乘得到向量A={a1,a2,...,ai,...,am},其中ai=v′i·S;将向量A输入至softmax模块根据如下公式计算A中每个元素的概率,并选择概率最大的元素对应的视频帧作为开始帧:
其中exp(·)表示e(·);
将序列V′输入至第二网络模型中,点乘模块将V′中的元素与权重向量E进行点乘得到向量A’;将向量A’输入至softmax模块计算A’中每个元素的概率,并选择概率最大的元素对应的视频帧作为结束帧。
有益效果:
(1)本发明主要使用了Transformer模型,Transformer模型本身的结构能够有效的弥补传统深度学习网络模型的不足。
(2)本发明只对视频中的关键片段进行多标签分类,在一定程度上有效的减少了模型的数据量,同时这种方法也能够很好的用于长视频的动作识别。
(3)不同于大多数的传统方法,本发明在获取到视频多标签的同时,也考虑了标签与标签之间的联系,从而提高了多标签分类的精度。
(4)本发明采取知识蒸馏的方法对本发明中所提出来的所有网络模型进行训练,有效的减少了模型的训练时间。
附图说明
图1为整个Transformer结构图;
图2为本发明的关键动作检测过程图;
图3为本发明的多标签分类过程图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
本实施例提供基于Transformer的视频多标签动作识别方法,该方法整体思路是在一段长视频中检测出动作所在的视频片段,预测该段视频的多标签。本方法的主要核心是对视频关键动作进行检测,首先提取长视频的特征,将视频的特征序列输入到Transformer编码器中,得到一个新的序列,对所得序列进行进一步处理得到视频关键动作所在的开始帧和结束帧,将关键动作片段输入到Transformer解码器中,根据标签与标签之间的关系预测视频的多个标签,并且通过知识蒸馏的方式对模型进行训练,其具体步骤如下:
所述关键动作检测部分具体包括如下步骤:
步骤1:提取一段长视频中的视频帧,共有m帧,通过3D-CNN的方法提取长视频特征,m个特征向量组成特征序列,特征序列中第i个特征对应在长视频中时序位置为i的视频帧;i=1,2,...,m;所述时序位置为对每个视频帧按照时间序列从1到m进行编码,该编码为时序位置;
步骤2:对特征序列通过1×1卷积进行降维处理,处理后得到新的序列F={f1,f2,...,fm};fi表示F中第i个元素;
步骤3:将特征序列F与一个权重矩阵W相乘得到特征序列V={v1,v2,...,vm};
步骤4:对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P={p1,p2,...,pi,...,pm},pi为P中第i个元素;
步骤5:将步骤3得到的特征序列V和位置编码矩阵P共同作为Transformer编码器的输入,得到新的序列V′={v′1,v′2,...,v′m},即word embedding;
步骤6:根据V′提取长视频中关键动作的开始帧和结束帧,将V′中与开始帧对应的元素作为开始元素v′start;V′中与结束帧对应的元素作为结束元素v′end。
所述多标签分类部分具体包括如下步骤:
步骤A:通过一个预设的序列来表示开始标记,并且将开始标记输入到Transformer结构的解码器中,这也是输入解码器的第一个序列;
步骤B:将编码器中提取到的开始帧位置和结束帧位置之间的word embedding作为解码器中多头注意力(Muti-head Attention)层的输入;
步骤C:解码器输出视频的一个预测标签;
步骤D:将步骤C得到的预测标签重新作为解码器的输入,从而得到下一个预测标签;
步骤E:重复步骤C和步骤D,直到解码器输出结束标记,结束标记也是通过一个特殊的序列来进行表示,最终得到关于该视频动作片段的所有分类标签。
所述方法训练过程具体包括如下步骤:
①训练教师网络(Net-T);
②将本发明的编码器和解码器作为学生网络(Net-S)在高温T下,蒸馏Net-T的知识到Net-S。
优选的,本实施例中,选取Youthbe-8M作为模型训练与测试的数据集,以单个视频为例,如图1所示,本实施例中长视频共有4帧,m=4,提取视频的3D-CNN特征,简称C3D,C3D特征既能表征时域动作信息,又能表征空域动作特征,通过在帧内和帧之间进行卷积操作和池化。
优选的,所述步骤4对视频帧的时序位置进行编码得到位置编码矩阵P={p1,p2,...,pm},具体方法为:
其中,M为V中每个元素的维度,且M为偶数。
优选的,所述步骤5将特征序列V和位置编码矩阵P共同作为Transformer编码器的输入,如图1所示,将视频特征序列V={v1,v2,v3,v4}和位置编码矩阵P={p1,p2,p3,p4}输入到编码器中,得到编码器的输出V′={v′1,v′2,...,v′m},具体方法为:
5.1)如图1所示,Transformer模型编码器包括依次连接的Multi-Head Attention层、残差和归一化、全连接层、残差和归一化,将特征序列V={v1,v2,v3,v4}和位置编码矩阵P={p1,p2,p3,p4}相加后得到一个新的序列,记为V″={v″1,v″2,v″3,v″4}={v1+p1,v2+p2,v3+p3,v4+p4},将这个序列输入到编码器的Multi-Head Attention层;
5.2)在编码器的Multi-Head Attention层中,通过输入的序列V″={v″1,v″2,v″3,v″4}计算得到矩阵Q={q1,q2,q3,q4}、K={k1,k2,k3,k4}、其中Q=WQ·V″,K=WK·V″,V=WV·V″,WQ、WK、WV表示权重且随机初始化,将Q、K、V中的每一个序列与对应的权重矩阵相乘得到多个新的序列,新的序列就被称为“头”(head),在本实施例中,生成两个“头”,即 表示权重,且随机初始化,同理也可得到q31、q32、q41、q42,也可以用同样的方式得到k11、k12、k21、k22、k31、k32、k41、k42、v11、v12、v21、v22、v31、v32、v41、v42,这些新的序列往往被用于完成不同的任务。对这些生成的“头”进行注意力(Attention)操作,本实施例中MutiHead(Q,K,V)=Concat(head1,head2,head3,head4)WO,WO的含义,Concat(·)表示将序列进行上下拼接,headi表示的是第i个头,其中 其中dk表示矩阵中每个序列的维度,WO,都表示权重矩阵,且随机初始化,在Multi-Head Attention层会得到m个新的序列;
5.3)将Muti-Head Attention层得到的序列输入到残差和Layer Normalization(归一化)层,得到新的序列,Layer Normalization的作用就是将输入的序列转化为均值是0方差是1的数据,Layer Normalization的特点是在计算均值和方差,将样本记为xi(第x个序列的第I个元素),在本实施例中,我们将输入到这一层的第x个序列的第i’个元素看成是样本xi’,则公式为其中uL为L个样本的均值,L为样本的总个数,为L个样本的方差,α表示的是增益,β表示的是偏置,其存在的主要作用是对归一化的数据进行缩放和移位。ε是一个很小很小的数;
5.4)残差和Layer Normalization(归一化)层的输出输入到全连接层得到新的序列,本实施例全连接层共包含两个隐藏层,并且选择Relu作为激活函数,全连接层的操作表示为:FFN(x)=max(0,XW1+b1)W2+b2,其中W1、b1表示第一层隐藏层节点的权重和偏置,W2、b2表示第二层隐藏层节点的权重和偏置,X表示的是输入至全连接层的序列,也就是矩阵;
5.5)将全连接层得到的序列再输入到残差和Layer Normalization层,得到最终的输出序列word embedding。
优选的,在本实施例中,所述步骤6根据V′提取长视频中关键动作的开始帧和结束帧置,即定位出视频中关键动作所在片段,具体方法为:
6.1)如图2所示,通过编码器得到了新的序列,序列组成的矩阵记为V′={v′1,v′2,...,v′m},本实施例中m=4;则V′={v′1,v′2,v′3,v′4};再添加一个新的权重向量S,S是通过第一网络模型训练学习得到的,第一网络模型包括相互连接的点乘模块和softmax模块,将第一网络模型作为学生网络;采用教师网络对第一网络模型进行训练;得到第一网络模型的权重向量S;将序列V′输入至训练好的第一网络模型;S同V′中的序列进行点乘得到{v′1·S,v′2·S,v′3·S,v′4·S},最后通过一个softmax,选取得分最高的序列作为开始帧,exp(·)表示的是e(·);
6.2)设置一个与步骤6.1结构相同的第二网络模型(或者采用第一网络模型,对第一网络模型重新进行训练);得到新的权重向量E;将序列V′输入至第二网络模型中,点乘模块将V′与权重向量E进行点成得到矩阵A’;将矩阵A’输入至softmax模块计算A’中每个元素的概率,并选择概率最大的元素对应的视频帧作为结束帧。
优选的,所述步骤B将编码器中提取到的开始帧位置和结束帧位置之间的wordembedding作为解码器中多头注意力(Muti-head Attention)层的输入(包括开始帧和位置帧),具体方法为:将v′start,v′end以及V′中位于v′start和v′end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K,将乘以预设的第三权重矩阵得到矩阵K′;将矩阵K和矩阵K′输入至Transformer解码器中Muti-head Attention层;
将解码器Muti-head Attention层中输入的序列乘一个权重得到Q(通过解码器中的残差&归一化层输入至Muti-head Attention层的序列),将v′start,v′end以及V′中位于v′start和v′end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K,将乘以预设的第三权重矩阵得到矩阵K′;将矩阵K和矩阵K′输入至Transformer解码器中Muti-head Attention层,在Muti-headAttention层根据来得到新的序列。
优选的,所述步骤C解码器输出视频的一个预测标签,具体方法为:
如图3所示,解码器由Masked Muti-head Attention层、残差和LayerNormalization层,Muti-head Attention层、残差和Layer Normalization层、全连接层、残差和Layer Normalization层和线性(Linear)层组成,其中Masked Muti-head Attention与Muti-head Attention运算过程都是一样的,唯一的不同之处就是Muti-head Attention是在所有的序列上进行操作,而Masked Muti-head Attention只能在已经得到的序列上进行操作,例如已经得到了标签y1,就只能在开始标记和y1序列上进行Muti-head Attention,得到标签y2就只能在开始标记、y1、y2序列上进行Muti-head Attention。将序列分别经过这些层,最后再经过一个softmax分类器,得到标签的概率分布,选取概率最大的标签作为视频的一个标签,如图3所示,向解码器输入一个开始序列,最终得到标签y1,再将y1输入到解码器中得到y2,直到输出结束标记,最后得到视频的全部标签y1、y2、y3另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
Claims (3)
1.基于Transformer的视频多标签动作识别方法,其特征在于,具体包括如下步骤:
步骤1:采用3D-CNN的方法提取长视频的特征序列,特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧;i=1,2,…,m,m为特征序列中特征向量的总个数,
步骤2:对特征序列进行降维处理,得到新的特征序列F;
步骤3:将新的特征序列F与预设第一权重矩阵W相乘得到特征序列V,V={v1,v2,…,vi,…,vm},其中vi为V中第i个元素;
步骤4:对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P={p1,p2,…,pi,…,pm},pi为P中第i个元素;
步骤5:将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入,得到Transformer编码器输出的序列V'={v'1,v'2,…,v'i,…,v'm},v'i为V'中第i个元素;
步骤6:根据V'提取长视频中关键动作的开始帧和结束帧,将V'中与开始帧对应的元素作为开始元素v'start;将V'中与结束帧对应的元素作为结束元素v'end;
步骤7:采用预设的序列作为开始标记,将开始标记与位置编码矩阵P分别作为Transformer解码器的输入;
步骤8:将v'start,v'end以及V'中位于v'start和v'end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列将乘以预设的第二权重矩阵得到矩阵K,将乘以预设的第三权重矩阵得到矩阵K';将矩阵K和矩阵K'输入至Transformer解码器的Muti-headAttention层;
步骤9:Transformer解码器输出长视频中关键动作的所有分类标签;
所述步骤6中根据V'提取长视频中关键动作的开始帧和结束帧具体为:设置第一网络模型和第二网络模型;所述第一网络模型和第二网络模型的结构相同均包括相互连接的点乘模块和softmax模块,将第一网络模型和第二网络模型均作为学生网络,采用教师网络分别对第一网络模型和第二网络模型进行训练;得到第一网络模型的权重向量S和第二网络模型的权重向量E;
将序列V'输入至训练好的第一网络模型,点乘模块将V'中的元素与权重向量S进行点乘得到向量A={a1,a2,…,ai,…,am},其中ai=v'i·S;将向量A输入至softmax模块根据如下公式计算A中每个元素的概率,并选择概率最大的元素对应的视频帧作为开始帧:
其中exp(·)表示e(·);
将序列V'输入至第二网络模型中,点乘模块将V'中的元素与权重向量E进行点乘得到向量A’;将向量A’输入至softmax模块计算A’中每个元素的概率,并选择概率最大的元素对应的视频帧作为结束帧。
2.根据权利要求1所述的基于Transformer的视频多标签动作识别方法,其特征在于,采用教师网络,通过知识蒸馏的方式对Transformer编码器和Transformer解码器进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110844557.3A CN113688871B (zh) | 2021-07-26 | 2021-07-26 | 基于Transformer的视频多标签动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110844557.3A CN113688871B (zh) | 2021-07-26 | 2021-07-26 | 基于Transformer的视频多标签动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688871A CN113688871A (zh) | 2021-11-23 |
CN113688871B true CN113688871B (zh) | 2022-07-01 |
Family
ID=78578098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110844557.3A Active CN113688871B (zh) | 2021-07-26 | 2021-07-26 | 基于Transformer的视频多标签动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688871B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155477B (zh) * | 2022-02-08 | 2022-04-29 | 成都考拉悠然科技有限公司 | 一种基于平均教师模型的半监督视频段落定位方法 |
CN115757867A (zh) * | 2022-12-06 | 2023-03-07 | 天翼数字生活科技有限公司 | 视频信息摘要生成方法、装置、存储介质及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN112347879A (zh) * | 2020-10-27 | 2021-02-09 | 中国搜索信息科技股份有限公司 | 一种针对视频运动目标的主题挖掘及行为分析方法 |
CN112464861A (zh) * | 2020-12-10 | 2021-03-09 | 中山大学 | 用于智能人机交互的行为早期识别方法、系统及存储介质 |
CN113033657A (zh) * | 2021-03-24 | 2021-06-25 | 武汉理工大学 | 一种基于Transformer网络的多人行为识别方法 |
-
2021
- 2021-07-26 CN CN202110844557.3A patent/CN113688871B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN112347879A (zh) * | 2020-10-27 | 2021-02-09 | 中国搜索信息科技股份有限公司 | 一种针对视频运动目标的主题挖掘及行为分析方法 |
CN112464861A (zh) * | 2020-12-10 | 2021-03-09 | 中山大学 | 用于智能人机交互的行为早期识别方法、系统及存储介质 |
CN113033657A (zh) * | 2021-03-24 | 2021-06-25 | 武汉理工大学 | 一种基于Transformer网络的多人行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113688871A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694924B (zh) | 一种事件抽取方法和系统 | |
Ji et al. | Deep attentive video summarization with distribution consistency learning | |
CN111523534B (zh) | 一种图像描述的方法 | |
CN114973062B (zh) | 基于Transformer的多模态情感分析方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN113688871B (zh) | 基于Transformer的视频多标签动作识别方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN110933518B (zh) | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 | |
CN115471851A (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN118132803B (zh) | 一种零样本视频时刻检索方法、系统、设备及介质 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN116939320A (zh) | 一种生成式多模态互利增强视频语义通信方法 | |
CN116416480A (zh) | 一种基于多模板提示学习的视觉分类方法和装置 | |
CN116168324A (zh) | 基于循环交互Transformer与维度交叉融合的视频情感识别方法 | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN115809666B (zh) | 一种融合词典信息和注意力机制的命名实体识别方法 | |
CN113361505B (zh) | 基于对比解耦元学习的非特定人的手语翻译方法和系统 | |
CN113780350B (zh) | 一种基于ViLBERT和BiLSTM的图像描述方法 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN114781389A (zh) | 一种基于标签增强表示的罪名预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |