CN113033283B - 一种改进的视频分类系统 - Google Patents
一种改进的视频分类系统 Download PDFInfo
- Publication number
- CN113033283B CN113033283B CN202011499364.0A CN202011499364A CN113033283B CN 113033283 B CN113033283 B CN 113033283B CN 202011499364 A CN202011499364 A CN 202011499364A CN 113033283 B CN113033283 B CN 113033283B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- image
- time sequence
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种改进的视频分类系统,涉及视频分类领域。基于系统的视频分类过程如下:利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像;通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模;将处理后的图像输入到时序特征提取子单元1,通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征;在每两个时序特征提取子单元之间增加全局特征补充单元,全局特征补充单元用于计算当前图像数据与其他图像的相似度,变相增加了运动的时序信息;将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换,预测输出;建立一个稳定输出的损失函数不断优化参数,对样本数据不断的优化。
Description
技术领域
本发明涉及视频分类领域,具体涉及一种改进的视频分类系统。
背景技术
视频分类一直是计算机视觉的研究热点问题,通过分析视频内容理解视频中人与物和人与人之间的动作,分析预测正在发生的异常行为如打砸设备、人员聚集等等。随着人工智能落地产品越来越多,将智能检测视频分类算法集成到边缘计算端的要求愈加迫切。目前基于深度学习的视频分类算法在多目标复杂场景下能够实时准确地预测出视频内容。
专利号为202010737337.6的中国专利公开了一种视频分类模型训练方法、视频分类方法、装置及电子设备,将至少一个视频样本输入到视频分类模型,将至少一张图片对应的特征向量输入到图片分类模型,两个特征向量经过分类模型的预测至少预测两个输出,然后每个输出与各自的真正的标签值做差作为总损失值作为权重参数的更新。该专利的缺点是训练中需要标定的样本过多,方法过于繁琐,训练出的模型权重泛化能力较差,出现过拟合现象无法应用到实际场景当中。
专利号为201910838607.X的中国专利提出了一种视频分类的方法,方法包括从待分类视频中获取目标视频帧所对应的L个前瞻视频帧,通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量,计划跳帧向量包括每个前瞻视频帧对应的分值元素,根据计划跳帧向量确定待分类视频所对应的待分类视频帧;根据待分类视频帧,通过视频分类模型中的分类器确定待分类视频的分类结果。该方法的的缺点在于使用一种跳帧器只能从待检测的视频中取出部分视频帧,虽然可以减少了冗余信息的干扰提高网络的运行速度,但是通过跳帧丢失了部分的连续帧间的细节运动信息,从而降低了分类的准确率,鲁棒性也大大降低。
论文《Two-Stream Convolutional Networks for Action Recognition inVideos》针对视频分类采用双网络预测的方法,分支1网络将RGB图片或者灰度图输入到二维卷积提取空间特征,分支2网络将提前计算好的光流信息在x和y两个方向上提取时间的运动信息,其中光流是针对图像中关键点的运动信息生成的。该网络的不足之处在于只能预测离线视频,提前根据获取到的内容计算光流信息,无法获取实时的信息,此外网络的训练也需要将两个网络分开训练,增加了训练难度。
论文《Temporal Segment Networks:Towards Good Practices for Deep ActionRecognition》旨在设计有效的卷积网络体系结构用于视频中的动作识别,并在有限的训练样本下进行模型学习。该方法实际上是Two-Stream网络的升级版,主要解决了两个问题:1.解决了长时间视频的行为判断问题2.解决在少量数据的前提下如何训练出可以应用的模型权重,防止训练出现过拟合现象。该论文的不足之处在于在当前边缘计算端的计算能力下不能满足TSN的实时计算的要求,对复杂场景下的多目标运行无法准确的完成预测。
论文《Quo Vadis,Action Recognition A New Model and the KineticsDataset》针对视频理解 数据量较少这一问题提出了一个与IMAGENET相当的数据集kinetics,这样就能像图像分类 一样在大数据集上训练出可以应用到小数据集的预训练模型,提高分类的准确率。此外该论 文通过比较当前流行的动作识别网络架构2D卷积+LSTM、Two-Stream和3D卷积,取长补 短提出了双流3D卷积网络大大的提高了识别率。该方法的不足之处双流网络和3D卷积均为 参数较多的网络架构,在带来高精度的前提下也对边缘的计算成本提出了更高的要求,该网 络同样也面临Two-Stream双流网络无法同时训练,训练难度大的问题。
发明内容
本发明的目的是针对上述不足,提出了一种基于硬件解码装置的视频分类系统,该系统通过数据的前处理阶段将样本数据轻量化输入到特征提取单元模块,在特征提取单元模块中增加了全局特征补充单元用于增加识别的准确度。
本发明具体采用如下技术方案:
一种改进的视频分类系统,包括视频流处理模块、RGB图像帧组合建模模块、若干时序特征提取子单元和全局特征补充单元,视频分类过程如下:
(1)利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像;
(2)通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模;
(3)将处理后的图像输入到时序特征提取子单元1,通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征;
(4)在每两个时序特征提取子单元之间增加全局特征补充单元,全局特征补充单元用于计算当前图像数据与其他图像的相似度,变相增加了运动的时序信息;
(5)将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换,预测输出;
(6)建立一个稳定输出的损失函数不断优化参数,对样本数据不断的优化。
优选地,对数据预处理完成后对数据进行指定数量的序列建模的过程如下:
(1)连续采样多张连续图片x(x1,x2,x3······x15,x16),其中x代表每一帧RGB 图像的数据;
(2)相邻图片对应通道做差操作,然后合成一张新的RGB图片,16张RGB图像帧两两相减生成8张RGB图片,具体操作步骤如下:
a.图像x1的R通道与图像x2的R通道做差形成x1与x2的R通道数据:Rx12=|Rx1–Rx2|;
b.图像x1的G通道与图像x2的G通道做差形成x1与x2的G通道数据:Gx12=|Gx1–Gx2|;
c.图像x1的B通道与图像x2的B通道做差形成x1与x2的B通道数据:Bx12=|Bx1–Bx2|;
d.为了减少计算量,增加嵌入式端的运行速度,对每一通道的二维图像数据X(x,y),设定固定阈值减少对背景等冗余数据的计算量,该计算函数为式(1)所示:
e.将新的RGB图像数据合成新的图像数据x12,如式(2)所示:
X12=f(R,G,B) (2)
f.生成对应的其他新的数据样本,则新的数据样本为式(3)所示:
X(x12,x34,x56,·······x1516)∈RCxDxHxW (3)。
优选地,将处理后的图像输入到时序特征提取子单元1,该单元对第二步提取的特征图R 只在时间维度方向提取运动特征,为了增加多维度的特征表示,设计数据在训练的参数更新中不再以32浮点数位表示,而是采用典型分布表示,对每个计算核心参数应用式(4):
更新的参数以该分布表示后将学习到的参数与数据趋向与同分布,这样对数据的表示更加多维化,增加了特征与特征之间的辨识度。
优选地,全局特征补充单元用于计算当前图像数据与其他图像的相似度,计算步骤为:
(1)对时序特征提取子单元输出的特征Y∈R′CxDxHxW,进行特征提取计算,计算核心单元同样采取第三步中的新的参数更新方式,通过通道压缩单元将Y变成α、β、γ三个特征图,特征图在各个维度上维数相同,将α、β、γ分别执行维度压缩和压缩变换操作,则每个特征图的维度为:
(2)对β执行空间位置置换操作,将β维度按照式(6)顺序变换:
β(c*N)→β(N*c) (6)
(3)α与β数据融合后输出特征图Y1如式(7)所示
ffusion=(α,β)=Y1(N*N) (7)
Y1表示相邻图像中样本的相似程度;
(4)对矩阵Y1数据进行数据的归一化操作,如式(8)所示
Y2(N*N)=fnormalize(Y1) (8)
假设Y1矩阵中一共包含有m个参数,则对Y1矩阵中的每个元素执行如式(9)所示的归一化操作:
(5)将特征图Y2与γ输入到数据融合单元输出特征图Y3,如式(10)
ffusion=(γ,Y2)=Y3(c*N) (10)
(6)将Y3进行维度展开操作生成Yout
与时序特征提取单元1的输出Y进行信息迭代操作输入到时序特征提取单元2
Y3(c*N)→Y4(c*d*h*w) (11)
Yout1=Y+Y4 (12)
(7)根据具体硬件要求增加时序提取单元的数量,每两个时序提取单元间增加一个全局特征补充单元,起到增强时序特征的作用。
优选地,建立一个稳定输出的损失函数不断优化参数,对样本数据不断的优化,损失函数如式(13)所示,
其中,y′表示网络的预测输出,y表示标签的真实值,α是固定参数,该分类函数可以根据类别不平衡度调节α这个参数解决使预测效果更佳。
本发明具有如下有益效果:
该系统可以使视频分类算法比较容易的集成迁移到边缘计算端,相对于原始的two-stream 方法可以达到实时的计算要求无需提前计算视频的光流,相对于3DCovnet方法,本设计无需大量的参数计算,对边缘计算设备的GPU要求较低,在保证预测准确率的前提下能够对场景内发生的动作进行实时预测。
附图说明
图1为改进的视频分类系统框图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1,一种改进的视频分类系统,包括视频流处理模块、RGB图像帧组合建模模块、若干时序特征提取子单元和全局特征补充单元,视频分类过程如下:
(1)利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像。
(2)通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模。
(3)将处理后的图像输入到时序特征提取子单元1,通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征。
(4)在每两个时序特征提取子单元之间增加全局特征补充单元,全局特征补充单元用于计算当前图像数据与其他图像的相似度,变相增加了运动的时序信息。
(5)将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换,预测输出。
(6)建立一个稳定输出的损失函数不断优化参数,对样本数据不断的优化。
对数据预处理完成后对数据进行指定数量的序列建模的过程如下:
(1)连续采样多张连续图片x(x1,x2,x3······x15,x16),其中x代表每一帧RGB 图像的数据;
(2)相邻图片对应通道做差操作,然后合成一张新的RGB图片,16张RGB图像帧两两相减生成8张RGB图片,具体操作步骤如下:
a.图像x1的R通道与图像x2的R通道做差形成x1与x2的R通道数据:Rx12=|Rx1–Rx2|;
b.图像x1的G通道与图像x2的G通道做差形成x1与x2的G通道数据:Gx12=|Gx1–Gx2|;
c.图像x1的B通道与图像x2的B通道做差形成x1与x2的B通道数据:Bx12=|Bx1–Bx2|;
d.为了减少计算量,增加嵌入式端的运行速度,对每一通道的二维图像数据X(x,y),设定固定阈值减少对背景等冗余数据的计算量,该计算函数为式(1)所示:
e.将新的RGB图像数据合成新的图像数据x12,如式(2)所示:
X12=f(R,G,B) (2)
f.生成对应的其他新的数据样本,则新的数据样本为式(3)所示:
X(x12,x34,x56,·······x1516)∈RCxDxHxW (3)。
将处理后的图像输入到时序特征提取子单元1,该单元对第二步提取的特征图R只在时间维度方向提取运动特征,为了增加多维度的特征表示,设计数据在训练的参数更新中不再以32浮点数位表示,而是采用典型分布表示,对每个计算核心参数应用式(4):
更新的参数以该分布表示后将学习到的参数与数据趋向与同分布,这样对数据的表示更加多维化,增加了特征与特征之间的辨识度。
全局特征补充单元用于计算当前图像数据与其他图像的相似度,计算步骤为:
(1)对时序特征提取子单元输出的特征Y∈RCxDxHxW,进行特征提取计算,计算核心单元同样采取第三步中的新的参数更新方式,通过通道压缩单元将Y变成α、β、γ三个特征图,特征图在各个维度上维数相同,将α、β、γ分别执行维度压缩和压缩变换操作,则每个特征图的维度为:
(2)对β执行空间位置置换操作,将β维度按照式(6)顺序变换:
β(c*N)→β(N*c) (6)
(3)α与β数据融合后输出特征图Y1如式(7)所示
ffusion=(α,β)=Y1(N*N) (7)
Y1表示相邻图像中样本的相似程度;
(4)对矩阵Y1数据进行数据的归一化操作,如式(8)所示
Y2(N*N)=fnormalize(Y1) (8)
假设Y1矩阵中一共包含有m个参数,则对Y1矩阵中的每个元素执行如式(9)所示的归一化操作:
(5)将特征图Y2与γ输入到数据融合单元输出特征图Y3,如式(10)
ffusion=(γ,Y2)=Y3(c*N) (10)
(6)将Y3进行维度展开操作生成Yout
与时序特征提取单元1的输出Y进行信息迭代操作输入到时序特征提取单元2
Y3(c*N)→Y4(c*d*h*w) (11)
Yout1=Y+Y4 (12)
(7)根据具体硬件要求增加时序提取单元的数量,每两个时序提取单元间增加一个全局特征补充单元,起到增强时序特征的作用。
建立一个稳定输出的损失函数不断优化参数,对样本数据不断的优化,损失函数如式(13) 所示,
其中,y′表示网络的预测输出,y表示标签的真实值,α是固定参数,该分类函数可以根据类别不平衡度调节α这个参数解决使预测效果更佳。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (4)
1.一种改进的视频分类系统,其特征在于,包括视频流处理模块、RGB图像帧组合建模模块、若干时序特征提取子单元和全局特征补充单元,视频分类过程如下:
(1)利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像;
(2)通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模;对数据预处理完成后对数据进行指定数量的序列建模的过程如下:
(1)连续采样多张连续图片x(x1,x2,x3······x15,x16),其中x代表每一帧RGB图像的数据;
(2)相邻图片对应通道做差操作,然后合成一张新的RGB图片,16张RGB图像帧两两相减生成8张RGB图片,具体操作步骤如下:
a.图像x1的R通道与图像x2的R通道做差形成x1与x2的R通道数据:Rx12=|Rx1–Rx2|;
b.图像x1的G通道与图像x2的G通道做差形成x1与x2的G通道数据:Gx12=|Gx1–Gx2|;
c.图像x1的B通道与图像x2的B通道做差形成x1与x2的B通道数据:Bx12=|Bx1–Bx2|;
d.为了减少计算量,增加嵌入式端的运行速度,对每一通道的二维图像数据X(x,y),设定固定阈值减少对背景等冗余数据的计算量,计算函数为式(1)所示:
(e)将新的RGB图像数据合成新的图像数据x12,如式(2)所示:
X12=f(R,G,B) (2)
(f)生成对应的其他新的数据样本,则新的数据样本为式(3)所示:
X'(x12,x34,x56,……·x1516)∈RCxDxHxW (3)
(3)将处理后的图像输入到时序特征提取子单元1,通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征;
(4)在每两个时序特征提取子单元之间增加全局特征补充单元,全局特征补充单元用于计算当前图像数据与其他图像的相似度,变相增加了运动的时序信息;
(5)将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换,预测输出;
(6)建立一个稳定输出的损失函数不断优化参数,对样本数据不断的优化。
3.如权利要求1所述的一种改进的视频分类系统,其特征在于,全局特征补充单元用于计算当前图像数据与其他图像的相似度,计算步骤为:
(1)对时序特征提取子单元输出的特征Y∈R′CxDxHxW,进行特征提取计算,计算核心单元同样采取第三步中的新的参数更新方式,通过通道压缩单元将Y变成α、β、γ三个特征图,特征图在各个维度上维数相同,将α、β、γ分别执行维度压缩和压缩变换操作,则每个特征图的维度为:
(2)对β执行空间位置置换操作,将β维度按照式(6)顺序变换:
β(c*N)→β(N*c) (6)
(3)α与β数据融合后输出特征图Y1如式(7)所示
ffusion=(α,β)=Y1(N*N) (7)
Y1表示相邻图像中样本的相似程度;
(4)对矩阵Y1数据进行数据的归一化操作,如式(8)所示
Y2(N*N)=fnormalize(Y1) (8)
假设Y1矩阵中一共包含有m个参数,则对Y1矩阵中的每个元素执行如式(9)所示的归一化操作:
(5)将特征图Y2与γ输入到数据融合单元输出特征图Y3,如式(10)
ffusion=(γ,Y2)=Y3(c*N) (10)
(6)将Y3进行维度展开操作生成Yout
与时序特征提取单元1的输出Y进行信息迭代操作输入到时序特征提取单元2
Y3(c*N)→Y4(c*d*h*w) (11)
Yout1=Y+Y4 (12)
(7)根据具体硬件要求增加时序提取单元的数量,每两个时序提取单元间增加一个全局特征补充单元,起到增强时序特征的作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011499364.0A CN113033283B (zh) | 2020-12-18 | 2020-12-18 | 一种改进的视频分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011499364.0A CN113033283B (zh) | 2020-12-18 | 2020-12-18 | 一种改进的视频分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033283A CN113033283A (zh) | 2021-06-25 |
CN113033283B true CN113033283B (zh) | 2022-11-22 |
Family
ID=76460479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011499364.0A Active CN113033283B (zh) | 2020-12-18 | 2020-12-18 | 一种改进的视频分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033283B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610016B (zh) * | 2021-08-11 | 2024-04-23 | 人民中科(济南)智能技术有限公司 | 视频帧特征提取模型的训练方法、系统、设备及存储介质 |
CN113989541A (zh) * | 2021-09-23 | 2022-01-28 | 神思电子技术股份有限公司 | 一种基于特征聚合的着装分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062355A (zh) * | 2019-12-25 | 2020-04-24 | 神思电子技术股份有限公司 | 一种人体动作识别方法 |
CN111209883A (zh) * | 2020-01-13 | 2020-05-29 | 南京大学 | 一种基于多源运动特征融合的时序自适应视频分类方法 |
CN111507275A (zh) * | 2020-04-20 | 2020-08-07 | 北京理工大学 | 一种基于深度学习的视频数据时序信息提取方法及装置 |
-
2020
- 2020-12-18 CN CN202011499364.0A patent/CN113033283B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062355A (zh) * | 2019-12-25 | 2020-04-24 | 神思电子技术股份有限公司 | 一种人体动作识别方法 |
CN111209883A (zh) * | 2020-01-13 | 2020-05-29 | 南京大学 | 一种基于多源运动特征融合的时序自适应视频分类方法 |
CN111507275A (zh) * | 2020-04-20 | 2020-08-07 | 北京理工大学 | 一种基于深度学习的视频数据时序信息提取方法及装置 |
Non-Patent Citations (3)
Title |
---|
Combining content and context information fusion;Bashar Tahayna etal.;《2010 2nd International Conference on Signal Processing》;20100823;第V2-600-V2-604页 * |
基于注意力机制的时间分组深度网络行为识别算法;胡正平等;《模式识别与人工智能》;20191031;第32卷(第10期);第892-900页 * |
基于深度残差双单向DLSTM的时空一致视频事件识别;李永刚等;《计算机学报》;20181231;第41卷(第12期);第2852-2866页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113033283A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN109389055B (zh) | 基于混合卷积和注意力机制的视频分类方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
Bian et al. | Structural knowledge distillation for efficient skeleton-based action recognition | |
Zhang et al. | Poseflow: A deep motion representation for understanding human behaviors in videos | |
CN112418095A (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
CN109978021B (zh) | 一种基于文本不同特征空间的双流式视频生成方法 | |
CN113033283B (zh) | 一种改进的视频分类系统 | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN111523378A (zh) | 一种基于深度学习的人体行为预测方法 | |
CN113420703B (zh) | 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 | |
CN114373194A (zh) | 基于关键帧与注意力机制的人体行为识别方法 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN112488014A (zh) | 基于门控循环单元的视频预测方法 | |
Konstantinidis et al. | Skeleton-based action recognition based on deep learning and Grassmannian pyramids | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
CN115797827A (zh) | 一种基于双流网络架构的ViT的人体行为识别方法 | |
CN114973305A (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN115546885A (zh) | 一种基于增强时空特征的动作识别方法及系统 | |
Luo et al. | FD-SLAM: a semantic SLAM based on enhanced fast-SCNN dynamic region detection and DeepFillv2-Driven background inpainting | |
Jin et al. | Research on Human Action Recognition Based on Global-Local Features of Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |