CN112215130A - 一种基于2.5d/3d混合卷积模型的人体行为识别方法 - Google Patents

一种基于2.5d/3d混合卷积模型的人体行为识别方法 Download PDF

Info

Publication number
CN112215130A
CN112215130A CN202011076560.7A CN202011076560A CN112215130A CN 112215130 A CN112215130 A CN 112215130A CN 202011076560 A CN202011076560 A CN 202011076560A CN 112215130 A CN112215130 A CN 112215130A
Authority
CN
China
Prior art keywords
convolution
video
human behavior
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011076560.7A
Other languages
English (en)
Other versions
CN112215130B (zh
Inventor
车翔玖
刘全乐
郭帆
梁郭
艾欣
赵孟雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202011076560.7A priority Critical patent/CN112215130B/zh
Publication of CN112215130A publication Critical patent/CN112215130A/zh
Application granted granted Critical
Publication of CN112215130B publication Critical patent/CN112215130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于2.5D/3D混合卷积模型的人体行为识别方法,构建融合2.5D与3D卷积模块的卷积神经网络架构,并利用公开的人体行为识别数据集进行端到端的预训练,得到初始化网络模型,读取人体行为训练视频,对训练视频进行均等采样与数据增强,利用数据增强后的采样帧拼接构建2.5D图像,将其输入到经过预训练的网络架构进行模型训练,形成识别模型。读取测试集中的人体行为视频,对其进行采样与裁剪,输入到识别模型进行识别,端到端地判断其所属的行为类别。本发明根据2.5D、3D卷积模块可以针对视频帧序列进行有效的时间与空间建模的特点,构建并训练可以准确识别人体行为的神经网络架构。

Description

一种基于2.5D/3D混合卷积模型的人体行为识别方法
技术领域
本发明涉及人工智能与图像处理领域,特别涉及一种基于2.5D/3D混合卷积模型的人体行为识别方法。
背景技术
行为识别是指通过图像处理方面的方法识别视频中人体的动作类别,这一技术可以应用在智能安防、机器人智能陪护、智能教育等多种实际场景。因此,研究人体行为识别方法具有重要的现实意义。
在传统的人体行为识别方法中,通常采取手工定义特征模板,并采用传统图像处理方法提取视频帧中的特征,进而利用特征模板判别人体行为所属类别。
深度学习技术的发展以及公共行为识别数据库的不断扩充,使得基于卷积神经网络的行为识别方法得到了长足的进展。此类方法通常从一段视频中抽取少量采样帧,并利用训练完成的2D卷积神经网络模型逐帧判别所属行为类别,最终取各帧分类的平均结果作为此段视频中包含的人体行为类别。但是,此类方法不具备对人体行为的时间特征进行建模的能力,具有一定的局限性,识别准确率低。
发明内容
为了解决现有技术存在的上述问题,更好地对人体行为视频数据中的时间特征进行建模,本发明提出了一种基于2.5D/3D混合卷积模型的人体行为识别方法。该方法构建2.5D/3D混合的卷积神经网络模型,利用公开的人体行为数据进行预训练,并使用学习到的参数作为模型训练的初始化参数,减少了训练样本的需求量。利用经过采样与增强的视频帧构建2.5D图像,将其输入到混合卷积模型中进行端到端的训练,结合2.5D图像固有的时间特征与3D卷积核的时间学习能力,训练形成具备较强时空特征提取能力与人体行为识别能力的网络架构。
本发明的目的是通过以下技术方案实现的:
一种基于2.5D/3D混合卷积模型的人体行为识别方法,主要包括以下步骤:
步骤1,搭建2.5D/3D混合卷积神经网络模型;
步骤2,读取人体行为数据训练集中的视频数据;
步骤3,针对所述步骤2读取的视频数据进行时间采样与空间增强操作,并进行拼接,得到2.5D图像序列;
步骤4,将所述步骤3中得到的图像序列输入到已通过预训练的神经网络模型中,进行模型训练;
步骤5,读取测试数据集中的人体行为视频数据;
步骤6,将所述步骤5读取的视频数据进行采样、裁剪、拼接,得到2.5D图像序列;
步骤7,将所述步骤6得到的图像序列作为所述步骤4训练得到的模型的输入,得到测试视频中人体行为的所属类别。
进一步地,所述步骤1搭建的2.5D/3D混合卷积神经网络模型由2.5D卷积模块与3D卷积模块共同组成;
其中,2.5D卷积模块由常规2D卷积核针对6通道图片进行卷积操作,该2.5D卷积模块采用7×7卷积层和3×3池化层,以及随后的7个瓶颈残差块构建,最终输出为28×28大小的特征图,并设置每张图像卷积后的最终输出通道数为79,其卷积操作表示为:
Figure BDA0002716630770000021
式中:ReLU为激活函数,
Figure BDA0002716630770000022
为第s层第t个特征图中位置(i,j)的输出值,b为偏置量,m表示上一层卷积输出的特征图的数量,P为卷积核的高度,Q为卷积核的宽度,
Figure BDA0002716630770000023
为第s层第t个特征图对应上一层m个特征图在卷积核(p,q)位置上的权重,v为上一层特征图对应位置的值;
3D卷积模块的结构由8个3×3×3的3D卷积核,1个池化层,1个全连接层组成,其卷积操作表示为:
Figure BDA0002716630770000031
式中:ReLU为激活函数,
Figure BDA0002716630770000032
为第s层第t个特征图中位置(i,j,k)的输出值,b为偏置量,m表示上一层卷积输出的特征图的数量,P为卷积核的高度,Q为卷积核的宽度,R为卷积核的时间深度,
Figure BDA0002716630770000033
为第s层第t个特征图对应上一层m个特征图在卷积核(p,q,r)位置上的权重,v为上一层特征图对应位置的值。
进一步地,所述步骤3具体包括以下过程:
针对每段人体行为视频,首先进行视频帧的时间采样,先抽取第一帧,随后从剩余的帧中随机抽取8帧;
将采样得到的视频帧分别从四个角落以及图像中心进行裁剪,并将数据集增强扩充为原始数据的6倍,即5组视频帧采样序列;
针对裁剪、增强后的采样帧进行数据拼接,将上述各组第一帧的RGB通道直接复制,形成1张6通道图像,代表空间信息,剩下的8帧图像按时间顺序两两拼接,形成4张6通道图像,代表时间推理信息;由此每段视频对应的5组视频帧序列均包含5张6通道2.5D图像。
更进一步地,所述步骤4具体包括以下过程:
将所述步骤3得到的采样、增强的视频帧输入到已通过20BN-something-something Dataset V2数据集预训练完成的混合卷积模型的神经网络模型进行训练。
更进一步地,所述神经网络模型的预训练与训练过程中,均需按所述步骤3构建6通道图像,同时采用5张6通道图像并行输入的模式,输入到网络模型中进行特征提取与识别;在3D卷积模块阶段,将经过2.5D卷积模块输出的特征图变形构建为一组5×79通道特征图,并输入到3D模块进行训练;整个训练过程以端到端的形式进行。
本发明的优点在于,本发明提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法,利用2.5D图像固有的时间属性以及3D卷积核的时间特征学习能力,更好地实现对人体行为特征的提取与识别。
附图说明
图1是本发明提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法流程图。
具体实施方式
本发明的总体构思是,首先搭建2.5D/3D混合卷积神经网络模型,然后针对人体行为视频数据进行均等采样与数据增强,并利用采样与增强的视频帧构建2.5D图像,最后将构建的2.5D图像输入到经过预训练的混合卷积神经网络架构中进行模型训练,从而形成具备较强时空行为特征提取与识别能力的神经网络模型。
下面结合附图对本发明实施例提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法进行详细描述。
参阅图1,本发明实施例提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法,包括以下步骤:
步骤S101,搭建2.5D/3D混合卷积神经网络模型。
搭建的2.5D/3D混合卷积神经网络模型由2.5D卷积模块与3D卷积模块共同组成。其中,2.5D卷积模块由常规2D卷积核针对6通道图片进行卷积操作,从而达到为时间序列建模的目的,该2.5D卷积模块采用Resnet50网络头部的7×7卷积层和3×3池化层,以及随后的7个瓶颈残差块构建,最终输出为28×28大小的特征图,并设置每张图像卷积后的最终输出通道数为79,其卷积操作可以表示为:
Figure BDA0002716630770000051
式中:ReLU为激活函数,
Figure BDA0002716630770000052
为第s层第t个特征图中位置(i,j)的输出值,b为偏置量,m表示上一层卷积输出的特征图的数量,P为卷积核的高度,Q为卷积核的宽度,
Figure BDA0002716630770000053
为第s层第t个特征图对应上一层m个特征图在卷积核(p,q)位置上的权重,v为上一层特征图对应位置的值;
3D卷积模块的结构由8个3×3×3的3D卷积核,1个池化层,1个全连接层组成,其卷积操作可以表示为:
Figure BDA0002716630770000054
式中:ReLU为激活函数,
Figure BDA0002716630770000055
为第s层第t个特征图中位置(i,j,k)的输出值,b为偏置量,m表示上一层卷积输出的特征图的数量,P为卷积核的高度,Q为卷积核的宽度,R为卷积核的时间深度,
Figure BDA0002716630770000056
为第s层第t个特征图对应上一层m个特征图在卷积核(p,q,r)位置上的权重,v为上一层特征图对应位置的值。
步骤S102,读取训练集中的人体行为视频数据。
在本实施例中,训练集由3215段包含人体行为的短视频组成,视频的分辨率为1280×720,时长均为12秒左右,每段视频均进行了人体行为类别标注,共有50种类别。
步骤S103,对训练集中的视频数据进行采样、增强、拼接。
首先从时间维度进行帧采样,针对每段视频采样9帧,即抽取第一帧,并从剩余的帧中随机抽取8帧;
随后从空间维度进行数据增强,将采样得到的视频帧分别从四个角落以及图像中心进行裁剪,裁剪的长、宽比例均为原始图像的79%,随后调整大小至224×224,实现将数据集增强扩充为原始数据的6倍,即5组视频帧采样序列;
针对裁剪、增强后的采样帧进行数据拼接,将上述各组第一帧的RGB通道直接复制,形成1张6通道图像,代表空间信息,剩下的8帧图像按时间顺序两两拼接,形成4张6通道图像,代表时间推理信息,由此每段视频对应的5组视频帧序列均包含5张6通道2.5D图像。
步骤S104,利用步骤S103生成的图像序列针对步骤S101搭建的2.5D/3D混合卷积神经网络模型进行训练,得到识别模型。
在本实施例中,需要事先针对步骤S101搭建的2.5D/3D混合卷积神经网络模型进行预训练,模型预训练阶段采用的数据集为TwentyBN公司发布的20BN-something-something Dataset V2,数据集包括220,847段视频,主要内容为人体行为、人物交互等。预训练完成之后,利用S103生成的图像序列对模型进行进一步训练。
步骤S105,读取测试集中的人体行为视频数据。
在本实施例中,测试集由990段包含人体行为的短视频组成,视频的分辨率为1280×720,时长均为12秒左右。
步骤S106,对测试集中的数据进行采样与拼接。
在本实施例中,针对每段视频,首先从时间维度进行采样,即抽取第一帧,并从剩余的帧中随机抽取8帧。随后从每帧图像的中心向四条边进行裁剪,使裁剪之后图像的长、宽比例均为原始图像的79%,并调整大小至224×224。
针对经过采样与裁剪的视频帧进行拼接,将第一帧的RGB通道直接复制,形成1张6通道图像,代表空间信息,剩下的8帧图像按时间顺序两两拼接,形成4张6通道图像,代表时间推理信息,由此构成5张6通道2.5D图像。
步骤S107,将拼接的2.5D图像输入到步骤S104的模型中进行识别,得到视频中的人体行为所属类别。
虽然参考优选实施例对本发明进行描述,但所述实例仅用于对本发明进行详细阐述,并不构成本发明保护范围的限定,任何在本发明的精神以及原则内的修改,等同替换和改进等,均应包含在本发明的权利要求保护范围内。

Claims (5)

1.一种基于2.5D/3D混合卷积模型的人体行为识别方法,其特征在于,包括以下步骤:
步骤1,搭建2.5D/3D混合卷积神经网络模型;
步骤2,读取人体行为数据训练集中的视频数据;
步骤3,针对所述步骤2读取的视频数据进行时间采样与空间增强操作,并进行拼接,得到2.5D图像序列;
步骤4,将所述步骤3中得到的图像序列输入到已通过预训练的神经网络模型中,进行模型训练;
步骤5,读取测试数据集中的人体行为视频数据;
步骤6,将所述步骤5读取的视频数据进行采样、裁剪、拼接,得到2.5D图像序列;
步骤7,将所述步骤6得到的图像序列作为所述步骤4训练得到的模型的输入,得到测试视频中人体行为的所属类别。
2.如权利要求1所述的一种基于2.5D/3D混合卷积模型的人体行为识别方法,其特征在于,所述步骤1搭建的2.5D/3D混合卷积神经网络模型由2.5D卷积模块与3D卷积模块共同组成;
其中,2.5D卷积模块由常规2D卷积核针对6通道图片进行卷积操作,该2.5D卷积模块采用7×7卷积层和3×3池化层,以及随后的7个瓶颈残差块构建,最终输出为28×28大小的特征图,并设置每张图像卷积后的最终输出通道数为79,其卷积操作表示为:
Figure FDA0002716630760000011
式中:ReLU为激活函数,
Figure FDA0002716630760000021
为第s层第t个特征图中位置(i,j)的输出值,b为偏置量,m表示上一层卷积输出的特征图的数量,P为卷积核的高度,Q为卷积核的宽度,
Figure FDA0002716630760000022
为第s层第t个特征图对应上一层m个特征图在卷积核(p,q)位置上的权重,v为上一层特征图对应位置的值;
3D卷积模块的结构由8个3×3×3的3D卷积核,1个池化层,1个全连接层组成,其卷积操作表示为:
Figure FDA0002716630760000023
式中:ReLU为激活函数,
Figure FDA0002716630760000024
为第s层第t个特征图中位置(i,j,k)的输出值,b为偏置量,m表示上一层卷积输出的特征图的数量,P为卷积核的高度,Q为卷积核的宽度,R为卷积核的时间深度,
Figure FDA0002716630760000025
为第s层第t个特征图对应上一层m个特征图在卷积核(p,q,r)位置上的权重,v为上一层特征图对应位置的值。
3.如权利要求1所述的一种基于2.5D/3D混合卷积模型的人体行为识别方法,其特征在于,所述步骤3具体包括以下过程:
针对每段人体行为视频,首先进行视频帧的时间采样,先抽取第一帧,随后从剩余的帧中随机抽取8帧;
将采样得到的视频帧分别从四个角落以及图像中心进行裁剪,并将数据集增强扩充为原始数据的6倍,即5组视频帧采样序列;
针对裁剪、增强后的采样帧进行数据拼接,将上述各组第一帧的RGB通道直接复制,形成1张6通道图像,代表空间信息,剩下的8帧图像按时间顺序两两拼接,形成4张6通道图像,代表时间推理信息;由此每段视频对应的5组视频帧序列均包含5张6通道2.5D图像。
4.如权利要求3所述的一种基于2.5D/3D混合卷积模型的人体行为识别方法,其特征在于,所述步骤4具体包括以下过程:
将所述步骤3得到的采样、增强的视频帧输入到已通过20BN-something-somethingDataset V2数据集预训练完成的混合卷积模型的神经网络模型进行训练。
5.如权利要求4所述的一种基于2.5D/3D混合卷积模型的人体行为识别方法,其特征在于,所述神经网络模型的预训练与训练过程中,均需按所述步骤3构建6通道图像,同时采用5张6通道图像并行输入的模式,输入到网络模型中进行特征提取与识别;在3D卷积模块阶段,将经过2.5D卷积模块输出的特征图变形构建为一组5×79通道特征图,并输入到3D模块进行训练;整个训练过程以端到端的形式进行。
CN202011076560.7A 2020-10-10 2020-10-10 一种基于2.5d/3d混合卷积模型的人体行为识别方法 Active CN112215130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011076560.7A CN112215130B (zh) 2020-10-10 2020-10-10 一种基于2.5d/3d混合卷积模型的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011076560.7A CN112215130B (zh) 2020-10-10 2020-10-10 一种基于2.5d/3d混合卷积模型的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN112215130A true CN112215130A (zh) 2021-01-12
CN112215130B CN112215130B (zh) 2022-08-16

Family

ID=74052986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011076560.7A Active CN112215130B (zh) 2020-10-10 2020-10-10 一种基于2.5d/3d混合卷积模型的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN112215130B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378004A (zh) * 2021-06-03 2021-09-10 中国农业大学 基于FANet的农民劳作行为识别方法和装置、设备及介质
CN113719975A (zh) * 2021-08-03 2021-11-30 南京邮电大学 人体热舒适实时感知和室内环境智能调控方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030002731A1 (en) * 2001-05-28 2003-01-02 Heiko Wersing Pattern recognition with hierarchical networks
CN101404060A (zh) * 2008-11-10 2009-04-08 北京航空航天大学 一种基于可见光与近红外Gabor信息融合的人脸识别方法
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及系统
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
US20200114924A1 (en) * 2018-10-12 2020-04-16 Honda Motor Co., Ltd. System and method for utilizing a temporal recurrent network for online action detection
CN111079507A (zh) * 2019-10-18 2020-04-28 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030002731A1 (en) * 2001-05-28 2003-01-02 Heiko Wersing Pattern recognition with hierarchical networks
CN101404060A (zh) * 2008-11-10 2009-04-08 北京航空航天大学 一种基于可见光与近红外Gabor信息融合的人脸识别方法
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及系统
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
US20200114924A1 (en) * 2018-10-12 2020-04-16 Honda Motor Co., Ltd. System and method for utilizing a temporal recurrent network for online action detection
CN111079507A (zh) * 2019-10-18 2020-04-28 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘相滨等: "人行为识别与理解研究探讨", 《计算机与现代化》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378004A (zh) * 2021-06-03 2021-09-10 中国农业大学 基于FANet的农民劳作行为识别方法和装置、设备及介质
CN113719975A (zh) * 2021-08-03 2021-11-30 南京邮电大学 人体热舒适实时感知和室内环境智能调控方法及系统

Also Published As

Publication number Publication date
CN112215130B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN109902806B (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN113807210A (zh) 一种基于金字塔切分注意力模块的遥感图像语义分割方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN112215130B (zh) 一种基于2.5d/3d混合卷积模型的人体行为识别方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN108090472A (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN112084859A (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
CN116229319A (zh) 多尺度特征融合课堂行为检测方法与系统
US12087046B2 (en) Method for fine-grained detection of driver distraction based on unsupervised learning
CN114005154A (zh) 一种基于ViT和StarGAN的驾驶员表情识别方法
CN113689434A (zh) 一种基于条带池化的图像语义分割方法
CN114332482A (zh) 一种基于特征融合的轻量化目标检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
CN112149496A (zh) 一种基于卷积神经网络的实时道路场景分割方法
CN113255574B (zh) 城市街道语义分割方法及自动驾驶方法
CN113869396A (zh) 基于高效注意力机制的pc屏幕语义分割方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN116503753A (zh) 一种基于多模态空域变换网络的遥感图像场景分类方法
CN111160282A (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN114913368A (zh) 基于自步双向对抗学习的融合遥感图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant