CN111353385A - 一种基于掩膜对齐与注意力机制的行人再识别方法和装置 - Google Patents

一种基于掩膜对齐与注意力机制的行人再识别方法和装置 Download PDF

Info

Publication number
CN111353385A
CN111353385A CN202010076906.7A CN202010076906A CN111353385A CN 111353385 A CN111353385 A CN 111353385A CN 202010076906 A CN202010076906 A CN 202010076906A CN 111353385 A CN111353385 A CN 111353385A
Authority
CN
China
Prior art keywords
pedestrian
feature
mast
image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010076906.7A
Other languages
English (en)
Other versions
CN111353385B (zh
Inventor
刘畅
邱卫根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010076906.7A priority Critical patent/CN111353385B/zh
Publication of CN111353385A publication Critical patent/CN111353385A/zh
Application granted granted Critical
Publication of CN111353385B publication Critical patent/CN111353385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于掩膜对齐与注意力机制的行人再识别方法和装置,通过对待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像,进而得到前景掩膜的两个点的坐标;将待识别行人图像和两个坐标输入到预置MAST‑ReIdCNN模型中进行特征提取,空域注意力模块和时域注意力模块对提取的特征进行特征筛选,筛选掉对识别贡献度低的特征以及杂乱的背景特征,保留贡献度高的特征,并添加时域和空域上的注意力机制,以提高识别准确率;将不同尺寸的特征图映射到同一特征空间,避免了行人未对齐而影响识别率的问题,解决了现有的行人再识别方法由于行人图像存在背景杂乱和行人未对齐等原因所导致的行人再识别的准确率不高的技术问题。

Description

一种基于掩膜对齐与注意力机制的行人再识别方法和装置
技术领域
本申请涉及图像识别技术领域,尤其涉及一种基于掩膜对齐与注意力机制的行人再识别方法和装置。
背景技术
行人再识别是指识别出不相重叠摄像头下的行人是否为同一人,可视为图像检索的子问题。由于行人在不同时段出现在不同的摄像头下,会存在光照的变化、行人姿态的变化以及摄像头与行人之间视角的变化的问题,因此,摄像头拍摄的行人图像存在背景杂乱和行人未对齐等问题,使得行人再识别的准确率不高。
发明内容
本申请提供了一种基于掩膜对齐与注意力机制的行人再识别方法和装置,用于解决现有的行人再识别方法由于行人图像存在背景杂乱和行人未对齐等原因所导致的行人再识别的准确率不高的技术问题。
有鉴于此,本申请第一方面提供了一种基于掩膜对齐与注意力机制的行人再识别方法,包括:
对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像;
对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像;
基于所述第一二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
将所述待识别行人图像和所述待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得所述预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的所述两个坐标对所述目标卷积层输出的特征图进行分割,输出所述前景掩膜的特征图,第三池化层对所述前景掩膜的特征图进行处理,输出所述前景掩膜的特征向量,融合层对所述前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征;
计算所述待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的所述欧式距离对应的所述匹配图像作为行人再识别结果。
优选地,所述将所述待识别行人图像和所述待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,之前还包括:
构建MAST-ReIdCNN模型,所述MAST-ReIdCNN模型包括5个所述卷积层、4个所述第一池化层、1个所述第二池化层、1个所述第三池化层、1 个所述裁剪层、1个所述融合层、4个所述空域注意力模块、1个所述时域注意力模块和损失函数。
优选地,所述损失函数包括交叉损失函数和三元组损失函数。
优选地,所述构建MAST-ReIdCNN模型,之后还包括:
对获取的训练集中的训练图像进行分割处理,得到包含前景掩膜的第二二值图像;
基于所述第二二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
将所述训练图像和所述训练图像对应的两个坐标输入到所述 MAST-ReIdCNN模型,对所述MAST-ReIdCNN模型进行训练;
当所述MAST-ReIdCNN模型达到收敛条件时,得到训练好的所述 MAST-ReIdCNN模型,将训练好的所述MAST-ReIdCNN模型作为所述预置 MAST-ReIdCNN模型。
优选地,所述预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,包括:
所述预置MAST-ReIdCNN模型中的所述空域注意力模块中的1×1卷积层对所述第一池化层输出的特征图进行第一卷积操作,输出第一卷积特征图;
所述空域注意力模块中的3×3卷积层对所述第一卷积特征图进行第二卷积操作,输出第二卷积特征图;
所述空域注意力模块中的1×1卷积层对所述第二卷积特征图进行第三卷积操作,输出第三卷积特征图;
所述空域注意力模块中的sigmoid函数对所述第三卷积特征图进行逐点计算,得到权重在0到1之间的权重图;
所述空域注意力模块基于所述权重图对所述第一池化层输出的特征图进行特征筛选。
优选地,所述时域注意力模块对第二池化层输出的特征向量进行特征筛选,包括:
所述时域注意力模块的全连接层对所述第二池化层输出的特征向量进行处理,输出第一特征向量;
所述时域注意力模块的sigmoid函数对所述第一特征向量进行逐点计算,得到权重在0到1之间的权重向量;
所述时域注意力模块基于所述权重向量对所述第二池化层输出的特征向量进行特征筛选。
优选地,所述对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像,包括:
基于分割网络对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像。
优选地,所述基于所述第一二值图像得到所述前景掩膜的左上角和右下角两个点的坐标,包括:
基于积分映射函数对所述第一二值图像进行处理,得到所述前景掩膜的左上角和右下角两个点的坐标。
本申请第二方面提供了一种基于掩膜对齐与注意力机制的行人再识别装置,包括:
视频分帧模块,用于对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像;
第一分割模块,用于对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像;
第一坐标获取模块,用于基于所述第一二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
输入模块,用于将所述待识别行人图像和所述待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得所述预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的所述两个坐标对所述目标卷积层输出的特征图进行分割,输出所述前景掩膜的特征图,第三池化层对所述前景掩膜的特征图进行处理,输出所述前景掩膜的特征向量,融合层对所述前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征;
识别模块,用于计算所述待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的所述欧式距离对应的所述匹配图像作为行人再识别结果。
优选地,还包括:
构建模块,用于构建MAST-ReIdCNN模型,所述MAST-ReIdCNN模型包括5个所述卷积层、4个所述第一池化层、1个所述第二池化层、1个所述第三池化层、1个所述裁剪层、1个所述融合层、4个所述空域注意力模块、1 个所述时域注意力模块和损失函数;
第二分割模块,对获取的训练集中的训练图像进行分割处理,得到包含前景掩膜的第二二值图像;
第二坐标获取模块,用于基于所述第二二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
训练模块,用于将所述训练图像和所述训练图像对应的两个坐标输入到所述MAST-ReIdCNN模型,对所述MAST-ReIdCNN模型进行训练;
收敛模块,用于当所述MAST-ReIdCNN模型达到收敛条件时,得到训练好的所述MAST-ReIdCNN模型,将训练好的所述MAST-ReIdCNN模型作为所述预置MAST-ReIdCNN模型。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种基于掩膜对齐与注意力机制的行人再识别方法,包括:对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像;对待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像;基于第一二值图像得到前景掩膜的左上角和右下角两个点的坐标;将待识别行人图像和待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的两个坐标对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,第三池化层对前景掩膜的特征图进行处理,输出前景掩膜的特征向量,融合层对前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征;计算待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的欧式距离对应的匹配图像作为行人再识别结果。
本申请中的基于掩膜对齐与注意力机制的行人再识别方法,通过将待识别行人图像和其对应的前景掩膜的左上角和右下角两个点的坐标输入到预置 MAST-ReIdCNN模型进行特征提取,通过预置MAST-ReIdCNN模型中的空域注意力模块和时域注意力模块对提取的特征进行特征筛选,筛选掉对识别的贡献度低的特征以及杂乱的背景特征,保留贡献度高的特征,并添加时域和空域上的注意力机制,以提高识别准确率;预置MAST-ReIdCNN模型基于输入的前景掩膜的坐标对目标卷积层提取的特征图进行分割,得到前景掩膜的特征图,去掉了杂乱的背景,通过对前景掩膜的特征图进行处理并与时域注意力模块输出的特征向量进行特征融合,得到最终的待识别行人特征,通过将不同尺寸的特征图映射到同一特征空间,避免了行人未对齐而影响识别率的问题,有助于提高识别的准确率,从而解决了现有的行人再识别方法由于行人图像存在背景杂乱和行人未对齐等原因所导致的行人再识别的准确率不高的技术问题。
附图说明
图1为本申请实施例提供的一种基于掩膜对齐与注意力机制的行人再识别方法的一个流程示意图;
图2为本申请实施例提供的一种基于掩膜对齐与注意力机制的行人再识别方法的另一个流程示意图;
图3为本申请实施例提供的一种基于掩膜对齐与注意力机制的行人再识别装置的一个结构示意图;
图4为本申请实施例提供的MAST-ReIdCNN模型的结构框图;
图5为本申请实施例提供的包含前景掩膜的第二二值图像的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种基于掩膜对齐与注意力机制的行人再识别方法的一个实施例,包括:
步骤101、对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像。
需要说明的是,可以通过监控系统中的摄像头获取待识别行人视频,对视频进行分帧处理属于现有技术,在此不再对其具体过程进行赘述。
步骤102、对待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像。
步骤103、基于第一二值图像得到前景掩膜的左上角和右下角两个点的坐标。
需要说明的是,由于行人在行走时,拍摄得到的行人图像中的行人存在尺寸不同,因此,在进行前景掩膜对齐时,需要对识别行人图像进行预处理,获取前景掩膜,通过对包含前景掩膜的第一二值图像进行处理,得到前景掩膜的左上角和右下角两个点的坐标,通过获取的两个坐标以便于后续实现掩膜对齐。
步骤104、将待识别行人图像和待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的两个坐标对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,第三池化层对前景掩膜的特征图进行处理,输出前景掩膜的特征向量,融合层对前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征。
需要说明的是,本申请实施例中的裁剪层基于目标卷积层输出的特征图大小和输入的两个坐标对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,由于目标卷积层之前有池化操作,此时目标卷积层输出的特征图的大小与原输入的待识别行人图像大小不同,因此,需要对输入的两个坐标进行相应的缩放处理,裁剪层根据缩放处理后的坐标值对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图。
步骤105、计算待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的欧式距离对应的匹配图像作为行人再识别结果。
需要说明的是,预置图库集为从视频数据中获取的包含已知行人信息的匹配图像构成,每个匹配图像中只包含一个行人,用于与待识别行人图像进行匹配识别,匹配图像的行人特征的提取方法与待识别行人图的待识别行人特征的提取方法一致,在此不再对匹配图像的行人特征的提取过程进行赘述。通过计算待识别行人特征与预置图库集中每个匹配图像的行人特征的欧式距离,最小的欧式距离对应的匹配图像中的行人即为待识别行人图像中的行人。
本申请实施例中的基于掩膜对齐与注意力机制的行人再识别方法,通过将待识别行人图像和其对应的前景掩膜的左上角和右下角两个点的坐标输入到预置MAST-ReIdCNN模型进行特征提取,通过预置MAST-ReIdCNN模型中的空域注意力模块和时域注意力模块对提取的特征进行特征筛选,筛选掉对识别的贡献度低的特征以及杂乱的背景特征,保留贡献度高的特征,并添加时域和空域上的注意力机制,以提高识别准确率;预置MAST-ReIdCNN模型基于输入的前景掩膜的坐标对目标卷积层提取的特征图进行分割,得到前景掩膜的特征图,去掉了杂乱的背景,通过对前景掩膜的特征图进行处理并与时域注意力模块输出的特征向量进行特征融合,得到最终的待识别行人特征,通过将不同尺寸的特征图映射到同一特征空间,避免了行人未对齐而影响识别率的问题,有助于提高识别的准确率,从而解决了现有的行人再识别方法由于行人图像存在背景杂乱和行人未对齐等原因所导致的行人再识别的准确率不高的技术问题。
为了便于理解,请参阅图2、图4和图5,本申请提供的一种基于掩膜对齐与注意力机制的行人再识别方法的另一个实施例,包括:
步骤201、构建MAST-ReIdCNN模型。
需要说明的是,请参考图4,MAST-ReIdCNN模型包括5个卷积层、4 个第一池化层,分别为图4中的pool1、pool2、pool3和pool4,1个第二池化层,即图4中的pool5,1个第三池化层,即图4中的GAP,1个裁剪层,即图4中的crop,1个融合层,即图4中的concat,4个空域注意力模块,即为图4中的layer1、layer2、layer3和layer4、1个时域注意力模块,即为图4中的RNN,以及损失函数,损失函数包括交叉损失函数和三元组损失函数。需要注意的是,可以根据实际需要增删卷积层、池化层或空域注意力模块。
步骤202、对获取的训练集中的训练图像进行分割处理,得到包含前景掩膜的第二二值图像。
需要说明的是,本申请实施例中的训练集通过从行人再识别数据库中获取,优选为Mars数据集,Mars数据集的大小为3.6G,一共有1261个行人,包含8298个小段轨迹,总共包含1191003张图像,每张图像对应的有标签,可以将Mars数据集分为训练集和测试集,训练集用来训练模型,测试集用来对训练好的模型进行测试,可以将训练集和测试集分别划分成两部分,分别为查询集和匹配集。由于行人图像中的行人尺寸不同,在进行掩膜对齐时,需要对训练集进行预处理,获取前景掩膜,可以采用分割网络对训练集中的查询集和匹配集分别进行分割处理,得到包含前景掩膜的第二二值图像,其中,分割网络可以是FullyConvolution Network,采用分割网络FCN对图像进行分割处理属于现有技术,在此不再对分割网络对图像进行分割处理得到二值图像的具体过程进行赘述,得到包含前景掩膜的第二二值图像可以参考图 5。
步骤203、基于第二二值图像得到前景掩膜的左上角和右下角两个点的坐标。
需要说明的是,可以采用积分映射函数对第二二值图像进行处理,得到前景掩膜的左上角和右下角两个点的坐标,具体为:预设一个阈值,沿着第二二值图像的横坐标,依次累计计算每列灰度值的和,当累计得到某个点的灰度值的和大于该阈值时,则该点的坐标是前景掩膜的边界点,得到横坐标,同理,沿着第二二值图像的纵坐标,依次累计计算每行灰度值的和,当累计得到某个点的灰度值的和大于该阈值时,则该点的坐标是前景掩膜的边界点,得到前景掩膜的纵坐标,从而得到边界点和戚坐标,通过对得到的边界点进行筛选,得到前景掩膜的左上角和右下角两个点的坐标。
步骤204、将训练图像和训练图像对应的两个坐标输入到MAST-ReIdCNN 模型,对MAST-ReIdCNN模型进行训练。
需要说明的是,MAST-ReIdCNN模型的输入包括训练图像、训练图像的标签和训练图像中前景掩膜的左上角和右下角两个点的坐标,通过 MAST-ReIdCNN模型对训练图像进行特征提取,通过底层的卷积层提取训练图像的边缘特征、纹理特征和颜色特征等,高层的卷积层提取更抽象的语义级别的特征,通过第一池化层、第二池化层和第三池化层对卷积层提取的特征进行筛选,选择鲁棒性更强的特征,同时减少模型的计算量,提高识别速度,通过空域注意力模块和时域注意力模块对提取的特征进行筛选,去掉杂乱背景特征的干扰,加强特征表示;在训练的过程中,batchsize大小为32,其中有8个不同的行人,每个行人取四个不同的轨迹,每个轨迹取四帧图像,通过采用交叉损失函数和三元组损失函数进行联合训练,减少类内距离,增大类间距离,并最小化正样本对的最大距离,最大化负样本对的最小距离,实现模型的最优化。
步骤205、当MAST-ReIdCNN模型达到收敛条件时,得到训练好的 MAST-ReIdCNN模型,将训练好的MAST-ReIdCNN模型作为预置 MAST-ReIdCNN模型。
需要说明的是,收敛条件可以是达到最大迭代次数,迭代次数根据实际情况进行设置,当MAST-ReIdCNN模型达到收敛条件时,得到训练好的 MAST-ReIdCNN模型,将训练好的MAST-ReIdCNN模型作为预置 MAST-ReIdCNN模型,可以采用测试集对预置MAST-ReIdCNN模型进行测试,将测试集中的测试图像和测试图像对应的前景掩膜的左上角和右下角两个点的坐标输入到预置MAST-ReIdCNN模型,根据识别结果来验证该模型的性能,对测试集中的测试图像中的行人进行识别的过程与待识别行人图像的识别过程是一样的,在此不再对测试过程进行赘述。
步骤206、对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像。
需要说明的是,可以通过监控系统中的摄像头获取待识别行人视频,对视频进行分帧处理属于现有技术,在此不再对其具体过程进行赘述。
步骤207、对待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像。
需要说明的是,可以采用分割网络对每张待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像,其中,分割网络可以是Fully Convolution Network,采用分割网络FCN对图像进行分割处理属于现有技术,在此不再对分割网络对图像进行分割处理得到二值图像的具体过程进行赘述。
步骤208、基于第一二值图像得到前景掩膜的左上角和右下角两个点的坐标。
需要说明的是,可以基于积分映射函数对第一二值图像进行处理,得到前景掩膜的左上角和右下角两个点的坐标。
步骤209、将待识别行人图像和待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的两个坐标对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,第三池化层对前景掩膜的特征图进行处理,输出前景掩膜的特征向量,融合层对前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征。
需要说明的是,本申请实施例中将待识别行人图像和待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型中,预置MAST-ReIdCNN模型的卷积层对输入的待识别行人图像进行卷积处理,提取行人特征表示,第一池化层对卷积层提取的特征进行筛选,选择鲁棒性更强的特征,同时减少模型的计算量,提高识别速度。
空域注意力模块包括两个1×1卷积层、一个3×3卷积层和sigmoid函数,空域注意力模块中的一个1×1卷积层对第一池化层输出的特征图进行第一卷积操作,输出第一卷积特征图;空域注意力模块中的3×3卷积层对第一卷积特征图进行第二卷积操作,输出第二卷积特征图;空域注意力模块中的另一个1×1卷积层对第二卷积特征图进行第三卷积操作,输出第三卷积特征图;空域注意力模块中的sigmoid函数对第三卷积特征图进行逐点计算,得到权重在0到1之间的权重图;空域注意力模块基于权重图对第一池化层输出的特征图进行特征筛选,具体为空域注意力模块对权重图和第一池化层输出的特征图进行逐点相乘,实现空域上的注意力机制,由于图像背景杂乱的原因,不同级的卷积层会选择性的提取不同的特征,通过在空域上添加注意力机制可以有效避免背景杂乱所导致的识别率低的问题,通过权重图对第一池化层输出的特征图进行筛选,可以增强模型的特征提取能力。
时域注意力模块连接在第二池化层后,本申请实施例中的时域注意力模块优选为改进的RNN模块,在原有的RNN模块的隐藏层后添加全连接层,时域注意力模块对第二池化层输出的特征向量进行特征筛选,具体为:时域注意力模块的全连接层对第二池化层输出的特征向量进行处理,输出第一特征向量;时域注意力模块的sigmoid函数对第一特征向量进行逐点计算,得到权重在0到1之间的权重向量;时域注意力模块基于权重向量对第二池化层输出的特征向量进行特征筛选,具体为:时域注意力模块将权重向量与第二池化层输出的特征向量进行逐点相乘,实现时域上的注意力机制,通过前几帧的图像信息对当前帧的图像信息进行一次有效特征筛选,通过权重向量对第一池化层输出的特征图进行筛选,可以增强模型的特征提取能力,从而提高识别准确率。
裁剪层基于目标卷积层输出的特征图大小和输入的两个坐标对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,本申请实施例中的目标卷积层为第3个卷积层,由于第3个卷积层之前有两次池化操作,此时第3 个卷积层输出的特征图的大小是原输入的待识别行人图像大小的四分之一,因此,需要对输入的两个坐标进行处理,即将输入的两个坐标的坐标值乘以四分之一,裁剪层根据处理后的坐标值对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,需要注意的是,在进行行人特征比对时,最好的办法是将人体的头部特征与头部特征进行匹配,躯干特征与躯干特征进行匹配,因此,本申请实施例还可以对分割后的特征图进行均分处理,分为四等份,每一份表示人体的不同部位,通过第三池化层对前景掩膜的特征图的每一等份进行处理,对处理后得到的4个特征向量进行特征融合,输出前景掩膜的特征向量;融合层对前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,可以通过concat操作实现融合,最终输出待识别行人特征,通过空域注意力模块和时域注意力模块对提取的特征进行特征筛选,筛选掉对识别的贡献度低的特征以及杂乱的背景特征,保留贡献度高的特征,并添加时域和空域上的注意力机制,以提高识别准确率;通过对前景掩膜的特征图进行处理并与时域注意力模块输出的特征向量进行特征融合,得到最终的待识别行人特征,通过将不同尺寸的特征图映射到同一特征空间,避免了行人未对齐而影响识别率的问题,有助于提高识别的准确率,从而解决了现有的行人再识别方法由于行人图像存在背景杂乱和行人未对齐等原因所导致的行人再识别的准确率不高的技术问题。
步骤210、计算待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的欧式距离对应的匹配图像作为行人再识别结果。
需要说明的是,预置图库集为从视频数据中获取的包含已知行人信息的匹配图像构成,每个匹配图像中只包含一个行人,用于与待识别行人图像进行匹配识别,匹配图像的行人特征的提取方法与待识别行人图的待识别行人特征的提取方法一致,在此不再对匹配图像的行人特征的提取过程进行赘述。通过计算待识别行人特征与预置图库集中每个匹配图像的行人特征的欧式距离,得到若干个欧氏距离,可以对欧氏距离进行降序排序,最小的欧式距离对应的匹配图像中的行人即为待识别行人图像中的行人。
为了便于理解,请参阅图3,本申请提供的一种基于掩膜对齐与注意力机制的行人再识别装置的一个实施例,包括:
视频分帧模块,用于对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像。
第一分割模块,用于对待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像。
第一坐标获取模块,用于基于第一二值图像得到前景掩膜的左上角和右下角两个点的坐标。
输入模块,用于将待识别行人图像和待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的两个坐标对目标卷积层输出的特征图进行分割,输出前景掩膜的特征图,第三池化层对前景掩膜的特征图进行处理,输出前景掩膜的特征向量,融合层对前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征。
识别模块,用于计算待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的欧式距离对应的匹配图像作为行人再识别结果。
进一步地,还包括:
构建模块,用于构建MAST-ReIdCNN模型,MAST-ReIdCNN模型包括5 个卷积层、4个第一池化层、1个第二池化层、1个第三池化层、1个裁剪层、 1个融合层、4个空域注意力模块、1个时域注意力模块和损失函数。
第二分割模块,对获取的训练集中的训练图像进行分割处理,得到包含前景掩膜的第二二值图像。
第二坐标获取模块,用于基于第二二值图像得到前景掩膜的左上角和右下角两个点的坐标。
训练模块,用于将训练图像和训练图像对应的两个坐标输入到 MAST-ReIdCNN模型,对MAST-ReIdCNN模型进行训练。
收敛模块,用于当MAST-ReIdCNN模型达到收敛条件时,得到训练好的 MAST-ReIdCNN模型,将训练好的MAST-ReIdCNN模型作为预置 MAST-ReIdCNN模型。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,包括:
对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像;
对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像;
基于所述第一二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
将所述待识别行人图像和所述待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得所述预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的所述两个坐标对所述目标卷积层输出的特征图进行分割,输出所述前景掩膜的特征图,第三池化层对所述前景掩膜的特征图进行处理,输出所述前景掩膜的特征向量,融合层对所述前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征;
计算所述待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的所述欧式距离对应的所述匹配图像作为行人再识别结果。
2.根据权利要求1所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述将所述待识别行人图像和所述待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,之前还包括:
构建MAST-ReIdCNN模型,所述MAST-ReIdCNN模型包括5个所述卷积层、4个所述第一池化层、1个所述第二池化层、1个所述第三池化层、1个所述裁剪层、1个所述融合层、4个所述空域注意力模块、1个所述时域注意力模块和损失函数。
3.根据权利要求2所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述损失函数包括交叉损失函数和三元组损失函数。
4.根据权利要求2所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述构建MAST-ReIdCNN模型,之后还包括:
对获取的训练集中的训练图像进行分割处理,得到包含前景掩膜的第二二值图像;
基于所述第二二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
将所述训练图像和所述训练图像对应的两个坐标输入到所述MAST-ReIdCNN模型,对所述MAST-ReIdCNN模型进行训练;
当所述MAST-ReIdCNN模型达到收敛条件时,得到训练好的所述MAST-ReIdCNN模型,将训练好的所述MAST-ReIdCNN模型作为所述预置MAST-ReIdCNN模型。
5.根据权利要求1所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,包括:
所述预置MAST-ReIdCNN模型中的所述空域注意力模块中的1×1卷积层对所述第一池化层输出的特征图进行第一卷积操作,输出第一卷积特征图;
所述空域注意力模块中的3×3卷积层对所述第一卷积特征图进行第二卷积操作,输出第二卷积特征图;
所述空域注意力模块中的1×1卷积层对所述第二卷积特征图进行第三卷积操作,输出第三卷积特征图;
所述空域注意力模块中的sigmoid函数对所述第三卷积特征图进行逐点计算,得到权重在0到1之间的权重图;
所述空域注意力模块基于所述权重图对所述第一池化层输出的特征图进行特征筛选。
6.根据权利要求1所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述时域注意力模块对第二池化层输出的特征向量进行特征筛选,包括:
所述时域注意力模块的全连接层对所述第二池化层输出的特征向量进行处理,输出第一特征向量;
所述时域注意力模块的sigmoid函数对所述第一特征向量进行逐点计算,得到权重在0到1之间的权重向量;
所述时域注意力模块基于所述权重向量对所述第二池化层输出的特征向量进行特征筛选。
7.根据权利要求1所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像,包括:
基于分割网络对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像。
8.根据权利要求1所述的基于掩膜对齐与注意力机制的行人再识别方法,其特征在于,所述基于所述第一二值图像得到所述前景掩膜的左上角和右下角两个点的坐标,包括:
基于积分映射函数对所述第一二值图像进行处理,得到所述前景掩膜的左上角和右下角两个点的坐标。
9.一种基于掩膜对齐与注意力机制的行人再识别装置,其特征在于,包括:
视频分帧模块,用于对获取的待识别行人视频进行分帧处理,得到若干帧待识别行人图像;
第一分割模块,用于对所述待识别行人图像进行分割处理,得到包含前景掩膜的第一二值图像;
第一坐标获取模块,用于基于所述第一二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
输入模块,用于将所述待识别行人图像和所述待识别行人图像对应的两个坐标输入到预置MAST-ReIdCNN模型,使得所述预置MAST-ReIdCNN模型中的空域注意力模块对第一池化层输出的特征图进行特征筛选,时域注意力模块对第二池化层输出的特征向量进行特征筛选,裁剪层基于目标卷积层输出的特征图大小和输入的所述两个坐标对所述目标卷积层输出的特征图进行分割,输出所述前景掩膜的特征图,第三池化层对所述前景掩膜的特征图进行处理,输出所述前景掩膜的特征向量,融合层对所述前景掩膜的特征向量和时域注意力模块输出的特征向量进行特征融合,输出待识别行人特征;
识别模块,用于计算所述待识别行人特征与预置图库集中的匹配图像的行人特征的欧式距离,将最小的所述欧式距离对应的所述匹配图像作为行人再识别结果。
10.根据权利要求9所述的基于掩膜对齐与注意力机制的行人再识别装置,其特征在于,还包括:
构建模块,用于构建MAST-ReIdCNN模型,所述MAST-ReIdCNN模型包括5个所述卷积层、4个所述第一池化层、1个所述第二池化层、1个所述第三池化层、1个所述裁剪层、1个所述融合层、4个所述空域注意力模块、1个所述时域注意力模块和损失函数;
第二分割模块,对获取的训练集中的训练图像进行分割处理,得到包含前景掩膜的第二二值图像;
第二坐标获取模块,用于基于所述第二二值图像得到所述前景掩膜的左上角和右下角两个点的坐标;
训练模块,用于将所述训练图像和所述训练图像对应的两个坐标输入到所述MAST-ReIdCNN模型,对所述MAST-ReIdCNN模型进行训练;
收敛模块,用于当所述MAST-ReIdCNN模型达到收敛条件时,得到训练好的所述MAST-ReIdCNN模型,将训练好的所述MAST-ReIdCNN模型作为所述预置MAST-ReIdCNN模型。
CN202010076906.7A 2020-01-23 2020-01-23 一种基于掩膜对齐与注意力机制的行人再识别方法和装置 Active CN111353385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010076906.7A CN111353385B (zh) 2020-01-23 2020-01-23 一种基于掩膜对齐与注意力机制的行人再识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010076906.7A CN111353385B (zh) 2020-01-23 2020-01-23 一种基于掩膜对齐与注意力机制的行人再识别方法和装置

Publications (2)

Publication Number Publication Date
CN111353385A true CN111353385A (zh) 2020-06-30
CN111353385B CN111353385B (zh) 2023-03-17

Family

ID=71194270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010076906.7A Active CN111353385B (zh) 2020-01-23 2020-01-23 一种基于掩膜对齐与注意力机制的行人再识别方法和装置

Country Status (1)

Country Link
CN (1) CN111353385B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001314A (zh) * 2020-08-25 2020-11-27 江苏师范大学 变速提升机的早期故障检测方法
CN112906614A (zh) * 2021-03-08 2021-06-04 中南大学 基于注意力指导的行人重识别方法、装置及存储介质
CN114638856A (zh) * 2022-03-09 2022-06-17 广州小鹏自动驾驶科技有限公司 图像处理方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190574A1 (zh) * 2016-05-04 2017-11-09 北京大学深圳研究生院 一种基于聚合通道特征的快速行人检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190574A1 (zh) * 2016-05-04 2017-11-09 北京大学深圳研究生院 一种基于聚合通道特征的快速行人检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武海燕等: "结合梯度直方图贝叶斯理论视频行人检测", 《计算机工程与设计》 *
邱卫根 等: "多层卷积特征融合的行人检测", 《计算机工程与设计》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001314A (zh) * 2020-08-25 2020-11-27 江苏师范大学 变速提升机的早期故障检测方法
CN112906614A (zh) * 2021-03-08 2021-06-04 中南大学 基于注意力指导的行人重识别方法、装置及存储介质
CN114638856A (zh) * 2022-03-09 2022-06-17 广州小鹏自动驾驶科技有限公司 图像处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111353385B (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
CN110084173B (zh) 人头检测方法及装置
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN107153817B (zh) 行人重识别数据标注方法和装置
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN110569756B (zh) 人脸识别模型构建方法、识别方法、设备和存储介质
CN109472191B (zh) 一种基于时空上下文的行人重识别与追踪方法
CN108921019B (zh) 一种基于GEI和TripletLoss-DenseNet的步态识别方法
CN111353385B (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN107958230B (zh) 人脸表情识别方法及装置
CN111310731A (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
CN109711416B (zh) 目标识别方法、装置、计算机设备和存储介质
CN112750140A (zh) 基于信息挖掘的伪装目标图像分割方法
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
CN112016464A (zh) 检测人脸遮挡的方法、装置、电子设备及存储介质
Wu et al. Real-time background subtraction-based video surveillance of people by integrating local texture patterns
KR102592551B1 (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN112487886A (zh) 一种有遮挡的人脸识别方法、装置、存储介质及终端
CN113705290A (zh) 图像处理方法、装置、计算机设备和存储介质
CN115082966B (zh) 行人重识别模型训练方法、行人重识别方法、装置和设备
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN111401196A (zh) 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质
CN112101195A (zh) 人群密度预估方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant