CN114419678B - 基于行人重识别的训练和识别方法、装置、介质及设备 - Google Patents
基于行人重识别的训练和识别方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN114419678B CN114419678B CN202210320935.2A CN202210320935A CN114419678B CN 114419678 B CN114419678 B CN 114419678B CN 202210320935 A CN202210320935 A CN 202210320935A CN 114419678 B CN114419678 B CN 114419678B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature
- matrix
- branch
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于行人重识别的训练和识别方法、装置、介质及设备,属于机器学习技术领域。该方法包括:提取m个行人在同一时间段内的n张测试行人图像,对其进行特征提取得到第一特征矩阵;利用识别模型中的第一分支对第一特征矩阵进行图像质量处理得到第一损失值;利用第二分支对第一特征矩阵和m个行人标识进行中心表征特征处理得到第二损失值;利用第三分支对第一特征矩阵和m*n个图像标识进行图像表征特征处理得到第三损失值;利用第四分支对第一特征矩阵和m个行人标识进行时序特征处理得到第四损失值;根据四个损失值对识别模型进行训练。本申请中可以结合中心表征特征和时序特征训练得到识别模型,从而能够提高行人重识别的精度。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种基于行人重识别的训练和识别方法、装置、介质及设备。
背景技术
行人重识别是利用计算机视觉技术检索图像或者视频序列中是否存在特定行人的技术。当给定一张行人图像时,利用行人重识别技术可以确定行人在其它监控视频中是否出现过。行人重识别可与行人检测、行人跟踪等技术相结合,广泛应用于智能视频监控、智能安保等领域。
相关技术中,可以从监控摄像机获取监控视频流,从监控视频流中提取视频帧,通过人工方式、行人检测或者行人跟踪方式从视频帧中裁切出行人图像,再对行人图像中的行人特征进行识别,将该特征与底库中的行人特征进行比较,根据比较结果对行人与底库中的行人进行匹配。
在实际应用时往往存在各种复杂的情况,如在商场中,行人与行人紧挨着而导致遮挡严重,或者,行人逐渐消失在相机视野中而导致行人的有效面积逐渐变小,这些都会影响行人特征的准确性,从而影响行人重识别的识别精度。
发明内容
本申请提供了一种基于行人重识别的训练和识别方法、装置、介质及设备,用于解决仅根据行人特征进行行人重识别,会影响行人重识别的识别精度的问题。所述技术方案如下:
一方面,提供了一种基于行人重识别的训练方法,所述方法包括:
从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对所述测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数;
利用识别模型中的第一分支对所述第一特征矩阵进行图像质量处理,得到第一损失值;
利用所述识别模型中的第二分支对所述第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值;
利用识别模型中的第三分支对所述第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值;
利用识别模型中的第四分支对所述第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值;
根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值对所述识别模型进行训练。
在一种可能的实现方式中,所述方法还包括:对所述测试行人图像的图像质量进行检测,得到图像质量回归值;
所述利用识别模型中的第一分支对所述第一特征矩阵进行图像质量处理,得到第一损失值,包括:利用所述识别模型中的第一分支,依次对所述第一特征矩阵进行全局池化、维度压缩、全连接和维度压缩处理,得到图像质量矩阵;将所述图像质量矩阵和所述图像质量回归值输入第一损失函数中,得到所述第一损失值。
在一种可能的实现方式中,所述利用所述识别模型中的第二分支对所述第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值,包括:
利用所述识别模型中的第二分支,对所述第一特征矩阵依次进行维度转换和卷积运算后,与所述图像质量矩阵相乘,得到第二特征矩阵;
对所述第二特征矩阵依次进行卷积运算、维度转换和全连接处理,得到中心表征特征矩阵;
将所述中心表征特征矩阵和所述m个行人标识输入第二损失函数中,得到所述第二损失值。
在一种可能的实现方式中,所述利用识别模型中的第三分支对所述第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值,包括:
利用所述识别模型中的第三分支,依次对所述第二特征矩阵进行维度转换和全连接处理,得到图像表征特征矩阵;
将所述图像表征特征矩阵和所述m*n个图像标识输入第三损失函数中,得到所述第三损失值。
在一种可能的实现方式中,所述利用识别模型中的第四分支对所述第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值,包括:
利用所述识别模型中的第四分支,依次对所述第一特征矩阵进行卷积运算、维度压缩、全连接和维度转换处理,得到每张测试行人图像的空间特征向量,且每个行人的n个空间特征向量按照所述n张测试行人图像的时序排列;
利用所述第四分支中的长短时记忆网络LSTM对所述空间特征向量进行处理,得到每个行人的时序特征向量;
对所述时序特征向量进行全连接处理,得到时序特征矩阵;
将所述时序特征矩阵和所述m个行人标识输入第四损失函数中,得到所述第四损失值。
一方面,提供了一种基于行人重识别的识别方法,用于安装有识别模型的计算机设备中,所述识别模型由上述训练方法训练得到的,所述方法包括:
从不同相机拍摄的视频流中提取每个目标行人在同一时间段内的n张第一行人图像,n为正整数;对于每个目标行人,利用所述第二分支对所述目标行人的n张第一行人图像进行中心表征特征处理,得到所述目标行人的第一中心表征特征矩阵;利用所述第四分支对所述目标行人的n张第一行人图像进行时序特征处理,得到所述目标行人的第一时序特征向量;
获取待识别行人的n张第二行人图像;利用所述第二分支对所述n张第二行人图像进行中心表征特征处理,得到第二中心表征特征矩阵;利用所述第四分支对所述n张第二行人图像进行时序特征处理,得到第二时序特征向量;
计算所述第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及所述第二时序特征向量与每个第一时序特征向量的第二相似度;
若与一个目标行人对应的第一相似度和第二相似度均超过预定阈值,则将所述待识别行人识别为所述目标行人。
一方面,提供了一种基于行人重识别的训练装置,所述装置包括:
提取模块,用于从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对所述测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数;
处理模块,用于利用识别模型中的第一分支对所述第一特征矩阵进行图像质量处理,得到第一损失值;利用所述识别模型中的第二分支对所述第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值;利用识别模型中的第三分支对所述第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值;利用识别模型中的第四分支对所述第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值;
训练模块,用于根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值对所述识别模型进行训练。
一方面,提供了一种基于行人重识别的识别装置,用于安装有识别模型的计算机设备中,所述识别模型由上述训练方法训练得到的,所述装置包括:
第一提取模块,用于从不同相机拍摄的视频流中提取每个目标行人在同一时间段内的n张第一行人图像,n为正整数;对于每个目标行人,利用所述第二分支对所述目标行人的n张第一行人图像进行中心表征特征处理,得到所述目标行人的第一中心表征特征矩阵;利用所述第四分支对所述目标行人的n张第一行人图像进行时序特征处理,得到所述目标行人的第一时序特征向量;
第二提取模块,用于获取待识别行人的n张第二行人图像;利用所述第二分支对所述n张第二行人图像进行中心表征特征处理,得到第二中心表征特征矩阵;利用所述第四分支对所述n张第二行人图像进行时序特征处理,得到第二时序特征向量;
计算模块,用于计算所述第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及所述第二时序特征向量与每个第一时序特征向量的第二相似度;
识别模块,用于若与一个目标行人对应的第一相似度和第二相似度均超过预定阈值,则将所述待识别行人识别为所述目标行人。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的基于行人重识别的训练方法,或者,所述至少一条指令由处理器加载并执行以实现如上所述的基于行人重识别的识别方法。
一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的基于行人重识别的训练方法,或者,所述指令由所述处理器加载并执行以实现如上所述的基于行人重识别的识别方法。
本申请提供的技术方案的有益效果至少包括:
通过对m个行人在同一时间段内的n张测试行人图像进行特征提取得到第一特征矩阵后,可以利用识别模型中的四个分支对测试行人图像分别进行图像质量处理、中心表征特征处理、图像表征特征处理和时序特征处理,根据得到的四个损失值对识别模型进行训练。这样,既可以通过中心表征特征处理来提取每个行人的中心表征特征,又可以通过时序特征处理来提取每个行人的时序特征,结合这两种特征训练得到的识别模型能够有效地提高行人重识别的精度。
通过利用识别模型中的第二分支和第四分支分别对行人图像分别进行中心表征特征处理和时序特征处理,根据得到的中心表征特征矩阵和时序特征矩阵来计算待识别行人和多个目标行人之间的相似度,最后根据相似度将待识别行人识别为一个目标行人。由于通过中心表征特征和时序特征计算的相似度较为准确,所以,提高了行人重识别的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的基于行人重识别的训练方法的方法流程图;
图2是本申请另一实施例提供的基于行人重识别的训练方法的方法流程图;
图3是本申请一个实施例提供的基于行人重识别的识别方法的方法流程图;
图4是本申请另一实施例提供的基于行人重识别的训练装置的结构框图;
图5是本申请再一实施例提供的基于行人重识别的训练装置的结构框图;
图6是本申请再一实施例提供的基于行人重识别的识别装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的基于行人重识别的训练方法的方法流程图,该基于行人重识别的训练方法可以应用于计算机设备中。该基于行人重识别的训练方法,可以包括:
步骤101,从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数。
本实施例中,计算机设备可以从不同相机拍摄的视频流中获取同一时间段内的视频片段,通过行人检测方式或人工方式从这些视频片段中提取出每个行人的行人图像,再通过行人检测方式或人工方式对这些行人图像进行标注,得到测试行人图像。其中,标注信息包括但不限于:图像名称、行人标识、提取开始时间和提取结束时间。
假设计算机设备共提取到m个行人,在时长为T的时间段内随机选择一个时间点记为start,随后每隔时间间隔t采样一张行人图像,最终可以得到start、start+1、start+2、……、start+(n-1)共n时间点的行人图像,再对这些行人图像进行标注,总共可以得到m*n张测试行人图像。
计算机设备可以将所有测试行人图像输入基础模型中,通过基础模型对每张测试行人图像进行特征提取,若每个测试行人图像对应于k*v维特征,则基础模型的输出结果为m*n*c*k*v维的第一特征矩阵,c表示特征通道数。其中,基础模型可以是诸如resnet、shufflenet、vgg之类的深度学习模型,且其可以着重提取服饰、遮挡等特征。
步骤102,利用识别模型中的第一分支对第一特征矩阵进行图像质量处理,得到第一损失值。
步骤103,利用识别模型中的第二分支对第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值。
步骤104,利用识别模型中的第三分支对第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值。
步骤105,利用识别模型中的第四分支对第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值。
步骤106,根据第一损失值、第二损失值、第三损失值和第四损失值对识别模型进行训练。
计算机设备可以将第一损失值、第二损失值、第三损失值和第四损失值相加后进行梯度回传,并再次按照上述方式进行训练,直至识别模型收敛。
综上所述,本申请实施例提供的基于行人重识别的训练方法,通过对m个行人在同一时间段内的n张测试行人图像进行特征提取得到第一特征矩阵后,可以利用识别模型中的四个分支对测试行人图像分别进行图像质量处理、中心表征特征处理、图像表征特征处理和时序特征处理,根据得到的四个损失值对识别模型进行训练。这样,既可以通过中心表征特征处理来提取每个行人的中心表征特征,又可以通过时序特征处理来提取每个行人的时序特征,结合这两种特征训练得到的识别模型能够有效地提高行人重识别的精度。
请参考图2,其示出了本申请一个实施例提供的基于行人重识别的训练方法的方法流程图,该基于行人重识别的训练方法可以应用于计算机设备中。该基于行人重识别的训练方法,可以包括:
步骤201,从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数。
本实施例中,计算机设备可以从不同相机拍摄的视频流中获取同一时间段内的视频片段,通过行人检测方式或人工方式从这些视频片段中提取出每个行人的行人图像,再通过行人检测方式或人工方式对这些行人图像进行标注,得到测试行人图像。其中,标注信息包括但不限于:图像名称、行人标识、提取开始时间和提取结束时间。
假设计算机设备共提取到m个行人,在时长为T的时间段内随机选择一个时间点记为start,随后每隔时间间隔t采样一张行人图像,最终可以得到start、start+1、start+2、……、start+(n-1)共n时间点的行人图像,再对这些行人图像进行标注,总共可以得到m*n张测试行人图像。
计算机设备可以将所有测试行人图像输入基础模型中,通过基础模型对每张测试行人图像进行特征提取,若每个测试行人图像对应于k*v维特征,则基础模型的输出结果为m*n*c*k*v维的第一特征矩阵,c表示特征通道数。其中,基础模型可以是诸如resnet、shufflenet、vgg之类的深度学习模型,且其可以着重提取服饰、遮挡等特征。
步骤202,对测试行人图像的图像质量进行检测,得到图像质量回归值。
计算机设备可以将每张测试行人图像输入多个分类模型,由每个分类模型分别对该测试行人图像的图像质量进行检测,并输出图像质量评分,取所有图像质量评分的平均值作为该测试行人图像的图像质量回归值。其中,图像质量回归值的数值范围在0-1之间,且其与图像质量呈正相关关系。即,图像质量回归值越高,表示测试行人图像的图像质量较高、行人被遮挡地较少且图像清晰;图像质量回归值越低,表示测试行人图像的图像质量较低、行人被遮挡地较多且图像模糊。
其中,分类模型可以是公开的行人检测模型或行人重识别模型,若分类模型是行人检测模型,则输出的图像质量评分是目标属于行人类别的置信度;若分类模型是行人重识别模型,则输出的图像质量评分是目标与其他行人的相似度。
步骤203,利用识别模型中的第一分支,依次对第一特征矩阵进行全局池化、维度压缩、全连接和维度压缩处理,得到图像质量矩阵;将图像质量矩阵和图像质量回归值输入第一损失函数中,得到第一损失值。
第一分支用于计算每个行人的每张测试行人图像的图像质量。
具体的,第一分支对m*n*c*k*v维的第一特征矩阵进行全局池化处理,得到(m*n)*c*1*1维的第一中间特征矩阵,对第一中间特征矩阵进行维度压缩处理,得到(m*n)*c维的第二中间特征矩阵,采用全连接层对第二中间特征矩阵进行计算和维度压缩后,得到m*n维的图像质量矩阵。在训练阶段,第一分支将m*n维的图像质量矩阵与图像质量回归值输入第一损失函数中,第一损失函数计算并输出第一损失值。
步骤204,利用识别模型中的第二分支,对第一特征矩阵依次进行维度转换和卷积运算后,与图像质量矩阵相乘,得到第二特征矩阵;对第二特征矩阵依次进行卷积运算、维度转换和全连接处理,得到中心表征特征矩阵;将中心表征特征矩阵和m个行人标识输入第二损失函数中,得到第二损失值。
第二分支用于计算每个行人的每张测试行人图像的中心表征特征。
具体的,第二分支对第一特征矩阵进行维度变换,得到m*(n*c)*k*v维的第三中间特征矩阵,然后,对第三中间特征矩阵进行卷积核为1*1、输入通道为n*c、输出通道为n的卷积运算,得到m*n*k*v维的第四中间特征矩阵;将第四中间特征矩阵与图像质量矩阵进行点乘,得到m*n*k*v维的第二特征矩阵。
第二分支对第二特征矩阵进行卷积核为1*1、输入通道为n、输出通道为1的卷积运算,得到m*1*k*v维的第五中间特征矩阵,然后对第五中间特征矩阵进行纬度变换,从一个四维的特征矩阵变换得到一个m*(k*v)的二维的特征矩阵,其中,m表示m个行人,(k*v)表示每个行人的特征向量。最后,采用一个输入纬度为(k*v)、输出纬度为d的全连接层对维度变换后的m*(k*v)维的特征矩阵进行计算,得到m*d维的中心表征特征矩阵,其中,每个行人在这段时间序列中的中心表征特征就是1*d维,这个维度可以根据实验效果,项目硬件需求进行修改。在训练阶段,第二分支将m*d维的中心表征特征矩阵与m个行人标识(ID)输入第二损失函数中,第二损失函数计算并输出第二损失值。
需要说明的是,在测试和使用阶段,第二分支需要输出中心表征特征矩阵。
步骤205,利用识别模型中的第三分支,依次对第二特征矩阵进行维度转换和全连接处理,得到图像表征特征矩阵;将图像表征特征矩阵和m*n个图像标识输入第三损失函数中,得到第三损失值。
第三分支用于计算每个行人的每张测试行人图像的图像表征特征。
具体的,第三分支对m*n*k*v维的第二特征矩阵进行纬度转换,得到(m*n)*(k*v)二维的第六中间特征矩阵,再利用输入通道为(k*v)、输出通道d的全连接层对第六中间特征矩阵进行计算,得到(m*n)*d维的图像表征特征矩阵。在训练阶段,将图像表征特征矩阵与(m*n)张测试行人图像的图像标识输入第三损失函数中,第三损失函数计算并输出第三损失值。
步骤206,利用识别模型中的第四分支,依次对第一特征矩阵进行卷积运算、维度压缩、全连接和维度转换处理,得到每张测试行人图像的空间特征向量,且每个行人的n个空间特征向量按照n张测试行人图像的时序排列;利用第四分支中的LSTM对空间特征向量进行处理,得到每个行人的时序特征向量;对时序特征向量进行全连接处理,得到时序特征矩阵;将时序特征矩阵和m个行人标识输入第四损失函数中,得到第四损失值。
第四分支用于计算每个行人在有序长度为n的图像序列的时序特征。
具体的,第四分支对(m*n)*c*k*v维的第一特征矩阵进行卷积核为k*v、输入输出通道都为c的卷积运算,得到(m*n)*c*1*1维的第七中间特征矩阵,再对第七中间特征矩阵进行维度压缩处理,得到(m*n)*c维的第八中间特征矩阵。然后,第四分支使用全连接对第八中间特征矩阵进行计算,得到(m*n)*d维的第九中间特征矩阵,对第九中间特征矩阵进行维度转换处理,得到m*n*d维的空间特征向量矩阵,n*d维的空间特征向量表示每个行人的n张测试行人图像的1*d维的空间特征,且每个1*d维的空间特征按照n张测试行人图像的时序排列。
在n维上,第四分支将同一个行人的不同时间序列的1*d维的空间特征向量输入LSTM(Long Short Term Memory networks,长短时记忆网络)中进行计算,得到每个行人在时长为T的时间段内的1*d维的时序特征向量,m个行人的时序特征向量为m*d维。然后,第四分支采用全连接层对每个行人的时序特征向量进行计算,得到m*A维的时序特征矩阵,A表示所有时间段内识别出的所有行人的数量。在训练阶段,第四分支将m*A维的时序特征矩阵与m个行人标识输入第四损失函数,第四损失函数计算并输出第四损失值。
需要说明的是,在测试阶段,第四分支需要输出每个行人的n*d维的时序特征向量。
步骤207,根据第一损失值、第二损失值、第三损失值和第四损失值对识别模型进行训练。
计算机设备可以将第一损失值、第二损失值、第三损失值和第四损失值相加后进行梯度回传,并再次按照上述方式进行训练,直至识别模型收敛。
经典的行人重识别通常只着重于提取行人在移动过程中的时序信息或者只着重于提取行人在空间层面的特征,计算较为片面。本实施例中所提出来的方法,可以在无监督的方式下提取单张测试行人图像的图像质量特征、中心表征特征、图像表征特征和时序特征,再对识别模型进行训练,可以有效的提升行人重识别的精度。
综上所述,本申请实施例提供的基于行人重识别的训练方法,通过对m个行人在同一时间段内的n张测试行人图像进行特征提取得到第一特征矩阵后,可以利用识别模型中的四个分支对测试行人图像分别进行图像质量处理、中心表征特征处理、图像表征特征处理和时序特征处理,根据得到的四个损失值对识别模型进行训练。这样,既可以通过中心表征特征处理来提取每个行人的中心表征特征,又可以通过时序特征处理来提取每个行人的时序特征,结合这两种特征训练得到的识别模型能够有效地提高行人重识别的精度。
请参考图3,其示出了本申请一个实施例提供的基于行人重识别的识别方法的方法流程图,该基于行人重识别的识别方法可以应用于计算机设备中,该计算机设备中安装有由图1或2所示的训练方法训练得到的识别模型。该基于行人重识别的训练方法,可以包括:
步骤301,从不同相机拍摄的视频流中提取每个目标行人在同一时间段内的n张第一行人图像,n为正整数;对于每个目标行人,利用第二分支对目标行人的n张第一行人图像进行中心表征特征处理,得到目标行人的第一中心表征特征矩阵;利用第四分支对目标行人的n张第一行人图像进行时序特征处理,得到目标行人的第一时序特征向量。
其中,第一中心表征特征矩阵的计算流程详见步骤204中的描述,第一时序特征向量的计算流程详见步骤206中的描述,此处不再赘述。
计算机设备可以利用识别模型提取到每个目标行人的第一中心表征特征矩阵和第一时序特征向量,将第一中心表征特征矩阵、第一时序特征向量和目标行人的行人标识对应存储到底库中。
步骤302,获取待识别行人的n张第二行人图像;利用第二分支对n张第二行人图像进行中心表征特征处理,得到第二中心表征特征矩阵;利用第四分支对n张第二行人图像进行时序特征处理,得到第二时序特征向量。
其中,第二中心表征特征矩阵的计算流程详见步骤204中的描述,第二时序特征向量的计算流程详见步骤206中的描述,此处不再赘述。
步骤303,计算第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及第二时序特征向量与每个第一时序特征向量的第二相似度。
具体的,计算机设备可以采用L2距离、余弦相似度等算法,计算第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及第二时序特征向量与每个第一时序特征向量的第二相似度。
步骤304,若与一个目标行人对应的第一相似度和第二相似度均超过预定阈值,则将待识别行人识别为目标行人。
本实施例中,在训练完识别模型后,需要使用验证集对识别模型进行测试,在测试阶段可以得到识别阈值,并将该识别阈值作为预定阈值进行记录。
计算机设备可以从所有的第一相似度中选择数值最大的第一相似度,从所有的第二相似度中选择数值最大的第二相似度,将选出的第一相似度和第二相似度分别与预定阈值进行比较,若第一相似度和第二相似度均超过预定阈值,则将第一相似度和第二相似度对应的目标行人作为待识别行人的匹配结果;若第一相似度和第二相似度中任意一个未超过预定阈值,则确定匹配失败。
综上所述,本申请实施例提供的基于行人重识别的识别方法,通过利用识别模型中的第二分支和第四分支分别对行人图像分别进行中心表征特征处理和时序特征处理,根据得到的中心表征特征矩阵和时序特征矩阵来计算待识别行人和多个目标行人之间的相似度,最后根据相似度将待识别行人识别为一个目标行人。由于通过中心表征特征和时序特征计算的相似度较为准确,所以,提高了行人重识别的精度。
请参考图4,其示出了本申请一个实施例提供的基于行人重识别的训练装置的结构框图,该基于行人重识别的训练装置可以应用于计算机设备中。该基于行人重识别的训练装置,可以包括:
提取模块410,用于从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数;
处理模块420,用于利用识别模型中的第一分支对第一特征矩阵进行图像质量处理,得到第一损失值;利用识别模型中的第二分支对第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值;利用识别模型中的第三分支对第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值;利用识别模型中的第四分支对第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值;
训练模块430,用于根据第一损失值、第二损失值、第三损失值和第四损失值对识别模型进行训练。
请参考图5,在一个可选的实施例中,该装置还包括:
检测模块440,用于对测试行人图像的图像质量进行检测,得到图像质量回归值;
处理模块420,还用于:利用识别模型中的第一分支,依次对第一特征矩阵进行全局池化、维度压缩、全连接和维度压缩处理,得到图像质量矩阵;将图像质量矩阵和图像质量回归值输入第一损失函数中,得到第一损失值。
在一个可选的实施例中,处理模块420,还用于:
利用识别模型中的第二分支,对第一特征矩阵依次进行维度转换和卷积运算后,与图像质量矩阵相乘,得到第二特征矩阵;
对第二特征矩阵依次进行卷积运算、维度转换和全连接处理,得到中心表征特征矩阵;
将中心表征特征矩阵和m个行人标识输入第二损失函数中,得到第二损失值。
在一个可选的实施例中,处理模块420,还用于:
利用识别模型中的第三分支,依次对第二特征矩阵进行维度转换和全连接处理,得到图像表征特征矩阵;
将图像表征特征矩阵和m*n个图像标识输入第三损失函数中,得到第三损失值。
在一个可选的实施例中,处理模块420,还用于:
利用识别模型中的第四分支,依次对第一特征矩阵进行卷积运算、维度压缩、全连接和维度转换处理,得到每张测试行人图像的空间特征向量,且每个行人的n个空间特征向量按照n张测试行人图像的时序排列;
利用第四分支中的长短时记忆网络LSTM对空间特征向量进行处理,得到每个行人的时序特征向量;
对时序特征向量进行全连接处理,得到时序特征矩阵;
将时序特征矩阵和m个行人标识输入第四损失函数中,得到第四损失值。
综上所述,本申请实施例提供的基于行人重识别的训练装置,通过对m个行人在同一时间段内的n张测试行人图像进行特征提取得到第一特征矩阵后,可以利用识别模型中的四个分支对测试行人图像分别进行图像质量处理、中心表征特征处理、图像表征特征处理和时序特征处理,根据得到的四个损失值对识别模型进行训练。这样,既可以通过中心表征特征处理来提取每个行人的中心表征特征,又可以通过时序特征处理来提取每个行人的时序特征,结合这两种特征训练得到的识别模型能够有效地提高行人重识别的精度。
请参考图6,其示出了本申请一个实施例提供的基于行人重识别的识别装置的结构框图,该基于行人重识别的识别装置可以应用于计算机设备中,该计算机设备中安装有由图1或2所示的训练方法训练得到的识别模型。该基于行人重识别的识别装置,可以包括:
第一提取模块610,用于从不同相机拍摄的视频流中提取每个目标行人在同一时间段内的n张第一行人图像,n为正整数;对于每个目标行人,利用第二分支对目标行人的n张第一行人图像进行中心表征特征处理,得到目标行人的第一中心表征特征矩阵;利用第四分支对目标行人的n张第一行人图像进行时序特征处理,得到目标行人的第一时序特征向量;
第二提取模块620,用于获取待识别行人的n张第二行人图像;利用第二分支对n张第二行人图像进行中心表征特征处理,得到第二中心表征特征矩阵;利用第四分支对n张第二行人图像进行时序特征处理,得到第二时序特征向量;
计算模块630,用于计算第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及第二时序特征向量与每个第一时序特征向量的第二相似度;
识别模块640,用于若与一个目标行人对应的第一相似度和第二相似度均超过预定阈值,则将待识别行人识别为目标行人。
综上所述,本申请实施例提供的基于行人重识别的识别装置,通过利用识别模型中的第二分支和第四分支分别对行人图像分别进行中心表征特征处理和时序特征处理,根据得到的中心表征特征矩阵和时序特征矩阵来计算待识别行人和多个目标行人之间的相似度,最后根据相似度将待识别行人识别为一个目标行人。由于通过中心表征特征和时序特征计算的相似度较为准确,所以,提高了行人重识别的精度。
本申请一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的基于行人重识别的训练方法,或者,所述至少一条指令由处理器加载并执行以实现如上所述的基于行人重识别的识别方法。
本申请一个实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的基于行人重识别的训练方法,或者,所述指令由所述处理器加载并执行以实现如上所述的基于行人重识别的识别方法。
需要说明的是:上述实施例提供的基于行人重识别的训练和识别装置在进行基于行人重识别的训练和识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于行人重识别的训练和识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于行人重识别的训练和识别装置与基于行人重识别的训练和识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (7)
1.一种基于行人重识别的训练方法,其特征在于,所述方法包括:
从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对所述测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数;
利用识别模型中的第一分支对所述第一特征矩阵进行图像质量处理,得到第一损失值;
利用所述识别模型中的第二分支对所述第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值;
利用识别模型中的第三分支对所述第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值;
利用识别模型中的第四分支对所述第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值;
根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值对所述识别模型进行训练;
所述方法还包括:对所述测试行人图像的图像质量进行检测,得到图像质量回归值;所述利用识别模型中的第一分支对所述第一特征矩阵进行图像质量处理,得到第一损失值,包括:利用所述识别模型中的第一分支,依次对所述第一特征矩阵进行全局池化、维度压缩、全连接和维度压缩处理,得到图像质量矩阵;将所述图像质量矩阵和所述图像质量回归值输入第一损失函数中,得到所述第一损失值;
所述利用所述识别模型中的第二分支对所述第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值,包括:利用所述识别模型中的第二分支,对所述第一特征矩阵依次进行维度转换和卷积运算后,与所述图像质量矩阵相乘,得到第二特征矩阵;对所述第二特征矩阵依次进行卷积运算、维度转换和全连接处理,得到中心表征特征矩阵;将所述中心表征特征矩阵和所述m个行人标识输入第二损失函数中,得到所述第二损失值;
所述利用识别模型中的第三分支对所述第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值,包括:利用所述识别模型中的第三分支,依次对所述第二特征矩阵进行维度转换和全连接处理,得到图像表征特征矩阵;将所述图像表征特征矩阵和所述m*n个图像标识输入第三损失函数中,得到所述第三损失值。
2.根据权利要求1所述的基于行人重识别的训练方法,其特征在于,所述利用识别模型中的第四分支对所述第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值,包括:
利用所述识别模型中的第四分支,依次对所述第一特征矩阵进行卷积运算、维度压缩、全连接和维度转换处理,得到每张测试行人图像的空间特征向量,且每个行人的n个空间特征向量按照所述n张测试行人图像的时序排列;
利用所述第四分支中的长短时记忆网络LSTM对所述空间特征向量进行处理,得到每个行人的时序特征向量;
对所述时序特征向量进行全连接处理,得到时序特征矩阵;
将所述时序特征矩阵和所述m个行人标识输入第四损失函数中,得到所述第四损失值。
3.一种基于行人重识别的识别方法, 其特征在于,用于安装有识别模型的计算机设备中,所述识别模型由权利要求1或2所述的训练方法训练得到的,所述方法包括:
从不同相机拍摄的视频流中提取每个目标行人在同一时间段内的n张第一行人图像,n为正整数;对于每个目标行人,利用所述第二分支对所述目标行人的n张第一行人图像进行中心表征特征处理,得到所述目标行人的第一中心表征特征矩阵;利用所述第四分支对所述目标行人的n张第一行人图像进行时序特征处理,得到所述目标行人的第一时序特征向量;
获取待识别行人的n张第二行人图像;利用所述第二分支对所述n张第二行人图像进行中心表征特征处理,得到第二中心表征特征矩阵;利用所述第四分支对所述n张第二行人图像进行时序特征处理,得到第二时序特征向量;
计算所述第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及所述第二时序特征向量与每个第一时序特征向量的第二相似度;
若与一个目标行人对应的第一相似度和第二相似度均超过预定阈值,则将所述待识别行人识别为所述目标行人。
4.一种基于行人重识别的训练装置,其特征在于,所述装置包括:
提取模块,用于从不同相机拍摄的视频流中提取m个行人在同一时间段内的n张测试行人图像,对所述测试行人图像进行特征提取得到第一特征矩阵,m和n为正整数;
处理模块,用于利用识别模型中的第一分支对所述第一特征矩阵进行图像质量处理,得到第一损失值;利用所述识别模型中的第二分支对所述第一特征矩阵和m个行人标识进行中心表征特征处理,得到第二损失值;利用识别模型中的第三分支对所述第一特征矩阵和m*n个图像标识进行图像表征特征处理,得到第三损失值;利用识别模型中的第四分支对所述第一特征矩阵和m个行人标识进行时序特征处理,得到第四损失值;
训练模块,用于根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值对所述识别模型进行训练;
所述装置还包括检测模块,用于对所述测试行人图像的图像质量进行检测,得到图像质量回归值;所述处理模块,还用于:利用所述识别模型中的第一分支,依次对所述第一特征矩阵进行全局池化、维度压缩、全连接和维度压缩处理,得到图像质量矩阵;将所述图像质量矩阵和所述图像质量回归值输入第一损失函数中,得到所述第一损失值;
所述处理模块,还用于:利用所述识别模型中的第二分支,对所述第一特征矩阵依次进行维度转换和卷积运算后,与所述图像质量矩阵相乘,得到第二特征矩阵;对所述第二特征矩阵依次进行卷积运算、维度转换和全连接处理,得到中心表征特征矩阵;将所述中心表征特征矩阵和所述m个行人标识输入第二损失函数中,得到所述第二损失值;
所述处理模块,还用于:利用所述识别模型中的第三分支,依次对所述第二特征矩阵进行维度转换和全连接处理,得到图像表征特征矩阵;将所述图像表征特征矩阵和所述m*n个图像标识输入第三损失函数中,得到所述第三损失值。
5.一种基于行人重识别的识别装置,其特征在于,用于安装有识别模型的计算机设备中,所述识别模型由权利要求1或2所述的训练方法训练得到的,所述装置包括:
第一提取模块,用于从不同相机拍摄的视频流中提取每个目标行人在同一时间段内的n张第一行人图像,n为正整数;对于每个目标行人,利用所述第二分支对所述目标行人的n张第一行人图像进行中心表征特征处理,得到所述目标行人的第一中心表征特征矩阵;利用所述第四分支对所述目标行人的n张第一行人图像进行时序特征处理,得到所述目标行人的第一时序特征向量;
第二提取模块,用于获取待识别行人的n张第二行人图像;利用所述第二分支对所述n张第二行人图像进行中心表征特征处理,得到第二中心表征特征矩阵;利用所述第四分支对所述n张第二行人图像进行时序特征处理,得到第二时序特征向量;
计算模块,用于计算所述第二中心表征特征矩阵与每个第一中心表征特征矩阵的第一相似度,以及所述第二时序特征向量与每个第一时序特征向量的第二相似度;
识别模块,用于若与一个目标行人对应的第一相似度和第二相似度均超过预定阈值,则将所述待识别行人识别为所述目标行人。
6.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1或2所述的基于行人重识别的训练方法,或者,所述至少一条指令由处理器加载并执行以实现如权利要求3所述的基于行人重识别的识别方法。
7.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1或2所述的基于行人重识别的训练方法,或者,所述指令由所述处理器加载并执行以实现如权利要求3所述的基于行人重识别的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210320935.2A CN114419678B (zh) | 2022-03-30 | 2022-03-30 | 基于行人重识别的训练和识别方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210320935.2A CN114419678B (zh) | 2022-03-30 | 2022-03-30 | 基于行人重识别的训练和识别方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114419678A CN114419678A (zh) | 2022-04-29 |
CN114419678B true CN114419678B (zh) | 2022-06-14 |
Family
ID=81264350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210320935.2A Active CN114419678B (zh) | 2022-03-30 | 2022-03-30 | 基于行人重识别的训练和识别方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114419678B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909673B (zh) * | 2019-11-21 | 2022-09-16 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN112906549B (zh) * | 2021-02-07 | 2022-10-25 | 同济大学 | 一种基于时空胶囊网络的视频行为检测方法 |
CN113111814B (zh) * | 2021-04-20 | 2022-12-06 | 合肥学院 | 基于正则化约束的半监督行人重识别方法及装置 |
CN113591545B (zh) * | 2021-06-11 | 2024-05-24 | 北京师范大学珠海校区 | 一种基于深度学习的多级特征提取网络行人再识别方法 |
-
2022
- 2022-03-30 CN CN202210320935.2A patent/CN114419678B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114419678A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921130B (zh) | 基于显著性区域的视频关键帧提取方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN111814661A (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN111582126B (zh) | 基于多尺度行人轮廓分割融合的行人重识别方法 | |
CN110796074B (zh) | 一种基于时空数据融合的行人再识别方法 | |
CN110795595A (zh) | 基于边缘计算的视频结构化存储方法、装置、设备及介质 | |
CN112016531A (zh) | 模型训练方法、对象识别方法、装置、设备及存储介质 | |
CN111814690B (zh) | 一种目标重识别方法、装置和计算机可读存储介质 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN110765841A (zh) | 基于混合注意力机制的群组行人重识别系统及终端 | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
Dai et al. | Two-stream convolution neural network with video-stream for action recognition | |
CN111401308B (zh) | 一种基于光流效应的鱼类行为视频识别方法 | |
KR102225613B1 (ko) | 사람 재식별 장치 및 방법 | |
CN114519863A (zh) | 人体重识别方法、人体重识别装置、计算机设备及介质 | |
CN114419678B (zh) | 基于行人重识别的训练和识别方法、装置、介质及设备 | |
CN112613474A (zh) | 一种行人重识别的方法和装置 | |
WO2022228325A1 (zh) | 行为检测方法、电子设备以及计算机可读存储介质 | |
Guil et al. | A clustering technique for video copy detection | |
CN113743359B (zh) | 车辆重识别方法、模型训练方法及相关装置 | |
CN115115981A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113408356A (zh) | 基于深度学习的行人重识别方法、装置、设备及存储介质 | |
CN114022905A (zh) | 一种属性感知的域拓展行人重识别方法及系统 | |
CN111767808A (zh) | 一种目标重识别的方法、装置、系统及计算机存储介质 | |
CN113761987A (zh) | 一种行人重识别的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd. Address before: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |