CN113255615A - 一种自监督学习的行人检索方法及装置 - Google Patents

一种自监督学习的行人检索方法及装置 Download PDF

Info

Publication number
CN113255615A
CN113255615A CN202110761272.3A CN202110761272A CN113255615A CN 113255615 A CN113255615 A CN 113255615A CN 202110761272 A CN202110761272 A CN 202110761272A CN 113255615 A CN113255615 A CN 113255615A
Authority
CN
China
Prior art keywords
model
pedestrian
training
sets
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110761272.3A
Other languages
English (en)
Other versions
CN113255615B (zh
Inventor
李军
周金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202110761272.3A priority Critical patent/CN113255615B/zh
Publication of CN113255615A publication Critical patent/CN113255615A/zh
Application granted granted Critical
Publication of CN113255615B publication Critical patent/CN113255615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自监督学习的行人检索方法及装置,该方法包括第一步,构建模型M;使用卷积神经网络模型和Transformer Encoder模型;第二步,对模型M进一步训练;第三步,采集实际应用场景下的视频数据对第二步得到的模型M进行训练;通过设计聚类算法,结合InfoNCE loss损失,形成了自监督学习算法,第四步,模型部署;该方法避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题,提升了行人检索的准确率;降低了行人检索模型的落地成本,提升了模型的鲁棒性。

Description

一种自监督学习的行人检索方法及装置
技术领域
本发明涉及图像识别研究领域,尤其是基于图像的行人检索领域、自监督学习领域和深度学习领域,具体涉及一种自监督学习的行人检索方法及装置。
背景技术
目前主流的行人检索算法是基于深度学习的行人重识别算法,在Market1501、MSMT17等公开数据集上取得了显著的识别效果,在实际应用中也取得了一定的效果。基于深度学习的行人重识别算法,按照有监督学习算法的流程,收集每个行人在不同摄像头下不同姿态的图片,并人工为每个行人赋予唯一的ID。基于有监督学习和深度学习的行人重识别算法,在实际应用中,需要人工在大量视频数据中为每个行人标注出唯一互不重复的ID,非常耗时且难以保证标注的质量,影响实际工业应用中行人重识别模型的落地效果。基于卷积神经网络的行人重识别算法,由于自身结构的限制,仅能提取每个元素对应的感受野区域的特征,不能从全局的视角提取图像的特征,影响了模型最终的识别效果。
发明内容
为了克服现有技术的不足,本发明提供了一种自监督学习的行人检索方法及装置,避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题,提升了行人检索的准确率;降低了行人检索模型的落地成本,提升了模型的鲁棒性。技术方案如下:
本发明提供了一种自监督学习的行人检索方法,该方法包括如下步骤:
第一步,构建模型M;
使用基于ImageNet分类数据集的预训练卷积神经网络模型,去除该预训练卷积神经网络模型的全局池化层和全连接层,额外增加1层卷积层,卷积核尺寸为3×3,步长为1,padding为1,输出通道为512;对该增加的卷积层的输出,增加位置编码,之后输入进Transformer Encoder模型;在Transformer Encoder模型之后增加一层全连接层,将Transformer Encoder模型的第1个输出,输入该增加的全连接层,全连接层的输出维度为1000。
将ImageNet分类数据集中的输入图像,尺寸统一缩放到256×128,经过预训练卷积神经网络的处理之后,尺寸缩小32倍,输出的特征图尺寸为8×4,通道数量为512;将该512×8×4的特征图按照后面两个维度,按照从上到下、从左到右的顺序拉伸成2维的512×32特征图,即有32个512维的向量,对于此32个向量,每个向量增加1个512维的位置编码向量。
对构建模型M的参数进行初始化:使用现有的在ImageNet上训练出的值对预训练卷积神经网络模型的参数值进行初始化,使用[-1,1]之间的随机值对增加的1层卷积层、Transformer Encoder模型的参数、及最后的全连接层进行初始化,在ImageNet数据集上,根据损失函数和优化算法训练模型,直至模型收敛。
第二步,对模型M进一步训练;
对于在ImageNet分类数据集上训练出的模型M,收集带有标注信息的行人重识别公开数据集作为训练集,去除模型M的最后一层全连接层,使用Triplet Loss损失和SGD优化算法,训练模型,直至模型收敛。
第三步,采集实际应用场景下的视频数据对第二步得到的模型M进行训练;
实际应用场景下的视频数据包含不同摄像头、不同时间段的视频,使用行人检测模型从视频图像中检测出每个行人的位置,并提取出对应的行人区域图像,统一缩放到256×128的尺寸。
使用第二步中训练出的模型M,对每张256×128的行人区域图像提取特征,即Transformer Encoder模型的第1个输出,特征维度为512,提取结束之后,对每个特征采用归并集算法进行聚类,聚类算法为:设定相似度阈值,将同一行人不同姿态的图片聚集到一起形成一个集合,对每个集合,设定数量阈值n,对于集合数量大于n的类别,通过提高相似度阈值的方法,对该集合使用归并集算法再次聚类,如此迭代,直至最终每个集合的元素数量低于设定的阈值,最终根据聚类得到N个集合。
对于聚类出的每个集合,按照顺序赋予一个伪标签,伪标签的取值为[0, N),集合中的每个元素的ID标签即为该集合的标签,这样,数据集中的每个元素均被赋予了1个标签,对于每个集合,计算该集合中所有元素的特征的平均值,以该平均值为该集合的中心特征。
训练模型,使用InfoNCE loss计算损失,
使用SGD优化算法训练模型,在每一轮训练结束后,保留上一轮中的中心特征,将其作为一个新的特征数据,加入到本轮提取出的特征数据集中,再按照聚类算法进行重新聚类,聚类结束后,再重新给每个数据元素赋予一个伪标签,使用InfoNCE loss损失计算方法和SGD优化算法,进行模型的迭代训练,直至模型收敛。
第四步,模型部署;
对需要检索的人员创建底库图片,使用第三步训练出的模型提取特征,并对特征进行归一化,之后进行存储;对每张待查询的图片,使用第三步训练出的模型提取特征,对特征进行归一化,计算该待查询图片的特征与所有底库图片的特征的相似度,选取出相似度最高的底库图片,若最高相似度同时大于预先设定的相似度匹配阈值,则判断该查询图片中的行人属于该底库图片中对应的目标人员。
优选的,第一步所述预训练卷积神经网络模型使用ResNet50模型。
优选的,第一步中每个向量增加1个512维的位置编码向量,其位置编码函数定义为:
Figure 685042DEST_PATH_IMAGE001
其中t代表32个位置的序号,t∈[0,32),i代表维度编号,i∈[0, 512),k的取值范围为[0, 256),d为常数512。
优选的,第一步中所述损失函数采用交叉熵损失和所述优化算法采用SGD优化算法。
优选的,第二步中收集带有标注信息的行人重识别公开数据集作为训练集,其包括Market1501、CUHK03和DUKEMTMC-ReID等数据集。
优选的,第三步中对每个集合,设定数量阈值n,具体为:结合实际场景数据采集的先验信息,做数量上的限制,设定数量阈值n。
优选的,第三步中对于集合数量低于m的集合,m<n/3,在第三步模型训练时候,忽略该集合,即N个集合中不包含该忽略的集合。
优选的,第三步中使用InfoNCE loss计算损失,计算公式为:
Figure 994844DEST_PATH_IMAGE002
其中q代表训练的某个元素,c+代表该元素所属的集合的中心特征,ci代表了所有集合中的中心特征,τ的取值根据实际训练情况进行设置。
优选的,第四步中所述相似度为计算该待查询图片的特征与所有底库图片的特征的余弦距离。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过结合卷积神经网络和transformer,将卷积神经网络的输出作为transformer的输入的手段,能够从图像全局的视角提取特征,也能够关注到图像的局部重要信息,也避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题。结合卷积神经网络对图像局部连续区域提取的特性和transformer对图像全局、重点细节区域特征提取的特性,提升了行人检索的准确率。通过设计聚类算法,结合InfoNCE loss损失,形成了自监督学习算法,避免了对视频数据进行人工标注这个非常耗时的工作,降低了行人检索模型的落地成本。同时模型训练过程中采用聚类算法以及迭代的方式,提升了模型的鲁棒性。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书中的术语“第一步”、“第二步”、“第三步”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。
第一方面:本公开实施例提供了一种自监督学习的行人检索方法,该方法包括如下步骤:
第一步,构建模型M;
使用基于ImageNet分类数据集的预训练卷积神经网络模型(优选的,所述预训练卷积神经网络模型使用ResNet50模型),去除该预训练卷积神经网络模型的全局池化层和全连接层,额外增加1层卷积层,卷积核尺寸为3×3,步长为1,padding为1,输出通道为512;对该增加的卷积层的输出,增加位置编码,之后输入进Transformer Encoder模型;在Transformer Encoder模型之后增加一层全连接层,将Transformer Encoder模型的第1个输出,输入该增加的全连接层,全连接层的输出维度为1000;全连接层用于预测图像最终的类别概率分布。
将ImageNet分类数据集中的输入图像,尺寸统一缩放到256×128,经过预训练卷积神经网络的处理之后,尺寸缩小32倍,输出的特征图尺寸为8×4,通道数量为512;将该512×8×4的特征图按照后面两个维度(即8×4的维度),按照从上到下、从左到右的顺序拉伸成2维的512×32特征图,即有32个512维的向量,对于此32个向量,每个向量增加1个512维的位置编码向量。
优选的,第一步中每个向量增加1个512维的位置编码向量,其位置编码函数定义为:
Figure 269967DEST_PATH_IMAGE001
其中t代表32个位置的序号,t∈[0,32),i代表维度编号,i∈[0, 512),k的取值范围为[0, 256),d为常数512。
通过结合卷积神经网络和transformer,将卷积神经网络的输出作为transformer的输入的手段,能够从图像全局的视角提取特征,也能够关注到图像的局部重要信息,也避免了按照预定规则对图像进行分块造成图像语义连接区域被人为割裂开的问题。
对构建模型M的参数进行初始化:使用现有的在ImageNet上训练出的值对预训练卷积神经网络模型的参数值进行初始化,使用[-1,1]之间的随机值对增加的1层卷积层、Transformer Encoder模型的参数、及最后的全连接层进行初始化,在ImageNet数据集上,根据损失函数和优化算法(优选的,损失函数采用交叉熵损失和优化算法采用SGD优化算法)训练模型,直至模型收敛。
第二步,对模型M进一步训练;
对于在ImageNet分类数据集上训练出的模型M,收集带有标注信息的行人重识别公开数据集作为训练集(优选的,收集带有标注信息的行人重识别公开数据集作为训练集,其包括Market1501、CUHK03和DUKEMTMC-ReID等数据集),去除模型M的最后一层全连接层,使用Triplet Loss损失和SGD优化算法,训练模型,直至模型收敛。
第三步,采集实际应用场景下的视频数据对第二步得到的模型M进行训练;
实际应用场景下的视频数据包含不同摄像头、不同时间段的视频,使用行人检测模型从视频图像中检测出每个行人的位置,并提取出对应的行人区域图像,统一缩放到256×128的尺寸;此步骤不需要对不同行人的图片进行人工标注。
使用第二步中训练出的模型M,对每张256×128的行人区域图像提取特征,即Transformer Encoder模型的第1个输出,特征维度为512,提取结束之后,对每个特征采用归并集算法进行聚类,聚类算法为:设定相似度阈值,将同一行人不同姿态的图片聚集到一起形成一个集合;(优选的,设定的相似度阈值为0.8),对每个集合,设定数量阈值n(优选的,对每个集合,设定数量阈值n,具体为:结合实际场景数据采集的先验信息,做数量上的限制,设定数量阈值n,比如,数量阈值n为20。)对于集合数量大于n的类别,通过提高相似度阈值的方法,对该集合使用归并集算法再次聚类,如此迭代,直至最终每个集合的元素数量低于设定的阈值,最终根据聚类得到N个集合。优选的,对于集合数量低于m的集合,m<n/3,在第三步模型训练时候,忽略该集合,即N个集合中不包含该忽略的集合。
对于聚类出的每个集合,按照顺序赋予一个伪标签,伪标签的取值为[0, N),集合中的每个元素的ID标签即为该集合的标签,这样,数据集中的每个元素均被赋予了1个标签,对于每个集合,计算该集合中所有元素的特征的平均值,以该平均值为该集合的中心特征。
训练模型,使用InfoNCE loss计算损失,
优选的,使用InfoNCE loss计算损失,计算公式为:
Figure 975755DEST_PATH_IMAGE002
其中q代表训练的某个元素,c+代表该元素所属的集合的中心特征,ci代表了所有集合中的中心特征,τ的取值根据实际训练情况进行设置(优选的,τ设置为0.5)。
使用SGD优化算法训练模型,在每一轮训练结束后,保留上一轮中的中心特征,将其作为一个新的特征数据,加入到本轮提取出的特征数据集中,再按照聚类算法进行重新聚类,聚类结束后,再重新给每个数据元素赋予一个伪标签,使用InfoNCE loss损失计算方法和SGD优化算法,进行模型的迭代训练,直至模型收敛。
通过设计聚类算法,结合InfoNCE loss损失,形成了自监督学习算法,避免了对视频数据进行人工标注这个非常耗时的工作,降低了行人检索模型的落地成本。
第四步,模型部署;
对需要检索的人员创建底库图片,使用第三步训练出的模型提取特征,并对特征进行归一化,之后进行存储;对每张待查询的图片,使用第三步训练出的模型提取特征,对特征进行归一化,计算该待查询图片的特征与所有底库图片的特征的相似度,选取出相似度最高的底库图片,若最高相似度同时大于预先设定的相似度匹配阈值,则判断该查询图片中的行人属于该底库图片中对应的目标人员。
优选的,所述相似度为计算该待查询图片的特征与所有底库图片的特征的余弦距离,进一步的,相似度匹配阈值设置为0.7。
第二方面,本公开实施例提供了一种自监督学习的行人检索装置;
基于相同的技术构思,该装置能够实现或执行所有可能的实现方式中任一项所述的一种自监督学习的行人检索方法。
说明的是,上述实施例提供的一种自监督学习的行人检索装置在执行一种自监督学习的行人检索方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外上述实施例提供的一种自监督学习的行人检索装置与一种自监督学习的行人检索方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (10)

1.一种自监督学习的行人检索方法,其特性在于,该方法包括如下步骤:
第一步,构建模型M;
使用基于ImageNet分类数据集的预训练卷积神经网络模型,去除该预训练卷积神经网络模型的全局池化层和全连接层,额外增加1层卷积层,卷积核尺寸为3×3,步长为1,padding为1,输出通道为512;对该增加的卷积层的输出,增加位置编码,之后输入进Transformer Encoder模型;在Transformer Encoder模型之后增加一层全连接层,将Transformer Encoder模型的第1个输出,输入该增加的全连接层,全连接层的输出维度为1000;
将ImageNet分类数据集中的输入图像,尺寸统一缩放到256×128,经过预训练卷积神经网络的处理之后,尺寸缩小32倍,输出的特征图尺寸为8×4,通道数量为512;将该512×8×4的特征图按照后面两个维度,按照从上到下、从左到右的顺序拉伸成2维的512×32特征图,即有32个512维的向量,对于此32个向量,每个向量增加1个512维的位置编码向量;
对构建模型M的参数进行初始化:使用现有的在ImageNet上训练出的值对预训练卷积神经网络模型的参数值进行初始化,使用[-1,1]之间的随机值对增加的1层卷积层、Transformer Encoder模型的参数、及最后的全连接层进行初始化,在ImageNet数据集上,根据损失函数和优化算法训练模型,直至模型收敛;
第二步,对模型M进一步训练;
对于在ImageNet分类数据集上训练出的模型M,收集带有标注信息的行人重识别公开数据集作为训练集,去除模型M的最后一层全连接层,使用Triplet Loss损失和SGD优化算法,训练模型,直至模型收敛;
第三步,采集实际应用场景下的视频数据对第二步得到的模型M进行训练;
实际应用场景下的视频数据包含不同摄像头、不同时间段的视频,使用行人检测模型从视频图像中检测出每个行人的位置,并提取出对应的行人区域图像,统一缩放到256×128的尺寸;
使用第二步中训练出的模型M,对每张256×128的行人区域图像提取特征,即Transformer Encoder模型的第1个输出,特征维度为512,提取结束之后,对每个特征采用归并集算法进行聚类,聚类算法为:设定相似度阈值,将同一行人不同姿态的图片聚集到一起形成一个集合,对每个集合,设定数量阈值n,对于集合数量大于n的类别,通过提高相似度阈值的方法,对该集合使用归并集算法再次聚类,如此迭代,直至最终每个集合的元素数量低于设定的阈值,最终根据聚类得到N个集合;
对于聚类出的每个集合,按照顺序赋予一个伪标签,伪标签的取值为[0, N),集合中的每个元素的ID标签即为该集合的标签,这样,数据集中的每个元素均被赋予了1个标签,对于每个集合,计算该集合中所有元素的特征的平均值,以该平均值为该集合的中心特征;
训练模型,使用InfoNCE loss计算损失,
使用SGD优化算法训练模型,在每一轮训练结束后,保留上一轮中的中心特征,将其作为一个新的特征数据,加入到本轮提取出的特征数据集中,再按照聚类算法进行重新聚类,聚类结束后,再重新给每个数据元素赋予一个伪标签,使用InfoNCE loss损失计算方法和SGD优化算法,进行模型的迭代训练,直至模型收敛;
第四步,模型部署;
对需要检索的人员创建底库图片,使用第三步训练出的模型提取特征,并对特征进行归一化,之后进行存储;对每张待查询的图片,使用第三步训练出的模型提取特征,对特征进行归一化,计算该待查询图片的特征与所有底库图片的特征的相似度,选取出相似度最高的底库图片,若最高相似度同时大于预先设定的相似度匹配阈值,则判断该查询图片中的行人属于该底库图片中对应的目标人员。
2.根据权利要求1所述的一种自监督学习的行人检索方法,其特性在于,第一步所述预训练卷积神经网络模型使用ResNet50模型。
3.根据权利要求1所述的一种自监督学习的行人检索方法,其特性在于,第一步中每个向量增加1个512维的位置编码向量,其位置编码函数定义为:
Figure 205453DEST_PATH_IMAGE001
其中t代表32个位置的序号,t∈[0,32),i代表维度编号,i∈[0, 512),k的取值范围为[0, 256),d为常数512。
4.根据权利要求1所述的一种自监督学习的行人检索方法,其特性在于,第一步中所述损失函数采用交叉熵损失和所述优化算法采用SGD优化算法。
5.根据权利要求1所述的一种自监督学习的行人检索方法,其特性在于,第二步中收集带有标注信息的行人重识别公开数据集作为训练集,其包括Market1501、CUHK03和DUKEMTMC-ReID数据集。
6.根据权利要求1所述的一种自监督学习的行人检索方法,其特性在于,第三步中对每个集合,设定数量阈值n,具体为:结合实际场景数据采集的先验信息,做数量上的限制,设定数量阈值n。
7.根据权利要求1-6任一项所述的一种自监督学习的行人检索方法,其特性在于,第三步中对于集合数量低于m的集合,m<n/3,在第三步模型训练时候,忽略该集合,即N个集合中不包含该忽略的集合。
8.根据权利要求7所述的一种自监督学习的行人检索方法,其特性在于,第三步中使用InfoNCE loss计算损失,计算公式为:
Figure 996691DEST_PATH_IMAGE002
其中q代表训练的某个元素,c+代表该元素所属的集合的中心特征,ci代表了所有集合中的中心特征,τ的取值根据实际训练情况进行设置。
9.根据权利要求1-6或8任一项所述的一种自监督学习的行人检索方法,其特性在于,第四步中所述相似度为计算该待查询图片的特征与所有底库图片的特征的余弦距离。
10.一种自监督学习的行人检索装置,其特征在于,该装置能够实现权利要求1-9任一项所述的一种自监督学习的行人检索方法。
CN202110761272.3A 2021-07-06 2021-07-06 一种自监督学习的行人检索方法及装置 Active CN113255615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110761272.3A CN113255615B (zh) 2021-07-06 2021-07-06 一种自监督学习的行人检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110761272.3A CN113255615B (zh) 2021-07-06 2021-07-06 一种自监督学习的行人检索方法及装置

Publications (2)

Publication Number Publication Date
CN113255615A true CN113255615A (zh) 2021-08-13
CN113255615B CN113255615B (zh) 2021-09-28

Family

ID=77190794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110761272.3A Active CN113255615B (zh) 2021-07-06 2021-07-06 一种自监督学习的行人检索方法及装置

Country Status (1)

Country Link
CN (1) CN113255615B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359627A (zh) * 2021-12-15 2022-04-15 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729805A (zh) * 2017-09-01 2018-02-23 北京大学 用于行人再识别的神经网络和基于深度学习的行人再识别算法
US20190130224A1 (en) * 2017-10-27 2019-05-02 Facebook, Inc. Determination of Population Density Using Convoluted Neural Networks
CN109934117A (zh) * 2019-02-18 2019-06-25 北京联合大学 基于生成对抗网络的行人重识别检测方法
CN111339849A (zh) * 2020-02-14 2020-06-26 北京工业大学 一种融合行人属性的行人重识别的方法
CN111709313A (zh) * 2020-05-27 2020-09-25 杭州电子科技大学 基于局部和通道组合特征的行人重识别方法
CN111967294A (zh) * 2020-06-23 2020-11-20 南昌大学 一种无监督域自适应的行人重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729805A (zh) * 2017-09-01 2018-02-23 北京大学 用于行人再识别的神经网络和基于深度学习的行人再识别算法
US20190130224A1 (en) * 2017-10-27 2019-05-02 Facebook, Inc. Determination of Population Density Using Convoluted Neural Networks
CN109934117A (zh) * 2019-02-18 2019-06-25 北京联合大学 基于生成对抗网络的行人重识别检测方法
CN111339849A (zh) * 2020-02-14 2020-06-26 北京工业大学 一种融合行人属性的行人重识别的方法
CN111709313A (zh) * 2020-05-27 2020-09-25 杭州电子科技大学 基于局部和通道组合特征的行人重识别方法
CN111967294A (zh) * 2020-06-23 2020-11-20 南昌大学 一种无监督域自适应的行人重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊炜: ""基于多支路特征融合的行人重识别研究"", 《计算机工程与科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359627A (zh) * 2021-12-15 2022-04-15 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置
CN114359627B (zh) * 2021-12-15 2024-06-07 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置

Also Published As

Publication number Publication date
CN113255615B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109583379A (zh) 一种基于随机擦除行人对齐网络的行人重识别方法
CN106295532B (zh) 一种视频图像中的人体动作识别方法
CN110399895A (zh) 图像识别的方法和装置
CN113034545A (zh) 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
CN107730553B (zh) 一种基于伪真值搜寻法的弱监督物体检测方法
CN108875819B (zh) 一种基于长短期记忆网络的物体和部件联合检测方法
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
CN108229435B (zh) 一种用于行人识别的方法
CN111078946A (zh) 一种基于多目标区域特征聚合的卡口车辆检索方法及系统
CN110765841A (zh) 基于混合注意力机制的群组行人重识别系统及终端
CN111639564A (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
CN111027377A (zh) 一种双流神经网络时序动作定位方法
CN112784772B (zh) 一种基于对比学习的相机内有监督跨相机行人重识别方法
CN109740672B (zh) 多流特征距离融合系统与融合方法
CN111274958A (zh) 一种网络参数自纠正的行人重识别方法及系统
CN103810500A (zh) 一种基于有监督学习概率主题模型的地点图像识别方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN112862849A (zh) 一种基于图像分割和全卷积神经网络的田间稻穗计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant