CN111767808A - 一种目标重识别的方法、装置、系统及计算机存储介质 - Google Patents
一种目标重识别的方法、装置、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN111767808A CN111767808A CN202010550038.1A CN202010550038A CN111767808A CN 111767808 A CN111767808 A CN 111767808A CN 202010550038 A CN202010550038 A CN 202010550038A CN 111767808 A CN111767808 A CN 111767808A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- layer
- recognized
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种目标重识别的方法、装置、系统及计算机存储介质,所述方法包括:获取目标图像和待识别图像序列;将所述待识别图像序列和所述目标图像输入训练好的输入目标重识别模型,得到目标重识别结果;其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。根据本发明的方法、装置、系统及计算机存储介质,通过对目标重识别网络中规范化层的改进,有效提升了目标重识别的识别性能及其域自适应学习能力。
Description
技术领域
本发明涉及目标识别技术领域,更具体地涉及目标重识别的处理。
背景技术
随着社会和科技的进步,目标识别越来越成为一项可依赖的技术,如人脸识别已经被作为广泛应用的安防手段。但是,对于现今大部分摄像头而言,其分辨率往往不能达到人脸识别系统的要求,所以可以有时需要对现有监控系统的目标(如行人、车辆等)进行重识别。例如,行人重识别(Person re-identification)可以是利用图像处理技术来判定某一摄像头下的行人是否出现在其他摄像头中,从而可以描绘行人的活动路径,实现跨镜头追踪的目的。目前常用的行人重识别技术主要有表征学习、度量学习、基于局部特征或视频序列等,然而这些行人重识别技术对目标的识别准确度并不高。
因此,现有技术中目标重识别技术存在识别准确度不高的问题。
发明内容
考虑到上述问题而提出了本发明。本发明提供了目标重识别的方法、系统及计算机存储介质,以解决识别准确度不高的问题。
根据本发明的第一方面,提供了一种目标重识别的方法,包括:
获取目标图像和待识别图像序列;
将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果;
其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。
根据本发明的第二方面,提供了一种目标重识别的装置,包括:
获取模块,用于获取目标图像和待识别图像序列;
重识别模块,用于将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果;
其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。
根据本发明的第三方面,提供了一种目标重识别的系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。
根据本发明的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机执行时实现如第一方面所述方法的步骤。
根据本发明实施例的目标重识别的方法、系统及存储介质,通过对目标重识别模型的至少部分残差模块的结构进行改进,引入实例正则化层和域自适应层,优化残差模块中批规范化层,有效提升了目标重识别的识别性能及其域自适应学习能力。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是用于实现根据本发明实施例的目标重识别的方法的示意性流程图;
图2a和图2b分别是根据本发明实施例的第一残差模块和第二残差模块的示例;
图3是根据本发明实施例的目标重识别的方法的示例;
图4是用于实现根据本发明实施例的目标重识别的装置的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
神经网络是深度学习中广为应用的重要模型之一。批规范化(batchnormalization,BN)操作,通过在训练过程中对每个mini-batch做规范化操作,使得输出信号的各个维度的均值为0,方差为1,不仅加快了模型收敛速度,而且更重要的是在一定程度缓解了深层网络的一个难题“梯度弥散”,从而使得训练深层网络模型更加容易和稳定。也正是由于BN作用于批量(batch)样本上,其在训练时由于随机训练样本集的原因导致每个批量的均值和方差都会改变,也就丢失了对批量样本中单个样本的外观不变性的学习能力,使得网络在目标重识别过程中无法进一步提高目标重识别的准确率。
基于上述考虑,提供了一种目标重识别的方法。下面,将参照图1描述根据本发明实施例的目标重识别的方法1。如图1所示,一种目标重识别的方法1,包括:
步骤S1-1,获取目标图像和待识别图像序列;
步骤S1-2,将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果;
其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。
其中,目标图像可以指示需要识别的目标,待识别图像序列可以是至少一个图像采集装置所获取的图像的集合。目标重识别主要解决跨图像采集装置(如摄像头)跨场景下目标的识别与检索,该技术可以对无法获取清晰拍摄图像的目标进行跨图像采集装置连续跟踪,增强数据的时空连续性。通过优化目标重识别模型中批规范化(batchnormalization,BN)层,引入实例正则化(instance normalization,IN)层使得目标重识别模型中保留了对每个图片样本外观不变性的学习能力;以及引入域自适应(domainadaptation)层提升目标重识别模型的跨域识别性能。因此,本发明实施例的目标重识别的方法适合广泛应用于各种需要对目标进行重识别的场合,尤其是行人重识别(Person Re-Identification,简称ReID)的场合。行人重识别技术能够根据行人的穿着、体态、发型等信息认知行人,与人脸识别结合能够适用于更多新的应用场景,提高行人识别的准确性和扩大识别范围。
根据本发明实施例,在步骤S1-1中,所述获取目标图像可以包括:
基于第一图像采集装置获取的第一图像集,并基于所述第一图像集选取得到所述目标图像;或,
从其他数据源获取所述目标图像。
可选地,基于所述第一图像集得到所述目标图像可以包括:
识别所述第一图像集中的对象,得到所述第一图像集的对象图像集;
从所述第一图像集的对象图像集中选取一张对象图像作为目标图像。
在一些实施例中,所述目标图像包括整个目标。例如,当目标图像为人时,该目标图像包括整个人的图像。
在一些实施例中,第一图像采集装置可以采集第一图像集,识别第一图像集中的对象得到对象图像集,操作人员可以浏览对象图像集中的图像,选取其需要识别的对象图像作为目标图像。
在一些实施例中,所述对象与所述目标为相同的类型。
在一个实施例中,所述相同的类型包括行人。
可选地,所述从其他数据源获取所述目标图像可以包括:由操作人员输入所述目标图像。
在一些实施例中,操作人员可以直接输入需要重识别的目标图像。
可选地,所述从其他数据源获取所述目标图像还可以包括:
操作人员可以输入需要识别的目标的ID号,且根据输入的ID号从已建立的数据底库中获取对应的目标图像。
在一些实施例中,操作人员可以直接输入需要识别的目标行人的ID号和/或姓名,且根据输入ID号和/或姓名从已建立的数据底库中获取对应的行人的图像信息,如该目标行人的图像,并作为所述目标图像。
根据本发明实施例,在步骤S1-1中,所述获取待识别图像序列可以包括:
基于第二图像采集装置获取第二图像集;
识别所述第二图像集中的对象,得到包括所述第二图像集中的对象图像的待识别图像序列。
在一些实施例中,所述第二图像采集装置与所述第一图像采集装置不同。
在一些实施例中,所述第二图像采集装置与所述第一图像采集相同。
在一些实施例中,所述待识别图像序列包括所述第二图像集中的至少一个对象图像。
在一些实施例中,所述待识别图像序列可以包括视频数据中的一个或多个图像帧。进一步地,这些图像帧可以是连续的,也可以是不连续的,在此不做限制。
参见图2a,图2a示出了根据本发明实施例的第一残差模块的示例。
根据本发明实施例,如图2a所示,在步骤S1-2中,所述第一残差模块包括顺序连接的第一单元网络、第二单元网络和第三单元网络,所述第一单元网络可以包括:
第一卷积层;
实例正则化层,所述实例正则化层的输入通道连接至所述第一卷积层的至少部分输出通道;
批规范化层,所述批规范化层的输入通道连接至所述第一卷积层的剩余输出通道;
第一修正线性单元,所述第一修正线性单元的输入通道连接至所述实例正则化层的输出通道与所述批规范化层的输出通道。
其中,批规范化层(BN层)可以对批量输入进行计算,而实例正则化层(IN层)是对单个输入作规范化。由于IN层避免了mini-batch中其他样本的影响,消除个体不同外观的差异,而BN层保留了个体样本之间的区别,可以将IN层和BN层进行组合,以兼顾二者的功能。与传统的目标重识别中仅使用BN层相比,根据本发明实施例的目标重识别中的第一阶段网络,其同时采用IN层和BN层,在保留深度网络判别力的同时又能使网络保留对每个图片样本外观不变性的学习能力,有效提升了整个模型的准确率。
在一些实施例中,所述第一单元网络可以包括:
第一卷积层;
实例正则化层,所述实例正则化层的输入通道连接至所述第一卷积层的一半数量的输出通道;
批规范化层,所述批规范化层的输入通道连接至所述第一卷积层的另一半数量的输出通道;
第一修正线性单元,所述第一修正线性单元输入通道连接至所述实例正则化层的输出通道和所述批规范化层的输出通道。
在一个实施例中,所述第一卷积层可以包括:1×1卷积层。进一步地,所述1×1卷积层的通道数为64。
一个实施例中,所述实例正则化层的通道数为32。
一个实施例中,所述批规范化层的通道数为32。
可选地,所述第二单元网络包括:
第二卷积层,所述第二卷积层的输入通道连接至所述第一修正线性单元的输出通道;
第一域自适应层,所述第一域自适应层的输入通道连接至所述第二卷积层的输出通道;
第二修正线性单元,所述第二修正线性单元的输入通道连接至所述第一域自适应层的输出通道。
在一个实施例中,所述第二卷积层可以包括:3×3卷积层。进一步地,所述第二卷积层的通道数为64。
一个实施例中,所述第一域自适应层的通道数为64。
可选地,所述第三单元网络包括:
第三卷积层,所述第三卷积层的输入通道连接至所述第二修正线性单元的输出通道;
第二域自适应层,所述第二域自适应层的输入通道连接至所述第三卷积层的输出通道。
在一个实施例中,所述第三卷积层可以包括:3×3卷积层。进一步地,所述第三卷积层的通道数为256。
一个实施例中,所述第二域自适应层的通道数为64。
其中,域自适应层(AdaBN层)在训练过程中,其与BN层的计算方式一致,但是在模型部署拓展到未知域时,AdaBN层通过对该未知域的未标记样本重新计算BN层统计量,从而扩展了整个模型的域自适应学习(domain adaptation)能力。与传统的目标重识别中仅使用BN层相比,根据本发明实施例的目标重识别模型中的第二单元网络和第三单元网络,其采用AdaBN层来代替传统方法中的BN层,以提升目标重识别模型的域自适应学习能力,从而进一步提高整个模型的准确度。
可选地,所述第一残差模块还包括:
第三修正线性单元,所述第一卷积层的输入通道与所述第二域自适应层的输出通道连接至所述第三修正线性单元的输入通道。
其中,修正线性单元(Rectified linear unit,RELU)(如,第一修正线性单元、第二修正线性单元、第三修正线性单元)可以增加神经网络各层之间的非线性关系,其对于线性函数而言,RELU的表达能力更强,尤其体现在深度网络中;而对于非线性函数而言,RELU由于非负区间的梯度为常数,因此不存在梯度消失问题(Vanishing Gradient Problem),使得模型的收敛速度维持在一个稳定状态。
可选地,所述目标重识别模型还可以包括第二残差模块。参见图2b,图2b示出了根据本发明实施例的第二残差模块的示例。
在一些实施例中,如图2b所示,所述第二残差模块包括:
第四卷积层;
第一批规范化层,所述第一批规范化层的输入通道连接至所述第四卷积层的输出通道;
第四修正线性单元,所述第四修正线性单元输入通道连接至所述第一批规范化层的输出通道。
在一个实施例中,所述第四卷积层可以包括:1×1卷积层。进一步地,所述1×1卷积层的通道数为64。
一个实施例中,所述第一批规范化层的通道数为64。
在一些实施例中,所述第二残差模块还包括:
第五卷积层,所述第五卷积层的输入通道连接至所述第四修正线性单元的输出通道;
第二批规范化层,所述第二批规范化层的输入通道连接至所述第五卷积层的输出通道;
第五修正线性单元,所述第五修正线性单元的输入通道连接至所述第二批规范化层的输出通道。
在一个实施例中,所述第五卷积层可以包括:3×3卷积层。进一步地,所述第五卷积层的通道数为64。
一个实施例中,所述第二批规范化层的通道数为64。
在一些实施例中,所述第二残差模块还包括:
第六卷积层,所述第六卷积层的输入通道连接至所述第五修正线性单元的输出通道;
第三批规范化层,所述第三批规范化层的输入通道连接至所述第六卷积层的输出通道;
在一个实施例中,所述第六卷积层可以包括:3×3卷积层。进一步地,所述第六卷积层的通道数为256。
一个实施例中,所述第三批规范化层的通道数为64。
可选地,所述第二残差模块还包括:
第六修正线性单元,所述第四卷积层的输入通道与所述第三批规范化层的输出通道连接至所述第三修正线性单元的输入通道。
可选地,所述目标重识别模型可以采用resnet50网络架构实现。
在一些实施例中,所述目标重识别模型可以包括顺序连接的四个阶段(stage)网络,其中,第一阶段网络、第二阶段网络和第三阶段网络均包括第一残差模块,第四阶段网络包括第二残差模块。在一个实施例中,采用resnet50作为所述目标重识别模型的网络架构时,所述目标重识别模型的第一阶段网络可以包括2个第一残差模块,第二阶段网络可以包括3个第一残差模块,第三阶段网络可以包括5个第一残差模块,第四阶段网络可以包括2个第二残差模块。
可选地,所述将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果,包括:
对所述多个阶段网络的输出结果进行全局特征提取和局部特征提取,分别得到全局特征和局部特征;
基于所述全局特征和局部特征确定所述目标重识别结果。
在一些实施例中,所述多个阶段网络的输出结果可以包括所述目标图像的所述全局特征和局部特征。
在一些实施例中,所述多个阶段网络的输出结果可以包括所述待识别图像序列中的每个待识别图像的所述全局特征和局部特征。
根据本发明实施例的目标重识别方法,目标重识别模型将全局特征和局部特征结合在一起,能够有丰富的信息和细节去表征输入图片的完整情况。
可选地,可以基于全局特征提取网络对所述多个阶段网络的输出结果进行全局特征提取,得到所述全局特征。
在一些实施例中,所述全局特征提取网络的训练过程中可以采用分类损失SoftmaxLoss和三元损失TripletLoss作为损失函数。在训练过程中尽量让损失函数最小化,最小化过程反向把特征训练得更加有意义。应了解,全局特征提取网络的训练过程属于本领域的常规手段,在此不再赘述。
可选地,可以基于局部特征提取网络对所述多个阶段网络的输出结果进行局部特征提取,得到所述局部特征。
在一些实施例中,所述局部特征提取网络的训练过程中也可以采用分类损失SoftmaxLoss和三元损失TripletLoss作为损失函数。应了解,局部特征提取网络的训练过程属于本领域的常规手段,在此不再赘述。
在一些实施例中,所述局部特征可以设置为不同的粒度。进一步地,局部特征的粒度越大,表示局部特征的数量越多,对输入的分割越细。那么目标重识别模型能够学到更详细的细节信息,可以进一步地提高目标重识别的准确度。
可选地,所述基于所述全局特征和局部特征确定所述目标重识别结果,包括:
基于所述多个阶段网络的输出结果中所述目标图像的所述全局特征和局部特征,以及所述多个阶段网络的输出结果中所述待识别图像序列中的每个待识别图像的所述全局特征和局部特征,计算所述目标图像与所述每个待识别图像的距离;
将所述距离在预设距离范围内的待识别图像确定为所述目标重识别结果。
应了解,目标重识别模型的训练过程属于本领域的常规手段,在此不再赘述。
在一些实施例中,计算所述目标图像与所述每个待识别图像的距离可以包括:
基于所述目标图像的所述全局特征和局部特征得到所述目标图像的融合特征;
基于所述待识别图像序列中的每个待识别图像的所述全局特征和局部特征得到所述待识别图像序列中的每个待识别图像的融合特征;
计算所述目标图像的融合特征与所述待识别图像序列中的每个待识别图像的融合特征之间的余弦或者欧式距离。
在一些实施例中,如果所述目标图像的融合特征与某一个待识别图像的融合特征之间的余弦距离大于或等于余弦距离阈值,或者所述目标图像的融合特征与某一个待识别图像的融合特征之间的欧式距离小于或等于欧式距离阈值,则可以认为该待识别图像与所述目标图像属于同一行人。进一步地,可以将大于或等于余弦距离阈值的余弦距离所对应的待识别图像,或者小于或等于欧式距离阈值的欧式距离所对应的待识别图像作为所述目标重识别结果。进一步地,所述目标重识别结果还可以包括大于或等于余弦距离阈值的余弦距离所对应的待识别图像或者小于或等于欧式距离阈值的欧式距离所对应的待识别图像所对应的ID、或图像获取装置及其获取位置。
应了解,所述余弦距离阈值和欧式距离阈值可以根据需要进行设置,在此不做限制。
在一些实施例中,对大于或等于余弦距离阈值的余弦距离从大到小进行排序,或者小于或等于欧式距离阈值的欧式距离从小到大进行排序,选取前m个距离所对应的待识别图像作为所述目标重识别结果,m为自然数。进一步地,所述目标重识别结果还可以包括前m个距离所对应的待识别图像所对应的ID、或图像获取装置及其获取位置。
在一些实施例中,如果没有余弦距离大于或等于所述余弦距离阈值,或者没有欧式距离小于或等于所述欧式距离阈值,则所述待识别图像序列中没有所述目标图像所对应的目标。
在一个实施例中,参见图2a、图2b和图3,图3示出了根据本发明实施例的目标重识别方法的示例。以行人重识别(ReID)的一示例对本发明实施例的目标重识别的方法进行说明,所述方法包括:
首先,获取来自摄像头1的目标图像T和来不同的自摄像头2-n的待识别图像序列Pi,i=1,2,……,n,n为正整数;行人重识别(ReID)即需要在不同的自摄像头2-n所拍摄的待识别图像序列Pi中识别是否存在于目标图像T属于同一行人的图像;
其次,将所述待识别图像序列Pi和所述目标图像T输入训练好的输入目标重识别模型,其中,所述待识别图像序列Pi和所述目标图像T分别经过目标重识别模型中顺序连接的第一阶段网络、第二阶段网络和第三阶段网络,得到第一处理结果;其中,所述第一阶段网络、第二阶段网络和第三阶段网络分部包括不同数量的第一残差模块,所述第一残差模块的第一单元网络包括通道数为64的1×1卷积层,其一半通道输出至通道数为32的实例正则化层,另一半通道输出至通道数为32的批规范化层,实例正则化层和批规范化层的通道输出至第一修正线性单元;
所述第一残差模块的第二单元网络包括通道数为64的3×3卷积层,其输出至通道数为64的第一域自适应层,第一域自适应层输出至第二修正线性单元;
所述第一残差模块的第三单元网络包括通道数为256的3×3卷积层,其输出至通道数为64的第二域自适应层,第二域自适应层的输出与输入的所述待识别图像序列Pi和所述目标图像T一起输入第三修正线性单元,得到第三修正线性单元的处理结果,即第一处理结果;
接着,所述第一处理结果经过所述目标重识别模型的第四阶段网络,得到第二处理结果;其中,该第四阶段网络可以包括多个第二残差模块,所述第二残差模块可以包括:
通道数为64的1×1卷积层,1×1卷积层输出至通道数为64的批规范化层,该批规范化层的通道输出至第四修正线性单元;
第四修正线性单元输出至通道数为64的3×3卷积层,3×3卷积层输出至通道数为64的的批规范化层,该批规范化层的通道输出至第五修正线性单元;
第五修正线性单元输出至通道数为256的3×3卷积层,3×3卷积层输出至通道数为64的的批规范化层,该批规范化层的输出与上述第二残差模块中的通道数为64的1×1卷积层的输入一起输入第六修正线性单元;
接着,分别对第二处理结果提取局部特征和全局特征,得到所述目标图像的所述全局特征和局部特征,以及所述待识别图像序列中的每个待识别图像的所述全局特征和局部特征;
接着,基于所述目标图像的所述全局特征和局部特征得到所述目标图像的融合特征;
基于所述待识别图像序列中的每个待识别图像的所述全局特征和局部特征得到所述待识别图像序列中的每个待识别图像的融合特征;
计算所述目标图像的融合特征与所述待识别图像序列中的每个待识别图像的融合特征之间的余弦或者欧式距离;
接着,可以将余弦距离大于或等于余弦距离阈值的余弦距离从大到小进行排序,选取前m个余弦距离所对应的待识别图像及其ID作为目标重识别结果,或者可以将欧式距离小于或等于欧式距离阈值的欧式距离从小到大进行排序,选取前m个欧式距离所对应的待识别图像及其ID作为目标重识别结果。
由此可知,根据本发明实施例的目标重识别的方法,通过对目标重识别网络中规范化层的改进,有效提升了目标重识别的识别性能及其域自适应学习能力。
参见图4,图4示出了根据用于实现本发明的实施例的目标重识别的装置的示意性框图。如图4所示,所述装置4包括:
获取模块4-1,用于获取目标图像和待识别图像序列;
重识别模块4-2,用于将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果;
其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。
在此仅对目标重识别的装置4的主要功能模块进行说明,根据本发明实施例的目标重识别的装置4用于实现上述根据本发明实施例的目标重识别的方法,重复的部分在此不再赘述。
根据本发明的另一方面,提供一种目标重识别的系统,包括存储器、以及处理器;
所述存储器存储用于实现根据本发明实施例的目标重识别的方法中的相应步骤的程序代码;
所述处理器用于运行所述存储器中存储的程序代码,以执行以上根据本发明实施例的目标重识别的方法的相应步骤。
在一个实施例中,在所述程序代码被所述处理器运行时执行以上根据本发明实施例的前述目标重识别的方法的相应步骤。
此外,根据本发明的另一方面,还提供了一种计算机可读存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的目标重识别的方法的相应步骤,并且用于实现根据本发明实施例的目标重识别的系统。
示例性地,所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的前述目标重识别的方法。
根据本发明提供的目标重识别的方法、装置、系统及计算机存储介质,通过对目标重识别网络中规范化层的改进,有效提升了目标重识别的识别性能及其域自适应学习能力。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种目标重识别的方法,其特征在于,所述方法包括:
获取目标图像和待识别图像序列;
将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果;
其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。
2.根据权利要求1所述的方法,其特征在于,所述第一残差模块包括顺序连接的第一单元网络、第二单元网络和第三单元网络,所述第一单元网络包括:
第一卷积层;
实例正则化层,所述实例正则化层的输入通道连接至所述第一卷积层的至少部分输出通道;
批规范化层,所述批规范化层的输入通道连接至所述第一卷积层的剩余输出通道;
第一修正线性单元,所述第一修正线性单元的输入通道连接至所述实例正则化层的输出通道与所述批规范化层的输出通道。
3.根据权利要求2所述的方法,其特征在于,所述第二单元网络包括:
第二卷积层,所述第二卷积层的输入通道连接至所述第一修正线性单元的输出通道;
第一域自适应层,所述第一域自适应层的输入通道连接至所述第二卷积层的输出通道;
第二修正线性单元,所述第二修正线性单元的输入通道连接至所述第一域自适应层的输出通道。
4.根据权利要求3所述的方法,其特征在于,所述第三单元网络包括:
第三卷积层,所述第三卷积层的输入通道连接至所述第二修正线性单元的输出通道;
第二域自适应层,所述第二域自适应层的输入通道连接至所述第三卷积层的输出通道。
5.根据权利要求4所述的方法,其特征在于,所述第一残差模块还包括:
第三修正线性单元,所述第一卷积层的输入通道与所述第二域自适应层的输出通道连接至所述第三修正线性单元的输入通道。
6.根据权利要求5所述的方法,其特征在于,所述将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果,包括:
对所述多个阶段网络的输出结果进行全局特征提取和局部特征提取,分别得到全局特征和局部特征;
基于所述全局特征和局部特征确定所述目标重识别结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述全局特征和局部特征确定所述目标重识别结果,包括:
基于所述多个阶段网络的输出结果中所述目标图像的所述全局特征和局部特征,以及所述多个阶段网络的输出结果中所述待识别图像序列中的每个待识别图像的所述全局特征和局部特征,计算所述目标图像与所述每个待识别图像的距离;
将所述距离在预设距离范围内的待识别图像确定为所述目标重识别结果。
8.一种目标重识别的装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像和待识别图像序列;
重识别模块,用于将所述待识别图像序列和所述目标图像输入训练好的目标重识别模型,得到目标重识别结果;
其中,所述目标重识别结果包括所述待识别图像序列中与所述目标图像属于同一目标的待识别图像,所述目标重识别模型包括多个阶段网络,至少一个所述阶段网络包括第一残差模块,所述第一残差模块包括实例正则化层、批规范化层和域自适应层。
9.一种目标重识别的系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被计算机执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550038.1A CN111767808A (zh) | 2020-06-16 | 2020-06-16 | 一种目标重识别的方法、装置、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550038.1A CN111767808A (zh) | 2020-06-16 | 2020-06-16 | 一种目标重识别的方法、装置、系统及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767808A true CN111767808A (zh) | 2020-10-13 |
Family
ID=72722664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550038.1A Pending CN111767808A (zh) | 2020-06-16 | 2020-06-16 | 一种目标重识别的方法、装置、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767808A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686176A (zh) * | 2020-12-30 | 2021-04-20 | 深圳云天励飞技术股份有限公司 | 目标重识别方法、模型训练方法、装置、设备及存储介质 |
-
2020
- 2020-06-16 CN CN202010550038.1A patent/CN111767808A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686176A (zh) * | 2020-12-30 | 2021-04-20 | 深圳云天励飞技术股份有限公司 | 目标重识别方法、模型训练方法、装置、设备及存储介质 |
CN112686176B (zh) * | 2020-12-30 | 2024-05-07 | 深圳云天励飞技术股份有限公司 | 目标重识别方法、模型训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740413B (zh) | 行人重识别方法、装置、计算机设备及计算机存储介质 | |
Hanson et al. | Bidirectional convolutional lstm for the detection of violence in videos | |
CN107273872B (zh) | 用于图像或视频中行人重识别的深度判别网络模型方法 | |
Minhas et al. | Incremental learning in human action recognition based on snippets | |
Yang et al. | One-shot action localization by learning sequence matching network | |
CN110399835B (zh) | 一种人员停留时间的分析方法、装置及系统 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN112668557B (zh) | 一种行人再识别系统中防御图像噪声攻击的方法 | |
Mehta et al. | Face detection and tagging using deep learning | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN112434599A (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
Lejbolle et al. | Attention in multimodal neural networks for person re-identification | |
CN111783570A (zh) | 一种目标重识别的方法、装置、系统及计算机存储介质 | |
CN113807237B (zh) | 活体检测模型的训练、活体检测方法、计算机设备及介质 | |
KR20210040604A (ko) | 행위 인식 방법 및 장치 | |
CN111767808A (zh) | 一种目标重识别的方法、装置、系统及计算机存储介质 | |
Kakarwal et al. | Thermal Face Recognition using Artificial Neural Network | |
CN115393788B (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
Arafah et al. | Face Identification System Using Convolutional Neural Network for Low Resolution Image | |
Boudhane et al. | Optical fish classification using statistics of parts | |
CN111062294B (zh) | 一种客流排队时间的检测方法、装置及系统 | |
CN109614893B (zh) | 基于情境推理的异常行为行踪智能识别方法及装置 | |
Chaloupka | A prototype of audio-visual broadcast transcription system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |