CN110852168A - 基于神经架构搜索的行人重识别模型构建方法及装置 - Google Patents
基于神经架构搜索的行人重识别模型构建方法及装置 Download PDFInfo
- Publication number
- CN110852168A CN110852168A CN201910964255.2A CN201910964255A CN110852168A CN 110852168 A CN110852168 A CN 110852168A CN 201910964255 A CN201910964255 A CN 201910964255A CN 110852168 A CN110852168 A CN 110852168A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- data set
- search
- data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural effect Effects 0.000 title claims abstract description 42
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 59
- 238000012795 verification Methods 0.000 claims description 33
- 239000000126 substance Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经架构搜索的行人重识别模型构建方法及装置,首先对输入的图像数据集进行随机采样和分组,并设置以三元组损失函数为辅助的目标函数来指导网络架构的搜索;然后,利用搜索到的最佳网络架构单元重复堆叠一个大型网络,并对该网络进行重训练,得到行人重识别模型,本发明提供的方法不仅仅考虑了分类精度,还利用了不同样本之间的距离,以最大化不同行人之间的特征识别能力,因此以此损失函数指导架构搜索的方向能够学习得到更适用于行人重识别并且性能表现更好网络架构,从而提高了行人重识别的准确率。
Description
技术领域
本发明涉及行人重识别方法,具体涉及一种基于神经架构搜索的行人重识别模型构建方法及装置。
背景技术
行人重识别也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。一般是给定一个监控行人图像,检索跨设备下的该行人图像。
目前主要有两种行人重识别研究方法:一种是表征学习,另一种是度量学习。基于表征学习的方法是为了获得强大且具有辨别力的行人特征。基于度量学习的方法通过设计合适的距离度量函数来学习图像对之间的相似性,旨在使相同身份图像的距离尽可能小,并且不同识别图像的距离尽可能大。上述这些方法大多都是基于经典的在外部数据上预先训练好的分类神经网络架构(如着名的ResNet50,Inception和DenseNet)作为骨干网络,然后再使用目标数据对改进的网络进行微调。这样的做法导致网络架构固化且依赖于外部数据的预训练。此外,还有一些是人类专家为行人重识别任务专门设计网络的方法,但随着网络需求增加,手动网络设计变得更加困难,且往往无法实现最佳设置。
现有技术还提出了一种使用神经架构搜索技术作为解决上述问题的工具,神经架构搜索技术一般包括定义搜索空间,然后通过搜索策略找出候选网络结构,神经架构搜索技术提出基于单元cell的搜索,即只对cell结构进行结构搜索,总体网络由这些cell进行重叠拼接而成。
但是大多数神经架构搜索方法都是处理分类任务的,行人重识别的训练行人类别与测试行人类别没有交叉且性能评价指标类似于排序结果而并非是分类精度,这与神经架构搜索在分类上的优化目标不一致,并不能直接扩展到行人重识别任务,导致识别准确率不高,识别效果不佳。
发明内容
本发明的目的在于提供一种基于神经架构搜索的行人重识别模型构建方法及装置,用以解决现有技术中的神经架构搜索方法无法直接应用扩展到行人重识别任务上,导致行人重识别效果不好的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于神经架构搜索的行人重识别模型构建方法,按照以下步骤执行:
步骤1、获得行人图像数据集,所述的行人图像数据集包括训练数据集以及验证数据集;
所述的训练数据集以及验证数据集均包括多组数据,其中每组数据包括多个类别数据,每个类别数据包括多幅行人图像;
对于每幅行人图像,该行人图像本身为原样本,与原样本属于同一类别数据的其他所有行人图像均为正样本,每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本;
获得行人图像数据集中每幅行人图像对应的类别,获得标签集;
步骤2、将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索,获得最优卷积单元;
所述的初始网络包括多个卷积单元;
在搜索时采用式I的损失函数L:
其中,为交叉熵损失函数,xi表示第i个原样本,i=1,2,…,M,M表示一组数据中原样本的个数,yi表示第i个原样本的类别,S(xi)表示第i个原样本经过softmax激活后网络分类器的输出,F(xi)表示第i个原样本的特征数据,表示距离第i个原样本最大的正样本的特征数据,表示距离第i个原样本最小的负样本的特征数据,d表示阈值参数,d>0,(z)+表示max(0,z);
步骤3、利用所述的最优卷积单元重复堆叠,获得初始行人重识别模型;
步骤4、将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,训练所述的初始行人重识别模型,获得行人重识别模型。
进一步地,所述的步骤2中将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索时,采用DARTS方法作为搜索策略。
进一步地,采用DARTS方法作为搜索策略对初始网络进行搜索时,初始化训练次数为150,网络权重学习率为0.025,网络架构学习率为3×10-4。
进一步地,所述的损失函数L中阈值参数d=0.3。
一种基于神经架构搜索的行人重识别方法,按照以下步骤执行:
步骤A、获得待识别行人图像;
步骤B、将所述的待识别行人图像输入至基于神经架构搜索的行人重识别模型构建方法获得的行人重识别模型中,获得识别结果。
一种基于神经架构搜索的行人重识别模型构建装置,包括数据获得模块、单元搜索模块、模型搭建模块以及模型训练模块:
所述的数据获得模块用于获得行人图像数据集,所述的行人图像数据集包括训练数据集以及验证数据集;
所述的训练数据集以及验证数据集均包括多组数据,其中每组数据包括多个类别数据,每个类别数据包括多幅行人图像;
对于每幅行人图像,该行人图像本身为原样本,与原样本属于同一类别数据的其他所有行人图像均为正样本,每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本;
所述的数据获得模块还用于获得行人图像数据集中每幅行人图像对应的类别,获得标签集;
所述的单元搜索模块用于将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索,获得最优卷积单元;
所述的初始网络包括多个卷积单元;
在搜索时采用式I的损失函数L:
其中,为交叉熵损失函数,xi表示第i个原样本,i=1,2,…,M,M表示一组数据中原样本的个数,yi表示第i个原样本的类别,S(xi)表示第i个原样本经过softmax激活后网络分类器的输出,F(xi)表示第i个原样本的特征数据,表示距离第i个原样本最大的正样本的特征数据,表示距离第i个原样本最小的负样本的特征数据,d表示阈值参数,d>0,(z)+表示max(0,z);
所述的模型搭建模块用于利用所述的最优卷积单元重复堆叠,获得初始行人重识别模型;
所述的模型训练模块用于将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,训练所述的初始行人重识别模型,获得行人重识别模型。
进一步地,所述的单元搜索模块中将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索时,采用DARTS方法作为搜索策略。
进一步地,采用DARTS方法作为搜索策略对初始网络进行搜索时,初始化训练次数为150,网络权重学习率为0.025,网络架构学习率为3×10-4。
进一步地,所述的损失函数L中阈值参数d=0.3。
一种基于神经架构搜索的行人重识别装置,包括图像获取模块以及基于神经架构搜索的行人重识别模型构建装置;
所述的图像获取模块用于获得待识别行人图像;
所述的基于神经架构搜索的行人重识别模型构建装置用于输入所述待识别行人图像,获得识别结果。
本发明与现有技术相比具有以下技术效果:
1、本发明提供的基于神经架构搜索的行人重识别模型构建方法及装置,提出了一种适用于行人重识别任务的损失函数,对于行人重识别任务,测试数据集的身份类别是与训练数据集完全不重叠的其他类,这与分类任务的优化目标存在差异,仅仅只考虑分类精度不能保证搜索到的网络架构适用于本任务,所以考虑结合行人重识别的检索损失引导搜索的方向,这样,不仅仅考虑了分类精度,还利用了不同样本之间的距离,以最大化不同行人之间的特征识别能力,因此以此损失函数指导架构搜索的方向能够学习得到更适用于行人重识别并且性能表现更好网络架构,从而提高了行人重识别的准确率;
2、本发明提供的基于神经架构搜索的行人重识别模型构建方法及装置,采用DARTS方法作为搜索策略,相比其他大多数算法的很高的计算资源要求(基于强化学习,进化学习的算法可能需要成百上千个GPU),其克服了NAS算力成本巨大且耗时的缺陷并取得了有竞争力的性能,整个搜索过程仅仅只需要单片GPU就可以完成,并且DARTS方法在cifar10的分类任务上实现了高效的卷积神经网架构搜索,从而提高了行人重识别的实用性以及实时性;
3、本发明提供的基于神经架构搜索的行人重识别模型构建方法及装置,不再依赖于外部数据集的预训练,使用改进的神经架构搜索算法直接在目标数据集上自动生成了适于行人重识别任务的神经网络,经过实验对比,本发明提供的行人重识别方法的Rank-1准确度、Rank-5准确度、Rank-10准确度以及mAP评价指标均优于现有技术。
附图说明
图1为本发明的一个实施例中提供的最优卷积单元;
图2为本发明的一个实施例中提供的又一最优卷积单元;
图3为本发明的一个实施例中提供的识别结果。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
以下对本发明涉及的定义或概念内涵做以说明:
神经架构搜索:神经网络架构搜索的流程可以大致概括为:先定义一个搜索空间A,然后通过某种搜索策略(如,强化学习,进化算法,梯度下降策略等)在预定好的搜索空间搜索出候选的神经网络架构,对学习到的网络架构采用一定的手段进行性能评估并把评估的结果进行反馈后重新进行下一轮的搜索,最终期望寻找到最优的网络架构。
重复堆叠:卷积神经网络由若干个cell堆叠而成,堆叠方式为每一个cell的输入节点接收前两层cell的输出节点
搜索空间:搜索空间定义了原则上可以表征的架构。结合有关任务属性的先验知识,可以减少搜索空间的大小并简化搜索,在本发明中搜索空间采用基于cell的基本架构构建块,cell为n个节点的有向无环图,节点与节点之间的边操作放置了混合候选操作。
搜索策略:搜索策略详细说明了如何探索搜索空间。它包含了经典的「探索-利用」权衡;一方面,需要快速找到性能良好的架构,另一方面,应该避免过早收敛到次优架构区域。
实施例一
在本实施例中公开了一种基于神经架构搜索的行人重识别模型构建方法,本发明针对现有的行人重新识别方法大多使用在外部数据上预训练的分类网络作为主干导致网络架构固定并且依赖于外部数据的预训练,以及随着网络需求的增加,人类专家为其专门设计网络变得更加困难,并且往往无法实现最佳设置的问题。本发明使用神经结构搜索技术作为解决上述问题的工具,但由于大多数神经架构搜索方法都是针对分类任务提出的,为了协调两者优化目标之间的不一致性,提出以三元组损失为辅助的目标函数,以指导架构搜索的方向来改进搜索算法。
方法按照以下步骤执行:
步骤1、获得行人图像数据集,所述的行人图像数据集包括训练数据集以及验证数据集;
所述的训练数据集以及验证数据集均包括多组数据,其中每组数据包括多个类别数据,每个类别数据包括多幅行人图像;
对于每幅行人图像,该行人图像本身为原样本,与原样本属于同一类别数据的其他所有行人图像均为正样本,每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本;
获得行人图像数据集中每幅行人图像对应的类别,获得标签集;
在本实施例中,首先将数据随机混淆并将其按1:1的比例分为训练数据集和验证数据集两部分,为了保证训练数据集和验证数据集都分别包括所有类别(身份),将数据按每一类随机划分成两半,一半为训练数据集,另外一半为验证数据集。
在本实施例中,其中任一组数据为:
其中,p≤P,P表示身份个数,k≤K,K表示每个身份对应的行人图像个数,P与K均为正整数;
对于每组数据中的行人图像Ikp,行人图像Ikp为原样本,行人图像[Ik1,Ik2,…,Ikp-1,Ikp+1,…,IkP]为正样本,每组数据中除原样本以及正样本以外的所有行人图像均为负样本;原样本、正样本和负样本共同构成一个三元组。
在本实施例中,每个身份对应的行人图像均由不同摄像头采集获得。
在本实施例中,P取4,K取4。
在本实施例中,假设采集了10个行人的行人图像,每个行人对应有5张图像,一共50张图像,此时每个行人对应的5张图像都来自有不同的监控摄像头,每个行人都对应一个类别标签,也就是说,每个行人都对应各自的一类类别,因此该标签可以是1号行人、2号行人、……、10号行人;标签也可以是张一行人、李二行人、……,王十行人。
步骤2、利用所述的训练数据集在初始网络中进行搜索,获得最优卷积单元;所述的初始网络包括多个卷积单元,每个卷积单元包括多个节点;
在搜索时采用式I的损失函数L:
其中,为交叉熵损失函数,xi表示第i个原样本,i=1,2,…,M,M表示一组数据中原样本的个数,yi表示第i个原样本的类别,S(xi)表示第i个原样本经过softmax激活后网络分类器的输出,F(xi)表示第i个原样本的特征数据,表示距离第i个原样本最大的正样本的特征数据,表示距离第i个原样本最小的负样本的特征数据,d表示阈值参数,d>0,(z)+表示max(0,z);
在本发明中,使用单元(cell)作为卷积神经网络架构的基本构建块。通过重复堆叠这些cell来形成最终复杂的网络架构。这样,对神经网络架构的搜索就被简化为对cell的搜索。假设网络架构由K个cell重复堆叠,并且该cell被抽象为由N个有序节点组成的有向无环图。
在本实施例中,设置每个卷积cell是由N=7个节点组成的有向无环图。用K=8个卷积cell重复堆叠一个初始网络。
接着,每个cellk有两个输入节点,N-3个中间节点和一个输出节点。输入节点分别接收前两个cellk-1和cellk-2的输出,中间节点的转换公式为:
其中ni和nj分别代表第i个节点和第j个节点,oi,j代表ni到nj使用的某种神经操作。输出节点由所有中间节点通过级联操作获得。本发明的搜索策略基于Hanxiao Liu等人在文献“DARTS:Differentiable architecture search[J].arXiv preprint arXiv:1806.09055,2018.”中提出的连续松弛方案,即通过在每条边上放置混合候选操作,使离散的搜索空间被松弛为连续的搜索空间,以下为连续松弛公式:
其中,O表示所有候选操作空间,表示节点i和节点j之间的混合权重操作。通过公式(2)之后,网络架构搜索的任务就被转换为对连续变量集α={α(i,j)}的学习,其中α被称为架构参数。在搜索结束时,用最大可能操作替换混合操作从而获得离散的网络架构。通过这样的方案,网络架构也被视为连续变量,因此,架构α和网络权重w的联合优化目标是可微的,可以基于梯度的优化算法来进行高效的网络架构搜索。
在本实施例中,O表示所有候选操作空间,在本实例中,O包括3×3、5×5和7×7的深度可分离卷积,3×3和5×5的扩张卷积,3×3的平均池化操作、3×3的最大池化操作、跳跃连接和零操作。表示节点i和节点j之间的混合权重操作。
在本实施例中,对网络构架进行搜索实际上是一个求取最优值的过程,最终的优化目标是找到在满足与α相关的权重w(α)=argminwLT(w,α)的前提下,找到使LV(w(α),α)最小化的α,LT,LV分别表示训练集和验证集损失值,损失公式为式I,二者均由α和w共同决定。
由于此时架构α和网络权重w联合优化目标是可微的,为了优化二者,本发明提出了式I的损失函数,使用梯度下降法对式I迭代更新,其中在训练集上更新网络权重w,在验证集上更新网络架构超参α,从而通过训练最小化。
可选地,所述的步骤2中利用所述的训练数据集在初始网络中进行搜索时,采用DARTS方法作为搜索策略。
由于DARTS方法在cifar10的分类任务上实现了高效的卷积神经网架构搜索,而且相比其他大多数算法的很高的计算资源要求(基于强化学习,进化学习的算法可能需要成百上千个GPU),其克服了NAS算力成本巨大且耗时的缺陷并取得了有竞争力的性能,整个搜索过程仅仅只需要单片GPU就可以完成。
可选地,采用DARTS方法作为搜索策略在初始网络中进行搜索时,初始化训练次数为150,网络权重学习率为0.025,网络架构学习率为3×10-4。
用步骤1划分好的数据集在用K个卷积cell重复堆叠的初始网络中搜索网络架构,其中训练数据集用于训练网络权重w,验证数据集用于训练网络架构α,并以三元组损失函数为辅助建立如下损失函数:
可选地,所述的损失函数L中d=0.3。
步骤3、利用所述的最优卷积单元重复堆叠,获得初始行人重识别模型;
在本实施例中,行人重识别模型由若干个cell,重复堆叠而成,堆叠方式为每个cell的输入节点接收前两层cell的输出节点,在网络的1/3和2/3出为reduction cells,其他均为normal cells。由步骤2搜索得到的两种最佳cell:Reduction cell和Normal cell,如图1所示,在Market1501数据集搜索到的Normal cell,如图2所示,在Market1501数据集搜索到的Reduction cell。
步骤4、利用所述的训练数据集以及验证数据集训练所述的初始行人重识别模型,获得行人重识别模型。
在本实施例中,此时的训练数据使用未划分前的所有训练数据(包括之前用于搜索网络架构的验证数据集),数据分组方式同样采用步骤1的三元组采样方式,重新训练此大型网络的网络权重w。并设置训练次数为600,学习率为0.025,采用随机梯度下降法进行训练,损失函数同式I,得到训练好的网络模型。
在本实施例中,为了评估通过网络架构搜索算法找到的行人重识别模型,测试数据集通常分为查询数据集和图库数据集,需要计算待查询图像与每张图库图像之间的相似性得分。先移除步骤3中训练好的20层的大型网络架构的最后一层分类层,将其作为特征提取器,然后,将测试数据集中的所有行人图像输入到该特征提取器以获得相应的深度卷积特征图,使用简单的欧式距离来计算待查询图像-图库图像特征向量对之间的相似度得分,计算公式如下:
dp,g=||fNAS(pi)-fNAS(gj)||2
其中,fNAS(·)表示特征提取操作,pi和gj分别表示第i个查询图像和第j个图库图像。计算得到的欧式距离越近,相似度的分就越高,说明该图库图像与待查询图像是相同身份行人的可能性就越大。并且,将图库数据集的图像按照与待查询图像的相似性得分从大到小依次进行排序。
本实施例中提供的模型构建方法,首先对输入的图像数据集进行随机采样和分组,并设置以三元组损失函数为辅助的目标函数来指导网络架构的搜索;然后,利用搜索到的最佳网络架构单元重复堆叠一个大型网络,并对该网络进行重训练,得到训练好的网络架构;最后,移除训练好的大型网络架构的最后一层分类层,将其作为特征提取器,分别对测试数据集中的图像进行特征提取,再计算测试数据集中的待查询图像与每张图库图像之间的相似性得分,根据得分大小对图库图像进行排序,从而判断重识别结果。利用本发明方法,最终可以实现不再依赖外部数据,直接在目标数据集上利用神经架构搜索自动生成具有出色性能的行人重识别网络。
实施例二
一种基于神经架构搜索的行人重识别方法,按照以下步骤执行:
步骤A、获得待识别行人图像;
步骤B、将所述的待识别行人图像输入至实施例一的基于神经架构搜索的行人重识别模型构建方法获得的行人重识别模型中,获得识别结果。
在本实施例中,如图2所示,最左边一列是查询图像,右侧是在Market-1501图库数据集上的排序识别Rank-k(k=10)结果。用五角星标注的代表识别错误的行人图像,而其他图像则为识别正确的图像。
实验对比例:
将本发明提供的行人重识别方法与现有的Inception方法、ResNet-50方法、Basel.+LSRO方法、MSCAN、SpindleNet以及CADL方法进行对比,对比结果见表1。
表1本发明与现有技术的性能对比
本发明提供的行人重识别方法的Rank-1和mAP分别达到78.8%和59.2%,相比ResNet-50基准,其Rank-1和mAP分别提升了1.5%和3.3%。与使用ImageNet预训练的方法(例如Basel.+LSRO)相比,我们的方法将Rank-1和mAP分别提高了0.7%和3.0%。我们的方法在Rank-1和mAP上也比专门设计的网络MSCAN分别高出2.5%和6.1%,并且在Rank-1和mAP上分别比Inception基准高出3.0%和7.4%。因此使用神经架构搜索可以自动生成性能更好的行人重识别网络,它不仅超越了一些经过外部数据预训练的依赖分类网络为骨干网络的方法,而且比人类专家专门设计的某些行人重识别网络也要好。
实施例三
在本实施例中提供了一种基于神经架构搜索的行人重识别模型构建装置,包括数据获得模块、单元搜索模块、模型搭建模块以及模型训练模块:
数据获得模块用于获得行人图像数据集,行人图像数据集包括训练数据集以及验证数据集;
训练数据集以及验证数据集均包括多组数据,其中每组数据包括多个类别数据,每个类别数据包括多幅行人图像;
对于每幅行人图像,该行人图像本身为原样本,与原样本属于同一类别数据的其他所有行人图像均为正样本,每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本;
数据获得模块还用于获得行人图像数据集中每幅行人图像对应的类别,获得标签集;
单元搜索模块用于将训练数据集以及验证数据集作为输入,将标签集作为输出,对初始网络中进行搜索,获得最优卷积单元;
初始网络包括多个卷积单元,每个卷积单元包括多个节点;
在搜索时采用式I的损失函数L:
其中,为交叉熵损失函数,xi表示第i个原样本,i=1,2,…,M,M表示一组数据中原样本的个数,yi表示第i个原样本的类别,S(xi)表示第i个原样本经过softmax激活后网络分类器的输出,F(xi)表示第i个原样本的特征数据,表示距离第i个原样本最大的正样本的特征数据,表示距离第i个原样本最小的负样本的特征数据,d表示阈值参数,d>0,(z)+表示max(0,z);
模型搭建模块用于利用最优卷积单元重复堆叠,获得初始行人重识别模型;
模型训练模块用于将训练数据集以及验证数据集作为输入,将标签集作为输出,训练初始行人重识别模型,获得行人重识别模型。
可选地,单元搜索模块中将训练数据集以及验证数据集作为输入,将标签集作为输出,对初始网络中进行搜索时,采用DARTS方法作为搜索策略。
可选地,采用DARTS方法作为搜索策略对初始网络进行搜索时,初始化训练次数为150,网络权重学习率为0.025,网络架构学习率为3×10-4。
可选地,损失函数L中阈值参数d=0.3。
实施例四
一种基于神经架构搜索的行人重识别装置,包括图像获取模块以及实施例三的基于神经架构搜索的行人重识别模型构建装置;
图像获取模块用于获得待识别行人图像;
基于神经架构搜索的行人重识别模型构建装置用于输入所述待识别行人图像,获得识别结果。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
Claims (10)
1.一种基于神经架构搜索的行人重识别模型构建方法,其特征在于,按照以下步骤执行:
步骤1、获得行人图像数据集,所述的行人图像数据集包括训练数据集以及验证数据集;
所述的训练数据集以及验证数据集均包括多组数据,其中每组数据包括多个类别数据,每个类别数据包括多幅行人图像;
对于每幅行人图像,该行人图像本身为原样本,与原样本属于同一类别数据的其他所有行人图像均为正样本,每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本;
获得行人图像数据集中每幅行人图像对应的类别,获得标签集;
步骤2、将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索,获得最优卷积单元;
所述的初始网络包括多个卷积单元;
在搜索时采用式I的损失函数L:
其中,为交叉熵损失函数,xi表示第i个原样本,i=1,2,…,M,M表示一组数据中原样本的个数,yi表示第i个原样本的类别,S(xi)表示第i个原样本经过softmax激活后网络分类器的输出,F(xi)表示第i个原样本的特征数据,表示距离第i个原样本最大的正样本的特征数据,表示距离第i个原样本最小的负样本的特征数据,d表示阈值参数,d>0,(z)+表示max(0,z);
步骤3、利用所述的最优卷积单元重复堆叠,获得初始行人重识别模型;
步骤4、将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,训练所述的初始行人重识别模型,获得行人重识别模型。
2.如权利要求1所述的基于神经架构搜索的行人重识别模型构建方法,其特征在于,所述的步骤2中将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索时,采用DARTS方法作为搜索策略。
3.如权利要求2所述的基于神经架构搜索的行人重识别模型构建方法,其特征在于,采用DARTS方法作为搜索策略对初始网络进行搜索时,初始化训练次数为150,网络权重学习率为0.025,网络架构学习率为3×10-4。
4.如权利要求1所述的基于神经架构搜索的行人重识别模型构建方法,其特征在于,所述的损失函数L中阈值参数d=0.3。
5.一种基于神经架构搜索的行人重识别方法,其特征在于,按照以下步骤执行:
步骤A、获得待识别行人图像;
步骤B、将所述的待识别行人图像输入至权利要求1-4任一项权利要求的基于神经架构搜索的行人重识别模型构建方法获得的行人重识别模型中,获得识别结果。
6.一种基于神经架构搜索的行人重识别模型构建装置,其特征在于,包括数据获得模块、单元搜索模块、模型搭建模块以及模型训练模块:
所述的数据获得模块用于获得行人图像数据集,所述的行人图像数据集包括训练数据集以及验证数据集;
所述的训练数据集以及验证数据集均包括多组数据,其中每组数据包括多个类别数据,每个类别数据包括多幅行人图像;
对于每幅行人图像,该行人图像本身为原样本,与原样本属于同一类别数据的其他所有行人图像均为正样本,每组数据中除原样本以及正样本以外的其他所有行人图像均为负样本;
所述的数据获得模块还用于获得行人图像数据集中每幅行人图像对应的类别,获得标签集;
所述的单元搜索模块用于将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索,获得最优卷积单元;
所述的初始网络包括多个卷积单元;
在搜索时采用式I的损失函数L:
其中,为交叉熵损失函数,xi表示第i个原样本,i=1,2,…,M,M表示一组数据中原样本的个数,yi表示第i个原样本的类别,S(xi)表示第i个原样本经过softmax激活后网络分类器的输出,F(xi)表示第i个原样本的特征数据,表示距离第i个原样本最大的正样本的特征数据,表示距离第i个原样本最小的负样本的特征数据,d表示阈值参数,d>0,(z)+表示max(0,z);
所述的模型搭建模块用于利用所述的最优卷积单元重复堆叠,获得初始行人重识别模型;
所述的模型训练模块用于将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,训练所述的初始行人重识别模型,获得行人重识别模型。
7.如权利要求6所述的基于神经架构搜索的行人重识别模型构建方法,其特征在于,所述的单元搜索模块中将所述的训练数据集以及验证数据集作为输入,将所述的标签集作为输出,对初始网络中进行搜索时,采用DARTS方法作为搜索策略。
8.如权利要求7所述的基于神经架构搜索的行人重识别模型构建方法,其特征在于,采用DARTS方法作为搜索策略对初始网络进行搜索时,初始化训练次数为150,网络权重学习率为0.025,网络架构学习率为3×10-4。
9.如权利要求6所述的基于神经架构搜索的行人重识别模型构建方法,其特征在于,所述的损失函数L中阈值参数d=0.3。
10.一种基于神经架构搜索的行人重识别装置,其特征在于,包括图像获取模块以及如权利要求6-9任一项权利要求的基于神经架构搜索的行人重识别模型构建装置;
所述的图像获取模块用于获得待识别行人图像;
所述的基于神经架构搜索的行人重识别模型构建装置用于输入所述待识别行人图像,获得识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964255.2A CN110852168A (zh) | 2019-10-11 | 2019-10-11 | 基于神经架构搜索的行人重识别模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964255.2A CN110852168A (zh) | 2019-10-11 | 2019-10-11 | 基于神经架构搜索的行人重识别模型构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852168A true CN110852168A (zh) | 2020-02-28 |
Family
ID=69596963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910964255.2A Pending CN110852168A (zh) | 2019-10-11 | 2019-10-11 | 基于神经架构搜索的行人重识别模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852168A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582478A (zh) * | 2020-05-09 | 2020-08-25 | 北京百度网讯科技有限公司 | 用于确定模型结构的方法和装置 |
CN111582126A (zh) * | 2020-04-30 | 2020-08-25 | 浙江工商大学 | 基于多尺度行人轮廓分割融合的行人重识别方法 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN111898510A (zh) * | 2020-07-23 | 2020-11-06 | 合肥工业大学 | 一种基于渐进式神经网络的跨模态行人再识别方法 |
CN111931904A (zh) * | 2020-07-10 | 2020-11-13 | 华为技术有限公司 | 神经网络的构建方法和装置 |
CN112101428A (zh) * | 2020-08-27 | 2020-12-18 | 上海交通大学 | 一种基于卷积神经网络的图像分类方法及系统 |
CN112183468A (zh) * | 2020-10-27 | 2021-01-05 | 南京信息工程大学 | 一种基于多注意力联合多级特征的行人再识别方法 |
CN112699957A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于darts的图像分类优化方法 |
CN112766288A (zh) * | 2021-03-03 | 2021-05-07 | 重庆赛迪奇智人工智能科技有限公司 | 图像处理模型构建方法、装置、电子设备和可读存储介质 |
CN113159115A (zh) * | 2021-03-10 | 2021-07-23 | 中国人民解放军陆军工程大学 | 基于神经架构搜索的车辆细粒度识别方法、系统和装置 |
CN113688814A (zh) * | 2021-10-27 | 2021-11-23 | 武汉邦拓信息科技有限公司 | 图像识别方法及装置 |
CN113723169A (zh) * | 2021-04-26 | 2021-11-30 | 中国科学院自动化研究所 | 基于SlowFast的行为识别方法、系统及设备 |
CN113780146A (zh) * | 2021-09-06 | 2021-12-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN113963167A (zh) * | 2021-10-29 | 2022-01-21 | 北京百度网讯科技有限公司 | 应用于目标检测的方法、装置及计算机程序产品 |
CN114049609A (zh) * | 2021-11-24 | 2022-02-15 | 大连理工大学 | 基于神经架构搜索的多级聚合行人重识别方法 |
WO2022121100A1 (zh) * | 2020-12-11 | 2022-06-16 | 华中科技大学 | 一种基于darts网络的多模态医学图像融合方法 |
TWI770967B (zh) * | 2020-06-19 | 2022-07-11 | 大陸商深圳市商湯科技有限公司 | 一種神經網路的訓練方法、視頻識別方法及電腦設備和電腦可讀儲存介質 |
CN114821629A (zh) * | 2021-01-27 | 2022-07-29 | 天津大学 | 一种基于神经网络并行训练架构进行交叉图像特征融合的行人重识别方法 |
CN114861906A (zh) * | 2022-04-21 | 2022-08-05 | 天津大学 | 基于神经架构搜索的轻量级多退出点模型的建立方法 |
CN115131727A (zh) * | 2022-06-12 | 2022-09-30 | 西北工业大学 | 一种基于残差单元结构搜索的行人重识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778527A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于三重损失的改进的神经网络行人再识别方法 |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN109190446A (zh) * | 2018-07-06 | 2019-01-11 | 西北工业大学 | 基于三元组聚焦损失函数的行人再识别方法 |
CN109784197A (zh) * | 2018-12-21 | 2019-05-21 | 西北工业大学 | 基于孔洞卷积与注意力学习机制的行人再识别方法 |
-
2019
- 2019-10-11 CN CN201910964255.2A patent/CN110852168A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778527A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于三重损失的改进的神经网络行人再识别方法 |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN109190446A (zh) * | 2018-07-06 | 2019-01-11 | 西北工业大学 | 基于三元组聚焦损失函数的行人再识别方法 |
CN109784197A (zh) * | 2018-12-21 | 2019-05-21 | 西北工业大学 | 基于孔洞卷积与注意力学习机制的行人再识别方法 |
Non-Patent Citations (2)
Title |
---|
RUIJIE QUAN 等: "Auto-ReID:Searching for a Part-Aware ConvNet for Person Re-Identification", 《HTTPS://ARXIV.ORG/ABS/1903.09776V4》 * |
博主账号人工智障之深度瞎学: "神经架构搜索方法综述", 《HTTPS://BLOG.CSDN.NET/WEIXIN_44474718/ARTICLE/DETAILS/91129765》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582126B (zh) * | 2020-04-30 | 2024-02-27 | 浙江工商大学 | 基于多尺度行人轮廓分割融合的行人重识别方法 |
CN111582126A (zh) * | 2020-04-30 | 2020-08-25 | 浙江工商大学 | 基于多尺度行人轮廓分割融合的行人重识别方法 |
CN111582478B (zh) * | 2020-05-09 | 2023-09-22 | 北京百度网讯科技有限公司 | 用于确定模型结构的方法和装置 |
CN111582478A (zh) * | 2020-05-09 | 2020-08-25 | 北京百度网讯科技有限公司 | 用于确定模型结构的方法和装置 |
TWI770967B (zh) * | 2020-06-19 | 2022-07-11 | 大陸商深圳市商湯科技有限公司 | 一種神經網路的訓練方法、視頻識別方法及電腦設備和電腦可讀儲存介質 |
WO2022007867A1 (zh) * | 2020-07-10 | 2022-01-13 | 华为技术有限公司 | 神经网络的构建方法和装置 |
CN111931904A (zh) * | 2020-07-10 | 2020-11-13 | 华为技术有限公司 | 神经网络的构建方法和装置 |
CN111898510A (zh) * | 2020-07-23 | 2020-11-06 | 合肥工业大学 | 一种基于渐进式神经网络的跨模态行人再识别方法 |
CN111898510B (zh) * | 2020-07-23 | 2023-07-28 | 合肥工业大学 | 一种基于渐进式神经网络的跨模态行人再识别方法 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN112101428B (zh) * | 2020-08-27 | 2023-11-10 | 上海交通大学 | 一种基于卷积神经网络的图像分类方法及系统 |
CN112101428A (zh) * | 2020-08-27 | 2020-12-18 | 上海交通大学 | 一种基于卷积神经网络的图像分类方法及系统 |
CN112183468A (zh) * | 2020-10-27 | 2021-01-05 | 南京信息工程大学 | 一种基于多注意力联合多级特征的行人再识别方法 |
US11769237B2 (en) | 2020-12-11 | 2023-09-26 | Huazhong University Of Science And Technology | Multimodal medical image fusion method based on darts network |
WO2022121100A1 (zh) * | 2020-12-11 | 2022-06-16 | 华中科技大学 | 一种基于darts网络的多模态医学图像融合方法 |
CN112699957B (zh) * | 2021-01-08 | 2024-03-29 | 北京工业大学 | 一种基于darts的图像分类优化方法 |
CN112699957A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于darts的图像分类优化方法 |
CN114821629A (zh) * | 2021-01-27 | 2022-07-29 | 天津大学 | 一种基于神经网络并行训练架构进行交叉图像特征融合的行人重识别方法 |
CN112766288B (zh) * | 2021-03-03 | 2024-01-23 | 重庆赛迪奇智人工智能科技有限公司 | 图像处理模型构建方法、装置、电子设备和可读存储介质 |
CN112766288A (zh) * | 2021-03-03 | 2021-05-07 | 重庆赛迪奇智人工智能科技有限公司 | 图像处理模型构建方法、装置、电子设备和可读存储介质 |
CN113159115B (zh) * | 2021-03-10 | 2023-09-19 | 中国人民解放军陆军工程大学 | 基于神经架构搜索的车辆细粒度识别方法、系统和装置 |
CN113159115A (zh) * | 2021-03-10 | 2021-07-23 | 中国人民解放军陆军工程大学 | 基于神经架构搜索的车辆细粒度识别方法、系统和装置 |
CN113723169A (zh) * | 2021-04-26 | 2021-11-30 | 中国科学院自动化研究所 | 基于SlowFast的行为识别方法、系统及设备 |
CN113723169B (zh) * | 2021-04-26 | 2024-04-30 | 中国科学院自动化研究所 | 基于SlowFast的行为识别方法、系统及设备 |
CN113780146A (zh) * | 2021-09-06 | 2021-12-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN113780146B (zh) * | 2021-09-06 | 2024-05-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN113688814A (zh) * | 2021-10-27 | 2021-11-23 | 武汉邦拓信息科技有限公司 | 图像识别方法及装置 |
CN113963167A (zh) * | 2021-10-29 | 2022-01-21 | 北京百度网讯科技有限公司 | 应用于目标检测的方法、装置及计算机程序产品 |
CN114049609A (zh) * | 2021-11-24 | 2022-02-15 | 大连理工大学 | 基于神经架构搜索的多级聚合行人重识别方法 |
CN114049609B (zh) * | 2021-11-24 | 2024-05-31 | 大连理工大学 | 基于神经架构搜索的多级聚合行人重识别方法 |
CN114861906A (zh) * | 2022-04-21 | 2022-08-05 | 天津大学 | 基于神经架构搜索的轻量级多退出点模型的建立方法 |
CN115131727A (zh) * | 2022-06-12 | 2022-09-30 | 西北工业大学 | 一种基于残差单元结构搜索的行人重识别方法 |
CN115131727B (zh) * | 2022-06-12 | 2024-03-15 | 西北工业大学 | 一种基于残差单元结构搜索的行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852168A (zh) | 基于神经架构搜索的行人重识别模型构建方法及装置 | |
Ding et al. | Where to prune: Using LSTM to guide data-dependent soft pruning | |
CN112559784B (zh) | 基于增量学习的图像分类方法及系统 | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
Kang et al. | Towards oracle knowledge distillation with neural architecture search | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN103778414A (zh) | 基于深度神经网络的实时人脸识别方法 | |
Tscherepanow | TopoART: A topology learning hierarchical ART network | |
CN109522432B (zh) | 一种融合自适应相似度和贝叶斯框架的图像检索方法 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN114647752A (zh) | 基于双向可切分深度自注意力网络的轻量化视觉问答方法 | |
Hao et al. | Architecture self-attention mechanism: Nonlinear optimization for neural architecture search | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN112132059B (zh) | 一种基于深度条件随机场的行人重识别方法和系统 | |
CN115457269A (zh) | 一种基于改进DenseNAS的语义分割方法 | |
CN114625886A (zh) | 基于知识图谱小样本关系学习模型的实体查询方法及系统 | |
CN114003707A (zh) | 问题检索模型的训练方法及装置、问题检索方法及装置 | |
Ren et al. | Video-based emotion recognition using multi-dichotomy RNN-DNN | |
Yuan et al. | Obtain dark knowledge via extended knowledge distillation | |
Feng et al. | Energy-efficient and robust cumulative training with net2net transformation | |
Shanmugasundaram et al. | Detection accuracy improvement on one-stage object detection using ap-loss-based ranking module and resnet-152 backbone | |
Cai et al. | Implementation of hybrid deep learning architecture on loop-closure detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |
|
RJ01 | Rejection of invention patent application after publication |