CN113627241B - 一种用于行人重识别的背景抑制方法与系统 - Google Patents
一种用于行人重识别的背景抑制方法与系统 Download PDFInfo
- Publication number
- CN113627241B CN113627241B CN202110726458.5A CN202110726458A CN113627241B CN 113627241 B CN113627241 B CN 113627241B CN 202110726458 A CN202110726458 A CN 202110726458A CN 113627241 B CN113627241 B CN 113627241B
- Authority
- CN
- China
- Prior art keywords
- network
- pedestrian
- output
- original image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明给出了一种用于行人重识别的背景抑制方法与系统,包括设计了一个两路网络,并结合提出的先验优化和指导学习策略,用来使得模型能专注于行人的前景信息,抑制背景信息的干扰,并能学习背景中和行人身份相关的信息;第一路网络充当第二路网络的指导者,来推动第二路网络学习完整的前景信息和背景中与行人身份相关的信息。最后,本发明在多个公开行人重识别的数据集上进行了验证,验证结果表明本发明结合数据层面的先验优化和特征层面的指导学习可以有选择性的滤除背景干扰,使得网络专注于前景信息的学习。
Description
技术领域
本发明涉及行人重识别技术领域,尤其是一种用于行人重识别的背景抑制方法与系统。
背景技术
行人重识别的目的是在不重叠的相机视图中匹配相同的行人。随着监控摄像头的快速发展,大量的监控系统部署在公共场所。因此,行人重识别技术近年来受到越来越多的关注,可以在不相交的摄像机视角下捕捉特定目标,并成为视频监控应用中的关键技术。在过去的几年中,行人重识别通过深度学习技术获得了先进的性能。
由于行人姿态变换、视角变化、光照强度变化、背景干扰等因素的影响,行人重识别是一个具有挑战性的任务。背景干扰可以看作是影响行人重识别系统性能的主要因素之一。当两个人外观信息相似,背景信息又相似时,很容易出现错误识别的情况。
目前解决行人重识别的背景干扰主要是利用分割算法或者行人解析算法(例如:Mask R-CNN或者LIP_JPPNet)来滤除原始图像中的背景。然而,分割算法是在COCO数据集上进行训练,而直接在re-ID数据集上进行测试,这样数据集之间存在数据之间的风格差异,导致通过分割算法去除背景时,会损害原始图像的平滑性和结构性信息,与此同时,在滤除背景时,背景中有些和身份相关的信息也会丢失,这些信息的丢失会影响行人重识别的性能。目前的方法都是在数据层面直接滤除原始图像的背景,完全忽略了数据层面的会导致背景中有些信息的丢失。
发明内容
本发明提出了一种用于行人重识别的背景抑制方法与系统,以解决上文提到的现有技术的缺陷。
在一个方面,本发明提出了一种用于行人重识别的背景抑制方法,该方法包括以下步骤:
S1:利用两路卷积神经网络构建出一个双流网络,所述双流网络包括:第一路网络和第二路网络,其中所述第一路网络和所述第二路网络都使用ResNet50模型,且其中所述第一路网络和所述第二路网络均由相同数量的若干层残差卷积块构成;
S2:将待识别的原始图像滤除背景后获得前景图像,将所述原始图像作为所述第一路网络的第一层残差卷积块的输入,同时将所述前景图像作为所述第二路网络的第一层残差卷积块的输入;
S3:计算所述第一路网络中每一层的残差卷积块的输出与所述第二路网络中对应层的残差卷积块的输出进行通道级联后得到的级联特征信息,将所述级联特征信息作为所述第二路网络中的下一层残差卷积块的输入,同时将所述第一路网络中每一层的残差卷积块的输出作为所述第一路网络中的下一层残差卷积块的输入;
S4:将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,再基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型。
以上方法本发明提出一个双流的行人重识别网络、数据层面的先验优化策略和特征层面的指导学习策略。双流网络在数据层面和特征层面减少背景干扰带来的副作用,增强前景信息的表达,可以有选择性进行背景滤除,去除杂乱的背景,留下背景中和行人身份相关的信息。第二路网络利用前景图像并结合提出的先验优化策略可以有效的学习前景信息,滤除背景干扰。第一路网络结合指导学习策略帮助第二路网络学习背景中游泳的信息并且在特征层面弥补丢失的前景信息,使得整个网络获得完整的前景信息。
在具体的实施例中,将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,具体包括:
在具体的实施例中,所述S4中,基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型,具体包括:
选择一定数量的用于训练的原始图像,其中包含K类不同的行人身份,且每种行人身份包含K0张不同的图像;
针对每张原始图像xa,在与所述原始图像xa属于同一个行人身份的图像中选择一张相似度距离最大的图像xp作为正样本,在与所述原始图像xa属于不同行人身份的图像中选择一张相似度距离最小的图像xn作为负样本,设定预设的阈值利用以下三元组损失函数对所述双流网络的输出进行监督训练:
其中,Ltriplet为三元组损失函数,d(a,p)表示原始图像xa和图像xp的欧式距离,d(a,n)表示原始图像xa和图像xn的欧式距离,batch表示训练的批大小,K表示行人身份的类别个数;
所述监督训练基于标签平滑正则化的交叉熵损失函数预测每张原始图像属于某一类行人身份的概率,所述标签平滑正则化的交叉熵损失函数由如下公式表示:
其中ε∈[0,1],k表示所述用于训练的原始图像中行人身份的类别,p(k)表示所述原始图像经过预测得到的属于k类行人身份的概率。
在具体的实施例中,所述第一路网络的最终特征信息FP具体根据以下特征提取表达式给出:
FP=PGAP{BResNet(Ii;WP|WImageNet,bP|bImageNet)}
其中,Ii表示所述原始图像,PGAP表示全局平均池化,BResNet表示主干网络ResNet50,WP表示所述第一路网络的参数,WImageNet表示在ImageNet数据集上预训练的ResNet50参数,bP表示所述第一路网络的偏置,bImageNet表示在ImageNet数据集上预训练的ResNet50偏置。
在具体的实施例中,所述第二路网络的最终特征信息FR具体根据以下特征提取表达式给出:
FR=PGMP{BResNet(Ii;WR|Wpriori,bR|bpriori)}
其中,Ii表示所述原始图像,PGMP全局最大池化,BResNet代表主干网络ResNet50,WR表示所述第二路网络的参数,Wpriori表示利用所述前景图像训练ResNet50获得的参数,bR表示所述第二路网络的偏置,bpriori表示利用所述前景图像训练ResNet50的偏置。原始图像通过滤除背景,获得前景图像,第二路网络利用获得的前景图像进行预训练,从而使第一路网络向第二路网络提供特征信息,推动第二路网络对完整前景图像的学习,同时学习背景中的和行人身份相关的信息。
在具体的实施例中,所述滤除背景利用LIP_JPPNet实现。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出一种用于行人重识别的背景抑制系统,该系统包括:
双流网络构建模块:配置用于利用两路卷积神经网络构建出一个双流网络,所述双流网络包括:第一路网络和第二路网络,其中所述第一路网络和所述第二路网络都使用ResNet50模型,且其中所述第一路网络和所述第二路网络均由相同数量的若干层残差卷积块构成;
训练图像输入模块:配置用于将待识别的原始图像滤除背景后获得前景图像,将所述原始图像作为所述第一路网络的第一层残差卷积块的输入,同时将所述前景图像作为所述第二路网络的第一层残差卷积块的输入;
背景抑制的特征训练模块:配置用于计算所述第一路网络中每一层的残差卷积块的输出与所述第二路网络中对应层的残差卷积块的输出进行通道级联后得到的级联特征信息,将所述级联特征信息作为所述第二路网络中的下一层残差卷积块的输入,同时将所述第一路网络中每一层的残差卷积块的输出作为所述第一路网络中的下一层残差卷积块的输入;
损失函数计算模块:配置用于将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,再基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型。
本发明设计了一个两路网络,并结合提出的先验优化和指导学习策略,用来使得模型能专注于行人的前景信息,抑制背景信息的干扰,并能学习背景中和行人身份相关的信息。第一路网络充当第二路网络的指导者,来推动第二路网络学习完整的前景信息和背景中与行人身份相关的信息。最后,本发明在多个公开行人重识别的数据集上进行验证,提出的背景抑制算法能获得行业领先的水平。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本发明的一个实施例的一种用于行人重识别的背景抑制方法的流程图;
图3是本发明的一个具体的实施例的双流行人重识别网络结构图;
图4是本发明的一个实施例的一种用于行人重识别的背景抑制系统的框架图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的一种用于行人重识别的背景抑制方法的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、数据可视化类应用、网页浏览器应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上展示的原始图像提供支持的后台信息处理服务器。后台信息处理服务器可以对获取的前景图像进行处理,并生成处理结果(例如特征信息)。
需要说明的是,本申请实施例所提供的方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应的装置一般设置于服务器105中,也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的一个实施例的一种用于行人重识别的背景抑制方法,图2示出了根据本发明的实施例的一种用于行人重识别的背景抑制方法的流程图。如图2所示,该方法包括以下步骤:
S201:利用两路卷积神经网络构建出一个双流网络,所述双流网络包括:第一路网络和第二路网络,其中所述第一路网络和所述第二路网络都使用ResNet50模型,且其中所述第一路网络和所述第二路网络均由相同数量的若干层残差卷积块构成。
在本实施例中,所述双流网络的结构图如图3所示,且本实施例中所示出的方法依据图3所示出的结构进行运行。
在本实施例中,所述滤除背景利用LIP_JPPNet实现。
S202:将待识别的原始图像滤除背景后获得前景图像,将所述原始图像作为所述第一路网络的第一层残差卷积块的输入,同时将所述前景图像作为所述第二路网络的第一层残差卷积块的输入。
S203:计算所述第一路网络中每一层的残差卷积块的输出与所述第二路网络中对应层的残差卷积块的输出进行通道级联后得到的级联特征信息,将所述级联特征信息作为所述第二路网络中的下一层残差卷积块的输入,同时将所述第一路网络中每一层的残差卷积块的输出作为所述第一路网络中的下一层残差卷积块的输入。
S204:将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,再基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型。
在本实施例中,在所述S204中,将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,具体包括:
在本实施例中,所述S204中,基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型,具体包括:
选择一定数量的用于训练的原始图像,其中包含K类不同的行人身份,且每种行人身份包含K0张不同的图像;
针对每张原始图像xa,在与所述原始图像xa属于同一个行人身份的图像中选择一张相似度距离最大的图像xp作为正样本,在与所述原始图像xa属于不同行人身份的图像中选择一张相似度距离最小的图像xn作为负样本,设定预设的阈值利用以下三元组损失函数对所述双流网络的输出进行监督训练:
其中,Ltriplet为三元组损失函数,d(a,p)表示原始图像xa和图像xp的欧式距离,d(a,n)表示原始图像xa和图像xn的欧式距离,batch表示训练的批大小,K表示行人身份的类别个数;
所述监督训练基于标签平滑正则化的交叉熵损失函数预测每张原始图像属于某一类行人身份的概率,所述标签平滑正则化的交叉熵损失函数由如下公式表示:
其中ε∈[0,1],k表示所述用于训练的原始图像中行人身份的类别,p(k)表示所述原始图像经过预测得到的属于k类行人身份的概率。
根据图3示出的结构,所述第一路网络的最终特征信息FP具体根据以下特征提取表达式给出:
FP=PGAP{BResNet(Ii;WP|WImageNet,bP|bImageNet)}
其中,Ii表示所述原始图像,PGAP表示全局平均池化,BResNet表示主干网络ResNet50,WP表示所述第一路网络的参数,WImageNet表示在ImageNet数据集上预训练的ResNet50参数,bP表示所述第一路网络的偏置,bImageNet表示在ImageNet数据集上预训练的ResNet50偏置。
根据图3示出的结构,所述第二路网络的最终特征信息FR具体根据以下特征提取表达式给出:
FR=PGMP{BResNet(Ii;WR|Wpriori,bR|bpriori)}
其中,Ii表示所述原始图像,PGMP全局最大池化,BResNet代表主干网络ResNet50,WR表示所述第二路网络的参数,Wpriori表示利用所述前景图像训练ResNet50获得的参数,bR表示所述第二路网络的偏置,bpriori表示利用所述前景图像训练ResNet50的偏置。
图4示出了本发明的一个实施例的一种用于行人重识别的背景抑制系统的框架图。该系统包括双流网络构建模块401、训练图像输入模块402、背景抑制的特征训练模块403和损失函数计算模块404。
在具体的实施例中,双流网络构建模块401被配置用于利用两路卷积神经网络构建出一个双流网络,所述双流网络包括:第一路网络和第二路网络,其中所述第一路网络和所述第二路网络都使用ResNet50模型,且其中所述第一路网络和所述第二路网络均由相同数量的若干层残差卷积块构成;
训练图像输入模块402被配置用于将待识别的原始图像滤除背景后获得前景图像,将所述原始图像作为所述第一路网络的第一层残差卷积块的输入,同时将所述前景图像作为所述第二路网络的第一层残差卷积块的输入;
背景抑制的特征训练模块403被配置用于计算所述第一路网络中每一层的残差卷积块的输出与所述第二路网络中对应层的残差卷积块的输出进行通道级联后得到的级联特征信息,将所述级联特征信息作为所述第二路网络中的下一层残差卷积块的输入,同时将所述第一路网络中每一层的残差卷积块的输出作为所述第一路网络中的下一层残差卷积块的输入;
损失函数计算模块404被配置用于将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,再基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型。
在以上模块的作用下,本发明给出了一种用于行人重识别的背景抑制方法与系统,包括设计了一个两路网络,并结合提出的先验优化和指导学习策略,用来使得模型能专注于行人的前景信息,抑制背景信息的干扰,并能学习背景中和行人身份相关的信息;第一路网络充当第二路网络的指导者,来推动第二路网络学习完整的前景信息和背景中与行人身份相关的信息。最后,本发明在多个公开行人重识别的数据集上进行了验证,验证结果表明本发明结合数据层面的先验优化和特征层面的指导学习可以有选择性的滤除背景干扰,使得网络专注于前景信息的学习。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,并且这些单元的名称在某种情况下并不构成对该单元本身的限定。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
本发明给出了一种用于行人重识别的背景抑制方法与系统,包括设计了一个两路网络,并结合提出的先验优化和指导学习策略,用来使得模型能专注于行人的前景信息,抑制背景信息的干扰,并能学习背景中和行人身份相关的信息;第一路网络充当第二路网络的指导者,来推动第二路网络学习完整的前景信息和背景中与行人身份相关的信息。最后,本发明在多个公开行人重识别的数据集上进行了验证,验证结果表明本发明结合数据层面的先验优化和特征层面的指导学习可以有选择性的滤除背景干扰,使得网络专注于前景信息的学习。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (7)
1.一种用于行人重识别的背景抑制方法,其特征在于,包括以下步骤:
S1:利用两路卷积神经网络构建出一个双流网络,所述双流网络包括:第一路网络和第二路网络,其中所述第一路网络和所述第二路网络都使用ResNet50模型,且其中所述第一路网络和所述第二路网络均由相同数量的若干层残差卷积块构成;
S2:将待识别的原始图像滤除背景后获得前景图像,将所述原始图像作为所述第一路网络的第一层残差卷积块的输入,同时将所述前景图像作为所述第二路网络的第一层残差卷积块的输入;
S3:计算所述第一路网络中每一层的残差卷积块的输出与所述第二路网络中对应层的残差卷积块的输出进行通道级联后得到的级联特征信息,将所述级联特征信息作为所述第二路网络中的下一层残差卷积块的输入,同时将所述第一路网络中每一层的残差卷积块的输出作为所述第一路网络中的下一层残差卷积块的输入;
S4:将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,具体包括:
再基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型,具体包括:
选择一定数量的用于训练的原始图像,其中包含K类不同的行人身份,且每种行人身份包含K0张不同的图像;
针对每张原始图像xa,在与所述原始图像xa属于同一个行人身份的图像中选择一张相似度距离最大的图像xp作为正样本,在与所述原始图像xa属于不同行人身份的图像中选择一张相似度距离最小的图像xn作为负样本,设定预设的阈值利用以下三元组损失函数对所述双流网络的输出进行监督训练:
其中,Ltriplet为三元组损失函数,d(a,p)表示原始图像xa和图像xp的欧式距离,d(a,n)表示原始图像xa和图像xn的欧式距离,batch表示训练的批大小,K表示行人身份的类别个数;
所述监督训练基于标签平滑正则化的交叉熵损失函数预测每张原始图像属于某一类行人身份的概率,所述标签平滑正则化的交叉熵损失函数由如下公式表示:
其中ε∈[0,1],k表示所述用于训练的原始图像中行人身份的类别,p(k)表示所述原始图像经过预测得到的属于k类行人身份的概率。
2.根据权利要求1所述的方法,其特征在于,所述第一路网络的最终特征信息FP具体根据以下特征提取表达式给出:
FP=PGAP{BResNet(Ii;WP|WImageNet,bP|bImageNet)}
其中,Ii表示所述原始图像,PGAP表示全局平均池化,BResNet表示主干网络ResNet50,WP表示所述第一路网络的参数,WImageNet表示在ImageNet数据集上预训练的ResNet50参数,bP表示所述第一路网络的偏置,bImageNet表示在ImageNet数据集上预训练的ResNet50偏置。
3.根据权利要求1所述的方法,其特征在于,所述第二路网络的最终特征信息FR具体根据以下特征提取表达式给出:
FR=PGMP{BResNet(Ii;WR|Wpriori,bR|bpriori)}
其中,Ii表示所述原始图像,PGMP表示全局最大池化,BResNet代表主干网络ResNet50,WR表示所述第二路网络的参数,Wpriori表示利用所述前景图像训练ResNet50获得的参数,bR表示所述第二路网络的偏置,bpriori表示利用所述前景图像训练ResNet50的偏置。
4.根据权利要求1所述的方法,其特征在于,所述滤除背景利用LIP_JPPNet实现。
5.一种行人重识别的方法,其特征在于,使用了权利要求1至4中任一项所述的用于行人重识别的背景抑制方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至4中任一项所述的方法。
7.一种用于行人重识别的背景抑制系统,其特征在于,包括:
双流网络构建模块:配置用于利用两路卷积神经网络构建出一个双流网络,所述双流网络包括:第一路网络和第二路网络,其中所述第一路网络和所述第二路网络都使用ResNet50模型,且其中所述第一路网络和所述第二路网络均由相同数量的若干层残差卷积块构成;
训练图像输入模块:配置用于将待识别的原始图像滤除背景后获得前景图像,将所述原始图像作为所述第一路网络的第一层残差卷积块的输入,同时将所述前景图像作为所述第二路网络的第一层残差卷积块的输入;
背景抑制的特征训练模块:配置用于计算所述第一路网络中每一层的残差卷积块的输出与所述第二路网络中对应层的残差卷积块的输出进行通道级联后得到的级联特征信息,将所述级联特征信息作为所述第二路网络中的下一层残差卷积块的输入,同时将所述第一路网络中每一层的残差卷积块的输出作为所述第一路网络中的下一层残差卷积块的输入;
损失函数计算模块:配置用于将所述第一路网络最后一层的特征、所述第二路网络最后一层的特征以及最后一层的所述级联特征信息作为所述双流网络的输出,对所述双流网络的输出分别进行池化操作,具体包括:
再基于三元组损失函数和交叉熵损失函数的结合,对所述池化操作的输出进行监督训练,获得行人重识别模型具体包括:
选择一定数量的用于训练的原始图像,其中包含K类不同的行人身份,且每种行人身份包含K0张不同的图像;
针对每张原始图像xa,在与所述原始图像xa属于同一个行人身份的图像中选择一张相似度距离最大的图像xp作为正样本,在与所述原始图像xa属于不同行人身份的图像中选择一张相似度距离最小的图像xn作为负样本,设定预设的阈值利用以下三元组损失函数对所述双流网络的输出进行监督训练:
其中,Ltriplet为三元组损失函数,d(a,p)表示原始图像xa和图像xp的欧式距离,d(a,n)表示原始图像xa和图像xn的欧式距离,batch表示训练的批大小,K表示行人身份的类别个数;
所述监督训练基于标签平滑正则化的交叉熵损失函数预测每张原始图像属于某一类行人身份的概率,所述标签平滑正则化的交叉熵损失函数由如下公式表示:
其中ε∈[0,1],k表示所述用于训练的原始图像中行人身份的类别,p(k)表示所述原始图像经过预测得到的属于k类行人身份的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726458.5A CN113627241B (zh) | 2021-06-29 | 2021-06-29 | 一种用于行人重识别的背景抑制方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726458.5A CN113627241B (zh) | 2021-06-29 | 2021-06-29 | 一种用于行人重识别的背景抑制方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627241A CN113627241A (zh) | 2021-11-09 |
CN113627241B true CN113627241B (zh) | 2023-03-24 |
Family
ID=78378503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110726458.5A Active CN113627241B (zh) | 2021-06-29 | 2021-06-29 | 一种用于行人重识别的背景抑制方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627241B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245659A (zh) * | 2019-05-21 | 2019-09-17 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
CN110516096A (zh) * | 2018-05-22 | 2019-11-29 | 奥多比公司 | 合成感知数字图像搜索 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
US20210133483A1 (en) * | 2019-11-01 | 2021-05-06 | XNOR.ai, Inc. | Object detection based on pixel differences |
CN111027442A (zh) * | 2019-12-03 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 用于行人重识别的模型训练方法、识别方法、装置及介质 |
CN111860678B (zh) * | 2020-07-29 | 2024-02-27 | 中国矿业大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN112163498B (zh) * | 2020-09-23 | 2022-05-27 | 华中科技大学 | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 |
CN112733590A (zh) * | 2020-11-06 | 2021-04-30 | 哈尔滨理工大学 | 一种基于二阶混合注意力的行人重识别方法 |
CN112434796B (zh) * | 2020-12-09 | 2022-10-25 | 同济大学 | 一种基于局部信息学习的跨模态行人再识别方法 |
CN112801020B (zh) * | 2021-02-09 | 2022-10-14 | 福州大学 | 基于背景灰度化的行人再识别方法及系统 |
CN112991364A (zh) * | 2021-03-23 | 2021-06-18 | 浙江科技学院 | 基于卷积神经网络跨模态融合的道路场景语义分割方法 |
-
2021
- 2021-06-29 CN CN202110726458.5A patent/CN113627241B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516096A (zh) * | 2018-05-22 | 2019-11-29 | 奥多比公司 | 合成感知数字图像搜索 |
CN110245659A (zh) * | 2019-05-21 | 2019-09-17 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于特征融合时序分割网络的行为识别研究;李洪均等;《计算机研究与发展》;20200115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113627241A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829433B (zh) | 人脸图像识别方法、装置、电子设备及存储介质 | |
CN108427939B (zh) | 模型生成方法和装置 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN108989882B (zh) | 用于输出视频中的音乐片段的方法和装置 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
CN108960090A (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
CN110084172B (zh) | 文字识别方法、装置和电子设备 | |
CN112668588B (zh) | 车位信息生成方法、装置、设备和计算机可读介质 | |
CN111369427A (zh) | 图像处理方法、装置、可读介质和电子设备 | |
WO2023273628A1 (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN116932919B (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN108170751B (zh) | 用于处理图像的方法和装置 | |
CN115953643A (zh) | 基于知识蒸馏的模型训练方法、装置及电子设备 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
US20220207861A1 (en) | Methods, devices, and computer readable storage media for image processing | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN113610034B (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
CN113223011A (zh) | 基于引导网络和全连接条件随机场的小样本图像分割方法 | |
CN114723652A (zh) | 细胞密度确定方法、装置、电子设备及存储介质 | |
CN113627241B (zh) | 一种用于行人重识别的背景抑制方法与系统 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN114842411A (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |