CN115471875B - 一种多码率的行人识别视觉特征编码压缩方法和装置 - Google Patents

一种多码率的行人识别视觉特征编码压缩方法和装置 Download PDF

Info

Publication number
CN115471875B
CN115471875B CN202211341654.1A CN202211341654A CN115471875B CN 115471875 B CN115471875 B CN 115471875B CN 202211341654 A CN202211341654 A CN 202211341654A CN 115471875 B CN115471875 B CN 115471875B
Authority
CN
China
Prior art keywords
pedestrian
neural network
feature
vector
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211341654.1A
Other languages
English (en)
Other versions
CN115471875A (zh
Inventor
程乐超
郭恒康
宋杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211341654.1A priority Critical patent/CN115471875B/zh
Publication of CN115471875A publication Critical patent/CN115471875A/zh
Application granted granted Critical
Publication of CN115471875B publication Critical patent/CN115471875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种多码率的行人识别视觉特征编码压缩方法和装置,所述方法包括下列步骤:1)行人视觉特征提取;2)行人视觉特征压缩编码;3)视觉特征编码解压重建;4)行人重识别。通过在智能安保系统的终端设备部署步骤1)、2),在智能安保服务的中心设备部署步骤3)、4),同时利用网络作为传输媒介从终端设备传输特定码率的内容到服务的中心设备,可以实现智能安保系统中的行人重识别任务,提高安保工作的效率,提高识别精度,减少人工需求。

Description

一种多码率的行人识别视觉特征编码压缩方法和装置
技术领域
本发明涉及行人重识别领域,特别涉及一种多码率的行人识别视觉特征编码压缩方法和装置。
背景技术
随着计算机视觉技术的不断发展,图像检索领域重要子问题之一的行人重识别越来越受到重视。现阶段的行人重识别主要是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在给定一个监控行人图像的情况下,能够跨设备实现摄像头多角度无死角的监控追踪,即与行人检测/行人跟踪技术相结合可以更广泛应用于智能安保等领域。与传统安保技术相比,搭载行人重识别的智能安保技术具有效率高、更稳健、人工需求低、识别精度高等特点。随着产业的升级换代,一系列的智能安保技术将逐步替代传统安保技术。行人重识别技术需要适应不同摄像设备,同时还需要考虑到行人本身兼具刚性和柔性的特性,外观容易受穿着、尺度、遮挡、姿态和视角的影响等。针对于智能安保技术的行人重识别方法主要过程包括:行人视觉特征提取;行人视觉特征压缩编码;视觉特征编码解压重建;行人重识别。
在视觉特征提取方面,现有的行人重识别有部分学者采用基于表征学习的方法。将行人重识别任务看作是分类问题或者验证问题,利用卷积神经网络可以从原始图像中根据任务需求自动提取出表征特征这一特性,可以将原问题看作是利用行人的属性等作为训练标签的分类模型。该类方法通常利用分类子网络对图片进行ID预测,根据预测的ID计算分类误差损失。对以上网络通过足够的数据训练,再利用网络提取测试图片的特征,进行重识别任务。然而,不同终端设备摄像参数的差异使得光靠行人的ID和属性并不足以训练出一个泛化能力足够强的模型。因此需要通过添加比较复杂的额外标注信息才能提高鲁棒性。
在压缩重建方面,由于一个智能安保系统需要大量终端设备在本地网络或者互联网络上同时工作,这也就意味着需要保持这些设备快速有效的传输。传统的安保设备在联网情况下会选择将实时捕捉的画面逐帧传送至服务中心设备,然后再进行重识别任务。这样的做法有两个缺点,一是占据大量带宽资源,需要保证终端设备与服务中心设备的网络低延迟、高速度才能保证重识别任务完成;二是大量计算集中在服务的中心设备上,负载量大。
发明内容
本发明的目的在于提供一种多码率的行人识别视觉特征编码压缩方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种多码率的行人识别视觉特征编码压缩方法,具体包括以下步骤:
S1、获取数据集;所述数据集包括训练集和测试集;所述训练集包括具有行人的图片和对应的行人编号;所述测试集包括具有行人的图片;将数据集送入端到端神经网路;
S2、端到端神经网络对数据集中的图片进行数据增强处理,再将数据增强处理后的图片经过卷积神经网络,得到1024维向量;
S3、将1024维向量进行编码压缩,将其分别输入预先设定中间输出编码为32/64/128维的3种自编码器中;分别得到32/64/128维的3种编码向量并进行设备间的传输;
S4、对接收到32/64/128维的编码向量送入到自编码器的解码器中,重构出1024维向量的行人特征向量数据;
S5、对步骤S4中重构出的1024维向量的行人特征向量数据进行归一化处理得到特征向量;
S6、对于训练集,采用三元组损失函数和中心损失函数作为损失函数,根据S4得到1024维向量的行人特征向量数据和S5得到的特征向量,训练端到端神经网络;
S7、对于测试集,结合端到端神经网络,进行余弦相似度的计算,得到的余弦相似度最高的k个即视为同一行人。
作为优选,步骤S2中对数据集中的图片进行数据增强处理具体方式包括光照增广、随机擦除、随机裁剪、随机翻转中的一种或多种;
作为优选,步骤S2中将数据增强处理后的图片经过卷积神经网络,得到1024维向量的具体操作如下:
S21、先通过卷积神经网络中的卷积层保留图片的特征;
S22、再通过卷积神经网络中的卷积层池化层进行数据降维;
S23、最后通过全连接层将图片特征映射成1024维的向量。
作为优选,步骤S3中还包括如下操作:将32/64/128维的编码向量转换成半浮点数类型并以64/128/256字节的二进制编码进行设备间的传输;步骤S4还包括如下操作:将64/128/256字节的二进制编码转换成32/64/128维的编码向量。
作为优选,所述步骤S6具体包括如下步骤:
S61、将训练集中某位行人的一个特征向量记为锚示例;将该行人的另一个特征向量记为正样本;将另一行人的一个特征向量记为负样本;计算正样本与锚示例之间的距离以及负样本与锚示例之间的距离的差,即为三元组损失函数的结果;
S62、将训练集中某位行人的特征向量进行平均值计算得到该行人的聚类中心;计算该行人的特征向量与该行人聚类中心的欧式距离的平均值,即为中心损失函数的结果。
作为优选,所述步骤S7具体包括如下步骤:
S71、对于测试集,结合端到端神经网络,获取测试集中所有图片对应的特征向量,形成行人检索库;
S72、针对某一需要检索的行人,在通过端到端神经网络后,进行余弦相似度的计算,即计算得到的特征向量与行人检索库中的特征向量的向量夹角余弦值,得到的余弦相似度最高的k个即视为同一行人。
本申请还公开了一种多码率的行人识别视觉特征编码压缩装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的一种多码率的行人识别视觉特征编码压缩方法。
本申请还公开了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种多码率的行人识别视觉特征编码压缩装置。
本发明的有益效果:
本发明一种多码率的行人识别视觉特征编码压缩方法和装置,利用该方法将行人视觉特征提取并且压缩成的低码率的编码进行网络传输,可以实现高效降低智能安保任务中终端设备到服务的中心设备数据传输的带宽消耗,减少服务的中心设备的计算量
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1是本发明方法的流程图;
图2是本发明方法训练的模型图;
图3是本发明方法的整体工作过程的模型图;
图4是本发明一种多码率的行人识别视觉特征编码压缩装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明一种多码率的行人识别视觉特征编码压缩方法,具体包括以下步骤:
S1、获取数据集;所述数据集包括训练集和测试集;所述训练集包括具有行人的图片和对应的行人编号;所述测试集包括具有行人的图片;将数据集送入端到端神经网路;
S2、端到端神经网络对数据集中的图片进行数据增强处理,再将数据增强处理后的图片经过卷积神经网络,得到1024维向量;
S3、将1024维向量进行编码压缩,将其分别输入预先设定中间输出编码为32/64/128维的3种自编码器中;分别得到32/64/128维的3种编码向量并进行设备间的传输;
S4、对接收到32/64/128维的编码向量送入到自编码器的解码器中,重构出1024维向量的行人特征向量数据;
S5、对步骤S4中重构出的1024维向量的行人特征向量数据进行归一化处理得到特征向量;
S6、对于训练集,采用三元组损失函数和中心损失函数作为损失函数,根据S4得到1024维向量的行人特征向量数据和S5得到的特征向量,训练端到端神经网络;
S7、对于测试集,结合端到端神经网络,进行余弦相似度的计算,得到的余弦相似度最高的k个即视为同一行人。
在一种可行的实施例中,步骤S2中对数据集中的图片进行数据增强处理具体方式包括光照增广、随机擦除、随机裁剪、随机翻转中的一种或多种;
在一种可行的实施例中,步骤S2中将数据增强处理后的图片经过卷积神经网络,得到1024维向量的具体操作如下:
S21、先通过卷积神经网络中的卷积层保留图片的特征;
S22、再通过卷积神经网络中的卷积层池化层进行数据降维;
S23、最后通过全连接层将图片特征映射成1024维的向量。
在一种可行的实施例中,步骤S3中还包括如下操作:将32/64/128维的编码向量转换成半浮点数类型并以64/128/256字节的二进制编码进行设备间的传输;步骤S4还包括如下操作:将64/128/256字节的二进制编码转换成32/64/128维的编码向量。
在一种可行的实施例中,所述步骤S6具体包括如下步骤:
S61、通过三元组损失函数计算出三元组损失值,目的是让S2、S3、S4、S5组成的端到端神经网络学习到用一个数值向量表示一个行人的方法。在训练时,针对某位行人的一个特征向量,记为锚示例,需在训练集产生的特征向量中选择出一张该行人的另一个特征向量,记为正样本;以及另一个行人的一个特征向量,记为负样本。三元组损失值即为正样本与锚示例之间的距离和负样本与锚示例之间的距离的差,通过添加三元组损失可以使得同一个人S5产生的特征向量在空间里是相近的。
S62、通过中心损失函数计算出中心损失值,目的是弥补三元组损失只考虑相对距离的缺陷,增强正样本之间的聚类性能。在训练时,对某一个行人经S5产生的特征向量进行平均值计算得到该行人的聚类中心。中心值损失即为该行人经过S5产生的特征向量与该行人聚类中心的欧式距离的平均值,通过添加中心损失可以使得同一个人S5 产生的特征向量在空间里是聚拢的。
在一种可行的实施例中,所述步骤S7具体包括如下步骤:
S71、对于测试集,结合端到端神经网络,获取测试集中所有图片对应的特征向量,形成行人检索库;
S72、针对某一需要检索的行人,在通过端到端神经网络后,进行余弦相似度的计算,即计算得到的特征向量与行人检索库中的特征向量的向量夹角余弦值,得到的余弦相似度最高的k个即视为同一行人。
实施例:
参阅图1,本发明一种多码率的行人识别视觉特征编码压缩方法,具体操作如下:
(1)行人视觉特征提取
深度学习可以利用无监督或半监督的特征学习和分层特征提取高效算法来代替手工获取特征,即可以通过卷积神经网络进行行人的视觉特征提取。通过使用EfficientNet 卷积神经网络,并且加载在ImageNet 上预训练后的权重进行行人视觉特征提取。在网络训练阶段,需要先对训练集数据进行数据增强。将训练集中从安保设备获取的图片进行光照增广、随机擦除、随机裁剪、随机翻转等数据增强操作。同时考虑到智能安保系统中存在多个终端设备且设备的相机参数存在差异,需要通过颜色混淆弱化该差异。然后将训练集中的图片先后通过卷积神经网络中的卷积层来保留图片的特征、池化层进行数据降维、全连接层将图片特征映射成1024维的向量,最终达到从安保设备获取的图片中提取1024维的行人视觉特征向量的目的。
(2)行人视觉特征压缩编码
自编码器是一种无监督的神经网络模型,它可以通过学习输入的数据(1024维行人视觉特征向量)的隐含特征并输出压缩为特定维度的编码,这一部分称为编码,同时用学习到的新特征将编码解压重构出原始输入数据,这称为解码。预先设定3种中间输出的编码维度为32/64/128维的自编码器,并且将自编码器拆分成执行编码的编码器(Encoder)和执行解码的解码器(Decoder),拆分的目的是为了在推理阶段将编码器和解码器部署在不同设备上,即编码压缩和解压操作可以在不同的设备上完成,使得不同设备间只需要传输32/64/128维的编码,即64/128/256字节的二进制码,大大降低传输带宽消耗。
针对行人视觉特征压缩编码,在网络训练阶段,需要对步骤(1)提取出来的1024维的行人视觉特征进行编码压缩,将其分别输入预先设定中间输出编码为32/64/128维的3种自编码器中,即通过自编码器的编码器获得32/64/128维的3种编码。在推理阶段,需要将32/64/128维的编码转换成低精度的半浮点数类型(float2)并以64/128/256字节的二进制码进行设备间的传输(网络训练阶段可省去类型转换这一步骤)。
(3)视觉特征编码压缩重建
针对视觉特征编码解压重建,需要对接收到的64/128/256字节的二进制编码转换成32/64/128维的编码向量(网络训练阶段可省去类型转换这一步骤),将32/64/128维的编码向量送入自编码器的解码器,用学习到的新特征将编码重构出较原始输入损失最小的1024维的行人特征向量数据。
(4)行人重识别
在行人重识别阶段,首先需要对视觉特征编码解压重建出的1024维的行人特征向量数据(记为特征向量
Figure DEST_PATH_IMAGE001
)进行归一化操作,使得每个特征向量在整个批次中是标准正态分布的。需要计算出同一批次训练的时特征向量
Figure 916531DEST_PATH_IMAGE001
的均值
Figure 568092DEST_PATH_IMAGE002
方差
Figure DEST_PATH_IMAGE003
,然后通过计算
Figure 89376DEST_PATH_IMAGE004
对特征向量
Figure 563214DEST_PATH_IMAGE001
归一化操作得到特征向量
Figure DEST_PATH_IMAGE005
,通过归一化可以提高网络训练时候的速度和稳定性。在推理阶段,需要将图片中行人所提取出的归一化后的特征向量
Figure 705482DEST_PATH_IMAGE005
与其他行人的图片经过相同方式进行提取出的归一化的特征形成的检索库进行余弦相似度的计算,得到的余弦相似度最高的k个即视为同一行人。
对于行人重识别神经网络训练,参阅图2,由于行人重识别任务存在行人图像分辨率低、监控环境变化和行人部位受遮挡的问题,所以在训练时需要采用三元组损失(Triplet Loss)和中心损失(Center Loss)作为损失函数。对于三元组损失,设三元组损失函数
Figure 183737DEST_PATH_IMAGE006
,其中其中
Figure DEST_PATH_IMAGE007
表示经过归一化处理后的不同行人的特征向量b之间的距离,图片
Figure 683726DEST_PATH_IMAGE001
跟图片
Figure 85888DEST_PATH_IMAGE008
为训练集中同一行人,图片
Figure 98975DEST_PATH_IMAGE001
和图片
Figure DEST_PATH_IMAGE009
为训练集中的不同行人,
Figure 154656DEST_PATH_IMAGE001
为常数。三元组损失有一个缺陷是只考虑了相对距离,其大小与正样本对之间的绝对距离无关,为了增加正样本之间的聚类性能需要添加中心损失函数。添加的中心损失函数为
Figure 377827DEST_PATH_IMAGE010
,其中
Figure DEST_PATH_IMAGE011
表示第
Figure 754319DEST_PATH_IMAGE012
张图片所包含的行人,
Figure DEST_PATH_IMAGE013
表示训练集中第
Figure 356333DEST_PATH_IMAGE014
个行人提取出的特征向量
Figure 848494DEST_PATH_IMAGE005
计算出来的中心,
Figure DEST_PATH_IMAGE015
表示第
Figure 401704DEST_PATH_IMAGE012
张图片中提取的归一化后的特征向量
Figure 411248DEST_PATH_IMAGE005
;按2000:1的比例将三元组损失和中心损失添加至损失函数,通过利用损失函数进行反向传播,对神经网络中的一些参数做调整,更好地进行行人重识别的神经网络训练。
网络训练完成后,在推理阶段,参阅图3,需要将步骤1)、2)涉及到的推理计算部署到终端设备上,将步骤3)、4)涉及到的推理计算部署到服务中心设备上,步骤3)到4)之间需要传输的64/128/256字节的编码则使用局域网或者互联网作为传输媒介。
通过上述步骤,可以大幅降低智能安保系统中终端设备传输图像信息到服务中心设备(即步骤3)到4)之间所传输的信息)所占用的带宽资源;将提取行人特征和自编码器压缩放在终端设备进行,可以利用终端设备的算力同时减少服务中心设备的运算量,将该方法合理运用于安保系统中可以提高安保工作的效率,减少人工需求,提高识别精度。
本发明一种多码率的行人识别视觉特征编码压缩装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种多码率的行人识别视觉特征编码压缩装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种多码率的行人识别视觉特征编码压缩装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种多码率的行人识别视觉特征编码压缩方法,其特征在于:所述方法具体包括以下步骤:
S1、获取数据集;所述数据集包括训练集和测试集;所述训练集包括具有行人的图片和对应的行人编号;所述测试集包括具有行人的图片;将数据集送入端到端神经网路;
S2、端到端神经网络对数据集中的图片进行数据增强处理,再将数据增强处理后的图片经过卷积神经网络,得到1024维向量;
S3、将1024维向量进行编码压缩,将其分别输入预先设定中间输出编码为32/64/128维的3种自编码器中;分别得到32/64/128维的3种编码向量并进行设备间的传输;
S4、对接收到32/64/128维的编码向量送入到自编码器的解码器中,重构出1024维向量的行人特征向量数据;
S5、对步骤S4中重构出的1024维向量的行人特征向量数据进行归一化处理得到特征向量;
S6、对于训练集,采用三元组损失函数和中心损失函数作为损失函数,根据S4得到1024维向量的行人特征向量数据和S5得到的归一化后的特征向量,训练端到端神经网络;所述步骤S6具体包括如下步骤:
S61、将训练集中某位行人的一个特征向量记为锚示例;将该行人的另一个特征向量记为正样本;将另一行人的一个特征向量记为负样本;计算正样本与锚示例之间的距离以及负样本与锚示例之间的距离的差,即为三元组损失函数的结果;
S62、将训练集中某位行人的特征向量进行平均值计算得到该行人的聚类中心;计算该行人的特征向量与该行人聚类中心的欧式距离的平均值,即为中心损失函数的结果;
S7、对于测试集,结合端到端神经网络,进行余弦相似度的计算,得到的余弦相似度最高的k个即视为同一行人。
2.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法,其特征在于:步骤S2中对数据集中的图片进行数据增强处理具体方式包括光照增广、随机擦除、随机裁剪、随机翻转中的一种或多种。
3.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法,其特征在于,步骤S2中将数据增强处理后的图片经过卷积神经网络,得到1024维向量的具体操作如下:
S21、先通过卷积神经网络中的卷积层保留图片的特征;
S22、再通过卷积神经网络中的卷积层池化层进行数据降维;
S23、最后通过全连接层将图片特征映射成1024维的向量。
4.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法,其特征在于:步骤S3中还包括如下操作:将32/64/128维的编码向量转换成半浮点数类型并以64/128/256字节的二进制编码进行设备间的传输;步骤S4还包括如下操作:将64/128/256字节的二进制编码转换成32/64/128维的编码向量。
5.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法,其特征在于:所述步骤S7具体包括如下步骤:
S71、对于测试集,结合端到端神经网络,获取测试集中所有图片对应的特征向量,形成行人检索库;
S72、针对某一需要检索的行人,在通过端到端神经网络后,进行余弦相似度的计算,即计算得到的特征向量与行人检索库中的特征向量的向量夹角余弦值,得到的余弦相似度最高的k个即视为同一行人。
6.一种多码率的行人识别视觉特征编码压缩装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-5任一项所述的一种多码率的行人识别视觉特征编码压缩方法。
7.一种计算机可读存储介质,其特征在于:其上存储有程序,该程序被处理器执行时,实现权利要求1-5任一项所述的一种多码率的行人识别视觉特征编码压缩方法。
CN202211341654.1A 2022-10-31 2022-10-31 一种多码率的行人识别视觉特征编码压缩方法和装置 Active CN115471875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211341654.1A CN115471875B (zh) 2022-10-31 2022-10-31 一种多码率的行人识别视觉特征编码压缩方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211341654.1A CN115471875B (zh) 2022-10-31 2022-10-31 一种多码率的行人识别视觉特征编码压缩方法和装置

Publications (2)

Publication Number Publication Date
CN115471875A CN115471875A (zh) 2022-12-13
CN115471875B true CN115471875B (zh) 2023-03-03

Family

ID=84337244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211341654.1A Active CN115471875B (zh) 2022-10-31 2022-10-31 一种多码率的行人识别视觉特征编码压缩方法和装置

Country Status (1)

Country Link
CN (1) CN115471875B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502964A (zh) * 2019-05-21 2019-11-26 杭州电子科技大学 一种无监督数据驱动的行人重识别方法
CN112307995A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于特征解耦学习的半监督行人重识别方法
CN113536946A (zh) * 2021-06-21 2021-10-22 清华大学 一种基于摄像头关系的自监督行人重识别方法
CN113936302A (zh) * 2021-11-03 2022-01-14 厦门市美亚柏科信息股份有限公司 行人重识别模型的训练方法、装置、计算设备及存储介质
WO2022213717A1 (zh) * 2021-04-07 2022-10-13 北京百度网讯科技有限公司 模型训练方法、行人再识别方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949608B (zh) * 2021-04-15 2022-08-02 南京邮电大学 基于孪生语义自编码器和分支融合的行人重识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502964A (zh) * 2019-05-21 2019-11-26 杭州电子科技大学 一种无监督数据驱动的行人重识别方法
CN112307995A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于特征解耦学习的半监督行人重识别方法
WO2022213717A1 (zh) * 2021-04-07 2022-10-13 北京百度网讯科技有限公司 模型训练方法、行人再识别方法、装置和电子设备
CN113536946A (zh) * 2021-06-21 2021-10-22 清华大学 一种基于摄像头关系的自监督行人重识别方法
CN113936302A (zh) * 2021-11-03 2022-01-14 厦门市美亚柏科信息股份有限公司 行人重识别模型的训练方法、装置、计算设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Unsupervised Pre-training for Person Re-identification》;Dengpan Fu等;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20211231;第14745-14754页 *
《基于注意力机制的跨分辨率行人重识别》;廖华年等;《北京航空航天大学学报》;20210331;第47卷(第3期);第605-612页 *

Also Published As

Publication number Publication date
CN115471875A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
US10390040B2 (en) Method, apparatus, and system for deep feature coding and decoding
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN112487812B (zh) 一种基于边界识别的嵌套实体识别方法及系统
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN116912257B (zh) 基于深度学习的混凝土路面裂缝识别方法及存储介质
CN112150497B (zh) 基于二值神经网络的局部激活方法与系统
CN111898638B (zh) 融合不同视觉任务的图像处理方法、电子设备及介质
CN117058595B (zh) 视频语义特征和可扩展粒度感知时序动作检测方法及装置
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN113936243A (zh) 一种离散表征的视频行为识别系统及方法
CN115130571A (zh) 特征编码及解码方法、装置、电子设备及存储介质
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN113298892A (zh) 一种图像编码方法和设备,及存储介质
CN115471875B (zh) 一种多码率的行人识别视觉特征编码压缩方法和装置
CN116701697A (zh) 题目搜索方法、装置、设备及存储介质
CN116012662A (zh) 特征编解码方法、编解码器的训练方法、设备和介质
CN112784838A (zh) 一种基于局部敏感哈希网络的汉明ocr识别方法
García-González et al. Background modeling for video sequences by stacked denoising autoencoders
CN116778376B (zh) 内容安全检测模型训练方法、检测方法和装置
CN116721315B (zh) 活体检测模型的训练方法、装置、介质及电子设备
CN116311106B (zh) 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN114005043B (zh) 基于域转换和伪标签的小样本城市遥感影像信息提取方法
CN117459727B (zh) 一种图像处理方法、装置、系统、电子设备及存储介质
CN116629315B (zh) 感知模型的训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant