CN115471875B

CN115471875B - 一种多码率的行人识别视觉特征编码压缩方法和装置

Info

Publication number: CN115471875B
Application number: CN202211341654.1A
Authority: CN
Inventors: 程乐超; 郭恒康; 宋杰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-03-03
Anticipated expiration: 2042-10-31
Also published as: CN115471875A

Abstract

本发明一种多码率的行人识别视觉特征编码压缩方法和装置，所述方法包括下列步骤：1）行人视觉特征提取；2）行人视觉特征压缩编码；3）视觉特征编码解压重建；4）行人重识别。通过在智能安保系统的终端设备部署步骤1）、2），在智能安保服务的中心设备部署步骤3）、4），同时利用网络作为传输媒介从终端设备传输特定码率的内容到服务的中心设备，可以实现智能安保系统中的行人重识别任务，提高安保工作的效率，提高识别精度，减少人工需求。

Description

一种多码率的行人识别视觉特征编码压缩方法和装置

技术领域

本发明涉及行人重识别领域，特别涉及一种多码率的行人识别视觉特征编码压缩方法和装置。

背景技术

随着计算机视觉技术的不断发展，图像检索领域重要子问题之一的行人重识别越来越受到重视。现阶段的行人重识别主要是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在给定一个监控行人图像的情况下，能够跨设备实现摄像头多角度无死角的监控追踪，即与行人检测/行人跟踪技术相结合可以更广泛应用于智能安保等领域。与传统安保技术相比，搭载行人重识别的智能安保技术具有效率高、更稳健、人工需求低、识别精度高等特点。随着产业的升级换代，一系列的智能安保技术将逐步替代传统安保技术。行人重识别技术需要适应不同摄像设备，同时还需要考虑到行人本身兼具刚性和柔性的特性，外观容易受穿着、尺度、遮挡、姿态和视角的影响等。针对于智能安保技术的行人重识别方法主要过程包括：行人视觉特征提取；行人视觉特征压缩编码；视觉特征编码解压重建；行人重识别。

在视觉特征提取方面，现有的行人重识别有部分学者采用基于表征学习的方法。将行人重识别任务看作是分类问题或者验证问题，利用卷积神经网络可以从原始图像中根据任务需求自动提取出表征特征这一特性，可以将原问题看作是利用行人的属性等作为训练标签的分类模型。该类方法通常利用分类子网络对图片进行ID预测，根据预测的ID计算分类误差损失。对以上网络通过足够的数据训练，再利用网络提取测试图片的特征，进行重识别任务。然而，不同终端设备摄像参数的差异使得光靠行人的ID和属性并不足以训练出一个泛化能力足够强的模型。因此需要通过添加比较复杂的额外标注信息才能提高鲁棒性。

在压缩重建方面，由于一个智能安保系统需要大量终端设备在本地网络或者互联网络上同时工作，这也就意味着需要保持这些设备快速有效的传输。传统的安保设备在联网情况下会选择将实时捕捉的画面逐帧传送至服务中心设备，然后再进行重识别任务。这样的做法有两个缺点，一是占据大量带宽资源，需要保证终端设备与服务中心设备的网络低延迟、高速度才能保证重识别任务完成；二是大量计算集中在服务的中心设备上，负载量大。

发明内容

本发明的目的在于提供一种多码率的行人识别视觉特征编码压缩方法和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本申请公开了一种多码率的行人识别视觉特征编码压缩方法，具体包括以下步骤：

S1、获取数据集；所述数据集包括训练集和测试集；所述训练集包括具有行人的图片和对应的行人编号；所述测试集包括具有行人的图片；将数据集送入端到端神经网路；

S2、端到端神经网络对数据集中的图片进行数据增强处理，再将数据增强处理后的图片经过卷积神经网络，得到1024维向量；

S3、将1024维向量进行编码压缩，将其分别输入预先设定中间输出编码为32/64/128维的3种自编码器中；分别得到32/64/128维的3种编码向量并进行设备间的传输；

S4、对接收到32/64/128维的编码向量送入到自编码器的解码器中，重构出1024维向量的行人特征向量数据；

S5、对步骤S4中重构出的1024维向量的行人特征向量数据进行归一化处理得到特征向量；

S6、对于训练集，采用三元组损失函数和中心损失函数作为损失函数，根据S4得到1024维向量的行人特征向量数据和S5得到的特征向量，训练端到端神经网络；

S7、对于测试集，结合端到端神经网络，进行余弦相似度的计算，得到的余弦相似度最高的k个即视为同一行人。

作为优选，步骤S2中对数据集中的图片进行数据增强处理具体方式包括光照增广、随机擦除、随机裁剪、随机翻转中的一种或多种；

作为优选，步骤S2中将数据增强处理后的图片经过卷积神经网络，得到1024维向量的具体操作如下：

S21、先通过卷积神经网络中的卷积层保留图片的特征；

S22、再通过卷积神经网络中的卷积层池化层进行数据降维；

S23、最后通过全连接层将图片特征映射成1024维的向量。

作为优选，步骤S3中还包括如下操作：将32/64/128维的编码向量转换成半浮点数类型并以64/128/256字节的二进制编码进行设备间的传输；步骤S4还包括如下操作：将64/128/256字节的二进制编码转换成32/64/128维的编码向量。

作为优选，所述步骤S6具体包括如下步骤：

S61、将训练集中某位行人的一个特征向量记为锚示例；将该行人的另一个特征向量记为正样本；将另一行人的一个特征向量记为负样本；计算正样本与锚示例之间的距离以及负样本与锚示例之间的距离的差，即为三元组损失函数的结果；

S62、将训练集中某位行人的特征向量进行平均值计算得到该行人的聚类中心；计算该行人的特征向量与该行人聚类中心的欧式距离的平均值，即为中心损失函数的结果。

作为优选，所述步骤S7具体包括如下步骤：

S71、对于测试集，结合端到端神经网络，获取测试集中所有图片对应的特征向量，形成行人检索库；

S72、针对某一需要检索的行人，在通过端到端神经网络后，进行余弦相似度的计算，即计算得到的特征向量与行人检索库中的特征向量的向量夹角余弦值，得到的余弦相似度最高的k个即视为同一行人。

本申请还公开了一种多码率的行人识别视觉特征编码压缩装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述的一种多码率的行人识别视觉特征编码压缩方法。

本申请还公开了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种多码率的行人识别视觉特征编码压缩装置。

本发明的有益效果：

本发明一种多码率的行人识别视觉特征编码压缩方法和装置，利用该方法将行人视觉特征提取并且压缩成的低码率的编码进行网络传输，可以实现高效降低智能安保任务中终端设备到服务的中心设备数据传输的带宽消耗，减少服务的中心设备的计算量

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1是本发明方法的流程图；

图2是本发明方法训练的模型图；

图3是本发明方法的整体工作过程的模型图；

图4是本发明一种多码率的行人识别视觉特征编码压缩装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明一种多码率的行人识别视觉特征编码压缩方法，具体包括以下步骤：

在一种可行的实施例中，步骤S2中对数据集中的图片进行数据增强处理具体方式包括光照增广、随机擦除、随机裁剪、随机翻转中的一种或多种；

在一种可行的实施例中，步骤S2中将数据增强处理后的图片经过卷积神经网络，得到1024维向量的具体操作如下：

S21、先通过卷积神经网络中的卷积层保留图片的特征；

S22、再通过卷积神经网络中的卷积层池化层进行数据降维；

S23、最后通过全连接层将图片特征映射成1024维的向量。

在一种可行的实施例中，步骤S3中还包括如下操作：将32/64/128维的编码向量转换成半浮点数类型并以64/128/256字节的二进制编码进行设备间的传输；步骤S4还包括如下操作：将64/128/256字节的二进制编码转换成32/64/128维的编码向量。

在一种可行的实施例中，所述步骤S6具体包括如下步骤：

S61、通过三元组损失函数计算出三元组损失值，目的是让S2、S3、S4、S5组成的端到端神经网络学习到用一个数值向量表示一个行人的方法。在训练时，针对某位行人的一个特征向量，记为锚示例，需在训练集产生的特征向量中选择出一张该行人的另一个特征向量，记为正样本；以及另一个行人的一个特征向量，记为负样本。三元组损失值即为正样本与锚示例之间的距离和负样本与锚示例之间的距离的差，通过添加三元组损失可以使得同一个人S5产生的特征向量在空间里是相近的。

S62、通过中心损失函数计算出中心损失值，目的是弥补三元组损失只考虑相对距离的缺陷，增强正样本之间的聚类性能。在训练时，对某一个行人经S5产生的特征向量进行平均值计算得到该行人的聚类中心。中心值损失即为该行人经过S5产生的特征向量与该行人聚类中心的欧式距离的平均值，通过添加中心损失可以使得同一个人S5 产生的特征向量在空间里是聚拢的。

在一种可行的实施例中，所述步骤S7具体包括如下步骤：

实施例：

参阅图1，本发明一种多码率的行人识别视觉特征编码压缩方法，具体操作如下：

（1）行人视觉特征提取

深度学习可以利用无监督或半监督的特征学习和分层特征提取高效算法来代替手工获取特征，即可以通过卷积神经网络进行行人的视觉特征提取。通过使用EfficientNet 卷积神经网络，并且加载在ImageNet 上预训练后的权重进行行人视觉特征提取。在网络训练阶段，需要先对训练集数据进行数据增强。将训练集中从安保设备获取的图片进行光照增广、随机擦除、随机裁剪、随机翻转等数据增强操作。同时考虑到智能安保系统中存在多个终端设备且设备的相机参数存在差异，需要通过颜色混淆弱化该差异。然后将训练集中的图片先后通过卷积神经网络中的卷积层来保留图片的特征、池化层进行数据降维、全连接层将图片特征映射成1024维的向量，最终达到从安保设备获取的图片中提取1024维的行人视觉特征向量的目的。

（2）行人视觉特征压缩编码

自编码器是一种无监督的神经网络模型，它可以通过学习输入的数据（1024维行人视觉特征向量）的隐含特征并输出压缩为特定维度的编码，这一部分称为编码，同时用学习到的新特征将编码解压重构出原始输入数据，这称为解码。预先设定3种中间输出的编码维度为32/64/128维的自编码器，并且将自编码器拆分成执行编码的编码器（Encoder）和执行解码的解码器（Decoder），拆分的目的是为了在推理阶段将编码器和解码器部署在不同设备上，即编码压缩和解压操作可以在不同的设备上完成，使得不同设备间只需要传输32/64/128维的编码，即64/128/256字节的二进制码，大大降低传输带宽消耗。

针对行人视觉特征压缩编码，在网络训练阶段，需要对步骤（1）提取出来的1024维的行人视觉特征进行编码压缩，将其分别输入预先设定中间输出编码为32/64/128维的3种自编码器中，即通过自编码器的编码器获得32/64/128维的3种编码。在推理阶段，需要将32/64/128维的编码转换成低精度的半浮点数类型（float2）并以64/128/256字节的二进制码进行设备间的传输（网络训练阶段可省去类型转换这一步骤）。

（3）视觉特征编码压缩重建

针对视觉特征编码解压重建，需要对接收到的64/128/256字节的二进制编码转换成32/64/128维的编码向量（网络训练阶段可省去类型转换这一步骤），将32/64/128维的编码向量送入自编码器的解码器，用学习到的新特征将编码重构出较原始输入损失最小的1024维的行人特征向量数据。

（4）行人重识别

在行人重识别阶段，首先需要对视觉特征编码解压重建出的1024维的行人特征向量数据（记为特征向量

）进行归一化操作，使得每个特征向量在整个批次中是标准正态分布的。需要计算出同一批次训练的时特征向量

的均值

方差

，然后通过计算

对特征向量

归一化操作得到特征向量

，通过归一化可以提高网络训练时候的速度和稳定性。在推理阶段，需要将图片中行人所提取出的归一化后的特征向量

与其他行人的图片经过相同方式进行提取出的归一化的特征形成的检索库进行余弦相似度的计算，得到的余弦相似度最高的k个即视为同一行人。

对于行人重识别神经网络训练，参阅图2，由于行人重识别任务存在行人图像分辨率低、监控环境变化和行人部位受遮挡的问题，所以在训练时需要采用三元组损失（Triplet Loss）和中心损失（Center Loss）作为损失函数。对于三元组损失，设三元组损失函数

，其中其中

表示经过归一化处理后的不同行人的特征向量b之间的距离，图片

跟图片

为训练集中同一行人，图片

和图片

为训练集中的不同行人，

为常数。三元组损失有一个缺陷是只考虑了相对距离，其大小与正样本对之间的绝对距离无关，为了增加正样本之间的聚类性能需要添加中心损失函数。添加的中心损失函数为

,其中

表示第

张图片所包含的行人，

表示训练集中第

个行人提取出的特征向量

计算出来的中心，

表示第

张图片中提取的归一化后的特征向量

；按2000:1的比例将三元组损失和中心损失添加至损失函数，通过利用损失函数进行反向传播，对神经网络中的一些参数做调整，更好地进行行人重识别的神经网络训练。

网络训练完成后，在推理阶段，参阅图3，需要将步骤1）、2）涉及到的推理计算部署到终端设备上，将步骤3）、4）涉及到的推理计算部署到服务中心设备上，步骤3）到4）之间需要传输的64/128/256字节的编码则使用局域网或者互联网作为传输媒介。

通过上述步骤，可以大幅降低智能安保系统中终端设备传输图像信息到服务中心设备（即步骤3）到4）之间所传输的信息）所占用的带宽资源；将提取行人特征和自编码器压缩放在终端设备进行，可以利用终端设备的算力同时减少服务中心设备的运算量，将该方法合理运用于安保系统中可以提高安保工作的效率，减少人工需求，提高识别精度。

本发明一种多码率的行人识别视觉特征编码压缩装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种多码率的行人识别视觉特征编码压缩装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种多码率的行人识别视觉特征编码压缩装置。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多码率的行人识别视觉特征编码压缩方法，其特征在于：所述方法具体包括以下步骤：

S6、对于训练集，采用三元组损失函数和中心损失函数作为损失函数，根据S4得到1024维向量的行人特征向量数据和S5得到的归一化后的特征向量，训练端到端神经网络；所述步骤S6具体包括如下步骤：

S62、将训练集中某位行人的特征向量进行平均值计算得到该行人的聚类中心；计算该行人的特征向量与该行人聚类中心的欧式距离的平均值，即为中心损失函数的结果；

2.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法，其特征在于：步骤S2中对数据集中的图片进行数据增强处理具体方式包括光照增广、随机擦除、随机裁剪、随机翻转中的一种或多种。

3.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法，其特征在于，步骤S2中将数据增强处理后的图片经过卷积神经网络，得到1024维向量的具体操作如下：

S21、先通过卷积神经网络中的卷积层保留图片的特征；

S22、再通过卷积神经网络中的卷积层池化层进行数据降维；

S23、最后通过全连接层将图片特征映射成1024维的向量。

4.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法，其特征在于：步骤S3中还包括如下操作：将32/64/128维的编码向量转换成半浮点数类型并以64/128/256字节的二进制编码进行设备间的传输；步骤S4还包括如下操作：将64/128/256字节的二进制编码转换成32/64/128维的编码向量。

5.如权利要求1所述的一种多码率的行人识别视觉特征编码压缩方法，其特征在于：所述步骤S7具体包括如下步骤：

6.一种多码率的行人识别视觉特征编码压缩装置，其特征在于：包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-5任一项所述的一种多码率的行人识别视觉特征编码压缩方法。

7.一种计算机可读存储介质，其特征在于：其上存储有程序，该程序被处理器执行时,实现权利要求1-5任一项所述的一种多码率的行人识别视觉特征编码压缩方法。