CN113255630B

CN113255630B - 一种运动目标识别训练方法、运动目标识别方法及装置

Info

Publication number: CN113255630B
Application number: CN202110802833.XA
Authority: CN
Inventors: 张姜; 殷俊; 周明伟; 张兴明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-15
Anticipated expiration: 2041-07-15
Also published as: WO2023284182A1; CN113255630A

Abstract

本申请公开了一种运动目标识别训练方法、运动目标识别方法及装置，该运动目标识别训练方法包括：获得不同时间点拍摄的多张图像；获得每张所述图像中目标的第一类静态特征和第二类静态特征；将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征；将至少部分所述图像的所述融合特征进行分类训练直至整个网络收敛。通过上述方式，能够有效提高目标特征的丰富性，训练得到表征能力更强、鲁棒性更好的运动目标识别模型。

Description

一种运动目标识别训练方法、运动目标识别方法及装置

技术领域

本申请涉及计算机视觉及机器学习技术领域，特别是涉及一种运动目标识别训练方法、运动目标识别方法及装置。

背景技术

运动目标识别是指利用行人在行走过程中的抓拍图像，对图像中的行人目标进行身份识别。目前比较前沿的行人识别技术主要分为两类，分别是行人重识别（Person Re-identification）和步态识别（Gait Recognition），前者主要依靠图像提取如行人的穿着、发型、背包、雨伞等静态外部特征；而后者则是从行人连续运动过程中学习如走路姿态、手臂摆幅、晃头耸肩、运动神经敏感度等动态特征。

本申请的发明人在长期研发中发现，通过现有技术执行运动目标识别任务时，往往依赖于较为单一的特征，如静态的RGB图像或轮廓图像等，特征的鲁棒性不强，导致识别结果的准确度不高；另外，现有的一些基于特征融合的运动目标识别技术方案，如利用RGB图像的全局特征与局部特征进行融合，同样存在特征模态较为单一的问题，在牺牲大量性能的同时，并不能获得预制匹配的准确率的提升。

发明内容

本申请主要解决的技术问题是提供一种运动目标识别训练方法、运动目标识别方法及装置，能够提高运动目标识别的鲁棒性和准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种运动目标识别训练方法，包括：获得连续的多张图像；将每张所述图像依序输入双层ViT特征融合模型的内层输入端，以获得每张所述图像中目标的第一类静态特征和第二类静态特征；将每张所述图像中所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征；将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练直至整个网络收敛。

其中，所述获得每张所述图像中目标的第一类静态特征和第二类静态特征包括：获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征。

其中，所述获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征包括：将所述目标分割为若干部分，依序输入双层ViT特征融合模型的内层第一输入端，获得所述细粒度静态特征；将所述目标的轮廓分割为若干部分，依序输入所述双层ViT特征融合模型的内层第二输入端，获得所述细粒度轮廓特征。

其中，所述将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征包括：将所述细粒度静态特征和所述细粒度轮廓特征在所述双层ViT特征融合模型的内层输出端进行加权平均融合，得到所述融合特征。

其中，所述将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练包括：将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行基于归一化指数损失的分类训练，其中嵌入层的维度设置为128的正整数倍，直至整个网络收敛。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种运动目标识别方法，包括：获取待识别目标连续的多张图像；将每张所述图像依序输入双层ViT特征融合模型的内层输入端，以获取每张所述图像中所述待识别目标的第一类静态特征和第二类静态特征；将每张所述图像中的所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征；将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行融合，得到动态特征；根据所述动态特征得到识别结果。

其中，所述根据所述动态特征得到识别结果包括：逐一计算所述动态特征与运动目标底库中的所有存储特征之间的余弦相似度；对所述余弦相似度进行排序，获取其中最大余弦相似度；判断所述最大余弦相似度是否大于预设的识别阈值；若是，则获取所述最大余弦相似度对应的所述存储特征，并将所述存储特征对应的身份信息作为所述待识别目标的识别结果。

其中，所述获取待识别目标不同时间点拍摄的多张图像之前还包括：建立所述运动目标底库，所述目标运动底库用于保存所有待存储目标的所述身份信息以及所述存储特征。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种运动目标识别装置，包括相互耦接的存储器和处理器，所述存储器存储有程序指令，所述程序指令用于被所述处理器执行以实现上述任一实施例所述的运动目标识别方法。

区别于现有技术的情况，本申请的有益效果是：本申请中提供一种运动目标识别训练方法、运动目标识别方法及装置，其中运动目标识别训练方法包括：获得不同时间点拍摄的多张图像；获得每张图像中目标的第一类静态特征和第二类静态特征；将每张图像中第一类静态特征和第二类静态特征进行融合得到融合特征；将至少部分图像的融合特征进行分类训练直至整个网络收敛。通过上述方式，提取单张图像中的两类静态特征并进行拼接融合，再将连续的多个融合特征输入至训练分类器中，同时关注了运动目标的静态特征和动态特征，有效提高了目标特征的丰富性，解决了现有技术中特征模态单一的问题，使得最终训练得到的运动目标识别模型的表征能力更强、鲁棒性能更好，利用该模型进行运动目标识别时能够提高识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请运动目标识别训练方法一实施方式的流程示意图；

图2是图1中步骤S102对应一实施方式的流程示意图；

图3是本申请运动目标识别训练方法一实施方式的网络结构示意图；

图4是本申请运动目标识别方法一实施方式的流程示意图；

图5是图4中步骤S305对应一实施方式的流程示意图；

图6是图5中步骤S401之前对应一实施方式的流程示意图；

图7是本申请运动目标识别装置一实施方式的框架示意图；

图8是本申请运动目标识别装置一实施方式的结构示意图；

图9是本申请计算机可读存储介质一实施方式的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请运动目标识别训练方法一实施方式的流程示意图。具体而言，可以包括如下步骤：

S101：获得连续的多张图像。

可选地，首先获取网络训练所需要的若干运动目标在自然状态下的行走视频数据，然后利用行人检测与行人跟踪工具将视频解析成连续帧的目标RGB图像序列。再将根据人体检测框裁剪出的多张RGB图像归一化处理，得到一份标准的目标RGB图像序列。复制一份上述标准的目标RGB图像序列，并对其前后背景进行标注以获得目标轮廓图像。在本实施例中，多张RGB图像进行归一化处理时，可等比例缩放至96*64尺寸；提取目标轮廓图像时，将行人区域标注为255，背景区域标注为0。最后对同一人的RGB图像以及轮廓图像标注身份信息。至此，通过上述步骤，利用同一组模板RGB图像，获取到标准的一组RGB图像以及一组轮廓图像，且连续的RGB图像以及连续的轮廓图像共同构成连续的多张图像。

S102：获得每张图像中目标的第一类静态特征和第二类静态特征。

可选地，利用步骤S101中获取的RGB图像中的细节特征，例如穿着、发型、背包等，获取目标的第一类静态特征；利用步骤S101中获取的轮廓图像，获取目标的第二类静态特征。在本实施例中，上述步骤S102中的第一类静态特征是指每张图像中目标的细粒度静态特征，而第二类静态特征是指细粒度轮廓特征。当然在其他实施方式中，还可以提取每张图像中目标的粗粒度静态特征以及粗粒度轮廓特征分别作为第一类静态特征和第二类静态特征，同样可以实现运动目标的识别。

可选地，请参阅图2，图2是图1中步骤S102对应一实施方式的流程示意图。上述步骤S102还可以包括以下步骤：

S201：将运动目标分割为若干部分，依序输入双层ViT特征融合模型的内层第一输入端，获得细粒度静态特征。

可选地，基于ViT（Vision Transformer）的双层特征融合模型能够处理目标连续的图像序列数据，相较于传统的卷积神经网络（CNN）算法，在计算精度相当的前提下，利用ViT算法进行训练和推理时计算量更小，更加轻量化。当然，在其他实施方式中，还可以利用基于卷积神经网络算法的特征融合模型对图像进行推理计算，同样可以获得目标对应的静态特征。

在本实施例中，请参阅图3，图3是本申请运动目标识别训练方法一实施方式的网络结构示意图。首先对目标进行分块处理，可按照目标的头部、中间半身和下半身的顺序将RGB图像分割为相同大小的6个部分，再依序输入到双层ViT特征融合模型的内层第一输入端，即RGB图像输入端中，以获得目标的细粒度静态特征。

S202：将目标的轮廓以上述分割方式分割为若干部分，依序输入双层ViT特征融合模型的内层第二输入端，获得细粒度轮廓特征。

可选地，请继续参阅图3，通过与步骤S201中RGB图像相同的分割方式，将目标轮廓分割为相同大小的6个部分，再依序输入ViT特征融合模型的内层第二输入端，即轮廓图像输入端中，以获得目标的细粒度轮廓特征。

S103：将每张图像中第一类静态特征和第二类静态特征进行融合得到融合特征。

可选地，在S103中，将基于单张RGB图像和单张轮廓图像获得的第一类静态特征和第二类静态特征进行拼接融合，兼顾运动目标的静态特征和轮廓特征，有效提高目标特征的丰富性。

在本实施例中，将细粒度静态特征和细粒度轮廓特征在双层ViT特征融合模型的内层输出端进行加权平均融合，得到融合特征。例如，将细粒度静态特征的权重系数设置为0.5，此时细粒度轮廓特征的权重系数为0.5，则融合特征为0.5与细粒度静态特征的乘积以及0.5与细粒度轮廓特征的乘积之和。

S104：将至少部分图像的融合特征进行分类训练直至整个网络收敛。

在S104中，至少部分图像是指S101中获得的所有图像中的连续多帧图像，通过连续的多帧图像对应的融合特征能够表征目标行人在行走过程中的动态特征，进而提高模型的表征能力。较佳地，选取连续的5帧RGB图像和轮廓图像进行分类训练，在保证识别结果准确度的同时，又尽可能的减少运算量。

在本实施例中，请继续参阅图3，将5帧图像的融合特征依序输入双层ViT特征融合模型的外层输入端进行分类训练直至整个网络收敛。在一具体的实施场景中，利用基于归一化指数损失的分类训练，其中嵌入层的维度设置为128的正整数倍，例如128、512、1024等等，直至整个网络收敛得到达到预设条件的运动目标识别结果。

本申请实施例的运动目标识别训练方法通过提取单张RGB图像和单张轮廓图像中的细粒度静态特征和细粒度轮廓特征，充分利用两类静态特征，同时关注视频中连续帧序列蕴含的行人动态特征，解决了现有技术中特征模态单一的问题；利用双层架构的ViT特征融合模型将三者有机融合起来，使得最终训练得到的模型的表征能力更强，鲁棒性和区分力更好，利用该模型进行运动目标识别时能够提高识别结果的准确性。

请参阅图4，图4是本申请运动目标识别方法一实施方式的流程示意图。本申请所提供的运动目标识别方法包括如下步骤：

S301：获取待识别目标连续的多张图像。

可选地，首先获取待识别目标的行走视频并进行预处理，然后利用行人检测与行人跟踪工具获取目标RGB图像序列。再对RGB图像进行归一化处理，得到一份标准的目标RGB图像序列。复制一份上述标准的目标RGB图像序列，并对其前后背景进行标注以获得目标轮廓图像。

S302：获取每张图像中待识别目标的第一类静态特征和第二类静态特征。

可选地，在本实施例中，将S301中获取的RGB图像和轮廓图像进行相同方式的分割，并将其依序输入双层ViT特征融合模型的内层第一输入端，以获得细粒度静态特征以及细粒度轮廓特征。

S303：将每张图像中的第一类静态特征和第二类静态特征进行融合得到融合特征。

在本实施例中，S303与图1中的S103相类似，为简约起见，此处不再一一赘述。

S304：将至少部分图像的融合特征进行融合，得到动态特征。

可选地，将连续的多帧图像对应的融合特征输入双层ViT特征融合模型的外层输入端，融合后得到待识别目标对应的动态特征。其中嵌入层的维度设置为1024，则输出的动态特征为1024维的特征向量。

S305：根据动态特征得到识别结果。

请参阅图5，图5是图4中步骤S305对应一实施方式的流程示意图。上述步骤S305包括：

S401：逐一计算动态特征与运动目标底库中的所有存储特征之间的余弦相似度。

可选地，在本实施例中，运动目标底库中共存储有100个存储特征，则将待识别目标的动态特征与100个存储特征逐一比较，计算二者之间的余弦相似度，最终共计获得100个余弦相似度数值。

S402：对余弦相似度进行排序，获取其中最大余弦相似度。

在本实施例中，对上述100个余弦相似度数值进行排序，得到余弦相似度最大的数值。

S403：判断最大余弦相似度是否大于预设的识别阈值。

S404：若是，则获取最大余弦相似度对应的存储特征，并将存储特征对应的身份信息作为待识别目标的识别结果。

S405：若否，则结束识别。

在本实施例中，在上述步骤S401之前还包括：建立运动目标底库的过程。如图6所示，图6是图5中步骤S401之前对应一实施方式的流程示意图。建立运动目标底库的步骤包括：

S501：提供所有待存储目标在行走状态下的行走视频。

S502：对每一行走视频进行预处理，依次获取每个行走视频中连续的多张图像。

S503：将多张图像输入训练完成的双层ViT特征融合模型，获取每一待存储目标行人对应的动态特征。

S504：构建每一待存储行人与对应的动态特征之间的映射关系，并将映射关系存储至运动目标底库中。

本发明实施例的运动目标识别方法通过提取单张RGB图像和单张轮廓图像中的细粒度静态特征和细粒度轮廓特征，充分利用两类静态特征，同时关注视频中连续帧序列蕴含的行人动态特征，解决了现有技术中特征模态单一的问题；利用双层架构的ViT特征融合模型将三者有机融合起来，有效提高识别结果的准确性。

请参阅图7，图7是本申请运动目标识别装置一实施方式的框架示意图。该识别装置包括获取模块10、融合模块12和训练模块14。具体而言，获取模块10用于获得不同时间点拍摄的多张图像，还用于获得每张图像中目标的第一类静态特征和第二类静态特征。融合模块12用于将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征。训练模块14用于将至少部分所述图像的所述融合特征进行分类训练直至整个网络收敛。通过上述设计方式，提取单张图像中的两类静态特征并进行拼接融合，再将连续的多个融合特征输入至训练分类器中，有效提高目标特征的丰富性，同时关注了运动目标的静态特征和动态特征，解决了现有技术中特征模态单一的问题，使得最终训练得到的模型的表征能力更强，鲁棒性更好，利用该模型进行运动目标识别时能够提高识别结果的准确性。

请参阅图8，图8是本申请运动目标识别装置一实施方式的结构示意图。该装置20包括相互耦接的存储器100和处理器102，存储器100内存储有程序指令，处理器102用于执行程序指令以实现上述任一实施例中所提及的人脸图像的质量评价方法。

具体而言，处理器102还可以称为CPU（Central Processing Unit，中央处理单元）。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器（Digital Signal Processor, DSP）、专用集成电路（ApplicationSpecific Integrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable GateArray, FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器102可以由多个集成电路芯片共同实现。

请参阅图9，图9是本申请计算机可读存储介质一实施方式的框架示意图。该计算机可读存储介质30存储有计算机程序300，能够被计算机所读取，计算机程序300能够被处理器执行，以实现上述任一实施例中所提及的质量评价方法。其中，该计算机程序300可以以软件产品的形式存储在上述计算机可读存储介质30中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式所述方法的全部或部分步骤。具有存储功能的计算机可读存储介质30可以是U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种运动目标识别训练方法，其特征在于，包括：

获得连续的多张图像；

将每张所述图像依序输入双层ViT特征融合模型的内层输入端，以获得每张所述图像中目标的第一类静态特征和第二类静态特征；

将每张所述图像中所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征；

将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练直至整个网络收敛，同时将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的所述外层输入端进行融合，得到动态特征。

2.根据权利要求1所述的运动目标识别训练方法，其特征在于，

所述获得每张所述图像中目标的第一类静态特征和第二类静态特征包括：

获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征。

3.根据权利要求2所述的运动目标识别训练方法，其特征在于，

所述获得每张所述图像中目标的细粒度静态特征和细粒度轮廓特征包括：

将所述目标分割为若干部分，依序输入双层ViT特征融合模型的内层第一输入端，获得所述细粒度静态特征；

将所述目标的轮廓分割为若干部分，依序输入所述双层ViT特征融合模型的内层第二输入端，获得所述细粒度轮廓特征。

4.根据权利要求3所述的运动目标识别训练方法，其特征在于，

所述将每张所述图像中所述第一类静态特征和所述第二类静态特征进行融合得到融合特征包括：

将所述细粒度静态特征和所述细粒度轮廓特征在所述双层ViT特征融合模型的内层输出端进行加权平均融合，得到所述融合特征。

5.根据权利要求1所述的运动目标识别训练方法，其特征在于，

所述将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行分类训练包括：

将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行基于归一化指数损失的分类训练，直至整个网络收敛。

6.一种运动目标识别方法，其特征在于，包括：

获取待识别目标连续的多张图像；

将每张所述图像依序输入双层ViT特征融合模型的内层输入端，以获取每张所述图像中所述待识别目标的第一类静态特征和第二类静态特征；

将每张所述图像中的所述第一类静态特征和所述第二类静态特征在双层ViT特征融合模型的内层输出端进行融合得到融合特征；

将至少部分所述图像的所述融合特征依序输入所述双层ViT特征融合模型的外层输入端进行融合，得到动态特征；

根据所述动态特征得到识别结果。

7.根据权利要求6所述的运动目标识别方法，其特征在于，

所述根据所述动态特征得到识别结果包括：

逐一计算所述动态特征与运动目标底库中的所有存储特征之间的余弦相似度；

对所述余弦相似度进行排序，获取其中最大余弦相似度；

判断所述最大余弦相似度是否大于预设的识别阈值；

若是，则获取所述最大余弦相似度对应的所述存储特征，并将所述存储特征对应的身份信息作为所述待识别目标的识别结果。

8.根据权利要求7所述的运动目标识别方法，其特征在于，

所述获取待识别目标连续的多张图像之前还包括：

建立所述运动目标底库，所述运动目标底库用于保存所有待存储目标的所述身份信息以及所述存储特征。

9.一种运动目标识别装置，其特征在于，包括相互耦接的存储器和处理器，所述存储器存储有程序指令，所述程序指令用于被所述处理器执行以实现权利要求6至8任一项所述的运动目标识别方法。