CN111967442A

CN111967442A - 基于实例导向检测网络的行人搜索方法、系统、装置

Info

Publication number: CN111967442A
Application number: CN202010920874.4A
Authority: CN
Inventors: 张兆翔; 谭铁牛; 宋纯锋; 董文恺
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-11-20

Abstract

本发明属于计算机视觉、模式识别领域，具体涉及一种基于实例导向检测网络的行人搜索方法、系统、装置，旨在解决现有的行人搜索方法搜索准确率较低问题。本发明方法包括：获取输入视频中第t帧图像，作为第一图像；通过预训练的行人检测模型得到第一图像中各候选区域与第二图像的相似度并排序，排序后选取前N个候选区域作为检测区域；第二图像为预获取的待搜索行人目标的图像；基于各检测区域、第二图像，通过预训练的行人再识别模型得到行人目标的搜索结果。本发明提高了行人目标搜索的准确率。

Description

基于实例导向检测网络的行人搜索方法、系统、装置

技术领域

本发明属于计算机视觉、模式识别领域，具体涉及一种基于实例导向检测网络的行人搜索方法、系统、装置。

背景技术

行人搜索的目的是在场景图中定位与目标行人身份相同的行人。与行人再识别相比，该任务包含了行人检测部分，更加符合现实生活的需求，在安防监控、智能视频分析、人员搜救检索等领域具有广泛的应用。

目前两阶段的行人搜索方法通常将其分为行人检测和行人再识别两个子任务，在行人检测阶段，现有的检测器从场景中检测所有人作为第二阶段的候选行人。然而对于行人再识别，随着候选行人数量的增加，干扰项也会增加，这会影响行人再识别阶段的准确率，从而影响整个任务的准确率，而这些问题在之前的研究中都尚未得到很好的解决。基于此，本发明提出了一种基于实例导向检测网络的行人搜索方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的行人搜索方法搜索准确率较低的问题，本发明提出了一种基于实例导向检测网络的行人搜索方法，该方法包括：

步骤S10，获取输入视频中第t帧图像，作为第一图像；

步骤S20，通过预训练的行人检测模型得到所述第一图像中各候选区域与第二图像的相似度并排序，排序后选取前N个候选区域作为检测区域；所述第二图像为预获取的待搜索行人目标的图像；

步骤S30，基于各检测区域、所述第二图像，通过预训练的行人再识别模型得到行人目标的搜索结果；

所述行人检测模型、所述行人再识别模型基于残差网络构建；其中，构建所述行人检测模型的残差网络为双通路残差网络。

在一些优选的实施方式中，所述行人检测模型其训练方法为：

步骤A10，获取待检测行人目标的图像以及包含行人目标的场景图，作为第三图像、第四图像；

步骤A20，通过双通路残差网络的conv1层至conv4层提取所述第三图像的特征作为第一特征、所述第四图像的特征作为第二特征；

步骤A30，基于所述第一特征，通过双通路残差网络的互相关层得到相关核；对所述第二特征，通过所述相关核、双通路残差网络的区域提案网络层得到行人目标的候选区域，并计算各候选区域与所述第三图像之间的损失，作为第一损失；

步骤A40，选取设定比例的正负样本的候选区域，并将选取的候选区域在所述第四图像对应的特征，作为第三特征；基于所述第三特征，通过双通路残差网络第二通路的conv5层及全局池化层，得到第四特征；基于所述第一特征，通过双通路残差网络第一通路的conv5层、全局池化层进行池化，得到第五特征；

步骤A50，基于所述第四特征、所述第五特征，通过双通路残差网络的全连接层得到各候选区域与所述行人目标相似度的关系特征，作为第六特征；

步骤A60，基于所述第六特征，通过局部关系模块，得到加强的关系特征，作为第七特征；

步骤A70，基于所述第七特征，分别通过残差网络的回归分支、相似度分支、全局关系分支，计算损失值，作为第二损失；基于所述第一损失、所述第二损失，对所述行人检测模型进行网络参数更新；

步骤A80，循环执行步骤A10-步骤A70，直至得到训练好的行人检测模型。

在一些优选的实施方式中，步骤A40中“通过双通路残差网络的互相关层得到相关核”，其方法为：

其中，

表示卷积核，

表示外积，B表示预设的网络参数，

表示互相关层的相关核，z表示第一特征。

在一些优选的实施方式中，步骤A50中“通过双通路残差网络的全连接层得到各候选区域与所述行人目标相似度的关系特征”，其方法为：

r_i ¹＝W_f1.[W_f2.(f_i ^p-f_q)²]

其中，r_i ¹表示第i个候选区域与所述行人目标相似度的关系特征，W_f1、W_f2表示全连接层，f_i ^p表示第四特征，f_q表示第五特征。

在一些优选的实施方式中，步骤A60中“通过局部关系模块得到加强的关系特征”，其方法为：

其中，μ(f_i ^p)、v(f_i ^p)、g(f_i ^p)表示三个嵌入层，μ(f_i ^p)＝W_μf_i ^p，ν(f_i ^p)＝W_νf_i ^p，g(f_i ^p)＝W_gr_i ¹，Z表示归一化，W_r，W_μ，W_ν，W_g均为全连接层。

本发明的第二方面，提出了一种基于实例导向检测网络的行人搜索系统，该系统包括：获取模块、检测模块、识别模块；

所述获取模块，配置为获取输入视频中第t帧图像，作为第一图像；

所述检测模块，配置为通过预训练的行人检测模型得到所述第一图像中各候选区域与第二图像的相似度并排序，排序后选取前N个候选区域作为检测区域；所述第二图像为预获取的待搜索行人目标的图像；

所述识别模块，配置为基于各检测区域、所述第二图像，通过预训练的行人再识别模型得到行人目标的搜索结果；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的基于实例导向检测网络的行人搜索方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于实例导向检测网络的行人搜索方法。

本发明的有益效果：

本发明提高了行人目标搜索的准确率。本发明将待搜索的行人目标图像作为额外输入，并结合改进的互相关层将行人目标的信息融入到检测模型中，使网络模型学习场景中的行人与待搜索行人目标之间的相似度，并在检测的过程中只保留与目标相似度较高的行人，能显著减少行人再识别阶段候选行人的数目，以此来减少干扰项，提升行人再识别的准确率。

同时，本发明分别利用局部和全局关系，加强每个区域的特征，使得网络模型学习得到的相似度更加准确，提升后续行人再识别阶段的准确率，从而整体提高行人搜索的准确率。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于实例导向检测网络的行人搜索方法的流程示意图；

图2为本发明一种实施例的行人检测模型的结构示意图；

图3是本发明一种实施例的行人检测模型中互相关层的结构示意图；

图4为本发明一种实施例的基于实例导向检测网络的行人搜索系统的框架示意图；

图5为本发明一种实施例的行人检测模型中局部关系模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种基于实例导向检测网络的行人搜索方法，如图1所示，该方法包括以下步骤：

步骤S10，获取输入视频中第t帧图像，作为第一图像；

为了更清晰地对本发明基于实例导向检测网络的行人搜索方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

在下述的实施例中，先对行人检测模型、行人再识别模型的训练过程进行描述，再对通过基于实例导向检测网络的行人搜索方法获取行人目标的搜索结果进行描述。

1、行人检测模型的训练过程

在本实施例中，以某大型行人搜索数据库为例，包含18,184张场景图，96,143个行人边界框(即行人目标图像)。从数据库中选取数据，构造训练样本，每个训练样本包含一张行人目标图像，一张场景图像，其中行人图像作为待检测目标。训练样本有三种，分别为：自场景正样本，一张行人目标图像和包含行人目标的场景图像，且两张图像位于同一场景；跨场景正样本，一张行人目标图像和包含行人目标的场景图像，但两张图像不位于同一场景；负样本，一张行人目标图像和不包含行人目标的场景图像。

本发明中，利用实例导向检测网络代替传统的行人检测器来检测场景图像中的行人目标，实例导向检测网络即行人检测模型，基于双通路的残差网络构建，具体结构如图2所示，包含两个分支，第一分支简称为实例感知分支，即图2中输入为行人目标的分支，各分支的具体结构在下文描述中描述。在本发明中，残差网络优选为FasterRCNN网络。

在本实施例中，通过双通路残差网络的卷积层分别提取行人目标图像以及场景图像的特征，简称为中间特征，将行人目标图像提取的特征z作为第一特征，将场景图像提取的特征x作为第二特征。双通路残差网络的卷积层，即图2中的ResNet50 PartI部分，共包括conv1层、conv2层、conv3层及conv4层四层。

在本实施例中，将第一特征输入双通路残差网络第一通路的互相关层计算相关核，并用相关核代替一般残差网络中区域提案网络的卷积核，利用相关核对场景图像的特征进行卷积，得到每个锚点与目标的相似度以及边界框的回归值，并根据每个锚点与目标的相似度以及边界框的回归值，数据库中标注的每个锚点对应的行人身份和目标行人身份以及每个锚点对应行人边界框，计算损失L_sprn，作为第一损失。双通路残差网络第一通路的互相关层如图2中的互相关层所述，具体如图3所示，将行人目标的7×3×1024中间特征，即第一特征，通过互相关层将其转换为7×3×512×2k的特征，并将此特征作为相关核对第二特征进行卷积得到候选区域。

其中，相关核的计算方法如式(1)所示：

其中，

表示卷积核，

表示外积，B表示预设的网络参数，

表示互相关层的相关核，z表示第一特征。

在本实施例中，选取一定数目的区域的边界框(候选区域)，并根据边界框从x上截取相对应位置的特征，得到选中区域的中间特征，即图2中的7×7，作为第三特征，将选中的特征送入双通路残差网络第二通路的conv5层、全局池化层得到这些区域的全局特征f_i ^p，作为第四特征，同时将第一特征送入双通路残差网络第一通路的Conv5层、全局池化层，得到行人目标的全局特征f^q，作为第五特征。其中，图2中的ResNet50 PartII即conv5层、全局池化层。

其中，边界框的选取方法为：优选根据正负样本1:3的比例选取候选区域，正样本为候选区域包括行人目标，负样本为候选区域不包括行人目标。

在本实施例中，将步骤S40得到的每个f_i ^p首先减去f^q，然后将两种特征的差值每个维度的值平方(即图2中的Square)后输入双通路残差网络的全连接层(即图2中的FC)，计算每个候选区域和行人目标(即待搜索行人目标)相似度的关系特征，作为第六特征，具体计算过程如式(2)所示：

r_i ¹＝W_f1.[W_f2.(f_i ^p-f_q)²] (2)

在本实施例中，利用区域之间的关系来增强每个特征的判别力，即通过双通路残差网络的局部关系模块(如图5所示)，该局部关系模块包含四个全连接层、一个LN层，对步骤A50获取的第六特征利用f_i ^p之间的关系进行加强，得到加强后的关系特征r_i ²，作为第七特征。具体计算过程如式(3)所示：

其中，μ(f_i ^p)、v(f_i ^p)、

表示三个嵌入层，μ(f_i ^p)＝W_μf_i ^p，ν(f_i ^p)＝W_νf_i ^p，

Z表示归一化，W_r，W_μ，W_ν，W_g均为全连接层，

表示第j个候选区域与所述行人目标相似度的关系特征，j为自然数。

在本实施例中，将加强后的关系特征r_i ²分别送入双通路残差网络的相似度分支，回归分支，全局关系分支，并计算输出与真实值的偏差，其中，相似度分支输出各个候选区域与行人目标的相似度，监督信息为数据库中标注的各个候选区域对应的行人身份与行人目标的身份是否一致，若一致，则真实值为1，反之，为0，该分支的损失为BCE损失；回归分支输出为每个候选区域边界框的回归值，其监督信息为每个候选区域的边界框与其对应的数据库中标注的边界框之间的回归值，该分支的损失函数为smooth L1损失；全局关系分支的判断该场景是否包含待搜索行人目标，其监督信息为构建训练样本对时，场景图若包含行人目标，则真实值为1，反之，为0，该分支的输入为所有r_i ²的均值。损失统一记为L_igpn，作为第二损失。

将第一损失和第二损失相加后得到全局损失L_all，具体如式(4)所示：

L_all＝L_srpn+L_igpn (4)

基于全局损失进行网络参数更新，并采用反向传播算法和随机梯度下降法来减小预测整体误差以训练该模型。在本发明中，利用行人身份在特征空间和预测分布的一致性设计了两种双向交互损失函数，即第一损失和第二损失，能在训练阶段不引入额外计算量的条件下，提高行人检测和搜索的准确率。

其中，全局关系分支的作用是引入一辅助任务来利用场景-实例之间的关系，帮助检测模型更好的学习场景中行人与目标的相似度。该任务为判断整个场景中是否包含目标人物，该分支的输入是所有关系特征的均值

其中，N表示候选区域的数目。

在本实施例中，经过多次迭代训练得到实例导向的行人检测模型。

2、行人再识别模型的训练过程

利用数据库中的场景图和标注行人的边界框和身份得到每个行人的图片和身份，然后将行人图片送入基于残差网络行人再识别模型中，经过全局池化层后得到每个行人的全局特征，然后将其送入softmax分类器中，输出其属于每个类别即身份的概率，并与标注的真实身份计算交叉熵损失。通过不断迭代，直至行人再识别模型收敛。

3、基于实例导向检测网络的行人搜索方法

步骤S10，获取输入视频中第t帧图像，作为第一图像；

在本实施例中，获取待搜索的行人目标图像和场景图像，作为第二图像、第一图像。场景图像在本发明中优选为实时输入视频中的第t帧图像。

在本实施例中，将第一图像、第二图像送入训练好的的行人检测模型中得到第一图像中各候选区域与第二图像的相似度，即得到场景图像中各候选区域与行人目标的相似度。按照相似度进行降序排序，并选取前N个相似度对应的候选区域作为检测区域。

在本实施例中，将各检测区域图像以及待搜索行人目标的图像输入行人再识别模型中，得到行人搜索的最终结果。

本发明第二实施例的一种基于实例导向检测网络的行人搜索系统，如图4所示，包括：获取模块100、检测模块200、识别模块300；

所述获取模块100，配置为获取输入视频中第t帧图像，作为第一图像；

所述检测模块200，配置为通过预训练的行人检测模型得到所述第一图像中各候选区域与第二图像的相似度并排序，排序后选取前N个候选区域作为检测区域；所述第二图像为预获取的待搜索行人目标的图像；

所述识别模块300，配置为基于各检测区域、所述第二图像，通过预训练的行人再识别模型得到行人目标的搜索结果；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于实例导向检测网络的行人搜索系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于实例导向检测网络的行人搜索方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于实例导向检测网络的行人搜索方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于实例导向检测网络的行人搜索方法，其特征在于，该方法包括：

步骤S10，获取输入视频中第t帧图像，作为第一图像；

2.根据权利要求1所述的基于实例导向检测网络的行人搜索方法，其特征在于，所述行人检测模型其训练方法为：

步骤A10，获取训练样本，将待检测行人目标的图像作为第三图像、场景图作为第四图像；训练样本包括待检测行人目标的图像及场景图像；

步骤A60，基于所述第六特征，通过局部关系模块得到加强的关系特征，作为第七特征；所述局部关系加强模块由全连接层和一个LN层组成；

步骤A70，基于所述第七特征，分别通过残差网络的回归分支、相似度分支、全局关系分支计算损失值，作为第二损失；基于所述第一损失、所述第二损失，对所述行人检测模型进行网络参数更新；

3.根据权利要求2所述的基于实例导向检测网络的行人搜索方法，其特征在于，所述训练样本分为自场景正样本、跨场景正样本、负样本三种类型；其中，所述自场景正样本包括一张行人目标图像、包含行人目标的场景图像，且两张图像位于同一场景；所述跨场景正样本包括一张行人目标图像、包含行人目标的场景图像，但两张图像不位于同一场景；所述负样本包括一张行人目标图像、不包含行人目标的场景图像。

4.根据权利要求2所述的基于实例导向检测网络的行人搜索方法，其特征在于，步骤A40中“通过双通路残差网络的互相关层得到相关核”，其方法为：