CN114359132A

CN114359132A - 利用文本描述生成图像进行行人搜索的方法

Info

Publication number: CN114359132A
Application number: CN202111371918.3A
Authority: CN
Inventors: 辛宁; 任术波; 李久超; 曾骏杰; 李丽楠
Original assignee: China Academy of Space Technology CAST
Current assignee: China Academy of Space Technology CAST
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-04-15

Abstract

本发明涉及利用文本描述生成图像进行行人搜索的方法，属于计算机视觉技术领域，该方法包括如下步骤：S1、构造用于实现文本描述到行人图像转化的转化生成模型；S2、重复将指向目标行人的文本描述输入至转化生成模型中，加入随机噪声，生成K个对应目标行人文本描述的行人图像，记为查询图像，K个查询图像构成查询图像组，K≥1；S3、将查询图像组中的查询图像分别输入基于图像的行人搜索模型，获得K个对应的目标行人搜索结果序列，每个目标行人搜索结果序列中包括若干候选行人；S4、将K个目标行人搜索结果序列中的候选行人进行加权重排，将所有候选行人按照最终排序位次进行排序，获得文本描述的目标行人搜索结果。

Description

利用文本描述生成图像进行行人搜索的方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种利用文本描述生成图像进行行人搜索的方法。

背景技术

大数据、人工智能技术的发展，为建设安全便捷的智能社会提供了技术保障，其中智能视频监控系统是计算机视觉领域提供的最重要的技术之一，目前各种政府部门、企业单位、交通运输站、居民小区等场所均装配了监控摄像头，能够做到实时大规模的采集监控图像、视频资料，在面向行人相关的视觉应用中，由于摄像头分辨率，拍摄角度、距离和光照等因素影响，导致行人脸部清晰度不够，传统人脸识别技术无法有效使用，而基于行人的穿着、体型和姿态等开展行人相关分析是另一个非常有价值的视觉应用，即行人搜索(personsearch)。

具体而言，行人搜索技术包括一个图像或者文本形式的查询输入(目标行人的全身图像或者文本描述)和一个待查的图片库(该图片库中包含了摄像头采集的大量包含行人的图像画面)，行人搜索利用查询输入，试图从行人图片库中将各个行人检测出来，并计算其与查询输入的相似度，进而根据相似度对可能匹配的图片进行排序返回，以完成对特定目标行人的搜索，行人搜索技术的应用场景包括：1)在人流密集公共场所例如车站、游乐园等场所智能寻人；2) 在无人超市中对顾客进行定位和身份识别；3)为家庭机器人的人体定位识别功能提供支持。

在技术层面，行人搜索任务主要包含行人检测和行人重识别两个子任务，针对待搜索图片库中的所有图片，行人检测负责从完整的图片中判定行人所在的区域(如用矩形框框定行人所在区域)，行人重识别负责在大量不同环境下(如不同时间、不同地点)根据相似度计算，查找与目标行人匹配的行人区域及图像，也就是说，对行人检测确定的区域，提取行人视觉特征，与输入数据对应特征(如输入图像对应图像特征，如输入文本对应文本特征)进行匹配并按相似度进行排序返回结果，从而实现在图片库中搜索到目标行人的目的，事实上，相较于更为广泛研究的行人重识别任务，行人搜索任务中图像库中的图像是包含背景的完整场景图像，而不是截取出来的行人图像，因此更为贴近实际应用场景，也具有更大的技术难度。

在行人搜索任务中，大多数已有的方法都是基于行人图片作为查询对象的，即输入某个特定的行人图像，在目标图像或者视频库中去搜索该目标行人所在的画面和位置，尽管多数已有算法在基于图片的行人搜索问题上取得了较好结果，但在实际应用中，其可应用性和便捷性很有限，例如，某些情况下无法保证能够获得目标行人的某张图像来作为查询输入，也不能确保某张目标行人图像能够全面的表示该行人的特性，相较而言，在无法获得全面清晰的目标行人图像的情形下，人们更习惯于用自然语言来描述目标行人的视觉特点，例如“该行人穿着黄色运动鞋，带蓝色条纹的白袜子，黑色运动裤和黄蓝相见的T恤，留黑色短发……”，因此，有学者提出了基于文本描述的行人搜索模型和算法，即查询输入为文本描述(可以为简单语句，也可以为多个主要特点对应的词汇)。

相较于行人图像，文本描述更符合人们的描述习惯且更容易获得，所以基于文本描述的行人搜索更贴近实际场景需求。然而，基于文本描述的行人搜索方法准确性一般不如基于图像的行人搜索方法。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提出一种利用文本描述生成图像进行行人搜索的方法，使所述行人搜索的方法能够根据更全面的特征描述进行搜索，更贴近实际需求，并提高搜索的准确度。

本发明解决技术问题的方案是：利用文本描述生成图像进行行人搜索的方法，该方法包括如下步骤：

S1、构造用于实现文本描述到行人图像转化的转化生成模型；

S2、重复将指向目标行人的文本描述输入至转化生成模型中，加入随机噪声，生成K个对应目标行人文本描述的行人图像，记为查询图像，K个查询图像构成查询图像组，K≥1；

S3、将查询图像组中的查询图像分别输入基于图像的行人搜索模型，获得 K个对应的目标行人搜索结果序列，每个目标行人搜索结果序列中包括若干候选行人；

S4、将K个目标行人搜索结果序列中的候选行人进行加权重排，将所有候选行人按照最终排序位次进行排序，获得文本描述的目标行人搜索结果。

优选地，步骤S1中的转化生成模型包括LSTM文本特征提取子模块、标准正态分布随机噪声引入子模块、DCGAN网络模型；

LSTM文本特征提取子模块，使用已预训练好的LSTM长短期记忆网络，接受对于目标查询行人的文本描述作为输入，输出N维的文本特征向量；

标准正态分布随机噪声引入子模块，依据标准正态分布，生成均值为0，方差为1的M维随机噪声，将LSTM文本特征提取子模块输出的N维文本特征向量与生成的M维标准正态分布随机噪声进行拼接，得到N+M维文本特征向量发送给DCGAN网络模型；

DCGAN网络模型，根据N+M维文本特征向量，生成对应目标行人文本描述的行人图像。

优选地，所述DCGAN网络模型通过具有文本描述的行人图像数据集对转化生成模型进行训练得到。

优选地，所述具有文本描述的行人图像数据集采用CUHK-PEDES数据集。

优选地，步骤S3中，所述基于图像的行人搜索模型采用基于Faster R-cnn 框架的已经训练好的在线实例匹配OIM行人搜索模型。

优选地，步骤S4中候选行人x_i最终排序位次rank的计算公式如下：

式中，K为查询图像组包含的图像数，也即排序结果列表的数量，

为查询图像组中第i个查询图像对应的目标行人搜索结果序列中候选行人x的位次为x_i时的权重系数，若该候选行人未在查询图像组中第i个查询图像对应的目标行人搜索结果序列中出现，则x_i取0。

优选地，对于某个给定的目标行人搜索结果序列中，目标行人搜索结果序列的候选行人x在搜索结果序列的位次x_i的权重系数

其中，ξ为系数超参数，取值范围为0～1，e为自然指数，N_i为第i个查询图像对应的目标行人搜索结果序列长度，τ为平滑系数超参数，大于1，取值范围为1～10，当x_i为

时，对应的位次权重将最小，而越靠前或靠后，位次权重将越大，i∈[1，K]。

本发明与现有技术相比的有益效果是：

(1)、本发明所述的利用文本描述生成图像进行行人搜索的方法，结合基于图像的方法和基于文本描述的方法，使所述行人搜索的方法能够根据更全面的特征描述进行搜索，更贴近实际需求，并提高搜索的准确度。

(2)、本发明转化生成模型生成的行人图像包含原始行人文本描述之外的额外信息，通过引入随机噪声，生成多幅目标行人图像构成查询图像组，使图像中包含的额外信息具有多种随机取值。

附图说明

图1是本发明实施例中行人搜索方法的流程示意图；

图2是本发明实施例中转化生成模型训练过程结构示意图；

图3是本发明实施例中行人搜索模型的结构示意图；

图4是本发明实施例中加权重排各搜索匹配结果列表得出最终行人搜索结果的示意图；

图5是本发明实施例中从待搜索图片库中搜索目标行人的示意图。

具体实施方式

下面结合实施例对本发明作进一步阐述。

本发明提供了利用文本描述生成图像进行行人搜索的方法，该方法包括如下步骤：

转化生成模型包括LSTM文本特征提取子模块、标准正态分布随机噪声引入子模块、DCGAN网络模型；LSTM文本特征提取子模块，使用已预训练好的LSTM 长短期记忆网络，接受对于目标查询行人的文本描述作为输入，输出N维的文本特征向量，N一般取值为128；

所述DCGAN网络模型通过具有文本描述的行人图像数据集对转化生成模型进行训练得到。所述具有文本描述的行人图像数据集采用CUHK-PEDES数据集。

转化生成模型生成的行人图像包含原始行人文本描述之外的额外信息，通过引入随机噪声，生成多幅目标行人图像构成查询图像组，使图像中包含的额外信息具有多种随机取值。

在本发明某一具体实施例中，转化生成模型的具体步骤如下：

步骤S2.1，LSTM文本特征提取子模块使用已预训练好的LSTM长短期记忆网络，接受对于目标查询行人的文本描述作为输入，输出128维的文本特征向量；

步骤s2.2，标准正态分布随机噪声引入子模块依据标准正态分布，生成均值为0，方差为1的32维随机噪声；

步骤2.3，将LSTM文本特征提取子模块输出的128维文本特征向量与生成的32维标准正态分布随机噪声进行拼接，得到160维DCGAN生成DCGAN网络模型的输入。

所述基于图像的行人搜索模型采用基于Faster R-cnn框架的已经训练好的在线实例匹配OIM行人搜索模型，具体步骤如下：

已经训练好的在线实力匹配OIM行人搜索模型主要包括采用卷积神经网络的OIM骨干网络、OIM重识别网络和全连接分类层等。

对查询图像组中仅包含行人本身的图像，主要通过OIM骨干网络得到查询图像组中每个指代目标行人的图像的视觉特征；

对于待搜索图片库中包含行人与背景的完整场景图像，使用行人检测模块检测定位到行人位置并用矩形框标注和截取出该区域作为单独的行人图像后，将其输入OIM骨干网络获得视觉特征后；

最后，计算查询图像组中各个行人图像对应的视觉特征与待搜索图片库中检测并截取的所有行人区域对应的视觉特征的相似度，得到查询图像组中每个行人图像对应的目标行人搜索结果序列。

在目标行人搜索结果序列中，排名靠前程度与查询行人的相似程度相关，相似程度越高的待搜索图片中的行人区域越靠前，在将不同查询图像的搜索结果序列重排的过程中，每个序列中越靠前或靠后的位次赋予更大的权重，处于序列中部的位次权重相对低。

对于某个给定的目标行人搜索结果序列中，目标行人搜索结果序列的候选行人x在搜索结果序列的位次x_i的权重系数

本步骤通过加权计算，候选行人x_i最终排序位次rank的计算公式如下：

实施例1

为使本发明的目的、技术方案以及优点更加清楚，下面结合附图对本发明做进一步详细描述。应当理解，此处所描述的示例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种使用文本描述生成相应行人图像后搜索库中的目标行人图像，并对匹配结果进行加权重排的行人搜索方法，实施流程如图1所示，包括以下步骤：

步骤(1)，转化生成模块构造：通过构建基于DCGAN的生成对抗网络，实现文本描述到相应行人图像的转化生成；所述转化生成模块的训练过程用的模型结构如图2所示，包括LSTM文本特征提取子模块、标准正态分布随机噪声引入子模块、DCGAN网络模型、判别器子模块。

具体来讲，LSTM文本特征提取子模块使用现有已预训练好的LSTM长短期记忆网络，接受对于目标查询行人的文本描述作为输入，输出128维的文本特征向量。接着，标准正态分布随机噪声引入子模块依据标准正态分布，生成均值为0，方差为1的32维随机噪声，其目的是对于最终生成图像中出现的，原始文本描述中不包含的行人特征，能够引入一定的随机性，最终生成具有一定特征变化范围的查询行人图像。将LSTM文本特征提取子模块输出的128维文本特征向量与生成的32维标准正态分布随机噪声进行拼接，即得到160维DCGAN 网络模型的输入。

DCGAN网络模型(图2中为DCGAN生成器)的作用是生成与原始文本描述相符合的查询行人图像，以进行后续基于图像的目标行人搜索。DCGAN网络模型进行的操作具体是：首先使用对应160*1024大小权重矩阵的全连接层，将输入160维引入随机噪声的文本特征向量变换为1024维，接着通过系列反卷积操作进行上采样，将1024维特征向量在空间方向上扩大尺寸，在通道方向上减小通道数，依次变换为4*4*1024，8*8*512，16*16*256，32*32*128，64*64*64， 128*128*32尺寸，最终得到512*512分辨率，RGB3通道的查询行人生成图像。

判别器子模块的作用是辨别其输入图像为真实图像还是来自DCGAN网络模型生成的图像，其操作的具体过程和DCGAN网络模型相反：通过卷积操作下采样，将输入图像提取得到128维的特征向量，接着通过对应128*2大小权重矩阵的全连接层进行二分类，判断输入图像来源。

随后，对于转化生成模块的模型进行训练获取模型结构和参数。具体而言，使用CUHK-PEDES文本描述行人搜索数据集对所述转化生成模块中的网络模型利用机器学习方法进行训练；CUHK-PEDES数据集中，每张行人图片均有两句对应英文文本描述，共有40206张图片，13003个行人，共80412个文本描述语句。整个数据集的统计情况如下表1所示。

表1 CUHK-PEDES数据集数据分布统计

将CUHK-PEDES数据集中的行人文本描述输入所述DCGAN网络模型，生成查询行人图像输入判别器，或将数据集中文本描述对应的真实行人图像输入判别器，整个转化生成模块将根据判别器的判别结果进行训练优化。若判别器成功识别出来自DCGAN网络模型生成的图像，则DCGAN网络模型在该次训练迭代结束时，会被具有较大值的二分类交叉熵(Binary Cross Entropy,BCE)损失函数回传梯度采用梯度下降算法进行优化，进而提升DCGAN网络模型生成更符合要求图像的能力。反之若判别器未识别成功，则判别器会被具有较大值的损失函数回传梯度优化，进而提升判别器辨别输入的能力。DCGAN网络模型与判别器经过竞争，最终将得到所需的，能够生成与原始文本描述足够相符行人图像的DCGAN网络模型。

步骤(2)，查询图像组生成：将目标行人的文本描述多次输入转化生成模块，通过转化生成模块标准正态分布随机噪声引入子模块，生成多幅目标行人的对应行人图像，构成查询图像组。

为避免生成的查询行人图像包含原始文本描述范围之外信息的问题，本发明对同一文本输入，共生成一组K张查询行人图像(K为可根据实际情况调整选择较优值的模型参数)。组内各行人图像对于输入文本描述包含的信息内容一致，而对于文本描述未包含的信息具有一定随机差异。例如，对于“该行人身着黄蓝相间T恤……”的文本描述，该步骤将会使用已训练的转化生成模块生成图4最左列的1组K张查询行人图像，生成的各图像中行人的上衣均为黄蓝相间T恤，但由于原文本描述不包含“黄蓝相间”的实际样式，因此生成的各图像中，蓝色区域形状、范围将会有所不同。通过生成查询图像组，能够避免文本域输入转化为图像域数据时引入额外信息的问题，提升最终行人搜索结果的准确性。

步骤(3)，结果序列组生成：使用已有的基于图片的行人搜索网络模型，将步骤(2)所得查询图像组输入该行人搜索模型获取多个搜索匹配的返回结果序列。

例如，可以使用在线实例匹配(下称OIM)行人搜索模型，该模型基于Faster R-cnn框架，模型的结构图如图3所示。对于查询图像组中的图像，由于仅包含行人本身，可直接通过OIM骨干网络、OIM重识别网络和L2正则化及降维全连接层得到其重识别视觉特征。对于待搜索图片库中包含行人与背景的完整场景图像，则可通过OIM骨干网络获得输入图像基础视觉特征后，使用其行人检测模块提取得到行人对应视觉特征，同样通过重识别网络与L2正则化及降维全连接层得到图片库中所有行人重识别视觉特征。最终计算各个查询行人图像对应特征与图片库所有行人对应特征的特征相似度例如余弦相似度，即可得到查询图像组对应的多个搜索匹配结果序列。

步骤(4)，结果序列重排：设计相应的加权系数计算方法，对多个搜索匹配结果序列进行加权重排，得到最终通过文本描述的查询行人在待搜索图片库中的搜索结果，该步骤也是本发明的创新点之一。考虑两个搜索结果排序列表，受特征相似度计算方式的影响，列表1中的各候选行人与对应查询行人相似度分数可能整体均较高，列表2中各候选行人对应相似度分数可能整体较低。对于列表2，各候选行人排序位次的前后关系表明，排序位次靠前的候选行人与查询行人的匹配程度是较大的(尽管可能相对列表1中位次靠后的候选行人相似度分数更低)。因此本发明选用各候选行人在各搜索结果列表中的排序位次而非相似度分数作为加权对象。

具体而言，该步骤的实施方式为：对于在超过1个搜索匹配结果排序列表中出现过的行人，将其在各排序列表中的出现位次加权平均得到其最终位次，仅在单一排序列表中出现的行人直接使用其位次作为最终位次。对于计算得到的最终位次结果相同的两个或多个候选行人，按照他们在各个排序列表中出现位次的字典序排序依次确定其最终位次。如图4所示。以包含3张查询图像的输入图像组为例，设候选行人a在所有列表中出现的位次为a1，a2，a3，候选行人b在所有列表中出现的位次为b1，b2，b3且有a1＝b1，a2<b2，a3>b3，同时a1，a2，a3的加权结果与b1，b2，b3的加权结果相等。虽然两候选行人排序位次加权结果相等，但按照字典序比较后发现a2＜b2，因此将候选行人a排在候选行人b之前。

对于某候选行人在各排序列表中出现位次的加权方式而言，该行人在列表中出现的不同排序位次，表征其与查询行人的相似度程度也不同，越靠前或靠后，越能说明其与查询行人相似或不相似，而处于中部的排序位次则对候选行人与查询行人相似度的表征程度相对模糊。因此，对于排序位次加权平均时，越靠前或靠后的位次应该设计具有更大的权重，而处于中部的位次权重应该更低，本发明设计使用下面的公式给出的函数来计算某一位次x_i对应的权重系数 W_i：

式中ξ为系数超参数，e为自然指数，N为预设的搜索结果排序列表长度，τ为平滑系数超参数，当x_i为

时，对应的位次权重将最小，而越靠前或靠后，位次权重将越大。计算得出位次权重系数W_i后，即可加权计算某一候选行人最终排序位次rank，计算公式所下：

式中K为查询图像组包含的图像数，也即排序结果列表的数量，W_i为所述位次x_i的权重系数，若该候选行人未在列表i中出现，则x_i取0。将所有候选行人按照最终排序位次进行排序，即可得到原始文本描述行人的搜索结果排序列表。

综上，通过所述步骤(1)-步骤(4)，可完成从输入行人文本描述到从待搜索图片库中搜索出该行人的所有图像的流程。实际应用场景中输入行人文本描述进行行人搜索的示例结果如图5所示。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.利用文本描述生成图像进行行人搜索的方法，其特征在于包括如下步骤：

S3、将查询图像组中的查询图像分别输入基于图像的行人搜索模型，获得K个对应的目标行人搜索结果序列，每个目标行人搜索结果序列中包括若干候选行人；

2.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法，其特征在于步骤S1中的转化生成模型包括LSTM文本特征提取子模块、标准正态分布随机噪声引入子模块、DCGAN网络模型；

3.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法，其特征在于所述DCGAN网络模型通过具有文本描述的行人图像数据集对转化生成模型进行训练得到。

4.根据权利要求3所述的利用文本描述生成图像进行行人搜索的方法，其特征在于所述具有文本描述的行人图像数据集采用CUHK-PEDES数据集。

5.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法，其特征在于步骤S3中，所述基于图像的行人搜索模型采用基于Faster R-cnn框架的已经训练好的在线实例匹配OIM行人搜索模型。

6.根据权利要求1所述的利用文本描述生成图像进行行人搜索的方法，其特征在于步骤S4中候选行人x_i最终排序位次rank的计算公式如下：

7.根据权利要求6所述的利用文本描述生成图像进行行人搜索的方法，其特征在于对于某个给定的目标行人搜索结果序列中，目标行人搜索结果序列的候选行人x在搜索结果序列的位次x_i的权重系数