CN115294353A

CN115294353A - 基于多层属性引导的人群场景图像字幕描述方法

Info

Publication number: CN115294353A
Application number: CN202210837834.2A
Authority: CN
Inventors: 王岚晓; 邱荷茜; 赵泰锦; 李宏亮; 孟凡满; 吴庆波; 许林峰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-07-16
Filing date: 2022-07-16
Publication date: 2022-11-04

Abstract

本发明提出了一种基于多层属性引导的人群场景图像字幕描述方法，从输入图像中提取出区域级视觉特征、对应的位置信息以及人的动作特征；利用多层感知机得到完成特征嵌入映射后的视觉特征、位置特征和动作特征；通过设置的特征处理层与多层感知机依次得到全局视觉特征、局部特征、对象层次特征、动作层次特征和状态层次特征；利用全局视觉特征、对象层次特征、动作层次特征、状态层次特征和上一时刻的隐藏层状态得到融合特征；利用全局视觉特征、融合特征和上一时刻的语义特征得到当前时刻的语义特征；最后根据当前时刻的语义特征预测当前单词的概率分布并输出。本发明提取不同的层次人群属性特征，从而生成更具有人群特定的生动细节的描述。

Description

基于多层属性引导的人群场景图像字幕描述方法

技术领域

本发明涉及深度学习、计算机视觉、图像场景解析、语言与图像联合处理技术，特别涉及一个以人群场景为主题的图像字幕描述技术。

背景技术

随着全球科技的发展，如何高效的利用大量与人群场景相关的数字视觉信息，并为人们生产生活提供服务具有深远的意义。然而，依靠人工处理和分析大量的人群场景相关的图像和视频信息是十分复杂、费时费力的。因此，要完成从信息化城市到数字化城市再到智慧城市的转变，需要强有力的技术支持。在这种时代背景下，让机器能够有效地理解和分析人群场景，并用于对密集人群的引导和管理，以及预防拥挤、踩踏等事故的发生至关重要。对于建设为人类服务的智慧城市、智能交通等具有深远意义。

然而，现有的图像字幕数据集在人群场景理解研究中存在四个限制：1)只有少数图像与人群场景相关，2)忽略了对同一图像的描述角度多样性，3)句子结构和描述对象单一，无法适用于描述复杂的人群场景，4)图像通常包含一个显著性的对象和简单干净的背景，这与人类实际生活有巨大差异。因此，由于缺乏与人群场景相关数据集的多模态字幕数据集，相关的研究受到了极大的限制。此外，现有的方法通常针对简单背景下的单一显著性对象进行描述，尽管在公开数据集中取得了先进的性能，但它们由于忽略了人群场景的特殊性，不足以应对复杂的现实世界人群场景的挑战。

发明内容

本发明所要解决的技术问题是，针对人群属性特性提出了一种基于人群对象、动作和状态(如位置、着装、姿态等)的多层属性引导的图像字幕描述方法。

本发明为解决上述技术问题所采用的技术方案是，基于多层属性引导的人群场景图像字幕描述方法，包括步骤：

1.图像特征提取步骤：从输入图像中提取出区域级视觉特征F_r、对应的位置信息F_p以及人的动作特征F_c；

2.视觉特征嵌入步骤：

利用多层感知机MLP将区域级视觉特征F_r、位置信息F_p以及动作特征F_c映射到同一特征空间中，分得得到完成映射后的视觉特征V_r、位置特征V_p和动作特征V_c；

3.多层次密集人群感知处理步骤：

设置特征处理层，所述特征处理层从区域级和通道级的注意力两个方面对输入的特征进行处理输出多层次特征，定义查询向量Q和值向量V为特征处理层的输入，特征处理层的输出V_out定义为：

β^r＝softmax(W₃tanh(W₁Q+W₂V))

β^c＝softmax(W₆tanh(W₄AvgPool(Q)+W₅V))

V_out＝β^c⊙(β^rV)

其中，W₁、W₂、W₃、W₄、W₅、W₆均为特征处理层的权值，β^r为区域级注意力特征，β^c为通道级注意力特征，AvgPool为平均池化，tanh为双曲正切激活函数，⊙为哈达玛乘积，softmax为归一化指数函数；

3.1包含有N个特征向量的视觉特征V_r通过平均池化得到特征向量V_g，特征向量V_g进行N倍复制后与视觉特征V_r进行哈达玛积，将该哈达玛积的结果作为查询向量Q输入特征处理层，视觉特征V_r作为值向量V输入特征处理层，特征处理层的输出作为第一MLP_SC的输入，第一MLP_SC的输出为全局视觉特征V_global；

3.2先对全局视觉特征V_global进行N倍复制后与视觉特征V_r进行特征级联后作为第二MLP的输入，第二MLP的输出为局部特征V_local；

3.3全局视觉特征V_global进行N倍复制后和局部特征V_local进行哈达玛积，该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层，局部特征V_local作为对象层次的值向量V输入至特征处理层，特征处理层的输出作为第三MLP_SC的输入，第三MLP输出对象层次特征V_object；

3.4动作特征V_c和对象层次特征V_object进行哈达玛积，该哈达玛积的结果作为动作层次的查询向量Q输入至特征处理层，动作特征V_c作为动作层次的值向量V输入至特征处理层，特征处理层的输出作为第四MLP的输入，第四MLP输出动作层次特征V_action；

3.5位置特征V_p和局部特征V_local通过矩阵加法得到的加法结果作为状态层次的查询向量Q输入至特征处理层，对象层次特征V_object和动作层次特征V_action进行哈达玛积，该哈达玛积的结果作为状态层次的值向量V输入至特征处理层，特征处理层的输出作为第五MLP的输入，第五MLP输出状态层次特征V_status；

4.特征融合步骤：在每一时刻t均进行特征融合：将全局视觉特征V_global、对象层次特征V_object、动作层次特征V_action和状态层次特征V_status级联起来得到总特征V，再利用上一时刻的隐藏层状态h_t-1和总特征V计算出权值，将总特征V与权值对应相乘进行加权，加权的结果再加上总特征通过平均池化处理得到的平均值，相加后的结果为当前时刻融合后的特征V_h；

5.密集人群导向的解码步骤：将全局视觉特征V_global、融合特征V_h和上一时刻的语义特征相加得到融合视觉特征；将上一单词的词嵌入向量与融合视觉特征在通道维度级联，将级联后的特征向量输入多层感知机MPL，多层感知机MPL输出特征V_in；再将特征V_in输入长短期记忆人工神经网络LSTM，LSTM输出当前时刻的隐藏层状态h_t；将隐藏层状态h_t和局部特征V_local经哈达玛乘积得到特征的查询向量，根据查询向量对局部特征进行加权得到优化后的局部特征V′_local；将V′_local、h_t和V_in在通道维度级联，将级联后的特征输入至多层感知机MLP，MLP输出当前时刻的语义特征

最后将语义特征

进行全连接FC后输入Softmax函数预测当前单词的概率分布并输出。

本发明的有益效果是，根据人群属性损失提取不同的层次人群属性特征，并利用动态融合模块来获得当前解码阶段所关注的多层次视觉信息，获得的更高级视觉特征，以实现从视觉到语言的精细映射，从而生成更具有人群特定的生动细节的描述。

附图说明

图1为实施例实现本发明方法使用的网络结构图。

具体实施方式

如图1所示，实现本实施例方法的网络系统包括Faster R-CNN网络、HRNet网络、多层次密集人群感知模块、特征融合模块以及密集人群导向的解码器分别实现以下5个步骤。Faster R-CNN网络为一个现有的用于目标检测的网络，能够自动完成候选区域生成与特征提取。HRNet网络为通过并行多个分辨率的分支，加上不断进行不同分支之间的信息交互，实现高分辨率丰富语义的特征输出，能同时达到强语义信息和精准位置信息的目的。

步骤1：图像特征提取

对于每一张输入图像，通过预训练的Faster R-CNN网络提取一组区域级视觉特征F_r以及这些区域的位置信息F_p，区域级视觉特征为图1中的Faster R-CNN网络输出的候选框中的视觉特征；通过预训练的HRNet网络提取一组人的动作特征F_c。

步骤2：视觉特征嵌入

利用多层感知机将上一步骤中得到的区域级视觉特征F_r、位置信息F_p以及动作特征F_c通过多层感知机MLP映射到同一特征空间中。图1的网络系统中高级语义特征的映射采用带短连接的特殊的多层感知机MLP_SC，本领域技术人员可以采用其他的MLP。

区域级视觉特征F_r和位置特征F_p的嵌入通过单层的MLP实现，得到处理后的视觉特征V_r和位置特征V_p，V_r＝MLP(F_r)，V_p＝MLP(F_p)，而动作特征V_c则通过三层的感知机MLP₃，V_c＝MLP₃(flatten(F_c))。其中，单层的MLP处理方式如下：

MLP(*)＝LayerNorm(ReLU(FC(*)))

FC表示全连接，ReLU为整流线性单元激活函数，LayerNorm为一种归一化处理，*表示输入。

带短连接的多层感知机MLP_SC处理方式如下：

MLP_SC(*₁,*₂)＝LayerNorm(ReLU(FC(*₁)+*₂))

*₁为MLP_SC的第一输入，*₂的第二输入。

步骤3：多层次密集人群感知处理

在多层次密集人群感知处理模块中，特征处理层(Feature Layer)是一个基础模块单元。特征处理层从区域级和通道级的注意力两个方面对输入的特征进行处理，提取多层次特征。定义查询向量Q和值向量V，查询向量Q和值向量V均为特征处理层的输入，特征处理层的输出V_out定义为：

β^r＝softmax(W₃tanh(W₁Q+W₂V))

β^c＝softmax(W₆tanh(W₄AvgPool(Q)+W₅V))

V_out＝β^c⊙(β^rV)

其中，W₁、W₂、W₃、W₄、W₅、W₆均为特征处理层的权值，AvgPool为平均池化，tanh为双曲正切激活函数，⊙为哈达玛乘积。

多层次密集人群感知处理具体可分为如下流程：

3.1为获取低层次的特征，直接对包含有N个特征向量的视觉特征V_r通过池化进行平均得到特征向量V_g，特征向量V_g进行N倍复制后与视觉特征V_r进行哈达玛积，将该哈达玛积的结果作为查询向量Q输入特征处理层，视觉特征V_r为值向量V输入特征处理层，特征处理层的输出作为第一MLP_SC的第一输入，特征向量V_g作为第一MLP_SC的第二输入，第一MLP_SC的输出为全局视觉特征V_global。如果网络系统采用MLP的形式，则不需要第二输入。

3.2将全局视觉特征V_global进行扩展，先对V_global进行N倍复制后与视觉特征V_r进行特征级联后作为第二MLP_SC的第一输入，另一方面，视觉特征V_r直接作为第二MLP_SC的第二输入，第二MLP_SC的输出为局部特征V_local。

3.3全局视觉特征V_global进行N倍复制后和局部特征V_local进行哈达玛积，该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层，局部特征V_local作为对象层次的值向量V输入至特征处理层，特征处理层的输出作为第三MLP_SC的第一输入，全局视觉特征V_global作为第三MLP_SC的第二输入，第三MLP_SC输出对象层次特征V_object。

3.4动作特征V_c和对象层次特征V_object进行哈达玛积，该哈达玛积的结果作为动作层次的查询向量Q输入至特征处理层，动作特征V_c作为动作层次的值向量V输入至特征处理层，特征处理层的输出作为第四MLP_SC的第一输入，全局视觉特征V_global作为第四MLP_SC的第二输入，第四MLP_SC输出动作层次特征V_action。

3.5位置特征V_p和局部特征V_local通过矩阵加法得到的加法结果作为状态层次的查询向量Q输入至特征处理层，对象层次特征V_object和动作层次特征V_action进行哈达玛积，该哈达玛积的结果作为状态层次的值向量V输入至特征处理层，特征处理层的输出作为第五MLP_SC的第一输入，全局视觉特征V_global作为第五MLP_SC的第二输入，第五MLP_SC输出状态层次特征V_status。

3.6将对象层次特征V_object、动作层次特征V_action和状态层次特征V_status三个层次的特征通过sigmoid函数，预测各层次的对应单词的概率分布，并使用二元交叉熵损失对分布进行约束。

多层次密集人群感知处理模块为针对人群场景，创新性地将图像特征基于人体属性进行分层，提取更具有针对性的特征，首先生成对象层次特征V_object，即人的特征，再根据对象层次特征V_object和动作特征V_c生成动作层次特征V_action，体现了有人才会有人的动作的客观逻辑，最后根据位置特征V_p、对象层次特征V_object和动作层次特征V_action生成状态层次特征V_status。

步骤4：特征融合

在解码时，网络模型需要根据视觉特征生成单词，那么在生成不同单词时，视觉特征也应不同。因此，需要在每一时刻t均进行特征融合：

4.1将全局视觉特征V_global、对象层次特征V_object、动作层次特征V_action和状态层次特征V_status级联起来得到总特征，作为总特征值V和键值K；

4.2已知上一时刻的隐藏层状态h_t-1，将h_t-1作为查询值Q经4倍复制扩展之后与键值K通过矩阵加法相加，对相加结果用softmax函数进行权值计算。

4.3将总特征值V与权值对应相乘进行加权，再加上总特征通过平均池化处理得到的平均值，相加后的结果即得到当前时刻融合后的特征V_h，即高层次密级人群视觉特征。

步骤5：密集人群导向的解码器

5.1将全局视觉特征V_global、上步得到的融合特征V_h和上一时刻的语义特征

相加，得到融合视觉特征。

5.2将上一单词的词嵌入向量w_t-1与融合视觉特征在通道维度级联，将级联后的特征向量输入多层感知机MPL，多层感知机MPL输出特征V_in。

5.3将特征V_in输入长短期记忆人工神经网络LSTM，LSTM输出当前时刻新的隐藏层状态h_t。

5.4由于局部特征V_local中包含丰富的视觉特征，将隐藏层状态h_t和局部特征V_local经哈达玛乘积得到特征的查询向量，根据查询向量对局部特征进行加权得到优化后的局部特征V′_local，具体为：查询向量一方面经过区域级预测得到权值β¹，另一个方面经过池化与通道级预测得到权值β²，局部特征V_local前与权值β¹相乘后，将乘法结果再与权值β²进行哈达玛积得到优化后的局部特征V′_local。

5.5将V′_local、h_t和V_in在通道维度级联，将级联后的特征输入至多层感知机MLP，MLP输出当前时刻的语义特征

5.6将语义特征

进行全连接FC后输入Softmax函数预测当前单词的概率分布，在训练过程中，用交叉熵损失约束。如图1所示的，系统最终输出的对当前输入图片生成的字幕描述为：“Some people are holding cameras they are taking photos of thebeautiful scenery.”人们正拿着相机，拍摄着美丽的风景。

再给出一个字幕描述方法的具体应用实例：

1.获取数据库。使用本发明构建的人群场景图像字幕数据集CrowdCaption。

2.数据预处理。使用预训练网络提取图像特征，使用词嵌入方法将单词转化为高维向量。

3.搭建深度网络模型。按照上述技术方案搭建网络模型，其中图像的区域个数为36，区域对应矩形框的特征为中心点坐标、宽、高、置信度打分，人体姿态选取的关节点个数为34。

4.模型初始化。除去使用的预训练网络，模型中的所有参数均随机初始化。

5.设置超参数。视觉特征维度和隐藏层状态维度均为1024，词嵌入向量维度为512。选用Adam优化器进行优化，学习率变化方式为热身变化，热身1000次迭代，初始值设置为0.0005。

6.训练模型。确定上述超参数后，将数据集中的数据依次分批送入网络模型，用交叉熵损失优化80个epoch后，改用强化学习策略继续训练40个epoch。

7.测试模型。模型训练完毕后，将测试数据送入网络，得到模型的测试结果。

Claims

1.基于多层属性引导的人群场景图像字幕描述方法，其特征在于，包括以下步骤：

2.视觉特征嵌入步骤：

3.多层次密集人群感知处理步骤：

β^r＝softmax(W₃tanh(W₁Q+W₂V))

β^c＝softmax(W₆tanh(W₄AvgPool(Q)+W₅V))

V_out＝β^c⊙(β^rV)

3.1包含有N个特征向量的视觉特征V_r通过平均池化得到特征向量V_g，特征向量V_g进行N倍复制后与视觉特征V_r进行哈达玛积，将该哈达玛积的结果作为查询向量Q输入特征处理层，视觉特征V_r作为值向量V输入特征处理层，特征处理层的输出作为第一MLP的输入，第一MLP的输出为全局视觉特征V_global；

3.2对全局视觉特征V_global进行N倍复制后与视觉特征V_r进行特征级联后的特征作为第二MLP的输入，第二MLP的输出为局部特征V_local；

3.3全局视觉特征V_global进行N倍复制后和局部特征V_local进行哈达玛积，该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层，局部特征V_local作为对象层次的值向量V输入至特征处理层，特征处理层的输出作为第三MLP的输入，第三MLP输出对象层次特征V_object；

最后将语义特征

2.如权利要求1所述方法，其特征在于，通过预训练的Faster R-CNN网络提取区域级视觉特征F_r以及对应的位置信息F_p；通过预训练的HRNet网络提取人的动作特征F_c。

3.如权利要求1所述方法，其特征在于，视觉特征嵌入步骤中，区域级视觉特征F_r和位置特征F_p的嵌入通过单层的MLP实现，得到处理后的视觉特征V_r和位置特征V_p，V_r＝MLP(F_r)，V_p＝MLP(F_p)，而动作特征V_c则通过三层的感知机MLP₃，V_c＝MLP₃(flatten(F_c))。

4.如权利要求3所述方法，其特征在于，单层的MLP处理方式如下：

MLP(*)＝LayerNorm(ReLU(FC(*)))

5.如权利要求3所述方法，其特征在于，所述MLP具体采用带短连接的多层感知机MLP_SC的形式，单层的MLP_SC处理方式如下：

MLP_SC(*₁,*₂)＝LayerNorm(ReLU(FC(*₁)+*₂))

*₁为MLP_SC的第一输入，*₂的第二输入。

6.如权利要求5所述方法，其特征在于，采用MLP_SC的多层次密集人群感知处理步骤的3.1中特征处理层的输出作为第一MLP_SC的第一输入，特征向量V_g作为第一MLP_SC的第二输入；

3.2中对V_global进行N倍复制后与视觉特征V_r进行特征级联后的特征作为第二MLP_SC的第一输入，视觉特征V_r直接作为第二MLP_SC的第二输入；

3.3中特征处理层的输出作为第三MLP_SC的第一输入，全局视觉特征V_global作为第三MLP_SC的第二输入；

3.4中特征处理层的输出作为第四MLP_SC的第一输入，全局视觉特征V_global作为第四MLP_SC的第二输入；

3.5中特征处理层的输出作为第五MLP_SC的第一输入，全局视觉特征V_global作为第五MLP_SC的第二输入。