CN113158791B

CN113158791B - 一种以人为中心的图像描述标注方法、系统、终端及介质

Info

Publication number: CN113158791B
Application number: CN202110275574.XA
Authority: CN
Inventors: 杨杰; 杨祚鹏
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-08-16
Anticipated expiration: 2041-03-15
Also published as: CN113158791A

Abstract

本发明提供了一种以人为中心的图像描述标注方法及系统，对图像进行目标检测，得到图像中的所有检测目标；针对所述检测目标中的人体，计算人体每一个关键部位的关键点坐标以及概率，生成人体姿态关键点；根据人体比例以及所述人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征；根据所述人体的特定局部特征，对所有检测目标进行特征层次化分级；将不同层次的特征进行特征分析以及特征融合，将得到的融合特征进行图像描述单词的预测，生成图像描述标注。同时提供了一种相应的终端及介质。本发明能够更加详细且准确地描述人的行为活动，注重更加细节的特征提取和交互推理。

Description

一种以人为中心的图像描述标注方法、系统、终端及介质

技术领域

本发明涉及计算机视觉与自然语言处理领域，具体地，涉及一种以人为中心的图像描述标注方法、系统、终端及介质。

背景技术

了解照片中的人类活动一直是计算机视觉的基本目标。Google Apps和iCloudPhotos等照片应用程序已应用了高级视觉技术来标记人物和物体。但是，简单的人物标签无法讲述有关图像内容的生动故事。根据图像或视频生成关于人类活动或人物关系的准确描述对于一系列实际应用而言可能是一项重要技术，例如监控视频分析，图像检索，体育赛事直播以及对服务视障人群。

近年来，提出了许多使用自然语言在图像中描述对象及其关系的字幕方法。其中，针对不同目的设计了不同的技术解决方案。例如，MSCap学习描述不同样式的字幕，SGAE旨在捕获关系，Regions-Hierarchical生成逻辑段落/故事。尽管现阶段已经获得了一些较好的图像描述成果，但是对于人类活动的理解和描述，它们可能不是经过特定设计和优化。首先，单个图像可能包含多个对象/场景。一般的图像描述模型主要集中于通过池化过程来探索显著物体，而忽略它们的结构以及与周围环境的相互作用。考虑到它们之间的复杂关系对，这些模型可能很难像我们期望的那样关注人类活动。例如，最新的上下模型忽略了人类动作，甚至无法描述其与周围物体的关系，即使检测到相关物体也是如此。此外，与大多数仅需要捕获对象级特征的图像描述任务/模型不同，人类活动很大程度上取决于其运动(或姿势)，而不是周围的对象。当马和一个人同时出现在图片上时，动作可能是“喂马”而不是“骑马”，这需要根据手和脚的动作进行进一步的判断。因此，考虑到现实世界中的广泛应用，开发以人为中心的图像描述技术也至关重要。

经过检索发现：

授权公告号为CN111737511A，授权公告日为2020年10月02日的中国发明专利《基于自适应局部概念嵌入的图像描述方法》，其中涉及了一种基于自适应局部概念嵌入的图像描述方法，该方法采用基于注意力机制对图像局部特征进行建模的方案，存在如下技术问题：首先，其局部特征是根据检测器随机生成，容易产生噪声数据；其次，它没有引入人体的先验信息，无法对人体局部进行建模；最后，该专利无法区分人体与背景以及物体的特征区别，无法区分信息。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种以人为中心的图像描述标注方法、系统、终端及介质。

根据本发明的一个方面，提供了一种以人为中心的图像描述标注方法，包括：

对图像进行目标检测，得到图像中的所有检测目标；

针对所述检测目标中的人体，计算人体每一个关键部位的关键点坐标以及概率，，生成人体姿态关键点；

根据人体比例以及所述人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征；

根据所述人体的特定局部特征，对所有检测目标进行特征层次化分级；

将不同层次的特征进行特征分析以及特征融合，将得到的融合特征进行图像描述单词的预测，生成图像描述标注。

优选地，所述对图像进行目标检测，得到图像中的所有检测目标，包括：

将输入的图像经过数据归一化，并利用预先在MSCOCO数据集上训练好的Faster-RCNN目标检测模型检测出图像中的所有人体和物体作为检测目标，并输出所有人体和物体的坐标以及尺寸大小。

优选地，所述针对所述检测目标中的人体，计算人体每个关键部位的坐标以及概率，，生成人体姿态关键点，包括：

针对所述检测目标中的所有人体，利用其坐标以及尺寸大小，对所有人体进行裁剪并缩放到相同大小，完成预处理；

对预处理后的每一个人体，采用人体姿态估计模型，检测出人体每一个关键部位的关键点坐标以及概率；

根据所述概率，去除概率值低于设定阈值的关键点，得到人体姿态关键点。

优选地，所述根据人体比例以及所述人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征，包括：

对于每一个人体姿态关键点，根据人体四肢的比例关系，以关键点坐标为中心生成感兴趣区域作为人的各个部位与环境交互的语义局部，得到人体的特定局部特征。

优选地，所述根据所述人体的特定局部特征，对所有检测目标进行特征层次化分级，包括；

利用注意力机制，将所述检测目标进行特征层次化分级为：人体特征v_human、行为相关特征v_activty、背景特征v_back和检测特征v_det；其中：

所述检测特征v_det用于提供检测区域的视觉外观信息；

所述人体特征v_human包括全局和局部外观信息，用于提供人体的姿势和四肢状态；

所述行为相关特征v_activty用于提供人体交互对象或人体动作信息；

所述背景特征v_back用于提供活动环境的信息。

优选地，利用注意力网络和全连接网络，构建以人为中心特征层次化模型，并通过所述以人为中心特征层次化模型按照层次分类获取所述人体特征v_human、行为相关特征v_activty、背景特征v_back和检测特征v_det，包括如下任意一项或任意多项：

-所述检测特征v_det通过以下方式获取：

通过预训练的Fast-RCNN目标检测网络提取检测区域，然后转换为固定大小后转移到全连接网络中获取；

-所述人体特征v_human通过以下方式获取：

根据所述人体的特定局部特征，从检测区域中提取身体特征v_body和人体四肢特征v_part，生成四肢状态特征；

将检测特征v_det的平均值

作为图像的全局上下文信息，对四肢状态特征进行优化；

优化后的四肢状态特征定义为：

其中[·；·]表示拼接操作；

通过平均池化操作整合人体局部和整体的信息，以获得人体姿态信息v_human′，将v_human′传递到全连接网络生成人体特征v_human；

-所述行为相关特征v_activty通过以下方式获取：

将人体姿态信息v_human′作为查询子并计算人体交互对象的注意力特征att^obj＝f_att(v_det,v_human′)以及注意力权重w_obj，其中，w_obj表示每个检测特征与物体的相关性，f_att(·)表示注意力函数；

拼接人体姿态特征v_human′和人体交互对象的注意力特征att^obj，并作为查询子，计算人体动作注意力特征att^activity＝f_att(v_det,[v_human′；att^obj])以及动作的相关性w_action；

保留w_obj或w_action大于阈值λ的检测特征作为行为相关特征，其中，λ为一个超参，用于控制特征的选择；

-所述背景特征v_back通过以下方式获取：

从检测特征v_det中去除掉行为相关特征v_activty，其余特征则构成了背景特征v_back的集合。

优选地，所述将不同层次的特征进行特征分析以及特征融合，将得到的融合特征进行图像描述单词的预测，生成图像描述标注，包括：

对于获得的不同层次的特征，分别送入多分支网络的对应分支中，计算多个分支的注意力特征；其中：

所述多个分支包括：故事情节分支、人体相关分支以及非人体相关分支；每一个分支均通过相互独立的注意力模块计算注意力向量；

所述注意力模块，利用长短期记忆网络中的隐藏状态

作为查询子，将隐藏状态

和要素集合均输入到注意力函数f_att中，以获得预测下一个单词的注意力特征

式中，

代表activity、back或det；

所述计算多个分支的注意力特征，包括如下任意一项或任意多项：

-获取所述故事情节分支的输出注意力特征，包括：

-获取所述人体相关分支的输出注意力特征，包括：

根据隐层状态

从行为相关特征v_activity的集合中获得加权注意力向量

采用两层全连接网络，构建局部校准模型，通过所述局部校准模型，利用人体局部特征对隐层状态

进行更新校准，包括：

首先引入局部特征：

式中，

和

是可学习的参数，其中R表示实数域，R的上标为维数，

表示v_human中特征向量的均值，

表示含有人体局部信息的特征向量；

采用门控模块自动控制信息流：

式中，

表示人相关信息的通过率，

表示v_avtivity中特征向量的均值，σ表示Sigmoid函数，

是门控模块中的参数；获得与人体相关的注意力特征，即为人体相关分支的输出注意力特征

式中，⊙表示Hadamard逐元素乘积；

-获取所述非人体相关分支输出的注意力特征，包括：

给定背景特征v_back，根据如下公式：

获得门控模块的结果

然后得出与人体无关的注意力特征，即为非人体相关分支输出的注意力特征

最后整合所有注意力特征来预测下一个单词

其中，

为故事情节分支输出的注意力特征，

为人体相关分支输出的注意力特征，

为非人体相关分支输出的注意力特征；将

和

拼接起来作为长短期记忆网络的输入，生成图像描述。

根据本发明的另一个方面，提供了一种以人为中心的图像描述标注系统，包括：

目标检测模块，该模块对图像进行目标检测，得到图像中的所有检测目标；

人体姿态关键点生成模块，该模块针对所述检测目标中的人体，计算人体每一个关键部位的关键点坐标以及概率，生成人体姿态关键点；

特定局部特征获取模块，该模块根据人体比例以及所述人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征；

特征层次化分级模块，该模块根据所述人体的特定局部特征，对所有检测目标进行特征层次化分级；

图像描述标注模块，该模块将不同层次的特征进行特征分析以及特征融合，将得到的融合特征进行图像描述单词的预测，生成图像描述标注。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的以人为中心的图像描述标注方法、系统、终端及介质，能够更加详细且准确地描述人的行为活动，注重于更加细节的特征提取和交互推理。

2、本发明提供的以人为中心的图像描述标注方法、系统、终端及介质，将层次化分类的特征输入到一个新型三分支模型中。在这些信息流的处理过程中，故事情节分支为句子生成主要的描述内容，而人相关分支和非人相关分支则提供了更多信息来校准该描述内容。

3、本发明提供的以人为中心的图像描述标注方法、系统、终端及介质，能够快速有效地自动层次化分类检测目标，然后分析图像中出现的人的四肢动作得到相应的交互对象，最终生成针对图像的准确描述，有效突出人的动作活动，同时提高背景描述的准确性和多样性。

4、本发明提供的以人为中心的图像描述标注方法、系统、终端及介质，可以使用于监控视频分析，图像检索，体育赛事直播以及对服务视障人群等计算机视觉领域的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例提供的以人为中心的图像描述标注方法的流程图。

图2为本发明一优选实施例提供的以人为中心的图像描述标注方法的流程图。

图3为本发明一优选实施例中原图像、生成描述以及基本框架与目前其他方法对比示意图；

图4为本发明一优选实施例中提供的以人为中心的图像描述标注方法中所设计的各工作模块及工作过程示意图；

图5为本发明一优选实施例中以人为中心特征层次化模型、人体相关分支和非人相关分支结构示意图，其中(a)为以人为中心特征层次化模型结构示意图，(b)为人体相关分支和非人体相关分支结构示意图；

图6为本发明一优选实施例中生成图像描述以及以人为中心特征层次化模型结果示意图，第一行为原始图片，第二行为以人为中心特征层次化模型中的注意力关注区域的结构，第三行是现有公知模型Up-Down生成的描述，第四行是本申请提供的以人为中心的图像描述标注方法(HCCM)生成的描述，第五行是数据集中给定的图像描述；

图7为本发明一实施例提供的以人为中心的图像描述标注系统的组成模块示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，该实施例提供的以人为中心的图像描述标注方法，可以包括如下步骤：

S100，对图像进行目标检测，得到图像中的所有检测目标；

S200，针对检测目标中的人体，计算人体每一个关键部位的关键点坐标以及概率，，生成人体姿态关键点；

S300，根据人体比例以及人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征；

S400，根据人体的特定局部特征，对所有检测目标(包括人和物体)进行特征层次化分级；

S500，将不同层次的特征进行特征分析以及特征融合，将得到的融合特征进行图像描述单词的预测，生成图像描述标注。

在该实施例的S100中，作为一优选实施例，对图像进行目标检测，得到图像中的所有检测目标，可以包括如下步骤：

在该实施例的S200中，作为一优选实施例，针对检测目标中的人体，计算人体每个关键部位的坐标以及概率，，生成人体姿态关键点，可以包括如下步骤：

S201，针对检测目标中的所有人体，利用其坐标以及尺寸大小，对所有人体进行裁剪并缩放到相同大小，完成预处理；

S202，对预处理后的每一个人体，采用人体姿态估计模型，检测出人体每一个关键部位的关键点坐标以及概率；

S203，根据概率，去除概率值低于设定阈值的关键点，得到人体姿态关键点。

在该实施例的S300中，作为一优选实施例，根据人体比例以及人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征，可以包括如下步骤：

在该实施例的S400中，作为一优选实施例，根据人体的特定局部特征，对所有检测目标进行特征层次化分级，可以包括如下步骤；

利用注意力机制，将检测目标进行特征层次化分级为：人体特征v_human、行为相关特征v_activty、背景特征v_back和检测特征v_det；其中：

检测特征v_det用于提供检测区域的视觉外观信息；

人体特征v_human包括全局和局部外观信息，用于提供人体的姿势和四肢状态；

行为相关特征v_activty用于提供人体交互对象或人体动作信息；

背景特征v_back用于提供活动环境的信息。

进一步地，作为一优选实施例，利用注意力网络和全连接网络，构建以人为中心特征层次化模型(Human-Centric Feature Hierarchization，HCFH)，通过该以人为中心特征层次化模型，按照层次分类获取人体特征_vhuman、行为相关特征v_activty、背景特征v_back和检测特征v_det，具体地：

检测特征v_det通过以下方式获取：

人体特征v_human通过以下方式获取：

根据人体的特定局部特征，从检测区域中提取身体特征v_body和人体四肢特征v_part，生成四肢状态特征；

将检测特征v_det的平均值

作为图像的全局上下文信息，对四肢状态特征进行优化；

优化后的四肢状态特征定义为：

其中[*；*]表示拼接操作；

行为相关特征v_activty通过以下方式获取：

将人体姿态信息v_human′作为查询子并计算人体交互对象的注意力特征att^obj＝f_att(v_det,v_human′)以及注意力权重w_obj，用以表示每个检测特征与物体的相关性其中，f_att(·)表示注意力函数；

背景特征v_back通过以下方式获取：

进一步地，作为一优选实施例，以人为中心特征层次化模型(Human-CentricFeature Hierarchization，HCFH)用于层次分类上述特征；具体地，使用v_re-part特征作为查询子并引入注意力机制用于从检测特征选取出所需特征。

在该实施例的S500中，作为一优选实施例，将不同层次的特征进行特征分析以及特征融合，将得到的融合特征进行图像描述单词的预测，生成图像描述标注，可以包括如下步骤：

S501，对于获得的不同层次的特征，分别送入多分支网络的对应分支中，计算多个分支的注意力特征；其中：

多个分支包括：故事情节分支、人体相关分支以及非人体相关分支；每一个分支均通过相互独立的注意力模块计算注意力向量；

注意力模块，利用长短期记忆网络中的隐藏状态

作为查询子，将隐藏状态

式中，

代表activity、back或det。

S502，获取故事情节分支的输出注意力特征，可以包括如下步骤：

进一步地，作为一优选实施例，获取人体相关分支的输出注意力特征，可以包括如下步骤：

根据隐藏状态

从行为相关特征v_activity的集合中获得加权注意力向量

采用两层全连接网络，构建局部校准模型(PartCali模型)，通过该局部校准模型，利用人体局部特征对隐层状态

进行更新校准，包括：

首先引入局部特征：

式中，

和

是可学习的参数，其中R表示实数域，R的上标为维数，，

表示v_human中特征向量的均值，

表示含有人体局部信息的特征向量；

采用门控模块用来自动控制信息流：

式中，

表示人相关信息的通过率，

表示v_avtivity中特征向量的均值，σ表示Sigmoid函数，

式中，⊙表示Hadamard逐元素乘积；

进一步地，作为一优选实施例，获取非人体相关分支输出的注意力特征，可以包括如下步骤：

给定背景特征v_back，根据如下公式：

获得门控模块的结果

最后整合所有注意力特征来预测下一个单词

其中，

为故事情节分支输出的注意力特征，

为人体相关分支输出的注意力特征，

为非人体相关分支输出的注意力特征；将

和

拼接起来作为长短期记忆网络的输入，生成图像描述。

如图2所示，该优选实施例提供的以人为中心的图像描述标注方法，可以包括如下步骤：

第一步，检测图像中所有目标：

将输入的图像通过目标检测算法检测出图像所包含的所有目标，包括人和物体。

作为一优选实施例，第一步中，仅需检测出图像内所包含的所有人和物体，并提取相应特征作为后续模型的输入。

作为一优选实施例，第一步中，具体为：

将输入的图像经过数据归一化，并利用预先在MSCOCO数据集上训练好的Faster-RCNN目标检测模型检测出图像中所有的人和物体，并输出其坐标以及尺寸大小，并利用该模型提取的特征作为后续模型的输入。

第二步，生成人体姿态关键点：

将被检查出来的每一个人都输入到人体姿态估计算法中，输出人体每个关键部位的坐标以及概率，然后根据预测概率去除部分预测概率低与设定阈值的关键点。

作为一优选实施例，第二步中，对每个人体提取关键点以表示人体结构，具体的是：在经过第一步的目标检测之后，图像中的所有人已经被检测出来了，利用其坐标以及尺寸大小将所有人体裁剪出来并缩放到相同大小，并使用人体姿态估计模型对每个预处理好的人体检测相应的关键点并输出其概率，去除部分概率值低于设定阈值的关键点。

第三步，生成人身体局部感兴趣区域：

根据人体比例以及人体姿态关键点的位置信息为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征。

作为一优选实施例，对于每一个人体姿态关键点，根据人体四肢的比例关系，以关键点坐标为中心生成合适大小的感兴趣区域作为人的各个部位与环境交互的语义局部，以此作为人行为分析的细粒度特征，即人体的特定局部特征。

第四步，层次化分级各个目标特征：

根据人体的特定局部特征，利用注意力机制将所有检测目标特征层次化分级为四类：(1)人体特征，(2)背景特征，(3)行为相关特征，(4)检测特征。

作为一优选实施例，第四步中，人的身体姿势可以为人体行为的类型和相应的互动对象提供推理依据，并且图像的背景可以提供有关位置，时间等的信息，这使事件描述更加详尽准确。具体来讲，图像特征分层为四种类型：人体特征，行为相关的特征，背景特征和检测特征。

其中，检测特征v_det包含检测区域的视觉外观信息。通过预训练的Fast-RCNN提取的这些检测区域首先被转换为固定大小，然后转移到全连接网络中以获得检测特征。

身体特征v_body和人体四肢特征v_part也从相应区域中提取。具体而言，从包含整个人的区域中提取身体特征。因此，这些特征可以从整体上提供人的姿势信息。然而，粗略的表示不足以准确地描绘出人的行为特征。因此，考虑到人主要通过身体的四肢与周围环境互动，一个人被分解为人体局部的集合，包括头部，肩膀，手，臀部，膝盖和脚踝。人体的局部特征可以提供更细粒度的信息以推断出人类的行为，这些人体部位的区域位置是根据人体姿态关键点和人体各部位比例先验生成的。

人的特征包含全局和局部外观信息，提供了人的姿势和四肢状态。因此首要目标是生成这些四肢状态。具体地，将人体特征作为人整体姿态的线索，然后将检测特征的平均值作为图像的全局上下文信息。因此，优化后的四肢状态定义为

其中[·；·]表示拼接操作。然后，通过平均池化操作整合每个零件信息，以获得v_human′。最后，将v_human′传递到全连接网络以生成人体特征v_human。

行为相关特征v_activty是含有人类交互对象或人类动作信息的检测特征。为了选择这些特征，注意力机制被引入用来计算每个检测特征的相关性。由于人类的姿态和身体四肢信息可以为这些特征选择提供线索，因此将v_human′用作查询子并计算人体交互对象的注意力特征att^obj＝f_att(v_det,v_human′)以及注意力权重w_obj，用以表示每个检测特征与物体的相关性。基于人体姿态信息v_human′和物体信息att^obj，可以以相同的方式获得动作的相关性w_action。最后，保留w_obj或w_action大于阈值λ的检测特征作为行为相关特征，其中λ为一个超参，用于控制特征的选择。

背景功能v_back提供活动环境的信息(例如地点，时间)。具体地，从检测特征中去除掉行为相关的特征，其余特征构成了背景特征集合。

作为一优选实施例，第四步中，采用Human-Centric Feature Hierarchization(HCFH)模型进行层次分类上述特征。具体地，使用v_re-part特征作为查询子并引入注意力机制用于从检测特征选取出所需特征。

第五步，生成图像描述标注：

将不同层次的特征送入到一个多分支网络的对应的分支中，然后不同的层次采用门控网络结构以及注意力机制进行分析以及信息融合，最后将融合特征输入进长短期记忆网络进行图像描述单词的预测。

作为一优选实施例，第五步中，该图像描述方法基于三分支构架，包括故事情节分支，人相关分支和非人相关分支。具体地，故事情节分支旨在承载句子的故事情节。人相关分支旨在校准人行为的描述，而非人相关分支则旨在从背景中提取与人无关的信息。

作为一优选实施例，第五步中，在获得检测特征v_det，人体特征v_human，活动相关特征v_activity和背景特征v_back从HCFH模块中获取，然后计算三个分支的注意力向量。对于注意力模块，利用长短期记忆网络中的隐藏状态

作为查询子。然后，将

和要素集合都输入到注意力函数f_att中，以获得预测下一个单词的基本线索：

其中

代表“activity”，“back”或“det”。

作为一优选实施例，第五步中，不同分支中所使用的注意力模块相互独立。

作为一优选实施例，第五步中，由于故事情节分支旨在承载整个故事情节，因此需要处理全局上下文信息。因此，故事情节分支的输出注意力向量为：

作为一优选实施例，第五步中，人相关分支旨在提供细粒度的线索，以生成对人为行为的准确描述。根据

从与活动相关的特征集v_activity中获得了加权注意力向量

考虑到v_activity提供的信息是从整体角度分析一个人的行为，因此还需要从更细粒度的特征中挖掘线索。由此设计了局部校准模型(PartCali模型)，通过引入局部特征来解决此问题。为了降低计算成本，可使用由HCFH模块生成的v_human特征。它集成了图像中的人体局部和整体的信息。其表达式为：

其中

和

是可学习的参数。

作为一优选实施例，由于句子由与人类无关的单词组成，因此在预测此类单词时，

和

会产生噪声影响，故采用了门控模块用来自动控制信息流：

其中σ表示Sigmoid函数，

是门控模块中的参数。故可以通过以下方式获得与人类有关的注意力向量：

其中⊙表示Hadamard逐元素乘积。

作为一优选实施例，第五步中，非人相关分支旨在从背景中提取与人无关的信息。人分支只涉及与人有关的部分，而故事情节分支则可以提供人以外的信息。因此,在非人相关分支中独立分析背景特征v_back，以提高模型对背景的分析能力。具体地，利用与人相关分支相似的结构来确保将特征投影到同一空间。给定背景特征v_back，根据如下等式

可以获得门控模块的结果

然后通过公式得出与人无关的注意力向量

作为一优选实施例，第五步中，最后整合所有注意力特征来预测下一个单词

然后将

和

拼接起来作为长短期记忆网络的输入，以生成图像描述。

下面结合附图对本发明上述优选实施例提供的以人为中心图像描述标注方法，进一步详细描述如下。

如图3所示，本发明上述优选实施例提供的与公知模型Up-Down的区别对比图。

如图4所示，本发明上述优选实施例提供的以人为中心图像描述标注方法，通过分析图像中出现的人的四肢局部细节，分析与周围对象的关系，然后自动层次化分类检测目标，最终生成针对图像的准确描述，有效突出人的动作活动，同时提高背景描述的准确性和多样性。

如图5所示，上述优选实施例提供的HCFH、人体相关分支和非人相关分支结构示意图，其中(a)为HCFH结构示意图，(b)为人体相关分支和非人体相关分支结构示意图；

如图6所示，上述优选实施例提供的生成图像描述以及HCFH模型结果示意图，第一行为原始图片，第二行为HCFH模块中的注意力关注区域的结构，第三行是Up-Down(一个公知模型)生成的描述，第四行是本专利模型生成的描述，第五行是数据集中给定的图像描述；

该优选实施例中对于一幅输入图像，按照如下详细步骤进行处理：

1、检测图像中所有目标

2、生成人体姿态关键点

将被检查出来的每一个人都输入到人体姿态估计算法中，输出人体每个关键部位的坐标以及概率，然后根据预测概率去除部分预测概率低的关键点，并根据各关键点之间的关系合并部分细分的关键点。对每个人体提取关键点以表示人体结构，具体的是：在经过第一步的目标检测之后，图像中的所有人已经被检测出来了，利用其坐标以及尺寸大小将所有人体裁剪出来并缩放到相同大小，并使用人体姿态估计模型对每个预处理好的人体检测相应的关键点并输出其概率，去除部分概率较小的点，并根据关键点定义的先验合并相关度较高的关键点。

3、生成人身体局部感兴趣区域

根据人体比例以及人体姿态关键点的位置信息为人体的特定部位生成包含周围语义信息的感兴趣区域。对于每一个人体姿态关键点，根据人体四肢的比例关系，以关键点坐标为中心生成合适大小的感兴趣区域作为人的各个部位与环境交互的语义局部，以此作为人行为分析的细粒度特征。

4、层次化分级各个目标特征

然后利用Human-Centric Feature Hierarchization(HCFH)模块层次分类上述特征。具体地，使用v_re-part特征作为查询子并引入注意力机制用于从检测特征选取出所需特征。

5、生成图像描述标注

具体而言，在获得检测特征v_det，人体特征v_human，活动相关特征v_activity和背景特征v_back从HCFH模块中获取，然后计算三个分支的注意力向量。对于注意力模块，利用长短期记忆网络中的隐藏状态

作为查询子。然后，将

其中

代表“activity”，“back”或“det”。

然后由故事情节分支的输出注意力向量为：

接着人相关分支旨在提供细粒度的线索，以生成对人为行为的准确描述。根据

从与活动相关的特征集v_activity中获得了加权注意力向量

然后经过PartCali模块，引入局部特征来解决此问题。为了降低计算成本，可使用由HCFH模块生成的v_human特征。它集成了图像中的人体局部和整体的信息。其表达式为：

其中

和

是可学习的参数。

然后利用门控模块用来自动控制信息流：

其中σ表示Sigmoid函数，

其中⊙表示Hadamard逐元素乘积。

给定背景特征v_back，根据如下等式：

可以获得门控模块的结果

然后通过公式得出与人无关的注意力向量

最后整合所有注意力特征来预测下一个单词

然后将

和

拼接起来作为长短期记忆网络的输入，以生成图像描述。

本发明另一实施例提供了一种以人为中心的图像描述标注系统，如图7所示，该系统可以包括：目标检测模块、人体姿态关键点生成模块、特定局部特征获取模块、特征层次化分级模块以及图像描述标注模块。其中：

人体姿态关键点生成模块，该模块针对检测目标中的人体，计算人体每一个关键部位的关键点坐标以及概率，生成人体姿态关键点；

特定局部特征获取模块，该模块根据人体比例以及人体姿态关键点的位置信息，为人体的特定部位生成包含周围语义信息的感兴趣区域，得到人体的特定局部特征；

特征层次化分级模块，该模块根据人体的特定局部特征，对所有检测目标(包括人和物体)进行特征层次化分级；

本发明第三个实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行上述任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项的方法。

本发明上述实施例提供的以人为中心的图像描述标注的方法、系统、终端及介质，首先通过目标检测算法检测图像中出现的人体和物体；然后对于每一个人体，利用人体姿态估计算法来检测出人体的关键点并给予每个关键点对应的位置标注以及预测概率；然后根据概率去除部分概率过小的关键点，并根据人体姿态各关键点之间的相互关系合并部分关键点，去除冗余信息；然后根据人体比例先验为剩余人体姿态关键点估计人身体局部感兴趣区域大小；根据人体的局部特征对检测到的物体进行层次化分类，将所有的检测目标分为四类：(1)人体特征，(2)背景特征，(3)行为相关特征，(4)检测特征；最后将这四类特征分别输入到一个多分支网络对应分支内进行信息流的处理以及整合，利用长短期记忆网络以及注意力机制来生成对应图像的描述信息。通过本发明上述实施例得到的图像描述标注能够准确地描述人体的动作信息，以及与之交互的物体，并且能够更加全面地描述图像中的活动以及背景环境信息。

本发明上述实施例提供的以人为中心的图像描述标注的方法、系统、终端及介质，能够更加详细且准确地描述人的行为活动，侧重于更加细节的特征提取和交互推理。此外，本发明还将层次化分类的特征输入到一个新型三分支模型中。在这些信息流的处理过程中，故事情节分支为句子生成主要的描述内容，而人相关分支和非人相关分支则提供了更多信息来校准该描述内容。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。