CN111931703A

CN111931703A - 基于人-物体交互弱监督标签的物体检测方法

Info

Publication number: CN111931703A
Application number: CN202010961981.1A
Authority: CN
Inventors: 李寅霖; 杨旭; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-11-13
Anticipated expiration: 2040-09-14
Also published as: CN111931703B

Abstract

本发明属于计算机视觉、机器人视觉领域，具体涉及一种基于人‑物体交互弱监督标签的物体检测方法，旨在解决现有的弱监督物体检测方法模型收敛速度慢、检测精度较差的问题。本发明方法包括：获取待检测的图像，作为输入图像；通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果；其中，弱监督物体检测模型基于深度卷积神经网络构建。本发提高了弱监督物体检测的精度。

Description

基于人-物体交互弱监督标签的物体检测方法

技术领域

本发明属于计算机视觉、机器人视觉领域，具体涉及一种基于人-物体交互弱监督标签的物体检测方法、系统、装置。

背景技术

随着移动互联网和智能终端设备的普及，网络图片数据量迅猛增长。但是，目标检测所需的物体“边界框”标签，标注成本较高、标注过程枯燥，而图片中的类别级标签较易获得，成本较低，因此，基于类别标签的弱监督目标检测技术备受关注。

一方面，当前的多数弱监督目标检测方法基于多实例学习（MIL）框架设计，并将物体作为独立个体进行分析，如WSDNN模型，后续研究又进一步引入了迭代增强、上下文信息、多阶段处理等策略；然而，基于MIL框架的方法，多关注于物体的判别性部件而非物体整体，定位精度较差。

另一方面，在日常生活中，物体与人交互频繁，此类数据在网络图片/视频中占比较大，且对人和物体的交互识别对行为分析、视频分割和机器人自学习都具有重要意义。更重要的是，人的检测和关键点定位技术已经较为成熟，可预先获得较为准确的先验知识，为物体定位提供一个粗糙候选区域。然而，当前的人-物体交互检测多基于强监督标签，即已知训练集中人、物体的“边界框”信息。而少数弱监督方法中，对物体候选边界框的选择、人与物体的交互关系建模较为简单，不利于模型的收敛，难以获得较高的定位精度。针对上述问题，本发明提出了一种基于人-物体交互弱监督标签的物体检测方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的弱监督物体检测方法忽略人与物体交互上下文建模，及人与物体的交互关系建模较为简单导致模型收敛速度慢、检测精度较差的问题，本发明提出了一种基于人-物体交互弱监督标签的物体检测方法，该方法包括：

步骤S10，获取待检测的图像，作为输入图像；

步骤S20，通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果；其中，所述弱监督物体检测模型基于深度卷积神经网络构建，其训练方法为；

步骤A10，获取训练样本图像，并提取所述训练样本图像的特征；

步骤A20，获取所述训练样本图像中各人类行为、物体的类别标签；并通过类别激活图CAM得到各类别标签的CAM响应值；

步骤A30，获取所述训练样本图像中的候选人区域及对应的置信度；对各候选人区域，结合其对应的置信度、各人类行为的类别标签的CAM响应值，通过预设的第一方法得到其对应的综合得分；将综合得分最高的候选人区域作为第一区域；

步骤A40，利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度；对各物体候选区域，基于其对应的置信度、各类别标签的CAM响应值，通过预设的第二方法得到其对应的综合得分；

步骤A50，选取SS排序前n的物体候选区域构建第一集合；对所述第一集合中各物体候选区域，通过预设的聚类方法获取其聚类后对应的样本类型，并更新其对应的置信度，作为第一置信度；n为正整数；

步骤A60，基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率，结合各区域的宽高比，构建多维度特征，并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率，作为第一概率；所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征；

步骤A70，按照设定数量比例采样不同样本类型的物体候选区域构建第二集合；基于所述第二集合中各物体候选区域及其对应提取的卷积层特征，通过所述深度卷积神经网络的ROI特征池化层、全连接层，获取物体类别的分类概率，并结合各第一置信度，构建该概率的损失，作为第一损失；基于所述第一损失，结合所述第一概率，构建第二损失；

步骤A80，基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征，通过深度卷积神经网络的ROI特征池化层、全连接层，获取行为类别的概率，并结合所述第一概率构建该行为类别的概率的损失，作为第三损失；

步骤A90，对所述第二损失、所述第三损失进行加权求和，得到综合损失；根据所述综合损失对所述弱监督物体检测模型的参数进行更新；

步骤A100，循环执行步骤A10-步骤A90，直至得到训练好的弱监督物体检测模型。

在一些优选的实施方式中，步骤A30中“对各候选人区域，结合其对应的置信度、各人类行为的类别标签的CAM响应值，通过预设的第一方法得到其对应的综合得分”，其方法为：

对各候选人区域，结合其对应的置信度、第一均值、第二均值进行加权求和，作为各候选人区域对应的综合得分；所述第一均值为候选人区域所有人类行为的类别标签的CAM响应值求均值后的值；所述第二均值为候选人区域进行设定比例的缩放后所有物体的类别标签的CAM响应值求均值后的值。

在一些优选的实施方式中，步骤A40中“对各物体候选区域，基于其对应的置信度、各类别标签的CAM响应值，通过预设的第二方法得到其对应的综合得分”，其方法为：

对各物体候选区域，结合其对应的置信度、第三均值、第四均值进行加权求和，作为各物体候选区域对应的综合得分；所述第三均值为物体候选区域所有物体的类别标签的CAM响应值求均值后的值；所述第四均值为物体候选区域进行设定比例的缩放后所有人类行为的类别标签的CAM响应值求均值后的值。

在一些优选的实施方式中，步骤A50中“通过预设的聚类方法获取其聚类后对应的样本类型，并更新其对应的置信度，作为第一置信度”，其方法为：

步骤A51，将所述第一集合中综合得分最高的物体候选区域作为聚类中心，计算当前聚类中心与其他物体候选区域的IOU得分；计算后，将IOU得分大于设定阈值的物体候选区域聚为一类，并从第一集合中删除；

步骤A52，判断所述第一集合是否为空或获取聚类后类的个数是否大于设定阈值，若是，则执行步骤A53，否则循环执行步骤A51；

步骤A53，计算聚类后的各类的聚类得分并进行降序排序；排序后，按照排序顺序依次设置各类中的物体候选区域的样本类型，并更新对应的置信度，作为第一置信度。

在一些优选的实施方式中，步骤A20中“通过类别激活图CAM得到各类别标签的CAM响应值”，其方法为：通过预训练的类别激活图分类神经网络进行类别激活映射得到各类别标签的CAM响应值；所述激活图分类神经网络基于残差网络、全局平均池化和多标签软间隔损失构建。

在一些优选的实施方式中，步骤A60中“基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率、结合各区域的宽高比，构建多维度特征”，其方法为：

其中，

表示多维度特征，

表示物体候选区域，

表示第一区域，

表示物体候选区域的中心点，

表示第一区域的中心点，

、

表示第一区域的宽、高，

、

表示物体候选区域的宽、高。

在一些优选的实施方式中，步骤A90“对所述第二损失、所述第三损失进行加权求和，得到综合损失”，其方法为：

其中，

表示综合损失，

表示第二损失，

表示第三损失，

表示第一损失，

、

表示预设的权重，

表示输出的物体类别的概率，

表示物体的类别标签，

表示第一置信度，

表示物体候选区域的个数，

表示一张训练样本图像中人类行为的类别标签的个数，

表示输出的行为类别的概率，

表示人类行为的类别标签

是否存在，存在为1不存在为0，

表示第一区域，

表示当前物体候选区域，

表示第一概率，

表示人类行为类别标签。

本发明的第二方面，提出了一种基于人-物体交互弱监督标签的物体检测系统，该系统包括：获取模块、检测模块；

所述获取模块，配置为获取待检测的图像，作为输入图像；

所述检测模块，配置为通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果；其中，所述弱监督物体检测模型基于深度卷积神经网络构建，其训练方法为；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于人-物体交互弱监督标签的物体检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器和存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于人-物体交互弱监督标签的物体检测方法。

本发明的有益效果：

本发明提高了物体检测的精度。

（1）本发明基于人和物体在同一行为中有相似交互方式的假设，及认知科学中发现的人-物体在交互时的识别具有互相增强作用的结论，对人和物体的候选区域进行学习，对物体候选区域进行了聚类和选择，提升了网络学习的标签质量；

（2）通过高斯函数，构建了人-物体交互的多维空间关系模型，且高斯参数在整个训练过程中可学习，提高了特征提取的质量及模型建模的精度；

（3）另外，本发明在基于类别标签的弱监督情况下，基于特征响应图对候选区域进行了充分过滤和挖掘，对人与物体的交互信息进行了细化建模，相关实验表明，相比于当前其他弱监督方法，可获得的更高的物体检测精度。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1 是本发明一种实施例的基于人-物体交互弱监督标签的物体检测方法的流程示意图；

图2为本发明一种实施例的基于人-物体交互弱监督标签的物体检测系统的框架示意图；

图3是本发明一种实施例的弱监督物体检测模型的训练过程的简略流程示意图；

图4 是本发明一种实施例的弱监督物体检测模型的训练过程的详细流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种基于人-物体交互弱监督标签的物体检测方法，如图1、图4所示，该方法包括以下步骤：

步骤S10，获取待检测的图像，作为输入图像；

为了更清晰地对本发明基于人-物体交互弱监督标签的物体检测方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

在下文实施例中，先对弱监督物体检测模型的训练过程进行描述，如图3所示，具体在下文中描述，再对基于人-物体交互弱监督标签的物体检测方法获取检测结果进行详述。

1、弱监督物体检测模型的训练过程

在本实施例中，弱监督物体检测模型基于深度神经网络构建。基于构建好的模型，先获取模型训练的样本图像，并通过深度卷积神经网络的特征共享学习网络（即特征提取层）提取训练样本的卷积层特征。在本发明中，特征共享学习网络优选采用VGG-16或ResNet构建。

在本实施例中，提取完训练样本图像之后，分别提取训练样本图像的物体类别标签

和人类行为的类别标签

，并分别计算各类别标签对应的CAM响应。本发明中，预构建了两个类别激活图分类神经网络CAM_1, CAM_2，两个类别激活图分类神经网络以ResNet50作为特征提取网络，并级联全局平均池化以及多标签软间隔的损失实现分类，即基于训练样本图像的物体类别标签集合

和人类行为类别标签集合

，通过预构建的类别激活图分类神经网络，分别计算各类别标签的CAM响应

、

。

在本实施例中，由于一张图像中可能有多个人，并非每个人都参与“活动”，但是至少有一人参与。因此，我们基于人类行为和物体的CAM响应值综合判断，选择最显著的人作为“活动”人。

本发明中，使用预训练好的Mask-RCNN实现行人检测，得到候选人区域集合

和置信度得分集合

。

一个图像可能有多个人类行为标签，针对每个候选人区域

，计算在各候选区域所有人类行为的类别标签的CAM响应的均值

，作为第一均值，

表示候选人区域

内的一个像素点。

由于多数目标物体与人是直接交互的，“活动”人候选区膨胀后一般会包含部分交互物体。因此，对每个候选人区域

，按照长、宽

膨胀得到

，计算在膨胀后的候选区域、所有物体类别的CAM响应的均值

，作为第二均值。

针对每个候选人区域

，结合其对应的置信度、第一均值、第二均值进行加权求和，作为各候选人区域对应的综合得分；将综合得分最高的候选人区域作为第一区域，即使用公式（1）计算综合得分最大的候选区域为最终的“活动”人区域:

（1）

其中，

表示所有候选人区域中得分最高的区域，

、

表示预设的权重，且

。

步骤A40，利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度；对各物体候选区域，基于其对应的置信度、各类别标签的CAM响应值，通过预设的第二方法得到其对应的综合得分。

在本实施例中，基于选择搜索算法（Selective Search，SS）获得一张图像中所有可能的候选物体区域集合

和置信度得分集合

。

本发明中只针对一张图像中“活动”人只与一类物体交互的情形。针对每个候选物体区域

，计算在各物体候选区域、当前物体类别标签上CAM响应的均值

，作为第三均值。

筛选具有相同的物体类别标签（名词）的行为类别标签（介/动词+名词），认为这几类行为是相关的（如骑摩托车、坐在摩托车上）。另外，由于多数目标物体与人是直接交互的，目标物体候选区域膨胀后其候选区域应包含部分行为响应。因此，针对每个物体候选区域

，按照长、宽

比例膨胀，计算在膨胀后物体候选区域

、所有相关行为类别标签 CAM响应的均值

，作为第四均值。

对各物体候选区域，结合其对应的置信度、第三均值、第四均值进行加权求和，作为各物体候选区域对应的综合得分，如公式（2）所示：

（2）

其中，

表示

区域对应的综合得分，

表示预设的权重，且

。

步骤A50，选取SS排序前n的物体候选区域构建第一集合；对所述第一集合中各物体候选区域，通过预设的聚类方法获取其聚类后对应的样本类型，并更新其对应的置信度，作为第一置信度；

为正整数；

由于SS获得的候选区域可能上万个，在本实施例中，提出一个聚类方法实现高质量目标候选物体区域的挖掘。具体如下：

步骤A51，挑选SS排序前

的区域构建第一集合，第一结合表示为

，

优选设置为1200在其他实施例中可以根据实际情况设置

。

将第一集合中综合得分最高的物体候选区域作为聚类中心，计算当前聚类中心与其他候选区域的IOU得分（两个区域面积交集/并集）；计算后，将IOU得分大于设定阈值0.5 的物体候选区域聚为一类

，并计算聚类后的各类的聚类得分，并从第一集合中删除

。

用公式（3）计算聚类得分或直接用当前类的聚类中心的综合得分

作为聚类得分，公式（3）如下所示：

（3）

其中，

表示

的聚类得分。

步骤A52，判断第一集合是否为空或获取聚类后类的个数是否大于设定阈值，若是，则执行步骤A53，否则循环执行步骤A51；

步骤A53，计算聚类后的各类的聚类得分并进行降序排序；排序后，按照排序顺序依次设置各类中的物体候选区域的样本类型，并更新对应的置信度，作为第一置信度。具体如下：

按照聚类得分从高到低排序，将排序前1-2的聚类中的物体候选区域设为置信度为1的正样本，排序前3-10的聚类中的物体候选区域设为置信度等于其聚类得分

的正样本。剩余类中，排序靠前的60%的类的物体候选区域设为难分负样本（hard negative sample），排序靠后的40%的类中的物体候选区域设为一般负样本，它们的置信度设置为1。另外，可以获得目标物体类别激活图

的最小外接矩形，按照下述方式对最小外接矩形采样：1）矩形中心分别在左上、左下、右上、右下横、纵坐标各偏移0.2倍矩形宽、高；2）中心不偏移，但是矩形宽、高长度扩大0.2倍和缩小0.2倍。最后，将这所有的7个矩形区域都作为置信度为1的正样本。基于设置的置信度更新物体候选区域原来的置信度，作为第一置信度。

在本实施例中，基于弱监督方式学习和筛选的正负候选区域具有一定的噪声，为了更好的实现物体检测任务。我们针对每类行为中，人和物体之间的交互具有相似模式的假设，对其多维度几何特征进行建模，并与物体检测任务一起同步迭代学习。

多维度几何特征如公式（4）所示：

（4）

其中，

表示多维度特征，

表示物体候选区域，

表示第一区域，

表示物体候选区域的中心点，

表示第一区域的中心点，

、

表示第一区域的宽、高，

、

表示物体候选区域的宽、高。

针对每类行为类别

，其对应的物体类别

在候选区域

的概率使用多维高斯函数建模，如公式（5）所示：

（5）

其中，

表示高斯函数的均值和方差。

高斯函数更新方法为：（1）针对每个行为类别

，挑选正样本置信度

排序前70% 区域，统计其

中各个特征值的均值和方差进行初始化；

（2）在每个batch里，计算当前采样区域在目标物体类别上的分类得分，并将索引和得分存储到

，当

积累到

个区域后，开始在每个batch内统计前

个区域的均值和方差对该行为类别的高斯分布进行更新。

在训练阶段，针对当前batch（批），训练样本图像的个数设为4，每张训练样本图像采样32个物体候选区域，其中正样本采样16个，难分负样本采样8个，一般负样本采样8个，将采集的物体候选区域构建第二集合。

基于第二集合中各物体候选区域及其对应提取的卷积层特征，通过深度卷积神经网络的ROI特征池化层、三个全连接层，获取物体类别的分类概率，并结合各第一置信度，构建该概率的损失，作为第一损失，并结合所述第一概率，构建第二损失，进行监督训练，第一损失、第二损失如公式（6）（7）所示：

（6）

（7）

其中，

表示第一损失，

表示第二损失，

是最后一个全连接层输出的softmax物体类别概率值，

是物体候选区域的个数，

是一张训练样本图像中人类行为的类别标签个数，

是第一置信度，针对当前目标物体类别，使用步骤A53中计算值，针对未标记的物体类别，所有候选区域都是置信度为1的负样本。

由于行为类别需依赖物体和人的共同特征，因此，针对物体候选区域和“活动”人区域进行成对池化，再依次级联三个全连接层，并设计加权的二值化交叉熵损失，进行监督训练。即基于第二集合中各物体候选区域、第一区域以及各候选区域提取的卷积层特征，通过深度卷积神经网络的ROI特征池化层（此处的ROI特征池化层为成对的池化层），即将“活动”人、物体候选区域组成的外接矩形内非“人”和物体的区域置为零后，对该外接矩形区域进行池化操作）、全连接层，获取行为类别的概率，并构建该概率的损失，作为第三损失。第三损失如公式（8）所示：

(8)

其中，

表示第三损失，

最后一个全连接层输出的softmax行为类别概率值，

表示人类行为的类别标签

是否存在，存在为1不存在为0，

表示第一区域，

表示当前物体候选区域，

表示第一概率。

在本实施例中，将物体类别损失和行为类别的进行加权求和，得到最终的损失，即综合损失。如式（9）所示：

（9）

其中，

表示综合损失，

、

表示预设的权重。

根据综合损失对所述弱监督物体检测模型的参数进行更新。

在本实施例中，按照设定的训练次数或者设定的精度要求，对弱监督物体检测模型进行迭代循环训练。

2、基于人-物体交互弱监督标签的物体检测方法

步骤S10，获取待检测的图像，作为输入图像；

在本实施例中，获取一张待检测图像。

步骤S20，通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果。

在本实施例中，基于训练好的弱监督物体检测模型的特征共享学习网络提取输入图像的特征，并提取物体候选区域（本发明中只获取候选区域的前1200个）；基于提取的物体候选区域，结合提取的特征，通过弱监督物体检测模型的特征池化层和全连接层，得到softmax输出（物体类别概率），通过非极大值抑制得到最终的目标物体窗口，实现目标检测任务。

本发明第二实施例的一种基于人-物体交互弱监督标签的物体检测系统，如图2所示，包括：获取模块100、检测模块200；

所述获取模块100，配置为获取待检测的图像，作为输入图像；

所述检测模块200，配置为通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果；其中，所述弱监督物体检测模型基于深度卷积神经网络构建，其训练方法为：

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于人-物体交互弱监督标签的物体检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于人-物体交互弱监督标签的物体检测方法。

本发明第四实施例的一种处理装置，包括处理器和存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于人-物体交互弱监督标签的物体检测方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于人-物体交互弱监督标签的物体检测方法，其特征在于，该方法包括：

步骤S10，获取待检测的图像，作为输入图像；

步骤S20，通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果；其中，所述弱监督物体检测模型基于深度卷积神经网络构建，其训练方法为：

2.根据权利要求1所述的基于人-物体交互弱监督标签的物体检测方法，其特征在于，步骤A30中“对各候选人区域，结合其对应的置信度、各人类行为的类别标签的CAM响应值，通过预设的第一方法得到其对应的综合得分”，其方法为：

3.根据权利要求1所述的基于人-物体交互弱监督标签的物体检测方法，其特征在于，步骤A40中“对各物体候选区域，基于其对应的置信度、各类别标签的CAM响应值，通过预设的第二方法得到其对应的综合得分”，其方法为：

4.根据权利要求3所述的基于人-物体交互弱监督标签的物体检测方法，其特征在于，步骤A50中“通过预设的聚类方法获取其聚类后对应的样本类型，并更新其对应的置信度，作为第一置信度”，其方法为：

5.根据权利要求1所述的基于人-物体交互弱监督标签的物体检测方法，其特征在于，步骤A20中“通过类别激活图CAM得到各类别标签的CAM响应值”，其方法为：通过预训练的类别激活图分类神经网络进行类别激活映射得到各类别标签的CAM响应值；所述激活图分类神经网络基于残差网络、全局平均池化和多标签软间隔损失构建。

6.根据权利要求4所述的基于人-物体交互弱监督标签的物体检测方法，其特征在于，步骤A60中“基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率，结合各区域的宽高比，构建多维度特征”，其方法为：

其中，

表示多维度特征，

表示物体候选区域，

表示第一区域，

表示物体候选区域的中心点，

表示第一区域的中心点，

、

表示第一区域的宽、高，

、

表示物体候选区域的宽、高。

7.根据权利要求6所述的基于人-物体交互弱监督标签的物体检测方法，其特征在于，步骤A90“对所述第二损失、所述第三损失进行加权求和，得到综合损失”，其方法为：

其中，

表示综合损失，

表示第二损失，

表示第三损失，

表示第一损失，

、

表示预设的权重，

表示输出的物体类别的概率，

表示物体的类别标签，

表示第一置信度，

表示物体候选区域的个数，

表示一张训练样本图像中人类行为的类别标签的个数，

表示输出的行为类别的概率，

表示人类行为的类别标签

是否存在，存在为1不存在为0，

表示第一区域，

表示当前物体候选区域，

表示第一概率，

表示人类行为类别标签。

8.一种基于人-物体交互弱监督标签的物体检测系统，其特征在于，该系统包括：获取模块、检测模块；

所述获取模块，配置为获取待检测的图像，作为输入图像；

所述检测模块，配置为通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果；其中，所述弱监督物体检测模型基于深度卷积神经网络构建，其训练方法为：

步骤A60，基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率，结合各候选区域的宽高比，构建多维度特征，并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率，作为第一概率；所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的基于人-物体交互弱监督标签的物体检测方法。

10.一种处理装置，包括处理器和存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的基于人-物体交互弱监督标签的物体检测方法。