CN111931703B - 基于人-物体交互弱监督标签的物体检测方法 - Google Patents

基于人-物体交互弱监督标签的物体检测方法 Download PDF

Info

Publication number
CN111931703B
CN111931703B CN202010961981.1A CN202010961981A CN111931703B CN 111931703 B CN111931703 B CN 111931703B CN 202010961981 A CN202010961981 A CN 202010961981A CN 111931703 B CN111931703 B CN 111931703B
Authority
CN
China
Prior art keywords
region
candidate region
loss
obtaining
object candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010961981.1A
Other languages
English (en)
Other versions
CN111931703A (zh
Inventor
李寅霖
杨旭
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010961981.1A priority Critical patent/CN111931703B/zh
Publication of CN111931703A publication Critical patent/CN111931703A/zh
Application granted granted Critical
Publication of CN111931703B publication Critical patent/CN111931703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉、机器人视觉领域,具体涉及一种基于人‑物体交互弱监督标签的物体检测方法,旨在解决现有的弱监督物体检测方法模型收敛速度慢、检测精度较差的问题。本发明方法包括:获取待检测的图像,作为输入图像;通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,弱监督物体检测模型基于深度卷积神经网络构建。本发提高了弱监督物体检测的精度。

Description

基于人-物体交互弱监督标签的物体检测方法
技术领域
本发明属于计算机视觉、机器人视觉领域,具体涉及一种基于人-物体交互弱监督标签的物体检测方法、系统、装置。
背景技术
随着移动互联网和智能终端设备的普及,网络图片数据量迅猛增长。但是,目标检测所需的物体“边界框”标签,标注成本较高、标注过程枯燥,而图片中的类别级标签较易获得,成本较低,因此,基于类别标签的弱监督目标检测技术备受关注。
一方面,当前的多数弱监督目标检测方法基于多实例学习(MIL)框架设计,并将物体作为独立个体进行分析,如WSDNN模型,后续研究又进一步引入了迭代增强、上下文信息、多阶段处理等策略;然而,基于MIL框架的方法,多关注于物体的判别性部件而非物体整体,定位精度较差。
另一方面,在日常生活中,物体与人交互频繁,此类数据在网络图片/视频中占比较大,且对人和物体的交互识别对行为分析、视频分割和机器人自学习都具有重要意义。更重要的是,人的检测和关键点定位技术已经较为成熟,可预先获得较为准确的先验知识,为物体定位提供一个粗糙候选区域。然而,当前的人-物体交互检测多基于强监督标签,即已知训练集中人、物体的“边界框”信息。而少数弱监督方法中,对物体候选边界框的选择、人与物体的交互关系建模较为简单,不利于模型的收敛,难以获得较高的定位精度。针对上述问题,本发明提出了一种基于人-物体交互弱监督标签的物体检测方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的弱监督物体检测方法忽略人与物体交互上下文建模,及人与物体的交互关系建模较为简单导致模型收敛速度慢、检测精度较差的问题,本发明提出了一种基于人-物体交互弱监督标签的物体检测方法,该方法包括:
步骤S10,获取待检测的图像,作为输入图像;
步骤S20,通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,所述弱监督物体检测模型基于深度卷积神经网络构建,其训练方法为;
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分;
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度;n为正整数;
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
在一些优选的实施方式中,步骤A30中“对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分”,其方法为:
对各候选人区域,结合其对应的置信度、第一均值、第二均值进行加权求和,作为各候选人区域对应的综合得分;所述第一均值为候选人区域所有人类行为的类别标签的CAM响应值求均值后的值;所述第二均值为候选人区域进行设定比例的缩放后所有物体的类别标签的CAM响应值求均值后的值。
在一些优选的实施方式中,步骤A40中“对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分”,其方法为:
对各物体候选区域,结合其对应的置信度、第三均值、第四均值进行加权求和,作为各物体候选区域对应的综合得分;所述第三均值为物体候选区域所有物体的类别标签的CAM响应值求均值后的值;所述第四均值为物体候选区域进行设定比例的缩放后所有人类行为的类别标签的CAM响应值求均值后的值。
在一些优选的实施方式中,步骤A50中“通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度”,其方法为:
步骤A51,将所述第一集合中综合得分最高的物体候选区域作为聚类中心,计算当前聚类中心与其他物体候选区域的IOU得分;计算后,将IOU得分大于设定阈值的物体候选区域聚为一类,并从第一集合中删除;
步骤A52,判断所述第一集合是否为空或获取聚类后类的个数是否大于设定阈值,若是,则执行步骤A53,否则循环执行步骤A51;
步骤A53,计算聚类后的各类的聚类得分并进行降序排序;排序后,按照排序顺序依次设置各类中的物体候选区域的样本类型,并更新对应的置信度,作为第一置信度。
在一些优选的实施方式中,步骤A20中“通过类别激活图CAM得到各类别标签的CAM响应值”,其方法为:通过预训练的类别激活图分类神经网络进行类别激活映射得到各类别标签的CAM响应值;所述激活图分类神经网络基于残差网络、全局平均池化和多标签软间隔损失构建。
在一些优选的实施方式中,步骤A60中“基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率、结合各区域的宽高比,构建多维度特征”,其方法为:
Figure 769426DEST_PATH_IMAGE001
其中,
Figure 447532DEST_PATH_IMAGE002
表示多维度特征,
Figure 882056DEST_PATH_IMAGE003
表示物体候选区域,
Figure 594797DEST_PATH_IMAGE004
表示第一区域,
Figure 955109DEST_PATH_IMAGE005
表示物体候选区域的中心点,
Figure 386090DEST_PATH_IMAGE006
表示第一区域的中心点,
Figure 358725DEST_PATH_IMAGE007
Figure 129235DEST_PATH_IMAGE008
表示第一区域的 宽、高,
Figure 286547DEST_PATH_IMAGE009
Figure 814611DEST_PATH_IMAGE010
表示物体候选区域的宽、高。
在一些优选的实施方式中,步骤A90“对所述第二损失、所述第三损失进行加权求和,得到综合损失”,其方法为:
Figure 715571DEST_PATH_IMAGE011
Figure 543850DEST_PATH_IMAGE012
Figure 872063DEST_PATH_IMAGE013
Figure 403537DEST_PATH_IMAGE014
其中,
Figure 842608DEST_PATH_IMAGE015
表示综合损失,
Figure 259814DEST_PATH_IMAGE016
表示第二损失,
Figure 758929DEST_PATH_IMAGE017
表示第三损失,
Figure 261586DEST_PATH_IMAGE018
表示第 一损失,
Figure 504348DEST_PATH_IMAGE019
Figure 369536DEST_PATH_IMAGE020
表示预设的权重,
Figure 914918DEST_PATH_IMAGE021
表示输出的物体类别的概率,
Figure 763925DEST_PATH_IMAGE022
表示物体的类别 标签,
Figure 449859DEST_PATH_IMAGE023
表示第一置信度,
Figure 966291DEST_PATH_IMAGE024
表示物体候选区域的个数,
Figure 682574DEST_PATH_IMAGE025
表示一张训练样本图像中人类 行为的类别标签的个数,
Figure 18878DEST_PATH_IMAGE026
表示输出的行为类别的概率,
Figure 806705DEST_PATH_IMAGE027
表示人类行为的类别 标签
Figure 53010DEST_PATH_IMAGE028
是否存在,存在为1不存在为0,
Figure 64828DEST_PATH_IMAGE029
表示第一区域,
Figure 294952DEST_PATH_IMAGE003
表示当前物体候选区域,
Figure 417629DEST_PATH_IMAGE030
表示 第一概率,
Figure 282555DEST_PATH_IMAGE028
表示人类行为类别标签。
本发明的第二方面,提出了一种基于人-物体交互弱监督标签的物体检测系统,该系统包括:获取模块、检测模块;
所述获取模块,配置为获取待检测的图像,作为输入图像;
所述检测模块,配置为通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,所述弱监督物体检测模型基于深度卷积神经网络构建,其训练方法为;
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分;
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度;n为正整数;
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于人-物体交互弱监督标签的物体检测方法。
本发明的第四方面,提出了一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于人-物体交互弱监督标签的物体检测方法。
本发明的有益效果:
本发明提高了物体检测的精度。
(1)本发明基于人和物体在同一行为中有相似交互方式的假设,及认知科学中发现的人-物体在交互时的识别具有互相增强作用的结论,对人和物体的候选区域进行学习,对物体候选区域进行了聚类和选择,提升了网络学习的标签质量;
(2)通过高斯函数,构建了人-物体交互的多维空间关系模型,且高斯参数在整个训练过程中可学习,提高了特征提取的质量及模型建模的精度;
(3)另外,本发明在基于类别标签的弱监督情况下,基于特征响应图对候选区域进行了充分过滤和挖掘,对人与物体的交互信息进行了细化建模,相关实验表明,相比于当前其他弱监督方法,可获得的更高的物体检测精度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1 是本发明一种实施例的基于人-物体交互弱监督标签的物体检测方法的流程示意图;
图2为本发明一种实施例的基于人-物体交互弱监督标签的物体检测系统的框架示意图;
图3是本发明一种实施例的弱监督物体检测模型的训练过程的简略流程示意图;
图4 是本发明一种实施例的弱监督物体检测模型的训练过程的详细流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明第一实施例的一种基于人-物体交互弱监督标签的物体检测方法,如图1、图4所示,该方法包括以下步骤:
步骤S10,获取待检测的图像,作为输入图像;
步骤S20,通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,所述弱监督物体检测模型基于深度卷积神经网络构建,其训练方法为;
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分;
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度;n为正整数;
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
为了更清晰地对本发明基于人-物体交互弱监督标签的物体检测方法进行说明,下面对本发明方法一种实施例中各步骤进行展开详述。
在下文实施例中,先对弱监督物体检测模型的训练过程进行描述,如图3所示,具体在下文中描述,再对基于人-物体交互弱监督标签的物体检测方法获取检测结果进行详述。
1、弱监督物体检测模型的训练过程
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
在本实施例中,弱监督物体检测模型基于深度神经网络构建。基于构建好的模型,先获取模型训练的样本图像,并通过深度卷积神经网络的特征共享学习网络(即特征提取层)提取训练样本的卷积层特征。在本发明中,特征共享学习网络优选采用VGG-16或ResNet构建。
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
在本实施例中,提取完训练样本图像之后,分别提取训练样本图像的物体类别标 签
Figure 668537DEST_PATH_IMAGE022
和人类行为的类别标签
Figure 979432DEST_PATH_IMAGE028
,并分别计算各类别标签对应的CAM响应。本发明中,预构建 了两个类别激活图分类神经网络CAM_1, CAM_2,两个类别激活图分类神经网络以ResNet50 作为特征提取网络,并级联全局平均池化以及多标签软间隔的损失实现分类,即基于训练 样本图像的物体类别标签集合
Figure 781166DEST_PATH_IMAGE031
和人类行为类别标签集合
Figure 392276DEST_PATH_IMAGE032
,通过预构建的类别激活 图分类神经网络,分别计算各类别标签的CAM响应
Figure 621263DEST_PATH_IMAGE033
Figure 419455DEST_PATH_IMAGE034
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
在本实施例中,由于一张图像中可能有多个人,并非每个人都参与“活动”,但是至少有一人参与。因此,我们基于人类行为和物体的CAM响应值综合判断,选择最显著的人作为“活动”人。
本发明中,使用预训练好的Mask-RCNN实现行人检测,得到候选人区域集合
Figure 24880DEST_PATH_IMAGE035
和 置信度得分集合
Figure 224917DEST_PATH_IMAGE036
一个图像可能有多个人类行为标签,针对每个候选人区域
Figure 123341DEST_PATH_IMAGE029
,计算在各候选区域 所有人类行为的类别标签的CAM响应的均值
Figure 612091DEST_PATH_IMAGE037
,作为第一均值,
Figure 145840DEST_PATH_IMAGE038
表示候 选人区域
Figure 75750DEST_PATH_IMAGE029
内的一个像素点。
由于多数目标物体与人是直接交互的,“活动”人候选区膨胀后一般会包含部分交 互物体。因此,对每个候选人区域
Figure 771174DEST_PATH_IMAGE029
,按照长、宽
Figure 684903DEST_PATH_IMAGE039
膨胀得到
Figure 756764DEST_PATH_IMAGE029
,计算在膨胀后的候选 区域、所有物体类别的CAM响应的均值
Figure 541181DEST_PATH_IMAGE040
,作为第二均值。
针对每个候选人区域
Figure 876347DEST_PATH_IMAGE029
,结合其对应的置信度、第一均值、第二均值进行加权求 和,作为各候选人区域对应的综合得分;将综合得分最高的候选人区域作为第一区域,即使 用公式(1)计算综合得分最大的候选区域为最终的“活动”人区域:
Figure 870848DEST_PATH_IMAGE041
(1)
其中,
Figure 126161DEST_PATH_IMAGE042
表示所有候选人区域中得分最高的区域,
Figure 889718DEST_PATH_IMAGE043
Figure 333468DEST_PATH_IMAGE044
表示预设的权重,且
Figure 815265DEST_PATH_IMAGE045
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分。
在本实施例中,基于选择搜索算法(Selective Search,SS)获得一张图像中所有 可能的候选物体区域集合
Figure 104295DEST_PATH_IMAGE046
和置信度得分集合
Figure 191200DEST_PATH_IMAGE047
本发明中只针对一张图像中“活动”人只与一类物体交互的情形。针对每个候选物 体区域
Figure 664907DEST_PATH_IMAGE003
,计算在各物体候选区域、当前物体类别标签上CAM响应的均值
Figure 509366DEST_PATH_IMAGE048
,作 为第三均值。
筛选具有相同的物体类别标签(名词)的行为类别标签(介/动词+名词),认为这几 类行为是相关的(如骑摩托车、坐在摩托车上)。另外,由于多数目标物体与人是直接交互 的,目标物体候选区域膨胀后其候选区域应包含部分行为响应。因此,针对每个物体候选区 域
Figure 726721DEST_PATH_IMAGE003
,按照长、宽
Figure 104350DEST_PATH_IMAGE039
比例膨胀,计算在膨胀后物体候选区域
Figure 748958DEST_PATH_IMAGE049
、所有相关行为类别标签 CAM响应的均值
Figure 80713DEST_PATH_IMAGE050
,作为第四均值。
对各物体候选区域,结合其对应的置信度、第三均值、第四均值进行加权求和,作为各物体候选区域对应的综合得分,如公式(2)所示:
Figure 39442DEST_PATH_IMAGE051
(2)
其中,
Figure 897677DEST_PATH_IMAGE052
表示
Figure 322973DEST_PATH_IMAGE003
区域对应的综合得分,
Figure 532237DEST_PATH_IMAGE053
表示预设的权重,且
Figure 966761DEST_PATH_IMAGE054
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物 体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度, 作为第一置信度;
Figure 679502DEST_PATH_IMAGE055
为正整数;
由于SS获得的候选区域可能上万个,在本实施例中,提出一个聚类方法实现高质量目标候选物体区域的挖掘。具体如下:
步骤A51,挑选SS排序前
Figure 869175DEST_PATH_IMAGE055
的区域构建第一集合,第一结合表示为
Figure 408478DEST_PATH_IMAGE056
Figure 505747DEST_PATH_IMAGE055
优 选设置为1200在其他实施例中可以根据实际情况设置
Figure 213940DEST_PATH_IMAGE055
将第一集合中综合得分最高的物体候选区域作为聚类中心,计算当前聚类中心与 其他候选区域的IOU得分(两个区域面积交集/并集);计算后,将IOU得分大于设定阈值0.5 的物体候选区域聚为一类
Figure 636831DEST_PATH_IMAGE057
,并计算聚类后的各类的聚类得分,并从第一集合中删除
Figure 164896DEST_PATH_IMAGE057
用公式(3)计算聚类得分或直接用当前类的聚类中心的综合得分
Figure 65856DEST_PATH_IMAGE052
作为聚类得 分,公式(3)如下所示:
Figure 628555DEST_PATH_IMAGE058
(3)
其中,
Figure 160031DEST_PATH_IMAGE059
表示
Figure 300025DEST_PATH_IMAGE057
的聚类得分。
步骤A52,判断第一集合是否为空或获取聚类后类的个数是否大于设定阈值,若是,则执行步骤A53,否则循环执行步骤A51;
步骤A53,计算聚类后的各类的聚类得分并进行降序排序;排序后,按照排序顺序依次设置各类中的物体候选区域的样本类型,并更新对应的置信度,作为第一置信度。具体如下:
按照聚类得分从高到低排序,将排序前1-2的聚类中的物体候选区域设为置信度 为1的正样本,排序前3-10的聚类中的物体候选区域设为置信度等于其聚类得分
Figure 378577DEST_PATH_IMAGE059
的正样 本。剩余类中,排序靠前的60%的类的物体候选区域设为难分负样本(hard negative sample),排序靠后的40%的类中的物体候选区域设为一般负样本,它们的置信度设置为1。 另外,可以获得目标物体类别激活图
Figure 920417DEST_PATH_IMAGE033
的最小外接矩形,按照下述方式对最小外接矩形采 样:1)矩形中心分别在左上、左下、右上、右下横、纵坐标各偏移0.2倍矩形宽、高;2)中心不 偏移,但是矩形宽、高长度扩大0.2倍和缩小0.2倍。最后,将这所有的7个矩形区域都作为置 信度为1的正样本。基于设置的置信度更新物体候选区域原来的置信度,作为第一置信度。
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
在本实施例中,基于弱监督方式学习和筛选的正负候选区域具有一定的噪声,为了更好的实现物体检测任务。我们针对每类行为中,人和物体之间的交互具有相似模式的假设,对其多维度几何特征进行建模,并与物体检测任务一起同步迭代学习。
多维度几何特征如公式(4)所示:
Figure 294898DEST_PATH_IMAGE060
(4)
其中,
Figure 922188DEST_PATH_IMAGE002
表示多维度特征,
Figure 571475DEST_PATH_IMAGE003
表示物体候选区域,
Figure 577609DEST_PATH_IMAGE004
表示第一区域,
Figure 247624DEST_PATH_IMAGE005
表示物体候选区域的中心点,
Figure 730253DEST_PATH_IMAGE006
表示第一区域的中心点,
Figure 776706DEST_PATH_IMAGE007
Figure 168504DEST_PATH_IMAGE008
表示第一区域 的宽、高,
Figure 9421DEST_PATH_IMAGE009
Figure 486670DEST_PATH_IMAGE010
表示物体候选区域的宽、高。
针对每类行为类别
Figure 805656DEST_PATH_IMAGE028
,其对应的物体类别
Figure 51961DEST_PATH_IMAGE022
在候选区域
Figure 63779DEST_PATH_IMAGE003
的概率使用多维高斯函 数建模,如公式(5)所示:
Figure 792439DEST_PATH_IMAGE061
(5)
其中,
Figure 915115DEST_PATH_IMAGE062
表示高斯函数的均值和方差。
高斯函数更新方法为:(1)针对每个行为类别
Figure 15927DEST_PATH_IMAGE028
,挑选正样本置信度
Figure 464225DEST_PATH_IMAGE063
排序前70% 区域,统计其
Figure 650487DEST_PATH_IMAGE002
中各个特征值的均值和方差进行初始化;
(2)在每个batch里,计算当前采样区域在目标物体类别上的分类得分,并将索引 和得分存储到
Figure 576855DEST_PATH_IMAGE064
,当
Figure 797752DEST_PATH_IMAGE064
积累到
Figure 151373DEST_PATH_IMAGE065
个区域后,开始在每个batch内统计前
Figure 323466DEST_PATH_IMAGE066
个区域 的均值和方差对该行为类别的高斯分布进行更新。
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
在训练阶段,针对当前batch(批),训练样本图像的个数设为4,每张训练样本图像采样32个物体候选区域,其中正样本采样16个,难分负样本采样8个,一般负样本采样8个,将采集的物体候选区域构建第二集合。
基于第二集合中各物体候选区域及其对应提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、三个全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失,并结合所述第一概率,构建第二损失,进行监督训练,第一损失、第二损失如公式(6)(7)所示:
Figure 53524DEST_PATH_IMAGE013
(6)
Figure 456824DEST_PATH_IMAGE012
(7)
其中,
Figure 856712DEST_PATH_IMAGE018
表示第一损失,
Figure 142200DEST_PATH_IMAGE016
表示第二损失,
Figure 285737DEST_PATH_IMAGE021
是最后一个全连接层 输出的softmax物体类别概率值,
Figure 605860DEST_PATH_IMAGE024
是物体候选区域的个数,
Figure 442229DEST_PATH_IMAGE025
是一张训练样本图像中人 类行为的类别标签个数,
Figure 215013DEST_PATH_IMAGE023
是第一置信度,针对当前目标物体类别,使用步骤A53中计算 值,针对未标记的物体类别,所有候选区域都是置信度为1的负样本。
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
由于行为类别需依赖物体和人的共同特征,因此,针对物体候选区域和“活动”人区域进行成对池化,再依次级联三个全连接层,并设计加权的二值化交叉熵损失,进行监督训练。即基于第二集合中各物体候选区域、第一区域以及各候选区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层(此处的ROI特征池化层为成对的池化层),即将“活动”人、物体候选区域组成的外接矩形内非“人”和物体的区域置为零后,对该外接矩形区域进行池化操作)、全连接层,获取行为类别的概率,并构建该概率的损失,作为第三损失。第三损失如公式(8)所示:
Figure 224557DEST_PATH_IMAGE067
(8)
其中,
Figure 773088DEST_PATH_IMAGE068
表示第三损失,
Figure 639413DEST_PATH_IMAGE026
最后一个全连接层输出的softmax行为 类别概率值,
Figure 774859DEST_PATH_IMAGE027
表示人类行为的类别标签
Figure 650411DEST_PATH_IMAGE028
是否存在,存在为1不存在为0,
Figure 554913DEST_PATH_IMAGE029
表示第一区 域,
Figure 857718DEST_PATH_IMAGE003
表示当前物体候选区域,
Figure 214881DEST_PATH_IMAGE030
表示第一概率。
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
在本实施例中,将物体类别损失和行为类别的进行加权求和,得到最终的损失,即综合损失。如式(9)所示:
Figure 831808DEST_PATH_IMAGE011
(9)
其中,
Figure 715450DEST_PATH_IMAGE015
表示综合损失,
Figure 568917DEST_PATH_IMAGE019
Figure 538010DEST_PATH_IMAGE020
表示预设的权重。
根据综合损失对所述弱监督物体检测模型的参数进行更新。
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
在本实施例中,按照设定的训练次数或者设定的精度要求,对弱监督物体检测模型进行迭代循环训练。
2、基于人-物体交互弱监督标签的物体检测方法
步骤S10,获取待检测的图像,作为输入图像;
在本实施例中,获取一张待检测图像。
步骤S20,通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果。
在本实施例中,基于训练好的弱监督物体检测模型的特征共享学习网络提取输入图像的特征,并提取物体候选区域(本发明中只获取候选区域的前1200个);基于提取的物体候选区域,结合提取的特征,通过弱监督物体检测模型的特征池化层和全连接层,得到softmax输出(物体类别概率),通过非极大值抑制得到最终的目标物体窗口,实现目标检测任务。
本发明第二实施例的一种基于人-物体交互弱监督标签的物体检测系统,如图2所示,包括:获取模块100、检测模块200;
所述获取模块100,配置为获取待检测的图像,作为输入图像;
所述检测模块200,配置为通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,所述弱监督物体检测模型基于深度卷积神经网络构建,其训练方法为:
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分;
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度;n为正整数;
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于人-物体交互弱监督标签的物体检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于人-物体交互弱监督标签的物体检测方法。
本发明第四实施例的一种处理装置,包括处理器和存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于人-物体交互弱监督标签的物体检测方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于人-物体交互弱监督标签的物体检测方法,其特征在于,该方法包括:
步骤S10,获取待检测的图像,作为输入图像;
步骤S20,通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,所述弱监督物体检测模型基于深度卷积神经网络构建,其训练方法为:
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
所述预设第一方法为:
对各候选人区域,结合其对应的置信度、第一均值、第二均值进行加权求和,作为各候选人区域对应的综合得分;所述第一均值为候选人区域所有人类行为的类别标签的CAM响应值求均值后的值;所述第二均值为候选人区域进行设定比例的缩放后所有物体的类别标签的CAM响应值求均值后的值;
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分;
所述预设的第二方法为:
对各物体候选区域,结合其对应的置信度、第三均值、第四均值进行加权求和,作为各物体候选区域对应的综合得分;所述第三均值为物体候选区域所有物体的类别标签的CAM响应值求均值后的值;所述第四均值为物体候选区域进行设定比例的缩放后所有人类行为的类别标签的CAM响应值求均值后的值;
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度;n为正整数;
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
2.根据权利要求1所述的基于人-物体交互弱监督标签的物体检测方法,其特征在于,步骤A50中“通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度”,其方法为:
步骤A51,将所述第一集合中综合得分最高的物体候选区域作为聚类中心,计算当前聚类中心与其他物体候选区域的IOU得分;计算后,将IOU得分大于设定阈值的物体候选区域聚为一类,并从第一集合中删除;
步骤A52,判断所述第一集合是否为空或获取聚类后类的个数是否大于设定阈值,若是,则执行步骤A53,否则循环执行步骤A51;
步骤A53,计算聚类后的各类的聚类得分并进行降序排序;排序后,按照排序顺序依次设置各类中的物体候选区域的样本类型,并更新对应的置信度,作为第一置信度。
3.根据权利要求1所述的基于人-物体交互弱监督标签的物体检测方法,其特征在于,步骤A20中“通过类别激活图CAM得到各类别标签的CAM响应值”,其方法为:通过预训练的类别激活图分类神经网络进行类别激活映射得到各类别标签的CAM响应值;所述激活图分类神经网络基于残差网络、全局平均池化和多标签软间隔损失构建。
4.根据权利要求2所述的基于人-物体交互弱监督标签的物体检测方法,其特征在于,步骤A60中“基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各区域的宽高比,构建多维度特征”,其方法为:
Figure 247154DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
表示多维度特征,
Figure 89208DEST_PATH_IMAGE004
表示物体候选区域,
Figure DEST_PATH_IMAGE005
表示第一区域,
Figure 281155DEST_PATH_IMAGE006
表示物体候选区域的中心点,
Figure DEST_PATH_IMAGE007
表示第一区域的中心点,
Figure 157844DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
表示第一区域的宽、高,
Figure 547018DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
表示物体候选区域的宽、高。
5.根据权利要求4所述的基于人-物体交互弱监督标签的物体检测方法,其特征在于,步骤A90“对所述第二损失、所述第三损失进行加权求和,得到综合损失”,其方法为:
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE019
其中,
Figure 797740DEST_PATH_IMAGE020
表示综合损失,
Figure DEST_PATH_IMAGE021
表示第二损失,
Figure 294842DEST_PATH_IMAGE022
表示第三损失,
Figure DEST_PATH_IMAGE023
表示第一损失,
Figure 26038DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
表示预设的权重,
Figure 753822DEST_PATH_IMAGE026
表示输出的物体类别的概率,
Figure DEST_PATH_IMAGE027
表示物体的类别标签,
Figure 570469DEST_PATH_IMAGE028
表示第一置信度,
Figure DEST_PATH_IMAGE029
表示物体候选区域的个数,
Figure 104218DEST_PATH_IMAGE030
表示一张训练样本图像中人类行为的类别标签的个数,
Figure DEST_PATH_IMAGE031
表示输出的行为类别的概率,
Figure 188456DEST_PATH_IMAGE032
表示人类行为的类别标签
Figure DEST_PATH_IMAGE033
是否存在,存在为1不存在为0,
Figure 477354DEST_PATH_IMAGE034
表示第一区域,
Figure 187821DEST_PATH_IMAGE004
表示当前物体候选区域,
Figure DEST_PATH_IMAGE035
表示第一概率,
Figure 259683DEST_PATH_IMAGE036
表示人类行为类别标签。
6.一种基于人-物体交互弱监督标签的物体检测系统,其特征在于,该系统包括:获取模块、检测模块;
所述获取模块,配置为获取待检测的图像,作为输入图像;
所述检测模块,配置为通过训练好的弱监督物体检测模型得到所述输入图像对应的物体检测结果;其中,所述弱监督物体检测模型基于深度卷积神经网络构建,其训练方法为:
步骤A10,获取训练样本图像,并提取所述训练样本图像的特征;
步骤A20,获取所述训练样本图像中各人类行为、物体的类别标签;并通过类别激活图CAM得到各类别标签的CAM响应值;
步骤A30,获取所述训练样本图像中的候选人区域及对应的置信度;对各候选人区域,结合其对应的置信度、各人类行为的类别标签的CAM响应值,通过预设的第一方法得到其对应的综合得分;将综合得分最高的候选人区域作为第一区域;
所述预设第一方法为:
对各候选人区域,结合其对应的置信度、第一均值、第二均值进行加权求和,作为各候选人区域对应的综合得分;所述第一均值为候选人区域所有人类行为的类别标签的CAM响应值求均值后的值;所述第二均值为候选人区域进行设定比例的缩放后所有物体的类别标签的CAM响应值求均值后的值;
步骤A40,利用选择性搜索算法SS算法提取所述训练样本图像的物体候选区域及对应的置信度;对各物体候选区域,基于其对应的置信度、各类别标签的CAM响应值,通过预设的第二方法得到其对应的综合得分;
所述预设的第二方法为:
对各物体候选区域,结合其对应的置信度、第三均值、第四均值进行加权求和,作为各物体候选区域对应的综合得分;所述第三均值为物体候选区域所有物体的类别标签的CAM响应值求均值后的值;所述第四均值为物体候选区域进行设定比例的缩放后所有人类行为的类别标签的CAM响应值求均值后的值
步骤A50,选取SS排序前n的物体候选区域构建第一集合;对所述第一集合中各物体候选区域,通过预设的聚类方法获取其聚类后对应的样本类型,并更新其对应的置信度,作为第一置信度;n为正整数;
步骤A60,基于聚类后各类中的物体候选区域与所述第一区域的区域中心点的归一化距离、相对大小特征、IOU重合率,结合各候选区域的宽高比,构建多维度特征,并通过高斯函数建模获取人类行为类别对应的物体类别在物体候选区域的概率,作为第一概率;所述相对大小特征为物体候选区域与第一区域宽高积相除开平方后获取的特征;
步骤A70,按照设定数量比例采样不同样本类型的物体候选区域构建第二集合;基于所述第二集合中各物体候选区域及其对应提取的卷积层特征,通过所述深度卷积神经网络的ROI特征池化层、全连接层,获取物体类别的分类概率,并结合各第一置信度,构建该概率的损失,作为第一损失;基于所述第一损失,结合所述第一概率,构建第二损失;
步骤A80,基于所述第二集合中各物体候选区域、所述第一区域以及各区域提取的卷积层特征,通过深度卷积神经网络的ROI特征池化层、全连接层,获取行为类别的概率,并结合所述第一概率构建该行为类别的概率的损失,作为第三损失;
步骤A90,对所述第二损失、所述第三损失进行加权求和,得到综合损失;根据所述综合损失对所述弱监督物体检测模型的参数进行更新;
步骤A100,循环执行步骤A10-步骤A90,直至得到训练好的弱监督物体检测模型。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-5任一项所述的基于人-物体交互弱监督标签的物体检测方法。
8.一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-5任一项所述的基于人-物体交互弱监督标签的物体检测方法。
CN202010961981.1A 2020-09-14 2020-09-14 基于人-物体交互弱监督标签的物体检测方法 Active CN111931703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010961981.1A CN111931703B (zh) 2020-09-14 2020-09-14 基于人-物体交互弱监督标签的物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010961981.1A CN111931703B (zh) 2020-09-14 2020-09-14 基于人-物体交互弱监督标签的物体检测方法

Publications (2)

Publication Number Publication Date
CN111931703A CN111931703A (zh) 2020-11-13
CN111931703B true CN111931703B (zh) 2021-01-05

Family

ID=73333747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010961981.1A Active CN111931703B (zh) 2020-09-14 2020-09-14 基于人-物体交互弱监督标签的物体检测方法

Country Status (1)

Country Link
CN (1) CN111931703B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887468B (zh) * 2021-10-14 2023-06-16 西安交通大学 一种三阶段网络框架的单视角人-物交互的识别方法
WO2023132040A1 (en) * 2022-01-06 2023-07-13 Nec Corporation Action localization apparatus, control method, and non-transitory computer-readable storage medium
CN115439688B (zh) * 2022-09-01 2023-06-16 哈尔滨工业大学 一种基于周围区域感知与关联的弱监督物体检测方法
CN116524297B (zh) * 2023-04-28 2024-02-13 迈杰转化医学研究(苏州)有限公司 一种基于专家反馈的弱监督学习训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN108460356A (zh) * 2018-03-13 2018-08-28 上海海事大学 一种基于监控系统的人脸图像自动处理系统
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111325141A (zh) * 2020-02-18 2020-06-23 上海商汤临港智能科技有限公司 交互关系识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680508B (zh) * 2013-11-29 2018-07-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法
US20180330205A1 (en) * 2017-05-15 2018-11-15 Siemens Aktiengesellschaft Domain adaptation and fusion using weakly supervised target-irrelevant data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN108460356A (zh) * 2018-03-13 2018-08-28 上海海事大学 一种基于监控系统的人脸图像自动处理系统
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111325141A (zh) * 2020-02-18 2020-06-23 上海商汤临港智能科技有限公司 交互关系识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111931703A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931703B (zh) 基于人-物体交互弱监督标签的物体检测方法
Shi et al. Cloud detection of remote sensing images by deep learning
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CA3066029A1 (en) Image feature acquisition
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
CN111813997B (zh) 入侵分析方法、装置、设备及存储介质
CN111783753B (zh) 基于语义一致水平条和前景修正的行人重识别方法
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
Bertrand et al. Bark and leaf fusion systems to improve automatic tree species recognition
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN111008337A (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN110163103B (zh) 一种基于视频图像的生猪行为识别方法和装置
CN113808166B (zh) 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
Liang et al. Human-guided flood mapping: From experts to the crowd
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN109492702B (zh) 基于排序度量函数的行人重识别方法、系统、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant