CN114902299A - 图像中关联对象的检测方法、装置、设备和存储介质 - Google Patents

图像中关联对象的检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114902299A
CN114902299A CN202180001436.0A CN202180001436A CN114902299A CN 114902299 A CN114902299 A CN 114902299A CN 202180001436 A CN202180001436 A CN 202180001436A CN 114902299 A CN114902299 A CN 114902299A
Authority
CN
China
Prior art keywords
human body
human
preset
body part
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180001436.0A
Other languages
English (en)
Inventor
王柏润
张学森
刘春亚
陈景焕
伊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Priority claimed from PCT/IB2021/053563 external-priority patent/WO2022144605A1/en
Publication of CN114902299A publication Critical patent/CN114902299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

本申请一种提出图像中关联对象的检测方法、装置、设备和存储介质。该方法包括检测图像中包含的人脸对象、预设人体部位对象以及人手对象。对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测。对上述图像包含的人体对象进行分割,并基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的人体对象。基于上述人脸对象和上述预设人体部位对象分别归属的人体对象,对上述人脸对象、上述预设人体部位对象之间第一关联性预测结果进行调整,并根据调整后的上述第一关联性预测结果确定上述图像中的关联对象。

Description

图像中关联对象的检测方法、装置、设备和存储介质
相关公开的交叉引用
本公开要求于2020年12月31日提交的、申请号为10202013267T的新加坡专利公开的优先权,该新加坡专利公开的全部内容以引用的方式并入本文中。
技术领域
本申请涉及计算机技术,具体涉及一种图像中关联对象的检测方法、装置、设备和存储介质。
背景技术
智能视频分析技术可以帮助人类了解物理空间中的对象的状态以及对象之间的关系。在智能视频分析的一个应用场景中,需要根据视频中出现的人体部位识别出该部位对应的人员身份。
具体地,可以先将容易辨识的第一人体部位与人员身份一一对应。在上述对应关系维护好后,可以确定与视频中出现的第二人体部位互为关联对象的第一人体部位,并根据确定的第一人体部位识别出该第二人体部位对应的人员身份。其中,关联对象,可以是指属于同一人员的第一人体部位与第二人体部位。两个人体部位互为关联对象,可以认为上述各人体部位属于同一人员。
通过将图像中的人体部位关联,可以进一步帮助分析多人场景中个体的行为和状态,以及多人之间的关系。例如,可以从图像中检测出的多个人脸对象和多个人手对象中,确定出属于同一人员的人脸对象与人手对象。在确定属于同一人员的人脸对象与人手对象后,即可根据与人手对象关联的人脸对象确定通过该人手对象执行预设动作或触碰预设区域的人员身份信息。
发明内容
有鉴于此,本申请公开一种图像中关联对象的检测方法,上述方法包括:检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,上述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位;对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到上述人脸对象与上述预设人体部位对象的第一关联性预测结果,上述预设人体部位对象与上述人手对象的第二关联性预测结果,以及上述人脸对象与上述人手对象的第三关联性预测结果;对上述图像包含的人体对象进行分割,并基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象归属的第一人体对象和第二人体对象;基于所述第一人体对象和所述第二人体对象,对上述第一关联性预测结果进行调整,并根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
在示出的一些实施例中,上述检测图像中包含的人脸对象,预设人体部位对象以及人手对象,包括:检测图像中人脸对象的第一边界框和预设人体部位对象的第二边界框;上述基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象,包括:根据上述第一边界框确定所述人脸对象对应的区域与各所述人体对象对应的区域之间的第一重合区域;根据所述第二边界框确定上述预设人体部位对象对应的区域与各上述人体对象对应的区域之间的第二重合范围;以及根据上述第一重合范围和所述第二重合范围确定上述人脸对象归属的第一人体对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象。
在示出的一些实施例中,上述根据所述第一重合范围和所述第二重合范围确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象,包括:确定各上述人体对象分别对应的区域中,与上述人脸对象对应的区域的第一重合范围最大的第一目标区域;确定各上述人体对象分别对应的区域中,与上述预设人体部位对象对应的区域的第二重合范围最大的第二目标区域;确定上述第一目标区域对应的人体对象为所述人脸对象归属的第一人体对象;和确定上述第二目标区域对应的人体对象为上述预设人体部位对象归属的第二人体对象。
在示出的一些实施例中,上述基于上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象,对上述第一关联性预测结果进行调整,包括:将第一人体对象与第二人体对象进行匹配,得到匹配结果;基于上述匹配结果,对上述第一关联性预测结果进行调整。
在示出的一些实施例中,上述基于上述匹配结果,对上述第一关联性预测结果进行调整,包括:在上述第一人体对象与上述第二人体对象相匹配的情况下,增大上述第一关联性预测结果中的关联性预测分数;和/或,在上述第一人体对象与上述第二人体对象不匹配的情况下,减小上述第一关联性预测结果中的关联性预测分数。
在示出的一些实施例中,上述方法还包括:对检测出的上述人脸对象、上述预设人体部位对象和上述人手对象进行组合,生成至少一个三元组,其中,每个三元组包括一个人脸对象、一个人体部位对象和一个人手对象;上述对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,包括:对每个三元组内的每两个对象进行关联性预测;上述根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象,包括:根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果确定各三元组对应的第四关联性预测结果;基于各三元组对应的第四关联性预测结果确定上述图像中的关联对象。
在示出的一些实施例中,上述基于各三元组对应的第四关联性预测结果确定上述图像中的关联对象,包括:按照各三元组对应的上述所述第四关联性预测结果中的关联性预测分数由高到低的排序,依次将各三元组确定当前三元组,并执行:基于已确定的关联对象,确定与当前三元组内包括的人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值,以及确定与当前三元组内包括的人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值;若所述关联人手对象的数量未达到上述第一预设阈值,且所述关联人脸对象的数量未达到上述第二预设阈值,则将当前三元组内包括的人脸对象与人手对象确定为上述图像中的关联对象。
在示出的一些实施例中,上述预设人体部位对象包括肩膀对象和手肘对象中的至少之一。
在示出的一些实施例中,上述方法还包括:输出上述图像中的关联对象的检测结果。
在示出的一些实施例中,上述检测图像中包含的人脸对象、预设人体部位对象以及人手对象,包括:采用基于神经网络构建的对象检测模型,检测图像中包含的人脸对象、预设人体部位对象以及人手对象。上述对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,包括:采用基于神经网络构建的关联性预测模型,对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测;上述对上述图像包含的人体对象进行分割,包括:采用基于神经网络构建的实例分割模型对上述图像包含的人体对象进行分割。
在示出的一些实施例中,上述方法还包括:基于第一训练样本集对上述对象检测模型进行训练;其中,上述第一训练样本集包括具有第一标注信息的图像训练样本;上述第一标注信息包括人脸对象、上述预设身体部位对象以及人手对象的边界框;基于第二训练样本集对上述实例分割模型进行训练;其中,上述第二训练样本集包括具有第二标注信息的图像训练样本;上述第二标注信息包括人体对象的边界框;基于第三训练样本集对上述对象检测模型、上述实例分割模型以及上述关联性预测模型进行联合训练;其中,上述第三训练样本集包括具有第三标注信息的图像训练样本;上述第三标注信息包括人脸对象、预设身体部位对象、人手对象与人体对象分别对应的边界框,以及人脸对象与预设身体部位对象之间的关联性标注信息、预设身体部位对象与人手对象之间的关联性标注信息、人脸对象与人手对象之间的关联性标注信息。
本申请还提出一种图像中关联对象的检测装置,上述装置包括:对象检测模块,用于检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,上述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位;关联性预测模块,用于对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到上述人脸对象与上述预设人体部位对象的第一关联性预测结果,上述预设人体部位对象与上述人手对象的第二关联性预测结果,以及上述人脸对象与上述人手对象的第三关联性预测结果;归属关系确定模块,用于对上述图像包含的人体对象进行分割,并基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象;关联对象确定模块,用于基于第一人体对象和第二人体对象,对上述第一关联性预测结果进行调整,并根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
在示出的一些实施例中,上述对象检测模块具体用于:检测图像中人脸对象和预设人体部位对象分别对应的第一边界框和第二边界框;上述归属关系确定模块包括:重合范围确定模块,用于根据第一边界框确定所述人脸对象对应的区域与各所述人体对象对应的区域之间的第一重合范围,根据第二边界框确定所述预设人体对象对应的区域与各上述人体对象对应的区域之间的第二重合范围;归属关系确定子模块,用于根据上述第一重合范围和第二重合范围确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象。
在示出的一些实施例中,上述归属关系确定子模块具体用于:确定各上述人体对象分别对应的区域中,与上述人脸对象对应的区域的第一重合范围最大的第一目标区域;确定各上述人体对象分别对应的区域中,与上述预设人体部位对象对应的区域的第二重合范围最大的第二目标区域;确定上述第一目标区域对应的人体对象为所述人脸对象归属的第一人体对象;和确定上述第二目标区域对应的人体对象为上述预设人体部位对象归属的第二人体对象。
在示出的一些实施例中,上述关联对象确定模块具体用于:将上述第一人体对象与上第二人体对象进行匹配,得到匹配结果;基于上述匹配结果,对上述第一关联性预测结果进行调整。
在示出的一些实施例中,上述关联对象确定模块用于:在上述第一人体对象与上述第二人体对象相匹配的情况下,增大上述第一关联性预测结果中的关联性预测分数;和/或,在上述第一人体对象与上述第二人体对象不匹配的情况下,减小上述第一关联性预测结果中的关联性预测分数。
在示出的一些实施例中,上述装置还包括:组合模块,用于对检测出的上述人脸对象、上述预设人体部位对象和上述人手对象进行组合,生成至少一个三元组,其中,每个三元组包括一个人脸对象、一个人体部位对象和一个人手对象。上述关联性预测模块具体用于:对每个三元组内的每两个对象进行关联性预测;上述关联对象确定模块包括:三元组关联关系预测模块,用于根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果确定各三元组对应的第四关联性预测结果;关联对象确定子模块,用于基于各三元组对应的第四关联性预测结果确定上述图像中的关联对象。
在示出的一些实施例中,上述关联对象确定子模块具体用于:按照各三元组对应的上述第四关联性预测结果中的关联性预测分数由高到低的排序,依次将各三元组确定当前三元组,并执行:基于已确定的关联对象,确定与当前三元组内包括的人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值,以及确定与当前三元组内包括的人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值;若所述关联人手对象的数量未达到上述第一预设阈值,且与当前三元组内包括的人手对象相关联的关联人脸对象的数量未达到上述第二预设阈值,则将当前三元组内包括的人脸对象与人手对象确定为上述图像中的关联对象。
在示出的一些实施例中,上述预设人体部位对象包括肩膀对象和手肘对象中的至少之一。
在示出的一些实施例中,上述装置还包括:输出模块,用于输出上述图像中的关联对象的检测结果。
在示出的一些实施例中,上述对象检测模块具体用于:采用基于神经网络构建的对象检测模型,检测图像中包含的人脸对象、预设人体部位对象以及人手对象;上述关联性预测模块具体用于:采用基于神经网络构建的关联性预测模型,对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测;上述归属关系确定模块具体用于:采用基于神经网络构建的实例分割模型对上述图像包含的人体对象进行分割。
在示出的一些实施例中,上述装置还包括:第一训练模块,用于基于第一训练样本集对上述对象检测模型进行训练;其中,上述第一训练样本集包括具有第一标注信息的图像训练样本;上述第一标注信息包括人脸对象、上述预设身体部位对象以及人手对象的边界框;第二训练模块,用于基于第二训练样本集对上述实例分割模型进行训练;其中,上述第二训练样本集包括具有第二标注信息的图像训练样本;上述第二标注信息包括人体对象的边界框;联合训练模块,用于基于第三训练样本集对上述对象检测模型、上述实例分割模型以及上述关联性预测模型进行联合训练;其中,上述第三训练样本集包括具有第三标注信息的图像训练样本;上述第三标注信息包括人脸对象、预设身体部位对象、人手对象与人体对象分别对应的边界框,以及人脸对象与预设身体部位对象之间的关联性标注信息、预设身体部位对象与人手对象之间的关联性标注信息、人脸对象与人手对象之间的关联性标注信息。
本申请还提出一种电子设备,上述设备包括:处理器;用于存储上述处理器可执行指令的存储器;其中,上述处理器被配置为调用上述存储器中存储的可执行指令,实现如上述任一实施例示出的图像中关联对象的检测方法。
本申请还提出一种计算机可读存储介质,上述存储介质存储有计算机程序,上述计算机程序用于执行如上述任一实施例示出的图像中关联对象的检测方法。
本申请还提出一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行如上述任一实施例示出的图像中关联对象的检测方法。
在上述方法的方案中,一方面通过将与人手对象有紧密联系的预设人体部位作为中介,分别确定人脸对象与该预设人体部位之间的第一关联性预测结果,该预设人体部位与人手对象之间的第二关联性预测结果以及人脸对象与人手对象之间的第三关联性预测结果。然后再根据上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象,从而在确定关联对象的过程中,引入较少的干扰信息,进而保证具有关联性的人脸对象与人手对象的确定结果的精确性。
另一方面,通过对上述图像包含的人体对象进行分割的结果对人脸对象与该预设人体部位之间的第一关联性预测结果进行优化,从而使得人脸对象与该预设人体部位之间的关联性预测结果更精准,进而提升关联对象确定结果的精确性。
应当理解的是,以上述的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请示出的一种图像中关联对象的检测方法的流程图;
图2为本申请示出的一种关联对象检测方法的示意图;
图3为本申请示出的对象检测流程示意图;
图4为本申请示出的关联性预测流程示意图;
图5为本申请示出的一种关联性预测流程示意图;
图6为本申请示出的图像分割流程示意图;
图7为本申请实施例的模型训练方法的一个流程示意图;
图8为本申请示出的一种图像中关联对象的检测装置的结构图;
图9为本申请示出的一种电子设备的硬件结构图。
具体实施方式
下面将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式,除非上述下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解,本文中所使用的词语“如果”,取决于语境,可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请旨在提出一种图像中关联对象的检测方法(以下简称关联对象检测方法)。一方面该方法通过将与人手对象有紧密联系的预设人体部位作为中介,分别确定人脸对象与该预设人体部位之间的第一关联性预测结果,该预设人体部位与人手对象之间的第二关联性预测结果以及人脸对象与人手对象之间的第三关联性预测结果。然后再根据上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象,从而在确定关联对象的过程中,引入较少的干扰信息,进而保证具有关联性的人脸对象与人手对象的确定结果的精确性。
另一方面,该方法通过对上述图像包含的人体对象进行分割的结果对人脸对象与该预设人体部位之间的第一关联性预测结果进行优化,从而使得人脸对象与该预设人体部位之间的关联性预测结果更精准,进而提升关联对象确定结果的精确性。
请参见图1,图1为本申请示出的一种图像中关联对象的检测方法的流程图。
如图1所示,上述方法可以包括:
S102,检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,上述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位。
S104,对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到上述人脸对象与上述预设人体部位对象的第一关联性预测结果,上述预设人体部位对象与上述人手对象的第二关联性预测结果,以及上述人脸对象与上述人手对象的第三关联性预测结果。
S106,对上述图像进行分割以确定至少一个人体对象,并基于分割得到的各上述至少一个人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象。
S108,基于所述第一人体对象和所述第二人体对象,对上述第一关联性预测结果进行调整,并根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
上述关联对象检测方法可以应用于电子设备中。其中,上述电子设备可以通过搭载与关联对象检测方法对应的软件系统执行上述关联对象检测方法。本申请实施例中,上述电子设备的类型可以是笔记本电脑,计算机,服务器,手机,PAD终端等,在本申请中不作特别限定。
可以理解的是,上述关联对象检测方法既可以仅通过终端设备或服务端设备单独执行,也可以通过终端设备与服务端设备配合执行。
例如,上述关联对象检测方法可以集成于客户端。搭载该客户端的终端设备在接收到关联对象检测请求后,可以通过自身硬件环境提供算力执行上述关联对象检测方法。
又例如,上述关联对象检测方法可以集成于系统平台。搭载该系统平台的服务端设备在接收到关联对象检测请求后,可以通过自身硬件环境提供算力执行上述关联对象检测方法。
还例如,上述关联对象检测方法可以分为获取图像与对图像进行关联对象检测两个任务。其中,获取任务可以集成于客户端并搭载于终端设备。关联对象检测任务可以集成于服务端并搭载于服务端设备。上述客户端可以在获取到图像后向上述服务端设备发起关联对象检测请求。上述服务端设备在接收到上述请求后,可以响应于上述请求对上述图像执行上述关联对象检测方法。
以下以执行主体为电子设备(以下简称设备)为例进行说明。
请参见图2,图2为本申请示出的一种关联对象检测方法的示意图。
如图2所示,在图2示出的方法中,可以确定出图像中包括的具有关联性的人脸对象人手对象。
其中,上述图像是指需要进行图像处理的图像。该图像中可以包括若干被检测对象。例如,在桌面游戏场景中,上述图像可以包括若干围绕在桌面附近的人体对象以及人体上的人脸对象、预设人体部位对象以及人手对象。
在一些例子中,在获取上述图像时,上述设备可以通过与用户进行交互,完成图像的输入。例如,上述设备可以通过其搭载的界面为用户提供输入待处理图像的窗口,供用户输入图像。用户可以基于该窗口完成图像的输入。
在一些例子中,上述设备还可以与现场部署的图像采集设备进行连接,从而可以从上述图像采集设备获取该设备采集到的图像。
请继续参见图2,上述设备在获取到图像后,可以执行上述S102,检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,上述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位。
其中,人脸与人手之间的身体连接部包括颈部、肩部、手臂以及手腕。上述预设人体部位对象,具体表征上述身体连接部中的某一身体部位。在一些例子中,为了提升关联性预测精度,上述预设人体部位对象可以是比较容易通过人体关节检测的方式检测出来的关节部位,例如肩膀对象和手肘对象中的至少之一;在另一些例子中,上述预设人体部位对象还可以表征大臂、小臂、手腕等部位。这样,通过预设人体部位对象作为中介,可以较为准确地将距离较远的人脸对象和人手对象关联起来。
在本步骤中,可以将上述图像输入对象检测模型中进行计算,从而检测出上述图像包含的人脸对象,人手对象以及上述预设人体部位对象分别对应的边界框。可以理解的是,检测出图像中包含的各对象对应的边界框,即认为是检测出图像中包含的人脸对象、预设人体部位对象以及人手对象。
上述对象检测模型,可以是用于对象检测的深度卷积网络模型。例如,上述对象检测模型可以是基于RCNN(Region Convolutional Neural Networks,区域卷积神经网络)网络,FAST-RCNN(Fast Region Convolutional Neural Networks,快速区域卷积神经网络)网络或FASTER-RCNN网络构建的模型。
在实际应用中,在使用该对象检测模型进行对象检测前,可以基于若干标注了人脸对象边界框,人手对象边界框以及预设人体部位对象边界框真值的图像训练样本对该模型进行训练,直至该模型收敛。
请参见图3,图3为本申请示出的对象检测流程示意图。需要说明的是,图3仅对对象检测流程进行示意性说明,不对本申请做出特别限定。
如图3所示,上述对象检测模型可以是基于FASTER-RCNN网络构建的模型。该模型可以至少包括骨干网络(backbone),RPN(Region Proposal Network,候选框生成网络),以及RCNN(Region-based Convolutional Neural Network,基于区域的卷积神经网络)。
其中,上述骨干网络可以对图像进行若干次卷积运算得到与该图像对应的特征图。在得到特征图后,可以将特征图输入上述RPN网络得到若干anchors(锚框)。在得到锚框后,可以将该锚框以及上述特征图输入对应的RCNN网络进行bbox(bounding boxes,边界框)回归和分类,得到人脸对象,人手对象以及预设人体部位对象分别对应的第一边界框和第二边界框。
可以理解的是,在本步骤中得到各边界框可以包括得到各边界框对应的位置信息与尺寸信息等。其中,上述位置信息可以包括,边界框的顶点坐标,还可以包括边界框的长度和宽度信息。
在确定人脸对象,人手对象以及预设人体部位对象分别对应的边界框后,可以执行S104,对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到上述人脸对象与上述预设人体部位对象的第一关联性预测结果,上述预设人体部位对象与上述人手对象的第二关联性预测结果,以及上述人脸对象与上述人手对象的第三关联性预测结果。
上述关联性预测,具体是指预测两个人体部位互为关联对象的概率。其中,关联对象是指属于同一人员的两个人体部位对象。
在一些例子中,可以通过基于神经网络构建的关联性预测模型进行关联性预测,得到对应的关联性预测结果。
上述关联性预测结果(包括第一关联性预测结果、第二关联性预测结果以及第三关联性预测结果等),具体可以指示两个人体部位之间互为关联对象的概率。在一些例子中,可以通过关联性预测分数对关联性预测结果进行量化。关联性预测分数越高,则说明关联性预测分数对应的两个人体部位属于同一人员的可能性越高。
例如,在桌面游戏场景中,对图像中的人脸对象与人手对象进行关联性预测,可以是基于关联性预测模型,预测图像中检测出的任意人脸对象与任意人手对象互为关联对象的概率。
可以理解的是,通常情况下上述图像可能包括多个上述人脸对象,多个上述预设人体部位对象以及多个上述人手对象。此时在确定上述第一关联性预测结果时,可以针对上述图像检测出的人脸对象与预设人体部位对象进行任意两两组合,并确定得到的各组合对应的第一关联性预测结果。以此类推,在确定上述第二关联性预测结果时,可以针对图像中的预设人体部位对象与图像中的人手对象进行任意两两组合,确定各组合对应的第二关联性预测结果。在确定上述第三关联性预测结果时,可以针对图像中的人脸对象与图像中的人手对象进行任意两两组合,确定各组合对应的第三关联性预测结果。
在一些例子中,在执行S104时,可以分别对人脸对象与预设人体部位对象的关联性,预设人体部位对象与人手对象的关联性,人脸对象与人手对象的关联性进行预测,得到对应的关联性预测结果。
可以理解的是,确定以上三种关联性预测结果的方式可以相互参考,以下以确定第一关联性预测结果为例进行说明。
例如,可以先执行S1042,将检测出的各人脸对象,分别与各预设人体部位对象进行两两组合,得到多个组合结果。
在此步骤中,可以为检测出的各人脸对象,各人手对象以及各预设人体部位对象分别创建标识。其中,各部位对象对应的标识与该部位对象一一对应。例如,人脸对象标识与人脸对象一一对应,人手对象标识与人手对象一一对应。可以理解的是,在实际应用中,上述标识可以是部位编号。例如,人脸对象1,人脸对象2,人手对象1,预设人体部位对象1等。
在标识创建完毕后,可以执行按照标识(例如编号顺序)依次将各人脸对象与各预设人体部位对象进行组合,得到多个组合结果。
在得到上述多个组合结果后,可以执行S1044,针对各组合结果,利用人脸对象与预设人体部位对象关联性预测分支(以下简称为第一分支),根据当前组合结果内的人脸对象与预设人体部位对象所分别对应的区域特征以及位置信息,对该人脸对象与该预设人体部位对象进行关联性预测,得到与该人脸对象与该预设人体部位对象对应的第一关联性预测结果。
上述第一分支,具体可以为基于卷积神经网络构建的关联性预测模型。该关联性预测分支可以对人脸对象与预设人体部位对象进行关联性预测,得到第一关联性预测结果。可以理解的是,该关联性预测分支可以包括全连接层,最终输出第一关联性预测分数。
在本公开的一些实施例中,上述全连接层可以是基于诸如线性回归,最小二乘回归等回归算法构建的计算单元。该计算单元可以对区域特征进行特征映射,得到对应的关联性预测分数值。在这里,区域特征表示图像中相应的对象所在区域(例如图像中的对象的包围框对应的区域)的特征,例如对象所在区域的特征图、像素矩阵等。
在实际应用中,上述第一分支在进行关联性预测前,可以基于若干具有人脸对象与预设人体部位对象的关联性标注信息的图像训练样本进行训练。
可以理解的是在对上述人脸对象与预设人体部位对象进行训练时可以先构建若干图像训练样本。其中,在构建所述若干图像训练样本时,可以先获取若干原始图像。在获取原始图像后,可以利用标注工具对原始图像中包括的人脸对象与预设人体部位对象进行随意组合,得到多个组合结果。然后再针对各组合内的人脸对象与预设人体部位对象进行关联性标注。在一些例子中,如果组合内的人脸对象与预设人体部位对象具有关联性(属于同一人员),则可以标注1,否则标注0。或者,在针对原始图像标注时,可以标注其中各人脸对象与各预设人体部位对象所归属的人员对象的信息(如人员标识),由此可以根据所归属的人员对象的信息是否一致来确定组合内的人脸对象与预设人体部位对象是否具有关联性。
在图像训练样本构建完毕后,则可以基于常规的模型训练方法对上述第一分支进行训练,直至该分支收敛。
请参见图4,图4为本申请示出的关联性预测流程示意图。示意性的,图4示出的第一分支可以包括区域特征提取单元和全连接层。其中,区域特征提取单元可以基于人脸对象边界框,预设人体部位对象边界框以及与图像对应的特征图,得到人脸对象与预设人体部位对象分别对应的区域特征。
可以理解的是,在一些例子中,上述人脸对象与预设人体部位对象分别对应的区域特征可以集中在一张特征图上,即在一张特征图中包括了上述人脸对象与上述预设人体部位对象分别对应的特征部位。在得到上述特征图后,可以基于该特征图进行特征映射(矩阵运算),得到对应的关联性预测结果。
在另一些例子中,上述人脸对象与预设人体部位对象分别对应的区域特征可以分布在至少两张特征图上,在得到人脸对象与预设人体部位对象分别对应的特征图后,可以将人脸对象与预设人体部位对象对应的特征图输入全连接层进行特征拼接,得到拼接后的特征图。在得到拼接后的特征图后,可以基于该拼接后的特征图进行特征映射(矩阵运算),得到对应的关联性预测结果。
上述区域特征提取单元可以是ROI Align(Region of interest Align,感兴趣区域特征对齐)单元或ROI pooling(Region of interest pooling,感兴趣区域特征池化)单元。
上述全连接层具体可以是基于诸如线性回归,最小二乘回归等回归算法构建的计算单元。该计算单元可以对区域特征(特征图,像素矩阵)进行矩阵运算,得到对应的关联性预测分数值。
在使用上述第一分支进行预测时,可以将各人脸对象与预设人体部位对象的组合结果依次确定为当前组合结果,然后将当前组合结果内的人脸对象与预设人体部位对象对应的区域特征输入上述第一分支进行计算,得到当前组合结果内的人脸对象与预设人体部位对象之间的关联性预测分数(第一关联性预测分数)。
在一些例子中,为了提升模型关联性预测精确性,在进行第一关联性预测分数预测时,可以针对各组合结果,利用第一分支,根据当前组合结果内的人脸对象与预设人体部位对象所分别对应的区域特征以及位置信息,对该人脸对象与该预设人体部位对象进行关联性预测,得到与该人脸对象与该预设人体部位对象对应的第一关联性预测结果。
请参见图5,图5为本申请示出的一种关联性预测流程示意图。如图5所示,在通过区域特征提取单元提取到人脸对象对应的特征以及预设人体部位对象对应的特征后,还可以将人脸对象的位置信息(例如,坐标)以及预设人体部位对象的位置信息(例如,坐标信息)进行特征拼接(例如,单核卷积操作),得到拼接后的特征。在得到拼接后的特征后,可以将该拼接后的特征输入上述全连接层进行特征映射(矩阵运算),得到第一关联性预测分数值。由于在进行关联性预测时,除了使用人脸对象对应的特征以及预设人体部位对象对应的特征外,还使用了人脸对象边界框和预设人体部位对象边界框分别对应的位置信息,从而可以引入表征二者在位置上的关联关系的信息,提升了获得的关联性预测结果的精确性。针对上述各组合执行完上述步骤后,可以得到多个上述第一关联性预测结果中的关联性预测分数。
在针对预设人体部位对象与人手对象进行关联性预测时,可以执行S1046,将检测出的各预设人体部位对象,分别与各人手对象进行两两组合,得到多个组合结果。S1048,针对各组合结果,利用预设人体部位对象与人手对象关联性预测分支,根据当前组合结果内的预设人体部位对象与人手对象所分别对应的区域特征以及位置信息,对该预设人体部位对象与该人手对象进行关联性预测,得到与该预设人体部位对象和该人手对象对应的第二关联性预测结果。
当针对上述各组合执行完上述步骤后,可以得到多个上述第二关联性预测预测结果中的关联性预测分数。
可以理解的是,S1046-S1048的步骤说明可以参照对S1042-S1044的步骤说明,在此不作详述。
在针对人脸对象与人手对象进行关联性预测时,同样可以参照上述S1042-S1044,在此不作详述。
需要说明的是,本申请不对确定第一关联性预测结果与第二关联性预测结果以及第三关联性预测结果的执行顺序进行特别限定。例如,可以按照预设顺序依次确定上述三种关联性预测结果,或者同步进行第一关联性预测结果与第二关联性预测结果以及第三关联性预测结果的预测。
在一些例子中,在执行S104时,可以将检测出的人脸对象、预设人体部位对象以及人手对象输入关联性预测模型中进行计算,得到上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果。
其中,上述关联性预测模型可以是包括多类分类器的分类模型。其中,该多类分类器的输出至少可以包括上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果。
在训练上述关联性预测模型时,可以先构建图像训练样本。在构建图像训练样本时,可以先获取原始图像。在获取原始图像后,可以利用图像标注工具分别对上述原始图像包括的各三元组内包含的人脸对象与预设人体部位对象对应的第一关联性预测结果,预设人体部位对象与人手对象对应的第二关联性预测结果以及人脸对象与人手对象对应的第三关联性预测结果进行标注,得到标注真值的图像训练样本。在构建完图像训练样本后,可以基于构建的图像训练样本进行模型训练,直至该对象关联性预测模型收敛。
在本步骤中,可以先将检测出的任意人脸对象、任意预设人体部位对象以及任意人手对象进行组合,得到多个三元组。在得到上述多个三元组后,可以将上述多个三元组依次作为当前三元组,将当前三元组内包含的人脸对象、预设人体部位对象以及人手对象输入经过训练的对象关联性预测模型进行计算,得到该三元组内包含的人脸对象与预设人体部位对象对应的第一关联性预测结果,预设人体部位对象与人手对象对应的第二关联性预测结果,以及人脸对象与人手对象对应的第三关联性预测结果。需要说明的是,上述对象关联性预测模型的结构可以参照前述第一分支的结构,在此不作详述。
请继续参见图2,在得到第一关联性预测结果,第二关联性预测结果以及第三关联性预测结果后,可以继续执行S106,对上述图像包含的人体对象进行分割,并基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象。
可以理解的是,S106实际可以分为两步,即S1062,对上述图像进行分割,确定图像中包含的至少一个人体对象,并得到所述至少一个人体对象对应的区域;以及S1064,基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象。
在一些例子中,在执行S1062时,可以将上述图像输入基于深度卷积神经网络构建的实例分割模型中进行计算,从而确定出上述图像包括的各人体对象,以及上述各人体对象分别对应的区域。
上述实例分割模型,具体可以是进行实例分割的模型。例如,上述实例分割模型可以是基于FASTER-RCNN网络或MASK-RCNN(MASK Region Convolutional Neural Networks,基于掩模的区域卷积神经网络)网络构建的模型。
在实际应用中,在使用该实例分割模型进行实例分割前,可以基于若干标注了人体对象的边界框的图像训练样本对该模型进行训练,直至该模型收敛。
在构建上述图像训练样本时,可以先获取原始图像。在获取原始图像后,可以利用标注工具确定上述原始图像中包括的各人体对象。在确定各人体对象后,可以利用该标注工具分别对各人体对象的边界或轮廓进行标注。在进行标注时,可以为各人体边界框内的像素点分别标注不同的像素值。比如,上述原始图像包括人体对象A、人体对象B、人体对象C。在进行标注时,可以为人体对象A的边界框内的像素点标注像素值1,为人体对象B的边界框内的像素点标注像素值2,为人体对象C的边界框内的像素点标注像素值3。在图像训练样本构建完毕后,则可以基于常规的模型训练方法对上述实例分割模型进行训练,直至该模型收敛。
请参见图6,图6为本申请示出的图像分割流程示意图。需要说明的是,图6仅对图像分割流程进行示意性说明,不对本申请做出特别限定。如图6所示,上述实例分割模型可以是基于MASK-RCNN网络构建的模型。该模型可以至少包括骨干网络,RPN(RegionProposal Network,候选框生成网络),RCNN(Region-based Convolutional NeuralNetwork,基于区域的卷积神经网络),以及FCNs(Fully Convolution Networks,全卷积网络)。其中,上述骨干网络可以将图像进行若干次卷积运算得到与该图像对应的特征图。在得到特征图后,可以将特征图输入上述RPN网络得到若干anchors(锚框)。在得到锚框后,可以将该锚框以及上述特征图输入对应的RCNN网络进行bbox(bounding boxes,边界框)回归和分类,得到各人体对象分别对应的边界框。在得到各人体对象对应的边界框之后,还可以将该边界框以及上述特征图输入FCNs网络进行语义分割,得到各人体对象对应的区域。
在一些例子中,上述FCNs之前还可以连接ROI Align单元。此时在将该边界框以及上述特征图输入FCNs网络进行语义分割时,可以先将该边界框以及上述特征图输入ROIAlign(Region of interest Align,感兴趣区域特征对齐)单元进行区域特征提取,然后将提取出的上述区域特征输入上述FCNs网络进行语义分割。
可以理解的是,在本步骤中得到各边界框可以包括得到各边界框对应的位置信息和尺寸信息等。其中,上述位置信息可以包括,基于上述图像的左下角为坐标原点构建的直角坐标系确定的位置坐标。
在对上述图像进行实例分割,得到至少一个人体对象对应的区域后,可以执行S1064,基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象。
在一些例子中,在基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象时,可以根据上述人脸对象的第一边界框确定所述人脸对象对应的区域与各所述人体对象对应的区域之间的第一重合范围、根据上述预设人体部位对象的第二边界框确定上述预设人体部位对象对应的区域与各上述人体对象对应的区域之间的第二重合范围。在确定上述第一重合范围和第二重合范围后,可以根据上述第一重合范围和第二重合范围确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象。
通常,对于同一个人体对象,人脸对象的第一边界框、预设人体部位对象的第二边界框位于人体边界框内。因此,上述第一重合范围的大小可以表征人脸对象属于某一人体对象的可能性,上述第二重合范围的大小可以表征预设人体部位对象属于某一人体对象的可能性。以人脸对象为例,若某一人脸对象A1与某一人体对象B之间的第一重合范围大于某一人脸对象A2与人体对象B之间的第一重合范围,则说明该人脸对象A1归属于该人体对象B的可能性大于人脸对象A2归属于该人体对象B的可能性;或者,若某一人脸对象A1与某一人体对象B之间的第一重合范围超过了预定的区间(例如重合范围的面积超过人脸对象对应区域的80%),则说明该人脸对象A1归属于该人体对象B的可能性或概率值较高,此时可以直接确定该人脸对象A1归属于该人体对象B,或者,将人体对象B加入人脸对象A1归属的候选人体对象集合中,进一步根据该人脸对象A1归属于对应的候选人体对象集合中的各人体对象的概率值的排序,确定人脸对象归属的第一人体对象。
可以理解,若在上述根据第一重合范围和上述第二重合范围确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象过程中,出现了至少2个人脸对象归属于同一人体对象的情况,或者当预设人体部位对象为肘部对象或肩部对象时,出现了至少3个预设人体部位对象归属于同一人体对象的情况,则可以根据同一人体对象最多关联1个人脸对象、2个肘部对象、2个肩部对象的约束条件对归属于同一人体对象的人脸对象、预设人体部位对象按照其重合范围由大到小的顺序进行排序筛选,以降低人脸对象、预设人体对象所归属的人体对象的判定结果不符合实际情况的可能性。因此,在本例中,通过确定上述人脸对象对应的区域与各上述人体对象对应的区域之间的第一重合范围和上述预设人体部位对象对应的区域与各上述人体对象对应的区域之间的第二重合范围,则可以确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象。
在一些例子中,在根据上述第一重合范围和上述第二重合范围确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象时,可以确定各上述人体对象分别对应的区域中,与上述人脸对象对应的区域的第一重合范围最大的第一目标区域;以及确定各上述人体对象分别对应的区域中,与上述预设人体部位对象对应的区域的第二重合范围最大的第二目标区域。在确定上述第一目标区域与上述第二目标区域后,确定上述第一目标区域对应的人体对象为所述人脸对象归属的第一人体对象,和确定上述第二目标区域对应的人体对象为上述预设人体部位对象归属的第二人体对象。
由于上述第一目标区域为与上述人脸对象对应的区域的第一重合范围最大的区域,上述第二目标区域为与上述预设人体部位对象对应的区域的第二重合范围最大的区域,因此,在本例中可以确定出上述人脸对象最有可能归属的第一人体对象与上述预设人体部位对象最有可能归属的第二人体对象,从而保证了关联对象检测的准确性。在一些例子中,在确定上述第一目标区域时,可以将上述人脸对象对应的区域内包含的各像素点,按照像素值大小将相同大小的像素值分为一组,得到若干分类组合。可以理解的是,由于不同像素值表征不同的人体对象对应的区域,因此在对像素点进行分类后,每一分类组合可以表征一个上述人体对象对应的区域。
在对像素点进行分类后,可以统计各分类组合包含的像素点数量,并将包含的像素点数量最高的分类组合对应的人体对象区域确定为上述第一目标区域。例如,假设人脸对象对应的区域一共包括100个像素点,其中,80个对应人体对象A对应的区域,15个对应于人体对象B对应的区域,5个对应于人体对象C对应的区域。此时,则可以认为人体对象A对应的区域为上述第一目标区域。需要说明的是,确定上述第二目标区域的方法可以参照上述确定第一目标区域的方法,在此不作详述。
在一些例子中,在确定上述第一目标区域与上述第二目标区域时,还可以采用IoU(Intersection over Union,交并比)算法等方式进行确定。
在一些例子中,在基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象时,确定上述第一重合范围和第二重合范围之后,再根据上述人脸对象的区域、上述预设人体部位对象的区域分别确定上述人脸对象与上述人体对象的合并范围,以及上述预设人体部位对象与上述人体对象的合并范围。
在确定上述合并范围后,基于IoU算法公式,利用上述人脸对象和上述人体对象之间第一重合范围除以上述二者对应的合并范围,得到与上述人脸对象对应的第一IoU值集合。同理可得与上述预设人体部位对象对应的第二IoU值集合。
在确定上述第一IoU值集合与上述第二IoU值集合后,可以确定出上述第一IoU值集合中数值最大的第三IoU值以及上述第二IoU值集合中数值最大的第四IoU值。之后,分别确定上述第三IoU值对应的人体对象和上述第四IoU值对应的人体对象为上述人脸对象归属的第一人体对象和上述预设人体部位对象归属的第二人体对象。
上述IoU值的大小可以表征人脸对象或预设人体部位对象属于某一人体对象的可能性。例如,若某一人脸对象与某一人体对象之间的IoU值大,则说明该人脸对象归属于该人体对象的可能性大。
由于上述第三IoU值为上述第一IoU值集合中的最大值,上述第四IoU值为上述第二IoU值集合中的最大值,因此,在本例中可以确定出上述人脸对象最有可能归属的第一人体对象和上述预设人体部位对象最有可能归属的第二人体对象,从而保证了关联对象检测的准确性。
在一些例子中,在执行S1064时,可能出现无法确定人脸对象所归属的第一人体对象或预设人体部位对象所归属的第二人体对象的情形。若出现这样的情形,则可以不对该人脸对象或该预设人体对象对应的关联性预测结果进行调整。
例如,在确定人脸对象归属的第一人体对象时,可能出现与该人脸对象对应的区域重合的几个人体对象区域,与该人脸对象的区域之间的第一重合范围大小大致相同,此时,可以认为无法确定该人脸对象所属的第一人体对象,则可以不对与该人脸对象对应的关联性预测结果进行调整。
请继续参见图2,在确定上述图像包含的人脸对象与预设人体部位对象分别所归属的第一人体对象和第二人体对象后,可以继续执行S108,基于所述第一人体对象和所述第二人体对象,对上述第一关联性预测结果进行调整,并根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
可以理解的是,S108实际可以分为两步,即S1082,基于第一人体对象和第二人体对象,对上述第一关联性预测结果进行调整;以及S1084,根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
在一些例子中,在执行S1082时,可以将上述人脸对象归属的第一人体对象与上述预设人体部位对象归属的第二人体对象进行匹配,得到匹配结果。在得到匹配结果后,可以基于上述匹配结果,对上述第一关联性预测结果进行调整。
如果上述人脸对象归属的第一人体对象与上述预设人体部位对象归属的第二人体对象匹配一致,则可以说明上述人脸对象与上述预设人体部位对象属于同一个人员的概率较大,因此,在本例中基于上述匹配结果,对上述第一关联性预测结果进行调整,可以通过调整上述第一关联性预测结果,提升将该第一关联性预测结果对应的人脸对象与预设人体部位对象确定为属于同一人员的可能性,从而提升关联对象检测准确性。
可以理解的是,由于图像包括多对人脸对象与预设人体部位对象的组合,因此在执行S104时,通常可以确定多个第一关联性预测结果。此时,在执行S1082时,可以将上述多个第一关联性预测结果依次作为当前第一关联性预测结果,并执行:将第一人体对象与第二人体对象进行匹配,得到匹配结果。之后,可以基于上述匹配结果,对该当前第一关联性预测结果进行调整。
在一些例子中,可以遵循以下的思路对第一关联性预测结果进行调整。其中关联性预测结果可以包括关联性预测分数,关联性预测分数越高,二者的关联性越强。在第一人体对象与的第二人体对象匹配一致的情况下,增大上述第一关联性预测结果中的关联性预测分数;和/或,在第一人体对象与第二人体对象不一致的情况下,减小上述第一关联性预测结果中的关联性预测分数。
在本例中,由于在第一人体对象与第二人体对象匹配一致的情况下,可以增大上述第一关联性预测结果中的关联性预测分数,和/或,在第一人体对象与第二人体对象不一致的情况下,减小上述第一关联性预测预测结果中的关联性分数。因此可以增加属于同一人员的人脸对象与预设人体部位对象之间的关联性预测分数,和/或,减小不属于同一人员的人脸对象与预设人体部位对象之间关联性预测分数,从而提升关联对象检测准确性。
需要说明的是,本申请不对增大与减小上述第一关联性预测结果中的关联性预测分数的方法进行特别限定。例如,在增大或减小第一关联性预测结果中的关联性预测分数时,可以在原始的第一关联性预测结果中的关联性预测分数的基础上,增加或减小预设数值。
在一些例子中,对图像进行实例分割得到的分割结果除了包括与上述图像包含的各人体对象分别对应的区域外,还包括指示实例分割结果的准确性的置信度分数。此时,在增大人脸对象与预设人体部位对象之间的第一关联性预测结果中的关联性预测分数时,可以将该第一关联性预测结果中的关联性预测分数增大至上述人脸对象所归属的人体对象对应的置信度分数。在减小第一关联性预测结果中的关联性预测分数时,可以将原始的第一关联性预测结果中的关联性预测分数进行减半。
在一些例子中,在执行S1064时,可能出现无法确定人脸对象所归属的第一人体对象或预设人体部位对象所归属的第二人体对象的情形。若出现这样的情形,则可以不对该人脸对象或该预设人体对象对应的关联性预测结果进行调整。
请继续参见图2,在对上述第一关联性预测结果调整之后,可以继续执行S1084,根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
在一些例子中,当上述图像仅包括一个人脸对象、一个预设人体部位对象与一个人手对象,在确定上述图像中的关联对象时,可以将上述第一关联性预测结果中的关联性预测分数,上述第二关联性预测结果中的关联性预测分数以及上述第三关联性预测结果中的关联性预测分数相加,得到相加结果。在得到上述相加结果后,可以确定上述相加结果是否达到预设标准值。如果上述相加结果达到上述预设标准值,则可以认为图中包括的人脸对象与人手对象互为关联对象。在本公开的一些实施例中,上述预设标准值具体是可以根据实际情形进行设定的经验阈值。例如,该预设标准值可以是0.95。
当上述图像包括多个人脸对象、预设人体部位对象以及人手对象时,在确定上述图像中的关联对象时,则可以对检测出的上述人脸对象、上述预设人体部位对象和上述人手对象进行组合,生成至少一个三元组,其中,每个三元组包括一个人脸对象、一个预设人体部位对象和一个人手对象。在获取多个三元组后,可以确定上述图像中的关联对象。
在本公开的一些实施例中,可以先根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果确定各三元组对应的第四关联性预测结果。
在一些例子中,上述第四关联性预测结果可以包括关联性预测分数。在确定上述多个三元组分别对应的关联性预测结果中的关联性预测分数时,可以将上述多个三元组中的各三元组依次确定为当前三元组。然后将当前三元组内包含的人脸对象与预设人体部位对象对应的调整后的第一关联性预测结果中的关联性预测分数,预设人体部位对象与人手对象对应的第二关联性预测结果中的关联性预测分数以及人脸对象与人手对象对应的第三关联性预测结果中的关联性预测分数之和,确定为当前三元组对应的关联性预测结果中的关联性预测分数。
需要说明的是,本申请不对根据调整后的上述第一关联性预测结果中的关联性预测分数,上述第二关联性预测结果中的关联性预测分数以及上述第三关联性预测结果中的关联性预测分数,确定上述多个三元组分别对应的关联性预测结果中的关联性预测分数的具体方式进行特别限定。例如,还可以通过将上述三类分数相乘,或加权求和或求平均值等方式确定三元组对应的关联性预测结果中的关联性预测分数。
在得到上述多个三元组各自对应的关联性预测结果之后,可以基于各三元组对应的关联性预测结果确定上述图像中的关联对象。
上述各三元组对应的第四关联性预测结果可以表征该三元组内包含的人脸对象与人手对象属于同一人员的可能性。例如,当上述第四关联性预测结果通过关联性预测结果中的关联性预测分数表征时,若关联性预测结果中的关联性预测分数高,则说明该关联性预测结果对应的三元组内的人脸对象与人手对象属于同一人员的可能性大。
因此,在本例中,通过基于各三元组对应的关联性预测结果确定上述图像中的关联对象,可以将关联紧密的三元组内的人脸对象与人手对象确定为关联对象,从而提升了关联对象检测的准确性。
在一些例子中,在基于各三元组对应的第四关联性预测结果确定上述图像中的关联对象时,可以优先将对应第四关联性预测结果中的关联性预测分数高的三元组内包括的人脸对象与人手对象确定为具有关联性的人脸对象与人手对象。
关联性预测结果中的关联性预测分数高表明三元组内人脸对象与人手对象的关联性强,因此,在一些例子中可以按照关联性预测结果中的关联性预测分数由高到低的顺序依次判断三元组中的人脸对象和人手对象是否为关联对象。
在实际情形中,通常一个人脸对象最多只能与两个人手对象对应并且一个人手对象最多只能与一个人脸对象对应。为了满足上述实际情形,在一些例子中,在优先将对应关联性预测结果中的关联性预测分数较高的三元组内包括的人脸对象与人手对象确定为具有关联性的人脸对象与人手对象时,可以按照各三元组对应的上述关联性预测结果中的关联性预测分数由高到低的排序,依次将各三元组确定当前三元组,并对每个当前三元组执行以下操作:基于已确定的关联对象,确定与当前三元组内包括的人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值,以及确定与当前三元组内包括的人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值。
上述第一预设阈值具体是可以根据实际情形进行设定的经验阈值。例如,上述第一预设阈值可以为2。
上述第二预设阈值具体是可以根据实际情形进行设定的经验阈值。例如,上述第二预设阈值可以为1。
在一些例子中,可以为各人脸对象与各人手对象分别维护一个计数器,每当确定与任一人脸对象互为关联对象的关联人手对象时,则可以将上述关联人脸对象对应的计数器上的值加1。此时,在基于已确定的关联对象,确定与当前三元组内包括的人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值时,可以通过确定与上述人脸对象对应的计数器的计数值是否达到第一预设阈值,则可以确定与上述人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值。在确定与当前三元组内包括的人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值时,可以通过确定与上述人手对象对应的计数器的计数值是否达到第二预设阈值,则可以确定与上述人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值。
若与当前三元组内包括的人脸对象相关联的关联人手对象的数量未达到上述第一预设阈值,且与当前三元组内包括的人手对象相关联的关联人脸对象的数量未达到上述第二预设阈值,则将当前三元组内包括的人脸对象与人手对象确定为上述图像中的关联对象。
在确定关联对象时,可以在与当前三元组内包括的人脸对象相关联的关联人手对象的数量未达到上述第一预设阈值,且与当前三元组内包括的人手对象相关联的关联人脸对象的数量未达到上述第二预设阈值的情况下,将当前三元组内的人脸对象与人手对象确定为关联对象。因此,可以避免出现一个人脸对象与超过两个人手对象相关联以及一个人手对象与超过一个人脸对象相关联的情形。
在一些例子中,在确定图像中的关联对象之后,可以输出该图像中的关联对象的检测结果。在一些例子中,可以在图像输出设备(例如显示器)上输出包含上述关联对象指示的人脸对象与人手对象的外接框。通过展示包含上述关联对象的外接框可以使观察人员方便直观确定图像输出设备上展示的图像中的关联对象,进而便于对关联对象的检测结果进行进一步的人工校验。
以上述是对本申请示出的确定图像中的关联对象的方案的介绍,以下介绍该方案中使用的各模型的训练方法。
请继续参见图2。在图2示出的方案中,可以采用基于神经网络构建的对象检测模型,检测图像中包含的人脸对象、预设人体部位对象以及人手对象。可以采用基于神经网络构建的关联性预测模型,对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测。可以采用基于神经网络构建的实例分割模型对上述图像包含的人体对象进行分割。可以理解的是,上述对象检测模型、上述实例分割模型以及上述关联性预测模型可以共用相同的骨干网络。
在一些例子中,可以针对上述对象检测模型、上述实例分割模型以及上述关联性预测模型分别构建训练样本集,并基于构建的训练样本集分别对上述对象检测模型、上述实例分割模型以及上述关联性预测模型进行训练。
在一些例子中,为了提升关联对象检测的精确性,可以采用分段训练的方式对各模型进行训练。其中,第一段为针对对象检测模型与实例分割模型的训练;第二段为针对对象检测模型、实例分割模型以及关联性预测模型的联合训练。
请参见图7,图7为本申请实施例的模型训练方法的一个流程示意图。
如图7所示,该方法包括:S702,基于第一训练样本集对上述对象检测模型进行训练;其中,上述第一训练样本集包括具有第一标注信息的图像训练样本;上述第一标注信息包括人脸对象、上述预设身体部位对象以及人手对象的边界框。
在执行本步骤时,可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如,在获取到原始图像后,可以使用图像标注工具对原始图像中包括的人脸对象边界框,人手对象边界框以及预设人体部位对象(例如手肘)边界框进行标注,以得到若干图像训练样本。需要说明的是,在对图像训练样本进行编码时,可以采用one-hot编码(独热编码)等方式进行编码,本申请不对编码的具体方式进行限定。
在确定第一训练样本集后,可以基于预设的损失函数对对象检测模型进行训练,直至该模型收敛。
S704,基于第二训练样本集对上述实例分割模型进行训练;其中,上述第二训练样本集包括具有第二标注信息的图像训练样本;上述第二标注信息包括人体对象的边界框。
在构建上述图像训练样本时,可以先获取原始图像。在获取原始图像后,可以利用标注工具确定上述原始图像中包括的各人体对象。在确定各人体对象后,可以利用该标注工具分别对各人体对象对应的边界框进行标注。在进行标注时,可以通过为各边界框内的像素点标注不同的像素值。比如,上述原始图像包括人体对象A、人体对象B、人体对象C。在进行标注时,可以为人体对象A的边界框内的像素点标注像素值1,为人体对象B的边界框内的像素点标注像素值2,为人体对象C的边界框内的像素点标注像素值3。在确定第二训练样本集后,则可以基于常规的模型训练方法对上述实例分割模型进行训练,直至该模型收敛。
S706,基于第三训练样本集对上述对象检测模型、上述实例分割模型以及上述关联性预测模型进行联合训练;其中,上述第三训练样本集包括具有第三标注信息的图像训练样本;上述第三标注信息包括人脸对象、预设身体部位对象、人手对象与人体对象分别对应的边界框,以及人脸对象与预设身体部位对象之间的关联性标注信息、预设身体部位对象与人手对象之间的关联性标注信息、人脸对象与人手对象之间的关联性标注信息。
在执行本步骤时,可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如,在获取原始图像后,一方面,可以使用图像标注工具对原始图像中包括的人脸对象边界框,人手对象边界框以及预设人体部位对象(例如手肘)边界框进行标注。另一方面,可以利用图像标注工具确定上述原始图像中包括的各人体对象。在确定各人体对象后,可以利用该标注工具分别对各人体对象对应的边界框进行标注。再一方面,可以利用标注工具对原始图像中包括的人脸对象与预设人体部位对象进行随意组合,对原始图像中包括的人脸对象与人手对象进行随意组合以及对原始图像中包括的预设人体部位对象与人手对象进行随意组合,得到多个组合结果。然后再针对各组合内的两个对象进行关联性结果标注。在一些例子中,如果组合内的两个对象属于同一人员,则标注1,否则标注0。
在确定第三训练样本集后,可以基于上述对象检测模型、上述实例分割模型以及上述关联性预测模型各自对应的损失函数确定联合学习损失函数。在一些例子中,可以将上述对象检测模型、上述实例分割模型以及上述关联性预测模型各自对应的损失函数相加得到上述联合学习损失函数。需要说明的是,在本申请中还可以为上述联合学习损失函数增加正则化项等超参数。在此不对添加的超参数的种类进行特别限定。
在得到联合训练损失函数后,可以基于上述联合学习损失函数以及上述第三训练样本集对上述对象检测模型、上述实例分割模型以及上述关联性预测模型进行联合训练,直至上述对象检测模型、上述实例分割模型以及上述关联性预测模型均收敛。
在对模型训练时,可以先指定诸如学习率、训练循环次数等超参数。在确定上述超参数之后,可以基于标注了真值的上述图像训练样本对各模型进行有监督训练。
在一次有监督训练过程中,可以进行前向传播得到各模型输出的计算结果。在得到各模型输出的计算结果后,可以基于构建的联合学习损失函数评价上述计算结果的误差,即上述计算结果与真值之间的差异。在得到误差之后,可以采用随机梯度下降法确定下降梯度。在确定下降梯度后,可以基于反向传播更新上述各模型对应的模型参数。然后可以基于更新参数后的各模型重复上述过程,直至上述各模型收敛。需要说明的是,上述模型收敛的条件可以是诸如达到预设训练次数,或连续M(M为大于1的正整数)次前向传播后得到联合学习损失函数的变化量小于一定阈值等。本申请不对模型收敛的条件进行特别限定。
由于上述模型训练中采用了有监督式的联合训练方法,因此,可以对各模型进行同时训练,使得各模型之间在训练过程中既可以相互约束,又可以相互促进,从而一方面提高各模型的收敛效率;另一方面促进各模型共用的骨干网络提取到对关联对象检测更有益的特征,从而提升关联对象检测精确性。
本申请还提出一种图像中关联对象的检测装置。请参见图8,图8为本申请示出的一种图像中关联对象的检测装置的结构图。
如图8所示,上述装置80包括:对象检测模块81,用于检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,上述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位;
关联性预测模块82,用于对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到上述人脸对象与上述预设人体部位对象的第一关联性预测结果,上述预设人体部位对象与上述人手对象的第二关联性预测结果,以及上述人脸对象与上述人手对象的第三关联性预测结果;
归属关系确定模块83,用于对上述图像包含的人体对象进行分割,并基于分割得到的各上述人体对象对应的区域,确定上述人脸对象和上述预设人体部位对象分别所归属的第一人体对象和第二人体对象;以及
关联对象确定模块84,用于基于第一人体对象和第二人体对象,对上述第一关联性预测结果进行调整,并根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果,确定上述图像中的关联对象。
在示出的一些实施例中,上述对象检测模块81具体用于:检测图像中人脸对象和预设人体部位对象分别对应的第一边界框和第二边界框;上述归属关系确定模块83包括:重合范围确定模块,用于根据上述第一边界框确定所述人脸对象对应的区域与各所述人体对象对应的区域之间的第一重合范围,、根据第二边界框确定上述预设人体部位对象对应的区域与各上述人体对象对应的区域之间的第二重合范围;以及归属关系确定子模块,用于根据上述第一重合范围和第二重合范围确定上述人脸对象和上述预设人体部位对象分别归属的第一人体对象和第二人体对象。
在示出的一些实施例中,上述归属关系确定子模块具体用于:确定各上述人体对象分别对应的区域中,与上述人脸对象对应的区域的第一重合范围最大的第一目标区域;确定各上述人体对象分别对应的区域中,与上述预设人体部位对象对应的区域的第二重合范围最大的第二目标区域;以及确定上述第一目标区域对应的人体对象为所述人脸对象归属的第一人体对象;和确定上述第二目标区域对应的人体对象为上述预设人体部位对象归属的第二人体对象。
在示出的一些实施例中,上述关联对象确定模块84具体用于:将第一人体对象与第二人体对象进行匹配,得到匹配结果;以及基于上述匹配结果,对上述第一关联性预测结果进行调整。
在示出的一些实施例中,上述关联对象确定模块84具体用于:在上述第一人体对象与上述第二人体对象相匹配的情况下,增大上述第一关联性预测结果中的关联性预测分数;和/或,在上述第一人体对象与上述第二人体对象不匹配的情况下,减小上述第一关联性预测结果中的关联性分数。
在示出的一些实施例中,上述装置80还包括:组合模块,用于对检测出的上述人脸对象、上述预设人体部位对象和上述人手对象进行组合,生成至少一个三元组,其中,每个三元组包括一个人脸对象、一个预设人体部位对象和一个人手对象;上述关联性预测模块82具体用于:对每个三元组内的每两个对象进行关联性预测;上述关联对象确定模块84包括:三元组关联关系预测模块,用于根据调整后的上述第一关联性预测结果,上述第二关联性预测结果以及上述第三关联性预测结果确定各三元组对应的第四关联性预测结果;以及关联对象确定子模块,用于基于各三元组对应的第四关联性预测结果确定上述图像中的关联对象。
在示出的一些实施例中,上述关联对象确定子模块具体用于:按照各三元组对应的所述第四关联性预测结果中的关联性预测分数由高到低的排序,依次将各三元组确定当前三元组,并执行:基于已确定的关联对象,确定与当前三元组内包括的人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值,以及确定与当前三元组内包括的人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值;若所述关联人手对象的数量未达到上述第一预设阈值,且所述关联人脸对象的数量未达到上述第二预设阈值,则将当前三元组内包括的人脸对象与人手对象确定为上述图像中的关联对象。
在示出的一些实施例中,上述预设人体部位对象包括肩膀对象和手肘对象中的至少之一。
在示出的一些实施例中,上述装置80还包括:输出模块,用于输出上述图像中的关联对象的检测结果。
在示出的一些实施例中,上述对象检测模块81具体用于:采用基于神经网络构建的对象检测模型,检测图像中包含的人脸对象、预设人体部位对象以及人手对象;上述关联性预测模块82具体用于:采用基于神经网络构建的关联性预测模型,对上述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测;上述归属关系确定模块83具体用于:采用基于神经网络构建的实例分割模型对上述图像包含的人体对象进行分割。
在示出的一些实施例中,上述装置80还包括:第一训练模块,用于基于第一训练样本集对上述对象检测模型进行训练;其中,上述第一训练样本集包括具有第一标注信息的图像训练样本;上述第一标注信息包括人脸对象、上述预设身体部位对象以及人手对象的边界框;第二训练模块,用于基于第二训练样本集对上述实例分割模型进行训练;其中,上述第二训练样本集包括具有第二标注信息的图像训练样本;上述第二标注信息包括人体对象的边界框;以及联合训练模块,用于基于第三训练样本集对上述对象检测模型、上述实例分割模型以及上述关联性预测模型进行联合训练;其中,上述第三训练样本集包括具有第三标注信息的图像训练样本;上述第三标注信息包括人脸对象、预设身体部位对象、人手对象与人体对象分别对应的边界框,以及人脸对象与预设身体部位对象之间的关联性标注信息、预设身体部位对象与人手对象之间的关联性标注信息、人脸对象与人手对象之间的关联性标注信息。
本申请示出的图像中关联对象的检测装置的实施例可以应用于电子设备上。相应地,本申请公开了一种电子设备,该设备可以包括:处理器;以及用于存储处理器可执行指令的存储器;其中,上述处理器被配置为调用上述存储器中存储的可执行指令,实现如上述任一实施例示出的图像中关联对象的检测方法。
请参见图9,图9为本申请示出的一种电子设备的硬件结构图。如图9所示,该电子设备可以包括用于执行指令的处理器,用于进行网络连接的网络接口,用于为处理器存储运行数据的内存,以及用于存储图像处理装置对应指令的非易失性存储器。图像处理装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。可以理解的是,为了提升处理速度,图像处理装置对应指令也可以直接存储于内存中,在此不作限定。
本申请提出一种计算机可读存储介质,上述存储介质存储有计算机程序,上述计算机程序用于执行如上述任一实施例示出的图像中关联对象的检测方法。
本申请还提出一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行如上述任一实施例示出的图像中关联对象的检测方法。
本领域技术人员应明白,本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请中的“和/或”表示至少具有两者中的其中一个,例如,“A和/或B”可以包括三种方案:A、B、以及“A和B”。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机可读存储介质可以是机器可读存储设备、机器可读存储介质、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机可以包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将可以包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备,例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本申请包含许多具体实施细节,但是这些不应被解释为限制任何公开的范围或所要求保护的范围,而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上述仅为本申请一个或多个实施例的较佳实施例而已,并不用以限制本申请一个或多个实施例。在不脱离本申请一个或多个实施例的精神和原则的情况下所做的任何修改、等同替换、改进等,均包含在所附权利要求所限定的保护范围之内。

Claims (15)

1.一种图像中关联对象的检测方法,其特征在于,所述方法包括:
检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,所述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位;
对所述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到所述人脸对象与所述预设人体部位对象的第一关联性预测结果,所述预设人体部位对象与所述人手对象的第二关联性预测结果,以及所述人脸对象与所述人手对象的第三关联性预测结果;
对所述图像包含的人体对象进行分割,并
基于分割得到的各所述人体对象对应的区域,确定所述人脸对象和所述预设人体部位对象分别所归属的第一人体对象和第二人体对象;
基于所述第一人体对象和所述第二人体对象,对所述第一关联性预测结果进行调整;
根据调整后的所述第一关联性预测结果,所述第二关联性预测结果以及所述第三关联性预测结果,确定所述图像中的关联对象。
2.根据权利要求1所述的方法,其特征在于,
所述检测图像中包含的人脸对象,预设人体部位对象以及人手对象,包括:
检测图像中人脸对象和预设人体部位对象分别对应的第一边界框和第二边界框;
所述基于分割得到的各所述人体对象对应的区域,确定所述人脸对象和所述预设人体部位对象分别所归属的第一人体对象和第二人体对象,包括:
根据所述第一边界框确定所述人脸对象对应的区域与各所述人体对象对应的区域之间的第一重合范围;
根据所述第二边界框确定所述预设人体部位对象对应的区域与各所述人体对象对应的区域之间的第二重合范围;
根据所述第一重合范围和所述第二重合范围确定所述人脸对象和所述预设人体部位对象分别归属的第一人体对象和第二人体对象。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一重合范围和所述第二重合范围确定所述人脸对象和所述预设人体部位对象分别归属的第一人体对象和第二人体对象,包括:
确定各所述人体对象分别对应的区域中,与所述人脸对象对应的区域的第一重合范围最大的第一目标区域;
确定各所述人体对象分别对应的区域中,与所述预设人体部位对象对应的区域的第二重合范围最大的第二目标区域;
确定所述第一目标区域对应的人体对象为所述人脸对象归属的第一人体对象;和
确定所述第二目标区域对应的人体对象为所述预设人体部位对象归属的第二人体对象。
4.根据权利要求1-3任一所述的方法,其特征在于,所述基于所述第一人体对象和所述第二人体对象,对所述第一关联性预测结果进行调整,包括:
将所述第一人体对象与所述第二人体对象进行匹配,得到匹配结果;
基于所述匹配结果,对所述第一关联性预测结果进行调整。
5.根据权利要求4所述的方法,其特征在于,所述基于所述匹配结果,对所述第一关联性预测结果进行调整,包括:
在所述第一人体对象与所述第二人体对象相匹配的情况下,增大所述第一关联性预测结果中的关联性预测分数;和/或,
在所述第一人体对象与所述第二人体对象不匹配的情况下,减小所述第一关联性预测结果中的关联性预测分数。
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
对检测出的所述人脸对象、所述预设人体部位对象和所述人手对象进行组合,生成至少一个三元组,其中,每个三元组包括一个人脸对象、一个人体部位对象和一个人手对象;
所述对所述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,包括:
对每个三元组内的每两个对象进行关联性预测;
所述根据调整后的所述第一关联性预测结果,所述第二关联性预测结果以及所述第三关联性预测结果,确定所述图像中的关联对象,包括:
根据调整后的所述第一关联性预测结果,所述第二关联性预测结果以及所述第三关联性预测结果确定各三元组对应的第四关联性预测结果;
基于各三元组对应的第四关联性预测结果确定所述图像中的关联对象。
7.根据权利要求6所述的方法,其特征在于,所述基于各三元组对应的第四关联性预测结果确定所述图像中的关联对象,包括:
按照各三元组对应的所述第四关联性预测结果中的关联性预测分数由高到低的排序,依次将各三元组确定当前三元组,并执行:
基于已确定的关联对象,确定与当前三元组内包括的人脸对象互为关联对象的关联人手对象的数量是否达到第一预设阈值,以及确定与当前三元组内包括的人手对象互为关联对象的关联人脸对象的数量是否达到第二预设阈值;
若所述关联人手对象的数量未达到所述第一预设阈值,且所述关联人脸对象的数量未达到所述第二预设阈值,则将当前三元组内包括的人脸对象与人手对象确定为所述图像中的关联对象。
8.根据权利要求1-7任一所述的方法,其特征在于,所述预设人体部位对象包括肩膀对象和手肘对象中的至少之一。
9.根据权利要求1-8任一所述的方法,其特征在于,所述方法还包括:
输出所述图像中的关联对象的检测结果。
10.根据权利要求1-9任一所述的方法,其特征在于,
所述检测图像中包含的人脸对象、预设人体部位对象以及人手对象,包括:
采用基于神经网络构建的对象检测模型,检测图像中包含的人脸对象、预设人体部位对象以及人手对象;
所述对所述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,包括:
采用基于神经网络构建的关联性预测模型,对所述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测;
所述对所述图像包含的人体对象进行分割,包括:
采用基于神经网络构建的实例分割模型对所述图像包含的人体对象进行分割。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
基于第一训练样本集对所述对象检测模型进行训练;其中,所述第一训练样本集包括具有第一标注信息的图像训练样本;所述第一标注信息包括人脸对象、所述预设身体部位对象以及人手对象的边界框;
基于第二训练样本集对所述实例分割模型进行训练;其中,所述第二训练样本集包括具有第二标注信息的图像训练样本;所述第二标注信息包括人体对象的边界框;
基于第三训练样本集对所述对象检测模型、所述实例分割模型以及所述关联性预测模型进行联合训练;其中,所述第三训练样本集包括具有第三标注信息的图像训练样本;所述第三标注信息包括人脸对象、预设身体部位对象、人手对象与人体对象分别对应的边界框,以及人脸对象与预设身体部位对象之间的关联性标注信息、预设身体部位对象与人手对象之间的关联性标注信息、人脸对象与人手对象之间的关联性标注信息。
12.一种图像中关联对象的检测装置,其特征在于,所述装置包括:
对象检测模块,用于检测图像中包含的人脸对象、预设人体部位对象以及人手对象;其中,所述预设人体部位对象表征人脸与人手之间的身体连接部中的预设人体部位;
关联性预测模块,用于对所述人脸对象,预设人体部位对象以及人手对象中的每两个对象进行关联性预测,得到所述人脸对象与所述预设人体部位对象的第一关联性预测结果,所述预设人体部位对象与所述人手对象的第二关联性预测结果,以及所述人脸对象与所述人手对象的第三关联性预测结果;
归属关系确定模块,用于对所述图像包含的人体对象进行分割,并基于分割得到的各所述人体对象对应的区域,确定所述人脸对象和所述预设人体部位对象分别所归属的人体对象;
关联对象确定模块,用于基于所述人脸对象和所述预设人体部位对象分别归属的人体对象,对所述第一关联性预测结果进行调整,并根据调整后的所述第一关联性预测结果,所述第二关联性预测结果以及所述第三关联性预测结果,确定所述图像中的关联对象。
13.一种电子设备,其特征在于,所述设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求1至11中任一项所述的图像中关联对象的检测方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行权利要求1至11中任一项所述的图像中关联对象的检测方法。
15.一种计算机程序产品,其特征在于,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行权利要求1至11中任一项所述的方法。
CN202180001436.0A 2020-12-31 2021-04-29 图像中关联对象的检测方法、装置、设备和存储介质 Pending CN114902299A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013267T 2020-12-31
SG10202013267T 2020-12-31
PCT/IB2021/053563 WO2022144605A1 (en) 2020-12-31 2021-04-29 Methods, devices, apparatuses and storage media of detecting correlated objects in images

Publications (1)

Publication Number Publication Date
CN114902299A true CN114902299A (zh) 2022-08-12

Family

ID=79867888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180001436.0A Pending CN114902299A (zh) 2020-12-31 2021-04-29 图像中关联对象的检测方法、装置、设备和存储介质

Country Status (6)

Country Link
US (1) US11756205B2 (zh)
JP (1) JP2023511242A (zh)
KR (1) KR20220098312A (zh)
CN (1) CN114902299A (zh)
AU (1) AU2021203821B2 (zh)
PH (1) PH12021551366A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895043A (zh) * 2023-06-13 2023-10-17 郑州宝冶钢结构有限公司 一种施工现场智能安全监控预警方法、系统及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220170333A (ko) * 2021-06-21 2022-12-29 센스타임 인터내셔널 피티이. 리미티드. 인체 및 손의 연관 방법, 장치, 기기 및 저장 매체
CN116486134A (zh) * 2023-03-02 2023-07-25 哈尔滨市科佳通用机电股份有限公司 基于深度神经网络的列车制动软管挂钩脱出故障检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5848551B2 (ja) * 2011-08-26 2016-01-27 キヤノン株式会社 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
CN104123532B (zh) 2013-04-28 2017-05-10 浙江大华技术股份有限公司 对目标对象进行检测、确定目标对象数量的方法和设备
US9857881B2 (en) * 2015-12-31 2018-01-02 Microsoft Technology Licensing, Llc Electrical device for hand gestures detection
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
WO2019222383A1 (en) * 2018-05-15 2019-11-21 Northeastern University Multi-person pose estimation using skeleton prediction
WO2020153971A1 (en) * 2019-01-25 2020-07-30 Google Llc Whole person association with face screening
SG11202109983RA (en) * 2019-03-12 2021-10-28 Element Inc Detecting spoofing of facial recognition with mobile devices
KR102199467B1 (ko) 2019-05-20 2021-01-07 넷마블 주식회사 기계 학습을 위한 데이터 수집 방법
KR102075293B1 (ko) * 2019-05-22 2020-02-07 주식회사 루닛 의료 영상의 메타데이터 예측 장치 및 방법
CN110636315B (zh) 2019-08-19 2020-12-15 北京达佳互联信息技术有限公司 一种多人虚拟直播方法、装置、电子设备及存储介质
CN110929651B (zh) * 2019-11-25 2022-12-06 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN112527107B (zh) * 2020-11-30 2023-04-07 京东方科技集团股份有限公司 手势识别方法、装置、电子设备及存储介质
AU2021204583A1 (en) * 2021-03-17 2022-10-06 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage medium for predicting correlation between objects

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895043A (zh) * 2023-06-13 2023-10-17 郑州宝冶钢结构有限公司 一种施工现场智能安全监控预警方法、系统及存储介质
CN116895043B (zh) * 2023-06-13 2024-01-26 郑州宝冶钢结构有限公司 一种施工现场智能安全监控预警方法、系统及存储介质

Also Published As

Publication number Publication date
US20220207741A1 (en) 2022-06-30
AU2021203821A1 (en) 2022-07-14
PH12021551366A1 (en) 2021-12-13
AU2021203821B2 (en) 2022-08-18
US11756205B2 (en) 2023-09-12
KR20220098312A (ko) 2022-07-12
JP2023511242A (ja) 2023-03-17

Similar Documents

Publication Publication Date Title
CN107358149B (zh) 一种人体姿态检测方法和装置
CN114902299A (zh) 图像中关联对象的检测方法、装置、设备和存储介质
WO2019033525A1 (zh) Au特征识别方法、装置及存储介质
CN110569731B (zh) 一种人脸识别方法、装置及电子设备
CN108491794B (zh) 面部识别的方法和装置
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
CN112668522B (zh) 一种人体关键点与人体掩码联合检测网络及方法
WO2022160591A1 (zh) 人群行为检测方法及装置、电子设备、存储介质及计算机程序产品
CN110941978B (zh) 一种未识别身份人员的人脸聚类方法、装置及存储介质
WO2019119396A1 (zh) 人脸表情识别方法及装置
WO2019033567A1 (zh) 眼球动作捕捉方法、装置及存储介质
CN113348465A (zh) 图像中对象的关联性预测方法、装置、设备和存储介质
CN115512387A (zh) 基于改进yolov5模型的工地安全帽佩戴检测方法
CN113557546B (zh) 图像中关联对象的检测方法、装置、设备和存储介质
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN113632097A (zh) 对象间的关联性的预测方法、装置、设备和存储介质
CN111476059A (zh) 目标检测方法、装置、计算机设备及存储介质
CN114758124A (zh) 目标对象的遮挡检测方法、装置、设备及计算机可读介质
CN111382628B (zh) 同行判定方法及装置
CN113963202A (zh) 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN113158710A (zh) 一种视频分类的方法、装置、终端及存储介质
WO2022144605A1 (en) Methods, devices, apparatuses and storage media of detecting correlated objects in images
WO2022195338A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN111625672B (zh) 图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination