CN113748430A - 对象检测网络的训练与检测方法、装置、设备和存储介质 - Google Patents

对象检测网络的训练与检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113748430A
CN113748430A CN202180002769.5A CN202180002769A CN113748430A CN 113748430 A CN113748430 A CN 113748430A CN 202180002769 A CN202180002769 A CN 202180002769A CN 113748430 A CN113748430 A CN 113748430A
Authority
CN
China
Prior art keywords
type
predicted
preset
determining
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202180002769.5A
Other languages
English (en)
Other versions
CN113748430B (zh
Inventor
王柏润
张学森
刘春亚
陈景焕
伊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Priority claimed from PCT/IB2021/058292 external-priority patent/WO2023275603A1/en
Publication of CN113748430A publication Critical patent/CN113748430A/zh
Application granted granted Critical
Publication of CN113748430B publication Critical patent/CN113748430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出对象检测网络的训练与检测方法、装置、设备和存储介质。对象检测网络的训练方法包括对输入对象检测网络的图像数据集中的各图像进行对象检测得到各图像包含的对象被预测为多个预设类型中各预设类型的置信度,多个预设类型包括被图像数据集所标注的一个或多个标注类型和未被图像数据集标注的一个或多个非标注类型;针对每个对象,根据对象被预测为各非标注类型的非相关置信度确定对象对非标注类型的参考标注信息;针对每个对象,根据对象被预测为各预设类型的置信度、对象的真实标注信息和对象对各非标注类型的参考标注信息确定对象被预测为各预设类型的损失信息;基于各对象被预测为各预设类型的损失信息调整对象检测网络的网络参数。

Description

对象检测网络的训练与检测方法、装置、设备和存储介质
相关申请的交叉引用
本专利申请要求于2021年6月28日提交的、申请号为10202107102Y、发明名称为“对象检测网络的训练与检测方法、装置、设备和存储介质”的新加坡专利申请的优先权,该申请的全文以引用的方式并入本文中。
技术领域
本申请涉及计算机技术,具体涉及对象检测网络的训练与检测方法、装置、设备和存储介质。
背景技术
对象检测技术在计算机视觉领域非常重要。为了提升对象检测网络的通用性,一个网络往往需要支持多种类型的对象检测任务。在实际情形中,训练样本集可能并没有针对上述对象检测网络可以检测出的所有对象类型进行标注,因此,需要采用多个训练样本集(其中多个训练样本集联合起来标注了上述所有对象类型)对上述对象检测网络进行联合训练。
发明内容
有鉴于此,本申请至少公开一种对象检测网络的训练方法,包括:对输入所述对象检测网络的图像数据集中的各图像进行对象检测,得到各所述图像包含的对象被预测为多个预设类型中各预设类型的置信度,所述多个预设类型包括被所述图像数据集所标注的一个或多个标注类型、以及未被所述图像数据集标注的一个或多个非标注类型;针对每个所述对象,根据所述对象被预测为各所述非标注类型的非相关置信度,确定所述对象对各所述非标注类型的参考标注信息;针对每个所述对象,根据所述对象被预测为各所述预设类型的置信度、所述对象的真实标注信息和所述对象对各所述非标注类型的参考标注信息,确定所述对象被预测为各所述预设类型的损失信息;基于各所述对象被预测为各所述预设类型的损失信息,调整所述对象检测网络的网络参数。
在示出的一些实施例中,上述根据上述对象被预测为上述非标注类型的非相关置信度,确定上述对象对所述非标注类型的参考标注信息,包括:在上述非相关置信度达到预设的正样本置信度的情况下,确定上述参考标注信息为第一预设参考标注信息;在上述非相关置信度未达到预设的负样本置信度的情况下,确定上述参考标注信息为第二预设参考标注信息;其中,上述正样本置信度不小于上述负样本置信度。
在示出的一些实施例中,上述方法还包括:在上述非相关置信度达到上述负样本置信度并且未达到上述正样本置信度的情况下,确定上述参考标注信息为第三预设参考标注信息。
在示出的一些实施例中,通过如下方式确定每个所述预设类型为所述标注类型或所述非标注类型:获取所述图像数据集中标注的所述一个或多个标注类型;分别将每一个所述预设类型确定为当前类型,并执行:确定所述当前类型是否与所述一个或多个标注类型之一匹配;如果不匹配,则将所述当前类型确定为所述非标注类型。
在示出的一些实施例中,所述根据所述对象被预测为各所述预设类型的置信度、所述对象的真实标注信息和所述对象对各所述非标注类型的参考标注信息,确定所述对象被预测为各所述预设类型的损失信息,包括:针对各所述非标注类型,基于所述对象被预测为所述非标注类型的非相关置信度和所述参考标注信息之间的差异,确定所述对象被预测为所述非标注类型的第一损失信息;针对各所述标注类型,根据所述对象被预测为所述标注类型的置信度和所述对象的真实标注信息之间的差异,确定所述对象被预测为所述标注类型的第二损失信息。
在示出的一些实施例中,基于各所述对象被预测为各所述预设类型的损失信息,调整所述对象检测网络的网络参数,包括:针对每个所述对象,确定所述对象的所述第一损失信息与所述第二损失信息之和,得到所述对象的总损失信息;根据各所述对象的所述总损失信息,确定反向传播过程中的下降梯度;根据所述下降梯度通过反向传播,调整所述对象检测网络的网络参数。
在示出的一些实施例中,输入所述对象检测网络的多个所述图像数据集中的至少两个图像数据集所标注的标注类型不完全相同。
本申请还提出一种人体对象检测方法,包括:获取场景图像;通过对象检测网络,对上述场景图像进行对象检测,得到上述场景图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度;上述对象检测网络包括根据前述任一实施例示出的网络训练方法训练得到的检测网络;确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的预设类型确定为上述人体对象的对象类型。
在示出的一些实施例中,上述人体对象包括以下至少一项:人脸、人手、手肘、肩膀、腿部、躯干;上述预设类型包括以下中的至少一项:人脸类;人手类;手肘类;肩膀类;腿部类;躯干类;背景类。
本申请还提出一种人体对象检测方法,包括:获取多个图像集;其中,上述多个图像集中的至少两个图像集所标注的对象类型不相同:通过对象检测网络,对上述多个图像集中的图像进行对象检测,得到上述图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度;上述对象检测网络包括根据前述任一实施例示出的网络训练方法训练得到的检测网络;确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的对象类型确定为上述人体对象的对象类型。
本申请还提出一种对象检测网络的训练装置,包括:检测模块,用于对输入对象检测网络的图像进行对象检测,得到各图像包含的对象被预测为各预设类型的置信度;第一确定模块,用于根据上述对象所属的图像所标注的对象类型,确定上述各预设类型中,不属于上述对象类型的非标注类型;第二确定模块,用于根据上述对象被预测为各上述非标注类型的非相关置信度,确定上述对象对所述非标注类型的参考标注信息;第三确定模块,用于根据上述对象被预测为各预设类型的置信度,上述对象的真实标注信息和上述参考标注信息,确定上述对象被预测为各预设类型的损失信息;调整模块,用于基于上述损失信息,调整上述对象检测网络的网络参数。
本申请还提出一种人体对象检测装置,包括:第一获取模块,用于获取场景图像;第一预测模块,用于通过对象检测网络,对上述场景图像进行对象检测,得到上述场景图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度;上述对象检测网络包括根据前述任一实施例示出的网络训练方法训练得到的检测网络;第一对象类型确定模块,用于确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的预设类型确定为上述人体对象的对象类型。
本申请还提出一种人体对象检测装置,包括:第二获取模块,用于获取多个图像集;其中,上述多个图像集中的至少两个图像集所标注的对象类型不相同:第二预测模块,用于通过对象检测网络,对上述多个图像集中的图像进行对象检测,得到上述图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度;上述对象检测网络包括根据前述任一实施例示出的网络训练方法训练得到的检测网络;第二对象类型确定模块,用于确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的对象类型确定为上述人体对象的对象类型。
本申请还提出一种电子设备,上述设备包括存储器、处理器,上述存储器用于存储可在处理器上运行的计算机指令,上述处理器用于在执行上述计算机指令时实现前述任一实施例示出的方法。
本申请还提出种计算机可读存储介质,其上存储有计算机程序,上述程序被处理器执行时实现前述任一实施例示出的方法。
在上述技术方案中,可以对输入对象检测网络的图像数据集中的各图像进行对象检测,得到各图像包含的对象被预测为多个预设类型中各预设类型的置信度,所述多个预设类型包括被上述图像数据集所标注的一个或多个标注类型以及不被所述图像数据集标注的一个或多个非标注类型;根据各上述对象被预测为各上述非标注类型的非相关置信度,确定各上述对象对各所述非标注类型的参考标注信息;根据各上述对象被预测为各预设类型的置信度、各上述对象的真实标注信息和各上述对象对各所述非标注类型的参考标注信息,确定各上述对象被预测为各预设类型的损失信息,并基于上述损失信息调整上述对象检测网络的网络参数。
因此,可以在检测出的对象被预测为未标注类型的情况下增加该对象对应的参考标注信息,使得在网络训练时能够基于增加的参考标注信息确定准确的损失信息,从而使网络可以学习到准确的信息,进而提升网络检测准确性,降低误报率。
应当理解的是,以上上述的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请示出的一种对象检测网络训练方法的方法流程图;
图2为本申请示出的一种损失信息确定方法的流程示意图;
图3为本申请示出的一种对象检测网络训练方法的流程示意图;
图4为本申请示出的一种子损失信息确定方法的方法流程图;
图5为本申请示出的一种人体对象检测方法的方法流程示意图;
图6为本申请示出的一种人体对象检测方法的方法流程示意图;
图7为本申请示出的一种对象检测网络的训练装置的结构示意图;
图8为本申请示出的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解,本文中所使用的词语“如果”,取决于语境,可以被解释成为“在……时”或“当……时”或“响应于确定”。
以下以人体检测场景为例,介绍相关技术中进行联合训练的方法。
在上述场景中,上述对象检测网络(以下简称检测网络)可以检测出目标图像中包含的人脸对象、人手对象与手肘对象。
在上述场景中可以通过图像数据集1与图像数据集2对上述检测网络进行训练。其中,上述数据集1标注了人脸类型和人手类型的对象。上述数据集2标注了人脸类型和手肘类型的对象。在一些例子中可以以one-hot(独热)编码的方式进行标注。比如,在数据集1中,针对人脸类型的对象的标注信息可以是[1,0,0]。其含义为:该对象被预测为人脸类型的真值为1,被预测为人手类型的真值为0,被预测为背景类型的真值为0。再比如,针对人手类型的对象的标注信息可以是[0,1,0]。其含义为,该对象被预测为人脸类型的真值为0,被预测为人手类型的真值为1,被预测为背景类型的真值为0。
可以理解的是,一方面,上述数据集1与上述数据集2均并未完全标注上述检测网络可以检测出的所有对象类型,将数据集1与数据集2联合起来则标注了对象检测网络可以检测出的所有对象类型。另一方面,数据集1与数据集2中未标注对象可以看作是背景分类,即该未标注对象对应的真实标注信息为[0,0,1]。例如,数据集1未标注的手肘对象对应的真实标注信息则为[0,0,1]。
在训练时,可以基于数据集1和数据集2对上述检测网络进行训练。需要说明的是,在此不对上述检测网络的结构进行特别限定。
在训练的一次迭代中,可以将获取的数据集1和数据集2输入上述对象检测网络,得到数据集1和数据集2中包含的各对象的检测框,以及针对上述检测框内对象的类型检测结果;其中,上述类型检测结果包括上述对象被预测为人脸对象、人手对象、手肘对象以及背景等多个预设类型分别对应的置信度。
然后,可以针对检测出的每一检测框,将人脸类型、人手类型、手肘类型,背景类型分别确定为当前类型,确定上述检测框内对象的被预测为上述当前类型的子损失信息。
其中,在确定上述子损失信息时,可以确定上述当前类型是否与上述图像数据集中标注的对象类型匹配。
如果上述当前类型匹配中上述图像数据集所标注的对象类型,则基于上述检测框内对象的真实标注信息和上述置信度,确定上述检测框内对象的类型被预测为上述当前类型的子损失信息。
如果上述当前类型未匹配中上述图像数据集所标注的对象类型,则将上述子损失信息置为0。
举例来说,针对对象检测网络检测出的一个对象的检测框1,该检测框1内对象为数据集1中未标注的手肘对象。该对象的标注信息包括[0,0,1],即该对象被预测为人脸的真值为0,被预测为人手的真值为0,被预测为背景的真值为1。假设针对该检测框1内对象的类型检测结果包括[0.1,0.1,0.7,0.1],即该对象为人脸的置信度为0.1,为人手的置信度为0.1,为手肘的置信度为0.7,为背景的置信度为0.1。
由于数据集1对人脸类型进行了标注,因此可以基于该对象被预测为人脸的真值0与该对象被预测为人脸的置信度0.1,确定该对象被预测为人脸的子损失信息。
由于数据集1对人手类型进行了标注,因此可以基于该对象被预测为人手的真值0与该对象被预测为人手的置信度0.1确定该对象被预测为人手的子损失信息。
由于数据集1未对手肘类型进行标注,即可以无需考虑该对象被预测为手肘的子损失信息,也即可以将该对象被预测为手肘的子损失信息置为0。
由于数据集1对背景类型进行了标注,因此可以基于该对象被预测为背景时的真值1与该对象被预测为背景时的置信度0.1,确定该对象被预测为背景时的子损失信息。
在确定上述检测框内对象分别被检测为上述各个对象类型的损失信息后,可以将确定的各对象类型对应的损失信息之和确定为该检测框内的对象对应的损失信息,该检测框内的对象对应的损失信息表征上述检测框内对象的类型检测结果与真实标注信息之间的差异。
在确定各检测框内对象对应的损失信息后,可以将图像中检测出的各检测框内对象对应的损失信息之和确定为该轮迭代的总损失信息,并根据总损失信息调整上述检测网络的网络参数。
最后可以重复上述迭代过程,直至上述检测网络收敛完成训练。
可以理解的是,图像中对象被预测为其所属图像数据集未标注的类型的损失信息在相关技术中被置为0。由于损失信息越接近0说明检测结果越正确,神经网络在训练中一般以损失信息接近0为目标进行参数更新,因此,在迭代训练过程中,可能将未标注对象划分为上述未标注的类型(非背景类型),而不会将其划分为背景类型,而事实上,未标注对象应被划分为背景类型,可见相关技术中可能通过引入不准确的损失信息,导致检测网络学习到不准确的信息,导致了检测网络的误报率比较高。
例如,在确定上述检测框1对应的损失信息的例子中,检测框1内包含的对象为手肘对象(未标注对象),此时应将其分类确定为背景类型,但上述例子中将其分类划分为图像中未标注的类型。可见相关技术中可能引入不准确的损失信息,导致检测网络学习到不准确的信息,导致了对象检测网络的误报。
有鉴于此,本申请提出对象检测网络的训练方法。该方法在检测出的对象被预测为未标注类型的情况下增加该对象的参考标注信息,使得在网络训练时能够基于增加的参考标注信息确定准确的损失信息,从而使网络可以学习到准确的信息,进而提升网络检测准确性,降低误报率。
其中,上述未标注类型是指可以通过对象检测网络预测得到,但是却未在上述图像数据集中标注的对象类型。
请参见图1,图1为本申请示出的一种网络训练方法的方法流程图。
图1示出的训练方法可以应用于电子设备中。其中,上述电子设备可以通过搭载与训练方法对应的软件系统执行上述训练方法。需要说明的是,上述电子设备的类型可以是笔记本电脑、计算机、服务器、手机、PAD终端等,在本申请中不作特别限定。上述电子设备也可以是客户端设备或服务端设备,在此不作特别限定。
如图1所示,上述方法可以包括:
S102,对输入对象检测网络的图像数据集中的各图像进行对象检测,得到各图像包含的对象被预测为多个预设类型中各预设类型的置信度。其中,所述多个预设类型包括所述对象检测网络可以检测出的所有对象类型,例如包括所述图像数据集所标注的对象类型(以下可简称为标注类型labeled category)、以及所述图像数据集未标注的对象类型(以下可简称为非标注类型non-labeled category)。相应地,对象被预测为所述多个预设类型中各预设类型的置信度包括对象被预测为所述标注类型的置信度(以下可简称为相关置信度concerned confidence)、以及所述对象被预测为所述非标注类型的置信度(以下可简称为非相关置信度non-concerned confidence)。
上述对象检测网络可以用于对图像进行对象检测。例如,上述对象检测网络可以是人体对象检测网络。此时,通过该检测网络可以检测出目标图像中的人体对象。上述对象检测网络可以是基于RCNN(Region Convolutional Neural Networks,区域卷积神经网络),FAST-RCNN(Fast Region Convolutional Neural Networks,快速区域卷积神经网络)或FASTER-RCNN(Faster Region Convolutional Neural Networks,更快速的区域卷积神经网络)构建的网络。需要说明的是,本申请不限定对象检测网络的网络结构。
上述对象检测网络的输出结果可以是输入图像中包含的对象被预测为各预设类型的置信度。
上述各预设类型可以是开发人员预先根据需求设定的。假设该对象检测网络需要包含检测图像中出现的人脸、人手、手肘对象,则可以将上述各预设类型设定为人脸类、人手类、手肘类、和背景类。
上述输入对象检测网络的图像可以来自多个图像数据集,且上述多个图像数据集中的至少两个图像数据集所标注的对象类型不完全相同。
上述图像数据集可以包括若干经过标注的图像样本。上述图像被标注的对象类型可能仅为上述各预设类型中的部分类型。例如,如果上述各预设类型包括人脸类、人手类、手肘类、和背景类,那么上述图像被标注的对象类型可能仅为人脸类或人手类。
目前针对部分对象类型进行标注的图像数据集已经被广泛应用,在本申请中可以利用上述图像数据集训练对象检测网络,此外可以融合多个相互间具有不同对象类型的标注信息的图像数据集来训练针对多个对象类型的对象检测网络,降低了训练成本。
上述置信度表征图像被检测出的对象被预测为各预设类型时的可信程度,可通过概率值来表示。根据标注信息和上述置信度之间的差异,可以确定出对象检测网络针对该对象的检测结果对应的损失信息。
在一些例子中,在执行S102时,可以将多个图像数据集的图像输入上述对象检测网络中进行计算,得到各图像数据集包含的对象以及上述对象的类型检测结果。
然后可以执行S104,根据上述图像数据集所标注的标注类型,确定上述各预设类型中不属于上述图像数据集所标注的对象类型的非标注类型。
上述标注类型,具体是指上述图像数据集所标注的对象类型。在一些例子中,在构建图像数据集时,会将针对该图像数据集标注的对象类型信息打包至上述图像数据集。此时,通过获取上述标注的对象类型信息,即可确定该图像数据集中图像所标注的对象类型。
上述非标注类型具体是指,上述各预设类型中不属于上述标注类型的对象类型。例如,上述各预设类型包括人脸类、人手类、手肘类、和背景类,上述图像数据集标注的对象类型包括人脸类、人手类和背景类,则上述各预设类型中的手肘类即为上述非标注类型。
在一些例子中,在确定上述非标注类型时,可以获取上述图像数据集中标注的对象类型作为标注类型。然后分别将每一个上述预设类型确定为当前类型,并执行:确定上述当前类型是否与上述图像数据集的标注类型匹配;如果不匹配,则将上述当前类型确定为上述非标注类型。
在一些例子中,相同的对象类型可以使用同一标识表征,不同的对象类型可以使用不同的标识表征。此时通过确定当前类型的标识是否与标注类型对应的标识一致,即可确定上述当前类型是否与标注类型匹配。
由此即可确定出上述各预设类型中的非标注类型,然后即可确定对象被预测为上述非标注类型的参考标注信息,从而获得准确的损失信息,提升网络训练效果。
在确定非标注类型后,可以执行S106,根据上述对象被预测为上述非标注类型的非相关置信度,确定上述对象对所述非标注类型的参考标注信息。
上述对象对所述非标注类型的参考标注信息,是指上述对象被预测为上述非标注类型时为其虚拟标注的信息。
上述对象被预测为未被标注的类型(上述非标注类型)时,可能由于无法获取该对象对应的标注信息而无法确定准确的损失信息。因此,在相关技术中时会将该损失信息置为0,也即不考虑上述对象被预测为上述非标注类型时的损失,这可能会在模型训练时引入错误的损失信息。而本申请中,当对象被预测为上述非标注类型时,会为其虚拟标注上述参考标注信息,使得可以引入较为准确的损失信息,进而提升网络训练效果。
在一些例子中,可以根据上述对象被预测为上述非标注类型的非相关置信度,确定上述对象为上述非标注类型的正样本还是负样本。
如果为正样本,则可以确定上述参考标注信息为第一预设参考标注信息(经验阈值)。例如,上述第一预设参考标注信息可以是1。
如果为负样本,则可以确定上述参考标注信息为第二预设参考标注信息(经验阈值)。例如,上述第二预设参考标注信息可以是0。
在一些例子中,在确定上述对象为上述非标注类型的正样本或负样本时,可以利用已经训练完毕的对象类型确定网络,对上述对象(未标注对象)的对象类型进行预测,得到上述对象的对象类型。其中,上述对象类型确定网络可以理解为老师模型,即通过若干标注了前述各预设类型的训练样本训练得到。
如果通过对象类型确定网络得到的上述对象的对象类型与上述非标注类型一致,则可以确定上述对象为上述非标注类型的正样本。
如果通过对象类型确定网络得到的上述对象的对象类型与上述非标注类型不一致,则可以确定上述对象为上述非标注类型的负样本。
在一些例子中,可以设置第一预设阈值。其中,经过检测出的对象为上述非标注类型的非相关置信度达到上述第一预设阈值,则可以认为上述对象为上述非标注类型的正样本。反之,可以认为上述对象为上述非标注类型的负样本。
在一些例子中,可以设置第二预设阈值。其中,上述非相关置信度未达到上述第二预设阈值,则可以认为上述对象为上述非标注类型的负样本。反之,可以认为上述对象为上述非标注类型的正样本。
通过对非相关置信度进行阈值判断,减少了确定真值时间与计算开销,提升了确定真值的效率,进而提升了网络训练效率。
在一些例子中,可以设置正样本置信度与负样本置信度。其中,上述置信度达到上述正样本置信度,则可以认为上述对象为正样本。若上述置信度未达到上述负样本置信度,则可以认为上述对象为负样本。
在本例中,通过设置正样本置信度与负样本置信度,可以确定出更准确的正样本和负样本,从而为网络训练提供了更准确的信息,提升了网络检测准确性。
在一些例子中,在上述非相关置信度达到上述负样本置信度并且未达到上述正样本置信度的情况下,确定上述参考标注信息为第三预设参考标注信息。
上述第三预设参考标注信息可以是经验阈值。在一些例子中可以设定为0。
本例中对对象的分类除了正样本与负样本之外,还包括困难样本,将上述对象为困难样本时的损失信息置为第三预设参考标注信息(例如,0),由此在训练网络过程中,可以不学习困难样本提供的信息,仅学习正样本和负样本提供的信息,从而为网络训练提供了更准确的信息,提升了网络检测准确性。
在确定上述对象被预测为未标注类型的参考标注信息后,可以执行S108,根据上述对象被预测为各预设类型的置信度,上述对象的真实标注信息和上述参考标注信息,确定上述对象被预测为各预设类型的损失信息。
其中,可以根据对象是否被预测为未标注类型,通过两种方式确定上述损失信息。
在一些例子中,响应于上述对象被预测为非标注类型,可以基于上述非相关置信度和上述参考标注信息之间的差异,确定上述对象被预测为上述非标注类型的第一损失信息。
例如,可以根据预设的第一损失函数,将上述非相关置信度和上述参考标注信息作为输入,得到上述第一损失信息。上述需要说明的是,本申请不限定上述第一损失函数的具体类型。
在一些例子中,响应于上述对象被预测为标注类型,可以根据上述对象被预测为标注类型的置信度和上述对象对应的真实标注信息之间的差异,确定上述对象被预测为上述标注类型的第二损失信息。其中,上述标注类型包括上述各预设类型中除去上述非标注类型的类型。
例如,可以先根据上述对象所属图像的真实标注信息,获取上述对象被预测为上述标注类型的真值,然后可以根据预设的第二损失函数,将上述对象被预测为标注类型的置信度和上述对象被预测为上述标注类型的真值作为输入,得到上述第二损失信息。上述需要说明的是,本申请不限定上述第二损失函数的具体类型。
在步骤S110,基于上述损失信息,调整上述对象检测网络的网络参数。
在一些例子中,可以针对图像中各对象,确定所述对象对应的上述第一损失信息与上述第二损失信息之和,即可得到针对该图像进行检测得到的总损失信息。
之后可以根据上述总损失信息,确定反向传播过程中的下降梯度,并根据上述下降梯度通过反向传播,即可调整上述对象检测网络的网络参数。
在一些例子中,上述图像可以包括多个对象。上述检测网络可以检测出多个预设类型的对象。此时,可以依次将上述图像输入上述检测网络,得到图像中各对象的检测框,以及各对象被预测为各预设类型的置信度。
请参见图2,图2为本申请示出的一种损失信息确定方法的流程示意图。
如图2所示,可以依次将检测出的多个对象对应的检测框作为目标检测框,并执行S202与S204:
S202,确定上述目标检测框内对象所属图像对应的图像数据集。以下将上述目标检测框内对象简称为框内对象。
S204,依次将每一个预设类型作为当前类型,并执行S2042-S2048:
S2042,确定上述当前类型是否匹配中上述图像数据集的标注类型之一。
S2044,如果匹配中,则从上述图像数据集对应的真实标注信息中获取上述框内对象被预测为上述当前类型时的标注真值;然后根据上述标注真值与检测出的置信度之间的差异,确定上述框内对象被预测为上述当前类型时的子损失信息。
S2046,如果未匹配中,则根据上述框内对象被预测为当前类型时的非相关置信度确定上述框内对象的参考标注信息;然后根据上述参考标注信息与上述非相关置信度之间的差异,确定上述框内对象为上述当前类型时的子损失信息。
在确定上述框内对象被预测为各对象类型对应的子损失信息后,可以执行S2048,通过对各子损失信息求和或求平均值等方式,确定针对上述框内对象的检测结果的损失信息。
在将图像中的各检测框作为目标检测框完成上述步骤后,即可得到针对上述图像进行检测的检测结果的损失信息。
在一些例子中,当上述对象检测网络的训练样本集为多个图像数据集时,在确定针对该图像进行检测得到的总损失信息之后,还可以确定输入上述各图像数据集中各图像分别对应的总损失信息,然后通过诸如求或求平均值等方式确定对上述各图像数据集中的图像进行检测的检测结果的总损失信息,并利用该总损失信息更新网络参数。
至此则完成对象检测网络的一轮训练。然后可以重复以上步骤,执行多轮训练,直至上述检测网络收敛。需要说明的是,上述收敛的条件可以是诸如达到预设训练次数,或连续M(M为大于1的正整数)次前向传播后得到联合学习损失函数的变化量小于一定阈值等。本申请不对模型收敛的条件进行特别限定。
在上述技术方案中,可以对输入对象检测网络的图像数据集中的各图像进行对象检测,得到各图像包含的对象被预测为多个预设类型中各预设类型的置信度,所述多个预设类型包括被上述图像数据集所标注的一个或多个标注类型以及不被所述图像数据集标注的一个或多个非标注类型;根据各上述对象被预测为各上述非标注类型的非相关置信度,确定各上述对象对各所述非标注类型的参考标注信息;根据各上述对象被预测为各预设类型的置信度、各上述对象的真实标注信息和各上述对象对各所述非标注类型的参考标注信息,确定各上述对象被预测为各预设类型的损失信息,并基于上述损失信息,调整上述对象检测网络的网络参数。
因此,可以在检测出的对象被预测为未标注类型的情况下增加该对象对应的参考标注信息,使得在网络训练时能够基于增加的参考标注信息确定准确的损失信息,从而使网络可以学习到准确的信息,进而提升网络检测准确性,降低误报率。
以下结合人体检测网络训练场景进行实施例说明。
上述人体检测网络,具体用于检测目标图像中包含的人脸对象、人手对象与手肘对象。上述人体检测网络可以是基于FASTER-RCNN网络构建的检测网络。
在上述场景中可以通过图像数据集1与图像数据集2对上述检测网络进行训练。可以理解的是,在实际应用中可以采用更多的数据集。
其中,上述数据集1标注了人脸类型和人手类型的对象。上述数据集2标注了人脸类型和手肘类型的对象。
在一些例子中可以以one-hot(独热)编码的方式进行标注。比如,在数据集1中,针对人脸类型的对象的标注信息可以是[1,0,0]。其含义为:该对象被预测为人脸类型的置信度为1,被预测为人手类型的置信度为0,被预测为背景类型的置信度为0。再比如,针对人手类型的对象的标注信息可以是[0,1,0]。其含义为,该对象被预测为人脸类型的置信度为0,被预测为人手类型的置信度为1,被预测为背景类型的置信度为0。
可以理解的是,数据集1中并未对手肘类型的对象进行标注,则上述手肘类型可以是数据集1对应的未标注类型。数据集2中未对人手类型的对象进行标注,则上述人手类型可以认为是数据集2对应的未标注类型。
在本申请中,可以预设训练迭代次数为P,上述检测网络的初始网络参数为Q,损失函数为L,采用随机梯度下降法进行网络参数调整。
还可以预设正样本置信度E与负样本置信度F。其中,当对象被预测为未标注类型的置信度达到E,可以认为该对象是正样本,对应参考标注信息为1。当对象被预测为未标注类型的置信度未达到F,可以认为该对象是负样本,对应参考标注信息为0。如果对象被预测为未标注类型的置信度处于E和F之间的,可以认为是困难样本。
请参见图3,图3为本申请示出的一种网络训练方法的流程示意图。需要说明的是,图3示出的是一轮迭代训练中调整网络参数的方法。
如图3所示,在一轮迭代训练中,可以通过人体对象检测网络执行S302,将数据集1与数据集2包括的各张图像一次输入上述检测网络进行计算,得到各图像包括的各对象对应的检测框,以及各检测框内对象被预测为人脸类,人手类,手肘类和背景类的置信度。
然后可以通过总损失确定单元执行S304,确定该轮训练对应的总损失信息。
在确定上述总损失信息时,可以将当前输入图片检测出的各检测框分别确定为目标检测框,并执行:
确定上述目标检测框内对象(以下简称框内对象)所属的图像数据集。
然后将上述四个类型分别作为当前类型,并确定上述对象被预测为当前类型时的子损失信息。
请参见图4,图4为本申请示出的一种子损失信息确定方法的方法流程图。
如图4所示,可以先执行S3042,确定当前类别是否匹配中对应数据集标注的标注类别。如果匹配中,则可以将上述子损失信息确定为L(置信度,真值)。其中,L表示预设的损失函数。上述损失函数可以是对数损失函数,平方损失函数,交叉熵损失函数等。本申请不限定损失函数的类型。L(置信度,真值)表示利用上述预设损失函数确定的框内对象被预测为当前类别的置信度,与真实标注信息之间的差异。
如果未匹配中,可以执行S3044,确定上述对象被预测为当前类型的非相关置信度是否达到阈值E。如果是,则可以将上述子损失信息确定为L(置信度,1)。其中,L(置信度,1)表示框内对象被预测为当前类别的置信度,与第一参考标注信息之间的差异。
如果上述置信度未达到阈值E,则可以进一步执行S3046,确定上述非相关置信度是否未达到阈值F,如果是,则可以将上述子损失信息确定为L(置信度,0)。其中,L(置信度,0)表示框内对象被预测为当前类别的置信度,与第二参考标注信息之间的差异。
如果否,则可以将上述子损失信息确定为0。
在针对各数据集1与数据集2中的输入图像完成上述步骤后,可以得到对各输入图像进行检测对应的损失信息,然后通过诸如求和或求平均值等方式即可确定上述总损失信息。
最后,可以通过参数调整单元执行S306,根据总损失信息,以及随机梯度下降法调整上述检测网络的网络参数。
最后可以重复上述迭代过程,直至上述检测网络收敛完成训练。
在上述例子中,一方面,当对象被预测为未标注类型时,根据其对应置信度确定该对象的参考标注信息,从而确定出较为准确的损失信息,为网络训练提供了更准确的信息,进而提升了网络检测准确性。
另一方面,在上述例子中仅在对象为困难样本时,将其对应的损失信息确定为0,与相关技术相比,减少了将损失信息确定为0的情形,从而减少了不准确信息的引入,进而降低了检测网络的误报率。
在本申请中还提出一种人体对象检测方法。请参见图5,图5为本申请示出的一种人体对象检测方法的方法流程示意图。
如图5所示,上述方法可以包括:
S502,获取场景图像。
S504,通过对象检测网络,对上述场景图像进行对象检测,得到上述场景图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度,其中,上述对象检测网络,可以包括根据前述任一实施例示出的对象检测网络训练方法训练得到的网络。
S506,确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的预设类型确定为上述人体对象的对象类型。
上述场景可以是任意需要进行人体对象检测的场景。例如,上述场景可以是危险驾驶行为检测场景。此时,可以对抓拍到的场景图像中出现的人体对象进行检测,并对检测出的人体对象进行行为匹配,从而确定出是否进行危险行为。再例如,上述场景可以是桌面游戏场景。此时,可以对抓拍到的场景图像中出现的人体对象进行检测,并对检测出的人体对象进行关联,从而确定出执行诸如放置游戏币等动作的执行者。
在一些例子中,可以根据业务需求设置上述人体对象以及上述预设类型。在一些例子中,上述人体对象可以包括以下至少一项:人脸、人手、手肘、肩膀、腿部、躯干。上述预设类型包括以下中的至少一项:人脸类;人手类;手肘类;肩膀类;腿部类;躯干类;背景类。由此,可以检测出图像中出现的多种人体类型,适应更多的业务场景。
在上述例子中,由于使用了根据前述任一实施例示出的对象检测网络训练方法训练得到的对象检测网络对场景图像进行对象检测,因此,可以提升对该图像中人体对象的检测准确率。
在本申请中还提出一种人体对象检测方法。请参见图6,图6为本申请示出的一种人体对象检测方法的方法流程示意图。
S602,获取多个图像集;其中,上述多个图像集中的至少两个图像集所标注的对象类型不完全相同。
S604,通过对象检测网络,对上述多个图像集中的图像进行对象检测,得到上述图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度;其中,上述对象检测网络可以包括根据前述任一实施例示出的对象检测网络训练方法训练得到的网络;
S606,确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的对象类型确定为上述人体对象的对象类型。
上述图像数据集,可以包括若干经过标注的图像样本。上述图像被标注的对象类型可能仅为上述各预设类型中的部分类型。例如,如果上述各预设类型包括人脸类,人手类,手肘类,和背景类,那么上述图像被标注的对象类型可能仅为人脸类或人手类。
在上述例子中,由于使用了根据前述任一实施例示出的对象检测网络训练方法训练得到的对象检测网络对图像集中的图像进行对象检测,因此,
可以利用针对部分对象类型进行标注的图像数据集训练对象检测网络,此外可以融合多个相互间具有不同对象类型的标注信息的图像数据集来训练针对多个对象类型的对象检测网络,降低了训练成本。
与上述任一实施例相对应的,本申请还提出一种对象检测网络的训练装置。
请参见图7,图7为本申请示出的一种对象检测网络的训练装置的结构示意图。
如图7所示,上述装置70可以包括:检测模块71,用于对输入所述对象检测网络的图像数据集中的各图像进行对象检测,得到各所述图像包含的对象被预测为多个预设类型中各预设类型的置信度;第一确定模块72,用于根据所述多个预设类型中被所述图像数据集所标注的标注类型,确定所述多个预设类型中不被所述图像数据集所标注的非标准类型;第二确定模块73,用于针对每个所述对象,根据所述对象被预测为所述各非标注类型的非相关置信度,确定所述对象对所述非标注类型的参考标注信息;第三确定模块74,用于针对每个所述对象,根据所述对象被预测为各所述预设类型的置信度、所述对象的真实标注信息和所述对象对各所述非标注类型的参考标注信息,确定所述对象被预测为各所述预设类型的损失信息;调整模块75,用于基于各所述对象被预测为各所述预设类型的损失信息,调整所述对象检测网络的网络参数。
在示出的一些实施例中,上述第二确定模块73具体用于:在上述非相关置信度达到预设的正样本置信度的情况下,确定上述参考标注信息为第一预设参考标注信息;在上述非相关置信度未达到预设的负样本置信度的情况下,确定上述参考标注信息为第二预设参考标注信息;其中,上述正样本置信度不小于上述负样本置信度。
在示出的一些实施例中,上述第二确定模块73还用于:在上述非相关置信度达到上述负样本置信度并且未达到上述正样本置信度的情况下,确定上述参考标注信息为第三预设参考标注信息。
在示出的一些实施例中,上述第一确定模块72具体用于:获取上述图像数据集中标注的对象类型作为标注类型;分别将每一个上述预设类型确定为当前类型,并执行:确定上述当前类型是否与上述标注类型匹配;如果不匹配,则将上述当前类型确定为上述非标注类型。
在示出的一些实施例中,上述第三确定模块74具体用于:基于上述非相关置信度和上述参考标注信息之间的差异,确定上述对象被预测为上述非标注类型的第一损失信息;根据上述对象被预测为标注类型的置信度和上述对象对应的真实标注信息之间的差异,确定上述对象被预测为上述标注类型的第二损失信息;其中,上述标注类型包括上述各预设类型中,除去上述非标注类型的类型。
在示出的一些实施例中,上述调整模块75具体用于:确定图像中各对象对应的上述第一损失信息与上述第二损失信息之和,得到总损失信息;根据上述总损失信息,确定反向传播过程中的下降梯度;根据上述下降梯度通过反向传播,调整上述对象检测网络的网络参数。
在示出的一些实施例中,输入所述对象检测网络的多个所述图像数据集中的至少两个图像数据集所标注的标注类型不完全相同。
本申请还提出一种人体对象检测装置,包括:第一获取模块,用于获取场景图像;第一预测模块,用于通过对象检测网络,对所述场景图像进行对象检测,得到所述场景图像包含的人体对象,以及所述人体对象被预测为各预设类型的置信度;上述对象检测网络包括根据前述任一实施例示出的网络训练方法训练得到的检测网络;第一对象类型确定模块,用于确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的预设类型确定为上述人体对象的对象类型。
在示出的一些实施例中,上述人体对象包括以下至少一项:人脸、人手、手肘、肩膀、腿部、躯干;上述预设类型包括以下中的至少一项:人脸类;人手类;手肘类;肩膀类;腿部类;躯干类;背景类。
本申请还提出一种人体对象检测装置,包括:第二获取模块,用于获取多个图像集;其中,上述多个图像集中的至少两个图像集所标注的对象类型不完全相同:第二预测模块,用于通过对象检测网络,对上述多个图像集中的图像进行对象检测,得到上述图像包含的人体对象,以及上述人体对象被预测为各预设类型的置信度;上述对象检测网络包括根据前述任一实施例示出的网络训练方法训练得到的检测网络;第二对象类型确定模块,用于确定上述人体对象被预测为各预设类型的置信度中的最高置信度,并将上述最高置信度对应的对象类型确定为上述人体对象的对象类型。
在示出的一些实施例中,上述人体对象包括以下至少一项:人脸、人手、手肘、肩膀、腿部、躯干;上述预设类型包括以下中的至少一项:人脸类;人手类;手肘类;肩膀类;腿部类;躯干类;背景类。
本申请示出的对象检测网络训练装置与人体对象检测装置的实施例可以应用于电子设备上。相应地,本申请公开了一种电子设备,该设备可以包括:存储器、处理器,上述存储器用于存储可在处理器上运行的计算机指令,上述处理器用于执行如上述任一实施例示出的方法。
请参见图8,图8为本申请示出的一种电子设备的硬件结构示意图。
如图8所示,该电子设备可以包括用于执行指令的处理器,用于进行网络连接的网络接口,用于为处理器存储运行数据的内存,以及用于存储对象检测网络训练装置或人体对象检测装置对应指令的非易失性存储器。
其中,上述装置的实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
可以理解的是,为了提升处理速度,对象检测网络训练装置或人体对象检测装置对应指令也可以直接存储于内存中,在此不作限定。
本申请提出一种计算机可读存储介质,其上存储有计算机程序,上述程序被处理器执行时实现如前述任一实施例示出的方法。
本领域技术人员应明白,本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请中的“和/或”表示至少具有两者中的其中一个,例如,“A和/或B”可以包括三种方案:A、B、以及“A和B”。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机可以包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将可以包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备,例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本申请包含许多具体实施细节,但是这些不应被解释为限制任何公开的范围或所要求保护的范围,而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上仅为本申请一个或多个实施例的较佳实施例而已,并不用以限制本申请一个或多个实施例,凡在本申请一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请一个或多个实施例保护的范围之内。

Claims (15)

1.一种对象检测网络的训练方法,包括:
对输入所述对象检测网络的图像数据集中的各图像进行对象检测,得到各所述图像包含的对象被预测为多个预设类型中各预设类型的置信度,所述多个预设类型包括被所述图像数据集所标注的一个或多个标注类型、以及未被所述图像数据集标注的一个或多个非标注类型;
针对每个所述对象,根据所述对象被预测为各所述非标注类型的非相关置信度,确定所述对象对所述非标注类型的参考标注信息;
针对每个所述对象,根据所述对象被预测为各所述预设类型的置信度、所述对象的真实标注信息和所述对象对各所述非标注类型的参考标注信息,确定所述对象被预测为各所述预设类型的损失信息;
基于各所述对象被预测为各所述预设类型的损失信息,调整所述对象检测网络的网络参数。
2.根据权利要求1所述的方法,所述根据所述对象被预测为所述非标注类型的非相关置信度,确定所述对象对所述非标注类型的参考标注信息,包括:
在所述非相关置信度达到预设的正样本置信度的情况下,确定所述对象对所述非标注类型的参考标注信息为第一预设参考标注信息;
在所述非相关置信度未达到预设的负样本置信度的情况下,确定所述对象对所述非标注类型的参考标注信息为第二预设参考标注信息;
其中,所述正样本置信度不小于所述负样本置信度。
3.根据权利要求2所述的方法,还包括:
在所述非相关置信度达到所述负样本置信度、并且未达到所述正样本置信度的情况下,确定所述对象对所述非标注类型的参考标注信息为第三预设参考标注信息。
4.根据权利要求1至3任一所述的方法,通过如下方式确定每个所述预设类型为所述标注类型或所述非标注类型:
获取所述图像数据集中标注的所述一个或多个标注类型;
分别将每一个所述预设类型确定为当前类型,并执行:
确定所述当前类型是否与所述一个或多个标注类型之一匹配;
如果不匹配,则将所述当前类型确定为所述非标注类型。
5.根据权利要求1至4任一所述的方法,所述根据所述对象被预测为各所述预设类型的置信度、所述对象的真实标注信息和所述对象对各所述非标注类型的参考标注信息,确定所述对象被预测为各所述预设类型的损失信息,包括:
针对各所述非标注类型,基于所述对象被预测为所述非标注类型的非相关置信度和所述对象对所述非标注类型的参考标注信息之间的差异,确定所述对象被预测为所述非标注类型的第一损失信息;
针对各所述标注类型,根据所述对象被预测为所述标注类型的置信度和所述对象的真实标注信息之间的差异,确定所述对象被预测为所述标注类型的第二损失信息。
6.根据权利要求5所述的方法,所述基于各所述对象被预测为各所述预设类型的损失信息,调整所述对象检测网络的网络参数,包括:
针对每个所述对象,确定所述对象的所述第一损失信息与所述第二损失信息之和,得到所述对象的总损失信息;
根据各所述对象的所述总损失信息,确定反向传播过程中的下降梯度;
根据所述下降梯度通过反向传播,调整所述对象检测网络的网络参数。
7.根据权利要求1至6任一所述的方法,输入所述对象检测网络的多个所述图像数据集中的至少两个图像数据集所标注的标注类型不完全相同。
8.一种人体对象检测方法,包括:
获取场景图像;
通过对象检测网络,对所述场景图像进行对象检测,得到所述场景图像包含的人体对象,以及所述人体对象被预测为各预设类型的置信度;所述对象检测网络是根据权利要求1至7任一所述的对象检测网络的训练方法训练得到的;
确定所述人体对象被预测为各预设类型的置信度中的最高置信度,并
将所述最高置信度对应的预设类型确定为所述人体对象的对象类型。
9.根据权利要求8所述的方法,
所述人体对象包括以下至少一项:人脸、人手、手肘、肩膀、腿部、躯干;
所述预设类型包括以下中的至少一项:人脸类;人手类;手肘类;肩膀类;腿部类;躯干类;背景类。
10.一种人体对象检测方法,包括:
获取多个图像集;其中,所述多个图像集中的至少两个图像集所标注的对象类型不完全相同:
通过对象检测网络,对所述多个图像集中的各图像进行对象检测,得到各所述图像包含的人体对象,以及所述人体对象被预测为各预设类型的置信度;所述对象检测网络是根据权利要求1至7任一所述的对象检测网络的训练方法训练得到的;
确定所述人体对象被预测为各预设类型的置信度中的最高置信度,并
将所述最高置信度对应的预设类型确定为所述人体对象的对象类型。
11.一种对象检测网络的训练装置,包括:
检测模块,用于对输入所述对象检测网络的图像数据集中的各图像进行对象检测,得到各所述图像包含的对象被预测为多个预设类型中各预设类型的置信度;
第一确定模块,用于根据所述多个预设类型中被所述图像数据集所标注的标注类型,确定所述多个预设类型中不被所述图像数据集所标注的非标准类型;
第二确定模块,用于针对每个所述对象,根据所述对象被预测为所述各非标注类型的非相关置信度,确定所述对象对所述非标注类型的参考标注信息;
第三确定模块,用于针对每个所述对象,根据所述对象被预测为各所述预设类型的置信度、所述对象的真实标注信息和所述对象对各所述非标注类型的参考标注信息,确定所述对象被预测为各所述预设类型的损失信息;
调整模块,用于基于各所述对象被预测为各所述预设类型的损失信息,调整所述对象检测网络的网络参数。
12.一种人体对象检测装置,包括:
第一获取模块,用于获取场景图像;
第一预测模块,用于通过对象检测网络,对所述场景图像进行对象检测,得到所述场景图像包含的人体对象,以及所述人体对象被预测为各预设类型的置信度;所述对象检测网络是根据权利要求1至7任一所述的对象检测网络的训练方法训练得到的;
第一对象类型确定模块,用于
确定所述人体对象被预测为各预设类型的置信度中的最高置信度,并
将所述最高置信度对应的预设类型确定为所述人体对象的对象类型。
13.一种人体对象检测装置,包括:
第二获取模块,用于获取多个图像集;其中,所述多个图像集中的至少两个图像集所标注的对象类型不完全相同:
第二预测模块,用于通过对象检测网络,对所述多个图像集中的各图像进行对象检测,得到各所述图像包含的人体对象,以及所述人体对象被预测为各预设类型的置信度;所述对象检测网络是根据权利要求1至7任一所述的对象检测网络的训练方法训练得到的;
第二对象类型确定模块,用于
确定所述人体对象被预测为各预设类型的置信度中的最高置信度,并
将所述最高置信度对应的对象类型确定为所述人体对象的对象类型。
14.一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至10任一所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1至10任一所述的方法。
CN202180002769.5A 2021-06-28 2021-09-13 对象检测网络的训练与检测方法、装置、设备和存储介质 Active CN113748430B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202107102Y 2021-06-28
SG10202107102Y 2021-06-28
PCT/IB2021/058292 WO2023275603A1 (en) 2021-06-28 2021-09-13 Methods, apparatuses, devices and storage media for training object detection network and for detecting object

Publications (2)

Publication Number Publication Date
CN113748430A true CN113748430A (zh) 2021-12-03
CN113748430B CN113748430B (zh) 2024-05-24

Family

ID=78727745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180002769.5A Active CN113748430B (zh) 2021-06-28 2021-09-13 对象检测网络的训练与检测方法、装置、设备和存储介质

Country Status (3)

Country Link
US (1) US20220414459A1 (zh)
CN (1) CN113748430B (zh)
AU (1) AU2021240261A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254529A1 (en) * 2014-03-10 2015-09-10 Canon Kabushiki Kaisha Image processing apparatus and image processing method
US20190213443A1 (en) * 2018-01-05 2019-07-11 Whirlpool Corporation Detecting objects in images
CN111241947A (zh) * 2019-12-31 2020-06-05 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN111783844A (zh) * 2020-06-10 2020-10-16 东莞正扬电子机械有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN111881956A (zh) * 2020-07-15 2020-11-03 北京市商汤科技开发有限公司 网络训练方法及装置、目标检测方法及装置和电子设备
US20210012198A1 (en) * 2018-05-31 2021-01-14 Huawei Technologies Co., Ltd. Method for training deep neural network and apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254529A1 (en) * 2014-03-10 2015-09-10 Canon Kabushiki Kaisha Image processing apparatus and image processing method
US20190213443A1 (en) * 2018-01-05 2019-07-11 Whirlpool Corporation Detecting objects in images
US20210012198A1 (en) * 2018-05-31 2021-01-14 Huawei Technologies Co., Ltd. Method for training deep neural network and apparatus
CN111241947A (zh) * 2019-12-31 2020-06-05 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN111783844A (zh) * 2020-06-10 2020-10-16 东莞正扬电子机械有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN111881956A (zh) * 2020-07-15 2020-11-03 北京市商汤科技开发有限公司 网络训练方法及装置、目标检测方法及装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AJEET RAM PATHAK.ET AL: "Application of Deep Learning for Object Detection", 《INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND DATA SCIENCE (ICCIDS 2018)》, pages 1706 - 1717 *
HAO TIAN.ET AL: "Unsupervised Object Detection with LiDAR Clues", 《ARXIV》, pages 1 - 15 *

Also Published As

Publication number Publication date
US20220414459A1 (en) 2022-12-29
AU2021240261A1 (en) 2023-01-19
CN113748430B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
US10169683B2 (en) Method and device for classifying an object of an image and corresponding computer program product and computer-readable medium
CN111967387A (zh) 表单识别方法、装置、设备及计算机可读存储介质
CN108830329B (zh) 图片处理方法和装置
CN109145828B (zh) 用于生成视频类别检测模型的方法和装置
JP2019521443A (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
CN109902202B (zh) 一种视频分类方法及装置
CN111340131A (zh) 图像的标注方法、装置、可读介质和电子设备
CN111325141B (zh) 交互关系识别方法、装置、设备及存储介质
US9471982B2 (en) Information processing apparatus and information processing method for associating an image with related information
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN111291827A (zh) 图像聚类方法、装置、设备及存储介质
AU2021203821B2 (en) Methods, devices, apparatuses and storage media of detecting correlated objects involved in images
US20210089823A1 (en) Information processing device, information processing method, and non-transitory computer-readable storage medium
CN112329730A (zh) 视频检测方法、装置、设备及计算机可读存储介质
CN110097004B (zh) 面部表情识别方法和装置
CN113748430A (zh) 对象检测网络的训练与检测方法、装置、设备和存储介质
WO2023275603A1 (en) Methods, apparatuses, devices and storage media for training object detection network and for detecting object
CN113449824B (zh) 视频处理方法、装置及计算机可读存储介质
CN112784691B (zh) 一种目标检测模型训练方法、目标检测方法和装置
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质
CN115730208A (zh) 训练方法、训练装置、训练设备及计算机可读存储介质
CN112699908A (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN110610206A (zh) 图片的低俗归因识别方法、装置及设备
CN113140012B (zh) 图像处理方法、装置、介质及电子设备
CN112633496B (zh) 一种检测模型的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40090821

Country of ref document: HK

GR01 Patent grant