CN113421192B - 对象统计模型的训练方法、目标对象的统计方法和装置 - Google Patents

对象统计模型的训练方法、目标对象的统计方法和装置 Download PDF

Info

Publication number
CN113421192B
CN113421192B CN202110973255.6A CN202110973255A CN113421192B CN 113421192 B CN113421192 B CN 113421192B CN 202110973255 A CN202110973255 A CN 202110973255A CN 113421192 B CN113421192 B CN 113421192B
Authority
CN
China
Prior art keywords
image
loss value
statistical model
statistical
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110973255.6A
Other languages
English (en)
Other versions
CN113421192A (zh
Inventor
苏驰
李凯
刘弘也
王育林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202110973255.6A priority Critical patent/CN113421192B/zh
Publication of CN113421192A publication Critical patent/CN113421192A/zh
Application granted granted Critical
Publication of CN113421192B publication Critical patent/CN113421192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种对象统计模型的训练方法、目标对象的统计方法和装置,通过第一样本图像和第一标签确定对象统计模型的第一损失值,通过第二样本图像和第二标签确定对象统计模型的第二损失值;基于第一损失值和第二损失值训练对象统计模型。该方式中,由于带统计数量标签的第一样本图像的数量较少,因此仅通过带统计数量标签的第一样本图像对模型训练容易过拟合。因此,本方案采用大量的不同旋转角度的带标签的第二样本图像对模型的参数进行辅助训练,可以降低模型的过拟合,使得模型的精度更高。随后再利用该精度更好的模型进行对象数量进行统计,可以得到更好的统计精度。

Description

对象统计模型的训练方法、目标对象的统计方法和装置
技术领域
本发明涉及深度学习技术领域,尤其是涉及一种对象统计模型的训练方法、目标对象的统计方法和装置。
背景技术
在安防领域,经常需要统计图像中出现的某一目标对象的数量。例如,统计图像中出现的人的总人数,常用于公共场所的实时预警,预防人群拥挤等突发状况。相关技术中,可以采用深度学习模型统计图像中目标对象的数量。高精确度的深度学习模型需要大量的样本图像训练得到,而对样本图像进行标注时,需要人工统计样本图像中目标对象的数量,非常耗时,且人工成本较高。如果样本图像较少,训练得到的深度学习模型容易过拟合,导致模型的泛化能力较差。
发明内容
有鉴于此,本发明的目的在于提供一种对象统计模型的训练方法、目标对象的统计方法和装置,以降低模型的过拟合,提高模型精度。
第一方面,本发明实施例提供了一种对象统计模型的训练方法,应用于计算机设备,该方法包括:通过第一样本图像和第一标签确定对象统计模型的第一损失值,第一标签用于指示第一样本图像中包含的目标对象的统计结果;通过第二样本图像和第二标签确定对象统计模型的第二损失值,第二标签用于指示第二样本图像中包含的目标对象的多个对象部件之间的位置关系;基于第一损失值和第二损失值训练对象统计模型。
进一步的,通过第二样本图像和第二标签确定对象统计模型的第二损失值的步骤,包括:对初始样本图像分别按照多种预设旋转角度进行旋转处理,得到每种旋转角度对应的旋转图像,将每种旋转角对应的旋转图像确定为第二样本图像;其中,第二标签包括为每张旋转图像设置的该旋转图像对应的旋转角度标签;当旋转角度不同时,旋转图像中包含的目标对象的多个对象部件之间的位置关系不同;将第二样本图像输入至对象统计模型中,得到第二样本图像中每张旋转图像对应的图像特征;基于每张旋转图像对应的图像特征,确定对象统计模型的第二损失值。
进一步的,基于每张旋转图像对应的图像特征,确定对象统计模型的第二损失值的步骤,包括:将每张旋转图像对应的图像特征输入至第一全连接层网络中,输出每张旋转图像对应的旋转角度预测结果;将每张旋转图像对应的旋转角度预测结果输入至预设的激活函数中,输出概率分布向量;其中,概率分布向量中包括每张旋转图像对应的概率分布值;基于概率分布向量和每张旋转图像对应的旋转角度标签进行对数运算,得到对象统计模型的第二损失值。
进一步的,通过第一样本图像和第一标签确定对象统计模型的第一损失值的步骤,包括:将第一样本图像输入至对象统计模型中,得到第一样本图像对应的图像特征;将第一样本图像对应的图像特征输入至第二全连接层网络中,输出第一样本图像的统计结果的预测值;基于第一样本图像的第一标签和第一样本图像的统计结果的预测值,确定对象统计模型的第一损失值。
进一步的,基于第一损失值和第二损失值训练对象统计模型的步骤,包括:对第二样本图像进行扰动处理,得到扰动图像;将第二样本图像和扰动图像分别输入至对象统计模型中,得到第二样本图像的图像特征和扰动图像的图像特征;基于第二样本图像的图像特征和扰动图像的图像特征,确定第三损失值;基于第一损失值、第二损失值以及第三损失值训练对象统计模型。
进一步的,基于第二样本图像的图像特征和扰动图像的图像特征,确定第三损失值的步骤,包括:将第二样本图像的图像特征和扰动图像的图像特征分别输入至第二全连接层网络中,输出第二样本图像对应的统计结果的第一预测值和扰动图像对应的统计结果的第二预测值;将第一预测值和第二预测值之差的绝对值,确定为第三损失值。
进一步的,基于第一损失值、第二损失值以及第三损失值训练对象统计模型的步骤,包括:将第一损失值、第二损失值以及第三损失值之和,确定为最终损失值,基于最终损失值更新对象统计模型中的模型参数。
进一步的,对象统计模型包括:至少一个特征提取模块,以及与特征提取模块连接的至少一个全连接层;特征提取模块包括卷积层以及与卷积层连接的激活函数;如果对象统计模型包括多个特征提取模块,多个特征提取模块依次连接;如果对象统计模型包括多个全连接层,多个全连接层依次连接。
第二方面,本发明实施例提供了一种目标对象的统计方法,应用于计算机设备,该方法包括:获取包含有目标对象的目标图像;将目标图像输入至上述对象统计模型中,得到输出结果;基于输出结果确定目标图像中所述目标对象的统计结果。
进一步的,上述输出结果包括:目标图像的图像特征;基于输出结果确定目标图像中目标对象的统计结果的步骤,包括:将目标图像的图像特征输入至第二全连接层网络中,输出目标图像中目标对象的统计结果。
第三方面,本发明实施例还提供了一种对象统计模型的训练装置,设置于计算机设备,该装置包括:第一损失值确定模块,用于通过第一样本图像和第一标签确定对象统计模型的第一损失值,第一标签用于指示第一样本图像中包含的目标对象的统计结果;第二损失值确定模块,用于通过第二样本图像和第二标签确定对象统计模型的第二损失值,第二标签用于指示第二样本图像中包含的目标对象的多个对象部件之间的位置关系;对象统计模型训练模块,用于基于第一损失值和第二损失值训练对象统计模型。
第四方面,本发明实施例还提供了一种目标对象的统计装置,设置于计算机设备,该装置包括:获取模块,用于获取包含有目标对象的目标图像;统计模块,用于将目标图像输入至上述对象统计模型中,得到输出结果;基于输出结果确定目标图像中目标对象的统计结果。
第五方面,本发明实施例还提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现第一方面任一项的对象统计模型的训练方法,或第二方面任一项的目标对象的统计方法。
第六方面,本发明实施例还提供了一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现第一方面的对象统计模型的训练方法,或第二方面任一项的目标对象的统计方法。
本发明实施例带来了以下有益效果:
本发明提供了一种对象统计模型的训练方法、目标对象的统计方法和装置,通过第一样本图像和第一标签确定对象统计模型的第一损失值,通过第二样本图像的第二标签确定对象统计模型的第二损失值;基于第一损失值和第二损失值训练对象统计模型。该方式中,由于带统计数量标签的第一样本图像的数量较少,因此仅通过带统计数量标签的第一样本图像对模型训练容易过拟合。因此,本方案采用大量的不同旋转角度的带标签的第二样本图像对模型的参数进行训练,可以降低模型的过拟合,使得模型的精度更高。随后再利用该精度更好的模型进行对象数量进行统计,可以得到更好的统计精度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种对象统计模型的训练方法的流程图;
图2为本发明实施例提供的一种对象统计模型的示意图;
图3为本发明实施例提供的一种目标对象的统计方法的流程图;
图4为本发明实施例提供的一种对象统计模型的训练装置的结构示意图;
图5为本发明实施例提供的一种目标对象的统计装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前随着监控摄像头的普及以及人工智能技术的发展,智能安防系统在维护社会稳定和保障人民生命财产安全方面发挥了重要作用。其中,智能安防是通过计算机视觉等人工智能技术,分析监控摄像头捕捉的监控图像,解析出监控图像中出现的人、物以及事件。计算图像中的目标对象的总数的算法是智能安防系统的一个重要组成部分,该技术可以用于公共场所的实时预警,预防人群拥挤等一系列突发情况的发生。
相关技术中,可以采用传统的人群计数算法统计图像中目标对象的数量,首先需要人工提取图像的特征(如边缘、纹理、梯度等),然后训练一个图像特征到总人数的回归器。这种方法缺乏图像的高层语义信息,因此统计精度较差。
还可以采用深度学习模型统计图像中目标对象的数量,训练高精度的人群计数深度学习模型需要大规模高质量的样本图像;但是,对样本图像进行标注非常困难,尤其是针对人群较多的拥挤场景中拍摄的样本图像,统计和标注该样本图像中出现的所有人非常耗时,且人工成本较高。这就导致带有标注的样本图像的数量一般都较少。另外,深度学习模型的训练非常依赖于样本图像的数量,少量的样本图像训练深度学习模型容易产生过拟合现象,导致模型最终的泛化能力较差。基于上述问题,本发明实施例提供的一种对象统计模型的训练方法、目标对象的统计方法和装置,该技术可以应用于具有摄像或监控功能的电子设备,尤其可以应用于安防或监控系统的摄像装置。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种对象统计模型的训练方法进行详细介绍,该对象统计模型的训练方法可以例如通过计算机设备等电子设备进行实现。如图1所示,该方法包括如下步骤:
步骤S102,通过第一样本图像和第一标签确定对象统计模型的第一损失值,该第一标签用于指示第一样本图像中包含的目标对象的统计结果;
上述第一样本图像通常是包含有目标对象的图像。通常上述第一标签是由人工针对第一样本图像进行标注的,基于人工成本和时间成本的考虑,上述第一样本图像的数量通常较少。
实际实现时,可以先将第一样本图像输入至没有训练完成的对象统计模型,得到输出结果,即第一样本图像的特征向量;然后将特征向量再输入至一个全连接层,得到第一样本图像中目标对象的统计结果的预测值,将该预测值与第一标签进行运算,比如,计算预测值与第一标签的差值,得到上述第一损失值,该第一损失值用于指示预测值与第一标签之间的差距。
步骤S104,通过第二样本图像和第二标签确定对象统计模型的第二损失值,该第二标签用于指示第二样本图像中包含的目标对象的多个对象部件之间的位置关系;
上述第二样本图像通常是包含有目标对象的图像。由于对多个对象部件的位置关系的标注效率相对于对多个对象的统计结果的标注效率要高得多,且可以通过计算机等指定工具对第二样本图像进行批量标注,不需要人工进行标注。因此上述第二样本图像的数量通常较多,第二样本图像的数量远大于第一样本图像的数量。上述多个对象部件可以是目标对象中具有突出特征的部件,比如一张包含鸟的图像(即鸟为目标对象),鸟的头、脚以及尾巴都可以认为是目标对象的对象部件,再如一张包含行人的图像(即人为目标对象),人的头、脚、眼睛、鼻子、和嘴巴等也都可以认为是目标对象的对象部件。
针对多个对象部件之间的位置关系,可以通过第二标签标识,通常不同的第二标签表示目标对象中对象部件之间的不同位置关系。举例说明,第二样本图像是一张包含鸟的图像,对象部件为鸟的头和脚,然后将该图像正放,鸟的头在脚的上方,此时第二样本图像的第二标签可以用“1”表示,如果将该图像倒放,鸟的头在脚的下方,此时第二样本图像的第二标签可以用“2”表示。可以理解的是,通过监控设备或相机等工具,即可以获取大量的目标对象正放的图像(正放图像的第二标签例如可以通过计算机批量标注为“1”),通过计算机等工具对目标对象正放的图像进行批量旋转即可获取目标对象倒置的图像(倒置图像的第二标签例如可以通过计算机批量标注为“2”)。如此通过对目标对象正放的图像旋转不同的角度,即可获取目标对象中对象部件之间位置关系不同的大量图像,并可通过计算机等工具对上述图像的第二标签进行批量标注。
在实际实现时,可以先将第二样本图像输入至没有训练完成的对象统计模型,得到输出结果,即第二样本图像的特征向量,该特征向量包含有目标对象的特征。然后将输出结果再输入至另一个全连接层,由于第二样本图像与第一样本图像的标签不同,需要预测的结果也不同,所以第二样本图像的输出结果最后输入的全连接层与第一样本图像的输出结果最后输入的全连接层不同。最后得到第二样本图像中目标对象的多个对象部件之间的位置关系的预测值,将该预测值与第二标签进行对比,得到上述第二损失值,该第二损失值用于指示预测值与第二标签之间的差距。
步骤S106,基于第一损失值和第二损失值训练对象统计模型;
具体的,可以计算第一损失值和第二损失值的和,或者第一损失值和第二损失值的乘积等,也可以是其他计算方式得到最终损失值。基于最终损失值更新对象统计模型中的模型参数,通常情况下,模型需要多次训练,多次更新模型参数,且每次训练都需要重新获取不同的第一样本图像和第二样本图像,计算得到不同的第一损失值和第二损失值,直至损失值收敛,或者模型参数收敛,则停止训练,得到训练完成的对象统计模型。
本发明提供了一种对象统计模型的训练方法,通过第一样本图像和第一标签确定对象统计模型的第一损失值,第一标签用于指示第一样本图像中包含的目标对象的统计结果;通过第二样本图像和第二标签确定对象统计模型的第二损失值,第二标签用于指示第二样本图像中包含的目标对象的多个对象部件之间的位置关系;基于第一损失值和第二损失值训练对象统计模型。该方式中,由于带统计数量标签的第一样本图像的数量较少,因此仅通过带统计数量标签的第一样本图像对模型训练容易过拟合。因此,本方案采用大量的不同旋转角度的带标签的第二样本图像对模型的参数进行辅助训练,可以降低模型的过拟合,使得模型的精度更高。随后再利用该精度更好的模型进行对象数量进行统计,可以得到更好的统计精度。
本发明实施例还提供了另一种对象统计模型的训练方法,本实施例在上述实施例的基础上实现,本实施例主要描述,通过第二样本图像和第二标签确定对象统计模型的第二损失值的步骤的实现过程;具体包括如下步骤:
步骤201,对初始样本图像分别按照多种预设旋转角度进行旋转处理,得到每种旋转角度对应的旋转图像,将每种旋转角对应的旋转图像确定为第二样本图像;其中,第二标签包括为每张旋转图像设置的旋转图像对应的旋转角度标签;当旋转角度不同时,旋转图像中包含的目标对象的多个对象部件之间的位置关系不同;
本实施例以初始样本图像为监控场景下获取的图像为例进行说明,比如一共获取到了的初始样本图像的图像集为
Figure M_210824140221253_253768001
,表示一共收集了M张初始样本图像,第i张初始样本图像用
Figure M_210824140221338_338463002
表示,即上述初始样本图像可以表示为
Figure M_210824140221369_369934003
,则初始样本图像的图像集可以表示为
Figure M_210824140221401_401196004
上述多种预设的旋转角度通常包括0度,90度,180度,270度,当然还可以包括其他旋转角度,比如45度,135度,225度,315度等。本实施例以多种预设旋转角度包括多种预设旋转角度为例进行说明,首先上述初始样本图像可以表示为
Figure M_210824140221463_463781001
,将该
Figure M_210824140221511_511957002
旋转0度,90度,180度,270度,得到四张旋转图像,可以在每张旋转图像上设置对应的旋转角度标签,旋转角度标签可以表示为a;其中旋转0度的旋转图像设置的旋转角度标签a为“1”,旋转90度的旋转图像设置的旋转角度标签a为“2”,旋转180度的旋转图像设置的旋转角度标签a为“3”,旋转270度的旋转图像设置的旋转角度标签a为“4”。其中,“1”表示初始样本图像旋转0度,“2”表示初始样本图像旋转90度,“3”表示初始样本图像旋转180度,“4”表示初始样本图像旋转270度。进而可以将每种旋转角对应的旋转图像确定为第二样本图像,即第二样本图像包括初始样本图像旋转0度,90度,180度,270度对应的四张旋转图像。
进一步的,以目标对象为人,对象部件为头和脚为例进行说明,其中旋转角度为0度时,旋转图像中包含的目标对象的头在脚的上边;旋转角度为90度时,旋转图像中包含的目标对象的头在脚的右边;旋转角度为180度时,旋转图像中包含的目标对象的头在脚的下边;旋转角度为270度时,旋转图像中包含的目标对象的头在脚的左边。可以理解的是,由于通过监控等方式得到的图像一般均为目标对象的头在脚的上边(即旋转角度为0度)的图像,而对图像进行旋转(例如旋转90度、180度、270度)可以通过计算机等电子设备自动完成,因此对上述初始样本图像及其旋转后的图像的标注可以通过计算机等电子设备自动完成,无需或仅需少量的人工参与。
步骤202,将第二样本图像输入至对象统计模型中,得到第二样本图像中每张旋转图像对应的图像特征;基于每张旋转图像对应的图像特征,确定对象统计模型的第二损失值。
继续上述举例进行说明,将上述四种旋转角度对应的四个旋转图像输入至对象统计模型中,分别得到四张旋转图像对应的图像特征,每张旋转图像对应的图像特征为特征向量,可以表示为
Figure M_210824140221541_541798001
。所述的每张旋转图像对应的图像特征包括,旋转0度的旋转图像的特征向量,旋转90度的旋转图像的特征向量,旋转180度的旋转图像的特征向量,旋转270度的旋转图像的特征向量。其中,R c 表示c维向量。其中R表示向量中的每个元素都是实数,c表示向量包括c个元素。因此
Figure M_210824140221588_588736002
表示f为一个包括c个实数元素的特征向量。得到每张旋转图像对应的图像特征后,可以基于每张旋转图像对应的图像特征,得到每张旋转图像的对应的旋转角度预测值;比如,将旋转图像对应的图像特征输入至一个全连接层,得到每张旋转图像的对应的旋转角度预测值。根据每张旋转图像的对应的旋转角度预测值和每张旋转图像对应的旋转角度标签,计算对象统计模型的第二损失值。
上述步骤202中,基于每张旋转图像对应的图像特征,确定对象统计模型的第二损失值的步骤,一种可能的实施方式:
(1)将每张旋转图像对应的图像特征输入至第一全连接层网络中,输出每张旋转图像对应的旋转角度预测结果;
继续上述举例进行说明,将每张旋转图像对应的图像特征
Figure M_210824140221619_619989001
输入至第一全连接层网络中,输出每张旋转图像对应的旋转角度预测结果,每张旋转图像对应的旋转角度预测结果可以表示为大小为4的向量
Figure M_210824140221651_651177002
,其中,R 4 表示4维向量,R表示向量中的每个元素都是实数,4表示向量包括4个元素。因此
Figure M_210824140221698_698984003
表示
Figure M_210824140221730_730798004
为一个包括4个实数元素的特征向量。其中,R 1 表示旋转角度标签为“1”(即该旋转图像的旋转角度为0度)的预测结果;R 2 表示旋转角度标签为“2”(即该旋转图像的旋转角度为90度)的预测结果;R 3 表示旋转角度标签为“3”(即该旋转图像的旋转角度为180度)的预测结果;R 4 表示旋转角度标签为“4”(即该旋转图像的旋转角度为270度)的预测结果。
(2)将每张旋转图像对应的旋转角度预测结果输入至预设的激活函数中,输出概率分布向量;其中,概率分布向量中包括每张旋转图像对应不同旋转角度的概率分布值;
上述预设的激活函数可以是softmax函数,将上述每张旋转图像对应的旋转角度预测结果
Figure M_210824140221777_777631001
输入至softmax函数,输出概率分布向量,该概率分布向量可以表示为
Figure M_210824140221808_808439002
Figure M_210824140221840_840183001
其中,
Figure M_210824140221927_927059001
表示
Figure M_210824140221973_973927002
中的第j个元素,即预测结果的第j个预测值;
Figure M_210824140222005_005195003
表示
Figure M_210824140222036_036425004
的第j个元素,即概率分布向量的第j个概率分布值;在上述例子中j的取值范围为[1,4]。其中
Figure M_210824140222083_083351005
为一个向量,R 4 表示4维向量,R表示向量中的每个元素都是实数,4表示向量包括4个元素。因此
Figure M_210824140222114_114582006
表示
Figure M_210824140222145_145396007
为一个包括4个实数元素的概率分布向量。其中,
Figure M_210824140222177_177052008
表示旋转角度标签为“1”(即该旋转图像的旋转角度为0度)的概率值;
Figure M_210824140222224_224086009
表示旋转角度标签为“2”(即该旋转图像的旋转角度为90度)的概率值;
Figure M_210824140222254_254739010
表示旋转角度标签为“3”(即该旋转图像的旋转角度为180度)的概率值;
Figure M_210824140222301_301912011
表示旋转角度标签为“4”(即该旋转图像的旋转角度为270度)的概率值。
(3)基于概率分布向量和每张旋转图像对应的旋转角度标签进行对数运算,得到对象统计模型的第二损失值。
具体可以通过公式
Figure M_210824140222335_335271001
计算对象统计模型的第二损失值;其中,a表示前述描述的旋转角度标签,指示旋转图像的实际旋转角度;L 2表示对象统计模型的第二损失值。具体的,在计算损失函数时,若旋转图像的标签为2,则利用第二个概率值计算损失函数。比如,当旋转图像对应的概率分布向量
Figure M_210824140222382_382164002
时,如果该旋转图像的第二标签为a=1,则利用
Figure M_210824140222435_435318003
,即概率分布向量中的第一个元素
Figure M_210824140222466_466112004
=0.6,计算对象统计模型的第二损失值,即
Figure M_210824140222481_481766005
;如果该旋转图像的第二标签a=2,则利用
Figure M_210824140222546_546203006
,即概率分布向量中的第二个元素
Figure M_210824140222593_593070007
=0.1,计算对象统计模型的第二损失值
Figure M_210824140222624_624341008
;如果该旋转图像的第二标签为a=3,则利用
Figure M_210824140222655_655592009
,即概率分布向量中的第三个元素
Figure M_210824140222686_686395010
=0.1,计算对象统计模型的第二损失值
Figure M_210824140222719_719522011
;如果该旋转图像的第二标签为a=4,则利用
Figure M_210824140222750_750844012
,即概率分布向量中的第四个元素
Figure M_210824140222797_797730013
=0.2,计算对象统计模型的第二损失值
Figure M_210824140222829_829959014
上述方式中,由于第二样本图像中没有标识目标对象数量的标签,但是第二样本图像中也包含了丰富的目标对象的特征信息,为了辅助对象统计模型中参数的训练,可以通过第二样本图像的不同旋转角度的旋转图像,训练对象统计模型,可以使对象统计模型分类不同旋转角度的图像,如果对象统计模型可以正确预测不同旋转角度的旋转图像,则可以预测目标对象中多个对象部件之间的位置关系,进而可以学习到目标对象中的其他有用图像特征,丰富了模型的泛化能力。
上述对象统计模型,由多个卷积层、激活函数和全连接层组成,主要作用是图像特征提取。第二全连接层根据对象统计模型提取的图像特征统计目标对象的数量,并输出结果。由于带统计数量标签的图像样本数量较少,因此仅通过带统计数量标签的图像样本对模型训练容易过拟合。因此,本方案采用大量的不同旋转角度的带标签图像样本对上述对象统计模型的参数进行辅助训练,可以降低上述对象统计模型的过拟合,使得上述对象统计模型的精度更高。随后再利用该精度更好的对象统计模型配合第二全连接层进行对象数量特征的预测,可以得到更好的预测精度。
本发明实施例还提供了另一种对象统计模型的训练方法,本实施例在上述实施例的基础上实现,本实施例主要描述,通过第一样本图像和第一标签确定对象统计模型的第一损失值的步骤的实现过程;
本实施例以第一样本图像为监控场景下获取的图像为例进行说明,比如一共获取到了的第一样本图像的图像集为
Figure M_210824140222861_861578001
,表示一共收集了N张图像,第i张图像用X i 表示,即上述第一样本图像可以表示为X i ,将每张图像设置第一标签,该第一标签可以是表示为y i ,则第一样本图像的图像集可以表示为
Figure M_210824140222892_892916002
,其中,上述M远大于N。
具体包括如下步骤:
步骤301,将第一样本图像输入至对象统计模型中,得到第一样本图像对应的图像特征;
步骤302,将第一样本图像对应的图像特征输入至第二全连接层网络中,输出第一样本图像的统计结果的预测值;
步骤303,基于第一样本图像的第一标签和第一样本图像的统计结果的预测值,确定对象统计模型的第一损失值。
上述第一样本图像可以表示为X;上述第一样本图像的统计结果的预测值可以表示为z,另外,上述第一样本图像的第一标签可以表示为y。具体的,首先随机初始化对象统计模型中的所有模型参数W,然后将第一样本图像X输入至初始化的对象统计模型中,得到第一样本图像对应的图像特征,也可称为特征向量, 然后将第一样本图像对应的图像特征输入至第二全连接层网络中,输出第一样本图像的统计结果的预测值z,然后计算第一样本图像的第一标签和第一样本图像的统计结果的预测值的差值的绝对值,得到上述对象统计模型的第一损失值,可以通过下述公式表示:
Figure M_210824140222931_931710001
其中,L 1表示对象统计模型的第一损失值。
上述第二全连接网络与前述实施例中的第一全连接网络不同。
上述方式中,通过将第一样本图像输入至对象统计模型中,得到第一样本图像对应的图像特征; 将第一样本图像对应的图像特征输入至第二全连接层网络中,输出第一样本图像的统计结果的预测值;基于第一样本图像的第一标签和第一样本图像的统计结果的预测值,确定对象统计模型的第一损失值;通过第一损失值和前述第二损失值,训练对象统计模型,在通过少量带有真实人数标签的第一样本图像的基础上,利用大量无人工标签的第二样本图像训练模型,不仅可以训练模型的统计计数的预测能力,还可以学习第二样本图像中的目标对象的对象部件的位置关系,可以大大缓解过拟合现象的产生,同时可以大大提高人群计数算法的准确度。
本发明实施例还提供了另一种对象统计模型的训练方法,本实施例在上述实施例的基础上实现,本实施例主要描述,基于第一损失值和第二损失值训练对象统计模型的步骤的实现过程,包括如下步骤:
步骤401,对第二样本图像进行扰动处理,得到扰动图像;
为了进一步提高对象统计模型预测目标对象统计结果的鲁棒性,可以对第二样本图像
Figure M_210824140222963_963229001
进行扰动处理,比如,对第二样本图像
Figure M_210824140222994_994503002
加一些随机噪声、对第二样本图像进行剪裁、或者遮挡第二样本图像中的部分区域等,得到扰动图像,可以表示为
Figure M_210824140223042_042734003
步骤402,将第二样本图像和扰动图像分别输入至对象统计模型中,得到第二样本图像的图像特征和扰动图像的图像特征;
将第二样本图像
Figure M_210824140223090_090117001
和扰动图像
Figure M_210824140223126_126350002
分别输入至对象统计模型中,得到第二样本图像
Figure M_210824140223189_189555003
的图像特征,以及扰动图像
Figure M_210824140223220_220017004
的图像特征,该图像特征也可以称为特征向量。
步骤403,基于第二样本图像的图像特征和扰动图像的图像特征,确定第三损失值;
具体的,可以根据第二样本图像的图像特征和扰动图像的图像特征,得到第二样本图像对应的统计结果的预测值,以及扰动图像对应的统计结果的预测值,根据这两个预测值,计算得到第三损失值。
上述步骤403中,基于第二样本图像的图像特征和扰动图像的图像特征,确定第三损失值,一种可能的实施方式:
(1)将第二样本图像的图像特征和扰动图像的图像特征分别输入至第二全连接层网络中,输出第二样本图像对应的统计结果的第一预测值和扰动图像对应的统计结果的第二预测值;
(2)将第一预测值和第二预测值之差的绝对值,确定为第三损失值。
为了得到预测值,可以将第二样本图像的图像特征和扰动图像的图像特征分别输入至第二全连接层网络中,输出第二样本图像对应的统计结果的第一预测值z1和扰动图像对应的统计结果的第二预测值z2;计算第一预测值z1和第二预测值z2之差的绝对值,即
Figure M_210824140223288_288420001
,其中,L 3即为上述第三损失值。
步骤404,基于第一损失值、第二损失值以及第三损失值训练对象统计模型。
可以根据第一损失值L 1、第二损失值L 2以及第三损失值L 3的和,或者其他运算结果,训练对象统计模型。具体的,可以将运算结果作为对象统计模型的损失值,基于该损失值更新对象统计模型中的模型参数,通常情况下,模型需要多次训练,且每次训练都需要重新获取不同的第一样本图像和第二样本图像,计算得到不同的第一损失值、第二损失值和第三损失值,直至损失值收敛,或者模型参数收敛,则停止训练,得到训练完成的对象统计模型。
上述步骤404中,基于第一损失值、第二损失值以及第三损失值训练对象统计模型,一种可能的实施方式:
将第一损失值L 1、第二损失值L 2以及第三损失值L 3之和,确定为最终损失值,基于最终损失值更新对象统计模型中的模型参数。
具体的,可以通过下述公式计算最终损失值:
Figure M_210824140223439_439268001
;
其中L表示最终损失值,L 1表示第一损失值,L 2表示第二损失值,L 3表示第三损失值。
具体的,可以通过反向传播算法,计算最终损失值L对对象统计模型中所有模型参数W的导数∂L/∂W,然后通过随机梯度下降算法更新对象统计模型中的参数:
Figure M_210824140223492_492007001
;
其中,
Figure M_210824140223540_540435001
是学习率,是预先设定的超参数,常见的取值为0.01,0.001等。为了使对象统计模型中的参数W收敛,需要重新获取第一样本图像和第二样本图像,将第一样本图像和第二样本图像,以及对第二样本图像进行扰动处理得到的扰动图像,输入至上一次更新完参数的对象统计模型中,得到第一样本图像、第二样本图像和扰动图像对应的图像特征,根据图像特征,同样通过前述方法,得到最终损失值,进而通过随机梯度下降算法更新对象统计模型中的参数,直至对象统计模型的模型参数收敛,则停止训练,得到训练完成的对象统计模型。
为了提高对象统计模型的统计精度,通常还会预先设置测试图像,通常测试图像的数量为训练样本图像的数量的十分之一,训练样本图像包括:第一样本图像。上述测试图像与第一样本图像相同,都设置有第一标签。在完成训练后获取测试图像,将测试图像输入至训练完成的对象统计模型,将得到的统计结果的预测值与第一标签进行对比,如果满足预设条件,则通过测试,得到训练完成的对象统计模型。如果没有满足预设条件,则继续上述模型训练的过程。上述预设条件可以是预测值与第一标签相同,也可以是预测值与第一标签的差值小于指定数值,该指定数值具体可以根据实际需要进行设置。
上述方式中,与传统人群计数算法相比,该种方式通过多个卷积层和激活函数以及多个全连接层,可以自动学习与计数有关的多层级语义特征,提高了统计精度。与深度人群计数算法相比,该种方式可以利用到大量无人工标签的人群图像,通过利用少量带有真实人数标签的样本和大量无人工标签的人群样本来训练模型,可以大大缓解过拟合现象的产生,同时可以大大提高人群计数算法的准确度。
一种具体的实施方式中,上述对象统计模型包括:至少一个特征提取模块,以及与特征提取模块连接的至少一个全连接层;特征提取模块包括卷积层以及与卷积层连接的激活函数;如果对象统计模型包括多个特征提取模块,多个特征提取模块依次连接;如果对象统计模型包括多个全连接层,多个全连接层依次连接。
具体的,上述对象统计模型可以包括多个Block(即上述特征提取模块),如图2所示的Block1、Block2等,还包括多个FC(Fully connected 全连接)层(即上述全连接层),如图2所示的FC1、FC2等。其中,每一个Block包括一组卷积层和激活函数,也可以包括多组卷积层和激活函数,多组之间依次串联。上述对象统计模型包含的Block的数量,以及每个Block包含的“卷积和激活函数”的数量可以根据实际的应用场景以及需求确定,还可以根据实际应用的速度与精度需求决定。通常情况下,模块和“卷积层+激活函数”的个数越多模型整体越深,性能越好,但是速度会越慢。如图2所示,如果对象统计模型包括多个Block,多个Block依次连接;如果对象统计模型包括多个FC,多个全连接层依次连接。
本发明实施例还提供了一种目标对象的统计方法,该统计方法可以例如通过计算机设备等电子设备进行实现。如图3所示,该方法包括如下步骤:
步骤S302,获取包含有目标对象的目标图像;
上述目标对象可以是人物、动物、车辆等动态目标,也可以是树木、建筑、道路等静态目标,还可以是室内的目标对象,比如办公室的工作人员、办公器材、商场出入口或某个柜台的行人等,还可以是室外的目标对象,比如路口的行人、车辆、景点某个区域的行人等。上述目标图像可以是由摄像机拍摄的图像,还可以是直接在网上下载的包含目标对象的目标图像,还可以是由视频直接截取的包含目标对象的目标图像等。
步骤S304,将目标图像输入至预先训练完成的对象统计模型中,得到输出结果;基于输出结果确定目标图像中目标对象的统计结果;
上述至预先训练完成的对象统计模型通常是指深度学习网络模型,比如,CNN(Convolutional Neural Networks,卷积神经网络)、RNN (Recurrent Neural Network,循环神经网络)、DNN(Deep Neural Network,深度神经网络)等网络模型。上述输出结果为包括目标对象的图像特征,通常包括能够确定目标对象数量的特征,上述统计结果是指目标对象的数量。
作为示例,如上述图2所示的对象统计模型的输入为人群图像,即上述包含目标对象的目标图像,通常输入至预先训练完成的对象统计模型的目标图像的大小为H*W*3。
实际实现时,首先可以将目标图像输入至预先训练完成的对象统计模型中,通过多个Block模块以及多个全连接层以后,可以得到该目标图像的特征向量,即上述输出结果,通常包含有能用于确定目标对象的数量的特征。然后,将该输出结果输入至一个预先训练完成的全连接层,得到目标图像中目标对象的数量,即上述统计结果。
上述方式中,获取包含有目标对象的目标图像;将目标图像输入至预先训练完成的对象统计模型中,得到输出结果;基于输出结果确定目标图像中目标对象的统计结果。其中预先训练完成的对象统计模型,是通过设置第一标签的第一样本图像,和设置第二标签的第二样本图像训练的得到的,使模型不仅学习到了图像中目标对象的数量的统计方式,还学习了到对象内各个部件之间的位置关系,提高了对象统计模型的统计对象数量的准确度,同时缓解了小样本量训练模型产生的过拟合问题,也避免了大样本量训练模型时所需要的较高的标注成本。
上述输出结果包括:目标图像的图像特征;下面具体描述基于输出结果确定目标图像中目标对象的统计结果的步骤,包括:将目标图像的图像特征输入至第二全连接层网络中,输出目标图像中目标对象的统计结果。
由于上述输出结果为目标图像的图像特征,为了得到目标图像中目标对象的统计结果,还需要将目标图像的图像特征输入至第二全连接层网络中,通过第二全连接网络,可以得到目标图像的统计结果。
对应上述方法实施例,本发明实施例还提供了一种目标对象的统计装置,如图4所示,该装置包括:
第一损失值确定模块41,用于通过第一样本图像和第一标签确定对象统计模型的第一损失值,第一标签用于指示第一样本图像中包含的目标对象的统计结果;
第二损失值确定模块42,用于通过第二样本图像和第二标签确定对象统计模型的第二损失值,第二标签用于指示第二样本图像中包含的目标对象的多个对象部件之间的位置关系;
对象统计模型训练模块43,用于基于第一损失值和第二损失值训练对象统计模型。
本发明实施例提供的一种对象统计模型的训练装置,通过第一样本图像和第一标签确定对象统计模型的第一损失值,第一标签用于指示第一样本图像中包含的目标对象的统计结果;通过第二样本图像和第二标签确定对象统计模型的第二损失值,第二标签用于指示第二样本图像中包含的目标对象的多个对象部件之间的位置关系;基于第一损失值和第二损失值训练对象统计模型。该方式中,由于带统计数量标签的第一样本图像的数量较少,因此仅通过带统计数量标签的第一样本图像对模型训练容易过拟合。因此,本方案采用大量的不同旋转角度的带标签的第二样本图像对模型的参数进行辅助训练,可以降低模型的过拟合,使得模型的精度更高。随后再利用该精度更好的模型进行对象数量进行统计,可以得到更好的统计精度。
进一步的,第二损失值确定模块,还用于:对初始样本图像分别按照多种预设旋转角度进行旋转处理,得到每种旋转角度对应的旋转图像,将每种旋转角对应的旋转图像确定为第二样本图像;其中,第二标签包括为每张旋转图像设置的该旋转图像对应的旋转角度标签;当旋转角度不同时,旋转图像中包含的目标对象的多个对象部件之间的位置关系不同;将第二样本图像输入至对象统计模型中,得到第二样本图像中每张旋转图像对应的图像特征;基于每张旋转图像对应的图像特征,确定对象统计模型的第二损失值。
进一步的,第二损失值确定模块,还用于:将每张旋转图像对应的图像特征输入至第一全连接层网络中,输出每张旋转图像对应的旋转角度预测结果;将每张旋转图像对应的旋转角度预测结果输入至预设的激活函数中,输出概率分布向量;其中,概率分布向量中包括每张旋转图像对应的概率分布值;基于概率分布向量和每张旋转图像对应的旋转角度标签进行对数运算,得到对象统计模型的第二损失值。
进一步的,第一损失值确定模块,还用于:将第一样本图像输入至对象统计模型中,得到第一样本图像对应的图像特征;将第一样本图像对应的图像特征输入至第二全连接层网络中,输出第一样本图像的统计结果的预测值;基于第一样本图像的第一标签和第一样本图像的统计结果的预测值,确定对象统计模型的第一损失值。
进一步的,对象统计模型训练模块,还用于:对第二样本图像进行扰动处理,得到扰动图像;将第二样本图像和扰动图像分别输入至对象统计模型中,得到第二样本图像的图像特征和扰动图像的图像特征;基于第二样本图像的图像特征和扰动图像的图像特征,确定第三损失值;基于第一损失值、第二损失值以及第三损失值训练对象统计模型。
进一步的,对象统计模型训练模块,还用于:将第二样本图像的图像特征和扰动图像的图像特征分别输入至第二全连接层网络中,输出第二样本图像对应的统计结果的第一预测值和扰动图像对应的统计结果的第二预测值;将第一预测值和第二预测值之差的绝对值,确定为第三损失值。
进一步的,对象统计模型训练模块,还用于:将第一损失值、第二损失值以及第三损失值之和,确定为最终损失值,基于最终损失值更新对象统计模型中的模型参数。
进一步的,上述对象统计模型包括:至少一个特征提取模块,以及与特征提取模块连接的至少一个全连接层;特征提取模块包括卷积层以及与卷积层连接的激活函数;如果对象统计模型包括多个特征提取模块,多个特征提取模块依次连接;如果对象统计模型包括多个全连接层,多个全连接层依次连接。
本发明实施例提供的对象统计模型的训练装置,与上述实施例提供的对象统计模型的训练方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
对应上述方法实施例,本发明实施例还提供了一种目标对象的统计装置,如图5所示,该装置包括:
获取模块51,用于获取包含有目标对象的目标图像;
统计模块52,用于将目标图像输入至预先训练完成的对象统计模型中,得到输出结果;基于输出结果确定目标图像中目标对象的统计结果;
本发明提供了一种目标对象的统计装置,将包含有目标对象的目标图像输入至预先训练完成的对象统计模型中,得到输出结果;基于输出结果确定目标图像中目标对象的统计结果。该方式中,通过设置第一标签的第一样本图像,可以使模型学习图像中目标对象的数量的统计方式,通过设置第二标签的第二样本图像,可以使模型学习对象内各个部件之间的位置关系,设置第二标签的第二样本图像有助于在第一样本图像数量较少的情况下,提高模型统计对象数量的准确度,缓解小样本量训练模型产生的过拟合问题,也避免了大样本量训练模型时所需要的较高的标注成本。
进一步的,上述输出结果包括:目标图像的图像特征;统计模块还用于:将目标图像的图像特征输入至第二全连接层网络中,输出目标图像中目标对象的统计结果。
本发明实施例提供的目标对象的统计装置,与上述实施例提供的目标对象的统计方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述目标统计模型的训练方法、目标对象的统计方法。
参见图6所示,该电子设备包括处理器100和存储器101,该存储器101存储有能够被处理器100执行的机器可执行指令,该处理器100执行机器可执行指令以实现上述目标统计模型的训练方法、以及目标对象的统计方法。
进一步地,图6所示的电子设备还包括总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接。
其中,存储器101可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成前述实施例的方法的步骤。
本实施例还提供一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述目标统计模型的训练方法、目标对象的统计方法。
本发明实施例所提供的对象统计模型的训练方法、目标对象的统计方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (13)

1.一种对象统计模型的训练方法,其特征在于,应用于计算机设备,所述方法包括:
通过第一样本图像和第一标签确定对象统计模型的第一损失值,所述第一标签用于指示所述第一样本图像中包含的目标对象的统计结果;
通过第二样本图像和第二标签确定所述对象统计模型的第二损失值,所述第二标签用于指示所述第二样本图像中包含的目标对象的多个对象部件之间的位置关系;
基于所述第一损失值和所述第二损失值训练所述对象统计模型;
通过第二样本图像和第二标签确定所述对象统计模型的第二损失值的步骤,包括:
将所述第二样本图像输入至所述对象统计模型中,得到所述第二样本图像中每张旋转图像对应的图像特征;基于每张所述旋转图像对应的图像特征,确定所述对象统计模型的第二损失值;
通过第一样本图像和第一标签确定所述对象统计模型的第一损失值的步骤,包括:
将所述第一样本图像输入至所述对象统计模型中,得到所述第一样本图像对应的图像特征;将所述第一样本图像对应的图像特征输入至第二全连接层网络中,输出所述第一样本图像的统计结果的预测值;基于所述第一样本图像的第一标签和所述第一样本图像的统计结果的预测值,确定所述对象统计模型的第一损失值。
2.根据权利要求1所述的方法,其特征在于,通过第二样本图像和第二标签确定所述对象统计模型的第二损失值的步骤,包括:
对初始样本图像分别按照多种预设旋转角度进行旋转处理,得到每种所述旋转角度对应的旋转图像,将每种所述旋转角度对应的旋转图像确定为所述第二样本图像;其中,所述第二标签包括为每张所述旋转图像设置的所述旋转图像对应的旋转角度标签;当旋转角度不同时,所述旋转图像中包含的目标对象的多个对象部件之间的位置关系不同;
将所述第二样本图像输入至所述对象统计模型中,得到所述第二样本图像中每张所述旋转图像对应的图像特征;基于每张所述旋转图像对应的图像特征,确定所述对象统计模型的第二损失值。
3.根据权利要求2所述的方法,其特征在于,基于每张所述旋转图像对应的图像特征,确定所述对象统计模型的第二损失值的步骤,包括:
将每张所述旋转图像对应的图像特征输入至第一全连接层网络中,输出每张所述旋转图像对应的旋转角度预测结果;
将每张所述旋转图像对应的旋转角度预测结果输入至预设的激活函数中,输出概率分布向量;其中,所述概率分布向量中包括每张所述旋转图像对应的概率分布值;
基于所述概率分布向量和每张所述旋转图像对应的旋转角度标签进行对数运算,得到所述对象统计模型的第二损失值。
4.根据权利要求1所述的方法,其特征在于,基于所述第一损失值和所述第二损失值训练所述对象统计模型的步骤,包括:
对所述第二样本图像进行扰动处理,得到扰动图像;
将所述第二样本图像和所述扰动图像分别输入至所述对象统计模型中,得到所述第二样本图像的图像特征和所述扰动图像的图像特征;
基于所述第二样本图像的图像特征和所述扰动图像的图像特征,确定第三损失值;基于所述第一损失值、所述第二损失值以及所述第三损失值训练所述对象统计模型。
5.根据权利要求4所述的方法,其特征在于,基于所述第二样本图像的图像特征和所述扰动图像的图像特征,确定第三损失值的步骤,包括:
将所述第二样本图像的图像特征和所述扰动图像的图像特征分别输入至第二全连接层网络中,输出所述第二样本图像对应的统计结果的第一预测值和所述扰动图像对应的统计结果的第二预测值;
将所述第一预测值和所述第二预测值之差的绝对值,确定为第三损失值。
6.根据权利要求4所述的方法,其特征在于,基于所述第一损失值、所述第二损失值以及所述第三损失值训练所述对象统计模型的步骤,包括:
将所述第一损失值、所述第二损失值以及所述第三损失值之和,确定为最终损失值,基于所述最终损失值更新所述对象统计模型中的模型参数。
7.根据权利要求1所述的方法,其特征在于,所述对象统计模型包括:至少一个特征提取模块,以及与所述特征提取模块连接的至少一个全连接层;所述特征提取模块包括卷积层以及与所述卷积层连接的激活函数;
如果所述对象统计模型包括多个所述特征提取模块,多个所述特征提取模块依次连接;如果所述对象统计模型包括多个所述全连接层,多个所述全连接层依次连接。
8.一种目标对象的统计方法,其特征在于,应用于计算机设备,所述方法包括:
获取包含有目标对象的目标图像;
将所述目标图像输入至根据权利要求1-7任一项所述的训练方法得到的对象统计模型中,得到输出结果;
基于所述输出结果确定所述目标图像中所述目标对象的统计结果。
9.根据权利要求8所述的方法,其特征在于,所述输出结果包括:所述目标图像的图像特征;
所述基于所述输出结果确定所述目标图像中所述目标对象的统计结果的步骤,包括:将所述目标图像的图像特征输入至第二全连接层网络中,输出所述目标图像中所述目标对象的统计结果。
10.一种对象统计模型的训练装置,其特征在于,设置于计算机设备,所述装置包括:
第一损失值确定模块,用于通过第一样本图像和第一标签确定所述对象统计模型的第一损失值,所述第一标签用于指示所述第一样本图像中包含的目标对象的统计结果;
第二损失值确定模块,用于通过第二样本图像和第二标签确定所述对象统计模型的第二损失值,所述第二标签用于指示所述第二样本图像中包含的目标对象的多个对象部件之间的位置关系;
对象统计模型训练模块,用于基于所述第一损失值和所述第二损失值训练所述对象统计模型;
所述第二损失值确定模块还用于:
将所述第二样本图像输入至所述对象统计模型中,得到所述第二样本图像中每张旋转图像对应的图像特征;基于每张所述旋转图像对应的图像特征,确定所述对象统计模型的第二损失值;
所述第二损失值确定模块还用于:
将所述第一样本图像输入至所述对象统计模型中,得到所述第一样本图像对应的图像特征;将所述第一样本图像对应的图像特征输入至第二全连接层网络中,输出所述第一样本图像的统计结果的预测值;基于所述第一样本图像的第一标签和所述第一样本图像的统计结果的预测值,确定所述对象统计模型的第一损失值。
11.一种目标对象的统计装置,其特征在于,设置于计算机设备,所述装置包括:
获取模块,用于获取包含有目标对象的目标图像;
统计模块,用于将所述目标图像输入至根据权利要求1-7任一项所述的训练方法得到的对象统计模型中,得到输出结果;基于所述输出结果确定所述目标图像中所述目标对象的统计结果。
12.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的对象统计模型的训练方法,或权利要求8-9任一项所述的目标对象的统计方法。
13.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-7任一项所述的对象统计模型的训练方法,或权利要求8-9任一项所述的目标对象的统计方法。
CN202110973255.6A 2021-08-24 2021-08-24 对象统计模型的训练方法、目标对象的统计方法和装置 Active CN113421192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110973255.6A CN113421192B (zh) 2021-08-24 2021-08-24 对象统计模型的训练方法、目标对象的统计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110973255.6A CN113421192B (zh) 2021-08-24 2021-08-24 对象统计模型的训练方法、目标对象的统计方法和装置

Publications (2)

Publication Number Publication Date
CN113421192A CN113421192A (zh) 2021-09-21
CN113421192B true CN113421192B (zh) 2021-11-19

Family

ID=77719291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110973255.6A Active CN113421192B (zh) 2021-08-24 2021-08-24 对象统计模型的训练方法、目标对象的统计方法和装置

Country Status (1)

Country Link
CN (1) CN113421192B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445681A (zh) * 2022-01-28 2022-05-06 上海商汤智能科技有限公司 模型训练及图像识别方法和装置、设备及存储介质
CN114972808A (zh) * 2022-05-19 2022-08-30 深圳大学 一种图关系网络人数统计方法及相关设备
CN116137061B (zh) * 2023-04-20 2023-08-01 北京睿芯通量科技发展有限公司 数量统计模型的训练方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491766A (zh) * 2018-03-05 2018-09-04 中山大学 一种端到端的基于深度决策森林的人群计数方法
CN109522857A (zh) * 2018-11-26 2019-03-26 山东大学 一种基于生成式对抗网络模型的人数估计方法
CN111046747A (zh) * 2019-11-21 2020-04-21 北京金山云网络技术有限公司 人群计数模型的训练方法、人群计数方法、装置和服务器
CN111600835A (zh) * 2020-03-18 2020-08-28 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法
CN112364885A (zh) * 2020-10-12 2021-02-12 浙江大学 一种基于深度神经网络模型可解释性的对抗样本防御方法
CN112906517A (zh) * 2021-02-04 2021-06-04 广东省科学院智能制造研究所 一种自监督的幂律分布人群计数方法、装置和电子设备
CN113255526A (zh) * 2021-05-28 2021-08-13 华中科技大学 基于动量的对人群计数模型的对抗样本生成方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163234B (zh) * 2018-10-10 2023-04-18 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
US11768932B2 (en) * 2019-06-28 2023-09-26 Baidu Usa Llc Systems and methods for fast training of more robust models against adversarial attacks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491766A (zh) * 2018-03-05 2018-09-04 中山大学 一种端到端的基于深度决策森林的人群计数方法
CN109522857A (zh) * 2018-11-26 2019-03-26 山东大学 一种基于生成式对抗网络模型的人数估计方法
CN111046747A (zh) * 2019-11-21 2020-04-21 北京金山云网络技术有限公司 人群计数模型的训练方法、人群计数方法、装置和服务器
CN111600835A (zh) * 2020-03-18 2020-08-28 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法
CN112364885A (zh) * 2020-10-12 2021-02-12 浙江大学 一种基于深度神经网络模型可解释性的对抗样本防御方法
CN112906517A (zh) * 2021-02-04 2021-06-04 广东省科学院智能制造研究所 一种自监督的幂律分布人群计数方法、装置和电子设备
CN113255526A (zh) * 2021-05-28 2021-08-13 华中科技大学 基于动量的对人群计数模型的对抗样本生成方法及系统

Also Published As

Publication number Publication date
CN113421192A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN113421192B (zh) 对象统计模型的训练方法、目标对象的统计方法和装置
CN106960195B (zh) 一种基于深度学习的人群计数方法及装置
CN110188807B (zh) 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法
CN107341523A (zh) 基于深度学习的快递单信息识别方法和系统
CN111754498A (zh) 一种基于YOLOv3的传送带托辊检测方法
CN113947766B (zh) 一种基于卷积神经网络的实时车牌检测方法
CN112200081A (zh) 异常行为识别方法、装置、电子设备及存储介质
CN110909657A (zh) 一种隧道表观病害图像识别的方法
CN111046747B (zh) 人群计数模型的训练方法、人群计数方法、装置和服务器
CN114359618A (zh) 神经网络模型的训练方法、电子设备及计算机程序产品
CN111339950B (zh) 一种遥感图像目标检测方法
CN112818946A (zh) 年龄识别模型的训练、年龄识别方法、装置及电子设备
CN112001453A (zh) 一种视频事件检测算法的准确率计算方法及装置
CN112966687A (zh) 图像分割模型训练方法、装置及通信设备
CN112329550A (zh) 基于弱监督学习的受灾建筑快速定位评估方法及装置
CN116959099A (zh) 一种基于时空图卷积神经网络的异常行为识别方法
CN112990350B (zh) 目标检测网络训练方法及基于目标检测网络煤矸识别方法
CN115719428A (zh) 基于分类模型的人脸图像聚类方法、装置、设备及介质
CN115037790A (zh) 异常注册识别方法、装置、设备及存储介质
CN112541469A (zh) 基于自适应分类的人群计数方法及系统
CN112784691A (zh) 一种目标检测模型训练方法、目标检测方法和装置
CN116863298B (zh) 训练、预警发送方法、系统、装置、设备和介质
CN117765480B (zh) 一种道路沿线野生动物迁徙预警方法及系统
CN117710756B (zh) 一种目标检测及模型训练方法、装置、设备、介质
CN113033444A (zh) 年龄估计方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant