CN112528995B - 用于训练目标检测模型的方法、目标检测方法及装置 - Google Patents

用于训练目标检测模型的方法、目标检测方法及装置 Download PDF

Info

Publication number
CN112528995B
CN112528995B CN202011525371.3A CN202011525371A CN112528995B CN 112528995 B CN112528995 B CN 112528995B CN 202011525371 A CN202011525371 A CN 202011525371A CN 112528995 B CN112528995 B CN 112528995B
Authority
CN
China
Prior art keywords
target
detection model
anchor point
target detection
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011525371.3A
Other languages
English (en)
Other versions
CN112528995A (zh
Inventor
王康康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011525371.3A priority Critical patent/CN112528995B/zh
Publication of CN112528995A publication Critical patent/CN112528995A/zh
Application granted granted Critical
Publication of CN112528995B publication Critical patent/CN112528995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请公开了一种用于训练目标检测模型的方法、目标检测方法及装置,涉及人工智能领域,尤其涉及计算机视觉、深度学习等领域。具体实现方案为:获取样本图片集合以及样本图片集合中各个样本图片的标注区域;根据标注区域和预设的目标锚点框,确定各个样本图片的第一交并比;根据标注区域和目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比;根据样本图片集合、第一交并比和第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型。这一过程能够平衡模型训练复杂度与模型训练精准度。

Description

用于训练目标检测模型的方法、目标检测方法及装置
技术领域
本公开涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域,尤其涉及一种用于训练目标检测模型的方法、目标检测方法及装置。
背景技术
目前,目标检测已广泛应用至智能化交通系统、智能化监控系统等多种场景,用于在各个应用场景中提取目标。
在实践中发现,现在应用于目标检测的模型如需较高的精准度,则需要引入大量复杂的处理逻辑,会导致模型训练复杂度增高。可见,如何实现平衡模型训练复杂度与模型训练精准度成为了亟需解决的问题。
发明内容
本公开提供了一种用于训练目标检测模型的方法、目标检测方法及装置。
根据本公开的一方面,提供了一种用于训练目标检测模型的方法,包括:获取样本图片集合以及样本图片集合中各个样本图片的标注区域;根据标注区域和预设的目标锚点框,确定各个样本图片的第一交并比;根据标注区域和目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比;根据样本图片集合、第一交并比和第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型。
根据本公开的另一方面,提供了一种目标检测方法,包括:根据目标图片、预设的目标锚点框和训练好的目标检测模型,确定目标图片的候选区域和锚点框区域;基于候选区域和锚点框区域,确定目标图片的目标区域。
根据本公开的另一方面,提供了一种用于训练目标检测模型的装置,包括:目标获取单元,被配置成获取样本图片集合以及样本图片集合中各个样本图片的标注区域;第一交并比确定单元,被配置成根据标注区域和预设的目标锚点框,确定各个样本图片的第一交并比;第二交并比确定单元,被配置成根据标注区域和目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比;模型训练单元,被配置成根据样本图片集合、第一交并比和第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型。
根据本公开的另一方面,提供了一种目标检测装置,包括:区域确定单元,被配置成根据目标图片、预设的目标锚点框和训练好的目标检测模型,确定目标图片的候选区域和锚点框区域;目标确定单元,被配置成基于候选区域和锚点框区域,确定目标图片的目标区域。
根据本公开的另一方面,提供了一种执行用于训练目标检测模型的方法或目标检测方法的电子设备,包括:一个或多个计算单元;存储单元,用于存储一个或多个程序;当一个或多个程序被一个或多个计算单元执行,使得一个或多个计算单元实现如上任意一项用于训练目标检测模型的方法或目标检测方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上任意一项用于训练目标检测模型的方法或目标检测方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被计算单元执行时实现如上任意一项用于训练目标检测模型的方法或目标检测方法。
根据本申请的技术,提供一种用于训练目标检测模型的方法,能够采用目标锚点框和辅助锚点框分别计算得到第一交并比和第二交并比,利用第一交并比和第二交并比对待训练的目标检测模型进行训练,能够提高交并比的精准度,从而提高模型的训练精准度。此外,采用本申请的模型训练方法,无需引入较为复杂的处理逻辑,只需对锚点框进行优化,将锚点框划分为目标锚点框和辅助锚点框进行相应的处理,模型训练复杂度较低,从而实现了平衡模型训练复杂度与模型训练精准度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示例性系统架构示意图;
图2是根据本公开第二实施例的用于训练目标检测模型的方法示意图;
图3是根据本公开第三实施例的用于训练目标检测模型的方法示意图;
图4是根据本公开第四实施例的目标检测方法示意图;
图5是可以实现本公开实施例的目标检测场景图;
图6是根据本公开第五实施例的用于训练目标检测模型的装置示意图;
图7是根据本公开第六实施例的目标检测装置示意图;
图8是用来实现本公开实施例的用于训练目标检测模型的方法或目标检测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是根据本公开第一实施例的示例性系统架构示意图,其示出了可以应用本申请的用于训练目标检测模型的方法、目标检测方法、用于训练目标检测模型的装置或者目标检测装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以为手机、电脑以及平板等电子设备,在终端设备101、102、103中可以获取用于目标检测的目标图片,也可以获取用于训练目标检测模型的样本图片集合。其中,目标图片和样本图片集合中的各个样本图片均包含需要检测的目标。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于电视、智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如可以获取终端设备101、102、103中的样本图片集合,将样本图片集合和样本图片集合中各个样本图片的标注区域作为目标检测模型的训练数据,通过目标锚点框和辅助锚点框计算各个样本图片的交并比,来对待训练的目标检测模型进行训练,得到训练好的目标检测模型。在终端设备101、102、103接收到需要进行目标检测的目标图片的情况下,终端设备101、102、103可以通过网络104将目标图片发送给服务器105,以使服务器105根据目标图片、目标锚点框和训练好的目标检测模型,确定目标图片的目标区域,并将目标区域返回给终端设备101、102、103,以使终端设备101、102、103输出目标区域。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于训练目标检测模型的方法和目标检测方法可以由服务器105执行,也可以由终端设备101、102、103执行。相应地,用于训练目标检测模型的装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2是根据本公开第二实施例的用于训练目标检测模型的方法示意图,其示出了根据本申请的用于训练目标检测模型的方法的一个实施例的流程200。本实施例的用于训练目标检测模型的方法,包括以下步骤:
步骤201,获取样本图片集合以及样本图片集合中各个样本图片的标注区域。
本实施例中,执行主体(如图1所示的服务器105或终端设备101、102、103)能够在数据库中获取预先存储的样本图片集合以及样本图片集合中各个样本图片的标注区域,也可以在线获取现有技术中用于目标检测模型训练的常用数据集,基于现有的常用数据集,确定样本图片集合以及样本图片集合中各个样本图片的标注区域。其中,样本图片集合中包括多张样本图片,每张样本图片中包含需要检测的目标,目标所在区域即为该样本图片的标注区域。并且每张样本图片中的标注区域的数量可以为一个,也可以为多个,本实施例对此不做限定。其中,目标可以包括但不限于人脸对象、车辆对象等等,本实施例对此不做限定。
步骤202,根据标注区域和预设的目标锚点框,确定各个样本图片的第一交并比。
本实施例中,锚点框,也即锚框(anchor box),指的是特征图上固定的参考框。本实施例预设的目标锚点框指的是在特征图的每个位置设置的唯一锚点框,可以理解的是,特征图上具有多个位置,因此,目标锚点框的数量为多个。由于在特征图的同个位置设置多个锚点框对于目标检测结果的准确度影响不大,因而采用每个位置设置的唯一锚点框即可达到较好的目标检测效果,并且相较于在特征图的同个位置设置多个锚点框,耗时更少。进一步的,在获取到样本图片集合中的各个样本图片之后,可以确定出每张样本图片对应的特征图,从而确定出预设的目标锚点框在样本图片的特征图上的位置。再基于样本图片的特征图上的标注区域和目标锚点框的位置对应的区域,计算标注区域与预设的目标锚点框之间的第一交并比。其中,第一交并比通过标注区域的面积和目标锚点框的面积之间的交集和并集的比值计算得到。并且,每张样本图片上的标注区域会和各个目标锚点框计算得到多个第一交并比。其中,标注区域可以基于标注坐标集合确定得到,标注坐标集合中可以包括矩形标注区域的四个角的坐标,再基于连接该标注坐标集合中的各个坐标,可以确定出标注区域。
步骤203,根据标注区域和目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比。
本实施例中,执行主体可以确定与目标锚点框相对应的辅助锚点框,辅助锚点框可以由对目标锚点框进行密度扩增操作得到,其中密度扩增操作指的是扩大、增加目标锚点框的密度的操作,可以包括但不限于对目标锚点框进行平移的操作、复制目标锚点框并在指定位置放置复制后的锚点框的操作、在指定位置生成与目标锚点框相同的锚点框的操作等。优选的,与每个目标锚点框对应的辅助锚点框的数量为多个。基于样本图片的特征图上的标注区域的面积和辅助锚点框的面积之间的交集和并集的比值可以计算得到第二交并比。
步骤204,根据样本图片集合、第一交并比和第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型。
本实施例中,待训练的目标检测模型可以为神经网络模型。其中,根据样本图片集合和待训练的目标检测模型,可以得到待训练的目标检测模型输出的针对各个样本图片的目标检测预测值。并且,由于第一交并比和第二交并比可以反映样本图片中的标注区域所处的位置,因而可以根据目标检测预测值和样本图片中的标注区域所处的位置,对待训练的目标检测模型进行训练,以使待训练的目标检测模型的目标检测预测值逼近样本图片中的标注区域所处的位置,从而调整待训练的目标检测模型的模型参数,重复多轮训练过程,可以得到训练好的目标检测模型。其中,训练好的目标检测模型可以基于用户输入的目标图片,输出针对目标图片的目标检测结果。可选的,可以直接将第一交并比和第二交并比用于计算训练目标检测模型的损失值,又或者,也可以对第一交并比和第二交并比进行处理,得到目标交并比,将目标交并比用于计算损失值。其中,处理方式可以为池化操作。在对目标检测模型进行训练的过程中,可以不断调整目标检测模型的模型参数,最小化该损失值,得到训练好的目标检测模型。
本申请上述实施例提供的用于训练目标检测模型的方法,可以采用目标锚点框和辅助锚点框分别计算得到第一交并比和第二交并比,利用第一交并比和第二交并比对待训练的目标检测模型进行训练,能够提高交并比的精准度,从而提高模型的训练精准度。此外,采用本申请的模型训练方法,无需引入较为复杂的处理逻辑,只需对锚点框进行优化,将锚点框划分为目标锚点框和辅助锚点框进行相应的处理,模型训练复杂度较低,从而实现了平衡模型训练复杂度与模型训练精准度。
继续参见图3,图3是根据本公开第三实施例的用于训练目标检测模型的方法示意图,其示出了根据本申请的用于训练目标检测模型的方法的另一个实施例的流程300。如图3所示,本实施例的用于训练目标检测模型的方法可以包括以下步骤:
步骤301,获取样本图片集合以及样本图片集合中各个样本图片的标注区域。
本实施例中,针对步骤301的详细描述请参照对步骤201的详细描述,在此不再赘述。
步骤302,根据标注区域和预设的目标锚点框,确定各个样本图片的第一交并比。
本实施例中,针对步骤302的详细描述请参照对步骤202的详细描述,在此不再赘述。
步骤303,对目标锚点框进行平移,得到目标锚点框对应的辅助锚点框。
本实施例中,通过对目标锚点框进行平移,可以实现对锚点框密度的增加。其中,当锚点框密度达到固定阈值时,对于目标检测模型的训练来说效果最好。因此,通过平移增加锚点框密度,使得锚点框密度达到固定阈值,则可以提高目标检测模型的训练效果。
在本实施例的一些可选的实现方式中,对目标锚点框进行平移,得到目标锚点框对应的辅助锚点框,包括:基于目标锚点框的属性值以及预设的锚点框扩增条件,确定目标锚点框的平移次数和平移距离;根据平移次数、平移距离和预设的平移方向,对目标锚点框进行平移,得到目标锚点框对应的辅助锚点框。
本实现方式中,目标锚点框的属性值可以包括但不限于目标锚点框的边长和目标锚点框的密度,预设的锚点框扩增条件可以包括将目标锚点框扩增的倍数。基于扩增的倍数、目标锚点框的密度可以确定目标锚点框的平移次数,结合目标锚点框的边长,可以进一步确定目标锚点框的平移距离。根据平移次数、平移距离和预设的平移方向,对目标锚点框进行平移,可以得到目标锚点框对应的辅助锚点框。其中,对目标锚点框进行平移之后,可以使得锚点框的密度满足预设的锚点框扩增条件。举例来说,目标锚点框的边长如果为L,目标锚点框的密度为1,并且预设的锚点框扩增条件为将目标锚点框扩增4倍,使得目标锚点框的密度达到4。此时可以确定平移次数为4次,平移距离为L/8、3*L/8、-L/8、-3/8L,预设的平移方向为行方向与列方向,因此共有16种平移方案。又或者,目标锚点框的边长如果为L,目标锚点框的密度为2,并且预设的锚点框扩增条件为将目标锚点框扩增2倍,使得目标锚点框的密度达到2。此时可以确定平移次数为2次,平移距离为L/4、-L/4,预设的平移方向为行方向与列方向,因此共有4种平移方案。
步骤304,根据标注区域和目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比。
本实施例中,针对步骤304的详细描述请参照对步骤203的详细描述,在此不再赘述。
步骤305,将样本图片集合中的各个样本图片输入待训练的目标检测模型,得到待训练的目标检测模型输出的各个样本图片的预测区域。
本实施例中,预测区域可以为待训练的目标检测模型预测的样本图片中包含目标的区域。在模型的训练阶段,预测区域相当于模型输出的预测值,对模型的不断训练是预测值逐渐逼近真实值的过程。
步骤306,对第一交并比和第二交并比进行最大池化操作,得到目标交并比。
本实施例中,最大池化操作指的是取局部接收域中值最大的点。通过对第一交并比和第二交并比进行最大池化操作,相当于基于辅助锚点框对应的交并比,更新目标锚点框对应的交并比,提高了交并比的准确度,从而能够提高目标检测模型的训练精准度。
步骤307,基于预测区域、目标交并比以及预设的损失函数,确定待训练的目标检测模型的优化方向。
本实施例中,将预测区域和目标交并比代入预设的损失函数,计算损失值,从而可以根据损失值确定出待训练的目标检测模型的优化方向。其中,可以先确定预设的损失函数的梯度下降方向,梯度下降方向是用于反映损失函数梯度下降速度最快的方向,可以基于对损失函数求导确定。在对目标检测模型进行模型训练的过程中,如果本次训练得到的损失值不满足收敛条件,则可以将梯度下降方向确定为优化方向,以使得按照优化方向对损失函数进行迭代计算损失值,直至满足收敛条件,实现对损失函数的最小化。
在本实施例的一些可选的实现方式中,基于预测区域、目标交并比以及预设的损失函数,确定待训练的目标检测模型的优化方向,包括:根据目标交并比和预设的交并比阈值,确定目标锚点框中出现目标的概率信息;根据概率信息、预测区域以及预设的损失函数,确定待训练的目标检测模型的优化方向。
本实现方式中,预设的交并比阈值用于判断是否使用当前位置预测目标所在区域。其中,如果目标交并比大于预设的交并比阈值,则说明当前位置出现目标的概率较大,可以使用当前位置预测目标所在区域;如果目标交并比小于或者等于预设的交并比阈值,则说明当前位置出现目标的概率较小,可以选择不使用当前位置预测目标所在区域。从而可以根据目标交并比和预设的交并比阈值,确定目标锚点框中出现目标的概率信息。进一步的,可以根据概率信息、预测区域以及预设的损失函数确定预测区域的偏差情况,再基于偏差情况确定待训练的目标检测模型的优化方向。其中,概率信息可以反映样本图片中标注区域所处的位置,也即是,将概率信息指示出现目标的概率较大的位置确定为样本图片中标注区域所处的位置。进一步的,再将样本图片中标注区域所处的位置和预测区域代入预设的损失函数,得到损失值。以及,根据损失值和收敛条件指示的损失值之间的偏差,确定偏差情况,如果偏差情况指示偏差较大,也即是损失值不满足收敛条件,则将上述的梯度下降方向确定为优化方向。
步骤308,基于优化方向对待训练的目标检测模型进行训练,得到训练好的目标检测模型。
本实施例中,可以基于优化方向对待训练的目标检测模型进行训练,以提升目标检测模型的结果输出精准度,得到训练好的目标检测模型。
从图3中可以看出,与图2对应的实施例相比,本实施例中的用于训练目标检测模型的方法的流程400,还可以对目标锚点框进行平移,得到目标锚点框对应的辅助锚点框,以此提高锚点框密度,从而增加对待训练的目标检测模型的训练精准度。此外,通过对第一交并比和第二交并比进行最大池化操作,能够实现对交并比的更新,从而进一步提高了目标检测模型的训练效果。
继续参考图4,图4是根据本公开第四实施例的目标检测方法示意图,其示出了根据本申请的目标检测方法的一个实施例的流程400。本实施例的目标检测方法,包括以下步骤:
步骤401,根据目标图片、预设的目标锚点框和训练好的目标检测模型,确定目标图片的候选区域和锚点框区域。
本实施例中,目标图片为需要检测目标的图片,预设的目标锚点框为上述模型训练阶段使用的目标锚点框,训练好的目标检测模型为通过上述用于目标检测模型的训练方法训练得到的模型。具体的,将目标图片输入训练好的目标检测模型,目标检测模型可以确定出目标图片的候选区域和锚点框区域。其中,目标图片的候选区域指的是候选的包含目标的区域,候选区域的数量通常为多个,锚点框区域指的是预设的目标锚点框在目标图片中的区域。
步骤402,基于候选区域和锚点框区域,确定目标图片的目标区域。
本实施例中,可以确定候选区域和锚点框区域之间的交并比,基于候选区域和锚点框区域之间的交并比,确定目标图片的目标区域。其中,目标区域是最终确定出的目标图片中目标所在区域。
继续参见图5,图5是可以实现本公开实施例的目标检测场景图,其示出了根据本申请的用于训练目标检测模型的方法的一个应用场景的示意图。在图5的应用场景中,上述用于训练目标检测模型的方法可以应用到人脸检测的场景中。如图5所示,样本图片501中包含待检测的人脸对象,将样本图片501输入神经网络模型502中,可以得到神经网络模型输出的矩形预测框,也即是模型预测人脸对象所在的区域。此外,在对神经网络模型进行训练的过程中,还可以获取与样本图片501中的人脸对象对应的人脸坐标。基于人脸坐标和预设的目标锚点框504,可以确定出目标锚点框504中人脸对象所在的标注区域509,进一步可以对标注区域509和目标锚点框504执行计算交并比操作,得到交并比A514。此外,还可以基于目标锚点框504确定辅助锚点框505、506、507、508(虚线框部分)。具体的,可以将目标锚点框504进行平移得到辅助锚点框。再确定出辅助锚点框505中人脸对象所在的标注区域510、辅助锚点框506中人脸对象所在的标注区域511、辅助锚点框507中人脸对象所在的标注区域512以及辅助锚点框508中人脸对象所在的标注区域513。进一步的,基于标注区域510和辅助锚点框505,执行计算交并比操作,得到交并比B515;基于标注区域511和辅助锚点框506,执行计算交并比操作,得到交并比C516;基于标注区域512和辅助锚点框507,执行计算交并比操作,得到交并比D517;再基于标注区域513和辅助锚点框508,执行计算交并比操作,得到交并比E518。对交并比A509、交并比B510、交并比C511、交并比D512以及交并比E515进行最大池化操作,可以得到目标交并比519。根据上述的神经网络模型502输出的矩形预测框、目标交并比519和损失函数503可以对神经网络模型502进行训练。通过对样本图片集合中的各个样本图片执行上述过程,重复对神经网络模型502进行多轮训练,可以得到训练好的神经网络模型502。在得到训练好的神经网络模型502之后,可以获取需要检测人脸的目标图片,将该目标图片输入训练好的神经网络模型502,使得训练好的神经网络模型502可以先确定出若干个可能包含需要检测的人脸的候选区域,再基于目标锚点框和各个候选区域之间的交并比,确定目标图片的目标区域。
本申请上述实施例提供的目标检测方法,在使用目标检测模型进行预测的阶段,可以去除上述实施例中的辅助锚点框,仅使用预设的目标锚点框,即可确定出目标图片中的目标区域。这一过程在预测阶段可以降低耗时,实现了平衡模型训练复杂度与模型训练精准度。
进一步参考图6,图6是根据本公开第五实施例的用于训练目标检测模型的装置示意图,其提供了一种用于训练目标检测模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种终端设备或者服务器中。
如图6所示,本实施例的用于训练目标检测模型的装置600包括:目标获取单元601、第一交并比确定单元602、第二交并比确定单元603和模型训练单元604。
目标获取单元601,被配置成获取样本图片集合以及样本图片集合中各个样本图片的标注区域。
第一交并比确定单元602,被配置成根据标注区域和预设的目标锚点框,确定各个样本图片的第一交并比。
第二交并比确定单元603,被配置成根据标注区域和目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比。
模型训练单元604,被配置成根据样本图片集合、第一交并比和第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型。
在本实施例的一些可选的实现方式中,模型训练单元604进一步被配置成:将样本图片集合中的各个样本图片输入待训练的目标检测模型,得到待训练的目标检测模型输出的各个样本图片的预测区域;对第一交并比和第二交并比进行最大池化操作,得到目标交并比;基于预测区域、目标交并比以及预设的损失函数,确定待训练的目标检测模型的优化方向;基于优化方向对待训练的目标检测模型进行训练,得到训练好的目标检测模型。
在本实施例的一些可选的实现方式中,模型训练单元604进一步被配置成:根据目标交并比和预设的交并比阈值,确定目标锚点框中出现目标的概率信息;根据概率信息、预测区域以及预设的损失函数,确定待训练的目标检测模型的优化方向。
在本实施例的一些可选的实现方式中,还包括:平移单元,被配置成对目标锚点框进行平移,得到目标锚点框对应的辅助锚点框。
在本实施例的一些可选的实现方式中,平移单元进一步被配置成:基于目标锚点框的属性值以及预设的锚点框扩增条件,确定目标锚点框的平移次数和平移距离;根据平移次数、平移距离和预设的平移方向,对目标锚点框进行平移,得到目标锚点框对应的辅助锚点框。
应当理解,用于训练目标检测模型的装置600中记载的单元601至单元604分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于训练目标检测模型的方法描述的操作和特征同样适用于装置600及其中包含的单元,在此不再赘述。
进一步参考图7,图7是根据本公开第六实施例的目标检测装置示意图,其提供了一种目标检测装置的一个实施例,该装置实施例与图5所示的方法实施例相对应,该装置具体可以应用于各种终端设备或者服务器中。
如图7所示,本实施例的目标检测装置700包括:区域确定单元701和目标确定单元702。
区域确定单元701,被配置成根据目标图片、预设的目标锚点框和训练好的目标检测模型,确定目标图片的候选区域和锚点框区域。
目标确定单元702,被配置成基于候选区域和锚点框区域,确定目标图片的目标区域。
应当理解,目标检测装置700中记载的单元701至单元702分别与参考图5中描述的方法中的各个步骤相对应。由此,上文针对目标检测方法描述的操作和特征同样适用于装置700及其中包含的单元,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了用来实现本公开实施例的用于训练目标检测模型的方法或目标检测方法的电子设备800的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如用于训练目标检测模型的方法或目标检测方法。例如,在一些实施例中,用于训练目标检测模型的方法或目标检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的用于训练目标检测模型的方法或目标检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于训练目标检测模型的方法或目标检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (12)

1.一种用于训练目标检测模型的方法,包括:
获取样本图片集合以及所述样本图片集合中各个样本图片的标注区域;
根据所述标注区域和预设的目标锚点框,确定各个样本图片的第一交并比,所述预设的目标锚点框指的是在特征图的每个位置设置的唯一锚点框;
根据所述标注区域和所述目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比,所述辅助锚点框由对所述目标锚点框进行密度扩增操作得到,所述密度扩增操作包括扩大、增加目标锚点框的密度的操作;
根据所述样本图片集合、所述第一交并比和所述第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型,包括:将所述样本图片集合中的各个样本图片输入所述待训练的目标检测模型,得到所述待训练的目标检测模型输出的各个样本图片的预测区域;对所述第一交并比和所述第二交并比进行最大池化操作,得到目标交并比;基于所述预测区域、所述目标交并比以及预设的损失函数,确定所述待训练的目标检测模型的优化方向,其中,所述优化方向通过将所述预测区域和所述目标交并比代入所述预设的损失函数,并基于计算出的损失值确定得到;基于所述优化方向对所述待训练的目标检测模型进行训练,得到训练好的目标检测模型。
2.根据权利要求1所述的方法,其中,所述基于所述预测区域、所述目标交并比以及预设的损失函数,确定所述待训练的目标检测模型的优化方向,包括:
根据所述目标交并比和预设的交并比阈值,确定所述目标锚点框中出现目标的概率信息;
根据所述概率信息、所述预测区域以及所述预设的损失函数,确定所述待训练的目标检测模型的优化方向。
3.根据权利要求1所述的方法,还包括:
对所述目标锚点框进行平移,得到所述目标锚点框对应的辅助锚点框。
4.根据权利要求3所述的方法,其中,所述对所述目标锚点框进行平移,得到所述目标锚点框对应的所述辅助锚点框,包括:
基于所述目标锚点框的属性值以及预设的锚点框扩增条件,确定所述目标锚点框的平移次数和平移距离;
根据所述平移次数、所述平移距离和预设的平移方向,对所述目标锚点框进行平移,得到所述目标锚点框对应的所述辅助锚点框。
5.根据权利要求1所述的方法,所述方法还包括:
根据目标图片、预设的目标锚点框和所述训练好的目标检测模型,确定所述目标图片的候选区域和锚点框区域;
基于所述候选区域和所述锚点框区域,确定所述目标图片的目标区域。
6.一种用于训练目标检测模型的装置,包括:
目标获取单元,被配置成获取样本图片集合以及所述样本图片集合中各个样本图片的标注区域;
第一交并比确定单元,被配置成根据所述标注区域和预设的目标锚点框,确定各个样本图片的第一交并比,所述预设的目标锚点框指的是在特征图的每个位置设置的唯一锚点框;
第二交并比确定单元,被配置成根据所述标注区域和所述目标锚点框对应的辅助锚点框,确定各个样本图片的第二交并比,所述辅助锚点框由对所述目标锚点框进行密度扩增操作得到,所述密度扩增操作包括扩大、增加目标锚点框的密度的操作;
模型训练单元,被配置成根据所述样本图片集合、所述第一交并比和所述第二交并比,对待训练的目标检测模型进行训练,得到训练好的目标检测模型;
所述模型训练单元进一步被配置成:将所述样本图片集合中的各个样本图片输入所述待训练的目标检测模型,得到所述待训练的目标检测模型输出的各个样本图片的预测区域;对所述第一交并比和所述第二交并比进行最大池化操作,得到目标交并比;基于所述预测区域、所述目标交并比以及预设的损失函数,确定所述待训练的目标检测模型的优化方向,其中,所述优化方向通过将所述预测区域和所述目标交并比代入所述预设的损失函数,并基于计算出的损失值确定得到;基于所述优化方向对所述待训练的目标检测模型进行训练,得到训练好的目标检测模型。
7.根据权利要求6所述的装置,其中,所述模型训练单元进一步被配置成:
根据所述目标交并比和预设的交并比阈值,确定所述目标锚点框中出现目标的概率信息;
根据所述概率信息、所述预测区域以及所述预设的损失函数,确定所述待训练的目标检测模型的优化方向。
8.根据权利要求6所述的装置,还包括:
平移单元,被配置成对所述目标锚点框进行平移,得到所述目标锚点框对应的所述辅助锚点框。
9.根据权利要求8所述的装置,其中,所述平移单元进一步被配置成:
基于所述目标锚点框的属性值以及预设的锚点框扩增条件,确定所述目标锚点框的平移次数和平移距离;
根据所述平移次数、所述平移距离和预设的平移方向,对所述目标锚点框进行平移,得到所述目标锚点框对应的所述辅助锚点框。
10.根据权利要求6所述的装置,所述装置还包括:
区域确定单元,被配置成根据目标图片、预设的目标锚点框和训练好的目标检测模型,确定所述目标图片的候选区域和锚点框区域;
目标确定单元,被配置成基于所述候选区域和所述锚点框区域,确定所述目标图片的目标区域。
11. 一种执行用于训练目标检测模型的方法或目标检测方法的电子设备,包括:
至少一个计算单元;以及
与所述至少一个计算单元通信连接的存储单元;其中,
所述存储单元存储有可被所述至少一个计算单元执行的指令,所述指令被所述至少一个计算单元执行,以使所述至少一个计算单元能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
CN202011525371.3A 2020-12-22 2020-12-22 用于训练目标检测模型的方法、目标检测方法及装置 Active CN112528995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011525371.3A CN112528995B (zh) 2020-12-22 2020-12-22 用于训练目标检测模型的方法、目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011525371.3A CN112528995B (zh) 2020-12-22 2020-12-22 用于训练目标检测模型的方法、目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN112528995A CN112528995A (zh) 2021-03-19
CN112528995B true CN112528995B (zh) 2023-08-04

Family

ID=75002151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011525371.3A Active CN112528995B (zh) 2020-12-22 2020-12-22 用于训练目标检测模型的方法、目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN112528995B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861474B (zh) * 2021-04-23 2021-07-02 腾讯科技(深圳)有限公司 一种信息标注方法、装置、设备及计算机可读存储介质
CN113221768A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113469025A (zh) * 2021-06-29 2021-10-01 阿波罗智联(北京)科技有限公司 应用于车路协同的目标检测方法、装置、路侧设备和车辆

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121690A1 (zh) * 2016-12-29 2018-07-05 北京市商汤科技开发有限公司 对象属性检测、神经网络训练、区域检测方法和装置
CN108898047A (zh) * 2018-04-27 2018-11-27 中国科学院自动化研究所 基于分块遮挡感知的行人检测方法及系统
CN109117831A (zh) * 2018-09-30 2019-01-01 北京字节跳动网络技术有限公司 物体检测网络的训练方法和装置
CN110910375A (zh) * 2019-11-26 2020-03-24 北京明略软件系统有限公司 基于半监督学习的检测模型训练方法、装置、设备及介质
CN111310756A (zh) * 2020-01-20 2020-06-19 陕西师范大学 一种基于深度学习的损伤玉米颗粒检测和分类方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121690A1 (zh) * 2016-12-29 2018-07-05 北京市商汤科技开发有限公司 对象属性检测、神经网络训练、区域检测方法和装置
CN108898047A (zh) * 2018-04-27 2018-11-27 中国科学院自动化研究所 基于分块遮挡感知的行人检测方法及系统
CN109117831A (zh) * 2018-09-30 2019-01-01 北京字节跳动网络技术有限公司 物体检测网络的训练方法和装置
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110910375A (zh) * 2019-11-26 2020-03-24 北京明略软件系统有限公司 基于半监督学习的检测模型训练方法、装置、设备及介质
CN111310756A (zh) * 2020-01-20 2020-06-19 陕西师范大学 一种基于深度学习的损伤玉米颗粒检测和分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Scalable pattern retrieval from videos using a random forest index;Craig Henderson 等;Proceedings of the Second International Conference on Internet of things, Data and Cloud Computing;全文 *

Also Published As

Publication number Publication date
CN112528995A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112801164B (zh) 目标检测模型的训练方法、装置、设备及存储介质
CN112528995B (zh) 用于训练目标检测模型的方法、目标检测方法及装置
CN112862006B (zh) 图像深度信息获取模型的训练方法、装置及电子设备
CN113657289B (zh) 阈值估计模型的训练方法、装置和电子设备
CN113095336A (zh) 关键点检测模型的训练方法和检测目标对象关键点的方法
CN113538235B (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN113705628B (zh) 预训练模型的确定方法、装置、电子设备以及存储介质
CN112966744A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN115170815A (zh) 视觉任务处理及模型训练的方法、装置、介质
CN112784102B (zh) 视频检索方法、装置和电子设备
CN113870399A (zh) 表情驱动方法、装置、电子设备及存储介质
CN115759209B (zh) 神经网络模型的量化方法、装置、电子设备及介质
CN114220163B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN113361519B (zh) 目标处理方法、目标处理模型的训练方法及其装置
CN113344213A (zh) 知识蒸馏方法、装置、电子设备及计算机可读存储介质
CN113947146A (zh) 样本数据生成方法、模型训练方法、图像检测方法及装置
CN113642654A (zh) 图像特征的融合方法、装置、电子设备和存储介质
CN113361575B (zh) 模型训练方法、装置和电子设备
CN116257611B (zh) 问答模型的训练方法、问答处理方法、装置及存储介质
CN113362428B (zh) 用于配置颜色的方法、装置、设备、介质和产品
CN115860077B (zh) 状态数据的处理方法、装置、设备以及存储介质
CN116524165B (zh) 三维表情模型的迁移方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant