CN111444828B - 一种模型训练的方法、目标检测的方法、装置及存储介质 - Google Patents

一种模型训练的方法、目标检测的方法、装置及存储介质 Download PDF

Info

Publication number
CN111444828B
CN111444828B CN202010219680.1A CN202010219680A CN111444828B CN 111444828 B CN111444828 B CN 111444828B CN 202010219680 A CN202010219680 A CN 202010219680A CN 111444828 B CN111444828 B CN 111444828B
Authority
CN
China
Prior art keywords
prediction
sample
target
frame
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010219680.1A
Other languages
English (en)
Other versions
CN111444828A (zh
Inventor
黄超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010219680.1A priority Critical patent/CN111444828B/zh
Publication of CN111444828A publication Critical patent/CN111444828A/zh
Application granted granted Critical
Publication of CN111444828B publication Critical patent/CN111444828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/214Input arrangements for video game devices characterised by their sensors, purposes or types for locating contacts on a surface, e.g. floor mats or touch pads
    • A63F13/2145Input arrangements for video game devices characterised by their sensors, purposes or types for locating contacts on a surface, e.g. floor mats or touch pads the surface being also a display device, e.g. touch screens
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/837Shooting of targets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请公开了一种模型训练的方法,该方法应用于人工智能领域,方法包括:获取待训练图像,待训练图像设置有目标框以及目标类别;通过目标检测模型,获取M个预测框以及M个类别预测概率;根据目标框、M个预测框以及M个类别预测概率确定样本集合;通过目标检测模型所包括的第一检测网络获取第一预测结果集合;通过目标检测模型所包括的第二检测网络获取第二预测结果集合;根据样本集合、第一预测结果集合以及第二预测结果集合,对目标检测模型进行训练。本申请还包括目标检测的方法以及装置。本申请本申请可以级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的效果。

Description

一种模型训练的方法、目标检测的方法、装置及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种模型训练的方法、目标检测的方法、装置及存储介质。
背景技术
目标检测近年来已经取得了很重要的进展,目标检测的任务是找出图像中感兴趣的目标或区域。在游戏自动化测试中,目标检测扮演者重要的角色,也是自动化检测的基础,同时由于各类目标有不同的外观、形状以及姿态,加上成像时光照或者遮挡等因素的干扰,使得目标检测一直是计算机视觉领域具有挑战性的任务。
在现有的技术方案中,有基于单次多框探测器(single shot multiboxdetector,SSD)的目标检测方法,该方法需要预先手工定义目标检测的先验框,通过不同尺度的卷积特征谱预测目标的位置和类别。
然而,采用SSD方法虽然能够检测出的目标所在位置,但是,在训练过程中对目标所在的位置仅进行了简单的拟合,因此,存在目标检测精度较低的情况,导致预测得到的目标所在位置与实际的目标所在位置之间可能存较大偏差。
发明内容
本申请实施例提供了一种模型训练的方法、目标检测的方法、装置及存储介质,可以在训练的过程中,基于不同的交并比阈值生成不同的样本集合,不同的样本集合用于训练不同的检测网络,以设置不同的交并比阈值来分别训练对应的检测网络,使得这些级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的效果。
有鉴于此,本申请第一方面提供一种模型训练的方法,包括:
获取待训练图像,其中,待训练图像设置有目标框以及目标类别;
通过目标检测模型,获取M个预测框以及M个类别预测概率,其中,类别预测概率与预测框具有一一对应的关系,M为大于或等于1的整数;
根据目标框、M个预测框以及M个类别预测概率确定样本集合,其中,样本集合至少包括第一样本集合以及第二样本集合,第一样本集合包括交并比大于或等于第一交并比阈值的正样本,第二样本集合包括交并比大于或等于第二交并比阈值的正样本,第一交并比阈值小于第二交并比阈值;
基于第一样本集合,通过目标检测模型所包括的第一检测网络获取第一预测结果集合,其中,第一预测结果集合包括第一样本集合中每个样本所对应的类别分值以及候选框预测位置;
基于第二样本集合,通过目标检测模型所包括的第二检测网络获取第二预测结果集合,其中,第二预测结果集合包括第二样本集合中每个样本所对应的类别分值以及候选框预测位置;
根据样本集合、第一预测结果集合以及第二预测结果集合,对目标检测模型进行训练。
本申请第二方面提供一种目标检测的方法,包括:
基于待检测图像,通过目标检测模型所包括的第一网络获取图像卷积特征,其中,目标检测模型为采用第一方面提供的模型训练的方法训练得到的;
基于图像卷积特征,通过目标检测模型所包括的第二网络获取预测框以及类别预测概率,其中,类别预测概率与预测框具有一一对应的关系;
若类别预测概率大于或等于类别概率门限,则将预测框确定为候选框;
基于候选框,通过目标检测模型所包括的第一检测网络获取第一候选框预测位置以及第一类别分值;
基于候选框,通过目标检测模型所包括的第二检测网络获取第二候选框预测位置以及第二类别分值;
根据候选框、第一候选框预测位置、第一类别分值、第二候选框预测位置以及第二类别分值,确定待检测图像的目标框以及目标分类结果。
本申请第三方面提供一种模型训练装置,包括:
获取模块,用于获取待训练图像,其中,待训练图像设置有目标框以及目标类别;
获取模块,还用于通过目标检测模型,获取M个预测框以及M个类别预测概率,其中,类别预测概率与预测框具有一一对应的关系,M为大于或等于1的整数;
确定模块,用于根据目标框、M个预测框以及M个类别预测概率确定样本集合,其中,样本集合至少包括第一样本集合以及第二样本集合,第一样本集合包括交并比大于或等于第一交并比阈值的正样本,第二样本集合包括交并比大于或等于第二交并比阈值的正样本,第一交并比阈值小于第二交并比阈值;
获取模块,还用于基于第一样本集合,通过目标检测模型所包括的第一检测网络获取第一预测结果集合,其中,第一预测结果集合包括第一样本集合中每个样本所对应的类别分值以及候选框预测位置;
获取模块,还用于基于第二样本集合,通过目标检测模型所包括的第二检测网络获取第二预测结果集合,其中,第二预测结果集合包括第二样本集合中每个样本所对应的类别分值以及候选框预测位置;
训练模块,用于根据样本集合、第一预测结果集合以及第二预测结果集合,对目标检测模型进行训练。
在一种可能的设计中,在本申请实施例的第三方面的一种实现方式中,
获取模块,具体用于基于待训练图像,通过目标检测模型所包括的第一网络获取图像卷积特征;
基于图像卷积特征,通过目标检测模型所包括的第二网络获取M个预测框以及M个类别预测概率。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
获取模块,具体用于基于待训练图像,通过第一网络中的卷积层获取第一图像特征;
基于第一图像特征,通过第一网络中的第一残差模块获取第二图像特征;
基于第二图像特征,通过第一网络中的第二残差模块获取第三图像特征;
基于第三图像特征,通过第一网络中的至少一个第一残差网络以及至少一个第二残差网络,获取图像卷积特征。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
获取模块,具体用于基于第一图像特征,通过第一残差模块所包括的第一卷积层获取第一卷积特征;
基于第一图像特征,通过第一残差模块所包括的第二卷积层获取第二卷积特征;
基于第二卷积特征,通过第一残差模块所包括的第三卷积层获取第三卷积特征;
基于第三卷积特征,通过第一残差模块所包括的第四卷积层获取第四卷积特征;
根据第一卷积特征以及第四卷积特征,生成第二图像特征。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
获取模块,具体用于基于第二图像特征,通过第二残差模块所包括的第一卷积层获取第五卷积特征;
基于第五卷积特征,通过第二残差模块所包括的第二卷积层获取第六卷积特征;
基于第六卷积特征,通过第二残差模块所包括的第三卷积层获取第七卷积特征;
根据第二图像特征以及第七卷积特征,生成第三图像特征。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
确定模块,具体用于根据M个类别预测概率,从M个预测框中确定N个预测框作为候选框,以得到N个候选框,其中,候选框所对应的类别预测概率大于或等于类别概率门限,N为大于或等于1,且小于或等于M的整数;
根据N个候选框确定每个候选框与目标框之间的交并比;
根据每个候选框与目标框之间的交并比,获取第一样本集合,其中,第一样本集合包括第一正样本以及负样本;
根据每个候选框与目标框之间的交并比,获取第二样本集合,其中,第二样本集合包括第二正样本以及负样本。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
确定模块,具体用于若类别预测概率大于或等于类别概率门限,则将类别预测概率所对应的预测框确定为候选框,其中,类别预测概率属于M个类别预测概率,候选框属于N个候选框;
若类别预测概率小于类别概率门限,则从M个预测框中剔除类别预测概率所对应的预测框。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
获取模块,具体用于若候选框与目标框之间的交并比大于或等于第一交并比阈值,则将候选框所对应的样本确定为第一样本集合中的第一正样本;
若候选框与目标框之间的交并比小于第三交并比阈值,则将候选框所对应的样本确定为第一样本集合中的负样本,其中,第三交并比阈值小于第一交并比阈值;
获取模块,具体用于若候选框与目标框之间的交并比大于或等于第二交并比阈值,则将候选框所对应的样本确定为第二样本集合中的第二正样本;
若候选框与目标框之间的交并比小于第三交并比阈值,则将候选框所对应的样本确定为第二样本集合中的负样本,其中,第三交并比阈值小于第二交并比阈值。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
获取模块,具体用于基于第一样本集合中的第一样本,通过第一池化层获取第一特征向量,其中,第一样本为第一样本集合中的正样本或负样本;
基于第一特征向量,通过第一检测网络获取第一样本所对应的第一预测结果,其中,第一预测结果包括第一类别分值以及第一候选框预测位置;
获取模块,具体用于基于第二样本集合中的第二样本,通过第二池化层获取第二特征向量,其中,第二样本为第二样本集合中的正样本或负样本;
基于第二特征向量,通过第二检测网络获取第二样本所对应的第二预测结果,其中,第二预测结果包括第二类别分值以及第二候选框预测位置。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
训练模块,具体用于根据第一样本集合以及第一预测结果集合,采用第一损失函数对第一检测网络的第一模型参数进行更新;
根据目标框以及第一预测结果集合,采用第二损失函数对第一检测网络的第二模型参数进行更新;
根据第二样本集合以及第二预测结果集合,采用第一损失函数对第二检测网络的第三模型参数进行更新;
根据目标框以及第二预测结果集合,采用第二损失函数对第二检测网络的第四模型参数进行更新。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
训练模块,具体用于获取第一样本集合中每个样本所对应的类别标签;
获取第一预测结果集合中每个样本所对应的类别分值;
根据第一样本集合中每个样本所对应的类别标签以及每个样本所对应的类别分值,采用第一损失函数对第一检测网络的第一模型参数进行更新;
训练模块,具体用于获取待训练图像所对应的目标框;
获取第一预测结果集合中每个样本所对应的候选框预测位置;
根据目标框以及第一预测结果集合中每个样本所对应的候选框预测位置,采用第二损失函数对第一检测网络的第二模型参数进行更新。
在一种可能的设计中,在本申请实施例的第三方面的另一实现方式中,
训练模块,具体用于获取第二样本集合中每个样本所对应的类别标签;
获取第二预测结果集合中每个样本所对应的类别分值;
根据第二样本集合中每个样本所对应的类别标签以及每个样本所对应的类别分值,采用第一损失函数对第二检测网络的第三模型参数进行更新;
训练模块,具体用于获取待训练图像所对应的目标框;
获取第二预测结果集合中每个样本所对应的候选框预测位置;
根据目标框以及第二预测结果集合中每个样本所对应的候选框预测位置,采用第二损失函数对第二检测网络的第四模型参数进行更新。
本申请第四方面提供一种目标检测装置,包括:
获取模块,用于基于待检测图像,通过目标检测模型所包括的第一网络获取图像卷积特征,其中,目标检测模型为采用第一方面提供的模型训练的方法训练得到的;
获取模块,还用于基于图像卷积特征,通过目标检测模型所包括的第二网络获取预测框以及类别预测概率,其中,类别预测概率与预测框具有一一对应的关系;
确定模块,用于若类别预测概率大于或等于类别概率门限,则将预测框确定为候选框;
获取模块,还用于基于候选框,通过目标检测模型所包括的第一检测网络获取第一候选框预测位置以及第一类别分值;
获取模块,还用于基于候选框,通过目标检测模型所包括的第二检测网络获取第二候选框预测位置以及第二类别分值;
确定模块,还用于根据候选框、第一候选框预测位置、第一类别分值、第二候选框预测位置以及第二类别分值,确定待检测图像的目标框以及目标分类结果。
本申请的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种模型训练的方法,在训练的过程中,需要基于不同的交并比阈值生成不同的样本集合,不同的样本集合用于训练不同的检测网络,以设置不同的交并比阈值来分别训练对应的检测网络,使得这些级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的效果。
附图说明
图1为本申请实施例中枪战游戏场景的一个界面示意图;
图2为本申请实施例中目标检测系统的一个环境示意图;
图3为本申请实施例中模型训练的方法一个流程示意图;
图4为本申请实施例中模型训练的方法一个实施例示意图;
图5为本申请实施例中基于枪战游戏场景获取待训练图像的一个示意图;
图6为本申请实施例中基于枪战游戏场景获取预测框的一个示意图;
图7为本申请实施例中具有一个检测网络的一个模型结构示意图;
图8为本申请实施例中具有多个检测网络的一个模型结构示意图;
图9为本申请实施例中第一网络的一个结构示意图;
图10为本申请实施例中第一残差模块的一个结构示意图;
图11为本申请实施例中第二残差模块的一个结构示意图;
图12为本申请实施例中获取样本集合的一个实施例示意图;
图13为本实施例中目标检测网络的一个结构示意图;
图14为本实施例中目标检测网络的另一个结构示意图;
图15为本申请实施例中目标检测的方法一个实施例示意图;
图16为本申请实施例中模型训练装置的一个实施例示意图;
图17为本申请实施例中目标检测装置的一个实施例示意图;
图18为本申请实施例中计算机设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种模型训练的方法、目标检测的方法、装置及存储介质,用于在训练的过程中,基于不同的交并比阈值生成不同的样本集合,不同的样本集合用于训练不同的检测网络,以设置不同的交并比阈值来分别训练对应的检测网络,使得这些级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的效果。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请可以应用于对目标进行检测的场景中,例如,对图像的内容进行识别,识别出图像中是否包括所需检测的目标,以及对该目标的分类。图像中可能一个或多个目标,在定位出不同目标后可以用边界框圈出目标所在的位置,并且给出该目标的分类结果,因此,通过目标检测可以是找出图像中感兴趣或者所需的目标或区域。
具体地,以应用于检测枪战游戏中的目标作为一个示例进行说明,在枪战游戏中各类目标有不同的外观、形状以及姿态等,假设枪战游戏中包括潜伏者和防卫者两个类别,请参阅图1,图1为本申请实施例中枪战游戏场景的一个界面示意图,如图所示,图1中(A)图和(B)图示出的均为枪战游戏中的图像,图1中(A)图所示出的枪战游戏图像中包括一个防卫者,图1中(B)图所示出的枪战游戏图像中也包括一个防卫者,但可以看出同一类的目标由于距离远近以及姿态等的差异,在形态上都会具有较大的差异,而对差异性较大的目标进行检测可能存在一定偏差,因此,本申请提供的目标检测模型在训练的过程中,基于不同的交并比阈值生成不同的样本集合,不同的样本集合用于训练不同的检测网络,以设置不同的交并比阈值来分别训练对应的检测网络,使得这些级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的效果。
枪战类游戏的示例仅用于理解本方案,可以理解的是,本方案还可以包括但不限于应用在无人驾驶系统以及安防系统。
为了在上述各种场景中,提升目标检测的效果,本申请提出了一种目标检测的方法,该方法应用于图2所示的目标检测系统,请参阅图2,图2为本申请实施例中目标检测系统的一个环境示意图,如图所示,目标检测系统中包括服务器和客户端,在服务器侧对目标检测模型进行训练,将训练完成的目标检测模型存放于服务器侧,客户端将待检测图像发送至服务器,由服务器通过目标检测模型输出该图像对应的目标框以及目标分类结果,并反馈至客户端,通过客户端上展示目标框以及目标分类结果。
需要说明的是,图2中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等,具体此处均不限定。客户端部署于终端设备,终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer,PC)及语音交互设备。
虽然图2中仅示出了五个终端设备和一个服务器,但应当理解,图2中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。
由于本申请实施例是应用于人工智能(Artificial Intelligence,AI)领域的,在对本申请实施例提供的模型训练的方法开始介绍之前,先对AI领域的一些基础概念进行介绍。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机具有智能的根本途径,其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着AI技术研究和进步,AI技术在多种方向展开研究,计算机视觉技术(ComputerVision,CV)就是AI技术的多种研究方向中研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、追寻和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的AI系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
基于此,下面将介绍如何训练目标检测模型,请参阅图3,图3为本申请实施例中模型训练的方法一个流程示意图,如图所示,具体地:
在步骤S1中,获取游戏录制视频中截取的图像,或者是游戏进行时所截取的图像。
在步骤S2中,人工对游戏图像中的目标进行标注,具体可以标注目标所在的区域以及目标的类别,由此生成待训练图像。例如,以应用于枪战游戏作为一个示例,若目标为游戏中的虚拟人物,则目标可以包括潜伏者和防卫者两个类别,若目标为游戏道具,则目标可以包括防护类道具、恢复类道具以及射击类道具三个类别,此处不对目标以及类别进行穷举。
在步骤S3中,将待训练图像输入至待训练的目标检测模型,通过该模型输出预测框以及类别预测概率,然后基于不同的交并比阈值,从待训练图像中获取正样本以及负样本,由此得到样本集合,预测框是按照预设比例大小从图像中提取的框,预测框可用于对目标的位置以及类别进行预测,由此可以得到每个预测框中目标所对应的类别预测概率。
在步骤S4中,分别将样本集合输入至目标检测模型中的级联网络,得到对应的预测结果,根据输入的样本集合以及预测结果对目标检测模型进行训练,从而得到训练后的目标检测模型。
本申请实施例提供的方案涉及人工智能的机器学习技术以及计算机视觉技术,结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图4,图4为本申请实施例中模型训练的方法一个实施例示意图,模型训练的方法一个实施例包括:
101、获取待训练图像,其中,待训练图像设置有目标框以及目标类别;
本实施例中,模型训练装置可以获取到设置有目标框以及目标类别的待训练图像。具体地,可以获取游戏录制视频中截取的图像,或者游戏进行时所截取的图像帧,若为人工从游戏录制视频中截取的图像帧,人工进行采样的频率可以为每秒1帧,例如游戏录制视频共20分钟30秒,那么对游戏录制视频中的所有图像帧完成收集后,可以得到1230帧的图像帧集合。进一步地,由于游戏录制视频通常是具有连续性地,因此图像帧集合中可能出现多个相似度过大的图像帧,为了避免图像帧之间相似度过高,还可以人工删除相似度过大的图像帧,然后得到相似度较小的图像帧集合,这样可以降低目标检测模型过拟合的概率。
在得到图像帧集合后,可以人工对图像帧集合的图像帧标注目标所对应的目标框以及目标类别。例如,可以标注目标对应的目标类别,以及目标的左上角的x坐标、y坐标、宽度以及高度等位置信息,这样即可通过位置信息得到目标的所对应的目标框。因此,在需要对目标检测模型进行训练时,可以从进行人工标注后的图像帧集合中获取待训练图像,并且待训练图像包括有目标框以及目标类别。可以理解的是,目标框所对应的位置信息还可以为目标左下,目标右上或者目标右下,此处不做限定。
为了便于理解,以应用于枪战游戏场景,假设枪战游戏场中包括潜伏者以及防卫者两种类别,且以目标左上的位置信息作为一个示例进行说明,请参阅图5,图5为本申请实施例中基于枪战游戏场景获取待训练图像的一个示意图,如图所示,A1所指示的目标类别为潜伏者,而目标框的位置信息为(15,21,3,7),即目标左上角的x坐标为15,y坐标为21,目标的宽为3以及目标的高为7,由此可以得到A1所指示的目标框。A2所指示的目标类别为攻击者,而目标框的位置信息为(0,10,8,4),即目标左上角的x坐标为0,y坐标为10,目标的宽为8以及目标的高为4,由此可以得到A2所指示的目标框。此外,还可以将所得到的待训练图像对应的最小边缩放到600,而最大边不超过1000,以前述方式对待训练图像进行缩放不会改变宽高比且不会让待训练图像畸变,而对待训练图像进行缩放后可以减少目标检测模型计算复杂度。
需要说明的是,模型训练装置可以部署于计算机设备,计算机设备可以是服务器,也可以部署于终端设备,此处不做限定。
102、通过目标检测模型,获取M个预测框以及M个类别预测概率,其中,类别预测概率与预测框具有一一对应的关系,M为大于或等于1的整数;
本实施例中,模型训练装置将图像卷积特征输入至目标检测模型,目标检测模型可以输出M个预测框以及以及每个预测框对应的类别预测概率。具体地,类别预测概率表示目标在预测框中出现的比例,例如,目标在预测框中出现的比例为75%,那么对应的类别预测概率为75%。该目标检测模型所包括的第二网络用于生成M个预测框,其中,预测框是预先设置的框,以3种面积(128*128,256*256以及512*512)以及3种长宽比(1:1,1:2,2:1)为例进行说明,即存在9种规格的预测框,分别为128*128,128*256,128*64,256*256,256*512,256*128,512*512,512*1024以及512*256。
为了便于理解,以预测框个数为3个作为示例进行说明,请参阅图6,图6为本申请实施例中基于枪战游戏场景获取预测框的一个示意图,如图所示,B1、B2和B3分别表示不同的预测框,其中,预测框B1中包括有全部的目标,即预测框B1对应的类别预测概率为100%,预测框B2以及预测框B3中包括目标的部分,例如,预测框B2对应的类别预测概率可以为67%,预测框B3对应的类别预测概率可以为60%。
应当理解,前述示例仅用于理解本方案,具体预测框的个数以及类别预测概率均应当结合实际情况灵活确定。
103、根据目标框、M个预测框以及M个类别预测概率确定样本集合,其中,样本集合至少包括第一样本集合以及第二样本集合,第一样本集合包括交并比大于或等于第一交并比阈值的正样本,第二样本集合包括交并比大于或等于第二交并比阈值的正样本,第一交并比阈值小于第二交并比阈值;
本实施例中,模型训练装置可以根据目标框、M个预测框以及M个类别预测概率生成样本集合,该样本集合至少包括第一样本集合以及第二样本集合,第一样本集合包括交并比(intersection over union,IOU)大于或等于第一交并比阈值的正样本,第二样本集合包括交并比大于或等于第二交并比阈值的正样本,并且第一交并比阈值小于第二交并比阈值。具体地,可以通过预测框以及类别预测概率确定候选框,本实施例中,交并比为候选框以及目标框的交叠率。样本集合包括了多个IOU阈值下的样本,比如,第一样本集合中的所有正样本为IOU大于0.6的样本,第二样本集合中所有的正样本为IOU大于0.7的样本,此外,第一样本集合和第二样本集合还可以包括负样本,例如,正样本为大于IOU阈值的样本,而负样本则可以为小于IOU阈值的样本。即正样本为实施例中需要对目标检测类别所对应的样本,而负样本则是与目标检测类别偏差较大的样本,以包括正样本以及负样本的样本集合对目标检测模型进行训练,可以提升目标检测模型的训练效果。
具体地,以第一交并比阈值为0.5,第二交并比阈值为0.6作为示例进行介绍,因此第一样本集合包括交并比大于或等于0.5的正样本,第二样本集合可以包括交并比大于或等于0.6的正样本,因此,第一样本集合中通常包括第二样本集合。本实施例中以样本集合包括第一样本集合以及第二样本集合作为示例进行说明,在实际应用中,样本集合中还可以包括大于或等于其他交并比阈值的正样本,例如可以包括大于或等于0.7的正样本,或者还可以包括大于或等于0.8的正样本,由此可以增加样本多样性,以及提升目标检测模型训练的效果。
本申请提供的目标检测网络具体可以为级联区域卷积神经网络(Cascade RegionConvolutional Neural Networks,Cascade RCNN)的结构,对于Cascade RCNN结构中的每个级联网络(即检测网络)采用不同IOU阈值的样本进行训练,从而提升目标检测网络的拟合能力。
104、基于第一样本集合,通过目标检测模型所包括的第一检测网络获取第一预测结果集合,其中,第一预测结果集合包括第一样本集合中每个样本所对应的类别分值以及候选框预测位置;
本实施例中,模型训练装置将第一样本集合输入至目标检测模型所包括的第一检测网络,通过目标检测模型所包括的第一检测网络可以输出第一预测结果集合,该第一预测结果集合包括第一样本集合中每个样本所对应的类别分值以及候选框预测位置。具体地,类别分值可以表示目标属于类别的概率,例如,共包括类别A以及类别B,若类别分值为(0.8,0.2)则可以表示目标有80%的的概率属于A类别,有20%的概率属于B类别。候选框为类别预测概率大于或等于类别概率门限的预测框,根据类别概率门限对准确度交底的预测框进行删除,从而得到准确度更高的候选框。
为了便于理解,请参阅图7,图7为本申请实施例中具有一个检测网络的一个模型结构示意图,如图所示,在步骤C1将待训练图像输入至第一网络,由第一网络输出图像卷积特征,其中,第一网络可以是残差网络50(ResNet50)。在步骤C2中,将图像卷积特征输入至第二网络,由第二网络输出M个预测框以及M个类别预测概率,其中,第二网络包括若干个卷积层。在步骤C3中,根据M个预测框以及M个类别预测概率确定第一样本集合,将第一样本集合输入至感兴趣区域(region of interest,ROI)池化层,由ROI池化层输出固定大小的特征,也就是将候选框内图像的卷积特征拆分成为固定大小的网格,对每个网格进行最大池化,然后得到固定大小的特征。在步骤C4中将固定大小的特征输入至第一检测网络,由第一检测网络输出第一预测结果集合,即包括第一样本集合中每个样本所对应的类别分值以及候选框预测位置。
105、基于第二样本集合,通过目标检测模型所包括的第二检测网络获取第二预测结果集合,其中,第二预测结果集合包括第二样本集合中每个样本所对应的类别分值以及候选框预测位置;
本实施例中,模型训练装置可以将样本集合中的第二样本集合输入至目标检测模型所包括的第二检测网络,由第二检测网络可以输出二预测结果集合,该第二预测结果集合包括第二样本集合中每个样本所对应的类别分值以及候选框预测位置。
具体地,请参阅图8,图8为本申请实施例中具有多个检测网络的一个模型结构示意图,如图所示,在步骤D1中,将第二样本集合输入至ROI池化层,由ROI池化层输出固定大小的特征。在步骤D2中将固定大小的特征输入至第二检测网络,由第二检测网络输出第二预测结果集合,即包括每个样本所对应的类别分值以及候选框预测位置。
106、根据样本集合、第一预测结果集合以及第二预测结果集合,采用目标损失函数对目标检测模型进行训练。
本实施例中,模型训练装置根据预先标注的目标框以及目标类别,以及样本集合、第一预测结果集合以及第二预测结果集合,对目标检测模型进行训练,当目标损失函数的迭代次数达到阈值,或这目标损失函数的损失低于一定阈值时停止训练,从而可以完成对目标检测模型的训练。在实际应用中,可以通过样本集合以及第一预测结果集合对第一检测网络进行训练,还可以通过样本集合以及第二预测结果集合对第二检测网络进行训练,也可以通过样本集合、第一预测结果集合以及第二预测结果集合对第一检测网络以及第二检测网络共同进行训练,具体训练方式在此不做限定。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,通过目标检测模型,获取M个预测框以及M个类别预测概率,可以包括:
基于待训练图像,通过目标检测模型所包括的第一网络获取图像卷积特征;
基于图像卷积特征,通过目标检测模型所包括的第二网络获取M个预测框以及M个类别预测概率。
本实施例中,模型训练装置将待训练图像输入至目标检测模型所包括的第一网络,通过第一网络可以输出图像卷积特征,然后将所获取到的图像卷积特征作为目标检测模型所包括的第二网络的输入,通过目标检测模型所包括的第二网络可以输出M个预测框以及M个类别预测概率,该类别预测概率与预测框具有一一对应的关系。
本申请实施例中,提供了一种模型训练的方法,通过上述方式,在训练的过程中,需要基于不同的交并比阈值生成不同的样本集合,不同的样本集合用于训练不同的检测网络,以设置不同的交并比阈值来分别训练对应的检测网络,使得这些级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的效果。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,基于待训练图像,通过目标检测模型所包括的第一网络获取图像卷积特征,可以包括:
基于待训练图像,通过第一网络中的卷积层获取第一图像特征;
基于第一图像特征,通过第一网络中的第一残差模块获取第二图像特征;
基于第二图像特征,通过第一网络中的第二残差模块获取第三图像特征;
基于第三图像特征,通过第一网络中的至少一个第一残差网络以及至少一个第二残差网络,获取图像卷积特征。
本实施例中,模型训练装置可以将待训练图像输入至第一网络中的卷积层,通过卷积层可以输出第一图像特征,然后将第一图像特征输入至第一网络中的第一残差模块,通过第一残差模块输出第二图像特征,再将第二图像特征输入至第一网络中的第二残差模块,通过第二残差模块输出第三图像特征。将第三图像特征作为第一网络中的至少一个第一残差网络以及至少一个第二残差网络的输入,经过层层计算得到图像卷积特征。在实际应用中,第一网络中还可以包括多个第一残差模块以及多个第二残差模块,第一残差模块以及第二残差模块的数量均应当结合实际情况灵活确定。
为了便于理解,请参阅图9,图9为本申请实施例中第一网络的一个结构示意图,如图所示,其中X2代表该结构重复两次,X3代表该结构重复三次,X5代表该结构重复五次。具体地,将待训练图像作为第一网络中的输入,通过卷积核大小为7,步长为2的卷积层,输出64维的第一图像特征,然后第一图像特征通过卷积核大小为3的第一残差模块,输出[64,64,256]维的第二图像特征,而第二图像特征输入至卷积核大小为3的第二残差模块,输出[64,64,256]维的第三图像特征,将第三图像特征再次输入至第二残差模块,得到[64,64,256]维图像特征,然后将[64,64,256]维图像特征输入至卷积核大小为3的第一残差模块,输出[128,128,512维的图像特征,再连续三次输入至卷积核大小为3的第二残差模块,输出[128,128,512]维的图像特征。然后输入至卷积核大小为3的第一残差模块,输出[256,256,1024]维的图像特征,再连续五次输入至卷积核大小为3的第二残差模块,输出[256,256,1024]维的图像特征,输入至卷积核大小为3的第一残差模块,输出[512,512,2048]维的图像特征。再连续两次输入至卷积核大小为3的第二残差模块,输出[512,512,2048]维的图像卷积特征。图9的示例仅用于理解本方案,具体第一网络的结构以及图像卷积特征的获取均应当结合实际情况灵活确定。
本申请实施例中,提供了一种通过第一网络获取图像卷积特征的方法,基于待训练图像,通过上述方式,采用卷积层提取待训练图像的图像特征,并且采用第一残差模型以及第二残差模型再对特征进行多次提取,从而提升图像卷积特征的准确性,有利于提升目标检测模型的鲁棒性。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,基于第一图像特征,通过第一网络中的第一残差模块获取第二图像特征,可以包括:
基于第一图像特征,通过第一残差模块所包括的第一卷积层获取第一卷积特征;
基于第一图像特征,通过第一残差模块所包括的第二卷积层获取第二卷积特征;
基于第二卷积特征,通过第一残差模块所包括的第三卷积层获取第三卷积特征;
基于第三卷积特征,通过第一残差模块所包括的第四卷积层获取第四卷积特征;
根据第一卷积特征以及第四卷积特征,生成第二图像特征。
本实施例中,模型训练装置可以将第一图像特征输入至第一残差模块所包括的各个卷积层,将卷积后得到的第一卷积特征以及第四卷积特征相加,即可得到第二图像特征。
为了便于理解,请参阅图10,图10为本申请实施例中第一残差模块的一个结构示意图,如图所示,在步骤E1中,将第一图像特征输入至第一残差模块的第一卷积层,通过核大小为1,步长为2的第一卷积层后,可以得到宽高缩小一倍的第一卷积特征。在步骤E2中,将第一图像特征输入至第二卷积层,通过核大小为1,步长为2的第二卷积层后,可以得到宽高缩小一倍的第二卷积特征,在步骤E3中,将第二卷积特征输入至第三卷积层,通过核大小为3,步长为1的第三卷积层可以得到第三卷积特征,在步骤E4将第三卷积特征输入至第四卷积层,通过核大小为1,步长为1的第四卷积层得到第四卷积特征。在步骤E5中,将第四卷积特征和第一卷积特征进行融合,得到第二图像特征。第一残差模块将图像特征的宽高缩小两倍。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,基于第二图像特征,通过第一网络中的第二残差模块获取第三图像特征,可以包括:
基于第二图像特征,通过第二残差模块所包括的第一卷积层获取第五卷积特征;
基于第五卷积特征,通过第二残差模块所包括的第二卷积层获取第六卷积特征;
基于第六卷积特征,通过第二残差模块所包括的第三卷积层获取第七卷积特征;
根据第二图像特征以及第七卷积特征,生成第三图像特征。
本实施例中,模型训练装置可以将第二图像特征输入至第二残差模块各个卷积层,将卷积后得到的第期卷积特征以及第二卷积特征相加,即可得到第三图像特征。
为了便于理解,请参阅图11,图11为本申请实施例中第二残差模块的一个结构示意图,如图所示,在步骤F1中,将第二图像特征输入至第一卷积层,通过核大小为1,步长为1的第一卷积层后,可以得到第五卷积特征,在步骤F2中,将第五卷积特征输入至第二卷积层,通过核大小为3,步长为1的第二卷积层可以得到第六卷积特征,在步骤F3中,将第六卷积特征输入至第三卷积层,通过核大小为1,步长为1的第三卷积层得到第七卷积特征,在步骤F4中,将第第二图像特征以及第七卷积特征融合,从而得到第三图像特征。第二残差模块不会改变图像特征的大小。
本申请实施例中,提供了一种通过残差模块获取图像特征的方法,通过上述方式,不同类型的残差模块可以改善对目标检测模型训练过程中梯度消失的问题,因此可以提升图像特征的准确度,从而提升图像卷积特征的准确度。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,根据目标框、M个预测框以及M个类别预测概率确定样本集合,可以包括:
根据M个类别预测概率,从M个预测框中确定N个预测框作为候选框,以得到N个候选框,其中,候选框所对应的类别预测概率大于或等于类别概率门限,N为大于或等于1,且小于或等于M的整数;
根据N个候选框确定每个候选框与目标框之间的交并比;
根据每个候选框与目标框之间的交并比,获取第一样本集合,其中,第一样本集合包括第一正样本以及负样本;
根据每个候选框与目标框之间的交并比,获取第二样本集合,其中,第二样本集合包括第二正样本以及负样本。
本实施例中,模型训练装置可以根据M个类别预测概率,从M个预测框中获取N个候选框,然后根据N个候选框确定每个候选框与目标框之间的IOU获取第一样本集合,该第一样本集合包括第一正样本以及负样本,还可以根据每个候选框与目标框之间的IOU获取第二样本集合,该第二样本集合包括第二正样本以及负样本。具体地,IOU表示候选框与目标框交叠率,即候选框与目标框的交集与并集的比值。以第一IOU阈值为0.5,第二IOU阈值为0.6作为示例进行介绍,如果目标框(待训练图像中通过人工标注的目标框)与所确定的预测框之间的IOU大于或等于0.5,则满足该条件的预测框可以作为第一样本集合中的正样本。进一步地,如果目标框与所确定的预测框之间的IOU大于0.6,则满足该条件的预测框可以作为第二样本集合中的正样本,有前述介绍可知,样本集合中还可以包括大于或等于其他IOU阈值的正样本,例如可以包括大于或等于0.7的正样本,因此当目标框与所确定的预测框之间的IOU大于0.7时,将满足该条件的预测框作为正样本。目标框与所确定的候选框小于某个IOU阈值时,也可以将该小于该IOU阈值的预测框所对应的样本确定为负样本。
为了便于理解,请再次参阅图5以及图6,并且以图5中目标框A1以及图6中预测框B1、预测框B2和预测框B3作为一个示例进行介绍,假设预测框B1的类别预测概率为100%,预测框B2的类别预测概率为67%,预测框B3的类别预测概率为60%,在类别概率门限为0.5的情况下,预测框B1、预测框B2和预测框B3所对应的类别预测概率均大于类别概率门限,因此可以将预测框B1确定为候选框B1,将预测框B2确定为候选框B2,将预测框B3确定为候选框B3。假设第一IOU阈值为0.5,第二IOU阈值为0.6,请参阅图12,图12为本申请实施例中获取样本集合的一个实施例示意图,如图所示,图12中(A)图表示待训练图像中的目标框G1,而,图12中(B)图表示所确定的候选框G21、候选框G22以及候选框G23,然后根据候选框G21、候选框G22以及候选框G23,确定每个候选框与目标框G1之间的IOU,假设目标框G1与候选框G21之间的IOU为0.4,目标框G1与候选框G22之间的IOU为0.8,目标框G1与候选框G23之间的IOU为0.5,其中,目标框G1与候选框G22之间的IOU大于第一IOU阈值,也大于第二IOU阈值,因此第一样本集合中包括候选框G22所对应的样本,第二样本集合中也包括候选框G22所对应的样本。
本申请实施例中,提供了一种确定样本集合的方法,将类别预测概率大于或等于类别概率门限的预测框确定为候选框,并且根据候选框确定每个候选框与目标框之间的IOU,然后再根据每个候选框与目标框之间的IOU,获取样本集合,样本集合中可以包括正样本也可以包括负样本,通过上述方式,可以提升增加样本集合中样本的多样性,从而提升目标检测模型的准确度。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,根据M个类别预测概率,从M个预测框中确定N个候选框,可以包括:
若类别预测概率大于或等于类别概率门限,则将类别预测概率所对应的预测框确定为候选框,其中,类别预测概率属于M个类别预测概率,候选框属于N个候选框;
若类别预测概率小于类别概率门限,则从M个预测框中剔除类别预测概率所对应的预测框。
本实施例中,当类别预测概率大于或等于类别概率门限时,模型训练装置可以将类别预测概率所对应的预测框确定为候选框,当类别预测概率小于类别概率门限时,模型训练装置从M个预测框中剔除该类别预测概率所对应的预测框。具体地,在实际应用中,可能出现类别预测概率均大于或等于类别概率门限的情况,在这种情况下N等于M,不会对预测框进行剔除。例如,在30个预测框中,30个预测框对应的类别预测概率均大于或等于类别概率门限,那么可以将30个预测框均作为候选框。假设在30个预测框中,有26个预测框对应的类别预测概率大于或等于类别概率门限,那么可以将26个预测框作为候选框,剩下的4个类别预测概率小于类别概率门限所对应的预测框会被剔除。
本申请实施例中,提供了一种确定候选框的方法,通过上述方式,可以筛选出与目标框偏移量较小的预测框,由此可以提升候选框的准确度,对与目标框偏移量较大的预测框进行剔除,能够进一步减小对候选框准确度的影响,进而提升模型训练的准确度。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,根据每个候选框与目标框之间的交并比,获取第一样本集合,可以包括:
若候选框与目标框之间的交并比大于或等于第一交并比阈值,则将候选框所对应的样本确定为第一样本集合中的第一正样本;
若候选框与目标框之间的交并比小于第三交并比阈值,则将候选框所对应的样本确定为第一样本集合中的负样本,其中,第三交并比阈值小于第一交并比阈值;
根据每个候选框与目标框之间的交并比,获取第二样本集合,包括:
若候选框与目标框之间的交并比大于或等于第二交并比阈值,则将候选框所对应的样本确定为第二样本集合中的第二正样本;
若候选框与目标框之间的交并比小于第三交并比阈值,则将候选框所对应的样本确定为第二样本集合中的负样本,其中,第三交并比阈值小于第二交并比阈值。
本实施例中,当候选框与目标框之间的IOU大于或等于第一IOU阈值时,模型训练装置可以将候选框所对应的样本确定为第一样本集合中的第一正样本,若候选框与目标框之间的IOU小于第三IOU阈值,则将候选框所对应的样本确定为第一样本集合中的负样。若候选框与目标框之间的IOU大于或等于第二IOU阈值,则模型训练装置可以将候选框所对应的样本确定为第二样本集合中的第二正样本,若候选框与目标框之间的IOU小于第三IOU阈值,则将候选框所对应的样本确定为第二样本集合中的负样本。其中,第一IOU阈值可以为0.5,第二IOU阈值可以为0.6,第三IOU阈值可以为0.3,在实际应用中,具体IOU阈值需要根据实际情况灵活确定。
为了便于理解,假设第一IOU阈值为0.5,第二IOU阈值为0.6以及第三IOU阈值为0.3,候选框1与目标框之间的IOU为26%,候选框2与目标框之间的IOU为47%,候选框3与目标框之间的IOU为58%,候选框4与目标框之间的IOU为76%,候选框5与目标框之间的IOU为91%,候选框3、候选框4和候选框5与目标框之间的IOU均大于第一IOU阈值,因此将候选框3、候选框4和候选框5所对应的样本确定为第一样本集合中的第一正样本,而候选框1与目标框之间的IOU小于第三IOU阈值,因此,将候选框1所对应的样本确定为第一样本集合中的负样本。候选框4以及候选框5与目标框之间的IOU大于第二IOU阈值,因此将候选框4以及候选框5所对应的样本确定为第二样本集合中的第二正样本,而候选框1与目标框之间的IOU小于第三IOU阈值,因此将候选框1所对应的样本确定为第二样本集合中的负样本。若还存在其他IOU阈值,例如0.7,则可以将候选框与目标框之间的IOU大于或等于0.7的候选框所对应的样本确定为样本集合中的其他正样本。
本申请实施例中,提供了一种获取样本集合的方法,通过候选框与目标框之间的IOU与IOU阈值对比,则将IOU大于或等于IOU阈值的候选框所对应的样本确定为样本集合中的正样本,并且将IOU小于IOU阈值的候选框所对应的样本确定为样本集合中的负样本,通过上述方式,提供了通过候选框与目标框之间的IOU与IOU阈值确定样本集合的具体实施方式,从而提升的本方案的可行性。其次,通过不同的阈值确定不同阈值范围内的正样本以及负样本,可以提升增加样本集合中样本的多样性,由此可以提升目标检测模型的准确度。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,通过目标检测模型所包括的第一检测网络获取第一预测结果集合,可以包括:
基于第一样本集合中的第一样本,通过第一池化层获取第一特征向量,其中,第一样本为第一样本集合中的正样本或负样本;
基于第一特征向量,通过第一检测网络获取第一样本所对应的第一预测结果,其中,第一预测结果包括第一类别分值以及第一候选框预测位置;
基于第二样本集合,通过目标检测模型所包括的第二检测网络获取第二预测结果集合,可以包括:
基于第二样本集合中的第二样本,通过第二池化层获取第二特征向量,其中,第二样本为第二样本集合中的正样本或负样本;
基于第二特征向量,通过第二检测网络获取第二样本所对应的第二预测结果,其中,第二预测结果包括第二类别分值以及第二候选框预测位置。
本实施例中,模型训练装置将第一样本集合中的正样本和负样本输入至第一检测网络,由此得到对应的第一预测结果,类似地,将第二样本集合中的正样本和负样本输入至第二检测网络,由此得到对应的第二预测结果。具体地,在输入至第一检测网络和第二检测网络之后,需要将特征输入至池化层,池化层可以将不同大小的卷积特征转换成固定大小的特征,也就是将候选框的卷积特征拆分成为固定大小的网格,对每个网格进行最大池化,然后就能得到固定大小的特征。可以理解的是,本实施例中以目标检测模型包括第一检测网络以及第二检测网络进行介绍,在实际应用中,目标检测模型还可以包括第三检测网络获取更多的检测网络。
为了便于理解,请参阅图13,图13为本实施例中目标检测网络的一个结构示意图,如图所示,在步骤H1中,将待训练图像输入至第一网络,得到图像卷积特征,在步骤H2中,将图像卷积特征输入至第二网络,得到M个预测框以及每个预测框的类别预测概率,由此确定样本集合,在步骤H3中,可以将第一样本集合中的每个第一样本输入至第一池化层,第一池化层具体为ROI池化层,由第一池化层输出第一特征向量,在步骤H4中,将第一特征向量输入至第一检测网络,可以理解的是,第一检测网络可以包括两个全连接层,在步骤H5中,通过一个全连接层输出每个第一样本的第一类别分值,在步骤H6中,通过另一个全连接层输出每个第一样本的第一候选框预测位置,第一候选框预测位置和第一类别分值均为第一预测结果。
在步骤H7中,将第二样本集合中的每个第二样本输入至第二池化层,并且将第一候选框预测位置也输入至第二池化层,第二池化层具体为ROI池化层,由第二池化层输出第二特征向量,在步骤H8中,将第二特征向量输入至第二检测网络,可以理解的是,第二检测网络也包括两个全连接层,在步骤H9中,通过一个全连接层输出每个第二样本的第二类别分值,在步骤H10中,通过另一个全连接层输出每个第二样本的第二候选框预测位置,第二候选框预测位置和第二类别分值均为第二预测结果。
进一步地,由于在实际应用中,目标检测模型还可以包括第三检测网络进一步提取更多地预测结果,提升结果的多样性,请参阅图14,图14为本实施例中目标检测网络的另一个结构示意图,如图所示,步骤I1与步骤I2与图13介绍的内容类似,且获取第一预测结果与第二预测结果的方式也与图13介绍的类似,此处不再赘述。在步骤I3中,将第三样本集合中的每个第三样本输入至第三池化层,并且将第二候选框预测位置也输入至第三池化层,第三池化层具体为ROI池化层,由第三池化层输出第三特征向量,在步骤I4中,将第三特征向量输入至第三检测网络,可以理解的是,第三检测网络也包括两个全连接层,在步骤I5中,通过一个全连接层输出每个第三样本的第三类别分值,在步骤I6中,通过另一个全连接层输出每个第三样本的第三候选框预测位置,第三候选框预测位置和第三类别分值均为第三预测结果。
本申请实施例中,提供了一种获取预测结果集合的方法,通过上述方式,提供了获取预测结果集合的具体实施方式,由此可以提升本方案的可行性。不同的样本集合能够能够增加样本多样性,从而提升模型训练的准确度。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,根据样本集合、第一预测结果集合以及第二预测结果集合,采用目标损失函数对目标检测模型进行训练,可以包括:
根据第一样本集合以及第一预测结果集合,采用第一损失函数对第一检测网络的第一模型参数进行更新;
根据目标框以及第一预测结果集合,采用第二损失函数对第一检测网络的第二模型参数进行更新;
根据第二样本集合以及第二预测结果集合,采用第一损失函数对第二检测网络的第三模型参数进行更新;
根据目标框以及第二预测结果集合,采用第二损失函数对第二检测网络的第四模型参数进行更新。
本实施例中,模型训练装置可以根据第一样本集合以及第一预测结果集合,采用第一损失函数对第一检测网络的第一模型参数进行更新,该第一损失函数属于目标损失函数中的一个损失函数。此外,可以根据目标框以及第一预测结果集合,采用第二损失函数对第一检测网络的第二模型参数进行更新,该第二损失函数属于目标损失函数中的另一个损失函数。类似地,模型训练装置还可以根据第二样本集合以及第二预测结果集合,采用第一损失函数对第二检测网络的第三模型参数进行更新,并且根据目标框以及第二预测结果集合,采用第二损失函数对第二检测网络的第四模型参数进行更新。其中,第一损失函数可以对检测网络中用于分类的全连接层所对应的模型参数的进行更新,第一损失函数可以为类别交叉熵损失,类别损失可以优化目标类别的预测。而第二损失函数可以对检测网络中用于位置拟合的全连接层所对应模型参数的进行更新,第二损失函数可以采用L1损失,L1损失可以优化对目标框的位置检测。
具体地,先将第一样本集合输入至第一检测网络,由第一检测网络输出第一预测结果集合,由于第一检测网络需要以目标框以及目标分类结果为训练的目标,因此在获取到第一预测结果集合中的第一类别分值以及第一候选框预测位置之后,需要将第一类别分值与真实的目标类别进行比对,并且将第一候选框预测位置与目标框进行比对。从第一样本集合中获取每个样本所对应的类别,根据第一类别分值以及真实的目标类别,采用第一损失函数计算得到损失值,再利用损失值对第一检测网络的第一模型参数进行更新。从待训练图像中获取目标框,然后根据第一候选框预测位置以及目标框,采用第二损失函数计算得到损失值,再利用损失值对第一检测网络的第二模型参数进行更新。
类似地,对于第二检测网络而言,将第二样本集合输入至第二检测网络,由第二检测网络输出第二预测结果集合,第二检测网络也需要以目标框以及目标分类结果为训练的目标,因此在获取到第二预测结果集合中的第二类别分值以及第二候选框预测位置之后,需要将第二类别分值与真实的目标类别进行比对,并且将第二候选框预测位置与目标框进行比对。从第二样本集合中获取每个样本所对应的类别,根据第一类别分值以及真实的目标类别,采用第一损失函数计算得到损失值,再利用损失值对第二检测网络的第三模型参数进行更新。从待训练图像中获取目标框,然后根据第二候选框预测位置以及目标框,采用第二损失函数计算得到损失值,再利用损失值对第二检测网络的第四模型参数进行更新。
当第一损失函数以及第二损失函数达到收敛条件时,表示第一检测网络和第二检测网络均完成训练。例如,当第一损失函数以及第二损失函数迭代次数达到阈值,或者第一损失函数以及第二损失函数的损失低于一定阈值时停止训练,然后将最后一次对模型参数进行更新后所获得的模型参数作为模型的最终参数,完成第一检测模型以及第二检测模型的训练。
再进一步地,第一样本集合中正样本与负样本的比例可以为1:3,第二样本集合中正样本与负样本的比例也可以为1:3,采用如下第一损失函数进行计算:
Figure GDA0004188075160000181
y'i=h(xi)
其中,Lcls表示第一损失函数,N表示候选框的数量,C表示类别的数量,yi,k表示第i个候选框是否为第k个类别(即目标类别),y'i,k表示第i个候选框是第k个的类别分值,xi是第i个候选框对应的图像区域,h代表图像区域到类别打分的映射。
采用如下第二损失函数进行计算:
Figure GDA0004188075160000182
其中,Lloc表示第二损失函数,gi表示第i个目标框的位置信息(包括x坐标、y坐标、宽度以及高度),xi表示第i个候选框对应的图像区域,bi表示候选框预测位置(包括x坐标、y坐标、宽度以及高度)。
本申请实施例中,提供了一种模型训练的方法,通过上述方式,采用第一损失函数以及第二损失函数共同对目标检测模型中检测网络进行类别训练和定位训练,从而提升了模型的鲁棒性。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,根据第一样本集合以及第一预测结果集合,采用第一损失函数对第一检测网络的第一模型参数进行更新,可以包括:
获取第一样本集合中每个样本所对应的类别标签;
获取第一预测结果集合中每个样本所对应的类别分值;
根据第一样本集合中每个样本所对应的类别标签以及每个样本所对应的类别分值,采用第一损失函数对第一检测网络的第一模型参数进行更新;
根据目标框以及第一预测结果集合,采用第二损失函数对第一检测网络的第二模型参数进行更新,可以包括:
获取待训练图像所对应的目标框;
获取第一预测结果集合中每个样本所对应的候选框预测位置;
根据目标框以及第一预测结果集合中每个样本所对应的候选框预测位置,采用第二损失函数对第一检测网络的第二模型参数进行更新。
本实施例中,模型训练装置获取第一样本集合中每个样本所对应的类别标签,以及获取第一预测结果集合中每个样本所对应的类别分值,类别标签用于表示真实的目标类别,比如目标类别为“潜伏者”,则类别标签为1,又比如目标类别为“守卫者”,则类别标签为0。然后根据第一样本集合中每个样本所对应的类别标签以及每个样本所对应的类别分值,采用第一损失函数对第一检测网络的第一模型参数进行更新。还可以获取待训练图像所对应的目标框,以及获取第一预测结果集合中每个样本所对应的候选框预测位置,再根据目标框以及第一预测结果集合中每个样本所对应的候选框预测位置,采用第二损失函数对第一检测网络的第二模型参数进行更新。
具体地,假设第一样本集合中样本A的目标类别为“潜伏者”,即“潜伏者”所对应的类别标签为1。假设从第一预测结果集合中确定该样本A所对应的类别分值为0.8,0.8表示样本A属于“潜伏者”的分值,那么0.2表示样本A属于“守卫者”的类别分值。基于上述实施例中的第一损失函数可知,yi,1表示第i个候选框为“潜伏者”的真实分值为1,yi,0表示第i个候选框为“守卫者”的真实分值为0,y'i,1表示第i个候选框是“潜伏者”的类别分值为0.8,y'i,0表示第i个候选框是“守卫者”的类别分值为0.2。基于第一损失函数的损失值判断是否达到收敛条件,若未达到收敛条件,则利用第一损失函数的值更新第一检测网络的第一模型参数。
假设第一样本集合中样本A所对应的目标框位置表示为(x1,y1,w1,h1),第一样本集合中样本A所对应的候选框预测位置表示为(x2,y2,w2,h2),基于上述实施例中的第二损失函数可知,gi表示为目标框的位置信息(x1,y1,w1,h1),bi表示为候选框预测位置表示为(x2,y2,w2,h2),xi表示样本A的图像内容。基于第二损失函数的损失值判断是否达到收敛条件,若未达到收敛条件,则利用第二损失函数的值更新第二检测网络的第二模型参数。直至第一损失函数以及第二损失函数达到收敛条件,然后根据最后一次对模型参数进行更新后所获得的模型参数,完成对检测网络的训练。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的模型训练的方法另一个可选实施例中,根据第二样本集合以及第二预测结果集合,采用第一损失函数对第二检测网络的第三模型参数进行更新,可以包括:
获取第二样本集合中每个样本所对应的类别标签;
获取第二预测结果集合中每个样本所对应的类别分值;
根据第二样本集合中每个样本所对应的类别标签以及每个样本所对应的类别分值,采用第一损失函数对第二检测网络的第三模型参数进行更新;
根据目标框以及第二预测结果集合,采用第二损失函数对第二检测网络的第四模型参数进行更新,可以包括:
获取待训练图像所对应的目标框;
获取第二预测结果集合中每个样本所对应的候选框预测位置;
根据目标框以及第二预测结果集合中每个样本所对应的候选框预测位置,采用第二损失函数对第二检测网络的第四模型参数进行更新。
本实施例中,模型训练装置获取第二样本集合中每个样本所对应的类别标签,以及获取第二预测结果集合中每个样本所对应的类别分值,类别标签用于表示真实的目标类别,比如目标类别为“潜伏者”,则类别标签为1,又比如目标类别为“守卫者”,则类别标签为0。然后根据第二样本集合中每个样本所对应的类别标签以及每个样本所对应的类别分值,采用第一损失函数对第二检测网络的第三模型参数进行更新。还可以获取待训练图像所对应的目标框,以及获取第二预测结果集合中每个样本所对应的候选框预测位置,再根据目标框以及第二预测结果集合中每个样本所对应的候选框预测位置,采用第二损失函数对第二检测网络的第四模型参数进行更新。
具体地,假设第二样本集合中样本B的目标类别为“潜伏者”,即“潜伏者”所对应的类别标签为1。假设从第二预测结果集合中确定该样本B所对应的类别分值为0.7,0.7表示样本B属于“潜伏者”的分值,那么0.3表示样本B属于“守卫者”的类别分值。基于上述实施例中的第一损失函数可知,yi,1表示第i个候选框为“潜伏者”的真实分值为1,yi,0表示第i个候选框为“守卫者”的真实分值为0,y'i,1表示第i个候选框是“潜伏者”的类别分值为0.7,y'i,0表示第i个候选框是“守卫者”的类别分值为0.3。基于第一损失函数的损失值判断是否达到收敛条件,若未达到收敛条件,则利用第一损失函数的值更新第一检测网络的第三模型参数。
假设第二样本集合中样本B所对应的目标框位置表示为(x3,y3,w3,h3),第二样本集合中样本B所对应的候选框预测位置表示为(x4,y4,w4,h4),基于上述实施例中的第二损失函数可知,gi表示为目标框的位置信息(x3,y3,w3,h3),bi表示为候选框预测位置表示为(x4,y4,w4,h4),xi表示样本B的图像内容。基于第二损失函数的损失值判断是否达到收敛条件,若未达到收敛条件,则利用第二损失函数的值更新第二检测网络的第四模型参数。直至第一损失函数以及第二损失函数达到收敛条件,然后根据最后一次对模型参数进行更新后所获得的模型参数,完成对检测网络的训练。
可以理解的是,前述实施例中介绍的为第一检测网络以及第二检测网络分别进行训练,在实际应用中,可以为第一检测网络与第二检测网络的可以联合训练。根据第二样本集合、第一预测结果集合以及第二预测结果集合共同对第二检测网络的模型参数进行更新,通过梯度后向传递的方式减小分类损失和位置拟合损失,进一步地优化模型参数。
本申请实施例中,提供了一种训练检测网络的方法,通过上述方式,第一损失函数可以优化目标类别的预测,第二损失函数可以优化对目标框的位置检测,由此可以提升目标检测模型输出目标框以及目标分类结果的准确度。
结合上述介绍,下面将对本申请中目标检测的方法进行介绍,请参阅图15,图15为本申请实施例中目标检测的方法一个实施例示意图,如图所示,本申请实施例中目标检测的方法一个实施例包括:
201、基于待检测图像,通过目标检测模型所包括的第一网络获取图像卷积特征,其中,目标检测模型为采用上述实施例中提供的模型训练方法训练得到的;
本实施例中,目标检测装置可以先获取到游戏录制视频中截取的图像,或者是游戏进行时所截取的图像,即可以获取到待检测图像。目标检测装置将该待检测图像输入至目标检测模型的第一网络,其中,第一网络可以为ResNet50,由第一网络输出图像卷积特征,该目标检测模型为采用前述模型训练的方法训练得到的。
需要说明的是,目标检测装置可以部署于计算机设备,该计算机设备可以是服务器,也可以部署于终端设备,本申请中以目标检测装置部署于计算机设备为例进行说明,然而这不应理解为对本申请的限定。
202、基于图像卷积特征,通过目标检测模型所包括的第二网络获取预测框以及类别预测概率,其中,类别预测概率与预测框具有一一对应的关系;
本实施例中,目标检测装置可以将图像卷积特征输入至目标检测模型所包括的第二网络,由第二网络输出预测框以及类别预测概率,其中,第二网络由多个卷积层组成。具体地,类别预测概率表示目标在预测框中出现的比例,例如,目标在预测框中出现的比例为75%,那么预测框对应的类别预测概率为75%。例如,目标在预测框中出现的比例为40%,那么预测框对应的类别预测概率为40%。本方案中预测框以由3种面积(128*128,256*256以及512*512)以及3种长宽比(1:1,1:2,2:1)为例进行说明,即可以出现128*128,128*256,128*64,256*256,256*512,256*128,512*512,512*1024以及512*256共9种预测框的尺寸。
203、若类别预测概率大于或等于类别概率门限,则将预测框确定为候选框;
本实施例中,可以对类别预测概率是否大于或等于类别概率门限进行判断,当类别预测概率大于或等于类别概率门限时,目标检测装置可以将该预测框确定为候选框。为了便于理解,以类别概率门限为0.5为示例进行说明,假设预测框1对应的类别预测概率为100%,预测框2对应的类别预测概率为67%,预测框3对应的类别预测概率为60%,预测框4对应的类别预测概率为48%,预测框5对应的类别预测概率为34%,其中,预测框1、预测框2和预测框3所对应的类别预测概率大于类别概率门限,因此可以将预测框1、预测框2和预测框3确定为候选框。而预测框4以及预测框5对应的类别预测概率小于类别概率门限,因此可以直接剔除预测框4以及预测框5。由此可以得到三个候选框。可以理解的是,前述示例仅用于理解本方案,具体候选框的确定应当结合类别概率门限灵活确定。
204、基于候选框,通过目标检测模型所包括的第一检测网络获取第一候选框预测位置以及第一类别分值;
本实施例中,目标检测装置将候选框(包括候选框中的图像内容)输入至目标检测模型所包括的第一检测网络,由第一检测网络输出第一候选框预测位置以及第一类别分值。具体地,若根据目标左上角为定点,第一候选框预测位置可以表示为(0,10,8,4),即第一候选框预测位置的左上角x坐标为0,第一候选框预测位置的左上角y坐标为10,第一候选框预测位置所对应的宽度为8以及第一候选框预测位置所对应的高度为4。若存在A类别以及B类别,那么第一类别分值可以表示目标属于A类别和B类别的概率,例如第一类别分值为(0.7,0.3),则表示目标属于A类别的概率为70%,目标属于B类别的概率为30%。应当理解,前述示例仅用于理解本方案,具体第一候选框预测位置以及第一类别分值均应当结合实际情况灵活确定。
205、基于候选框,通过目标检测模型所包括的第二检测网络获取第二候选框预测位置以及第二类别分值;
本实施例中,目标检测装置还可以将候选框输入至目标检测模型所包括的第二检测网络,通过第二检测网络可以输出第二候选框预测位置以及第二类别分值。第二候选框预测位置以及第二类别分值与前述第一候选框预测位置以及第一类别分值类似,在此不再赘述。可以理解的是,本实施例仅介绍了通过第一检测网络以及第二检测网络得到对应候选框预测位置以及类别分值,在实际应用中,目标检测模型中还可以包括第三检测网络或者第四检测网络,与前述方法类似,也可以得到候选框预测位置以及类别分值,因此目标检测模型所包括的检测网络数量不应理解为本申请的限定。
206、根据候选框、第一候选框预测位置、第一类别分值、第二候选框预测位置以及第二类别分值,确定待检测图像的目标框以及目标分类结果。
本实施例中,目标检测装置可以根据候选框、第一候选框预测位置、第一类别分值、第二候选框预测位置以及第二类别分值,确定待检测图像的目标框以及目标分类结果,确定待检测图像的目标框以及目标分类结果。具体地,待检测图像的目标框可以为候选框基于第一候选框预测位置以及第二候选框预测位置两者的求和的平均值确定的,假设,候选框的尺寸为128*128,第一候选框预测位置为(0,10,8,4),第二候选框预测位置为(2,10,6,6),两者之和的平均值为(1,10,7,5),因此可以得到尺寸为128*128,且位置在(1,10,7,5)的目标框,其中,1表示目标框的左上顶点的x坐标为1,10表示目标框在左上顶点的y坐标为10,7表示目标框的宽度为7,5表示目标框的高度为5。待检测图像的目标分类结果可以为第一类别分值以及第二类别分值两者之和的平均值确定的,例如存在A类别和B类别,假设第一类别分值为(0.7,0.3),第二类别分值为(0.8,0.2),两者之和的平均值可以为(0.75,0.25),由此可见,目标属于A类别的概率为最大概率,因此目标分类结果可以表示为目标属于A类别。应当理解,前述示例仅用于理解本方案,具体目标框以及目标分类结果均应当结合实际情况灵活确定。
本申请实施例中,提供了一种目标检测的方法,通过上述方式,由于目标检测模型在训练的过程中,需要基于不同的交并比阈值生成不同的样本集合,不同的样本集合用于训练不同的检测网络,以设置不同的交并比阈值来分别训练对应的检测网络,使得这些级联的检测网络能够更好地拟合目标所在的位置,提升目标检测的准确率。
下面对本申请中的模型训练装置进行详细描述,请参阅图16,图16为本申请实施例中模型训练装置一个实施例示意图,如图所示,模型训练装置30包括:
获取模块301,用于获取待训练图像,其中,待训练图像设置有目标框以及目标类别;
获取模块301,还用于通过目标检测模型,获取M个预测框以及M个类别预测概率,其中,类别预测概率与预测框具有一一对应的关系,M为大于或等于1的整数;
确定模块302,用于根据目标框、M个预测框以及M个类别预测概率确定样本集合,其中,样本集合至少包括第一样本集合以及第二样本集合,第一样本集合包括交并比大于或等于第一交并比阈值的正样本,第二样本集合包括交并比大于或等于第二交并比阈值的正样本,第一交并比阈值小于第二交并比阈值;
获取模块301,还用于基于第一样本集合,通过目标检测模型所包括的第一检测网络获取第一预测结果集合,其中,第一预测结果集合包括第一样本集合中每个样本所对应的类别分值以及候选框预测位置;
获取模块301,还用于基于第二样本集合,通过目标检测模型所包括的第二检测网络获取第二预测结果集合,其中,第二预测结果集合包括第二样本集合中每个样本所对应的类别分值以及候选框预测位置;
训练模块303,用于根据样本集合、第一预测结果集合以及第二预测结果集合,对目标检测模型进行训练。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于待训练图像,通过目标检测模型所包括的第一网络获取图像卷积特征;
基于图像卷积特征,通过目标检测模型所包括的第二网络获取M个预测框以及M个类别预测概率。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于待训练图像,通过第一网络中的卷积层获取第一图像特征;
基于第一图像特征,通过第一网络中的第一残差模块获取第二图像特征;
基于第二图像特征,通过第一网络中的第二残差模块获取第三图像特征;
基于第三图像特征,通过第一网络中的至少一个第一残差网络以及至少一个第二残差网络,获取图像卷积特征。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于第一图像特征,通过第一残差模块所包括的第一卷积层获取第一卷积特征;
基于第一图像特征,通过第一残差模块所包括的第二卷积层获取第二卷积特征;
基于第二卷积特征,通过第一残差模块所包括的第三卷积层获取第三卷积特征;
基于第三卷积特征,通过第一残差模块所包括的第四卷积层获取第四卷积特征;
根据第一卷积特征以及第四卷积特征,生成第二图像特征。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于第二图像特征,通过第二残差模块所包括的第一卷积层获取第五卷积特征;
基于第五卷积特征,通过第二残差模块所包括的第二卷积层获取第六卷积特征;
基于第六卷积特征,通过第二残差模块所包括的第三卷积层获取第七卷积特征;
根据第二图像特征以及第七卷积特征,生成第三图像特征。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
确定模块302,具体用于根据M个类别预测概率,从M个预测框中确定N个预测框作为候选框,以得到N个候选框,其中,候选框所对应的类别预测概率大于或等于类别概率门限,N为大于或等于1,且小于或等于M的整数;
根据N个候选框确定每个候选框与目标框之间的交并比;
根据每个候选框与目标框之间的交并比,获取第一样本集合,其中,第一样本集合包括第一正样本以及负样本;
根据每个候选框与目标框之间的交并比,获取第二样本集合,其中,第二样本集合包括第二正样本以及负样本。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
确定模块302,具体用于若类别预测概率大于或等于类别概率门限,则将类别预测概率所对应的预测框确定为候选框,其中,类别预测概率属于M个类别预测概率,候选框属于N个候选框;
若类别预测概率小于类别概率门限,则从M个预测框中剔除类别预测概率所对应的预测框。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于若候选框与目标框之间的交并比大于或等于第一交并比阈值,则将候选框所对应的样本确定为第一样本集合中的第一正样本;
若候选框与目标框之间的交并比小于第三交并比阈值,则将候选框所对应的样本确定为第一样本集合中的负样本,其中,第三交并比阈值小于第一交并比阈值;
获取模块301,具体用于若候选框与目标框之间的交并比大于或等于第二交并比阈值,则将候选框所对应的样本确定为第二样本集合中的第二正样本;
若候选框与目标框之间的交并比小于第三交并比阈值,则将候选框所对应的样本确定为第二样本集合中的负样本,其中,第三交并比阈值小于第二交并比阈值。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块301,具体用于基于第一样本集合中的第一样本,通过第一池化层获取第一特征向量,其中,第一样本为第一样本集合中的正样本或负样本;
基于第一特征向量,通过第一检测网络获取第一样本所对应的第一预测结果,其中,第一预测结果包括第一类别分值以及第一候选框预测位置;
获取模块301,具体用于基于第二样本集合中的第二样本,通过第二池化层获取第二特征向量,其中,第二样本为第二样本集合中的正样本或负样本;
基于第二特征向量,通过第二检测网络获取第二样本所对应的第二预测结果,其中,第二预测结果包括第二类别分值以及第二候选框预测位置。
可选地,在上述图16所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
训练模块303,具体用于根据第一样本集合以及第一预测结果集合,采用第一损失函数对第一检测网络的第一模型参数进行更新;
根据目标框以及第一预测结果集合,采用第二损失函数对第一检测网络的第二模型参数进行更新;
根据第二样本集合以及第二预测结果集合,采用第一损失函数对第二检测网络的第三模型参数进行更新;
根据目标框以及第二预测结果集合,采用第二损失函数对第二检测网络的第四模型参数进行更新。
下面对本申请中的目标检测装置进行详细描述,请参阅图17,图17为本申请实施例中目标检测装置一个实施例示意图,如图所示,目标检测装置40包括:
获取模块401,用于基于待检测图像,通过目标检测模型所包括的第一网络获取图像卷积特征,其中,目标检测模型为采用上述实施例提供的模型训练的方法训练得到的;
获取模块401,还用于基于图像卷积特征,通过目标检测模型所包括的第二网络获取预测框以及类别预测概率,其中,类别预测概率与预测框具有一一对应的关系;
确定模块402,用于若类别预测概率大于或等于类别概率门限,则将预测框确定为候选框;
获取模块401,还用于基于候选框,通过目标检测模型所包括的第一检测网络获取第一候选框预测位置以及第一类别分值;
获取模块401,还用于基于候选框,通过目标检测模型所包括的第二检测网络获取第二候选框预测位置以及第二类别分值;
确定模块402,还用于根据候选框、第一候选框预测位置、第一类别分值、第二候选框预测位置以及第二类别分值,确定待检测图像的目标框以及目标分类结果。
本申请实施例还提供了另一种模型训练装置以及目标检测装置,模型训练装置以及目标检测装置都可以部署于计算机设备,该计算机设备可以服务器,也可以部署于终端设备。本申请中以模型训练装置以及目标检测装置部署于计算机设备为例进行说明,请参阅图18,图18为本申请实施例中计算机设备一个实施例示意图,如图所示,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在计算机设备500上执行存储介质530中的一系列指令操作。
计算机设备500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由计算机设备所执行的步骤可以基于该图18所示的计算机设备结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例的步骤。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述各个实施例的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种模型训练的方法,其特征在于,包括:
获取待训练图像,其中,所述待训练图像设置有目标框以及目标类别;
通过目标检测模型,获取M个预测框以及M个类别预测概率,其中,所述类别预测概率与所述预测框具有一一对应的关系,所述M为大于或等于1的整数;
根据所述目标框、所述M个预测框以及M个类别预测概率确定样本集合,并基于不同的交并比阈值生成不同的样本集合,其中,所述样本集合至少包括第一样本集合以及第二样本集合,所述第一样本集合包括交并比大于或等于第一交并比阈值的正样本,所述第二样本集合包括所述交并比大于或等于第二交并比阈值的正样本,所述第一交并比阈值小于所述第二交并比阈值;
基于所述第一样本集合,通过所述目标检测模型所包括的第一检测网络获取第一预测结果集合,其中,所述第一预测结果集合包括所述第一样本集合中每个样本所对应的类别分值以及候选框预测位置;
基于所述第二样本集合,通过所述目标检测模型所包括的第二检测网络获取第二预测结果集合,其中,所述第二预测结果集合包括所述第二样本集合中每个样本所对应的类别分值以及候选框预测位置;
根据所述样本集合、所述第一预测结果集合以及所述第二预测结果集合,对所述目标检测模型进行训练,其中,所述第一样本集合和所述第一预测结果集合用于对所述第一检测网络进行训练,所述第二样本集合和所述第二预测结果集合用于对所述第二检测网络进行训练,所述第一检测网络与所述第二检测网络不同,所述第一检测网络与所述第二检测网络级联。
2.根据权利要求1所述的模型训练的方法,所述通过所述目标检测模型,获取M个预测框以及M个类别预测概率,包括:
基于所述待训练图像,通过所述目标检测模型所包括的第一网络获取图像卷积特征;
基于所述图像卷积特征,通过所述目标检测模型所包括的第二网络获取M个预测框以及M个类别预测概率。
3.根据权利要求2所述的模型训练的方法,其特征在于,所述基于所述待训练图像,通过所述目标检测模型所包括的第一网络获取图像卷积特征,包括:
基于所述待训练图像,通过所述第一网络中的卷积层获取第一图像特征;
基于所述第一图像特征,通过所述第一网络中的第一残差模块获取第二图像特征;
基于所述第二图像特征,通过所述第一网络中的第二残差模块获取第三图像特征;
基于所述第三图像特征,通过所述第一网络中的至少一个所述第一残差模块以及至少一个所述第二残差模块,获取所述图像卷积特征。
4.根据权利要求3所述的模型训练的方法,其特征在于,所述基于所述第一图像特征,通过所述第一网络中的第一残差模块获取第二图像特征,包括:
基于所述第一图像特征,通过所述第一残差模块所包括的第一卷积层获取第一卷积特征;
基于所述第一图像特征,通过所述第一残差模块所包括的第二卷积层获取第二卷积特征;
基于所述第二卷积特征,通过所述第一残差模块所包括的第三卷积层获取第三卷积特征;
基于所述第三卷积特征,通过所述第一残差模块所包括的第四卷积层获取第四卷积特征;
根据所述第一卷积特征以及所述第四卷积特征,生成所述第二图像特征。
5.根据权利要求3所述的模型训练的方法,其特征在于,所述基于所述第二图像特征,通过所述第一网络中的第二残差模块获取第三图像特征,包括:
基于所述第二图像特征,通过所述第二残差模块所包括的第一卷积层获取第五卷积特征;
基于所述第五卷积特征,通过所述第二残差模块所包括的第二卷积层获取第六卷积特征;
基于所述第六卷积特征,通过所述第二残差模块所包括的第三卷积层获取第七卷积特征;
根据所述第二图像特征以及所述第七卷积特征,生成所述第三图像特征。
6.根据权利要求1所述的模型训练的方法,其特征在于,所述根据所述目标框、所述M个预测框以及M个类别预测概率确定样本集合,包括:
根据所述M个类别预测概率,从所述M个预测框中确定N个预测框作为候选框,以得到N个候选框,其中,所述候选框所对应的类别预测概率大于或等于类别概率门限,所述N为大于或等于1,且小于或等于所述M的整数;
根据所述N个候选框确定每个候选框与所述目标框之间的交并比;
根据所述每个候选框与所述目标框之间的交并比,获取所述第一样本集合,其中,所述第一样本集合包括第一正样本以及负样本;
根据所述每个候选框与所述目标框之间的交并比,获取所述第二样本集合,其中,所述第二样本集合包括第二正样本以及负样本。
7.根据权利要求6所述的模型训练的方法,其特征在于,所述根据所述M个类别预测概率,从所述M个预测框中确定N个候选框,包括:
若类别预测概率大于或等于所述类别概率门限,则将所述类别预测概率所对应的预测框确定为候选框,其中,所述类别预测概率属于所述M个类别预测概率,所述候选框属于所述N个候选框;
若类别预测概率小于所述类别概率门限,则从所述M个预测框中剔除所述类别预测概率所对应的预测框。
8.根据权利要求6所述的模型训练的方法,其特征在于,所述根据所述每个候选框与所述目标框之间的交并比,获取所述第一样本集合,包括:
若候选框与所述目标框之间的交并比大于或等于所述第一交并比阈值,则将所述候选框所对应的样本确定为所述第一样本集合中的第一正样本;
若候选框与所述目标框之间的交并比小于第三交并比阈值,则将所述候选框所对应的样本确定为所述第一样本集合中的负样本,其中,所述第三交并比阈值小于所述第一交并比阈值;
所述根据所述每个候选框与所述目标框之间的交并比,获取所述第二样本集合,包括:
若候选框与所述目标框之间的交并比大于或等于所述第二交并比阈值,则将所述候选框所对应的样本确定为所述第二样本集合中的第二正样本;
若候选框与所述目标框之间的交并比小于所述第三交并比阈值,则将所述候选框所对应的样本确定为所述第二样本集合中的负样本,其中,所述第三交并比阈值小于所述第二交并比阈值。
9.根据权利要求1所述的模型训练的方法,其特征在于,所述基于所述第一样本集合,通过所述目标检测模型所包括的第一检测网络获取第一预测结果集合,包括:
基于所述第一样本集合中的第一样本,通过第一池化层获取第一特征向量,其中,所述第一样本为所述第一样本集合中的正样本或负样本;
基于所述第一特征向量,通过所述第一检测网络获取所述第一样本所对应的第一预测结果,其中,所述第一预测结果包括第一类别分值以及第一候选框预测位置;
所述基于所述第二样本集合,通过所述目标检测模型所包括的第二检测网络获取第二预测结果集合,包括:
基于所述第二样本集合中的第二样本,通过第二池化层获取第二特征向量,其中,所述第二样本为所述第二样本集合中的正样本或负样本;
基于所述第二特征向量,通过所述第二检测网络获取所述第二样本所对应的第二预测结果,其中,所述第二预测结果包括第二类别分值以及第二候选框预测位置。
10.根据权利要求1至9中任一项所述的模型训练的方法,其特征在于,所述根据所述样本集合、所述第一预测结果集合以及所述第二预测结果集合,对所述目标检测模型进行训练,包括:
根据所述第一样本集合以及所述第一预测结果集合,采用第一损失函数对所述第一检测网络的第一模型参数进行更新;
根据所述目标框以及所述第一预测结果集合,采用第二损失函数对所述第一检测网络的第二模型参数进行更新;
根据所述第二样本集合以及所述第二预测结果集合,采用所述第一损失函数对所述第二检测网络的第三模型参数进行更新;
根据所述目标框以及所述第二预测结果集合,采用所述第二损失函数对所述第二检测网络的第四模型参数进行更新。
11.一种目标检测的方法,其特征在于,包括:
基于待检测图像,通过目标检测模型所包括的第一网络获取图像卷积特征,其中,所述目标检测模型为采用上述权利要求1至10中任一项所述的方法训练得到的;
基于所述图像卷积特征,通过所述目标检测模型所包括的第二网络获取预测框以及类别预测概率,其中,所述类别预测概率与所述预测框具有一一对应的关系;
若所述类别预测概率大于或等于类别概率门限,则将预测框确定为候选框;
基于所述候选框,通过所述目标检测模型所包括的第一检测网络获取第一候选框预测位置以及第一类别分值;
基于所述候选框,通过所述目标检测模型所包括的第二检测网络获取第二候选框预测位置以及第二类别分值;
根据所述候选框、所述第一候选框预测位置、所述第一类别分值、所述第二候选框预测位置以及所述第二类别分值,确定所述待检测图像的目标框以及目标分类结果。
12.一种模型训练装置,其特征在于,包括:
获取模块,用于获取待训练图像,其中,所述待训练图像设置有目标框以及目标类别;
所述获取模块,还用于通过目标检测模型,获取M个预测框以及M个类别预测概率,其中,所述类别预测概率与所述预测框具有一一对应的关系,所述M为大于或等于1的整数;
确定模块,用于根据所述目标框、所述M个预测框以及M个类别预测概率确定样本集合,并基于不同的交并比阈值生成不同的样本集合,其中,所述样本集合至少包括第一样本集合以及第二样本集合,所述第一样本集合包括交并比大于或等于第一交并比阈值的正样本,所述第二样本集合包括所述交并比大于或等于第二交并比阈值的正样本,所述第一交并比阈值小于所述第二交并比阈值;
所述获取模块,还用于基于所述第一样本集合,通过所述目标检测模型所包括的第一检测网络获取第一预测结果集合,其中,所述第一预测结果集合包括所述第一样本集合中每个样本所对应的类别分值以及候选框预测位置;
所述获取模块,还用于基于所述第二样本集合,通过所述目标检测模型所包括的第二检测网络获取第二预测结果集合,其中,所述第二预测结果集合包括所述第二样本集合中每个样本所对应的类别分值以及候选框预测位置;
训练模块,用于根据所述样本集合、所述第一预测结果集合以及所述第二预测结果集合,对所述目标检测模型进行训练,其中,所述第一样本集合和所述第一预测结果集合用于对所述第一检测网络进行训练,所述第二样本集合和所述第二预测结果集合用于对所述第二检测网络进行训练,所述第一检测网络与所述第二检测网络不同,所述第一检测网络与所述第二检测网络级联。
13.一种目标检测装置,其特征在于,包括:
获取模块,用于基于待检测图像,通过目标检测模型所包括的第一网络获取图像卷积特征,其中,所述目标检测模型为采用上述权利要求1至10中任一项所述的方法训练得到的;
所述获取模块,还用于基于所述图像卷积特征,通过所述目标检测模型所包括的第二网络获取预测框以及类别预测概率,其中,所述类别预测概率与所述预测框具有一一对应的关系;
确定模块,用于若所述类别预测概率大于或等于类别概率门限,则将预测框确定为候选框;
所述获取模块,还用于基于所述候选框,通过所述目标检测模型所包括的第一检测网络获取第一候选框预测位置以及第一类别分值;
所述获取模块,还用于基于所述候选框,通过所述目标检测模型所包括的第二检测网络获取第二候选框预测位置以及第二类别分值;
所述确定模块,还用于根据所述候选框、所述第一候选框预测位置、所述第一类别分值、所述第二候选框预测位置以及所述第二类别分值,确定所述待检测图像的目标框以及目标分类结果。
14.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现权利要求1至10中任一项所述的方法,或,实现权利要求11所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至10中任一项所述的方法,或,执行如权利要求11所述的方法。
CN202010219680.1A 2020-03-25 2020-03-25 一种模型训练的方法、目标检测的方法、装置及存储介质 Active CN111444828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010219680.1A CN111444828B (zh) 2020-03-25 2020-03-25 一种模型训练的方法、目标检测的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010219680.1A CN111444828B (zh) 2020-03-25 2020-03-25 一种模型训练的方法、目标检测的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111444828A CN111444828A (zh) 2020-07-24
CN111444828B true CN111444828B (zh) 2023-06-20

Family

ID=71648762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010219680.1A Active CN111444828B (zh) 2020-03-25 2020-03-25 一种模型训练的方法、目标检测的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111444828B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111744187B (zh) * 2020-08-10 2022-04-15 腾讯科技(深圳)有限公司 一种游戏数据处理方法、装置、计算机及可读存储介质
CN114170642A (zh) * 2020-09-09 2022-03-11 成都鼎桥通信技术有限公司 图像检测的处理方法、装置、设备及存储介质
CN112580731B (zh) * 2020-12-24 2022-06-24 深圳市对庄科技有限公司 翡翠产品识别方法、系统、终端、计算机设备及存储介质
CN112906621A (zh) * 2021-03-10 2021-06-04 北京华捷艾米科技有限公司 一种手部检测方法、装置、存储介质和设备
CN113052217A (zh) * 2021-03-15 2021-06-29 上海云从汇临人工智能科技有限公司 预测结果标识及其模型训练方法、装置及计算机存储介质
CN112870721B (zh) * 2021-03-16 2023-07-14 腾讯科技(深圳)有限公司 一种游戏互动方法、装置、设备及存储介质
CN113128575B (zh) * 2021-04-01 2022-03-11 西安电子科技大学广州研究院 一种基于软标签的目标检测样本平衡方法
CN113159209A (zh) * 2021-04-29 2021-07-23 深圳市商汤科技有限公司 目标检测方法、装置、设备和计算机可读存储介质
CN113344628A (zh) * 2021-06-04 2021-09-03 网易(杭州)网络有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN115705678A (zh) * 2021-08-09 2023-02-17 腾讯科技(深圳)有限公司 一种图像数据处理方法、计算机设备以及介质
CN114399719B (zh) * 2022-03-25 2022-06-17 合肥中科融道智能科技有限公司 一种变电站火灾视频监测方法
CN115100419B (zh) * 2022-07-20 2023-02-21 中国科学院自动化研究所 目标检测方法、装置、电子设备及存储介质
CN115908498B (zh) * 2022-12-27 2024-01-02 清华大学 一种基于类别最优匹配的多目标跟踪方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084313A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110503112A (zh) * 2019-08-27 2019-11-26 电子科技大学 一种增强特征学习的小目标检测及识别方法
CN110889421A (zh) * 2018-09-07 2020-03-17 杭州海康威视数字技术股份有限公司 目标物检测方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818571B (zh) * 2017-12-11 2018-07-20 珠海大横琴科技发展有限公司 基于深度学习网络和均值漂移的船只自动跟踪方法及系统
CN110276362A (zh) * 2018-03-13 2019-09-24 富士通株式会社 训练图像模型的方法和装置以及分类预测方法和装置
CN108710868B (zh) * 2018-06-05 2020-09-04 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测系统及方法
CN110895662A (zh) * 2018-09-12 2020-03-20 杭州海康威视数字技术股份有限公司 车辆超载报警方法、装置、电子设备及存储介质
CN110570389B (zh) * 2018-09-18 2020-07-17 阿里巴巴集团控股有限公司 车辆损伤识别方法及装置
CN109558902A (zh) * 2018-11-20 2019-04-02 成都通甲优博科技有限责任公司 一种快速目标检测方法
CN109614990A (zh) * 2018-11-20 2019-04-12 成都通甲优博科技有限责任公司 一种目标检测装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889421A (zh) * 2018-09-07 2020-03-17 杭州海康威视数字技术股份有限公司 目标物检测方法及装置
CN110084313A (zh) * 2019-05-05 2019-08-02 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110503112A (zh) * 2019-08-27 2019-11-26 电子科技大学 一种增强特征学习的小目标检测及识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Training Efficient Saliency Prediction Models with Knowledge Distillation;Zhang, P等;《ACM》;第1-3页 *
基于小样本学习的目标匹配研究;柳青林;《中国优秀硕士学位论文全文数据库 信息科技辑》(第2期);第I138-1630页 *

Also Published As

Publication number Publication date
CN111444828A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444828B (zh) 一种模型训练的方法、目标检测的方法、装置及存储介质
CN107808143B (zh) 基于计算机视觉的动态手势识别方法
EP4002198A1 (en) Posture acquisition method and device, and key point coordinate positioning model training method and device
CN110084173B (zh) 人头检测方法及装置
CN111062429A (zh) 基于深度学习的厨师帽和口罩佩戴的检测方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN111652121A (zh) 一种表情迁移模型的训练方法、表情迁移的方法及装置
CN111754396B (zh) 脸部图像处理方法、装置、计算机设备和存储介质
CN111222486B (zh) 手部姿态识别模型的训练方法、装置、设备及存储介质
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN112101329B (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN114758362B (zh) 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
CN112827168B (zh) 一种目标跟踪的方法、装置及存储介质
Yi et al. Motion keypoint trajectory and covariance descriptor for human action recognition
CN111401192A (zh) 基于人工智能的模型训练方法和相关装置
CN111126515B (zh) 基于人工智能的模型训练方法和相关装置
Geng et al. An improved helmet detection method for YOLOv3 on an unbalanced dataset
CN113516113A (zh) 一种图像内容识别方法、装置、设备及存储介质
CN110807379A (zh) 一种语义识别方法、装置、以及计算机存储介质
WO2022152009A1 (zh) 目标检测方法、装置、设备以及存储介质
Zhou Feature extraction of human motion video based on virtual reality technology
Sun et al. Human movement recognition in dancesport video images based on chaotic system equations
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN111353325A (zh) 关键点检测模型训练方法及装置
CN113011326A (zh) 图像处理方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025894

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant