CN113221769B - 识别模型训练方法、识别方法、装置、设备及存储介质 - Google Patents
识别模型训练方法、识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113221769B CN113221769B CN202110542218.XA CN202110542218A CN113221769B CN 113221769 B CN113221769 B CN 113221769B CN 202110542218 A CN202110542218 A CN 202110542218A CN 113221769 B CN113221769 B CN 113221769B
- Authority
- CN
- China
- Prior art keywords
- model
- sample
- anchor
- identification
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims description 8
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Ophthalmology & Optometry (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了识别模型训练方法、识别方法、装置、设备及存储介质,涉及计算机视觉、深度学习等。具体实现方案为:将包括目标物体的待识别图像输入待训练的识别模型,获得包围所述目标物体的多个锚点框;根据设定的交并比阈值、所述锚点框和设定的目标框,在所述多个锚点框中确定第一样本;根据所述第一样本和所述第一样本对应的权重,确定所述待训练的识别模型中的第一模型识别分支的第一损失值;根据所述第一损失值,优化所述第一模型识别分支,直至所述第一模型识别分支满足设定条件。本公开实施例能够提高识别模型训练的准确性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及计算机视觉、深度学习等技术领域。
背景技术
目标识别是图像处理的一个重要的手段和目的,通过目标识别,可以对视频、静态画面中的物体、人体、动物体等目标物体进行识别,根据识别结果实现身份认证、安全检查等多种用途。
根据目标物体与拍摄装置距离远近、镜头远近程度的不同,目标物体在视频或静态图像中所呈现的大小也有所不同。由于图像中的目标识别应用场合越来越多,对识别结果的准确性要求也越来越高。
发明内容
本公开提供了一种识别模型训练方法、识别方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种识别模型训练方法,包括:
将包括目标物体的待识别图像输入待训练的识别模型,获得包围目标物体的多个锚点框;
根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第一样本;
根据第一样本和第一样本对应的权重,确定待训练的识别模型中的第一模型识别分支的第一损失值;
根据第一损失值,优化第一模型识别分支,直至第一模型识别分支满足设定条件。
根据本公开的另一方面,提供了一种识别方法,包括:
将包括目标物体的待识别图像输入识别模型;识别模型为本公开任意一项实施例所提供的优化后的识别模型;
获得识别模型根据待识别图像输出的包围目标物体的多个锚点框;
根据多个锚点框,获得目标物体的识别结果。
根据本公开的另一方面,提供了一种识别模型训练装置,包括:
锚点框模块,用于将包括目标物体的待识别图像输入待训练的识别模型,获得包围目标物体的多个锚点框;
第一样本模块,用于根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第一样本;
第一损失值模块,用于根据第一样本和第一样本对应的权重,确定待训练的识别模型中的第一模型识别分支的第一损失值;
第一优化模块,用于根据第一损失值,优化第一模型识别分支,直至第一模型识别分支满足设定条件。
根据本公开的另一方面,提供了一种识别装置,包括:
输入模块,用于将包括目标物体的待识别图像输入识别模型;识别模型为本公开任意一项实施例所提供的优化后的识别模型;
识别模块,用于获得识别模型根据待识别图像输出的包围目标物体的多个锚点框;
结果模块,用于根据多个锚点框,获得目标物体的识别结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术,能够根据第一样本,确定对应的权重,从而使得不同的样本计算损失值时的权重不同,对优化模型起到的贡献程度不同。进而能够提高模型训练的准确性,使得模型能够获得更精确的优化信息,得到更准确的优化效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的识别模型训练方法示意图;
图2是根据本公开另一实施例的识别模型训练方法示意图;
图3是根据本公开一实施例的识别方法示意图;
图4是根据本公开一示例的识别模型训练方法示意图;
图5是根据本公开一示例的锚点框和目标框示意图;
图6是根据本公开一示例的待训练的识别模型数据处理示意图;
图7是根据本公开一实施例的识别模型训练装置示意图;
图8是根据本公开另一实施例的识别模型训练装置示意图;
图9是根据本公开又一实施例的识别模型训练装置示意图;
图10是根据本公开又一实施例的识别模型训练装置示意图;
图11是根据本公开又一实施例的识别模型训练装置示意图;
图12是用来实现本公开实施例的识别模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例首先提供一种识别模型训练方法,如图1所示,包括:
步骤S11:将包括目标物体的待识别图像输入待训练的识别模型,获得包围目标物体的多个锚点框;
步骤S12:根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第一样本;
步骤S13:根据第一样本和第一样本对应的权重,确定待训练的识别模型中的第一模型识别分支的第一损失值;
步骤S14:根据第一损失值,优化第一模型识别分支,直至第一模型识别分支满足设定条件。
本实施例中,包括目标物体的待识别图像可以是包含任意需要识别的物体的图像,比如,包括人脸的图像,包括人体的图像,包括人眼的图像等。
在一种实现方式中,锚点框可以是包围目标物体的方框,针对一个待识别图像中的同一个目标物体,待训练的识别模型可以输出多个包围目标物体的锚点框。每个锚点框可以包围全部或部分的目标物体。
在一种实现方式中,在多个锚点框中确定第一样本,具体可以是在多个锚点框中确定至少一个锚点框,作为至少一种样本。至少一种样本中的一种样本,可以用于确定用于优化待训练的识别模型的一个分支。至少一种样本中的两种以上样本的组合,可用于确定用于优化待训练的识别模型的另一个分支。
本实施例中,可针对同一个目标物体设置同一个设定的目标框。比如,在待识别图像中存在A、B两个目标物体,则针对目标物体A设置一个目标框,针对目标物体B设置另一个目标框。设定的目标框可以为目标物体标定的参考框(比如矩形框、圆形框等),能够位于目标物体所在的位置,以标注的数据,按照参考方式圈定目标物体,生成目标框。
在一种实现方式中,每一种第一样本可对应于一个权重值。或者,各个不同的样本可对应不同的权重值。
在另一种实现方式中,第一样本可以对应于一种样本或一个样本。
在另一种实现方式中,用于计算待训练的识别模型设定分支的损失值的样本,可以对应一个权重值。具体例如,识别待识别图像的待训练的识别模型可包括用于获得锚点框大小信息的回归分支,以及用于获得锚点框位置信息的分类分支。可针对用于训练回归分支的样本设置一个权重值,针对用于训练分类分支的样本设置另一个权重值。
根据第一损失值,优化第一模型识别分支,可以是根据样本或样本对,确定需要优化的模型识别分支,根据模型识别分支,确定对应的权重,在根据样本或样本对计算损失时,在整体的损失计算结果的基础上,乘以权重。
在第一样本包括两种或多种样本的情况下,根据第一损失值,优化第一模型识别分支,可以是根据第一损失值,优化对应的模型分支在待训练的识别模型中所有相关模块、网络和子网络。
本实施例中,可在待训练的识别模型的所有模型识别分支优化至设定程度的情况下的识别模型作为训练后的识别模型。
在一种实现方式中,可仅对第一模型识别分支的样本设定权重,对其它模型识别分支所使用的样本不设定权重。这种情况下,识别模型训练方法还包括:根据其它模型识别分支对应的样本计算损失值并优化其它模型识别分支。
在另一种实现方式中,可根据样本的种类设置权重,即,可以针对一种特定的样本设定权重。后续,无论该种样本用于优化或训练模型中的哪个分支,均可结合设定的权重进行损失值。
本实施例中,能够根据第一样本,确定对应的权重,从而使得不同的样本计算损失值时权重不同,进而能够提高模型训练的准确性,使得模型能够获得更精确的优化信息,得到更准确的优化效果。
在一种实施方式中,第一样本为正样本;正样本对应的权重,与正样本和设定的目标框的重合程度正相关;第一模型识别分支为待训练的识别模型的回归分支。
本实施例中,正样本为待训练的识别模型输出的锚点框中的至少一个。
在正样本中包括待训练的识别模型输出的锚点框中的两个以上的情况下,不同的正样本的锚点框可对应不同的权重。
在正样本对应设置权重的情况下,可针对每个正样本计算损失值,将损失值乘以权重,根据所有正样本的损失值,获得待训练的识别模型的回归分支的第一损失值,根据第一损失值,优化待训练的识别模型。
在正样本对应设置权重的情况下,可针对每个正样本计算损失值,将损失值乘以权重,根据每个正样本的损失值,分别获得第一损失值,根据每个正样本的第一损失值,分别优化待训练的识别模型。
本实施例中,待训练的识别模型的回归分支可用于确定锚点框的大小信息。
本公开实施例可以应用于人脸检测,即目标物体可以为人脸。在用于人脸识别的识别模型中,可细分出两个模型识别分支,即分类分支和回归分支。通过分类分支来确定是否存在目标物体,通过回归分支来确定物体经过编码后的锚点框中心坐标以及宽和高。针对这两个模型分支,需通过正样本和负样本中的至少一个来进行优化。一般情况下,由于负样本太多,可通过在线难样本挖掘策略(OHEM,Online Hard Example Mining)等策略来选择一定比例的负样本来和正样本来计算分类损失。而正样本在编码后直接和预测值参与计算回归分支的损失;通过损失函数将损失相加计算得到梯度,来优化回归分支的参数。然而直接计算回归损失的做法,待训练的识别模型的回归分支只能学习到一个次优的模型参数。因为锚点框的交并比(IOU,Intersection over Union)只要大于阈值,该锚点框即被判定为正样本,就可直接回归锚点框,根据锚点框对回归分支进行优化。这个过程中忽略了不同锚点框和目标框的匹配程度。而匹配程度较大的锚点框理应对待训练的识别模型的回归分支的优化的贡献更大。
本实施例在应用于人脸识别时,人脸识别的回归模型优化或训练所使用的正样本,具有对应的权重,从而正样本在优化人脸识别的待训练识别模型时,对回归分支的贡献程度有所区别,使得准确程度更高的正样本能够成为模型学习过程中重点参考的对象,提高模型参数的优化程度,使得模型训练和优化过程更加准确。
本实施例中,正样本对应的权重,与正样本和设定的目标框的重合程度正相关,从而使得与目标框重合程度高的正样本在模型训练过程中能够被待训练的识别模型给与更多注意力,使得训练后的识别模型的识别效果更佳准确。
在一种实施方式中,正样本对应的权重为根据设定的交并比阈值,以及锚点框和设定目标框的交并比计算获得的。
在一种实施方式中,可采用权重对正样本对应的交并比进行重新计算,根据重新计算后的交并比计算第一模型识别分支对应的损失值。也可以先根据每个正样本,计算对应的损失值,将损失值与权重相乘,根据乘以权重后的每个正样本的损失值,得到最终用于优化模型分支的损失值。
本实施例中,锚点框和目标框之间的交并比,可以是锚点框与目标框的交集和并集的区域面积的比值。
本实施例中,锚点框和目标框之间的交并比,体现了锚点框和目标框之间的重合程度,从而根据锚点框与目标框之间的交并比确定权重。本实施例中,无论是优化待训练的识别模型的分类分支还是回归分支都需要计算锚点框和预先设定的目标框之间的IOU,能够在样本区分所使用的交并比数据的基础上进行权重的计算,既能够提高模型训练效果,也能够减少计算量。
在一种实施方式中,根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第一样本,包括:
在锚点框和设定的目标框的交并比大于交并比阈值的情况下,确定锚点框为正样本。
本实施例中,根据交并比确定第一样本为正样本,从而在后续计算中能够根据正样本确定权重,进而得到优化待训练的识别模型的回归分支的损失值。
在一种实施方式中,如图2所示,识别模型训练方法还包括:
步骤S21:根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第二样本;
步骤S22:根据第一样本和第二样本,确定待训练的识别模型中的第二模型识别分支的第二损失值;
步骤S23:根据第二损失值,优化第二模型识别分支,直至第二模型识别分支满足设定条件。
本实施例中,在根据第一样本计算回归分支的损失值的情况下,根据每个正样本对应的交并比或重合程度,确定权重,根据权重计算用于优化回归分支的第一损失值。而对锚点框中的用于优化模型另外一类分支的样本,可直接根据样本确定第二损失值,采用第二损失值优化待训练的识别模型的另一个模型识别分支。
第二样本可以包含或被包含于第一样本。
根据第二损失值,优化第二模型识别分支,可以是优化待训练的识别模型中所有与第二模型识别分支有关的功能模块、网络、层等,包括与第一模型识别分支重合的部分结构。
本实施例中,可在待训练的模型内部计算损失值,也可在模型外部计算损失值后对待训练的模型进行优化或训练。
本实施例中,针对不同的样本,或者针对用于不同的待训练模型的分支的样本,可选择计算损失值时加上权重信息或者不加权重信息,从而可以在兼顾模型训练效果的情况下,尽量减少数据计算量,提高模型训练效率。
在一种实施方式中,第二样本为正样本和负样本;第二模型识别分支为待训练的识别模型的分类分支。
本实施中,第二样本可以为正样本和负样本构成的样本对。
待训练的识别模型的分类分支,可用于输出关于锚点框的位置信息,进一步,可用于输出关于锚点框是否为目标物体的信息。
本实施例中,根据正样本和负样本,对待训练的识别模型的分类分支进行优化,从而能够使得训练后的模型对目标物体判别能力提升。
在一种实施方式中,根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第二样本,包括:
在锚点框和设定的目标框的交并比大于交并比阈值的情况下,确定锚点框为正样本;
在锚点框和设定的目标框的交并比小于交并比阈值的情况下,确定锚点框为负样本。
本实施例中,在多个锚点框中确定至少一个正样本和至少一个负样本之后,可从中确定正样本和负样本对,作为第二样本。
本实施例中,能够根据交并比阈值和交并比,确定正样本和负样本,从而能够根据正样本和负样本,对待训练的识别模型中的第二模型识别分支进行优化。
本公开实施例还提供一种识别方法,如图3所示,包括:
步骤S31:将包括目标物体的待识别图像输入识别模型;识别模型为本公开任意一项实施例所提供的优化后的识别模型;
步骤S32:获得识别模型根据待识别图像输出的包围目标物体的多个锚点框;
步骤S33:根据多个锚点框,获得目标物体的识别结果。
本实施例中,根据多个锚点框,获得目标物体的识别结果,可以是根据各个锚点框对应的预测准确概率,确定其中概率较高的至少一个锚点框,作为识别结果。
本实施例能够采用训练后的识别模型对待识别图像进行识别,获得更为准确的识别结果。
在本公开一种示例中,识别模型训练方法包括如图4所示的步骤:
步骤S41:确定正负样本。
计算目标对象对应的设定目标框和锚点框之间的IOU,通过设定的交并比阈值(比如0.35)来区分正负样本。
步骤S42:针对正样本,把对应的IOU重新映射。
可采用下述公式进行交并比的重新映射:
步骤S43:计算回归分支的损失值。
将步骤S42的权重乘以下述smooth l1大小作为最终回归分支的损失大小,公式如下:
步骤S44:计算最终损失值。
则最终的损失函数计算公式如下:
total loss=α×cross entropy loss+β×smoothl1lossweight;
其中,α×cross entropy loss为第二模型识别分支的损失值。α、β为模型参数。
本公开示例中,利用IOU的信息计算损失值,对IOU做了重映射,最终使得不同的匹配的锚点框具有不同的动态权重。公式中,考虑到IOU小于1,直接使用IOU作为最终的权重大小,会弱化整个回归分支的效果,从而学习的模型表达能力欠佳。因此对匹配上锚点框的IOU做了重映射,对权重进行均衡的同时也保证了重合度高的锚点框对梯度(训练或优化过程)的贡献更大。
在本公开一种示例中,参照图5所示,假设目标框51与第一锚点框(anchor)52和第二锚点框53的交并比值分别为0.8、0.36,假设交并比阈值为0.35。假设第一锚点框52和第二锚点框53均为第一样本,第一锚点框52与目标框的重合程度更大,而第二锚点框53与目标框的重合程度较小,所以用给予第一锚点框51较大的权重、第二锚点框52较小的权重去回归目标大可以对两个交并比进行重映射得到weight1和weight2:
weight1=0.8/(1-0.35)=1.23;
weight2=0.36/(1-0.35)=0.55。
使用不同的锚点框去计算损失值的时候分别通过weight1、weight2调整第一锚点框和第二锚点框的贡献,网络能够学习到一个更优的效果。
本公开实施例在待训练的识别模型的回归分支计算损失(loss)的时候,根据交并比有差异对待不同锚点框对梯度的贡献,重合度较高的锚点框对梯度贡献就大,反之重合度较低的锚点框对梯度贡献就小,并且通过权重重新映射的方式来保证和分类分支权重均衡。
参照图6所示,在待训练的识别模型中,根据待识别图像获得输入数据61,将输入数据61经过识别模型的CNN(Convolutional Neural Networks,卷积神经网络)62,获得待识别图像中的目标物体的多个锚点框。根据锚点框和目标框,确定待训练的识别模型的分类分支63和回归分支4的损失值,根据分类分支63的损失值和回归分支64的损失值,对待训练的识别模型进行优化。在具体示例中,分类分支可用于确定区域是否为目标对象或区域中是否存在目标对象,回归分支可用于确定锚点框的数据。
本公开实施例提出的识别模型训练方法,能够根据锚点框和目标框的重合度从而自适应动态权重,去学习到更优的模型效果。
针对待训练的识别模型的回归分支任务,对不同重合度的框应用不同的权重,目标框和锚点框的重合度越高,对其则乘以越大权重,让其在回归目标的时候占据主导地位;当目标框和锚点框重合度较小,对其乘以较小的权重,让其在回归目标的时候占据次要地位。从而本公开实施例能够根据IOU信息去动态自适应权重大小,从而实现端到端的训练。
本公开实施例仅仅在训练阶段使用,并不会影响预测阶段的时间。因此,可以做到既增加网络整体表达效果又不影响网络的前向推理速度。
本公开实施例还提供一种识别模型训练装置,如图7所示,包括:
锚点框模块71,用于将包括目标物体的待识别图像输入待训练的识别模型,获得包围目标物体的多个锚点框;
第一样本模块72,用于根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第一样本;
第一损失值模块73,用于根据第一样本和第一样本对应的权重,确定待训练的识别模型中的第一模型识别分支的第一损失值;
第一优化模块74,用于根据第一损失值,优化第一模型识别分支,直至第一模型识别分支满足设定条件。
在一种实施方式中,第一样本为正样本;正样本对应的权重,与正样本和设定的目标框的重合程度正相关;第一模型识别分支为待训练的识别模型的回归分支。
在一种实施方式中,正样本对应的权重为根据设定的交并比阈值,以及锚点框和设定目标框的交并比计算获得的。
在一种实施方式中,如图8所示,第一样本模块包括:
第一正样本单元81,用于在锚点框和设定的目标框的交并比大于交并比阈值的情况下,确定锚点框为正样本。
在一种实施方式中,如图9所示,识别模型训练装置还包括:
第二样本模块91,用于根据设定的交并比阈值、锚点框和设定的目标框,在多个锚点框中确定第二样本;
第二损失值模块92,用于根据第一样本和第二样本,确定待训练的识别模型中的第二模型识别分支的第二损失值;
第二优化模块93,用于根据第二损失值,优化第二模型识别分支,直至第二模型识别分支满足设定条件。
在一种实施方式中,第二样本为正样本和负样本;第二模型识别分支为待训练的识别模型的分类分支。
在一种实施方式中,如图10所示,第二样本模块包括:
第二正样本单元101,用于在锚点框和设定的目标框的交并比大于交并比阈值的情况下,确定锚点框为正样本;
负样本单元102,用于在锚点框和设定的目标框的交并比小于交并比阈值的情况下,确定锚点框为负样本。
本公开实施例还提供一种识别装置,如图11所示,包括:
输入模块111,用于将包括目标物体的待识别图像输入识别模型;识别模型为本公开任意一项实施例所提供的优化后的识别模型;
识别模块112,用于获得识别模型根据待识别图像输出的包围目标物体的多个锚点框;
结果模块113,用于根据多个锚点框,获得目标物体的识别结果。
本公开实施例可以应用于计算机领域,尤其可应用于深度学习、计算机视觉等技术领域。
本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图12示出了可以用来实施本公开的实施例的示例电子设备120的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图12所示,电子设备120包括计算单元121,其可以根据存储在只读存储器(ROM)122中的计算机程序或者从存储单元128加载到随机访问存储器(RAM)123中的计算机程序来执行各种适当的动作和处理。在RAM 123中,还可存储电子设备120操作所需的各种程序和数据。计算单元121、ROM 122以及RAM 123通过总线124彼此相连。输入输出(I/O)接口125也连接至总线124。
电子设备120中的多个部件连接至I/O接口125,包括:输入单元126,例如键盘、鼠标等;输出单元127,例如各种类型的显示器、扬声器等;存储单元128,例如磁盘、光盘等;以及通信单元129,例如网卡、调制解调器、无线通信收发机等。通信单元129允许电子设备120通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元121可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元121的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元121执行上文所描述的各个方法和处理,例如识别模型训练方法。例如,在一些实施例中,识别模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元128。在一些实施例中,计算机程序的部分或者全部可以经由ROM 122和/或通信单元129而被载入和/或安装到电子设备120上。当计算机程序加载到RAM 123并由计算单元121执行时,可以执行上文描述的识别模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元121可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行识别模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种识别模型训练方法,包括:
将包括目标物体的待识别图像输入待训练的识别模型,获得包围所述目标物体的多个锚点框;
根据设定的交并比阈值、所述锚点框和设定的目标框,在所述多个锚点框中确定第一样本;
根据所述第一样本和所述第一样本对应的权重,确定所述待训练的识别模型中的第一模型识别分支的第一损失值;
根据所述第一损失值,优化所述第一模型识别分支,直至所述第一模型识别分支满足设定条件;
所述第一模型识别分支为所述待训练的识别模型的回归分支;
所述第一样本为正样本,在所述锚点框和所述设定的目标框的交并比大于所述交并比阈值的情况下,确定所述锚点框为所述正样本;
所述正样本对应的权重的计算方法为:
2.根据权利要求1中所述的方法,还包括:
根据设定的交并比阈值、所述锚点框和设定的目标框,在所述多个锚点框中确定第二样本;
根据所述第一样本和所述第二样本,确定所述待训练的识别模型中的第二模型识别分支的第二损失值;
根据所述第二损失值,优化所述第二模型识别分支,直至所述第二模型识别分支满足设定条件。
3.根据权利要求2所述的方法,其中,所述第二样本为正样本和负样本;所述第二模型识别分支为所述待训练的识别模型的分类分支。
4.根据权利要求3所述的方法,其中,所述根据设定的交并比阈值、所述锚点框和设定的目标框,在所述多个锚点框中确定第二样本,包括:
在所述锚点框和所述设定的目标框的交并比大于所述交并比阈值的情况下,确定所述锚点框为所述正样本;
在所述锚点框和所述设定的目标框的交并比小于所述交并比阈值的情况下,确定所述锚点框为所述负样本。
5.一种识别方法,包括:
将包括目标物体的待识别图像输入识别模型;所述识别模型为权利要求1-4中任意一项所述的优化后的识别模型;
获得所述识别模型根据所述待识别图像输出的包围所述目标物体的多个锚点框;
根据所述多个锚点框,获得目标物体的识别结果。
6.一种识别模型训练装置,包括:
锚点框模块,用于将包括目标物体的待识别图像输入待训练的识别模型,获得包围所述目标物体的多个锚点框;
第一样本模块,用于根据设定的交并比阈值、所述锚点框和设定的目标框,在所述多个锚点框中确定第一样本;
第一损失值模块,用于根据所述第一样本和所述第一样本对应的权重,确定所述待训练的识别模型中的第一模型识别分支的第一损失值;
第一优化模块,用于根据所述第一损失值,优化所述第一模型识别分支,直至所述第一模型识别分支满足设定条件;
其中,所述第一模型识别分支为所述待训练的识别模型的回归分支;
所述第一样本为正样本,所述第一样本模块具体用于:在所述锚点框和所述设定的目标框的交并比大于所述交并比阈值的情况下,确定所述锚点框为所述正样本;
所述正样本对应的权重的计算方法为:
7.根据权利要求6中所述的装置,还包括:
第二样本模块,用于根据设定的交并比阈值、所述锚点框和设定的目标框,在所述多个锚点框中确定第二样本;
第二损失值模块,用于根据所述第一样本和所述第二样本,确定所述待训练的识别模型中的第二模型识别分支的第二损失值;
第二优化模块,用于根据所述第二损失值,优化所述第二模型识别分支,直至所述第二模型识别分支满足设定条件。
8.根据权利要求7所述的装置,其中,所述第二样本为正样本和负样本;所述第二模型识别分支为所述待训练的识别模型的分类分支。
9.根据权利要求8所述的装置,其中,所述第二样本模块包括:
第二正样本单元,用于在所述锚点框和所述设定的目标框的交并比大于所述交并比阈值的情况下,确定所述锚点框为所述正样本;
负样本单元,用于在所述锚点框和所述设定的目标框的交并比小于所述交并比阈值的情况下,确定所述锚点框为所述负样本。
10.一种识别装置,包括:
输入模块,用于将包括目标物体的待识别图像输入识别模型;所述识别模型为权利要求6-9中任意一项所述的优化后的识别模型;
识别模块,用于获得所述识别模型根据所述待识别图像输出的包围所述目标物体的多个锚点框;
结果模块,用于根据所述多个锚点框,获得目标物体的识别结果。
11. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542218.XA CN113221769B (zh) | 2021-05-18 | 2021-05-18 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542218.XA CN113221769B (zh) | 2021-05-18 | 2021-05-18 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221769A CN113221769A (zh) | 2021-08-06 |
CN113221769B true CN113221769B (zh) | 2023-06-27 |
Family
ID=77092725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110542218.XA Active CN113221769B (zh) | 2021-05-18 | 2021-05-18 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221769B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989493A (zh) * | 2021-10-29 | 2022-01-28 | 平安科技(深圳)有限公司 | 基于atss的图像处理方法及其装置、电子设备、存储介质 |
CN114332933A (zh) * | 2021-12-29 | 2022-04-12 | 苏州臻迪智能科技有限公司 | 一种模型训练、手势识别方法、装置、设备及介质 |
CN114882321A (zh) * | 2022-05-30 | 2022-08-09 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、目标对象检测方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222780A (zh) * | 2019-06-12 | 2019-09-10 | 北京百度网讯科技有限公司 | 物体检测方法、装置、设备和存储介质 |
AU2020100705A4 (en) * | 2020-05-05 | 2020-06-18 | Chang, Jiaying Miss | A helmet detection method with lightweight backbone based on yolov3 network |
EP3703008A1 (en) * | 2019-02-26 | 2020-09-02 | Zenuity AB | Object detection and 3d box fitting |
CN111914944A (zh) * | 2020-08-18 | 2020-11-10 | 中国科学院自动化研究所 | 基于动态样本选择和损失一致性的物体检测方法和系统 |
CN112287977A (zh) * | 2020-10-06 | 2021-01-29 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112509008A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
CN112613462A (zh) * | 2020-12-29 | 2021-04-06 | 安徽大学 | 一种加权交并比方法 |
-
2021
- 2021-05-18 CN CN202110542218.XA patent/CN113221769B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3703008A1 (en) * | 2019-02-26 | 2020-09-02 | Zenuity AB | Object detection and 3d box fitting |
CN110222780A (zh) * | 2019-06-12 | 2019-09-10 | 北京百度网讯科技有限公司 | 物体检测方法、装置、设备和存储介质 |
AU2020100705A4 (en) * | 2020-05-05 | 2020-06-18 | Chang, Jiaying Miss | A helmet detection method with lightweight backbone based on yolov3 network |
CN111914944A (zh) * | 2020-08-18 | 2020-11-10 | 中国科学院自动化研究所 | 基于动态样本选择和损失一致性的物体检测方法和系统 |
CN112287977A (zh) * | 2020-10-06 | 2021-01-29 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112509008A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
CN112613462A (zh) * | 2020-12-29 | 2021-04-06 | 安徽大学 | 一种加权交并比方法 |
Non-Patent Citations (2)
Title |
---|
IoU-Adaptive Deformable R-CNN: Make Full Use of IoU for Multi-Class Object Detection in Remote Sensing Imagery;ťiangqiao Yan et al;《remote sensing》;全文 * |
基于联合优化的强耦合孪生区域推荐网络的目标跟踪算法;石国强等;《计算机应用》;第40卷(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113221769A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221769B (zh) | 识别模型训练方法、识别方法、装置、设备及存储介质 | |
CN114186632B (zh) | 关键点检测模型的训练方法、装置、设备、存储介质 | |
CN112597837B (zh) | 图像检测方法、装置、设备、存储介质和计算机程序产品 | |
CN113033537A (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN113221768A (zh) | 识别模型训练方法、识别方法、装置、设备及存储介质 | |
CN113792851B (zh) | 字体生成模型训练方法、字库建立方法、装置及设备 | |
CN113361710B (zh) | 学生模型训练方法、图片处理方法、装置及电子设备 | |
CN112580733B (zh) | 分类模型的训练方法、装置、设备以及存储介质 | |
CN113705362B (zh) | 图像检测模型的训练方法、装置、电子设备及存储介质 | |
CN112528995B (zh) | 用于训练目标检测模型的方法、目标检测方法及装置 | |
CN113657483A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN113947188A (zh) | 目标检测网络的训练方法和车辆检测方法 | |
CN115456167B (zh) | 轻量级模型训练方法、图像处理方法、装置及电子设备 | |
CN114511743B (zh) | 检测模型训练、目标检测方法、装置、设备、介质及产品 | |
CN117437624B (zh) | 违禁品检测方法、装置及电子设备 | |
CN114220163A (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
CN114078274A (zh) | 人脸图像检测方法、装置、电子设备以及存储介质 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 | |
CN115457365B (zh) | 一种模型的解释方法、装置、电子设备及存储介质 | |
CN115937993B (zh) | 活体检测模型训练方法、活体检测方法、装置和电子设备 | |
CN116758280A (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN113139483B (zh) | 人体行为识别方法、装置、设备、存储介质以及程序产品 | |
CN113361575B (zh) | 模型训练方法、装置和电子设备 | |
CN115249281A (zh) | 图像遮挡和模型训练方法、装置、设备以及存储介质 | |
CN113936158A (zh) | 一种标签匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |