CN117541771A - 图像识别模型训练方法及图像识别方法 - Google Patents
图像识别模型训练方法及图像识别方法 Download PDFInfo
- Publication number
- CN117541771A CN117541771A CN202210918385.4A CN202210918385A CN117541771A CN 117541771 A CN117541771 A CN 117541771A CN 202210918385 A CN202210918385 A CN 202210918385A CN 117541771 A CN117541771 A CN 117541771A
- Authority
- CN
- China
- Prior art keywords
- image
- image sample
- target object
- positioning frame
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000010586 diagram Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像识别模型训练方法及图像识别方法,所述方法包括:获取图像样本集,其中,图像样本集中包含至少一图像样本,确定每个图像样本的目标对象定位框,其中,目标对象定位框所覆盖的区域为图像样本中的有效特征所在的区域,调整图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集,基于预处理后的图像样本集对网络模型进行训练,得到图像识别模型。本申请提高了样本图像中有效特征的集中性,进而提高了正则化的效果,同时减少了网络模型过拟合的情况。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种图像识别模型训练方法及图像识别方法。
背景技术
随着深度学习技术的发展,网络模型的应用越来越广泛。随着网络模型深度的增加,网络模型的过拟合情况越来越严重。
现有技术中,可以通过正则化方式来减少网络模型过拟合的情况。现有的正则化方式一般为随机舍弃训练样本中的部分特征,然后通过舍弃部分特征后的训练样本来对网络模型进行训练。
然而,随机舍弃的特征很多都是对网络模型训练无效的特征,降低了正则化的效果。
发明内容
本申请实施例提供一种图像识别模型训练方法及图像识别方法,以提高正则化的效果。
第一方面,本申请实施例提供一种图像识别模型训练方法,包括:
获取图像样本集,其中,所述图像样本集中包含至少一图像样本;
确定每个所述图像样本的目标对象定位框,其中,所述目标对象定位框覆盖的区域为所述图像样本中的有效特征所在的区域;
调整所述图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集;
基于所述预处理后的图像样本集对网络模型进行训练,得到图像识别模型。
可选的,所述确定每个所述图像样本的目标对象定位框,包括:
将所述图像样本输入至自监督学习模型中,得到特征图信息,其中,自监督学习模型用于提取所述图像样本中的有效特征;
根据所述特征图信息确定所述图像样本的目标对象定位框。
可选的,所述特征图信息的数量为N个,N为大于或等于1的自然数,所述根据所述特征图信息确定所述图像样本的目标对象定位框,包括:
针对每个特征图信息,将所述特征图信息进行归一化处理,得到热力图,其中,所述热力图中包含至少一像素点,所述像素点的热力值大小表示像素点包含有效特征的概率,且所述至少一像素点的热力值在预设区间内;
从所述热力图中确定热力值大于预设阈值的目标点,并根据所述目标点确定初始目标对象定位框;
确定N个所述初始目标对象定位框的平均值,得到目标对象定位框。
可选的,所述初始目标对象定位框为多边形框,所述确定N个所述初始目标对象定位框的平均值,得到目标对象定位框,包括:
针对所述初始目标对象定位框的每个顶点,确定所述每个顶点对应的坐标的平均值,其中,所述每个顶点的数量为N个;
根据所述每个顶点对应的坐标的平均值得到目标对象定位框。
可选的,所述调整所述图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集,包括:
根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像,其中,所述关联图像的尺寸与所述图像样本的尺寸相同;
根据所述图像样本对应的关联图像调整所述目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集。
可选的,所述根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像,包括:
生成一与所述图像样本的尺寸相同的初始关联图像;
在所述初始关联图像中选择M个中心点,并根据所述M个中心点确定M个目标区域,其中,M为大于或等于1的自然数,所述M个中心点为所述目标对象定位框中的像素点;
设置所述初始关联图像中至少一像素点的像素值,生成所述图像样本对应的关联图像,其中,所述初始关联图像中的像素点包含M个目标区域对应的像素点,以及除所述M个目标区域之外的区域对应的像素点,且所述M个目标区域对应的像素点的像素值设置方式与所述除所述M个目标区域之外的区域对应的像素点的像素值设置方式不同。
可选的,所述设置所述初始关联图像中至少一像素点的像素值,生成所述图像样本对应的关联图像,包括:
随机设置所述M个目标区域对应的像素点的像素值;
将所述初始关联图像中除所述M个目标区域之外的其他区域对应的像素点的像素值置1,得到所述图像样本对应的关联图像;
对应的,所述根据所述图像样本对应的关联图像调整所述目标对象定位框中的至少一像素点的像素值,得到预处理后的图像样本集,包括:
将所述图像样本中每个像素点的像素值与所述关联图像中对应的像素点的像素值相乘,得到预处理后的图像样本集。
第二方面,本申请实施例提供一种图像识别模型训练方法,包括:
获取待识别图像,其中,所述待识别图像中包含的识别对象包含交通标牌、车牌照、用户、动物、植物以及建筑物中的至少一种;
将所述待识别图像输入至图像识别模型中,得到识别结果,其中,所述图像识别模型为基于预处理后的图像样本集训练得到的,所述预处理后的图像样本集为在确定所述图像样本集中每个图像样本的目标对象定位框之后,调整所述图像样本的目标对象定位框中至少一像素点的像素值得到的。
可选的,所述方法包括:
所述图像识别模型利用如第一方面任一项所述的图像识别模型训练方法训练得到的。
第三方面,本申请实施例提供一种图像识别装置,包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像中包含的识别对象包含交通标牌、车牌照、用户、动物、植物以及建筑物中的至少一种;
输入模块,用于将所述待识别图像输入至图像识别模型中,得到识别结果,其中,所述图像识别模型为基于预处理后的图像样本集训练得到的,所述预处理后的图像样本集为在确定所述图像样本集中每个图像样本的目标对象定位框之后,调整所述图像样本的目标对象定位框中至少一像素点的像素值得到的。
第四方面,本申请实施例提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如上第一方面以及第一方面以及第二方面各种可能的设计所述的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第二方面各种可能的设计所述的方法。
本申请实施例提供了一种图像识别模型训练方法及图像识别方法,采用上述方案后,可以先获取包含至少一图像样本的图像样本集,然后可以确定每个图像样本的目标对象定位框,该目标对象定位框所覆盖的区域为图像样本中的有效特征所在的区域,然后可以调整图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集,再基于预处理后的图像样本集对网络模型进行训练,得到图像识别模型,通过先确定图像样本中覆盖有效特征区域的目标对象定位框,然后调整该目标对象定位框中像素点的像素值的方式,使得图像样本中只包含部分有效特征,提高了图像样本中的有效特征的集中性与突出性,进而可以激励网络模型学习到图像样本中的剩余有效特征中更多有辨识力的特征,提高了正则化的效果,同时减少了网络模型过拟合的情况。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中正则化方式的应用示意图;
图2为本申请实施例提供的图像识别模型训练方法的应用系统的架构示意图;
图3为本申请实施例提供的图像识别模型训练方法的流程示意图;
图4为本申请实施例提供的目标对象定位框的应用示意图;
图5为本申请实施例提供的关联图像应用过程的原理示意图;
图6为本申请实施例提供的图像识别方法的流程示意;
图7为本申请实施例提供的图像识别模型训练装置的结构示意图;
图8为本申请实施例提供的图像识别装置的结构示意图;
图9为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例还能够包括除了图示或描述的那些实例以外的其他顺序实例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着深度学习技术的发展,网络模型在图像处理、计算机视觉、多媒体等领域的应用越来越广泛。然而,随着网络模型(示例性的,可以为深度神经网络模型)深度的增加,网络模型的过拟合也越来越严重,进而导致了网络模型性能的下降。为此,各种适用于网络模型的正则化方法被提出,示例性的,可以通过权重衰减或数据增强等正则化方法来减少网络模型的过拟合情况。对于数据增强方式,现有的正则化方法完全是随机选择特征并进行丢弃的,随机选择的特征很可能是无效的特征,例如,随机选择的特征可能全都是背景等干扰信息,进而导致正则化效果不太稳定,很容易出现过强或过弱的正则化表现。示例性的,图1为相关技术中正则化方式的应用示意图,如图1所示,可以为dropout方式的正则化方法,在该实施例中,灰色区域为图像样本中的有效特征所在的区域,叉号所在的区域为图像样本中舍弃的区域,即可以在网络模型识别图像样本时,忽略叉号所在区域对应的特征。然而,叉号所对应的区域是随机选择的区域,很多是没有有效特征的背景区域,无法使得有效特征更加集中,进而降低了正则化的效果。
基于上述技术问题,本申请通过先确定图像样本中覆盖有效特征区域的目标对象定位框,然后调整该目标对象定位框中像素点的像素值的方式,使得图像样本中只包含部分有效特征,提高了图像样本中的有效特征的集中性与突出性,进而可以激励网络模型学习到图像样本中剩余有效特征中更多有辨识力的特征,达到了既提高了正则化的效果,同时也减少了网络模型过拟合的情况的有益效果。
图2为本申请实施例提供的图像识别模型训练方法的应用系统的架构示意图,如图2所示,在该实施例中,可以包括服务器以及数据库,数据库中存储有图像样本集,图像样本集中包含一个或多个图像样本,图像样本可以为人脸图像、自然界生物分类等。服务器中部署有网络模型,服务器可以先从数据库中获取图像样本集,然后针对每个图像样本,可以先确定图像样本的目标对象定位框(示例性的,目标对象定位框可以为矩形、三角形或其他多边形),该目标对象定位框所覆盖的区域为图像样本中的有效特征所在的区域。然后可以调整该目标对象定位框中至少一像素点的像素值,即舍弃样本图像中的部分有效特征,示例性的,可以直接将部分像素点的像素值置零,得到预处理后的图像样本集,再根据预处理后的图像样本集对网络模型进行训练,得到图像识别模型。
其中,服务器可以为单独的服务器,也可以为服务器集群。下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图3为本申请实施例提供的图像识别模型训练方法的流程示意图,本实施例的方法可以由服务器执行,如图3所示,本实施例的方法,可以包括:
S301:获取图像样本集,其中,图像样本集中包含至少一图像样本。
在本实施例中,在对网络模型进行训练之前,可以先获取训练样本,然后可以通过训练样本对网络模型进行训练。其中,训练样本可以为图像样本。示例性的,图像样本可以为RGB彩色图像或索引图像,且图像样本的类型可以为照片或截图(例如,视频截图、网页截图、聊天记录截图等),照片或截图中包含的对象可以为交通标牌、车牌照、用户、动物、植物或者建筑物等。
另外,图像样本集可以为从数据库或云端获取的预先存储的样本,也可以为实时标注的样本,在此不再详细进行论述。
S302:确定每个图像样本的目标对象定位框,其中,目标对象定位框覆盖的区域为图像样本中的有效特征所在的区域。
在本实施例中,在获取到图像样本集之后,针对图像样本集中的每个图像样本,可以先确定图像样本中的有效特征所在的区域,然后可以对图像样本中的有效特征所在的区域中的像素点的像素值进行调整,进而舍弃样本图像中的部分有效特征,使得调整之后的图像样本中的有效特征更加集中与突出,进而激励网络模型可以学习到图像样本中的剩余有效特征中更多有辨识力的特征。
其中,图像样本中的有效特征是指图像样本中的目标对象对应的特征,目标对象可以为图像样本中表示图像样本所表达的含义的对象。示例性的,若图像样本的类型为交通标牌,在该图像样本中的目标对象为左转标志,则该左转标志所对应的特征即为该图像样本中的有效特征。该左转标志所在的区域为有效特征所在的区域,在对图像样本中的有效特征所在的区域中的像素点的像素值进行调整时,可以调整左转标志中的像素点的像素值。
可选的,在确定图像样本中的有效特征所在的区域时,可以通过目标对象定位框的方式来表示图像样本中的有效特征所在的区域,即在该目标对象定位框中的像素点所表示的特征为图像样本中的有效特征。
其中,目标对象定位框的形状可以根据实际应用场景自定义进行设置。可选的,目标对象定位框的形状可以为三角形、矩形或其他多边形,且可以通过目标对象定位框中各顶点的坐标值来表示目标对象定位框的具体位置。
示例性的,图4为本申请实施例提供的目标对象定位框的应用示意图,如图4所示,在该实施例中,目标对象定位框为矩形,四个顶点的坐标分别为(x1,y1)、(x2,y2)、(x3,y3)和(x4,y4)。
S303:调整图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集。
在本实施例中,在得到图像样本集中每个图像样本的目标对象定位框之后,可以调整每个图像样本的目标对象定位框中的至少一像素点的像素值,进而舍弃图像样本中的部分有效特征,得到预处理后的图像样本集。
可选的,调整每个图像样本的目标对象定位框中的至少一像素点的像素值的方式可以有多种。在一种可能的实现方式中,可以随机选择目标对象定位框中的至少一像素点,然后更改选中的像素点的像素值,进而舍弃该像素点对应的有效特征。在另一种可能的实现方式中,可以按照一定的选取规则选择目标对象定位框中的至少一像素点(示例性的,可以选择目标对象定位框的中心点以及以中心点为原点,半径为预设数值的圆形区域所覆盖的像素点),然后更改选中的像素点的像素值。此外,其他调整图像样本的目标对象定位框中的至少一像素点的像素值的方式也在本申请的保护范围内,在此不再详细进行论述。
S304:基于预处理后的图像样本集对网络模型进行训练,得到图像识别模型。
在本实施例中,在得到预处理后的图像样本集之后,即可以通过预处理后的图像样本集对网络模型进行训练,得到图像识别模型。
此外,在通过图像样本集对网络模型进行训练时,可以通过该图像样本集对网络模型进行多轮训练,或者图像样本集中包含多张重复的图像样本。因此,一张图像样本可以多次输入至网络模型中,且该图像样本在每轮训练过程中确定的目标对象定位框可以不同,即每轮训练过程中该图像样本舍弃的有效特征不同,通过多轮训练,网络模型可以识别到图像样本的全部特征。因此,在网络模型训练完成之后,即得到图像识别模型之后,该图像识别模型可以识别完整的图像。
采用上述方案后,可以先获取包含至少一图像样本的图像样本集,针对每个图像样本,可以先确定图像样本的目标对象定位框,该目标对象定位框所覆盖的区域为图像样本中的有效特征所在的区域,然后可以调整图像样本的目标对象定位框中的至少一像素值,得到预处理后的图像样本集,再基于预处理后的图像样本集对网络模型进行训练,得到图像识别模型,通过先确定图像样本中覆盖有效特征区域的目标对象定位框,然后调整该目标对象定位框中像素点的像素值的方式,使得图像样本中只包含部分有效特征,提高了图像样本中的有效特征的集中性与突出性,进而可以激励网络模型学习到图像样本中的剩余有效特征中更多有辨识力的特征,提高了正则化的效果,同时减少了网络模型过拟合的情况。
基于图3的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
在另一实施例中,所述确定每个所述图像样本的目标对象定位框,具体可以包括:
将所述图像样本至自监督学习模型中,得到特征图信息,其中,自监督学习模型用于提取所述图像样本中的有效特征。
根据所述特征图信息确定所述图像样本的目标对象定位框。
在本实施例中,针对每个图像样本,可以先确定图像样本中的有效特征所在的大致位置,然后通过目标对象定位框来表示图像样本中的有效特征所在的大致位置。
可选的,可以通过预先训练好的自监督学习模型来确定图像样本中的有效特征所在的大致位置。此外,为了提高自监督学习模型的识别结果,一张图像样本可以多次输入至自监督学习模型中,得到多个特征图信息。其中,特征图信息用于表示图像样本中各个像素点包含有效特征的程度,数值越大,表示包含有效特征的程度越高。且输入次数的设置可以兼容自监督学习模型识别的准确性,以及服务器的计算资源。示例性的,输入次数可以为30-50中的任意自然数。
此外,自监督学习模型可以在不使用负样本,也不需要动量编码器的情况下,直接最大化一张图片的两个视图的相似性。示例性的,对于一张图像x,对齐进行两次随机增广,得到两个不同的视图x1、x2。然后可以将x1、x2作为自监督学习模型的输入,两个视图x1、x2可以分别经过自监督学习模型的编码网络f,编码网络包含一个backbone和一个预测MLPhead层(可以记为h)。编码网络f在两个视图之间共享参数,h可以转换其他一个视图的输出并和另一个视图进行匹配,得到两个输出向量p1、z2,p1=h(f(x1),z2=f(x2),然后可以通过表达式最小化它们的余弦相似度的负值:
再通过表达式确定自监督学习模型的损失值::
其中,该确定损失值的损失函数为对称形式的损失函数,p2=h(f(x2),z1=f(x1)。
综上,通过基于自监督学习模型来确定图像样本的特征图信息的方式,提高了特征图信息确定的效率与准确性,进而提高了确定图像样本中表示有效特征所在区域的目标对象定位框的准确性与效率。
此外,所述特征图信息的数量为N个,N为大于或等于1的自然数,所述根据所述特征图信息确定所述图像样本的目标对象定位框,具体可以包括:
针对每个特征图信息,将所述特征图信息进行归一化处理,得到热力图,其中,所述热力图中包含至少一像素点,所述像素点的热力值大小表示像素点包含有效特征的概率,且所述至少一像素点的热力值在预设区间内。
从所述热力图中确定热力值大于预设阈值的目标点,并根据所述目标点确定初始目标对象定位框。
确定N个所述初始目标对象定位框的平均值,得到目标对象定位框。
具体的,特征图信息中可以包含多个像素点,每个像素点对应一像素值,该像素值的大小可以表示像素点包含有效特征的程度,因此,可以根据特征图信息来确定有效特征分布的大致区域,并通过目标对象定位框的方式来表示有效特征分布的大致区域。
可选的,由于特征图信息中各个像素点的像素值较分散,不利于确定有效特征分布的大致区域,因此,可以先将特征图信息中的各个像素点进行归一化处理,得到热力图。热力图中的像素点与特征图信息中的像素点一一对应,且特征图信息中的像素点的像素值经过归一化处理之后,可以称为热力值。该热力值的大小可以表示像素点包含有效特征的概率,或者也可以称为像素点包含有效特征的程度。此外,热力图中像素点的热力值可以在预设区间内,示例性的,预设区间可以为[0,1]。另外,归一化方式可以采用现有的方式,在此不再详细进行论述。
此外,在得到热力图之后,可以根据预先设置的阈值从热力图中确定热力值大于阈值的目标点,并根据目标点确定初始目标对象定位框。可选的,可以通过表达式确定初始目标对象定位框:
其中,M表示热力图中各像素点的热力值,i表示预设阈值,表示指示函数,该指示函数可以从热力图中获取热力值大于预设阈值的目标点,K为计算闭包的函数(示例性的,可以为计算矩形闭包的函数),通过K可以根据目标返回一初始目标对象定位框B。
综上,通过先将特征图信息中各个像素点进行归一化处理,得到热力图,然后再对热力图中的各像素点进行筛选,使得像素点的热力值更加集中,然后根据筛选后的像素点来确定目标对象定位框,提高了目标对象定位框确定的准确性。
另外,若N为一,则初始目标对象定位框即为目标对象定位框。若N为大于一的自然数,则可以在得到N个初始目标对象定位框之后,确定N个初始目标对象定位框平均值,进而得到目标对象定位框。
进一步的,所述初始目标对象定位框为多边形框,所述确定N个所述初始目标对象定位框的平均值,得到目标对象定位框,具体可以包括:
针对所述初始目标对象定位框的每个顶点,确定所述每个顶点对应的坐标的平均值,其中,所述每个顶点的数量为N个。
根据所述每个顶点对应的坐标的平均值得到目标对象定位框。
具体的,初始目标对象定位框为多边形框(示例性的,可以为矩形、三角形或其他多边形),初始目标对象定位框可以有多个顶点,且N个初始目标对象定位框的顶点个数是相同的。在得到N个初始目标对象定位框之后,针对初始目标对象定位框的每个顶点,可以确定N个顶点对应的坐标的平均值,并根据每个顶点对应的坐标的平均值确定目标对象定位框。示例性的,N可以为3,初始目标对象定位框可以为矩形,其中一个顶点的坐标分别为(x11,y11)、(x21,y21)和(x31,y31),则目标对象定位框中该顶点的坐标可以为:
综上,通过根据N个初始目标对象定位框的平均值,来确定目标对象定位框,进一步提高了目标对象定位框确定的准确性。此外,目标点构成的图形可能是不规则的图形,通过基于计算闭包的函数返回目标点对应的规则的初始目标对象定位框,简化了目标对象定位框的确定过程。
在另一实施例中,所述调整所述图像样本的目标对象定位框中的至少一像素点的像素值,得到预处理后的图像样本集,具体可以包括:
根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像,其中,所述关联图像的尺寸与所述图像样本的尺寸相同。
根据所述图像样本对应的关联图像调整所述目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集。
在本实施例中,在得到图像样本的目标对象定位框之后,可以根据目标对象定位框对图像样本进行预处理,得到只包含部分有效特征的图像样本。在对图像样本进行预处理时,可以根据图像样本的目标对象定位框生成图像样本对应的关联图像,然后可以根据图像样本对应的关联图像调整目标对象定位框中至少一像素点的像素值,且每个图像样本均重复前述过程,进而得到预处理后的图像样本集。其中,关联图像可以为与图像样本尺寸相同的图像,且关联图像中各像素点的像素值可以根据实际需求自定义进行设置。示例性的,若图像样本的尺寸为20*20像素,则关联图像的尺寸也为20*20像素。
可选的,调整图像样本的目标对象定位框中的至少一像素点的像素值,得到预处理后的图像样本集的过程可以在服务器中执行,即输入到网络模型的训练样本为预处理之后的训练样本,该种网络模型训练方式适用性广,可以应用于各种不同类型的模型。
另外,也可以将图像样本集以及图像样本集中每个图像样本的目标对象定位框作为训练样本输入至网络模型中进行训练,网络模型中可以包含一外接的卷积层,该卷积层可以调整图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集,然后网络模型中的其他层可以基于预处理后的图像样本集进行训练,得到图像识别模型。且该图像识别模型在训练完成之后,可以去掉外接的卷积层,即在应用图像识别模型时,不需要对图像样本进行预处理,该种网络模型训练方式的正则化效果更好,但适用范围小,可能不适用于一些类型的模型。
进一步的,所述根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像,具体可以包括:
生成一与所述图像样本的尺寸相同的初始关联图像。
在所述初始关联图像中选择M个中心点,并根据所述M个中心点确定M个目标区域,其中,M为大于或等于1的自然数,所述M个中心点为所述目标对象定位框中的像素点。
设置所述初始关联图像中至少一像素点的像素值,生成所述图像样本对应的关联图像,其中,所述初始关联图像中的像素点包含M个目标区域对应的像素点,以及除所述M个目标区域之外的区域对应的像素点,且所述M个目标区域对应的像素点的像素值设置方式与所述除所述M个目标区域之外的区域对应的像素点的像素值设置方式不同。
具体的,在生成图像样本对应的关联图像时,可以先生成一初始关联图像,该初始关联图像的尺寸与图像样本的尺寸相同,即该初始关联图像中包含的像素点个数与图像样本中包含的像素点个数相同,且初始关联图像中包含的像素点与图像样本中包含的像素点一一对应,即对应的像素点的坐标相同。例如,若图像样本的尺寸为20*20像素,则初始关联图像的尺寸也为20*20像素,且图像样本与初始关联图像中对应像素点的坐标相同。此外,初始关联图像中各像素点的像素值可以均为零,也可以为任意值,还可以不设置像素值。
在生成初始关联图像之后,然后可以在初始关联图像中选择M个中心点,且该M个中心点均为目标对象定位框中的像素点,然后可以根据M个中心点确定M个目标区域。在确定M个目标区域之后,可以设置初始关联图像中M个目标区域对应的像素点的像素值,以及除M个目标区域之外的其他区域对应的像素点的像素值,生成图像样本对应的关联图像。
进一步的,所述设置所述M个目标区域对应的像素点的像素值,生成所述图像样本对应的关联图像,具体可以包括:
随机设置所述M个目标区域对应的像素点的像素值。
将所述初始关联图像中除所述M个目标区域之外的其他区域对应的像素点的像素值置1,得到所述图像样本对应的关联图像。
具体的,在设置初始关联图像中各像素点的像素值时,由于后续需要通过该关联图像来舍弃图像样本中的有效特征,因此,可以将M个目标区域之外的其他区域中包含的像素点的像素值置1。然后可以随机设置M个目标区域对应的像素点的像素值。示例性的,可以将M个目标区域对应的像素点的像素值设置为0,也可以将随机将M个目标区域对应的像素点的像素值设置为任意值。另外,若在随机设置时,将M个目标区域对应的像素点的像素值均设置为1,由于该种情况生成的概率较低,对大部分训练数据影响较小,因此,也可以直接采用该关联图像进行后续处理。
示例性的,图5为本申请实施例提供的关联图像应用过程的原理示意图,如图5所示,在该实施例中,虚线框可以表示目标图像定位框,该目标图像定位框中有2个中心点,然后可以根据2个中心点生成两个2*2像素的目标区域。
对应的,所述根据所述图像样本对应的关联图像调整所述目标对象定位框中的至少一像素点的像素值,得到预处理后的图像样本集,具体可以包括:
将所述图像样本中每个像素点的像素值与所述关联图像中对应的像素点的像素值相乘,得到预处理后的图像样本集。
综上,通过先生成一初始关联图像,然后采用不同的设置方式设置初始关联图像中不同区域的像素点的像素值,得到关联图像,并通过生成的关联图像来舍弃样本图像中的部分有效特征,提高了样本图像有效特征舍弃的准确性与效率从而激励网络模型更有效地捕捉更全面的特征,改善网络模型的性能。此外,对于相同规格的图像样本,也可以共用一张初始关联图像,无需每次都额外生成初始关联图像,进一步提高了样本图像中有效特征舍弃的效率。
此外,在调整图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集时,也可以不采用关联图像的方式,可以直接从图形样本中确定属于目标对象定位框的目标区域,并更改该目标区域对应的像素点的像素值,简化了样本图像中有效特征舍弃的过程,进一步提高了样本图像中有效特征舍弃的效率。
综上,本申请提出的正则化方法可以适用于卷积神经网络的训练过程,且能够有效防止模型训练过拟合的情况,通过定向遮挡目标对象的部分有效特征,进而激励模型主动学习除遮挡的重要特征外的更多的有辨识力的特征。
图6为本申请实施例提供的图像识别方法的流程示意图,本实施例的方法可以由服务器执行,如图6所示,本实施例的方法,可以包括:
S601:获取待识别图像,其中,待识别图像中包含的识别对象包含交通标牌、车牌照、用户、动物、植物以及建筑物中的至少一种。
S602:将待识别图像输入至图像识别模型中,得到识别结果,其中,图像识别模型为基于预处理后的图像样本集训练得到的,预处理后的图像样本集为在确定图像样本集中每个图像样本的目标对象定位框之后,调整图像样本的目标对象定位框中至少一像素点的像素值得到的。
在本实施例中,在得到训练完成的图像识别模型之后,可以基于训练完成的图像识别模型来识别待识别图像。待识别图像可以为照片或截图(例如,视频截图、网页截图、聊天记录截图等)等,照片或截图中包含的对象可以为交通标牌、车牌照、用户、动物、植物或者建筑物等。此外,该图像识别模型是基于预处理后的图像样本集训练得到的,该处处理之后的图像样本集中的每个图像样本只包含部分有效特征,因此,该图像样本中的有效特征更加的突出与集中,网络模型在识别预处理之后的图像样本时,可以学习到图像样本中的剩余有效特征中更多有辨识力的特征,既提高了网络模型识别的准确性,同时也提高了正则化的效果,减少了网络模型过拟合的情况。
可选的,所述方法包括:
所述图像识别模型利用前述的图像识别模型训练方法训练得到的。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置,图7为本申请实施例提供的图像识别模型训练装置的结构示意图,如图7所示,本申请实施例提供的装置,可以包括:
样本获取模块701,用于获取图像样本集,其中,所述图像样本集中包含至少一图像样本。
处理模块702,用于针对每个所述图像样本,确定所述图像样本的目标对象定位框,其中,所述目标对象定位框所覆盖的区域为所述图像样本中的有效特征所在的区域。
所述处理模块702,还用于调整所述图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集。
所述处理模块702,还用于基于所述预处理后的图像样本集对网络模型进行训练,得到图像识别模型。
此外,在另一实施例中,所述处理模块702,还用于:
将所述图像样本N次输入至自监督学习模型中,得到N个特征图信息,其中,N为大于或等于1的自然数,自监督学习模型用于提取图像样本中的有效特征。
根据所述N个特征图信息确定所述图像样本的目标对象定位框。
进一步的,所述处理模块702,还用于:
针对每个特征图信息,将所述特征图信息进行归一化处理,得到热力图,其中,所述热力图中包含至少一像素点,所述像素点的热力值大小表示像素点包含有效特征的概率,且所述至少一像素点的热力值在预设区间内。
从所述热力图中确定热力值大于预设阈值的目标点,并根据所述目标点确定初始目标对象定位框。
确定N个所述初始目标对象定位框的平均值,得到目标对象定位框。
进一步的,所述初始目标对象定位框为多边形框,所述处理模块702,还用于:
针对所述初始目标对象定位框的每个顶点,确定所述每个顶点对应的坐标的平均值,其中,所述每个顶点的数量为N个。
根据所述每个顶点对应的坐标的平均值得到目标对象定位框。
此外,在另一实施例中,所述处理模块702,还用于:
根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像。
根据所述图像样本对应的关联图像调整所述目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集。
进一步的,所述处理模块702,还用于:
生成一与所述图像样本的规格相同的初始关联图像。
在所述初始关联图像中选择M个中心点,并根据所述M个中心点确定M个目标区域,其中,M为大于或等于1的自然数,所述M个中心点为所述目标对象定位框中的像素点。
设置所述初始关联图像中至少一像素点的像素值,生成所述图像样本对应的关联图像,其中,所述初始关联图像中的像素点包含M个目标区域对应的像素点,以及除所述M个目标区域之外的区域对应的像素点,且所述M个目标区域对应的像素点的像素值设置方式与所述除所述M个目标区域之外的区域对应的像素点的像素值设置方式不同。
进一步的,所述处理模块702,还用于:
随机设置所述M个目标区域对应的像素点的像素值。
将所述初始关联图像中除所述M个目标区域之外的其他区域对应的像素点的像素值置1,得到所述图像样本对应的关联图像。
将所述图像样本中每个像素点的像素值与所述关联图像中对应的像素点的像素值相乘,得到预处理后的图像样本集。
本申请实施例提供的装置,可以实现上述如图3所示的实施例的方法,其实现原理和技术效果类似,此处不再赘述。
图8为本申请实施例提供的图像识别装置的结构示意图,如图8所示,本申请实施例提供的装置,可以包括:
图像获取模块801,用于获取待识别图像,其中,所述待识别图像中包含的识别对象包含交通标牌、车牌照、用户、动物、植物以及建筑物中的至少一种。
输入模块802,用于将所述待识别图像输入至图像识别模型中,得到识别结果,其中,所述图像识别模型为基于预处理后的图像样本集训练得到的,所述预处理后的图像样本集为在确定所述图像样本集中每个图像样本的目标对象定位框之后,调整所述图像样本的目标对象定位框中至少一像素点的像素值得到的。
图9为本申请实施例提供的电子设备的硬件结构示意图,如图9所示,本实施例提供的设备900包括:处理器901,以及与所述处理器通信连接的存储器。其中,处理器901、存储器902通过总线903连接。
在具体实现过程中,处理器901执行所述存储器902存储的计算机执行指令,使得处理器901执行上述方法实施例中的方法。
处理器901的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图9所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上实施例的方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (12)
1.一种图像识别模型训练方法,其特征在于,包括:
获取图像样本集,其中,所述图像样本集中包含至少一图像样本;
确定每个所述图像样本的目标对象定位框,其中,所述目标对象定位框覆盖的区域为所述图像样本中的有效特征所在的区域;
调整所述图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集;
基于所述预处理后的图像样本集对初始图像识别模型进行训练,得到图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述图像样本的目标对象定位框,包括:
将所述图像样本输入至自监督学习模型中,得到特征图信息,其中,自监督学习模型用于提取所述图像样本中的有效特征;
根据所述特征图信息确定所述图像样本的目标对象定位框。
3.根据权利要求2所述的方法,其特征在于,所述特征图信息的数量为N个,N为大于或等于1的自然数,所述根据所述特征图信息确定所述图像样本的目标对象定位框,包括:
针对每个特征图信息,将所述特征图信息进行归一化处理,得到热力图,其中,所述热力图中包含至少一像素点,所述像素点的热力值大小表示像素点包含有效特征的概率,且所述至少一像素点的热力值在预设区间内;
从所述热力图中确定热力值大于预设阈值的目标点,并根据所述目标点确定初始目标对象定位框;
确定N个所述初始目标对象定位框的平均值,得到目标对象定位框。
4.根据权利要求3所述的方法,其特征在于,所述初始目标对象定位框为多边形框,所述确定N个所述初始目标对象定位框的平均值,得到目标对象定位框,包括:
针对所述初始目标对象定位框的每个顶点,确定所述每个顶点对应的坐标的平均值,其中,所述初始目标对象定位框的顶点的数量为N个;
根据所述每个顶点对应的坐标的平均值得到目标对象定位框。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述调整所述图像样本的目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集,包括:
根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像,其中,所述关联图像的尺寸与所述图像样本的尺寸相同;
根据所述图像样本对应的关联图像调整所述目标对象定位框中至少一像素点的像素值,得到预处理后的图像样本集。
6.根据权利要求5所述的方法,其特征在于,所述根据所述图像样本的目标对象定位框生成所述图像样本对应的关联图像,包括:
生成一与所述图像样本的尺寸相同的初始关联图像;
在所述初始关联图像中选择M个中心点,并根据所述M个中心点确定M个目标区域,其中,M为大于或等于1的自然数,所述M个中心点为所述目标对象定位框中的像素点;
设置所述初始关联图像中至少一像素点的像素值,生成所述图像样本对应的关联图像,其中,所述初始关联图像中的像素点包含M个目标区域对应的像素点,以及除所述M个目标区域之外的区域对应的像素点,且所述M个目标区域对应的像素点的像素值设置方式与所述除所述M个目标区域之外的区域对应的像素点的像素值设置方式不同。
7.根据权利要求6所述的方法,其特征在于,所述设置所述初始关联图像中至少一像素点的像素值,生成所述图像样本对应的关联图像,包括:
随机设置所述M个目标区域对应的像素点的像素值;
将所述初始关联图像中除所述M个目标区域之外的其他区域对应的像素点的像素值置1,得到所述图像样本对应的关联图像;
对应的,所述根据所述图像样本对应的关联图像调整所述目标对象定位框中的至少一像素点的像素值,得到预处理后的图像样本集,包括:
将所述图像样本中每个像素点的像素值与所述关联图像中对应的像素点的像素值相乘,得到预处理后的图像样本集。
8.一种图像识别方法,其特征在于,包括:
获取待识别图像,其中,所述待识别图像中包含的识别对象包含交通标牌、车牌照、用户、动物、植物以及建筑物中的至少一种;
将所述待识别图像输入至图像识别模型中,得到识别结果,其中,所述图像识别模型为基于预处理后的图像样本集训练得到的,所述预处理后的图像样本集为在确定所述图像样本集中每个图像样本的目标对象定位框之后,调整所述图像样本的目标对象定位框中至少一像素点的像素值得到的。
9.根据权利要求8所述的方法,其特征在于,包括:
所述图像识别模型利用如权利要求1至7任一项所述的图像识别模型训练方法训练得到的。
10.一种图像识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像中包含的识别对象包含交通标牌、车牌照、用户、动物、植物以及建筑物中的至少一种;
输入模块,用于将所述待识别图像输入至图像识别模型中,得到识别结果,其中,所述图像识别模型为基于预处理后的图像样本集训练得到的,所述预处理后的图像样本集为在确定所述图像样本集中每个图像样本的目标对象定位框之后,调整所述图像样本的目标对象定位框中至少一像素点的像素值得到的。
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,以实现如权利要求1至9任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210918385.4A CN117541771A (zh) | 2022-08-01 | 2022-08-01 | 图像识别模型训练方法及图像识别方法 |
PCT/CN2023/109265 WO2024027535A1 (zh) | 2022-08-01 | 2023-07-26 | 针对图像识别模型的处理方法及相关产品 |
EP23849243.3A EP4379669A1 (en) | 2022-08-01 | 2023-07-26 | Processing method for image recognition model, and related product |
US18/587,550 US20240203081A1 (en) | 2022-08-01 | 2024-02-26 | Processing method for image recognition model and related product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210918385.4A CN117541771A (zh) | 2022-08-01 | 2022-08-01 | 图像识别模型训练方法及图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117541771A true CN117541771A (zh) | 2024-02-09 |
Family
ID=89788609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210918385.4A Pending CN117541771A (zh) | 2022-08-01 | 2022-08-01 | 图像识别模型训练方法及图像识别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240203081A1 (zh) |
EP (1) | EP4379669A1 (zh) |
CN (1) | CN117541771A (zh) |
WO (1) | WO2024027535A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118334753A (zh) * | 2024-06-11 | 2024-07-12 | 杭州华亭科技有限公司 | 基于人工智能的监狱犯人行为分析与预警系统及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626208B (zh) * | 2020-05-27 | 2023-06-13 | 阿波罗智联(北京)科技有限公司 | 用于检测小目标的方法和装置 |
CN112200802B (zh) * | 2020-10-30 | 2022-04-26 | 上海商汤智能科技有限公司 | 图像检测模型的训练方法及相关装置、设备、存储介质 |
CN113269257A (zh) * | 2021-05-27 | 2021-08-17 | 中山大学孙逸仙纪念医院 | 一种图像分类方法、装置、终端设备及存储介质 |
-
2022
- 2022-08-01 CN CN202210918385.4A patent/CN117541771A/zh active Pending
-
2023
- 2023-07-26 EP EP23849243.3A patent/EP4379669A1/en active Pending
- 2023-07-26 WO PCT/CN2023/109265 patent/WO2024027535A1/zh unknown
-
2024
- 2024-02-26 US US18/587,550 patent/US20240203081A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118334753A (zh) * | 2024-06-11 | 2024-07-12 | 杭州华亭科技有限公司 | 基于人工智能的监狱犯人行为分析与预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
EP4379669A1 (en) | 2024-06-05 |
US20240203081A1 (en) | 2024-06-20 |
WO2024027535A1 (zh) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446398B (zh) | 图像分类方法以及装置 | |
CN112419170B (zh) | 遮挡检测模型的训练方法及人脸图像的美化处理方法 | |
CN108427927B (zh) | 目标再识别方法和装置、电子设备、程序和存储介质 | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
CN111767906B (zh) | 人脸检测模型训练方法、人脸检测方法、装置及电子设备 | |
CN109714526B (zh) | 智能摄像头及控制系统 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
CN112085056B (zh) | 目标检测模型生成方法、装置、设备及存储介质 | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
US20240203081A1 (en) | Processing method for image recognition model and related product | |
CN113673505A (zh) | 实例分割模型的训练方法、装置、系统及存储介质 | |
CN113743426A (zh) | 一种训练方法、装置、设备以及计算机可读存储介质 | |
US20120189193A1 (en) | Detection of objects represented in images | |
CN108734712B (zh) | 背景分割的方法、装置及计算机存储介质 | |
CN113569081A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN113840169B (zh) | 一种视频处理方法、装置、计算设备和存储介质 | |
CN116977359A (zh) | 图像处理方法、装置、设备、可读存储介质及程序产品 | |
CN115841605A (zh) | 目标检测网络训练与目标检测方法、电子设备、存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN114118412A (zh) | 证件识别模型训练及证件识别的方法、系统、设备及介质 | |
CN115393914A (zh) | 多任务模型训练方法、装置、设备及存储介质 | |
CN113240723A (zh) | 一种单目深度估计方法、装置以及深度评估设备 | |
CN110942005A (zh) | 物体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |