CN112580739A - 一种训练样本集的确定方法和装置 - Google Patents
一种训练样本集的确定方法和装置 Download PDFInfo
- Publication number
- CN112580739A CN112580739A CN202011577917.XA CN202011577917A CN112580739A CN 112580739 A CN112580739 A CN 112580739A CN 202011577917 A CN202011577917 A CN 202011577917A CN 112580739 A CN112580739 A CN 112580739A
- Authority
- CN
- China
- Prior art keywords
- image sample
- ratio
- model
- target object
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000004575 stone Substances 0.000 claims abstract description 59
- 238000002372 labelling Methods 0.000 claims description 110
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000002922 simulated annealing Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4084—Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种训练样本集的确定方法和装置,属于神经网络技术领域。所述方法包括:将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果,其中,所述第一特征为所述第一图像样本中目标对象的特征;在所述识别结果与真实结果不同的情况下,获取对所述第一图像样本进行打标得到的第二图像样本,其中,所述第二图像样本用于训练所述基石模型;在所述基石模型输出的识别结果与所述真实结果相同的情况下,将所述第一图像样本和识别结果存入训练样本集。本申请提高训练样本集的生成效率。
Description
技术领域
本申请涉及神经网络技术领域,尤其涉及一种训练样本集的确定方法和装置。
背景技术
神经网络在训练过程中需要大量的样本数据,样本数据越优异,则神经网络的训练结果越好。样本数据优异的特点包括:数据规模大且标注准确,由于样本数据需要覆盖神经网络使用的各个场景,因此在时间和空间范畴都需要足够丰富。另外,样本数据的类别的划分也需要满足类内差异大、类间差异小的特征,样本数据本身影像之间的变化也更应该符合实际场景。
目前样本数据都需要人工进行标注,由于数据规模过大,采用人工标注的方式提高了神经网络的训练成本和时长,也降低了神经网络的训练效率。
发明内容
本申请实施例的目的在于提供一种训练样本集的确定方法和装置,解决训练样本集标注难的问题。具体技术方案如下:
第一方面,提供了一种训练样本集的确定方法,所述方法包括:
将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果,其中,所述第一特征为所述第一图像样本中目标对象的特征;
在所述识别结果与真实结果不同的情况下,获取对所述第一图像样本进行打标得到的第二图像样本,其中,所述第二图像样本用于训练所述基石模型;
在所述基石模型输出的识别结果与所述真实结果相同的情况下,将所述第一图像样本和识别结果存入训练样本集。
可选地,所述识别结果为所述第一特征的第一标注框,所述将所述第一图像样本和识别结果存入训练样本集包括:
识别出所述第二图像样本中第一标注框;
根据所述第一标注框确定所述第二图像样本中目标对象的第二标注框,其中,所述第二标注框对应所述目标对象的第二特征,所述第二标注框包括所述第一标注框;
将携带有所述第二标注框的第一图像样本和识别结果存入训练样本集。
可选地,所述第一标注框为指示所述目标对象头部的标注框,所述第二标注框为指示所述目标对象身体的标注框,所述第一标注框和所述第二标注框均为矩形框,所述根据所述第一标注框确定所述第二图像样本中目标对象的第二标注框包括:
在无法识别到所述目标对象的面部的情况下,确定所述第一图像样本的图片长度和所述第一标注框的中心点、长度、宽度;
确定所述长度和所述宽度的第一比值、所述长度和所述图片长度的第二比值;
根据所述第一比值和所述第二比值,确定扩展长度比值和扩展宽度比值;
将所述扩展长度比值和所述第一标注框的长度的乘积作为扩展长度;将所述扩展宽度比值和所述第一标注框的宽度的乘积,作为扩展宽度;
从所述中心点向外延长所述扩展长度和所述扩展宽度,得到所述第二标注框。
可选地,所述根据所述第一比值和所述第二比值,确定扩展长度比值和扩展宽度比值包括:
在所述第二比值小于目标阈值的情况下,根据所述第一比值和所述第二比值,确定所述扩展长度比值和所述扩展宽度比值大于预设比值;
在所述第二比值不小于所述目标阈值的情况下,根据所述第一比值和所述第二比值,确定所述扩展长度比值和所述扩展宽度比值不大于所述预设比值。
可选地,所述第一标注框为指示所述目标对象头部的标注框,所述第二标注框为指示所述目标对象身体的标注框,所述第一标注框和所述第二标注框均为矩形框,所述根据所述第一标注框确定所述第二图像样本中目标对象的第二标注框包括:
在识别到所述目标对象的面部的情况下,将所述第二图像样本输入目标识别模型,得到所述目标识别模型输出的所述目标对象的面部的关键点信息;
通过关键点矩阵对所述关键点信息进行分析,得到所述目标对象的面部的姿态角;
将所述姿态角和扩展长度的乘积作为所述第二标注框的长度,并将所述姿态角和扩展宽度的乘积作为所述第二标注框的宽度。
可选地,所述基石模型的数量至少为两个,所述将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果包括:
将所述第一图像样本进行尺寸缩放,得到多个缩放图像样本;
将每个缩放图像样本分别输入一个所述基石模型,得到所述基石模型输出的所述第一特征的待选框;
通过非极大值抑制方案,从所述多个待选框中选取出目标框;
将所述目标框作为所述基石模型对第一特征的识别结果。
可选地,在将第一图像样本输入基石模型之前,所述方法还包括:
通过预设数据集确定预设权重,并构建携带有所述预设权重的初始训练模型;
将初始图像样本输入所述初始训练模型,通过模拟退火方案对所述初始训练模型进行训练,得到基石模型。
第二方面,提供了一种训练样本集的确定装置,所述装置包括:
输入模块,用于将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果,其中,所述第一特征为所述第一图像样本中目标对象的特征;
获取模块,用于在所述识别结果与真实结果不同的情况下,获取对所述第一图像样本进行打标得到的第二图像样本,其中,所述第二图像样本用于训练所述基石模型;
存入模块,用于在所述基石模型输出的识别结果与所述真实结果相同的情况下,将所述第一图像样本和识别结果存入训练样本集。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种训练样本集的确定方法,方法包括:服务器将第一图像样本输入基石模型,并获取基石模型对第一特征的识别结果,在识别结果与真实结果不同的情况下,获取对第一图像样本进行打标得到的第二图像样本;在基石模型输出的识别结果与真实结果相同的情况下,将第一图像样本和识别结果存入训练样本集。本申请通过对识别结果与真实结果不同的第一图像样本进行打标,避免对所有的图像样本都进行打标,节约打标时间和人力,提高训练样本集的生成效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种训练样本集确定方法硬件环境示意图;
图2为本申请实施例提供的一种训练样本集确定的方法流程图;
图3为本申请实施例提供的得到训练样本集的方法流程图;
图4为本申请实施例提供的第一标注框和第二标注框的示意图;
图5为本申请实施例提供的一种训练样本集确定方法的处理流程图;
图6为本申请实施例提供的一种训练样本集确定装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种训练样本集的确定方法的实施例。
可选地,在本申请实施例中,上述训练样本集的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种训练样本集的确定方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种训练样本集的确定方法,可以应用于服务器,用于通过少量的人工标注样本得到大量含有标注的训练样本集。
下面将结合具体实施方式,对本申请实施例提供的一种训练样本集的确定方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:将第一图像样本输入基石模型,并获取基石模型对第一特征的识别结果。
其中,第一特征为第一图像样本中目标对象的特征。
服务器获取未携带有标签的第一图像样本,第一图像样本中包含至少一个目标对象,并具有目标对象的身体特征,该身体特征可以为目标对象的头部、上半身、脸部、手部等身体部位。服务器将第一图像输入基石模型,并获取基石模型对第一特征的识别结果,该识别结果可以为对第一特征的标记,包括但不限于框标记、颜色标记、符号标记等。
步骤202:在识别结果与真实结果不同的情况下,获取对第一图像样本进行打标得到的第二图像样本。
其中,第二图像样本用于训练基石模型。
服务器获取基石模型输出的对第一特征的识别结果后,判断该识别结果是否与真实结果相同,若服务器判定该识别结果与真实结果相同,则表示输出的该批次的第一图像样本标记正确。若服务器判定该识别结果与真实结果不相同,则表示输出的该批次的第一图像样本标记不正确,则服务器根据真实结果对第一图像样本进行打标,得到携带有标签的第二图像样本。
服务器将携带有标签的第二图像样本输入基石模型,对基石模型进行训练,训练结束后,继续将另一批次的、不携带有标签的第一图像样本输入基石模型,并查看基石模型的对第一特征的识别结果是否与真实结果相同。若基石模型输出的识别结果与真实结果不相同,表明第一图像样本没有标记正确,则继续对第一图像样本进行打标并训练基石模型,若基石模型输出的识别结果与真实结果相同,则执行步骤203。
步骤203:在基石模型输出的识别结果与真实结果相同的情况下,将第一图像样本和识别结果存入训练样本集。
若基石模型输出的识别结果与真实结果相同,表明基石模型输出的第一图像样本的标记全部正确,则将该第一图像样本和识别结果存入训练样本集。该训练样本集为大量的携带有标签的样本,服务器可以通过该训练样本集训练其他模型,在训练结束后对模型的性能进行评估,然后发布该训练好的模型。
在本申请中,通过基石模型输出识别结果,在识别结果与真实结果不同的情况下,才需要对部分第一图像样本进行标注,并不需要提前全部标记好第一图像样本,节省了大量的提前标注工作,节约人力,提高生成训练样本集的效率。本申请通过循环标注的方式不断扩充第一图像样本的数量,迭代扩大数据集的规模,生成大量的样本数据集。另外,本申请通过不断的对识别结果与真实结果不同的第一图像样本进行标注,实现了数据的反补,能够提升基石模型的泛化性能。
作为一种可选的实施方式,在将第一图像样本输入基石模型之前,方法还包括:通过预设数据集确定预设权重,并构建携带有预设权重的初始训练模型;将初始图像样本输入初始训练模型,通过模拟退火方案对初始训练模型进行训练,得到基石模型。
服务器先通过预设数据集确定预设权重,然后将该预设权重载入深度学习模型中,构建携带有预设权重的初始训练模型,服务器获取携带有标签的初始图像样本,然后将将初始图像样本输入初始训练模型,通过模拟退火方案对初始训练模型进行训练,得到基石模型。其中,预设数据集可以为大规模自然图像数据集,示例性地,该预设数据集为imageNet。
本申请可以通过带预热的循环余弦退火算法对初始训练模型进行训练,能够提高基石模型的精确性。训练的过程为:梯度下降过程中重启m次,第m次重启在上次重启开始第Tm个回合后进行,Tm称为重启周期。在第m次重启之前,采用余弦衰减来降低学习率。第t次迭代的学习率为
其中,lmax,lmin分别为第f个周期中学习率的上界和下界,可随f的增大而逐渐降低;Tcur为从上次重启之后的回合(Epoch)数,Tcu可以为非整数,非整数意味着可以在每一个训练轮次内部进行衰减。重启周期Tf可以随着重启次数逐渐增加,比如Tf=Tf-1×Q,其中,Q为放大因子,Q≥1。
作为一种可选的实施方式,如图3所示,识别结果为第一特征的第一标注框,将第一图像样本和识别结果存入训练样本集包括:
步骤301:识别出第二图像样本中第一标注框。
第二图像样本是对第一图像样本进行打标得到的,因此,第二图像样本中携带有标签,该标签为含有目标对象的第一特征的第一标注框。
步骤302:根据第一标注框确定第二图像样本中目标对象的第二标注框。
其中,第二标注框对应目标对象的第二特征,第二标注框包括第一标注框。
在本申请实施例中,第一标注框为指示目标对象头部的标注框,第二标注框为指示目标对象身体的标注框,具体可以为目标对象的上半身的标注框,第一标注框和第二标注框均为矩形框,第二标注框包括第一标注框。若第二图像样本中的目标对象为正面图像,则能够识别到目标对象的面部特征,若第二图像样本中的目标对象为背面图像,则不能识别到目标对象的面部特征。本申请将从能够识别到目标对象的面部和不能识别到目标对象的面部两方面,确定第二图像样本中目标对象的第二标注框。
在无法识别到目标对象的面部的情况下,根据第一标注框确定第二图像样本中目标对象的第二标注框包括:确定第一图像样本的图片长度和第一标注框的中心点、长度、宽度;确定长度和宽度的第一比值、长度和图片长度的第二比值;根据第一比值和第二比值,确定扩展长度比值和扩展宽度比值;将扩展长度比值和第一标注框的长度的乘积作为扩展长度;将扩展宽度比值和第一标注框的宽度的乘积,作为扩展宽度;从中心点向外延长扩展长度和扩展宽度,得到第二标注框。
如图4所示,图4为第一标注框和第二标注框的示意图。第一标注框为较小的矩形框,第二标注框为待确定的较大的矩形框。服务器确定第一标注框的中心点(x,y)、长度h、宽度w,并确定第二图像样本的长度,服务器计算第一标注框的长度和宽度的第一比值μ,并计算第一标注框的长度和第二图像样本的长度的第二比值w,服务器根据μ和w得到确定扩展长度比值p和扩展宽度比值q。服务器根据第一标注框的长度h和扩展长度比值p的乘积,得到第二标注框的长度w',服务器根据第一标注框的宽度w和扩展宽度比值q的乘积,得到第二标注框的宽度h'。最后服务器以中心点为基础,向外扩展长度w'和宽度h',得到第二标注框。其中,p、q由数据聚类获得。
一般可以通过识别目标对象的头部的第一标注框,来确定目标对象的数量。若图像样本中目标对象头部占比过小,则难以标记并识别第一标注框。因此,本申请通过第一标注框得到较大的第二标注框,可以便于机器在难以识别到第一标注框的情况下,通过识别第二标注框来确定目标对象的数量。
因此,若第一标注框的长度和第二图像样本的长度的第二比值w小于目标阈值,表明第一标注框过小,难以识别出目标对象,则可以扩大第二标注框,即扩大扩展长度比值p和扩展宽度比值q,使p和q于预设比值。若第一标注框的长度和第二图像样本的长度的第二比值w不小于目标阈值,表明第一标注框没有过小,可以识别出目标对象,则无需特别扩大第二标注框,即p和q不大于预设比值。
在识别到目标对象的面部的情况下,根据第一标注框确定第二图像样本中目标对象的第二标注框包括:将第二图像样本输入目标识别模型,得到目标识别模型输出的目标对象的面部的关键点信息;通过关键点矩阵对关键点信息进行分析,得到目标对象的面部的姿态角;将姿态角和扩展长度的乘积作为第二标注框的长度,并将姿态角和扩展宽度的乘积作为第二标注框的宽度。
服务器将携带有标签的第二图像样本输入目标识别模型,目标识别模型根据第一标注框,输出的目标对象的面部的关键点信息,然后通过关键点矩阵对关键点信息进行分析,得到目标对象的面部的姿态角,具体为偏航角β和翻滚角γ,服务器将偏航角β和扩展长度的乘积作为第二标注框的长度w',即w'=sinβ*pw,服务器将翻滚角γ和扩展宽度的乘积作为第二标注框的宽度h',即
步骤303:将携带有第二标注框的第一图像样本和识别结果存入训练样本集。
服务器将携带有第二标注框的第一图像样本和识别结果存入训练样本集,在通过该训练样本集对模型进行训练后,输入未携带有标签的图像样本,输出的识别结果带有第一标注框和第二标注框。
本申请通过第一标注框得到第二标注框,将标注范围从目标对象的头部扩展到了目标对象的上半身,可以解决图像中目标对象头部过小难以识别的问题,提出了一种双督促的人头检测网络,提升对目标对象头部识别的敏感度和准确度。
作为一种可选地实施方式,基石模型的数量至少为两个,将第一图像样本输入基石模型,并获取基石模型对第一特征的识别结果包括:将第一图像样本进行尺寸缩放,得到多个缩放图像样本;将每个缩放图像样本分别输入一个基石模型,得到基石模型输出的第一特征的待选框;通过非极大值抑制方案,从多个待选框中选取出目标框;将目标框作为基石模型对第一特征的识别结果。
基石模型的数量至少为两个,基石模型为弱检测器,服务器在将第一图像样本输入基石模型之前,将第一图像样本进行尺寸缩放,得到多个缩放图像样本,基石模型对不同尺寸的缩放图像样本中的第一特征具有不同的敏感度,服务器将每个缩放图像样本分别输入一个基石模型,得到基石模型输出的第一特征的待选框,服务器通过NMS(Non-MaximumSuppression,非极大值抑制方案),对待选框进行排序和筛选,选取出目标框,将目标框作为基石模型对第一特征的识别结果。
本申请通过结合多个基石模型的偏差,得到最终的识别结果,可以提高识别结果的准确性。
可选的,本申请实施例还提供了训练样本集确定的处理流程图,如图5所示,具体步骤如下。
1.服务器获取携带有第一标注框的第二图像样本,一方面通过第二图像样本对基石模型进行训练,另一方面通过第一标注框确定出第二标注框。
2.服务器将未携带有标签的第一图像样本输入基石模型,基石模型进行推理,得到输出的(识别结果)伪标签数据集;携带有第一标注框和第二标注框的第一图像样本也作为伪标签数据集。
3.服务器判断伪标签数据集中的数据是否全部与真实结果相同,若不完全相同,则执行步骤4,若完全相同,则执行步骤5。
4.对不相同的数据进行打标,得到第二图像样本,通过第二图像样本对基石模型进行训练。
5.将伪标签数据集作为训练样本集。
基于相同的技术构思,本申请实施例还提供了一种训练样本集的确定装置,如图6所示,该装置包括:
输入模块601,用于将第一图像样本输入基石模型,并获取基石模型对第一特征的识别结果,其中,第一特征为第一图像样本中目标对象的特征。
获取模块602,用于在识别结果与真实结果不同的情况下,获取对第一图像样本进行打标得到的第二图像样本,其中,第二图像样本用于训练基石模型。
存入模块603,用于在基石模型输出的识别结果与真实结果相同的情况下,将第一图像样本和识别结果存入训练样本集。
可选地,识别结果为第一特征的第一标注框,存入模块603包括:
识别单元,用于识别出第二图像样本中第一标注框;
确定单元,用于根据第一标注框确定第二图像样本中目标对象的第二标注框,其中,第二标注框对应目标对象的第二特征,第二标注框包括第一标注框;
存入单元,用于将携带有第二标注框的第一图像样本和识别结果存入训练样本集。
可选地,第一标注框为指示目标对象头部的标注框,第二标注框为指示目标对象身体的标注框,第一标注框和第二标注框均为矩形框,确定单元包括:
第一确定子单元,用于在无法识别到目标对象的面部的情况下,确定第一图像样本的图片长度和第一标注框的中心点、长度、宽度;
第二确定子单元,用于确定长度和宽度的第一比值、长度和图片长度的第二比值;
第三确定子单元,用于根据第一比值和第二比值,确定扩展长度比值和扩展宽度比值;
第一作为子单元,用于将扩展长度比值和第一标注框的长度的乘积作为扩展长度;将扩展宽度比值和第一标注框的宽度的乘积,作为扩展宽度;
扩展子单元,用于从中心点向外延长扩展长度和扩展宽度,得到第二标注框。
可选地,第三确定子单元包括:
第一确定子模块,用于在第二比值小于目标阈值的情况下,根据第一比值和第二比值,确定扩展长度比值和扩展宽度比值大于预设比值;
第二确定子模块,用于在第二比值不小于目标阈值的情况下,根据第一比值和第二比值,确定扩展长度比值和扩展宽度比值不大于预设比值。
可选地,第一标注框为指示目标对象头部的标注框,第二标注框为指示目标对象身体的标注框,第一标注框和第二标注框均为矩形框,确定单元包括:
输入子单元,用于在识别到目标对象的面部的情况下,将第二图像样本输入目标识别模型,得到目标识别模型输出的目标对象的面部的关键点信息;
分析子单元,用于通过关键点矩阵对关键点信息进行分析,得到目标对象的面部的姿态角;
第二作为子单元,用于将姿态角和扩展长度的乘积作为第二标注框的长度,并将姿态角和扩展宽度的乘积作为第二标注框的宽度。
可选地,基石模型的数量至少为两个,输入模块601包括:
缩放单元,用于将第一图像样本进行尺寸缩放,得到多个缩放图像样本;
输入单元,用于将每个缩放图像样本分别输入一个基石模型,得到基石模型输出的第一特征的待选框;
选取单元,用于通过非极大值抑制方案,从多个待选框中选取出目标框;
作为单元,用于将目标框作为基石模型对第一特征的识别结果。
可选地,装置还包括:
构建模块,用于通过预设数据集确定预设权重,并构建携带有预设权重的初始训练模型;
训练模块,用于将初始图像样本输入初始训练模型,通过模拟退火方案对初始训练模型进行训练,得到基石模型。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图7所示,包括存储器703、处理器701、通信接口702及通信总线704,存储器703中存储有可在处理器701上运行的计算机程序,存储器703、处理器701通过通信接口702和通信总线704进行通信,处理器701执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种训练样本集的确定方法,其特征在于,所述方法包括:
将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果,其中,所述第一特征为所述第一图像样本中目标对象的特征;
在所述识别结果与真实结果不同的情况下,获取对所述第一图像样本进行打标得到的第二图像样本,其中,所述第二图像样本用于训练所述基石模型;
在所述基石模型输出的识别结果与所述真实结果相同的情况下,将所述第一图像样本和识别结果存入训练样本集。
2.根据权利要求1所述的方法,其特征在于,所述识别结果为所述第一特征的第一标注框,所述将所述第一图像样本和识别结果存入训练样本集包括:
识别出所述第二图像样本中第一标注框;
根据所述第一标注框确定所述第二图像样本中目标对象的第二标注框,其中,所述第二标注框对应所述目标对象的第二特征,所述第二标注框包括所述第一标注框;
将携带有所述第二标注框的第一图像样本和识别结果存入训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述第一标注框为指示所述目标对象头部的标注框,所述第二标注框为指示所述目标对象身体的标注框,所述第一标注框和所述第二标注框均为矩形框,所述根据所述第一标注框确定所述第二图像样本中目标对象的第二标注框包括:
在无法识别到所述目标对象的面部的情况下,确定所述第一图像样本的图片长度和所述第一标注框的中心点、长度、宽度;
确定所述长度和所述宽度的第一比值、所述长度和所述图片长度的第二比值;
根据所述第一比值和所述第二比值,确定扩展长度比值和扩展宽度比值;
将所述扩展长度比值和所述第一标注框的长度的乘积作为扩展长度;将所述扩展宽度比值和所述第一标注框的宽度的乘积,作为扩展宽度;
从所述中心点向外延长所述扩展长度和所述扩展宽度,得到所述第二标注框。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一比值和所述第二比值,确定扩展长度比值和扩展宽度比值包括:
在所述第二比值小于目标阈值的情况下,根据所述第一比值和所述第二比值,确定所述扩展长度比值和所述扩展宽度比值大于预设比值;
在所述第二比值不小于所述目标阈值的情况下,根据所述第一比值和所述第二比值,确定所述扩展长度比值和所述扩展宽度比值不大于所述预设比值。
5.根据权利要求2所述的方法,其特征在于,所述第一标注框为指示所述目标对象头部的标注框,所述第二标注框为指示所述目标对象身体的标注框,所述第一标注框和所述第二标注框均为矩形框,所述根据所述第一标注框确定所述第二图像样本中目标对象的第二标注框包括:
在识别到所述目标对象的面部的情况下,将所述第二图像样本输入目标识别模型,得到所述目标识别模型输出的所述目标对象的面部的关键点信息;
通过关键点矩阵对所述关键点信息进行分析,得到所述目标对象的面部的姿态角;
将所述姿态角和扩展长度的乘积作为所述第二标注框的长度,并将所述姿态角和扩展宽度的乘积作为所述第二标注框的宽度。
6.根据权利要求1所述的方法,其特征在于,所述基石模型的数量至少为两个,所述将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果包括:
将所述第一图像样本进行尺寸缩放,得到多个缩放图像样本;
将每个缩放图像样本分别输入一个所述基石模型,得到所述基石模型输出的所述第一特征的待选框;
通过非极大值抑制方案,从所述多个待选框中选取出目标框;
将所述目标框作为所述基石模型对第一特征的识别结果。
7.根据权利要求1所述的方法,其特征在于,在将第一图像样本输入基石模型之前,所述方法还包括:
通过预设数据集确定预设权重,并构建携带有所述预设权重的初始训练模型;
将初始图像样本输入所述初始训练模型,通过模拟退火方案对所述初始训练模型进行训练,得到基石模型。
8.一种训练样本集的确定装置,其特征在于,所述装置包括:
输入模块,用于将第一图像样本输入基石模型,并获取所述基石模型对第一特征的识别结果,其中,所述第一特征为所述第一图像样本中目标对象的特征;
获取模块,用于在所述识别结果与真实结果不同的情况下,获取对所述第一图像样本进行打标得到的第二图像样本,其中,所述第二图像样本用于训练所述基石模型;
存入模块,用于在所述基石模型输出的识别结果与所述真实结果相同的情况下,将所述第一图像样本和识别结果存入训练样本集。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011577917.XA CN112580739B (zh) | 2020-12-28 | 2020-12-28 | 一种训练样本集的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011577917.XA CN112580739B (zh) | 2020-12-28 | 2020-12-28 | 一种训练样本集的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580739A true CN112580739A (zh) | 2021-03-30 |
CN112580739B CN112580739B (zh) | 2024-02-27 |
Family
ID=75140174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011577917.XA Active CN112580739B (zh) | 2020-12-28 | 2020-12-28 | 一种训练样本集的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580739B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569691A (zh) * | 2021-07-19 | 2021-10-29 | 新疆爱华盈通信息技术有限公司 | 人头检测模型生成方法、装置、人头检测模型及人头检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635697A (zh) * | 2018-12-04 | 2019-04-16 | 国网浙江省电力有限公司电力科学研究院 | 基于YOLOv3目标检测的电力作业人员安全着装检测方法 |
CN111127468A (zh) * | 2020-04-01 | 2020-05-08 | 北京邮电大学 | 一种道路裂缝检测方法和装置 |
CN111210024A (zh) * | 2020-01-14 | 2020-05-29 | 深圳供电局有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN111353342A (zh) * | 2018-12-21 | 2020-06-30 | 浙江宇视科技有限公司 | 肩头识别模型训练方法、装置、人数统计方法、装置 |
CN111598091A (zh) * | 2020-05-20 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备及计算可读存储介质 |
CN111598164A (zh) * | 2020-05-15 | 2020-08-28 | 北京百度网讯科技有限公司 | 识别目标对象的属性的方法、装置、电子设备和存储介质 |
CN111768405A (zh) * | 2020-08-05 | 2020-10-13 | 赛维森(广州)医疗科技服务有限公司 | 处理标注图像的方法、装置、设备和存储介质 |
-
2020
- 2020-12-28 CN CN202011577917.XA patent/CN112580739B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635697A (zh) * | 2018-12-04 | 2019-04-16 | 国网浙江省电力有限公司电力科学研究院 | 基于YOLOv3目标检测的电力作业人员安全着装检测方法 |
CN111353342A (zh) * | 2018-12-21 | 2020-06-30 | 浙江宇视科技有限公司 | 肩头识别模型训练方法、装置、人数统计方法、装置 |
CN111210024A (zh) * | 2020-01-14 | 2020-05-29 | 深圳供电局有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN111127468A (zh) * | 2020-04-01 | 2020-05-08 | 北京邮电大学 | 一种道路裂缝检测方法和装置 |
CN111598164A (zh) * | 2020-05-15 | 2020-08-28 | 北京百度网讯科技有限公司 | 识别目标对象的属性的方法、装置、电子设备和存储介质 |
CN111598091A (zh) * | 2020-05-20 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备及计算可读存储介质 |
CN111768405A (zh) * | 2020-08-05 | 2020-10-13 | 赛维森(广州)医疗科技服务有限公司 | 处理标注图像的方法、装置、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569691A (zh) * | 2021-07-19 | 2021-10-29 | 新疆爱华盈通信息技术有限公司 | 人头检测模型生成方法、装置、人头检测模型及人头检测方法 |
CN113569691B (zh) * | 2021-07-19 | 2024-09-27 | 芯算一体(深圳)科技有限公司 | 人头检测模型生成方法、装置、人头检测模型及人头检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112580739B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950638B (zh) | 基于模型蒸馏的图像分类方法、装置和电子设备 | |
CN109800320B (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN106446754A (zh) | 图像识别方法、度量学习方法、图像来源识别方法及装置 | |
CN110084002A (zh) | 深度神经网络攻击方法、装置、介质和计算设备 | |
CN110837869A (zh) | 图像分类模型训练方法、图像处理方法及装置 | |
CN112115907B (zh) | 固定版面证件结构化信息提取方法、装置、设备及介质 | |
TWI670628B (zh) | 動作評量模型生成裝置及其動作評量模型生成方法 | |
CN108959474A (zh) | 实体关系提取方法 | |
CN111444850A (zh) | 一种图片检测的方法和相关装置 | |
CN115658955A (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN107392191B (zh) | 身份判定方法、装置及电子设备 | |
CN111046747B (zh) | 人群计数模型的训练方法、人群计数方法、装置和服务器 | |
US20150139538A1 (en) | Object detection with boosted exemplars | |
CN112580739A (zh) | 一种训练样本集的确定方法和装置 | |
CN105740903B (zh) | 多属性识别方法及装置 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN110502961A (zh) | 一种面部图像检测方法及装置 | |
CN115906861B (zh) | 基于交互方面信息融合的语句情感分析方法以及装置 | |
CN111967383A (zh) | 年龄估计方法、年龄估计模型的训练方法和装置 | |
CN114399633B (zh) | 一种基于YOLOv5s模型的移动电子设备位置检测方法 | |
CN102308307B (zh) | 用于模式发现和识别的方法 | |
CN112989801A (zh) | 一种序列标注方法、装置及设备 | |
CN108875770B (zh) | 行人检测误报数据的标注方法、装置、系统和存储介质 | |
CN111444803A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111626437A (zh) | 对抗样本检测方法、装置、设备及计算机刻度存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |