CN110674720A - 图片识别方法、装置、电子设备及存储介质 - Google Patents
图片识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110674720A CN110674720A CN201910882764.0A CN201910882764A CN110674720A CN 110674720 A CN110674720 A CN 110674720A CN 201910882764 A CN201910882764 A CN 201910882764A CN 110674720 A CN110674720 A CN 110674720A
- Authority
- CN
- China
- Prior art keywords
- picture
- model
- data set
- background
- pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种图片识别方法,所述方法包括:获取待识别物体图片;将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。本发明还提供一种图片识别装置、电子设备及存储介质。本发明能提高模型对真实数据的泛化能力,提高模型对物体识别的准确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种图片识别方法、装置、电子设备及存储介质。
背景技术
近十年,人工智能飞速发展,计算机视觉的应用遍布人们的生活。常见的应用包括场景检测、人脸识别、物体识别等。这些技术背后的神经网络模型都几乎依赖于深度学习,而深度学习中训练神经网络模型都需要大量带标注的训练数据的支持。
然而,实践中发现,存在一些情况特殊的视觉任务,这些视觉任务适用深度神经网络模型,但是无法从公开途径收集到足够多的样本数据,如图片与视频的鉴黄任务。针对这些特殊的视觉任务,如果使用少量的真实样本直接训练深度神经网络模型会导致模型过拟合,使得训练出来的模型无法对物体进行有效地识别。
因此,如何提高模型对物体识别地准确度是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种图片识别方法、装置、电子设备及存储介质,能够提高模型对真实数据的泛化能力,提高模型对物体识别的准确度。
本发明的第一方面提供一种图片识别方法,所述方法包括:
获取待识别物体图片;
将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;
使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
在一种可能的实现方式中,所述获取待识别物体图片之前,所述方法还包括:
获取真实数据集和背景图片集,其中,所述真实数据集由多张携带有背景的物体的图片组成,所述背景图片集由多张背景图片组成;
获取背景透明的多张物体图片,其中,所述多张物体图片中物体的类型与所述真实数据集中的物体的类型一致;
将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片,并根据多张所述合成图片,构成合成数据集;
在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型。
在一种可能的实现方式中,所述将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片包括:
对所述多张物体图片中的每张物体图片进行随机变换,获得符合真实场景中物体形态变换的多张物体形态图片;
针对每张所述物体形态图片,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第一背景图片的第一位置上;
判断所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色是否一致;
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色不一致,在所述第一位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第一合成图片。
在一种可能的实现方式中,所述方法还包括:
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致,判断所述第一背景图片的位置选择次数是否小于预设次数阈值;
若所述第一背景图片的位置选择次数小于所述预设次数阈值,在所述第一背景图片上随机选择第二位置;
将所述物体形态图片放置在所述第一背景图片的第二位置上;
若所述物体形态图片的主色与所述第一背景图片在所述第二位置上的主色不一致,在所述第二位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第二合成图片。
在一种可能的实现方式中,所述方法还包括:
若所述第一背景图片的位置选择次数大于或等于所述预设次数阈值,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第二背景图片的第三位置上;
若所述物体形态图片的主色与所述第二背景图片在所述第三位置上的主色不一致,在所述第三位置上,将所述物体形态图片与所述第二背景图片进行合成,获得第三合成图片。
在一种可能的实现方式中,所述方法还包括:
对每张所述合成图片进行颜色变换并保存;
对颜色变换后的合成图片中的物体的位置进行矩形框标注并保存。
在一种可能的实现方式中,所述获取真实数据集和背景图片集之后,所述方法还包括:
将所述真实数据集拆分成第一部分数据集以及第二部分数据集;
所述在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型包括:
在模型初始训练阶段,使用所述第一部分数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
所述在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型包括:
在模型微调阶段,使用所述第二部分数据集对所述中间模型进行微调,获得训练好的物体识别模型。
本发明的第二方面提供一种图片识别装置,所述图片识别装置包括:
获取模块,用于获取待识别物体图片;
输入模块,用于将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;
识别模块,用于使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的图片识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的图片识别方法。
由以上技术方案,本发明中,可以先获取待识别物体图片,将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;并使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。可见,本发明中,物体识别模型是基于合成数据集与真实数据集训练得到的,合成数据集弥补了真实数据集中的样本数量较少的缺陷,使得有足够的样本用于模型训练,从而可以解决小样本下训练的模型容易过拟合的问题,此外,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用,能够提高模型对真实数据的泛化能力,使得模型达到与大量真实数据训练模型同等级的准确率,即提高了模型对物体识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明公开的一种图片识别方法的较佳实施例的流程图。
图2是本发明公开的一种图片识别装置的较佳实施例的功能模块图。
图3是本发明实现图片识别方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”以及“第三”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”以及“第三”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”以及“第三”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
所述电子设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种图片识别的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、电子设备获取待识别物体图片。
其中,所述待识别物体图片即包含有需要识别的物体的图片,其中,物体即识别的对象,可以为任意的物体,比如狗、人、树木、logo等。
S12、电子设备将所述待识别物体图片输入至预先训练好的物体识别模型中。
其中,模型训练所需的数据量主要与模型的复杂度、任务的难度和精度的要求有关。通常,模型复杂度越高,任务难度越大,对精度要求越高,所需要的数据量也越大。同时,数据的质量也影响所需要的数据的数量,一百万个混乱的数据反而不如100个干净数据更有助于模型的训练。因此,实际需要多少数据与当前模型训练的实际情况有关。
针对真实图片数量较少的情况,需要进行图片合成,以弥补真实样本数量不足的缺陷。
本发明中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用,具体的可以参照下文的相关描述。
其中,合成数据集中包括多张合成图片,合成图片是预先根据物体图片和背景图片合成的,并不是直接获得的真实图片,而真实数据集中包括多张携带有背景的物体的图片,真实数据集中的图片是直接获得的真实图片。
S13、电子设备使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
其中,所述识别结果可以包括所述待识别物体图片中物体的类型以及物体在所述待识别物体图片中的位置。
作为一种可选的实施方式,步骤S11之前,所述方法还包括:
获取真实数据集和背景图片集,其中,所述真实数据集由多张携带有背景的物体的图片组成,所述背景图片集由多张背景图片组成;
获取背景透明的多张物体图片,其中,所述多张物体图片中物体的类型与所述真实数据集中的物体的类型一致;
将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片,并根据多张所述合成图片,构成合成数据集;
在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型。
在该可选的实施方式中,可以通过网络搜索或公开数据集获得大量图片,其中,有少量图片包括物体,其余图片不包括物体,可以将少量包括物体的图片添加到真实数据集中,而将其余不包括物体的图片添加到背景图片集中。这些其余不包括物体的图片与物体出现的真实场景类似,将其作为背景合成的图片与真实图片更为相近,合成效果好。
其中,可以通过网络下载或photoshop软件合成等方式获得背景透明的物体图片,该多张物体图片的图片格式为RGBA格式(比如png格式),其中,RGBA是代表Red(红色)、Green(绿色)、Blue(蓝色)和Alpha的色彩空间。其中背景部分的像素在A通道的数值为0。其中,所述多张物体图片中物体的类型与所述真实数据集中的物体的类型一致,比如,所述真实数据集中的物体为某个公司的Logo,则所述多张物体图片中物体的类型也为某个公司的Logo。
其中,随机搭配包含了随机变换物体的形态,随机选择背景来放置物体,随机选择背景中放置物体的位置。通过随机搭配生成的合成图片,更能够符合真实场景的真实图片,使得合成图片与真实图片更贴合。
其中,可以将模型训练分成两个阶段,模型初始训练阶段以及模型微调阶段。其中,可以根据不同的物体来选择适合的物体识别初始模型,比如针对logo识别,可以选择的模型包括但不限于CenterNet,CornerNet,YOLO等。
其中,在进行模型训练之前,可以将所述真实数据集进行拆分(参考下文相关描述),或者不对所述真实数据集进行拆分,无论拆分与否,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用。其中,不对所述真实数据集拆分是指在模型初始训练阶段以及模型微调阶段均使用全部的真实数据集。
在模型初始训练阶段,可以使用所述真实数据集以及所述合成数据集对物体识别初始模型从头开始训练,直到模型损失函数的取值收敛到稳定数值,获得中间模型,在模型微调阶段,可以使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型,通过使用真实数据集进行微调,可以使得训练好的模型对真实的物体图片更具有泛化能力,使得模型达到与大量真实数据训练模型同等级的准确率,达到实际可用的标准。
作为一种可选的实施方式,所述方法还包括:
对每张所述合成图片进行颜色变换并保存;
对颜色变换后的合成图片中的物体的位置进行矩形框标注并保存。
在该可选的实施方式中,在合成图片之后,为了进一步扩大合成图片的数量,可以对每张所述合成图片进行颜色变换,该颜色变换可以包括但不限于对比度和亮度变化,曝光度变化,饱和度变化,模糊与锐化以及直方图均衡等,并保存颜色变换后的合成图片。其中,需要确保合成数据集中的合成图片的数量至少为真实数据集中的图片数量的20倍,以保证合成图片的多样性。
其中,通过RGBA格式的A通道可以精确定位物体的位置矩形框,即对颜色变换后的合成图片中的物体的位置进行矩形框标注,解决了现有技术直接对整张图片变换后原有标注经过变换后所得标注矩形框无法准确表达物体在图片中位置的问题。
作为一种可选的实施方式,所述获取真实数据集和背景图片集之后,所述方法还包括:
将所述真实数据集拆分成第一部分数据集以及第二部分数据集;
所述在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型包括:
在模型初始训练阶段,使用所述第一部分数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
所述在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型包括:
在模型微调阶段,使用所述第二部分数据集对所述中间模型进行微调,获得训练好的物体识别模型。
在该可选的实施方式中,可以在模型训练之前,将所述真实数据集拆分成第一部分数据集以及第二部分数据集,优选的,可以将所述真实数据集进行平均拆分。随机选取一半的真实数据集与所有的合成数据集组成初始训练数据集,并对物体识别初始模型进行训练,获得中间模型。具体的,将真实数据集中的图片随机打乱顺序后,在从打乱顺序后的真实数据集中随机选取一半的真实数据集,并与全部的合成数据集组合在一起对模型从头开始训练。之后,再将另一半真实数据集作为微调数据集,用于对中间模型进行再训练,即模型微调,使得模型对真实物体图片更具泛化能力。
作为一种可选的实施方式,所述将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片包括:
对所述多张物体图片中的每张物体图片进行随机变换,获得符合真实场景中物体形态变换的多张物体形态图片;
针对每张所述物体形态图片,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第一背景图片的第一位置上;
判断所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色是否一致;
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色不一致,在所述第一位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第一合成图片。
其中,随机变换包括仿射变化以及透视变换。具体的,可以随机选取旋转角度对每张物体图片进行旋转变换,随机选择错切的程度对每张物体图片进行错切变换;随机选择缩放倍数对每张物体图片进行缩放;随机选择参数对每张物体图片进行透视变换。以上变化可以改变每张物体图片在合成图片中的形态,但是不改变物体在A通道的数值。因此,可以根据物体图片A通道的数值将变换后的图片缩小到包含物体不透明部分的最小矩形框上。
其中,从所述多张背景图片中,随机选择任一张背景图片(即第一背景图片),并随机选择第一背景图片的任一位置(即第一位置),将所述物体形态图片放置在第一背景图片的第一位置上,其中,需要保证所述物体形态图片可以完整地放置在第一背景图片中,不会存在所述物体形态图片的部分区域超出所述第一背景图片的背景边界的情况。
其中,为了易于神经网络识别,需要使得所述物体形态图片放置在所述第一背景图片的第一位置上后仍然有清晰的边界,因此,需要筛选所述第一背景图片中放置所述物体形态图片的位置。
其中,图片的颜色均是通过RGB格式来表达的。可以将所述第一位置的图片区域的RGB通道部分以及所述物体形态图片的RGB通道部分均转换为HSV(Hue,Saturation,Value,色调、饱和度、值)格式来表达,通过H通道统计出所述第一位置的图片区域的主色值和所述物体形态图片的主色值(即出现频次最高的颜色的值)。
由于主色的范围在0~360,因此,可以预先设置一个主色阈值,比如60、120。如果所述第一位置的图片区域的主色值与所述物体形态图片的主色值的差值的绝对值小于60,或者,所述第一位置的图片区域的主色值与所述物体形态图片的主色值的差值的绝对值大于120,则表明二者的主色值相差较小,可以确定所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致,反之,如果所述第一位置的图片区域的主色值与所述物体形态图片的主色值的差值的绝对值处于(60,120)之间,则表明二者的主色值相差较大,可以确定所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色不一致。
作为一种可选的实施方式,所述方法还包括:
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致,判断所述第一背景图片的位置选择次数是否小于预设次数阈值;
若所述第一背景图片的位置选择次数小于所述预设次数阈值,在所述第一背景图片上随机选择第二位置;
将所述物体形态图片放置在所述第一背景图片的第二位置上;
若所述物体形态图片的主色与所述第一背景图片在所述第二位置上的主色不一致,在所述第二位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第二合成图片。
在该可选的实施方式中,可以预先设置预设次数阈值,比如5次,该预设次数阈值为在背景图片中能够进行位置选择的最大次数。当判断所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致时,表明当前所述物体形态图片放置在所述第一背景图片的第一位置上后没有清晰的边界,表明当前选择的第一位置不合适,需要在所述第一背景图片中重新选择位置,并依据上述的方法进行判断选择的位置是否合适,此外,在重新选择位置之前,需要先判断所述第一背景图片的位置选择次数是否小于预设次数阈值,若所述第一背景图片的位置选择次数小于所述预设次数阈值,可以进一步在所述第一背景图片上随机选择第二位置,将所述物体形态图片放置在所述第一背景图片的第二位置上,并依据上述基于主色筛选的方式对该第二位置进行判断,如果符合要求,则在所述第二位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第二合成图片。
作为一种可选的实施方式,所述方法还包括:
若所述第一背景图片的位置选择次数大于或等于所述预设次数阈值,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第二背景图片的第三位置上;
若所述物体形态图片的主色与所述第二背景图片在所述第三位置上的主色不一致,在所述第三位置上,将所述物体形态图片与所述第二背景图片进行合成,获得第三合成图片。
在该可选的实施方式中,若所述第一背景图片的位置选择次数大于或等于所述预设次数阈值,表明当前已经在所述第一背景图片上选择的很多次位置,而且这些选择的位置均不符合要求,也进一步表明所述第一背景图片的大部分位置的主色与所述物体形态图片的主色一致,即所述第一背景图片不符合合成的要求,需要重新随机选择第二背景图片,并在第二背景图片上随机选择第三位置,并依据上述的基于主色筛选的方式对该第二背景图片的第三位置进行判断,如果符合要求,则在所述第三位置上,将所述物体形态图片与所述第二背景图片进行合成,获得第三合成图片。
需要说明的是,上述的第一、第二、第三只是用于区分不同的对象,并不代表具体的含义。
在图1所描述的方法流程中,可以先获取待识别物体图片,将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;并使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。可见,本发明中,物体识别模型是基于合成数据集与真实数据集训练得到的,合成数据集弥补了真实数据集中的样本数量较少的缺陷,使得有足够的样本用于模型训练,从而可以解决小样本下训练的模型容易过拟合的问题,此外,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用,能够提高模型对真实数据的泛化能力,使得模型达到与大量真实数据训练模型同等级的准确率,即提高了模型对物体识别的准确度。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图2,图2是本发明公开的一种图片识别装置的较佳实施例的功能模块图。
在一些实施例中,所述图片识别装置运行于电子设备中。所述图片识别装置可以包括多个由程序代码段所组成的功能模块。所述图片识别装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的图片识别方法中的部分或全部步骤,具体可以参照图1中的相关描述,在此不再赘述。
本实施例中,所述图片识别装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、输入模块202以及识别模块203。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块201,用于获取待识别物体图片。
输入模块202,用于将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用。
识别模块203,用于使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
可选的,所述获取模块201,还用于获取真实数据集和背景图片集,其中,所述真实数据集由多张携带有背景的物体的图片组成,所述背景图片集由多张背景图片组成。
所述获取模块201,还用于获取背景透明的多张物体图片,其中,所述多张物体图片中物体的类型与所述真实数据集中的物体的类型一致。
所述图片识别装置还包括:
生成模块,用于将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片,并根据多张所述合成图片,构成合成数据集;
训练模块,用于在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
调整模块,用于在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型。
可选的,所述生成模块将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片的方式具体为:
对所述多张物体图片中的每张物体图片进行随机变换,获得符合真实场景中物体形态变换的多张物体形态图片;
针对每张所述物体形态图片,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第一背景图片的第一位置上;
判断所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色是否一致;
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色不一致,在所述第一位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第一合成图片。
可选的,所述生成模块将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片的方式具体为:
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致,判断所述第一背景图片的位置选择次数是否小于预设次数阈值;
若所述第一背景图片的位置选择次数小于所述预设次数阈值,在所述第一背景图片上随机选择第二位置;
将所述物体形态图片放置在所述第一背景图片的第二位置上;
若所述物体形态图片的主色与所述第一背景图片在所述第二位置上的主色不一致,在所述第二位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第二合成图片。
可选的,所述生成模块将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片的方式具体为:
若所述第一背景图片的位置选择次数大于或等于所述预设次数阈值,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第二背景图片的第三位置上;
若所述物体形态图片的主色与所述第二背景图片在所述第三位置上的主色不一致,在所述第三位置上,将所述物体形态图片与所述第二背景图片进行合成,获得第三合成图片。
可选的,所述图片识别装置还包括:
变换保存模块,用于对每张所述合成图片进行颜色变换并保存;
标注保存模块,用于对颜色变换后的合成图片中的物体的位置进行矩形框标注并保存。
可选的,所述图片识别装置还包括:
拆分模块,用于将所述真实数据集拆分成第一部分数据集以及第二部分数据集;
所述训练模块在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型的方式具体为:
在模型初始训练阶段,使用所述第一部分数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
所述调整模块在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型的方式具体为:
在模型微调阶段,使用所述第二部分数据集对所述中间模型进行微调,获得训练好的物体识别模型。
在图2所描述的图片识别装置中,可以先获取待识别物体图片,将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;并使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。可见,本发明中,物体识别模型是基于合成数据集与真实数据集训练得到的,合成数据集弥补了真实数据集中的样本数量较少的缺陷,使得有足够的样本用于模型训练,从而可以解决小样本下训练的模型容易过拟合的问题,此外,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用,能够提高模型对真实数据的泛化能力,使得模型达到与大量真实数据训练模型同等级的准确率,即提高了模型对物体识别的准确度。
如图3所示,图3是本发明实现图片识别方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述电子设备3还包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(InternetProtocol Television,IPTV)、智能式穿戴式设备等。所述电子设备3所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种图片识别方法,所述处理器32可执行所述多个指令从而实现:
获取待识别物体图片;
将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;
使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
在一种可选的实施方式中,所述获取待识别物体图片之前,所述处理器32可执行所述多个指令从而实现:
获取真实数据集和背景图片集,其中,所述真实数据集由多张携带有背景的物体的图片组成,所述背景图片集由多张背景图片组成;
获取背景透明的多张物体图片,其中,所述多张物体图片中物体的类型与所述真实数据集中的物体的类型一致;
将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片,并根据多张所述合成图片,构成合成数据集;
在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型。
在一种可选的实施方式中,所述将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片包括:
对所述多张物体图片中的每张物体图片进行随机变换,获得符合真实场景中物体形态变换的多张物体形态图片;
针对每张所述物体形态图片,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第一背景图片的第一位置上;
判断所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色是否一致;
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色不一致,在所述第一位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第一合成图片。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致,判断所述第一背景图片的位置选择次数是否小于预设次数阈值;
若所述第一背景图片的位置选择次数小于所述预设次数阈值,在所述第一背景图片上随机选择第二位置;
将所述物体形态图片放置在所述第一背景图片的第二位置上;
若所述物体形态图片的主色与所述第一背景图片在所述第二位置上的主色不一致,在所述第二位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第二合成图片。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
若所述第一背景图片的位置选择次数大于或等于所述预设次数阈值,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第二背景图片的第三位置上;
若所述物体形态图片的主色与所述第二背景图片在所述第三位置上的主色不一致,在所述第三位置上,将所述物体形态图片与所述第二背景图片进行合成,获得第三合成图片。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
对每张所述合成图片进行颜色变换并保存;
对颜色变换后的合成图片中的物体的位置进行矩形框标注并保存。
在一种可选的实施方式中,所述获取真实数据集和背景图片集之后,所述处理器32可执行所述多个指令从而实现:
将所述真实数据集拆分成第一部分数据集以及第二部分数据集;
所述在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型包括:
在模型初始训练阶段,使用所述第一部分数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
所述在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型包括:
在模型微调阶段,使用所述第二部分数据集对所述中间模型进行微调,获得训练好的物体识别模型。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,可以先获取待识别物体图片,将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;并使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。可见,本发明中,物体识别模型是基于合成数据集与真实数据集训练得到的,合成数据集弥补了真实数据集中的样本数量较少的缺陷,使得有足够的样本用于模型训练,从而可以解决小样本下训练的模型容易过拟合的问题,此外,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用,能够提高模型对真实数据的泛化能力,使得模型达到与大量真实数据训练模型同等级的准确率,即提高了模型对物体识别的准确度。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种图片识别方法,其特征在于,所述方法包括:
获取待识别物体图片;
将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;
使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别物体图片之前,所述方法还包括:
获取真实数据集和背景图片集,其中,所述真实数据集由多张携带有背景的物体的图片组成,所述背景图片集由多张背景图片组成;
获取背景透明的多张物体图片,其中,所述多张物体图片中物体的类型与所述真实数据集中的物体的类型一致;
将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片,并根据多张所述合成图片,构成合成数据集;
在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述多张物体图片和所述多张背景图片进行随机搭配,生成合成图片包括:
对所述多张物体图片中的每张物体图片进行随机变换,获得符合真实场景中物体形态变换的多张物体形态图片;
针对每张所述物体形态图片,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第一背景图片的第一位置上;
判断所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色是否一致;
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色不一致,在所述第一位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第一合成图片。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述物体形态图片的主色与所述第一背景图片在所述第一位置上的主色一致,判断所述第一背景图片的位置选择次数是否小于预设次数阈值;
若所述第一背景图片的位置选择次数小于所述预设次数阈值,在所述第一背景图片上随机选择第二位置;
将所述物体形态图片放置在所述第一背景图片的第二位置上;
若所述物体形态图片的主色与所述第一背景图片在所述第二位置上的主色不一致,在所述第二位置上,将所述物体形态图片与所述第一背景图片进行合成,获得第二合成图片。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述第一背景图片的位置选择次数大于或等于所述预设次数阈值,从所述多张背景图片中,将所述物体形态图片放置在随机选择的第二背景图片的第三位置上;
若所述物体形态图片的主色与所述第二背景图片在所述第三位置上的主色不一致,在所述第三位置上,将所述物体形态图片与所述第二背景图片进行合成,获得第三合成图片。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对每张所述合成图片进行颜色变换并保存;
对颜色变换后的合成图片中的物体的位置进行矩形框标注并保存。
7.根据权利要求2至6中任一项所述的方法,其特征在于,所述获取真实数据集和背景图片集之后,所述方法还包括:
将所述真实数据集拆分成第一部分数据集以及第二部分数据集;
所述在模型初始训练阶段,使用所述真实数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型包括:
在模型初始训练阶段,使用所述第一部分数据集以及所述合成数据集对物体识别初始模型进行训练,获得中间模型;
所述在模型微调阶段,使用所述真实数据集对所述中间模型进行微调,获得训练好的物体识别模型包括:
在模型微调阶段,使用所述第二部分数据集对所述中间模型进行微调,获得训练好的物体识别模型。
8.一种图片识别装置,其特征在于,所述图片识别装置包括:
获取模块,用于获取待识别物体图片;
输入模块,用于将所述待识别物体图片输入至预先训练好的物体识别模型中,其中,所述物体识别模型是基于合成数据集与真实数据集训练得到的,所述真实数据集在模型初始训练阶段以及模型微调阶段均被使用;
识别模块,用于使用所述物体识别模型对所述待识别物体图片进行识别,获得识别结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的图片识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的图片识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882764.0A CN110674720A (zh) | 2019-09-18 | 2019-09-18 | 图片识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882764.0A CN110674720A (zh) | 2019-09-18 | 2019-09-18 | 图片识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674720A true CN110674720A (zh) | 2020-01-10 |
Family
ID=69076789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910882764.0A Pending CN110674720A (zh) | 2019-09-18 | 2019-09-18 | 图片识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674720A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495147A (zh) * | 2022-01-25 | 2022-05-13 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766872A (zh) * | 2019-01-31 | 2019-05-17 | 广州视源电子科技股份有限公司 | 图像识别方法和装置 |
CN110060233A (zh) * | 2019-03-20 | 2019-07-26 | 中国农业机械化科学研究院 | 一种玉米果穗破损检测方法 |
-
2019
- 2019-09-18 CN CN201910882764.0A patent/CN110674720A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766872A (zh) * | 2019-01-31 | 2019-05-17 | 广州视源电子科技股份有限公司 | 图像识别方法和装置 |
CN110060233A (zh) * | 2019-03-20 | 2019-07-26 | 中国农业机械化科学研究院 | 一种玉米果穗破损检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495147A (zh) * | 2022-01-25 | 2022-05-13 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
CN114495147B (zh) * | 2022-01-25 | 2023-05-05 | 北京百度网讯科技有限公司 | 识别方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325954B (zh) | 图像分割方法、装置及电子设备 | |
CN111739128B (zh) | 一种目标视频生成方法和系统 | |
CN108765268A (zh) | 一种辅助化妆方法、装置及智能镜 | |
CN108492294B (zh) | 一种图像色彩和谐程度的评估方法及装置 | |
US20180322367A1 (en) | Image processing method, non-transitory computer readable storage medium and image processing system | |
US20150310305A1 (en) | Learning painting styles for painterly rendering | |
CN109657715B (zh) | 一种语义分割方法、装置、设备及介质 | |
CN105404846A (zh) | 一种图像处理方法及装置 | |
WO2022089170A1 (zh) | 字幕区域识别方法、装置、设备及存储介质 | |
CN107172354A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
KR20150112535A (ko) | 비디오 대표 이미지 관리 장치 및 방법 | |
CN111739027A (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN109410295B (zh) | 颜色设置方法、装置、设备及计算机可读存储介质 | |
CN107943811A (zh) | 内容的发布方法和装置 | |
CN110321892A (zh) | 一种图片筛选方法、装置及电子设备 | |
CN113689436A (zh) | 图像语义分割方法、装置、设备及存储介质 | |
CN112419214A (zh) | 一种标注图像生成方法、装置、可读存储介质及终端设备 | |
CN112633221A (zh) | 一种人脸方向的检测方法及相关装置 | |
CN110990617B (zh) | 一种图片标记方法、装置、设备及存储介质 | |
CN110418148B (zh) | 视频生成方法、视频生成设备及可读存储介质 | |
CN108764248B (zh) | 图像特征点的提取方法和装置 | |
SenthilPandi et al. | A Novel Approach for Image Background Elimination | |
CN110674720A (zh) | 图片识别方法、装置、电子设备及存储介质 | |
CN111242836B (zh) | 目标图像生成以及广告图像生成的方法、装置和设备 | |
CN114723652A (zh) | 细胞密度确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |