CN112052946A - 神经网络训练方法及相关产品 - Google Patents

神经网络训练方法及相关产品 Download PDF

Info

Publication number
CN112052946A
CN112052946A CN202010704089.5A CN202010704089A CN112052946A CN 112052946 A CN112052946 A CN 112052946A CN 202010704089 A CN202010704089 A CN 202010704089A CN 112052946 A CN112052946 A CN 112052946A
Authority
CN
China
Prior art keywords
image
image sample
target object
neural network
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010704089.5A
Other languages
English (en)
Inventor
李洁
刘庆
杨佳义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
College Of Mobile Telecommunications Chongqing University Of Posts And Telecommunications
Original Assignee
College Of Mobile Telecommunications Chongqing University Of Posts And Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by College Of Mobile Telecommunications Chongqing University Of Posts And Telecommunications filed Critical College Of Mobile Telecommunications Chongqing University Of Posts And Telecommunications
Priority to CN202010704089.5A priority Critical patent/CN112052946A/zh
Publication of CN112052946A publication Critical patent/CN112052946A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种神经网络训练方法及相关产品,该神经网络包括第一网络和第二网络,该神经网络训练方法包括:获取第一图像样本;将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;对所述第二图像进行噪声处理,得到第三图像样本;将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。本申请实施例有利于提高对目标物体的定位精度和识别精度。

Description

神经网络训练方法及相关产品
技术领域
本申请涉及人工智能技术领域,具体涉及一种神经网络训练方法及相关产品。
背景技术
随着人工智能技术的发展,人工智能的应用场合越来越多。例如,可在智自动驾驶系统中对目标物体(例如,车道线、行人)进行分类,从而实现自动驾驶。这种对目标物体进行识别,需要先通过目标检测算法检测出目标物体在图像所在的目标区域,即对目标物体进行定位,并通过窗口沿着该图像的竖直方向框选出该目标物体;然后,对该框选出的区域进行特征提取,并根据提取到的特征进行对该目标物体进行分类,识别出该目标物体的类别。然而,在实际应用过程中,有些目标物体可能并不是沿着图像的竖直方向,这样框选会导致框选出的区域面积可能远大于该目标区域的面积。另外,由于该目标区域存在复杂的背景因素,导致对该目标物体的识别精度降低。
因此,现有对目标物体的定位精度低,识别准确率低。
发明内容
本申请实施例提供了一种神经网络训练方法及相关产品,通过不同类型的图像样本对神经网络进行训练,以期提高神经网络的鲁棒性,提高对目标物体的定位精度和识别精度。
第一方面,本申请实施例提供一种神经网络训练方法,所述神经网络包括第一网络和第二网络,包括:
获取第一图像样本,所述第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别;
将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;
从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;
对所述第二图像进行噪声处理,得到第三图像样本;
将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;
根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
第二方面,本申请实施例提供一种神经网络训练装置,包括:
获取单元,用于获取第一图像样本,所述第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别;
处理单元,用于将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;
所述处理单元,还用于从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;
所述处理单元,还用于对所述第二图像进行噪声处理,得到第三图像样本;
所述处理单元,还用于将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;
所述处理单元,还用于根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,通过不同类型的第一图像样本,即与图像的竖直方向相对平行或者相对倾斜的图像样本对神经网络进行训练,从而使训练好的神经网络可以沿着倾斜方向对目标物体进行框选,从而提高对目标物体的定位精度;另外,在训练过程中主动对图像样本进行噪声处理,从而提高了该神经网络的鲁棒性,即使后面使用该神经网络进行目标物体识别的过程中,该目标物体中包含有复杂的背景,仍然能够成功识别出该目标物体的类别,提高了识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种神经网络的网络架构图;
图2为本申请实施例提供的一种神经网络训练方法的流程示意图;
图3为本申请实施例提供的一种框选窗口与竖直方向的相对方向的示意图;
图4为本申请实施例提供的一种确定第二损失的示意图;
图5为本申请实施例提供的一种旋转第四图像样本的示意图;
图6为本申请实施例提供的另一种神经网络训练方法的流程示意图;
图7为本申请实施例提供的另一种神经网络训练方法的流程示意图;
图8为本申请实施例提供的一种神经网络训练装置的结构示意图;
图9为本申请实施例提供的一种神经网络训练装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请中的神经网络训练装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices,简称:MID)或穿戴式设备等。上述电子设备仅是举例,而非穷举,包含但不限于上述神经网络训练装置。在实际应用中,上述神经网络训练装置还可以包括:智能车载终端、计算机设备等等。
本申请实施例中所涉及的神经网络可以是卷积神经网络等。
参阅图1,图1为本申请实施例提供的一种神经网络训练过程的网络架构图。该神经网络包括第一网络和第二网络。下面以第一图像样本为例,并结合该网络结构图说明对该神经网络的训练过程,其中,该第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别。
因此,将第一图像样本输入到该第一网络,确定该第一图像样本中第一目标物体的预测区域;通过截取处理从该第一图像样本中截取出与该预测区域对应的第二图像样本;对第二图像样本进行噪声处理,得到第三图像样本;最后,将该第三图像样本输入到该第二网络,确定该第一目标物体的预测类别;最后,根据该预测区域、真实区域、预测类别以及真实类别调整该神经网络的网络参数的参数值。最后,依次使用多个第一图像样本对该神经网络进行训练,直至该模型收敛,完成对该神经网络的训练。
在本申请实施例中,通过不同类型的第一图像样本,即与图像的竖直方向相对平行或者相对倾斜的图像样本对神经网络进行训练,从而使训练好的神经网络可以沿着倾斜方向对目标物体进行框选,从而提高对目标物体的定位精度;另外,在训练过程中主动对图像样本进行噪声处理,从而提高了该神经网络的鲁棒性,即使后面使用该神经网络进行目标物体识别的过程中,该目标物体中包含有复杂的背景,仍然能够成功识别出该目标物体的类别,提高了识别精度。
参阅图2,图2为本申请实施例提供的一种神经网络训练方法的流程示意图。该神经网络包括第一网络和第二网络。该神经网络训练方法应用于神经网络训练装置。本申请实施例中的神经网络训练方法包括但不限于以下步骤:
201:神经网络训练装置获取第一图像样本。
其中,第一图像样本中的第一目标物体与第一图像样本的竖直方向相对平行或者与第一图像样本的竖直方向相对倾斜,第一图像样本包括第一标签和第二标签,第一标签用于标识第一目标物体在所述第一图像样本中的真实区域,第二标签用于标识所述第一目标物体的真实类别。
其中,该第一图像样本的竖直方向即为该第一图像样本的y轴方向。即该第一目标物体平行于该竖直方向或者不平行该竖直方向。也就是说,在训练过程中会使用不同类型的图像样本对该神经网络进行训练,该不同类型的图像样本中存在目标物体与y轴方向平行的图像样本,也存在目标物体与y轴方向不平行的图像样本,该第一图像样本只是该不同类型的图像样本中的一个图像样本,本申请中以第一图像样本为例说明训练过程,其他图像样本的训练过程与该第一图像样本的训练过程类似,不再叙述。该不同类型的图像样本即为新的多个第四图像样本,后续说明得到该多个第四图像样本的过程,在此不做描述。
需要说明的是,该真实区域为包含有该第一目标物体的所有区域中面积最小的区域。也就是说,该真实区域的竖直边界与该第一目标物体相对平行。如图3中的a图所示,在第一目标物体与第一图像样本的y轴方向相对平行的情况下,则该竖直边界也与该y轴方向相对平行;如图3中的b图所示,在该第一目标物体与y轴相对倾斜的情况下,则该竖直边界与该y轴相对倾斜,且倾斜角度相同。
其中,该第一目标物体包括但不限于人脸、人物、车辆、车道线、斑马线,等等,本申请不对第一目标物体的具体类型进行限定。即对该第一目标物体进行定位,即从第一图像样本中框选出人脸、人物、车辆、车道线、斑马线所在的区域。此外,后续所提到的目标物体均可以为人脸、人物、车辆、车道线、斑马线,不再赘述。
202:神经网络训练装置将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域。
其中,确定该第一目标物体的预测区域可通过滑窗法确定。
具体地,使用不同大小的窗口在该第一图像样本上进行滑动,并对每个窗口每次框选的图像区域进行特征提取,得到第一特征图;然后,对该第一特征图进行分类,判别每个窗口每次框选的图像区域落入第一目标物体的概率,并将概率最大对应的图像区域作为该第一目标物体的预测区域。
203:神经网络训练装置从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本。
204:神经网络训练装置对所述第二图像进行噪声处理,得到第三图像样本。
该噪声处理用于模拟现实中目标物体周围存在复杂的背景的情景。从本质上来说,在对目标物体进行识别的过程中,该复杂的背景就是一种噪声,且不同类型的背景对应不同的噪声。因此,在训练过程中主动对预测区域对应的第二图像样本进行噪声处理,从而得到的第三图像样本会包含有噪声(即背景)。因此,在训练阶段即可以让神经网络学习图像样本包含有噪声的情况下,仍然能够成功从该图像样本中识别出目标物体的类别,从而提高了该神经网络的鲁棒性,即使后续在识别有背景的待识别图像的情况下,也能够做到精准识别。
因此,对所述第二图像进行噪声处理,即是对该第二图像样本添加预设噪声,其中,该预设噪声包括以下至少一项:高斯噪声、椒盐噪声、乘性噪声以及泊松噪声。
205:神经网络训练装置将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别。
即通过第二网络提取该第三图像样本对应的特征向量,并根据该特征向量对该第三图像样本进行预测分类,得到该第一目标物体的预测类别。其中,通过特征向量进行预测分类方式与现有技术的方式类型不再叙述。示例性的,在该第一目标物体为人脸的情况下,则将该特征向量与人脸模板一一匹配,得到与每个人脸模板的匹配值,将匹配值最大所对应的人脸模板作为该第一目标物体的预测类别。
206:神经网络训练装置根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
神经网络训练装置根据该预测区域与该真实区域之间的差异,确定第一损失和第二损失;根据该真实类别与预测类别之间的差异,得到第三损失;最后,根据该第一损失、第二损失以及第三损失调整该神经网络的网络参数的参数值,即根据该第一损失、第二损失以及第三损失得到目标损失;最后,根据该目标损失以及梯度下降法调整该神经网络的网络参数的参数值,其中,通过梯度下降法来调整网络参数的参数值为现有技术,不再叙述。示例性的,可以对该第一损失、第二损失以及第三损失进行加权,得到该目标损失因此。因此,该目标损失可以通过公式(1)表示:
lossm=α*loss1+β*loss2+χ*loss3; (1)
其中,lossm为目标损失,loss1、loss2、loss3分别为第一损失、第二损失和第三损失,α、β、χ为预设权重系数,且α+β+χ=1。
示例性的,获取该真实区域对应的第一四个顶点(如图4中所示的A、B、C和D)中每个第一顶点的像素坐标,则可获取到四个第一顶点的像素坐标分别A(x1,y1)、B(x2,y3)、C(x3,y3)和D(x4,y4);然后,获取预测区域对应的四个第二顶点,即A′、B′、C′和D′中每个第二顶点的像素坐标,如图4所示,获取到四个第二顶点的像素坐标分别为A′(m1,n1)、B′(m1,n1)、C′(m1,n1)和D′(m1,n1);最后,根据每个第一顶点的像素坐标以及与该第一顶点相对应的第二顶点的像素坐标,得到该第一损失;即根据每个第一顶点的像素坐标以及与该第一顶点相对应的第二顶点的像素坐标,确定每个第一顶点与该第一顶点相对应的第二顶点之间的第一距离,得到四个第一距离;根据该四个第一距离,得到该第一损失。示例性的,可对该四个第一距离进行求取平均值,将四个第一距离的平均值作为该第一损失。因此,该第一损失可以通过公式(2)表示:
Figure BDA0002594015940000071
示例性的,可分别确定该真实区域对应的第一图像面积和该预测区域对应的第二图像面积,根据该第一图像面积和该第二图像面积,得到该第二损失。例如,可将该第一图像面积和该第二图像面积之间的绝对差值作为该第二损失。因此,该第二损失可通过公式(3)表示;
loss2=|S1-S2|; (3)
其中,S1为第一图像面积,S2为第二图像面积。
可以看出,通过真实区域和预测之间的四个顶点的像素坐标,以及两者面积之间的约束,不断的调整网络参数的参数值,从而使框选出的预测区域和真实区域之间的差异越来越小,因此,在该真实区域为倾斜的情况下,必然可以让该神经网络学会通过倾斜的窗口来框选目标物体所在的区域,从而避免在目标物体倾斜的情况下,通过竖直窗口框选带来的框选精度比较低的问题,提高了对目标物体的定位精度。
需要说明的是,在实际应用中,也可以只使用第一损失和第二损失中的一个进行训练,无需同时使用该第一损失和第二损失进行训练。
示例性的,根据该预测类别和该真实类别确定第三损失,即根据该第三图像样本的特征向量进行对第一目标物体分类,将预测类别与该真实类别进行比对,得到该第三损失。因此,则该第三损失可通过公式(4)表示:
Loss3=(softmax(f1;θ)); (4)
其中,softmax为分类操作,f1为第三图像样本的特征向量,θ为第一标签,即第一目标物体的真实类别。
可以看出,在本申请实施例中,通过不同类型的第一图像样本,即与图像的竖直方向相对平行或者相对倾斜的图像样本对神经网络进行训练,从而使训练好的神经网络可以沿着倾斜方向对目标物体进行框选,从而提高对目标物体的定位精度;另外,在训练过程中主动对图像样本进行噪声处理,从而提高了该神经网络的鲁棒性,即使后面使用该神经网络进行目标物体识别的过程中,该目标物体中包含有复杂的背景,仍然能够成功识别出该目标物体的类别,提高了识别精度。
在一些可能的实施方式中,为了具备上述的图像样本,则需要对原始的多个第四图像样本进行调整。一般来说,每个第四图像样本中的第二目标物体与图像的竖直方向相对平行。因此,如图5所示,可对该多个第四图像样本中的部分第四图像样本进行旋转,以使该部分第四图像样本中每个第四图像样本中的第二目标物体与该第四图像样本的竖直方向相对倾斜,并将旋转后的部分第四图像样本和未旋转的另一部分第四图像样本作为新的多个第四图像样本,则该第一图像样本为该新的多个第四图像样本中的任意一个图像样本;然后,对该第一图像样本该添加第一标签和该第二标签。即构造出包含目标物体与y轴相对倾斜和相对竖直的多个训练样本。因此,可使用该新的多个第四图像样本对该神经网络进行训练,从而可以让该神经网络可以学会在目标物体与y轴相对倾斜的情况下,通过倾斜的窗口框选该目标物体,在该目标物体与y轴相对竖直的情况下,通过竖直的窗口框选该目标物体,进而提高对目标物体的定位精度。
具体地,对第四图像样本中的第二目标物体进行旋转可通过旋转矩阵来实现,即通过该旋转矩阵对第四图像样本中每个像素点进行位置变换,从而将该第四图像样本中的第二目标物体旋转至与该竖直方向相对倾斜。其中,该旋转矩阵通过旋转角度确定,即该目标物体与该竖直方向的夹角。且每个第四图像样本对应的旋转角度由随机函数生成。其中,根据图像中目标物体与该图像的竖直方向(y轴)的夹角确定旋转矩阵为现有技术,不再叙述。
在一些可能的实施方式中,在该第一图像样本的尺寸与该神经网络所固定的尺寸不匹配的情况下,对该第一图像样本进行缩放处理,以使该第一图像样本的尺寸与该神经网络规定的尺寸匹配。
在一些可能的实施方式中,在该神经网络为多通道的神经网络,且该第一图像样本为灰度图像或者二值图像的情况下,则可对该第一图像样本进行多次复制,从而使每个通道有相应的输入数据,即该第一图像样本。
在一些可能的实施方式中,在对该神经网络训练完成后,该方法还包括:
获取第一待识别图像;将所述第一待识别图像输入到所述第一网络,确定所述第一待识别图像中的第三目标物体所在的待识别区域;从所述第一待识别图像中截取与所述待识别区域对应的第二待识别图像;将所述第二待识别图像输入到所述第二网络,确定所述第三目标物体的类别。由于该神经网络的鲁棒性较高,因此,对该待识别图像中的第三目标物体的定位比较精确,且对该第三目标物体的识别精度较高。
参阅图6,图6为本申请实施例提供的另一种神经网络训练方法的流程示意图。该神经网络包括第一网络和第二网络。该神经网络训练方法应用于神经网络训练装置。该实施例中与图2所示的实施例相同的内容,此处不再重复描述。本申请实施例中的神经网络训练方法包括但不限于以下步骤:
601:神经网络训练装置获取多个第四图像样本。
602:神经网络训练装置对所述多个第四图像样本中的部分第四图像样本进行旋转,以使所述部分第四图像样本中每个第四图像样本中的第二目标物体相与所述第四图像样本的竖直方向相对倾斜,并将旋转后的部分第四图像样本和未旋转的另一部分第四图像样本作为新的多个第四图像样本,其中,每个第四图像样本对应的旋转角度通过随机函数生成。
603:神经网络训练装置从所述新的多个第四图像样本获取第一图像样本,并为所述第一图像样本添加第一标签和第二标签,所述第一图像样本为所述新的多个第四图像样本中的任意一个图像样本。
其中,第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别。
604:神经网络训练装置将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域。
605:神经网络训练装置从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本。
606:神经网络训练装置对所述第二图像进行噪声处理,得到第三图像样本。
607:神经网络训练装置将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别。
608:神经网络训练装置根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
在本申请实施例中,通过不同类型的第一图像样本,即与图像的竖直方向相对平行或者相对倾斜的图像样本对神经网络进行训练,从而使训练好的神经网络可以沿着倾斜方向对目标物体进行框选,从而提高对目标物体的定位精度;另外,在训练过程中主动对图像样本进行噪声处理,从而提高了该神经网络的鲁棒性,即使后面使用该神经网络进行目标物体识别的过程中,该目标物体中包含有复杂的背景,仍然能够成功识别出该目标物体的类别,提高了识别精度。
参阅图7,图7为本申请实施例提供的另一种图像识别方法的流程示意图。该方法应用于神经网络训练装置,该神经网络包括第一网络和第二网络。该实施例中与图2与图6中所示的实施例相同的内容,此处不再重复描述。本申请实施例中的神经网络训练方法包括但不限于以下步骤:
701:神经网络训练装置获取多个第四图像样本。
702:神经网络训练装置对所述多个第四图像样本中的部分第四图像样本进行旋转,以使所述部分第四图像样本中每个第四图像样本中的第二目标物体相与所述第四图像样本的竖直方向相对倾斜,并将旋转后的部分第四图像样本和未旋转的另一部分第四图像样本作为新的多个第四图像样本,其中,每个第四图像样本对应的旋转角度通过随机函数生成。
703:神经网络训练装置从所述新的多个第四图像样本获取第一图像样本,并为所述第一图像样本添加第一标签和第二标签,所述第一图像样本为所述新的多个第四图像样本中的任意一个图像样本。
其中,第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别。
704:神经网络训练装置将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域。
705:神经网络训练装置从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本。
706:神经网络训练装置对所述第二图像进行噪声处理,得到第三图像样本。
707:神经网络训练装置将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别。
708:神经网络训练装置根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
709:神经网络训练装置获取第一待识别图像。
710:神经网络训练装置将所述第一待识别图像输入到所述第一网络,确定所述第一待识别图像中的第三目标物体所在的待识别区域。
711:神经网络训练装置从所述第一待识别图像中截取与所述待识别区域对应的第二待识别图像。
712:神经网络训练装置将所述第二待识别图像输入到所述第二网络,确定所述第三目标物体的类别。
可以看出,在本申请实施例中,通过不同类型的第一图像样本,即与图像的竖直方向相对平行或者相对倾斜的图像样本对神经网络进行训练,从而使训练好的神经网络可以沿着倾斜方向对目标物体进行框选,从而在第一待识别图像中的第三目标物体进行定位的过程中,若该第三目标物体沿倾斜方向,则可沿着倾斜方向对第三目标物体进行框选,从而提高对待识别图像中目标物体的定位精度;另外,在训练过程中主动对图像样本进行噪声处理,从而提高了该神经网络的鲁棒性,因此,即使该第一待识别图像中的第三目标物体包含有复杂的背景,仍然能够成功识别出该第三目标物体的类别,提高了识别精度。
参阅图8,图8为本申请实施例提供的一种神经网络训练装置的结构示意图。神经网络训练装置800用于训练神经网络,该神经网络包括第一网络和第二网络。如图8所示,神经网络训练装置800包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
获取第一图像样本,所述第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别;
将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;
从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;
对所述第二图像进行噪声处理,得到第三图像样本;
将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;
根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
在一些可能的实施方式中,在根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的参数方面,上述程序具体用于执行以下步骤的指令:
根据所述预测区域和所述真实区域确定第一损失和第二损失;
根据所述预测类别和所述真实类别确定第三损失;
根据所述第一损失、所述第二损失以及所述第三损失,调整所述神经网络的网络参数的参数值。
在一些可能的实施方式中,在根据所述预测区域和所述真实区域确定第一损失和第二损失方面,上述程序具体用于执行以下步骤的指令:
获取所述真实区域对应的四个第一顶点中每个第一顶点的像素坐标;
获取所述预测区域对应的四个第二顶点中每个第二顶点的像素坐标;
根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,得到所述第一损失;
分别确定所述真实区域对应的第一图像面积和所述预测区域对应的第二图像面积;
根据所述第一图像面积和所述第二面积得到所述第二损失。
在一些可能的实施方式中,在根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,得到所述第一损失方面,上述程序具体用于执行以下步骤的指令:
根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,确定每个第一顶点与所述第一顶点相对应的第二顶点之间的第一距离,得到四个第一距离;
根据所述四个第一距离,得到所述第一损失。
在一些可能的实施方式中,在所述获取第一图像样本之前,上述程序还用于执行以下步骤的指令:
获取多个第四图像样本;
对所述多个第四图像样本中的部分第四图像样本进行旋转,以使所述部分第四图像样本中每个第四图像样本中的第二目标物体相与所述第四图像样本的竖直方向相对倾斜,并将旋转后的部分第四图像样本和未旋转的另一部分第四图像样本作为新的多个第四图像样本,其中,每个第四图像样本对应的旋转角度通过随机函数生成,则所述第一图像样本为所述新的多个第四图像样本中的任意一个图像样本;对所述第一样本图像添加所述第一标签和所述第二标签。
在一些可能的实施方式中,在对所述第二图像进行噪声处理,得到第三图像样本方面,上述程序具体用于执行以下步骤的指令:
对所述第二图像样本添加预设噪声,得到所述第三图像样本;
其中,所述预设噪声包括以下至少一项:高斯噪声、椒盐噪声、乘性噪声以及泊松噪声。
在一些可能的实施方式中,上述程序还用于执行以下步骤的指令:
获取第一待识别图像;
将所述第一待识别图像输入到所述第一网络,确定所述第一待识别图像中的第三目标物体所在的待识别区域;
从所述第一待识别图像中截取与所述待识别区域对应的第二待识别图像;
将所述第二待识别图像输入到所述第二网络,确定所述第三目标物体的类别。
参阅图9,图9本申请实施例提供的一种神经网络训练装置的功能单元组成框图。神经网络训练装置800用于训练神经网络,该神经网络包括第一网络和第二网络。神经网络训练装置900包括:获取单元910和处理单元920,其中:
获取单元910,用于获取第一图像样本,所述第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别;
处理单元920,用于将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;
处理单元920,还用于从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;
处理单元920,还用于对所述第二图像进行噪声处理,得到第三图像样本;
处理单元920,还用于将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;
处理单元920,还用于根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
在一些可能的实施方式中,在根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的参数方面,处理单元920,具体用于:
根据所述预测区域和所述真实区域确定第一损失和第二损失;
根据所述预测类别和所述真实类别确定第三损失;
根据所述第一损失、所述第二损失以及所述第三损失,调整所述神经网络的网络参数的参数值。
在一些可能的实施方式中,在根据所述预测区域和所述真实区域确定第一损失和第二损失方面,处理单元920,具体用于:
获取所述真实区域对应的四个第一顶点中每个第一顶点的像素坐标;
获取所述预测区域对应的四个第二顶点中每个第二顶点的像素坐标;
根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,得到所述第一损失;
分别确定所述真实区域对应的第一图像面积和所述预测区域对应的第二图像面积;
根据所述第一图像面积和所述第二面积得到所述第二损失。
在一些可能的实施方式中,在根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,得到所述第一损失方面,处理单元920,具体用于:
根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,确定每个第一顶点与所述第一顶点相对应的第二顶点之间的第一距离,得到四个第一距离;
根据所述四个第一距离,得到所述第一损失。
在一些可能的实施方式中,在所述获取第一图像样本之前,获取单元910还用于获取多个第四图像样本;
处理单元920,还用于对所述多个第四图像样本中的部分第四图像样本进行旋转,以使所述部分第四图像样本中每个第四图像样本中的第二目标物体相与所述第四图像样本的竖直方向相对倾斜,并将旋转后的部分第四图像样本和未旋转的另一部分第四图像样本作为新的多个第四图像样本,其中,每个第四图像样本对应的旋转角度通过随机函数生成,则所述第一图像样本为所述新的多个第四图像样本中的任意一个图像样本;对所述第一样本图像添加所述第一标签和所述第二标签。
在一些可能的实施方式中,在对所述第二图像进行噪声处理,得到第三图像样本方面,处理单元920,具体用于执行:
对所述第二图像样本添加预设噪声,得到所述第三图像样本;
其中,所述预设噪声包括以下至少一项:高斯噪声、椒盐噪声、乘性噪声以及泊松噪声。
在一些可能的实施方式中,获取单元910,还用于,:获取第一待识别图像;
处理单元,还用于将所述第一待识别图像输入到所述第一网络,确定所述第一待识别图像中的第三目标物体所在的待识别区域;
从所述第一待识别图像中截取与所述待识别区域对应的第二待识别图像;
将所述第二待识别图像输入到所述第二网络,确定所述第三目标物体的类别。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种神经网络训练方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种神经网络训练方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种神经网络训练方法,其特征在于,所述神经网络包括第一网络和第二网络,包括:
获取第一图像样本,所述第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别;
将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;
从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;
对所述第二图像进行噪声处理,得到第三图像样本;
将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;
根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的参数,包括:
根据所述预测区域和所述真实区域确定第一损失和第二损失;
根据所述预测类别和所述真实类别确定第三损失;
根据所述第一损失、所述第二损失以及所述第三损失,调整所述神经网络的网络参数的参数值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预测区域和所述真实区域确定第一损失和第二损失,包括:
获取所述真实区域对应的四个第一顶点中每个第一顶点的像素坐标;
获取所述预测区域对应的四个第二顶点中每个第二顶点的像素坐标;
根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,得到所述第一损失;
分别确定所述真实区域对应的第一图像面积和所述预测区域对应的第二图像面积;
根据所述第一图像面积和所述第二面积得到所述第二损失。
4.根据权利要求3所述的方法,其特征在于,所述根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,得到所述第一损失,包括:
根据每个第一顶点的像素坐标以及与所述第一顶点相对应的第二顶点的像素坐标,确定每个第一顶点与所述第一顶点相对应的第二顶点之间的第一距离,得到四个第一距离;
根据所述四个第一距离,得到所述第一损失。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述获取第一图像样本之前,所述方法还包括:
获取多个第四图像样本;
对所述多个第四图像样本中的部分第四图像样本进行旋转,以使所述部分第四图像样本中每个第四图像样本中的第二目标物体相与所述第四图像样本的竖直方向相对倾斜,并将旋转后的部分第四图像样本和未旋转的另一部分第四图像样本作为新的多个第四图像样本,其中,每个第四图像样本对应的旋转角度通过随机函数生成,则所述第一图像样本为所述新的多个第四图像样本中的任意一个图像样本;
对所述第一样本图像添加所述第一标签和所述第二标签。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述对所述第二图像进行噪声处理,得到第三图像样本,包括:
对所述第二图像样本添加预设噪声,得到所述第三图像样本;
其中,所述预设噪声包括以下至少一项:高斯噪声、椒盐噪声、乘性噪声以及泊松噪声。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
获取第一待识别图像;
将所述第一待识别图像输入到所述第一网络,确定所述第一待识别图像中的第三目标物体所在的待识别区域;
从所述第一待识别图像中截取与所述待识别区域对应的第二待识别图像;
将所述第二待识别图像输入到所述第二网络,确定所述第三目标物体的类别。
8.一种神经网络训练装置,其特征在于,包括:
获取单元,用于获取第一图像样本,所述第一图像样本中的第一目标物体与所述第一图像样本的竖直方向相对平行或者与所述第一图像样本的竖直方向相对倾斜,所述第一图像样本包括第一标签和第二标签,所述第一标签用于标识所述第一目标物体在所述第一图像样本中的真实区域,所述第二标签用于标识所述第一目标物体的真实类别;
处理单元,用于将所述第一图像样本输入到所述第一网络,确定所述第一目标物体的预测区域;
所述处理单元,还用于从所述第一图像样本中截取与所述预测区域对应的图像,得到第二图像样本;
所述处理单元,还用于对所述第二图像进行噪声处理,得到第三图像样本;
所述处理单元,还用于将所述第三图像样本输入到所述第二网络,确定所述第一目标物体的预测类别;
所述处理单元,还用于根据所述预测区域、所述真实区域、所述预测类别以及所述真实类别调整所述神经网络的网络参数的参数值。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-7中任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。
CN202010704089.5A 2020-07-21 2020-07-21 神经网络训练方法及相关产品 Pending CN112052946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010704089.5A CN112052946A (zh) 2020-07-21 2020-07-21 神经网络训练方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010704089.5A CN112052946A (zh) 2020-07-21 2020-07-21 神经网络训练方法及相关产品

Publications (1)

Publication Number Publication Date
CN112052946A true CN112052946A (zh) 2020-12-08

Family

ID=73601903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704089.5A Pending CN112052946A (zh) 2020-07-21 2020-07-21 神经网络训练方法及相关产品

Country Status (1)

Country Link
CN (1) CN112052946A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683091A (zh) * 2017-01-06 2017-05-17 北京理工大学 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN106778736A (zh) * 2016-11-25 2017-05-31 四川九洲电器集团有限责任公司 一种鲁棒的车牌识别方法及其系统
CN111161227A (zh) * 2019-12-20 2020-05-15 成都数之联科技有限公司 一种基于深度神经网络的靶心定位方法及系统
US20200226422A1 (en) * 2019-01-13 2020-07-16 Lightlab Imaging, Inc. Systems and methods for classification of arterial image regions and features thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778736A (zh) * 2016-11-25 2017-05-31 四川九洲电器集团有限责任公司 一种鲁棒的车牌识别方法及其系统
CN106683091A (zh) * 2017-01-06 2017-05-17 北京理工大学 一种基于深度卷积神经网络的目标分类及姿态检测方法
US20200226422A1 (en) * 2019-01-13 2020-07-16 Lightlab Imaging, Inc. Systems and methods for classification of arterial image regions and features thereof
CN111161227A (zh) * 2019-12-20 2020-05-15 成都数之联科技有限公司 一种基于深度神经网络的靶心定位方法及系统

Similar Documents

Publication Publication Date Title
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
US11003941B2 (en) Character identification method and device
JP7236545B2 (ja) ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム
CN108427927B (zh) 目标再识别方法和装置、电子设备、程序和存储介质
US9349076B1 (en) Template-based target object detection in an image
WO2021139324A1 (zh) 图像识别方法、装置、计算机可读存储介质及电子设备
CN112633144A (zh) 人脸遮挡检测方法、系统、设备及存储介质
CN108229301B (zh) 眼睑线检测方法、装置和电子设备
CN111563502A (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111178183A (zh) 人脸检测方法及相关装置
CN107545223B (zh) 图像识别方法及电子设备
CN112560698A (zh) 图像处理方法、装置、设备和介质
CN111639653A (zh) 一种误检图像确定方法、装置、设备和介质
CN111860309A (zh) 一种人脸识别方法及系统
CN109165654B (zh) 一种目标定位模型的训练方法和目标定位方法及装置
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN113095333A (zh) 无监督特征点检测方法及装置
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
CN111680546A (zh) 注意力检测方法、装置、电子设备及存储介质
CN112966685A (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN109242882B (zh) 视觉跟踪方法、装置、介质及设备
CN117315263A (zh) 一种目标轮廓分割装置、训练方法、分割方法、电子设备
CN116798041A (zh) 图像识别方法、装置和电子设备
CN111178200A (zh) 一种仪表盘指示灯的识别方法及计算设备
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination