CN111523351A - 神经网络的训练方法、装置和电子设备 - Google Patents

神经网络的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN111523351A
CN111523351A CN201910107661.7A CN201910107661A CN111523351A CN 111523351 A CN111523351 A CN 111523351A CN 201910107661 A CN201910107661 A CN 201910107661A CN 111523351 A CN111523351 A CN 111523351A
Authority
CN
China
Prior art keywords
feature
neural network
loss function
function value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910107661.7A
Other languages
English (en)
Inventor
吴嘉濂
周贺龙
王国利
张骞
黄畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910107661.7A priority Critical patent/CN111523351A/zh
Publication of CN111523351A publication Critical patent/CN111523351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种神经网络的训练方法、神经网络的训练装置和电子设备。该神经网络的训练方法包括:将图像数据输入到神经网络以获得特征图;从所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度;基于所述第一特征和所述第二特征之间的距离计算损失函数值;以及,基于所述损失函数值更新所述神经网络的参数。这样,提高了神经网络的分类准确性。

Description

神经网络的训练方法、装置和电子设备
技术领域
本申请涉及深度学习领域,且更为具体地,涉及一种神经网络的训练方法、神经网络的训练装置和电子设备。
背景技术
行人检测是很多视觉应用,比如自动驾驶、机器人和视频监控等的研究基础。近年来,随着卷积神经网络和对象检测的发展,显著提升了行人检测的性能。
现有的行人检测方法在中等尺度和大尺度行人目标上已经取得了较好的效果。然而由于小尺度行人的分辨率低、图像模糊,现有的行人检测方法难以将小尺度行人从背景中区分开来。此外,小尺度行人经常出现于无人驾驶等实际应用场景当中,例如,在街景图像中,除了近景中的大尺度行人以外,在远景中也存在很多小尺度行人。因此,小尺度行人的检测效果很大程度上决定了行人检测系统的整体性能。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种神经网络的训练方法、神经网络的训练装置和电子设备,其能够从特征图分别提取小尺度对象和大尺度对象的特征,并基于特征之间的距离更新神经网络的参数,从而提高了神经网络的分类准确性。
根据本申请的一个方面,提供了一种神经网络的训练方法,包括:将图像数据输入到神经网络以获得特征图;从所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度;基于所述第一特征和所述第二特征之间的距离计算损失函数值;以及,基于所述损失函数值更新所述神经网络的参数。
根据本申请的另一方面,提供了一种神经网络的训练装置,包括:获得单元,用于将图像数据输入到神经网络以获得特征图;提取单元,用于从所述获得单元所获得的所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度;计算单元,用于基于所述提取单元所提取的所述第一特征和所述第二特征之间的距离计算损失函数值;以及,更新单元,用于基于所述计算单元计算出的所述损失函数值更新所述神经网络的参数。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的神经网络的训练方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的神经网络的训练方法。
本申请提供的神经网络的训练方法、神经网络的训练装置和电子设备能够从特征图分别提取小尺度对象和大尺度对象的特征,并基于特征之间的距离更新神经网络的参数,以使得小尺度对象能够学习大尺度对象的特征,从而具有更加丰富的特征表达,并且使得不同尺度的对象的特征差异减小。这样,小尺度对象更易于被正确地分类,提高了神经网络的分类准确性。
并且,本申请提供的神经网络的训练方法、神经网络的训练装置和电子设备在神经网络的训练过程中,仅需要计算小尺度对象和大尺度对象的特征之间的距离并基于该距离计算损失函数值,不增加任何网络层,在检测过程中不增加额外的计算量。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1的(a)和(b)图示了根据本申请实施例的神经网络的训练方法的应用环境的示意图。
图2图示了根据本申请实施例的神经网络的训练方法的流程图。
图3图示了根据本申请实施例的神经网络的训练方法中的特征提取过程的流程图。
图4图示了根据本申请实施例的神经网络的训练方法的特征提取过程的示意图。
图5图示了根据本申请实施例的神经网络的训练装置的框图。
图6图示了根据本申请实施例的神经网络的训练装置的提取单元的实例的框图。
图7图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,为了检测小尺度对象,例如小尺度行人,目前的一种解决方案是通过生成对抗网络学习一种超分辨率特征并叠加在原有小尺度目标对象的特征上,使得小尺度目标对象的特征表达接近大尺度目标对象的特征表达。
但是,生成对抗网络的训练流程复杂,因为生成网络和对抗网络需要多种超参数如网络层数、损失函数等,导致难以训练一个合适的网络。此外,生成网络会在测试时增加大量的额外计算量。
另一种解决方案是将放大后小尺度目标对象的特征作为参照,让原有小尺度目标对象的通道特征学习尺度放大后目标对象的通道特征。
但是,这需要设计一种提取放大后小尺度目标对象的特征的网络,此过程不仅需要额外超参数,而且训练耗费大量时间。此外,该方案主要针对通道间特征的学习,并没有促使小尺度目标对象的整体特征表达接近大尺度目标对象的特征表达。
针对上述技术问题,本申请的基本构思是从同一神经网络生成的特征图中提取小尺度对象和大尺度对象的特征,并基于小尺度对象和大尺度对象的特征之间的距离计算损失函数值并以此更新神经网络的参数,以监督小尺度对象的特征学习大尺度对象的特征。
具体地,本申请的神经网络的训练方法,神经网络的训练装置和电子设备首先将图像数据输入到神经网络以获得特征图,然后从所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度,再基于所述第一特征和所述第二特征之间的距离计算损失函数值,最后基于所述损失函数值更新所述神经网络的参数。
因此,本申请提供的神经网络的训练方法、神经网络的训练装置和电子设备通过从特征图分别提取小尺度对象和大尺度对象的特征,并基于特征之间的距离更新神经网络的参数,能够使得小尺度对象学习大尺度对象的特征,从而具有更加丰富的特征表达,并且使得不同尺度的对象的特征差异减小。这样,小尺度对象更易于被正确地分类,提高了神经网络的分类准确性。
并且,本申请提供的神经网络的训练方法、神经网络的训练装置和电子设备在神经网络的训练过程中,仅需要计算小尺度对象和大尺度对象的特征之间的距离并基于该距离计算损失函数值,不会增加多余的网络层(例如,在神经网络为卷积神经网下的情形下,网络层可以为卷积层),从而可确保在通过训练好的神经网络进行目标检测的过程中不增加额外的计算量。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图1的(a)和(b)图示了根据本申请实施例的神经网络的训练方法的应用环境的示意图。
如图1的(a)所示,在训练过程中,获取包括多个训练图像的用于训练的图像数据IM,例如,可以通过图像采集设备110采集包含对象,例如行人的图像,也可以直接获取用于训练的图像数据。然后,将图像数据IM输入到电子设备120中,通过电子设备120对神经网络进行训练。
在训练完成之后,如图1的(b)所示,在检测过程中,图像采集设备110采集包含对象,例如行人的图像,以得到输入图像IN。然后,将输入图像IN输入到具有训练好的神经网络的电子设备120中,以对输入图像IN中的对象进行检测,例如,对所述对象进行识别和分类。
下面,将对根据本申请实施例的神经网络的训练方法进行进一步详细说明。
示例性方法
图2图示了根据本申请实施例的神经网络的训练方法的流程图。
如图2所示,根据本申请实施例的神经网络的训练方法包括如下步骤。
在步骤S210中,将图像数据输入到神经网络以获得特征图。这里,如上所述,所述神经网络可以是用于行人检测模型的神经网络,例如卷积神经网络,且相应地,所述图像数据可以是包含各种街景图像的图像集,在这种街景图像中包含诸如行人的多个对象。此外,所述神经网络也可以是用于其它对象检测模型的神经网络,比如自动驾驶场景下的车辆检测模型的神经网络。另外,在例如自动驾驶场景或者视频监控场景下,所述神经网络应用的模型也可以是用于多种对象,例如行人、车辆、其它移动物体的识别和分类的模型。
在步骤S220中,从所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度。
具体地,以所述对象是行人为例,在例如街景图像中,既包括近景处的大尺度行人,也包括远景处的小尺度行人。并且,可以根据行人的像素大小来划分大尺度行人和小尺度行人。例如,在1024×2048像素的初始图像中,可以将高度小于75像素的行人定义为小尺度行人,而将高度大于或者等于75像素的行人定义为大尺度行人。当然,本领域技术人员可以理解,对于其它类型的对象,例如车辆,也可以以宽度为阈值来划分大尺度对象和小尺度对象。
在步骤S230中,基于所述第一特征和所述第二特征之间的距离计算损失函数值。这里,所述第一特征和所述第二特征之间的距离可以表示所述第一特征与所述第二特征的差异,因此,通过基于所述第一特征和所述第二特征之间的距离计算损失函数值,可以使得损失函数值反映所述第一特征和所述第二特征之间的差异。并且,通过所述损失函数值反映所述第一特征和所述第二特征之间的差异,可以不需要添加额外的网络层。
在步骤S240中,基于所述损失函数值更新所述神经网络的参数。如上所述,由于所述损失函数值反映了所述第一特征和所述第二特征之间的差异,通过基于所述损失函数值更新所述神经网络的参数,可以使得小尺度对象对应的第一特征模仿大尺度对象对应的第二特征,从而有效地增强小尺度对象对应的第一特征的特征表达。
根据本申请实施例的神经网络的训练方法提出了一种自模仿学习方法,使用模仿技术来在单个模型中通过大尺度对象的帮助来学习小尺度对象的特征表达,从而实现单个模型中的自模仿学习。因为大尺度对象具有丰富的表达,通过模仿大尺度对象,小尺度对象也可以具有更丰富的特征表达。另外,通过小尺度对象模仿大尺度对象,小尺度对象和大尺度对象之间的特征差异减小。这样,使得小尺度对象更易于被正确地分类,提高了神经网络的分类准确性。
并且,根据本申请实施例的神经网络的训练方法仅需要在计算损失函数值时考虑小尺度对象和大尺度对象的特征之间的距离,不需要额外的模块来增强小尺度对象的表达,从而可确保在通过训练好的神经网络进行目标检测的过程中不增加额外的计算量。
图3图示了根据本申请实施例的神经网络的训练方法中的特征提取过程的流程图。
如图3所示,在如图2所示的实施例的基础上,步骤S220包括如下步骤S221-步骤S223。
在步骤S221中,通过候选框生成网络根据所述特征图生成多个候选框。这里,所述候选框生成网络是双阶段检测器的一部分。在双阶段检测器中,首先生成候选框并使用其提取感兴趣区域的特征,然后使用这些感兴趣区域的特征来进行分类回归。
图4图示了根据本申请实施例的神经网络的训练方法的特征提取过程的示意图。如图4所示,输入图像IN中包括不同尺度的行人部分P1和P2,首先通过神经网络Net获得输入图像IN的特征图F,并且,候选框生成网络RPN可以根据所述特征图生成多个候选框B1、B2,其中,候选框B1对应于行人部分P1,且候选框B2对应于行人部分P2
在步骤S222中,将所述多个候选框映射在所述特征图上以提取多个感兴趣区域的特征。也就是,将候选框生成网络RPN生成的候选框B1、B2映射在特征图F上,然后使用感兴趣区域的池化操作,就可以提取感兴趣区域的特征F1、F2
在步骤S223中,基于所述多个候选框的尺度从所述多个感兴趣区域的特征获取所述第一特征和所述第二特征。这里,在通过候选框生成网络RPN生成的候选框B1、B2时,可以知道候选框B1、B2的尺度,例如候选框B1为30×70,候选框B2为80×150。因此,基于候选框B1、B2的尺度,可以确定提取出的感兴趣区域的特征F1、F2中的F1为小尺度对象的第一特征,而F2为大尺度对象的第二特征。然后,如上所述,基于所述第一特征F1和所述第二特征F2计算损失函数值。
这里,根据本申请实施例的神经网络的训练方法针对感兴趣区域的特征实现的原因如下。首先,大尺度对象的感兴趣区域的特征比小尺度对象的感兴趣区域的特征丰富得多,这可以用于增强小尺度对象的表达的细节。另外,小尺度对象和大尺度对象的感兴趣区域的特征之间的差异较大,这将增加分类的困难。
因此,通过将根据本申请实施例的神经网络的训练方法应用于感兴趣区域的特征,可以使得小尺度对象的表达更加接近大尺度对象的表达,从而增加小尺度对象的细节,并减小小尺度对象和大尺度之间的特征差异。这样,可以使得检测模型,例如双阶段检测器中的分类网络,例如,全连接网络更加容易地从背景识别小尺度对象。
值得注意的是,在本申请实施例中,还可以不使用候选框生成网络,而是通过训练集标注的方式从所述特征图提取所述第一对象的第一特征和所述第二对象的第二特征。
在根据本申请实施例的神经网络的训练方法中,所述第一特征和所述第二特征之间的距离可以使用欧式距离或者余弦距离。
具体地,所述第一特征F1和所述第二特征F2之间的欧式距离表示为:
‖F1-F22
所述损失函数值包含距离项Lm,表示为:
Figure BDA0001967109490000071
其中,N和M分别是所述第一对象和所述第二对象的数目,
Figure BDA0001967109490000073
表示第i个第一特征,
Figure BDA0001967109490000072
表示第j个第二特征,且d是特征维度,例如,可以是256×256×7。
另外,所述第一特征F1和所述第二特征F2之间的距离可以是余弦距离,表示为:
Figure BDA0001967109490000081
同样地,所述损失函数值中的距离项Lm表示为:
Figure BDA0001967109490000082
这样,通过使用所述第一特征和所述第二特征之间的欧式距离或者余弦距离,可以准确地表示所述第一特征和所述第二特征之间的特征差异,从而在训练过程中减小特征的类内差异性。
在根据本申请实施例的神经网络的训练方法中,所述损失函数值除了包括距离项Lm之外,还包括所述神经网络的分类损失函数值和回归损失函数值。并且,如果使用候选框生成网络提取所述第一特征和所述第二特征,则损失函数值还包括所述候选框生成网络的分类损失函数值和回归损失函数值。这里,对于分类损失函数值,例如可以使用交叉熵损失函数值,而对于回归损失函数值,例如可以使用平滑损失函数值。
因此,如果将整体的损失函数值定义为L,则L为:
Figure BDA0001967109490000083
其中,
Figure BDA0001967109490000084
为全连接神经网络的分类损失函数值,
Figure BDA0001967109490000085
为全连接神经网络的回归损失函数值,
Figure BDA0001967109490000086
为候选框生成网络的分类损失函数值,且
Figure BDA0001967109490000087
为候选框生成网络的回归损失函数值,α为预定加权系数。
这样,通过以所述神经网络的分类损失函数值、回归损失函数值以及基于所述提取单元所提取的所述第一特征和所述第二特征之间的距离的损失函数值与预定系数的乘积求和来计算出所述损失函数值,所述损失函数值可以反映所述神经网络的分类误差、回归误差和不同尺度的对象的特征之间的差异,从而使得训练后的神经网络尽可能地消除上述误差,提高分类的准确性。
另外,值得注意的是,因为在根据本申请实施例的神经网络的训练方法中,所述第二特征,即大尺度对象的特征在训练过程中只是作为参照来监督小尺度对象的特征学习更好的特征表达,所以在训练过程中,可以不对神经网络反向传播大尺度对象的特征所产生的损失函数梯度,而是对所述小尺度对象的所述第一特征所产生的损失函数梯度进行反向传播来更新所述神经网络的参数。
具体地,假设所述神经网络中的某一参数w,在使用所述损失函数值对所述参数w进行更新时,是以所述损失函数值对所述参数w求导数,以获得所述损失函数梯度。在本申请实施例中,针对所述小尺度对象和所述大尺度对象,所述参数w都参与了运算,因此,所述参数w的运算结果中,实际上包含了相对于小尺度对象的运算结果y1和相对于大尺度对象的运算结果y2,相应地,所述损失函数值相对于所述运算结果y1和y2求导也包含了相对于y1和y2的两项导数,即相对于y1的梯度和相对于y2的梯度。为了防止大尺度对象的特征所产生的特征距离损失函数梯度对神经网络的影响,将相对于y2的梯度设置为0,因此在反向传播过程中,仅通过相对于y1的梯度来更新参数w。
这样,可以在训练过程中特别针对小尺度对象优化所述神经网络的参数,从而提高所述神经网络对于小尺度对象的分类准确性。
示例性装置
图5图示了根据本申请实施例的神经网络的训练装置的框图。
如图5所示,根据本申请实施例的神经网络的训练装置300包括:获得单元310,用于将图像数据输入到神经网络以获得特征图;提取单元320,用于从所述获得单元310所获得的所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度;计算单元330,用于基于所述提取单元320所提取的所述第一特征和所述第二特征之间的距离计算损失函数值;以及更新单元340,用于基于所述计算单元330计算出的所述损失函数值更新所述神经网络的参数。
图6图示了根据本申请实施例的神经网络的训练装置的提取单元的实例的框图。
如图6所示,在如图5所示的实施例的基础上,所述提取单元320包括:生成子单元321,用于通过候选框生成网络根据所述获得单元310所获得的所述特征图生成多个候选框;映射子单元322,用于将所述生成子单元321所生成的所述多个候选框映射在所述特征图上以提取多个感兴趣区域的特征;以及获取子单元323,用于基于所述生成子单元321所生成的所述多个候选框的尺度从所述映射子单元322所提取的所述多个感兴趣区域的特征获取所述第一特征和所述第二特征。
在一个示例中,在上述神经网络的训练装置300中,所述计算单元330用于:基于所述提取单元所提取的所述第一特征和所述第二特征之间的欧式距离计算损失函数值;或者,基于所述提取单元所提取的所述第一特征和所述第二特征之间的余弦距离计算损失函数值。
在一个示例中,在上述神经网络的训练装置300中,所述计算单元330用于:将所述神经网络的分类损失函数值、回归损失函数值以及基于所述提取单元所提取的所述第一特征和所述第二特征之间的距离的损失函数值与预定系数的乘积求和以计算出所述损失函数值。
在一个示例中,在上述神经网络的训练装置300中,所述更新单元340用于:通过对所述小尺度对象的所述第一特征所产生的损失函数梯度进行反向传播来更新所述神经网络的参数。
这里,本领域技术人员可以理解,上述神经网络的训练装置300中的各个单元和模块的具体功能和操作已经在上面参考图2到图4的神经网络的训练方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的神经网络的训练装置300可以实现在各种终端设备中,例如用于自动驾驶场景下的行人检测和车辆检测的服务器中。在一个示例中,根据本申请实施例的神经网络的训练装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该神经网络的训练装置300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该神经网络的训练装置300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该神经网络的训练装置300与该终端设备也可以是分立的设备,并且该神经网络的训练装置300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的神经网络的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如特征图、第一特征、第二特征、损失函数值等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括训练好的神经网络等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络的训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络的训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种神经网络的训练方法,包括:
将图像数据输入到神经网络以获得特征图;
从所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度;
基于所述第一特征和所述第二特征之间的距离计算损失函数值;以及
基于所述损失函数值更新所述神经网络的参数。
2.如权利要求1所述的神经网络的训练方法,其中,从所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征包括:
通过候选框生成网络根据所述特征图生成多个候选框;
将所述多个候选框映射在所述特征图上以提取多个感兴趣区域的特征;以及
基于所述多个候选框的尺度从所述多个感兴趣区域的特征获取所述第一特征和所述第二特征。
3.如权利要求1所述的神经网络的训练方法,其中,基于所述第一特征和所述第二特征之间的距离计算损失函数值包括:
基于所述第一特征和所述第二特征之间的欧式距离计算损失函数值;或者
基于所述第一特征和所述第二特征之间的余弦距离计算损失函数值。
4.如权利要求1所述的神经网络的训练方法,其中,基于所述第一特征和所述第二特征之间的距离计算损失函数值包括:
将所述神经网络的分类损失函数值、回归损失函数值以及基于所述第一特征和所述第二特征之间的距离的损失函数值与预定系数的乘积求和以计算出所述损失函数值。
5.如权利要求1所述的神经网络的训练方法,其中,基于所述损失函数值更新所述神经网络的参数包括:
通过对所述小尺度对象的所述第一特征所产生的损失函数梯度进行反向传播来更新所述神经网络的参数。
6.一种神经网络的训练装置,包括:
获得单元,用于将图像数据输入到神经网络以获得特征图;
提取单元,用于从所述获得单元所获得的所述特征图提取第一对象对应的第一特征和第二对象对应的第二特征,所述第一对象具有小于预定阈值的尺度,且所述第二对象具有大于所述预定阈值的尺度;
计算单元,用于基于所述提取单元所提取的所述第一特征和所述第二特征之间的距离计算损失函数值;以及
更新单元,用于基于所述计算单元计算出的所述损失函数值更新所述神经网络的参数。
7.如权利要求6所述的神经网络的训练装置,其中,所述提取单元包括:
生成子单元,用于通过候选框生成网络根据所述获得单元所获得的所述特征图生成多个候选框;
映射子单元,用于将所述生成子单元所生成的所述多个候选框映射在所述特征图上以提取多个感兴趣区域的特征;以及
获取子单元,用于基于所述生成子单元所生成的所述多个候选框的尺度从所述映射子单元所提取的所述多个感兴趣区域的特征获取所述第一特征和所述第二特征。
8.如权利要求6所述的神经网络的训练装置,其中,所述计算单元用于:
基于所述提取单元所提取的所述第一特征和所述第二特征之间的欧式距离计算损失函数值;或者
基于所述提取单元所提取的所述第一特征和所述第二特征之间的余弦距离计算损失函数值。
9.如权利要求6所述的神经网络的训练装置,其中,所述计算单元用于:
将所述神经网络的分类损失函数值、回归损失函数值以及基于所述提取单元所提取的所述第一特征和所述第二特征之间的距离的损失函数值与预定系数的乘积求和以计算出所述损失函数值。
10.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-5中任一项所述的神经网络的训练方法。
CN201910107661.7A 2019-02-02 2019-02-02 神经网络的训练方法、装置和电子设备 Pending CN111523351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910107661.7A CN111523351A (zh) 2019-02-02 2019-02-02 神经网络的训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910107661.7A CN111523351A (zh) 2019-02-02 2019-02-02 神经网络的训练方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN111523351A true CN111523351A (zh) 2020-08-11

Family

ID=71900089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910107661.7A Pending CN111523351A (zh) 2019-02-02 2019-02-02 神经网络的训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111523351A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115928A (zh) * 2020-11-20 2020-12-22 城云科技(中国)有限公司 基于违停车辆标签的神经网络的训练方法和检测方法
CN113065495A (zh) * 2021-04-13 2021-07-02 深圳技术大学 图像相似度的计算方法、目标对象重识别方法及系统
CN113591617A (zh) * 2021-07-14 2021-11-02 武汉理工大学 基于深度学习的水面小目标检测与分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376334A (zh) * 2014-11-12 2015-02-25 上海交通大学 一种多尺度特征融合的行人比对方法
CN106778464A (zh) * 2016-11-09 2017-05-31 深圳市深网视界科技有限公司 一种基于深度学习的行人重识别方法和装置
CN108021898A (zh) * 2017-12-14 2018-05-11 西北工业大学 一种基于适配距离量度学习的人物再识别方法
CN108229673A (zh) * 2016-12-27 2018-06-29 北京市商汤科技开发有限公司 卷积神经网络的处理方法、装置和电子设备
CN108280411A (zh) * 2018-01-10 2018-07-13 上海交通大学 一种具有空间变换能力的行人搜索方法
CN108399362A (zh) * 2018-01-24 2018-08-14 中山大学 一种快速行人检测方法及装置
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质
CN108960074A (zh) * 2018-06-07 2018-12-07 西安电子科技大学 基于深度学习的小尺寸行人目标检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376334A (zh) * 2014-11-12 2015-02-25 上海交通大学 一种多尺度特征融合的行人比对方法
CN106778464A (zh) * 2016-11-09 2017-05-31 深圳市深网视界科技有限公司 一种基于深度学习的行人重识别方法和装置
CN108229673A (zh) * 2016-12-27 2018-06-29 北京市商汤科技开发有限公司 卷积神经网络的处理方法、装置和电子设备
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108021898A (zh) * 2017-12-14 2018-05-11 西北工业大学 一种基于适配距离量度学习的人物再识别方法
CN108280411A (zh) * 2018-01-10 2018-07-13 上海交通大学 一种具有空间变换能力的行人搜索方法
CN108399362A (zh) * 2018-01-24 2018-08-14 中山大学 一种快速行人检测方法及装置
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质
CN108960074A (zh) * 2018-06-07 2018-12-07 西安电子科技大学 基于深度学习的小尺寸行人目标检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115928A (zh) * 2020-11-20 2020-12-22 城云科技(中国)有限公司 基于违停车辆标签的神经网络的训练方法和检测方法
CN113065495A (zh) * 2021-04-13 2021-07-02 深圳技术大学 图像相似度的计算方法、目标对象重识别方法及系统
CN113065495B (zh) * 2021-04-13 2023-07-14 深圳技术大学 图像相似度的计算方法、目标对象重识别方法及系统
CN113591617A (zh) * 2021-07-14 2021-11-02 武汉理工大学 基于深度学习的水面小目标检测与分类方法
CN113591617B (zh) * 2021-07-14 2023-11-28 武汉理工大学 基于深度学习的水面小目标检测与分类方法

Similar Documents

Publication Publication Date Title
US11170257B2 (en) Image captioning with weakly-supervised attention penalty
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
KR102635987B1 (ko) 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
CN110135427B (zh) 用于识别图像中的字符的方法、装置、设备和介质
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN111325318B (zh) 神经网络的训练方法、神经网络的训练装置和电子设备
CN110378278B (zh) 神经网络的训练方法、对象搜索方法、装置以及电子设备
JP2008538041A5 (zh)
CN111797589A (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
CN111523351A (zh) 神经网络的训练方法、装置和电子设备
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
US20230281826A1 (en) Panoptic segmentation with multi-database training using mixed embedding
CN111126049B (zh) 对象关系预测方法、装置、终端设备及可读存储介质
CN109919214B (zh) 一种神经网络模型的训练方法及训练装置
CN115393592A (zh) 目标分割模型的生成方法及装置、目标分割方法及装置
KR102083786B1 (ko) 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템
CN112926700B (zh) 针对目标图像的类别识别方法和装置
CN112613373A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN112016677A (zh) 深度神经网络的训练方法、装置和电子设备
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN115563976A (zh) 文本预测方法、用于文本预测的模型建立方法及装置
CN112348045A (zh) 神经网络的训练方法、训练装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination