CN111126478B - 卷积神经网络训练方法、装置和电子系统 - Google Patents

卷积神经网络训练方法、装置和电子系统 Download PDF

Info

Publication number
CN111126478B
CN111126478B CN201911321668.5A CN201911321668A CN111126478B CN 111126478 B CN111126478 B CN 111126478B CN 201911321668 A CN201911321668 A CN 201911321668A CN 111126478 B CN111126478 B CN 111126478B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
frame
training
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911321668.5A
Other languages
English (en)
Other versions
CN111126478A (zh
Inventor
孙奕帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kuangjing Boxuan Technology Co ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Shanghai Kuangjing Boxuan Technology Co ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kuangjing Boxuan Technology Co ltd, Beijing Megvii Technology Co Ltd filed Critical Shanghai Kuangjing Boxuan Technology Co ltd
Priority to CN201911321668.5A priority Critical patent/CN111126478B/zh
Publication of CN111126478A publication Critical patent/CN111126478A/zh
Application granted granted Critical
Publication of CN111126478B publication Critical patent/CN111126478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种卷积神经网络训练方法、装置和电子系统;该方法包括:基于预设的训练集合确定当前训练图片;将当前训练图片输入至卷积神经网络中;基于当前训练图片中除第二标注框之外的其余区域计算损失值;根据损失值调整卷积神经网络的参数;将当前训练得到的卷积神经网络确定为训练好的卷积神经网络。该方式中,训练集合的训练图片标注了包含目标对象的第一标注框和疑似包含目标对象的第二标注框,在计算时损失值时,只考虑除第二标注框之外的其余区域,对于疑似包含目标对象的区域不计算损失值,这样卷积神经网络的训练过程不存在自相矛盾的监督信息,可以提升卷积神经网络的训练效果,提高训练后的卷积神经网络的性能,增加召回率。

Description

卷积神经网络训练方法、装置和电子系统
技术领域
本发明涉及神经网络技术领域,尤其是涉及一种卷积神经网络训练方法、装置和电子系统。
背景技术
深度学习为目标检测提供了一系列通用方法。例如,Faster RCNN(FasterRegionConvolutional Neural Networks,快速区域卷积神经网络)采用两阶段方式,先分离图像中的前景、背景,然后在前景区域中精细区分物体种类并预测相应位置;YOLO(You Only Look Once)采用单阶段方式,在多层网络输出中,预测不同大小物体的种类及位置。这些方法已经在多种物体检测任务(如行人检测、车辆检测)中获得了成功应用。然而,现有的深度学习方法用于检测生产车间的物料时仍然存在巨大的困难,即难以获得大量完备标注的图像用以训练深度模型。
具体来讲,为了训练物料检测模型,需要以矩形框的方式,手工标注图像中的所有物料所在位置。然而,物料的标注非常困难。不同于行人或者车辆,“物料”通常含有多个子类。例如,物料可能包含木材、轮胎、钢板、线缆等。在实际标注中,标注人员经常无法确认某些具体物品是否属于物料,因此很难将所有物料准确标示出来,形成不完备标注。未被标注的物料在训练过程中被作为背景采样,形成自相矛盾的监督信息,显著降低物料检测性能,尤其降低召回率指标。
发明内容
有鉴于此,本发明的目的在于提供一种卷积神经网络训练方法、装置和电子系统,以提升卷积神经网络的训练效果,提高训练后的卷积神经网络的性能,增加召回率。
第一方面,本发明实施例提供了一种卷积神经网络训练方法,包括:基于预设的训练集合确定当前训练图片;当前训练图片预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框;对于每一个当前训练图片,均执行以下训练操作:将当前训练图片输入至卷积神经网络中,输出卷积特征图;其中,卷积特征图包括多个特征区域;如果卷积特征图的特征区域与第一标注框对应,则输出第一标注框的位置信息;基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值;根据损失值调整卷积神经网络的参数;当训练操作满足预设的训练结束条件时,将当前训练得到的卷积神经网络确定为训练好的卷积神经网络。
在本发明较佳的实施例中,如果目标对象有多个类型,则第一标注框有多个类型,第一标注框的类型与目标对象的类型对应;并且,第二标注框包括疑似包含目标对象的标注框,或者无法确定包含的目标对象的类的标注框型。
在本发明较佳的实施例中,如果目标对象有一个类型;则第一标注框为包含一个类型的标注框,第二标注框为疑似包含目标对象的标注框。
在本发明较佳的实施例中,上述将当前训练图片输入至卷积神经网络中,输出卷积特征图的步骤,包括:将当前训练图片输入至卷积神经网络中;如果特征区域对应当前训练图片中包含目标对象的区域,则确定目标对象对应的第一标注框,并输出对应的第一标注框的位置信息。
在本发明较佳的实施例中,上述基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值的步骤,包括:对于卷积特征图对应的每一个特征区域,基于预设的损失函数计算特征区域的损失值;将卷积特征图对应的损失值中,除第二标注框对应的特征区域之外的其余特征区域的损失值求和,得到当前训练图片的损失值。
在本发明较佳的实施例中,如果特征区域与第一标注框对应,则将特征区域标注为前景区域;如果特征区域不与第一标注框对应,则将特征区域标注为背景区域;针对前景区域和背景区域的损失函数包括分类损失函数和坐标回归损失函数。
在本发明较佳的实施例中,上述基于预设的损失函数计算特征区域的损失值的步骤,包括:如果特征区域为前景区域,则基于分类损失函数和坐标回归损失函数,计算前景区域的分类损失和坐标回归损失,将前景区域的分类损失和坐标回归损失求和,得到前景区域的损失值;如果特征区域为背景区域,则基于分类损失函数计算背景区域的分类损失,将背景区域的分类损失作为背景区域的损失值。
在本发明较佳的实施例中,上述将卷积特征图对应的损失值中,除第二标注框对应的特征区域之外的其余特征区域的损失值求和,得到当前训练图片的损失值的步骤,包括:将前景区域的损失值,以及背景区域中除与第二标注框对应的特征区域之外的特征区域的损失值求和,得到当前训练图片的损失值。
第二方面,本发明实施例还提供一种卷积神经网络训练装置,包括:当前训练图片获取模块,用于基于预设的训练集合确定当前训练图片;当前训练图片预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框;卷积特征图输出模块,用于对于每一个当前训练图片,均执行以下训练操作:将当前训练图片输入至卷积神经网络中,输出卷积特征图;其中,卷积特征图包括多个特征区域;如果卷积特征图的特征区域与第一标注框对应,则输出第一标注框的位置信息;损失值计算模块,用于基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值;根据损失值调整卷积神经网络的参数;卷积神经网络确定模块,用于当训练操作满足预设的训练结束条件时,将当前训练得到的卷积神经网络确定为训练好的卷积神经网络。
第三方面,本发明实施例还提供一种电子系统,电子系统包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取训练图片;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述卷积神经网络训练方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述卷积神经网络训练方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种卷积神经网络训练方法、装置和电子系统,从训练集合中提取预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框的当前训练图片,并将当前训练图片输入至卷积神经网络中,输出第一标注框的位置信息;基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值,根据损失值调整卷积神经网络的参数;当训练操作满足预设的训练结束条件时,结束训练,得到训练好的卷积神经网络。
该方式中,训练集合的训练图片标注了包含目标对象的第一标注框和疑似包含目标对象的第二标注框,在计算时损失值时,只考虑除第二标注框之外的其余区域,对于疑似包含目标对象的区域不计算损失值,这样卷积神经网络的训练过程不存在自相矛盾的监督信息,可以提升卷积神经网络的训练效果,提高训练后的卷积神经网络的性能,增加召回率。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子系统的结构示意图;
图2为本发明实施例提供的一种卷积神经网络训练方法的流程图;
图3为本发明实施例提供的一种标注训练图片的示意图;
图4为本发明实施例提供的另一种卷积神经网络训练方法的流程图;
图5为本发明实施例提供的一种对当前训练图片进行卷积训练的示意图;
图6为本发明实施例提供的一种卷积神经网络训练装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提升卷积神经网络的训练效果,提高训练后的卷积神经网络的性能,本发明实施例提供的一种卷积神经网络训练方法、装置和电子系统,可以,该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中,该技术可采用相应的软件和硬件实现,以下对本发明实施例进行详细介绍。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种卷积神经网络训练方法进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的卷积神经网络训练方法、装置和电子系统的示例电子系统100。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
处理设备102可以为智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行目标对象统计的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以采集训练图片,并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的卷积神经网络训练方法、装置和电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
实施例二:
本实施例提供了一种卷积神经网络训练方法,如图2所示的一种卷积神经网络训练方法的流程图,该卷积神经网络训练方法包括如下步骤:
步骤S202,基于预设的训练集合确定当前训练图片;上述当前训练图片预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框。
在对卷积神经网络进行训练前,往往需要获取训练需要的训练图片,将由这些训练图片组成的集合称为训练集合。训练图片中需要中以矩形框形式标注目标对象的位置,目标对象是指希望通过卷积神经网络识别的对象。例如:以钢材作为目标对象,就需要将每一张训练图片中的所有钢材都用矩形框标注出来。然而,在实际使用的过程中,很可能存在漏标目标对象或者不确定训练图片上的某一区域是否为目标对象的情况。
因此,本实施例中的训练图片采用第一标注框标注包含目标对象的区域,采用第二标注框标注疑似包含目标对象的区域,即第二标注框包含的区域可能含有目标对象,也可能不含有目标对象,例如密集摆放、难以分辨或尚未清晰定义的对象。参见图3所示的一种标注训练图片的示意图,如图3所示,图3中的X代表目标对象,Y表示非目标对象,Z表示不确定是否为目标对象,采用第一标注框(实线框)将X标注,采用第二标注框(虚线框)将Z标注,对于Y,则不需要进行标注。
训练集合的全部训练图片均采用第一标注框和第二标注框进行标注,因此,在对卷积神经网络进行一次训练时,从训练集合的全部训练图片中选择一张当前训练图片进行训练。
步骤S204,对于每一个当前训练图片,均执行以下训练操作:将当前训练图片输入至卷积神经网络中,输出卷积特征图;其中,卷积特征图包括多个特征区域;如果卷积特征图的特征区域与第一标注框对应,则输出第一标注框的位置信息。
本实施例中的卷积神经网络为可以检测目标对象的卷积神经网络结构,如FasterRCNN或YOLO。卷积神经网络对当前训练图片进行卷积运算,需要输出卷积特征图,卷积特征图包括若干特征区域,每个特征区域与当前训练图片的区域对应,训练后可以确定卷积特征图的哪些特征区域包含目标对象,这些特征区域就与当前训练图片的第一标注框对应,卷积神经网络输出对应的第一标注框的位置信息,以确定目标对象的位置。
步骤S206,基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值;根据上述损失值调整卷积神经网络的参数。
在计算当前训练图片的损失值时,不考虑第二标注框对应的损失值,并根据损失值调整卷积神经网络的参数。因为,第二标注框的区域无法确定是否包括目标对象,如果考虑了第二标注框很可能存在矛盾的结果,降低卷积神经网络的训练效果。
例如,一般来说,如果不标注第二标注框,那么卷积神经网络就会按照第二标注框内不存在目标对象进行训练,如果实际上第二标注框内存在目标对象,那么卷积神经网络就会根据错误的标注进行训练,降低卷积神经网络的训练效果。
步骤S208,当训练操作满足预设的训练结束条件时,将当前训练得到的卷积神经网络确定为训练好的卷积神经网络。
训练结束条件可以是损失值收敛、达到迭代次数、达到训练时间等。损失值收敛是指在连续的指定次数的收敛的损失值接近某一固定值,当损失值收敛时,停止训练;达到迭代次数是指首先确定一个指定的迭代次数,当训练的次数达到该指定的迭代次数时,停止训练;达到训练时间是指首先确定一个指定的训练时间,当训练的时间达到该指定的训练时间时,停止训练。停止训练后,将最后一次训练输出的卷积神经网络,作为训练好的卷积神经网络。
本发明实施例提供的一种卷积神经网络训练方法,从训练集合中提取预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框的当前训练图片,并将当前训练图片输入至卷积神经网络中,输出第一标注框的位置信息;基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值,根据损失值调整卷积神经网络的参数;当训练操作满足预设的训练结束条件时,结束训练,得到训练好的卷积神经网络。
该方式中,训练集合的训练图片标注了包含目标对象的第一标注框和疑似包含目标对象的第二标注框,在计算时损失值时,只考虑除第二标注框之外的其余区域,对于疑似包含目标对象的区域不计算损失值,这样卷积神经网络的训练过程不存在自相矛盾的监督信息,可以提升卷积神经网络的训练效果,提高训练后的卷积神经网络的性能,增加召回率。
实施例三:
本实施例提供了另一种卷积神经网络训练方法,该方法在上述实施例的基础上实现;本实施例重点描述将当前训练图片输入至卷积神经网络中,输出卷积特征图的具体实施方式。如图4所示的另一种卷积神经网络训练方法的流程图,本实施例中的卷积神经网络训练方法包括如下步骤:
步骤S402,基于预设的训练集合确定当前训练图片;上述当前训练图片预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框。
在对训练图片进行预先标注时,目标对象的种类数量不同,第一标注框和第二标注框的标注方式也不相同。如果目标对象有多个类型,则第一标注框有多个类型,第一标注框的类型与目标对象的类型对应;并且,第二标注框包括疑似包含至少一种类型的目标对象的标注框,或者无法确定包含的目标对象的类型的标注框。
目标对象有多个类型,代表需要对不同类型的目标对象分别标注,虽然均采用第一标注框进行标注,但是不同类型的第一标注框的类型并不相同。例如,以物料作为目标对象,如果对物料精细划分,可以将物料划分为木材、钢材、钢板、线缆等类型,对应所有的物料均采用第一标注框标注,但是不同类型的第一标注框代表了不同类型的物料。
这种情况下的第二标注框有两种标注情况:一种是无法确定是否包含目标对象,即无法确定第二标注框内部的区域是否是目标对象;另一种是无法确定包含的目标对象的类型,即虽然确定了第二标注框内包括目标对象,但是不确定该目标对象的具体种类,这种情况同样需要用第二标注框进行标注。例如,第二标注框内有一物料,在标注的时候不确定该物料的类型,可能为木材或者钢材,这种情况需要对该物料以第二标注框标注。
该方式中,如果目标对象有多个类型,则第一标注框的类型需要与目标对象的类型一一对应,第二标注框包括无法确定是否包含目标对象,或者无法确定包含的目标对象的类型两种情况。
如果目标对象有一个类型;则并且第一标注框为包含一个类型的标注框,第二标注框为疑似包含目标对象的标注框。
如果不需要对目标对象进行划分,可以采用一个类型的第一标注框进行标注。同样以物料为例,如果不需要对物料进行划分,那么第一标注框将所有的物料进行标注,并不区分物料的类型;第二标注框内的对象只能为无法确定是否是目标对象的情况。例如,有一个区域内的对象是物料,但是不关注是哪种物料,这种情况下需要用第一标注框进行标注。
该方式中,如果目标对象只有一个类型,则第一标注框同样有一个类型,第二标注框包括无法确定是否包含目标对象这一种情况。
步骤S404,对于每一个当前训练图片,均执行以下训练操作:将当前训练图片输入至卷积神经网络中。
参见图5所示的一种对当前训练图片进行卷积训练的示意图,如图5所示,将左侧的当前训练图片输入至卷积神经网络进行卷积运算,输出右侧的卷积特征图。其中左侧的X代表目标对象,Y代表疑似目标对象,实线框为第一标注框,虚线框为第二标注框。
步骤S406,如果特征区域对应当前训练图片中包含目标对象的区域,则确定目标对象对应的第一标注框,并输出对应的第一标注框的位置信息。
卷积特征图有多个特征区域组成,如图5所示,图5在卷积特征图的每一个小框就是一个特征区域,标注A的特征区域与左侧当前训练图片的第一标注框对应,标注B的特征区域与左侧当前训练图片的第二标注框对应。特征区域对应当前训练图片中包含目标对象的区域,就是特征区域与左侧当前训练图片的第一标注框对应。
将训练得到的特征区域反推对应的第一标注框,并将计算第一标注框的位置信息。具体来说可以通过坐标回归的方法计算第一标注框的位置信息,即为特征区域反推对应的第一标注框预测一套坐标回归参数,用于计算其对应的位置信息。
该方式中,训练的卷积特征图中,特征区域与第一标注框对应,基于与第一标注框对应的特征区域确定第一标注框的位置信息。
步骤S408,基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值;根据上述损失值调整卷积神经网络的参数。
因为第二标注框对应的区域内无法确认是否有目标对象,因此在计算损失值时应该忽略第二标注框,将除第二标注框之外的其余区域的损失值的和作为当前训练图片的损失值,可以通过步骤A1-步骤A2计算损失值:
步骤A1,对于卷积特征图对应的每一个特征区域,基于预设的损失函数计算特征区域的损失值;
对于卷积特征图内的所有特征区域计算对应的损失值。首先,可以将特征区域分为前景区域和背景区域。如果特征区域与第一标注框对应,则将特征区域标注为前景区域(即图5中卷积特征图的标注A的小框);如果特征区域不与第一标注框对应,则将特征区域标注为背景区域(即图5中卷积特征图的标注B的小框和未标注字母的小框)。
对于前景区域和背景区域采用不同的损失函数计算损失值,其中,损失函数包括分类损失函数和坐标回归损失函数;具体通过步骤B1-步骤B2计算前景区域和背景区域的损失值:
步骤B1,如果特征区域为前景区域,则基于分类损失函数和坐标回归损失函数,计算前景区域的分类损失和坐标回归损失,将前景区域的分类损失和坐标回归损失求和,得到前景区域的损失值。
这里以单阶段检测的检测方法YOLO进行说明,将当前训练图片输入到卷积神经网络中,经过一系列卷积运算,产生一幅卷积特征图
Figure BDA0002325980240000131
其中,M,N,D分别为T的高、宽和通道数。换而言之,T可以看成M×N个D维向量f(f相当于图5中的特征区域)的排列组合。每个f对应当前训练图片上的若干个假想区域r(又称为anchor区域,也即前述的特征区域,假想区域是人为规定的区域,其大小、位置都是规定好的,当前训练图片有密集排列的假想区域进行划分),即将当前训练图片划分为若干个假想区域r,多个r对应一个f。需要指出的是,即r是f坐标的函数,简单记为r(f)。训练时,一个f可能受到如下监督:
如果特征区域为前景区域,假想区域r大致对应一个目标对象(图5中当前训练图片的实线框),称前景区域属于前景区域F,记为r∈F,D维向量将指示该假想区域为第一标记框,并预测从假想区域坐标到目标实际坐标的转换系数。训练过程中,这两项预测分别用分类损失函数Lcls和坐标回归损失函数Lreg进行监督,即前景区域的损失值LF=Lcls+Lreg
步骤B2,如果特征区域中的第二特征区域为背景区域,则基于分类损失函数计算第二特征区域的分类损失,将第二特征区域的分类损失作为第二特征区域的损失值。
如果特征区域中的第二特征区域为背景区域,若假想区域r未对应一个待检测目标(图5中当前训练图片的虚线框和两种标注框以外的区域均对应待检测目标),称该区域属于背景区域B,记为r∈B,D维向量将指示该假想区域属于背景类别,并不再关心从假想区域坐标到目标实际坐标的转换系数。训练过程中仅仅使用分类损失函数进行监督,即第二特征区域的损失值LB=Lcls
该方式中,由于前景区域关心从假想区域坐标到目标实际坐标的转换系数,而背景区域不关心从假想区域坐标到目标实际坐标的转换系数,前景区域的损失值包括分类损失和坐标回归损失,而背景区域的损失值就是分类损失。
步骤A2,将卷积特征图对应的损失值中,除第二标注框对应的特征区域之外的其余特征区域的损失值求和,得到当前训练图片的损失值。
步骤A1中计算了卷积特征图的所有区域的损失值,而当前训练图片的损失值,则不考虑第二标注框对应的特征区域的损失值,可以通过下述步骤计算当前训练图片的损失值:
将前景区域的损失值,以及背景区域中除与第二标注框对应的特征区域之外的特征区域的损失值求和,得到当前训练图片的损失值。
可以通过以下算式计算当前训练图片的损失值L:
Figure BDA0002325980240000141
其中,/>
Figure BDA0002325980240000142
表示当且仅当r(f)位于第二标注框之外时取1,r(f)位于第二标注框之内时取0;/>
Figure BDA0002325980240000143
为二值函数,当且仅当r(f)∈F(即r(f)位于第一标注框)的条件满足时取1,其它条件下取0。
也就是说,当r(f)位于第一标注框内,
Figure BDA0002325980240000144
L=LF;当r(f)为第二标注框,/>
Figure BDA0002325980240000145
L=0;当r(f)为除第一标注框和第二标注框的其余区域,/>
Figure BDA0002325980240000146
L=LB
该方式中,计算当前训练图片的损失值的过程中,前景区域对应第一标注框,因此,前景区域参与卷积神经网络的更新;而背景区域参与就卷积神经网络的更新的过程前,需要对背景区域是否对应第二标注框进行判断,只有不对应的第二标注框的背景区域,才会参与卷积神经网络的更新。也就是说,在计算对应于背景区域的损失值时,额外增加了判断当前区域是否对应第二标注框的判断:即当前区域同时满足不属于前景区域和不对应第二标注框时,才能将该区域的特征向量f判定为背景区域,并将该区域纳入背景项损失的监督。
该方式中,相比于传统做法的将卷积特征图T上所有像素对应的点都以背景/前景的方式参与网络更新,本实施例的第二标注框对应的卷积特征图T上的像素没有参与网络更新。这样,第二标注框不会影响卷积神经网络的训练结果,可以提高卷积神经网络的训练效果,并且增加训练后的卷积神经网络的召回率。
步骤S410,当训练操作满足预设的训练结束条件时,将当前训练得到的卷积神经网络确定为训练好的卷积神经网络。
可以采用训练好的卷积神经网络进行预测,例如:将图像输入到卷积神经网络后形成卷积特征图T,卷积特征图T上每个向量f均参与预测其对应的图像的假想区域r是否包含目标对象。若包含目标对象,卷积神经网络为包含目标对象的假想区域r预测一套坐标回归参数,用于计算包含目标对象的假想区域对应的位置信息。
本发明实施例提供的上述方法,对于没有对训练图片进行完备标注的情况,对训练图片中不清楚是否包含目标对象的区域使用第二标注框进行标注,并且,在计算训练图片的损失值的时候,不考虑第二标注框对应的特征区域的损失值。该方式能够显著降低标注难度、节省标注成本,并提高训练后的卷积神经网络的效果、尤其是召回性能等关键指标。
实施例四:
本实施例提供了一种卷积神经网络训练装置,对应于上述方法实施例,参见图6所示的一种卷积神经网络训练装置的结构示意图,该卷积神经网络训练装置包括:
当前训练图片获取模块61,用于基于预设的训练集合确定当前训练图片;当前训练图片预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框;
卷积特征图输出模块62,用于对于每一个当前训练图片,均执行以下训练操作:将当前训练图片输入至卷积神经网络中,输出卷积特征图;其中,卷积特征图包括多个特征区域;如果卷积特征图的特征区域与第一标注框对应,则输出第一标注框的位置信息;
损失值计算模块63,用于基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值;根据损失值调整卷积神经网络的参数;
卷积神经网络确定模块64,用于当训练操作满足预设的训练结束条件时,将当前训练得到的卷积神经网络确定为训练好的卷积神经网络。
进一步地,如果目标对象有多个类型,则第一标注框有多个类型,第一标注框的类型与目标对象的类型对应;并且,第二标注框包括疑似包含目标对象的标注框,或者无法确定包含的目标对象的类型的标注框。
进一步地,如果目标对象有一个类型;则并且第一标注框包含一个类型的标注框,第二标注框包括疑似包含目标对象的标注框。
进一步地,上述卷积特征图输出模块,用于:将当前训练图片输入至卷积神经网络中;如果特征区域对应当前训练图片中包含目标对象的区域,则确定目标对象对应的第一标注框,并输出对应的第一标注框的位置信息。
进一步地,上述损失值计算模块,用于:对于卷积特征图对应的每一个特征区域,基于预设的损失函数计算特征区域的损失值;将卷积特征图对应的损失值中,除第二标注框对应的特征区域之外的其余特征区域的损失值求和,得到当前训练图片的损失值。
进一步地,如果特征区域与第一标注框对应,则将特征区域标注为前景区域;如果特征区域不与第一标注框对应,则将特征区域标注为背景区域;损失函数包括分类损失函数和坐标回归损失函数。
进一步地,上述损失值计算模块,用于:如果特征区域为前景区域,则基于分类损失函数和坐标回归损失函数,计算前景区域的分类损失和坐标回归损失,将前景区域的分类损失和坐标回归损失求和,得到前景区域的损失值;如果特征区域中的背景区域为背景区域,则基于分类损失函数计算背景区域的分类损失,将背景区域的分类损失作为背景区域的损失值。
进一步地,上述损失值计算模块,用于:将前景区域的损失值,以及背景区域中除与第二标注框对应的特征区域之外的特征区域的损失值求和,得到当前训练图片的损失值。
本发明实施例提供的一种卷积神经网络训练装置,从训练集合中提取预先标注包含目标对象的第一标注框和疑似包含目标对象的第二标注框的当前训练图片,并将当前训练图片输入至卷积神经网络中,输出第一标注框的位置信息;基于卷积特征图、当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算当前训练图片的损失值,根据损失值调整卷积神经网络的参数;当训练操作满足预设的训练结束条件时,结束训练,得到训练好的卷积神经网络。
该方式中,训练集合的训练图片标注了包含目标对象的第一标注框和疑似包含目标对象的第二标注框,在计算时损失值时,只考虑除第二标注框之外的其余区域,对于疑似包含目标对象的区域不计算损失值,这样卷积神经网络的训练过程不存在自相矛盾的监督信息,可以提升卷积神经网络的训练效果,提高训练后的卷积神经网络的性能,增加召回率。
实施例五:
本发明实施例提供了一种电子系统,该电子系统包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取训练图片;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述卷积神经网络训练方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述卷积神经网络训练方法的步骤。
本发明实施例所提供的对图像进行卷积神经网络训练方法、装置和电子系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种卷积神经网络训练方法,其特征在于,包括:
基于预设的训练集合确定当前训练图片;所述当前训练图片预先标注包含目标对象的第一标注框和疑似包含所述目标对象的第二标注框;
对于每一个所述当前训练图片,均执行以下训练操作:将所述当前训练图片输入至卷积神经网络中,输出卷积特征图;其中,所述卷积特征图包括多个特征区域;如果所述卷积特征图的特征区域与所述第一标注框对应,则输出所述第一标注框的位置信息;
基于所述卷积特征图、所述当前训练图片中除所述第二标注框之外的其余区域和预设的损失函数计算所述当前训练图片的损失值;根据所述损失值调整所述卷积神经网络的参数;
当所述训练操作满足预设的训练结束条件时,将当前训练得到的所述卷积神经网络确定为训练好的卷积神经网络。
2.根据权利要求1所述的方法,其特征在于,如果所述目标对象有多个类型,则所述第一标注框有多个类型,所述第一标注框的类型与所述目标对象的类型对应;并且,所述第二标注框包括疑似包含至少一种类型的所述目标对象的标注框,或者无法确定包含的所述目标对象的类型的标注框。
3.根据权利要求1所述的方法,其特征在于,如果所述目标对象有一个类型;则所述第一标注框为包含一个类型的标注框,所述第二标注框为疑似包含所述目标对象的标注框。
4.根据权利要求1所述的方法,其特征在于,将所述当前训练图片输入至卷积神经网络中,输出卷积特征图的步骤,包括:
将所述当前训练图片输入至卷积神经网络中;
如果所述特征区域对应所述当前训练图片中包含目标对象的区域,则确定所述目标对象对应的第一标注框,并输出对应的所述第一标注框的位置信息。
5.根据权利要求1所述的方法,其特征在于,基于所述卷积特征图、所述当前训练图片中除第二标注框之外的其余区域和预设的损失函数计算所述当前训练图片的损失值的步骤,包括:
对于所述卷积特征图对应的每一个特征区域,基于预设的损失函数计算所述特征区域的损失值;
将所述卷积特征图对应的损失值中,除所述第二标注框对应的特征区域之外的其余特征区域的损失值求和,得到所述当前训练图片的损失值。
6.根据权利要求5所述的方法,其特征在于,如果所述特征区域与所述第一标注框对应,则将所述特征区域标注为前景区域;如果所述特征区域不与所述第一标注框对应,则将所述特征区域标注为背景区域;针对前景区域和背景区域的所述损失函数包括分类损失函数和坐标回归损失函数。
7.根据权利要求6所述的方法,其特征在于,基于预设的损失函数计算所述特征区域的损失值的步骤,包括:
如果所述特征区域为所述前景区域,则基于所述分类损失函数和所述坐标回归损失函数,计算所述前景区域的分类损失和坐标回归损失,将所述前景区域的分类损失和坐标回归损失求和,得到所述前景区域的损失值;
如果所述特征区域为所述背景区域,则基于所述分类损失函数计算所述背景区域的分类损失,将所述背景区域的分类损失作为所述背景区域的损失值。
8.根据权利要求7所述的方法,其特征在于,将所述卷积特征图对应的损失值中,除所述第二标注框对应的特征区域之外的其余特征区域的损失值求和,得到所述当前训练图片的损失值的步骤,包括:
将所述前景区域的损失值,以及所述背景区域中除与所述第二标注框对应的特征区域之外的特征区域的损失值求和,得到所述当前训练图片的损失值。
9.一种卷积神经网络训练装置,其特征在于,包括:
当前训练图片获取模块,用于基于预设的训练集合确定当前训练图片;所述当前训练图片预先标注包含目标对象的第一标注框和疑似包含所述目标对象的第二标注框;
卷积特征图输出模块,用于对于每一个所述当前训练图片,均执行以下训练操作:将所述当前训练图片输入至卷积神经网络中,输出卷积特征图;其中,所述卷积特征图包括多个特征区域;如果所述卷积特征图的特征区域与所述第一标注框对应,则输出所述第一标注框的位置信息;
损失值计算模块,用于基于所述卷积特征图、所述当前训练图片中除所述第二标注框之外的其余区域和预设的损失函数计算所述当前训练图片的损失值;根据所述损失值调整所述卷积神经网络的参数;
卷积神经网络确定模块,用于当所述训练操作满足预设的训练结束条件时,将当前训练得到的所述卷积神经网络确定为训练好的卷积神经网络。
10.一种电子系统,其特征在于,所述电子系统包括:图像采集设备、处理设备和存储装置;
所述图像采集设备,用于获取训练图片;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的卷积神经网络训练方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行权利要求1至8任一项所述的卷积神经网络训练方法的步骤。
CN201911321668.5A 2019-12-19 2019-12-19 卷积神经网络训练方法、装置和电子系统 Active CN111126478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321668.5A CN111126478B (zh) 2019-12-19 2019-12-19 卷积神经网络训练方法、装置和电子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321668.5A CN111126478B (zh) 2019-12-19 2019-12-19 卷积神经网络训练方法、装置和电子系统

Publications (2)

Publication Number Publication Date
CN111126478A CN111126478A (zh) 2020-05-08
CN111126478B true CN111126478B (zh) 2023-07-07

Family

ID=70500451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321668.5A Active CN111126478B (zh) 2019-12-19 2019-12-19 卷积神经网络训练方法、装置和电子系统

Country Status (1)

Country Link
CN (1) CN111126478B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673668A (zh) * 2020-05-13 2021-11-19 北京君正集成电路股份有限公司 一种车辆检测训练中二级损失函数的计算方法
CN112749701B (zh) * 2021-01-22 2024-02-09 北京百度网讯科技有限公司 车牌污损分类模型的生成方法和车牌污损分类方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279485A (zh) * 2015-10-12 2016-01-27 江苏精湛光电仪器股份有限公司 激光夜视下监控目标异常行为的检测方法
CN107644221A (zh) * 2017-10-31 2018-01-30 南京航空航天大学 基于参数压缩的卷积神经网络交通标志识别方法
CN108961327A (zh) * 2018-05-22 2018-12-07 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN109087256A (zh) * 2018-07-19 2018-12-25 北京飞搜科技有限公司 一种基于深度学习的图像去模糊方法及系统
WO2019118060A1 (en) * 2017-12-13 2019-06-20 Medtronic Minimed, Inc. Methods and systems for continuous glucose monitoring
CN110096942A (zh) * 2018-12-20 2019-08-06 北京以萨技术股份有限公司 一种基于视频分析的烟雾检测算法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110135296A (zh) * 2019-04-30 2019-08-16 上海交通大学 基于卷积神经网络的机场跑道fod检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3433795A4 (en) * 2016-03-24 2019-11-13 Ramot at Tel-Aviv University Ltd. METHOD AND SYSTEM FOR CONVERTING A TEXT IMAGE

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279485A (zh) * 2015-10-12 2016-01-27 江苏精湛光电仪器股份有限公司 激光夜视下监控目标异常行为的检测方法
CN107644221A (zh) * 2017-10-31 2018-01-30 南京航空航天大学 基于参数压缩的卷积神经网络交通标志识别方法
WO2019118060A1 (en) * 2017-12-13 2019-06-20 Medtronic Minimed, Inc. Methods and systems for continuous glucose monitoring
CN108961327A (zh) * 2018-05-22 2018-12-07 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN109087256A (zh) * 2018-07-19 2018-12-25 北京飞搜科技有限公司 一种基于深度学习的图像去模糊方法及系统
CN110096942A (zh) * 2018-12-20 2019-08-06 北京以萨技术股份有限公司 一种基于视频分析的烟雾检测算法
CN110135296A (zh) * 2019-04-30 2019-08-16 上海交通大学 基于卷积神经网络的机场跑道fod检测方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张烨.基于难分样本挖掘的快速区域卷积神经网络目标检测研究 .电子与信息学报 .2019,全文. *
梁忠权 ; 尹超 ; .复杂机电产品关键装配工序物料质量损失评估及预警方法.新型工业化.2013,(第04期),全文. *

Also Published As

Publication number Publication date
CN111126478A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN108009543B (zh) 一种车牌识别方法及装置
US11062123B2 (en) Method, terminal, and storage medium for tracking facial critical area
Chen et al. An edge traffic flow detection scheme based on deep learning in an intelligent transportation system
CN107944450B (zh) 一种车牌识别方法及装置
CN109784290B (zh) 一种目标检测方法、装置、设备及可读存储介质
CN105631418A (zh) 一种人数统计的方法和装置
CN111242954B (zh) 一种带有双向连接和遮挡处理的全景分割方法
CN111126478B (zh) 卷积神经网络训练方法、装置和电子系统
CN111047626A (zh) 目标跟踪方法、装置、电子设备及存储介质
CN111310826B (zh) 样本集的标注异常检测方法、装置及电子设备
CN110543877A (zh) 标识识别方法及其模型的训练方法、装置和电子系统
CN110910445B (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
Li et al. Rotation correction for license plate recognition
CN112132130B (zh) 一种面向全场景的实时性车牌检测方法及系统
CN110674680A (zh) 活体识别的方法、装置、存储介质
CN111753826B (zh) 车辆与车牌的关联方法、装置和电子系统
CN112232506A (zh) 网络模型训练方法、图像目标识别方法、装置和电子设备
CN114419739A (zh) 行为识别模型的训练方法、行为识别方法及设备
CN113920585A (zh) 行为识别方法及装置、设备和存储介质
CN112131957A (zh) 文档类型图片的识别方法、装置及存储介质
CN111091056B (zh) 图像中的墨镜识别方法及装置、电子设备、存储介质
CN110222576B (zh) 拳击动作识别方法、装置和电子设备
CN116543333A (zh) 电力系统的目标识别方法、训练方法、装置、设备和介质
CN110619304A (zh) 一种车型识别方法、系统、装置及计算机可读介质
CN113449656B (zh) 一种基于改进的卷积神经网络的驾驶员状态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230515

Address after: No. 322, 3rd Floor, Building 1, Building Materials City, Xisanqi, Haidian District, Beijing, 100096

Applicant after: MEGVII (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai kuangjing Boxuan Technology Co.,Ltd.

Address before: 316-318, block a, Rongke Information Center, No.2, south academy of Sciences Road, Haidian District, Beijing

Applicant before: MEGVII (BEIJING) TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant