CN108229494A - 网络训练方法、处理方法、装置、存储介质和电子设备 - Google Patents
网络训练方法、处理方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN108229494A CN108229494A CN201710457590.4A CN201710457590A CN108229494A CN 108229494 A CN108229494 A CN 108229494A CN 201710457590 A CN201710457590 A CN 201710457590A CN 108229494 A CN108229494 A CN 108229494A
- Authority
- CN
- China
- Prior art keywords
- data
- difference
- neural network
- detection
- directional spreding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种网络训练方法、处理方法、装置、存储介质和电子设备。该训练方法包括:通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据以及物体方向分布预测向量,物体方向分布预测向量的各个元素分别指示样本图像含有处于所述元素对应的方向的物体的预测概率;确定位置标注数据和位置检测数据之间的第一差异和方向标注数据和方向检测数据之间的第二差异,并且根据方向标注数据和物体方向分布预测向量确定第三差异;至少根据第一差异、第二差异和第三差异调整物体检测神经网络的网络参数。基于多任务训练的物体检测神经网络的训练方法,得到提供图像中物体的位置、方向和图像中物体的方向分布数据。
Description
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种神经网络的训练方法、图像处理方法、装置、计算机可读存储介质和电子设备。
背景技术
从图像或视频中检测出指定类别的物体是计算机视觉技术的一项重要任务。通常,需要先从图像或视频帧中提取可能含有物体的候选区域框,然后对提取出的候选区域框进行物体类别的识别。在此过程中,还可检测出物体的尺寸等信息。
发明内容
本发明实施例的目的在于,提供一种用于物体检测的神经网络的训练技术方案以及物体检测技术方案,以通过训练得到的用于物体检测的神经网络获取图像中出现的物体的方向和位置以及图像中物体方向分布的数据。
根据本发明实施例的第一方面,提供一种用于物体检测的神经网络的训练方法,包括:通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率;确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异;至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
可选地,所述物体检测神经网络为含有全局池化层的卷积神经网络;所述提取所述样本图像的物体方向分布预测向量,包括:从所述物体检测神经网络的全局池化层中提取物体方向分布预测向量。
可选地,所述根据所述方向标注数据和所述物体方向分布预测向量确定第三差异包括:根据所述方向标注数据为所述样本图像的物体方向分布预测向量生成检测监督数据,其中,对于所述物体方向分布预测向量的各个元素,如果所述方向标注数据指示含有所述元素对应的方向的物体,则为该元素生成正的监督标签;如果所述方向标注数据指示不含有所述元素对应的方向的物体,则为所述元素生成负的监督标签;根据所述检测监督数据和所述物体方向分布预测向量确定所述第三差异。
可选地,所述方向标注数据包括至少一个以下数据:物体相对于图像画面所在平面中标准方向的角度、物体在图像画面所处空间中的朝向、物体的特征点的平面坐标、物体的特征点的空间坐标。
可选地,所述样本图像还含有物体的尺寸标注数据,并且所述方法还包括:通过所述物体检测神经网络获取样本图像中物体的尺寸检测数据;确定所述尺寸标注数据和所述尺寸检测数据之间的第四差异;所述至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数包括:根据所述第一差异、第二差异、第三差异和第四差异调整所述物体检测神经网络的网络参数。
根据本发明实施例的第二方面,还提供一种图像处理方法,包括:根据用于物体检测的神经网络获取待处理的图像中物体的位置和方向以及全图物体方向分布数据的预测信息;根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
可选地,所述用于物体检测的神经网络通过前述任一所述的训练方法训练获得。
可选地,所述全图物体方向分布数据包括物体方向分布预测向量,所述物体方向分布预测向量的各个元素分别指示所述待处理的图像含有处于所述元素对应的方向的物体的预测概率。
根据本发明实施例的第三方面,还提供一种用于物体检测的神经网络的训练装置,包括:检测模块,用于通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率;差异确定模块,用于确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异;训练模块,用于至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
可选地,所述物体检测神经网络为含有全局池化层的卷积神经网络;所述检测模块用于从所述物体检测神经网络的全局池化层中提取物体方向分布预测向量。
可选地,所述差异确定模块在根据所述方向标注数据和所述物体方向分布预测向量确定第三差异中,用于:监督数据生成单元,用于根据所述方向标注数据为所述样本图像的物体方向分布预测向量生成检测监督数据,其中,对于所述物体方向分布预测向量的各个元素,如果所述方向标注数据指示含有所述元素对应的方向的物体,则为该元素生成正的监督标签;如果所述方向标注数据指示不含有所述元素对应的方向的物体,则为所述元素生成负的监督标签;差异计算单元,用于根据所述检测监督数据和所述物体方向分布预测向量确定所述第三差异。
可选地,所述方向标注数据包括至少一个以下数据:物体相对于图像画面所在平面中标准方向的角度、物体在图像画面所处空间中的朝向、物体的特征点的平面坐标、物体的特征点的空间坐标。
可选地,所述样本图像还含有物体的尺寸标注数据,并且所述检测模块还用于通过所述物体检测神经网络获取样本图像中物体的尺寸检测数据;所述差异确定模块还用于确定所述尺寸标注数据和所述尺寸检测数据之间的第四差异;所述训练模块用于根据所述第一差异、第二差异、第三差异和第四差异调整所述物体检测神经网络的网络参数。
根据本发明实施例的第四方面,还提供一种图像处理装置,包括:根据用于物体检测的神经网络获取待处理的图像中物体的位置和方向以及全图物体方向分布数据的预测信息;控制执行模块,用于根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
可选地,所述用于物体检测的神经网络通过如前任一所述的训练方法训练获得。
可选地,所述全图物体方向分布数据包括物体方向分布预测向量,所述物体方向分布预测向量的各个元素分别指示所述待处理的图像含有处于所述元素对应的方向的物体的预测概率。
根据本发明实施例的第五方面,还提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现前述任一用于物体检测的神经网络的训练方法的步骤。
根据本发明实施例的第六方面,还提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现前述任一图像处理方法的步骤。
根据本发明实施例的第七方面,还提供一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述任一用于物体检测的神经网络的训练方法对应的操作。
根据本发明实施例的第八方面,还提供一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述任一图像处理方法对应的操作。
根据本发明实施例提出一种基于多任务训练的物体检测神经网络的训练方法,以使训练得到的物体检测神经网络提供图像中物体的位置、方向和图像中物体的方向分布数据。由于样本图像含有物体的位置标注数据和方向标注数据,因此在训练的过程中,获得的物体的方向分布数据(物体方向分布预测向量)受到方向标注数据的监督,可获得包括物体的方向、位置以及方向分布数据的多个物体检测的输出。此外,使用通过多任务训练得到的物体检测神经网络进行物体检测,有利于通过其多个输出对图像进行相应的校正、识别等操作。
通过前述训练得到的物体检测神经网络,能够从待处理的图像较准确地获取物体的位置、方向以及全图物体方向分布数据的多个预测数据,并且通过其多个预测数据进行相应的控制操作。
附图说明
图1是示出根据本发明实施例一的用于物体检测的神经网络的训练方法的流程图;
图2是示出根据本发明实施例二的用于物体检测的神经网络的训练方法的流程图;
图3是示出根据本发明实施例三的图像处理方法的流程图;
图4是示出根据本发明实施例四的用于物体检测的神经网络的训练装置的逻辑框图;
图5是示出根据本发明实施例五的用于物体检测的神经网络的训练装置的逻辑框图;
图6是示出根据本发明实施例六的图像处理装置的逻辑框图;
图7是示出根据本发明实施例八的第一电子设备的结构示意图;
图8是示出根据本发明实施例九的第二电子设备的结构示意图。
具体实施方式
下面结合附图详细描述本发明实施例的示例性实施例。
实施例一
图1是示出根据本发明实施例一的用于物体检测的神经网络的训练方法的流程图。
参照图1,在步骤S110,通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率。
这里的物体检测神经网络为具有多个输出分支的卷积神经网络,该多个输出分支包括,但不限于,图像中物体的位置的预测数据、物体的方向的预测数据以及物体方向分布的预测数据。
在物体检测神经网络的训练过程中,通过该物体检测神经网络,来获取多个样本图像中物体的位置检测数据和方向检测数据。
在此基础上,由于样本图像含有物体的位置标注数据和方向标注数据,因此还通过该物体检测神经网络对这些样本图像进行特征提取和池化,获得各个样本图像的物体方向分布预测向量,物体方向分布预测向量的每个元素对应一个方向,分别指示所述样本图像中含有处于该元素对应的方向的物体的预测概率。得到的样本图像的物体方向分布预测向量即为指示物体方向分布的检测数据。
此后,在步骤S120,确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异。
其中,根据位置检测数据和相应的位置标注数据计算物体位置检测的第一差异,根据方向检测数据和相应的方向标注数据计算物体方向检测的第二差异。此外,可通过将方向标注数据与获取到的物体方向分布预测向量中相应的元素进行比对/匹配来计算第三差异。将计算得到的第一差异、第二差异和第三差异作为监督信号,用于继续训练物体检测神经网络。
在步骤S130,至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
具体地,可根据第一差异、第二差异和第三差异计算出综合差异值,将综合差异值反向传输给物体检测神经网络,从而迭代地训练获得该物体检测神经网络。除此之外,还可根据训练的需要,进一步计算其他损失值,通过第一差异、第二差异、第三差异以及计算得到的其他损失值来训练该物体检测神经网络。
神经网络的训练是一个迭代的过程,本发明实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对神经网络的每次训练都可采用该训练方式,直至完成神经网络的训练。
常规的物体检测器可以通过对训练数据进行旋转扩增来获得一定的检测全方向物体的能力,但是在模型参数较少的情况下难以进行拟合,并且检测的准确率也不高。此外,通过常规的例如区域候选网络的卷积神经网络也无法获得物体的方向信息。目前的物体检测器在不对从图像检测到物体的方向进行统计的情况下,尚无法自动获得图像中出现的多个物体的方向分布数据,以对图像或用于拍摄设备进行相应的调整。
本发明的示例性实施例提出一种基于多任务训练的物体检测神经网络的训练方法,以使训练得到的物体检测神经网络提供图像中物体的位置、方向和图像中物体的方向分布数据。由于样本图像含有物体的位置标注数据和方向标注数据,因此在训练的过程中,获得的物体的方向分布数据(物体方向分布预测向量)受到方向标注数据的监督,可获得包括物体的方向、位置以及方向分布数据的多个物体检测的输出。此外,使用通过多任务训练得到的物体检测神经网络进行物体检测,有利于通过其多个输出对图像进行相应的校正、识别等操作。
实施例二
图2是示出根据本发明实施例二的用于物体检测的神经网络的训练方法的流程图。实施例二的神经网络的训练方法是实施例一的训练方法的一种示例性实现方式。
参照图2,在步骤S210,通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量。其中,所述物体检测神经网络为含有全局池化层的卷积神经网络,从所述物体检测神经网络的全局池化层中提取物体方向分布预测向量。
步骤S210的处理与前述步骤S110的处理类似。这里,通过全局池化层从样本图像的特征图获取定长的物体方向分布预测向量。
这里,物体检测神经网络可以是例如,但不限于,具有较强目标检测性能的区域候选网络(Region Proposal Network)。
可选地,前述方向标注数据包括,但不限于,至少一个以下数据:物体相对于图像画面所在平面中标准方向的角度、物体在图像画面所处空间中的朝向、物体的特征点的平面或空间坐标。例如,物体相对于图像画面平面的竖直方向30°,物体在图像画面所处空间的朝左方向,物体在图像画面所处空间的朝左30°,物体特征点的平面坐标(80,80)、(80,120)等。根据需要预测的方向信息的颗粒度可选择该三种方向数据中的任一种或多种。物体在图像画面所处空间的朝向是指物体在三维空间中所处的姿态,比如正对图像画面平面、背对图像画面平面、侧对图像画面平面等。
此外,可选地,样本图像还含有物体的尺寸标注数据。相应地,训练的物体检测神经网络还输出物体的尺寸数据。例如,可为物体检测神经网络另行设置用于预测物体的尺寸的输出分支。可选地,在步骤S210,还通过物体检测神经网络获取各个所述样本图像中物体的尺寸检测数据。
在步骤S220,确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异。
根据本实施例,步骤S220包括操作S223、S225和S228。其中,顺序地执行操作S225和S228;可顺序地执行操作S223、S225和S228,也可以并行地执行操作S223和S225。
在操作S223,确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异。
可通过任何现有的损失函数、代价函数等计算第一差异和第二差异,以对获取到的物体的位置检测和方向检测数据进行评估,以用于监督物体检测神经网络对物体的位置和方向预测的训练。
在前述物体检测神经网络还输出物体的尺寸的实现方式中,操作S223可还包括,确定所述尺寸标注数据和所述尺寸检测数据之间的第四差异。
同理,可通过任何现有的损失函数、代价函数等计算第四差异,以用于监督物体检测神经网络对物体的尺寸预测的训练。
在操作S225,根据所述方向标注数据为所述样本图像的物体方向分布预测向量生成检测监督数据,以用于监督物体方向分布预测的训练。
其中,对于所述物体方向分布预测向量的各个元素,如果所述方向标注数据指示含有所述元素对应的方向的物体,则为该元素生成正的监督标签;如果所述方向标注数据指示不含有所述元素对应的方向的物体,则为所述元素生成负的监督标签。例如,假设某个样本图像的物体方向分布预测向量的某个元素指示朝右的方向,该样本图像的方向标注数据指示某物体朝右,则为该元素生成正的监督标签;假设某个样本图像的物体方向分布预测向量的某个元素指示朝上的方向,而从该样本图像的发现标注数据找不到朝上的物体,则为该元素生成负的监督标签。
在操作S228,根据为样本图像生成的检测监督数据和物体方向分布预测向量确定该第三差异。
可通过任何损失函数或距离计算函数来计算第三差异。根据一种可行的实施方式,通过交叉熵函数,根据为样本图像生成的检测监督数据和提取的物体方向分布预测向量计算所述第三差异。交叉熵通常用来评估信息识别的难度,是一种简单、有效的消岐工具。可利用交叉熵的该特性来计算第三差异。
例如,假设从任一样本图像I提取到的物体方向分布预测向量D=[d1,d2,…,dn],根据该样本图像中人脸的方向标注数据获得物体方向分布真实值D′=[d′1,d′2,…,d′n]。可通过以下交叉熵函数计算第三差异L:
其中,Φ(x)为Sigmoid函数,
在计算得到第一差异、第二差异和第三差异后,执行步骤S230的训练处理。步骤S230的处理与步骤S130的处理类似。
在前述物体检测神经网络还输出物体的尺寸的实现方式中,在步骤S230,根据所述第一差异、第二差异、第三差异和第四差异调整所述物体检测神经网络的网络参数。
在训练物体检测神经网络的过程中,可分别对第一差异、第二差异、第三差异和第四差异进行加权处理,根据加权的第一差异、第二差异、第三差异和第四差异来调整所述物体检测神经网络的网络参数。
对卷积神经网络的训练是一个迭代过程,需要有一个训练终止条件,该条件可以如迭代训练次数,也可以如收敛条件。因此,可以判断对物体检测神经网络的训练是否满足预定的训练终止条件;若不满足,则根据第一差异、第二差异、第三差异(和第四差异)调整物体检测神经网络的网络参数,使用调整后的网络参数继续训练物体检测神经网络,直至满足预定的训练终止条件;若满足,则完成对物体检测神经网络的训练。
实施例二的用于物体检测的神经网络的训练方法通过多任务训练方式,训练得到能够检测图像中物体的位置、方向(、尺寸)和图像中物体的方向分布数据的物体检测神经网络。由于物体标注数据中包含样本图像中物体的方向的信息,因此在训练的过程中,为获得的物体的方向分布数据(物体方向分布预测向量)生成检测监督数据,使用弱监督学习方法,对图像中包含的物体的方向分布进行全局性的监督,不仅可获得多个物体检测的输出,而且增加了训练数据的信息量,有利于提高物体检测神经网络的检测精度。此外,使用通过多任务训练得到的物体检测神经网络进行物体检测,有利于通过其多个输出对图像进行相应的校正、识别等操作。
实施例三
图3是示出根据本发明实施例四的图像处理方法的流程图;
参照图3,在步骤S310,根据物体检测神经网络获取待处理的图像中拍摄的物体的位置和方向以及全图物体方向分布数据的预测信息。
在步骤S320,根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
例如,这里所述的控制操作可以是根据全图物体方向分布数据对图像进行相应的校正、识别等操作,可以是根据预测的物体的位置和方向执行对物体进行渲染的操作,也可以是根据全图物体方向分布数据执行相机位置调整的操作等等,但不限于此。这里所述的检测操作可以是例如,根据全图物体方向分布数据对图像进行相应的目标物体检测操作或光线检测操作等。
本实施例提供的图像处理方法可通过前述方式训练得到的物体检测神经网络从待处理的图像较准确地获取物体的位置、方向以及全图物体方向分布数据的多个预测数据,并且通过其多个预测数据进行相应的控制操作。
可选地,前述物体检测神经网络是通过前述任一种方式训练得到的卷积神经网络。
此外,可选地,所述全图物体方向分布数据包括物体方向分布预测向量。如前所述,所述物体方向分布预测向量的各个元素分别指示所述待处理的图像含有处于所述元素对应的方向的物体的预测概率。可根据预测概率的信息来确定待处理的图像中是否含有某个或某些方向的物体。例如,如果该物体方向分布预测向量的某个元素对应的预测概率超过预定的概率阈值,则可确定待处理的图像中含有与该元素对应的方向的物体。
实施例四
图4是示出根据本发明实施例四的用于物体检测的神经网络的训练装置的逻辑框图。
参照图4,实施例四的用于物体检测的神经网络的训练装置包括检测模块410、差异确定模块420和训练模块430。
检测模块410用于通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率。
差异确定模块420用于确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异。
训练模块430用于至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
本实施例的用于物体检测的神经网络的训练装置用于实现前述方法实施例中相应的用于物体检测的神经网络的训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例五
图5是示出根据本发明实施例五的用于物体检测的神经网络的训练装置的逻辑框图。
根据本发明实施例五,所述物体检测神经网络为含有全局池化层的卷积神经网络;相应地,检测模块410用于从所述物体检测神经网络的全局池化层中提取物体方向分布预测向量。
可选地,参照图5,差异确定模块420在根据所述方向标注数据和所述物体方向分布预测向量确定第三差异中,包括:
监督数据生成单元422,用于根据所述方向标注数据为所述样本图像的物体方向分布预测向量生成检测监督数据,其中,对于所述物体方向分布预测向量的各个元素,如果所述方向标注数据指示含有所述元素对应的方向的物体,则为该元素生成正的监督标签;如果所述方向标注数据指示不含有所述元素对应的方向的物体,则为所述元素生成负的监督标签;
差异计算单元425,用于根据所述检测监督数据和所述物体方向分布预测向量确定所述第三差异。
可选地,所述方向标注数据包括至少一个以下数据:物体相对于图像画面所在平面中标准方向的角度、物体在图像画面所处空间中的朝向、物体的特征点的平面坐标、物体的特征点的空间坐标。
可选地,所述样本图像还含有物体的尺寸标注数据。相应地,检测模块410还用于通过所述物体检测神经网络获取样本图像中物体的尺寸检测数据;差异确定模块420还用于确定所述尺寸标注数据和所述尺寸检测数据之间的第四差异;
训练模块430用于根据所述第一差异、第二差异、第三差异和第四差异调整所述物体检测神经网络的网络参数。
本实施例的用于物体检测的神经网络的训练装置用于实现前述方法实施例中相应的用于物体检测的神经网络的训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例六
图6是示出根据本发明实施例六的图像处理装置的逻辑框图。
参照图6,本发明实施例六的图像处理装置包括预测模块610和控制执行模块620。
预测模块610用于根据用于物体检测的神经网络获取待处理的图像中物体的位置和方向以及全图物体方向分布数据的预测信息。
控制执行模块620用于根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
可选地,前述用于物体检测的神经网络通过如前任一所述的训练方法训练获得。
可选地,所述全图物体方向分布数据包括物体方向分布预测向量,所述物体方向分布预测向量的各个元素分别指示所述待处理的图像含有处于所述元素对应的方向的物体的预测概率。
本实施例的图像处理装置用于实现前述方法实施例中相应的图像处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。
实施例七
根据本发明实施例十二提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现前述任一用于物体检测的神经网络的训练方法的步骤。
根据本发明实施例十二还提供一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现前述任一图像处理方法的步骤。
实施例八
图7是示出根据本发明实施例八的第一电子设备的结构示意图。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7,其示出了适于用来实现本发明实施例的终端设备或服务器的第一电子设备700的结构示意图。
如图7所示,第一电子设备700包括一个或多个第一处理器、第一通信元件等,所述一个或多个第一处理器例如:一个或多个第一中央处理单元(CPU)701,和/或一个或多个第一图像处理器(GPU)713等,第一处理器可以根据存储在第一只读存储器(ROM)702中的可执行指令或者从第一存储部分708加载到第一随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。第一通信元件包括第一通信组件712和第一通信接口709。其中,第一通信组件712可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,第一通信接口709包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,第一通信接口709经由诸如因特网的网络执行通信处理。
第一处理器可与第一只读存储器702和/或第一随机访问存储器730中通信以执行可执行指令,通过第一总线704与第一通信组件712相连、并经第一通信组件712与其他目标设备通信,从而完成本发明实施例提供的任一项方法对应的操作,例如,通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率;确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异;至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
此外,在第一RAM 703中,还可存储有装置操作所需的各种程序和数据。第一CPU701、第一ROM702以及第一RAM703通过第一总线704彼此相连。在有第一RAM703的情况下,第一ROM702为可选模块。第一RAM703存储可执行指令,或在运行时向第一ROM702中写入可执行指令,可执行指令使第一处理器701执行上述通信方法对应的操作。第一输入/输出(I/O)接口705也连接至第一总线704。第一通信组件712可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至第一I/O接口705:包括键盘、鼠标等的第一输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第一输出部分707;包括硬盘等的第一存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的第一通信接口709。第一驱动器710也根据需要连接至第一I/O接口705。第一可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在第一驱动器710上,以便于从其上读出的计算机程序根据需要被安装入第一存储部分708。
需要说明的是,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,第一通信组件712可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,用于通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量的可执行代码,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率;用于确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异的可执行代码;用于至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数的可执行代码。
本发明实施例八提供的电子设备,提供一种基于多任务训练的物体检测神经网络的训练方式,以使训练得到的物体检测神经网络提供图像中物体的位置、方向和图像中物体的方向分布数据。由于样本图像含有物体的位置标注数据和方向标注数据,因此在训练的过程中,获得的物体的方向分布数据(物体方向分布预测向量)受到方向标注数据的监督,可获得包括物体的方向、位置以及方向分布数据的多个物体检测的输出。此外,使用通过多任务训练得到的物体检测神经网络进行物体检测,有利于通过其多个输出对图像进行相应的校正、识别等操作。
实施例九
图8是示出根据本发明实施例九的第二电子设备的结构示意图。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8,其示出了适于用来实现本发明实施例的终端设备或服务器的第二电子设备800的结构示意图。
如图8所示,第二电子设备800包括一个或多个第二处理器、第二通信元件等,所述一个或多个第二处理器例如:一个或多个第二中央处理单元(CPU)801,和/或一个或多个第二图像处理器(GPU)813等,第二处理器可以根据存储在第二只读存储器(ROM)802中的可执行指令或者从第二存储部分808加载到第二随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。第二通信元件包括第二通信组件812和第二通信接口809。其中,第二通信组件812可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,第二通信接口809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口,第二通信接口809经由诸如因特网的网络执行通信处理。
第二处理器可与第二只读存储器802和/或第二随机访问存储器830中通信以执行可执行指令,通过第二总线804与第二通信组件812相连、并经第二通信组件812与其他目标设备通信,从而完成本发明实施例提供的任一项方法对应的操作,例如,根据物体检测神经网络获取待处理的图像中拍摄的物体的位置和方向以及全图物体方向分布数据的预测信息;根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
此外,在第二RAM 803中,还可存储有装置操作所需的各种程序和数据。第二CPU801、第二ROM802以及第二RAM803通过第二总线804彼此相连。在有第二RAM803的情况下,第二ROM802为可选模块。第二RAM803存储可执行指令,或在运行时向第二ROM802中写入可执行指令,可执行指令使第二处理器801执行上述通信方法对应的操作。第二输入/输出(I/O)接口805也连接至第二总线804。第二通信组件812可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至第二I/O接口805:包括键盘、鼠标等的第二输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第二输出部分807;包括硬盘等的第二存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的第二通信接口809。第二驱动器810也根据需要连接至第二I/O接口805。第二可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在第二驱动器810上,以便于从其上读出的计算机程序根据需要被安装入第二存储部分808。
需要说明的是,如图8所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,第二通信组件812可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明的保护范围。
特别地,根据本发明实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令,例如,用于根据物体检测神经网络获取待处理的图像中拍摄的物体的位置和方向以及全图物体方向分布数据的预测信息的可执行代码;用于根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作的可执行代码。在这样的实施例中,该计算机程序可以通过通信元件从网络上被下载和安装,和/或从第二可拆卸介质811被安装。在该计算机程序被第二中央处理单元(CPU)801执行时,执行本发明实施例的方法中限定的上述功能。
本发明实施例九提供的电子设备,可通过前述方式训练得到的物体检测神经网络从待处理的图像较准确地获取物体的位置、方向以及全图物体方向分布数据的多个预测数据,并且通过其多个预测数据进行相应的控制操作。
需要指出,根据实施的需要,可将本申请中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明实施例的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明实施例的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种用于物体检测的神经网络的训练方法,包括:
通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率;
确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异;
至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
2.根据权利要求1所述的方法,其中,
所述物体检测神经网络为含有全局池化层的卷积神经网络;
所述提取所述样本图像的物体方向分布预测向量,包括:
从所述物体检测神经网络的全局池化层中提取物体方向分布预测向量。
3.一种图像处理方法,包括:
根据用于物体检测的神经网络获取待处理的图像中物体的位置和方向以及全图物体方向分布数据的预测信息;
根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
4.一种用于物体检测的神经网络的训练装置,包括:
检测模块,用于通过待训练的物体检测神经网络提取样本图像中物体的位置检测数据和方向检测数据,以及提取所述样本图像的物体方向分布预测向量,所述样本图像含有物体的位置标注数据和方向标注数据,所述物体方向分布预测向量的各个元素分别指示所述样本图像含有处于所述元素对应的方向的物体的预测概率;
差异确定模块,用于确定所述位置标注数据和所述位置检测数据之间的第一差异和所述方向标注数据和所述方向检测数据之间的第二差异,并且根据所述方向标注数据和所述物体方向分布预测向量确定第三差异;
训练模块,用于至少根据所述第一差异、第二差异和第三差异调整所述物体检测神经网络的网络参数。
5.根据权利要求4所述的装置,其中,
所述物体检测神经网络为含有全局池化层的卷积神经网络;
所述检测模块用于从所述物体检测神经网络的全局池化层中提取物体方向分布预测向量。
6.一种图像处理装置,包括:
根据用于物体检测的神经网络获取待处理的图像中物体的位置和方向以及全图物体方向分布数据的预测信息;
控制执行模块,用于根据所述物体的位置和方向以及全图物体方向分布数据的预测信息当中的一个或多个执行检测或控制操作。
7.一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现权利要求1~2中任一项所述用于物体检测的神经网络的训练方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述程序指令被处理器执行时实现权利要求3所述图像处理方法的步骤。
9.一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1~2中任一项所述用于物体检测的神经网络的训练方法对应的操作。
10.一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求3所述图像处理方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710457590.4A CN108229494B (zh) | 2017-06-16 | 2017-06-16 | 网络训练方法、处理方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710457590.4A CN108229494B (zh) | 2017-06-16 | 2017-06-16 | 网络训练方法、处理方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229494A true CN108229494A (zh) | 2018-06-29 |
CN108229494B CN108229494B (zh) | 2020-10-16 |
Family
ID=62658143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710457590.4A Active CN108229494B (zh) | 2017-06-16 | 2017-06-16 | 网络训练方法、处理方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229494B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322002A (zh) * | 2019-04-30 | 2019-10-11 | 深圳市商汤科技有限公司 | 图像生成网络的训练及图像处理方法和装置、电子设备 |
CN110889464A (zh) * | 2019-12-10 | 2020-03-17 | 北京市商汤科技开发有限公司 | 神经网络训练、目标对象的检测方法及装置 |
CN111222522A (zh) * | 2018-11-23 | 2020-06-02 | 北京市商汤科技开发有限公司 | 神经网络训练、路面检测、智能驾驶控制方法和装置 |
CN113240656A (zh) * | 2021-05-24 | 2021-08-10 | 浙江商汤科技开发有限公司 | 视觉定位方法及相关装置、设备 |
US11410344B2 (en) | 2019-02-02 | 2022-08-09 | Shenzhen Sensetime Technology Co., Ltd. | Method for image generation, electronic device, and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825243A (zh) * | 2015-01-07 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 证件图像检测方法及设备 |
CN106096531A (zh) * | 2016-05-31 | 2016-11-09 | 安徽省云力信息技术有限公司 | 一种基于深度学习的交通图像多类型车辆检测方法 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106599830A (zh) * | 2016-12-09 | 2017-04-26 | 中国科学院自动化研究所 | 人脸关键点定位方法及装置 |
-
2017
- 2017-06-16 CN CN201710457590.4A patent/CN108229494B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825243A (zh) * | 2015-01-07 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 证件图像检测方法及设备 |
CN106096531A (zh) * | 2016-05-31 | 2016-11-09 | 安徽省云力信息技术有限公司 | 一种基于深度学习的交通图像多类型车辆检测方法 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106599830A (zh) * | 2016-12-09 | 2017-04-26 | 中国科学院自动化研究所 | 人脸关键点定位方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222522A (zh) * | 2018-11-23 | 2020-06-02 | 北京市商汤科技开发有限公司 | 神经网络训练、路面检测、智能驾驶控制方法和装置 |
CN111222522B (zh) * | 2018-11-23 | 2024-04-12 | 北京市商汤科技开发有限公司 | 神经网络训练、路面检测、智能驾驶控制方法和装置 |
US11410344B2 (en) | 2019-02-02 | 2022-08-09 | Shenzhen Sensetime Technology Co., Ltd. | Method for image generation, electronic device, and storage medium |
CN110322002A (zh) * | 2019-04-30 | 2019-10-11 | 深圳市商汤科技有限公司 | 图像生成网络的训练及图像处理方法和装置、电子设备 |
CN110322002B (zh) * | 2019-04-30 | 2022-01-04 | 深圳市商汤科技有限公司 | 图像生成网络的训练及图像处理方法和装置、电子设备 |
CN110889464A (zh) * | 2019-12-10 | 2020-03-17 | 北京市商汤科技开发有限公司 | 神经网络训练、目标对象的检测方法及装置 |
CN110889464B (zh) * | 2019-12-10 | 2021-09-14 | 北京市商汤科技开发有限公司 | 检测目标对象的神经网络训练、目标对象的检测方法及装置 |
CN113240656A (zh) * | 2021-05-24 | 2021-08-10 | 浙江商汤科技开发有限公司 | 视觉定位方法及相关装置、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108229494B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark | |
CN108229494A (zh) | 网络训练方法、处理方法、装置、存储介质和电子设备 | |
CN108549873B (zh) | 三维人脸识别方法和三维人脸识别系统 | |
CN109145781B (zh) | 用于处理图像的方法和装置 | |
US20190266434A1 (en) | Method and device for extracting information from pie chart | |
CN109447156B (zh) | 用于生成模型的方法和装置 | |
Wang et al. | Predicting camera viewpoint improves cross-dataset generalization for 3d human pose estimation | |
CN108122234A (zh) | 卷积神经网络训练及视频处理方法、装置和电子设备 | |
CN109712234B (zh) | 三维人体模型的生成方法、装置、设备和存储介质 | |
CN108229489A (zh) | 关键点预测、网络训练、图像处理方法、装置及电子设备 | |
CN110020592A (zh) | 物体检测模型训练方法、装置、计算机设备及存储介质 | |
CN109583449A (zh) | 字符识别方法及相关产品 | |
CN108229282A (zh) | 关键点检测方法、装置、存储介质及电子设备 | |
CN108229673A (zh) | 卷积神经网络的处理方法、装置和电子设备 | |
EP3742343A1 (en) | Autonomous vehicle simulation using machine learning | |
CN106874826A (zh) | 人脸关键点跟踪方法和装置 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN108280455A (zh) | 人体关键点检测方法和装置、电子设备、程序和介质 | |
Yang et al. | Deformable convolution and coordinate attention for fast cattle detection | |
CN108230292A (zh) | 物体检测方法和神经网络的训练方法、装置及电子设备 | |
CN108230390A (zh) | 训练方法、关键点检测方法、装置、存储介质和电子设备 | |
CN109598249A (zh) | 服饰检测方法和装置、电子设备、存储介质 | |
CN109345460B (zh) | 用于矫正图像的方法和装置 | |
US20220207266A1 (en) | Methods, devices, electronic apparatuses and storage media of image processing | |
Li et al. | A robust real‐time method for identifying hydraulic tunnel structural defects using deep learning and computer vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |