CN106682697A - 一种基于卷积神经网络的端到端物体检测方法 - Google Patents
一种基于卷积神经网络的端到端物体检测方法 Download PDFInfo
- Publication number
- CN106682697A CN106682697A CN201611241694.3A CN201611241694A CN106682697A CN 106682697 A CN106682697 A CN 106682697A CN 201611241694 A CN201611241694 A CN 201611241694A CN 106682697 A CN106682697 A CN 106682697A
- Authority
- CN
- China
- Prior art keywords
- target
- convolutional neural
- neural networks
- image
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于卷积神经网络的端到端目标检测方法,包括:(1)基于经典基础网络结构,去掉经典基础网络最后的全连接层,并添加额外层从而建立卷积神经网络模型;(2)从原始训练数据集中随机选取一张原始图像进行数据扩增得到扩增图像,并获得在原始图像中随机选取的目标图像块在扩增图像中的位置和边框;(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界,回归步骤(2)中的卷积神经网络模型得到模型参数,从而得到训练后的卷积神经网络模型;(4)利用训练后的卷积神经网络模型,检测待检测图像中的目标的边界框和类别。本方法采用直接回归目标中心点坐标、宽高和类别,与同类方法相比,在速度上有很大的优势。
Description
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于卷积神经网络的端到端物体检测方法。
背景技术
目标检测是计算机视觉里的一个基础任务,它可以被用到很多现实中常见的一个项目,例如行人检测、车辆检测、目标跟踪和图像检索里的预处理部分。做好目标检测对于一些更高层的任务有非常大的帮助。现有的目标检测算法,大都是一些复杂度较高的算法,很少能够达到实时,因此开发一套精度高,速度快的检测算法一直是计算机视觉的一项难题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于卷积神经网络的端到端物体检测方法,该方法检测精度高,速度快。
为实现上述目的,本发明提供了一种基于卷积神经网络的端到端目标检测方法,包括下述步骤:
(1)基于经典基础网络结构,去掉经典基础网络最后的全连接层,并添加额外层从而建立卷积神经网络模型,其中所述额外层为多层卷积层,或多层卷积层加LSTM;
(2)从原始训练数据集中随机选取一张原始图像进行数据扩增得到扩增图像,并获得在原始图像中随机选取的目标图像块在扩增图像中的位置和边框;
(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界,回归步骤(2)中的卷积神经网络模型得到模型参数,从而得到训练后的卷积神经网络模型;在回归过程中针对每一个目标图像块计算的预测参数包括:是否存在目标的概率pobj,存在目标情况下属于某一个类别的概率分布pcat,和目标的边界框信息(x,y,w,h),其中(x,y)分别为目标的中心点相对于网格的坐标,和目标相对于图片的宽与高(w,h),
(4)利用训练后的卷积神经网络模型,检测待检测图像中的目标的边界框和类别。
本发明的一个实施例中,所述步骤(4)具体包括:
对于待检测图片,利用卷积神经网络得到目标的相关参数;
统计每一类目标所有可能的框,用pobj*pcat表示一个对应于所有类别的概率;
得到所有类别的框后,对于每一个类别,先用一个设定的阈值过滤掉可能性很小的目标;
剩下的目标经过非极大值抑制得到最终保留下来的目标。
本发明的一个实施例中,所述步骤(2)具体包括:
(1.2.1)对原始图像的左上角与右下角进行预设抖动值的随机抖动,对抖动后超出原始图像大小的区域直接进行补零处理,从而得到扩增图片;
(1.2.2)在原始图像随机采样一个面积为原始图片的X倍,方向比率为Y的目标图片块,其中所述X和Y为预设值;所述目标图像块满足:目标图片块与目标有一定的交集,采样的iou大于集合{0.1,0.3,0.5,0.7,0.9}中的随机一个元素;
(1.2.3)确定目标图像块在扩增图片中的位置:对目标的左上点与右下点坐标进行一致变换计算出扩增后的目标的位置,类别维持不变,则一致变换公式为:
leftt=left*sx-dx rightt=right*sx-dx
topt=top*sy-dy bottomt=bottom*sy-dy
其中,(leftt,topt)与(rightt,bottomt)分别为变换后的目标的左上点与右下点,(left,top)与(right,bottom)分别为原始图像中目标的左上点与右下点。
本发明的一个实施例中,所述经典基础网络结构为AlexNet,或者VGGNet,或者GoogleNet,或者ResNet,或者Inception。
本发明的一个实施例中,在所述步骤(3)中先对扩增图片进行M*M的均匀划分得到多个网格,根据目标的中心点是否落在每一个网格的内部,来决定每一个网格是否去预测目标,所述M为预设值。
本发明的一个实施例中,所述额外层为三层3*3的卷积层和一个1*1的卷积层,则训练过程为:首先在网格内预测出多个框,并选择与目标交集最大的那个框进行监督训练。
本发明的一个实施例中,所述额外层为两层3*3的卷积层和两层LSTM,则训练过程为,利用下述代价函数对网络进行回归:
其中,表示在网格i的第j个框上是否有目标;表示在网格i的第j个框上预测目标的概率;表示在网格i的第j个框上有目标的条件下,预测为类别k的概率;xij,yij,wij,hij分别对应预测目标的中心点坐标和宽高;wnoobj,wcoord对应代价函数的各个成分的权衡比例;N为类别数,n为每个网格预测的目标的个数。
本发明的一个实施例中,所述原始训练数据集为:
对训练图像集中的所有图像采用人工标注的方法获取图像中目标的边界框和类别,从而得到原始训练数据集。
本发明的一个实施例中,所述预设抖动值取值为0.2,所述X取值范围为0.1~1,Y取值范围为0.5~2。
本发明的一个实施例中,所述M取值为14。
与现有技术相比,本发明具有如下有益效果:
(1)本方法采用端到端的直接训练检测网格,在pascal voc数据集上可以达到很好的检测效果;
(2)本方法采用直接回归目标中心点坐标、宽高和类别,与同类方法相比,在速度上有很大的优势,可以达到50帧/秒以上。
附图说明
图1是本发明基于卷积神经网络的端到端物体检测方法的流程图;
图2、图3是检测目标的方式示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
卷积神经网络(Concolutional Neural Network,CNN):一种可用于图像分类、回归等任务的神经网络。网络通常由卷积层、降采样层和全连接层构成。卷积层和降采样层负责提取图像的特征,全连接层负责分类或回归。网络的参数包括卷积核以及全连接层的参数及偏置,参数可以通过反向传导算法,从数据中学习得到;
长短期记忆(Long-Short Term Memory,LSTM):递归神经网络的一种。该网络包含三个门(gates)结构:输入门、输出门和遗忘门;它们分别起到调整输入、调整输出和清除记忆的作用;由于门机制的作用,该网络可以捕捉序列中的长期(long-term)相关关系,并且可以避免训练递归神经网络中常出现的梯度爆炸(gradient explosion)和梯度消失(gradient vanishing)的现象。
如图1所示,本发明实施例中,基于卷积神经网络的端到端物体检测方法包括以下步骤:
(1)基于经典基础网络结构,去掉经典基础网络最后的全连接层,并添加额外层从而建立卷积神经网络模型,其中所述额外层为多层卷积层,或多层卷积层加LSTM;
在网络结构的设计上,可以采用现在经典的基础网络结构,例如AlexNet,VGGNet,GoogleNet,ResNet和Inception系列。这些网络一般都在ImageNet上预训练过,现在我们要在这些网络结构上做检测的任务,就需要对网络进行调整。这些网络一般由卷积层,池化层和全连接层逐层连接而成,卷积层,池化层负责提取图像的特征,全连接层负责对特征进分类。首先去掉这些网络最后的全连接层,加上额外的一些层来对卷积层的特征进行处理,从而得到可用于回归检测参数的网络。例如,添加额外的层,我们有以下两种方法:添加三层3*3的卷积层和一个1*1的卷积层;或者添加两层3*3的卷积层和两层LSTM。
(2)从原始训练数据集中随机选取一张原始图像进行数据扩增得到扩增图像,并获得在原始图像中随机选取的目标图像块在扩增图像中的位置和边框;
(2.1)标记训练图像集中所有物体的边界框和类别,得到训练数据集;
首先要建立训练数据集,具体地对给定的图像,用人工标注的方法获取图像中目标的边界框和类别;对训练图像集中的所有图像都进行标注,就可以得到训练数据集;
(2.2)除了手工标记的训练图像集以外,为了使训练的神经网络具有更好的泛化能力,还对标注好的训练集进行数据扩增;具体地:
(2.2.1)对一张训练图像,对与图片的左上角与右下角进行预设抖动值(例如0.2)的随机抖动。假设一张图片的宽与高分别为w,h,即图片的大小为(0:w)*(0:h),进行0.2的抖动后,图片的左上点(x0,y0)与右下点(x1,y1)分别满足:
x0∈(-0.2w,+0.2w)y0∈(-0.2h,+0.2h)
x1∈(+0.8w,+1.2w)y1∈(+0.8h,+1.2h)
则抖动后的图片大小为(x0:x1)*(y0:y1),对于抖动后超出原图大小的区域直接进行补零处理,从而得到扩增图片。
(2.2.2)在原图随机截取一个面积为原始图片的X(例如0.1~1)倍,方向比率在0.5~2之间的图片块,并且图片块满足以下特点:图片块有与目标有一定的交集(iou),交集用最小的jaccard重叠来衡量;每次采样的iou大于集合{0.1,0.3,0.5,0.7,0.9}中的随机一个元素。
得到一个扩增后的图片之后,就要确定目标在图片中的位置。这里主要对目标的左上点与右下点坐标进行一致变换计算出扩增后的目标的位置,类别维持不变。假定原图中目标的左上点与右下点分别为(left,top)与(right,bottom),变换后的目标的左上点与右下点分别为(leftt,topt)与(rightt,bottomt)则一致变换公式为:
leftt=left*sx-dx rightt=right*sx-dx
topt=top*sy-dy bottomt=bottom*sy-dy
(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界,回归步骤(2)中的卷积神经网络模型得到模型参数,从而得到训练后的卷积神经网络模型;在回归过程中针对每一个目标图像块计算的预测参数包括:是否存在目标的概率pobj,存在目标情况下属于某一个类别的概率分布pcat,和目标的边界框信息(x,y,w,h),其中(x,y)分别为目标的中心点相对于网格的坐标,和目标相对于图片的宽与高(w,h);
对于网络训练的代价函数,主要包含三个部分。我们对目标进行回归,采取以下方式。首先,对扩增图片进行M*M(例如14*14)的均匀划分,根据目标的中心点是否落在每一个网格的内部,来决定每一个网络是否去预测目标。因此每一个网格对于一个目标都要预测这些参数:是否存在目标的概率pobj,存在目标情况下属于某一个类别的概率分布pcat(N维向量,N为类别数),和目标的边界框信息(x,y,w,h),分别对应目标的中心点相对于网格的坐标(x,y),和目标相对于扩增图片的宽与高(w,h),这些参数都进行了归一化,而且我们实际上预测的是目标的宽与高的平方根。
为了增加预测目标的召回率,我们采取一个网格预测多个目标的形式(假设为n个目标)。也就是一个网格预测多套以上的参数。但是训练的时候,针对于不同添加额外层的形式,训练方式也不同。
(3.1)如图2所示,对于只添加卷积层,我们训练的时候每个网格只用一个目标来进行训练。这就存在目标的匹配问题,一个网格预测的多个框匹配标注的一个框,我们采用iou进行选择训练。也就是预测的多个框,哪个与目标的交集越大,就用交集最大的这个目标对这个框进行监督训练。
例如图2中,输入为一张三通道的图片,经过深度卷积网络,输出为一个S*S*2(N+5)的特征图。每一个(N+5)对应一个目标的参数,加监督信息进行训练。
(3.2)如图3所示,对于添加LSTM层,我们让LSTM的输出最多预测三个框。这时候,落在当前网格的目标的个数应该不多于三个,这时候,我们根据标注目标越靠近网格的中心点来衡量那个目标应该优先预测,因为LSTM具有时序的信息,我们希望LSTM的不同时序之间的状态能够传递一种信息,表示之前预测过的目标,下一个时刻就不要预测了。因此我们按照目标的靠近中心点的程度来对目标进行排序从而监督训练LSTM的输出。
网络输出的是一个三维(14*14*n(N+5))特征图,每一个(14*14)位置上信息对应于一个网格上的目标的参数。训练的时候,对于pcat与(x,y,w,h)这些参数,我们只在存在目标的时候才进行监督训练。
例如图3中,输入为一个三通道的图片,经过深度卷积网络,输出为一个S*S*1024的特征图。每一个位置的1024维特征后面接LSTM产生预测目标,并且添加对于的监督信息进行训练。
综上,我们回归的是一个14*14*n(N+5)的特征图,网络的代价函数为:
其中,表示在网格i的第j个框上是否有目标;表示在网格i的第j个框上预测目标的概率;表示在网格i的第j个框上有目标的条件下,预测为类别k的概率;xij,yij,wij,hij分别对应预测目标的中心点坐标和宽高;wnoobj,wcoord对应代价函数的各个成分的权衡比例;N为类别数,n为每个网格预测的目标的个数。
(4)利用训练后的卷积神经网络模型,检测待检测图像中的目标的边界框和类别。
对于输入的一张待检测图片,利用卷积神经网络可以得到目标的相关参数。我们统计每一类目标所有可能的框,用pobj*pcat表示一个目标对应于所有类别的概率。得到所有类别的框后,对于每一个类别,先用一个较小的阈值(例如0.001)来过滤掉可能性很小的目标,剩下的目标经过非极大值抑制得到最终保留下来的目标。
本方法在pascal voc标准数据集上可以达到很好的效果。基于GoogleNet的检测,用voc 2007 trainval和2012 trainval训练,在voc 2007test上测试可达到0.74mAP,用voc 2007 all和2012trainval训练,在voc 2012test上测试可达到0.71mAP,速度可达到每秒50帧以上;基于Inception v3的检测,用voc 2007 trainval和2012 trainval训练,在voc 2007test上测试可达到0.76mAP,用voc 2007 all和2012trainval训练,在voc2012test上测试可达到0.74mAP。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于卷积神经网络的端到端目标检测方法,其特征在于,所述方法包括下述步骤:
(1)基于经典基础网络结构,去掉经典基础网络最后的全连接层,并添加额外层从而建立卷积神经网络模型,其中所述额外层为多层卷积层,或多层卷积层加LSTM;
(2)从原始训练数据集中随机选取一张原始图像进行数据扩增得到扩增图像,并获得在原始图像中随机选取的目标图像块在扩增图像中的位置和边框;
(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界,回归步骤(2)中的卷积神经网络模型得到模型参数,从而得到训练后的卷积神经网络模型;在回归过程中针对每一个目标图像块计算的预测参数包括:是否存在目标的概率pobj,存在目标情况下属于某一个类别的概率分布pcat,和目标的边界框信息(x,y,w,h),其中(x,y)分别为目标的中心点相对于网格的坐标,和目标相对于图片的宽与高(w,h);
(4)利用训练后的卷积神经网络模型,检测待检测图像中的目标的边界框和类别。
2.如权利要求1所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述步骤(4)具体包括:
对于待检测图片,利用卷积神经网络得到目标的相关参数;
统计每一类目标所有可能的框,用pobj*pcat表示一个对应于所有类别的概率;
得到所有类别的框后,对于每一个类别,先用一个设定的阈值过滤掉可能性很小的目标;
剩下的目标经过非极大值抑制得到最终保留下来的目标。
3.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述步骤(2)具体包括:
(1.2.1)对原始图像的左上角与右下角进行预设抖动值的随机抖动,对抖动后超出原始图像大小的区域直接进行补零处理,从而得到扩增图片;
(1.2.2)在原始图像随机采样一个面积为原始图片的X倍,方向比率为Y的目标图片块,其中所述X和Y为预设值;所述目标图像块满足:目标图片块与目标有一定的交集,采样的iou大于集合{0.1,0.3,0.5,0.7,0.9}中的随机一个元素;
(1.2.3)确定目标图像块在扩增图片中的位置:对目标的左上点与右下点坐标进行一致变换计算出扩增后的目标的位置,类别维持不变,则一致变换公式为:
leftt=left*sx-dx rightt=right*sx-dx
topt=top*sy-dy bottomt=bottom*sy-dy
其中,(leftt,topt)与(rightt,bottomt)分别为变换后的目标的左上点与右下点,(left,top)与(right,bottom)分别为原始图像中目标的左上点与右下点。
4.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述经典基础网络结构为AlexNet,或者VGGNet,或者GoogleNet,或者ResNet,或者Inception。
5.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法,其特征在于,在所述步骤(3)中先对扩增图片进行M*M的均匀划分得到多个网格,根据目标的中心点是否落在每一个网格的内部,来决定每一个网格是否去预测目标,所述M为预设值。
6.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述额外层为三层3*3的卷积层和一个1*1的卷积层,则训练过程为:首先在网格内预测出多个框,并选择与目标交集最大的那个框进行监督训练。
7.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述额外层为两层3*3的卷积层和两层LSTM,则训练过程为,利用下述代价函数对网络进行回归:
其中,表示在网格i的第j个框上是否有目标;表示在网格i的第j个框上预测目标的概率;表示在网格i的第j个框上有目标的条件下,预测为类别k的概率;xij,yij,wij,hij分别对应预测目标的中心点坐标和宽高;wnoobj,wcoord对应代价函数的各个成分的权衡比例;N为类别数,n为每个网格预测的目标的个数。
8.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述原始训练数据集为:
对训练图像集中的所有图像采用人工标注的方法获取图像中目标的边界框和类别,从而得到原始训练数据集。
9.如权利要求3所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述预设抖动值取值为0.2,所述X取值范围为0.1~1,Y取值范围为0.5~2。
10.如权利要求5所述的基于卷积神经网络的端到端目标检测方法,其特征在于,所述M取值为14。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611241694.3A CN106682697B (zh) | 2016-12-29 | 2016-12-29 | 一种基于卷积神经网络的端到端物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611241694.3A CN106682697B (zh) | 2016-12-29 | 2016-12-29 | 一种基于卷积神经网络的端到端物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106682697A true CN106682697A (zh) | 2017-05-17 |
CN106682697B CN106682697B (zh) | 2020-04-14 |
Family
ID=58872344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611241694.3A Active CN106682697B (zh) | 2016-12-29 | 2016-12-29 | 一种基于卷积神经网络的端到端物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682697B (zh) |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197260A (zh) * | 2017-06-12 | 2017-09-22 | 清华大学深圳研究生院 | 基于卷积神经网络的视频编码后置滤波方法 |
CN107423721A (zh) * | 2017-08-08 | 2017-12-01 | 珠海习悦信息技术有限公司 | 人机交互动作检测方法、装置、存储介质及处理器 |
CN107564580A (zh) * | 2017-09-11 | 2018-01-09 | 合肥工业大学 | 基于集成学习的胃镜图像辅助处理系统及方法 |
CN107657224A (zh) * | 2017-09-19 | 2018-02-02 | 武汉大学 | 一种基于部件的多层并行网络sar图像飞机目标检测方法 |
CN107730553A (zh) * | 2017-11-02 | 2018-02-23 | 哈尔滨工业大学 | 一种基于伪真值搜寻法的弱监督物体检测方法 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN107808122A (zh) * | 2017-09-30 | 2018-03-16 | 中国科学院长春光学精密机械与物理研究所 | 目标跟踪方法及装置 |
CN107833213A (zh) * | 2017-11-02 | 2018-03-23 | 哈尔滨工业大学 | 一种基于伪真值自适应法的弱监督物体检测方法 |
CN107944442A (zh) * | 2017-11-09 | 2018-04-20 | 北京智芯原动科技有限公司 | 基于改进卷积神经网络的对象检测装置及方法 |
CN108052946A (zh) * | 2017-12-11 | 2018-05-18 | 国网上海市电力公司 | 一种基于卷积神经网络的高压机柜开关自动识别方法 |
CN108121805A (zh) * | 2017-12-25 | 2018-06-05 | 合肥阿巴赛信息科技有限公司 | 基于深度学习实现快速珠宝图片检索的方法 |
CN108416378A (zh) * | 2018-02-28 | 2018-08-17 | 电子科技大学 | 一种基于深度神经网络的大场景sar目标识别方法 |
CN108509860A (zh) * | 2018-03-09 | 2018-09-07 | 西安电子科技大学 | 基于卷积神经网络的可可西里藏羚羊检测方法 |
CN108764292A (zh) * | 2018-04-27 | 2018-11-06 | 北京大学 | 基于弱监督信息的深度学习图像目标映射及定位方法 |
CN109003269A (zh) * | 2018-07-19 | 2018-12-14 | 哈尔滨工业大学 | 一种能提高医生效率的医学影像病灶的标注提取方法 |
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN109598781A (zh) * | 2017-10-03 | 2019-04-09 | 斯特拉德视觉公司 | 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置 |
CN109670525A (zh) * | 2018-11-02 | 2019-04-23 | 平安科技(深圳)有限公司 | 基于once shot detection的目标检测方法及系统 |
CN109726741A (zh) * | 2018-12-06 | 2019-05-07 | 江苏科技大学 | 一种多目标物体的检测方法及装置 |
CN109740657A (zh) * | 2018-12-27 | 2019-05-10 | 郑州云海信息技术有限公司 | 一种用于图像数据分类的神经网络模型的训练方法与设备 |
CN109934255A (zh) * | 2019-01-22 | 2019-06-25 | 小黄狗环保科技有限公司 | 一种适用于饮料瓶回收机投递物分类识别的模型融合方法 |
CN109961061A (zh) * | 2019-04-15 | 2019-07-02 | 艾物智联(北京)科技有限公司 | 一种边缘计算视频数据结构化方法及系统 |
CN110096940A (zh) * | 2018-01-29 | 2019-08-06 | 西安科技大学 | 一种基于lstm网络的步态识别系统及方法 |
CN110223279A (zh) * | 2019-05-31 | 2019-09-10 | 上海商汤智能科技有限公司 | 一种图像处理方法和装置、电子设备 |
CN110276358A (zh) * | 2018-03-13 | 2019-09-24 | 南京航空航天大学 | 密集堆叠下的高相似度木块横截面检测方法 |
CN110321886A (zh) * | 2018-03-30 | 2019-10-11 | 高德软件有限公司 | 一种文字区域识别方法及装置 |
CN110349147A (zh) * | 2019-07-11 | 2019-10-18 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
CN110399803A (zh) * | 2019-07-01 | 2019-11-01 | 北京邮电大学 | 一种车辆检测方法及装置 |
CN110443789A (zh) * | 2019-08-01 | 2019-11-12 | 四川大学华西医院 | 一种免疫固定电泳图自动识别模型的建立及使用方法 |
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
CN110781888A (zh) * | 2019-10-25 | 2020-02-11 | 北京字节跳动网络技术有限公司 | 回归视频画面中屏幕的方法、装置、可读介质及电子设备 |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN111160142A (zh) * | 2019-12-14 | 2020-05-15 | 上海交通大学 | 一种基于数值预测回归模型的证件票据定位检测方法 |
CN111208509A (zh) * | 2020-01-15 | 2020-05-29 | 中国人民解放军国防科技大学 | 一种超宽带雷达人体目标姿态可视化增强方法 |
CN111368594A (zh) * | 2018-12-26 | 2020-07-03 | 中国电信股份有限公司 | 用于检测关键点的方法和装置 |
CN111597845A (zh) * | 2019-02-20 | 2020-08-28 | 中科院微电子研究所昆山分所 | 一种二维码检测方法、装置、设备及可读存储介质 |
CN111886603A (zh) * | 2018-03-12 | 2020-11-03 | 伟摩有限责任公司 | 用于目标检测和表征的神经网络 |
CN113516673A (zh) * | 2020-04-10 | 2021-10-19 | 阿里巴巴集团控股有限公司 | 图像检测方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008109665A1 (en) * | 2007-03-08 | 2008-09-12 | Nec Laboratories America. Inc. | Fast semantic extraction using a neural network architecture |
CN104102919A (zh) * | 2014-07-14 | 2014-10-15 | 同济大学 | 一种有效防止卷积神经网络过拟合的图像分类方法 |
CN105608456A (zh) * | 2015-12-22 | 2016-05-25 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
CN106022237A (zh) * | 2016-05-13 | 2016-10-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
-
2016
- 2016-12-29 CN CN201611241694.3A patent/CN106682697B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008109665A1 (en) * | 2007-03-08 | 2008-09-12 | Nec Laboratories America. Inc. | Fast semantic extraction using a neural network architecture |
CN104102919A (zh) * | 2014-07-14 | 2014-10-15 | 同济大学 | 一种有效防止卷积神经网络过拟合的图像分类方法 |
CN105608456A (zh) * | 2015-12-22 | 2016-05-25 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
CN106022237A (zh) * | 2016-05-13 | 2016-10-12 | 电子科技大学 | 一种端到端的卷积神经网络的行人检测方法 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197260B (zh) * | 2017-06-12 | 2019-09-13 | 清华大学深圳研究生院 | 基于卷积神经网络的视频编码后置滤波方法 |
CN107197260A (zh) * | 2017-06-12 | 2017-09-22 | 清华大学深圳研究生院 | 基于卷积神经网络的视频编码后置滤波方法 |
CN107423721A (zh) * | 2017-08-08 | 2017-12-01 | 珠海习悦信息技术有限公司 | 人机交互动作检测方法、装置、存储介质及处理器 |
US11188794B2 (en) | 2017-08-10 | 2021-11-30 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN107564580A (zh) * | 2017-09-11 | 2018-01-09 | 合肥工业大学 | 基于集成学习的胃镜图像辅助处理系统及方法 |
CN107564580B (zh) * | 2017-09-11 | 2019-02-12 | 合肥工业大学 | 基于集成学习的胃镜图像辅助处理系统及方法 |
CN107657224B (zh) * | 2017-09-19 | 2019-10-11 | 武汉大学 | 一种基于部件的多层并行网络sar图像飞机目标检测方法 |
CN107657224A (zh) * | 2017-09-19 | 2018-02-02 | 武汉大学 | 一种基于部件的多层并行网络sar图像飞机目标检测方法 |
CN107808122A (zh) * | 2017-09-30 | 2018-03-16 | 中国科学院长春光学精密机械与物理研究所 | 目标跟踪方法及装置 |
CN109598781A (zh) * | 2017-10-03 | 2019-04-09 | 斯特拉德视觉公司 | 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置 |
CN109598781B (zh) * | 2017-10-03 | 2023-06-02 | 斯特拉德视觉公司 | 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置 |
CN107833213A (zh) * | 2017-11-02 | 2018-03-23 | 哈尔滨工业大学 | 一种基于伪真值自适应法的弱监督物体检测方法 |
CN107730553B (zh) * | 2017-11-02 | 2020-09-15 | 哈尔滨工业大学 | 一种基于伪真值搜寻法的弱监督物体检测方法 |
CN107833213B (zh) * | 2017-11-02 | 2020-09-22 | 哈尔滨工业大学 | 一种基于伪真值自适应法的弱监督物体检测方法 |
CN107730553A (zh) * | 2017-11-02 | 2018-02-23 | 哈尔滨工业大学 | 一种基于伪真值搜寻法的弱监督物体检测方法 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN107944442A (zh) * | 2017-11-09 | 2018-04-20 | 北京智芯原动科技有限公司 | 基于改进卷积神经网络的对象检测装置及方法 |
CN107944442B (zh) * | 2017-11-09 | 2019-08-13 | 北京智芯原动科技有限公司 | 基于改进卷积神经网络的对象检测装置及方法 |
CN108052946A (zh) * | 2017-12-11 | 2018-05-18 | 国网上海市电力公司 | 一种基于卷积神经网络的高压机柜开关自动识别方法 |
CN108121805B (zh) * | 2017-12-25 | 2021-09-14 | 广东三维家信息科技有限公司 | 基于深度学习实现快速珠宝图片检索的方法 |
CN108121805A (zh) * | 2017-12-25 | 2018-06-05 | 合肥阿巴赛信息科技有限公司 | 基于深度学习实现快速珠宝图片检索的方法 |
CN110096940A (zh) * | 2018-01-29 | 2019-08-06 | 西安科技大学 | 一种基于lstm网络的步态识别系统及方法 |
CN108416378A (zh) * | 2018-02-28 | 2018-08-17 | 电子科技大学 | 一种基于深度神经网络的大场景sar目标识别方法 |
CN108416378B (zh) * | 2018-02-28 | 2020-04-14 | 电子科技大学 | 一种基于深度神经网络的大场景sar目标识别方法 |
CN108509860A (zh) * | 2018-03-09 | 2018-09-07 | 西安电子科技大学 | 基于卷积神经网络的可可西里藏羚羊检测方法 |
CN111886603B (zh) * | 2018-03-12 | 2024-03-15 | 伟摩有限责任公司 | 用于目标检测和表征的神经网络 |
US11928866B2 (en) | 2018-03-12 | 2024-03-12 | Waymo Llc | Neural networks for object detection and characterization |
CN111886603A (zh) * | 2018-03-12 | 2020-11-03 | 伟摩有限责任公司 | 用于目标检测和表征的神经网络 |
CN110276358A (zh) * | 2018-03-13 | 2019-09-24 | 南京航空航天大学 | 密集堆叠下的高相似度木块横截面检测方法 |
CN110321886A (zh) * | 2018-03-30 | 2019-10-11 | 高德软件有限公司 | 一种文字区域识别方法及装置 |
CN108764292A (zh) * | 2018-04-27 | 2018-11-06 | 北京大学 | 基于弱监督信息的深度学习图像目标映射及定位方法 |
CN109003269A (zh) * | 2018-07-19 | 2018-12-14 | 哈尔滨工业大学 | 一种能提高医生效率的医学影像病灶的标注提取方法 |
CN109670525A (zh) * | 2018-11-02 | 2019-04-23 | 平安科技(深圳)有限公司 | 基于once shot detection的目标检测方法及系统 |
CN109726741B (zh) * | 2018-12-06 | 2023-05-30 | 江苏科技大学 | 一种多目标物体的检测方法及装置 |
CN109726741A (zh) * | 2018-12-06 | 2019-05-07 | 江苏科技大学 | 一种多目标物体的检测方法及装置 |
CN111368594B (zh) * | 2018-12-26 | 2023-07-18 | 中国电信股份有限公司 | 用于检测关键点的方法和装置 |
CN111368594A (zh) * | 2018-12-26 | 2020-07-03 | 中国电信股份有限公司 | 用于检测关键点的方法和装置 |
CN109740657B (zh) * | 2018-12-27 | 2021-10-29 | 郑州云海信息技术有限公司 | 一种用于图像数据分类的神经网络模型的训练方法与设备 |
CN109740657A (zh) * | 2018-12-27 | 2019-05-10 | 郑州云海信息技术有限公司 | 一种用于图像数据分类的神经网络模型的训练方法与设备 |
CN109934255A (zh) * | 2019-01-22 | 2019-06-25 | 小黄狗环保科技有限公司 | 一种适用于饮料瓶回收机投递物分类识别的模型融合方法 |
CN111597845A (zh) * | 2019-02-20 | 2020-08-28 | 中科院微电子研究所昆山分所 | 一种二维码检测方法、装置、设备及可读存储介质 |
CN109961061A (zh) * | 2019-04-15 | 2019-07-02 | 艾物智联(北京)科技有限公司 | 一种边缘计算视频数据结构化方法及系统 |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN110223279B (zh) * | 2019-05-31 | 2021-10-08 | 上海商汤智能科技有限公司 | 一种图像处理方法和装置、电子设备 |
CN110223279A (zh) * | 2019-05-31 | 2019-09-10 | 上海商汤智能科技有限公司 | 一种图像处理方法和装置、电子设备 |
CN110399803B (zh) * | 2019-07-01 | 2022-04-22 | 北京邮电大学 | 一种车辆检测方法及装置 |
CN110399803A (zh) * | 2019-07-01 | 2019-11-01 | 北京邮电大学 | 一种车辆检测方法及装置 |
CN110349147A (zh) * | 2019-07-11 | 2019-10-18 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
CN110349147B (zh) * | 2019-07-11 | 2024-02-02 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
CN110533067A (zh) * | 2019-07-22 | 2019-12-03 | 杭州电子科技大学 | 基于深度学习的边框回归的端到端弱监督目标检测方法 |
CN110443789A (zh) * | 2019-08-01 | 2019-11-12 | 四川大学华西医院 | 一种免疫固定电泳图自动识别模型的建立及使用方法 |
CN110443789B (zh) * | 2019-08-01 | 2021-11-26 | 四川大学华西医院 | 一种免疫固定电泳图自动识别模型的建立及使用方法 |
CN110781888A (zh) * | 2019-10-25 | 2020-02-11 | 北京字节跳动网络技术有限公司 | 回归视频画面中屏幕的方法、装置、可读介质及电子设备 |
CN111160142B (zh) * | 2019-12-14 | 2023-07-11 | 上海交通大学 | 一种基于数值预测回归模型的证件票据定位检测方法 |
CN111160142A (zh) * | 2019-12-14 | 2020-05-15 | 上海交通大学 | 一种基于数值预测回归模型的证件票据定位检测方法 |
CN111208509B (zh) * | 2020-01-15 | 2020-12-29 | 中国人民解放军国防科技大学 | 一种超宽带雷达人体目标姿态可视化增强方法 |
CN111208509A (zh) * | 2020-01-15 | 2020-05-29 | 中国人民解放军国防科技大学 | 一种超宽带雷达人体目标姿态可视化增强方法 |
CN113516673B (zh) * | 2020-04-10 | 2022-12-02 | 阿里巴巴集团控股有限公司 | 图像检测方法、装置、设备和存储介质 |
CN113516673A (zh) * | 2020-04-10 | 2021-10-19 | 阿里巴巴集团控股有限公司 | 图像检测方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106682697B (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682697A (zh) | 一种基于卷积神经网络的端到端物体检测方法 | |
CN104217214B (zh) | 基于可配置卷积神经网络的rgb‑d人物行为识别方法 | |
CN109670528B (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN107967451A (zh) | 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法 | |
CN104281853B (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN104537647B (zh) | 一种目标检测方法及装置 | |
CN108038846A (zh) | 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统 | |
CN108830188A (zh) | 基于深度学习的车辆检测方法 | |
CN110147743A (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN107316058A (zh) | 通过提高目标分类和定位准确度改善目标检测性能的方法 | |
CN111242208A (zh) | 一种点云分类方法、分割方法及相关设备 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN107506740A (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN106570453A (zh) | 用于行人检测的方法、装置和系统 | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN107016357A (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN104361351B (zh) | 一种基于区域统计相似度的合成孔径雷达图像分类方法 | |
CN110084165A (zh) | 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法 | |
CN106156765A (zh) | 基于计算机视觉的安全检测方法 | |
CN104268140B (zh) | 基于权重自学习超图和多元信息融合的图像检索方法 | |
CN107808376A (zh) | 一种基于深度学习的举手检测方法 | |
CN108614997A (zh) | 一种基于改进AlexNet的遥感图像识别方法 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN111539422B (zh) | 基于Faster RCNN的飞行目标协同识别方法 | |
CN107330907B (zh) | 一种结合深度学习形状先验的mrf图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210129 Address after: 430074, No. 88, postal academy road, Hongshan District, Hubei, Wuhan Patentee after: WUHAN FIBERHOME DIGITAL TECHNOLOGY Co.,Ltd. Address before: 430074 Huazhong University of Science and Technology, 1037 Luo Yu Road, Wuhan, Hubei Patentee before: HUAZHONG University OF SCIENCE AND TECHNOLOGY |
|
TR01 | Transfer of patent right |