CN108475331A - 使用来自卷积神经网络模型的多个层的特征图谱的针对包括感兴趣的对象的图像区域的候选区域 - Google Patents

使用来自卷积神经网络模型的多个层的特征图谱的针对包括感兴趣的对象的图像区域的候选区域 Download PDF

Info

Publication number
CN108475331A
CN108475331A CN201680079183.8A CN201680079183A CN108475331A CN 108475331 A CN108475331 A CN 108475331A CN 201680079183 A CN201680079183 A CN 201680079183A CN 108475331 A CN108475331 A CN 108475331A
Authority
CN
China
Prior art keywords
characteristic spectrum
candidate region
characteristic
image
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680079183.8A
Other languages
English (en)
Other versions
CN108475331B (zh
Inventor
姚安邦
孔涛
陈玉荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108475331A publication Critical patent/CN108475331A/zh
Application granted granted Critical
Publication of CN108475331B publication Critical patent/CN108475331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

针对包括感兴趣对象的图像区域描述了候选区域。使用来自卷积神经网络模型的多个层的特征图谱。在一个示例中,接收并缓冲数字图像。对图像执行卷积层以生成特征图谱。将特征图谱重新整形为单一大小。通过顺序串接来将经重新成形的特征图谱分组以形成组合特征图谱。通过对图像的边界框区域进行评分来使用组合特征图谱生成候选区域。使用特征图谱来检测候选区域中的对象并对其进行分类。

Description

使用来自卷积神经网络模型的多个层的特征图谱的针对包括 感兴趣的对象的图像区域的候选区域
技术领域
本说明书涉及针对机器视觉或图像理解的对象检测领域,并且具体地涉及使用来自卷积神经网络模型的多个卷积层的特征图谱来提议(propose)可能包括感兴趣的对象的图像区域。
背景技术
许多计算机、个人设备、可穿戴设备、和其他计算系统包括图像或视频捕获,或者被配备用于处理图像或视频。随着便携式、加固型、安装式、和台式设备中数字摄像头的普及,相关的期望是以新的方式来使用这些摄像头。其中一些方法通过检测摄像头视野内的对象来发挥作用。一旦识别出对象,就可以根据对象的类别和系统的目的来执行许多不同的操作。
通用对象检测技术自动识别和定位出现在图像或视频帧中的对象的实例。在许多情况下,该技术仅检测属于其他工具感兴趣的特定类别或种类的对象。作为示例,系统可以识别和定位人而非树。同一系统也可以识别和定位特定动物。然后,对象识别系统可以基于动物的类型对每只动物进行分类。对象检测可以被认为是具有广泛范围的不同应用的计算机视觉中的根本任务。这些应用包括场景理解、图像搜索、增强现实、监视、自动驾驶等。这些应用正变得越来越流行和多样化,特别是在移动设备和具有嵌入式摄像头的其他设备上。高精度和高速对象检测在个人、家庭、商业、专业、和工业领域中非常重要。
附图说明
在附图中,通过示例而非限制的方式示出了实施例,在附图中,相同的参考标号表示相似的元件。
图1是根据实施例的示例系统的框图,该系统包括用于特征提取的网络、用于候选区域(region proposal)生成的网络、以及用于对象检测和分类的网络。
图2是根据实施例的图1的网络的端到端联合训练的过程流程图。
图3是根据实施例的具有50个候选的对象检测和分类的比较结果的图表。
图4是根据实施例的具有100个候选的对象检测和分类的比较结果的图表。
图5是根据实施例的具有200个候选的对象检测和分类的比较结果的图表。
图6是根据实施例形成的具有十个候选区域的图像的图示。
图7是根据实施例的对其中的十个候选区域进行对象检测的图6的图像的图示。
图8是根据实施例的区域生成和对象检测的过程流程图。
图9是根据实施例的包括候选区域和对象检测和分类的计算设备的框图。
具体实施方式
使用新颖的超级网络(HyperNet)技术描述了高精度和高速通用对象检测。该对象检测可以适用于深度学习应用。描述了一种鲁棒的超级特征(Hyper Feature),其将经预训练的卷积神经网络模型的低级、中级、和高级卷积特征图谱组合在整个图像上。首先,超级特征是使用精心设计的网络来提取的。因此,该技术提供了令人印象深刻的良好特征辨别力。将该超级特征用作输入,描述了两种新颖的超级网络架构,一种用于区域建议生成,另一种用于对象检测。最后,候选区域生成和对象检测被集成到统一的超级网络框架中。可以使用新颖的端到端联合训练方法来构建统一的超级网络框架,该方法共享用于生成候选区域和检测对象实例两者的超级特征。这种集成受益于一种新颖的端到端联合训练方法,提出该方法以在两个任务之间共享超级特征。
有两种主要类型的离线训练对象分类器:基于滑动窗口的分类器;以及基于候选区域的分类器。在滑动窗口策略中,对象分类器在整个图像上的等间隔位置处以各种比例被单独评估。位置和比例定义每个窗口。在测试图像中可能要评估数百万个滑动窗口,从而带来沉重的计算负担。一种基于候选区域的技术是具有卷积神经网络的区域(R-CNN),其提供更好的准确性和更少的计算负担。
R-CNN使用被称为选择性搜索(SS)的候选区域方法来首先通过分层分割和分组来生成数千个潜在图像区域。通过对相应CNN特征进行分类,仅在所提议的图像区域中执行对象检测。通过将对象检测限制到所提议的区域而非在所有可能的区域中执行对象检测来减少计算负荷。另一种候选区域方法是边缘框(EB),其主要使用检测到的边缘来提议图像区域。然而,即使使用SS和EB,仍可能有数千个提议的图像区域。减少提议的图像区域的数目可能导致对象丢失。另外,每个提议的图像区域被调整大小到某固定大小,从而运行相关的CNN特征和对象分类器。另外,生成候选区域被与对象检测分开,并且每个CNN特征被按顺序分类。
通过使用所描述的技术、特征、架构、和框架来获得具有更高均值平均精度(mAP)的更高对象召回率。这可以通过使用少得多的候选区域来完成,例如使用其他技术所使用的候选区域的1/6或甚至1/40。可以通过使用更多的候选区域来进一步提高准确性。随着这种在精度和速度方面的显著改进,可以在接收到视频帧时实时地在小型设备上执行对象检测。这允许许多新的应用。
图1是超级网络系统的示例的概述框图。存在三个主要模块:用于超级特征提取的新型网络102和104;用于候选区域生成的超级网络架构106;以及用于对象检测的超级网络架构108。在下面更详细地描述这些。在图2的情境中描述了用于将这三个模块集成到统一的超级网络框架中的端到端联合训练策略的示例。
1.用于超级特征提取的网络
用于超级特征提取的网络102提供用于表示图像区域的鲁棒的特征。然后,这些特征被用于候选区域生成和对象检测。在候选区域生成中,好的特征清楚地将所有感兴趣的对象从背景中区分出来。在对象检测中,好的特征清楚地将不同的对象类别彼此区分开。所描述的超级特征具有这些属性并且在计算上也是高效的。使用超级特征的部分动机在于这样的事实:深度CNN(卷积神经网络)特征比手动选取(hand-crafted)的特征更具代表性。此外,CNN模型的卷积层的特征图谱具有分层的语义含义(例如,边缘、局部部分、和全局形状),但特征图谱的大小(即,宽度、高度、和深度)不同。超级特征是这样的特征:其可以将经预训练的CNN模型的语义特定的卷积特征图谱集成到统一的空间中以表示整个图像。
图1的网络102使用至少四个部分来提取特征。首先将输入图像112的大小调整为某标准比例。在此示例中,图像被缩小为1000×600像素。然而,替代地,可以根据摄像头、系统、和对象检测的预期用途来将图像放大或缩小到任何其他合适的大小和宽高比。然后将经调整大小的图像提供给网络,其中第一操作被直接初始化为经预训练的CNN模型的前N个卷积层。如图所示,只有一些层是必要的。在该示例中,使用第一、第三、和第五卷积层120。如图所示,这些层具有精细、中等、和粗糙的分辨率。这对应于低级、中级、和高级语义含义。在特征图谱中,精细分辨率(来自浅层)对应于低级语义含义,而粗糙分辨率(来自深层)具有更高级别的语义含义。在框110处丢弃所有未使用的或不需要的层122。
在该示例中,卷积N的深度已被设定为N=5。第一部分的输出是来自第1、第3、和第5卷积层的特征图谱,不是仅来自第5卷积层的特征图谱,也不是来自所有5个卷积层的特征图谱。换句话说,在第一部分102中,以并行方式(即,同时)捕获低级、中级、和高级卷积特征图谱120。
在该示例中,来自第1、第3、和第5卷积层的特征图谱的大小具有不同的维数或不同的像素数。它们具有高、中、低像素比例。在此示例中,第一、低级卷积图谱具有高像素密度或1000×600×64的比例。这与1000×600的输入图像相同,并且还有针对来自卷积的z坐标的附加的64个通道。中级卷积图谱具有250×150×256的较低的分辨率。这表示缩小的图像和增加的通道数。高级卷积具有更低的分辨率并且具有更多的通道(62×37×512)。
在第二部分中,特征图谱被串接(concatenate)104。在此之前,使特征图谱的大小一致。在此示例中,使低级图谱和高级图谱在宽度(x)和高度(y)方面(但不包括深度(z)方面)与中级图谱的大小一致,然而,替代地,取决于实现方式可以使特征图谱与低级图谱或高级图谱或某其他大小一致。有各种不同的技术来使特征图谱的大小一致。如该示例所示,池化(pooling)126用于池化最大值像素并从而降低分辨率。例如,这可以是2×2的最大池化。向高级特征图谱应用解卷积128。在这种情况下,在来自第五层的特征图谱上运行4×解卷积。这将分辨率提高到中级或第三层特征图谱的分辨率。可以以各种不同方式中的任何一种来对特征图谱进行放大或缩小。在这些层被串接130之后,该方法实现了更高的效率和辨别力。
在使特征图谱的大小一致之后,针对第1、第3、和第5卷积相对大小分别为250×150×64、250×150×256、和250×150×512。第三部分还使用5×5×42的卷积核130对它们执行压缩。这使得特征图谱的深度(z)一致到相同大小。虽然已经选择了42,但是取决于实现方式可以使用任何其他深度。用于超级特征提取的网络的这些操作产生三个3D特征图谱,每个特征图谱具有相同的大小250×150×42。最后的部分是顺序串接。然后将进一步压缩的卷积特征图谱串接132以产生超级特征图谱140。利用所描述的网络,有效地在输入图像上计算相应的超级特征(具有250×150×125的标准大小)。这种类型的超级特征可以用作候选区域生成和对象检测中的图像表示。可以针对用于候选区域生成、用于对象检测、或用于两者的不同应用或实现方式来改变在该示例超级网络框架中使用的任何参数。
2.用于候选区域生成的超级网络架构
一旦在每个输入图像上提取了超级特征并获得了超级特征图谱140,则在第一超级网络106处生成候选区域。这是用于候选区域生成的超级网络。此超级网络使用基于超级特征的CNN。与可能使用2000个或更多个候选以保证高召回率的一些候选区域方法不同,由于本文所描述的超级特征提取的令人印象深刻的辨别力,候选区域超级网络106可以仅使用数十个候选(例如,50个)来获得提高的召回率。
超级网络106的一个示例的架构如图1所示。利用从输入图像中提取的超级特征,候选区域超级网络的第一层是13×13的感兴趣的区域(RoI)池化158。在每个源图像中,可以在固定位置处生成多个RoI(例如,20,000个RoI),然后可以将它们的位置投影到超级特征140上。下面更详细地描述RoI池化的细节。
RoI可以具有不同的大小和宽高比,并且可以被投影回具有特定位置的源图像。13×13的RoI池化层在具有自适应单元大小的每个RoI上运行最大池化,并产生13×13×126的特征图谱。RoI池化158直接在超级特征上运行。对于整个图像,它可以仅计算一次,这是非常高效的。后续层是3×3×4的卷积142。这用于提供没有随机丢失的256通道全连接(FC)层144。从FC层输出的特征向量的维数是256,然后将其馈送到两个兄弟层。第一层146用于对象评分,而另一层148用于边界框回归(BBR)。
可以以各种不同方式来确定对象评分146,对象评分146指示该区域包含对象的可能性。一种这样的方法是softmax(柔性最大值)函数。BBR允许对每个可能对象的边界框进行细化。将这两个元素组合150以产生候选区域。从而,获得针对每个RoI的实值评分。评分是RoI包括对象实例的概率以及相应的位置偏移的度量。每个RoI与源图像中的特定候选区域相对应。这使用了图2的端到端联合训练方法。
3.用于对象检测的超级网络架构
用于对象检测的第二超级网络108的架构被耦合到RoI池化158的输出152和候选区域生成106的输出。这些输出被组合156以用于输入到第二超级网络108。所示的架构是类似于候选区域生成超级网络106的架构。利用在104处从输入图像提取的超级特征,对象检测超级网络首先在每个候选区域上运行13×13的ROI池化158(例如,如果M是候选的数目,则M=50,或任何其他期望的数字)。在池化之后,后续的层是3×3×63的卷积162。接着是连续的三个全连接层(FC)。第一个是有随机丢失的4096通道FC 164。接下来是有随机丢失的第二4096通道FC 166,然后是没有随机丢失的21通道FC 168。
虽然这里通过示例的方式提及一个21通道FC和两个4096通道FC,但是其他数字可以用于不同的实现方式和应用。这里的21通道指的是20个不同的对象类别。一个附加的类别是针对背景定义的。背景对应于感兴趣的非对象类别。可选地,如果有100个对象类别,则将存在没有随机丢失的101通道FC。数字4094是全连接层的输出的维数。由于检测比候选区域生成更困难,因此设置了大的数字4096。这比为候选区域生成提出的256大得多。替代地,可以使用其他数字1024、2048等,这在一些实施例中可能特别有用。
最后,对象检测超级网络108针对每个RoI输出两个向量。该RoI对应于源图像中的特定候选区域。第一矢量是分类170,第二矢量是BBR172。这两个矢量被组合174以提供针对原始图像的对象检测和分类。分类将检测到的对象标识为特定种类的成员。可以有任意数目的不同种类,包括针对背景对象的背景类。有各种不同的分类方法。在一个示例中,从softmax函数获得分类概率,然后选择最可能的分类。BBR确定针对对象的适当边界框。对于不同的对象分类,可能存在不同的位置偏移。
最终图像114具有针对三个检测对象中的每一个的边界框。围绕第一检测对象提议第一边界框172,在这种情况下,该第一检测对象是马。根据系统的性质和其预期用途,该对象可以被分类为马、四足动物、动物、或一些其它合适的类。根据适合马或其他种类(如果对象在另一种类中)的情况来确定围绕该对象的边界框的大小和位置偏移。第二边界框174是围绕第二检测对象的,在这种情况下该第二检测对象是骑马者(即,人)。第三边界框176是围绕第三对象的,在这种情况下该第三对象是站立的人。在该示例中,有两个人并排站在一起。系统可以将其识别为两个人,但是在这种情况下仅识别出一个人,因为这两个人从摄像头的角度来看是重叠的。每个边界框都与种类(例如,马、骑手、或人)和分类正确的概率相关联。
4.用于构建统一超级网络框架的端到端联合训练
如上所述,候选区域生成和对象检测被统一为单个超级网络框架。这部分地使用新颖的端到端联合训练方法来完成。图2是联合训练的示例的过程流程图。
图2的过程开始于202,其中使用诸如ImageNet之类的大规模对象分类数据集来预训练深度CNN模型(例如,VGGNet模型(由牛津大学的视觉几何组提出))。预训练模型部分用于初始化超级特征提取网络104的第一部分。取决于特定实现方式可以使用任何其他类型的训练。
在实施例中,通过使用具有动量的小批量梯度下降优化多项逻辑回归目标来执行预训练。设置批量大小和动量,并针对前两个全连接层来正规化训练。预训练用于在接下来的两个操作204、206中初始化基本层。
在204处,训练整个候选区域生成超级网络106。这还可以包括用于候选区域的超级特征提取网络。
在206处,训练整个对象检测超级网络108。来自框204的候选区域可以用于ROI池化以训练对象检测超级网络,其包括用于对象检测的超级特征提取网络。
在208处,对候选区域超级网络训练进行精调。在204处训练的超级特征提取网络被在206处训练的超级特征提取网络替换。然后对整个候选区域超级网络的剩余层进行精调。
在210处,对对象检测超级网络进行精调。使用在ROI池化中获得的候选区域,而不改变超级特征提取网络。在一些实施例中,除对对象检测超级网络的剩余层进行精调外,该操作与208处的操作相同。
在212处,统一的超级网络被输出作为最终模型。在208、210处训练的经组合精调的超级网络106、108能够联合处理候选区域生成和对象检测。
由于图2的训练步骤,超级特征在两个任务之间共享,并且每个图像中生成的候选区域被用于超级网络的ROI池化以进行对象检测。因此,统一的超级网络可以在一次运行中自然地处理候选区域生成和对象检测。
在一些实现方式中,用于训练和测试候选区域超级网络的数据被如下收集:(1)针对候选区域评分,具有>0.45的与真实值(ground truth)的交并比(Intersection overUnion,IoU)的样本被选择为正,并且负样本具有<0.3的IoU;(2)对于BBR,正样品具有>0.4的IoU,负样本也具有<0.3的IoU;(3)正样本与负样本的比例为1:3;(4)候选区域样本是使用滑动窗口来生成的,我们使用6种大小:(W,H)∈{10,20,40,80,160,320},其中具有3个宽高比r∈{1/2,1,2}。总之,在每个输入图像中生成大约20K的候选区域。用于训练和测试对象检测超级网络的数据被直接收集作为从候选区域超级网络训练模型获得的前200个候选(具有下降的对象评分)。
多任务丢失函数L可用于训练两个超级网络的最后两个兄弟层(一个用于对象评分或分类,另一个用于BBR)。在数学上,L可以被定义为:
L(p,c,t,t')=Lclf(p,c)+αcLbbr(t,t') 等式1
在等式1中,在候选区域生成中,p是候选区域被分类为对象的概率。在对象检测中,p是在K(例如,K=20)个对象类加上1个背景类上的概率分布。softmax函数可用于预测p。c是真实值类标签,其中c∈{0,1,...,K}。当c=0时,候选区域被分类为背景。t={tx,ty,tw,th}是从BBR获得的经细化的候选区域位置,并且t'是相应的真实值位置。α是使两个损失函数Lclf和Lbbr正规化的正值。
Lclf可以被理解为交叉熵/对数损失,其与真实类标签的概率的负对数相关。可以在针对真实类标签的真实边界框回归目标的元组上定义Lbbr。可以基于R-CNN或其他方法使用各种不同的损失函数。
如本文所述,实施例使用超级特征,该超级特征将来自经预训练的CNN模型的多个卷积层的特征图谱相组合以表示图像或区域内容。在实施例中,通过如下操作来构建超级特征:首先将来自经预训练的CNN模型的不同卷积层的3D特征图谱重新整形为相同大小(在宽度和高度方面),然后(在通道方面)用卷积来压缩它们,以及最终通过顺序串接来将它们分组。
在一些实施例中,使用基于深度学习的候选区域解决方案,并且通过使用来自经预训练的CNN模型的多个卷积层而非仅单个卷积层的特征图谱来生成候选区域。
在一些实施例中,使用基于深度学习的对象检测解决方案,并且通过来自经预训练的CNN模型的多个卷积层而非仅单个卷积层的特征图谱来评估对象分类器。
在一些实施例中,使用统一的超级网络框架来处理候选区域生成和对象检测,并且整个超级网络架构是用端到端联合训练方法构建的,该方法在两个任务之间共享所描述的超级特征。
本文所描述的实施例提供了一种超级网络技术,其可以联合地处理候选区域生成和对象检测,并提供领先的准确性和较快的速度。该方法可用于帮助提供针对基于对象分类和检测的可视分析应用的软件栈。这样的应用可以包括图像搜索、场景理解、增强现实、监视、自动驾驶车辆、照顾老人和儿童等。这种方法也可用于提供与拍照手机平台互补的SW/HW栈并提供摄像头成像模块中的高级特征。该方法还为其他大众市场产品(例如,嵌入有摄像头且可穿戴的设备,例如,智能手机、平板电脑、膝上型电脑、平板手机、谷歌笔记本(chromebook)、PC、可穿戴设备、智能电视、游戏控制台、和web服务器)提供应用。
5.效用
图3、4、和5各自表示示出本技术与现有领先技术相比的结果的图表。每个图表在垂直轴上提供召回率,在水平轴上提供IoU(交并比)。图3示出了针对50个对象检测候选的比较结果。图4示出了针对100个候选的比较结果,并且图5示出了针对200个候选的比较结果。这些图表示出了与边缘框(EB)方法和选择性搜索(SS)方法相比,基准PASCAL VOC 200720个类别的对象检测挑战(基于来自模式分析、统计建模、和计算学习的20个类别视觉对象类数据集,欧洲卓越联合网络)的结果。
因此,图3示出了具有50个候选的超级网络结果302,其在0.5的IoU下具有超过0.9的召回率,该结果302在整个范围内依旧高于其他技术。另外两个结果是EB结果304和SS结果306。这些结果产生相似的结果,并且在召回率等级上比超级网络方法低得多。图4示出了100个候选的结果。在这种情况下,超级网络曲线312示出了更好的结果。最高水平在0.50到0.55的IoU下保持平稳且高于0.9。EB 314和SS 316结果较好,但仍然不接近超级网络结果,最大值低于0.7且下滑速度更快。图5示出了200个提议的结果。这里超级网络曲线322更高。虽然EB曲线324和SS曲线326更好了,但它们仍远远落后于超级网络结果。
官方评估工具是遵循标准度量来使用的。在对象检测中,准确度被测量为20个不同对象类别的均值平均精度(mAP)。在如图3-5所示的候选区域生成中,准确度被测量为在不同交并比(IoU)阈值下的召回率。在实验中,VGGNet被用作用于所有方法的经预训练的CNN模型。
该表总结了比较结果。可以看出,当仅使用50个候选区域时,所描述的超级网络方法产生95%的召回率和75.6%的mAP。通过使用少得多的候选区域(是SS和EB测试中使用的候选区域的1/6和1/40),增加了2.3%的mAP。当使用更多候选区域时,可以进一步提高此性能,如100个和200个候选区域结果所示。与当前最佳性能的候选区域方法(选择性搜索和边缘框)相比,超级网络技术在不同的IoU阈值下呈现出大大提高的召回率,如图3、4和5所示。此外,所描述的超级网络方法比R-CNN快约100倍。这允许它被用于实时地分析图像。
图6和7示出了示例结果,以说明所描述的方法的功效。图6示出了图像的前十个候选区域,该图像包括经过海堤的一艘大船和一艘小船以及一个在海堤前摆姿势的人。用叠加在图像中的对象上的矩形框来表示候选区域。图7示出了向候选区域应用对象检测后的同一场景。大多数框已被排除,并且剩下的框包括用于示出对应框的对象分类的标识标签。
所描述的超级网络方法的领先的性能可归因于许多因素。这些因素中的一些包括首先呈现用精心设计的网络提取的鲁棒的超级特征。这些种类的超级特征将整个图像的经预训练的CNN模型的低级、中级、和高级卷积特征图谱相组合,因此它具有令人印象深刻的良好分辨力。另一个因素是用于生成候选区域的超级网络架构。可以在只有几十个候选区域(例如,50个)的情况下实现高召回率。另一个超级网络架构处理对象检测。另一个因素是统一的超级网络框架是使用端到端联合训练方法构建的,该方法共享用于候选区域生成和对象检测两者的超级特征。
图8是使用图1的架构的区域生成和对象检测的过程流程图。该过程在402处开始,接收数字图像。它可以是视频或其他类型的序列中的单个图像或一系列图像。在404处,对图像进行缓冲。在不同的实现方式中,图像也可以被放大或缩小。在406处,对图像执行多个不同的卷积层以生成特征图谱。
在所描述的示例中,存在三个不同的卷积层,每个卷积层处于不同的级别,例如第一、第三、和第五级,但是可以使用其他层和更多的层。这三个不同的层生成三个具有不同维度的不同特征图谱。卷积层可以基于经预训练的CNN模型,该CNN模型基于经预分类的图像。预训练可以使用将区域生成和对象检测相组合的端到端联合训练方法。图2示出了此类端到端训练的示例。
可以通过以下操作来训练卷积神经网络:使用经预分类的图像来进行针对候选区域的第一训练,然后使用候选区域训练来进行针对对象检测的训练。对象检测训练可以使用候选区域图像的感兴趣的区域的池化。
在408处,将特征图谱重新整形为单一大小。该大小包括宽度和高度。在相同或另一个过程中,深度也可以被修改为对于所有特征图谱是相同的。对于较大的特征图谱,可以使用最大池化或其他方法来减小特征图谱的宽度和高度。对于较小的特征图谱,可以使用解卷积来增加特征图谱的宽度和高度。可以使用卷积等其他方法来修改深度。
在410处,通过顺序串接来将经重新整形的特征图谱集合在一起以形成单个组合特征图谱。在412处,通过对图像的边界框区域进行评分,使用组合特征图谱来生成候选。可以通过以下操作来生成候选区域:首先生成针对对象检测的评分,然后生成边界框回归。然后可以将评分和回归与组合特征图谱相组合以生成候选区域。边界框回归可以包括组合特征图谱中的对象的位置偏移。
在414处,使用组合特征图谱来对所提议的区域中的对象进行检测和分类。这可以通过生成针对候选区域中的对象的分类概率以及还生成边界框回归来完成。然后在对应区域中将概率和回归与组合特征图谱相组合以生成对象分类。在这种情况下,边界框回归包括组合特征图谱中的对象的位置偏移,这些位置偏移取决于分类。通过在每个候选区域的特征图谱上评估对象分类器来对对象进行分类。
图9是根据一个实现方式的单个计算设备100的框图。计算设备100容纳系统板2。板2可以包括多个组件,包括但不限于处理器4和至少一个通信包6。通信包耦合到一个或多个天线16。处理器4物理且电气地耦合到板2。
根据其应用,计算设备100可以包括可能或可能不物理且电气地耦合到板2的其他组件。这些其他组件包括但不限于易失性存储器(例如,DRAM)8、非易失性存储器(例如,ROM)9、闪速存储器(未示出)、图形处理器12、数字信号处理器(未示出)、加密处理器(未示出)、芯片组14、天线16、诸如触摸屏显示器之类的显示器18、触摸屏控制器20、电池22、音频编解码器(未示出)、视频编解码器(未示出)、功率放大器24、全球定位系统(GPS)设备26、罗盘28、加速度计(未示出)、陀螺仪(未示出)、扬声器30、摄像头32、麦克风阵列34、和大容量存储设备(比如,硬盘驱动器)10、光盘(CD)(未示出)、数字通用盘(DVD)(未示出)等。这些组件可以连接到系统板2,安装到系统板,或者与任何其他组件组合。
通信包6使得能够进行用于向和从计算设备100传送数据的无线和/或有线通信。术语“无线”及其派生词可用于描述可以通过使用经调制的电磁辐射穿过非固态介质来传送数据的电路、设备、系统、方法、技术、通信信道等。该术语并不暗示相关联的设备不包含任何线路,尽管在一些实施例中它们可能不包含任何导线。通信包6可以实现多种无线或有线标准或协议中的任何一种,包括但不限于Wi-Fi(IEEE 802.11族)、WiMAX(IEEE 802.16族)、IEEE 802.20、长期演进(LTE)、Ev-DO、HSPA+、HSDPA+、HSUPA+、EDGE、GSM、GPRS、CDMA、TDMA、DECT、蓝牙、其以太网衍生物,以及被指定为3G、4G、5G及更高版本的任何其他无线和有线协议。计算设备100可以包括多个通信包6。例如,第一通信包6可以专用于诸如Wi-Fi和蓝牙之类的较短范围无线通信,并且第二通信包6可以专用于较长距离无线通信,例如,GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO等。
摄像头32耦合到图像处理芯片36以执行本文所描述的格式转换、编码和解码、区域建议生成、和对象检测及分类。处理器4耦合到图像处理芯片以驱动处理、设置参数等。显示器耦合到处理器以显示所提议的区域以及检测到其经分类的对象,如图1、6和7所示。
在各种实现方式中,计算设备100可以是眼镜、膝上型计算机、上网本、笔记本、超极本、智能手机、平板电脑、个人数字助理(PDA)、超移动PC、移动电话、台式计算机、服务器、机顶盒、娱乐控制单元、数码摄像头、便携式音乐播放器、或数字视频记录器。计算设备可以是固定的、便携的、或可穿戴的。在另外的实现方式中,计算设备100可以是处理数据的任何其他电子设备。
实施例可以实现为使用主板、专用集成电路(ASIC)、和/或现场可编程门阵列(FPGA)互连的一个或多个存储器芯片、控制器、中央处理单元(CPU)、微芯片或集成电路的一部分。
对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的提及指示如此描述的(一个或多个)实施例可以包括特定的特征、结构、或特性,但不是每个实施例都必须包括这些特定的特征、结构、或特性。此外,一些实施例可以具有针对其他实施例描述的特征中的一些、全部、或没有。
在以下描述和权利要求中,可以使用术语“耦合”及其派生词。“耦合”用于指示两个或更多个元件彼此协作或交互,但是它们可以或可以不具有介于它们之间的物理或电子组件。
如权利要求中所使用的,除非另有说明,否则对用于描述共同元件的序数形容词“第一”、“第二”、“第三”等的使用仅指示引用相同元件的不同实例,并且不旨在暗示所描述的元件必须在时间上、空间上、排序中、或任何其他方式以给定顺序。
附图和前述描述给出了实施例的示例。本领域技术人员将理解的是,所描述的元件中的一个或多个可以很好地组合成单个功能元件。替代地,某些元件可以被分成多个功能元件。可以将来自一个实施例的元件添加到另一实施例。例如,可以改变本文所描述的过程的顺序,并且不限于本文所描述的方式。此外,任何流程图的动作不需要按所示顺序实现;也不一定需要执行全部动作。此外,那些不依赖于其他动作的动作可以与其他动作并行执行。实施例的范围决不受这些具体示例的限制。无论是否在说明书中明确给出,诸如结构、尺寸、和材料使用的差异之类的许多变化是可能的。实施例的范围至少与以下权利要求所给出的范围一样宽。
以下实施例涉及其他实施例。不同实施例的各种特征可以与被包括的一些特征以及未包括的其他特征进行多种组合以适合各种不同的应用。一些实施例涉及一种方法,该方法包括接收数字图像,缓冲图像,对图像执行多个卷积层以生成多个特征图谱,将多个特征图谱重新整形为单一大小,通过顺序串接来对经重新整形的特征图谱进行分组以形成组合特征图谱,通过对图像的多个边界框区域进行评分来使用组合特征图谱生成多个候选区域,以及使用特征图谱来检测和分类候选区域中的对象。
在进一步的实施例中,卷积层来自基于预分类图像的经预训练的卷积神经网络模型。
进一步的实施例包括使用将区域生成和对象检测相组合的端对端联合训练方法来预训练卷积神经网络。
在进一步的实施例中,执行卷积包括执行不同级别的三个不同的卷积层。
在进一步的实施例中,执行卷积包括生成具有不同维度的特征图谱,并且其中重新整形包括将多个特征图谱中的每一个重新整形为单一宽度和高度。根据权利要求1所述的方法,其中,卷积层来自基于预分类图像的经预训练的卷积神经网络模型。
进一步的实施例包括使用将区域生成和对象检测相组合的端对端联合训练方法来预训练卷积神经网络。
在进一步的实施例中,执行卷积包括执行不同级别的三个不同的卷积层。
在进一步的实施例中,执行卷积包括生成具有不同维度的特征图谱,并且其中,重新整形包括将多个特征图谱中的每一个重新整形为单一宽度和高度。
在进一步的实施例中,重新整形包括最大池化以减小至少一个特征图谱的宽度和高度。
在进一步的实施例中,重新整形包括解卷积以增加至少一个特征图谱的宽度和高度。
在进一步的实施例中,重新整形包括利用卷积将特征图谱中的每一个压缩到单一深度。
在进一步的实施例中,对对象进行分类包括评估多个特征图谱中的每一个上的对象分类器。
进一步的实施例包括在生成候选区域之前并且在检测和分类对象之前,通过使用组合特征图谱上的感兴趣的区域的池化来生成精简的组合特征图谱。
在进一步的实施例中,生成多个候选区域包括生成用于对象检测的评分并生成边界框回归,以及将评分和回归与特征图谱相组合以生成候选区域,其中边界框回归包括对象在特征图谱中的位置偏移。
在进一步的实施例中,检测和分类对象包括生成候选区域中的对象的分类概率和边界框回归,并将概率和回归与特征图谱相组合以生成区域中的对象分类,其中边界框回归包括对象在特征图谱中的位置偏移,该位置偏移取决于分类。
进一步的实施例包括通过以下操作来训练卷积神经网络:首先使用预分类图像来进行针对候选区域的训练,然后使用候选区域训练来进行针对对象检测的训练。
在进一步的实施例中,训练对象检测包括候选区域图像的感兴趣的区域的池化。
一些实施例涉及一种装置,其包括特征提取网络,用于接收数字图像,缓冲图像,对图像执行多个卷积层以生成多个特征图谱,将多个特征图谱重新整形为单一大小,并通过顺序串接将经重新整形的特征图谱来分组为单一大小;候选区域生成网络,用于通过对图像的多个边界框区域进行评分来使用组合特征图谱生成多个候选区域;以及对象检测网络,用于使用特征图谱来检测和分类候选区域中的对象。
在进一步的实施例中,候选区域网络通过以下操作来生成多个候选区域:生成用于对象检测的评分并生成边界框回归,并且将评分和回归与特征图谱相组合以生成候选区域,其中边界框回归包括对象在特征图谱中的位置偏移。
在进一步的实施例中,对象检测网络通过以下操作来检测和分类对象:生成所提议的区域中的对象的分类概率和边界框回归,并将概率和回归与特征图谱相组合以生成区域中的对象分类,其中边界框回归包括对象在特征图谱中的位置偏移,该位置偏移取决于分类。
一些实施例涉及一种计算机可读介质,其具有当由计算机操作时使得计算机执行包括以下各项的操作的指令:接收数字图像,缓冲图像,对图像执行多个卷积层以生成多个特征图谱,将多个特征图谱重新整形为单一大小,通过顺序串接来对经重新整形的特征图谱进行分组以形成组合特征图谱,通过对图像的多个边界框区域进行评分来使用组合特征图谱生成多个候选区域,以及使用特征图谱来检测和分类候选区域中的对象。
在进一步的实施例中,卷积层来自基于预分类图像的经预训练的卷积神经网络模型。
进一步的实施例包括使用将区域生成和对象检测相组合的端对端联合训练方法来预训练卷积神经网络。
一些实施例涉及一种系统,该系统包括摄像头,用于捕获数字图像;图像缓冲器,用于缓冲图像;特征提取网络,用于接收所缓冲的图像,对图像执行多个卷积层以生成多个特征图谱,将多个特征图谱重新整形为单一大小,以及通过顺序串接来将经重新整形的特征图谱聚合为单一大小;候选区域生成网络,用于通过对图像的多个边界框区域进行评分来使用组合特征图谱生成多个候选区域;对象检测网络,用于使用特征图谱来检测和分类候选区域中的对象;以及显示器,用于显示候选区域和检测到的对象。

Claims (21)

1.一种方法,包括:
接收数字图像;
缓冲所述图像;
对所述图像执行多个卷积层以生成多个特征图谱;
将所述多个特征图谱重新整形为单一大小;
通过顺序串接来对经重新整形的特征图谱进行分组以形成组合特征图谱;
通过对所述图像的多个边界框区域进行评分来使用所述组合特征图谱生成多个候选区域;以及
使用所述特征图谱来检测和分类所述候选区域中的对象。
2.根据权利要求1所述的方法,其中,所述卷积层来自基于预分类图像的经预训练的卷积神经网络模型。
3.根据权利要求2所述的方法,其中,还包括使用将区域生成和对象检测相组合的端对端联合训练方法来预训练所述卷积神经网络。
4.根据上述权利要求中任一项或多项所述的方法,其中,执行卷积包括执行不同级别的三个不同卷积层。
5.根据上述权利要求中任一项或多项所述的方法,其中,执行卷积包括生成具有不同维度的特征图谱,并且其中,重新整形包括将所述多个特征图谱中的每个特征图谱重新整形为单一宽度和高度。
6.根据权利要求5所述的方法,其中,重新整形包括最大池化以减小至少一个特征图谱的宽度和高度。
7.根据权利要求5所述的方法,其中,重新整形包括解卷积以增加至少一个特征图谱的宽度和高度。
8.根据上述权利要求中任一项或多项所述的方法,其中,重新整形包括利用卷积将所述特征图谱中的每个特征图谱压缩到单一深度。
9.根据上述权利要求中任一项或多项所述的方法,其中,对对象进行分类包括评估所述多个特征图谱中的每个特征图谱上的对象分类器。
10.根据以上权利要求中任一项或多项所述的方法,还包括:在生成所述候选区域之前并且在检测和分类对象之前,通过使用所述组合特征图谱上的感兴趣的区域的池化来生成精简的组合特征图谱。
11.根据上述权利要求中任一项或多项所述的方法,其中,生成多个候选区域包括生成用于对象的检测的评分并生成边界框回归,以及将所述评分和所述回归与所述特征图谱相组合以生成候选区域,其中所述边界框回归包括所述对象在所述特征图谱中的位置偏移。
12.根据上述权利要求中任一项或多项所述的方法,其中,检测和分类对象包括生成所述候选区域中的对象的分类概率和边界框回归,并将所述概率和所述回归与所述特征图谱相组合以生成区域中的对象分类,其中所述边界框回归包括所述对象在所述特征图谱中的位置偏移,所述位置偏移取决于所述分类。
13.根据权利要求2所述的方法,还包括通过以下操作来训练所述卷积神经网络:首先使用所述预分类图像来进行针对候选区域的训练,然后使用候选区域训练来进行针对对象检测的训练。
14.根据权利要求13所述的方法,其中,训练所述对象检测包括所述候选区域的图像的感兴趣的区域的池化。
15.一种装置,包括:
特征提取网络,用于接收数字图像,缓冲所述图像,对所述图像执行多个卷积层以生成多个特征图谱,将所述多个特征图谱重新整形为单一大小,并通过顺序串接将经重新整形的特征图谱分组为单一大小;
候选区域生成网络,用于通过对所述图像的多个边界框区域进行评分来使用组合特征图谱生成多个候选区域;以及
对象检测网络,用于使用所述特征图谱来检测和分类所述候选区域中的对象。
16.根据权利要求15所述的装置,其中,所述候选区域网络通过以下操作来生成多个候选区域:生成用于对象的检测的评分并生成边界框回归,并且将所述评分和所述回归与所述特征图谱相组合以生成候选区域,其中所述边界框回归包括所述对象在所述特征图谱中的位置偏移。
17.根据权利要求16所述的装置,其中,所述对象检测网络通过以下操作来检测和分类对象:生成所述候选区域中的对象的分类概率和边界框回归,并将所述概率和所述回归与所述特征图谱相组合以生成区域中的对象分类,其中所述边界框回归包括所述对象在所述特征图谱中的位置偏移,所述位置偏移取决于所述分类。
18.一种计算机可读介质,具有指令,所述指令当由计算机操作时使得所述计算机执行包括以下各项的操作:
接收数字图像;
缓冲所述图像;
对所述图像执行多个卷积层以生成多个特征图谱;
将所述多个特征图谱重新整形为单一大小;
通过顺序串接来对经重新整形的特征图谱进行分组以形成组合特征图谱;
通过对所述图像的多个边界框区域进行评分来使用所述组合特征图谱生成多个候选区域;以及
使用所述特征图谱来检测和分类所述候选区域中的对象。
19.根据权利要求18所述的介质,其中,所述卷积层来自基于预分类图像的经预训练的卷积神经网络模型。
20.根据权利要求19所述的介质,所述操作还包括使用将区域生成和对象检测相组合的端对端联合训练方法来预训练所述卷积神经网络。
21.一种系统,包括:
摄像头,用于捕获数字图像;
图像缓冲器,用于缓冲所述图像;
特征提取网络,用于接收所缓冲的图像,对所述图像执行多个卷积层以生成多个特征图谱,将所述多个特征图谱重新整形为单一大小,以及通过顺序串接来将经重新整形的特征图谱分组为单一大小;
候选区域生成网络,用于通过对所述图像的多个边界框区域进行评分来使用组合特征图谱生成多个候选区域;
对象检测网络,用于使用所述特征图谱来检测和分类所述候选区域中的对象;以及
显示器,用于显示所述候选区域和检测到的对象。
CN201680079183.8A 2016-02-17 2016-02-17 用于对象检测的方法、装置、系统和计算机可读介质 Active CN108475331B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/073943 WO2017139927A1 (en) 2016-02-17 2016-02-17 Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model

Publications (2)

Publication Number Publication Date
CN108475331A true CN108475331A (zh) 2018-08-31
CN108475331B CN108475331B (zh) 2022-04-05

Family

ID=59624728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680079183.8A Active CN108475331B (zh) 2016-02-17 2016-02-17 用于对象检测的方法、装置、系统和计算机可读介质

Country Status (3)

Country Link
US (1) US11244191B2 (zh)
CN (1) CN108475331B (zh)
WO (1) WO2017139927A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956191A (zh) * 2018-09-27 2020-04-03 财团法人工业技术研究院 基于概率融合的分类器、分类方法及分类系统
CN111476247A (zh) * 2019-01-23 2020-07-31 斯特拉德视觉公司 利用了1xK或Kx1卷积运算的CNN方法及装置
CN111931153A (zh) * 2020-10-16 2020-11-13 腾讯科技(深圳)有限公司 基于人工智能的身份验证方法、装置和计算机设备

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282165B2 (en) * 2016-02-26 2022-03-22 Netflix, Inc. Dynamically cropping digital content for display in any aspect ratio
US10503998B2 (en) 2016-11-07 2019-12-10 Gracenote, Inc. Recurrent deep neural network system for detecting overlays in images
WO2018184195A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Joint training of neural networks using multi-scale hard example mining
US10621725B2 (en) * 2017-04-12 2020-04-14 Here Global B.V. Small object detection from a large image
US11410330B2 (en) * 2017-05-30 2022-08-09 Edx Technologies, Inc. Methods, devices, and systems for determining field of view and producing augmented reality
JP7149692B2 (ja) * 2017-08-09 2022-10-07 キヤノン株式会社 画像処理装置、画像処理方法
CN107562050B (zh) * 2017-08-29 2021-03-16 广东工业大学 一种机器人识别环境的方法及系统
US10417527B2 (en) * 2017-09-06 2019-09-17 Irdeto B.V. Identifying an object within content
EP3695347A4 (en) * 2017-10-10 2022-04-20 Nokia Technologies Oy METHOD, SYSTEM AND DEVICE FOR PATTERN RECOGNITION
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
KR102561261B1 (ko) 2017-11-14 2023-07-28 삼성전자주식회사 커널을 이용한 컨볼루션 연산 처리 방법 및 장치
CN108229307B (zh) * 2017-11-22 2022-01-04 北京市商汤科技开发有限公司 用于物体检测的方法、装置和设备
CN111670457B (zh) * 2017-12-03 2023-12-01 元平台公司 动态对象实例检测、分割和结构映射的优化
US10586350B2 (en) 2017-12-03 2020-03-10 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10796452B2 (en) 2017-12-03 2020-10-06 Facebook, Inc. Optimizations for structure mapping and up-sampling
CN111433812A (zh) * 2017-12-03 2020-07-17 脸谱公司 动态对象实例检测、分割和结构映射的优化
JP7324757B2 (ja) * 2018-01-10 2023-08-10 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 訓練が低減されたニューラルネットワークを使用したバイオ流体検体の特徴付けのための方法および装置
KR102017995B1 (ko) 2018-01-16 2019-09-03 한국과학기술원 라인 단위 연산을 이용한 초해상화 방법 및 장치
WO2019143027A1 (ko) * 2018-01-16 2019-07-25 한국과학기술원 이미지 파이프라인 처리 방법 및 장치
WO2019143026A1 (ko) 2018-01-16 2019-07-25 한국과학기술원 특징맵 압축을 이용한 이미지 처리 방법 및 장치
US10628705B2 (en) 2018-03-29 2020-04-21 Qualcomm Incorporated Combining convolution and deconvolution for object detection
CN108776819A (zh) * 2018-06-05 2018-11-09 Oppo广东移动通信有限公司 一种目标识别方法、移动终端及计算机可读存储介质
US11080542B2 (en) 2018-07-27 2021-08-03 International Business Machines Corporation Sparse region-of-interest pooling for object detection
US11176427B2 (en) * 2018-09-26 2021-11-16 International Business Machines Corporation Overlapping CNN cache reuse in high resolution and streaming-based deep learning inference engines
US11600006B2 (en) * 2018-10-26 2023-03-07 Here Global B.V. Deep neural network architecture for image segmentation
CN109711274A (zh) * 2018-12-05 2019-05-03 斑马网络技术有限公司 车辆检测方法、装置、设备和存储介质
US10402692B1 (en) * 2019-01-22 2019-09-03 StradVision, Inc. Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10509987B1 (en) * 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
US10726303B1 (en) * 2019-01-30 2020-07-28 StradVision, Inc. Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
JP7103506B2 (ja) * 2019-03-14 2022-07-20 日本電気株式会社 情報提示方法、情報提示装置及びプログラム
CN110009010B (zh) * 2019-03-20 2023-03-24 西安电子科技大学 基于兴趣区域重检测的宽幅光学遥感目标检测方法
TWI698811B (zh) * 2019-03-28 2020-07-11 國立交通大學 多路徑卷積神經網路偵測方法及系統
CN110110798B (zh) * 2019-05-13 2023-02-10 广东工业大学 一种基于Mask-RCNN网络的焊缝识别方法、装置、设备及可读存储介质
CN110222592B (zh) * 2019-05-16 2023-01-17 西安特种设备检验检测院 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法
CN110120065B (zh) * 2019-05-17 2022-08-26 南京邮电大学 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统
CN110378222B (zh) * 2019-06-14 2023-10-27 南瑞集团有限公司 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN112101373A (zh) * 2019-06-18 2020-12-18 富士通株式会社 基于深度学习网络的对象检测方法、装置和电子设备
KR20210001324A (ko) * 2019-06-27 2021-01-06 삼성전자주식회사 인공 신경망 모델 및 이를 포함하는 전자 장치
CN110443130A (zh) * 2019-07-01 2019-11-12 国网湖南省电力有限公司 一种配电网架空线路异常状态检测方法
CN110414570B (zh) * 2019-07-04 2022-01-28 北京迈格威科技有限公司 图像分类模型生成方法、装置、设备和存储介质
CN110363138A (zh) * 2019-07-12 2019-10-22 腾讯科技(深圳)有限公司 模型训练方法、图像处理方法、装置、终端及存储介质
CN110378278B (zh) * 2019-07-16 2021-11-02 北京地平线机器人技术研发有限公司 神经网络的训练方法、对象搜索方法、装置以及电子设备
CN110598852A (zh) * 2019-08-29 2019-12-20 北京小米移动软件有限公司 子网络采样方法、构建超网络拓扑结构的方法及装置
US10820131B1 (en) * 2019-10-02 2020-10-27 Turku University of Applied Sciences Ltd Method and system for creating binaural immersive audio for an audiovisual content
CN110852258A (zh) * 2019-11-08 2020-02-28 北京字节跳动网络技术有限公司 物体检测方法、装置、设备及存储介质
CN110986949B (zh) * 2019-12-04 2023-05-09 日照职业技术学院 一种基于人工智能平台下的路径识别方法
CN111294512A (zh) * 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
WO2021202518A1 (en) * 2020-03-30 2021-10-07 Sg Gaming, Inc. Gaming environment tracking optimization
CN111629212B (zh) * 2020-04-30 2023-01-20 网宿科技股份有限公司 一种对视频进行转码的方法和装置
US11321928B2 (en) 2020-05-14 2022-05-03 Qualcomm Incorporated Methods and apparatus for atlas management of augmented reality content
JP7486349B2 (ja) * 2020-05-28 2024-05-17 キヤノン株式会社 ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置
US11544509B2 (en) * 2020-06-30 2023-01-03 Nielsen Consumer Llc Methods, systems, articles of manufacture, and apparatus to classify labels based on images using artificial intelligence
US10902290B1 (en) * 2020-08-04 2021-01-26 Superb Ai Co., Ltd. Methods for training auto labeling device and performing auto labeling related to object detection while performing automatic verification by using uncertainty scores and devices using the same
EP4229546A4 (en) * 2020-10-14 2024-04-10 One Cup Productions Ltd ANIMAL VISUAL IDENTIFICATION, TRACKING, SURVEILLANCE AND EVALUATION SYSTEMS AND ASSOCIATED METHODS
CN112150462B (zh) * 2020-10-22 2023-12-22 北京百度网讯科技有限公司 确定目标锚点的方法、装置、设备以及存储介质
US11900662B2 (en) 2020-12-16 2024-02-13 Here Global B.V. Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures
US11830103B2 (en) 2020-12-23 2023-11-28 Here Global B.V. Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data
US11587253B2 (en) 2020-12-23 2023-02-21 Here Global B.V. Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures
US11829192B2 (en) 2020-12-23 2023-11-28 Here Global B.V. Method, apparatus, and computer program product for change detection based on digital signatures
JP2024505317A (ja) * 2021-01-29 2024-02-06 イルミナ インコーポレイテッド プロセスサイクル画像の深層学習ベースの根本原因分析
US11961314B2 (en) * 2021-02-16 2024-04-16 Nxp B.V. Method for analyzing an output of an object detector
US11688112B2 (en) 2021-05-07 2023-06-27 Nxp B.V. Method for generating detailed visualization of machine learning model behavior
US11991295B2 (en) 2021-12-07 2024-05-21 Here Global B.V. Method, apparatus, and computer program product for identifying an object of interest within an image from a digital signature generated by a signature encoding module including a hypernetwork
EP4312193A1 (en) 2022-07-26 2024-01-31 Robovision Improved image acquisition for deep learning applications

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036323A (zh) * 2014-06-26 2014-09-10 叶茂 一种基于卷积神经网络的车辆检测方法
CN104517103A (zh) * 2014-12-26 2015-04-15 广州中国科学院先进技术研究所 一种基于深度神经网络的交通标志分类方法
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法
CN104794527A (zh) * 2014-01-20 2015-07-22 富士通株式会社 基于卷积神经网络的分类模型构建方法和设备
CN104809443A (zh) * 2015-05-05 2015-07-29 上海交通大学 基于卷积神经网络的车牌检测方法及系统
CN104866868A (zh) * 2015-05-22 2015-08-26 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
CN105120130A (zh) * 2015-09-17 2015-12-02 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US9201958B2 (en) 2013-10-24 2015-12-01 TCL Research America Inc. Video object retrieval system and method
US9412024B2 (en) * 2013-09-13 2016-08-09 Interra Systems, Inc. Visual descriptors based video quality assessment using outlier model
CN104217225B (zh) 2014-09-02 2018-04-24 中国科学院自动化研究所 一种视觉目标检测与标注方法
US10860837B2 (en) * 2015-07-20 2020-12-08 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794527A (zh) * 2014-01-20 2015-07-22 富士通株式会社 基于卷积神经网络的分类模型构建方法和设备
CN104036323A (zh) * 2014-06-26 2014-09-10 叶茂 一种基于卷积神经网络的车辆检测方法
CN104517103A (zh) * 2014-12-26 2015-04-15 广州中国科学院先进技术研究所 一种基于深度神经网络的交通标志分类方法
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法
CN104809443A (zh) * 2015-05-05 2015-07-29 上海交通大学 基于卷积神经网络的车牌检测方法及系统
CN104866868A (zh) * 2015-05-22 2015-08-26 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN105120130A (zh) * 2015-09-17 2015-12-02 京东方科技集团股份有限公司 一种图像升频系统、其训练方法及图像升频方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHAOQING REN 等: ""Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks"", 《ARXIV:1506.01497V2 [CS.CV]》 *
SHAOQING REN 等: ""Object Detection Networks on Convolutional Feature Maps"", 《ARXIV:1504.06066V1 [CS.CV]》 *
SPYROS GIDARIS 等: ""Object detection via a multi-region & semantic segmentation-aware CNN model"", 《ARXIV:1505.01749V3 [CS.CV]》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956191A (zh) * 2018-09-27 2020-04-03 财团法人工业技术研究院 基于概率融合的分类器、分类方法及分类系统
CN110956191B (zh) * 2018-09-27 2023-08-18 财团法人工业技术研究院 基于概率融合的分类器、分类方法及分类系统
CN111476247A (zh) * 2019-01-23 2020-07-31 斯特拉德视觉公司 利用了1xK或Kx1卷积运算的CNN方法及装置
CN111476247B (zh) * 2019-01-23 2023-09-26 斯特拉德视觉公司 利用了1xK或Kx1卷积运算的CNN方法及装置
CN111931153A (zh) * 2020-10-16 2020-11-13 腾讯科技(深圳)有限公司 基于人工智能的身份验证方法、装置和计算机设备

Also Published As

Publication number Publication date
US11244191B2 (en) 2022-02-08
WO2017139927A1 (en) 2017-08-24
US20190073553A1 (en) 2019-03-07
CN108475331B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN108475331A (zh) 使用来自卷积神经网络模型的多个层的特征图谱的针对包括感兴趣的对象的图像区域的候选区域
US11790631B2 (en) Joint training of neural networks using multi-scale hard example mining
CN108121997B (zh) 使用机器学习模型的图像数据中的对象分类
Hariharan et al. Object instance segmentation and fine-grained localization using hypercolumns
US20180114071A1 (en) Method for analysing media content
US10275688B2 (en) Object detection with neural network
CN105447529B (zh) 一种服饰检测及其属性值识别的方法和系统
CN103514432B (zh) 人脸特征提取方法、设备和计算机程序产品
US9008365B2 (en) Systems and methods for pedestrian detection in images
JP2018005520A (ja) 物体検出装置及び物体検出方法
CN107180226A (zh) 一种基于组合神经网络的动态手势识别方法
CN106156777B (zh) 文本图片检测方法及装置
CN100561505C (zh) 一种图像检测方法及装置
JP5936561B2 (ja) 画像における外観及びコンテキストに基づく物体分類
CN112580458A (zh) 人脸表情识别方法、装置、设备及存储介质
Le et al. DeepSafeDrive: A grammar-aware driver parsing approach to Driver Behavioral Situational Awareness (DB-SAW)
Kashika et al. Deep learning technique for object detection from panoramic video frames
CN115862113A (zh) 陌生人异常识别方法、装置、设备及存储介质
US20220044053A1 (en) Semantic image segmentation using gated dense pyramid blocks
Huynh et al. Convolutional neural network for motorbike detection in dense traffic
Rahman et al. Real-Time Object Detection using Machine Learning
Ghasemi et al. Optimizing Sector Ring Histogram of Oriented Gradients for human injured detection from drone images
Zhou et al. A pipeline architecture for traffic sign classification on an FPGA
US20210103721A1 (en) Method and apparatus for generating learning data required to learn animation characters based on deep learning
Palmer et al. Scale proportionate histograms of oriented gradients for object detection in co-registered visual and range data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant