CN108171233A - 使用基于区域的深度学习模型的对象检测的方法和设备 - Google Patents
使用基于区域的深度学习模型的对象检测的方法和设备 Download PDFInfo
- Publication number
- CN108171233A CN108171233A CN201711201443.7A CN201711201443A CN108171233A CN 108171233 A CN108171233 A CN 108171233A CN 201711201443 A CN201711201443 A CN 201711201443A CN 108171233 A CN108171233 A CN 108171233A
- Authority
- CN
- China
- Prior art keywords
- area
- interest
- region
- deep learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013136 deep learning model Methods 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 18
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
描述使用基于区域的深度学习模型的对象检测的方法和设备。一方面,提供一种方法,其中,区域建议网络(RPN)用于通过分配置信水平识别图像中的感兴趣区域(RoI),分配的RoI的置信水平用于提高由下游分类器分配给RoI的背景分数,背景分数用于柔性最大值函数以计算每个对象类的最终类概率。
Description
本申请要求于2016年12月7日提交到美国专利商标局的第62/431,086号美国临时专利申请的优先权以及于2017年4月4日提交到美国专利商标局的第15/478,947号美国非临时专利申请的优先权,所述美国专利申请的全部内容通过引用合并于此。
技术领域
本公开总体涉及机器学习,更具体地讲,涉及用于对象检测的深度学习机的系统和方法。
背景技术
机器学习技术正不断发展并且已经开始支持从网络搜索、内容过滤、商业网站上的自动推荐、自动博弈到对象检测、图像分类、语音识别、机器翻译以及药物发现和基因组学的现代社会的很多方面。机器学习的领域中的当前技术状态为深度神经网络,其使用由利用多级抽象来学习数据(通常,非常大量的数据)的表示的多个处理层组成的计算模型—因此,称为术语“深度学习”、“深层网络”等。参见,例如,LeCun,Yann,Yoshua Bengio和Geoffrey Hinton.“Deep learning.”Nature,vol.521,pp.436-444(28May 2015),其通过引用全部合并于此。
深度学习方法对于一般的对象检测已经显示出优越的性能。然而,即使使用深度学习,特定对象和/或特定情况的检测也更加困难。具有很多现实应用(诸如,自主驾驶和高级驾驶辅助系统)的行人检测是经由深度学习的检测多少受到各种限制结果的一个领域。
发明内容
根据本公开的一方面,提供一种使用基于区域的深度学习模型的对象检测的方法,所述方法包括:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI);使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用分数来计算每个对象类的最终类概率。
根据本公开的一方面,提供一种能够使用基于区域的深度学习模型进行对象检测的设备,所述设备包括一个或多个非暂时性计算机可读介质和至少一个处理器,其中,所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI),使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数,在柔性最大值函数中使用分数来计算每个对象类的最终类概率。
根据本公开的一方面,提供一种方法,包括制造芯片组,其中,所述芯片组包括至少一个处理器和一个或多个非暂时性计算机可读介质,其中,所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI);使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用分数来计算每个对象类的最终类概率;所述一个或多个非暂时性计算机可读介质存储所述指令。
根据本公开的一方面,提供一种测设设备的方法,包括:测试设备是否具有至少一个处理器,其中,所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时,执行以下步骤:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI);使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用分数来计算每个对象类的最终类概率;测试所述设备是否具有所述一个或多个非暂时性计算机可读介质,其中,所述一个或多个非暂时性计算机可读介质存储所述指令。
附图说明
通过结合附图的下面的详细描述,本公开的一些实施例的上面和其他方面、特征和优点将变得更清楚,其中:
图1是示出根据本公开的实施例的快速的基于区域的卷积神经网络(R-CNN:Region-based Convolutional Neural Network)的框图;
图2是示出根据本公开的实施例的基于区域的全卷积网络(R-FCN:Region-basedFully Convolutional Network)的框图;
图3是示出根据本公开的实施例的网络的构造的框图;
图4是根据本公开的实施例的方法的流程图;
图5是示出应用本公开的实施例的深度卷积神经网络的示例的框图;
图6示出根据一个实施例的用于制造和测试本设备的示例性流程图。
具体实施方式
在下文中,参照附图详细地描述本公开的实施例。应注意,虽然相同的元件在不同的附图中被示出,但是他们由相同的参考标记表示。在下面的描述中,仅提供诸如详细的配置和组件的具体细节以帮助全面理解本公开的实施例。因此,本领域的技术人员应清楚:在不脱离本公开的范围的情况下,可对在此描述的实施例进行各种改变和修改。此外,为了清楚和简明,省略对公知的功能和构造的描述。下面描述的术语是在考虑本公开中的功能的情况下定义的术语,并且可根据用户、用户的意愿或习惯而不同。因此,应根据贯穿说明书的内容来确定术语的定义。
本公开可具有各种修改和各种实施例,其中,下面参照附图详细描述各种修改和各种实施例中的实施例。然而,应理解,本公开不限于所述实施例,而是包括本公开的范围内的所有的修改、等同物和替代物。
虽然包括序数(诸如,第一和第二)的术语可用于描述各种元件,但是结构元件不受这些术语限制。这些术语仅用于区分一个元件与另一个元件。例如,在不脱离本公开的范围的情况下,第一结构元件可被称为第二结构元件。类似地,第二结构元件也可被称为第一结构元件。如在此使用的,术语“和/或”包括一个或多个相关联的项的任何和所有组合。
在此的术语仅用于描述本公开的各种实施例,而不是意图限制本公开。除非上下文清楚地另有指示,否则单数形式也意图包括复数形式。在本公开中,应理解,术语“包括”或“具有”表示存在特征、数量、步骤、操作、结构元件、部件或它们的组合,并且不排除存在一个或多个其他特征、数量、步骤、操作、结构元件、部件或它们的组合或者添加一个或多个其他特征、数量、步骤、操作、结构元件、部件或它们的组合的可能。
除非有不同的定义,否则在此使用的所有的术语具有与本公开所属领域的技术人员理解的含义相同的含义。除非在本公开中清楚地定义,否则术语(诸如,通用字典中定义的术语)将被解释为具有与相关技术领域中的语境含义相同的含义,而不被解释为具有理想化或过于正式的含义。
各种实施例可包括一个或多个元件。元件可包括被布置为执行特定操作的任意结构。虽然可通过示例的方式在特定布置下具有有限数量的元件来描述实施例,但是这种实施例可包括如给定实施方式所期望的可替换布置下的更多或更少的元件。值得注意的是,对“一个实施例”或“实施例”的任何引用表示针对该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在说明书的不同位置出现的短语“一个实施例”(或“实施例”)不一定表示同一实施例。
如上阐述的,虽然深度学习方法对于一般对象检测已经显示出优越的性能,但是他们在行人检测上的性能则受到限制。
快速的基于区域的卷积神经网络(R-CNN)已经是用于一般对象检测的实际框架。然而,这个框架遭受高的误检率(false positive rate)的影响,即,背景区域被检测为属于预定对象类别(前景)的集合的对象(如,人)。因此,快速的R-CNN具有关于行人检测的受限制的结果。
本公开的实施例通过使用区域建议网络(RPN)分数提高由快速R-CNN的下游分类器分配的图像区域(即,感兴趣区域(RoI))的背景分数(或置信水平),来降低误检率。简单来说,如果RPN对RoI是背景高度确信,则用于背景类的下游分类器的置信度按比例提高,从而减少误检前景/对象。在此描述的技术是一般性的,并且还可用于不经由RPN训练的模型的推理估计。此外,其他信息资源(如语义分割掩码)也可用于在下游分类器中提高RoI的背景分数。
目前,快速的R-CNN框架(诸如,由以下文献描述的快速的R-CNN框架:Ren,S.,He,K.,Girshick,R.and Sun,J.Faster R-CNN:Towards real-time object detection withregion proposal networks,in Advances in neural information processingsystems,pp.91-99(2015),其通过引用全部合并于此)成为最成功的一般对象检测技术之一。它是一种具有两阶段检测处理的全神经网络方法。
图1是示出应用本公开的实施例可根据的快速的R-CNN的框图。如图1所示,输入图像101由在本公开中被称为基本网络110的深度CNN处理,结果是特征图120。
第一阶段为基于滑动窗口的检测器,即,RPN 130。RPN 130用于预测对象性分数(objectness score),其中,对象性分数衡量与输入图像中的每一个位置对应的锚点(anchor)的对象类(在前景中)vs背景(没有对象)的集合的隶属度的概率。“对象性”可被广义地认为是对图像的一部分中是否存在对象的一种度量。通过RPN 130产生重叠的建议135。
在第二阶段中,由RPN 130建议的区域被馈送给下游分类器140以用于进一步分类成一些对象类别中的一个对象类别。这是使用称为RoI池化的注意机制(attentionmechanism)完成的。
快速的R-CNN方法的主要缺点是:需要针对每个RoI独立地执行下游分类。开发了一种新型的网络,即,基于区域的全卷积网络(R-FCN)(诸如,在以下文献中描述的基于区域的全卷积网络:Dai,J.,Li,Y.,He,K.and Sun,J.,R-FCN:Object Detection via Region-based Fully Convolutional Networks,arXiv preprint arXiv:1605.06409(2016),其通过引用全部合并于此)来通过在不同的RoI间共享计算来解决快速的R-CNN框架中的低效。
图2示出应用本公开的实施例可根据的R-FCN。与图1中相似,在图2中,由基本网络210处理图像201以产生特征图220。
R-FCN架构被设计为将建议的RoI分类成对象类别和背景。然而,在R-FCN框架中,使用仅卷积网络(convolution-only network)来实现下游分类器。因为卷积网络是平移不变的,并且对象检测需要对对象位置的平移敏感,所以R-FCN框架产生称为位置敏感分数图(position-sensitive score map)250的一组专用卷积层,其中,每个分数图将关于相对空间位置的位置信息编码为通道维度(channel dimension)。
更具体地,如图2所示,针对每个类别/类存在一组k2个位置敏感分数图,导致具有C个对象类别/类(以及对于背景是+1)的k2(C+1)通道输出层。该组k2个分数图对应于描述相对位置的k×k个空间网格。例如,当k×k=3×3时,9个分数图对对象类别的{左上,中上,右上,…,右下}的情况进行编码。
此后,从这些分数图收集信息并且针对每个RoI产生分数的位置敏感RoI(PS-RoI)池化层(即,图2中的pre-RoI 260)。池化是选择性的,每个池化具有来自具有k×k个分数图的组中的仅仅一个分数图的k×k个箱聚合响应。
相比之下,本公开的实施例提供一种用以降低用于对象检测的基于区域的深度学习系统的误检率(或“假对象率”)的机制。基线快速的R-CNN/R-FCN模型将RPN分数仅用于对RoI进行分类并选择用于下游分类的前N个RoI。这个方法的缺点是所有的前N个RoI被下游分类器平等地对待。这可能包括具有很低的对象性分数的RoI。
在根据本公开的实施例中,由RPN产生的区域分数用于提高由下游分类器计算的分数。这个技术被称为RPN提高(RPN boosting)。在一个实施例中,贝叶斯框架(Bayesianframework)可用于计算给定RPN和分类器分数二者时RoI为对象的先验概率。然而,这个方法将所有对象的分数偏向背景并降低良好RoI(即,更可能是对象的那些RoI)的分数。
例如,使C0、C1、…、Ck表示感兴趣的K+1个类,其中,C0表示背景类。对于给定的RoI,使PB为由RPN分配给所述RoI的背景概率,使PF为由RPN分配给所述RoI的前景概率。前景概率包括对象存在的概率,其中,这样的对象可属于感兴趣的K个类中的任意一个类。此外,使s0、s1、…、sK为由下游分类器分配给所述RoI的分数。然后,根据由等式(1)表示的RPN置信度来提高背景分数:
更新的分数用于使用柔性最大值层(softmax layer)计算最终类概率,其中,柔性最大值层输出可能类的概率分布。
具体地,继续以上示例,使用K+1个类和更新且提高的分数s={s0,s1,...s,K},然后由柔性最大值层使用等式(2)计算具有标签m的类C(即,Cm)的概率ym,其中,根据等式(1)提高s0:
柔性最大值概率可直接用于预测阶段,其中,由于s0的提高改变等式(2)的右手边的分母,所以s0的提高影响所有其他类的概率。
虽然在训练阶段中使用柔性最大值概率,但是如由以下等式(3)给出的将柔性最大值概率表达为对数域中的交叉熵函数ε更为方便,其中,如果训练输入对应于类Cm,则ti=1(即,ti=tm=1),否则为零(即,ti=0),θ为网络参数。
为了最大化网络的参数θ,如等式(4)所示,使用针对分数sm的交叉熵函数ε的偏导数:
图3是示出应用本公开的实施例的深度卷积神经网络的示例的框图。在底部的框和层形成残差网络(residual network,ResNet)。ResNet的输出被馈送至区域建议卷积网络(RPN Conv)310中,其中,区域建议卷积网络310的输出被区域建议分类函数(RPN_Cls)320使用以获得对象性的分类分数,区域建议卷积网络310的输出被RPN框拟合(RPN Reg)330使用以产生对象的检测框的坐标。针对检测对象的进一步分类,这个信息被位置敏感感兴趣区域分类(PSRoI Cls)340和位置敏感感兴趣区域拟合(PSRoI Reg)350网络使用以产生每个可能类类别的分类分数并精细化由RPN传送到ROI网络的每个可能的对象检测的检测框。提高的分数(si)360和提高的柔性最大值370的操作分别与以上描述的等式(1)和等式(2)相关。
图4是根据本公开的实施例的方法的流程图。在410中,由基本网络处理输入图像,以产生特征图。在420中,基于RPN滑动窗口的检测器选择建议的RoI并向每个ROI分配对象性分数的置信水平(即,RoI是前景中的对象的概率或RoI仅是背景中的部分的概率)。在430中,由RPN建议的区域被将每个RoI进一步分类成一些对象类别中的一个对象类别的下游分类器池化。然而,在下游分类器对RoI进行分类之前,430还使用在420中由RPN计算的置信水平来提高RoI的背景分数。背景分数还被用在柔性最大值函数中以计算每个对象类的最终类概率。
在本公开的另一个实施例中,可从任意其他源获得的语义分割掩码用于RPN提高,从而降低检测器的误警率。语义分割掩码被另一语义分割算法传送,并且与通过对象检测网络的区域或逐框标签相比,为考虑中的每个类提供像素单位的标签。针对这样的实施例中的每个RoI,可通过RoI中的前景像素的数量与总的像素数量的比率计算前景概率PF和背景概率PB。如果需要,可对RoI中的前景像素的数量设置下限,以防止PF降低到0。这防止分类器将背景概率分配为1。
在本公开的另一个实施例中,光流的大小用于RPN提高,从而降低检测器的误警率。可从任意其他源获得光流。光流信息作为从一帧到另一帧的像素值的变化的程度的度量而由另一算法提供,并且如果相机是静止的(诸如,在监视相机中),则光流信息可用作运动对象的指示。在这样的实施例中,为光流的大小设置阈值τ。假设背景没有移动,如果光流的大小小于阈值τ,则像素可被分类为背景,否则像素被设置为前景。针对每个RoI,可通过RoI中的前景像素的数量与总的像素数量的比率来计算前景概率PF和背景概率PB。如果需要,可对RoI中的前景像素的数量设置下限,以防止PF下降到0。
仍在另一个实施例中,RPN缩放可与其他缩放因子(诸如,由语义分割或光流确定的缩放因子)进行组合以计算提高。
仍在另一个实施例中,迭代精细化可用在提高的RPN上,即,当分类头修改分类分数并重新调节区域时,更新的RoI区域的RoI分数重新用于下一次迭代。在迭代方案中,仅具有高分类分数的在当前迭代的检测候选被重新考虑。
例如,使为由网络输出的检测的集合。这里si和Bi表示第i个预测框的分数和边界框坐标。当RoI池化层的输入被{Bi}替换并且网络从RoI池化层向前运行时,获得与新的RoI对应的新的检测的集合使D=D0∪D1以及使N=NMS(D,τ),其中,NMS表示抑制不具有最大分数的检测的非极大值抑制算法(Non-MaximumSuppression algorithm)。可通过使用AVG(N,D)对第一次迭代中的重叠的检测框和第二次迭代中的重叠的检测框取平均值来进一步精细化最终输出。
图5示出根据一个实施例的本设备的示例性示图。设备500包括至少一个处理器510和一个或多个非暂时性计算机可读介质520。至少一个处理器510在执行存储在一个或多个非暂时性计算机可读介质520中的指令时,执行以下步骤:使用RPN通过分配置信水平来识别图像中的RoI;使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。此外,一个或多个非暂时性计算机可读介质520存储用于至少一个处理器510执行以上列出的步骤的指令。
在另一个实施例中,至少一个处理器510在执行存储在一个或多个非暂时性计算机可读介质520上的指令时,使用由RPN分配的用于识别图像中的RoI的置信水平、语义分割掩码和光流的大小中的至少一个来提高由下游分类器分配的背景分数。此外,一个或多个非暂时性计算机可读介质520存储用于至少一个处理器510执行这些步骤的指令。
图6示出根据一个实施例的用于制造和测试本设备的示例性流程图。
在650,制造包括至少一个处理器和一个或多个非暂时性计算机可读介质的设备(在这个实例中,芯片组)。当执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,所述至少一个处理器执行以下步骤:使用RPN通过分配置信水平来识别图像中的RoI;使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用提高的分数来计算每个对象类的最终类概率。所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行以上列出的步骤的指令。
在660,测试设备(在这个实例中,芯片组)。测试660的步骤包括:测试该设备是否具有至少一个处理器,其中,所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤“使用RPN通过分配置信水平来识别图像中的RoI,使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数,在柔性最大值函数中使用提高的分数来计算每个对象类的最终类概率”;测试该设备是否具有所述一个或多个非暂时性计算机可读介质,其中,所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行以上列出的步骤的指令。
在另一个实施例中,制造包括至少一个处理器和一个或多个非暂时性计算机可读介质的芯片组。所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,使用由RPN分配的用于识别图像中的RoI的置信水平、语义分割掩码和光流的大小中的至少一个来提高由下游分类器分配的背景分数。此外,所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行以上列出的步骤的指令。
在这个实施例中,可通过以下步骤测试该芯片组:测试该设备是否具有至少一个处理器,其中,所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时,使用由RPN分配的用于识别图像中的RoI的置信水平、语义分割掩码和光流的大小中的至少一个来提高由下游分类器分配的背景分数;测试该设备是否具有所述一个或多个非暂时性计算机可读介质,其中,所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行那个步骤的指令。
在本公开的实施例中,提供一种基于最近引入的R-FCN架构的行人检测的全深度卷积神经网络方法。在本公开的一方面,RPN的分数用于提高下游分类器的性能。
如本领域普通技术人员将理解的,根据具体的实施例和/或实现方式,与本公开的实施例相关的上述步骤和/或操作可以以不同的顺序或并行地或针对不同的时期等同时地发生。不同的实施例可以以不同的顺序或通过不同的方式或手段执行动作。如本领域普通技术人员将理解的,一些附图是执行的动作的简化表示,在此对他们的描述为简化概述,并且现实世界的实现将会更加复杂得多,需要更多的阶段和/或组件,并且还将根据具体实现的要求而变化。作为简化的表示,这些附图不显示其他需要的步骤,因为这些步骤是本领域普通技术人员已知和了解的,并且可能不是与本说明书有关的和/或对本说明书有帮助的。
类似地,如本领域的普通技术人员将理解的,一些附图为仅示出相关组件的简化框图,并且这些组件中的一些组件仅表示本领域中公知的功能和/或操作,而不是实际的硬件。在这种情况下,可以以各种方式和/或方式的组合(诸如,至少部分地以固件和/或硬件的形式,所述固件和/或硬件包括但不限于一个或多个专用集成电路(“ASIC”)、标准集成电路、执行适当指令并包括微控制器和/或嵌入式控制器的控制器、、现场可编程门阵列(“FPGA”)、复杂可编程逻辑装置(“CPLD”)等)来实现或提供组件/模块中的一些或全部。系统组件和/或数据结构中的一些或全部也可作为内容(例如,作为可执行或其他机器可读的软件指令或结构化数据)而被存储在非暂时性计算机可读介质(例如,作为硬盘、存储器、计算机网络或蜂窝无线网络或其他数据传输介质,或者通过适当的驱动或经由适当的连接读取的便携式介质物品(诸如,DVD或闪存装置)),以便使能或配置计算机可读介质和/或一个或多个关联的计算系统或装置来执行或另外使用或提供用于执行描述的技术中的至少一些技术的内容。
无论是单独还是以多处理布置,都可采用一个或多个处理器、简单的微控制器、控制器等来执行存储在非暂时性计算机可读介质上的指令序列以实现本公开的实施例。在一些实施例中,可使用硬连线电路代替软件指令或与软件指令组合使用。因此,本公开的实施例不限于硬件电路、固件和/或软件中的任何特定组合。
如在此时用的术语“计算机可读介质”表示存储可提供给处理器以执行的指令的任何介质。这种介质可具有许多形式,包括但不限于非易失性介质和易失性介质。非暂时性计算机可读介质的常用形式包括:例如,软盘、软磁盘、硬盘、磁带或任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁盘或者存储可由处理器执行的指令的任何其他介质。
可至少部分地在便携式装置上实现本公开的一些实施例。如在此使用的“便携式装置”和/或“移动装置”是指具有接收无线信号的能力的任何便携式或可移动电子装置,包括但不限于多媒体播放器、通信装置、计算装置、导航装置等。因此,移动装置包括(但不限于)用户设备(UE)、膝上型计算机、平板计算机、便携式数字助理(PDA)、MP3播放器、手持PC、即时消息装置(IMD)、蜂窝电话、全球导航卫星系统(GNSS)接收器、手表或可佩戴和/或携带在人身上的任何这种装置。
鉴于本公开,如本领域普通技术人员将理解的,可在集成电路(IC)中实现本公开的各种实施例,其中,集成电路(IC)也称为微芯片、硅芯片、计算机芯片或仅仅称为“芯片”。这样的IC可以是例如宽带和/或基带调制解调器芯片。
虽然已经描述了一些实施例,但是将理解,在不脱离本公开的范围的情况下,可进行各种修改。因此,本领域普通技术人员将清楚,本公开不限于在此描述的实施例中的任何实施例,而是具有仅由权利要求及其等同物所限定的范围。
Claims (20)
1.一种使用基于区域的深度学习模型的对象检测的方法,包括:
使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域;
使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数;
在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。
2.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,对象检测为行人检测。
3.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,基于区域的深度学习模型为快速的基于区域的卷积神经网络。
4.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,基于区域的深度学习模型为基于区域的全卷积网络。
5.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,置信水平包括感兴趣区域为背景的概率PB和感兴趣区域为前景的概率PF。
6.根据权利要求5所述的使用基于区域的深度学习模型的对象检测的方法,其中,由下游分类器分配给感兴趣区域的背景分数是s0,根据以下公式提高s0:
7.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,使用分配的感兴趣区域的置信水平来提高由下游分配器分配给每个感兴趣区域的背景分数的步骤包括:
迭代地精细化提高的背景分数。
8.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,还使用语义分割掩码提高由下游分类器分配给每个感兴趣区域的背景分数。
9.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,还使用光流大小来提高由下游分类器分配给每个感兴趣区域的背景分数。
10.一种能够使用基于区域的深度学习模型进行对象检测的设备,包括:
一个或多个非暂时性计算机可读介质;
至少一个处理器,当执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤:
使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域;
使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数;
在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。
11.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,对象检测为行人检测。
12.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,基于区域的深度学习模型为快速的基于区域的卷积神经网络。
13.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,基于区域的深度学习模型为基于区域的全卷积网络。
14.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,置信水平包括感兴趣区域为背景的概率PB和感兴趣区域为前景的概率PF。
15.根据权利要求14所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,由下游分类器分配给感兴趣区域的背景分数是s0,根据以下公式提高s0:
16.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,使用分配的感兴趣区域的置信水平来提高由下游分配器分配给每个感兴趣区域的背景分数的步骤包括:
迭代地精细化提高的背景分数。
17.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,还使用语义分割掩码提高由下游分类器分配给每个感兴趣区域的背景分数。
18.根据权利要求10所述的能够使用基于区域的深度学习模型进行对象检测的设备,其中,还使用光流大小提高由下游分类器分配给每个感兴趣区域的背景分数。
19.一种制造芯片组的方法,包括:
制造芯片组,所述芯片组包括:
至少一个处理器,当执行存储在一个或多个非暂时性计算机可读介质上的指令时,执行以下步骤:
使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域;
使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数;
在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率,
所述一个或多个非暂时性计算机可读介质,存储所述指令。
20.一种测试设备的方法,包括:
测试设备是否具有至少一个处理器,其中,所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时,执行以下步骤:
使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域;
使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数;
在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率,
测试所述设备是否具有存储所述指令的所述一个或多个非暂时性计算机可读介质。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662431086P | 2016-12-07 | 2016-12-07 | |
US62/431,086 | 2016-12-07 | ||
US15/478,947 US10380741B2 (en) | 2016-12-07 | 2017-04-04 | System and method for a deep learning machine for object detection |
US15/478,947 | 2017-04-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108171233A true CN108171233A (zh) | 2018-06-15 |
CN108171233B CN108171233B (zh) | 2023-04-18 |
Family
ID=62243377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711201443.7A Active CN108171233B (zh) | 2016-12-07 | 2017-11-27 | 使用基于区域的深度学习模型的对象检测的方法和设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10380741B2 (zh) |
KR (1) | KR102341459B1 (zh) |
CN (1) | CN108171233B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977782A (zh) * | 2019-02-27 | 2019-07-05 | 浙江工业大学 | 基于目标位置信息推理的跨店经营行为检测方法 |
CN110222636A (zh) * | 2019-05-31 | 2019-09-10 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
CN110298345A (zh) * | 2019-07-05 | 2019-10-01 | 福州大学 | 一种医学图像数据集的感兴趣区域自动标注方法 |
CN110490171A (zh) * | 2019-08-26 | 2019-11-22 | 睿云联(厦门)网络通讯技术有限公司 | 一种危险姿态识别方法、装置、计算机设备及存储介质 |
CN111191083A (zh) * | 2019-09-23 | 2020-05-22 | 牧今科技 | 用于对象标识的方法和计算系统 |
CN113196291A (zh) * | 2019-01-23 | 2021-07-30 | 动态Ad有限责任公司 | 自动选择用于注释的数据样本 |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769453B2 (en) * | 2017-05-16 | 2020-09-08 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling operation of vehicle |
US10255681B2 (en) * | 2017-03-02 | 2019-04-09 | Adobe Inc. | Image matting using deep learning |
US10678244B2 (en) | 2017-03-23 | 2020-06-09 | Tesla, Inc. | Data synthesis for autonomous control systems |
US10496895B2 (en) * | 2017-03-28 | 2019-12-03 | Facebook, Inc. | Generating refined object proposals using deep-learning models |
WO2018212538A1 (en) * | 2017-05-16 | 2018-11-22 | Samsung Electronics Co., Ltd. | Electronic device and method of detecting driving event of vehicle |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US10592786B2 (en) * | 2017-08-14 | 2020-03-17 | Huawei Technologies Co., Ltd. | Generating labeled data for deep object tracking |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11282389B2 (en) | 2018-02-20 | 2022-03-22 | Nortek Security & Control Llc | Pedestrian detection for vehicle driving assistance |
US10586336B2 (en) * | 2018-05-18 | 2020-03-10 | Hong Kong Applied Science and Technology Research Institute Company Limited | Image pre-processing for accelerating cytological image classification by fully convolutional neural networks |
CN108830205B (zh) * | 2018-06-04 | 2019-06-14 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
US11592818B2 (en) * | 2018-06-20 | 2023-02-28 | Zoox, Inc. | Restricted multi-scale inference for machine learning |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
CN117710647A (zh) * | 2018-06-20 | 2024-03-15 | 祖克斯有限公司 | 从机器学习模型输出推断出的实例分割 |
US10936922B2 (en) | 2018-06-20 | 2021-03-02 | Zoox, Inc. | Machine learning techniques |
US10817740B2 (en) * | 2018-06-20 | 2020-10-27 | Zoox, Inc. | Instance segmentation inferred from machine learning model output |
CN109036522B (zh) * | 2018-06-28 | 2021-08-17 | 深圳视见医疗科技有限公司 | 图像处理方法、装置、设备及可读存储介质 |
CN108960124B (zh) * | 2018-06-28 | 2021-10-01 | 北京陌上花科技有限公司 | 用于行人再识别的图像处理方法及装置 |
CN109063586A (zh) * | 2018-07-11 | 2018-12-21 | 东南大学 | 一种基于候选优化的Faster R-CNN驾驶员检测方法 |
KR102121958B1 (ko) * | 2018-07-18 | 2020-06-11 | 주식회사 케이엠티엘 | 콘크리트 구조물 결함 분석 서비스 제공 방법, 시스템 및 컴퓨터 프로그램 |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
CN109325520B (zh) * | 2018-08-24 | 2021-06-29 | 北京航空航天大学 | 一种石油泄漏的检查方法、装置及系统 |
CN110569696A (zh) * | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 用于车辆部件识别的神经网络系统、方法和装置 |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
CN109242844B (zh) * | 2018-09-04 | 2021-08-06 | 青岛大学附属医院 | 基于深度学习的胰腺癌肿瘤自动识别系统、计算机设备、存储介质 |
KR102195940B1 (ko) | 2018-09-18 | 2020-12-28 | 전남대학교 산학협력단 | 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법 |
AU2019343959B2 (en) * | 2018-09-20 | 2022-05-26 | Motorola Solutions, Inc. | Region proposal with tracker feedback |
US10796152B2 (en) | 2018-09-21 | 2020-10-06 | Ancestry.Com Operations Inc. | Ventral-dorsal neural networks: object detection via selective attention |
US10303981B1 (en) * | 2018-10-04 | 2019-05-28 | StradVision, Inc. | Learning method and testing method for R-CNN based object detector, and learning device and testing device using the same |
SG11202103493QA (en) | 2018-10-11 | 2021-05-28 | Tesla Inc | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US10438082B1 (en) * | 2018-10-26 | 2019-10-08 | StradVision, Inc. | Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same |
CN109492579B (zh) * | 2018-11-08 | 2022-05-10 | 广东工业大学 | 一种基于st-sin的视频物体检测方法及系统 |
CN109670405B (zh) * | 2018-11-23 | 2021-01-19 | 华南理工大学 | 一种基于深度学习的复杂背景行人检测方法 |
CN109522855B (zh) * | 2018-11-23 | 2020-07-14 | 广州广电银通金融电子科技有限公司 | 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质 |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
CN109583396A (zh) * | 2018-12-05 | 2019-04-05 | 广东亿迅科技有限公司 | 一种基于cnn两阶段人体检测的区域防范方法、系统以及终端 |
CN109726661B (zh) * | 2018-12-21 | 2021-12-17 | 网易有道信息技术(北京)有限公司 | 图像处理方法及装置、介质和计算设备 |
CN109685066B (zh) * | 2018-12-24 | 2021-03-09 | 中国矿业大学(北京) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 |
KR102082129B1 (ko) * | 2018-12-26 | 2020-02-27 | 상명대학교산학협력단 | 영상 인식 기반 동물 특이 종 인식 장치 및 방법 |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
CN111383246B (zh) * | 2018-12-29 | 2023-11-07 | 杭州海康威视数字技术股份有限公司 | 条幅检测方法、装置及设备 |
CN111382834B (zh) * | 2018-12-29 | 2023-09-29 | 杭州海康威视数字技术股份有限公司 | 一种置信度比较方法及装置 |
US10387752B1 (en) * | 2019-01-22 | 2019-08-20 | StradVision, Inc. | Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same |
US10430691B1 (en) * | 2019-01-22 | 2019-10-01 | StradVision, Inc. | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring |
US10423860B1 (en) * | 2019-01-22 | 2019-09-24 | StradVision, Inc. | Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same |
US10402695B1 (en) * | 2019-01-23 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same |
US10387754B1 (en) * | 2019-01-23 | 2019-08-20 | StradVision, Inc. | Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same |
CN111563869B (zh) * | 2019-01-25 | 2023-07-21 | 宁波舜宇光电信息有限公司 | 用于摄像模组质检的污点测试方法 |
US10776647B2 (en) * | 2019-01-31 | 2020-09-15 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM to thereby achieve safety of autonomous driving |
US10726279B1 (en) * | 2019-01-31 | 2020-07-28 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving |
US10713815B1 (en) * | 2019-01-31 | 2020-07-14 | StradVision, Inc. | Method and device for supporting administrators to processes of object detectors to provide logical driving |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
CN109886947A (zh) * | 2019-02-19 | 2019-06-14 | 浙江理工大学 | 基于区域的卷积神经网络的高压电线缺陷检测方法 |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
KR102315854B1 (ko) * | 2019-02-20 | 2021-10-20 | 경북대학교 산학협력단 | 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템 |
CN110135243B (zh) * | 2019-04-02 | 2021-03-19 | 上海交通大学 | 一种基于两级注意力机制的行人检测方法及系统 |
CN110298821A (zh) * | 2019-05-28 | 2019-10-01 | 昆明理工大学 | 一种基于Faster R-CNN的钢筋检测方法 |
US11605236B2 (en) * | 2019-06-28 | 2023-03-14 | Zoox, Inc. | Training a machine-learned model to detect low variance regions |
US11163990B2 (en) * | 2019-06-28 | 2021-11-02 | Zoox, Inc. | Vehicle control system and method for pedestrian detection based on head detection in sensor data |
US11610078B2 (en) * | 2019-06-28 | 2023-03-21 | Zoox, Inc. | Low variance region detection for improved high variance region detection using machine learning |
KR102615422B1 (ko) | 2019-10-08 | 2023-12-20 | 삼성디스플레이 주식회사 | 물체 검출 후-처리 장치, 및 이를 포함하는 표시 장치 |
CN110826555B (zh) * | 2019-10-12 | 2021-05-04 | 天津大学 | 一种人机协同的图像目标检测数据半自动标注方法 |
EP3809285B1 (en) | 2019-10-16 | 2023-05-10 | Samsung Electronics Co., Ltd. | Method and apparatus with data processing |
KR102139582B1 (ko) | 2019-12-05 | 2020-07-29 | 주식회사 인텔리빅스 | 다중 roi 및 객체 검출 dcnn 기반의 cctv 영상분석장치 및 그 장치의 구동방법 |
CN110992349A (zh) * | 2019-12-11 | 2020-04-10 | 南京航空航天大学 | 一种基于深度学习的地下管道异常自动化定位与识别方法 |
KR102349854B1 (ko) * | 2019-12-30 | 2022-01-11 | 엘아이지넥스원 주식회사 | 표적 추적 시스템 및 방법 |
CN111444816A (zh) * | 2020-01-14 | 2020-07-24 | 北京银河信通科技有限公司 | 一种基于Faster RCNN的多尺度密集行人检测方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111368637B (zh) * | 2020-02-10 | 2023-08-11 | 南京师范大学 | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 |
EP3882823A1 (en) | 2020-03-17 | 2021-09-22 | Samsung Electronics Co., Ltd. | Method and apparatus with softmax approximation |
CN111428649B (zh) * | 2020-03-26 | 2021-02-09 | 自然资源部国土卫星遥感应用中心 | 一种风力发电设施遥感智能提取方法 |
CN111629211B (zh) * | 2020-04-30 | 2022-10-28 | 网宿科技股份有限公司 | 一种对视频进行转码的方法和装置 |
CN111629212B (zh) * | 2020-04-30 | 2023-01-20 | 网宿科技股份有限公司 | 一种对视频进行转码的方法和装置 |
US11430240B2 (en) * | 2020-05-06 | 2022-08-30 | Volvo Car Corporation | Methods and systems for the automated quality assurance of annotated images |
CN111458269A (zh) * | 2020-05-07 | 2020-07-28 | 厦门汉舒捷医疗科技有限公司 | 一种外周血淋巴微核细胞图像人工智能识别方法 |
CN111583293B (zh) * | 2020-05-11 | 2023-04-11 | 浙江大学 | 一种面向多色双光子图像序列的自适应图像分割方法 |
US11254331B2 (en) * | 2020-05-14 | 2022-02-22 | StradVision, Inc. | Learning method and learning device for updating object detector, based on deep learning, of autonomous vehicle to adapt the object detector to driving circumstance, and updating method and updating device using the same |
KR102497640B1 (ko) * | 2020-08-25 | 2023-02-08 | 한국과학기술원 | 이미지의 객체 감지 및 분류 방법 및 시스템 |
CN114549390A (zh) * | 2020-11-25 | 2022-05-27 | 鸿富锦精密电子(成都)有限公司 | 电路板检测方法、电子装置及存储介质 |
CN112800942B (zh) * | 2021-01-26 | 2024-02-13 | 泉州装备制造研究所 | 一种基于自校准卷积网络的行人检测方法 |
KR102441103B1 (ko) * | 2021-03-18 | 2022-09-07 | 순천향대학교 산학협력단 | 객체 식별 무인 항공기 및 무인 항공기의 객체 식별 방법 |
CN114332456A (zh) * | 2022-03-16 | 2022-04-12 | 山东力聚机器人科技股份有限公司 | 大分辨率图像的目标检测和识别方法及装置 |
KR102693476B1 (ko) * | 2022-04-22 | 2024-08-08 | 국립한밭대학교 산학협력단 | 실내환경 모니터링을 위한 드론 운용 시스템 및 그 방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102388391A (zh) * | 2009-02-10 | 2012-03-21 | 汤姆森特许公司 | 基于前景-背景约束传播的视频抠图 |
US20140072213A1 (en) * | 2012-09-13 | 2014-03-13 | Los Alamos National Security, Llc | Object detection approach using generative sparse, hierarchical networks with top-down and lateral connections for combining texture/color detection and shape/contour detection |
US20140241599A1 (en) * | 2013-02-27 | 2014-08-28 | Siemens Aktiengesellschaft | Providing real-time marker detection for a stent in medical imaging |
US20160104058A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Generic object detection in images |
CN106022232A (zh) * | 2016-05-12 | 2016-10-12 | 成都新舟锐视科技有限公司 | 基于深度学习的车牌检测方法 |
CN106127173A (zh) * | 2016-06-30 | 2016-11-16 | 北京小白世纪网络科技有限公司 | 一种基于深度学习的人体属性识别方法 |
CN106156744A (zh) * | 2016-07-11 | 2016-11-23 | 西安电子科技大学 | 基于cfar检测与深度学习的sar目标检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9058541B2 (en) | 2012-09-21 | 2015-06-16 | Fondation De L'institut De Recherche Idiap | Object detection method, object detector and object detection computer program |
US9940533B2 (en) | 2014-09-30 | 2018-04-10 | Qualcomm Incorporated | Scanning window for isolating pixel values in hardware for computer vision operations |
CN104408743A (zh) * | 2014-11-05 | 2015-03-11 | 百度在线网络技术(北京)有限公司 | 图像分割方法和装置 |
GB2537681B (en) | 2015-04-24 | 2018-04-25 | Univ Oxford Innovation Ltd | A method of detecting objects within a 3D environment |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
US10032067B2 (en) * | 2016-05-28 | 2018-07-24 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
-
2017
- 2017-04-04 US US15/478,947 patent/US10380741B2/en active Active
- 2017-05-16 KR KR1020170060346A patent/KR102341459B1/ko active IP Right Grant
- 2017-11-27 CN CN201711201443.7A patent/CN108171233B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102388391A (zh) * | 2009-02-10 | 2012-03-21 | 汤姆森特许公司 | 基于前景-背景约束传播的视频抠图 |
US20140072213A1 (en) * | 2012-09-13 | 2014-03-13 | Los Alamos National Security, Llc | Object detection approach using generative sparse, hierarchical networks with top-down and lateral connections for combining texture/color detection and shape/contour detection |
US20140241599A1 (en) * | 2013-02-27 | 2014-08-28 | Siemens Aktiengesellschaft | Providing real-time marker detection for a stent in medical imaging |
US20160104058A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Generic object detection in images |
CN106022232A (zh) * | 2016-05-12 | 2016-10-12 | 成都新舟锐视科技有限公司 | 基于深度学习的车牌检测方法 |
CN106127173A (zh) * | 2016-06-30 | 2016-11-16 | 北京小白世纪网络科技有限公司 | 一种基于深度学习的人体属性识别方法 |
CN106156744A (zh) * | 2016-07-11 | 2016-11-23 | 西安电子科技大学 | 基于cfar检测与深度学习的sar目标检测方法 |
Non-Patent Citations (1)
Title |
---|
SHAOQING REN 等: "Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113196291A (zh) * | 2019-01-23 | 2021-07-30 | 动态Ad有限责任公司 | 自动选择用于注释的数据样本 |
CN109977782A (zh) * | 2019-02-27 | 2019-07-05 | 浙江工业大学 | 基于目标位置信息推理的跨店经营行为检测方法 |
CN109977782B (zh) * | 2019-02-27 | 2021-01-08 | 浙江工业大学 | 基于目标位置信息推理的跨店经营行为检测方法 |
CN110222636A (zh) * | 2019-05-31 | 2019-09-10 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
CN110298345A (zh) * | 2019-07-05 | 2019-10-01 | 福州大学 | 一种医学图像数据集的感兴趣区域自动标注方法 |
CN110490171A (zh) * | 2019-08-26 | 2019-11-22 | 睿云联(厦门)网络通讯技术有限公司 | 一种危险姿态识别方法、装置、计算机设备及存储介质 |
CN111191083A (zh) * | 2019-09-23 | 2020-05-22 | 牧今科技 | 用于对象标识的方法和计算系统 |
CN111191083B (zh) * | 2019-09-23 | 2021-01-01 | 牧今科技 | 用于对象标识的方法和计算系统 |
Also Published As
Publication number | Publication date |
---|---|
US10380741B2 (en) | 2019-08-13 |
KR20180065856A (ko) | 2018-06-18 |
CN108171233B (zh) | 2023-04-18 |
KR102341459B1 (ko) | 2021-12-21 |
US20180158189A1 (en) | 2018-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171233A (zh) | 使用基于区域的深度学习模型的对象检测的方法和设备 | |
Wang et al. | Multiscale visual attention networks for object detection in VHR remote sensing images | |
KR102513089B1 (ko) | 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치 | |
US10692243B2 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN109886286A (zh) | 基于级联检测器的目标检测方法、目标检测模型及系统 | |
CN108830188A (zh) | 基于深度学习的车辆检测方法 | |
EP3493106B1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
US9858503B2 (en) | Acceleration of linear classifiers | |
EP3493104A1 (en) | Optimizations for dynamic object instance detection, segmentation, and structure mapping | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN114998748B (zh) | 遥感图像目标精细识别方法、电子设备及存储介质 | |
CN111598155A (zh) | 一种基于深度学习的细粒度图像弱监督目标定位方法 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
Qiu et al. | Bridge detection method for HSRRSIs based on YOLOv5 with a decoupled head | |
Wang | Remote sensing image semantic segmentation algorithm based on improved ENet network | |
Karne et al. | Convolutional neural networks for object detection and recognition | |
Oga et al. | River state classification combining patch-based processing and CNN | |
US20220391692A1 (en) | Semantic understanding of dynamic imagery using brain emulation neural networks | |
CN114998592A (zh) | 用于实例分割的方法、装置、设备和存储介质 | |
Shi et al. | Fine object change detection based on vector boundary and deep learning with high-resolution remote sensing images | |
Zhou et al. | Learning a superpixel-driven speed function for level set tracking | |
CN110287970A (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
Zhang et al. | MKLM: a multiknowledge learning module for object detection in remote sensing images | |
CN116778335B (zh) | 一种基于交叉域师生互训的倒塌建筑物检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |