CN107004138A - 利用神经网络的对象检测 - Google Patents
利用神经网络的对象检测 Download PDFInfo
- Publication number
- CN107004138A CN107004138A CN201480083568.2A CN201480083568A CN107004138A CN 107004138 A CN107004138 A CN 107004138A CN 201480083568 A CN201480083568 A CN 201480083568A CN 107004138 A CN107004138 A CN 107004138A
- Authority
- CN
- China
- Prior art keywords
- convolutional layer
- layer
- convolutional
- middle classification
- characteristic pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007935 neutral effect Effects 0.000 title description 13
- 238000001514 detection method Methods 0.000 title description 4
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000004590 computer program Methods 0.000 claims abstract description 7
- 238000003475 lamination Methods 0.000 claims description 10
- 230000001052 transient effect Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 description 10
- 239000000463 material Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 241000207875 Antirrhinum Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007850 degeneration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001093 holography Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
根据本发明的示例方面,提供了一种装置,包括至少一个处理核和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为利用该至少一个处理核而使得该装置至少:运行包括输入层的卷积神经网络,该输入层被设置成向第一卷积层和最后卷积层提供信号;运行第一中间分类器,该第一中间分类器对该第一卷积层的特征图的集合进行操作;以及基于该第一中间分类器的决策而决定中止或继续对信号集合的处理。
Description
技术领域
本发明涉及使用计算网络检测对象。
背景技术
机器学习是能够从数据进行学习的对算法设计进行开拓的学科。机器学习算法针对输入进行调适从而构建模型,并且随后对新数据使用从而做出预测。机器学习与统计、人工智能和优化具有关联,并且经常在难以在其中形成基于明确规则的算法的任务中被采用。这样的任务的示例包括光学图像识别、字符识别和垃圾邮件过滤。
人工神经网络是能够进行机器学习的计算工具。在随后将被称作神经网络的人工神经网络中,被称作“神经元”的互连计算单元被允许针对训练数据进行调适,并且随后共同进行工作以在模型中产生预测,这在一定程度上类似于生物神经网络中的处理。
神经网络可以包括层的集合,第一层是被配置为接收输入的输入层。该输入层包括被连接至包括在第二层中的神经元的神经元,上述第二层可以被称作隐藏层。隐藏层的神经元可以连接至另外的隐藏层或输出层。
在一些神经网络中,一个层中的每个神经元具有到后续层中的每个神经元的连接。这样的神经网络被称作全连接网络。训练数据被用来允许每个连接从而假设表征连接强度的权重。一些神经网络包括全连接层以及并非完全连接的层。卷积神经网络中的全连接层可以被称作密集连接层。
在一些神经网络中,信号从输入层严格地单向传播至输出层,这意味着并不存在朝向输入层反向传播的连接。这样的神经网络被称作正向馈送神经网络。在存在朝向输入层反向传播的连接的情况下,所讨论的神经网络可以被称作循环神经网络。
卷积神经网络CNN是包括并非完全连接的层的正向馈送神经网络。在CNN中,卷积层中的神经元被连接至较早层中的子集或邻居中的神经元。这使得能够至少在一些CNN中保留输入中的空间特征。
发明内容
本发明由独立权利要求的特征所限定。一些具体实施例在从属权利要求中限定。
根据本发明的第一方面,提供了一种装置,包括至少一个处理核和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为利用该至少一个处理核而使得该装置至少:运行包括输入层的卷积神经网络,该输入层被设置成向第一卷积层和最后卷积层提供信号;运行第一中间分类器,该第一中间分类器对该第一卷积层的特征图集合进行操作;以及基于该第一中间分类器的决策而决定中止或继续对信号集合的处理。
第一方面的各个实施例可以包括以下无序列表中的至少一个特征:
·该卷积神经网络包括第一卷积层和最后卷积层之间的第二卷积层,以及对该第二卷积层的特征图集合进行操作的第二中间分类器,并且该装置被配置为基于该第二中间分类器的决策而决定中止或继续对信号集合的处理。
·该卷积神经网络包括第二卷积层和最后卷积层之间的第三卷积层,以及对该第三卷积层的特征图集合进行操作的第三中间分类器,并且该装置被配置为基于该第三中间分类器的决策而决定中止或继续对信号集合的处理。
·该第一卷积层的特征图集合包括该第一卷积层的所有特征图的子集。
·该第二卷积层的特征图集合包括该第二卷积层的所有特征图的子集。
·该第三卷积层的特征图集合包括该第三卷积层的所有特征图的子集。
·该信号集合包括来自输入层的图像的经处理子图像。
·该信号集合包括来自输入层的图像的经处理版本。
·该卷积神经网络被配置为检测人的图像。
·该卷积神经网络被配置为检测行人的图像。
·该装置被配置为基于至少一种准则选择该第一卷积层的特征图集合、该第二卷积层的特征图集合以及该第三卷积层的特征图集合中的至少一个。
根据本发明的第二方面,提供了一种方法,包括:运行包括输入层的卷积神经网络,该输入层被设置成向第一卷积层和最后卷积层提供信号;运行第一中间分类器,该第一中间分类器对该第一卷积层的特征图集合进行操作;以及基于该第一中间分类器的决策而决定中止或继续对信号集合的处理。
第二方面的各个实施例可以包括与结合第一方面所给出的先前无序列表中特征相对应的至少一个特征。
根据本发明的第三方面,提供了一种装置,包括:用于运行包括输入层的卷积神经网络的部件,该输入层被设置成向第一卷积层和最后卷积层提供信号;用于运行第一中间分类器的部件,该第一中间分类器对该第一卷积层的特征图集合进行操作;以及用于基于该第一中间分类器的决策而决定中止或继续对信号集合的处理的部件。
根据本发明的第四方面,提供了一种具有存储在其上的计算机可读指令的非瞬态计算机可读介质,该计算机可读指令在被至少一个处理器执行时使得装置至少:运行包括输入层的卷积神经网络,该输入层被设置成向第一卷积层和最后卷积层提供信号;运行第一中间分类器,该第一中间分类器对该第一卷积层的特征图集合进行操作;以及基于该第一中间分类器的决策而决定中止或继续对信号集合的处理。
根据本发明的第五方面,提供了一种被配置为使得依据第二方面的方法得以被执行的计算机程序。
工业实用性
本发明的至少一些实施例能够在增强基于机器的模式识别中得到工业应用。
附图说明
图1图示了能够支持本发明的至少一些实施例的示例系统;
图2图示了依据本发明的至少一些实施例的示例CNN;
图3图示了能够支持本发明的至少一些实施例的示例装置;
图4图示了依据本发明的至少一些实施例的示例中间分类器;
图5图示了依据本发明的至少一些实施例的CNN中的逐层决策;以及
图6是依据本发明的至少一些实施例的方法的流程图。
具体实施方式
通过允许中间分类器在图像数据被进一步提供在卷积神经网络中之前中止处理图像数据,对模式数据进行分析的处理负荷有所减少。该中间分类器可以对先前卷积层的特征图进行操作。可以使用多个中间分类器,每个中间分类器对先前层的特征图进行操作,其中每个中间分类器对不同卷积层的特征图进行操作。
图1图示了能够支持本发明的至少一些实施例的示例系统。图1具有行人120在其上行走的道路101的视图110。虽然在这里结合检测行人进行描述,但是本发明并不局限于此,而是如本领域技术人员将会理解的,本发明还能够更为普遍地被用于视觉、听觉或其它类型的数据的模式识别。例如,根据所讨论的实施例,手写识别、面部识别、交通标志识别、语音识别、语言识别、标志语言识别和/或垃圾邮件识别都可以从本发明获益。
在图1中,道路101由相机130进行成像。相机130被配置为捕捉至少部分覆盖该道路的视图110。相机130可以被配置为对从相机130中所包括的图像捕捉设备—诸如电荷耦合设备CCD—获得的图像数据进行预处理。预处理的示例包括简化为黑白、对比度调节和亮度平衡,以增加所捕捉图像中呈现的动态范围。在一些实施例中,该图像数据还被缩放为适于被馈送至图像识别算法中的比特深度。预处理可以包括对诸如区域125的感兴趣区域的选择,例如用于馈送至图像识别算法中。预处理在本质上可能并不存在或受到限制,因为CNN的一个优势在于,在将输入数据提供至CNN之前通常并不需要对其进行广泛预处理。相机130例如可以被安装在被配置为自行驾驶的汽车中。可替换地,相机130可以被安装在被设计为由人类驾驶员驾驶的汽车中,但是在该汽车将要撞到行人或动物的情况下提供警告和/或自动刹车。
数据从相机130被提供至卷积神经网络,卷积神经网络包括阶段140、150、160和170。阶段140包括第一卷积层,第一卷积层被配置为对从相机130所接收的图像进行处理。第一卷积层140可以包括多个内核,每个内核被设置成对来自从相机130所接收的图像的一部分的数据进行处理。被提供至内核的图像的该部分可以被称作该内核的接受域(receptive field)。内核的一种可替换术语是过滤器。相邻内核的相应域可以在一定程度上有所重叠,这可以使得卷积神经网络能够对图像中移动的对象作出响应。在一些实施例中,第一卷积层140的内核采用相同的权重,这意味着虽然权重在内核中所包括的神经元之间可能有所不同,但是内核权重表对于第一卷积层140的每个内核是相同的。这减少了独立权重的数量并且使得卷积神经网络以类似方式对图像的不同部分进行处理。例如,这在行人检测中可能是有用的,因为行人可能出现在图像的任意部分之中。对独立权重的数量进行控制还可以提供对卷积神经网络的训练更为容易的优势。
第一卷积层140具有多个特征图。中间分类器150可以接收该特征图,或者被使得能够从第一卷积层140读取该特征图。中间分类器150可以使用第一卷积层140的所有特征图或者仅使用它们的子集。就此而言,子集表示包括第一卷积层140的至少一个但并非全部特征图的集合。中间分类器150可以被配置为决定在该图像或子图像中没有行人,并且防止对第二卷积层160中的图像数据进一步处理。这具有节约计算资源的效果。
在一些实施例中,中间分类器150被配置为决定防止对应于第一卷积层140的内核子集的图像数据的进一步处理。例如,即使视图110中存在行人,该行人的图像也可能仅覆盖视图110的一小部分,例如区域125。其余部分可以被称作背景。在这种情况下,对进一步来自并未从区域125接收到信号的内核的数据进行处理将不会对有关视图110是否包括行人的最终决策有所贡献,而仅有从区域125接收到信号的一个或多个内核才会对该决策作出贡献。就此而言,区域125可以被认为是视图110的子图像,其中视图110还包括其它子图像,每个子图像对应于内核的相应域。除此之外或可替换地,一个内核从其接收到信号的图像区域可以被认为是子图像。可以说中间分类器150被设置成防止对背景子图像的进一步处理。
中间分类器150可以被构造为使得其能够关于图像数据的进一步处理作出决定。例如,其可以被构造为对第一卷积层140的特征图的特性进行操作。如以上所提到的,仅使用第一卷积层140的特征图的子集节约了计算资源。在构造中间分类器的期间,第一卷积层140的哪些特征图具有最高的区分能力会变得显而易见,并且这些特征图可以被选择以便中间分类器150对其进行操作。
在中间分类器150中,第一卷积层140的所选择特征图可以被设置为决策树。这可以包括将它们级联为例如退化决策树以产生中间分类器。
中间分类器150对于其并不防止进一步处理的图像数据被提供至第二卷积层160。第二卷积层160可以包括多个内核,该多个内核被设置为接受第一卷积层140的输出,并且对该图像数据进一步进行处理。详细地,每个内核可以被设置为对来自第一卷积层140的一个或多个内核的数据进行处理。第一卷积层140中向第二卷积层160的内核提供信号的部分可以被称作第二卷积层160的内核的接受域。第二卷积层160的相邻内核的相应域可以在一定程度上有所重叠,这可以使得卷积神经网络能够对图像中移动的对象作出响应。在一些实施例中,第二卷积层160的内核采用相同的权重,这意味着虽然权重在内核中所包括的神经元之间可能有所不同,但是内核权重表对于第二卷积层160的每个内核是相同的。这减少了独立权重的数量并且使得卷积神经网络以相同方式对图像的不同部分进行处理。
第一卷积层140和第二卷积层160可以被使得能够学习不同级别的表示形式,其中较高和较低级别的概念在不同层中进行操控。因此,第一卷积层140和第二卷积层160能够以不同角度或方面对对象进行描述。在一些实施例中,这使得能够对不同的概念层面的子图像进行评估并且在早于最终决策的阶段对它们加以区分。换句话说,较早的分类器或判断可以排除并不包含目标模式的子图像,而使得后期层仅需要查看较小数量的数据。
图1的CNN的阶段170是决策层,决策层例如可以包括完全连接的层。在图1的示例中,决策层的输出是有关视图110中是否包括行人的确定结果。
虽然以上关于第一卷积层140和第二卷积层160进行了描述,但是在本发明的其它实施例中,可以进一步存在至少第三卷积层。在这样的情况下,还可以存在第二中间分类器,该第二中间分类器被设置为对第二卷积层160的特征图进行操作。该第二中间分类器随后可以防止对中间分类器150允许进入到第二卷积层160的一些背景子图像的进一步处理。这样设置的优势在于,与仅使用一个中间分类器的情形相比,决策层170接收甚至更少的背景子图像。
图1的相机130和CNN例如可以被包括在移动设备中,作为示例,上述移动设备诸如移动电话、智能电话或其它类似移动设备。该移动设备能够附接至汽车从而使得能够在前方出现行人的情况下对汽车驾驶员作出警告。
在一些实施例中,相机130和CNN并不包括在同一装置中。例如,相机130可以包括在汽车或移动设备中,并且相机130可以被设置为至少部分和/或以经处理和/或压缩的形式向在后端服务器设备或者汽车的计算机中运行的CNN提供其视频馈送。例如,该服务器可以将其所作出的决策的指示提供回汽车或移动设备。
在一些实施例中,CNN层——作为示例,诸如第一卷积层140和第二卷积层160——被包括在不同装置中。例如,第一装置可以包括相机130和第一卷积层140,而第二装置可以被配置为运行第二卷积层。原则上,第三装置可能运行中间分类器150。该第一、第二和/或第三装置例如可以包括移动设备,或者可替换地,它们中的至少一个例如可以包括后端服务器。在第一、第二和第三装置中的至少两个包括移动设备的情况下,它们可以被设置为例如经由近场通信接口互相通信,作为示例,上述近场通信接口诸如NFC或蓝牙。
图2图示了依据本发明的至少一些实施例的示例CNN。该示例CNN包括六个层,在图2中被表示为C1、C2、C3、C4、F5和F6。标记为“C”的层是卷积层,而标记为“F”的层是完全连接层。换句话说,最后两个层是完全连接的而前四个层是卷积的。最后层的输出是产生分别对应于行人和背景的置信度的两路判断。
在所图示的示例中,局部对比度归一化操作遵循前三个卷积层。子采样操作遵循该局部归一化操作。
在所图示的示例中,第一卷积层——输入——以1个像素的步幅利用大小为7×7×1的16个内核对134×70×1的输入图像进行过滤。第二卷积层采用第一卷积层的输出作为输入,上述输出例如可以被归一化和子采样。第二卷积层——层1——利用大小为5×5×16的32个内核对其输入进行过滤。第三卷积层——层2——具有连接至第二卷积层的输出的大小为5×5×32的32个内核,上述输出也可以被归一化和子采样。第四卷积层——层3——具有大小为5×5×32的内核。该完全连接层具有256个神经元。图2的CNN使用子采样来减少去往决策级的层维度。
图3图示了例如能够通过运行具有至少一个中间分类器的CNN而支持本发明的至少一些实施例的示例装置。图示了设备300,设备300例如可以包括计算机或计算设备。设备300中包括处理器310,处理器310例如可以包括单核或多核处理器,其中单核处理器包括一个处理核而多核处理器则包括多于一个的处理核。例如,处理器310可以包括QualcommSnapdragon 800处理器。处理器310可以包括多于一个的处理器。处理器核例如可以包括由HRM Holdings所制造的Cortex-A8处理核,或者由Advanced Micro Devices公司所生产的Brisbane处理核。处理器310可以包括至少一个Qualcomm Snapdragon和/或Intel Atom处理器。处理器310可以包括至少一个专用集成电路ASIC。处理器310可以包括至少一个现场可编程门阵列FPGA。处理器310可以包括用于在设备300中执行方法步骤的部件。处理器310可以至少部分由计算机指令所配置以执行动作。
设备300可以包括存储器320。存储器320可以包括随机存取存储器和/或持久存储器。存储器320可以包括至少一个RAM芯片。例如,存储器320可以包括磁性、光学和/或全息存储器。存储器320可以至少部分能够由处理器310进行访问。存储器320可以是用于存储信息的部件。存储器320可以包括处理器310被配置为对其进行执行的计算机指令。当被配置为使得处理器310执行某些动作的计算机指令被存储在存储器320中,并且设备300总体上被配置为在处理器310使用来自存储器320的计算机指令的指示下运行时,处理器310和/或其至少一个处理核可以被认为被配置为执行所述某些动作。存储器320可以至少部分包括在处理器310之中。
设备300可以包括发射器330。设备300可以包括接收器340。发射器330和接收器340可以分别被配置为依据至少一种蜂窝或非蜂窝标准来发射和接收信息。发射器330可以包括多于一个的发射器。接收器340可以包括多于一个的接收器340。例如,发射器330和/或接收器340可以被配置为依据WLAN、以太网、宽带码分多址WCDMA和/或全球微波接入可操作性WiMAX标准进行操作。
设备300可以包括用户接口UI 360。UI 360可以包括显示器、键盘和触摸屏中的至少一个。用户能够经由UI 360对设备300进行操作以例如对人工神经网络进行配置。
处理器310可以被提供以发射器,该发射器被设置为经由设备300内部的电引线向设备300中所包括的其它设备输出来自处理器310的信息。这样的发射器可以包括串行总线发射器,该串行总线发射器例如被设置为经由至少一条电引线向存储器320输出信息以便存储于其中。作为串行总线的可替换形式,发射器可以包括并行总线发射器。类似地,处理器310可以包括接收器,该接收器被设置为经由设备300内部的电引线从包括在设备300中的其它设备接收处理器310中的信息。这样的接收器可以包括串行总线接收器,该串行总线接收器被设置为例如经由至少一个电引线从接收器340接收信息,以供在处理器310中处理。作为串行总线的可替换形式,接收器可以包括并行总线接收器。
设备300可以包括图3中并未图示的另外的设备。设备300可以包括指纹传感器,该指纹传感器被设置成至少部分对设备300的用户进行认证。在一些实施例中,设备300不具有以上所描述的至少一个设备。
处理器310、存储器320、发射器330、接收器340和/或UI 360可以以多种不同的方式通过设备300内部的电引线进行互连。例如,以上所提到的每个设备都可以单独连接至设备300内部的主控总线从而允许设备交换信息。然而,如本领域技术人员将要意识到的,这仅是一个示例,并且根据实施例,对至少两个上述设备进行互连的各种方法都可以被选择而并不背离本发明的范围。
图4图示了依据本发明的至少一些实施例的示例中间分类器。该示例中间分类器基于图2的示例的层1。该层具有大小为64×32的16个特征图。这里,每个特征图自身是输入图像的一种表示形式,因此可以使用每个特征图对分类器进行训练。例如,一个特征图中的64×32=3048个元素可以级联为一个向量。例如,可以对支持向量机SVM或多层感知器MLP分类器进行训练。在图4的示例中,描述了SVM分类器。总体上,在该示例中,得到了能够根据它们的分类误差进行排序的16个线性SVM。为了节约计算资源,可以选择具有最高区分能力的前5个SVM以构建中间层分类器1。
接下来,简要描述经训练的SVM的排序。给定样本x,针对特征fi(x)(从第i个特征图所获得的矢量)的SVM分类器hi(x,wi)被定义为:
其中thi是在训练过程期间所获得的阈值。接着,可以计算每个SVM分类器的加权分类误差。可以首先选择具有最小分类误差的最佳的一个,并且接着在下一次迭代中重新计算训练样本的权重。该选择过程可以被重复直至所有SVM分类器都被选择。
构建层分类器的SVM的数量可以如下确定:层分类器应当过滤掉从之前层所幸存的背景图像窗口中的大约60%或70%,而使得包含行人——或者更一般地目标模式——的所有输入图像窗口都得以通过。经排序的SVM可以被逐个级联为退化决策树,直至该要求得以被满足,并且随后能够获得SVM的数量。同样,可以分别基于图2中的层2、层3和层4的特征图而得到中间层分类器2、3和4。最后,如图5中将会示出的,具有一个单独决策的原始CNN可以被改变为具有逐层决策的CNN。
换句话说,可以构造多个中间分类器,每个中间分类器对该中间分类器之前的卷积层的特征图进行操作。每个中间分类器可以被设置为防止进一步对并不包含CNN所寻找的模式的数据进行处理,从而获得节约计算资源的效果。对相应的之前卷积层的特征图的子集进行操作可以进一步节约计算资源。根据CNN架构,卷积神经网络中的多个层可以包括数十或者甚至数百个特征图,由此选择最能够区分的特征图可以根据架构而提供适度或非常高水平的计算资源节约。
图5图示了依据本发明的至少一些实施例的CNN中的逐层决策。在图5的系统中,类似于图2的CNN被提供以四个中间分类器。图4中图示了对层1的特征图进行操作的层分类器1的结构。
在所图示的示例中,中间分类器:层分类器1、层分类器2、层分类器3和层分类器4均被配置为防止对70%的背景素材——也就是输入图像中并不包括行人的部分——进一步进行处理。作为结果,仅有(1-0.7)4=0.8%的背景子图像保持在输出层中进行评估。在使用INRIA(行人)数据集的测试中,与没有中间决策的类似CNN相比,处理速度已经增加5.2倍。
虽然这里被描述为在每个卷积层之间包括中间分类器,但是在一些实施例中提供了更少的中间分类器。例如,在图5的系统中,仅具有第一中间分类器——也就是层1分类器——就已经提供了相比没有中间决策的CNN的计算优势,原因在于即使单个中间分类器也使得CNN的后续阶段中的背景素材的量有所减少。可替换地,在图5的系统中,可以仅使用层分类器1和层分类器2。
图6是依据本发明的至少一些实施例的方法的流程图。例如,所示方法的多个阶段可以在诸如图3的设备300的设备中执行。
阶段610包括运行包括输入层的卷积神经网络,该输入层被设置成向第一卷积层和最后卷积层提供信号。阶段620包括运行第一中间分类器,该第一中间分类器对该第一卷积层的特征图的集合进行操作。例如,该第一中间分类器可以处于该第一卷积层和最后卷积层之间。最后,阶段630包括基于该第一中间分类器的决策而决定中止或继续信号集合的处理。该信号集合例如可以包括被提供至该卷积神经网络的输入的子图像,或者更一般地包括子集,作为示例,诸如经过滤的子集。
所要理解的是,所公开的本发明的实施例并不局限于这里所公开的特定结构、处理步骤或材料,而是被扩展至相关领域技术人员将会认识到的其等同形式。还应当理解的是,这里所采用的术语仅是出于描述特定实施例的目的而并非意在作为限制。
贯穿该说明书对“一个实施例”或“实施例”的引用意味着结合该实施例所描述的特定特征、结构或特性包括在本发明的至少一些实施例中。因此,短语“在一个实施例中”或“在实施例中”在该说明书各处的出现并非必然全部都指代同一实施例。
如这里所使用的,多个事项、结构要素、组成要素和/或材料可以为了方便而出现在共同列表中。然而,这些列表应当被理解为该列表中的每个成员被各自识别为单独且唯一的成员。因此,在没有相反指示的情况下,这样的列表中并没有个体成员应当仅基于它们出现在共同群组中就被理解为是相同列表中的任何其它成员事实上的等同形式。此外,本发明的各个实施例和示例可以在这里连同其各个组件的替换形式进行引用。所要理解的是,这样的实施例、示例和替换形式并不被理解为彼此事实上的等同形式,而是要被理解为本发明的单独且自治的表示形式。
此外,所描述的特征、结构或特性可以在一个或多个实施例中以任意适当方式进行组合。在以下描述中,提供了很多具体细节,诸如长度、宽度、形状等的示例,从而提供对本发明实施例的全面理解。然而,本领域技术人员将会认识到,本发明能够在没有一个或多个具体细节的情况下进行实践,或者利用其它方法、组件、材料等进行实践。在其它实例中,并没有对示出或详细描述公知的结构、材料或操作从而避免对本发明的多个方面造成混淆。
虽然以上示例在一个或多个特定应用中对本发明的原则进行了阐述,但是对于本领域技术人员将会显而易见的是,可以在无需创造性劳动的情况下对实施方式的形式、使用和细节进行多种修改而并不背离本发明的原则和概念。因此,本发明意在仅由以下所给出的权利要求所限定。
Claims (25)
1.一种装置,包括至少一个处理核和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理核而使得所述装置至少:
运行包括输入层的卷积神经网络,所述输入层被设置成向第一卷积层和最后卷积层提供信号;
运行第一中间分类器,所述第一中间分类器对所述第一卷积层的特征图的集合进行操作,以及
基于所述第一中间分类器的决策而决定中止或继续对信号集合的处理。
2.根据权利要求1所述的装置,其中所述卷积神经网络包括第二卷积层和第二中间分类器,所述第二卷积层在所述第一卷积层和所述最后卷积层之间,所述第二中间分类器对所述第二卷积层的特征图的集合进行操作,并且所述装置被配置为基于所述第二中间分类器的决策而决定中止或继续对所述信号集合的处理。
3.根据权利要求2所述的装置,其中所述卷积神经网络包括第三卷积层和第三中间分类器,所述第三卷积层在所述第二卷积层和所述最后卷积层之间,所述第三中间分类器对所述第三卷积层的特征图的集合进行操作,并且所述装置被配置为基于所述第三中间分类器的决策而决定中止或继续对所述信号集合的处理。
4.根据权利要求1-3中任一项所述的装置,其中所述第一卷积层的特征图的所述集合包括所述第一卷积层的所有特征图的子集。
5.根据权利要求1-4中任一项所述的装置,其中所述第二卷积层的特征图的所述集合包括所述第二卷积层的所有特征图的子集。
6.根据权利要求1-5中任一项所述的装置,其中所述第三卷积层的特征图的所述集合包括所述第三卷积层的所有特征图的子集。
7.根据权利要求1-6中任一项所述的装置,其中所述信号集合包括来自所述输入层的图像的经处理的子图像。
8.根据权利要求1-6中任一项所述的装置,其中所述信号集合包括来自所述输入层的图像的经处理的版本。
9.根据权利要求1-8中任一项所述的装置,其中所述卷积神经网络被配置为检测人的图像。
10.根据权利要求9所述的装置,其中所述卷积神经网络被配置为检测行人的图像。
11.根据权利要求4-10中任一项所述的装置,其中所述装置被配置为基于至少一种准则选择所述第一卷积层的特征图的所述集合、所述第二卷积层的特征图的所述集合以及所述第三卷积层的特征图的所述集合中的至少一个。
12.一种方法,包括:
运行包括输入层的卷积神经网络,所述输入层被设置成向第一卷积层和最后卷积层提供信号;
运行第一中间分类器,所述第一中间分类器对所述第一卷积层的特征图的集合进行操作,以及
基于所述第一中间分类器的决策而决定中止或继续对信号集合的处理。
13.根据权利要求12所述的方法,其中所述卷积神经网络包括第二卷积层和第二中间分类器,所述第二卷积层在所述第一卷积层和所述最后卷积层之间,所述第二中间分类器对所述第二卷积层的特征图的集合进行操作,并且所述方法包括基于所述第二中间分类器的决策而决定中止或继续对所述信号集合的处理。
14.根据权利要求13所述的方法,其中所述卷积神经网络包括第三卷积层和第三中间分类器,所述第三卷积层在所述第二卷积层和所述最后卷积层之间,所述第三中间分类器对所述第三卷积层的特征图的集合进行操作,并且所述方法包括基于所述第三中间分类器的决策而决定中止或继续对所述信号集合的处理。
15.根据权利要求11-14中任一项所述的方法,其中所述第一卷积层的特征图的所述集合包括所述第一卷积层的所有特征图的子集。
16.根据权利要求11-15中任一项所述的方法,其中所述第二卷积层的特征图的所述集合包括所述第二卷积层的所有特征图的子集。
17.根据权利要求11-16中任一项所述的方法,其中所述第三卷积层的特征图的所述集合包括所述第三卷积层的所有特征图的子集。
18.根据权利要求11-17中任一项所述的方法,其中所述信号集合包括来自所述输入层的图像的经处理的子图像。
19.根据权利要求11-17中任一项所述的方法,其中所述信号集合包括来自所述输入层的图像的经处理的版本。
20.根据权利要求11-19中任一项所述的方法,其中所述卷积神经网络被配置为检测人的图像。
21.根据权利要求20所述的方法,其中所述卷积神经网络被配置为检测行人的图像。
22.根据权利要求15-21中任一项所述的方法,其中所述方法包括基于至少一种准则选择所述第一卷积层的特征图的所述集合、所述第二卷积层的特征图的所述集合以及所述第三卷积层的特征图的所述集合中的至少一个。
23.一种装置,包括:
用于运行包括输入层的卷积神经网络的部件,所述输入层被设置成向第一卷积层和最后卷积层提供信号;
用于运行第一中间分类器的部件,所述第一中间分类器对所述第一卷积层的特征图的集合进行操作,以及
用于基于所述第一中间分类器的决策而决定中止或继续对信号集合的处理的部件。
24.一种非瞬态计算机可读介质,具有存储在其上的计算机可读指令的集合,所述计算机可读指令在被至少一个处理器执行时使得装置至少:
运行包括输入层的卷积神经网络,所述输入层被设置成向第一卷积层和最后卷积层提供信号;
运行第一中间分类器,所述第一中间分类器对所述第一卷积层的特征图的集合进行操作,以及
基于所述第一中间分类器的决策而决定中止或继续对信号集合的处理。
25.一种计算机程序,被配置为使得根据权利要求11-22中的至少一项所述的方法得以被执行。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/094033 WO2016095117A1 (en) | 2014-12-17 | 2014-12-17 | Object detection with neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107004138A true CN107004138A (zh) | 2017-08-01 |
Family
ID=56125581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480083568.2A Pending CN107004138A (zh) | 2014-12-17 | 2014-12-17 | 利用神经网络的对象检测 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10275688B2 (zh) |
EP (1) | EP3234867A4 (zh) |
JP (1) | JP6488380B2 (zh) |
CN (1) | CN107004138A (zh) |
MX (1) | MX2017008086A (zh) |
WO (1) | WO2016095117A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470179A (zh) * | 2018-03-29 | 2018-08-31 | 百度在线网络技术(北京)有限公司 | 用于检测对象的方法和装置 |
WO2019136623A1 (en) * | 2018-01-10 | 2019-07-18 | Nokia Technologies Oy | Apparatus and method for semantic segmentation with convolutional neural network |
WO2020051776A1 (en) * | 2018-09-11 | 2020-03-19 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
CN111684470A (zh) * | 2018-02-08 | 2020-09-18 | 三星电子株式会社 | 神经网络的动态存储器映射 |
CN114444014A (zh) * | 2020-10-30 | 2022-05-06 | 通用汽车环球科技运作有限责任公司 | 球面坐标输入下的空间不变三维卷积网络 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127439B2 (en) * | 2015-01-15 | 2018-11-13 | Samsung Electronics Co., Ltd. | Object recognition method and apparatus |
CN108027972B (zh) * | 2015-07-30 | 2022-03-15 | 北京市商汤科技开发有限公司 | 用于对象跟踪的系统和方法 |
KR20170118520A (ko) * | 2016-04-15 | 2017-10-25 | 삼성전자주식회사 | 인터페이스 뉴럴 네트워크 |
CN110121723B (zh) * | 2016-12-30 | 2024-01-12 | 诺基亚技术有限公司 | 人工神经网络 |
CN106845374B (zh) * | 2017-01-06 | 2020-03-27 | 清华大学 | 基于深度学习的行人检测方法及检测装置 |
CN106845383B (zh) * | 2017-01-16 | 2023-06-06 | 腾讯科技(上海)有限公司 | 人头检测方法和装置 |
CN106845415B (zh) * | 2017-01-23 | 2020-06-23 | 中国石油大学(华东) | 一种基于深度学习的行人精细化识别方法及装置 |
CN106803083B (zh) * | 2017-02-04 | 2021-03-19 | 北京旷视科技有限公司 | 行人检测的方法及装置 |
JP6756661B2 (ja) * | 2017-04-28 | 2020-09-16 | 日立オートモティブシステムズ株式会社 | 車両電子制御装置 |
CN107230221B (zh) * | 2017-05-25 | 2019-07-09 | 武汉理工大学 | 一种基于卷积神经网络自适应背景建模物体检测方法 |
JP6939186B2 (ja) * | 2017-07-25 | 2021-09-22 | 住友電気工業株式会社 | 判定装置、判定方法および判定プログラム |
DE102018205561A1 (de) * | 2017-08-18 | 2019-02-21 | Robert Bosch Gmbh | Vorrichtung zur Klassifizierung von Signalen |
CN109426771A (zh) * | 2017-08-24 | 2019-03-05 | 日立汽车系统株式会社 | 对车辆周围的小物体区域进行识别的装置和方法 |
CN108228696B (zh) | 2017-08-31 | 2021-03-23 | 深圳市商汤科技有限公司 | 人脸图像检索方法和系统、拍摄装置、计算机存储介质 |
US11321832B2 (en) * | 2017-10-24 | 2022-05-03 | Toru Nagasaka | Image analysis device |
US10706267B2 (en) * | 2018-01-12 | 2020-07-07 | Qualcomm Incorporated | Compact models for object recognition |
DE102018200982A1 (de) | 2018-01-23 | 2019-08-08 | Volkswagen Aktiengesellschaft | Verfahren zur Verarbeitung von Sensordaten in einer Anzahl von Steuergeräten, entsprechend ausgelegte Vorverarbeitungseinheit sowie Fahrzeug |
US11282389B2 (en) | 2018-02-20 | 2022-03-22 | Nortek Security & Control Llc | Pedestrian detection for vehicle driving assistance |
EP3762855A1 (en) | 2018-03-05 | 2021-01-13 | Omron Corporation | Method and device for recognizing object |
JP7063105B2 (ja) * | 2018-05-17 | 2022-05-09 | トヨタ自動車株式会社 | 識別装置 |
EP3575986B1 (en) * | 2018-05-30 | 2024-07-10 | Robert Bosch GmbH | A lossy data compressor for vehicle control systems |
US11030518B2 (en) | 2018-06-13 | 2021-06-08 | United States Of America As Represented By The Secretary Of The Navy | Asynchronous artificial neural network architecture |
KR102263017B1 (ko) * | 2019-01-15 | 2021-06-08 | 포항공과대학교 산학협력단 | 3d cnn을 이용한 고속 영상 인식 방법 및 장치 |
KR102263005B1 (ko) * | 2019-01-15 | 2021-06-08 | 포항공과대학교 산학협력단 | 동적으로 3d cnn을 이용하는 고속 영상 인식 방법 및 장치 |
WO2020149601A1 (ko) * | 2019-01-15 | 2020-07-23 | 포항공과대학교 산학협력단 | 3d cnn을 이용한 고속 영상 인식 방법 및 장치 |
JP6573297B1 (ja) * | 2019-01-16 | 2019-09-11 | パナソニック株式会社 | 監視カメラおよび検知方法 |
US10950104B2 (en) | 2019-01-16 | 2021-03-16 | PANASONIC l-PRO SENSING SOLUTIONS CO., LTD. | Monitoring camera and detection method |
DE102020100209A1 (de) | 2019-01-21 | 2020-07-23 | Samsung Electronics Co., Ltd. | Neuronale Netzwerkvorrichtung, neuronales Netzwerksystem und Verfahren zur Verarbeitung eines neuronalen Netzwerkmodells durch Verwenden eines neuronalen Netzwerksystems |
JP7118364B2 (ja) * | 2019-03-18 | 2022-08-16 | オムロン株式会社 | 画像検査装置 |
US11037968B2 (en) * | 2019-04-05 | 2021-06-15 | Waymo Llc | Image sensor architecture |
US20220189014A1 (en) * | 2019-04-11 | 2022-06-16 | Mint Labs Inc. | Learning classifier for brain imaging modality recognition |
US11671684B2 (en) | 2019-05-10 | 2023-06-06 | Glenn Michael Jenkinson | Multifunctional device for use in augmented/virtual/mixed reality, law enforcement, medical, military, self defense, industrial, and other applications |
US12040317B2 (en) | 2019-12-06 | 2024-07-16 | Osram Opto Semiconductors Gmbh | Optoelectronic device |
RU2724797C1 (ru) * | 2020-01-22 | 2020-06-25 | Общество с ограниченной ответственностью "Ай Ти Ви групп" | Кассовая система и способ для идентификации блюд на подносе |
US11393182B2 (en) | 2020-05-29 | 2022-07-19 | X Development Llc | Data band selection using machine learning |
US11606507B1 (en) | 2020-08-28 | 2023-03-14 | X Development Llc | Automated lens adjustment for hyperspectral imaging |
WO2022064575A1 (ja) * | 2020-09-23 | 2022-03-31 | 株式会社デンソーテン | モデル生成装置及びモデル生成方法 |
US11651602B1 (en) | 2020-09-30 | 2023-05-16 | X Development Llc | Machine learning classification based on separate processing of multiple views |
WO2022109000A1 (en) * | 2020-11-17 | 2022-05-27 | Uatc, Llc | Systems and methods for video object segmentation |
CN112636328B (zh) * | 2020-11-25 | 2022-06-21 | 国网湖南省电力有限公司 | 一种中压配电网设备负荷状态辨识方法 |
US11995842B2 (en) | 2021-07-22 | 2024-05-28 | X Development Llc | Segmentation to improve chemical analysis |
US12033329B2 (en) | 2021-07-22 | 2024-07-09 | X Development Llc | Sample segmentation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200304095A (en) * | 2002-03-15 | 2003-09-16 | Microsoft Corp | System and method facilitating pattern recognition |
US20070047802A1 (en) * | 2005-08-31 | 2007-03-01 | Microsoft Corporation | Training convolutional neural networks on graphics processing units |
CN103279759A (zh) * | 2013-06-09 | 2013-09-04 | 大连理工大学 | 一种基于卷积神经网络的车辆前方可通行性分析方法 |
CN103679185A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0484308A (ja) | 1990-07-27 | 1992-03-17 | Hitachi Ltd | パラメーター決定方法及びプラント監視制御方法 |
US6038337A (en) | 1996-03-29 | 2000-03-14 | Nec Research Institute, Inc. | Method and apparatus for object recognition |
US6654728B1 (en) | 2000-07-25 | 2003-11-25 | Deus Technologies, Llc | Fuzzy logic based classification (FLBC) method for automated identification of nodules in radiological images |
JP2008242638A (ja) * | 2007-03-26 | 2008-10-09 | Seiko Epson Corp | 画像識別方法、画像識別装置及びプログラム |
TW200842733A (en) | 2007-04-17 | 2008-11-01 | Univ Nat Chiao Tung | Object image detection method |
JP5315411B2 (ja) * | 2008-07-03 | 2013-10-16 | エヌイーシー ラボラトリーズ アメリカ インク | 有糸分裂像検出装置および計数システム、および有糸分裂像を検出して計数する方法 |
JP2010157118A (ja) * | 2008-12-26 | 2010-07-15 | Denso It Laboratory Inc | パターン識別装置及びパターン識別装置の学習方法ならびにコンピュータプログラム |
JP5401344B2 (ja) * | 2010-01-28 | 2014-01-29 | 日立オートモティブシステムズ株式会社 | 車両用外界認識装置 |
JP6117206B2 (ja) * | 2011-08-25 | 2017-04-19 | コーネル ユニヴァーシティー | 機械視覚のための網膜符号化器 |
US8873813B2 (en) | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
CN103390164B (zh) | 2012-05-10 | 2017-03-29 | 南京理工大学 | 基于深度图像的对象检测方法及其实现装置 |
US9008365B2 (en) | 2013-04-18 | 2015-04-14 | Huawei Technologies Co., Ltd. | Systems and methods for pedestrian detection in images |
CN103366180B (zh) | 2013-06-14 | 2016-06-01 | 山东大学 | 一种基于自动特征学习的细胞图像分割方法 |
CN104346622A (zh) * | 2013-07-31 | 2015-02-11 | 富士通株式会社 | 卷积神经网络分类器及其分类方法和训练方法 |
WO2015180042A1 (en) * | 2014-05-27 | 2015-12-03 | Beijing Kuangshi Technology Co., Ltd. | Learning deep face representation |
-
2014
- 2014-12-17 CN CN201480083568.2A patent/CN107004138A/zh active Pending
- 2014-12-17 WO PCT/CN2014/094033 patent/WO2016095117A1/en active Application Filing
- 2014-12-17 US US15/535,280 patent/US10275688B2/en active Active
- 2014-12-17 JP JP2017523866A patent/JP6488380B2/ja active Active
- 2014-12-17 EP EP14908152.3A patent/EP3234867A4/en active Pending
- 2014-12-17 MX MX2017008086A patent/MX2017008086A/es unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200304095A (en) * | 2002-03-15 | 2003-09-16 | Microsoft Corp | System and method facilitating pattern recognition |
US20070047802A1 (en) * | 2005-08-31 | 2007-03-01 | Microsoft Corporation | Training convolutional neural networks on graphics processing units |
CN103679185A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
CN103279759A (zh) * | 2013-06-09 | 2013-09-04 | 大连理工大学 | 一种基于卷积神经网络的车辆前方可通行性分析方法 |
Non-Patent Citations (2)
Title |
---|
CHEN-YU LEE等: "《Deeply-Supervised Nets》", 《HTTPS://ARXIV.ORG/PDF/1409.5185.PDF》 * |
JEFF DONAHUE等: "《DeCAF: A Deep Convolutional Activation Feature》", 《HTTP://WWW.JMLR.ORG/PROCEEDINGS/PAPERS/V32/DONAHUE14.PDF》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136623A1 (en) * | 2018-01-10 | 2019-07-18 | Nokia Technologies Oy | Apparatus and method for semantic segmentation with convolutional neural network |
CN111684470A (zh) * | 2018-02-08 | 2020-09-18 | 三星电子株式会社 | 神经网络的动态存储器映射 |
CN111684470B (zh) * | 2018-02-08 | 2023-10-24 | 三星电子株式会社 | 神经网络的动态存储器映射 |
CN108470179A (zh) * | 2018-03-29 | 2018-08-31 | 百度在线网络技术(北京)有限公司 | 用于检测对象的方法和装置 |
CN108470179B (zh) * | 2018-03-29 | 2022-04-15 | 百度在线网络技术(北京)有限公司 | 用于检测对象的方法和装置 |
WO2020051776A1 (en) * | 2018-09-11 | 2020-03-19 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
US11429824B2 (en) | 2018-09-11 | 2022-08-30 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
CN114444014A (zh) * | 2020-10-30 | 2022-05-06 | 通用汽车环球科技运作有限责任公司 | 球面坐标输入下的空间不变三维卷积网络 |
Also Published As
Publication number | Publication date |
---|---|
US20170351936A1 (en) | 2017-12-07 |
MX2017008086A (es) | 2017-10-31 |
US10275688B2 (en) | 2019-04-30 |
WO2016095117A1 (en) | 2016-06-23 |
JP6488380B2 (ja) | 2019-03-20 |
JP2017538999A (ja) | 2017-12-28 |
EP3234867A4 (en) | 2018-08-15 |
EP3234867A1 (en) | 2017-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107004138A (zh) | 利用神经网络的对象检测 | |
CN107851195B (zh) | 利用神经网络进行目标检测 | |
CN108431826B (zh) | 自动检测视频图像中的对象 | |
JP2017538999A5 (zh) | ||
Singh et al. | Image classification: a survey | |
CN109583322B (zh) | 一种人脸识别深度网络训练方法和系统 | |
Bodapati et al. | Feature extraction and classification using deep convolutional neural networks | |
EP3289529B1 (en) | Reducing image resolution in deep convolutional networks | |
JP6557783B2 (ja) | オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク | |
KR102582194B1 (ko) | 선택적 역전파 | |
CN108027899B (zh) | 用于提高经训练的机器学习模型的性能的方法 | |
TW201706918A (zh) | 作爲供神經網路的訓練準則的濾波器特異性 | |
EP3248148A1 (en) | Model compression and fine-tuning | |
WO2017023539A1 (en) | Media classification | |
Jain et al. | Driver distraction detection using capsule network | |
Jain et al. | An automated hyperparameter tuned deep learning model enabled facial emotion recognition for autonomous vehicle drivers | |
CN112418360B (zh) | 卷积神经网络的训练方法、行人属性识别方法及相关设备 | |
CN112766176B (zh) | 轻量化卷积神经网络的训练方法及人脸属性识别方法 | |
CN111291632B (zh) | 一种行人状态检测方法、装置以及设备 | |
Shilpa | Emotional Analysis Using Hybrid Deep Learning Models | |
Kumar et al. | Smart IoT-Enabled Traffic Sign Recognition With High Accuracy (TSR-HA) Using Deep Learning | |
Ali et al. | Vehicle-NnA Cnn Based Local Vehicle Detection Classifier | |
CN117636122A (zh) | 一种用于车型车轴识别的训练方法及检测方法 | |
Sati | Human activity detection using deep learning approaches | |
Shetty | Detection of Driver Distraction Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170801 |