CN107871117B - 用于检测对象的设备和方法 - Google Patents

用于检测对象的设备和方法 Download PDF

Info

Publication number
CN107871117B
CN107871117B CN201710618367.3A CN201710618367A CN107871117B CN 107871117 B CN107871117 B CN 107871117B CN 201710618367 A CN201710618367 A CN 201710618367A CN 107871117 B CN107871117 B CN 107871117B
Authority
CN
China
Prior art keywords
confidence
primary
detection score
semantic segmentation
confidence detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710618367.3A
Other languages
English (en)
Other versions
CN107871117A (zh
Inventor
穆斯塔法·艾尔可哈米
杜先之
李正元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN107871117A publication Critical patent/CN107871117A/zh
Application granted granted Critical
Publication of CN107871117B publication Critical patent/CN107871117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L27/00Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
    • H01L27/14Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components sensitive to infrared radiation, light, electromagnetic radiation of shorter wavelength or corpuscular radiation and specially adapted either for the conversion of the energy of such radiation into electrical energy or for the control of electrical energy by such radiation
    • H01L27/144Devices controlled by radiation
    • H01L27/146Imager structures
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L27/00Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
    • H01L27/14Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components sensitive to infrared radiation, light, electromagnetic radiation of shorter wavelength or corpuscular radiation and specially adapted either for the conversion of the energy of such radiation into electrical energy or for the control of electrical energy by such radiation
    • H01L27/144Devices controlled by radiation
    • H01L27/146Imager structures
    • H01L27/14683Processes or apparatus peculiar to the manufacture or treatment of these devices or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level
    • G06F30/392Floor-planning or layout, e.g. partitioning or placement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level
    • G06F30/398Design verification or optimisation, e.g. using design rule check [DRC], layout versus schematics [LVS] or finite element methods [FEM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Power Engineering (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Electromagnetism (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

提供一种用于检测对象的方法和设备。所述方法包括:接收图像;检测图像中的对象;通过初级对象检测器,确定对象的初级置信度检测分数;通过分类网络,确定对象的置信度比例因子;基于将初级置信度检测分数与置信度比例因子相乘,调节初级置信度检测分数。

Description

用于检测对象的设备和方法
本申请要求于2016年9月23日提交到美国专利商标局的第62/399,046号美国临时专利申请和2017年2月16日提交到美国专利商标局的第15/434,880号美国非临时专利申请的优先权,所述申请的全部内容通过引用包含于此。
技术领域
本公开总体涉及深度神经网络,更具体地讲,涉及针对用于快速和鲁棒的对象识别的深度网络融合的系统和方法。
背景技术
诸如脸部识别的对象识别包括从由诸如相机的图像传感器捕获的图像的数据库识别人,并通常包括学习脸部图像。使用测度(metric)将捕获的图像的表示与数据库中的脸部图像的表示进行比较,以返回最接近的匹配。脸部识别包括诸如脸部检测和脸部排列的预处理步骤。
由相机捕获的可视化图像内的对象识别可被用在包括防务、运输或执法等的各种行业或应用中。例如,可能期望在图像内识别诸如车辆、行人和建筑物的一个或多个对象。传统的对象检测方法在准确识别目标对象方面可能无法提供期望的可靠性,和/或可能提供比期望数量的误报识别(例如,将非目标对象检测为目标对象)更多的误报识别。
图像中的行人检测当前在视频监控、人识别以及高级驾驶员辅助系统(ADAS)的各个方面起关键的作用。行人的实时准确检测对于这样的系统的实际应用来说很重要。行人检测方法旨在以实时处理的速度画出准确描述图像中的全部行人的位置的边界框。
发明内容
本公开的方面提供一种包括用于快速和鲁棒地检测图像中捕获的行人的深度神经网络融合架构的系统和方法。
根据本公开的方面,提供一种方法,所述方法包括:接收图像;检测图像中的对象;通过初级对象检测器,确定对象的初级置信度检测分数;通过分类网络,确定对象的置信度比例因子;基于将初级置信度检测分数与置信度比例因子相乘,调节初级置信度检测分数。
根据本公开的另一方面,提供一种设备,所述设备包括:图像传感器;初级对象检测器;分类网络;处理器,被配置为:从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。
根据本公开的另一方面,提供一种制造处理器的方法,所述方法包括:将所述处理器形成为包括至少一个其他处理器的晶片或封装件的部分,其中,所述处理器被配置为从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。
根据本公开的另一方面,提供一种构造集成电路的方法,所述方法包括:针对集成电路的层的一组特征产生掩膜布局,其中,掩膜布局包括用于包括处理器的一个或多个电路特征的标准单元库宏,其中,所述处理器被配置为从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。
附图说明
当结合附图时,通过下面的具体描述,本公开的上述和其他方面、特征和优点将会变得更加清楚,其中:
图1示出根据本公开的实施例的通信网络中的电子装置的框图;
图2示出根据本公开的实施例的网络融合架构的框图;
图3示出根据本公开的实施例的使用单镜头多框检测器(single shot multi-boxdetector)的初级对象检测器的框图;
图4示出根据本公开的实施例的具有一个分类网络的初级对象检测网络的软拒绝融合(soft-rejection fusion)的方法的流程图;
图5示出根据本公开的实施例的具有初级对象检测器的语义分割标记器的软拒绝融合的方法的流程图;
图6A示出根据本公开的实施例的具有候选对象的捕获图像;
图6B示出根据本公开的实施例的图6A的捕获图像的语义分割掩膜;
图7示出根据本公开的实施例的检测图像中的对象的方法的流程图;
图8示出根据本公开的实施例的对被配置为检测图像中的对象的处理器进行测试的方法的流程图;
图9示出根据本公开的实施例的制造被配置为检测图像中的对象的处理器的方法的流程图。
具体实施方式
以下,将参照附图对本公开进行更加全面地描述,在附图中示出了本公开的实施例。然而,本公开可以以多种不同的形式来实现,并且不应该被视为限于这里阐述的实施例。相反,提供这些实施例使得本公开将是彻底的和完整的,并且将该装置和方法的范围全面地传达给本领域技术人员。相同的参考标记始终表示相同的元件。
将理解,当元件被称为“连接到”或“结合到”另一个元件时,它可直接连接到或结合到所述另一个元件,或者可存在中间元件。相比之下,当元件被称为“直接连接到”或“直接结合到”另一个元件时,不存在中间元件。如这里使用的,术语“和/或”包括(但不限于)一个或多个关联的所列项的任何组合和全部组合。
将理解,尽管可在这里使用术语第一和第二以及其他术语来描述各种元件,但是这些元件不应该由这些术语限制。这些术语只是用于将一个元件与另一个元件进行区分。例如,在不脱离本公开的教导的情况下,第一信号可被称为第二信号,类似地,第二信号可被称为第一信号。
这里使用的术语仅是用于描述特定的实施例的目的,而意图不在于限制本装置和方法。如这里所使用的,除非上下文明确地另有指示,否则单数形式也意图包括复数形式。还将理解,当在本说明书中使用术语“包括”或“包括(但不限于)”时,表明陈述的特征、区域、整体、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、区域、整体、步骤、操作、元件、组件和/或它们的组合的存在或添加。
除非另有定义,否则这里使用的所有术语(包括(但不限于)技术术语和科学术语)具有与本装置和方法所属领域的普通技术人员普遍理解的含义相同的含义。还将理解,除非在这里明确地定义,否则术语(诸如在通用字典中定义的术语)应该被解释为具有与它们在相关领域的语境和/或本说明书中的含义一致的含义,而将不被理想化或过于形式化地解释。
图1示出根据本公开的实施例的网络环境中的电子装置的框图。
参照图1,电子装置100包括(但不限于)通信块110、处理器120、存储器130、显示器150、输入/输出块160、音频块170和图像传感器180。电子装置100可包括在便携式电子装置中,其中,便携式电子装置包括(但不限于)智能电话、平板计算机或个人计算机。电子装置100还可包括在车辆中,其中,车辆包括(但不限于)汽车、火车、飞机、自主车辆、无人驾驶飞机、自行车和摩托车。
电子装置100包括用于将电子装置100连接到另一电子装置以传达声音和数据的通信块110。通信块110可提供GPRS、EDGE、蜂窝通信、广域网、局域网、个人区域网、近场通信、装置到装置(D2D)、机器到机器(M2M)、卫星通信,增强移动宽带(eMBB)、海量机器类通信(mMTC),超可靠低延迟通信(URLLC),窄带物联网(NB-物联网)和短距离通信。通信块110的功能或包括收发器113的通信块100的部分功能可由芯片集实现。具体地,蜂窝通信块112使用技术(诸如,第二代(2G)、GPRS、EDGE、D2D、M2M、长期演进(LTE),第五代(5g)、高级长期演进(LTE-A)、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)和全球移动通讯系统(GSM)),来通过地面基站收发台将广域网连接提供到其他电子装置或直接将广域网连接提供到其他电子装置。蜂窝通信块112包括(但不限于)芯片集及收发器113。收发器113包括(但不限于)发送器和接收器。无线保真(WiFi)通信块114使用诸如IEEE 802.11的技术通过网络访问点提供局域网连接。蓝牙通信块116使用诸如IEEE802.15的技术来提供个人区域直接和网络化通信。近场通信(NFC)块118使用诸如ISO/IEC14443的标准来提供点到点短距离通信。通信块110还可包括全球导航卫星系统(GNSS)接收器119。GNSS接收器119可支持从卫星发送器接收信号。
电子装置100可从包括(但不限于)电池的电源接收用于操作功能块的电力。
处理器120提供电子装置100的应用层处理功能。处理器120还为电子装置100中的各种块提供命令和控制功能。处理器120提供用于更新功能块所需的控制功能。处理器120可提供图像传感器180、初级对象检测器、次级对象检测器、语义分割单元、融合中心和分类网络所需的资源。分类网络可提供分类和定位二者。
存储器130提供用于装置控制程序代码、用户数据存储、应用代码和数据存储的存储。存储器130可提供用于蜂窝通信块112所需的固件、库、数据库、查找表、算法、方法和校正数据的数据存储。存储器120可提供用于图像传感器180所捕获的图像的存储。当装置启动时,图像传感器180所需的程序代码和数据库可从存储器130被加载到图像传感器180内的本地存储。
显示器150可以是触摸面板,并可被实现为液晶显示器(LCD)、有机发光二极管(OLED)显示器和有源矩阵OLED(AMOLED)显示器等。输入/输出块160控制到电子装置100的用户的接口。音频块170提供输入到电子装置100的音频和从电子装置100输出的音频。
图像传感器180可捕获静止图像和运动图像二者。图像传感器180可捕获电磁频谱的对于人眼可见的可见频谱部分内的图像。图像传感器180还可捕获电磁频谱的可见频谱部分外(包括红外线和紫外线)的图像。图像传感器180可以是互补金属氧化物半导体(CMOS)型或半导体电荷耦合器件(CCD)型,并可包括图像融合镜头和图像变焦功能。图像传感器180还可包括存储器、本地处理器和到处理器120的接口。
根据本公开的一个实施例,本系统和方法包括一种用于由图像传感器180捕获的图像内的行人的快速和鲁棒地检测的深度神经网络融合架构。本公开的深度神经网络融合架构包括并行处理多个网络,以减少在捕获的图像中确定行人的存在的延迟。除深度神经网络之外,本公开包括深度卷积网络。单拍摄(single shot)(单个捕获的图像的单个尺度上的一步网络(one step network))深度卷积网络被训练为对象检测器,以在捕获的图像内产生具有不同尺寸和遮挡(occlusion)的全部可能行人候选。深度卷积网络可输出捕获的图像内的大量的各种行人候选,以在可能引入误报的同时覆盖大多数地面实况(ground-truth)行人。多个深度神经网络(DNN)(可被认为是次级网络)被进一步并行处理,以对由深度卷积网络产生的全部行人候选进行分类。次级网络还可精细化初级边界框候选的边界框位置。边界框是捕获的图像的可由具有特定形状和纵横比(宽高比)的平行四边形定义的区域内的像素的组合;然而,边界框可以是除平行四边形之外的形状。
根据本公开的一个实施例,本系统和方法提供软拒绝融合,以融合(组合)由深度卷积和神经网络一起产生的软度量来产生最终候选分数。最终候选分数是图像中的检测的行人候选是实际行人的概率的测量。本软拒绝融合系统和方法将次级检测器结果(可选地)与初级对象检测器结果进行融合,并从分类网络而产生。本系统和方法对于检测捕获的图像内的小尺寸行人和被遮挡的行人来说是有益的。融合中心还可将来自全部分类网络的边界框的定位调节与来自初级对象检测器的边界框定位进行融合,以增加边界框定位的准确性。
根据本公开的一个实施例,本系统和方法将融合网络架构中的逐像素(pixel-wise)语义分割集成为对行人检测器的加强。语义分割可将图像分割成语义上有意义的部分,并将每个部分分类为预定类中的一个类。逐像素语义分割可通过对每个像素(而不是整个图像/段)进行分类来实现同样的目标。本系统和方法可应用于任何评价协议,并为一些评价方案提供包括显著更高的速度、准确性和效率的性能增加。评价方案可包括单个对象(诸如,行人)的对象检测或多个对象(诸如,行人、车辆、骑自行车的人)的检测。评价方案在避免漏掉正确检测和消除错误检测的同时注重最大化输出检测的准确性。
根据本公开的一个实施例,本系统和方法提供可被称为基于软拒绝的网络融合的网络融合。基于软拒绝的网络融合可精细化由初级对象检测器提供的候选对象。基于由分类网络提供的那些对象检测的置信度的聚合度来增加或减小由初级对象检测候选提供的分类分数,而不是执行要么接受要么拒绝候选对象的二分类决策。
初级对象检测候选的置信度分数基于由每个分类网络提供的分类概率而按置信度比例因子被放大或缩小(增加或减小)。对置信度比例因子设置下界,以防止任何分类网络主导缩放处理并防止基于来自单个分类网络的置信度分数消除初级对象检测候选。下界处理具有在基于分类网络的聚合置信度增加正确对象检测率的同时降低误报率的效果。置信度比例因子被融合在一起,以针对每个候选对象产生最终候选分数。
根据本公开的一个实施例,本系统和方法将逐像素语义分割标记用作次级并行检测器,并将次级并行检测器集成到本网络融合架构中。基于逐像素语义分割标记的次级并行检测器发挥对行人检测器(或一般对象检测器)的加强的作用。分割标记的步骤由使用对象的类别(例如,行人、车辆或建筑物)标记捕获的图像中的每个对象组成。软置信度分数可通过确定逐像素语义分割标记与由初级对象检测器提供的边界框检测之间的重叠的比率而被确定。
图2示出根据本公开的实施例的本网络融合架构的框图。
参照图2,网络融合架构222包括来自图像传感器的被可选地缩放的图像208,其中,图像208被提供到初级对象检测器210,并被可选地提供到次级对象检测器212和语义分割单元220。初级对象检测器210确定在图像208中检测到的对象,并针对每个检测到的对象创建边界框。在边界框列表和置信度分数单元214中创建针对确定的对象的边界框的列表和它们各自的置信度分数。分类网络200包括一个或多个DNN检测分类器和过滤器202。虽然图2示出两个DNN检测分类器和过滤器202,但是在不偏离本公开的范围的情况下,本公开可包括任何数量的DNN检测分类器和过滤器202。分类网络200包括可选次级并行检测网络204。可选次级并行检测网络204可将深度扩张卷积(deep dilated convolution)和上下文聚合用于语义分割标记,以进一步确定关于初级对象检测的软置信度分数。深度扩张卷积使用通过在非零过滤器系数之间插入零而具有不同扩张(上采样)因子的卷积核函数,从而有效地增加了过滤器的感受野(receptive field)。融合中心216融合来自一个或多个DNN检测分类器和过滤器202、可选次级并行检测网络204、边界框列表和置信度分数单元214的结果,并且进一步可选择地融合来自次级对象检测器212和语义分割单元220的结果。融合中心216将融合处理的结果提供到用于最终确定与检测到的对象相关联的边界框的最终确定单元218。
图3示出根据本公开的实施例的使用单拍摄多框检测器(single shot multi-boxdetector)的初级对象检测器的框图。
参照图3,七个输出层被用于在单个捕获的图像中产生行人候选。虽然图3示出七个层,但是在不偏离本公开的范围的情况下,本公开可包括任何数量的层。根据本公开的实施例,图3的初级对象检测器322包括前馈卷积网络。由图像传感器捕获的输入图像302被提供到作为基础网络的截断视觉几何组(truncated visual geometry group)VGG16 304。VGG是包括16个权重层的卷积神经网络模型,其中,16个权重层具有过滤器尺寸为三乘三的十三个卷积层以及三个全连接层。在VGG16 302基础网络层,最后的池化层被转换为具有一的步宽的3×3的感受野尺寸,并完全连接的fc7使用平稳小波变换算法而被转换为卷积层。池化层合并在先前特征图中学习和表示的特征,并可压缩或概括特征表示和普遍降低训练数据的过拟合。在基础网络之后添加六个附加卷积层和全局平均池化层,并且每个层的尺寸逐渐减小。层conv4_3 306、fc7 308、conv6_2 310、conv7_2 312、conv8_2 314、conv9_2316和pool6 318被用作输出层。在每个输出层之后执行边界框回归(regression)和分类。在层320中确定来自捕获的图像的行人候选。
根据本公开的一个实施例,初级对象检测器包括具有在多个卷积尺度和分辨率提取的特征的前馈卷积网络。在捕获的图像中,在提取的特征的每个位置的具有不同尺寸和纵横比的边界框候选被进一步分类为对象或背景,候选边界框的位置偏移通过边界框回归来计算。针对具有尺寸m×n×p的每个输出层,不同尺度和纵横比的一组默认边界框被布置在每个位置。默认边界框的纵横比被调节为匹配将被检测的对象,例如,如果目标是检测行人,则纵横比被设置为0.41。3×3×p卷积核函数被施加到每个位置,以产生分类分数和相对于默认边界框位置的边界框位置偏移。如果默认边界框与任何地面实况框具有大于0.5的杰卡德重叠指数(Jaccard overlap index),则默认边界框被标记为正,否则默认边界框被标记为负。杰卡德重叠指数被用于比较默认边界框与地面实况框的相似度,并且是数据集的结合的大小除以交集的大小的值。
如下,在下面的等式(1)给出分类网络200的训练目标L:
Figure BDA0001361104280000081
其中,Lconf是softmax分类损失,Lloc是使用距离度量的平滑定位损失,N是被标记为正的默认框的数量,α是用于保持所述两种损失之间的平滑的常数权重项。平滑定位损失可被坐标之间的差的L1范数表示为L1=Sum|y_i–y’_i|+Sum|x_i–x’_i|,其中,(x_i,y_i)表示框的坐标,(x’_i,y’_i)表示地面实况框的坐标,所述和(sum)覆盖全部坐标。
分类网络200的训练目标作为softmax分类损失与平滑L1定位损失的加权和而被给出。即使引入了大量的假对象检测,初级对象检测器210也以检测捕获的图像中感兴趣的全部对象(诸如,行人)为目标而被训练,以产生大量的候选对象。每个对象检测与它的定位边界框和置信度分数相关联。通过降低置信度分数阈值(其中,在置信度分数阈值之上接受候选对象),从初级对象检测器210产生各种尺寸和遮挡的候选对象。
根据一个实施例,分类网络200包括并行运行的多个DNN检测分类器和过滤器202。分类网络200中的每个DNN检测分类器和过滤器202可以单个分类器或级联的多个分类器。此外,每个DNN检测分类器和过滤器202还可精细化检测到的对象的边界框的框坐标。来自所有的DNN检测分类器和过滤器202的置信度分数在融合中心216被融合。来自不同的DNN检测分类器和过滤器202的修改的边界框也可在融合中心216被融合成单个边界框。分类网络200中的每个网络被单独训练。为训练次级分类网络,初级对象检测器210在训练集上被运行,以产生一组对象检测,并且具有大于最小值的置信度分数或大于最小高度的边界框高度的所有对象检测被接受。初级检测器将仅输出与它的默认边界框的纵横比一致的检测,然而,最终纵横比由于使用框回归调节检测到的框坐标而稍微不同。对象检测根据由杰卡德重叠指数测量的它与地面实况的重叠的程度而被标记为正或负。对象检测被重新缩放或扭曲为固定尺寸。固定尺寸的随机修剪从重新缩放的对象检测框被获得,并与它们的标签被提供作为分类网络200的输入训练样本,其中,如果合并比例(union ratio)的修剪的框与地面实况框的交集具有大于百分之五十的重叠区域,则标签被确定为正。换言之,使用缩放的初级置信度检测分数将对象检测设置为固定尺寸;从设置后的对象检测确定具有固定尺寸的随机修剪;针对地面实况来标记随机修剪的类,以训练分类网络。为进一步训练分类网络200,地面实况框标签附近的修剪或正对象检测在合适转换回原始图像域之后被扩展特定百分比,并且分类网络200被训练,以通过边界框回归输出地面实况框坐标,其中,地面实况框坐标被转换回原始图像域。
根据本公开的一个实施例,本系统和方法提供通过软拒绝执行融合的融合中心216。软拒绝还通过将初级对象检测与分类网络200中的不同网络的软置信度结果进行融合,来精细化初级对象检测。本系统和方法包括在融合中心216的定位边界框调节的融合。作为示例,考虑一个初级候选和一个分类网络200。如果分类网络200已经确定候选对象的高置信度分数(例如,超过给定阈值分数的置信度分数),则本系统通过将置信度分数与大于1的置信度比例因子相乘,来增加来自初级对象检测器210的候选对象的原始置信度分数。否则,本系统通过小于1的置信度比例因子来减少候选对象的置信度分数。当测试本系统时,通过使用分类网络200中的全部次级网络处理候选对象来针对每个候选对象产生一组分类概率。本系统和方法包括基于在融合中心216中确定的分数的软拒绝,而不是使用具有概率阈值的二元分类。
软拒绝方法的一个优点在于本系统不直接接受或拒绝任何候选对象。反而,对象置信度检测分数通过使用基于来自分类网络200的分类概率的因子来缩放置信度分数而被增加或减少。如果一个次级分类网络针对候选对象已经确定高置信度分数,则各个置信度分数通过大于一的置信度比例因子而在融合中心216中被增大。否则,置信度分数通过小于一的置信度比例因子而在融合中心216中被减小。然而,置信度比例因子被设置为至少p_min,以防止任何次级网络主导确定处理,这是因为正对象检测的不正确消除(诸如,可发生在二元分类)不能被纠正,然而,低分类置信度分数可被来自其他次级网络的较大分类置信度分数补偿。由于最终分数取决于所有的次级网络的置信度分数,所以即使一个次级网络在一个类别(诸如,被部分地遮挡的行人)具有低分类性能,其他次级网络也能够补偿它的缺陷,因此增加系统的可靠性。
根据本公开的一个实施例,如果次级分类网络针对初级对象检测的softmax分类概率超过值p_max,其中,p_max是期望的最大分类概率(例如,0.7的概率),则该次级分类网络是置信的(confident)。令pm为由第m次级网络针对候选对象产生的分类概率,可通过下面的等式(2)确定置信度比例因子am
am=pm×1/p_max …(2)
为了融合全部的M个分类网络200,来自初级对象检测器210的初级对象置信度检测分数P_primary与来自全部的分类网络200的m个置信度比例因子am的乘积相乘以缩放初级置信度检测分数。
为防止任何次级网络主导置信度分数的确定,或者消除由初级对象检测器210提供的任何对象检测,最终置信度比例因子的下界被设置为期望的最小值p_min(例如,概率0.1)。最终融合置信度分类分数P_fusedclassified被表示为如下面的等式(3)如下所示:
P_fusedclassified=P_primary x PRODUCT_m(max(am,p_min)) …(3)
上面在等式(3)中表示的PRODUCT_m是由分类网络产生的全部的m个置信度比例因子am的乘积。max(am,p_min)表示am和p_min之中的较大值。然而,如果置信度比例因子中的任何一个小于p_min,则那个特定置信度比例因子被设置为p_min的值。
图4示出根据本公开的实施例的具有一个分类网络的初级对象检测网络的软拒绝融合的方法的流程图。
参照图4,在402,分类网络200确定来自分类网络200的置信度比例因子是否小于p_min。如果置信度比例因子小于p_min,则在408,融合中心216通过常数因子减小来自初级对象检测器210的置信度分数。如果置信度比例因子不小于p_min,则在404,分类网络进一步确定来自分类网络200的置信度比例因子是否小于p_max并大于或等于p_min。如果来自分类网络200的置信度比例因子小于p_max并大于或等于p_min,则在410,融合中心216与来自分类网络200的置信度比例因子成比例地减小来自初级对象检测器210的置信度分数。如果置信度比例因子不小于p_max或不大于或等于p_min,则在406,分类网络200确定来自分类网络200的置信度比例因子是否大于或等于p_max。如果置信度比例因子不大于或等于p_max,则处理结束。如果来自分类网络200的置信度比例因子大于或等于p_max,则在412,融合中心216与来自分类网络200的置信度比例因子成比例地增大来自初级对象检测器210的置信度分数。
来自分类网络200的置信度比例因子还可根据分类网络200中的DNN神经网络检测分类器和过滤器202中的每个的信任的等级来修改。信任度量t_m可被确定,它表示与分类网络200相关联的信任的等级。t_m的值越大,信任等级越大。信任度量或信任度量的缩放值可被集成在融合中心216中,使得由分类网络200提供的具有较大信任度量t_m的分类可如下面等式(4)所示地被赋予更多重要性。
P_fusedclassified=P_primary x PRODUCT_m(max(am^t_m,p_min))…(4)
来自分类网络200的定位边界框还可在融合中心被融合,其中,分类网络200为从初级对象检测器210输出的边界框候选提供关于真框定位(true box localization)的不同值。针对来自分类网络200的定位坐标的偏移可被平均,然后被施加到来自初级对象检测器210的边界框的定位坐标。
根据本公开的一个实施例,图2的次级对象检测器是可选的,并确定如何融合来自分类网络200的结果与初级对象检测器210的结果。因为次级对象检测器212可产生还没有被初级对象检测器210提供的新对象检测,这不是当融合分类网络200的输出与初级对象检测器210的输出时的情况,所以使用分类网络200的当前软拒绝融合稍微不同于使用次级对象检测器212的当前软拒绝融合。为了解决次级对象检测器212中的新对象的产生,本公开的软拒绝方法通过次级对象检测器212消除新对象检测,因为新对象检测可能有助于增加假对象检测率。次级对象检测器212仅用于进一步微调初级对象检测器210的初级置信度检测分数。如果针对由初级对象检测器210检测的对象的来自次级对象检测器212的次级置信度检测分数超过最小阈值,则对象检测被接受,并且初级置信度检测分数被保持不变。否则,软拒绝融合可被应用于如在下面等式(5)所示地缩放初级置信度检测分数。
如果P_secondary>=阈值,则P_fuseddetect=P_primary;
否则,
P_fuseddetect=P_primary x max(P_secondary x(1/p_max),p_min))…(5)其中,P_secondary是来自次级对象检测器的次级置信度检测分数,P_fuseddetect是初级置信度检测分数与次级置信度检测分数的融合置信度检测分数。
如下面等式(6)所示,上面的等式(5)也可被应用于通过与分类网络200的融合获得的最后的P_fused,其中,P_primary被P_fused替换,
P_fuseddetect=P_fusedclassified x max(P_secondary x(1/p_max),p_min))…(6)
图2的语义分割单元220也是可选的,并确定如何使用逐像素语意标记器(pixel-wise semantic labeler)在初级对象检测器210的检测中产生置信度分数。语义分割单元220基于深度扩张卷积和上下文聚合,并可用作并行次级对象检测器。为执行作为针对捕获的图像中的每个像素预测标签的任务的密集的预测,语义分割单元220包括作为前端预测模块的与扩张卷积相适应的全卷积VGG16网络,其中,全卷积VGG16网络的输出被提供给包括卷积层具有增加的扩张因子的全卷积网络的多尺度上下文聚合模块。语义分割标记器在初级对象检测器结果中提取用于它的置信度分数的软度量。输入到语义分割单元212的捕获的图像被放大,并被语义分割网络直接处理。使用示出用于行人类的激活的像素的一个颜色以及示出背景的其他颜色来产生二元掩膜。“人”和“骑手”分类类别可被考虑为行人,剩余的类可被考虑为背景。语义分割掩膜与来自初级对象检测器210的全部检测到的边界框重叠。根据本公开的一个实施例,本系统和方法在融合中心216融合语义分割标记与对象检测结果。由语义分割激活掩膜对每个初级对象检测边界框进行着色的程度提供初级对象检测器的结果中的次级语义分割分类的置信度的测量。上面等式(5)中的阈值可以是每个边界框内的激活的像素所重叠的面积与重叠的初级边界框的面积之间的最小比率,其中,所述激活的像素被语义分割网络识别为来自检测到的类的像素。
例如,如果激活的像素占据初级边界框面积的至少20%,则对象检测被接受,初级置信度检测分数不变。否则,如下面等式(7)所示,软拒绝融合被应用以缩放来自初级对象检测器210的初级置信度检测分数:
Figure BDA0001361104280000131
其中,Ab表示边界框的面积,Am表示检测到的边界框A7bbox内被语义分割掩膜覆盖的面积。ass和bss可通过交叉验证分别被选择为4和0.35。SFDNN是来自初级对象检测器210的初级置信度检测分数,Sall是软拒绝融合之后的置信度检测分数。
图5示出根据本公开的实施例的具有初级对象检测器的语义分割标记器的软拒绝融合的方法的流程图。
参照图5,在502,本系统确定初级对象检测器的边界框与语义分割掩膜之间是否存在重叠。如果初级对象检测器的边界框与语义分割掩膜之间不存在重叠,则在508,本系统通过常数因子减小来自初级对象检测器的初级置信度检测分数,并消除来自语义分割单元220的任何次级对象检测。虽然次级对象检测由于未重叠而被消除,但是本系统仅调节初级置信度检测分数,而不是将初级置信度检测分数设置为零,因此初级置信度检测分数决不会被消除。如果初级对象检测器的边界框与语义分割掩膜之间存在重叠,则在504,本系统确定初级对象检测器的边界框与语义分割掩膜之间的重叠是否小于阈值。如果初级对象检测器的边界框与语义分割掩膜之间的重叠小于阈值,则在510,本系统与重叠的量成比例地减小来自初级对象检测器的初级置信度检测分数。否则,在512,来自初级对象检测器的初级置信度检测分数被保持不变,从而即使任何次级置信度检测分数可以是零,也保证初级置信度检测分数决不会被设置为0。应理解,本系统基于重叠的量调节初级置信度检测分数,并且,如果重叠的量大于阈值,则本系统可增大初级置信度检测分数;和/或如果重叠的量小于阈值,则本系统可减小初级置信度检测分数;和/或如果没有重叠,则本系统减小初级置信度检测分数;或在不脱离本公开的范围情况下的其他变形。
图6A示出根据本公开的实施例的具有候选对象的捕获图像。图6B示出根据本公开的实施例的图6A的捕获图像的语义分割掩膜。
参照图6A和图6B,图6B的语义分割掩膜示出误报对象检测可从初级对象检测器210被消除,因为来自初级对象检测器210的伪边界框不与语义分割掩膜重叠。语义分割掩膜还示出通过消除未重叠的次级对象检测从而不引入额外的误报对象检测的软融合。如在图6A中所示,在考虑之中的候选对象是行人。
根据本公开的一个实施例,分类网络200可以仅是次级分类网络并不执行定位。
如果置信度比例因子超过阈值,则由次级对象检测器212确定的软融合度量可消除新的对象检测,或将来自初级对象检测器210的初级置信度检测分数增加常数因子,或者如果置信度比例因子小于或等于阈值,则初级置信度检测分数被保持不变。
根据本公开的一个实施例,来自分类网络200的多个定位度量可通过非最大抑制而非次级坐标偏移的平均来与初级边界框候选融合,或者平均和非最大抑制方法可一起被使用。
根据本公开的一个实施例,初级对象检测器210可包括语义分割标记器,并且次级对象检测器212可帮助提高初级对象检测器210中的语义分割标记器识别同一类的多个实例。
本系统和方法通过缩放来自初级对象检测器的初级置信度检测分数以增大或减小在捕获的图像中检测的对象的置信度分数,来提供软拒绝融合,其中,通过基于被测量作为来自分类网络的置信度分数的分类概率的因子来进行所述缩放。软拒绝融合防止任何分类网络主导决定处理,并基于来自任何分类网络的单个度量防止初级候选对象检测的消除。软拒绝融合支持通过一个DNN检测分类器和过滤器的错误校正另一个DNN检测分类器和过滤器的错误,并积累来自多个分类网络的智能。软拒绝融合对初级对象检测器结果与分类网络结果的融合的顺序不敏感。
本网络融合架构支持次级对象检测器与初级对象检测器并行的操作以减少延迟。本网络融合架构支持分类网络中的多个深度神经网络分类器和过滤器并行的操作。本系统和方法提供分类网络的训练。
图7示出根据本公开的实施例的检测图像中的对象的方法的流程图。
参照图7,在701,本系统使用图像传感器捕获图像。在702,初级对象检测器检测图像中的对象,并确定检测到的对象的边界框。在703,初级对象检测器确定对象的初级置信度检测分数。在704,使用分类网络确定对象的置信度比例因子。在705,基于将初级置信度检测分数与置信度比例因子相乘,调节初级置信度检测分数。
图8示出根据本公开的实施例的对被配置为检测图像中的对象的处理器进行测试的方法的流程图。处理器可被实现以硬件或被实现以使用软件编程的硬件。
参照图8,在801,该方法将处理器形成为包括至少一个其他处理器的晶片或封装件的部分。处理器被配置为从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。
在803,该方法测试处理器。测试处理器的步骤包括使用一个或多个电光转换器、将一个光信号分离成两个或更多个光信号的一个或多个分光器以及一个或多个光电转换器来测试处理器和至少一个其他处理器。
图9示出根据本公开的实施例的制造被配置为检测图像中的对象的处理器的方法的流程图。
参照图9,在901,该方法包括数据的初始布局,其中,在数据的初始布局中,该方法针对集成电路的层的一组特征产生掩膜布局。掩膜布局包括用于包括处理器的一个或多个电路特征的标准单元库宏。处理器被配置为从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数。
在903,存在设计规则检查,其中,在设计规则检查中,该方法在产生掩膜布局期间为了符合布局设计规则而忽视宏的相对位置。
在905,存在布局调整,其中,在布局调整中,该方法在产生掩膜布局之后为了符合布局设计规则检查宏的相对位置。
在907,做出新的布局设计,其中,该方法在检测到任何的宏不符合布局设计规则时通过将每个不符合的宏改为遵守布局设计规则来修改掩膜布局,根据具有集成电路的所述层的该组特征的修改的掩膜布局来产生掩膜,并根据掩膜来制造集成电路层。
虽然已经参照本公开的特定实施例具体示出和描述了本公开,但是本领域普通技术人员将理解,在不脱离由所附权利要求和它们的等同物定义的本公开的范围的情况下,可对实施例做出形式和细节上的各种改变。

Claims (24)

1.一种用于检测对象的方法,包括:
接收图像;
检测图像中的对象;
通过初级对象检测器,确定对象的初级置信度检测分数;
通过分类网络,确定对象的置信度比例因子;
基于将初级置信度检测分数与置信度比例因子相乘,调节初级置信度检测分数;
基于将每个像素分类为预定类中的一个,生成语义分割掩膜;
确定对象的边界框与语义分割掩膜之间的重叠的量;
如果对象的边界框与语义分割掩膜之间不存在重叠,则调节初级置信度检测分数,并消除来自语义分割掩膜的次级对象检测,
其中,语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。
2.如权利要求1所述的方法,还包括:
基于将初级置信度检测分数与来自多个分类网络的对象的多个置信度比例因子的乘积相乘,缩放初级置信度检测分数。
3.如权利要求2所述的方法,还包括:
使用缩放的初级置信度检测分数将对象检测设置为固定尺寸;
从设置后的对象检测确定具有固定尺寸的随机修剪;
针对地面实况来标记所述随机修剪的类,以训练分类网络。
4.如权利要求1所述的方法,其中,置信度比例因子基于对象的分类概率与期望的最大分类概率的比率。
5.如权利要求1所述的方法,其中,置信度比例因子的下限被设置为期望的最小值。
6.如权利要求1所述的方法,还包括:确定对象的次级置信度检测分数;
如果次级置信度检测分数大于或等于阈值,则保持初级置信度检测分数;
如果次级置信度检测分数小于阈值,则调节初级置信度检测分数。
7.如权利要求6所述的方法,其中,如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括:将初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。
8.如权利要求6所述的方法,其中,如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括:将初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。
9.如权利要求1所述的方法,还包括:如果对象的边界框与语义分割掩膜之间的重叠的量小于阈值,则与重叠的量成比例地调节初级置信度检测分数。
10.如权利要求1所述的方法,还包括:如果对象的边界框与语义分割掩膜之间的重叠的量大于或等于阈值,则保持初级置信度检测分数。
11.如权利要求1所述的方法,还包括:并行操作初级对象检测器和分类网络。
12.一种用于检测对象的设备,包括:
图像传感器;
初级对象检测器;
分类网络;
处理器,被配置为:
从图像传感器捕获图像,
检测图像中的对象,
使用初级对象检测器确定对象的初级置信度检测分数,
使用分类网络确定对象的置信度比例因子,
基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数;
基于将每个像素分类为预定类中的一个,生成语义分割掩膜;
确定对象的边界框与语义分割掩膜之间的重叠的量;
如果对象的边界框与语义分割掩膜之间不存在重叠,则调节初级置信度检测分数,并消除来自语义分割掩膜的次级对象检测,
其中,语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。
13.如权利要求12所述的设备,其中,所述处理器还被配置为:
基于将初级置信度检测分数与来自多个分类网络的对象的多个置信度比例因子的乘积相乘,缩放初级置信度检测分数。
14.如权利要求12所述的设备,其中,置信度比例因子基于对象的分类概率与期望的最大分类概率的比率。
15.如权利要求12所述的设备,其中,置信度比例因子的下限被设置为期望的最小值。
16.如权利要求12所述的设备,其中,所述处理器还被配置为:确定对象的次级置信度检测分数;
如果次级置信度检测分数大于或等于阈值,则保持初级置信度检测分数;
如果次级置信度检测分数小于阈值,则调节初级置信度检测分数。
17.如权利要求16所述的设备,其中,如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括:将初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。
18.如权利要求16所述的设备,其中,如果次级置信度检测分数小于阈值则调节初级置信度检测分数的步骤包括:将调节后的初级置信度检测分数与次级置信度检测分数和多个置信度比例因子的乘积相乘。
19.如权利要求12所述的设备,其中,所述处理器还被配置为:如果对象的边界框与语义分割掩膜之间的重叠的量小于阈值,则与重叠的量成比例地调节初级置信度检测分数。
20.如权利要求12所述的设备,其中,所述处理器还被配置为:如果对象的边界框与语义分割掩膜之间的重叠的量大于或等于阈值,则保持初级置信度检测分数。
21.如权利要求12所述的设备,其中,所述处理器还被配置为:并行操作初级对象检测器和分类网络。
22.如权利要求12所述的设备,其中,所述处理器还被配置为:
使用缩放的初级置信度检测分数将对象检测设置为固定尺寸;
从设置后的对象检测确定具有固定尺寸的随机修剪;
针对地面实况来标记所述随机修剪的类,以训练分类网络。
23.一种制造处理器的方法,包括:
将所述处理器形成为包括至少一个其他处理器的晶片或封装件的部分,其中,所述处理器被配置为从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数,基于将每个像素分类为预定类中的一个,生成语义分割掩膜,确定对象的边界框与语义分割掩膜之间的重叠的量,并且如果对象的边界框与语义分割掩膜之间不存在重叠,则调节初级置信度检测分数,并消除来自语义分割掩膜的次级对象检测,其中,语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。
24.一种构造集成电路的方法,包括:
针对集成电路的层的一组特征产生掩膜布局,其中,掩膜布局包括用于包括处理器的一个或多个电路特征的标准单元库宏,其中,所述处理器被配置为从图像传感器捕获图像,检测图像中的对象,使用初级对象检测器确定对象的初级置信度检测分数,使用分类网络确定对象的置信度比例因子,基于将初级置信度检测分数与置信度比例因子相乘来调节初级置信度检测分数,基于将每个像素分类为预定类中的一个,生成语义分割掩膜,确定对象的边界框与语义分割掩膜之间的重叠的量,并且如果对象的边界框与语义分割掩膜之间不存在重叠,则调节初级置信度检测分数,并消除来自语义分割掩膜的次级对象检测,其中,语义分割掩膜是使用示出图像中的激活的像素的一个颜色和示出图像中的背景的另一个颜色产生的二元掩膜。
CN201710618367.3A 2016-09-23 2017-07-26 用于检测对象的设备和方法 Active CN107871117B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662399046P 2016-09-23 2016-09-23
US62/399,046 2016-09-23
US15/434,880 2017-02-16
US15/434,880 US10657364B2 (en) 2016-09-23 2017-02-16 System and method for deep network fusion for fast and robust object detection

Publications (2)

Publication Number Publication Date
CN107871117A CN107871117A (zh) 2018-04-03
CN107871117B true CN107871117B (zh) 2023-01-10

Family

ID=61685530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710618367.3A Active CN107871117B (zh) 2016-09-23 2017-07-26 用于检测对象的设备和方法

Country Status (4)

Country Link
US (1) US10657364B2 (zh)
KR (1) KR102279291B1 (zh)
CN (1) CN107871117B (zh)
TW (1) TWI764905B (zh)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366302B2 (en) * 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
JP6525934B2 (ja) * 2016-10-14 2019-06-05 キヤノン株式会社 画像処理装置および制御方法
US11080534B2 (en) * 2016-11-14 2021-08-03 Lyft, Inc. Identifying objects for display in a situational-awareness view of an autonomous-vehicle environment
AU2016277697A1 (en) * 2016-12-22 2018-07-12 Canon Kabushiki Kaisha Method, system and apparatus for providing access to videos
US10147193B2 (en) 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)
CN108664844A (zh) * 2017-03-28 2018-10-16 爱唯秀股份有限公司 卷积深度神经网络的图像目标语义识别及追踪
US10210411B2 (en) * 2017-04-24 2019-02-19 Here Global B.V. Method and apparatus for establishing feature prediction accuracy
US10210403B2 (en) * 2017-04-24 2019-02-19 Here Global B.V. Method and apparatus for pixel based lane prediction
JP6570791B2 (ja) * 2017-04-26 2019-09-04 三菱電機株式会社 処理装置
JP6833620B2 (ja) * 2017-05-30 2021-02-24 株式会社東芝 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
CN107679531A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 基于深度学习的车牌识别方法、装置、设备及存储介质
US10592786B2 (en) * 2017-08-14 2020-03-17 Huawei Technologies Co., Ltd. Generating labeled data for deep object tracking
US11093793B2 (en) * 2017-08-29 2021-08-17 Vintra, Inc. Systems and methods for a tailored neural network detector
US10621416B2 (en) * 2017-10-02 2020-04-14 Microsoft Technology Licensing, Llc Image processing for person recognition
US11004209B2 (en) * 2017-10-26 2021-05-11 Qualcomm Incorporated Methods and systems for applying complex object detection in a video analytics system
US11282389B2 (en) 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
CN108846826B (zh) * 2018-04-24 2021-06-22 深圳大学 物体检测方法、装置、图像处理设备及存储介质
US10559088B2 (en) 2018-05-01 2020-02-11 Microsoft Technology Licensing, Llc Extending previously trained deep neural networks
EP3570062B1 (en) * 2018-05-18 2022-06-29 Aptiv Technologies Limited Radar system and method for receiving and compressing radar signals
CN112272832A (zh) * 2018-05-28 2021-01-26 三星电子株式会社 用于基于dnn的成像的方法和系统
CN111819580A (zh) * 2018-05-29 2020-10-23 谷歌有限责任公司 用于密集图像预测任务的神经架构搜索
US20190367019A1 (en) * 2018-05-31 2019-12-05 TuSimple System and method for proximate vehicle intention prediction for autonomous vehicles
US11104334B2 (en) 2018-05-31 2021-08-31 Tusimple, Inc. System and method for proximate vehicle intention prediction for autonomous vehicles
CN110580487A (zh) * 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
JP2019215728A (ja) * 2018-06-13 2019-12-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11030495B2 (en) * 2018-06-13 2021-06-08 Octi Systems and methods for instance segmentation
US11048958B1 (en) * 2018-06-15 2021-06-29 Objectvideo Labs, Llc Object detection improvement using a foreground occupancy map
CN110619255B (zh) * 2018-06-19 2022-08-26 杭州海康威视数字技术股份有限公司 一种目标检测方法及其装置
US10921817B1 (en) 2018-06-29 2021-02-16 Zoox, Inc. Point cloud filtering with semantic segmentation
US10810445B1 (en) * 2018-06-29 2020-10-20 Zoox, Inc. Pipeline with point cloud filtering
CN110659658B (zh) * 2018-06-29 2022-07-29 杭州海康威视数字技术股份有限公司 一种目标检测方法及其装置
US10884131B1 (en) 2018-08-03 2021-01-05 GM Global Technology Operations LLC Conflict resolver for a lidar data segmentation system of an autonomous vehicle
US20200065706A1 (en) * 2018-08-24 2020-02-27 Htc Corporation Method for verifying training data, training system, and computer program product
US10922589B2 (en) * 2018-10-10 2021-02-16 Ordnance Survey Limited Object-based convolutional neural network for land use classification
US10984532B2 (en) 2018-08-24 2021-04-20 Ordnance Survey Limited Joint deep learning for land cover and land use classification
WO2020048359A1 (en) 2018-09-06 2020-03-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for improving quality of low-light images
WO2020061236A1 (en) * 2018-09-18 2020-03-26 Focal Systems, Inc. Product onboarding machine
CN109389078B (zh) * 2018-09-30 2022-06-21 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备
CN111008544B (zh) * 2018-10-08 2023-05-09 阿里巴巴集团控股有限公司 交通监控和无人驾驶辅助系统以及目标检测方法及设备
JP7311310B2 (ja) * 2018-10-18 2023-07-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置、情報処理方法及びプログラム
CN109101036A (zh) * 2018-10-30 2018-12-28 佛山市神风航空科技有限公司 一种多旋翼载人飞行器飞行控制系统
US11164329B2 (en) * 2018-11-01 2021-11-02 Inpixon Multi-channel spatial positioning system
WO2020093782A1 (en) 2018-11-08 2020-05-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for improving quality of low-light images
CN109685762A (zh) * 2018-11-09 2019-04-26 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
CN111178495B (zh) * 2018-11-10 2023-06-30 杭州凝眸智能科技有限公司 用于检测图像中极小物体的轻量卷积神经网络
CN113302620A (zh) * 2018-11-13 2021-08-24 辉达公司 使用机器学习模型确定对象与人之间的关联
WO2020108009A1 (en) * 2018-11-26 2020-06-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for improving quality of low-light images
CN109859158A (zh) * 2018-11-27 2019-06-07 邦鼓思电子科技(上海)有限公司 一种基于视觉的工作区域边界的检测系统、方法及机器设备
CN111242117A (zh) * 2018-11-28 2020-06-05 佳能株式会社 检测装置和方法及图像处理装置和系统
EP3660741B1 (en) * 2018-11-29 2022-05-04 Koninklijke Philips N.V. Feature identification in medical imaging
KR102181144B1 (ko) * 2018-12-04 2020-11-20 엔에이치엔 주식회사 이미지 딥러닝 기반 성별 인식 방법
US10922574B1 (en) * 2018-12-10 2021-02-16 Zoox, Inc. Bounding box embedding for object identifying
JP7092016B2 (ja) * 2018-12-13 2022-06-28 日本電信電話株式会社 画像処理装置、方法、及びプログラム
US10963757B2 (en) * 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
DE102018133441A1 (de) 2018-12-21 2020-06-25 Volkswagen Aktiengesellschaft Verfahren und System zum Bestimmen von Landmarken in einer Umgebung eines Fahrzeugs
US10776647B2 (en) * 2019-01-31 2020-09-15 StradVision, Inc. Method and device for attention-driven resource allocation by using AVM to thereby achieve safety of autonomous driving
US10726279B1 (en) * 2019-01-31 2020-07-28 StradVision, Inc. Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving
JP2022520019A (ja) * 2019-02-15 2022-03-28 エスゼット ディージェイアイ テクノロジー カンパニー リミテッド 画像処理方法、装置、移動可能なプラットフォーム、プログラム
US10915786B2 (en) * 2019-02-28 2021-02-09 Sap Se Object detection and candidate filtering system
CN109948497B (zh) * 2019-03-12 2022-01-28 北京旷视科技有限公司 一种物体检测方法、装置及电子设备
CN109784424B (zh) * 2019-03-26 2021-02-09 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
KR102211481B1 (ko) 2019-03-27 2021-02-02 연세대학교 산학협력단 객체 랜드마크 검출 장치 및 시멘틱 정합 장치의 공동 학습 장치 및 방법
JP7418966B2 (ja) * 2019-04-02 2024-01-22 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
CN110163249B (zh) * 2019-04-09 2021-11-23 中国科学院计算技术研究所 基于用户参数特征的基站分类识别方法及系统
CN109993757B (zh) * 2019-04-17 2021-01-08 山东师范大学 一种视网膜图像病变区域自动分割方法及系统
KR20220020804A (ko) * 2019-06-14 2022-02-21 소니그룹주식회사 정보 처리 장치 및 정보 처리 방법, 그리고 프로그램
AU2019204380C1 (en) * 2019-06-21 2020-11-12 Curvebeam Ai Limited A Method and System for Machine Learning Classification Based on Structure or Material Segmentation in an Image
US11263497B2 (en) 2019-06-21 2022-03-01 StraxCorp Pty. Ltd. Method and system for machine learning classification based on structure or material segmentation in an image
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
DE102019209463A1 (de) * 2019-06-27 2020-12-31 Robert Bosch Gmbh Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
TWI773907B (zh) * 2019-07-11 2022-08-11 緯創資通股份有限公司 資料擷取裝置與資料運算系統及方法
US11150605B1 (en) * 2019-07-22 2021-10-19 Facebook Technologies, Llc Systems and methods for generating holograms using deep learning
US11216705B2 (en) * 2019-08-21 2022-01-04 Anyvision Interactive Technologies Ltd. Object detection based on machine learning combined with physical attributes and movement patterns detection
CN110728200B (zh) * 2019-09-23 2023-06-06 武汉大学 一种基于深度学习的实时行人检测方法及系统
US11494935B2 (en) 2019-10-17 2022-11-08 Objectvideo Labs, Llc Scaled human video tracking
RU2745804C1 (ru) 2019-11-06 2021-04-01 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способ и процессор для управления перемещением в полосе движения автономного транспортного средства
TWI731466B (zh) 2019-11-07 2021-06-21 財團法人資訊工業策進會 產生一物件偵測模型的計算裝置及方法及物件偵測裝置
CN111368625B (zh) * 2019-11-08 2024-02-27 深圳北航新兴产业技术研究院 一种基于级联优化的行人目标检测方法
US11302025B2 (en) * 2019-11-26 2022-04-12 Zebra Technologies Corporation Error mitigation for mobile dimensioning in stereo vision
KR102306658B1 (ko) * 2019-12-24 2021-09-30 아주대학교산학협력단 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
RU2744012C1 (ru) 2019-12-24 2021-03-02 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способы и системы для автоматизированного определения присутствия объектов
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
KR102583960B1 (ko) 2020-01-06 2023-09-27 한국전자통신연구원 무인 비행체의 데이터 세트 생성 방법 및 장치
WO2021145715A1 (en) * 2020-01-16 2021-07-22 Samsung Electronics Co., Ltd. Apparatus and method for enhancing videos
CN111274974B (zh) * 2020-01-21 2023-09-01 阿波罗智能技术(北京)有限公司 定位元素检测方法、装置、设备和介质
KR102289668B1 (ko) 2020-02-21 2021-08-12 연세대학교 산학협력단 매칭 신뢰도 기반 시멘틱 매칭 장치 및 방법
KR20210111557A (ko) * 2020-03-03 2021-09-13 현대자동차주식회사 심층 학습 기반의 객체 분류 장치 및 그 방법
CN113468914B (zh) * 2020-03-30 2023-08-29 杭州海康威视数字技术股份有限公司 一种商品纯净度的确定方法、装置及设备
CN111489332B (zh) * 2020-03-31 2023-03-17 成都数之联科技股份有限公司 一种用于目标检测的多尺度iof随机裁剪的数据增强方法
CN111723852B (zh) * 2020-05-30 2022-07-22 杭州迪英加科技有限公司 针对目标检测网络的鲁棒训练方法
CN111768392B (zh) * 2020-06-30 2022-10-14 创新奇智(广州)科技有限公司 目标检测方法及装置、电子设备、存储介质
JP2023534850A (ja) * 2020-07-21 2023-08-14 華為技術有限公司 ラベル付け情報決定方法および装置
KR20220013231A (ko) * 2020-07-24 2022-02-04 삼성전자주식회사 영상 내에서 객체를 추론하는 전자 장치 및 추론 방법
CN112307889B (zh) * 2020-09-22 2022-07-26 北京航空航天大学 一种基于小型辅助网络的人脸检测算法
CN112053439B (zh) * 2020-09-28 2022-11-25 腾讯科技(深圳)有限公司 图像中实例属性信息确定方法、装置、设备及存储介质
TWI812888B (zh) 2020-10-14 2023-08-21 財團法人工業技術研究院 影像辨識方法及影像辨識系統
US20220147748A1 (en) * 2020-11-12 2022-05-12 Texas Instruments Incorporated Efficient object detection using deep learning techniques
US11798210B2 (en) 2020-12-09 2023-10-24 Salesforce, Inc. Neural network based detection of image space suitable for overlaying media content
US11657511B2 (en) * 2021-01-29 2023-05-23 Salesforce, Inc. Heuristics-based detection of image space suitable for overlaying media content
CN113344857B (zh) * 2021-05-13 2022-05-03 深圳市华汉伟业科技有限公司 缺陷检测网络的训练方法、缺陷检测方法和存储介质
KR20220168950A (ko) * 2021-06-14 2022-12-26 센스타임 인터내셔널 피티이. 리미티드. 객체 분류를 결정하기 위한 방법들 및 장치들
WO2022263908A1 (en) * 2021-06-14 2022-12-22 Sensetime International Pte. Ltd. Methods and apparatuses for determining object classification
KR20230020708A (ko) * 2021-08-04 2023-02-13 삼성전자주식회사 객체 검출 장치 및 객체 검출 방법
US20230118072A1 (en) * 2021-10-19 2023-04-20 International Business Machines Corporation Content based on-device image adjustment
US11589006B1 (en) * 2021-10-19 2023-02-21 Plantronics, Inc. Dynamic camera presets
KR102437962B1 (ko) * 2022-03-22 2022-08-30 주식회사 스누아이랩 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법
WO2023178542A1 (en) * 2022-03-23 2023-09-28 Robert Bosch Gmbh Image processing apparatus and method
US11915467B1 (en) 2022-08-11 2024-02-27 Microsoft Technology Licensing, Llc. Saliency for anchor-based object detection
CN115830637B (zh) * 2022-12-13 2023-06-23 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105308944A (zh) * 2013-03-13 2016-02-03 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类的系统和方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3803950B2 (ja) * 1999-03-04 2006-08-02 株式会社リコー 画像合成処理方法、画像合成処理装置及び記録媒体
US6754390B2 (en) 2000-12-01 2004-06-22 The United States Of America As Represented By The Secretary Of The Navy Fusing outputs from multiple detection/classification schemes
US7133083B2 (en) * 2001-12-07 2006-11-07 University Of Kentucky Research Foundation Dynamic shadow removal from front projection displays
US7274830B2 (en) * 2002-06-12 2007-09-25 Litton Systems, Inc. System for multi-sensor image fusion
US7308139B2 (en) * 2002-07-12 2007-12-11 Chroma Energy, Inc. Method, system, and apparatus for color representation of seismic data and associated measurements
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
US20050209983A1 (en) * 2004-03-18 2005-09-22 Macpherson Deborah L Context driven topologies
US7634142B1 (en) 2005-01-24 2009-12-15 Adobe Systems Incorporated Detecting objects in images using a soft cascade
CA2617119A1 (en) * 2008-01-08 2009-07-08 Pci Geomatics Enterprises Inc. Service oriented architecture for earth observation image processing
JP4513898B2 (ja) 2008-06-09 2010-07-28 株式会社デンソー 画像識別装置
US8345921B1 (en) 2009-03-10 2013-01-01 Google Inc. Object detection with false positive filtering
TW201033908A (en) * 2009-03-12 2010-09-16 Micro Star Int Co Ltd System and method for counting people flow
US9260122B2 (en) 2012-06-06 2016-02-16 International Business Machines Corporation Multisensor evidence integration and optimization in object inspection
US8965115B1 (en) 2013-03-14 2015-02-24 Hrl Laboratories, Llc Adaptive multi-modal detection and fusion in videos via classification-based-learning
US9100572B2 (en) 2013-05-24 2015-08-04 Xerox Corporation Methods and systems for confidence-based image processing
US9275308B2 (en) * 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
EP3014443B1 (en) * 2013-06-24 2020-06-10 Cylance Inc. Automated system for generative multimodel multiclass classification and similarity analysis using machine learning
CN103886013A (zh) * 2014-01-16 2014-06-25 陈守辉 一种基于网络视频监控中的智能图像检索系统
US9183459B1 (en) * 2014-05-06 2015-11-10 The Boeing Company Sensor fusion using detector confidence boosting
SG10201403293TA (en) 2014-06-16 2016-01-28 Ats Group Ip Holdings Ltd Fusion-based object-recognition
CN104573715B (zh) * 2014-12-30 2017-07-25 百度在线网络技术(北京)有限公司 图像主体区域的识别方法及装置
US9594984B2 (en) * 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105308944A (zh) * 2013-03-13 2016-02-03 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Metadata-weighted Score Fusion for Multimedia Event Detection;McCloskey, Scott 等;《Canadian Conference on Computer and Robot Vision (CRV)》;20140509;1-7 *

Also Published As

Publication number Publication date
TWI764905B (zh) 2022-05-21
US20180089505A1 (en) 2018-03-29
US10657364B2 (en) 2020-05-19
CN107871117A (zh) 2018-04-03
KR20180033037A (ko) 2018-04-02
TW201814591A (zh) 2018-04-16
KR102279291B1 (ko) 2021-07-20

Similar Documents

Publication Publication Date Title
CN107871117B (zh) 用于检测对象的设备和方法
US10691952B2 (en) Adapting to appearance variations when tracking a target object in video sequence
CN107506763B (zh) 一种基于卷积神经网络的多尺度车牌精准定位方法
US10699170B2 (en) Apparatuses and methods for semantic image labeling
US20210064871A1 (en) Apparatus and method for recognition of text information
US9542751B2 (en) Systems and methods for reducing a plurality of bounding regions
US8433101B2 (en) System and method for waving detection based on object trajectory
US20140321756A9 (en) System and method for circling detection based on object trajectory
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
US20170032247A1 (en) Media classification
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
KR20200105004A (ko) 자동 영상 합성 장치 및 방법
Monteiro et al. Tracking and classification of dynamic obstacles using laser range finder and vision
CN112926461B (zh) 神经网络训练、行驶控制方法及装置
CN111339830A (zh) 一种基于多模态数据特征的目标分类方法
Gu et al. Embedded and real-time vehicle detection system for challenging on-road scenes
CN113269038A (zh) 一种基于多尺度的行人检测方法
CN112347967A (zh) 一种复杂场景下融合运动信息的行人检测方法
Huang et al. Nighttime vehicle detection based on direction attention network and bayes corner localization
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
CN111666953B (zh) 一种基于语义分割的潮汐带测绘方法及设备
WO2021214540A1 (en) Robust camera localization based on a single color component image and multi-modal learning
CN110796112A (zh) 一种基于matlab的车内人脸识别系统
Meena et al. Hybrid Neural Network Architecture for Multi-Label Object Recognition using Feature Fusion
Islam et al. Faster R-CNN based traffic sign detection and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant