CN112508839A - 对象检测系统及其对象检测方法 - Google Patents
对象检测系统及其对象检测方法 Download PDFInfo
- Publication number
- CN112508839A CN112508839A CN202010650026.6A CN202010650026A CN112508839A CN 112508839 A CN112508839 A CN 112508839A CN 202010650026 A CN202010650026 A CN 202010650026A CN 112508839 A CN112508839 A CN 112508839A
- Authority
- CN
- China
- Prior art keywords
- pyramid
- image
- object data
- pieces
- pyramid image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 97
- 239000000872 buffer Substances 0.000 claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 25
- 238000013136 deep learning model Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 29
- 238000004891 communication Methods 0.000 description 15
- 238000011176 pooling Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
一种对象检测系统,通过使用分层金字塔结构来检测对象,包括:金字塔图像生成器,被配置为接收分别与多个时间点相对应的多个输入图像,并生成对应于多个输入图像中的每一个的多个金字塔图像;对象提取器,被配置为通过从多个金字塔图像中提取至少一个对象来生成多条对象数据;以及缓冲器,以对象为基础来存储多条对象数据。
Description
对相关申请的交叉引用
本申请要求在2019年8月26日在韩国知识产权局提交的第10-2019-0104574号韩国专利申请的优先权,其公开通过引用在本文被整体合并。
技术领域
本公开涉及一种对象检测系统,并且更具体地涉及一种用于通过使用分层金字塔(hierarchical pyramid)来检测对象的对象检测系统和对象检测方法。
背景技术
对象检测指的是从图像或视频检测感兴趣的对象并且识别或分类对象的数据处理方法。对象检测在诸如自动驾驶、驾驶辅助、无人飞行器和基于手势的交互系统的各种应用中起着重要的作用。
与人工智能技术的发展一起,已经开发了使用基于神经网络的深度学习技术和训练的对象检测方法和对象分类及识别方法,并且已经广泛地部署了这些方法。
发明内容
本公开的实施例提供一种对象检测系统和由对象检测系统所使用的对象检测方法,能够向通过使用输入图像生成的至少一个金字塔图像添加指示捕捉输入图像的时间的时间信息,并且通过使用所添加的时间信息来从输入图像检测对象。
根据本公开的方面,提供一种对象检测系统,包括:金字塔图像生成器,被配置为接收在第一时间捕捉的第一输入图像和在第二时间捕捉的第二输入图像,并且从第一输入图像生成第一金字塔图像并从第二输入图像生成第二金字塔图像;对象提取器,被配置为检测第一金字塔图像和第二金字塔图像中的对象,并且生成表示对象的多条对象数据;以及缓冲器,存储表示在第一金字塔图像和第二金字塔图像中检测到的对象的多条对象数据。
根据本公开的另一个方面,提供一种对象检测方法,包括:接收在第一时间捕捉的第一输入图像和在第二时间捕捉的第二输入图像;从第一输入图像生成与第一时间相关联的第一金字塔图像并且从第二输入图像生成与第二时间相关联的第二金字塔图像;以及在缓冲器中存储多条对象数据。
根据本公开的又一个方面,提供一种用于通过检测对象来驾驶车辆的驾驶辅助系统,该驾驶辅助系统包括:金字塔图像生成器,被配置为接收在第一时间捕捉的第一输入图像和在第二时间捕捉的第二输入图像,并且从第一输入图像生成第一金字塔图像并且从第二输入图像生成第二金字塔图像;对象提取器,被配置为检测第一金字塔图像和第二金字塔图像中的对象,并且通过使用基于神经网络的深度学习来生成表示对象的多条对象数据;缓冲器,存储表示在第一金字塔图像和第二金字塔图像中检测的对象的多条对象数据;以及对象跟踪器,被配置为基于存储在缓冲器中的多条对象数据来跟踪对象。
附图说明
将从结合附图所采取的以下详细描述更清楚地理解本公开的实施例,其中:
图1是图示出根据本公开的实施例的电子系统的框图;
图2是图示出根据本公开的实施例的电子系统的框图;
图3是图示出根据本公开的实施例的对象检测系统的框图;
图4是图示出根据本公开的实施例的、操作对象检测系统的方法的流程图;
图5是图示出根据本公开的实施例的神经网络的图;
图6是图示出根据本公开的实施例的、检测对象的方法的图;
图7是图示出根据本公开的实施例的对象检测系统的框图;
图8是图示出根据本公开的实施例的、操作对象检测系统的方法的流程图;
图9是图示出根据本公开的实施例的对象检测系统的框图;
图10是图示出根据本公开的实施例的对象数据的图;
图11是图示出根据本公开的实施例的对象检测系统的框图;
图12是图示出根据本公开的实施例的对象检测系统的框图;
图13是图示出根据本公开的实施例的、生成金字塔图像的方法的图;
图14是图示出根据本公开的实施例的对象检测系统的框图;
图15是图示出根据本公开的实施例的应用处理器的框图;并且
图16是图示出根据本公开的实施例的驾驶系统的框图。
具体实施方式
在下文中,将参考附图对本公开的实施例进行详细地描述。
图1是图示出根据本公开的实施例的电子系统的框图。
参考图1,电子系统10可以通过实时分析输入数据来提取信息,并且基于所提取的信息,可以确定情形,或者可以控制其中布置电子系统10的电子设备的组件。在一个示例中,电子系统10可以从输入图像中检测对象并且可以跟踪检测的对象。如在本文使用的,术语“对象”可以指从用户或电子系统10感兴趣的建筑物、物品、人、动物以及工厂中选择的至少一个。例如,电子系统10可以被应用于无人航空载具、高级驾驶员辅助系统(ADAS)、机器人设备、智能TV、智能电话、医疗设备、移动设备、图像显示设备、测量设备、物联网(IoT)设备等等,并且除此之外,可以被安装在各种电子设备之一中。
电子系统10可以包括至少一个知识产权(IP)块(IP1、IP2、IP3、…IPn)和对象检测系统100。例如,电子系统10可以包括第一IP块IP1至第三IP块IP3,但是电子系统可以包括任何数量的IP块。
电子系统10可以包括各种IP块。例如,IP块可以包括处理单元、处理单元中所包括的多个核、各种传感器模块、多格式编解码器(MFC)、视频模块(例如照相机接口、联合图片专家组(JPEG)处理器、视频处理器、混频器,等等)、三维(3D)图形核、音频系统、驱动器、显示器驱动器、易失性存储器、非易失性存储器、存储器控制器、输入和输出接口块、高速缓存存储器,等等。第一IP块IP1至第三IP块IP3中的每一个可以包括以上阐述的各种IP块中的至少一个。
IP块可以通过至少一个系统总线12彼此连接。例如,作为标准总线规范,可以使用Advanced RISC Machine(ARM)有限公司的高级微控制器总线体系结构(AMBA)协议。AMBA协议的总线类型可以包括高级高性能总线(AHB)、高级外围总线(APB)、高级可扩展接口(AXI)、AXI4、AXI连贯性扩展(ACE),等等。
对象检测系统100可以接收输入图像,可以检测在输入图像中包括的对象,并且可以跟踪检测到的对象或可以通过从输入图像中排除检测到的对象来提取背景。如在本文使用的,术语“对象”可以指从用户或电子系统10感兴趣的建筑物、物品、人、动物以及工厂中选择的至少一个。术语“背景”可以指通过从图像帧中排除对象而得到的图像的剩余。在一个实施例中,对象检测系统100可以通过使用神经网络来检测包括在输入图像数据中的对象,并且可以跟踪所提取的对象。将参考图2对这进行详细地描述。在一个实施例中,对象检测系统100可以通过对输入图像进行下采样来生成至少一个金字塔图像,并且可以基于至少一个金字塔图像来提取对象。这里,其中基于通过对一条图像数据进行下采样所生成的且彼此具有不同的分辨率的多个金字塔图像来分层地提取对象的结构可以被称为金字塔结构。以下将参考图6对其进行详细描述。此外,为了描述方便,在本文使用的术语“输入图像”和“金字塔图像”可以分别指与输入图像相对应的数据和与金字塔图像相对应的数据。
根据本公开,当生成至少一个金字塔图像时,对象检测系统100可以向至少一个金字塔图像添加与捕捉输入图像的时间对应的时间信息。当检测和跟踪对象时,除了根据至少一个金字塔的空间信息之外,对象检测系统100可以一起使用时间信息。因此,可以提高对象检测系统100的检测性能。
图2是图示出根据本公开的实施例的电子系统的框图。具体地,图2图示出图1中示出的电子系统10的实施例。关于图2的电子系统10,将省略参考图1给出的重复的描述。
参考图2,电子系统10可以包括中央处理单元(CPU)21、神经网络设备22、随机存取存储器(RAM)24、存贮器25以及传感器模块26。电子系统10还可以包括输入输出模块、安全模块、功率控制设备等等,并且也可以进一步包括各种计算设备。在一个实施例中,电子系统10的组件(CPU 21、神经网络设备22、RAM 24、存贮器25和传感器模块26)中的所有或一些可以被安装在一个半导体芯片中。例如,电子系统10可以被实施为片上系统(SoC)。电子系统10的组件可以经由至少一个系统总线27彼此通信。
CPU 21可以控制电子系统10的总体操作。CPU 21可以包括单个处理器核(即,单核)或多个处理器核(即,多核)。CPU 21可以处理或执行存储在存贮器25中并且装载到RAM24中的程序和/或数据。在一个实施例中,通过执行存储在存贮器25中的程序,CPU 21可以执行参考图1描述的对象检测系统100的操作并且可以控制神经网络设备22的功能用于检测对象。神经网络设备22可以生成神经网络,可以训练神经网络(或使神经网络学习),或可以基于接收的输入数据来执行计算且可以基于计算的结果来生成信息信号,或对神经网络进行再训练。在一个示例中,神经网络设备22可以接收输入图像并且可以通过经由在神经网络中包括的计算提取被包括在输入图像中的对象来生成至少一条对象数据。神经网络设备22可以被称为计算单元、计算模块等等。
神经网络的模型可以包括各种模型,诸如包括GoogleNet、AlexNet、VGG网络等等的卷积神经网络(CNN),具有卷积神经网络的区域(R-CNN)、区域方案网络(RPN)、循环神经网络(RNN)、基于堆栈的深度神经网络(S-DNN)、状态空间动态神经网络(S-SDNN)、反卷积网络、深度信任网络(DBN)、受限玻耳兹曼机(RBM)、完全卷积网络、长短记忆网络(LSTM)网络、分类网络,等等,但是不限于此。
神经网络设备22可以包括一个或多个处理器用于根据神经网络的模型来执行计算。另外,神经网络设备22可以包括单独存储器,用于存储与神经网络的模型相对应的程序。神经网络设备22可以被称为神经网络处理器、神经网络处理设备、神经网络集成电路、神经网络处理单元(NPU),等等。
可以将神经网络设备22和CPU 21包括在参考图1描述的对象检测系统100中。对象检测系统100可以从特定IP(例如,RAM 24或传感器模块26)接收对应于输入图像的数据,并且可以检测在输入图像中包括的对象。在一个实施例中,在对象检测系统100中包括的CPU21可以通过使用输入图像来生成具有金字塔结构的至少一个金字塔图像,并且可以使所生成的金字塔图像包括与捕捉该输入图像的时间对应的时间信息。另外,在对象检测系统100中包括的神经网络设备22可以通过基于网络、基于金字塔图像的空间信息和时间信息所训练的深度学习来提取在输入图像中包括的对象,并且可以跟踪所提取的对象。
RAM 24可以存储程序、数据或指令。例如,根据CPU 21的控制或根据引导代码,存储在存贮器25中的程序和/或数据可以被装载到RAM 24中。可以通过使用诸如动态RAM(DRAM)或静态RAM(SRAM)的存储器实现RAM 24。存贮器25是用于存储数据的存储位置并且可以例如存储操作系统(OS)、各种程序和各条数据。存贮器25可以包括从易失性存储器和非易失性存储器中选择的至少一个。传感器模块26可以收集电子系统10周围的信息。传感器模块26可以感测或接收来自电子系统10外部的图像信号并且可以将感测或接收的图像信号转换为图像数据,即图像帧。为此目的,传感器模块26可以包括感测设备,例如诸如图像拾取设备、图像传感器、光探测和测距(LIDAR)传感器、超声波传感器和红外传感器的各种感测设备中的至少一个,或可以从感测设备接收感测信号。在一个实施例中,传感器模块26可以向CPU 21或神经网络设备22提供包括图像帧的图像数据。例如,传感器模块26可以包括图像传感器,可以通过拍摄电子系统10外部的环境的图像来生成视频流,并且可以向CPU 21或神经网络设备22顺序地提供视频流的连续图像帧。
根据本公开的实施例的电子系统10可以在生成至少一个金字塔图像时向至少一个金字塔图像添加与图像数据的图像捕捉时间对应的时间信息,并且可以在通过使用神经网络检测和跟踪对象时根据至少一个金字塔图像连同空间信息一起使用时间信息。因此,可以提高电子系统10的对象检测性能。如在本文使用的,术语“空间信息”可以指输入图像的像素数据。
图3是图示出根据本公开的实施例的对象检测系统的框图。
参考图3,对象检测系统100可以包括金字塔图像生成器110、特征提取器120、缓冲器130以及对象跟踪器140。金字塔图像生成器110可以接收分别在多个时间点捕捉的多个输入图像IM,并且可以从所接收的多个输入图像IM生成多个金字塔图像PI。
金字塔图像生成器110可以基于与一个时间点相对应的输入图像来生成多个金字塔图像,并且可以使得多个金字塔图像中的每一个包括关于捕捉该输入图像的时间的时间信息。在一个示例中,金字塔图像生成器110可以生成与在第一时间点的第一输入图像对应的具有第一分辨率的第一金字塔图像,可以通过对第一金字塔图像进行下采样来生成具有第二分辨率的第二金字塔图像,可以通过对第二金字塔图像进行下采样来生成具有第三分辨率的第三金字塔图像,并且可以向第一金字塔图像、第二金字塔图像和第三金字塔图像添加与捕捉第一输入图像的第一时间点相对应的数据。可以根据输入图像IM中的对象的数量和/或种类和类型来适配地确定通过下采样生成的并且具有不同分辨率的多个金字塔图像。
金字塔图像生成器110可以对于与多个时间点中的每一个对应的每个输入图像生成多个金字塔图像。在一个示例中,金字塔图像生成器110可以生成与在第二时间点的第二输入图像对应的具有第一分辨率的第四金字塔图像,可以通过对第四金字塔图像进行下采样来生成具有第二分辨率的第五金字塔图像,可以通过对第五金字塔图像进行下采样来生成具有第三分辨率的第六金字塔图像,并且可以向第四金字塔图像、第五金字塔图像和第六金字塔图像添加对应与捕捉第二输入图像的第二时间点对应的数据。换句话说,可以将捕捉输入图像的单个时间点添加到根据该输入图像生成的所有金字塔图像。在一个示例中,金字塔图像生成器110可以从输入图像(例如IM)的元区域获取关于图像捕捉时间点的信息,或可以从外部设备(例如在图2中的传感器模块26)获取图像拍摄时间点。
在一个实施例中,金字塔图像生成器110可以向所生成的多个金字塔图像中的每一个的报头区域添加关于输入图像的图像拍摄时间的时间信息。本公开不限于此,并且可以不同地确定用于金字塔图像生成器110向多个金字塔图像中的每一个添加时间信息的区域。
在一个实施例中,金字塔图像生成器110可以仅仅向从输入图像生成的多个金字塔图像中的至少一些添加时间信息。在一个示例中,金字塔图像生成器110可以向具有第一分辨率的第一金字塔图像并且向具有第二分辨率的第二金字塔图像添加时间信息,但是可以不向具有第三分辨率的第三金字塔图像添加时间信息。换句话说,可以仅仅向从输入图像生成的金字塔图像中的一些或子集添加捕捉输入图像的单个时间点。
在一个实施例中,金字塔图像生成器110可以不同地确定从分别与多个时间点相对应的多个输入图像生成并且具有一个分辨率的金字塔图像的数量。在一个示例中,根据分别与多个时间点相对应的多个输入图像,金字塔图像生成器110可以生成具有第一分辨率的第一数量的第一金字塔图像并且生成具有第二分辨率的第二数量的第二金字塔图像。也就是说,可以从在不同时间点捕捉的第一数量的输入图像生成第一数量的第一金字塔图像,并且可以从在不同时间点捕捉的第二数量的输入图像生成第二数量的第二金字塔图像。
特征提取器120可以从金字塔图像生成器110接收多个金字塔图像PI并且可以从多个金字塔图像PI中提取多条对象数据OD。在一个实施例中,特征提取器120可以通过使用基于神经网络训练的深度学习来从多个金字塔图像PI中提取多条对象数据OD。在一个示例中,可以通过图2的神经网络设备22来实现特征提取器120。
根据本公开,特征提取器120可以从与多个时间点对应的多个金字塔图像中提取与同一对象对应的对象数据。特征提取器120可以从金字塔图像生成器110接收根据多个时间点与一个分辨率对应的多个金字塔图像,并且可以基于在多个金字塔图像中包括的时间信息来检测和提取一个对象,从而生成对象数据。在一个示例中,特征提取器120可以从具有第一分辨率的至少一个第一金字塔图像中提取第一对象,可以从具有第二分辨率的至少一个第二金字塔图像中提取第二对象,并且可以从具有第三分辨率的至少一个第三金字塔图像中提取第三对象。在一个实施例中,第一对象至第三对象可以位于与图像拍摄位置相距不同的距离,并且将参考图6对这进行更详细的描述。特征提取器120可以将被提取的至少一条对象数据OD存储在缓冲器130中。在一个实施例中,特征提取器120可以根据对象的每个种类将至少一条对象数据OD存储在不同的缓冲器中或一个缓冲器的不同区域中。
在一个示例中,特征提取器120可以将对应于第一对象并且分别与多个时间点相对应的对象数据OD存储在缓冲器130的第一区域中,可以将对应于第二对象并且分别与多个时间点相对应的对象数据OD存储在缓冲器130的第二区域中,并且可以将对应于第三对象并且分别与多个时间点相对应的对象数据OD存储在缓冲器130的第三区域中。在一个示例中,特征提取器120可以基于级联操作、以对象为基础将多条对象数据存储在缓冲器130中。
缓冲器130可以存储对象数据OD。为此目的,缓冲器130可以包括从易失性存储器和非易失性存储器中选择的至少一个。根据本公开的一个实施例,缓冲器130可以以对象为基础将对象数据OD存储在其的不同区域中。在另一个实施例中,缓冲器130可以包括多个存储设备并且可以以对象为基础将对象数据OD存储在不同的存储设备中。
对象跟踪器140可以接收对象数据OD并且可以基于对象数据OD来跟踪对象。在本公开的一个实施例中,当跟踪一个对象时,对象跟踪器140可以使用分别与多个时间点相对应的对象数据OD。在一个示例中,对象跟踪器140可以通过使用对应于第一分辨率的多条对象数据来跟踪第一对象并且可以通过使用对应于第二分辨率的多条对象数据来跟踪第二对象。
根据本公开的一个实施例,对象跟踪器140可以使用分别与多个时间点相对应的对象数据OD来提取一个对象。在一个示例中,与背景相比,对象可以具有随着时间的更大的数据改变量,并且对象跟踪器140可以通过将分别与多个时间点相对应的多条对象数据OD彼此相比较来有效地跟踪对象。
图4是图示出根据本公开的实施例的、操作对象检测系统的方法的流程图。
参考图3和图4,对象检测系统100可以接收分别与多个时间点相对应的多个输入图像(S110),并且可以分别向多个输入图像添加关于多个输入图像的图像捕捉时间的时间信息(S120)。对象检测系统100可以通过对其添加时间信息的多个输入图像来生成与多个输入图像中的相应一个对应的多个金字塔图像。在一个实施例中,对象检测系统100可以通过对向其添加时间信息的每个输入图像反复进行下采样来生成多个金字塔图像。
对象检测系统100可以通过从多个金字塔图像中的每一个中提取对象来生成分别与多个时间点相对应的对象数据(S140)。在一个实施例中,对象检测系统100可以通过使用基于神经网络训练的深度学习模型来从多个金字塔图像生成多条对象数据。在一个示例中,对象检测系统100可以生成对应于一个对象的多条逐时间点(time-point-by-time-point)对象数据。
对象检测系统100可以以对象为基础来存储多条对象数据(S150)。在一个实施例中,对象检测系统100可以以对象为基础将多条逐时间点对象数据存储在缓冲器的不同的区域中,并且也可以通过使用级联操作来将多条时间点特定对象数据存储在缓冲器中。对象检测系统100可以通过使用以对象为基础存储的多条对象数据和时间信息两者来跟踪对象的位置和/或移动(S160)。
图5是图示出根据本公开的实施例的神经网络的图。具体地,图5图示出卷积神经网络的结构作为神经网络结构的示例。图5图示出由图3的特征提取器120所使用的神经网络的示例。
参考图5,神经网络NN可以包括多个层L1、L2、…至Ln。多个层L1、L2、...至Ln中的每一个可以是线性或非线性层。在一个实施例中,至少一个线性层和至少一个非线性层可以彼此耦合并且因此被称为一个层。例如,线性层可以包括卷积层和全连接层,并且非线性层可以包括池化和激活层。
例如,第一层L1可以是卷积层,第二层L2可以是池化层,并且第n层Ln可以是作为输出层的全连接层。神经网络NN还可以包括激活层和执行除以上讨论的那些操作外的另一种操作的层。
多个层L1至Ln中的每一个可以接收输入数据(例如,图像帧)或由先前的层生成的特征图作为输入特征图,并且可以计算输入特征图,从而生成输出特征图或识别信号REC。这里,特征图指其中表示输入数据的各种特征的数据。特征图FM1至FMn可以每个均具有例如2维矩阵或三维矩阵(或张量)的形式。特征图FM1至FMn中的每一个可以具有宽度W(或列)、高度H(或行)以及深度D,可以分别对应于坐标系中的x轴、y轴和z轴。这里,深度D可以被称为通道的数量。
第一层L1可以通过第一特征图FM1与权重图WM的卷积来生成第二特征图FM2。权重图WM可以对第一特征图FM1进行滤波并且也可以被称为滤波器或内核。权重图WM的深度、即通道的数量可以等于第一特征图FM1的深度、即通道的数量,并且可以在权重图WM和第一特征图FM1两者的相同通道之间执行卷积。可以采用第一特征图FM1作为滑动窗,以权重图WM遍历第一特征图FM1的方式来移位权重图WM。移位的量可以被称为术语“步幅长度”或“步幅”。在每个移位期间,在权重图WM中包括的权重值可以每个乘以与第一特征图重叠的区域中的所有像素数据。然后,可以通过求和来添加其结果。在权重图WM中包括的每一个权重值与第一特征图FM1重叠的区域中的第一特征图FM1的数据可以被称为提取数据。当执行第一特征图FM1和权重图WM之间的卷积时,可以生成第二特征图FM2的一个通道。尽管在图3中图示出一个权重图WM,但是可以执行多个权重图与第一特征图FM1的卷积,由此可以生成第二特征图FM2的多个通道。换句话说,第二特征图FM2的通道的数量可以对应于权重图的数量。
第二层L2可以通过经由池化改变第二特征图FM2的空间尺寸来生成第三特征图FM3。术语“池化”可以被称为术语“采样”或“下采样。”可以以2维池化窗PW的尺寸为单位在第二特征图FM2上移位池化窗PW,并且可以选择在与池化窗PW重叠的区域中的像素数据当中的最大值(或像素数据的平均值)。因而,可以生成具有不同于第二特征图FM2的尺寸的空间尺寸的第三特征图FM3。第三特征图FM3的通道的数量等于第二特征图FM2的通道的数量。在本公开的一个实施例中,池化窗PW可以在于特征图FM2和FM3上被移位的同时执行用于提取对象的各种操作。
第n层Ln可以通过进行第n特征图FMn的特征的组合来对输入数据的类别(即,CL)进行分类。另外,第n层Ln可以生成与类别相对应的识别信号REC。在一个实施例中,输入数据可以与通过使用输入图像所生成的金字塔图像对应,并且第n层Ln可以通过基于通过先前层提供的第n特征图FMn提取与在由帧数据表示的图像中包括的对象相对应的类别来识别对象。因此,可以输出与识别的对象相对应的识别信号REC。在一个实施例中,特征提取器120(图3)可以将识别信号REC存储在缓冲器130(图3)中作为对象数据OD,或者可以将使用识别信号REC生成的对象数据OD存储在缓冲器130(图3)中。
图6是图示出根据本公开的实施例的、检测对象的方法的图。
参考图3和图6,金字塔图像生成器110可以基于在第一时间点t1捕捉的输入图像来生成具有第一分辨率的第一金字塔图像PI1_1。金字塔图像生成器110可以通过对第一金字塔图像PI1_1进行下采样来生成具有第二分辨率的第二金字塔图像PI1_2。金字塔图像生成器110可以通过对第二金字塔图像PI1_2进行下采样来生成具有第三分辨率的第三金字塔图像PI1_3。金字塔图像生成器110可以基于预设整数比来执行下采样,并且在一个示例中,金字塔图像生成器110可以通过将现有图像的分辨率乘以或来执行下采样。
金字塔图像生成器110可以基于在第二时间点t2捕捉的输入图像来生成具有第一分辨率的第四金字塔图像PI2_1。金字塔图像生成器110可以通过对第四金字塔图像PI2_1进行下采样来生成具有第二分辨率的第五金字塔图像PI2_2。金字塔图像生成器110可以通过对第五金字塔图像PI2_2进行下采样来生成具有第三分辨率的第六金字塔图像PI2_3。
根据本公开的一个实施例,金字塔图像生成器110可以向第一金字塔图像PI1_1至第三金字塔图像PI1_3添加与第一时间点t1对应的时间信息,并且可以向第四金字塔图像PI2_1至第六金字塔图像PI2_3添加与第二时间点t2对应的时间信息。
特征提取器120可以从不同的金字塔图像中提取多个对象。在一个示例中,特征提取器120可以通过使用两者都具有作为最低分辨率的第三分辨率的第三金字塔图像PI1_3和第六金字塔图像PI2_3来提取位置最接近已经生成输入图像的图像捕捉设备的第一对象O1。类似地,特征提取器120可以通过使用两者都具有作为次最低分辨率的第二分辨率的第二金字塔图像PI1_2和第五金字塔图像PI2_2来提取在第一对象O1之后位置次最接近已经生成输入图像的图像捕捉设备的第二对象O2。另外,特征提取器120可以通过使用两者都具有作为最高分辨率的第一分辨率的第一金字塔图像PI1_1和第四金字塔图像PI2_1来提取在第二对象O2之后位置次最接近已经生成输入图像的图像捕捉设备的第三对象O3。
对象跟踪器140可以基于由特征提取器120生成的多条对象数据来跟踪对象。根据本公开的一个实施例,为了跟踪一个对象,对象跟踪器140可以通过使用时间信息来使用分别与多个时间点相对应的对象数据。在一个示例中,为了跟踪第三对象O3,除了使用从第一金字塔图像PI1_1生成的对象数据之外,对象跟踪器140还可以使用从第四金字塔图像PI2_1生成的对象数据以及第一时间点t1和第二时间点t2之间的时间差。
尽管图6图示出通过使用具有三个分辨率的金字塔图像来提取三个对象的示例,但这仅仅是示例,可以不同地确定用于对象提取的金字塔图像的数量,并且也可以不同地确定通过使用这些金字塔图像所提取的对象的数量。此外,应当理解,本公开也可以被应用于其中通过使用一个金字塔图像来提取两个或更多对象的实施例。
图7是图示出根据本公开的实施例的对象检测系统的框图。具体地,图7是图示出其中基于在两个时间点捕捉的输入图像来提取对象的实施例的框图。将省略参考图3的冗余描述。
参考图6和图7,对象检测系统100可以包括金字塔图像生成器110、第一特征提取器121、第二特征提取器122、缓冲器130以及对象跟踪器140。金字塔图像生成器110可以接收在第一时间点t1捕捉的第一输入图像IM1和在第二时间点t2捕捉的第二输入图像IM2。金字塔图像生成器110可以包括数据管理器111和下采样器112。数据管理器111可以通过向第一输入图像IM1添加与第一时间点t1对应的时间信息来生成第一金字塔图像PI1_1,并且可以通过向第二输入图像IM2添加与第二时间点t2对应的时间信息来生成第四金字塔图像PI2_1。
下采样器112可以通过对第一金字塔图像PI1_1进行下采样来生成第二金字塔图像PI1_2和第三金字塔图像PI1_3。另外,下采样器112可以通过对第四金字塔图像PI2_1进行下采样来生成第五金字塔图像PI2_2和第六金字塔图像PI2_3。
金字塔图像生成器110可以向第一特征提取器121输出所生成的第一金字塔图像PI1_1至第三金字塔图像PI1_3,并且可以向第二特征提取器122输出所生成的第四金字塔图像PI2_1至第六金字塔图像PI2_3。第一特征提取器121可以接收与第一时间点t1对应的第一金字塔图像PI1_1至第三金字塔图像PI1_3,并且可以通过分别从所接收的第一金字塔图像PI1_1至第三金字塔图像PI1_3中提取对象来生成第一至第三对象数据OD1_1、OD1_2和OD1_3。在图6的示例中,第一特征提取器121可以通过从第一金字塔图像PI1_1中提取第一对象来生成第一对象数据OD1_1,可以通过从第二金字塔图像PI1_2中提取第二对象来生成第二对象数据OD1_2,并且可以通过从第三金字塔图像PI1_3中提取第三对象来生成第三对象数据OD1_3。第二特征提取器122可以接收与第二时间点t2对应的第四金字塔图像至第六金字塔图像PI2_1、PI2_2和PI2_3,并且可以通过分别从所接收的第四金字塔图像PI2_1至第六金字塔图像PI2_3中提取对象来生成第四对象数据至第六对象数据OD2_1至OD2_3。
第一特征提取器121可以将所生成的第一对象数据OD1_1存储在缓冲器130的第一区域Ar1中,可以将所生成的第二对象数据OD1_2存储在缓冲器130的第二区域Ar2中,并且可以将所生成的第三对象数据OD1_3存储在缓冲器130的第三区域Ar3中。第二特征提取器122可以将所生成的第四对象数据OD2_1存储在缓冲器130的第一区域Ar1中,可以将所生成的第五对象数据OD2_2存储在缓冲器130的第二区域Ar2中,并且可以将所生成的第六对象数据OD2_3存储在缓冲器130的第三区域Ar3中。
在一个实施例中,第一特征提取器121和第二特征提取器122可以通过使用级联操作将所生成的第一对象数据至第六对象数据OD1_1、OD1_2、OD1_3、OD2_1、OD2_2和OD2_3存储在缓冲器130中。此外,尽管图7图示出其中以对象为基础将对象数据(例如OD1_1至OD2_3)存储在一个缓冲器130的不同区域(例如Ar1至Ar3)中的实施例,但本公开也可以被应用于其中以对象为基础将对象数据(例如OD1_1至OD2_3)存储在不同缓冲器中的实施例,如上所述。
对象跟踪器140可以通过使用以对象为基础存储的第一对象数据至第六对象数据OD1_1至OD2_3来跟踪对象。在一个示例中,对象跟踪器140可以读取存储在缓冲器130的第一区域Ar1中的第一对象数据OD1_1和第四对象数据OD2_1,并且可以通过使用第一对象数据OD1_1和第四对象数据OD2_1来跟踪第一对象。尽管图7图示出其中基于分别与两个时间点相对应的输入图像来提取对象的实施例,但这仅仅是示例,并且应当理解,本公开也可以被应用于其中基于分别与多于两个时间点相对应的输入图像来提取对象的实施例。
图8是图示出根据本公开的实施例的、操作对象检测系统的方法的流程图。具体地,图8图示出操作对象检测系统的方法,其通过对于每个分辨率使用不同数量的金字塔图像来检测对象。
参考图3和图8,对象检测系统100可以通过使用分别与多个时间点相对应的多个输入图像来生成具有第一分辨率的第一金字塔图像集合(S210)。对象检测系统100可以通过对在第一金字塔图像集合中包括的多个金字塔图像中的至少一些进行下采样来生成具有第二分辨率的第二金字塔图像集合(S220)。
对象检测系统100可以通过从第一金字塔图像集合中提取第一对象来生成分别与N个时间点相对应的N条第一对象数据(其中N是自然数)(S230)。对象检测系统100可以通过从第二金字塔图像集合中提取第二对象来生成分别与M个时间点相对应的M条第二对象数据(其中M是不同于N的自然数)(S240)。对象检测系统100可以将N条第一对象数据存储在缓冲器130的第一区域中(S250),并且可以将M条第二对象数据存储在缓冲器130的第二区域中(S260)。在一个实施例中,第一对象数据的数量N可以大于第二对象数据的数量M。根据本公开的一个实施例,对象检测系统100可以通过对于每个分辨率使用不同数量的金字塔图像提取对象来生成对象数据。在一个示例中,与第二对象具有相对多的空间信息的情况相比,在第一对象具有不充足的空间信息的情况下,对象检测系统100可以通过使用更多的金字塔图像来生成对象数据。换句话说,在距捕捉图像的位置遥远的位置处的对象在图像中可以显得较小。因此,可以通过相应少量的信息和/或像素来表示该对象。因此,对于图像中具有不充足的空间信息的对象,可以通过使用增加数量的金字塔图像来提取对象。因此,可以根据附加的金字塔图像来获取关于对象的附加的空间信息和像素信息,从而提高对象提取性能。
图9是图示出根据本公开的实施例的对象检测系统的框图。具体地,图9图示出对象检测系统,其通过对于每个分辨率使用不同数量的金字塔图像来检测对象。将省略参考图7的冗余描述。
参考图9,对象检测系统100可以包括金字塔图像生成器110、第一特征提取器121、第二特征提取器122、第三特征提取器123、缓冲器130以及对象跟踪器140。金字塔图像生成器110可以接收在第一时间点t1捕捉的第一输入图像IM1、在第二时间点t2捕捉的第二输入图像IM2以及在第三时间点t3捕捉的第三输入图像IM3。
金字塔图像生成器110可以通过向第一输入图像IM1添加与第一时间点t1对应的时间信息来生成第一金字塔图像PI1_1,可以通过对第一金字塔图像PI1_1进行下采样来生成第二金字塔图像PI1_2,并且可以通过对第二金字塔图像PI1_2进行下采样来生成第三金字塔图像PI1_3。金字塔图像生成器110可以向第一特征提取器121输出第一金字塔图像PI1_1至第三金字塔图像PI1_3,作为第一金字塔图像集合PS1。
金字塔图像生成器110可以通过向第二输入图像IM2添加与第二时间点t2对应的时间信息来生成第四金字塔图像PI2_1,并且可以通过对第四金字塔图像PI2_1进行下采样来生成第五金字塔图像PI2_2。金字塔图像生成器110可以向第二特征提取器122输出第四金字塔图像PI2_1和第五金字塔图像PI2_2,作为第二金字塔图像集合PS2。金字塔图像生成器110可以通过向第三输入图像IM3添加与第三时间点t3对应的时间信息来生成第六金字塔图像PI3_1,并且可以向第三特征提取器123输出第六金字塔图像PI3_1,作为第三金字塔图像集合PS3。
第一特征提取器121可以接收与第一时间点t1对应的第一金字塔图像PI1_1至第三金字塔图像PI1_3,并且可以通过分别从所接收的第一金字塔图像PI1_1至第三金字塔图像PI1_3中提取对象来生成第一对象数据至第三对象数据OD1_1、OD1_2和OD1_3。在图9的示例中,第一特征提取器121可以通过从第一金字塔图像PI1_1中提取第一对象来生成第一对象数据OD1_1,可以通过从第二金字塔图像PI1_2中提取第二对象来生成第二对象数据OD1_2,并且可以通过从第三金字塔图像PI1_3中提取第三对象来生成第三对象数据OD1_3。第一特征提取器121可以将所生成的第一对象数据OD1_1存储在缓冲器130的第一区域Ar1中,可以将所生成的第二对象数据OD1_2存储在缓冲器130的第二区域Ar2中,并且可以将所生成的第三对象数据OD1_3存储在缓冲器130的第三区域Ar3中。
特征提取器122可以接收与第二时间点t2对应的第四金字塔图像PI2_1和第五金字塔图像PI2_2,并且可以通过分别从所接收的第四金字塔图像PI2_1和第五金字塔图像PI2_2中提取对象来生成第四对象数据OD2_1和第五对象数据OD2_2。第二特征提取器122可以将所生成的第四对象数据OD2_1存储在缓冲器130的第一区域Ar1中,并且可以将所生成的第五对象OD2_2存储在缓冲器130的第二区域Ar2中。
第三特征提取器123可以接收与第三时间点t3对应的第六金字塔图像PI3_1,并且可以通过从所接收的第六金字塔图像PI3_1中提取第三对象来生成第六对象数据OD3_1。第三特征提取器123可以将所生成的第六对象数据OD3_1存储在缓冲器130的第一区域Ar1中。
对象跟踪器140可以通过使用以对象为基础存储的第一对象数据OD1_1至第六对象数据OD3_1来跟踪对象。在一个示例中,对象跟踪器140可以通过使用存储在缓冲器130的第一区域Ar1中的第一对象数据OD1_1、第四对象数据OD2_1以及第六对象数据OD3_1来跟踪第一对象。
根据本公开的一个实施例,对象检测系统100可以通过对于每个对象使用不同数量的金字塔图像来检测对象。在一个示例中,对象检测系统100可以通过使用三个金字塔图像(例如PI1_1、PI2_1和PI3_1)来检测第三对象,可以通过使用两个金字塔图像(例如PI1_2和PI2_2)来检测第二对象,并且可以通过使用一个金字塔图像(例如PI1_3)来检测第一对象。在一个实施例中,当对象更加远离捕捉图像的图像捕捉位置时,对象检测系统100可以通过使用更多的金字塔图像来检测对象。
图10是图示出根据本公开的实施例的对象数据的图。具体地,图10图示出其中对象检测系统对于每个对象生成不同数量的对象数据的实施例。
参考图9和图10,对象检测系统100可以将与第一对象O1相对应的第三对象数据OD1_3存储在缓冲器130的第三区域Ar3中,可以将与第二对象O2相对应的第二对象数据OD1_2和第五对象数据OD2_2存储在缓冲器130的第二区域Ar2中,并且可以将与第三对象O3相对应的第一对象数据OD1_1、第四对象数据OD2_1和第六对象数据OD3_1存储在缓冲器130的第一区域Ar1中。
第一对象O1可以是相对接近图像捕捉设备的对象,并且可以存在关于第一对象O1的相对大量的空间信息。换句话说,在捕捉图像的位置附近的位置处的对象在图像中可以显得较大。因此,可以通过相应大量的信息和/或像素来表示对象。因此,对象检测系统100可以通过仅仅使用与一个第一时间点t1对应的第三对象数据OD1_3来检测第一对象O1。另一方面,第三对象O3可以是相对远离图像捕捉设备的对象,并且可以存在关于第三对象O3的相对少量的空间信息。因此,通过使用对应与多个时间点(例如第一时间点t1至第三时间点t3)的第一对象数据OD1_1、第四对象数据OD2_1和第六对象数据OD3_1,对象检测系统100可以利用分别与多个时间点相对应的对象数据来补充相对少量的空间信息,并且因此,可以执行有效的对象检测。
图11是图示出根据本公开的实施例的对象检测系统的框图。具体地,图11图示出其中对象跟踪器140选择性地确定对象跟踪所需要的对象数据的数量的实施例。将省略参考图7的冗余描述。
参考图11,对象检测系统100可以包括金字塔图像生成器110、第一特征提取器121、第二特征提取器122、第三特征提取器123、缓冲器130以及对象跟踪器140。金字塔图像生成器110可以接收在第一时间点t1捕捉的第一输入图像IM1、在第二时间点t2捕捉的第二输入图像IM2以及在第三时间点t3捕捉的第三输入图像IM3。
金字塔图像生成器110可以向第一特征提取器121输出第一金字塔图像至第三金字塔图像PI1_1、PI1_2和PI1_3,作为第一金字塔图像集合PS1,第一金字塔图像PI1_1至第三金字塔图像PI1_3是通过以上描述的方法生成的。以类似方式,金字塔图像生成器110可以向第二特征提取器122输出第四金字塔图像至第六金字塔图像PI2_1、PI2_2和PI2_3,作为第二金字塔图像集合PS2,并且可以向第三特征提取器123输出第七金字塔图像至第九金字塔图像PI3_1、PI3_2和PI3_3,作为第三金字塔图像集合PS3。
第一特征提取器121可以通过分别从与第一时间点t1对应的第一金字塔图像PI1_1至第三金字塔图像PI1_3中提取对象来生成第一对象数据OD1_1至第三对象数据OD1_3。第一特征提取器121可以将所生成的第一对象数据OD1_1存储在缓冲器130的第一区域Ar1中,可以将所生成的第二对象数据OD1_2存储在缓冲器130的第二区域Ar2中,并且可以将所生成的第三对象数据OD1_3存储在缓冲器130的第三区域Ar3中。
以类似方式,第二特征提取器122可以通过分别从与第二时间点t2对应的第四金字塔图像PI2_1至第六金字塔图像PI2_3中提取对象来生成第四对象数据OD2_1至第六对象数据OD2_3。第二特征提取器122可以将第四对象数据OD2_1存储在缓冲器130的第一区域Ar1中,可以将第五对象数据OD2_2存储在缓冲器130的第二区域Ar2中,并且可以将第六对象数据OD2_3存储在缓冲器130的第三区域Ar3中。
第三特征提取器123可以通过分别从与第三时间点t3对应的第七金字塔图像PI3_1至第九金字塔图像PI3_3中提取对象来生成第七对象数据OD3_1至第九对象数据OD3_3。第三特征提取器123可以将第七对象数据OD3_1存储在缓冲器130的第一区域Ar1中,可以将第八对象数据OD3_2存储在缓冲器130的第二区域Ar2中,并且可以将第九对象数据OD3_3存储在缓冲器130的第三区域Ar3中。
对象跟踪器140可以通过读取以对象为基础存储的对象数据中的至少一些(例如OD1_1至OD3_3)来跟踪对象。根据本公开的一个实施例,对象跟踪器140可以通过使用以对象为基础存储的对象数据中的仅仅一些(例如OD1_1至OD3_3)来跟踪对象。在一个示例中,对象跟踪器140可以通过仅仅使用作为与第一对象对应的第一对象数据OD1_1、第四对象数据OD2_1以及第七对象数据OD3_1中的一些的第一对象数据OD1_1和第四对象数据OD2_1来跟踪第一对象。
图12是图示出根据本公开的实施例的对象检测系统的框图。具体地,图12图示出对象检测系统,其基于感兴趣区域(ROI)来检测对象。将省略参考图3的冗余描述。
参考图12,对象检测设备100a可以包括金字塔图像生成器110、特征提取器120、缓冲器130、对象跟踪器140以及ROI管理器150。ROI管理器150可以基于输入图像IM来识别在输入图像IM中包括的部分区域作为ROI,并且可以输出包括指示ROI的数据的ROI信息RI。例如,当对象检测设备100a被包括在驾驶辅助系统中时,ROI管理器150可以通过分析输入图像IM来识别包括车辆驾驶所需要的信息的区域作为ROI。例如,ROI可以是包括行驶道路、另一车辆、交通灯、人行横道等等的区域。
ROI管理器150可以包括深度生成器151。深度生成器151可以生成包括关于在输入图像IM中包括的对象和背景的深度数据的深度图。在一个示例中,输入图像IM可以包括左眼图像和右眼图像,并且深度生成器151可以通过使用左眼图像和右眼图像来计算深度,并且可以基于计算的深度来获取深度图。在另一个示例中,深度生成器151可以通过使用从距离传感器获取的3维信息来获取关于在输入图像IM中包括的对象和背景的深度图。
ROI管理器150可以通过使用由深度生成器151生成的深度图来生成ROI信息RI。在一个示例中,ROI管理器150可以基于深度图将特定距离内的区域设置为ROI。
ROI管理器150可以向金字塔图像生成器110输出所生成的ROI信息RI,并且金字塔图像生成器110可以基于ROI信息RI来生成金字塔图像PI。在一个实施例中,金字塔图像生成器110可以基于ROI信息RI来掩蔽不是ROI的输入图像IM的一部分,并且可以通过仅仅使用其未被掩蔽的部分来生成金字塔图像PI。换句话说,金字塔图像生成器110可以不考虑由ROI信息指示的感兴趣区域ROI外部的输入图像IM的区域。由此,可以提高金字塔图像生成器110生成输入图像IM的效率。
图13是图示出根据本公开的实施例的、生成金字塔图像的方法的图。
参考图12和图13,金字塔图像生成器110可以接收与第一时间点t1对应的第一输入图像IM1并且可以向第一输入图像IM1添加与第一时间点t1对应的时间信息。另外,金字塔图像生成器110可以通过基于ROI信息RI掩蔽ROI外部的区域来生成第一金字塔图像PI1_1。ROI可以包括所有第一对象O1至第三对象O3。
金字塔图像生成器110可以通过对掩蔽的第一金字塔图像PI1_1进行下采样来生成第二金字塔图像PI1_2,并且可以通过对第二金字塔图像PI1_2进行下采样来生成第三金字塔图像PI1_3。对象检测系统100可以通过使用掩蔽的第一金字塔图像PI1_1来检测第三对象O3,可以通过使用掩蔽的第二金字塔图像PI1_2来检测第二对象O2,并且可以通过使用掩蔽的第三金字塔图像PI1_3来检测第三对象O3。根据本公开的一个实施例,通过在掩蔽输入图像之后检测对象,可以不考虑ROI外部的被掩蔽区域,并且可以提高检测性能。
图14是图示出根据本公开的实施例的对象检测系统的框图。具体地,图14图示出通过使用对象数据来检测背景的对象检测系统。将省略参考图3的冗余描述。
参考图14,对象检测系统100b可以包括金字塔图像生成器110、特征提取器120、缓冲器130、对象跟踪器140以及背景提取器160。背景提取器160可以从缓冲器接收以对象为基础存储的多条对象数据OD,并且可以基于多条对象数据OD来提取输入图像IM的背景。在一个示例中,背景提取器160可以通过基于对象数据OD从输入图像IM中去除至少一个对象来提取背景。根据本公开的一个实施例,背景提取器160可以基于与多个时间点对应的对象数据OD来从背景中去除对象。
图15是图示出根据本公开的实施例的应用处理器的框图。在图15中示出的应用处理器1000可以是半导体芯片并且可以通过片上系统(SoC)来实施。
应用处理器1000可以包括处理器1010和操作存储器1020。另外,应用处理器1000可以另外包括连接到系统总线的一个或多个IP模块。操作存储器1020可以诸如与其中使用应用处理器1000的系统的操作有关的各种程序和指令等等的存储软件。举例来说,操作存储器1020可以包括操作系统1021、神经网络模块1022以及对象检测模块1023。处理器1010可以执行加载到操作存储器1020中的对象检测模块1023,并且根据以上描述的实施例,可以执行基于时间信息从输入图像检测对象的功能。
一个或多个硬件可以包括处理器1010并且可以通过执行神经网络模块1022来执行神经网络的操作,并且作为示例,一个或多个硬件可以根据在以上描述的实施例从金字塔图像生成对象数据。
图16是图示出根据本公开的实施例的驾驶系统的框图。
参考图16,驾驶辅助系统2000可以包括处理器2010、传感器单元2040、通信模块2050、驾驶控制单元2060、自主驾驶单元2070和用户接口2080。处理器2010可以控制驾驶辅助系统2000的总体操作,并且根据以上描述的实施例,可以参考时间信息从自传感器单元2040接收的输入图像中检测对象。
传感器单元2040可以收集关于由驾驶辅助系统2000感测的对象的信息。在一个示例中,传感器单元2040可以是图像传感器单元并且可以包括至少一个图像传感器。传感器单元2040可以从驾驶辅助系统2000的外部感测或接收图像信号并且可以将图像信号转换图像数据,即,图像帧。
在另一个示例中,传感器单元2040可以是距离传感器单元并且可以包括至少一个距离传感器。距离传感器例如可以包括诸如光探测和测距(LIDAR)传感器、无线电探测和测距(RADAR)传感器、飞行时间(ToF)传感器、超声波传感器、红外传感器等等的各种感测设备中的至少一个。可以取决于有效测量距离对LIDAR传感器和RADAR传感器中的每一个进行分类。举例来说,LIDAR传感器可以被分类为长LIDAR传感器和短LIDAR传感器,并且RADAR传感器可以被分类为长RADAR传感器和短RADAR传感器。本公开不限于此,并且传感器单元2040可以包括从地磁传感器、位置传感器(例如全球定位系统(GPS))、加速度传感器、气压传感器、温度/湿度传感器、接近传感器以及陀螺仪中选择的至少一个,但不限于其。
通信模块2050可以向驾驶辅助系统2000传送数据和从其接收数据。在一个示例中,通信模块2050可以以车辆到一切(V2X)的方式执行通信。举例来说,通信模块2050可以以车辆到车辆(V2V)、车辆到基础设施(V2I)、车辆到行人(V2P)和车辆到游动设备(V2N)的方式执行通信。然而,本公开不限于此,并且通信模块2050可以以公众已知的各种通信方式传送和接收数据。例如,通信模块2050可以通过诸如3G、长期演进(LTE)、Wi-Fi、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)或超声波通信等等的通信方法来执行通信,并且可以包括短程通信和远程通信两者。
传感器单元2040可以通过捕捉驾驶辅助系统2000外部的环境或周围的图片生成输入图像并且可以向处理器2010传送输入图像。处理器2010可以基于输入图像和捕捉输入图像的时间来检测对象(例如另一个车辆),并且可以控制驾驶控制单元2060和自主驾驶单元2070。尽管提供其中处理器2010基于输入图像来检测对象的示例,但在另一个示例中,处理器2010可以基于通过距离传感器输出的深度信息来检测对象。
驾驶控制单元2060可以包括:被配置为控制车辆的方向的车辆转向设备;被配置为通过控制车辆的马达或引擎来控制加速和/或减速的油门设备;被配置为控制车辆的刹车的制动系统;外部照明设备;等等。自主驾驶单元2070可以包括被配置为实施驾驶控制单元2060的自主控制的计算设备。例如,自主驾驶单元2070可以包括驾驶辅助系统2000的组件中的至少一个。自主驾驶单元2070可以包括存储多个程序指令的存储器,并且执行程序指令的一个或多个处理器。自主驾驶单元2070可以被配置为基于从传感器单元2040输出的感测信号来控制驾驶控制单元2060。用户接口2080可以包括各种电子设备和机械设备,诸如驾驶席中所包括的显示车辆的仪表板的显示器、乘客座位,等等。
处理器2010可以在检测对象时使用各种感测数据,诸如输入图像、深度信息等等。在这种情况下,处理器2010可以使用人工神经网络来用于有效的操作处理,并且可以执行在本公开中描述的对象检测方法中的任何一个。
尽管已经参考其实施例具体地示出和描述了本公开,但将理解的是,可以在不背离所附权利要求的精神和范围的情况下在其中做出形式和细节方面的各种改变。
Claims (20)
1.一种对象检测系统,包括:
金字塔图像生成器,被配置为接收在第一时间捕捉的第一输入图像和在第二时间捕捉的第二输入图像,并且从第一输入图像生成第一金字塔图像并且从第二输入图像生成第二金字塔图像;
对象提取器,被配置为检测第一金字塔图像和第二金字塔图像中的对象并且生成表示对象的多条对象数据;以及
缓冲器,存储表示在第一金字塔图像和第二金字塔图像中检测的对象的多条对象数据。
2.根据权利要求1所述的对象检测系统,其中,金字塔图像生成器进一步被配置为:
通过向第一输入图像添加与第一时间对应的第一时间信息来生成具有第一分辨率的第一金字塔图像;
通过对第一金字塔图像进行下采样来生成具有第二分辨率的第三金字塔图像;
通过向第二输入图像添加与第二时间对应的第二时间信息来生成具有第一分辨率的第二金字塔图像;以及
通过对第三金字塔图像进行下采样来生成具有第二分辨率的第四金字塔图像。
3.根据权利要求2所述的对象检测系统,其中,对象包括第一对象和第二对象,并且
其中,对象提取器进一步被配置为:
通过使用基于神经网络训练的深度学习模型、从第一金字塔图像中提取第一对象来生成多条对象数据当中的第一对象的第一对象数据;
通过使用深度学习模型从第二金字塔图像中提取第二对象来生成多条对象数据当中的第二对象的第二对象数据;
通过使用深度学习模型第三金字塔图像中提取第一对象来生成多条对象数据当中的第一对象的第三对象数据;以及
通过使用深度学习模型从第四金字塔图像中提取第二对象来生成多条对象数据当中的第二对象的第四对象数据。
4.根据权利要求3所述的对象检测系统,其中,对象提取器进一步被配置为:
将第一对象的第一对象数据和第一对象的第三对象数据存储在缓冲器的第一区域中;以及
将第二对象的第二对象数据和第二对象的第四对象数据存储在缓冲器的第二区域中。
5.根据权利要求4所述的对象检测系统,进一步包括:
对象跟踪器,被配置为通过使用从存储在第一区域中的第一对象的第一对象数据和第一对象的第三对象数据中选择的多条对象数据当中的至少一个对象数据和第一时间信息来跟踪第一对象,并且通过使用从存储在第二区域中的第二对象的第二对象数据和第二对象的第四对象数据中选择的多条对象数据当中的至少一个对象数据和第二时间信息来跟踪所述第二对象。
6.根据权利要求3所述的对象检测系统,其中,第一对象的位置相对远离捕捉第一输入图像和第二输入图像的图像捕捉设备,并且
与第一对象相比,第二对象的位置相对靠近图像捕捉设备。
7.根据权利要求1所述的对象检测系统,其中,金字塔图像生成器进一步被配置为:
生成包括所述第一金字塔图像和所述第二金字塔图像的第一金字塔图像集合;以及
通过对第一金字塔图像集合中的第一金字塔图像和第二金字塔图像中的至少一个进行下采样来生成第二金字塔图像集合,并且
其中,对象提取器进一步被配置为:
从第一金字塔图像集合生成所述多条对象数据当中分别与N个时间点相对应的N条第一对象数据,其中,N是自然数;以及
从第二金字塔图像集合生成所述多条对象数据当中分别与M个时间点相对应的M条第二对象数据,其中,M是自然数。
8.根据权利要求7所述的对象检测系统,其中,N大于M。
9.根据权利要求7所述的对象检测系统,其中,所述对象包括第一对象和第二对象,并且
其中,该对象检测系统进一步包括对象跟踪器,被配置为:
通过使用所述N条第一对象数据当中的P条第一对象数据来跟踪第一对象,其中,P是小于或等于N的自然数,并且
通过使用所述M条第二对象数据当中的Q条第二对象数据来跟踪第二对象,其中,Q是小于或等于M的自然数。
10.根据权利要求1所述的对象检测系统,进一步包括:
感兴趣区域管理器,被配置为设置用于第一输入图像的第一感兴趣区域和用于第二输入图像的第二感兴趣区域,
其中,对象提取器被进一步配置为:
从第一输入图像的第一区域和第二输入图像的第二区域中提取对象,所述第一区域和所述第二区域对应于第一感兴趣区域和第二感兴趣区域。
11.一种检测对象的方法,所述方法包括:
接收在第一时间捕捉的第一输入图像和在第二时间捕捉的第二输入图像;
从第一输入图像生成与第一时间相关联的第一金字塔图像并且从第二输入图像生成与第二时间相关联的第二金字塔图像;
基于第一金字塔图像和第二金字塔图像来生成表示在第一输入图像和第二输入图像中检测到的对象的多条对象数据;以及
将多条对象数据存储在缓冲器中。
12.根据权利要求11所述的方法,其中,生成第一金字塔图像和第二金字塔图像包括:
通过向第一输入图像添加与第一时间对应的第一时间信息来生成具有第一分辨率的第一金字塔图像;
通过对第一金字塔图像进行下采样来生成具有第二分辨率的第三金字塔图像;
通过向第二输入图像添加与第二时间对应的第二时间信息来生成具有第一分辨率的第二金字塔图像;以及
通过对第三金字塔图像进行下采样来生成具有第二分辨率的第四金字塔图像。
13.根据权利要求12所述的方法,其中,对象包括第一对象和第二对象,并且
其中,生成多条对象数据包括:
通过使用基于神经网络训练的深度学习模型从第一金字塔图像中提取第一对象,来生成多条对象数据当中的第一对象的第一对象数据;
通过使用深度学习模型从第二金字塔图像中提取第二对象,来生成多条对象数据当中的第二对象的第二对象数据;
通过使用深度学习模型从第三金字塔图像中提取第一对象,来生成多条对象数据当中的第一对象的第三对象数据;以及
通过使用深度学习模型从第四金字塔图像中提取第二对象,来生成多条对象数据当中的第二对象的第四对象数据。
14.根据权利要求13所述的方法,其中,所述存储包括:
将第一对象的第一对象数据和第一对象的第三对象数据存储在缓冲器的第一区域中;以及
将第二对象的第二对象数据和第二对象的第四对象数据存储在缓冲器的第二区域中。
15.根据权利要求14所述的方法,进一步包括:
通过使用从存储在第一区域中的第一对象的第一对象数据和第一对象的第三对象数据中选择的所述多条对象数据当中的至少一个对象数据和第一时间信息及第二时间信息来跟踪第一对象;以及
通过使用从存储在第二区域中的第二对象的第二对象数据和第二对象的第四对象数据中选择的所述多条对象数据当中的至少一个对象数据来跟踪第二对象。
16.根据权利要求13所述的方法,其中,第一对象的位置相对远离捕捉第一输入图像和第二输入图像的图像捕捉设备,并且
与所述第一对象相比,第二对象的位置相对靠近图像捕捉设备。
17.根据权利要求11所述的方法,其中,生成第一金字塔图像和第二金字塔图像包括:
生成包括所述第一金字塔图像和所述第二金字塔图像的第一金字塔图像集合;以及
通过对第一金字塔图像集合中的第一金字塔图像和第二金字塔图像中的至少一个进行下采样来生成第二金字塔图像集合,并且
其中,生成多条对象数据包括:
从第一金字塔图像集合来生成多条对象数据当中分别与N个时间点相对应的N条第一对象数据,其中,N是自然数;以及
从第二金字塔图像集合来生成多条对象数据当中分别与M个时间点相对应的M条第二对象数据,其中,M是自然数。
18.根据权利要求17所述的方法,其中,对象包括第一对象和第二对象,并且
其中,该方法进一步包括:
通过使用所述N条第一对象数据当中的P条第一对象数据来跟踪第一对象,其中,P是小于或等于N的自然数;并且
通过使用所述M条第二对象数据当中的Q条第二对象数据来跟踪第二对象,其中,Q是小于或等于M的自然数。
19.一种通过检测对象来驾驶车辆的驾驶辅助系统,所述驾驶辅助系统包括:
金字塔图像生成器,被配置为接收在第一时间捕捉的第一输入图像和在第二时间捕捉的第二输入图像,并且从第一输入图像生成第一金字塔图像并从第二输入图像生成第二金字塔图像;
对象提取器,被配置为检测第一金字塔图像和第二金字塔图像中的对象并且通过使用基于神经网络的深度学习来生成表示对象的多条对象数据;
缓冲器,存储表示在第一金字塔图像和第二金字塔图像中检测的对象的多条对象数据;以及
对象跟踪器,被配置为基于存储在缓冲器中的多条对象数据来跟踪对象。
20.根据权利要求19所述的驾驶辅助系统,其中,金字塔图像生成器进一步被配置为:
生成包括所述第一金字塔图像和所述第二金字塔图像的第一金字塔图像集合;以及
通过对第一金字塔图像和第二金字塔图像中的至少一个进行下采样来生成第二金字塔图像集合,并且
其中,对象提取器被进一步配置为:
从第一金字塔图像集合生成所述多条对象数据当中分别与N个时间点相对应的N条第一对象数据,其中,N是自然数;以及
从第二金字塔图像集合生成所述多条对象数据当中分别与M个时间点相对应的M条第二对象数据,其中,M是自然数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0104574 | 2019-08-26 | ||
KR1020190104574A KR20210024862A (ko) | 2019-08-26 | 2019-08-26 | 계층적인 피라미드를 이용하여 객체를 검출하는 객체 검출 시스템 및 이의 객체 검출 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508839A true CN112508839A (zh) | 2021-03-16 |
Family
ID=74565501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650026.6A Pending CN112508839A (zh) | 2019-08-26 | 2020-07-08 | 对象检测系统及其对象检测方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11308324B2 (zh) |
KR (1) | KR20210024862A (zh) |
CN (1) | CN112508839A (zh) |
DE (1) | DE102020107868A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11557038B2 (en) * | 2019-10-17 | 2023-01-17 | Electronics And Telecommunications Research Institute | Apparatus and method for x-ray data generation |
US11961392B2 (en) * | 2021-03-04 | 2024-04-16 | The University Of North Carolina At Charlotte | Worker-in-the-loop real time safety system for short-duration highway workzones |
US11915474B2 (en) | 2022-05-31 | 2024-02-27 | International Business Machines Corporation | Regional-to-local attention for vision transformers |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5063603A (en) | 1989-11-06 | 1991-11-05 | David Sarnoff Research Center, Inc. | Dynamic method for recognizing objects and image processing system therefor |
JP4561380B2 (ja) | 2005-01-24 | 2010-10-13 | コニカミノルタホールディングス株式会社 | 検出装置、検出方法及び検出プログラム |
TW201405486A (zh) | 2012-07-17 | 2014-02-01 | Univ Nat Taiwan Science Tech | 利用電腦視覺進行即時偵測與追蹤物體之裝置及其方法 |
US9275308B2 (en) | 2013-05-31 | 2016-03-01 | Google Inc. | Object detection using deep neural networks |
JP6473571B2 (ja) | 2014-03-24 | 2019-02-20 | アルパイン株式会社 | Ttc計測装置およびttc計測プログラム |
US9965719B2 (en) | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US10467458B2 (en) * | 2017-07-21 | 2019-11-05 | Altumview Systems Inc. | Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems |
KR101890612B1 (ko) | 2016-12-28 | 2018-08-23 | (주)에이다스원 | 적응적 관심영역 및 탐색창을 이용한 객체 검출 방법 및 장치 |
US10621725B2 (en) * | 2017-04-12 | 2020-04-14 | Here Global B.V. | Small object detection from a large image |
JP7002729B2 (ja) | 2017-07-31 | 2022-01-20 | 株式会社アイシン | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム |
KR101912569B1 (ko) | 2018-07-11 | 2018-10-26 | 전북대학교산학협력단 | 비디오 영상에서의 물체 추적시스템 |
-
2019
- 2019-08-26 KR KR1020190104574A patent/KR20210024862A/ko active Search and Examination
-
2020
- 2020-03-23 DE DE102020107868.4A patent/DE102020107868A1/de active Pending
- 2020-04-01 US US16/837,224 patent/US11308324B2/en active Active
- 2020-07-08 CN CN202010650026.6A patent/CN112508839A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210064872A1 (en) | 2021-03-04 |
DE102020107868A1 (de) | 2021-03-04 |
KR20210024862A (ko) | 2021-03-08 |
US11308324B2 (en) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604967B2 (en) | Stereo depth estimation using deep neural networks | |
US10417816B2 (en) | System and method for digital environment reconstruction | |
US20210224556A1 (en) | Real-time detection of lanes and boundaries by autonomous vehicles | |
US20190286153A1 (en) | Determining drivable free-space for autonomous vehicles | |
US20180211119A1 (en) | Sign Recognition for Autonomous Vehicles | |
CN112508839A (zh) | 对象检测系统及其对象检测方法 | |
CN115244421A (zh) | 使用相机地图和/或雷达信息的对象尺寸估计 | |
Mahaur et al. | Road object detection: a comparative study of deep learning-based algorithms | |
CN112015847A (zh) | 一种障碍物的轨迹预测方法、装置、存储介质及电子设备 | |
US11443151B2 (en) | Driving assistant system, electronic device, and operation method thereof | |
Giering et al. | Multi-modal sensor registration for vehicle perception via deep neural networks | |
WO2022206414A1 (zh) | 三维目标检测方法及装置 | |
US20220301099A1 (en) | Systems and methods for generating object detection labels using foveated image magnification for autonomous driving | |
CN113810567A (zh) | 用于执行对象检测的电子装置及其操作方法 | |
CN112241963A (zh) | 基于车载视频的车道线识别方法、系统和电子设备 | |
US20220366706A1 (en) | Vehicle environment modeling with a camera | |
CN116868239A (zh) | 静态占用跟踪 | |
CN110706374B (zh) | 运动状态预测方法、装置、电子设备及车辆 | |
US20240087222A1 (en) | Sparse voxel transformer for camera-based 3d semantic scene completion | |
US20220108455A1 (en) | Rgbd video semantic segmentation with temporal and geometric consistency | |
Foster | Object detection and sensor data processing for off-road autonomous vehicles | |
US20230084623A1 (en) | Attentional sampling for long range detection in autonomous vehicles | |
CN118053062A (zh) | 使用多个神经网络执行电子设备或车辆的感知任务的方法 | |
JP2022186299A (ja) | 位置特定装置、位置特定方法及び位置特定システム | |
Das | Vision-Based Lane and Vehicle Detection: A First Step Toward Autonomous Unmanned Vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |