CN113869100A - 在相对于对象大小的等变性或不变性下在图像中识别对象 - Google Patents
在相对于对象大小的等变性或不变性下在图像中识别对象 Download PDFInfo
- Publication number
- CN113869100A CN113869100A CN202110725255.4A CN202110725255A CN113869100A CN 113869100 A CN113869100 A CN 113869100A CN 202110725255 A CN202110725255 A CN 202110725255A CN 113869100 A CN113869100 A CN 113869100A
- Authority
- CN
- China
- Prior art keywords
- input image
- filters
- vehicle
- convolutional neural
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005314 correlation function Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 2
- 239000003550 marker Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/60—Intended control result
- G05D1/617—Safety or protection, e.g. defining protection zones around obstacles or avoiding hazards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Biodiversity & Conservation Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
在相对于对象大小的等变性或不变性下在图像中识别对象。用于在至少一个输入图像(3)中识别至少一个对象(2a‑2c)的方法(100),具有步骤:·通过第一卷积神经网络CNN(4a)将对象(2a‑2c)的原稿图像(1)处理成至少一个原稿特征图(5、5a‑5c)(110);·通过第二卷积神经网络CNN(4b)将输入图像(3)处理成至少一个输入特征图(6,6a‑6c)(120);·将至少一个原稿特征图(5、5a‑5c)与至少一个输入特征图(6、6a‑6c)进行比较(130);·从比较(130)的结果(130a)中评估(140)是否以及必要时在哪个位置(2a'‑2c')处在输入图像(3)中包含对象(2a‑2c),其中卷积神经网络(4a、4b)分别包含多个卷积层(7a、7b),并且其中卷积层(7a、7b)中的至少一个至少部分地由至少两个滤波器(8a‑8c)构成,所述滤波器能通过缩放运算相互转化。
Description
技术领域
本发明涉及在图像中识别对象,所述识别尤其可以被用于跟踪这些对象的运动用于驾驶员辅助系统或至少部分自动化地驾驶车辆。
背景技术
驾驶员辅助系统、诸如电子稳定程序以感测方式持续地观察当前的驾驶状况,并且关于是否如例如通过制动单个车轮干预车辆的行驶动力学来作出判定。用于至少部分自动化地驾驶车辆的系统持续地干预行驶动力学,并且为此目的在几秒钟的时间间隔内预先规划多个轨迹。然后根据边界条件和最优性准则挑选并且游历这些轨迹之一。
在具有人类交通参与者的混合交通中,尤其是这些人类交通参与者以及其他移动的对象可能使短期计划变化是必需的。从DE 10 2018 210 280 A1中已知一种用于使车辆的轨迹适配于移动的外来对象的行为的方法。
发明内容
在本发明的范围中,开发了一种用于在至少一个输入图像中识别至少一个对象的方法。
在该方法情况下,通过第一卷积神经网络CNN将对象的原稿图像(Vorlage-Bild)处理成至少一个原稿特征图(“特征图(feature map)”)。通过第二卷积神经网络CNN将输入图像处理成至少一个输入特征图。因此不研究在输入图像中包含哪些对象的开放性问题,而是有针对性地探求:完整确定的对象是否出现在输入图像中。
在此情况下,术语“图像”通常包括至少一个测量参量的值对二维或三维空间坐标网格中的位置的每个分配。因此,例如摄像机对于其图像传感器的每个像素测量光或热辐射的强度。超声波传感器类似地测量所反射的超声波的强度和运行时间的空间分布。雷达传感器或激光雷达传感器测量反射雷达射束或激光射束的位置的方向和距离。因此,所提到的测量模式的测量数据全部可以被视为图像,其中该列举并非最终的。
根据任意度量将至少一个原稿特征图与至少一个输入特征图进行比较。从比较的结果中评估:对象是否以及必要时在哪个位置处包含在输入图像中。
这种类型的识别尤其是对于对对象的运动的也称为“追踪(Tracking)”的跟踪是有利的。为此,在图像的时间序列中搜索对象,并且对关于是否以及必要时在哪个位置处在输入图像中包含对象的结果进行组合用以跟踪对象的运动。在此情况下,待跟踪的具体对象可以从一开始就固定,但也可以例如在运行时间从输入图像中来选择。例如,也可以根据图像的同一个时间序列来跟踪多个对象的运动,所述图像显示例如交通事件的运动学。
卷积神经网络分别包含多个卷积层。卷积层中的至少一个至少部分地由至少两个滤波器构成,所述滤波器可以通过缩放运算相互转化。特别优选地,设置在三和五个之间的可相互转化的滤波器。可相互转化的滤波器的数量越多,可以用于附加地评估输入图像中的对象的大小的分辨率就越好,但是用于网络的存储需求也越大。
将滤波器相互转化的缩放运算可以涉及输入图像的一个、多个或所有坐标方向。
已认识到,使用通过缩放可相互转化的滤波器使得能够在搜索对象时使对与原稿图像中的对象的语义一致性的搜索与对与原稿图像中的对象同样大小的对象的搜索解耦。
在无可相互转化的滤波器情况下,在原始图像中的对象和输入图像之间所找到的一致性是在一方面外观一致性(例如造型的“语义一致性”)与另一方面大小一致性之间的不能进一步分离的二分体(Zweiklang)。因此如果例如输入图像包含多个非常不同大小的对象,并且这些对象中的仅单个对象与原稿图像中的对象大小相似,则仅仅大小的这种一致性在原稿特征图与输入特征图的比较中已经具有这样的权重,使得输入图像中的大小相似的对象被评价为与原稿图像中的所搜索的对象一致。为此,这不一定是在语义上涉及完全不同的对象(例如涉及载货汽车(LKW)而不是涉及载客汽车(PKW))的障碍。
而利用可相互转化的滤波器可以自由选择:由卷积层和由卷积神经网络总计输出的特征图是否在图像中的对象的大小变化时不应该改变(在这种情况下,图像的处理是大小不变的),或者这些特征图在图像中的对象的大小变化时是否应该以预定的方式改变(在这种情况下,图像的处理是大小等变的)。
因此例如可能有意义的是,驾驶员辅助系统或用于至少部分自动化驾驶的系统同样地检测位于车辆前方的车辆环境中的标志杆(Leitpfosten)的所有出现,因为标志杆显示道路走向并且因此例如使得能够长期规划由车辆待遵循的轨迹。那些离车辆最近的标志杆在由车辆的传感器系统提供的输入图像中显得比那些离车辆最远且刚好仍可见的标志杆大得多(是高达10倍)。为了检测所有标志杆,以大小不变的方式处理图像是有意义的。
而对于短期轨迹规划来说,不一定所有在输入图像中可见的其他交通参与者(例如行人或其他车辆)都相关,而只有那些距车辆足够近以便能够在当前规划范围期间与车辆进行交互的交通参与者相关。对于30秒的示例性规划范围不必详细追溯自身车辆可能在10km/h的速度差情况下在3分钟内赶上的另一车辆在500 m的距离中的运动。即如果距对象的距离是已知的,则例如用于精确“追踪”对象的车辆车载可用的有限计算能力可以被集中于当前与车辆交通相关的那些对象上。
恰好这能够实现可相互转化的滤波器。在一种特别有利的构型中,至少一个卷积神经网络输出多个特征图,可相互转化的滤波器之一分别主要地参与所述特征图的完成。例如,卷积神经网络的多个层可以分别包括可相互转化的滤波器的相同的布局(Konstellation),使得在这些层中信息可以分别单独地根据不同的尺度被处理。于是例如在层之间过渡时,来自所述布局的特定滤波器的输出可以优选地再次被转交给下一层中的与此相对应的滤波器。在此情况下不排除也存在尺度之间的横向连接。然而,例如在最后一层中的可相互转化的滤波器于是可以分别提供特征图,其中在每一层中基本上总是布局中的相同滤波器参与所述特征图的处理。即总的来说,对于不同的尺度形成图像的特征图。输入图像的处理是大小等变的。
这些特征图可以有利地单独地被考虑用于与分别其他图像的一个或多个特征图进行比较。然后可以将这些比较的结果聚集成关于输入图像中的对象的大小的信息。
在此情况下,尤其是也例如可以将输入图像中的对象的大小内插在布局中的滤波器所涉及的尺度之间。如果例如第一滤波器涉及为1的尺度,第二滤波器涉及为2的尺度并且第三滤波器涉及为3的尺度,则为1的在原稿图像和输入图像之间的根据第一特征图确定的局部一致性和为0.2的根据第二特征图确定的局部一致性聚集成估计:存在输入图像中的大小约为1.2的对象。
因此,利用仅少量滤波器就已经可以确定用于输入图像中的对象的大小的相当好的估计。
然后从输入图像中的对象的所确定的大小和对象的至少近似地事先已知的绝对大小中,又可以评估用于记录输入图像所使用的传感器与对象之间的距离。该距离然后例如可以被用于对当前与车辆强烈交通相关的对象与不太相关或根本不相关的对象进行区分。
而对于输入图像的大小不变的处理,例如可以利用关于由可相互转化的滤波器提供的特征图的排列对称的函数聚集这些特征图。于是随后可以在各自卷积神经网络中进一步处理由该函数提供的结果。
输入图像的大小不变或大小等变的处理不仅在车辆系统的上下文中是有利的。如果缺陷或损坏的识别在图像记录的时间点尽可能与摄像机距相应产品的间距无关地起作用,则例如即使在批量生产的产品的光学质量检验时也是有利的。在根据其脸部识别访问授权的访问控制系统情况下,在待打开的门的近区中的识别应该尽可能与人员刚好与摄像机多近以及所述人员从而在摄像机图像上显现得多大无关。
与输入图像的处理是大小等变地进行还是大小不变地进行无关地,可以尤其是例如经由空间分辨相关函数将至少一个原稿特征图与至少一个输入特征图进行比较。然后可以将在输入图像之内的、该相关函数在此处取最大值(和/或超过预给定阈值)的位置评价为对象包含在输入图像中的位置。
在一种特别有利的构型中,卷积神经网络具有一致的架构,并且其行为通过相同的参数表征。这暗示着通过缩放可相互转化的滤波器不仅存在于一个网络中或另一网络中,而且存在于两个网络中。于是例如一再交替地使用相同的卷积神经网络用于处理原稿图像和输入图像,使得节省用于整个网络的参数的存储空间。如果例如应该在较长的时间上在总是新的输入图像的序列中跟踪同一个对象的运动,则仅必须使用一次第一卷积神经网络,用以将输入图像处理为原稿特征图。当在输入图像序列中连续地追踪对象期间,于是利用第二卷积神经网络持续地创建新的输入特征图,但是能够一再使用原稿特征图。
如果在输入图像的时间序列中搜索到同一个对象,则可以聚集关于是否以及必要时在哪个位置处在输入图像中包含对象的结果,用于跟踪对象的运动。该信息尤其是可以被用在驾驶员辅助系统或用于至少部分自动化地驾驶车辆的系统中用于规划车辆的未来行为。因此,在一种特别有利的构型中,利用由车辆随身携带的至少一个传感器检测输入图像。由车辆的驾驶员辅助系统和/或由用于至少部分自动化地驾驶车辆、用于规划由车辆要游历的轨迹和/或用于确定对车辆的行驶动力学的干预的系统考虑对象的所确定的运动和/或所确定的运动意图。
为此目的,关于是否以及必要时在哪个位置处在输入图像中包含对象的信息尤其是例如可以以二维或三维空间中的“边界框(Bounding-Boxen)”的形式被提供,所述边界框被认为由对象占用。
运动意图尤其是例如可以包括关于对象是否将保持其当前运动状态或该运动状态可能在何种程度上在预给定的时间范围内改变的预测。在纯被动、不受控制的对象(例如丢失的一件货物)的情况下,运动意图基本上可以根据物理定律来预报。而车辆和行人由各自交通参与者的意愿控制。在一个特别有利的构型中,从在输入图像中的对象的所确定的位置的时间变化过程中以及从对象的所确定的大小和/或距离的时间变化过程中来确定用于这种猜测的意愿以及从而用于对象的运动意图的预测。
如先前阐述的那样,尤其是对象与车辆的距离对于以下方面可能是重要的,即对象在何种程度上与车辆在不久的将来的行为是交通相关的。因此,在另一有利的构型中,根据在传感器和对象之间的所确定的距离来判定:是否在输入图像的序列中评估对象的位置的时间变化过程和/或该对象在何种程度上与车辆的当前交通状况是相关的。通常,车辆车载地可用的计算能力不足以真实地跟踪在车辆环境中可见的每个对象。这种状况大致可比于通过人类驾驶学员的驾驶学习,所述人类驾驶学员同样必须学习将可用的全部注意力分配到最重要的对象上。
可相互转化的滤波器尤其是例如可以是由具有自由系数的函数空间的基本函数组成的线性组合。这些系数可以至少部分地与表征卷积神经网络的行为的其他参数一起被训练。在这种情况下,除了线性组合的系数之外,表征可相互转化的滤波器的行为的参数尤其是例如还可以包含其他参数,所述其他参数表征所述滤波器的至少一个几何变换。例如,这些参数可以表征滤波器的旋转。
该方法尤其可以是完全或部分地计算机实现的。因此,本发明还涉及一种具有机器可读指令的计算机程序,当在一个或多个计算机上执行所述机器可读指令时,所述机器可读指令促使所述一个或多个计算机执行该方法。在这个意义上,同样能够执行机器可读指令的用于车辆的控制设备和用于技术设备的嵌入式系统可以被视为计算机。
同样,本发明还涉及机器可读数据载体和/或具有计算机程序的下载产品。下载产品是可以经由数据网络传输的、即可以由数据网络的用户下载的数字产品,所述数字产品可以例如在在线商店中被出卖用于立即下载。
此外,计算机可以装备有计算机程序、机器可读数据载体或下载产品。
附图说明
在下面与根据图对本发明的优选实施例的描述共同地更详细地示出改善本发明的其他措施。
图1示出用于在至少一个输入图像3中识别至少一个对象2a-2c的方法100的实施例;
图2示出通过缩放可相互转化的滤波器8a-8c由基本函数9构成的组成以及这些滤波器8a-8c在卷积神经网络4a中的效应;
图3示出可相互转化的滤波器8a-8c在神经网络4a、4b中对对象2a的识别的效应。
具体实施方式
图1是用于在至少一个输入图像3中识别至少一个对象2a-2c的方法100的实施例的示意性流程图。
在步骤110中,通过第一卷积神经网络(faltendes neuronales Netzwerk)CNN 4a将待识别的对象2a-2c的原稿图像1处理成至少一个原稿特征图5、5a-5c。在步骤120中,通过第二卷积神经网络CNN 4b将输入图像3处理成至少一个输入特征图6、6a-6c。卷积神经网络4a、4b分别包含多个卷积层7a、7b。卷积层7a、7b中的至少一个至少部分地由至少两个滤波器8a-8c构成,所述滤波器可以通过缩放运算相互转化。
在此情况下,尤其是根据块111或121可以产生多个特征图5a-5c或6a-6c,其中滤波器8a-8c中的一个分别主要地参与所述特征图的完成。
可替代地,根据块112或122可以利用相对于由可相互转化的滤波器8a-8c提供的特征图的排列对称的函数组合这些特征图。根据块113或123,可以在各自的卷积神经网络4a、4b中进一步处理结果。
在步骤130中,将至少一个原稿特征图5、5a-5c与至少一个输入特征图6、6a-6c进行比较。然后在步骤140中从该比较130的结果130a中评估:是否以及必要时在哪个位置2a'-2c'处在输入图像3中包含对象2a-2c。
可以尤其是例如根据块131单独地对于多个特征图5a-5c;6a-6c执行比较130。然后,根据块132,可以将这些比较的结果聚集成关于输入图像3中的对象2a-2c的大小2a*-2c*的信息。根据块133,又可以从所述大小2a*-2c*和对象2a-2c的先前已知的绝对大小2a#-2c#中评估在用于记录输入图像3所使用的传感器与对象2a-2c之间的距离2a**-2c**。
通常,根据块134,可以经由空间分辨的相关函数将至少一个原稿特征图5、5a-5c与至少一个输入特征图6、6a-6c进行比较。然后例如根据块141可以将该相关函数取最大值和/或超过预给定阈值的位置评价为对象2a-2c包含在输入图像3中的位置2a'-2c'。
尤其是可以在输入图像3的时间序列中搜索对象2a-2c。在步骤150中,因此可以在其他输入图像3中重复先前描述的搜索。在步骤160中,然后可以聚集关于是否以及必要时在哪个位置2a'-2c'处在输入图像3中包含对象2a-2c的结果,以用于跟踪对象2a-2c的运动2a''-2c''。
例如根据块161,可以从输入图像(3)中的对象2a-2c的所确定的位置2a'-2c'的时间变化过程中以及从所确定的大小2a*-2c*和/或对象2a-2c的距离2a**-2c**的时间变化过程中确定用于对象2a-2c的运动意图2a***-2c***的预测。
尤其是例如可以利用至少一个由车辆随身携带的传感器检测输入图像。然后根据块162,可以由车辆的驾驶员辅助系统和/或由用于至少部分自动化地驾驶车辆、用于规划由车辆待游历的轨迹和/或用于规定对车辆的行驶动力学的干预的系统考虑对象2a-2c的所确定的运动2a''-2c''和/或所确定的运动意图2a***-2c***。
根据块163,可以根据在传感器和对象2a-2c之间的所确定的距离2a**-2c**来判定:对象2a-2c的位置2a'-2c'的时间变化过程是否在输入图像3的序列中被评估,和/或该对象2a-2c在何种程度上与车辆的当前交通状况相关。如先前所阐述的那样,因此可以将用于进一步处理的资源集中在最重要的对象上。
图2b示例性地示出:当这些滤波器8a-8c在卷积神经网络4a中被应用于对象2a的原稿图像1和该原稿图像1的缩小版本1'时如何起作用。在该示例中,原稿图像1对第一特征图5a产生大的响应,其中滤波器 8a以最大的尺度决定性地参与所述第一特征图的完成。缩小版本1'产生定性地相似、但定量地明显较小的响应,并且这也不是对特征图5a、而是对特征图5c产生响应,其中滤波器 8c以最小的尺度决定性地参与所述特征图的完成。因此,通过卷积神经网络4a对原稿图像1的处理是等变的,也即结果以可预测的方式随着原稿图像1中的对象2a的大小的变化而变化。
图2c详细地阐明:具有两个卷积层7a和7b的卷积神经网络4a如何为原稿图像1获得在图2b中所示的结果,在所述卷积层中分别使用滤波器8a-8c。在第一卷积层7a中凭借三个尺度之一处理的信息基本上被传递给第二卷积层7b中的相同尺度。然而只要存在,也有至分别下一更小尺度的横向连接。
图3示出:利用卷积神经网络4a、4b对图像的处理如何作用于在输入图像3中对对象2a的识别,在所述卷积神经网络中使用通过缩放可相互转化的滤波器8a-8c。
为了比较,图3a示出根据现有技术的处理。在这里,利用第一卷积神经网络4a-将原稿图像1处理成特征图5-,所述原稿图像仅显示载客汽车作为对象2a。除了该载客汽车2a之外,输入图像3还示出该载客汽车的强烈放大的副本2b以及载货汽车2c。利用第二卷积神经网络4b-将输入图像3处理成特征图6-。卷积神经网络4a-和4b-缺少通过缩放可相互转化的滤波器 8a-8c。
借助于互相关性比较特征图5-和6-仅在输入图像3的左上角示出强一致性,在此处载货汽车2c大致以与原稿图像1中的载客汽车2a相同的大小被成像。因此,载客汽车2a在错误的位置2a'-处被识别。
图3b示出利用卷积神经网络4a和4b的处理,所述卷积神经网络包含通过缩放可相互转化的滤波器8a-8c。在该示例中,将由可相互转化的滤波器8a-8c提供的特征图与对称函数组合,并且随后仅仍进一步处理该组合的结果。因此原稿图像1和输入图像3的处理是大小不变的。
这具有以下效应:不仅输入图像2a中右上部的载客汽车2a而且其在输入图像3的下半部中大得多的副本2b被识别为载客汽车2a。因此识别出载客汽车2a的两个位置2a',其中保持不考虑强烈不同的大小。
与此不同,图3c示出当由可相互转化的滤波器8a-8c产生的特征图不被组合,而是类似于图2c通过卷积神经网络4a、4b被传播时如何起作用。第一卷积神经网络4a然后提供多个原稿特征图5a-5c,并且第二卷积神经网络4b提供多个输入特征图6a-6c。这些特征图5a-5c、6a-6c的单独比较于是导致以下结果:仅在输入图像3中右上部的载客汽车2a不仅从形状而且从大小方面与原始图像1相配。与此对应地,仅输出载客汽车2a的一个位置2a'。
Claims (17)
1.用于在至少一个输入图像(3)中识别至少一个对象(2a-2c)的方法(100),所述方法具有步骤:
·通过第一卷积神经网络CNN(4a)将所述对象(2a-2c)的原稿图像(1)处理成至少一个原稿特征图(5、5a-5c)(110);
·通过第二卷积神经网络CNN(4b)将所述输入图像(3)处理成至少一个输入特征图(6,6a-6c)(120);
·将所述至少一个原稿特征图(5、5a-5c)与所述至少一个输入特征图(6、6a-6c)进行比较(130);
• 从比较(130)的结果(130a)中评估(140)是否以及必要时在哪个位置(2a'-2c')处在所述输入图像(3)中包含所述对象(2a-2c),
其中所述卷积神经网络(4a、4b)分别包含多个卷积层(7a、7b),并且其中所述卷积层(7a、7b)中的至少一个至少部分地由至少两个滤波器(8a-8c)构成,所述滤波器(8a-8c)能通过缩放运算相互转化。
2.根据权利要求1所述的方法(100),其中至少一个卷积神经网络(4a、4b)输出多个特征图(5a-5c;6a-6c)(111、121),其中可相互转化的滤波器(8a-8c)之一分别主要地参与所述特征图的完成。
3.根据权利要求2所述的方法(100),其中对于所述多个特征图(5a-5c;6a-6c)单独地执行所述比较(130)(131),并且其中将这些比较的结果聚集成关于在所述输入图像(3)中的对象(2a-2c)的大小(2a* -2c*)的信息(132)。
4.根据权利要求3所述的方法(100),其中从所述输入图像(3)中的对象(2a-2c)的大小(2a*-2c*)和所述对象(2a-2c)的事先已知的绝对大小(2a#-2c#)中评估在用于记录所述输入图像(3)所使用的传感器和所述对象(2a-2c)之间的距离(2a**-2c**)(133)。
5.根据权利要求1所述的方法(100),其中利用关于由可相互转化的滤波器(8a-8c)提供的特征图的排列对称的函数来聚集这些特征图(112、122),并且随后在相应卷积神经网络中进一步处理结果(113、123)。
6.根据权利要求1至5中任一项所述的方法(100),其中经由空间分辨的相关函数将所述至少一个原稿特征图(5、5a-5c)与所述至少一个输入特征图(6、6a-6c)进行比较(134),并且将该相关函数取最大值的位置评价为所述对象(2a-2c)包含在输入图像(3)中的位置(2a'-2c')(141)。
7.根据权利要求1至6中任一项所述的方法(100),其中所述卷积神经网络(4a、4b)具有一致性架构并且其行为通过相同的参数表征。
8.根据权利要求1至7中任一项所述的方法(100),其中在输入图像(3)的时间序列中搜索所述对象(2a-2c)(150),并且其中聚集关于是否以及必要时在哪个位置(2a'-2c')处在所述输入图像(3)中包含所述对象(2a-2c)的结果(160),用以跟踪所述对象(2a-2c)的运动(2a''-2c'')。
9.根据权利要求8所述的方法(100),其中从所述输入图像(3)中的对象(2a-2c)的所确定的位置(2a'-2c')的时间变化过程中以及从所述对象(2a-2c)的所确定的大小(2a* -2c*)和/或距离(2a** -2c**)的时间变化过程中确定用于所述对象(2a-2c)的运动意图(2a***-2c***)的预测(161)。
10.根据权利要求8至9中任一项所述的方法(100),其中利用由车辆随身携带的至少一个传感器检测所述输入图像,并且其中由所述车辆的驾驶员辅助系统和/或由用于至少部分自动化地驾驶车辆、用于规划由所述车辆待游历的轨迹和/或用于确定对所述车辆的行驶动力学的干预来考虑所述对象(2a-2c)的所确定的运动(2a''-2c'')和/或所确定的运动意图(2a***-2c***)(162)。
11.根据权利要求8至10中任一项所述的方法(100),其中根据在所述传感器与所述对象(2a-2c)之间的所确定的距离(2a**-2c**)来判定(163):是否在输入图像(3)的序列中评估对象(2a-2c)的位置(2a'-2c')的时间变化过程,和/或该对象(2a-2c)在何种程度上与所述车辆的当前交通状况相关。
12.根据权利要求1至11中任一项所述的方法(100),其中可相互转化的滤波器(8a-8c)是由具有自由系数的函数空间的基本函数(9)组成的线性组合。
13.根据权利要求12所述的方法(100),其中所述基本函数(9)是埃尔米特多项式。
14.根据权利要求12至13中任一项所述的方法(100),其中除了线性组合的系数之外,表征可相互转化的滤波器(8a-8c)的行为的参数(8*)还包含其他参数,所述其他参数表征所述滤波器(8a-8c)的至少一个几何变换。
15.计算机程序,所述计算机程序包含机器可读指令,当在一个或多个计算机上执行机器可读指令时,所述机器可读指令促使所述一个或多个计算机执行根据权利要求1至14中任一项所述的方法(100)。
16.机器可读数据载体,具有根据权利要求15所述的计算机程序。
17.计算机,其装备有根据权利要求15所述的计算机程序和/或根据权利要求16所述的机器可读数据载体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020208080.1 | 2020-06-30 | ||
DE102020208080.1A DE102020208080A1 (de) | 2020-06-30 | 2020-06-30 | Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869100A true CN113869100A (zh) | 2021-12-31 |
Family
ID=78826851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110725255.4A Pending CN113869100A (zh) | 2020-06-30 | 2021-06-29 | 在相对于对象大小的等变性或不变性下在图像中识别对象 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11886995B2 (zh) |
CN (1) | CN113869100A (zh) |
DE (1) | DE102020208080A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11800065B2 (en) | 2021-08-19 | 2023-10-24 | Geotab Inc. | Mobile image surveillance systems and methods |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102011005780B4 (de) | 2011-03-18 | 2022-06-02 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Bestimmung einer Entfernung zwischen einem Fahrzeug und einem Objekt |
WO2018089210A1 (en) | 2016-11-09 | 2018-05-17 | Konica Minolta Laboratory U.S.A., Inc. | System and method of using multi-frame image features for object detection |
US20180129742A1 (en) * | 2016-11-10 | 2018-05-10 | Qualcomm Incorporated | Natural language object tracking |
DE102018210280A1 (de) | 2018-06-25 | 2020-01-02 | Robert Bosch Gmbh | Anpassung der Trajektorie eines Ego-Fahrzeugs an bewegte Fremdobjekte |
US10955855B1 (en) * | 2019-11-23 | 2021-03-23 | Ha Q Tran | Smart vehicle |
US11875551B2 (en) * | 2020-06-09 | 2024-01-16 | Navbirswagen Aktiengesellschaft | Collecting and processing data from vehicles |
-
2020
- 2020-06-30 DE DE102020208080.1A patent/DE102020208080A1/de active Pending
-
2021
- 2021-06-28 US US17/360,709 patent/US11886995B2/en active Active
- 2021-06-29 CN CN202110725255.4A patent/CN113869100A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210406610A1 (en) | 2021-12-30 |
DE102020208080A1 (de) | 2021-12-30 |
US11886995B2 (en) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501449B2 (en) | Method for the assessment of possible trajectories | |
CN107886043B (zh) | 视觉感知的汽车前视车辆和行人防碰撞预警系统及方法 | |
US11919545B2 (en) | Scenario identification for validation and training of machine learning based models for autonomous vehicles | |
JP6574611B2 (ja) | 立体画像に基づいて距離情報を求めるためのセンサシステム | |
JP2020046706A (ja) | 物体検出装置、車両制御システム、物体検出方法及び物体検出用コンピュータプログラム | |
Dey et al. | VESPA: A framework for optimizing heterogeneous sensor placement and orientation for autonomous vehicles | |
CN111178286B (zh) | 姿态轨迹预测方法、装置及电子设备 | |
US20220301099A1 (en) | Systems and methods for generating object detection labels using foveated image magnification for autonomous driving | |
CN112883991A (zh) | 对象分类方法、对象分类电路、机动车辆 | |
US20240046614A1 (en) | Computer-implemented method for generating reliability indications for computer vision | |
US20220230418A1 (en) | Computer-implemented method for training a computer vision model | |
Aditya et al. | Collision detection: An improved deep learning approach using SENet and ResNext | |
CN113869100A (zh) | 在相对于对象大小的等变性或不变性下在图像中识别对象 | |
Bougharriou et al. | Vehicles distance estimation using detection of vanishing point | |
US11663807B2 (en) | Systems and methods for image based perception | |
US20220237897A1 (en) | Computer-implemented method for analyzing relevance of visual parameters for training a computer vision model | |
US20220262103A1 (en) | Computer-implemented method for testing conformance between real and synthetic images for machine learning | |
Yuan et al. | A new active safety distance model of autonomous vehicle based on sensor occluded scenes | |
Khosroshahi | Learning, classification and prediction of maneuvers of surround vehicles at intersections using lstms | |
US11966452B2 (en) | Systems and methods for image based perception | |
EP4131174A1 (en) | Systems and methods for image based perception | |
Dey et al. | Sensing Optimization in Automotive Platforms | |
EP4145352A1 (en) | Systems and methods for training and using machine learning models and algorithms | |
Charaya | LiDAR for Object Detection in Self Driving Cars | |
US20230195977A1 (en) | Method and system for classifying scenarios of a virtual test, and training method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |