CN106980813A - 机器学习的注视生成 - Google Patents

机器学习的注视生成 Download PDF

Info

Publication number
CN106980813A
CN106980813A CN201710025230.7A CN201710025230A CN106980813A CN 106980813 A CN106980813 A CN 106980813A CN 201710025230 A CN201710025230 A CN 201710025230A CN 106980813 A CN106980813 A CN 106980813A
Authority
CN
China
Prior art keywords
image
label
conspicuousness
map
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710025230.7A
Other languages
English (en)
Other versions
CN106980813B (zh
Inventor
玛德琳·J·吴
维迪亚·那利亚姆布特·穆拉里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of CN106980813A publication Critical patent/CN106980813A/zh
Application granted granted Critical
Publication of CN106980813B publication Critical patent/CN106980813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Abstract

本公开延伸至用于自动注视生成的方法、系统和装置以及更具体地涉及合成显著性地图的生成。用于生成显著性信息的方法包括接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。方法包括通过创建具有一个或多个随机点的中间图像来生成并且存储标签图像。随机点在相应于子区域的区域中具有第一颜色并且中间图像的剩余部分具有第二颜色。生成并且存储标签图像进一步地包括把高斯模糊应用于中间图像。

Description

机器学习的注视生成
技术领域
本公开总体上涉及用于自动注视(fixation)生成的方法、系统和装置,以及更具体地涉及合成显著性地图的生成。
背景技术
汽车为商业、政府和私人实体提供交通工具的重要部分。自主车辆和驾驶辅助系统目前正在被开发并且被部署用于提供安全、减少所需的用户输入量或甚至完全消除用户参与。例如,比如防撞系统这样的某些驾驶辅助系统可以在人类正在驾驶时监测车辆和其他物体的行驶、位置和速度。当系统检测到碰撞或撞击即将发生时,防撞系统可以干预并且应用制动器、转向车辆或执行其他规避或安全操纵。作为另一示例,自主车辆可以在很少或没有用户输入的情况下驾驶并且导航车辆。基于传感器数据的用于物体检测的自动系统的训练使自动驾驶系统或驾驶辅助系统能够安全地识别和避开障碍物或安全驾驶通常是必要的。
发明内容
根据本发明的一方面,提供一种方法,该方法包含:
接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;以及
生成并且存储标签图像,生成并且存储标签图像包含:
创建包含在相应于子区域的区域中的具有第一颜色的一个或多个随机点的中间图像,中间图像的剩余部分具有第二颜色,以及
把高斯模糊应用于中间图像。
根据本发明的一实施例,其中生成并且存储标签图像进一步地包含创建并且存储低分辨率的模糊的中间图像。
根据本发明的一实施例,其中应用高斯模糊包含为一个或多个随机点中的每一个生成椭圆形状模糊。
根据本发明的一实施例,本发明方法进一步地包含基于第一图像和标签图像生成显著性地图(saliency map)。
根据本发明的一实施例,其中生成显著性地图包含使用神经网络来生成,神经网络基于第一图像和标签图像输出显著性地图。
根据本发明的一实施例,其中创建包含一个或多个随机点的中间图像包含创建二进制图像。
根据本发明的一实施例,其中创建包含一个或多个随机点的中间图像包含基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目。
根据本发明的一实施例,本发明方法进一步地包含训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
根据本发明的另一方面,提供一种用于生成人工显著性地图的系统,该系统包含:
配置成接收第一图像和相应于第一图像的地面实况的数据部件,其中地面实况包含第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;
随机部件,该随机部件配置成创建包含在相应于子区域的区域中的包含第一颜色的一个或多个随机点的中间图像,中间图像的剩余部分包含第二颜色;
配制成把模糊应用于中间图像以生成标签图像的模糊部件;以及
配置成基于标签图像和第一图像来创建显著性地图的地图部件。
根据本发明的一实施例,本发明系统进一步地包含配置成基于显著性地图和标签图像来训练或测试机器学习算法的模型部件。
根据本发明的一实施例,其中地面实况进一步地包含关于关注物体的一个或多个细节,一个或多个细节包含关注物体的分类、方向和相对位置中的一个或多个,并且其中模型部件配置成基于关于关注物体的一个或多个细节来训练或测试。
根据本发明的一实施例,其中模糊部件配置成通过产生低分辨率标签图像来生成标签图像并且其中地图部件配置成基于低分辨率标签图像来创建显著性地图。
根据本发明的一实施例,其中模糊部件配置成应用高斯模糊。
根据本发明的一实施例,其中随机部件配置成基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目并且创建该随机点。
根据本发明的又一方面,提供一种存储指令的计算机可读存储介质,该指令当由一个或多个处理器执行时使一个或多个处理器:
接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;以及
创建包含在相应于子区域的区域中的包含第一颜色的一个或多个随机点的中间图像,中间图像的剩余部分包含第二颜色;
把高斯模糊应用于中间图像以产生标签图像;以及
存储标签图像并且把标签图像与第一图像相关联。
根据本发明的一实施例,其中指令使一个或多个处理器创建低分辨率的模糊中间图像并且把低分辨率的模糊中间图像存储为标签图像。
根据本发明的一实施例,其中指令进一步地使一个或多个处理器把高斯模糊拟合于椭圆形状的区域。
根据本发明的一实施例,其中指令使一个或多个处理器基于第一图像和标签图像来生成显著性地图,其中生成显著性地图包含使用神经网络来生成,神经网络基于第一图像和标签图像输出显著性地图。
根据本发明的一实施例,其中指令进一步地使一个或多个处理器训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
根据本发明的一实施例,其中指令使一个或多个处理器基于一个或多个子区域的相应子区域大小来确定随机点区域的数目并且创建该随机点区域。
附图说明
参考下面的附图描述本公开的非限制性且非详尽的实施方式,其中除另有规定外,在各种视图中的相同的附图标记指的是相同的部分。关于下面的描述和附图,本公开的优势将变得更好理解,在附图中:
图1是说明包括自动驾驶/辅助系统的车辆控制系统的示例实施方式的示意性框图;
图2是说明用于自动注视生成的系统的实施方式的示意性框图;
图3说明驾驶环境的透视图的图像;
图4说明根据一实施例的具有多个随机点的图像;
图5说明根据一实施例的图4的图像的模糊版本;
图6说明根据一实施例的图5的图像的低分辨率版本;
图7是根据一实施方式的说明显著性部件的示例部件的示意性框图;以及
图8是根据一实施方式的说明用于生成合成显著性地图、图像标签或注视数据的方法的示意性流程图。
具体实施方式
为了安全地操作,智能车辆应该能够快速地并且准确地识别行人。关于主动安全性和驾驶员辅助应用,共同的挑战是快速地并且准确地检测场景中的行人和行人的位置。已经利用深度神经网络成功地实现某些分类解决方案。然而,检测和定位仍然是具有挑战性的,因为行人以不同的尺度存在并且在不同的位置。例如,当前的检测和定位技术不能匹配人类确定场景中的关注物体的尺度和位置和/或快速地理解场景的“要点(gist)”的能力。
申请人已经开发了改善自动行人定位和检测的系统、装置和方法。至少一个实施例使用物体检测的两阶段计算机视觉方法。在第一阶段,传感器数据(比如图像)的一个或多个区域被识别为更可能包括关注物体(比如行人)。例如,第一阶段可以产生显著性地图形式的可能区域的指示,物体位于该可能区域中。第二阶段确定关注物体是否实际上存在于在第一阶段中识别的一个或多个区域内。例如,第二阶段可以使用第一阶段输出的显著性地图和原始图像的至少一部分来确定关注物体是否实际上存在于一个或多个区域内。然而,或者可以在第一阶段或者可以在第二阶段中使用的神经网络或其他模型可能首先需要被训练并且被测试。因为获取可以用于训练神经网络、模型或算法的传感器数据、显著性地图或其他数据可以是非常困难耗费时间的和/或昂贵的,所以实施上述两阶段方法可以是非常困难或昂贵的。
根据前述内容,申请人已经开发合成显著性地图的创建和使用的解决方案。这些合成显著性地图可以用于深度学习算法的训练或测试并且显著地减少该深度学习算法的训练或测试所需的时间和成本。根据一实施例,方法包括接收第一图像和该第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。方法包括生成并且存储标签图像。生成标签图像包括创建包括在相应于子区域的区域中具有第一颜色的一个或多个随机点的中间图像,同时该中间图像的剩余部分具有第二颜色。生成标签图像也包括把高斯模糊应用于中间图像。
根据某些实施例,可以基于关注物体的图像和相关地面实况边界框生成人工显著性地图。可以用在边界框内(或在相应于边界框的区域内)的若干随机点生成图像。标签上每个随机生成的点制成白色像素并且图像中所有其他随机生成的点是黑色的。将高斯模糊或其他模糊应用于二进制图像并且以低分辨率存储为用于相应图像的标签。标签和原始图像可以被输入深度神经网络,该深度神经网络输出用于预测图像中关注物体的位置的显著性地图。深度神经网络可以与由M.Kummerer,L.Theis和M.Bethge(2014年11月)在“深度注视I:用在ImageNet上训练的特征地图提高显著性预测(Deep Gaze I:Boosting SaliencyPrediction with Feature Maps Trained on ImageNet)”中讨论和描述的那些相似。
如在此所使用的,术语“注视”指的是提醒注意传感器数据的地区或区域的指示或标签,信息可以在该地区或区域中呈现。例如,识别在图像内的区域的信息是注视的一种类型的指示,物体识别算法应该在该区域中寻找物体。同样,任何区域标识符可以在此称为注视,显著或相关信息位于该区域中。在一实施例中,通过确定注视区域,可以需要较少的时间和处理资源来检测物体或基于传感器数据来做出其他确定,因为可能需要分析不到所有的传感器数据。
在一实施例中,可以使用低分辨率标签或显著性地图。例如,视觉心理研究已经表明来自较低分辨率图像的注视可以预测在更高分辨率图像上的注视。因此,非常低分辨率版本的人工显著性作为相应图像的标签的使用是可能的并且可以减少所需的计算能力。此外,模糊可以拟合椭圆以更好地预测物体的尺度和位置。例如,行人通常具有大于宽度的高度并且垂直地定向。因此,垂直长圆形的椭圆可以用作模糊的形状。
在一实施例中,本公开把显著性地图应用于物体检测,这是当前技术水平的改进。此外,在一实施例中,本公开在没有收集数据集上新的目光注视注释的详尽工作的情况下创建合成显著性地图以模仿人类感知。此外,至少某些实施例中产生的数据不需要消除中心偏差,该中心偏差通常是基于人类注视产生的注视注释或数据集所需的。
现在参考附图,图1说明示例车辆控制系统100,该车辆控制系统100可以用于自动地检测、分类和/或定位物体。自动驾驶/辅助系统102可以用于自动操作或控制车辆的操作或为人类驾驶员提供辅助。例如,自动驾驶/辅助系统102可以控制车辆的制动、转向、加速、照明、警报、驾驶员通知、无线电或任何其他辅助系统中的一个或多个。在另一示例中,自动驾驶/辅助系统102可能不能提供任何驾驶控制(例如,转向、加速或制动),但可以提供通知和警报以帮助人类驾驶员安全驾驶。自动驾驶/辅助系统102可以使用神经网络或者其他模型或算法以基于由一个或多个传感器收集的感知数据来检测或定位物体。
车辆控制系统100也包括一个或多个用于检测母车辆附近(例如,包括车辆控制系统100的车辆)或在母车辆(例如,包括车辆控制系统100的车辆)的传感器范围内的物体的存在的传感器系统/装置。例如,车辆控制系统100可以包括一个或多个雷达系统106、一个或多个LIDAR(激光雷达)系统108、一个或多个摄像机系统110、全球定位系统(GPS)112和/或一个或多个超声波系统114。车辆控制系统100可以包括用于存储比如地图数据、驾驶历史或其他数据这样的用于导航和安全性的相关或有用数据的数据存储器116。车辆控制系统100也可以包括用于与移动或无线网络、其他车辆、基础设施或任何其他通信系统无线通信的收发器118。
车辆控制系统100可以包括车辆控制执行器120以控制车辆的驾驶的各个方面,比如电动马达、开关或其他执行器以用于控制制动、加速、转向等。车辆控制系统100也可以包括一个或多个显示器122、扬声器124或其他装置以便可以为人类驾驶员或乘客提供通知。显示器122可以包括抬头显示器、仪表盘显示器或指示器、显示屏幕或可以被车辆的驾驶员或乘客看到的任何其他视觉指示器。扬声器124可以包括车辆的音响系统的一个或多个扬声器或可以包括专用于驾驶员通知的扬声器。
将要领会的是,仅通过示例给出图1的实施例。其他实施例在没有背离本公开的保护范围的情况下可以包括较少部件或附加部件。此外,图示部件可以没有限制地结合在或包括在其他部件内。
在一实施例中,自动驾驶/辅助系统102配置成控制母车辆的驾驶或导航。例如,自动驾驶/辅助系统102可以控制车辆控制执行器120沿着道路、停车场、车道或其他位置上的路径驾驶。例如,自动驾驶/辅助系统102可以基于由部件106-118中的任何一个提供的信息或感知数据来确定路径。传感器系统/装置106-110和114可以用于获取实时传感器数据以便自动驾驶/辅助系统102可以实时帮助驾驶员或驾驶车辆。自动驾驶/辅助系统102可以实施算法或使用比如深度神经网络这样的模型来处理传感器数据以检测、识别和/或定位一个或多个物体。然而,为了训练或测试模型或算法,可能需要大量的传感器数据和传感器数据的注释。
现在参考图2,显示用于自动注视生成的系统200的一实施例。系统200包括显著性部件202、存储器204、训练部件206和测试部件208。显著性部件202配置成基于数据图像和地面实况数据来确定显著性信息。数据图像可以包括一帧的传感器数据并且地面实况(ground truth)可以包括关于该帧传感器数据的信息。例如,地面实况可以包括在传感器数据范围内的关注物体的一个或多个边界框、分类、方向和/或相对位置。边界框可以包括相应于一个或多个关注物体的在数据图像范围内的一个或多个子区域的指示。分类可以包括检测物体的类型或分类的指示。例如,分类可以指示检测物体是车辆、行人、骑自行车者、摩托车、道路碎片、道路标志、车道屏障、树或植物、建筑物、停车屏障、人行道或在道路上的或道路附近的任何物体或特征。方向可以指示物体的方向或物体的行进方向,比如车辆、行人或任何其他物体的方向或行进方向。相对位置可以指示车辆和物体之间的距离。
显著性部件202可以通过基于数据图像和/或地面实况自动地生成人工标签或人工显著性地图来确定显著性信息。根据一实施例,显著性部件202可以在指示的边界框内生成多个随机点(其被设置为白色像素)、把所有其他的像素设置为黑色、对图像执行高斯模糊以产生标签、存储标签的低分辨率版本、以及基于数据和标签信息生成显著性地图以预测图像中物体的位置。显著性部件202可以向存储器204输出显著性数据210和/或把显著性数据210存储至存储器204。例如,显著性数据可以把标签图像或显著性地图存储为显著性数据210的一部分。
训练部件206配置成使用数据图像和任何相应地面实况或显著性数据210来训练机器学习算法。例如,训练部件206可以通过给一帧的传感器数据提供相应标签图像或显著性地图来训练机器学习算法或模型以在任何图像中输出关注物体的显著性地图或预测位置来训练机器学习算法或模型。例如,机器学习算法或模型可以包括用于识别图像的一个或多个区域的深度神经网络,该区域包括比如行人、车辆或要由自动驾驶/辅助系统102检测或定位的其他物体这样的关注物体。在一实施例中,深度神经网络可以以显著性地图或指示图像的注视或显著性子区域的任何其他格式的形式输出区域的指示。
测试部件208可以使用显著性数据210测试机器学习算法或模型。例如,测试部件208可以为机器学习算法或模型提供图像或其他传感器数据帧,该机器学习算法或模型然后输出显著性地图或者注视或显著性的其他指示。作为另一示例,测试部件208可以为机器学习算法或模型提供图像或其他传感器数据帧,该机器学习算法或模型确定关于关注物体的分类、位置、方向或其他数据。测试部件208可以把机器学习算法或模型的输出与人工显著性地图或地面实况相比较以确定如何执行模型或算法。例如,如果由机器学习算法或模型确定的显著性地图或其他细节是相同的或相似的,则测试部件208可以确定机器学习算法或模型是准确的或很好地被训练以用于现实世界系统中的操作,比如图1的自动驾驶/辅助系统102。
图3说明可以在驾驶环境中捕捉的图像300的透视图。例如,图像300说明在车辆前面的道路的场景,该场景在车辆正沿着道路行驶时可以被捕捉。图像300包括在道路上的或道路附近的多个关注物体。在一实施例中,图像300可以具有相关边界框信息,该相关边界框信息定义用于包括关注物体的图像300的子区域的多个边界框。具体地,为包括行人的区域定义第一边界框302、第二边界框304和第三边界框306,该行人可以是一种类型的关注物体或其他关注物体。例如,图像和相关边界框302-306可以用于训练神经网络以检测行人或其他关注物体或者测试神经网络检测行人或其他关注物体的能力。其他实施例可以包括图像和/或用于任何类型的关注物体或用于多种类型的关注物体的边界框。
在一实施例中,边界框信息可以被包括作为图像300的地面实况的一部分。图像300可以用地面实况注释或地面实况可以被包括作为单独文件的一部分。在一实施例中,图像300可以保持是未注释的以便可以测试或训练神经网络或者其他机器学习算法或模型。在一实施例中,地面实况可以包括定义边界框302-306的信息,比如x-y坐标或每一个边界框的边缘或中心的其他描述。地面实况也可以包括关于包括在边界框中的是什么(例如,关注物体的类型)的信息或关于距传感器的距离的信息或关于关注物体的其他细节。
显著性部件202可以接收图像300和任何相关地面实况并且生成用于图像的标签和/或显著性地图。在一实施例中,显著性部件202可以通过使除了由地面实况指示的在每个边界框内的一个或多个随机点以外的所有像素是黑色的来创建新的图像并且把模糊应用于该图像来生成标签。图4-6说明关于标签图像的生成的一实施例。
图4说明第一中间图像400。第一中间图像400包括图像,在该图像中除了在相应于图3的边界框302-306的第一区域402、第二区域404和第三区域406内的多个随机点以外的所有像素是黑色的。例如,显著性部件202可以随机生成在每一个区域402-406内的点。每个随机点可以包括一个或多个像素。区域402-406的区域标记显示用于说明的目的并且可能不被包括作为第一中间图像400的一部分。虽然第一中间图像400以黑色和白色显示,某些实施例可以包括灰度、颜色或可用图像类型的任何其他组合。
在一实施例中,在区域402-406内的随机点的数量是基于该区域的大小或面积。例如,第二区域404是最小的区域并且仅具有一个随机点并且第三区域406是最大的区域并且具有九个随机点。第一区域402比第三区域小,但比第二区域404大并且具有三个随机点。在一实施例中,区域402-406的面积或者一个或多个尺寸可以用于计算随机点的数目。随机数发生器或其他随机化算法可以用于生成在每个区域402-406内的随机点。
图5说明第二中间图像500。第二中间图像500包括具有在黑色背景上的多个白色模糊区域502-506的图像。模糊区域502-506包括分别相应于图4的第一区域402、第二区域404和第三区域406的第一模糊区域502、第二模糊区域504和第三模糊区域506。显著性部件202可以通过把模糊应用于图4的第一中间图像400来生成第二图像500。例如,显著性部件202可以通过把高斯模糊应用于第一中间图像400来生成第二图像500,在此情况下模糊被设计用于创建椭圆形状(例如,具有与垂直参数不同的水平参数的二维模糊)。每个椭圆可以由第一中间图像400中的随机点中的一个产生。在一实施例中,第二中间图像500是应用于包含第一中间图像400的黑白图像(例如二进制图像)的模糊结果。某些实施例可以包括灰度或彩色图像,所以超过两种颜色是可能的。例如,模糊灰度或彩色图像可以导致在白色模糊区域502-506内的梯度。在一实施例中,模糊大小或椭圆大小可以基于区域402-406的区域的位置或大小。例如,较大区域可以接受较大的椭圆大小和/或在图像400上垂直向上更高定位的区域可以接受较小的椭圆大小。
在一实施例中,第二中间图像500可以用作图3的图像300的标签。例如,模糊502-506可以指示图3的数据图像300的区域,该区域应该被处理或分析用于物体检测或识别。在一实施例中,第二中间图像500可以与数据图像300结合以生成显著性地图,该显著性地图可以被处理用于物体识别或检测。在一实施例中,显著性部件202可以把第二中间图像500和图像300输入到神经网络中,该神经网络输出显著性地图。在一实施例中,显著性部件202可以把第二中间图像500和图像300输入到训练部件206或测试部件208中以训练或测试神经网络的操作。例如,神经网络可以被训练以基于图像输出标签或显著性地图。作为另一示例,通过为神经网络提供图像300并且把产生的显著性地图或标签与第二中间图像500相比较,可以测试神经网络它产生显著性地图或标签的效果如何。
图6说明是第二中间图像500的低分辨率版本的低分辨率图像600。例如,低分辨率显著性地图或标签可以在显著性或注视预测上很少或没有减少的情况下显著性地减少处理资源或处理时间。在一实施例中,显著性部件202可以把低分辨率图像600保存为用于图3的图像300的标签。在低分辨率的情况下,低分辨率图像600包括低分辨率模糊区域602-606,该低分辨率模糊区域602-606包括第一低分辨率模糊区域602、第二低分辨率模糊区域604和第三分辨率区域606。
在一实施例中,低分辨率图像600可以用作用于图3的图像300的标签。例如,低分辨率模糊区域602-606可以指示图3的数据图像300的区域,该区域应该被处理或分析用于物体检测或识别。在一实施例中,低分辨率图像600可以与数据图像300结合以生成显著性地图,该显著性地图可以被处理用于物体识别或检测。在一实施例中,显著性部件202可以把低分辨率图像600和图像300输入至神经网络中,该神经网络输出显著性地图。在一实施例中,显著性部件202可以把低分辨率图像600和图像300输入至训练部件206或测试部件208中以训练或测试神经网络的操作。例如,神经网络可以被训练以基于图像300(或任何其他图像)输出标签或显著性地图。作为另一示例,通过为神经网络提供图像300并且把产生的显著性地图或标签与低分辨率图像600相比较,可以测试神经网络它产生显著性地图或标签的效果如何。
在一实施例中,低分辨率图像600将在训练——例如在深度神经网络的训练中——被用作图3的相应全图像300的标签。以这种方式,当任何图像输入至网络中时,在已经训练网络之后,产生相应标签(可能的显著性区域的地图)。此外,(低分辨率)显著性地图可以经历后处理——例如用原始图像阈值化——以提取要被输入至用于关注物体的分类器中的关注区域(例如,检测行人)。
虽然上面关于图像讨论了图3-6,但其他类型的传感器数据帧被预期在本公开的保护范围内。例如,LIDAR帧、雷达帧、超声波帧或可以根据上面提供的过程和教导处理的其他类型的传感器数据帧。例如,数据帧和用于数据帧的子区域的边界框可以被处理以产生用于任何类型的数据帧的标签。
图7是说明显著性部件202的示例部件的框图。在描绘的实施例中,显著性部件202包括数据部件702、随机部件704、模糊部件706、地图部件708和模型部件710。部件702-710仅通过图示给出并且可能不全部包括在所有实施例中。实际上,某些实施例可以仅包括部件702-710中的一个或者部件702-710中的两个或两个以上的任何组合。部件702-710中的某些可以位于显著性部件202的外部。
数据部件702配置成接收数据图像或其他传感器数据以及关于数据图像或传感器数据的任何地面实况。例如,数据部件702可以接收由摄像机捕捉的图像和图像内相应于一个或多个关注物体的一个或多个子区域的指示。图像可以包括车辆附近的场景的图像。例如,图像可以包括由车载摄像机捕捉的图像。在一实施例中,图像可以包括模拟道路或驾驶环境的计算机生成图像。
地面实况可以包括关于驾驶环境的真实世界或虚拟世界地面实况,在该驾驶环境中捕捉图像。例如,地面实况可以包括关于关注物体的一个或多个细节,比如分类、方向和关注物体相对于摄像机的相对位置。在一实施例中,地面实况包括边界框信息或定义图像的区域的其他信息,关注物体位于该区域中。边界框可以从已经观看到图像的人类的输入得到或可以由计算机生成。在一实施例中,基于当人类看图像时人类看的地方得到边界框信息或边界框信息可以基于由人类提供的明确输入,该边界框信息识别关注物体位于哪里(例如,在显示图像时通过使用鼠标、触摸屏或在其他装置沿着区域拖拽框)。在一实施例中,边界框信息可以由计算机生成。例如,如果由计算机基于模拟的三维环境生成数据图像,则计算机也可以生成边界框或指示计算机生成图像的区域的其他信息,关注物体位于该区域中。
随机部件704配置为生成图像,该图像具有在由边界框定义或相应于边界框的区域内的一个或多个随机点。例如,随机部件704可以创建包括在相应于边界框的区域中具有第一颜色的一个或多个随机点的图像(比如图4的中间图像400),并且该图像的剩余部分具有第二颜色。在一实施例中,随机部件704创建二进制图像,该二进制图像除了在每个边界框区域内的一个或多个随机点以外是黑色的。在一实施例中,二进制图像可以包括具有任何颜色的两种不同的颜色。例如,二进制图像不一定是黑色背景上的白色点,但可以包括两种或多种颜色的任何组合。在一实施例中,随机部件704创建图像,该图像具有作为灰度或彩色图像的一部分的随机点。
随机部件704可以使用随机数发生器或其他随机化算法来生成随机点。随机部件704可以在相应于由数据部件702接收的地面实况中指示的区域的区域内生成随机点。在一实施例中,随机部件704可以基于区域的大小在区域内生成若干随机点。例如,随机部件704可以基于子区域的大小来确定要在子区域中生成的随机点的数目。例如,具有较大面积的区域可以具有比具有较小面积的区域更多的随机点。
模糊部件706配置成把模糊算法应用于由随机部件704创建的图像,比如图4的第一中间图像400。在一实施例中,模糊部件706可以把高斯模糊应用于包含一个或多个随机点的图像。模糊部件706可以模糊随机点以遍布较大的面积并且由此模拟相应于边界框的区域。模糊可以基于关注物体的类型而拟合于或适用于特殊形状。例如,垂直长圆形椭圆可以反映行人的大概形状。在一实施例中,模糊算法可以设计用于产生所需的模糊形状。例如,模糊算法可以在水平方向上与在垂直方向上不同地模糊图像以生成垂直或水平长圆形形状。也可以使用其他模糊算法。在一实施例中,模糊图像(参照例如图5)可以用作由数据部件702接收的相应数据图像的标签图像。在另一实施例中,低分辨率图像(参照例如图6)可以被存储并且被用作由数据部件702接收的相应数据图像的标签图像。
地图部件708配置成基于比如由随机部件704和/或模糊部件706生成的标签图像这样的标签图像生成用于数据图像的显著性地图。在一实施例中,地图部件708配置成基于数据图像和标签图像生成显著性地图。在一实施例中,地图部件708配置成使用神经网络生成显著性地图,该神经网络基于作为输入的数据图像和标签图像来输出显著性地图。显著性地图可以包括由随机部件704和/或模糊部件706产生的标签图像或另一图像定义的在模糊区域或其他区域内的数据图像的一个或多个细节。在一实施例中,地图部件708可以使用阈值算法通过用标签图像覆盖数据图像来生成显著性地图。例如,数据图像可以在相应于标签的黑色部分的区域中转换成黑色,同时在显著性地图内相应于白色区域的数据图像的部分可以转换成灰度。
模型部件710配置成为用于机器学习算法或模型的测试或训练的算法提供虚拟传感器数据和/或地面实况。例如,模型部件710可以为图2的训练部件206或测试部件208提供数据图像和标签图像。在另一实施例中,模型部件710可以包括训练部件206和/或测试部件208。例如,数据图像和/或标签图像可以用于训练或测试神经网络、深度神经网络和/或卷积神经网络以输出标签图像或显著性地图。例如,机器学习算法或模型可以被训练或测试以包含在图1的自动驾驶/辅助系统102中。在一实施例中,模型部件710提供用于训练或测试神经网络的数据图像和标签图像以基于该标签图像来确定关于一个或多个物体的信息。在一实施例中,模型部件710基于显著性地图和标签图像提供用于训练或测试机器学习算法的数据图像和标签图像。例如,数据图像和/或标签图像可以用于训练神经网络输出标签图像或显著性地图。在训练之后,神经网络然后可以能够仅给定摄像机图像的情况下产生标签图像或显著性地图图像,该标签图像或显著性地图图像指示关注物体可以位于那里的区域。
现在参考图8,说明用于生成合成显著性地图或图像标签的方法800的示意性流程图。方法800可以由显著性部件或用于自动注视生成的系统执行,比如图2或7的显著性部件202或图2的系统200。
方法800开始并且在802中数据部件702接收第一图像和该第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。在804中随机部件704创建包括在背景上的一个或多个随机点的中间图像。随机点具有第一颜色并且位于相应于子区域的区域内并且中间图像的剩余部分具有第二颜色。在806中模糊部件706把模糊应用于中间图像并且在808中存储模糊的中间图像。
示例
下面的示例与更多实施例有关。
示例1是包括接收第一图像和该第一图像内相应于一个或多个关注物体的一个或多个子区域的指示的方法。方法包括生成并且存储标签图像。生成标签图像包括创建中间图像,该中间图像具有在相应于子区域的区域中的具有第一颜色的一个或多个随机点。中间图像的剩余部分具有第二颜色。方法包括把高斯模糊应用于中间图像并且把模糊的中间图像存储为标签图像。
在示例2中,在示例1中的生成标签图像进一步地包括创建并且存储模糊的中间图像的低分辨率版本。
在示例3中,在示例1-2中的任一个中的应用高斯模糊包括为一个或多个随机点中的每一个生成椭圆形状模糊。
在示例4中,示例1-3中的任一个中的方法进一步地包括基于第一图像和标签图像生成显著性地图。
在示例5中,在示例4中的生成显著性地图包括使用神经网络来生成,该神经网络基于第一图像和标签图像输出显著性地图。
在示例6中,在示例1-5中的任一个中的创建中间图像包括创建二进制图像。
在示例7中,在示例1-6中的任一个中的创建中间图像包括基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目。
在示例8中,示例1-7中的任一个中的方法进一步地包括训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息或基于数据图像生成标签图像和显著性地图中的一个或多个。
示例9是包括数据部件、随机部件、模糊部件和地图部件的用于生成人工显著性地图的系统。数据部件配置成接收第一图像和相应于第一图像的地面实况。地面实况包括第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。随机部件配置成创建中间图像,该中间图像包括在相应于子区域的区域中的具有第一颜色的一个或多个随机点。中间图像的剩余部分具有第二颜色。模糊部件配置成把模糊应用于中间图像以生成标签图像。地图部件配置成基于标签图像和第一图像来创建显著性地图。
在示例10中,示例9的系统进一步地包括配置成基于显著性地图和标签图像来训练或测试机器学习算法的模型部件。
在示例11中,在示例9中的地面实况进一步地包括关于关注物体的一个或多个细节,该一个或多个细节包含关注物体的分类、方向和相对位置中的一个或多个。模型部件配置成基于关于关注物体的一个或多个细节训练或测试机器学习算法或模型。
在示例12中,在示例9-11中的任一个中的模糊部件配置成通过产生低分辨率标签图像来生成标签图像并且地图部件配置成基于该低分辨率标签图像来创建显著性地图。
在示例13中,在示例9-12中的任一个中的模糊部件配置成应用高斯模糊。
在示例14中,在示例9-13中的任一个中的随机部件配置成基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目并且创建该随机点。
示例15是存储指令的计算机可读存储介质,该指令当由一个或多个处理器执行时使该一个或多个处理器接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。指令进一步地使一个或多个处理器创建中间图像,该中间图像具有在相应于子区域的区域中的包含第一颜色的一个或多个随机点。中间图像的剩余部分具有第二颜色。指令进一步地使一个或多个处理器把高斯模糊应用于中间图像以产生标签图像。指令进一步地使一个或多个处理器存储标签图像并且把标签图像与第一图像相关联。
在示例16中,示例15的指令进一步地使一个或多个处理器创建低分辨率的模糊中间图像并且把低分辨率的模糊中间图像存储为标签图像。
在示例17中,在示例15-16中的任一个中的指令进一步地使一个或多个处理器把高斯模糊拟合于椭圆形状的区域。
在示例18中,在示例15-17中的任一个中的指令使一个或多个处理器使用神经网络基于第一图像和标签图像来生成显著性地图,该神经网络基于第一图像和标签图像来输出显著性地图。
在示例19中,在示例15-18中的任一个中的指令进一步地使一个或多个处理器训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
在示例20中,在示例15-19中的任一个中的指令使一个或多个处理器基于一个或多个子区域的相应子区域大小来确定随机点区域的数目并且创建该随机点区域。
示例21是包括用于实施方法或实现如示例1-20中的任一个中的系统或装置的手段的系统或装置。
在上述公开中,参考形成其的一部分的附图,并且在附图中例示了本公开可以在其中实行的具体实施方式。应该理解的是,可以利用其它实施方式并且可以在不背离本公开的保护范围的情况下做出结构变化。说明书中提到的“一实施例”、“实施例”、“示例实施例”等指示描述的实施例可以包括特定的特征、结构或特性,但每一实施例可能不一定包括该特定的特征、结构或特性。此外,这样的短语不一定指的是同一实施例。此外,当特定的特征、结构或特性与实施例一起描述时,认为对与无论是否明确地描述的其他实施例结合的这样的特征、结构或特性进行改变是在本领域技术人员的知晓的范围内。
如在此所使用的,“自主车辆”可以是完全独立于人类驾驶员起作用或操作的车辆;或可以是如下车辆,该车辆在某些情况下独立于人类驾驶员起作用或操作同时在其他情况下人类驾驶员可以能够操作该车辆;或可以是主要由人类驾驶员操作——但在自动驾驶/辅助系统的帮助下——的车辆。
在此公开的系统、装置和方法的实施方式可以包含或利用包括比如在此所讨论的一个或多个处理器和系统存储器这样的计算机硬件的专用计算机或通用计算机。在本公开的保护范围内的实施方式也可以包括用于承载或存储计算机可执行指令和/或数据结构的物理介质或其他计算机可读介质。这样的计算机可读介质可以是可以由通用计算机系统或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。承载计算机可执行指令的计算机可读介质是传输介质。因此,通过示例,而不是限制,本公开的实施方式可以包含至少两个明显不同种类的计算机可读介质:计算机存储介质(装置)和传输介质。
计算机存储介质(装置)包括RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦可编程只读存储器)、CD-ROM(紧凑型光盘只读存储器)、固态硬盘(“SSD”)(例如,基于RAM)、闪速存储器、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储器、磁盘存储器或其他磁存储装置或任何其他介质,该其他介质可以用于存储计算机可执行指令或数据结构形式的所需程序代码工具并且该其他介质可以由通用计算机或专用计算机访问。
在此公开的装置、系统和方法的实施方式可以通过计算机网络通信。“网络”被定义为实现计算机系统和/或模块和/或其他电子装置之间的电子数据的传输的一个或多个数据链路。当信息通过网络或另一通信连接(或者硬连线、无线、或者硬连线或无线的组合)传输或提供至计算机时,该计算机正确地把连接看作传输介质。传输介质可以包括网络和/或数据链路,该传输介质可以用于承载计算机可执行指令或数据结构形式的所需程序代码工具并且该传输介质可以由通用计算机或专用计算机访问。上述的组合也应该包括在计算机可读介质的保护范围内。
计算机可执行指令包含例如指令和数据,该指令和数据——当在处理器上执行时——使通用计算机、专用计算机或专用处理装置执行某一功能或一组功能。计算机可执行指令可以是例如二进制、比如汇编语言或甚至源代码这样的中间格式指令。虽然已经针对结构特征和/或方法论行为用语言描述了主题,但应该理解的是,在从属权利要求中定义的主题不一定限于上述描述的特征或行为。相反,描述的特征和行为公开为实施权利要求的示例形式。
本领域技术人员将领会到本公开可以在具有许多类型的计算机系统配置的网络计算环境中实行,包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络计算机(PC)、小型计算机、大型计算机、移动电话、PDA(个人数字助理)、平板电脑、寻呼机、路由器、开关、各种存储装置等。本公开也可以在分布式系统环境中实行,在该分布式系统环境中,通过网络(或者通过硬接线数据链路、无线数据链路或通过硬接线数据链路和无线数据链路的组合)链接的本地计算机系统和远程计算机系统,两者执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储装置两者中。
此外,在适当的情况下,在此描述的功能可以在如下的一个或多个中执行:硬件、软件、固件、数字部件或模拟部件。例如,一个或多个专用集成电路(ASIC)可以被编程为执行在此描述的系统和程序中的一个或多个。某些术语在说明书和权利要求中用于描述特定的系统部件。如本领域技术人员将要领会的是,部件可以由不同的名字描述。本文件不旨在区分在名称而不是功能方面不同的部件。
应该注意的是,在上面讨论的传感器实施例可以包含计算机硬件、软件、固件或其任何组合以执行它们的功能的至少一部分。例如,传感器可以包括配置成在一个或多个处理器中执行的计算机代码,并且可以包括由该计算机代码控制的硬件逻辑/电气电路。这些示例装置在此提供说明的目的,并且不旨在限制。如将要被相关领域中的技术人员所知道的,本公开的实施例可在更多类型的装置中实施。
本公开的至少某些实施例指向包含存储在任何计算机可用介质上的这样的逻辑(例如,以软件的形式)的计算机程序产品。这样的软件——当在一个或多个数据处理装置上执行时——使装置如在此所描述地操作。
虽然已经在上面描述了本公开的各种实施例,但应该理解的是它们仅通过示例呈现但不限制。将对相关领域技术人员显而易见的是,可以在不背离本公开的精神和保护范围的情况下做出形式和细节其中的各种变化。因此,本公开的广度和保护范围应该不应由上述示例性实施例中的任一个限制,而是应该仅根据下面的权利要求和他们的等同物定义。前述说明书已经被呈现用于说明和描述的目的。其并不旨在是详尽的或把本公开限制为公开的精确形式。根据上述教导,许多修改和变化是可能的。此外,应该注意的是,任何或所有前面提到的可选的实施方式可以以所需的任何组合的方式用于形成本公开的附加混合实施方式。
此外,虽然已经描述和说明了本公开的特定实施方式,但本公开不限于像这样描述和说明的部件的特定形式或设置。本公开的保护范围由附于此的权利要求、这里并且在不同申请中提出的任何未来的权利要求以及他们的等同物来定义。

Claims (20)

1.一种方法,所述方法包含:
接收第一图像和所述第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;以及
生成并且存储标签图像,所述生成并且存储标签图像包含:
创建包含在相应于所述子区域的区域中的具有第一颜色的一个或多个随机点的中间图像,所述中间图像的剩余部分具有第二颜色,以及
把高斯模糊应用于所述中间图像。
2.如权利要求1所述的方法,其中生成并且存储所述标签图像进一步地包含创建并且存储低分辨率的所述模糊的中间图像。
3.如权利要求1所述的方法,其中应用所述高斯模糊包含为所述一个或多个随机点中的每一个生成椭圆形状模糊。
4.如权利要求1所述的方法,进一步地包含基于所述第一图像和所述标签图像生成显著性地图。
5.如权利要求4所述的方法,其中生成所述显著性地图包含使用神经网络来生成,所述神经网络基于所述第一图像和所述标签图像输出所述显著性地图。
6.如权利要求1所述的方法,其中创建包含所述一个或多个随机点的所述中间图像包含创建二进制图像。
7.如权利要求1所述的方法,其中创建包含所述一个或多个随机点的所述中间图像包含基于所述一个或多个子区域的子区域大小来确定所述一个或多个子区域的子区域中的随机点的数目。
8.如权利要求1所述的方法,进一步地包含训练或测试神经网络以基于所述标签图像来确定关于一个或多个物体的信息。
9.一种用于生成人工显著性地图的系统,所述系统包含:
配置成接收第一图像和相应于所述第一图像的地面实况的数据部件,其中所述地面实况包含所述第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;
随机部件,所述随机部件配置成创建包含在相应于所述子区域的区域中的包含第一颜色的一个或多个随机点的中间图像,所述中间图像的剩余部分包含第二颜色;
配制成把模糊应用于所述中间图像以生成标签图像的模糊部件;以及
配置成基于所述标签图像和所述第一图像来创建显著性地图的地图部件。
10.如权利要求9所述的系统,进一步地包含配置成基于所述显著性地图和所述标签图像来训练或测试机器学习算法的模型部件。
11.如权利要求10所述的系统,其中所述地面实况进一步地包含关于所述关注物体的一个或多个细节,所述一个或多个细节包含所述关注物体的分类、方向和相对位置中的一个或多个,并且其中所述模型部件配置成基于关于所述关注物体的所述一个或多个细节来训练或测试。
12.如权利要求9所述的系统,其中所述模糊部件配置成通过产生低分辨率标签图像来生成所述标签图像并且其中所述地图部件配置成基于所述低分辨率标签图像来创建所述显著性地图。
13.如权利要求9所述的系统,其中所述模糊部件配置成应用高斯模糊。
14.如权利要求9所述的系统,其中所述随机部件配置成基于所述一个或多个子区域的子区域大小来确定所述一个或多个子区域的子区域中的所述随机点的数目并且创建所述随机点。
15.一种存储指令的计算机可读存储介质,所述指令当由一个或多个处理器执行时使所述一个或多个处理器:
接收第一图像和所述第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;以及
创建包含在相应于所述子区域的区域中的包含第一颜色的一个或多个随机点的中间图像,所述中间图像的剩余部分包含第二颜色;
把高斯模糊应用于所述中间图像以产生标签图像;以及
存储所述标签图像并且把所述标签图像与所述第一图像相关联。
16.如权利要求15所述的计算机可读存储介质,其中所述指令使所述一个或多个处理器创建低分辨率的模糊中间图像并且把低分辨率的所述模糊中间图像存储为所述标签图像。
17.如权利要求15所述的计算机可读存储介质,其中所述指令进一步地使所述一个或多个处理器把所述高斯模糊拟合于椭圆形状的区域。
18.如权利要求15所述的计算机可读存储介质,其中所述指令使所述一个或多个处理器基于所述第一图像和所述标签图像来生成显著性地图,其中生成所述显著性地图包含使用神经网络来生成,所述神经网络基于所述第一图像和所述标签图像输出所述显著性地图。
19.如权利要求15所述的计算机可读存储介质,其中所述指令进一步地使所述一个或多个处理器训练或测试神经网络以基于所述标签图像来确定关于一个或多个物体的信息。
20.如权利要求15所述的计算机可读存储介质,其中所述指令使所述一个或多个处理器基于所述一个或多个子区域的相应子区域大小来确定随机点区域的数目并且创建所述随机点区域。
CN201710025230.7A 2016-01-15 2017-01-13 机器学习的注视生成 Active CN106980813B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/997,051 US10489691B2 (en) 2016-01-15 2016-01-15 Fixation generation for machine learning
US14/997,051 2016-01-15

Publications (2)

Publication Number Publication Date
CN106980813A true CN106980813A (zh) 2017-07-25
CN106980813B CN106980813B (zh) 2022-09-20

Family

ID=58463766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710025230.7A Active CN106980813B (zh) 2016-01-15 2017-01-13 机器学习的注视生成

Country Status (6)

Country Link
US (3) US10489691B2 (zh)
CN (1) CN106980813B (zh)
DE (1) DE102017100198A1 (zh)
GB (1) GB2548456A (zh)
MX (1) MX2017000692A (zh)
RU (1) RU2016152172A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414307A (zh) * 2018-04-26 2019-11-05 沃尔沃汽车公司 用于半自动图像分割和注释的方法和系统
CN110962828A (zh) * 2019-12-23 2020-04-07 奇瑞汽车股份有限公司 预测电动汽车制动压力的方法和设备
CN112543692A (zh) * 2018-08-06 2021-03-23 国立大学法人东京大学 使用于激光加工系统的机器学习方法、模拟装置、激光加工系统以及程序

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217335A1 (en) * 2009-02-27 2016-07-28 GM Global Technology Operations LLC Stixel estimation and road scene segmentation using deep learning
US8977376B1 (en) 2014-01-06 2015-03-10 Alpine Electronics of Silicon Valley, Inc. Reproducing audio signals with a haptic apparatus on acoustic headphones and their calibration and measurement
US10540768B2 (en) * 2015-09-30 2020-01-21 Samsung Electronics Co., Ltd. Apparatus and method to segment object from image
US9996771B2 (en) * 2016-02-15 2018-06-12 Nvidia Corporation System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models
US10210451B2 (en) * 2016-07-22 2019-02-19 Alpine Electronics of Silicon Valley, Inc. Neural network applications in resource constrained environments
US10552968B1 (en) * 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
US11132529B2 (en) * 2016-11-16 2021-09-28 Ventana Medical Systems, Inc. Convolutional neural networks for locating objects of interest in images of biological samples
CN107093210B (zh) * 2017-04-20 2021-07-16 北京图森智途科技有限公司 一种激光点云标注方法及装置
US10474908B2 (en) * 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation
KR102498597B1 (ko) * 2017-08-22 2023-02-14 삼성전자 주식회사 전자 장치 및 이를 이용하여 관심 영역을 설정하여 오브젝트를 식별하는 방법
EP3679566A4 (en) * 2017-09-06 2021-08-25 OSR Enterprises AG SYSTEM AND METHOD FOR GENERATING TRAINING MATERIALS FOR A VIDEO CLASSER
US11004186B2 (en) * 2017-09-21 2021-05-11 Primitive LLC Parcel change detection
US11042770B2 (en) * 2017-10-09 2021-06-22 EagleSens Systems Corporation Artificial intelligence based image data processing method and image sensor
EP3477616A1 (en) * 2017-10-27 2019-05-01 Sigra Technologies GmbH Method for controlling a vehicle using a machine learning system
GB2568286B (en) * 2017-11-10 2020-06-10 Horiba Mira Ltd Method of computer vision based localisation and navigation and system for performing the same
US11137761B2 (en) 2017-11-20 2021-10-05 At&T Intellectual Property I, L.P. Object modeling with adversarial learning
DE102017127592A1 (de) * 2017-11-22 2019-05-23 Connaught Electronics Ltd. Verfahren zum Klassifizieren von Bildszenen in einem Fahrunterstützungssystem
DE112019000049T5 (de) * 2018-02-18 2020-01-23 Nvidia Corporation Für autonomes fahren geeignete objekterfassung und erfassungssicherheit
US11282385B2 (en) * 2018-04-24 2022-03-22 Qualcomm Incorproated System and method of object-based navigation
US10754344B2 (en) * 2018-07-19 2020-08-25 Toyota Research Institute, Inc. Method and apparatus for road hazard detection
US11430084B2 (en) * 2018-09-05 2022-08-30 Toyota Research Institute, Inc. Systems and methods for saliency-based sampling layer for neural networks
JP7222216B2 (ja) * 2018-10-29 2023-02-15 株式会社アイシン 運転支援装置
US11270162B2 (en) * 2018-10-30 2022-03-08 Here Global B.V. Method and apparatus for detecting objects of interest in an environment
US10929714B2 (en) 2018-11-19 2021-02-23 Ford Global Technologies, Llc High-throughput automated annotation of visual data for training neural networks used for landmark detection
US11663463B2 (en) * 2019-07-10 2023-05-30 Adobe Inc. Center-biased machine learning techniques to determine saliency in digital images
CN110598741B (zh) * 2019-08-08 2022-11-18 西北大学 一种像素级标签自动生成模型构建、自动生成方法及装置
US10803334B1 (en) 2019-10-18 2020-10-13 Alpine Electronics of Silicon Valley, Inc. Detection of unsafe cabin conditions in autonomous vehicles
US11636339B2 (en) * 2020-04-03 2023-04-25 Micron Technology, Inc. In-memory content classification and control
US11295180B1 (en) * 2020-10-06 2022-04-05 Volkswagen Aktiengesellschaft Fast acquisition of labeled vehicular data from multiple data sources
CN112381736A (zh) * 2020-11-17 2021-02-19 深圳市歌华智能科技有限公司 一种基于场景分块的图像增强方法
WO2022119506A1 (en) * 2020-12-03 2022-06-09 National University Of Singapore Method and system for training a neural network
US11755189B2 (en) * 2021-10-25 2023-09-12 Datagen Technologies, Ltd. Systems and methods for synthetic data generation
WO2023136418A1 (en) * 2022-01-13 2023-07-20 Samsung Electronics Co., Ltd. Method and electronic device for automatically generating region of interest centric image
CN115797375B (zh) * 2023-02-06 2023-05-09 厦门农芯数字科技有限公司 基于鱼眼图像实现多组标签图像的生成方法、装置及设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288105A (zh) * 2005-10-11 2008-10-15 普莱姆传感有限公司 用于物体重现的方法和系统
US20120069222A1 (en) * 2005-12-27 2012-03-22 Tessera Technologies Ireland Limited Foreground/Background Separation Using Reference Images
CN102496023A (zh) * 2011-11-23 2012-06-13 中南大学 像素层面的感兴趣区域提取方法
CN102521832A (zh) * 2011-12-07 2012-06-27 中国科学院深圳先进技术研究院 图像分析方法和系统
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法
US20120263346A1 (en) * 2011-04-13 2012-10-18 International Business Machines Corporation Video-based detection of multiple object types under varying poses
CN103218832A (zh) * 2012-10-15 2013-07-24 上海大学 基于图像中全局颜色对比度和空域分布的视觉显著性算法
CN103886279A (zh) * 2012-12-21 2014-06-25 本田技研工业株式会社 使用合成训练数据的实时骑车人检测
CN104103054A (zh) * 2013-04-15 2014-10-15 欧姆龙株式会社 图像处理装置及其控制方法
US20150055824A1 (en) * 2012-04-30 2015-02-26 Nikon Corporation Method of detecting a main subject in an image
CN104834933A (zh) * 2014-02-10 2015-08-12 华为技术有限公司 一种图像显著性区域的检测方法和装置
CN104899869A (zh) * 2015-05-14 2015-09-09 浙江大学 基于rgb-d相机和姿态传感器的平面和障碍检测方法
CN105095835A (zh) * 2014-05-12 2015-11-25 比亚迪股份有限公司 行人检测方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8675966B2 (en) 2011-09-29 2014-03-18 Hewlett-Packard Development Company, L.P. System and method for saliency map generation
US9042648B2 (en) 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
US8824793B2 (en) * 2012-03-02 2014-09-02 Adobe Systems Incorporated Methods and apparatus for applying a bokeh effect to images
US9202258B2 (en) 2012-06-20 2015-12-01 Disney Enterprises, Inc. Video retargeting using content-dependent scaling vectors
US9025880B2 (en) 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video
US20140254922A1 (en) 2013-03-11 2014-09-11 Microsoft Corporation Salient Object Detection in Images via Saliency
CN103955718A (zh) 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
US11017311B2 (en) * 2014-06-30 2021-05-25 Hewlett Packard Enterprise Development Lp Dataset augmentation based on occlusion and inpainting
US9569696B1 (en) * 2015-08-12 2017-02-14 Yahoo! Inc. Media content analysis system and method

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101288105A (zh) * 2005-10-11 2008-10-15 普莱姆传感有限公司 用于物体重现的方法和系统
US20120069222A1 (en) * 2005-12-27 2012-03-22 Tessera Technologies Ireland Limited Foreground/Background Separation Using Reference Images
US20120263346A1 (en) * 2011-04-13 2012-10-18 International Business Machines Corporation Video-based detection of multiple object types under varying poses
CN102496023A (zh) * 2011-11-23 2012-06-13 中南大学 像素层面的感兴趣区域提取方法
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法
CN102521832A (zh) * 2011-12-07 2012-06-27 中国科学院深圳先进技术研究院 图像分析方法和系统
US20150055824A1 (en) * 2012-04-30 2015-02-26 Nikon Corporation Method of detecting a main subject in an image
CN103218832A (zh) * 2012-10-15 2013-07-24 上海大学 基于图像中全局颜色对比度和空域分布的视觉显著性算法
CN103886279A (zh) * 2012-12-21 2014-06-25 本田技研工业株式会社 使用合成训练数据的实时骑车人检测
CN104103054A (zh) * 2013-04-15 2014-10-15 欧姆龙株式会社 图像处理装置及其控制方法
CN104834933A (zh) * 2014-02-10 2015-08-12 华为技术有限公司 一种图像显著性区域的检测方法和装置
CN105095835A (zh) * 2014-05-12 2015-11-25 比亚迪股份有限公司 行人检测方法及系统
CN104899869A (zh) * 2015-05-14 2015-09-09 浙江大学 基于rgb-d相机和姿态传感器的平面和障碍检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LAI-KUAN WONG等: "SALIENCY-ENHANCED IMAGE AESTHETICS CLASS PREDICTION", 《2009 16TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
NIAN LIU等: "Predicting Eye Fixations using Convolutional Neural Networks", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
ZEYNEP YUCEL等: "Joint attention by gaze interpolation and saliency", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
杨磊: "基于视觉显著性的物体定位方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
谷继力: "视觉注意机制研究及其在行人检测中的应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414307A (zh) * 2018-04-26 2019-11-05 沃尔沃汽车公司 用于半自动图像分割和注释的方法和系统
CN110414307B (zh) * 2018-04-26 2023-08-18 沃尔沃汽车公司 用于数字图像分割和注释的方法和系统
CN112543692A (zh) * 2018-08-06 2021-03-23 国立大学法人东京大学 使用于激光加工系统的机器学习方法、模拟装置、激光加工系统以及程序
CN110962828A (zh) * 2019-12-23 2020-04-07 奇瑞汽车股份有限公司 预测电动汽车制动压力的方法和设备

Also Published As

Publication number Publication date
DE102017100198A1 (de) 2017-07-20
US10489691B2 (en) 2019-11-26
US20200050905A1 (en) 2020-02-13
US11087186B2 (en) 2021-08-10
US20210334610A1 (en) 2021-10-28
GB2548456A (en) 2017-09-20
GB201700498D0 (en) 2017-02-22
CN106980813B (zh) 2022-09-20
RU2016152172A (ru) 2018-07-02
US20170206440A1 (en) 2017-07-20
MX2017000692A (es) 2017-10-23
US11847917B2 (en) 2023-12-19

Similar Documents

Publication Publication Date Title
CN106980813A (zh) 机器学习的注视生成
US11488392B2 (en) Vehicle system and method for detecting objects and object distance
Possatti et al. Traffic light recognition using deep learning and prior maps for autonomous cars
CN108082037A (zh) 制动灯检测
CN108571974A (zh) 使用摄像机的车辆定位
DE102017105903A1 (de) Fussgängerdetektion und Bewegungsvorhersage mit nach hinten gerichteter Kamera
CN107808390A (zh) 使用来自单摄像机的数据的对象距离估算
CN106980814A (zh) 用显著性地图的行人检测
CN107914708A (zh) 后方障碍物检测和距离估算
CN107487258A (zh) 盲区检测系统和方法
CN107487333A (zh) 盲区检测系统和方法
CN103886315B (zh) 应用于行人姿势分类的3d人体模型
US11875546B2 (en) Visual perception method and apparatus, perception network training method and apparatus, device and storage medium
KR20190019840A (ko) 물체 검출과 통지를 위한 운전자 보조 시스템 및 방법
CN112613434A (zh) 道路目标检测方法、装置及存储介质
Kühnl et al. Visual ego-vehicle lane assignment using spatial ray features
Valeja et al. Traffic sign detection using Clara and Yolo in python
Hechri et al. Lanes and road signs recognition for driver assistance system
CN108428356B (zh) 一种基于流体密度场的路况图展示及辅助驾驶应用方法
Hanna Vehicle Distance Detection Using Monocular Vision and Machine Learning
TWM538142U (zh) 智慧多功能行車輔助駕駛記錄系統
Srivastava Traffic Light Detection in Autonomous Driving Vehicles
Rani et al. Traffic sign detection and recognition using deep learning-based approach with haze removal for autonomous vehicle navigation
Pandey YOLO-CNN–Deep Learning Approach for Vehicle Speed Detection
Bharadwaj et al. Lane, Car, Traffic Sign and Collision Detection in Simulated Environment Using GTA-V

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant