CN114422688A

CN114422688A - 图像生成方法、装置、电子设备及计算机存储介质

Info

Publication number: CN114422688A
Application number: CN202011177018.0A
Authority: CN
Inventors: 张海滨; 唐俊珂; 丁虎平; 王刚; 黄武陵
Original assignee: Taobao China Software Co Ltd
Current assignee: Taobao China Software Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-04-29

Abstract

本申请实施例提供了一种图像生成方法、装置、电子设备及计算机存储介质，图像生成方法，包括：获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图；对所述待处理子图进行清晰度还原得到目标子图；将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像。通过本申请提供的方案，可以提高视觉感知系统的检测精度，进而提高无人驾驶的安全性，更加便于无人驾驶车辆的推广。

Description

图像生成方法、装置、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种图像生成方法、装置、电子设备及计算机存储介质。

背景技术

由于无人驾驶车辆(比如无人物流卡车、物流机器人、无人乘用车等)需要在道路上自主行驶，因此，无人驾驶车辆通常需要具备视觉感知能力(相当于人类驾驶员的眼睛)，视觉感知既需要能够感知近处的道路环境信息，也需要能够感知远处的道路环境信息，诸如红绿灯状态、交通标志信息、是否有障碍物等。

目前无人驾驶车辆的视觉感知系统一般基于视觉传感器(如可变焦距相机或者定焦相机)拍摄的道路环境图像感知道路环境，但受限于视觉传感器自身的性能或无人驾驶车辆的制造成本，无法通过低成本的视觉传感器实现同一帧图像将近处和远处的对象均清晰成像，这使得无人驾驶车辆的视觉感知能力不足，进而导致无人驾驶车辆的应用和推广受到限制。

发明内容

有鉴于此，本申请实施例提供一种图像生成方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种图像生成方法，包括：获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图；对所述待处理子图进行清晰度还原得到目标子图；将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像。

根据本申请实施例的第二方面，提供了一种图像生成装置，包括：位置信息获取模块，用于获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；第一子图获取模块，用于基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图；第二子图获取模块，用于对所述待处理子图进行清晰度还原得到目标子图；合成模块，用于将所述目标子图与所述第k帧图像合成，得到第k帧的输出图像。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的图像生成方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的图像生成方法。

根据本申请实施例提供的图像生成方案，本实施例提供的方案，通过获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；基于所述像素区域位置范围，从所述第k图像帧中获取待处理子图；对所述待处理子图进行清晰度还原得到目标子图；将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像，由于第k帧的输出图像中的感兴趣对象对应的待处理子图进行了清晰度还原处理，所以可以提高感兴趣对象在输出图像中的清晰度，且并未增加采集图像成本。无人驾驶车辆的视觉感知系统，基于输出图像可以准确获得车辆前方的感兴趣对象(障碍物、红绿灯)等所在的距离和位置，因此，基于本方案，可以进一步提高视觉感知系统的检测精度，进而提高无人驾驶车辆的安全性，更加便于无人驾驶车辆的推广。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为本申请实施例一的一种图像生成方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2为本申请实施例二的一种图像生成方法的步骤流程图；

图3A为本申请实施例三的一种图像生成方法的步骤流程图；

图3B为一种镜头的FOV和可视距离趋势关系图；

图3C为本申请实施例三的一种使用场景的图像生成装置的结构框图；

图3D为本申请实施例三的一种使用场景的图像生成装置执行的步骤流程示意图；

图4为本申请实施例四的一种图像生成装置的结构框图；

图5为本申请实施例五的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

图1A为本申请实施例一的一种图像生成方法的步骤流程图，如图所示，方法包括：

步骤S101、获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

为更清楚地说明本申请方案，以下结合无人驾驶场景对本方案进行说明，需要说明的是无人驾驶场景的举例不应视为对本申请应用场景的限制，本申请提供的方案可以适用于任何需要图像处理的场景，包括但不限于针对手机、行车记录仪等设备采集图像的处理。

本实施例中，通过无人驾驶车辆上搭载的视觉传感器采集图像，其中，k为整数，搭载的视觉传感器为相机。

在无人驾驶场景中，视距(sight distance)为车辆正常行驶中，从驾驶位置(或者相机镜头位置)清楚能看到的位于车辆前方的障碍物、交通设施或路面标记等对象的距离。针对相机采集的图像而言，一帧图像通常可以拍摄到多个对象，此时，视距是指相机采集该帧图像时相机镜头到相应对象的距离，由于不同对象到镜头的距离不同，因此，能够拍摄清楚该对象的视距也不相同。

以相机的镜头为定焦镜头为例，定焦镜头的固有属性是有限视距，受焦距的影响，对象对应的视距与焦距越接近，成像时的清晰度越高。由于定焦镜头的这一特性，导致使用定焦镜头采集图像时，同一帧图像会出现部分对象成像清晰，而部分对象成像不清晰。

例如，距离镜头较远的红绿灯，由于其视距在定焦镜头的焦距外，因此在第k帧图像中的红绿灯的成像十分模糊、清晰度不足，后续无人驾驶车的决策系统如果直接使用第k帧图像进行驾驶决策，则难以从第k帧图像中准确地获得(感知)红绿灯的状态(如是否是红灯)，进而造成无法对行驶环境进行正确判断。

为了解决使用定焦镜头的无人驾驶车辆的视觉感知能力不足，导致无人驾驶车的行驶安全性降低的问题，本实施例中，获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围，以便后续对感兴趣对象覆盖的像素区域位置范围对应的图像进行处理，从而使感兴趣对象对应的图像的清晰度更高，以方便后续进行决策。

为了便于描述，感兴趣对象覆盖的像素区域可以称为第k帧图像中包括感兴趣对象的感兴趣区域(region of interest，RIO)。感兴趣对象可以是红绿灯、行人、障碍物等等。

第k帧图像中的感兴趣区域的位置范围可以通过高精度地图的方式获得。例如，基于高精度地图的信息，确定车辆前方存在的感兴趣对象、以及感兴趣对象与车辆之间的空间距离，基于空间距离和车辆上安装的定焦镜头的焦距，可以确定感兴趣对象在第k帧图像中的成像位置，该成像位置即为感兴趣对象对应的感兴趣区域的位置范围，也就是感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

或者，也可以基于第k-1帧的输出图像中相同的感兴趣对象对应的感兴趣区域确定，本实施例对此不作限制。

需要说明的是，像素区域位置范围可以采用其在第k帧图像中坐标的方式表示，如起点坐标为(x1,y1)、终点坐标为(x2,y2)，也可以采用其包含的起始像素的像素ID和终点像素的像素ID的方式表示。

步骤S102、基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图。

根据像素区域位置范围，可以从第k帧图像中截取出像素区域位置范围对应的图像作为待处理子图。

示例的，像素区域位置范围可以表示为：左上角坐标为(10，10)，右下角坐标为(20,20)，基于此坐标可以从第k帧图像中截取出对应的图像作为待处理子图，或者，基于此坐标确定像素区域位置范围包含的像素，然后从相机中读取中这些像素的信息(如像素的颜色信息)，并根据读取出的像素的信息确定待处理子图。

步骤S103、对所述待处理子图进行清晰度还原得到目标子图。

可以通过双立方插值算法或者基于神经网络的深度学习方法等超分辨率复原算法，对所述待处理子图进行清晰度还原，本实施例对此不进行限定。

需要说明的是，在一种可行方式中，步骤S102和步骤S103可以串行执行，也就是，在获得完整的待处理子图之后，对其进行清晰度还原。

在另一种可行方式中，步骤S102和步骤S103可以并行执行，也就是在步骤S102中读出像素的信息获得待处理子图的过程中同时基于读出的像素的信息进行清晰度还原，这样可以实现以像素为单位的处理，从而提高处理速率，减少对所述待处理子图进行清晰度还原得到目标子图所需的时间，大大提升图像处理效率。

例如，自动驾驶系统中可以设置并行的第一进程和第二进程，第一进程用于读取待处理子图中的像素的信息，第二进程从第一进程得到读出的像素的信息，并对其进行清晰度还原，并得到目标子图。目标子图中的感兴趣对象的清晰度优于待处理子图中感兴趣对象的清晰度。

步骤S104、将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像。

例如，将目标子图与第k帧图像中的剩余图像进行合成，得到第k帧的输出图像。其中，剩余图像是指第k帧图像中除感兴趣对象覆盖的像素区域外的图像。

在第k帧的输出图像中，不同视距的物体都具有清晰的成像，这样就实现了使用具有定焦镜头的相机采集图像时，同一曝光帧不同视距物体的实时清晰成像的效果，既节省了成本，又保证了成像效果。

下面通过一种具体的使用场景，对本实施例的方案进行示例性说明。

示例的，如图1B所示，在车辆A行驶过程中，设定在第k时刻，车辆A前方包括有红绿灯、路障等对象。安装于车辆A的具有定焦镜头的相机可以对车辆A前方的景象进行采集，在k时刻获得了第k帧图像，其中，由于路障在定焦镜头的焦距上，因此第k帧图像中路障的成像是清晰的，而红绿灯由于与定焦镜头之间的距离过远，导致在第k帧图像中红绿灯的成像是模糊的，清晰度不足。

在本使用场景中，感兴趣对象为红绿灯，基于车辆A的定位，通过高精度地图的方式可以确定红绿灯与车辆A之间的距离，也就是确定了红绿灯与车辆A上的定焦镜头之间的距离，进而可以确定第k帧图像中红绿灯覆盖的像素区域位置范围(即图1B中虚线框围成的区域)。

基于该像素区域位置范围，从第k帧图像中获得待处理子图。需要说明的是，一种获得待处理子图的方式是：在相机完成曝光后，从相机中读取第k帧图像的各个像素的信息的过程中，在读取到像素区域位置范围包含的像素时即认为开始获得待处理子图，在获得待处理子图的过程中可以同步进行清晰度还原，即每读取到一个待处理子图中的像素就对该像素进行清晰度还原，这样在读取完所有待处理子图的像素时，也可以同步完成清晰度还原，并获得目标子图，此处的同时应理解为时延小于设定值(如1ms、10ms等)。这样获得的目标子图中红绿灯的清晰程度较好。

进行清晰度还原得到目标子图后，将目标子图与第k帧图像中剩余图像进行合成可以获得第k时刻的输出图像，第k时刻的输出图像中包括路障和红绿灯的清晰成像。

本实施例提供的方案，通过获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；基于所述像素区域位置范围，从所述第k图像帧中获取待处理子图；对所述待处理子图进行清晰度还原得到目标子图；将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像，由于第k帧的输出图像中的感兴趣对象对应的待处理子图进行了清晰度还原处理，所以可以提高感兴趣对象在输出图像中的清晰度，且并未增加采集图像成本。无人驾驶车辆的视觉感知系统，基于输出图像可以准确获得车辆前方的感兴趣对象(障碍物、红绿灯)等所在的距离和位置，因此基于本方案，可以进一步提高视觉感知系统的检测精度，进而提高无人驾驶车辆的安全性，更加便于无人驾驶车辆的推广。

本实施例提供的方案可以由任意适用于无人驾驶车辆的电子设备执行，例如安装于无人驾驶车辆内部的芯片、与无人驾驶车辆通信连接的手机、电脑等。

实施例二

图2为本申请实施例二的一种图像生成方法的步骤流程图。图像生成方法包括前述的步骤S101～步骤S104。

本实施例中，以通过视觉传感器采集图像，也即所述第k帧图像通过视觉传感器采集为例进行说明。

优选地，所述视觉传感器可以包括定焦镜头，例如为包括定焦镜头的相机。这种相机与配置有机械变焦镜头的相机相比，其配置的定焦镜头对于车体结构要求较低，对于车载震动环境适应性高，另外价格较低，可以降低自动驾驶车辆的成本。

针对第k帧图像是通过视觉传感器采集的情况，若感兴趣对象是地理要素，则在第一种实现方式中，步骤S101可以实现为：基于电子地图数据中记录的所述地理要素的经纬度坐标，获得的采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的像素区域位置范围，所述地理要素的经纬度坐标的精度达到预设的精度条件。

地理要素可以为具有较为固定位置的要素，例如建筑物、道路旁的交通设施(如红绿灯或者指路牌等)等。

电子地图数据中记录有地理要素的经纬度坐标，从而可以直接根据电子地图查找到对应的地理要素的经纬度坐标。

地理要素的经纬度坐标的精度达到的预设的精度条件可以是米级、分米级、厘米级等等。为了确保像素区域位置范围的定位精度，在本实施例中，电子地图数据可以是高精度地图数据，其可以实现厘米级或者厘米级以下的定位，也就是说，地理要素的经纬度坐标可以满足厘米级的精度条件。

高精度地图中除包括道路信息之外还包括与交通相关的周围地理要素的信息，地理要素可以包括道路上障碍物、红绿灯、指示牌等，地理要素的信息可以是其经纬度坐标等。

本实施例中，视觉传感器的定位位置可以根据车辆的定位确定，或者可以采用高精度地图的方式确定。

视觉传感器的姿态可以基于其上配置的陀螺仪等确定。

基于视觉传感器的定位位置，结合电子地图数据中记录的地理要素的经纬度坐标中，确定位于视觉传感器的拍摄范围内的地理要素，进而也可以确定地理要素与视觉传感器之间的距离，再结合视觉传感器的姿态以及视觉传感器中定焦镜头的焦距等，就可以估计出地理要素在第k帧图像中覆盖的像素区域位置范围。

在此过程中，由于电子地图数据中地理要素的经纬度坐标的精度足够高，因此据此估计出的地理要素在第k帧图像中覆盖的像素区域位置范围的精度也会较高。

在第二种实现方式中，为了进一步提升像素区域位置范围的准确性，步骤S101还可以包括下述的子步骤：

子步骤S1011、基于对第k-1帧的输出图像进行感兴趣对象检测获得的像素区域位置范围，预测所述感兴趣对象在第k帧图像中的预测像素区域位置范围及预测置信度。

例如，使用训练的神经网络模型模型对第k-1帧的输出图像进行检测，以获得其中的感兴趣对象对应的像素区域位置范围，同时神经网络模型可以输出与检测的像素区域位置范围对应的置信度(记作tg)，该置信度就可以作为预测置信度。

基于检测的像素区域位置范围可以预测出感兴趣对象在第k帧图像中覆盖的预测像素区域位置范围(记作左上角点(xg1，yg1)和右下角点(xg2，yg2))。由于第k-1帧的输出图像中的感兴趣对象经过清晰度还原，因此使得检测的准确性更高，从而保证预测出的感兴趣对象在第k帧图像中的预测像素区域位置范围的准确度。

具体地，获得预测像素区域位置范围的方式可以是：将第k-1帧的输出图像中检测出的像素区域位置范围与第k-1帧到第k帧之间的帧间位移修正值(也可称为帧间位移矢量)求和，获得第k帧图像对应的预测像素区域位置范围。

其中，第k-1帧到第k帧之间的帧间位移修正值由感兴趣对象在第k-2帧的输出图像中覆盖的像素区域位置范围和其在第k-1帧的输出图像中覆盖的像素区域位置范围的差确定。

子步骤S1012、基于电子地图数据中记录的所述地理要素的经纬度坐标、获得采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的目标像素区域位置范围和目标置信度。

具体地，电子地图可以为高精度地图。在确定目标像素区域位置范围和目标置信度时可以采用匹配模型确定，匹配模型可以通过电子地图数据中的地理要素的经纬度坐标等数据训练获得。

例如，将第k帧图像和视觉传感器的定位位置、姿态等数据作为输入数据输入匹配模型中，使匹配模型根据输入数据匹配出感兴趣对象在第k帧图像中覆盖的目标像素区域位置范围(记作左上角点(xd1，yd1)和右下角点(xd2，yd2))，同时输出目标置信度(记作td)。

子步骤S1013、根据所述预测置信度和所述目标置信度，从所述预测像素区域位置范围和所述目标像素区域位置范围中确定所述感兴趣对象在所述第k帧图像中覆盖的像素区域位置范围。

在一具体实现中，选择预测置信度和目标置信度中置信度较高的一个对应的像素区域位置范围作为感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

例如，若预测置信度高于目标置信度，则以预测像素区域位置范围作为感兴趣对象在第k帧图像中覆盖的像素区域位置范围。反之亦然。

通过这种方式，在感兴趣对象是地理要素时可以准确地确定感兴趣对象在第k帧中覆盖的像素区域位置范围，从而保证了获得的待处理子图的准确性，进而保证了清晰度还原的效果，使得第k帧的输出图像中能够包含清晰的感兴趣对象的图像，实现了在同一曝光帧中清晰地成像出不同视距的对象的效果。

实施例三

图3A示出了本申请的实施例三的图像生成方法的步骤流程图。图像生成方法包括：

步骤S301：获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

在感兴趣对象是非地理要素时，步骤S301可以实现为：获取预设的非地理要素在第k帧图像中覆盖的像素区域位置范围。

非地理要素可以为道路上的行人、车辆等位置不固定的要素。

当感兴趣对象为非地理要素时，由于其位置不固定，因此可以根据该非地理要素在不同帧图像中覆盖的像素区域位置范围估计其在第k帧图像中覆盖的像素区域位置范围。

例如采用前述的实施例二中的子步骤S1011中的方式确定。由于第k-1帧的输出图像中的感兴趣对象已经进行清晰度还原，因此保证了检测出的像素区域位置范围的准确性，进而确保了对感兴趣对象在第k帧图像中覆盖的像素区域位置范围进行预测的准确性。

或者，在本实施例中，可以不区分感兴趣对象是地理要素或者非地理要素，步骤S301可以包括以下子步骤：

子步骤S3011、基于第k-1帧的输出图像和第k-2帧的输出图像，确定感兴趣对象的帧间位移修正值。

由于车辆的运动轨迹是连续的，因此，车辆的视觉传感器采集的多帧图像中，感兴趣对象的位置变化也是连续的。基于此原理，可以基于第k-1帧的输出图像和第k-2帧的输出图像，确定所述感兴趣对象的帧间位移修正值。

帧间位移修正值用于指示由于视觉传感器相对感兴趣对象的位移而导致的相邻两帧图像中感兴趣对象覆盖的像素区域位置范围的变化。

帧间位移修正值可以是感兴趣对象在第k-2帧的输出图像中覆盖的像素区域位置范围与其在第k-1帧的输出图像中覆盖的像素区域位置范围的差。由于这两个像素区域位置范围都是已知的，因此可以十分方便地计算出帧间位移修正值。又由于视觉传感器采集相邻两帧图像的时间间隔很短，因此感兴趣对象和视觉传感器之间的相对速度对帧间位移修正值的影响较小，由此保证了帧间位移修正值的准确性。

子步骤S3012、基于第k-1帧的输出图像中感兴趣对象覆盖的像素区域位置范围和所述帧间位移修正值，得到所述感兴趣对象的第k帧图像中覆盖的像素区域位置范围。

前述的实施例二中已经说明了第k-1帧的输出图像中感兴趣对象覆盖的像素区域位置范围的确定方式，故在此不再赘述。

通过将第k-1帧的输出图像中感兴趣对象覆盖的像素区域位置范围与帧间位移修正值求和就可以得到感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

例如，对第k-1帧的输出图像进行感兴趣对象的检测，确定红绿灯覆盖的像素区域位置范围中左上角点为(x，y)；根据k-1帧的输出图像和第k-2帧的输出图像中红绿灯覆盖的像素区域位置范围，确定红绿灯的成像区域的帧间位移修正值为横坐标增加10像素、纵坐标减少10像素，则可以确定感兴趣对象在第k帧图像中覆盖的像素区域位置范围的左上角点表示为(x+10，y-10)。

通过这种方式，不论感兴趣对象是地理要素或者非地理要素，均可以准确地确定出其覆盖的像素区域位置范围，因而其适应性更好。

步骤S302、基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图。

一种可行方式中，可以在从视觉传感器中读出完整的第k帧图像后从第k帧图像中截取出像素区域位置范围指示的部分图像作为待处理子图。

或者，在另一种可行方式中，在从视觉传感器中读取第k帧图像的像素的信息的过程中，在读取到像素区域位置范围包含的像素时就确定开始获得待处理子图，在此同时，可以执行步骤S303。

步骤S303、对所述待处理子图进行逐像素的清晰度还原处理，得到目标子图。

具体地，可以依次读取出第k帧图像的各个像素，以确定第k帧图像对应的数字图像。例如，第k帧图像为300*500像素的图片，则可以以左上角为起始像素，逐个像素进行读取，直至300*500个像素读取完成。

本实施例中，当读取到位于像素区域位置范围内的像素时，对读取出的像素进行清晰度还原处理，这样保证了在读取像素的过程中可以同步进行清晰度还原处理，减少了处理占用的时间，提升了时间利用率。

在完成对待处理子图中的每个像素的清晰度还原处理后获得目标子图。

例如，像素区域位置范围可以为：以第k帧图像左下角像素为坐标原点建立直角坐标系，像素区域位置范围的左下角坐标为(200,100)，右上角坐标为(230,160)。

在从视觉传感器中读取出第k帧图像的各个像素时，可以以从左下角开始，按行读取；在读取到第100行第200个像素时，即读取到待处理子图对应的像素，对该像素进行清晰度还原处理，读取完该像素可以继续读取下一个像素，直至获得目标子图。

步骤S304、将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像。

本步骤的具体实现方式可参考上述实施例，在此不再赘述。

通过这种方式可以在读出第k帧图像的过程中进行清晰度还原处理，使得可以快速地获得包括不同视距物体的清晰成像的第k帧的输出图像。

本实施例提供的方案可以由任意适用于无人驾驶车辆的电子设备执行，例如安装于车辆内部的芯片、与车辆通信连接的手机、电脑等。

下面结合一具体使用场景对方法的实现过程进行说明：

在本使用场景中，方法可以通过安装在车辆上的图像生成装置执行，该图像生成装置可以是能够实现对应功能的芯片或电路等。本使用场景中的通过下述步骤获得第k帧的输出图像。

在本使用场景中，通过包含定焦镜头的视觉传感器进行图像采集，获得第k帧图像。

本领域的技术人员可以根据自动驾驶对清晰成像距离要求以及根据视觉传感器的像素分辨率等，选择合适焦距的定焦镜头。

像素分辨率确定的情况下，镜头视场(field of view，FOV)和可视距离趋势关系如图3B所示，当FOV为f1时，可视距离为d1，当FOV增大至f2时，可视距离减小至d2。镜头水平FOV是指水平方向上能拍摄到的最大视场范围。根据图3B可知ROI清晰成像距离要求越高、可视距离越大、镜头水平FOV越小。

获得的第k帧图像的像素的信息存储在视觉传感器(即图3C中所示定焦相机)中。从视觉传感器读出像素的信息，并形成一帧图像输出的过程即为曝光的过程。在本使用场景中为了使得曝光出的第k帧的输出图像中包含不同视距的物体的清晰成像，如图3D所示，图像生成装置执行下述步骤：

S1、基于电子地图数据中记录的所述地理要素的经纬度坐标、获得采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的目标像素区域位置范围和目标置信度td。

图像生成装置的第一候选获取单元执行步骤S1，以获得目标像素区域位置范围(为了便于描述以左上角点的坐标表示(xd，yd))和对应的目标置信度td。

具体地，电子地图可以为高精度地图，匹配模型可以基于高精度地图中地理要素的经纬度坐标训练。通过将采集第k帧图像时视觉传感器的姿态和定位位置作为输入数据输入到匹配模型，匹配模型基于输入数据输出感兴趣对象在第k帧图像中覆盖的目标像素区域位置范围(xd，yd)及相应的目标置信度td。

第一候选获取单元输出目标像素区域位置范围和目标置信度输出到图像生成装置的位置信息获取子单元中。

S2、基于对第k-1帧的输出图像进行感兴趣对象检测获得的像素区域位置范围，预测所述感兴趣对象在第k帧图像中的预测像素区域位置范围及预测置信度。

图像生成装置的第二候选获取单元执行步骤S3，以获得预测像素区域位置范围和预测置信度。

其中，预测像素区域位置范围基于帧间位移修正值和第k-1帧的输出图像中感兴趣对象覆盖的像素区域位置范围确定。

帧间位移修正值基于第k-1帧的输出图像和第k-2帧的输出图像确定。

具体地，通过如深度学习、机器学习或传统特征检测方法等，对第k-1帧输出图像和第k-2帧的输出图像进行感兴趣对象检测(例如检测红绿灯、障碍物等)，获得第k-1帧输出图像中的感兴趣对象覆盖的像素区域位置范围，以及第k-2帧的输出图像中感兴趣对象覆盖的像素区域位置范围，再将两者求差即可得到帧间位移修正值。

或者可以通过如光流匹配或基于运动估计匹配等方法，对第k-1帧的输出图像以及第k-2帧的输出图像中的感兴趣对象进行信息融合，预测得到感兴趣对象的帧间位移修正值。

感兴趣对象在第k-1帧的输出图像中覆盖的像素区域位置范围可以通过对其进行感兴趣对象检测的方式获得，同时感兴趣对象检测时也会输出相应的置信度，可以将其作为预测置信度。

基于帧间位移修正值和第k-1帧的输出图像中的感兴趣对象覆盖的像素区域位置范围预测像素区域位置范围(为了便于描述以其左上角点坐标表示(xg,yg))。

具体纠正公式可以如下：

(x_d,k,y_d,k)＝(x_d,k-1,y_d,k-1)+(Δx_k,k-1,Δy_k,k-1)

其中，(x_d,k,y_d,k)表示第k帧图像中的预测像素区域位置范围的左上角点的坐标，(x_d,k-1,y_d,k-1)表示第k-1帧输出图像中感兴趣对象覆盖的像素区域位置范围的左上角点的坐标，(Δx_k,k-1,Δy_k,k-1)表示第k-1帧到第k帧感兴趣对象的帧间位移修正值。

第二候选获取单元获得的预测像素区域位置范围和预测置信度可以输出到位置信息获取子单元中。

S3、根据预测置信度和目标置信度，从预测像素区域位置范围和目标区域位置范围中确定感兴趣对象在第k帧图像覆盖的像素区域位置范围。

位置信息获取子单元基于预测置信度和目标置信度，确定像素区域位置范围。

具体过程可表示为上述两个置信度的比较过程，具体如下：

其中，(x,y)表示感兴趣对象覆盖的像素区域位置范围的左上角点的坐标，(x_g,y_g)表示预测像素区域位置范围的左上角点的坐标，(x_d,y_d)表示目标像素区域位置范围的左上角点的坐标，t_g表示预测置信度，t_d表示目标置信度。置信度的衡量标准可由本领域的技术人员根据需求确定，本实施例对此不进行限定。

在比较后选取置信度更高的一个对应的像素区域位置范围作为确定的像素区域位置范围，并输出给像素确定单元。

S4、基于像素区域位置信息从读取出的第k帧图像中获得待处理子图，并进行清晰度还原处理，获得第k帧的输出图像。

在本使用场景中，传感器成像输入单元可以从视觉传感器中逐个读取出其采集的第k帧图像的像素的信息。传感器成像输入单元可以对读出的像素的信息进行图像处理然后输出给像素确定单元和图像帧获取单元等。图像处理可以根据需要确定，但不包括缩放、水印叠加等引起第k帧图像内容变化的操作。

像素确定单元根据像素区域位置范围确定对应的像素ID。传感器成像输入单元在读取到需要的像素时，将这些像素传输给像素确定单元，像素确定单元确定获得待处理子图，并由将待处理子图中的像素输出给复原处理子单元进行清晰度还原处理，复原处理子单元将清晰度还原处理获得的目标子图，并输出给图像帧获取单元。

而对于传感器成像输入单元读取到的非像素确定单元需要的像素可以直接输出给图像帧获取单元，由图像帧获取单元将这些像素与目标子图中的像素进行合并，形成第k帧的输出图像，并传输给图像输出单元，由图像输出单元输出到视频编码器。

具体地，以像素为单位，依次读取第k帧图像的各个像素Pixel，在T0时刻，读取出待处理子图中的第一个像素即Pixel start，此时对其进行像素清晰度还原处理，同时可以并行执行读取像素的操作，例如在对Pixel start进行像素清晰度还原处理的同时，并行执行读取像素Pixel start+1的操作。像素清晰度还原处理可以是超分辨率复原等图像处理方法。

在对待处理子图中的所有像素都进行清晰度还原处理并获得目标子图后，可以将目标子图与剩余部分进行合并。

例如，可以通过下述方式进行合并：

1)将清晰度还原后的目标子图与第k帧图像中清晰度未还原之前的待处理子图重合；

2)将清晰度还原后目标子图左上角点与清晰度未还原之前的待处理子图左上角点重合；

3)将清晰度还原后目标子图右上角点与清晰度未还原之前的待处理子图右上角点重合；

4)将清晰度还原后目标子图左下角点与清晰度未还原之前的待处理子图左下角点重合；

5)将清晰度还原后目标子图右下角点与清晰度未还原之前的待处理子图右下角点重合等等。

此外，还可以将清晰度还原后目标子图在第k帧图像的消隐期间以有效图像数据的方式输出。

本使用场景中，用一颗定焦镜头在同一曝光时刻(对应第k帧图像)实现远处(感兴趣对象所在的视距范围)和近处(定焦镜头能够清晰成像的视距范围)视场范围同时清晰成像(对应第k帧输出图像)，在低成本的同时提升感知系统目标检测精度，进一步提升了无人驾驶安全性。

本实施例提供的方案可以由任意适用于无人驾驶车辆的电子设备执行，例如安装于无人驾驶车辆内部的芯片、与无人驾驶车辆通信连接的手机、电脑等。此外，对于在无人驾驶车辆上使用的用于执行上述图像生成方法的图像生成装置可以是FPGA、ASIC、GPU等，或是由以上两类及两类以上芯片合成的多芯片装置。

实施例四

图4为本申请实施例四的一种图像生成装置的结构框图，如图所示，其包括：

位置信息获取模块401，用于获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；

第一子图获取模块402，用于基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图；

第二子图获取模块403，用于对所述待处理子图进行清晰度还原得到目标子图；

合成模块404，用于将所述目标子图与所述第k帧图像合成，得到第k帧的输出图像。

可选地，所述感兴趣对象为地理要素，所述位置信息获取模块401用于基于电子地图数据中记录的所述地理要素的经纬度坐标、获得的采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的像素区域位置范围，所述地理要素的经纬度坐标的精度达到预设的精度条件。

可选地，感兴趣对象为非地理要素，位置信息获取模块401用于获取预设的非地理要素在第k帧图像中覆盖的像素区域位置范围。

可选地，所述位置信息获取模块401用于基于第k-1帧的输出图像和第k-2帧的输出图像，确定感兴趣对象的帧间位移修正值；基于所述第k-1帧的输出图像中所述感兴趣对象覆盖的像素区域位置范围和所述帧间位移修正值，得到所述感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

可选地，所述感兴趣对象为地理要素，位置信息获取模块401包括：

第一获取模块4011，用于基于对第k-1帧的输出图像进行感兴趣对象检测获得的像素区域位置范围，预测所述感兴趣对象在第k帧图像中的预测像素区域位置范围及预测置信度；

第二获取模块4012，用于基于电子地图数据中记录的所述地理要素的经纬度坐标、获得采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的目标像素区域位置范围和目标置信度；

第三获取模块4013，用于根据所述预测置信度和所述目标置信度，从所述预测像素区域位置范围和所述目标像素区域位置范围中确定所述感兴趣对象在所述第k帧图像中覆盖的像素区域位置范围。

可选地，所述第二子图获取模块403用于对述待处理子图进行逐像素清晰度还原处理，得到目标子图。

可选地，所述图像通过视觉传感器采集，所述视觉传感器包括定焦镜头。

本申请实施例的图像生成装置用于实现前述多个方法实施例中相应的图像生成方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的图像生成装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

参照图5，示出了根据本申请实施例五的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述图像生成方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510中各步骤的具体实现可以参见上述图像生成方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的图像生成方法。此外，当通用计算机访问用于实现在此示出的图像生成方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的图像生成方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种图像生成方法，包括：

获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；

基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图；

对所述待处理子图进行清晰度还原得到目标子图；

将所述目标子图与所述第k帧图像进行合成，得到第k帧的输出图像。

2.根据权利要求1所述的方法，其中，所述感兴趣对象为地理要素，所述获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围，包括：

基于电子地图数据中记录的所述地理要素的经纬度坐标、获得的采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的像素区域位置范围，所述地理要素的经纬度坐标的精度达到预设的精度条件。

3.根据权利要求1所述的方法，其中，所述感兴趣对象为非地理要素，所述获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围，包括：

获取预设的非地理要素在第k帧图像中覆盖的像素区域位置范围。

4.根据权利要求1所述的方法，其中，所述获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围，包括：

基于第k-1帧的输出图像和第k-2帧的输出图像，确定感兴趣对象的帧间位移修正值；

基于所述第k-1帧的输出图像中所述感兴趣对象覆盖的像素区域位置范围和所述帧间位移修正值，得到所述感兴趣对象在第k帧图像中覆盖的像素区域位置范围。

5.根据权利要求1所述的方法，其中，所述感兴趣对象为地理要素，所述获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围，包括：

基于对第k-1帧的输出图像进行感兴趣对象检测获得的像素区域位置范围，预测所述感兴趣对象在第k帧图像中的预测像素区域位置范围及预测置信度；

基于电子地图数据中记录的所述地理要素的经纬度坐标、获得采集所述第k帧图像时视觉传感器的姿态和定位位置，确定所述地理要素在第k帧图像中覆盖的目标像素区域位置范围和目标置信度；

根据所述预测置信度和所述目标置信度，从所述预测像素区域位置范围和所述目标像素区域位置范围中确定所述感兴趣对象在所述第k帧图像中覆盖的像素区域位置范围。

6.根据权利要求1-5中任一项所述的方法，其中，所述对所述待处理子图进行清晰度还原得到目标子图，包括：

对所述待处理子图进行逐像素的清晰度还原处理，得到目标子图。

7.根据权利要求1-5中任一项所述的方法，其中，所述图像通过视觉传感器采集，所述视觉传感器包括定焦镜头。

8.一种图像生成装置，包括：

位置信息获取模块，用于获取感兴趣对象在第k帧图像中覆盖的像素区域位置范围；

第一子图获取模块，用于基于所述像素区域位置范围，从所述第k帧图像中获取待处理子图；

第二子图获取模块，用于对所述待处理子图进行清晰度还原得到目标子图；

合成模块，用于将所述目标子图与所述第k帧图像合成，得到第k帧的输出图像。

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的图像生成方法对应的操作。

10.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一所述的图像生成方法。