CN113793393A - 基于注意力机制的无人车多分辨率视频生成方法和装置 - Google Patents
基于注意力机制的无人车多分辨率视频生成方法和装置 Download PDFInfo
- Publication number
- CN113793393A CN113793393A CN202111144966.9A CN202111144966A CN113793393A CN 113793393 A CN113793393 A CN 113793393A CN 202111144966 A CN202111144966 A CN 202111144966A CN 113793393 A CN113793393 A CN 113793393A
- Authority
- CN
- China
- Prior art keywords
- image
- real
- attention
- time
- partition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005192 partition Methods 0.000 claims abstract description 62
- 239000002131 composite material Substances 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0117—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及基于注意力机制的无人车多分辨率视频生成方法和装置,该方法包括:根据方向盘转角和车辆动力学模型得到预测轨迹;将预测轨迹标注在空白图像中得到注意力图像;根据注意力图像中像素点与预测轨迹得到实际距离,根据实际距离生成注意力掩码图像;获取无人车摄像机采集的实时图像,按照预设比率进行降采样得到不同分辨率的降采样实时图像;注意力掩码图像、实时图像以及降采样实时图像的尺寸一致;以各分区像素值为索引,将实时图像和降采样实时图像填充至注意力掩码图像得到合成图像;根据合成图像输出实时的视频流数据。采用本方法能够占用相对较少的带宽而又可以采集比较清晰的图像。
Description
技术领域
本申请涉及无人车技术领域,特别是涉及一种基于注意力机制的无人车多分辨率视频生成方法和装置。
背景技术
随着人工智能领域的发展,出现了无人车技术。无人车技术依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆,目前已经应用在越来越多的场合中。
但是,现有的无人车在采集图像时,一般使用广角镜头或者高清镜头。使用广角镜头可以采集更广泛的视角,但是不仅占用了很多的带宽,而且图像不够清晰;而使用高清镜头可以采集更清晰的图像,但也占用了很多的带宽;并且,广角镜头和高清镜头的价格昂贵,性价比不高。
发明内容
基于此,有必要针对上述技术问题,提供一种基于注意力机制的无人车多分辨率视频生成方法,能够占用相对较少的带宽而又可以采集比较清晰的图像。
基于注意力机制的无人车多分辨率视频生成方法,包括:
获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
将所述预测轨迹标注在预先设置的空白图像中,得到注意力图像;
根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像;所述注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
获取无人车上安装的摄像机采集的实时图像,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,所述注意力掩码图像、所述实时图像以及所述降采样实时图像的尺寸一致;
根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像;其中,与所述预测轨迹距离越近的分区,填充的图像的分辨率越大;
根据所述合成图像,输出实时的视频流数据。
在其中一个实施例中,所述注意力掩码图像包括三个分区;对所述实时图像分别按照2*2和3*3的比率进行降采样,得到分辨率分别为实时图像分辨率1/4和1/9的两个降采样实时图像。
在其中一个实施例中,根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像包括:
根据分区与预测轨迹的距离,建立所述分区与所述实时图像,以及所述分区与所述降采样实时图像的对应关系;其中,与预测轨迹的距离越近的分区,与所述分区对应的所述实时图像或所述降采样实时图像的分辨率越大;
对所述注意力掩码图像进行逐行逐列扫描,判断扫描的像素值,根据所述像素值的大小,确定分区,根据所述分区,将对应的图像填充至注意力掩码图像,扫描完成得到合成图像。
在其中一个实施例中,根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像包括:
对所述注意力图像中的像素点,通过摄像机标定得到的标定矩阵,确定车体坐标系中的对应点;
在车体坐标系中,计算所述对应点与预测轨迹之间的实际距离;
根据所述实际距离生成注意力掩码图像。
在其中一个实施例中,在输出实时的视频流数据之前,还包括:
将所述合成图像利用平滑的方法进行处理。
在其中一个实施例中,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,包括:
对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,并且将所述降采样实时图像进行尺寸放大,以使所述降采样实时图像的尺寸与所述实时图像的尺寸一致。
在其中一个实施例中,所述摄像机采集实时图像可以通过USB、网络、GMSL或FPDLINK接口。
基于注意力机制的无人车多分辨率视频生成装置,包括:
预测轨迹获得模块,用于获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
注意力图像获得模块,用于将所述预测轨迹标注在预先设置的空白图像中,得到注意力图像;
掩码图像获得模块,用于根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像;所述注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
图像处理模块,用于获取无人车上安装的摄像机采集的实时图像,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,所述注意力掩码图像、所述实时图像以及所述降采样实时图像的尺寸一致;
合成图像获得模块,用于根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像;其中,与所述预测轨迹距离越近的分区,填充的图像的分辨率越大;
视频流输出模块,用于根据所述合成图像,输出实时的视频流数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
将所述预测轨迹标注在预先设置的空白图像中,得到注意力图像;
根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像;所述注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
获取无人车上安装的摄像机采集的实时图像,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,所述注意力掩码图像、所述实时图像以及所述降采样实时图像的尺寸一致;
根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像;其中,与所述预测轨迹距离越近的分区,填充的图像的分辨率越大;
根据所述合成图像,输出实时的视频流数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
将所述预测轨迹标注在预先设置的空白图像中,得到注意力图像;
根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像;所述注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
获取无人车上安装的摄像机采集的实时图像,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,所述注意力掩码图像、所述实时图像以及所述降采样实时图像的尺寸一致;
根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像;其中,与所述预测轨迹距离越近的分区,填充的图像的分辨率越大;
根据所述合成图像,输出实时的视频流数据。
上述基于注意力机制的无人车多分辨率视频生成方法和装置,通过当前的方向盘转角综合车辆的动力学模型,判断无人车的行进趋势,进而得到预测轨迹;在将预测轨迹标注在图像中后,引入了注意力机制,无人车在行驶中,注意力集中在车辆待行驶区域,按照注意力集中度的高低划分不同的分区,并在各个分区按照注意力越集中则图像分辨率越高的原则填充图像,从而可以保证在注意力越高的分区,图像的清晰度越高,因为注意力集中的地方对图像清晰度的要求也最高,所以符合人的观察习惯;填充图像是将无人机采集的图像降采样并放大到原来的尺寸后得到,保证图像的尺寸没变但是信息进行了压缩,并将不同分辨率的图像进行融合叠加,从而保证占用相对较少的带宽但图像也保证了清晰度要求,大大方便了无人车的工作,且方案简单,容易实施。
附图说明
图1为一个实施例中基于注意力机制的无人车多分辨率视频生成方法的流程图;
图2为一个实施例中基于注意力机制的无人车多分辨率视频生成方法的示意图;
图3为一个实施例中基于注意力机制的无人车多分辨率视频生成方法的像素点与对应点的示意图;
图4为一个实施例中基于注意力机制的无人车多分辨率视频生成装置的示意图;
图5为一个实施例中一种计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于注意力机制的无人车多分辨率视频生成方法,在一个实施例中,如图1所示,包括:
步骤102:获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹。
方向盘转角可以通过安装在车辆上的方向盘转角传感器获得。
车辆的预测轨迹是指无人车在未来一段时间内将要行驶的轨迹。
方向盘转角是无人车行进的指示指标,可以用来判断无人车的行进趋势,综合车辆的动力学模型,可以得到车辆的预设轨迹。
步骤104:将预测轨迹标注在预先设置的空白图像中,得到注意力图像。
使用摄像机预先设置一定尺寸的空白图像。
摄像机使用前经过内参数和外参数的标定,具体可以采用传统相机标定法、主动视觉相机标定方法、相机自标定法或零失真相机标定法等实现。
摄像机的标定可以确定标定矩阵,标定矩阵是一个将三维世界中的坐标点映射到二维图像平面的过程的几何模型,表示了摄像机坐标系与车体坐标系之间的转换关系。
在地平面假设条件下,将预测轨迹投影到空白图像上,预测轨迹标记为黑色,从而得到白底黑色轨迹的二值图像,或者预测轨迹标记为白色,从而得到黑底白色轨迹的二值图像,记为注意力图像。
步骤106:根据注意力图像中像素点与预测轨迹,得到实际距离,根据实际距离生成注意力掩码图像;注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同。
对注意力图像中的任意像素点,通过摄像机标定结果即摄像机标定得到的标定矩阵,确定车体坐标系中的对应点;在车体坐标系中,计算对应点与预测轨迹之间的实际距离;根据实际距离,设置该点的像素值,根据像素值的大小,将注意力图像分成不同的分区,生成注意力掩码图像。
注意力掩码图像包括两个以上分区,例如可以设置为两个、三个或其他值,具体可以根据需求和实际情况设置。每个分区都有自己的像素值,分区与像素值一一对应。
注意力掩码图像的分区代表了注意力集中的不同程度,分区是基于人的行为进行的,也就是人的注意力集中在无人车的待行驶区域,即预测轨迹为中心的区域上。
步骤108:获取无人车上安装的摄像机采集的实时图像,对实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,注意力掩码图像、实时图像以及降采样实时图像的尺寸一致。
无人车上安装有摄像机,可以采集实时图像。
预设比率可以设置为x*y,x与y都是正整数且至少一个大于1,则得到的降采样实时图像的分辨率为1/xy。
降采样实时图像的数量为两个以上。
降采样实时图像是经过降采样处理后的图像,因此降采样图像的分辨率比实时图像的分辨率小,且各个降采样实时图像的分辨率彼此不同。
得到降采样实时图像后,将降采样实时图像进行尺寸放大处理,以使降采样实时图像的尺寸与实时图像的尺寸一致,这样就得到了与实时图像的尺寸相同,但是信息进行压缩的图像。
步骤110:根据注意力掩码图像中每个分区的像素值为索引,将实时图像以及降采样实时图像填充至注意力掩码图像,得到合成图像;其中,与预测轨迹距离越近的分区,填充的图像的分辨率越大。
根据注意力掩码图像中每个分区与预测轨迹的距离,建立分区与实时图像,以及分区与降采样实时图像的对应关系;其中,与预测轨迹的距离越近的分区,与分区对应的实时图像或降采样实时图像的分辨率越大,实时图像的分辨率最大,即实时图像对应与预测轨迹距离最近的分区,而降采样实时图像按照分辨率从大到小的顺序,依次对应与预测轨迹距离从大到小的分区并排列在实时图像的两旁。
对注意力掩码图像进行逐行逐列扫描,判断扫描的像素值,根据像素值的大小,确定分区,根据分区,将对应的图像填充至注意力掩码图像上,扫描完成得到合成图像。
步骤112:根据合成图像,输出实时的视频流数据。
具体的,可以利用软件、硬件或其他手段将得到的图像压缩为视频流,例如:采用软件opencv、硬件海思Hi3510压缩芯片或者gstream视频压缩库。视频流可以采用H.264或者其他格式的编码,以方便后续视频流的传输。
上述基于注意力机制的无人车多分辨率视频生成方法和装置,通过当前的方向盘转角综合车辆的动力学模型,判断无人车的行进趋势,进而得到预测轨迹;在将预测轨迹标注在图像中后,引入了注意力机制,无人车在行驶中,注意力集中在车辆待行驶区域,按照注意力集中度的高低划分不同的分区,并在各个分区按照注意力越集中则图像分辨率越高的原则填充图像,从而可以保证在注意力越高的分区,图像的清晰度越高,因为注意力集中的地方对图像清晰度的要求也最高,所以符合人的观察习惯;填充图像是将无人机采集的图像降采样并放大到原来的尺寸后得到,保证图像的尺寸没变但是信息进行了压缩,并将不同分辨率的图像进行融合叠加,从而保证占用相对较少的带宽但图像也保证了清晰度要求,大大方便了无人车的工作,且方案简单,容易实施。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个具体的实施例中,如图2至3所示,注意力掩码图像包括三个分区;对实时图像分别按照2*2和3*3的比率进行降采样,得到分辨率分别为实时图像分辨率1/4和1/9的两个降采样实时图像。
在本实施例中,对无人机上使用的摄像机进行图像标定,确定标定矩阵。
利用接口采集实时图像,表示为图像im,其大小为(w*h),分辨率为原始分辨率。
将实时图像分别按照2*2和3*3比率进行降采样,得到分辨率为实时图像分辨率1/4的图像im1和分辨率为实时图像分辨率1/9的图像im2。
将图像im1和图像im2恢复到实时图像的大小,得到图像im1’和图像im2’。
以当前方向盘转角结合车辆的动力学特性,得到预测轨迹。
利用图像标定结果,将预测轨迹标注在与实时图像尺寸一致的灰度图像上,得到注意力图像im3,其中预测轨迹为白色,背景为黑色。
对注意力图像im3上的每一个像素点(u,v),通过摄像机标定可以对应车体坐标系统中的一个点(x,y)。
在车体坐标系统,计算点(x,y)与车辆预测轨迹之间的距离d,通过以下距离判定,决定注意力图像im3的分辨率;
If:d<d1,设置注意力图像im3上该点的像素值为255;
If:d>d1并且d<d2,设置注意力图像im3上该点的像素值为125;
If:d>d2,设置注意力图像im3上该点的像素值为0。
其中,d1<d2,具体取值可以根据实际情况进行设定。
按照像素值的大小,将注意力图像im3分成三个不同区域,得到注意力掩码图像im4。
以注意力掩码图像im4为基础,以注意力掩码图像im4上的像素值为索引,对注意力掩码图像im4进行逐行逐列扫描。
假设注意力掩码图像im4的尺寸为w*h,步骤如下:
对行进行扫描,表示为i=1:h
对列进行扫描,表示为j=1:w
If im4(i,j*w)==255,
Continue;
Else if im4(i,j*w)==125,
im(i,j*w)=im1(i,j*w);
Else if im4(i,j*w)==0,
im(i,j*w)=im2(i,j*w)。
扫描完成得到具有三个分辨率的合成图像im5。
对合成图像im5,利用平滑的方法对边界处进行平滑,得到平滑后图像im6。
对平滑后图像im6,压缩为H.264的视频流。
在其中一个实施例中,根据注意力掩码图像中每个分区的像素值为索引,将实时图像以及降采样实时图像填充至注意力掩码图像,得到合成图像包括:根据分区与预测轨迹的距离,建立分区与实时图像,以及分区与降采样实时图像的对应关系;其中,与预测轨迹的距离越近的分区,与分区对应的实时图像或降采样实时图像的分辨率越大;对注意力掩码图像进行逐行逐列扫描,判断扫描的像素值,根据像素值的大小,确定分区,根据分区,将对应的图像填充至注意力掩码图像,扫描完成得到合成图像。
在其中一个实施例中,根据注意力图像中像素点与预测轨迹,得到实际距离,根据实际距离生成注意力掩码图像包括:对注意力图像中的像素点,通过摄像机标定得到的标定矩阵,确定车体坐标系中的对应点;在车体坐标系中,计算对应点与预测轨迹之间的实际距离;根据实际距离生成注意力掩码图像。
根据实际距离生成注意力掩码图像包括:根据实际距离,设置该点的像素值,根据注意力图像中所有像素值的大小,将注意力图像分成不同的分区,每个分区的像素值相同且不同分区的像素值不同,生成注意力掩码图像。
在其中一个实施例中,对实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,包括:对实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,并且将降采样实时图像进行尺寸放大,以使降采样实时图像的尺寸与实时图像的尺寸一致。
在其中一个实施例中,在输出实时的视频流数据之前,还包括:将合成图像利用平滑的方法进行处理。
合成图像是包括两个以上分区的图像,因为不同分区的分辨率不同,因此边界处不够自然,采用平滑的方法对边界处及整个图像进行平滑处理后的图像清晰自然。
在其中一个实施例中,摄像机采集实时图像可以通过USB、网络、GMSL或FPDLINK接口。
本申请还提供一种基于注意力机制的无人车多分辨率视频生成装置,在一个实施例中,如图4所示,包括:预测轨迹获得模块402、注意力图像获得模块404、掩码图像获得模块406、图像处理模块408、合成图像获得模块410和视频流输出模块412。
预测轨迹获得模块402,用于获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
注意力图像获得模块404,用于将预测轨迹标注在预先设置的空白图像中,得到注意力图像;
掩码图像获得模块406,用于根据注意力图像中像素点与预测轨迹,得到实际距离,根据实际距离生成注意力掩码图像;注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
图像处理模块408,用于获取无人车上安装的摄像机采集的实时图像,对实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,注意力掩码图像、实时图像以及降采样实时图像的尺寸一致;
合成图像获得模块410,用于根据注意力掩码图像中每个分区的像素值为索引,将实时图像以及降采样实时图像填充至注意力掩码图像,得到合成图像;其中,与预测轨迹距离越近的分区,填充的图像的分辨率越大;
视频流输出模块412,用于根据合成图像,输出实时的视频流数据。
在一个实施例中,掩码图像获得模块406和图像处理模块408还用于:注意力掩码图像包括三个分区;对实时图像分别按照2*2和3*3的比率进行降采样,得到分辨率分别为实时图像分辨率1/4和1/9的两个降采样实时图像。
在一个实施例中,合成图像获得模块410还用于:根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像包括:根据分区与预测轨迹的距离,建立所述分区与所述实时图像,以及所述分区与所述降采样实时图像的对应关系;其中,与预测轨迹的距离越近的分区,与所述分区对应的所述实时图像或所述降采样实时图像的分辨率越大;对所述注意力掩码图像进行逐行逐列扫描,判断扫描的像素值,根据所述像素值的大小,确定分区,根据所述分区,将对应的图像填充至注意力掩码图像,扫描完成得到合成图像。
在一个实施例中,掩码图像获得模块406还用于:根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像包括:对所述注意力图像中的像素点,通过摄像机标定得到的标定矩阵,确定车体坐标系中的对应点;在车体坐标系中,计算所述对应点与预测轨迹之间的实际距离;根据所述实际距离生成注意力掩码图像。
在一个实施例中,视频流输出模块412还用于:在输出实时的视频流数据之前,还包括:将所述合成图像利用平滑的方法对边界处进行处理。
在一个实施例中,图像处理模块408还用于:对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,包括:对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,并且将所述降采样实时图像进行尺寸放大,以使所述降采样实时图像的尺寸与所述实时图像的尺寸一致。
在一个实施例中,图像处理模块408还用于:所述摄像机采集实时图像可以通过USB、网络、GMSL或FPDLINK接口。
关于基于注意力机制的无人车多分辨率视频生成装置的具体限定可以参见上文中对于基于注意力机制的无人车多分辨率视频生成方法的限定,在此不再赘述。上述基于注意力机制的无人车多分辨率视频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于注意力机制的无人车多分辨率视频生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。该计算机设备可以是仿真设备,输入装置将相关的信息输入给仿真设备,处理器执行存储器中的程序进行组合仿真,显示屏显示相关的仿真结果。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.基于注意力机制的无人车多分辨率视频生成方法,其特征在于,包括:
获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
将所述预测轨迹标注在预先设置的空白图像中,得到注意力图像;
根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像;所述注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
获取无人车上安装的摄像机采集的实时图像,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,所述注意力掩码图像、所述实时图像以及所述降采样实时图像的尺寸一致;
根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像;其中,与所述预测轨迹距离越近的分区,填充的图像的分辨率越大;
根据所述合成图像,输出实时的视频流数据。
2.根据权利要求1所述的基于注意力机制的无人车多分辨率视频生成方法,其特征在于,所述注意力掩码图像包括三个分区;对所述实时图像分别按照2*2和3*3的比率进行降采样,得到分辨率分别为实时图像分辨率1/4和1/9的两个降采样实时图像。
3.根据权利要求2所述的基于注意力机制的无人车多分辨率视频生成方法,其特征在于,根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像包括:
根据分区与预测轨迹的距离,建立所述分区与所述实时图像,以及所述分区与所述降采样实时图像的对应关系;其中,与预测轨迹的距离越近的分区,与所述分区对应的所述实时图像或所述降采样实时图像的分辨率越大;
对所述注意力掩码图像进行逐行逐列扫描,判断扫描的像素值,根据所述像素值的大小,确定分区,根据所述分区,将对应的图像填充至注意力掩码图像,扫描完成得到合成图像。
4.根据权利要求1至3任一项所述的基于注意力机制的无人车多分辨率视频生成方法,其特征在于,根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像包括:
对所述注意力图像中的像素点,通过摄像机标定得到的标定矩阵,确定车体坐标系中的对应点;
在车体坐标系中,计算所述对应点与预测轨迹之间的实际距离;
根据所述实际距离生成注意力掩码图像。
5.根据权利要求1至3任一项所述的基于注意力机制的无人车多分辨率视频生成方法,其特征在于,在输出实时的视频流数据之前,还包括:
将所述合成图像利用平滑的方法进行处理。
6.根据权利要求1至3任一项所述的基于注意力机制的无人车多分辨率视频生成方法,其特征在于,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,包括:
对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像,并且将所述降采样实时图像进行尺寸放大,以使所述降采样实时图像的尺寸与所述实时图像的尺寸一致。
7.根据权利要求1至3任一项所述的基于注意力机制的无人车多分辨率视频生成方法,其特征在于,所述摄像机采集实时图像可以通过USB、网络、GMSL或FPDLINK接口。
8.基于注意力机制的无人车多分辨率视频生成装置,其特征在于,包括:
预测轨迹获得模块,用于获得当前的方向盘转角,并根据车辆的动力学模型,得到车辆的预测轨迹;
注意力图像获得模块,用于将所述预测轨迹标注在预先设置的空白图像中,得到注意力图像;
掩码图像获得模块,用于根据所述注意力图像中像素点与所述预测轨迹,得到实际距离,根据所述实际距离生成注意力掩码图像;所述注意力掩码图像包括两个以上分区,每个分区的像素值相同且不同分区的像素值不同;
图像处理模块,用于获取无人车上安装的摄像机采集的实时图像,对所述实时图像按照预设比率进行降采样,得到不同分辨率的降采样实时图像;其中,所述注意力掩码图像、所述实时图像以及所述降采样实时图像的尺寸一致;
合成图像获得模块,用于根据所述注意力掩码图像中每个分区的像素值为索引,将所述实时图像以及所述降采样实时图像填充至所述注意力掩码图像,得到合成图像;其中,与所述预测轨迹距离越近的分区,填充的图像的分辨率越大;
视频流输出模块,用于根据所述合成图像,输出实时的视频流数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144966.9A CN113793393B (zh) | 2021-09-28 | 2021-09-28 | 基于注意力机制的无人车多分辨率视频生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144966.9A CN113793393B (zh) | 2021-09-28 | 2021-09-28 | 基于注意力机制的无人车多分辨率视频生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793393A true CN113793393A (zh) | 2021-12-14 |
CN113793393B CN113793393B (zh) | 2023-05-09 |
Family
ID=78877419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111144966.9A Active CN113793393B (zh) | 2021-09-28 | 2021-09-28 | 基于注意力机制的无人车多分辨率视频生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793393B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114449345A (zh) * | 2022-02-08 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN111428807A (zh) * | 2020-04-03 | 2020-07-17 | 桂林电子科技大学 | 图像处理方法及计算机可读存储介质 |
CN111598030A (zh) * | 2020-05-21 | 2020-08-28 | 山东大学 | 一种航拍图像中车辆检测和分割的方法及系统 |
CN112307939A (zh) * | 2020-10-28 | 2021-02-02 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112967355A (zh) * | 2021-03-05 | 2021-06-15 | 北京百度网讯科技有限公司 | 图像填充方法及装置、电子设备和介质 |
-
2021
- 2021-09-28 CN CN202111144966.9A patent/CN113793393B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN111428807A (zh) * | 2020-04-03 | 2020-07-17 | 桂林电子科技大学 | 图像处理方法及计算机可读存储介质 |
CN111598030A (zh) * | 2020-05-21 | 2020-08-28 | 山东大学 | 一种航拍图像中车辆检测和分割的方法及系统 |
CN112307939A (zh) * | 2020-10-28 | 2021-02-02 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112967355A (zh) * | 2021-03-05 | 2021-06-15 | 北京百度网讯科技有限公司 | 图像填充方法及装置、电子设备和介质 |
Non-Patent Citations (1)
Title |
---|
李峻翔: "无人车规划及车辆运动预测研究", 中国博士学位论文全文数据库 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114449345A (zh) * | 2022-02-08 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN114449345B (zh) * | 2022-02-08 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113793393B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968235B (zh) | 一种物体姿态估计方法、装置、系统和计算机设备 | |
CN111797650B (zh) | 障碍物的识别方法、装置、计算机设备和存储介质 | |
CN111353969B (zh) | 道路可行驶区域的确定方法、装置及计算机设备 | |
CN111199206A (zh) | 三维目标检测方法、装置、计算机设备及存储介质 | |
CN112633152B (zh) | 停车位检测方法、装置、计算机设备和存储介质 | |
CN110852949B (zh) | 点云数据补全方法、装置、计算机设备和存储介质 | |
CN110751598B (zh) | 车辆铰接点坐标标定方法、装置、计算机设备和存储介质 | |
US11132586B2 (en) | Rolling shutter rectification in images/videos using convolutional neural networks with applications to SFM/SLAM with rolling shutter images/videos | |
CN110287764B (zh) | 姿势预测方法、装置、计算机设备和存储介质 | |
CN110719411A (zh) | 车辆的全景环视图像生成方法及相关设备 | |
US20230109473A1 (en) | Vehicle, electronic apparatus, and control method thereof | |
CN113793393B (zh) | 基于注意力机制的无人车多分辨率视频生成方法和装置 | |
CN112991537B (zh) | 城市场景重建方法、装置、计算机设备和存储介质 | |
CN111861904A (zh) | 等比例鱼眼矫正方法、装置和计算机设备和可读存储介质 | |
WO2024153156A1 (zh) | 一种图像处理方法、装置、设备和介质 | |
CN111242118A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN114312577A (zh) | 一种车辆底盘透视方法、装置及电子设备 | |
CN116012805B (zh) | 目标感知方法、装置、计算机设备、存储介质 | |
CN116469101A (zh) | 数据标注方法、装置、电子设备及存储介质 | |
CN114821544B (zh) | 感知信息生成方法、装置、车辆、电子设备及存储介质 | |
CN113850881A (zh) | 图像生成方法、装置、设备及可读存储介质 | |
CN112614199A (zh) | 语义分割图像转换方法、装置、计算机设备和存储介质 | |
CN115937824A (zh) | 目标检测模型的训练方法、检测方法、系统和存储介质 | |
CN115830044B (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN115565134B (zh) | 球机监控盲区诊断方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |