CN115205179A - 图像融合的方法、装置、车辆及存储介质 - Google Patents
图像融合的方法、装置、车辆及存储介质 Download PDFInfo
- Publication number
- CN115205179A CN115205179A CN202210837773.XA CN202210837773A CN115205179A CN 115205179 A CN115205179 A CN 115205179A CN 202210837773 A CN202210837773 A CN 202210837773A CN 115205179 A CN115205179 A CN 115205179A
- Authority
- CN
- China
- Prior art keywords
- vector
- image
- feature vector
- target
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title abstract description 7
- 239000013598 vector Substances 0.000 claims abstract description 378
- 230000004927 fusion Effects 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000009466 transformation Effects 0.000 claims description 85
- 230000015654 memory Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000008447 perception Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- ATUOYWHBWRKTHZ-UHFFFAOYSA-N Propane Chemical compound CCC ATUOYWHBWRKTHZ-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 239000001294 propane Substances 0.000 description 1
- 230000000979 retarding effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4038—Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Abstract
本公开涉及一种图像融合的方法、装置、车辆及存储介质,涉及多媒体技术领域,该方法包括:获取多个图像采集装置采集的图像。获取每个图像的图像特征。将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,对编码向量进行解码,得到目标图像。本公开通过图像融合模型对多个图像采集装置采集到的多个图像进行编码和解码处理,得到多个图像融合后的目标图像,能够提高图像融合的准确度。
Description
技术领域
本公开涉及多媒体技术领域,尤其涉及一种图像融合的方法、装置、车辆及存储介质。
背景技术
随着社会的不断发展,自动驾驶汽车越来越多地应用在人们的生活中。在自动驾驶汽车的感知任务中,车辆需要感知车身周围360度的信息,这些信息往往来源于多个图像采集装置(例如相机和雷达),而多个图像采集装置的采集区域可能存在重合,导致同一个物体出现在多个图像中的情况。相关技术中,无法对重复出现在多个图像中的物体进行准确地处理,导致车辆无法准确地获取到车身周围的信息。
发明内容
为克服相关技术中存在的问题,本公开提供一种图像融合的方法、装置、车辆及存储介质。
根据本公开实施例的第一方面,提供一种图像融合的方法,所述方法包括:
获取多个图像采集装置采集的图像;
获取每个图像的图像特征;
将每个图像的图像特征作为预先训练的图像融合模型的输入,得到所述图像融合模型输出的融合后的目标图像,所述图像融合模型用于将多个所述图像特征拼接为目标特征向量,对所述目标特征向量进行编码,得到编码后的编码向量,对所述编码向量进行解码,得到所述目标图像。
可选地,所述图像融合模型包括编码模块和解码模块,所述编码模块用于:
对所述目标特征向量按照第一编码方式进行编码,得到第一编码向量;
对所述目标特征向量按照第二编码方式进行编码,得到第二编码向量;
所述解码模块用于:
对所述第一编码向量和所述第二编码向量进行解码处理,得到所述目标图像。
可选地,所述对所述目标特征向量按照第一编码方式进行编码,得到第一编码向量包括:
对所述目标特征向量进行维度变换,得到第一变换特征向量;
对所述第一变换特征向量进行位置编码,得到第一位置向量;
将所述第一变换特征向量与所述第一位置向量之和,作为所述第一编码向量。
可选地,所述对所述目标特征向量进行维度变换,得到第一变换特征向量包括:
将所述目标特征向量中的高度和宽度进行扁平化处理,得到第一中间特征向量;
在所述第一中间特征向量中的维度数与预设的维度数不相等的情况下,对所述第一中间特征向量进行线性变换,得到所述第一变换特征向量。
可选地,所述对所述目标特征向量进行维度变换,得到第一变换特征向量还包括:
在所述第一中间特征向量中的维度数与预设的维度数相等的情况下,将所述第一中间特征向量作为所述第一变换特征向量。
可选地,所述对所述目标特征向量按照第二编码方式进行编码,得到第二编码向量包括:
对所述目标特征向量进行维度变换,得到第二变换特征向量;
对所述第二变换特征向量进行位置编码,得到第二位置向量;
将所述第二变换特征向量、所述第二位置向量与预设的查询向量之和,作为所述第二编码向量。
可选地,所述对所述目标特征向量进行维度变换,得到第二变换特征向量包括:
对所述目标特征向量进行池化处理,得到第二中间特征向量;
在所述第二中间特征向量中的图像采集装置的数量与所述第二中间特征向量中的维度数之积,不等于所述查询向量中的维度数的情况下,对所述第二中间特征向量进行线性变换,得到所述第二变换特征向量。
可选地,所述对所述目标特征向量进行维度变换,得到第二变换特征向量还包括:
在所述第二中间特征向量中的图像采集装置的数量与所述第二中间特征向量中的维度数之积,等于所述查询向量中的维度数的情况下,将所述第二中间特征向量作为所述第二变换特征向量。
根据本公开实施例的第二方面,提供一种图像融合的装置,所述装置包括:
第一获取模块,被配置为获取多个图像采集装置采集的图像;
第二获取模块,被配置为获取每个图像的图像特征;
融合模块,用于将每个图像的图像特征作为预先训练的图像融合模型的输入,得到所述图像融合模型输出的融合后的目标图像,所述图像融合模型用于将多个所述图像特征拼接为目标特征向量,对所述目标特征向量进行编码,得到编码后的编码向量,对所述编码向量进行解码,得到所述目标图像。
可选地,所述图像融合模型包括编码模块和解码模块,所述编码模块用于:
对所述目标特征向量按照第一编码方式进行编码,得到第一编码向量;
对所述目标特征向量按照第二编码方式进行编码,得到第二编码向量;
所述解码模块用于:
对所述第一编码向量和所述第二编码向量进行解码处理,得到所述目标图像。
可选地,所述编码模块用于:
对所述目标特征向量进行维度变换,得到第一变换特征向量;
对所述第一变换特征向量进行位置编码,得到第一位置向量;
将所述第一变换特征向量与所述第一位置向量之和,作为所述第一编码向量。
可选地,所述编码模块用于:
将所述目标特征向量中的高度和宽度进行扁平化处理,得到第一中间特征向量;
在所述第一中间特征向量中的维度数与预设的维度数不相等的情况下,对所述第一中间特征向量进行线性变换,得到所述第一变换特征向量。
可选地,所述编码模块用于:
在所述第一中间特征向量中的维度数与预设的查询向量中的维度数相等的情况下,将所述第一中间特征向量作为所述第一变换特征向量。
可选地,所述编码模块用于:
对所述目标特征向量进行维度变换,得到第二变换特征向量;
对所述第二变换特征向量进行位置编码,得到第二位置向量;
将所述第二变换特征向量、所述第二位置向量与预设的查询向量之和,作为所述第二编码向量。
可选地,所述编码模块用于:
对所述目标特征向量进行池化处理,得到第二中间特征向量;
在所述第二中间特征向量中的图像采集装置的数量与所述第二中间特征向量中的维度数之积,不等于所述查询向量中的维度数的情况下,对所述第二中间特征向量进行线性变换,得到所述第二变换特征向量。
可选地,所述编码模块用于:
在所述第二中间特征向量中的图像采集装置的数量与所述第二中间特征向量中的维度数之积,等于所述查询向量中的维度数的情况下,将所述第二中间特征向量作为所述第二变换特征向量。
根据本公开实施例的第三方面,提供一种车辆,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取多个图像采集装置采集的图像;
获取每个图像的图像特征;
将每个图像的图像特征作为预先训练的图像融合模型的输入,得到所述图像融合模型输出的融合后的目标图像,所述图像融合模型用于将多个所述图像特征拼接为目标特征向量,对所述目标特征向量进行编码,得到编码后的编码向量,对所述编码向量进行解码,得到所述目标图像。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面中任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开首先获取多个图像采集装置采集的图像,并获取每个图像的图像特征。之后将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,其中,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,并对编码向量进行解码,从而得到目标图像。本公开通过图像融合模型对多个图像采集装置采集到的多个图像进行编码和解码处理,得到多个图像融合后的目标图像,能够提高图像融合的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种图像融合的方法的流程图;
图2是根据图1实施例示出的一种图像融合模型的示意图;
图3是根据一示例性实施例示出的一种图像融合的装置的框图;
图4是根据一示例性实施例示出的一种车辆的功能框图示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开示出的图像融合的方法、装置、车辆及存储介质之前,首先对本公开各个实施例涉及的应用场景进行介绍。在自动驾驶领域,车辆上通常设置多个图像采集装置来获取车身周围的信息,而多个图像采集装置的采集区域可能存在重合,导致同一个物体出现在多个图像中的情况。目前,通常使用不同的模型来处理不同的图像采集装置采集到的图像,但是这种处理方式无法对重复出现在多个图像中的物体进行准确地处理。
图1是根据一示例性实施例示出的一种图像融合的方法的流程图,如图1所示,该方法包括以下步骤:
在步骤S101中,获取多个图像采集装置采集的图像。
在步骤S102中,获取每个图像的图像特征。
举例来说,车辆首先可以获取多个图像采集装置采集的多个图像,多个图像中的两个图像或两个以上的图像中,可能会包含相同的图像信息,即图像采集装置的采集区域存在重合现象。针对采集到的多个图像,可以通过预设的特征提取模型,提取每个图像的图像特征。其中,特征提取模型例如可以是VGG网络模型、Resnet网络模型等。
在步骤S103中,将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,对编码向量进行解码,得到目标图像。
示例的,可以预先基于Transformer模型训练得到图像融合模型。在得到多个图像对应的图像特征之后,可以将多个图像特征输入预先训练的图像融合模型,通过图像融合模型对多个图像特征进行处理,得到融合后的目标图像。在一些实施例中,图像融合模型首先可以通过预设的拼接函数,将输入的多个图像特征拼接为一个目标特征向量,其中拼接函数例如可以是Concat函数。之后可以对目标特征向量进行编码,得到编码后的编码向量。在一些实施例中,编码向量的格式与预设的Transformer模型中的Key向量、Value向量和Query向量的格式一致,便于图像融合模型对编码向量进行解码。对目标特征向量的编码方式可以是池化处理、维度变换、位置编码、线性变换等方式中的一种或多种。
在一些实施例中,参照图2,Transformer Feature Fusion可以为图像融合模型,extract feature 1、extract feature 2、……、extract feature N可以为多个图像的图像特征,可以将extract feature 1、extract feature 2、……、extract feature N输入Transformer Feature Fusion的concat模块,通过concat模块将多个图像特征拼接为目标特征向量。concat模块输出的目标特征向量可以通过第一分支的编码处理得到第一编码向量,并通过第二分支的编码处理得到第二编码向量。第一分支的编码处理过程可以为:依次通过Flatten模块和Linear模块对目标特征向量进行维度变换,然后对变换后的目标特征向量进行位置编码,得到第一位置向量pos embed,再通过Add模块将变换后的目标特征向量与第一位置向量相加,得到第一编码向量。第二分支的编码处理过程可以为:通过Pool模块对目标特征向量进行池化处理,然后对变换后的目标特征向量进行位置编码,得到第二位置向量pos embed,再通过Add模块将预设的query向量、变换后的目标特征向量与第二位置向量相加,得到第二编码向量。进一步的,将第一编码向量和第二编码向量输入解码模块Transformer Decoder*N中进行解码,从而得到目标图像。最后将目标图像在预设的坐标系中输出,得到target feature space,并将target feature space应用在相应的Head任务中。
综上所述,本公开首先获取多个图像采集装置采集的图像,并获取每个图像的图像特征。之后将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,其中,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,并对编码向量进行解码,从而得到目标图像。本公开通过图像融合模型对多个图像采集装置采集到的多个图像进行编码和解码处理,得到多个图像融合后的目标图像,能够提高图像融合的准确度。
在一种应用场景中,图像融合模型包括编码模块和解码模块,编码模块用于:
对目标特征向量按照第一编码方式进行编码,得到第一编码向量。
对目标特征向量按照第二编码方式进行编码,得到第二编码向量。
解码模块用于:
对第一编码向量和第二编码向量进行解码处理,得到目标图像。
示例的,编码模块可以对目标特征向量同时按照两种不同的方式进行编码,得到两个编码向量。在一些实施例中,可以对目标特征向量按照第一编码方式进行编码,得到第一编码向量,其中,第一编码向量可以是Memory向量,Memory向量可以包括Key向量和Value向量。在另一些实施例中,可以对目标特征向量按照第二编码方式进行编码,得到第二编码向量,其中,第二编码向量可以是Query向量。之后,可以将编码模块得到的第一编码向量和第二编码模块输入解码模块,通过解码模块对第一编码向量和第二编码模块进行解码,从而得到目标图像。
在另一种应用场景中,编码模块用于:
对目标特征向量进行维度变换,得到第一变换特征向量。
对第一变换特征向量进行位置编码,得到第一位置向量。
将第一变换特征向量与第一位置向量之和,作为第一编码向量。
示例的,编码模块首先可以对目标特征向量进行维度变换,将目标特征向量转换为第一预设向量格式的第一变换特征向量。在一些实施例中,可以对第一变换特征向量进行位置编码,位置编码可以采用绝对位置编码或相对位置编码的方式,例如可以利用正余弦函数进行位置编码。将第一变换特征向量与第一位置向量相加,以将第一位置向量嵌入第一变换特征向量中,得到第一编码向量,使得每个第一变换特征向量中的每个元素都具有对应的位置编码。
在另一种应用场景中,编码模块用于:
将目标特征向量中的高度和宽度进行扁平化处理,得到第一中间特征向量。
在第一中间特征向量中的维度数与预设的维度数不相等的情况下,对第一中间特征向量进行线性变换,得到第一变换特征向量。
示例的,目标特征向量可以为[B,N,C,H,W],其中B为批处理大小,即图像的数量,N为图像采集装置的数量,C为特征提取模型的输出维度,H为图像的高度,即图像垂直维度的像素数,W为图像的宽度,表示图像水平维度的像素数。编码模块可以通过预设展平函数对目标特征向量的高度和宽度进行扁平化处理,即对多张图像的高度和宽度进行展平,得到第一中间特征向量,其中,预设展平函数可以是Flatten函数,第一中间特征向量可以是[B,C,(N*H*W)]。
在一些实施例中,如果第一中间特征向量中的维度数与预设的维度数不相等,表示第一中间特征向量不符合第一预设向量格式,那么可以通过预设线性变化函数对第一中间特征向量进行线性变换,得到符合第一预设向量格式的第一变换特征向量,其中,预设的维度数可以理解为解码模块的输入维度,预设线性变化函数可以是Linear函数。
在另一种应用场景中,编码模块用于:
在第一中间特征向量中的维度数与预设的维度数相等的情况下,将第一中间特征向量作为第一变换特征向量。
示例的,如果第一中间特征向量中的维度数与预设的维度数相等,表示第一中间特征向量符合第一预设向量格式,那么可以直接将第一中间特征向量作为第一变换特征向量。
在另一种应用场景中,编码模块用于:
对目标特征向量进行维度变换,得到第二变换特征向量。
对第二变换特征向量进行位置编码,得到第二位置向量。
将第二变换特征向量、第二位置向量与预设的查询向量之和,作为第二编码向量。
示例的,编码模块首先可以对目标特征向量进行维度变换,将目标特征向量转换为第二预设向量格式的第二变换特征向量。在一些实施例中,可以对第二变换特征向量进行位置编码,位置编码可以采用绝对位置编码或相对位置编码的方式,例如可以利用正余弦函数进行位置编码。将第二变换特征向量、第二位置向量与预设的查询向量相加,将第二位置向量嵌入第二变换特征向量中,得到第二编码向量,使得每个第二变换特征向量中的每个元素都具有对应的位置编码。
在另一种应用场景中,编码模块用于:
对目标特征向量进行池化处理,得到第二中间特征向量。
在第二中间特征向量中的图像采集装置的数量与第二中间特征向量中的维度数之积,不等于查询向量中的维度数的情况下,对第二中间特征向量进行线性变换,得到第二变换特征向量。
示例的,编码模块可以对目标特征向量进行池化处理,以改变目标特征向量的维度,得到第二中间特征向量。其中,池化处理可以是平均池化(Avg-pooling),也可以是最大池化(Max-pooling)等池化方式,本公开对此不作具体限定。在一些实施例中,如果第二中间特征向量中的图像采集装置的数量与第二中间特征向量中的维度数之积,不等于查询向量中的维度数,表示第二中间特征向量不符合第二预设向量格式,那么可以通过预设线性变化函数对第二中间特征向量进行线性变换,得到符合第二预设向量格式的第二变换特征向量,其中,预设线性变化函数可以是Linear函数。
在另一种应用场景中,编码模块用于:
在第二中间特征向量中的图像采集装置的数量与第二中间特征向量中的维度数之积,等于查询向量中的维度数的情况下,将第二中间特征向量作为第二变换特征向量。
示例的,如果第二中间特征向量中的图像采集装置的数量与第二中间特征向量中的维度数之积,等于查询向量中的维度数,表示第二中间特征向量符合第二预设向量格式,那么可以直接将第二中间特征向量作为第二变换特征向量。
综上所述,本公开首先获取多个图像采集装置采集的图像,并获取每个图像的图像特征。之后将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,其中,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,并对编码向量进行解码,从而得到目标图像。本公开通过图像融合模型对多个图像采集装置采集到的多个图像进行编码和解码处理,得到多个图像融合后的目标图像,能够提高图像融合的准确度。
图3是根据一示例性实施例示出的一种图像融合的装置的框图,如图3所示,该装置200包括:
第一获取模块201,被配置为获取多个图像采集装置采集的图像。
第二获取模块202,被配置为获取每个图像的图像特征。
融合模块203,用于将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,对编码向量进行解码,得到目标图像。
在一种应用场景中,图像融合模型包括编码模块和解码模块,编码模块用于:
对目标特征向量按照第一编码方式进行编码,得到第一编码向量。
对目标特征向量按照第二编码方式进行编码,得到第二编码向量。
解码模块用于:
对第一编码向量和第二编码向量进行解码处理,得到目标图像。
在另一种应用场景中,编码模块用于:
对目标特征向量进行维度变换,得到第一变换特征向量。
对第一变换特征向量进行位置编码,得到第一位置向量。
将第一变换特征向量与第一位置向量之和,作为第一编码向量。
在另一种应用场景中,编码模块用于:
将目标特征向量中的高度和宽度进行扁平化处理,得到第一中间特征向量。
在第一中间特征向量中的维度数与预设的维度数不相等的情况下,对第一中间特征向量进行线性变换,得到第一变换特征向量。
在另一种应用场景中,编码模块用于:
在第一中间特征向量中的维度数与预设的维度数相等的情况下,将第一中间特征向量作为第一变换特征向量。
在另一种应用场景中,编码模块用于:
对目标特征向量进行维度变换,得到第二变换特征向量。
对第二变换特征向量进行位置编码,得到第二位置向量。
将第二变换特征向量、第二位置向量与预设的查询向量之和,作为第二编码向量。
在另一种应用场景中,编码模块用于:
对目标特征向量进行池化处理,得到第二中间特征向量。
在第二中间特征向量中的图像采集装置的数量与第二中间特征向量中的维度数之积,不等于查询向量中的维度数的情况下,对第二中间特征向量进行线性变换,得到第二变换特征向量。
在另一种应用场景中,编码模块用于:
在第二中间特征向量中的图像采集装置的数量与第二中间特征向量中的维度数之积,等于查询向量中的维度数的情况下,将第二中间特征向量作为第二变换特征向量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先获取多个图像采集装置采集的图像,并获取每个图像的图像特征。之后将每个图像的图像特征作为预先训练的图像融合模型的输入,得到图像融合模型输出的融合后的目标图像,其中,图像融合模型用于将多个图像特征拼接为目标特征向量,对目标特征向量进行编码,得到编码后的编码向量,并对编码向量进行解码,从而得到目标图像。本公开通过图像融合模型对多个图像采集装置采集到的多个图像进行编码和解码处理,得到多个图像融合后的目标图像,能够提高图像融合的准确度。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的图像融合的方法的步骤。
参阅图4,图4是一示例性实施例示出的一种车辆300的功能框图示意图。车辆300可以被配置为完全或部分自动驾驶模式。例如,车辆300可以通过感知系统320获取其周围的环境信息,并基于对周边环境信息的分析得到自动驾驶策略以实现完全自动驾驶,或者将分析结果呈现给用户以实现部分自动驾驶。
车辆300可包括各种子系统,例如,信息娱乐系统310、感知系统320、决策控制系统330、驱动系统340以及计算平台350。可选的,车辆300可包括更多或更少的子系统,并且每个子系统都可包括多个部件。另外,车辆300的每个子系统和部件可以通过有线或者无线的方式实现互连。
在一些实施例中,信息娱乐系统310可以包括通信系统311,娱乐系统312以及导航系统313。
通信系统311可以包括无线通信系统,无线通信系统可以直接地或者经由通信网络来与一个或多个设备无线通信。例如,无线通信系统可使用3G蜂窝通信,例如CDMA、EVD0、GSM/GPRS,或者4G蜂窝通信,例如LTE。或者5G蜂窝通信。无线通信系统可利用WiFi与无线局域网(wireless local area network,WLAN)通信。在一些实施例中,无线通信系统可利用红外链路、蓝牙或ZigBee与设备直接通信。其他无线协议,例如各种车辆通信系统,例如,无线通信系统可包括一个或多个专用短程通信(dedicated short range communications,DSRC)设备,这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。
娱乐系统312可以包括显示设备,麦克风和音响,用户可以基于娱乐系统在车内收听广播,播放音乐;或者将手机和车辆联通,在显示设备上实现手机的投屏,显示设备可以为触控式,用户可以通过触摸屏幕进行操作。
在一些情况下,可以通过麦克风获取用户的语音信号,并依据对用户的语音信号的分析实现用户对车辆300的某些控制,例如调节车内温度等。在另一些情况下,可以通过音响向用户播放音乐。
导航系统313可以包括由地图供应商所提供的地图服务,从而为车辆300提供行驶路线的导航,导航系统313可以和车辆的全球定位系统321、惯性测量单元322配合使用。地图供应商所提供的地图服务可以为二维地图,也可以是高精地图。
感知系统320可包括感测关于车辆300周边的环境的信息的若干种传感器。例如,感知系统320可包括全球定位系统321(全球定位系统可以是GPS系统,也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit,IMU)322、激光雷达323、毫米波雷达324、超声雷达325以及摄像装置326。感知系统320还可包括被监视车辆300的内部系统的传感器(例如,车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是车辆300的安全操作的关键功能。
全球定位系统321用于估计车辆300的地理位置。
惯性测量单元322用于基于惯性加速度来感测车辆300的位姿变化。在一些实施例中,惯性测量单元322可以是加速度计和陀螺仪的组合。
激光雷达323利用激光来感测车辆300所位于的环境中的物体。在一些实施例中,激光雷达323可包括一个或多个激光源、激光扫描器以及一个或多个检测器,以及其他系统组件。
毫米波雷达324利用无线电信号来感测车辆300的周边环境内的物体。在一些实施例中,除了感测物体以外,毫米波雷达324还可用于感测物体的速度和/或前进方向。
超声雷达325可以利用超声波信号来感测车辆300周围的物体。
摄像装置326用于捕捉车辆300的周边环境的图像信息。摄像装置326可以包括单目相机、双目相机、结构光相机以及全景相机等,摄像装置326获取的图像信息可以包括静态图像,也可以包括视频流信息。
决策控制系统330包括基于感知系统320所获取的信息进行分析决策的计算系统331,决策控制系统330还包括对车辆300的动力系统进行控制的整车控制器332,以及用于控制车辆300的转向系统333、油门334和制动系统335。
计算系统331可以操作来处理和分析由感知系统320所获取的各种信息以便识别车辆300周边环境中的目标、物体和/或特征。目标可以包括行人或者动物,物体和/或特征可包括交通信号、道路边界和障碍物。计算系统331可使用物体识别算法、运动中恢复结构(Structure from Motion,SFM)算法、视频跟踪等技术。在一些实施例中,计算系统331可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。计算系统331可以将所获取的各种信息进行分析并得出对车辆的控制策略。
整车控制器332可以用于对车辆的动力电池和引擎341进行协调控制,以提升车辆300的动力性能。
转向系统333可操作来调整车辆300的前进方向。例如在一个实施例中可以为方向盘系统。
油门334用于控制引擎341的操作速度并进而控制车辆300的速度。
制动系统335用于控制车辆300减速。制动系统335可使用摩擦力来减慢车轮344。在一些实施例中,制动系统335可将车轮344的动能转换为电流。制动系统335也可采取其他形式来减慢车轮344转速从而控制车辆300的速度。
驱动系统340可包括为车辆300提供动力运动的组件。在一个实施例中,驱动系统340可包括引擎341、能量源342、传动系统343和车轮344。引擎341可以是内燃机、电动机、空气压缩引擎或其他类型的引擎组合,例如汽油发动机和电动机组成的混动引擎,内燃引擎和空气压缩引擎组成的混动引擎。引擎341将能量源342转换成机械能量。
能量源342的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源342也可以为车辆300的其他系统提供能量。
传动系统343可以将来自引擎341的机械动力传送到车轮344。传动系统343可包括变速箱、差速器和驱动轴。在一个实施例中,传动系统343还可以包括其他器件,比如离合器。其中,驱动轴可包括可耦合到一个或多个车轮344的一个或多个轴。
车辆300的部分或所有功能受计算平台350控制。计算平台350可包括至少一个处理器351,处理器351可以执行存储在例如存储器352这样的非暂态计算机可读介质中的指令353。在一些实施例中,计算平台350还可以是采用分布式方式控制车辆300的个体组件或子系统的多个计算设备。
处理器351可以是任何常规的处理器,诸如商业可获得的CPU。可替换地,处理器351还可以包括诸如图像处理器(Graphic Process Unit,GPU),现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、片上系统(Sysem on Chip,SOC)、专用集成芯片(Application Specific Integrated Circuit,ASIC)或它们的组合。尽管图4功能性地图示了处理器、存储器、和在相同块中的计算机的其它元件,但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如,存储器可以是硬盘驱动器或位于不同于计算机的外壳内的其它存储介质。因此,对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤,诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器,处理器只执行与特定于组件的功能相关的计算。
在本公开实施方式中,处理器351可以执行上述的图像融合的方法。
在此处所描述的各个方面中,处理器351可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中,此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行,包括采取执行单一操纵的必要步骤。
在一些实施例中,存储器352可包含指令353(例如,程序逻辑),指令353可被处理器351执行来执行车辆300的各种功能。存储器352也可包含额外的指令,包括向信息娱乐系统310、感知系统320、决策控制系统330、驱动系统340中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。
除了指令353以外,存储器352还可存储数据,例如道路地图、路线信息,车辆的位置、方向、速度以及其它这样的车辆数据,以及其他信息。这种信息可在车辆300在自主、半自主和/或手动模式中操作期间被车辆300和计算平台350使用。
计算平台350可基于从各种子系统(例如,驱动系统340、感知系统320和决策控制系统330)接收的输入来控制车辆300的功能。例如,计算平台350可利用来自决策控制系统330的输入以便控制转向系统333来避免由感知系统320检测到的障碍物。在一些实施例中,计算平台350可操作来对车辆300及其子系统的许多方面提供控制。
可选地,上述这些组件中的一个或多个可与车辆300分开安装或关联。例如,存储器352可以部分或完全地与车辆300分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。
可选地,上述组件只是一个示例,实际应用中,上述各个模块中的组件有可能根据实际需要增添或者删除,图4不应理解为对本公开实施例的限制。
在道路行进的自动驾驶汽车,如上面的车辆300,可以识别其周围环境内的物体以确定对当前速度的调整。物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中,可以独立地考虑每个识别的物体,并且基于物体的各自的特性,诸如它的当前速度、加速度、与车辆的间距等,可以用来确定自动驾驶汽车所要调整的速度。
可选地,车辆300或者与车辆300相关联的感知和计算设备(例如计算系统331、计算平台350)可以基于所识别的物体的特性和周围环境的状态(例如,交通、雨、道路上的冰、等等)来预测识别的物体的行为。可选地,每一个所识别的物体都依赖于彼此的行为,因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。车辆300能够基于预测的识别的物体的行为来调整它的速度。换句话说,自动驾驶汽车能够基于所预测的物体的行为来确定车辆将需要调整到(例如,加速、减速、或者停止)何种稳定状态。在这个过程中,也可以考虑其它因素来确定车辆300的速度,诸如,车辆300在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。
除了提供调整自动驾驶汽车的速度的指令之外,计算设备还可以提供修改车辆300的转向角的指令,以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的物体(例如,道路上的相邻车道中的车辆)的安全横向和纵向距离。
上述车辆300可以为各种类型的行驶工具,例如,轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、娱乐车、火车等等,本公开实施例不做特别的限定。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的图像融合的方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种图像融合的方法,其特征在于,所述方法包括:
获取多个图像采集装置采集的图像;
获取每个图像的图像特征;
将每个图像的图像特征作为预先训练的图像融合模型的输入,得到所述图像融合模型输出的融合后的目标图像,所述图像融合模型用于将多个所述图像特征拼接为目标特征向量,对所述目标特征向量进行编码,得到编码后的编码向量,对所述编码向量进行解码,得到所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述图像融合模型包括编码模块和解码模块,所述编码模块用于:
对所述目标特征向量按照第一编码方式进行编码,得到第一编码向量;
对所述目标特征向量按照第二编码方式进行编码,得到第二编码向量;
所述解码模块用于:
对所述第一编码向量和所述第二编码向量进行解码处理,得到所述目标图像。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标特征向量按照第一编码方式进行编码,得到第一编码向量包括:
对所述目标特征向量进行维度变换,得到第一变换特征向量;
对所述第一变换特征向量进行位置编码,得到第一位置向量;
将所述第一变换特征向量与所述第一位置向量之和,作为所述第一编码向量。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标特征向量进行维度变换,得到第一变换特征向量包括:
将所述目标特征向量中的高度和宽度进行扁平化处理,得到第一中间特征向量;
在所述第一中间特征向量中的维度数与预设的维度数不相等的情况下,对所述第一中间特征向量进行线性变换,得到所述第一变换特征向量。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标特征向量进行维度变换,得到第一变换特征向量还包括:
在所述第一中间特征向量中的维度数与预设的维度数相等的情况下,将所述第一中间特征向量作为所述第一变换特征向量。
6.根据权利要求2所述的方法,其特征在于,所述对所述目标特征向量按照第二编码方式进行编码,得到第二编码向量包括:
对所述目标特征向量进行维度变换,得到第二变换特征向量;
对所述第二变换特征向量进行位置编码,得到第二位置向量;
将所述第二变换特征向量、所述第二位置向量与预设的查询向量之和,作为所述第二编码向量。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标特征向量进行维度变换,得到第二变换特征向量包括:
对所述目标特征向量进行池化处理,得到第二中间特征向量;
在所述第二中间特征向量中的图像采集装置的数量与所述第二中间特征向量中的维度数之积,不等于所述查询向量中的维度数的情况下,对所述第二中间特征向量进行线性变换,得到所述第二变换特征向量。
8.根据权利要求7所述的方法,其特征在于,所述对所述目标特征向量进行维度变换,得到第二变换特征向量还包括:
在所述第二中间特征向量中的图像采集装置的数量与所述第二中间特征向量中的维度数之积,等于所述查询向量中的维度数的情况下,将所述第二中间特征向量作为所述第二变换特征向量。
9.一种图像融合的装置,其特征在于,所述装置包括:
第一获取模块,被配置为获取多个图像采集装置采集的图像;
第二获取模块,被配置为获取每个图像的图像特征;
融合模块,用于将每个图像的图像特征作为预先训练的图像融合模型的输入,得到所述图像融合模型输出的融合后的目标图像,所述图像融合模型用于将多个所述图像特征拼接为目标特征向量,对所述目标特征向量进行编码,得到编码后的编码向量,对所述编码向量进行解码,得到所述目标图像。
10.一种车辆,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取多个图像采集装置采集的图像;
获取每个图像的图像特征;
将每个图像的图像特征作为预先训练的图像融合模型的输入,得到所述图像融合模型输出的融合后的目标图像,所述图像融合模型用于将多个所述图像特征拼接为目标特征向量,对所述目标特征向量进行编码,得到编码后的编码向量,对所述编码向量进行解码,得到所述目标图像。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210837773.XA CN115205179A (zh) | 2022-07-15 | 2022-07-15 | 图像融合的方法、装置、车辆及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210837773.XA CN115205179A (zh) | 2022-07-15 | 2022-07-15 | 图像融合的方法、装置、车辆及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205179A true CN115205179A (zh) | 2022-10-18 |
Family
ID=83581927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210837773.XA Pending CN115205179A (zh) | 2022-07-15 | 2022-07-15 | 图像融合的方法、装置、车辆及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205179A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746204A (zh) * | 2024-02-19 | 2024-03-22 | 电子科技大学 | 一种基于图像和毫米波雷达融合的概率目标检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190126152A1 (en) * | 2017-11-01 | 2019-05-02 | Sony Interactive Entertainment Inc. | Emoji-based communications derived from facial features during game play |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
US20210081729A1 (en) * | 2019-09-16 | 2021-03-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for image text recognition, apparatus, device and storage medium |
CN113762187A (zh) * | 2021-09-14 | 2021-12-07 | 中国人民解放军海军航空大学 | 一种多源遥感图像融合语义分割方法及系统 |
CN114328988A (zh) * | 2021-11-24 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 多媒体数据的特征提取方法、多媒体数据检索方法及装置 |
CN114639002A (zh) * | 2022-03-14 | 2022-06-17 | 西安电子科技大学 | 一种基于多模式特征的红外与可见光图像融合方法 |
CN114694001A (zh) * | 2022-02-15 | 2022-07-01 | 北京深睿博联科技有限责任公司 | 一种基于多模态图像融合的目标检测方法及装置 |
-
2022
- 2022-07-15 CN CN202210837773.XA patent/CN115205179A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190126152A1 (en) * | 2017-11-01 | 2019-05-02 | Sony Interactive Entertainment Inc. | Emoji-based communications derived from facial features during game play |
US20210081729A1 (en) * | 2019-09-16 | 2021-03-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for image text recognition, apparatus, device and storage medium |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN113762187A (zh) * | 2021-09-14 | 2021-12-07 | 中国人民解放军海军航空大学 | 一种多源遥感图像融合语义分割方法及系统 |
CN114328988A (zh) * | 2021-11-24 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 多媒体数据的特征提取方法、多媒体数据检索方法及装置 |
CN114694001A (zh) * | 2022-02-15 | 2022-07-01 | 北京深睿博联科技有限责任公司 | 一种基于多模态图像融合的目标检测方法及装置 |
CN114639002A (zh) * | 2022-03-14 | 2022-06-17 | 西安电子科技大学 | 一种基于多模式特征的红外与可见光图像融合方法 |
Non-Patent Citations (2)
Title |
---|
VIBASHAN VS ET AL.: "Image Fusion Transformer", 《ARXIV:2107.09011V3 [CS.CV]》, pages 2 - 3 * |
王梓 等: "基于Transformer模型的卫星单目位姿估计方法", 《航空学报》, vol. 43, no. 5, pages 4 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746204A (zh) * | 2024-02-19 | 2024-03-22 | 电子科技大学 | 一种基于图像和毫米波雷达融合的概率目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115042821B (zh) | 车辆控制方法、装置、车辆及存储介质 | |
CN115330923B (zh) | 点云数据渲染方法、装置、车辆、可读存储介质及芯片 | |
CN114842075B (zh) | 数据标注方法、装置、存储介质及车辆 | |
CN115035494A (zh) | 图像处理方法、装置、车辆、存储介质及芯片 | |
CN115100377A (zh) | 地图构建方法、装置、车辆、可读存储介质及芯片 | |
CN115205365A (zh) | 车辆距离检测方法、装置、车辆、可读存储介质及芯片 | |
CN115123257A (zh) | 路面减速带位置识别方法、装置、车辆、存储介质及芯片 | |
CN115205179A (zh) | 图像融合的方法、装置、车辆及存储介质 | |
CN115056784B (zh) | 车辆控制方法、装置、车辆、存储介质及芯片 | |
CN115203457B (zh) | 图像检索方法、装置、车辆、存储介质及芯片 | |
CN115205311B (zh) | 图像处理方法、装置、车辆、介质及芯片 | |
CN115100630B (zh) | 障碍物检测方法、装置、车辆、介质及芯片 | |
CN114842440B (zh) | 自动驾驶环境感知方法、装置、车辆及可读存储介质 | |
CN114782638B (zh) | 生成车道线的方法、装置、车辆、存储介质及芯片 | |
CN114842455B (zh) | 障碍物检测方法、装置、设备、介质、芯片及车辆 | |
CN115205848A (zh) | 目标检测方法、装置、车辆、存储介质及芯片 | |
CN115042814A (zh) | 交通灯状态识别方法、装置、车辆及存储介质 | |
CN115221151A (zh) | 车辆数据的传输方法、装置、车辆、存储介质及芯片 | |
CN115082772B (zh) | 地点识别方法、装置、车辆、存储介质及芯片 | |
CN115082886B (zh) | 目标检测的方法、装置、存储介质、芯片及车辆 | |
CN115063639B (zh) | 生成模型的方法、图像语义分割方法、装置、车辆及介质 | |
CN114822216B (zh) | 生成车位地图的方法、装置、车辆、存储介质及芯片 | |
CN115147794B (zh) | 车道线确定方法、装置、车辆、介质及芯片 | |
CN115205461B (zh) | 场景重建方法、装置、可读存储介质及车辆 | |
CN114877911B (zh) | 路径规划方法、装置、车辆及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |