CN116206100A - 基于语义信息的图像处理方法及电子设备 - Google Patents

基于语义信息的图像处理方法及电子设备 Download PDF

Info

Publication number
CN116206100A
CN116206100A CN202210121272.1A CN202210121272A CN116206100A CN 116206100 A CN116206100 A CN 116206100A CN 202210121272 A CN202210121272 A CN 202210121272A CN 116206100 A CN116206100 A CN 116206100A
Authority
CN
China
Prior art keywords
image
feature
semantic
feature map
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210121272.1A
Other languages
English (en)
Inventor
田博
应国豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Publication of CN116206100A publication Critical patent/CN116206100A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请提供了一种基于语义信息的图像处理方法及电子设备,涉及图像处理技术领域。本申请方案中,以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U‑Net神经网络中,优化图像处理能力。由于本申请方案根据原始图像获取基于不同语义信息的特征图,并基于不同语义信息的特征图,对原始图像在经过U‑Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的图像分割结果,提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。

Description

基于语义信息的图像处理方法及电子设备
本申请要求于2021年11月30日提交国家知识产权局、申请号为202111442371.1、申请名称为“基于语义信息的图像处理方法及电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于语义信息的图像处理方法及电子设备。
背景技术
图像语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签。
目前,利用卷积神经网络(convolutional neuron network,CNN)来处理图像语义分割任务是业界比较普遍的方案。在该方案中,利用CNN先对输入图像进行编码(下采样),再进行解码(上采样)和融合操作,得到最终的图像分割结果。然而,基于该方案得到的图像分割结果在图像纹理细节上不够清晰,导致图像处理效果不佳。
发明内容
本申请提供一种基于语义信息的图像处理方法及电子设备,能够优化图像中的特定语义部分,使得图像纹理更加清晰。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种基于语义信息的图像处理方法,该方法包括:
基于待处理图像的语义标签图,获取第一特征数据和第二特征数据;其中,所述语义标签图是采用不同标签表示不同语义信息的矩阵;所述第一特征数据和所述第二特征数据分别包含不同特征强度的语义信息;
根据所述第一特征数据、所述第二特征数据和第一特征图,获得基于不同语义信息的特征图;其中,所述第一特征图是将所述待处理图像输入二维卷积网络后得到的特征映射矩阵;
将所述基于不同语义信息的特征图和所述待处理图像的第二特征图进行融合,获得目标特征图;其中,所述第二特征图是将所述待处理图像输入U-Net神经网络后得到的特征映射矩阵;
对所述目标特征图进行二维卷积运算,得到目标图像。
通过本申请实施例提供的基于语义信息的图像处理方法,以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,优化图像处理能力。由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的分割结果,提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
在一些可能的实现方式中,上述根据所述第一特征数据、所述第二特征数据和第一特征图,获得基于不同语义信息的特征图,可以包括:
将所述第二特征数据和所述待处理图像的第一特征图之间的点乘结果,与所述第一特征数据相加,得到所述基于不同语义信息的特征图。
在一些可能的实现方式中,上述基于待处理图像的语义标签图,获取第一特征数据和第二特征数据,具体可以包括:
采用第一权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第一特征数据;
采用第二权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第二特征数据。
本申请方案以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,可以优化图像处理能力。
在一些可能的实现方式中,所述第二特征数据中预设语义信息的特征强度大于所述第一特征数据中所述预设语义信息的特征强度。
在一些可能的实现方式中,上述将所述基于不同语义信息的特征图和所述待处理图像的第二特征图进行融合,获得目标特征图,具体可以包括:
将所述基于不同语义信息的特征图与所述待处理图像的第二特征图进行逐像素求和运算,得到所述目标特征图。
由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的分割结果,由此可以提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。
在一些可能的实现方式中,在所述基于待处理图像的语义标签图,获取第一特征数据和第二特征数据之前,本申请实施例提供的基于语义信息的图像处理方法还可以包括:
将所述待处理图像输入语义分割模型;
通过所述语义分割模型对所述待处理图像进行语义分割,得到所述语义标签图。
在一些可能的实现方式中,本申请实施例提供的基于语义信息的图像处理方法还可以包括:
通过电子设备的摄像头连续采集多帧图像;
将所述多帧图像进行图像配准,得到所述待处理图像。
在一些可能的实现方式中,在所述获得目标特征图之后,本申请实施例提供的基于语义信息的图像处理方法还可以包括:
通过电子设备的显示屏显示所述目标图像。
电子设备所拍摄的图像在经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
在一些可能的实现方式中,在根据所述基于不同语义信息的特征图和所述待处理图像的第二特征图,获得目标特征图之前,本申请实施例提供的基于语义信息的图像处理方法还可以包括:
对所述待处理图像进行二维卷积运算,得到中间特征图;
将所述中间特征图输入所述U-Net神经网络,输出得到所述第二特征图。
在一些可能的实现方式中,上述将所述中间特征图输入所述U-Net神经网络,输出得到所述第二特征图,具体可以包括:
将所述中间特征图输入所述U-Net神经网络;
通过所述U-Net神经网络,对所述中间特征图依次进行N次下采样处理和N次上采样处理;其中,在每次上采样处理得到的特征图与对应等级的下采样处理得到的特征图进行特征融合之后,再基于特征融合得到的特征图进行下一次的上采样处理;
当执行完第N次上采样处理之后,得到所述第二特征图。
第二方面,本申请提供一种基于语义信息的图像处理装置,该装置包括用于执行上述第一方面中的方法的单元。该装置可对应于执行上述第一方面中描述的方法,该装置中的单元的相关描述请参照上述第一方面的描述,为了简洁,在此不再赘述。
其中,上述第一方面描述的方法可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,图像特征提取单元或模块、图像特征融合单元或模块和图像输出单元或模块等。
其中,图像特征提取单元可以用于根据待处理图像的语义标签图,获取所述待处理图像的第一特征数据和第二特征数据;其中,所述语义标签图是采用不同标签表示不同语义信息的矩阵;所述第一特征数据和所述第二特征数据分别包含不同的语义信息;
其中,图像特征融合单元可以用于根据所述第一特征数据、所述第二特征数据和第一特征图,获得基于不同语义信息的特征图;其中,所述第一特征图是将所述待处理图像输入二维卷积网络后得到的特征映射矩阵;
其中,图像特征融合单元可以还用于将所述基于不同语义信息的特征图和所述待处理图像的第二特征图进行融合,获得目标特征图;其中,所述第二特征图是将所述待处理图像输入U-Net神经网络后得到的特征映射矩阵;
其中,图像输出单元可以用于对所述目标特征图进行二维卷积运算,得到目标图像。
可选地,在一些可能的实现方式中,上述图像特征融合单元具体可以用于:
将所述第二特征数据和所述待处理图像的第一特征图之间的点乘结果,与所述第一特征数据相加,得到所述基于不同语义信息的特征图。
可选地,在一些可能的实现方式中,上述图像特征提取单元具体可以用于:
采用第一权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第一特征数据;
采用第二权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第二特征数据。
可选地,在一些可能的实现方式中,所述第二特征数据中预设语义信息的特征强度大于所述第一特征数据中所述预设语义信息的特征强度。
可选地,在一些可能的实现方式中,上述图像特征融合单元可以具体用于:
将所述基于不同语义信息的特征图与所述待处理图像的第二特征图进行逐像素求和运算,得到所述目标特征图。
可选地,在一些可能的实现方式中,本申请实施例提供的基于语义信息的图像处理装置还可以包括图像语义分割单元;
其中,图像语义分割模块可以用于:将所述待处理图像输入语义分割模型;并通过所述语义分割模型对所述待处理图像进行语义分割,得到所述语义标签图。
进一步地,图像特征提取单元可以根据待处理图像的语义标签图,获取所述待处理图像的第一特征数据和第二特征数据。
可选地,在一些可能的实现方式中,本申请实施例提供的基于语义信息的图像处理装置还可以包括图像采集单元。其中,图像采集单元可以用于:通过电子设备的摄像头连续采集多帧图像;并将所述多帧图像进行图像配准,得到所述待处理图像。
可选地,在一些可能的实现方式中,本申请实施例提供的基于语义信息的图像处理方法还可以包括图像显示单元。其中,图像显示单元可以用于在图像输出单元830获得目标特征图之后,通过电子设备的显示屏显示所述目标图像。
可选地,在一些可能的实现方式中,图像特征提取单元还可以用于:对所述待处理图像进行二维卷积运算,得到中间特征图;并将所述中间特征图输入所述U-Net神经网络,输出得到所述第二特征图。
进一步地,图像特征融合单元可以根据上述基于不同语义信息的特征图和待处理图像的第二特征图,获得目标特征图。
可选地,在一些可能的实现方式中,图像特征提取单元具体可以用于:将所述中间特征图输入所述U-Net神经网络;并通过所述U-Net神经网络,对所述中间特征图依次进行N次下采样处理和N次上采样处理;其中,在每次上采样处理得到的特征图与对应等级的下采样处理得到的特征图进行特征融合之后,再基于特征融合得到的特征图进行下一次的上采样处理。当执行完第N次上采样处理之后,得到所述第二特征图。
第三方面,本申请提供一种电子设备,所述电子设备包括处理器,处理器与存储器耦合,存储器用于存储计算机程序或指令,处理器用于执行存储器存储的计算机程序或指令,使得第一方面中的方法被执行。例如,处理器用于执行存储器存储的计算机程序或指令,使得该装置执行第一方面中的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有用于实现第一方面中的方法的计算机程序(也可称为指令或代码)。例如,该计算机程序被计算机执行时,使得该计算机可以执行第一方面中的方法。
第五方面,本申请提供一种芯片,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面及其任意可能的实现方式中的方法。可选地,所述芯片还包括存储器,存储器与处理器通过电路或电线连接。
第六方面,本申请提供一种芯片系统,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面及其任意可能的实现方式中的方法。可选地,所述芯片系统还包括存储器,存储器与处理器通过电路或电线连接。
第七方面,本申请提供一种计算机程序产品,所述计算机程序产品包括计算机程序(也可称为指令或代码),所述计算机程序被计算机执行时使得所述计算机实现第一方面中的方法。
可以理解的是,上述第二方面至第七方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
图1为本申请实施例涉及的图像语义分割的图像处理效果示意图;
图2为本申请实施例提供的一种基于语义信息的图像处理方法的流程示意图;
图3为本申请实施例提供的基于语义信息的图像处理方法中采用的语义标签图的示意图;
图4为本申请实施例提供的基于语义信息的图像处理方法中获取基于语义信息的特征图的示意性框图;
图5为本申请实施例提供的基于语义信息的图像处理方法中采用的U-Net神经网络的示意性框图;
图6为本申请实施例提供的基于语义信息的图像处理方法的整体示意性框图;
图7为本申请实施例提供的另一种基于语义信息的图像处理方法的流程示意图;
图8为本申请实施例提供的基于语义信息的图像处理方法中关于语义分割和语义标签标注的图像处理效果示意图;
图9为本申请实施例提供的再一种基于语义信息的图像处理方法的流程示意图;
图10为本申请实施例提供的又一种基于语义信息的图像处理方法的流程示意图;
图11为本申请实施例提供的基于语义信息的图像处理方法应用的图像效果对比示意图;
图12为本申请实施例提供的一种基于语义信息的图像处理装置的结构示意图;
图13为本申请实施例提供的另一种基于语义信息的图像处理装置的结构示意图;
图14为本申请实施例提供的再一种基于语义信息的图像处理装置的结构示意图;
图15为本申请实施例提供的又一种基于语义信息的图像处理装置的结构示意图;
图16为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一特征图和第二特征图等是用于区别不同的特征图,而不是用于描述特征图的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
为便于理解本申请实施例,以下对本申请实施例的部分用语进行解释说明,以便于本领域技术人员理解。
1)图像分割
图像分割是计算机视觉中非常重要的任务,其目标是为图像中的每个像素点分类,即像素级别的分类任务。目前的图像分割任务主要有三种:普通分割,语义分割和实例分割。
普通分割:将分属不同物体的像素区域分开,即目标检测。
语义分割:在普通分割的基础上,分类出每一块区域的语义(即这块区域是什么物体),即将画面中的所有物体都指出他们各自的类别。
实例分割:在语义分割的基础上,给每个物体编号。即不但要进行像素级别的分类,还需在具体的类别基础上区别开不同的实例。
具体到本申请方案,主要涉及语义分割,下面将结合语义分割进行说明。由于图像是由许多像素(pixel)组成的,因此语义分割可以理解为将像素按照图像中表达语义含义的不同进行分组(grouping)或者分割(segmentation)。通过图像语义分割,可以自动分割并识别出图像中的内容。在语义分割时,首先明确分类数量,然后为每个类别创建一个输出通道(channel)。其中,单一通道代表了某一特定类别所存在的区域。语义分割后的结果可以表示为(H,W,C)或者H×W×C。
示例性地,如图1中(a)和(b)所示,在原始图像经过语义分割之后,原始图像被分割成四个语义类别:猫、树、云朵和背景,对应地可以输出4个通道,语义分割后的结果可以表示为(H,W,4)或者H×W×4,其中每个通道对像素点进行单类别的分类为1或0。
本申请实施例提供了一种基于语义信息的图像处理方法,以待处理图像(也称为原始图像或者raw图)中每个像素的语义种类为先验信息,优化图像处理能力,提升对应语义区域的图像质量。
2)深度神经网络
上述图像语义分割的任务可以采用深度神经网络完成。深度神经网络可以包括卷积神经网络和反卷积神经网络。
卷积神经网络与图像特征的提取有关,将输入图像转化为多维特征矩阵。反卷积神经网络相当于一个分割区域生成器,其可以利用卷积神经网络提取出的图像特征,对物体进行语义分割。
整个深度神经网络的输出是一个概率矩阵图,该概率矩阵图与输入图像的大小一致,矩阵图的每个位置上元素的值,代表对应图像上相同位置的像素点的分类概率,即该像素点所属于的物体是某类别物体的概率。
可以理解的是,深度神经网络可以理解为一个编码和解码的网络结构。通过卷积网络,图像被卷积成为小矩阵;通过反卷积网络,将小矩阵还原成大图像。
3)特征图(feature map)
卷积神经网络包括但不限于一个或更多个卷积层,每一个卷积层可以包括多个滤波器(或称为卷积核),每个滤波器实质上是一个数组,其中的数字被称为卷积权重或参数。卷积神经网络的卷积层的作用是对输入进行卷积操作,例如第一层卷积层中的滤波器会以设定的步长在样本上滑动,在每个滑动位置,滤波器的数组与样本数据相乘后相加得到一个数值,将滑动过程中得到的所有数值组成一个新的数组,该新的数组被称为特征图,特征图中的每个数值也就是该特征图的一个特征。
其中,特征图可以表示成H×W×C的三维矩阵,该三维矩阵中可以包括C个H×W的二维矩阵。其中,H代表待处理图像的像素高度,W代表待处理图像的像素宽度,C代表待处理图像的通道数,例如一个RGB图像的通道数为3。
示例性地,对于一张H×W的RGB图像,对应的特征图可以表示为H×W×3的三维矩阵。
示例性地,对于一张H×W的灰度图像,对应的特征图可以表示为H×W×1的三维矩阵。
4)U-Net神经网络
U-Net神经网络属于卷积神经网络,已经广泛应用于图像语义分割。U-Net神经网络也称为U-Net网络结构,其最主要的两个特点是:U型网络结构和跳层连接(skipconnection)。
在U-Net的U型网络结构中,先进行多次下采样(也被称为降采样),再进行多次上采样。下采样用于提取图像特征,得到特征图;下采样方法可以包括多层卷积和池化,可以视作是图像编码的过程。上采样(up-sampling)用于提高图像的分辨率,通过对下采样输出的特征图进行多次上采样,逐渐得到一个与原始输入大小一致的分割图像。上采样方法可以包括最近邻插值、双线性插值或者双立方插值。其中,跳跃连接是在上采样的过程中,融合下采样过程中的特征图。
具体到本申请方案,可以将待处理图像中每个像素的语义种类作为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,优化图像处理能力。由于本申请方案从原始图像获取基于不同语义信息的特征图,并基于不同语义信息的特征图,对原始图像经过U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的语义分割结果,提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。
本申请实施例中的电子设备可以为移动终端,也可以为非移动终端。示例性的,移动终端可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动终端可以为个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例提供的基于语义信息的图像处理方法的执行主体可以为上述的电子设备,也可以为该电子设备中能够实现该基于语义信息的图像处理方法的功能模块和/或功能实体,并且本申请方案能够通过硬件和/或软件的方式实现,具体的可以根据实际使用需求确定,本申请实施例不作限定。下面以电子设备为例,结合附图对本申请实施例提供的基于语义信息的图像处理方法进行示例性的说明。
图2是本申请实施例提供的基于语义信息的图像处理方法的流程示意图。参照图2所示,该方法包括下述的步骤S101-S104。
S101,根据待处理图像的语义标签图,获取待处理图像的第一特征数据和第二特征数据;其中,该语义标签图是采用不同标签表示不同语义信息的矩阵;该第一特征数据和第二特征数据分别包含不同特征强度的语义信息。
在本申请实施例中,可以将拍摄场景中拍摄得到的图像,作为待处理图像。然后,根据待处理图像获取对应的语义标签图。其中,语义标签图与待处理图像对应,语义标签图中采用不同的语义标签标识待处理图像中的不同语义区域。
可选地,可以通过对待处理图像进行人工语义标注,得到语义标签图,当然还采用其他图像处理方式得到语义标签图,具体如何获取语义标签图的步骤将在下文中详细介绍,此处不予赘述。
其中,待处理图像的语义标签图中可以包括多个标签,该多个标签分别表示不同的语义信息。也就是说,一个标签可以表示一种语义信息,不同的标签表示不同的语义信息。
示例性地,图3中(a)示出了待处理图像的示意图,图3中(b)示出了待处理图像的语义标签图的示意图,该语义标签图中示例性地标注了四个语义标签:0,1,2,3;其中0表示的语义信息为背景,1表示的语义信息为猫,2表示的语义信息为树,3表示的语义信息为云朵。通过图3中(b)可见,这些标签分别位于待处理图像的对应区域,分别指示待处理图像的对应区域的图像特征。在实际实现时,根据待处理图像中标注的语义标签,即可确定对应区域的语义信息或图像特征。
需要说明的是,上述图3所示的语义标签图为示例性地说明,具体可以根据实际使用需求确定,本申请实施例不作限定。例如,在实际实现时,语义标签图中可以包括更多个语义标签,表示更多语义分割类别信息;并且,可以在待处理图像中逐像素标注语义标签,以实现更准确的图像语义分割。
在本申请实施例中,可以基于待处理图像的语义标签图进行特征提取处理,得到待处理图像的特征数据。对于特征提取,卷积神经网络的浅层结构可以提取到原始图像的一些简单特征,比如边界、颜色,而卷积神经网络的深层结构可以提取到原始图像的一些抽象特征,例如细节、纹理。
由于本申请实施例提供的方案侧重于针对待处理图像中的特定语义信息对应的特征区域进行图像清晰度优化,因此可以基于待处理图像的语义标签图,提取两项或更多项特征数据,这些特征数据可以包含不同特征强度的语义信息。为了便于说明,本申请实施例中以两项或更多项特征数据包括第一特征数据和第二特征数据进行示例性地说明。
可选地,在本申请实施例中,可以通过对待处理图像进行卷积运算,以提取图像特征。
示例性地,上述步骤S101可以包括下述可能的实现方式:
采用第一权重矩阵对待处理图像的语义标签图进行卷积运算,得到第一特征数据;
采用第二权重矩阵对待处理图像的语义标签图进行卷积运算,得到第二特征数据。
示例性地,参考图4,可以将待处理图像的语义标签图(记为X,这里为示例性的语义标签图)输入到第一特征提取模块,第一特征提取模块采用第一权重矩阵(也称为卷积权重Wγ)对待处理图像的语义标签图X进行卷积运算,得到第一特征数据(记为γ):γ=WγX。
再参考图4,可以将待处理图像的语义标签图X输入到第二特征提取模块,第二特征提取模块采用第二权重矩阵(也称为卷积权重Wβ)对待处理图像的语义标签图X进行卷积运算,得到第二特征数据(记为β):β=WβX。
需要说明的是,上述第一特征提取模块和第二特征提取模块可以是通过卷积运算以提取图像特征的模块,可以是通过其他方式提取图像特征的模块,本申请实施例对此不作限定。
可选地,第一特征提取模块和/或第二特征提取模块可以是反卷积网络(或称为转置卷积网络),反卷积网络能够从底层边界到高层目标自动提取丰富的隐式特征。利用反卷积网络可以自动提取图像高层特征,此高层特征通常比原始数据集更能反映样本的本质。并且,从底层提取到的特征基本上是颜色、边缘等低层特征;中高层提取到的特征可以是纹理特征、比较有辨别性关键特征。
可选地,在本申请实施例中,第一特征数据包括第一特征强度的语义信息,第二特征数据包括第二特征强度的语义信息,第一特征强度(对应于卷积权重Wγ)和第二特征强度(对应于卷积权重Wβ)不同。可选地,第一特征强度大于第二特征强度;或者,第二特征强度大于第一特征强度。为了便于说明,下文中以第二特征强度大于第一特征强度为例进行示例性说明。示例性地,假设卷积权重Wγ取0.3,卷积权重Wβ取0.7;相应地,第一特征强度可以为0.3,第二特征强度可以为0.7。
示例性地,第一特征强度可以采用颜色特征的权重因数,纹理特征的权重因数和/或形状特征的权重因数表示。相应地,第二特征强度可以采用颜色特征的权重因数,纹理特征的权重因数和/或形状特征的权重因数表示。
需要说明的是,第一特征强度和第二特征强度在表示方式上应该保持一致。例如,第一特征强度和第二特征强度均采用纹理特征的权重因数表示。示例性地,假设第一特征强度为0.3,第二特征强度为0.7,那么与第一特征强度的语义信息(或者语义区域)对应的纹理特征的权重因数为0.3,与第二特征强度的语义信息(或者语义区域)对应的纹理特征的权重因数为0.7。
可以理解,某一语义区域对应的纹理特征的权重因数越大,对该语义区域的纹理特征的优化更强化,则该语义区域的图像越清晰。
示例性地,第二特征数据中可以包含预设语义信息,例如猫,即从原始图像中提取出关键的信息,该预设语义信息具有第二特征强度,例如第二特征强度对应纹理特征的权重因数,且第二特征强度设置为0.7。第一特征数据中可以包含原始图像中的所有语义信息,例如猫、树、云朵和背景,这些语义信息均具有第一特征强度,例如第一特征强度对应纹理特征的权重因数,且第一特征强度设置为0.3。其中,第二特征数据中预设语义信息“猫”的第二特征强度大于第一特征数据中“猫”的第一特征强度。
也就是说,可以通过采用第二权重矩阵对待处理图像的语义标签图进行卷积运算,使得待处理图像中的预设语义信息(例如“猫”)对应的特征强度被增大,即第二特征数据中预设语义信息(例如“猫”)的特征区域被加强优化,因此这样有利于对待处理图像中的特定语义信息(例如“猫”)对应的特征区域进行图像清晰度优化。
可以理解的是,第二特征数据是针对待处理图像的特定语义信息进行加强处理后的特征数据,第一特征数据可以作为基准特征数据,后期通过将第一特征数据与第二特征数据融合,可以实现针对待处理图像中特定语义信息对应的图像特征的加强优化,同时保证图像中的其他图像特征不丢失。
可选地,在本申请实施例中,上述第一特征数据和第二特征数据可以是特征映射矩阵,也可以是经过归一化处理的处于[0,1]范围内的数值,具体可以根据实际使用需求确定,本申请实施例不作限定。
S102,根据第一特征数据、第二特征数据和待处理图像的第一特征图,获得基于不同语义信息的特征图;其中,该第一特征图是将待处理图像输入二维卷积网络后得到的特征映射矩阵。
在本申请实施例中,待处理图像的第一特征图可以表示为H×W×C的三维矩阵,该三维矩阵中可以包括C个H×W的二维矩阵。示例性地,对于一张256×256的RGB待处理图像,对应的第一特征图可以表示为256×256×3的三维矩阵。
可选地,在本申请实施例中,上述步骤S102可以包括下述可能的实现方式:将第二特征数据和待处理图像的第一特征图之间的点乘结果,与第一特征数据相加,得到基于不同语义信息的特征图。
示例性地,下面再参考图4对上述运算过程进行示意性地说明。如图4所示,待处理图像(也称为原始图像),通过二维卷积运算(conv2d),得到第一特征图(记为m1)。然后,将第二特征数据β与待处理图像的第一特征图m1进行点乘运算,得到β*m1。然后将点乘运算结果β*m1与第一特征数据γ相加,得到基于不同语义信息的特征图,记为Sf;其中,Sf=β*m1+γ。
再参考图4所示,原始图像可以是参考帧图像,通过图像语义分割,可以得到语义标签图X。需要说明的是,在获取到多帧图像的情况下,可以将多帧图像中的某一帧图像作为基准图像,用于多帧图像的匹配及对准,该基准图像即为上述参考帧图像。
S103,将基于不同语义信息的特征图和待处理图像的第二特征图进行融合,获得目标特征图;其中,该第二特征图是将待处理图像输入U-Net神经网络后得到的特征映射矩阵。
可选地,在本申请实施例中,上述步骤S103可以包括下述可能的实现方式:将基于不同语义信息的特征图与待处理图像的第二特征图进行逐像素求和运算,得到目标特征图(记为M)。本申请方案以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,可以优化图像处理能力。
可选地,在本申请实施例中,在上述步骤S103之前,本申请实施例提供的基于语义信息的图像处理方法还可以包括:对待处理图像进行二维卷积运算,得到中间特征图。然后,将中间特征图输入U-Net神经网络,输出得到第二特征图。
在本申请实施例中,U-Net神经网络可以采用通道(channel)上的叠加融合(concat)方式,对上采样特征图H×W×C1和下采样特征图H×W×C2进行相同尺度融合或拼接,拼接后得到的特征图可表示为:H×W×(C1+C2)。
对于在通道(channel)维度上的叠加融合(concat),此时由于通道的数量增加,因此拼接后得到的特征图可以具有更多的特征表示。
示例性地,假设U-Net神经网络可以包括N次下采样处理和N次上采样处理。在将中间特征图输入U-Net神经网络之后,通过U-Net神经网络,对中间特征图依次进行N次下采样处理和N次上采样处理。其中,U-Net神经网络采用通道(channel)上的叠加融合(concat)方式,对上采样特征图和下采样特征图进行相同尺度融合或拼接。例如,每次上采样处理得到的特征图与对应等级的下采样处理得到的特征图进行叠加融合;并且,在每次上采样处理得到的特征图与对应等级的下采样处理得到的特征图进行特征融合之后,再基于特征融合得到的特征图进行下一次的上采样处理。最后,当执行完第N次上采样处理之后,可以得到第二特征图。
示例性地,如图5所示,假设N取3,图5中所示结构是原始图像经过三次下采样,三次上采样,得到分割结果。具体地,首先,对待处理图像(例如多帧原始图像)进行二维卷积运算,得到中间特征图m0,将中间特征图m0输入U-Net神经网络。然后,对中间特征图m0进行第一次下采样,得到中间特征图md1;然后,对中间特征图md1进行第二次下采样,得到中间特征图md2;然后,对中间特征图md2进行第三次下采样,得到中间特征图md3
接下来,如图5所示,对第三次下采样得到的中间特征图md3进行第一次上采样,并将第一次上采样的结果与第二次下采样得到的中间特征图md2进行叠加融合(concat),得到中间特征图mu3;然后,对中间特征图mu3进行第二次上采样,并将第二次上采样的结果与第一次下采样得到的中间特征图md1进行叠加融合(concat),得到中间特征图mu2;然后,对中间特征图mu2进行第三次上采样,并将第三次上采样的结果与中间特征图m0进行叠加融合(concat),得到第二特征图mu1
进一步地,可以将基于不同语义信息的特征图Sf和待处理图像的第二特征图mu1进行融合,获得目标特征图M;其中,M=Sf+mu1
示例性地,目标特征图可以是H×W×32的三维矩阵,其中通道数为32。
示例性地,目标特征图可以是H×W×64的三维矩阵,其中通道数为64。
需要说明的是,特征图的通道数越多,语义分割结果越精准,对应语义区域的图像清晰度越高。
由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的分割结果,由此可以提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。
S104,对目标特征图进行二维卷积运算,得到目标图像。
其中,目标图像可以是H×W×3的RGB图像。
示例性地,可以将目标特征图输入反卷积网络,进行反卷积运算,得到目标图像。其中,反卷积网络可以包含有多层次结构,反卷积网络的低层输出可以表示出对象的大致形状,高层输出可以表示出更多的细节。
图6示出了本申请实施例提供的基于语义信息的图像处理方法的整体架构示意图。
如图6所示,根据待处理图像的语义标签图X,获取待处理图像的第一特征数据γ(γ=WγX)和第二特征数据β(β=WβX);其中,语义标签图X是采用不同标签表示不同语义信息的矩阵;第一特征数据γ和第二特征数据β分别包含不同特征强度的语义信息。进一步的,根据第一特征数据γ、第二特征数据β和待处理图像的第一特征图m,获得基于不同语义信息的特征图Sf(Sf=β*m1+γ)。其中,第一特征图m是将待处理图像输入二维卷积网络后得到的特征映射矩阵。
进一步地,图6所示,将基于不同语义信息的特征图Sf和待处理图像的第二特征图mu1(其中,第二特征图是将待处理图像输入U-Net神经网络后得到的特征映射矩阵)进行融合,获得目标特征图M(M=Sf+mu1)。通过本申请方案,基于不同语义信息的特征图Sf,对原始图像经过U-Net神经网络后得到的特征映射矩阵进行微调,从而获得更加精准的图像分割结果。
最后,图6所示,对目标特征图M进行二维卷积运算,得到目标图像。
在实际拍摄过程中,响应于用户的拍摄操作,电子设备首先拍摄得到待处理图像,然后待处理图像在经过本申请方案优化处理后,得到目标图像。例如,目标图像可以为H×W×3的RGB彩色图像。由于本申请方案从原始图像获取不同语义信息的特征图,并基于不同语义信息的特征图,对通过将原始图像输入U-Net神经网络后得到的特征图(特征映射矩阵)进行微调,因此可以获得更加精准的语义分割结果,由此可以提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。也就是说,目标图像中的特定语义部分明显优化,纹理更加清晰。
示例性地,以人像模式拍摄场景为例,假设拍摄得到的待处理图像中含有人像和背景,由于该待处理图像中通常不作语义区域区分,因此人像语义区域的特征强度和背景语义区域的特征强度是相同的,相应地人像和背景各自语义区域的图像清晰度是一致的。本申请方案会在待处理图像的基础上针对图像中的不同语义信息进行图像优化处理,由于在人像模式下需要重点突出人像特征,因此可以采用本申请提供的图像处理方案,并设置人像语义区域的特征强度大于背景语义区域的特征强度,增强人脸区域的细节纹理优化,使得人脸区域的纹理更加清晰。可以理解,人像语义区域的图像清晰度高于背景语义区域的图像清晰度。通过采用基于语义信息的图像优化解决方案,可以达到更清晰的人像出图效果。
通过本申请实施例提供的基于语义信息的图像处理方法,以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,优化图像处理能力。由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的图像分割结果,提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
可选地,在本申请实施例中,结合图2,如图7所示,在上述步骤S101之前,本申请实施例提供的基于语义信息的图像处理方法还可以包括下述的步骤S105。
S105,将待处理图像输入语义分割模型,通过语义分割模型对待处理图像进行语义分割,得到语义标签图。
在本申请实施例中,将待处理图像输入语义分割模型,对原始图像进行语义分割,根据像素区域中的语义确定该像素区域对应的标签,并在该像素区域标注标签,这样使得原始图像的每个像素区域都标注了对应的标签,从而得到原始图像对应的语义标签图(也称为类别标签图)。
可选地,语义标签图中可以包括一个或更多个语义标签,表示一个或更多个语义分割类别信息。在本申请实施例中,可以建立图像特征与标签的映射关系。
例如,可以在待处理图像中逐像素标注语义标签,获得像素级别的图像分割图,可以实现更准确的图像语义分割。
在本申请实施例中,语义分割模型可以包括语义分割功能和语义标签标注功能,通过语义分割功能可以得到语义分割图像,然后通过语义标签标注功能可以得到语义标签图。如此,通过语义分割模型对待处理图像进行语义分割,可以得到语义标签图。
示例性地,一幅RGB彩色图像(H×W×3)或一幅灰度图像(H×W×1),经过深度卷积神经网络后输出一个分割图谱,即语义标签图。该语义标签图中可以包括每个像素的类别标签。
下面结合图8的图像语义分割示例图,对语义分割进行示例性说明。首先,如图8中(a)和(b)所示,将待处理图像输入语义分割模型中,通过语义分割模型对待处理图像进行语义分割,输出如图8中(b)所示的语义分割图像。进一步地,如图8中(b)和(c)所示,对语义分割图像标注语义标签,得到如图8中(c)所示的语义标签图。通过图像语义分割技术,可以将图片中具有相同语义的像素区域(例如“猫”、“树”、“云朵”)从图像中标注出来,这样可以更好地分析和理解图像中的语义信息。
在实际实现时,本申请实施例提供的基于语义信息的图像处理方法可以应用于电子设备拍摄图像的场景中。在本申请实施例中,在用户使用手机拍照的场景中,可以采用本申请的方案对拍摄的图像自动进行优化处理,能够提升手机拍摄效果,给用户带来更好的用户体验。
示例性地,电子设备可以预先针对相机系统的一种或多种拍摄模式(例如人像模式)设置LITE开启状态,这样电子设备的相机系统将会默认采用本申请实施例提供的上述基于语义信息的图像处理方法对拍摄图像进行优化处理。
其中,该设置为系统内部实现,无需用户操作触发。
以针对人像模式设置LITE开启状态为例,可以针对人像模式设置人像语义区域的特征强度大于背景语义区域的特征强度。具体地,在人像模式下拍摄场景(相机系统处于人像模式)中,将会针对所拍摄的原始图像进行下述处理:从原始图像获取不同语义信息的特征图,基于不同语义信息的特征图,对通过将原始图像输入U-Net神经网络后得到的特征图(特征映射矩阵)进行微调,因此可以获得更加精准的语义分割结果,由此可以提升人像语义区域的图像质量,使得人像语义区域的图像清晰度更高。
需要说明的是,本文以针对人像模式设置LITE开启状态为例进行示例性说明,可以理解的是,在实际实现时,还可以针对其他拍摄模式设置LITE开启状态。同样,通过用户在相机系统(例如相机app)中设置LITE开启状态来触发启用本申请方案,也是示例性说明,具体本申请方案的触发启用方式还可以是其他方式,本申请实施例对此不作限定。
可选地,在本申请实施例中,可以根据电子设备所处环境的明暗对比度、光线强度和/或感光度(也称为曝光度,可以表示为ISO)等参数,确定LITE模式何时开启,并在满足条件时电子设备自动开启该LITE模式,而无需用户操作。
示例性地,在实际实现时,当电子设备的相机应用处于开启状态时,如果电子设备检测到周围环境的明暗对比度小于或等于预设对比度阈值、光线强度大于或等于预设强度,且ISO值小于或等于预设ISO阈值,那么满足开启LITE模式的条件,电子设备可以开启LITE模式。在开启LITE模式后,用户通过电子设备的相机应用拍摄得到的照片,将会通过本申请方案自动进行优化处理,用户无感知。由于通过本申请方案可以获得更加精准的分割结果,因此拍摄的图片经过优化处理后,可以提升图像质量,使得图像清晰度更高。
可选地,在本申请实施例中,结合图7,如图9所示,在上述步骤S105之前,本申请实施例提供的基于语义信息的图像处理方法还可以包括下述的步骤S106和S107。
S106,通过电子设备的摄像头连续采集多帧图像。
S107,将多帧图像进行图像配准,得到待处理图像。
可选地,在本申请实施例中,结合图9,如图10所示,在上述步骤S104之前,本申请实施例提供的基于语义信息的图像处理方法还可以包括下述的步骤S108。
S108,通过电子设备的显示屏显示目标图像。
在本申请实施例中,在电子设备的相机应用中,假设与上述基于语义信息的图像处理方法对应的图像处理功能处于开启状态,在用户触发图像拍摄控件后,电子设备可以通过摄像头连续采集多帧图像,并将该多帧图像进行图像配准,得到一帧待处理图像;然后采用本申请实施例提供的上述基于语义信息的图像处理方法进行图像优化处理,得到目标图像,提升图像清晰度;然后,通过电子设备的显示屏显示该目标图像。
本申请方案采用特定数据集的精调(fine tune)模型,对摄像的成像图进行优化,可以达到更清晰的图像出图效果,从输出图像可以看到对应语义部分有优化效果。示例性地,图11示出了本申请方案优化后的图像与未处理图像的对比图。图11中(a)示出了未处理图像,图11中(b)示出了采用本申请实施例提供的基于语义信息的图像处理方法优化后的图像。由此可见,经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
在本申请方案中,从神经网络结构的形状和深度来看,采用了不同的卷积核(kernels)加入语义信息,换言之,让不同语义信息经过不同二维卷积核后再拼接到U-Net神经网络中,以优化图像,让图像清晰度更高。
通过本申请实施例提供的基于语义信息的图像处理方法,以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,优化图像处理能力。由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的分割结果,提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
也需要说明的是,在本申请实施例中,“大于”可以替换为“大于或等于”,“小于或等于”可以替换为“小于”,或者,“大于或等于”可以替换为“大于”,“小于”可以替换为“小于或等于”。
本文中描述的各个实施例可以为独立的方案,也可以根据内在逻辑进行组合,这些方案都落入本申请的保护范围中。
可以理解的是,上述各个方法实施例中由电子设备实现的方法和操作,也可以由可用于电子设备的部件(例如芯片或者电路)实现。
上文描述了本申请提供的方法实施例,下文将描述本申请提供的装置实施例。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
上文主要从方法步骤的角度对本申请实施例提供的方案进行了描述。可以理解的是,为了实现上述功能,实施该方法的电子设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的保护范围。
本申请实施例可以根据上述方法示例,对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有其它可行的划分方式。下面以采用对应各个功能划分各个功能模块为例进行说明。
图12为本申请实施例提供的基于语义信息的图像处理装置800的示意性框图。该装置800可以用于执行上文方法实施例中电子设备所执行的动作。该装置800包括图像特征提取单元810、图像特征融合单元820和图像输出单元830。
图像特征提取单元810,用于根据待处理图像的语义标签图,获取待处理图像的第一特征数据和第二特征数据;其中,该语义标签图是采用不同标签表示不同语义信息的矩阵;该第一特征数据和所述第二特征数据分别包含不同的语义信息;
图像特征融合单元820,用于根据第一特征数据、第二特征数据和待处理图像的第一特征图,获得基于不同语义信息的特征图;其中,该第一特征图是将待处理图像输入二维卷积网络后得到的特征映射矩阵;
图像特征融合单元820,还用于将基于不同语义信息的特征图和待处理图像的第二特征图进行融合,获得目标特征图;其中,该第二特征图是将待处理图像输入U-Net神经网络后得到的特征映射矩阵;
图像输出单元830,用于对目标特征图进行二维卷积运算,得到目标图像。
通过本申请实施例提供的基于语义信息的图像处理装置,以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,优化图像处理能力。由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的分割结果,提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
可选地,在一些可能的实现方式中,上述图像特征融合单元820,具体用于:
将所述第二特征数据和所述待处理图像的第一特征图之间的点乘结果,与所述第一特征数据相加,得到所述基于不同语义信息的特征图。
可选地,在一些可能的实现方式中,上述图像特征提取单元810,具体用于:
采用第一权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第一特征数据;
采用第二权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第二特征数据。
本申请方案以待处理图像中每个像素的语义种类为先验信息,将不同语义信息经过不同二维卷积核后,再拼接到U-Net神经网络中,可以优化图像处理能力。
可选地,在一些可能的实现方式中,所述第二特征数据中预设语义信息的特征强度大于所述第一特征数据中所述预设语义信息的特征强度。
可选地,在一些可能的实现方式中,上述图像特征融合单元820,具体用于:
将所述基于不同语义信息的特征图与所述待处理图像的第二特征图进行逐像素求和运算,得到所述目标特征图。
由于本申请方案基于不同语义信息的特征图,对U-Net神经网络后得到的特征映射矩阵进行微调,因此可以获得更加精准的分割结果,由此可以提升对应语义区域的图像质量,使得对应语义区域的图像清晰度更高。
可选地,在一些可能的实现方式中,结合图12,如图13所示,本申请实施例提供的基于语义信息的图像处理装置800还可以包括图像语义分割单元840;
其中,图像语义分割模块840,用于:
将所述待处理图像输入语义分割模型;
通过所述语义分割模型对所述待处理图像进行语义分割,得到所述语义标签图。
进一步地,图像特征提取单元810可以根据待处理图像的语义标签图,获取所述待处理图像的第一特征数据和第二特征数据。
可选地,在一些可能的实现方式中,结合图13,如图14所示,本申请实施例提供的基于语义信息的图像处理装置800还可以包括图像采集单元850;
其中,图像采集单元850,用于:
通过基于语义信息的图像处理装置800的摄像头连续采集多帧图像;
将所述多帧图像进行图像配准,得到所述待处理图像。
可选地,在一些可能的实现方式中,结合图14,如图15所示,本申请实施例提供的基于语义信息的图像处理方法还可以包括图像显示单元860;
图像显示单元860,用于在图像输出单元830获得目标特征图之后,通过电子设备的显示屏显示所述目标图像。
在拍摄图像经过本申请方案优化后,图像中的特定语义部分明显优化,纹理更加清晰。
可选地,在一些可能的实现方式中,图像特征提取单元810还可以用于:
对所述待处理图像进行二维卷积运算,得到中间特征图;
将所述中间特征图输入所述U-Net神经网络,输出得到所述第二特征图。
进一步地,图像特征融合单元820可以根据上述基于不同语义信息的特征图和待处理图像的第二特征图,获得目标特征图。
可选地,在一些可能的实现方式中,图像特征提取单元810具体可以用于:
将所述中间特征图输入所述U-Net神经网络;
通过所述U-Net神经网络,对所述中间特征图依次进行N次下采样处理和N次上采样处理;其中,在每次上采样处理得到的特征图与对应等级的下采样处理得到的特征图进行特征融合之后,再基于特征融合得到的特征图进行下一次的上采样处理;
当执行完第N次上采样处理之后,得到所述第二特征图。
根据本申请实施例的基于语义信息的图像处理装置800可对应于执行本申请实施例中描述的方法,并且基于语义信息的图像处理装置800中的单元的上述和其它操作和/或功能分别为了实现方法的相应流程,为了简洁,在此不再赘述。
图16是本申请实施例提供的电子设备900的结构性示意性图。该电子设备900可以包括处理器910,外部存储器接口920,内部存储器921,通用串行总线(universal serialbus,USB)接口930,充电管理模块940,电源管理单元941,电池942,天线1,天线2,移动通信模块950,无线通信模块960,音频模块970,扬声器970A,受话器970B,麦克风970C,耳机接口970D,传感器模块980,按键990,马达991,指示器992,摄像头993,显示屏994,以及用户标识模块(subscriber identification module,SIM)卡接口995等。其中传感器模块980可以包括压力传感器980A,陀螺仪传感器980B,气压传感器980C,磁传感器980D,加速度传感器980E,距离传感器980F,接近光传感器980G,指纹传感器980H,温度传感器980I,触摸传感器980J,环境光传感器980K以及骨传导传感器980L等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备900的具体限定。在本申请另一些实施例中,电子设备900可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器910可以包括一个或多个处理单元,例如:处理器910可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,控制器可以是电子设备900的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器910中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器910中的存储器为高速缓冲存储器。该存储器可以保存处理器910刚用过或循环使用的指令或数据。如果处理器910需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器910的等待时间,因而提高了系统的效率。
在一些实施例中,处理器910可以包括一个或多个接口。该接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备900的结构限定。在本申请另一些实施例中,电子设备900也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块940用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块940可以通过USB接口930接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块940可以通过电子设备900的无线充电线圈接收无线充电输入。充电管理模块940为电池942充电的同时,还可以通过电源管理单元941为电子设备供电。
电源管理单元941用于连接电池942,充电管理模块940与处理器910。电源管理单元941接收电池942和/或充电管理模块940的输入,为处理器910,内部存储器921,外部存储器,显示屏994,摄像头993和无线通信模块960等供电。电源管理单元941还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理单元941也可以设置于处理器910中。在另一些实施例中,电源管理单元941和充电管理模块940也可以设置于同一个器件中。
电子设备900的无线通信功能可以通过天线1、天线2、移动通信模块950、无线通信模块960、调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备900中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块950可以提供应用在电子设备900上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块950可以包括至少一个滤波器、开关、功率放大器、低噪声放大器(low noise amplifier,LNA)等。移动通信模块950可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块950还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块950的至少部分功能模块可以被设置于处理器910中。在一些实施例中,移动通信模块950的至少部分功能模块可以与处理器910的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器970A、受话器970B等)输出声音信号,或通过显示屏994显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器910,与移动通信模块950或其他功能模块设置在同一个器件中。
无线通信模块960可以提供应用在电子设备900上的包括WLAN(如Wi-Fi)、BT、全球导航卫星系统(global navigation satellite system,GNSS)、FM、NFC、IR或通用2.4G/5G无线通信技术等无线通信的解决方案。无线通信模块960可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块960经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器910。无线通信模块960还可以从处理器910接收待发送的信号,对其进行调频、放大,经天线2转为电磁波辐射出去。
在一些实施例中,该无线通信模块960可以为Wi-Fi和/或蓝牙芯片。电子设备900可以通过该芯片,与无线耳机等电子设备的芯片之间建立连接,以通过该连接实现电子设备900和其他电子设备之间的无线通信和业务处理。其中,蓝牙芯片通常可以支持BR/EDR蓝牙和BLE。
在一些实施例中,电子设备900的天线1和移动通信模块950耦合,天线2和无线通信模块960耦合,使得电子设备900可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TDSCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备900通过GPU,显示屏994,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏994和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器910可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏994用于显示图像,视频等。显示屏994包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备900可以包括1个或N个显示屏994,N为大于1的正整数。
电子设备900可以通过ISP、摄像头993、视频编解码器、GPU、显示屏994以及应用处理器等实现拍摄功能。
ISP用于处理摄像头993反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中,ISP可以设置在摄像头993中。
摄像头993用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备900可以包括1个或N个摄像头993,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备900在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备900可以支持一种或多种视频编解码器。这样,电子设备900可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备900的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口920可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备900的存储能力。外部存储卡通过外部存储器接口920与处理器910通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器921可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器910通过运行存储在内部存储器921的指令,从而执行电子设备900的各种功能应用以及数据处理。内部存储器921可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备900使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器921可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
处理器910可以用于执行上述程序代码,调用相关模块以实现本申请实施例中电子设备的功能。例如,与另一电子设备建立多个通信链路;在有预设业务(例如文件传输业务等)时,通过多个通信链路与另一电子设备传输预设业务的数据。
电子设备900可以通过音频模块970中的扬声器970A、受话器970B、麦克风970C、耳机接口970D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块970用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块970还可以用于对音频信号编码和解码。在一些实施例中,音频模块970可以设置于处理器910中,或将音频模块970的部分功能模块设置于处理器910中。
扬声器970A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备900可以通过扬声器970A收听音乐,或收听免提通话。
受话器970B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备900接听电话或语音信息时,可以通过将受话器970B靠近人耳接听语音。
麦克风970C,也称“话筒”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风970C发声,将声音信号输入到麦克风970C。电子设备900可以设置至少一个麦克风970C。在另一些实施例中,电子设备900可以设置两个麦克风970C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备900还可以设置三个,四个或更多麦克风970C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口970D用于连接有线耳机。耳机接口970D可以是USB接口930,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器980A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器980A可以设置于显示屏994。压力传感器980A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器980A,电极之间的电容改变。电子设备900根据电容的变化确定压力的强度。当有触摸操作作用于显示屏994,电子设备900根据压力传感器980A检测触摸操作强度。电子设备900也可以根据压力传感器980A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器980B可以用于确定电子设备900的运动姿态。在一些实施例中,可以通过陀螺仪传感器980B确定电子设备900围绕三个轴(例如x,y和z轴)的角速度。陀螺仪传感器980B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器980B检测电子设备900抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备900的抖动,实现防抖。陀螺仪传感器980B还可以用于导航,体感游戏场景。
加速度传感器980E可检测电子设备900在各个方向上(一般为三轴)加速度的大小。当电子设备900静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器980F用于测量距离。电子设备900可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备900可以利用距离传感器980F测距以实现快速对焦。
接近光传感器980G可以包括例如发光二极管(light-emitting diode,LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备900通过发光二极管向外发射红外光。电子设备900使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备900附近有物体。当检测到不充分的反射光时,电子设备900可以确定电子设备900附近没有物体。电子设备900可以利用接近光传感器980G检测用户手持电子设备900贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器980G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器980K用于感知环境光亮度。电子设备900可以根据感知的环境光亮度自适应调节显示屏994亮度。环境光传感器980K也可用于拍照时自动调节白平衡。环境光传感器980K还可以与接近光传感器980G配合,检测电子设备900是否在口袋里,以防误触。
气压传感器980C用于测量气压。在一些实施例中,电子设备900通过气压传感器980C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器980D包括霍尔传感器。电子设备900可以利用磁传感器980D检测电子设备900的位移。在一些实施例中,霍尔传感器可以利用磁铁形成线性的梯形磁场(或称为斜坡磁场),霍尔片在线性磁场中的位移变化与磁场强度变化相一致,形成的霍尔电势也就与位移成正比,电子设备900获取霍尔电势,就可以测量出位移大小。
指纹传感器980H用于采集指纹。电子设备900可以利用采集的指纹特性实现指纹解锁,访问应用锁、指纹拍照、指纹接听来电等。
温度传感器980I用于检测温度。在一些实施例中,电子设备900利用温度传感器980I检测的温度,执行温度处理策略。例如,当温度传感器980I上报的温度超过阈值,电子设备900执行降低位于温度传感器980I附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备900对电池942加热,以避免低温导致电子设备900异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备900对电池942的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器980J,也称“触控面板”。触摸传感器980J可以设置于显示屏994,由触摸传感器980J与显示屏994组成触摸屏,也称“触控屏”。触摸传感器980J用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏994提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器980J也可以设置于电子设备900的表面,与显示屏994所处的位置不同。
骨传导传感器980L可以获取振动信号。在一些实施例中,骨传导传感器980L可以获取人体声部振动骨块的振动信号。骨传导传感器980L也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器980L也可以设置于耳机中,结合成骨传导耳机。音频模块970可以基于骨传导传感器980L获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于骨传导传感器980L获取的血压跳动信号解析心率信息,实现心率检测功能。
按键990包括开机键、音量键等。按键990可以是机械按键。也可以是触摸式按键。电子设备900可以接收按键输入,产生与电子设备900的用户设置以及功能控制有关的键信号输入。
马达991可以产生振动提示。马达991可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照、音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏994不同区域的触摸操作,马达991也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒、接收信息、闹钟、游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器992可以是指示灯,可以用于指示充电状态、电量变化,也可以用于指示消息、未接来电、通知等。
SIM卡接口995用于连接SIM卡。SIM卡可以通过插入SIM卡接口995,或从SIM卡接口995拔出,实现和电子设备900的接触和分离。电子设备900可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口995可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口995可以同时插入多张卡。多张卡的类型可以相同,也可以不同。SIM卡接口995也可以兼容不同类型的SIM卡。SIM卡接口995也可以兼容外部存储卡。电子设备900通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备900采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备900中,不能和电子设备900分离。
电子设备900可以为移动终端,也可以为非移动终端。示例性的,电子设备900可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digitalassistant,PDA)、无线耳机、无线手环、无线智能眼镜、无线手表、增强现实(augmentedreality,AR)/虚拟现实(virtual reality,VR)设备、台式计算机、智能家电(例如电视、音箱、冰箱、空气净化器、空调、电饭煲)等。其中,电子设备900也可以被统称为物联网(Internet of Things,IoT)设备。本申请实施例对电子设备900的设备类型不予具体限定。
应理解,图16所示的电子设备900可对应于图12、图13、图14和图15所示的基于语义信息的图像处理装置800。
其中,图16所示的电子设备900中的处理器910可以对应于图12中的基于语义信息的图像处理装置800中的图像特征提取单元810、图像特征融合单元820以及图像输出830。
其中,图16所示的电子设备900中的处理器910可以对应于图13、图14和图15中的基于语义信息的图像处理装置800中的图像语义分割单元840、图像特征提取单元810、图像特征融合单元820以及图像输出830。
其中,图16所示的电子设备900中的摄像头993可以对应于图14和图15中的基于语义信息的图像处理装置800中的图像采集单元850。
其中,图16所示的电子设备900中的显示屏994可以对应于图15中的基于语义信息的图像处理装置800中的图像显示单元860。
在实际实现时,在电子设备900运行时,处理器910执行存储器921中的计算机执行指令以通过电子设备900执行上述方法的操作步骤。
可选地,在一些实施例中,本申请提供一种芯片,该芯片与存储器耦合,该芯片用于读取并执行存储器中存储的计算机程序或指令,以执行上述各实施例中的方法。
可选地,在一些实施例中,本申请提供一种电子设备,该电子设备包括芯片,该芯片用于读取并执行存储器存储的计算机程序或指令,使得各实施例中的方法被执行。
可选地,在一些实施例中,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,当计算机程序代码在计算机上运行时,使得计算机执行上述各实施例中的方法。
可选地,在一些实施例中,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行上述各实施例中的方法。
在本申请实施例中,电子设备包括硬件层、运行在硬件层之上的操作系统层,以及运行在操作系统层上的应用层。其中,硬件层可以包括中央处理器(central processingunit,CPU)、内存管理单元(memory management unit,MMU)和内存(也称为主存)等硬件。操作系统层的操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统,例如,Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。应用层可以包含浏览器、通讯录、文字处理软件、即时通信软件等应用。
本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构进行特别限定,只要能够通过运行记录有本申请实施例提供的方法的代码的程序,以根据本申请实施例提供的方法进行通信即可。例如,本申请实施例提供的方法的执行主体可以是电子设备,或者,是电子设备中能够调用程序并执行程序的功能模块。
本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本文中使用的术语“制品”可以涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如,计算机可读介质可以包括但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(compact disc,CD)、数字通用盘(digital versatile disc,DVD)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(erasable programmableread-only memory,EPROM)、卡、棒或钥匙驱动器等)。
本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于:无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
应理解,本申请实施例中提及的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM)。例如,RAM可以用作外部高速缓存。作为示例而非限定,RAM可以包括如下多种形式:静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)可以集成在处理器中。
还需要说明的是,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的保护范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。此外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上,或者说对现有技术做出贡献的部分,或者该技术方案的部分,可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,该计算机软件产品包括若干指令,该指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。前述的存储介质可以包括但不限于:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种基于语义信息的图像处理方法,其特征在于,包括:
基于待处理图像的语义标签图,获取第一特征数据和第二特征数据;其中,所述语义标签图与所述待处理图像对应,所述语义标签图中采用不同的语义标签标识所述待处理图像中的不同语义区域;所述第一特征数据包括第一特征强度的语义信息,所述第二特征数据包括第二特征强度的语义信息,所述第一特征强度和所述第二特征强度不同;
基于所述第一特征数据、所述第二特征数据和第一特征图,获得基于不同语义信息的特征图;其中,所述第一特征图用于标识所述待处理图像的图像基本特征;
对所述基于不同语义信息的特征图和第二特征图进行处理,得到目标图像;其中,所述第二特征图用于标识所述待处理图像的语义分割特征。
2.根据权利要求1所述的方法,其特征在于,所述第一特征图是将所述待处理图像输入二维卷积网络后得到的特征映射矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述第二特征图是将所述待处理图像输入U-Net神经网络后得到的特征映射矩阵。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述第一特征数据、所述第二特征数据和第一特征图,获得基于不同语义信息的特征图,包括:
将所述第二特征数据和所述待处理图像的第一特征图之间的点乘结果,与所述第一特征数据相加,得到所述基于不同语义信息的特征图。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于待处理图像的语义标签图,获取第一特征数据和第二特征数据,包括:
采用第一权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第一特征数据;
采用第二权重矩阵对所述待处理图像的语义标签图进行卷积运算,得到所述第二特征数据。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第二特征强度大于所述第一特征强度,所述第二特征强度的语义信息对应所述待处理图像中的目标特征。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对所述基于不同语义信息的特征图和第二特征图进行处理,得到目标图像,包括:
将所述基于不同语义信息的特征图和所述第二特征图进行融合,获得目标特征图;
对所述目标特征图进行二维卷积运算,得到所述目标图像。
8.根据权利要求7所述的方法,其特征在于,所述将所述基于不同语义信息的特征图和所述第二特征图进行融合,获得目标特征图,包括:
将所述基于不同语义信息的特征图与所述第二特征图进行逐像素求和运算,得到所述目标特征图。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
对所述待处理图像进行二维卷积运算,得到中间特征图;
将所述中间特征图输入所述U-Net神经网络,输出得到所述第二特征图。
10.根据权利要求9所述的方法,其特征在于,所述将所述中间特征图输入所述U-Net神经网络,输出得到所述第二特征图,包括:
将所述中间特征图输入所述U-Net神经网络;
通过所述U-Net神经网络,对所述中间特征图依次进行N次下采样处理和N次上采样处理;其中,在每次上采样处理得到的特征图与对应等级的下采样处理得到的特征图进行特征融合之后,再基于特征融合得到的特征图进行下一次的上采样处理;
当执行完第N次上采样处理之后,得到所述第二特征图。
11.根据权利要求1至10中任一项所述的方法,其特征在于,在所述基于待处理图像的语义标签图,获取第一特征数据和第二特征数据之前,所述方法还包括:
将所述待处理图像输入语义分割模型;
通过所述语义分割模型对所述待处理图像进行语义分割,得到所述语义标签图。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述方法还包括:
通过电子设备的摄像头连续采集多帧图像;
将所述多帧图像进行图像配准,得到所述待处理图像。
13.根据权利要求1至12中任一项所述的方法,其特征在于,在所述对所述基于不同语义信息的特征图和第二特征图进行处理,得到目标图像之后,所述方法还包括:
通过电子设备的显示屏显示所述目标图像。
14.一种电子设备,其特征在于,包括处理器,所述处理器与存储器耦合,所述处理器用于执行所述存储器中存储的计算机程序或指令,以使得所述电子设备实现如权利要求1至13中任一项所述的方法。
15.一种芯片系统,其特征在于,所述芯片系统与存储器耦合,所述芯片系统用于读取并执行所述存储器中存储的计算机程序,以实现如权利要求1至13中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至13中任一项所述的方法。
17.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至13中任一项所述的方法。
CN202210121272.1A 2021-11-30 2022-02-09 基于语义信息的图像处理方法及电子设备 Pending CN116206100A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021114423711 2021-11-30
CN202111442371 2021-11-30

Publications (1)

Publication Number Publication Date
CN116206100A true CN116206100A (zh) 2023-06-02

Family

ID=86517967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210121272.1A Pending CN116206100A (zh) 2021-11-30 2022-02-09 基于语义信息的图像处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN116206100A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011183A (zh) * 2023-08-15 2023-11-07 上海为旌科技有限公司 一种暗场景图像降噪方法及系统
CN117132600A (zh) * 2023-10-26 2023-11-28 广东岚瑞新材料科技集团有限公司 基于图像的注塑制品质量检测系统及其方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011183A (zh) * 2023-08-15 2023-11-07 上海为旌科技有限公司 一种暗场景图像降噪方法及系统
CN117132600A (zh) * 2023-10-26 2023-11-28 广东岚瑞新材料科技集团有限公司 基于图像的注塑制品质量检测系统及其方法
CN117132600B (zh) * 2023-10-26 2024-04-16 广东岚瑞新材料科技集团有限公司 基于图像的注塑制品质量检测系统及其方法

Similar Documents

Publication Publication Date Title
CN113132620B (zh) 一种图像拍摄方法及相关装置
CN111179282B (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN105874776B (zh) 图像处理设备和方法
WO2021078001A1 (zh) 一种图像增强方法及装置
CN114119758B (zh) 获取车辆位姿的方法、电子设备和计算机可读存储介质
CN113973173B (zh) 图像合成方法和电子设备
CN111103922B (zh) 摄像头、电子设备和身份验证方法
CN113170037B (zh) 一种拍摄长曝光图像的方法和电子设备
CN114140365B (zh) 基于事件帧的特征点匹配方法及电子设备
CN110138999B (zh) 一种用于移动终端的证件扫描方法及装置
CN113542580B (zh) 去除眼镜光斑的方法、装置及电子设备
CN116206100A (zh) 基于语义信息的图像处理方法及电子设备
WO2021077911A1 (zh) 图像泛光处理方法及装置、存储介质
US20240153209A1 (en) Object Reconstruction Method and Related Device
CN114866860B (zh) 一种播放视频的方法及电子设备
US20240056683A1 (en) Focusing Method and Electronic Device
US20230005277A1 (en) Pose determining method and related device
CN112541861B (zh) 图像处理方法、装置、设备及计算机存储介质
CN115686182B (zh) 增强现实视频的处理方法与电子设备
CN115150542B (zh) 一种视频防抖方法及相关设备
CN113538226A (zh) 图像纹理增强方法、装置、设备及计算机可读存储介质
CN115880198B (zh) 图像处理方法和装置
CN117499797B (zh) 图像处理方法及相关设备
CN115802144B (zh) 视频拍摄方法及相关设备
CN116193275B (zh) 视频处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination