CN113744141B - 图像的增强方法、装置和自动驾驶的控制方法、装置 - Google Patents

图像的增强方法、装置和自动驾驶的控制方法、装置 Download PDF

Info

Publication number
CN113744141B
CN113744141B CN202011306014.8A CN202011306014A CN113744141B CN 113744141 B CN113744141 B CN 113744141B CN 202011306014 A CN202011306014 A CN 202011306014A CN 113744141 B CN113744141 B CN 113744141B
Authority
CN
China
Prior art keywords
image
processing module
enhanced
enhancement
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011306014.8A
Other languages
English (en)
Other versions
CN113744141A (zh
Inventor
夏寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Qianshi Technology Co Ltd
Original Assignee
Beijing Jingdong Qianshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Qianshi Technology Co Ltd filed Critical Beijing Jingdong Qianshi Technology Co Ltd
Priority to CN202011306014.8A priority Critical patent/CN113744141B/zh
Publication of CN113744141A publication Critical patent/CN113744141A/zh
Application granted granted Critical
Publication of CN113744141B publication Critical patent/CN113744141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本公开涉及一种图像的增强方法、装置和自动驾驶的控制方法、装置,涉及计算机技术领域。该增强方法包括:将待增强图像输入机器学习模型的第一处理模块,对待增强图像的局部的图像属性进行增强处理;将待增强图像输入机器学习模型的第二处理模块,对待增强图像的全局的图像属性进行增强处理;将待增强图像输入机器学习模型的第三处理模块,对待增强图像中目标物体的语义信息进行增强处理;根据第一处理模块、第二处理模块和第三处理模块的处理结果,确定待增强图像的增强结果。

Description

图像的增强方法、装置和自动驾驶的控制方法、装置
技术领域
本公开涉及计算机技术领域,特别涉及一种图像的增强方法、图像的增强装置、图像的目标识别方法、图像的目标识别装置、自动驾驶的控制方法、自动驾驶的控制装置、自动驾驶的控制方法和非易失性计算机可读存储介质。
背景技术
图像增强技术通过增强图像中的有用信息,可以改善图像的清晰度、强调感兴趣的特征。这样可以扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,从而改善图像质量、丰富信息量、加强图像判读和识别效果,以满足图像分析需要。
在相关技术中,根据大量实验和人工经验确定用于图像增强处理的图像信号处理参数。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:过分依赖于人工经验,使得图像增强处理对环境的适应性差,导致图像增强处理的效果差。
鉴于此,本公开提出了一种图像的增强技术方案,能够提高图像增强处理的效果。
根据本公开的一些实施例,提供了一种图像的增强方法,包括:将待增强图像输入机器学习模型的第一处理模块,对待增强图像的局部的图像属性进行增强处理;将待增强图像输入机器学习模型的第二处理模块,对待增强图像的全局的图像属性进行增强处理;将待增强图像输入机器学习模型的第三处理模块,对待增强图像中目标物体的语义信息进行增强处理;根据第一处理模块、第二处理模块和第三处理模块的处理结果,确定待增强图像的增强结果。
在一些实施例中,第二处理模块包括第一卷积处理模块和第二卷积处理模块,第一卷积处理模块为通过预设方式配置参数的滤波器,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,将待增强图像输入机器学习模型的第二处理模块,对待增强图像的全局的图像属性进行增强处理包括:将待增强图像输入多个第一卷积处理模块,得到多个第一卷积处理结果;将多个第一卷积处理结果输入第二处理模块的第二卷积处理模块,融合多个第一卷积处理结果,以对待增强图像的全局的图像属性进行增强处理。
在一些实施例中,将待增强图像输入机器学习模型的第三处理模块,对待增强图像中目标物体的语义信息进行增强处理包括:利用第三处理模块的下采样卷积处理模块,确定下采样卷积结果;将下采样卷积结果输入第三处理模块的上采样卷积处理模块,对待增强图像中目标物体的语义信息进行增强处理,上采样卷积处理模块能够保证语义信息的处理结果的空间分辨率与待增强图像的空间分辨率相同。
在一些实施例中,利用第三处理模块的下采样卷积处理模块,确定下采样卷积结果包括:将待增强图像输入根据空洞卷积算法设置的第一下采样卷积处理模块,确定空洞卷积处理结果;将空洞卷积处理结果输入第二下采样卷积处理模块,确定下采样卷积结果。
在一些实施例中,将待增强图像输入机器学习模型的第一处理模块,对待增强图像的局部的图像属性进行增强处理包括:将待增强图像输入第一处理模块的多个第二卷积处理模块,对待增强图像的局部的图像属性进行增强处理,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,待增强图像为RAW(未经加工)图像,RAW图像包括红通道、蓝通道、第一绿通道和第二绿通道,增强结果为RGB(Red Green Blue,红绿蓝)图像。RGB图像具有与RAW图像相同的空间分辨率。
在一些实施例中,根据第一处理模块、第二处理模块和第三处理模块的处理结果,确定待增强图像的增强结果包括:将第一处理模块、第二处理模块和第三处理模块的处理结果在通道维叠加,确定待增强图像的增强结果。
在一些实施例中,机器学习模型通过下面中的至少一种方式训练:利用MSE(MeanSquared Error,均方误差损失函数)损失函数训练第一处理模块;利用SSIM(StructuralSIMilarity index,结构相似性指数)损失函数训练第二处理模块;利用BCE(Binary CrossEntropy,二分类交叉熵)损失函数训练第二处理模块。
在一些实施例中,机器学习模型通过下面方式训练:根据标注的图像增强结果,完成第三处理模块的训练;根据第三处理模块的训练结果和标注的图像增强结果,完成第二处理模块的训练;根据第二处理模块的训练结果、第三处理模块的训练结果和标注的图像增强结果,完成第一处理模块的训练。
在一些实施例中,待增强图像为自动驾驶系统获取的图像,目标物体为自动驾驶系统关注的目标物体,增强结果用于自动驾驶控制。
根据本公开的另一些实施例,提供一种图像的目标识别方法,包括:利用上述任一个实施例中的图像的增强方法,确定待处理图像的增强结果;根据增强结果进行目标识别处理,确定待处理图像中的目标物体。
根据本公开的又一些实施例,提供一种自动驾驶的控制方法,包括:获取自动驾驶场景中的待处理图像;上述任一个实施例中的图像的目标识别方法,对待处理图像进行目标识别;根据目标识别结果,进行自动驾驶控制。
根据本公开的再一些实施例,提供一种图像的增强装置,包括:局部增强单元,用于将待增强图像输入机器学习模型的第一处理模块,对待增强图像的局部的图像属性进行增强处理;全局增强单元,用于将待增强图像输入机器学习模型的第二处理模块,对待增强图像的全局的图像属性进行增强处理;语义增强单元,用于将待增强图像输入机器学习模型的第三处理模块,对待增强图像中目标物体的语义信息进行增强处理;确定单元,用于根据第一处理模块、第二处理模块和第三处理模块的处理结果,确定待增强图像的增强结果。
在一些实施例中,第二处理模块包括第一卷积处理模块和第二卷积处理模块,第一卷积处理模块为通过预设方式配置参数的滤波器,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,全局增强单元将待增强图像输入多个第一卷积处理模块,得到多个第一卷积处理结果;将多个第一卷积处理结果输入第二处理模块的第二卷积处理模块,融合多个第一卷积处理结果,以对待增强图像的全局的图像属性进行增强处理。
在一些实施例中,语义增强单元利用第三处理模块的下采样卷积处理模块,确定下采样卷积结果;将下采样卷积结果输入第三处理模块的上采样卷积处理模块,对待增强图像中目标物体的语义信息进行增强处理,上采样卷积处理模块能够保证语义信息的处理结果的空间分辨率与待增强图像的空间分辨率相同。
在一些实施例中,语义增强单元将待增强图像输入根据空洞卷积算法设置的第一下采样卷积处理模块,确定空洞卷积处理结果;将空洞卷积处理结果输入第二下采样卷积处理模块,确定下采样卷积结果。
在一些实施例中,局部增强单元将待增强图像输入第一处理模块的多个第二卷积处理模块,对待增强图像的局部的图像属性进行增强处理,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,待增强图像为RAW图像,RAW图像包括红通道、蓝通道、第一绿通道和第二绿通道,增强结果为RGB图像。RGB图像具有与RAW图像相同的空间分辨率。。
在一些实施例中,确定单元将第一处理模块、第二处理模块和第三处理模块的处理结果在通道维叠加,确定待增强图像的增强结果。
在一些实施例中,机器学习模型通过下面中的至少一种方式训练:利用MSE损失函数训练第一处理模块;利用SSIM损失函数训练第二处理模块;利用BCE损失函数训练第二处理模块。
在一些实施例中,机器学习模型通过下面方式训练:根据标注的图像增强结果,完成第三处理模块的训练;根据第三处理模块的训练结果和标注的图像增强结果,完成第二处理模块的训练;根据第二处理模块的训练结果、第三处理模块的训练结果和标注的图像增强结果,完成第一处理模块的训练。
在一些实施例中,待增强图像为自动驾驶系统获取的图像,目标物体为自动驾驶系统关注的目标物体,增强结果用于自动驾驶控制。
根据本公开的再一些实施例,提供一种图像的目标识别装置,包括:增强单元,用于利用上述任一个实施例中的图像的增强方法,确定待处理图像的增强结果;识别单元,用于根据增强结果进行目标识别处理,确定待处理图像中的目标物体。
根据本公开的再一些实施例,提供一种自动驾驶的控制装置,包括:图像获取装置,用于获取自动驾驶场景中的图像作为待增强图像;目标识别装置,用于利用上述任一个实施例中的图像的目标识别方法,对待处理图像进行目标识别;控制装置,用于根据目标识别结果,进行自动驾驶控制。
根据本公开的又一些实施例,提供一种电子设备,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的图像的增强方法、图像的目标识别方法或者自动驾驶的控制方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的图像的增强方法、图像的目标识别方法或者自动驾驶的控制方法。
在上述实施例中,为机器学习模型设置多层处理模块结构,分别从图像的局部、全局以及目标物体的语义信息进行增强处理,并根据各处理结果确定综合增强结果。这样,不必过分依赖人工经验即可从多个方面对图像进行增强处理,提高了增强处理对环境的适应性,从而提高了图像增强处理的效果。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开:
图1示出本公开的图像的增强方法的一些实施例的流程图;
图2示出本公开的图像的增强方法的一些实施例的示意图;
图3示出本公开的图像的目标识别方法的一些实施例的流程图;
图4示出本公开的自动驾驶的控制方法的一些实施例的流程图;
图5示出本公开的自动驾驶的控制方法的一些实施例的示意图;
图6示出本公开的图像的增强装置的一些实施例的框图;
图7示出本公开的图像的识别装置的一些实施例的框图;
图8示出本公开的自动驾驶的控制装置的一些实施例的框图;
图9示出本公开的电子设备的一些实施例的框图;
图10示出本公开的电子设备的另一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
针对上述技术问题,本公开提出了一种分层卷积神经网络结构处理获取的未压缩的RAW(未经加工)图像。通过以数据驱动的、具有学习能力的滤波器对图像进行卷积处理,以获取图像增强结果。图像增强结果可以应用于各种语义理解任务场景(如定位和目标识别等)。例如,可以通过下面的实施例实现本公开的技术方案。
图1示出本公开的图像的增强方法的一些实施例的流程图。
如图1所示,增强方法包括:步骤110,进行局部图像属性增强;步骤120,进行全局图像属性增强;步骤130,进行语义信息增强;和步骤140,确定增强结果。
在步骤110中,将待增强图像输入机器学习模型的第一处理模块,对待增强图像的局部的图像属性进行增强处理。例如,第一处理模块包括多个全卷积神经网络模块。
在一些实施例中,待增强图像为RAW图像。RAW图像包括红通道、蓝通道、第一绿通道和第二绿通道共4个通道。增强结果为RGB图像。RGB图像具有与RAW图像相同的空间分辨率。
例如,可以对输入的RAW图像的颜色信息进行编码,并在空间上进行对齐处理;将红色、绿色、蓝色通道在第三维(通道维)连接为h×w×4的张量作为处理模块的输入,h、w分别为图像的高度和宽度。
与RGB等压缩图像相比,RAW图像是图像获取装置捕获的原始传感器数据,保留了丰富的信息。利用图像处理技术对RAW图像直接进行图像增强,并将RAW图像转换为压缩的RGB图像,可以在保留丰富信息的同时准确地反映真实的场景,从而提高了图像增强的效果。
在一些实施例中,可以利用MSE损失函数训练第一处理模块。例如,可以将专业摄像师拍摄的图片作为样本图像,计算第一处理模块处理结果的MSE损失函数。这样,以最小化处理结果与样本图像的均方误差为目标进行训练,以重建高质量图像。
在步骤120中,将待增强图像输入机器学习模型的第二处理模块,对待增强图像的全局的图像属性进行增强处理。
在一些实施例中,利用SSIM损失函数训练第二处理模块。例如,可以将专业摄像师拍摄的图片作为样本图像,计算第二处理模块处理结果的SSIM损失函数。这样,以最小化处理结果与样本图像的结构化相似性损失为目标进行训练,以重建高质量图像。
在步骤130中,将待增强图像输入机器学习模型的第三处理模块,对待增强图像中目标物体的语义信息进行增强处理。
在一些实施例中,利用BCE损失函数训练第二处理模块。根据每个像素所属的类别(目标、车辆、无类别等)计算BCE损失函数。例如,可以通过批处理归一化方法加快训练速度,并避免协方差偏移(covariant shift)。
在步骤140中,根据第一处理模块、第二处理模块和第三处理模块的处理结果,确定待增强图像的增强结果。
在一些实施例中,将第一处理模块、第二处理模块和第三处理模块的处理结果在通道维叠加,确定待增强图像的增强结果。例如,可以通过图2的实施例设置机器学习模型。
图2示出本公开的图像的增强方法的一些实施例的示意图。
如图2所示,机器学习模型的结构可以为包含相互连接的多层全卷积神经网络的“金字塔结构”。各层全卷积神经网络可以基于不同的空间分辨率处理图像。
在一些实施例中,可以根据处理能力、实现复杂性等确定“金字塔结构”的层数。例如,机器学习模型的结构可以包含3层网络:第一处理模块、第二处理模块、第三处理模块。每一层网络均包含基于全卷积神经网络的滤波器,可以为图像中的每个像素分配标签。
机器学习模型的输入是RAW图像(待增强图像),输出是具有与RAW图像相同空间分辨率的RGB图像(增强结果)。每个卷积处理模块的输出都是多维张量(如3维张量)。可以将第一处理模块、第二处理模块、第三处理模块的处理结果级联后输出,得到最终RGB图像。
第一处理模块、第二处理模块的处理过程保持图像的空间分辨率不变。第一处理模块包含多个具有学习能力的第二卷积处理模块,第二处理模块不但包含多个第二卷积处理模块,还包含多个预设参数的的卷积处理模块。
第三处理模块先利用下采样卷积处理模块降低图像的空间分辨率,然后利用上采样卷积处理模块将空间分辨率恢复到原始大小。
在一些实施例中,第一处理模块、第二处理模块、第三处理模块可以进行并行处理,以加快处理速度。
在一些实施例中,第一处理模块可以从局部增强图像属性。例如,图像属性可以包括颜色、纹理、色彩饱和度、亮度等。
例如,可以将待增强图像输入第一处理模块的多个第二卷积处理模块,对待增强图像的局部的图像属性进行增强处理。第二卷积处理模块为通过机器学习方式配置参数的滤波器。如第二卷积处理模块可以基于全卷积神经网络设置。
在一些实施例中,第二处理模块可以从全局增强图像属性。例如第二处理模块包括第一卷积处理模块和第二卷积处理模块。第一卷积处理模块为通过预设方式配置参数的滤波器,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,第一卷积处理模块可以为双边滤波器(bilateral filtering)、Gabor滤波器等预设参数的滤波器,即可以手动输入参数,无需进行学习。例如,可以在GPU(Graphics Processing Unit,图形处理器)、FPGA(Field Programmable Gate Array,现场可编程门阵列)等硬件中实现各第一卷积处理模块的处理,以提高处理速度。
例如,将待增强图像输入多个第一卷积处理模块,得到多个第一卷积处理结果;将多个第一卷积处理结果输入第二处理模块的第二卷积处理模块,融合多个第一卷积处理结果,以对待增强图像的全局的图像属性进行增强处理。
这样,可以通过多个第一卷积处理模块从不同方面增强图像,再利用至少一个第二卷积处理模块,通过机器学习方法将这些增强结果进行融合,从而提高图像增强的效果。
在一些实施例中,利用第三处理模块的下采样卷积处理模块,确定下采样卷积结果;将下采样卷积结果输入所述第三处理模块的上采样卷积处理模块,对待增强图像中目标物体的语义信息进行增强处理。上采样卷积处理模块能够保证语义信息的处理结果的空间分辨率与待增强图像的空间分辨率相同。
这样,下采样处理可以缩小空间分辨率,以扩大每个像素对应的感受野(field-of-view),使得处理结果能够表示更高级的语义信息。这就使得图像中的关注目标物体(如人、车辆等)的语义信息得到增强,从而提高图像增强效果。
例如,将待增强图像输入根据空洞卷积算法设置的第一下采样卷积处理模块,确定空洞卷积处理结果;将空洞卷积处理结果输入第二下采样卷积处理模块,确定下采样卷积结果。例如,可以使用的Leaky ReLu(Leaky Rectified Linear Unit,泄露线性整流函数)作为激活函数。
这样,使用空洞卷积算法对图像进行滤波,可以生成具有非局部感受野的特征图,突出了图像的语义信息。这使得人、车辆等目标物体与背景的边缘信息更清晰,提高了图像增强效果。
在一些实施例中,第一下采样卷积处理模块的处理结果可以发送给上采样卷积处理模块,使得空间细节能够直接传递到后续处理阶段。
在一些实施例中,可以按自上而下的顺序训练“金字塔结构”中各网络层。在完成了第三处理模块(即高级语义分割处理模型)的训练之后,固定第二处理模块中各第一卷积处理模块的参数,通过训练优化各第二卷积处理模块;最后训练第一处理模块。
例如,根据标注的图像增强结果,完成第三处理模块的训练;根据第三处理模块的训练结果和标注的图像增强结果,完成第二处理模块的训练;根据第二处理模块的训练结果、第三处理模块的训练结果和标注的图像增强结果,完成第一处理模块的训练。这样,可以提高训练的收敛速度,并得到更好的训练结果。
上述实施例中,可以融合局部图像细节和全局图像的理解信息,以帮助增强图像。这使得增强后的图像纹理丰富、边缘锐化、噪声被消除,从而增强了图像的细节。
在一些实施例中,待增强图像为自动驾驶系统获取的图像,目标物体为自动驾驶系统关注的目标物体,增强结果用于自动驾驶控制。
这样,可以在图像处理中整合语义信息,使得自动驾驶的关注目标物体(如汽车、行人等)从背景中更加突出的显现出来;同时使得不关注的物体(如天空、墙壁等)在背景中更平滑。这有助于减少虚假警报,从而提高目标识别的效果。例如,可以通过图3中的实施例进行目标识别。
图3示出本公开的图像的目标识别方法的一些实施例的流程图。
如图3所示,在步骤310中,利用上述任一个实施例中的图像的增强方法,确定待处理图像的增强结果。
在步骤320中,根据增强结果进行目标识别处理,确定待处理图像中的目标物体。
图4示出本公开的自动驾驶的控制方法的一些实施例的流程图。
如图4所示,在步骤410中,获取自动驾驶场景中的待处理图像。
在步骤420中,利用上述任一个实施例中的图像的目标识别方法,对待处理图像进行目标识别。
在步骤430中,根据目标识别结果,进行自动驾驶控制。
在一些实施例中,机器学习模型包含的采用“金字塔结构”连接的多层完全卷积神经网络,能够以不同的空间分辨率处理图像,从而实现从局部到全局的图像处理。“金字塔结构”中完全卷积神经网络的数量是根据处理能力和复杂性的平衡性确定的超参数。例如,“金字塔结构”可以选择3层,也可以推广到多于3层。
图5示出本公开的自动驾驶的控制方法的一些实施例的示意图。
如图5所示,机器学习模型的输入可以是Bayer RAW图像。获取图像的相机传感器可以具有3种颜色编码器:红色,绿色和蓝色。
可以根据Bayer模型对颜色信息进行编码,并在空间上进行对齐。例如,Bayer RAW图像具有1个红色、1个蓝色和2个绿色通道。
全卷积神经网络的输入可以为h×w×4的张量。例如,可以如图5所示,将红色,绿色,蓝色通道在第三维(通道维)连接起来。
全卷积神经网络由可学习的过滤器层组成,可以为图像中的每个像素分配标签。“金字塔结构”的机器学习模型的输入是Bayer RAW图像,输出是具有相同空间分辨率的RGB图像。
例如,全卷积神经网络的输出可以均为3维张量。第一处理模块和第二处理模块在处理过程中保持图像的空间分辨率不变。不同之处在于,第二处理模块还包含多个预设参数的的卷积处理模块。第三处理模块先降低空间分辨率,再将空间分辨率提高到原始图像的空间分辨率。
第一处理模块、第二处理模块和第三处理模块可以并行处理,以加快处理速度。在最终的卷积运算和输出RGB图像之前,级联第一处理模块、第二处理模块和第三处理模块第一处理模块、第二处理模块和第三处理模块的输出张量。
第一处理模块、第二处理模块的目标是增强图像上的颜色,纹理属性。手动设计滤波器和可学习的滤波器均可用于调整图像属性。
第二处理模块可以先利用多个预设参数的的卷积处理模块进行处理。在此处理过程中没有需要学习的参数,可以在GPU、FPGA等中实现。时间复杂度与图像分辨率和选择的滤波器数量相关。第一处理模块、第二处理模块以最小化均方误差和结构相似性损失进行训练,以重建高质量图像。
例如,第一处理模块可以利用如下MSE损失函数进行训练:
I为第一处理模块处理后的图像,K是高质量的样本图像(如可以为由专业摄影师处理的图像)。I(i,j)和K(i,j)分别为位于坐标(i,j)的图像I和K中的像素值。
例如,第二处理模块可以利用如下SSIM损失函数进行训练:
x、y分别为包含N个像素的第二处理模块处理后的图像和样本图像,μx、μy分别是图像x和y的像素平均强度值,C1、C2为可调节参数。x、y像素的方差为:
第三处理模块可以利用膨胀卷积(即空洞卷积)运算对图像进行滤波处理,以生成具有非局部感受野的特征图。例如,传统的卷积运算可以通过下面公式实现:
空洞卷积可以由以下公式实现:
可以看出,与和传统卷积相比空洞卷积处理的像素点为s+lt=p,即在卷积过程中跳过了一些像素点。当l大于2时,空洞卷积感受野大于传统卷积。
例如,第二处理模块可以使用Leaky ReLu作为激活函数。还可以通过批处理归一化加速训练,同时避免协方差偏移。
通过这种下采样处理,可以产生具有较小分辨率的特征图,用于表征全局图像场景的理解。空洞卷积的处理结果可以直接输入上采样处理模块,以便将空间细节直接传递到后续阶段。
例如,第三处理模块可以利用如下BCE损失函数进行训练:
p为像素点所属类型(如物体、车辆、无类别等)的标签,为第三处理模块判断的像素点所属类型,β是用于平衡正负样本的参数。
可以按自上而下的顺序进行训练“金字塔结构”中的各全卷积神经网络层,即按照第三处理模块、第二处理模块、第一处理模块的顺序训练。在训练了高级语义分割层之后,固定第二处理模块中无需学习的参数并优化第二处理模块中的可学习处理模块,最后训练第一处理模块。
图6示出本公开的图像的增强装置的一些实施例的框图。
如图6所示,图像的增强装置6包括局部增强单元61、全局增强单元62、语义增强单元63和确定单元64。
局部增强单元61用于将待增强图像输入机器学习模型的第一处理模块,对待增强图像的局部的图像属性进行增强处理。
在一些实施例中,局部增强单元61将待增强图像输入第一处理模块的多个第二卷积处理模块,对待增强图像的局部的图像属性进行增强处理,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,待增强图像为RAW图像,RAW图像包括红通道、蓝通道、第一绿通道和第二绿通道,增强结果为RGB图像。RGB图像具有与RAW图像相同的空间分辨率。
全局增强单元62将待增强图像输入机器学习模型的第二处理模块,对待增强图像的全局的图像属性进行增强处理。
在一些实施例中,第二处理模块包括第一卷积处理模块和第二卷积处理模块,第一卷积处理模块为通过预设方式配置参数的滤波器,第二卷积处理模块为通过机器学习方式配置参数的滤波器。
在一些实施例中,全局增强单元62将待增强图像输入多个第一卷积处理模块,得到多个第一卷积处理结果;将多个第一卷积处理结果输入第二处理模块的第二卷积处理模块,融合多个第一卷积处理结果,以对待增强图像的全局的图像属性进行增强处理。
语义增强单元63将待增强图像输入机器学习模型的第三处理模块,对待增强图像中目标物体的语义信息进行增强处理。
在一些实施例中,语义增强单元63利用第三处理模块的下采样卷积处理模块,确定下采样卷积结果;将下采样卷积结果输入第三处理模块的上采样卷积处理模块,对待增强图像中目标物体的语义信息进行增强处理,上采样卷积处理模块能够保证语义信息的处理结果的空间分辨率与待增强图像的空间分辨率相同。
在一些实施例中,语义增强单元63将待增强图像输入根据空洞卷积算法设置的第一下采样卷积处理模块,确定空洞卷积处理结果;将空洞卷积处理结果输入第二下采样卷积处理模块,确定下采样卷积结果。
确定单元64根据第一处理模块、第二处理模块和第三处理模块的处理结果,确定待增强图像的增强结果。
在一些实施例中,确定单元64将第一处理模块、第二处理模块和第三处理模块的处理结果在通道维叠加,确定待增强图像的增强结果。
在一些实施例中,机器学习模型通过下面中的至少一种方式训练:利用MSE损失函数训练第一处理模块;利用SSIM损失函数训练第二处理模块;利用BCE损失函数训练第二处理模块。
在一些实施例中,机器学习模型通过下面方式训练:根据标注的图像增强结果,完成第三处理模块的训练;根据第三处理模块的训练结果和标注的图像增强结果,完成第二处理模块的训练;根据第二处理模块的训练结果、第三处理模块的训练结果和标注的图像增强结果,完成第一处理模块的训练。
在一些实施例中,待增强图像为自动驾驶系统获取的图像,目标物体为自动驾驶系统关注的目标物体,增强结果用于自动驾驶控制。
图7示出本公开的图像的识别装置的一些实施例的框图。
如图7所示,图像的目标识别装置7包括:增强单元71,用于利用上述任一个实施例中的图像的增强方法,确定待处理图像的增强结果;识别单元72,用于根据增强结果进行目标识别处理,确定待处理图像中的目标物体。
图8示出本公开的自动驾驶的控制装置的一些实施例的框图。
如图8所示,自动驾驶的控制装置8包括:图像获取装置81,用于获取自动驾驶场景中的图像作为待增强图像;目标识别装置82,用于利用上述任一个实施例中的图像的目标识别方法,对待处理图像进行目标识别;控制装置83,用于根据目标识别结果,进行自动驾驶控制。
图9示出本公开的电子设备的一些实施例的框图。
如图9所示,该实施例的电子设备9包括:存储器91以及耦接至该存储器91的处理器92,处理器92被配置为基于存储在存储器91中的指令,执行本公开中任意一个实施例中的图像的增强方法、图像的目标识别方法或者自动驾驶的控制方法。
其中,存储器91例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。
图10示出本公开的电子设备的另一些实施例的框图。
如图10所示,该实施例的电子设备10包括:存储器1010以及耦接至该存储器1010的处理器1020,处理器1020被配置为基于存储在存储器1010中的指令,执行前述任意一个实施例中的图像的增强方法、图像的目标识别方法或者自动驾驶的控制方法。
存储器1010例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader以及其他程序等。
电子设备10还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030、1040、1050以及存储器1010和处理器1020之间例如可以通过总线1060连接。其中,输入输出接口1030为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口1050为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的图像的增强方法、图像的增强装置、图像的目标识别方法、图像的目标识别装置、自动驾驶的控制方法、自动驾驶的控制装置、自动驾驶的控制方法和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (17)

1.一种图像的增强方法,包括:
将待增强图像输入机器学习模型的第一处理模块,对所述待增强图像的局部的图像属性进行增强处理;
将所述待增强图像输入所述机器学习模型的第二处理模块,对所述待增强图像的全局的图像属性进行增强处理;
将所述待增强图像输入所述机器学习模型的第三处理模块,对所述待增强图像中目标物体的语义信息进行增强处理;
根据所述第一处理模块、所述第二处理模块和所述第三处理模块的处理结果,确定所述待增强图像的增强结果,所述增强结果为红绿蓝RGB图像,所述RGB图像具有与所述待增强图像相同的空间分辨率;
其中,所述机器学习模型通过下面方式训练:
根据标注的图像增强结果,完成所述第三处理模块的训练;
根据所述第三处理模块的训练结果和所述标注的图像增强结果,完成所述第二处理模块的训练;
根据所述第二处理模块的训练结果、所述第三处理模块的训练结果和所述标注的图像增强结果,完成所述第一处理模块的训练。
2.根据权利要求1所述的增强方法,其中,
所述第二处理模块包括第一卷积处理模块和第二卷积处理模块,所述第一卷积处理模块为通过预设方式配置参数的滤波器,所述第二卷积处理模块为通过机器学习方式配置参数的滤波器。
3.根据权利要求2所述的增强方法,其中,所述将所述待增强图像输入所述机器学习模型的第二处理模块,对所述待增强图像的全局的图像属性进行增强处理包括:
将所述待增强图像输入多个第一卷积处理模块,得到多个第一卷积处理结果;
将所述多个第一卷积处理结果输入所述第二处理模块的第二卷积处理模块,融合所述多个第一卷积处理结果,以对所述待增强图像的全局的图像属性进行增强处理。
4.根据权利要求1所述的增强方法,其中,所述将所述待增强图像输入所述机器学习模型的第三处理模块,对所述待增强图像中目标物体的语义信息进行增强处理包括:
利用所述第三处理模块的下采样卷积处理模块,确定下采样卷积结果;
将所述下采样卷积结果输入所述第三处理模块的上采样卷积处理模块,对所述待增强图像中目标物体的语义信息进行增强处理,所述上采样卷积处理模块能够保证语义信息的处理结果的空间分辨率与所述待增强图像的空间分辨率相同。
5.根据权利要求4所述的增强方法,其中,所述利用所述第三处理模块的下采样卷积处理模块,确定下采样卷积结果包括:
将所述待增强图像输入根据空洞卷积算法设置的第一下采样卷积处理模块,确定空洞卷积处理结果;
将所述空洞卷积处理结果输入第二下采样卷积处理模块,确定所述下采样卷积结果。
6.根据权利要求1所述的增强方法,其中,所述将待增强图像输入机器学习模型的第一处理模块,对所述待增强图像的局部的图像属性进行增强处理包括:
将所述待增强图像输入所述第一处理模块的多个第二卷积处理模块,对所述待增强图像的局部的图像属性进行增强处理,所述第二卷积处理模块为通过机器学习方式配置参数的滤波器。
7.根据权利要求1-6任一项所述的增强方法,其中,
所述待增强图像为未经加工图像,未经加工图像包括红通道、蓝通道、第一绿通道和第二绿通道。
8.根据权利要求1-6任一项所述的增强方法,其中,所述根据所述第一处理模块、所述第二处理模块和所述第三处理模块的处理结果,确定所述待增强图像的增强结果包括:
将所述第一处理模块、所述第二处理模块和所述第三处理模块的处理结果在通道维叠加,确定所述待增强图像的增强结果。
9.根据权利要求1-6任一项所述的增强方法,其中,所述机器学习模型通过下面中的至少一种方式训练:
利用均方误差MSE损失函数训练所述第一处理模块;
利用结构相似性指数SSIM损失函数训练所述第二处理模块;
利用二分类交叉熵BCE损失函数训练所述第二处理模块。
10.根据权利要求1-6任一项所述的增强方法,其中,
所述待增强图像为自动驾驶系统获取的图像,所述目标物体为所述自动驾驶系统关注的目标物体,所述增强结果用于自动驾驶控制。
11.一种图像的目标识别方法,包括:
利用权利要求1-10任一项所述的图像的增强方法,确定待处理图像的增强结果;
根据所述增强结果进行目标识别处理,确定所述待处理图像中的目标物体。
12.一种自动驾驶的控制方法,包括:
获取自动驾驶场景中的待处理图像;
利用权利要求11所述的图像的目标识别方法,对所述待处理图像进行目标识别;
根据目标识别结果,进行自动驾驶控制。
13.一种图像的增强装置,包括:
局部增强单元,用于将待增强图像输入机器学习模型的第一处理模块,对所述待增强图像的局部的图像属性进行增强处理;
全局增强单元,用于将所述待增强图像输入所述机器学习模型的第二处理模块,对所述待增强图像的全局的图像属性进行增强处理;
语义增强单元,用于将所述待增强图像输入所述机器学习模型的第三处理模块,对所述待增强图像中目标物体的语义信息进行增强处理;
确定单元,用于根据所述第一处理模块、所述第二处理模块和所述第三处理模块的处理结果,确定所述待增强图像的增强结果,所述增强结果为红绿蓝RGB图像,所述RGB图像具有与所述待增强图像相同的空间分辨率;
其中,所述机器学习模型通过下面方式训练:
根据标注的图像增强结果,完成所述第三处理模块的训练;
根据所述第三处理模块的训练结果和所述标注的图像增强结果,完成所述第二处理模块的训练;
根据所述第二处理模块的训练结果、所述第三处理模块的训练结果和所述标注的图像增强结果,完成所述第一处理模块的训练。
14.一种图像的目标识别装置,包括:
增强单元,用于利用权利要求1-10任一项所述的图像的增强方法,确定待处理图像的增强结果;
识别单元,用于根据所述增强结果进行目标识别处理,确定所述待处理图像中的目标物体。
15.一种自动驾驶的控制装置,包括:
图像获取装置,用于获取自动驾驶场景中的图像作为待增强图像;
目标识别装置,用于利用权利要求11所述的图像的目标识别方法,对所述待处理图像进行目标识别;
控制装置,用于根据目标识别结果,进行自动驾驶控制。
16.一种电子设备,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-10任一项所述的图像的增强方法、权利要求11所述的图像的目标识别方法或者权利要求12所述的自动驾驶的控制方法。
17.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-10任一项所述的图像的增强方法、权利要求11所述的图像的目标识别方法或者权利要求12所述的自动驾驶的控制方法。
CN202011306014.8A 2020-11-19 2020-11-19 图像的增强方法、装置和自动驾驶的控制方法、装置 Active CN113744141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011306014.8A CN113744141B (zh) 2020-11-19 2020-11-19 图像的增强方法、装置和自动驾驶的控制方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011306014.8A CN113744141B (zh) 2020-11-19 2020-11-19 图像的增强方法、装置和自动驾驶的控制方法、装置

Publications (2)

Publication Number Publication Date
CN113744141A CN113744141A (zh) 2021-12-03
CN113744141B true CN113744141B (zh) 2024-04-16

Family

ID=78728109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011306014.8A Active CN113744141B (zh) 2020-11-19 2020-11-19 图像的增强方法、装置和自动驾驶的控制方法、装置

Country Status (1)

Country Link
CN (1) CN113744141B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363942A (zh) * 2017-12-26 2018-08-03 新智数字科技有限公司 一种基于多特征融合的刀具识别方法、装置以及设备
CN109102483A (zh) * 2018-07-24 2018-12-28 厦门美图之家科技有限公司 图像增强模型训练方法、装置、电子设备及可读存储介质
CN109483554A (zh) * 2019-01-22 2019-03-19 清华大学 基于全局和局部视觉语义的机器人动态抓取方法及系统
WO2019232830A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN111210435A (zh) * 2019-12-24 2020-05-29 重庆邮电大学 一种基于局部和全局特征增强模块的图像语义分割方法
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及系统
WO2020168515A1 (zh) * 2019-02-21 2020-08-27 深圳市大疆创新科技有限公司 一种图像处理方法、装置、图像拍摄和处理系统及载体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363942A (zh) * 2017-12-26 2018-08-03 新智数字科技有限公司 一种基于多特征融合的刀具识别方法、装置以及设备
WO2019232830A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN109102483A (zh) * 2018-07-24 2018-12-28 厦门美图之家科技有限公司 图像增强模型训练方法、装置、电子设备及可读存储介质
CN109483554A (zh) * 2019-01-22 2019-03-19 清华大学 基于全局和局部视觉语义的机器人动态抓取方法及系统
WO2020168515A1 (zh) * 2019-02-21 2020-08-27 深圳市大疆创新科技有限公司 一种图像处理方法、装置、图像拍摄和处理系统及载体
CN111210435A (zh) * 2019-12-24 2020-05-29 重庆邮电大学 一种基于局部和全局特征增强模块的图像语义分割方法
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dou Jian ; Lu Jizhe ; Zhang Hailong ; Qie Shuang ; Ji Xiaoyue.Ghosting Elimination Method Based on Target Location Information.IEEE.2020,全文. *
基于深度学习的图像语义分割技术研究进展;梁新宇;罗晨;权冀川;肖铠鸿;高伟嘉;;计算机工程与应用(第02期);全文 *
机器学习在图像处理中的应用;周子焜;;电子制作(第18期);全文 *

Also Published As

Publication number Publication date
CN113744141A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN112233038B (zh) 基于多尺度融合及边缘增强的真实图像去噪方法
WO2021164731A1 (zh) 图像增强方法以及图像增强装置
EP4109392A1 (en) Image processing method and image processing device
US20180158177A1 (en) System for processing images
CN115442515A (zh) 图像处理方法和设备
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
CN112581379A (zh) 图像增强方法以及装置
CN112348747A (zh) 图像增强方法、装置及存储介质
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
CN111951195A (zh) 图像增强方法及装置
CN114627034A (zh) 一种图像增强方法、图像增强模型的训练方法及相关设备
CN113379609B (zh) 一种图像处理方法、存储介质及终端设备
CN115131256A (zh) 图像处理模型、图像处理模型的训练方法及装置
CN116681636A (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN113129236A (zh) 基于Retinex和卷积神经网络的单张低光照图像增强方法及系统
Zheng et al. Windowing decomposition convolutional neural network for image enhancement
CN111144374B (zh) 人脸表情识别方法及装置、存储介质和电子设备
CN113744141B (zh) 图像的增强方法、装置和自动驾驶的控制方法、装置
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
CN115471413A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN114698398A (zh) 图像处理方法、图像处理装置、电子设备及可读存储介质
CN116917954A (zh) 图像检测方法、装置和电子设备
CN114127799A (zh) 图像识别评价程序、图像识别评价方法、评价装置以及评价系统
CN113379611B (zh) 图像处理模型的生成方法、处理方法、存储介质及终端
JP7210380B2 (ja) 画像学習プログラム、画像学習方法、及び画像認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant